CN109241176A

CN109241176A - 一种基于网络环境下大数据的关联分析系统及方法

Info

Publication number: CN109241176A
Application number: CN201810749859.0A
Authority: CN
Inventors: 邢波; 赵杰; 王红升; 段文泽
Original assignee: BEIJING ESAFENT TECHNOLOGY DEVELOPMENT Co Ltd
Current assignee: BEIJING ESAFENT TECHNOLOGY DEVELOPMENT Co Ltd
Priority date: 2018-07-10
Filing date: 2018-07-10
Publication date: 2019-01-18

Abstract

本发明公开了一种基于网络环境下大数据的关联分析系统及方法，系统包括：第一服务器集群、第二服务器集群、第三服务器集群、缓存数据库集群和共享资源管理器集群。本发明所提供的系统及方法，通过分工明确的三个集群可以快速地对网络环境下大量的离散数据进行关联分析，当已知任何一个微小的信息，就可以关联出一张张无限关系网，根据这些关系网可以方便地为用户提供更加精准的服务，提高用户体验。

Description

一种基于网络环境下大数据的关联分析系统及方法

技术领域

本发明涉及大数据处理领域，具体涉及一种基于网络环境下大数据的关联分析系统及方法。

背景技术

由于近些年智能生活的普及，特别是互联网及通信技术的高速发展，使得网络环境下产生了庞大的、繁杂的各种信息数据，不管现在还是将来这些庞大的数据都将以线性增量增长，但是这些数据对于我们来说是杂乱无章的，如何快速将这些离散的数据进行有用的关联，并迅速对数据做出正确的处理及分析成为了现今环境下急需解决的问题。

发明内容

针对现有技术中存在的缺陷，本发明的目的在于提供一种基于网络环境下大数据的关联分析系统及方法，可以实现对网络中的庞大繁杂数据进行有效的分析处理，得到有用的关联数据。

为实现上述目的，本发明采用的技术方案如下：

一种基于网络环境下大数据的关联分析系统，包括：第一服务器集群、第二服务器集群、第三服务器集群、缓存数据库集群和共享资源管理器集群，

所述第一服务器集群用于读取网络环境下产生的数据，根据已有协议规则对读取到的数据进行过滤，将过滤后的数据推送到所述第二服务器集群；

所述第二服务器集群用于接收所述第一服务器集群推送的数据，根据自定义关联规则对每次接收到的数据进行整合并存储整合后的数据，将整合后的数据缓存到所述缓存数据库集群中；其中，所述已有协议规则和所述自定义关联规则均根据所述网络环境下产生的数据的结构特征制定而成；

所述第三服务器集群用于循环主动抓取所述第二服务器集群每次整合并存储的数据，将抓取到的数据与所述缓存数据库集群中的缓存数据进行数据合并、数据关联和数据统计，将处理后的数据缓存到所述缓存数据库集群中，直至超过预设缓存数据时间，还用于从所述缓存数据库集群中提取出关联的数据，并将所述关联的数据存入数据库中，还用于从查询接口接收查询指令，根据所述查询指令从所述数据库中获取查询结果；

所述共享资源管理器集群用于收集所述第一服务器集群、所述第二服务器集群、所述第三服务器集群和所述缓存数据库集群中每台服务器的运行状况和服务器状态，并根据所述运行状况和所述服务器状态对每台服务器进行分配。

进一步，如上所述的一种基于网络环境下大数据的关联分析系统，所述第一服务器集群读取网络环境下产生的数据的方式包括：在kafka中读取数据或直接读取PRP解析产生的数据文件中的数据。

进一步，如上所述的一种基于网络环境下大数据的关联分析系统，所述第二服务器集群以队列形式存储整合后的数据。

进一步，如上所述的一种基于网络环境下大数据的关联分析系统，所述第三服务器集群包括第一子服务器集群和第二子服务器集群，

所述第一子服务器集群用于循环主动抓取所述第二服务器集群每次整合并存储的数据；

所述第二子服务器集群用于将所述第一子服务器集群抓取到的数据与所述缓存数据库集群中的缓存数据进行数据合并、数据关联和数据统计，将处理后的数据缓存到所述缓存数据库集群中，直至超过预设缓存数据时间，对所述缓存数据库集群中的数据进行清洗，从清洗后的所述缓存数据库集群中提取出关联的数据，并将所述关联的数据存入数据库中，还用于从查询接口接收查询指令，根据所述查询指令从所述数据库中获取查询结果。

进一步，如上所述的一种基于网络环境下大数据的关联分析系统，所述第三服务器集群将所述关联的数据存入数据库中具体包括：

启动多线程，将每组关联的数据作为一个节点，每个线程负责将一个节点存入所述数据库，每个线程成功将节点入库后再次获取另一个节点存入所述数据库。

进一步，如上所述的一种基于网络环境下大数据的关联分析系统，所述缓存数据库集群包括BDB数据库，所述数据库为neo4j图形数据库。

进一步，如上所述的一种基于网络环境下大数据的关联分析系统，所述网络环境下产生的数据包括用户行为数据和用户基础信息数据，所述用户行为数据包括APP类行为数据、VOIP通信类行为数据和传真类行为数据，所述用户基础信息数据包括身份证号码、手机号码、姓名和照片。

进一步，如上所述的一种基于网络环境下大数据的关联分析系统，所述第三服务器集群进行数据关联时，根据操作所述用户行为数据对应的用户行为所使用的终端设备提取不同的数据进行关联。

本发明实施例中还提供了一种基于网络环境下大数据的关联分析方法，包括：

S1、第一服务器集群读取网络环境下产生的数据，根据已有协议规则对读取到的数据进行过滤，将过滤后的数据推送到第二服务器集群；

S2、所述第二服务器集群接收所述第一服务器集群推送的数据，根据自定义关联规则对每次接收到的数据进行整合并存储整合后的数据，将整合后的数据缓存到缓存数据库集群中；其中，所述已有协议规则和所述自定义关联规则均根据所述网络环境下产生的数据的结构特征制定而成；

S3、第三服务器集群循环主动抓取所述第二服务器集群每次整合并存储的数据，将抓取到的数据与所述缓存数据库集群中的缓存数据进行数据合并、数据关联和数据统计，将处理后的数据缓存到所述缓存数据库集群中，直至超过预设缓存数据时间；

S4、第三服务器集群从所述缓存数据库集群中提取出关联的数据，并将所述关联的数据存入数据库中；

S5、第三服务器集群从查询接口接收查询指令，根据所述查询指令从所述数据库中获取查询结果

进一步，如上所述的一种基于网络环境下大数据的关联分析方法，步骤S2中，所述第二服务器集群以队列形式存储整合后的数据；

步骤S4中，第三服务器集群将所述关联的数据存入数据库中具体包括：

本发明的有益效果在于：本发明所提供的系统及方法，通过分工明确的三个集群可以快速地对网络环境下大量的离散数据进行关联分析，当已知任何一个微小的信息，就可以关联出一张张无限关系网，根据这些关系网可以方便地为用户提供更加精准的服务，提高用户体验。

附图说明

图1为本发明实施例中提供的一种基于网络环境下大数据的关联分析系统的结构示意图；

图2为本发明实施例中提供的一种基于网络环境下大数据的关联分析系统的框架图；

图3为本发明实施例中提供的第三服务器集群数据流向示意图；

图4为本发明实施例中提供的一种基于网络环境下大数据的关联分析方法的流程示意图。

具体实施方式

下面结合说明书附图与具体实施方式对本发明做进一步的详细说明。

如图1所示，一种基于网络环境下大数据的关联分析系统，包括：第一服务器集群10、第二服务器集群20、第三服务器集群30、缓存数据库集群40和共享资源管理器集群50，

第一服务器集群10用于读取网络环境下产生的数据，根据已有协议规则对读取到的数据进行过滤，将过滤后的数据推送到第二服务器集群20；

第二服务器集群20用于接收第一服务器集群10推送的数据，根据自定义关联规则对每次接收到的数据进行整合并存储整合后的数据，将整合后的数据缓存到缓存数据库集群40中；其中，已有协议规则和自定义关联规则均根据网络环境下产生的数据的结构特征制定而成；

第三服务器集群30用于循环主动抓取第二服务器集群20每次整合并存储的数据，将抓取到的数据与缓存数据库集群40中的缓存数据进行数据合并、数据关联和数据统计，将处理后的数据缓存到缓存数据库集群40中，直至超过预设缓存数据时间，还用于从缓存数据库集群40中提取出关联的数据，并将关联的数据存入数据库中，还用于从查询接口接收查询指令，根据查询指令从数据库中获取查询结果；

共享资源管理器集群50用于收集第一服务器集群10、第二服务器集群20、第三服务器集群30和缓存数据库集群40中每台服务器的运行状况和服务器状态，并根据运行状况和服务器状态对每台服务器进行分配。

第一服务器集群10读取网络环境下产生的数据的方式包括：在kafka中读取数据或直接读取PRP解析产生的数据文件中的数据。

第二服务器集群20以队列形式存储整合后的数据。

第三服务器集群30包括第一子服务器集群和第二子服务器集群，

第一子服务器集群用于循环主动抓取第二服务器集群20每次整合并存储的数据；

第二子服务器集群用于将第一子服务器集群抓取到的数据与缓存数据库集群中的缓存数据进行数据合并、数据关联和数据统计，将处理后的数据缓存到缓存数据库集群中，直至超过预设缓存数据时间，对缓存数据库集群中的数据进行清洗，从清洗后的缓存数据库集群中提取出关联的数据，并将关联的数据存入数据库中，还用于从查询接口接收查询指令，根据查询指令从数据库中获取查询结果。

第三服务器集群30将关联的数据存入数据库中具体包括：

启动多线程，将每组关联的数据作为一个节点，每个线程负责将一个节点存入数据库，每个线程成功将节点入库后再次获取另一个节点存入数据库。

缓存数据库集群40包括BDB数据库，数据库为neo4j图形数据库。

网络环境下产生的数据包括用户行为数据和用户基础信息数据，用户行为数据包括APP类行为数据、VOIP通信类行为数据和传真类行为数据，用户基础信息数据包括身份证号码和手机号码。

第三服务器集群30进行数据关联时，根据操作用户行为数据对应的用户行为所使用的终端设备提取不同的数据进行关联。

如图2-3所示，首先，部署图1中的S1集群(第一服务器集群)、S2集群(第二服务器集群)和S3集群(第三服务器集群)，缓存数据库集群和共享资源管理器集群，共享资源管理器集群收集其他各集群中每台服务器的运行状况及服务器状态，从而有效的分配各集群服务器，保证系统正常运行，提高系统效率。部署完成后，

第一步，读取网络环境下产生的数据文件。

关联分析系统支持两种获取数据源方法，一种是在kafka中获取数据，一种是直接读取PRP解析产生的数据文件。S1集群读取到数据的内容后，由于读取到的数据为原始数据，原始数据有加密和非加密，如加密需要进行解密，然后根据原始数据的结构特征制定已有协议规则，根据已有协议规则对原始数据进行过滤得到有用数据，将过滤完的数据推送到下一处理过程。具体地，如果是直接读取PRP解析产生的数据文件，在PRP读取pcap文件时，根据偏移量过滤掉网络协议产生的一些标识数据，然后根据各不同的协议规则，过滤掉非此协议的数据。读取网络数据包之后，分析出链路层的数据帧，根据数据帧识别出上层应用，通过应用的特征及规范解析识别出各协议，再根据各协议的不同，通过偏移量提取出不同的有用数据。关于有用数据，例如，当我们登陆email邮箱时，有时会在邮箱的主页上弹出一些广告之类的窗口。这时我们根据email协议规则将这些广告过滤掉，将抽取如：email账号，收件箱，发件箱等信息。

第二步，整理已有数据并暂存数据。

S2集群接收S1集群推送来的数据，根据原始数据的结构特征制定自定义协议规则，按照自定义协议规则整合数据，整合数据包括识别分类，从分类后的原始数据中抽取组织重要的信息，识别重要信息中的关系，具体地，当一次网络行为操作的数据较大时，网络会将这一次的会话分成多个数据包进行传输，这些数据包中有一个会话ID，用来将这些数据包整合到一起。整合后的数据分结构化数据和非结构化数据。自定义协议规则是通过账号进行关联，这些账号包括手机号，APP的虚拟账号等。我们可以通过任一账号制定关联。然后将整合后的数据缓存到BDB数据库，使用队列存储数据，安全起见同一条数据会有多条备份存储，同时多条备份也可提供多个程序读取提高效率。

第三步，抽取合并统计最终数据。

S3集群循环主动抓取第二步存储的数据，根据重要信息中的关系将新数据与缓存的数据进行合并，然后根据需求进行关联或统计，并再次缓存到BDB数据库中，一直等到系统预设定缓存数据的时间，将数据推送到下一处理过程。须先进行数据合并，合并的目的是防止数据重复和数据的完整性。数据关联和数据统计是两独立的功能，例如：数据关联接口可以提供该数据的电话本，数据统计接口提供通讯记录。我们可以通过一个时间段和一个电话号，查询出这个电话号在这个时间段内都做了哪些操作，比如，打了几个电话，接了几个电话，收发几个email等。

具体地，图2中S3-1组件(第一子服务器集群)负责抓取S2集群存储的数据并将数据交给S3-2组件(第二子服务器集群)处理，S3-2组件根据逻辑需求来完成功能数据合并、数据关联、数据统计。S3-2组件在分析提取数据时会把数据存储到缓存中然后对数据进行比对清洗，最后提取出想要的数据并存入相应数据库中。

数据的关联：这里所关联的是用户行为数据。系统将这些行为数据分为几类，如收发电子邮件、社交软件之间的聊天等归并为APP类，如接打电话，收发短信归为VOIP通信类，如收发传真归并为传真类。这些行为动作有些是通过手机终端设备进行操作的，有些是通过非手机终端设备进行操作的(电脑或ipad)。系统根据终端设备的不同提取不同的数据进行关联，如手机终端设备会提取手机号码、IMSI、IMEI，并将这些数据与上面的行为数据进行关联。有了手机号码就可以通过基础库中的用户基础信息数据进行真实人员关联。

数据的统计：每次的行为数据都会根据操作时间和收发行为进行统计次数。

第四步，多线程将数据入库neo4j数据库。

将有关联的数据作为一个节点。每一个线程负责将一个节点入库，入库后再次获取另一个节点进行入库。这样做的目的是为了防止多线程同时修改同一节点导致线程等待，提高入库效率。

第五步，接口展示，提供多维条件查询关联关系。

通过查询接口接收查询指令，查询指令中包括人员姓名或身份证号码等信息，然后按人员姓名或身份证号码或手机号码可关联出该人员有几个手机号，通过手机号码关联出手机的操作系统、IMEI、IMSI、APP、浏览器等手机内的基本信息，通过手机号码关联出手机的通信记录(通话记录和短信记录)，根据手机内的APP关联出APP账号并通过APP账号关联出账号所属的操作(社交APP关联聊天通信记录，其它APP操作登陆浏览记录)，根据手机内的浏览器关联出浏览的历史。按虚拟账号关联出多个APP软件(因为条件是一个账号，并未指定哪个APP，系统会根据这个账号匹配多个APP，只要账号对应便可以关联出该APP软件)，通过APP关联出手机号码，通过手机号码关联出人员信息。

在第四步中所描述的节点就是一个以时间维度形成的关系网，这张网里面存储着一个人的所有信息包括：身份证号码，拥有几个手机号码，手机内的通信记录，手机内的APP操作，通过手机VOIP通信或者APP通信可以关联出通信双方的信息，进而可以无限的关联下去。在这张关系网中，只要有一个信息(如手机号码或虚拟账号等)，就可以关联出整个关系网。

当今社会无论是人还是事务都是生存在这个全球网络环境中，关联分析系统通过授权部署可以获取到网络环境的任何数据包，这些数据包组成了这个网络环境。当已知任何一个微小的信息，就可以通过关联分析系统，关联出一张张无限关系网。根据这些关系网可以方便地为用户提供更加精准的服务，提高用户体验。

该系统所基于的框架和数据库均可以替换，因网络流量的庞大，在选择框架和数据库时，需要考虑能够处理，超大的数据流量和高效的查询统计算法。

与图1中所示的方法相对应，如图4所示，本发明实施方式中还提供了一种基于网络环境下大数据的关联分析方法，包括：

S2、第二服务器集群接收第一服务器集群推送的数据，根据自定义关联规则对每次接收到的数据进行整合并存储整合后的数据，将整合后的数据缓存到缓存数据库集群中；其中，已有协议规则和自定义关联规则均根据网络环境下产生的数据的结构特征制定而成；

S3、第三服务器集群循环主动抓取第二服务器集群每次整合并存储的数据，将抓取到的数据与缓存数据库集群中的缓存数据进行数据合并、数据关联和数据统计，将处理后的数据缓存到缓存数据库集群中，直至超过预设缓存数据时间；

S4、第三服务器集群从缓存数据库集群中提取出关联的数据，并将关联的数据存入数据库中；

S5、第三服务器集群从查询接口接收查询指令，根据查询指令从数据库中获取查询结果

步骤S2中，第二服务器集群以队列形式存储整合后的数据；

步骤S4中，第三服务器集群将关联的数据存入数据库中具体包括：

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于网络环境下大数据的关联分析系统，其特征在于，包括：第一服务器集群、第二服务器集群、第三服务器集群、缓存数据库集群和共享资源管理器集群，

2.根据权利要求1所述的一种基于网络环境下大数据的关联分析系统，其特征在于，所述第一服务器集群读取网络环境下产生的数据的方式包括：在kafka中读取数据或直接读取PRP解析产生的数据文件中的数据。

3.根据权利要求1所述的一种基于网络环境下大数据的关联分析系统，其特征在于，所述第二服务器集群以队列形式存储整合后的数据。

4.根据权利要求1所述的一种基于网络环境下大数据的关联分析系统，其特征在于，所述第三服务器集群包括第一子服务器集群和第二子服务器集群，

5.根据权利要求4所述的一种基于网络环境下大数据的关联分析系统，其特征在于，所述第三服务器集群将所述关联的数据存入数据库中具体包括：

6.根据权利要求1-5任一项所述的一种基于网络环境下大数据的关联分析系统，其特征在于，所述缓存数据库集群包括BDB数据库，所述数据库为neo4j图形数据库。

7.根据权利要求1-5任一项所述的一种基于网络环境下大数据的关联分析系统，其特征在于，所述网络环境下产生的数据包括用户行为数据和用户基础信息数据，所述用户行为数据包括APP类行为数据、VO I P通信类行为数据和传真类行为数据，所述用户基础信息数据包括身份证号码、手机号码、姓名和照片。

8.根据权利要求7所述的一种基于网络环境下大数据的关联分析系统，其特征在于，所述第三服务器集群进行数据关联时，根据操作所述用户行为数据对应的用户行为所使用的终端设备提取不同的数据进行关联。

9.一种基于网络环境下大数据的关联分析方法，其特征在于，包括：

S5、第三服务器集群从查询接口接收查询指令，根据所述查询指令从所述数据库中获取查询结果。

10.根据权利要求9所述的一种基于网络环境下大数据的关联分析方法，其特征在于，步骤S2中，所述第二服务器集群以队列形式存储整合后的数据；