CN107294801B

CN107294801B - 基于海量实时互联网dpi数据的流式处理方法及系统

Info

Publication number: CN107294801B
Application number: CN201611258319.XA
Authority: CN
Inventors: 黄凯翔; 周蓉; 张国华; 许睿
Original assignee: Jiangsu One Hundred Information Service Co Ltd
Current assignee: Jiangsu Haobai Technology Co ltd
Priority date: 2016-12-30
Filing date: 2016-12-30
Publication date: 2020-03-31
Anticipated expiration: 2036-12-30
Also published as: CN107294801A

Abstract

本发明提供了一种基于海量实时互联网DPI数据的流式处理方法，并包括如下步骤：接口协议层接收海量实时互联网DPI数据，并对所述DPI数据进行采集清洗过滤；Kafka集群接收来自所述接口协议层的DPI数据，并存放在对应Topics的具体分区中；Storm集群间隔设定的时间去所述Kafka集群的Topics中去获取所述DPI数据，且对应的处理单元Topology对这些数据进行相应的预处理，并将预处理后的结果数据输出到所述Kafka集群对应的Topics中；Spark Streaming集群间隔设定的时间去所述Kafka集群的Topics中获取经所述Strom集群预处理后的DPI数据，对所述预处理后的DPI数据进行复制和分发，并将最终的处理结果以<key，value>的形式存入KV数据库集群的数据库中。本发明还提供一种基于海量实时互联网DPI数据的流式处理方法的系统。

Description

基于海量实时互联网DPI数据的流式处理方法及系统

技术领域

本发明属于大数据处理技术领域，具体地涉及一种基于海量实时互联网DPI数据的流式处理方法及系统。

背景技术

近年来，互联网发展速度飞速增长，其上的数据也在不断增长，尤其随着移动互联网的崛起，多元化的数据使得我们对各类数据的分析挖掘需求更为迫切。如何从这些海量的数据中深入挖掘并创造更大更有用的价值，是大数据行业一直以来的目标。

目前，主流的大数据处理方法都是基于Hadoop进行的，Hadoop的出现使得人们分析海量数据更为简单容易，其上的MapReduce编程模型可以并行的在各个节点上运行处理，而且Hadoop具备良好的可扩展性，节点可以动态的加入而不影响集群的正常运行。然而Hadoop同样存在着一些不足，它只能支持离线的数据处理，只有当数据写入到Hadoop的本地存储中，才可以进一步的进行计算分析，存在较大的时延，不适合处理实时海量数据，无法满足和响应对数据处理时延较为敏感的一些需求和业务，所以需要构建一种可以处理实时数据的流式处理方法来满足实时业务需求。

Kafka是分布式发布与订阅消息系统。它是一个分布式的，可划分的，冗余备份的，持久性的日志服务，主要用于处理活跃的流式数据。在大数据系统中，数据通常需要在其下的各个子系统中高效低时延的运转。为了能很好的统筹这些数据的分发，满足实时应用和离线应用，Kafka的出现正好解决了这一问题，其作为一条高速的数据总线，统筹数据的分发，降低了系统组网、编程的复杂度。

Storm是一个分布式、高容错的实时计算系统。Storm对于实时计算的意义相当于Hadoop对于批处理的意义。其提供了类似于Hadoop中Map与Reduce的计算框架Spout与Bolt。Storm非常适用于流数据的处理，可以用来处理源源不断的数据流，并且也可以将处理的结果保存到持久化介质中。

Spark Streaming是建立在Spark上的实时计算框架，用户可以通过调用其丰富的API接口进行基于内存的高速流式批处理。Spark Streaming使用基于内存的Spark作为执行引擎，具有高效性和容错性，并可以部署在100个以上的节点上，同时能达到秒级的延迟。它还为实现复杂的算法提供简单的API调用接口，方便用户的编程使用。

KV(Key-Value)数据库集群是一个具有高并发实时查询能力的非关系型数据库。该集群主要基于Nginx+Netty的框架，其中Nginx提供高并发的对外服务,Netty提供高性能和高可用性的网络应用框架，提升查询效率。集群采用基于Token(令牌)的用户身份验证机制，使用户在访问受保护的服务资源时仅需提供Token，而不需要提供用户名和密码。Token是包含用户名、有效期和某些专有信息并通过共享密钥加密的信息字符串。KV集群提供了安全高速低时延的结果数据接口。

将这几类大数据领域的实时处理组件进行设计、配置与组合，构建一种可以满足处理各类海量实时互联网DPI数据的方法和系统，可以最大程度的提高大数据挖掘的能力，创造更多更大的价值，从而更好的支撑上层大数据业务的发展。

发明内容

本发明的目的在于提供一种可以最大程度的提高大数据挖掘能力的基于海量实时互联网DPI数据的流式处理方法及系统。

本发明的技术方案如下：一种基于海量实时互联网DPI数据的流式处理方法，包括如下步骤：

一、接口协议层接收海量实时互联网DPI数据，并对所述DPI数据进行清洗过滤；

二、Kafka集群接收来自所述接口协议层的DPI数据，并存放在对应Topics的具体分区中；

三、Storm集群间隔设定的时间去所述Kafka集群的Topics中去获取所述DPI数据，且对应的处理单元Topology对这些数据进行相应的预处理，并将预处理后的结果数据输出到所述Kafka集群对应的Topics中；

四、Spark Streaming集群间隔设定的时间去所述Kafka集群的Topics中获取经所述Strom集群预处理后的DPI数据，对所述预处理后的DPI数据进行复制和分发，并将最终的处理结果以<key，value>的形式存入KV数据库集群的数据库中。

优选地，在步骤一中，对所述DPI数据进行清洗过滤步骤包括如下步骤：

过滤清洗所述DPI数据中的HTTP POST流量，只保留HTTP GET流量；

过滤清洗HTTP GET流量中非用户点击行为的流量；

在源数据中仅保留与业务相关联的字段，并清洗其他剩余的字段，且对保留的字段的进行重新排列；

对关键字段IMEI进行MD5不可逆加密，保障数据的隐私安全。

优选地，所述步骤二中，将过步骤一中滤清洗后的DPI数据分别传输到Kafka集群对应的Topic中，即每过滤清洗产生一条有用的DPI数据记录就传输到kafka对应队列中。

优选地，在步骤三中，所述预处理步骤包括：清洗AD/MDN字段为空的记录和清洗URL字段中带Password信息的记录。

优选地，在步骤四之后还包括步骤五，在所述步骤五中，业务平台系统通过所述KV数据库集群获取权限范围内的数据，并根据注册时使用的用户名与密码，以及随机生成的ApiKey获取访问令牌Token，使得后续的数据请求均带上所述令牌Token。

优选地，从步骤一到步骤五的整个处理流程所产生的时延在秒数量级。

一种根据上述基于海量实时互联网DPI数据的流式处理方法的系统，包括：接口协议层、Kafka集群、Storm集群、Spark Streaming集群和KV集群，

所述接口协议层，用于接收海量实时互联网，并对所述DPI数据进行清洗过滤；

所述Kafka集群，用于接收来自所述接口协议层的DPI数据，并存放在对应Topics的具体分区中；

所述Storm集群，用于间隔设定时间去所述Kafka集群的Topics中去获取所述DPI数据，且对应的处理单元Topology对这些数据进行相应的预处理，并将预处理后的结果数据输出到所述Kafka集群对应的Topics中；

所述Spark Streaming集群，间隔设定时间去所述Kafka集群的Topics中获取经所述Strom集群预处理后的DPI数据，对所述预处理后的DPI数据进行复制和分发，并将最终的处理结果以<key，value>的形式存入所述KV数据库集群的数据库中。

优选地，在所述KV数据库集群中，业务平台系统通过所述KV数据库集群获取权限范围内的数据，并根据注册时使用的用户名与密码，以及随机生成的ApiKey获取访问令牌Token，使得后续的数据请求均带上所述令牌Token。

本发明提供的技术方案具有如下有益效果：

1、目前Hadoop集群对于实时数据的处理只能将实时数据先按照一定时间段(一般为一个小时)进行采集落地，然后将这一时间段的数据进行集中的入库(加载到Hadoop集群)，以60分钟时间段为例，其产生的平均时延达到了30分钟，而本发明解决了Hadoop集群只能处理离线数据的不足，通过接口协议层、Kafka数据分发集群、Storm流式预处理集群、Spark Streaming流式分析集群以及KV数据库输出集群这一整个处理流程，可以达到秒这个数量级，极大的降低了数据处理的时延，从而实现实时分析与统计；

2、Hadoop集群采用文件形式的数据集中入库方式，会使用到磁盘的读写，很容易产生数据入库的速率瓶颈，导致数据拥塞，而本发明通过引入kafka数据分发集群，支持从接口协议层到Kafka消息队列的基于内存的数据传输方式，跳过了磁盘的读写，极大的提高了数据的吞吐率，从而可以接入更大的源数据流量，更好的支撑大数据的挖掘分析；

3、目前流式的大数据处理系统还是对源数据为文件的形式进行处理，数据采集后需存入HDFS文件系统才分发到各个Spark模块进行处理，数据的采集、落地及分发上需要耗费大量的时间，整个处理存在较大的时延，无法做到真正的实时处理；本发明的系统从数据源开始均为实时的流式数据，后续对数据的分片处理均为秒级的数量级，整个处理与输出过程仅需几秒的时间即可完成；

4、采用高速低时延的KV数据库集群，可以实现对结果数据进行实时高并发量的查询调用，而且可以实现对出口数据内容的安全审核与统计，保障出口位置的安全与管控。

附图说明

图1是本发明实施例提供的基于海量实时互联网DPI数据的流式处理方法的流程框图；

图2是图1所示基于海量实时互联网DPI数据的流式处理方法的基本流程示意图；

图3是根据图1所示基于海量实时互联网DPI数据的流式处理方法的系统的结构框图；

图4是图3所示系统的硬件网络拓扑图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

除非上下文另有特定清楚的描述，本发明中的元件和组件，数量既可以单个的形式存在，也可以多个的形式存在，本发明并不对此进行限定。本发明中的步骤虽然用标号进行了排列，但并不用于限定步骤的先后次序，除非明确说明了步骤的次序或者某步骤的执行需要其他步骤作为基础，否则步骤的相对次序是可以调整的。可以理解，本文中所使用的术语“和/或”涉及且涵盖相关联的所列项目中的一者或一者以上的任何和所有可能的组合。

请同时参阅图1和图2，本发明实施例提供的基于海量实时互联网DPI数据的流式处理方法100包括如下步骤：

S1、接口协议层接收海量实时互联网DPI数据，并对所述DPI数据进行清洗过滤。

具体地，在步骤S1中，对所述DPI数据进行清洗过滤步骤包括如下步骤：

过滤清洗所述DPI数据中的HTTP POST流量，只保留HTTP GET流量；

过滤清洗HTTP GET流量中非用户点击行为的流量；

对关键字段IMEI进行MD5不可逆加密，保障数据的隐私安全。

需要说明的是，所述DPI数据包括固网DPI数据和3G/4G DPI数据。

S2、Kafka集群接收来自所述接口协议层的DPI数据，并存放在对应Topics的具体分区中。

具体地，在步骤S2中，所述步骤二中，将过步骤一中滤清洗后的DPI数据分别传输到Kafka集群对应的Topic中，即每过滤清洗产生一条有用的DPI数据记录就传输到kafka对应队列中。

S3、Storm集群间隔设定的时间去所述Kafka集群的Topics中去获取所述DPI数据，且对应的处理单元Topology对这些数据进行相应的预处理，并将预处理后的结果数据输出到所述Kafka集群对应的Topics中。

具体地，在步骤S3中，所述预处理步骤包括：清洗AD/MDN字段为空的记录和清洗URL字段中带Password信息的记录。

S4、Spark Streaming集群间隔设定的时间去所述Kafka集群的Topics中获取经所述Strom集群预处理后的DPI数据，对所述预处理后的DPI数据进行复制和分发，并将最终的处理结果以<key，value>的形式存入KV数据库集群的数据库中。

S5、业务平台系统通过所述KV数据库集群获取权限范围内的数据，并根据注册时使用的用户名与密码，以及随机生成的ApiKey获取访问令牌Token，使得后续的数据请求均带上所述令牌Token。

具体地，在所述步骤S5中，所述令牌Token每12个小时会进行一次更新。

需要说明的是，在本实施例中，从步骤S1到步骤S5的整个处理流程所产生的时延在秒数量级。

请参阅图3，一种根据图1所示基于海量实时互联网DPI数据的流式处理方法的系统包括：接口协议层10、Kafka集群20、Storm集群30、Spark Streaming集群40和KV集群50。

其中，所述接口协议层10用于接收海量实时互联网DPI数据，并对所述DPI数据进行清洗过滤。

而且，对所述接口协议层10进行配置，包括数据源的注册和采集客户端的配置。其中数据源的注册主要对数据的元数据进行管理，包括设置分割符及定义每个数据字段，以便后续解析处理。采集客户端采用Flume框架来处理源数据采集任务，并自动采集数据，每个数据源对应一个采集客户端。

所述Kafka集群20用于接收来自所述接口协议层的DPI数据，并存放在对应Topics的具体分区中。

而且，对所述Kafka集群20进行配置包括：

1、配置Kafka的主题(Topic)，每种源数据对应一个主题，一个主题可以有多个订阅者(Consumer)。订阅者订阅该主题之后，需要提供订阅的模块信息、需求描述、订阅地址、订阅超时设置等信息，订阅完成后Kafka会自动复制一份数据给订阅者；

2、需要配置Kafka队列策略，主要依据集群的节点数以及每个节点的能力来配置，每一个订阅者对应的队列数也是可以配置的，根据数据源的大小以及实时性要求来配置，同时Kafka也会根据每个节点的运行情况，动态实时地分配队列到性能消耗最少的节点上；

3、配置每个Topic的分区(Partition)数量与大小以及备份的数量，主要依据源数据量的大小来配置。

所述Storm集群30用于间隔设定时间去所述Kafka集群20的Topics中去获取所述DPI数据，且对应的处理单元Topology对这些数据进行相应的预处理，并将预处理后的结果数据输出到所述Kafka集群20对应的Topics中。

而且，对所述Storm集群30进行配置包括：

1、配置Strom本身的调度引擎，依据集群的规模调试相关参数(总bolt的数量、bolt的cpu和内存、任务调度缓存、超时设置等)至一个最佳的调度参数；

2、针对不同的数据源开发对应的处理逻辑Topology，Topology的编写可以通过封装公共组件(条件过滤组件、正则表达式组件、字符串操作组件)或编写私有的处理逻辑，并加载至框架中，由框架进行调度和运行。

所述Spark Streaming集群40间隔设定的时间去所述Kafka集群20的Topics中获取经所述Strom集群30预处理后的DPI数据，对所述预处理后的DPI数据进行复制和分发，并将最终的处理结果以<key，value>的形式存入所述KV数据库集群的数据库中。

而且，对所述Spark Streaming集群40进行配置包括：

1、将Spark Streaming的资源及任务管理方式(本地模式、Standalone模式、Mesoes模式、yarn模式)配置为yarn任务管理模式；

2、基于上层业务需求编写具体的任务模块(目前支持的任务类型有scala、java和python，scala和java通过API的方式直接嵌入发布，python则通过脚本的方式直接发布)，任务发布完毕后会立即生效。

在所述KV数据库集群50中，业务平台系统通过所述KV数据库集50群获取权限范围内的数据，并根据注册时使用的用户名与密码，以及随机生成的ApiKey获取访问令牌Token，使得后续的数据请求均带上所述令牌Token。

而且，对所述KV数据库集群50进行配置，对于已经授权访问服务的用户，获取和使用Token的总体流程包括：

1、用户凭借KV数据库集群的账户向集群申请和获取Token；

2、携带已获取的Token来查询具有权限的数据标签。

即，基于所述KV数据库集群50的元数据管理，可以增加用户对元数据的权限信息，查询访问的时候首先进行用户识别，然后根据用户的元数据权限信息进行访问控制。并且对一些访问热度较高的数据或表通过缓存的方式可以提高查询响应效率。

可选择的，所述系统还包括Hadoop集群60，所述Hadoop集群60也可以从所述Kafka集群20的Topics中去获取所述DPI数据，并将处理后的数据发送至所述KV数据库集群50。

如图4所示，是本发明的硬件网络拓扑图，主要硬件网络的规模与配置如下：

硬件规模与配置：

1、接口协议层：20台采集清洗服务器，配置：2*8core CPU、128G内存、2*300G SAS硬盘+10*3T SATA硬盘，当前接口协议层可以处理的实时数据流量约为6000MB/s；

2、Kafka集群：10台Kafka节点，配置：2*8core CPU、256G内存、2*300G SAS硬盘+10*3T SATA硬盘，当前Kafka集群可以处理的实时数据流量约为200MB/s；

3、Storm集群：10台Storm节点，配置：2*8core CPU、256G内存、2*300G SAS硬盘+10*3T SATA硬盘，当前Storm集群可以处理的实时数据流量约为200MB/s；

4、Spark Streaming集群：33台Spark节点(其中两台为名称节点)，配置：2*8coreCPU、256G内存、2*300G SAS硬盘+10*3T SATA硬盘；

5、KV数据库集群：7台KV数据库节点，配置：2*8core CPU、512G内存、2*300G SAS硬盘+10*3T SATA硬盘；2台KV接口机，配置：2*8core CPU、128G内存、2*300G SAS硬盘+10*3TSATA硬盘，当前KV数据库集群的QPS(每秒查询数)可到达120000次/秒。

网络拓扑：源数据通过网络汇聚设备分发到接口协议层的20台采集清洗服务器中，经处理后通过两台核心交换机传输到Kafka集群，Strom集群与Spark Streaming集群均通过核心交换机从Kafka集群获取数据进行对应的处理，最后结果数据会输出到KV数据库集群，KV接口机连接公网，公网中的其他上层平台系统通过KV接口机获取对应的结果数据进行后续处理、分析与展示。

本发明的工作原理及工作过程如下：

将海量实时互联网DPI数据，此处以固网DPI数据(简写为GDPI数据)为例，目前固网DPI数据的原始接入量约为1.5Gbps-2.0Gbps,接入系统的接口协议层，对GDPI数据进行清洗过滤，主要包含两方面，一方面过滤清洗GDPI流量中的非用户点击行为的流量(主要包括图片流量、广告流量等)，另一方面对源数据中不需要的字段信息进行去除，一般保留ad、srcip、dstip、ts、url、ref、ua等字段信息，清洗后留存的数据量约为原始数据的10％左右，最后将清洗并统一字段后的GDPI数据传输到Kafka集群的对应的Topic中，此处TopicID设为T(G1)。

Kafka集群接收来自接口协议层的GDPI数据，并存放在TopicID为T(G1)的分片中并备份；

Storm集群中每隔5秒，从Kafka集群T(G1)的分片中获取GDPI数据，其对应的处理单元Topology会对这些数据进行相应的处理：1、清洗AD字段为空的记录；2、清洗URL字段中带Password信息的记录。处理完成后Storm集群将结果数据输出到Kafka集群的对应的Topic中，此处TopicID为T(G2)，。

Spark Streaming集群每隔5秒，从Kafka集群T(G2)的分片中获取经Strom预处理后的GDPI数据,并提供给多个上层数据分析应用。最终的处理结果通过Kafka集群以<key,value>的形式存入KV数据库集群的数据库中，上层的平台系统通过KV数据库集群接口调用获取最终的结果数据。

相较于现有技术，本发明实施例具有如下有益效果：

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于海量实时互联网DPI数据的流式处理方法，其特征在于:包括如下步骤：

一、接口协议层接收海量实时互联网DPI数据，并对所述DPI数据进行采集清洗过滤；

四、Spark Streaming集群间隔设定时间去所述Kafka集群的Topics中获取经所述Strom集群预处理后的DPI数据，对所述预处理后的DPI数据进行复制和分发，并将最终的处理结果以〈key,value〉的形式存入KV数据库集群的数据库中；

在步骤一中，对所述DPI数据进行清洗过滤包括如下步骤：

过滤清洗所述DPI数据中的HTTP POST流量，只保留HTTP GET流量；

过滤清洗HTTP GET流量中非用户点击行为的流量；

对关键字段IMEI进行MD5不可逆加密，保障数据的隐私安全；

在步骤三中，所述预处理步骤包括：清洗AD/MDN字段为空的记录和清洗URL字段中带Password信息的记录；

在步骤四之后还包括步骤五，在所述步骤五中，业务平台系统通过所述KV数据库集群获取权限范围内的数据，并根据注册时使用的用户名与密码，以及随机生成的ApiKey获取访问令牌Token,使得后续的数据请求均带上所述访问令牌Token。

2.根据权利要求1所述的基于海量实时互联网DPI数据的流式处理方法，其特征在于：所述步骤二中，将经过步骤一过滤清洗后的DPI数据分别传输到Kafka集群对应的Topic中，即每过滤清洗产生一条有用的DPI数据记录就传输到kafka对应队列中。

3.根据权利要求1所述的基于海量实时互联网DPI数据的流式处理方法，其特征在于:从步骤一到步骤五的整个处理流程所产生的时延在秒数量级。

4.一种根据权利要求1-3任一所述的基于海量实时互联网DPI数据的流式处理方法的系统，其特征在于：包括：接口协议层、Kafka集群、Storm集群、Spark Streaming集群、KV集群；

所述Storm集群，用于间隔设定的时间去所述Kafka集群的Topics中去获取所述DPI数据，且对应的处理单元Topology对这些数据进行相应的预处理，并将预处理后的结果数据输出到所述Kafka集群对应的Topics中；

所述Spark Streaming集群，间隔设定的时间去所述Kafka集群的Topics中获取经所述Strom集群预处理后的DPI数据，对所述预处理后的DPI数据进行复制和分发，并将最终的处理结果以〈key,value〉的形式存入所述KV数据库集群的数据库中；

在所述KV数据库集群中，业务平台系统通过所述KV数据库集群获取权限范围内的数据，并根据注册时使用的用户名与密码，以及随机生成的ApiKey获取访问令牌Token,使得后续的数据请求均带上所述访问令牌Token。