CN111078781B

CN111078781B - 一种多源流式大数据融合汇聚处理框架模型实现方法

Info

Publication number: CN111078781B
Application number: CN201911395133.2A
Authority: CN
Inventors: 俞鹏飞; 冯磊; 李芝权; 杨永刚
Original assignee: Fifth Research Institute Of Telecommunications Technology Co ltd
Current assignee: Fifth Research Institute Of Telecommunications Technology Co ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2023-05-26
Anticipated expiration: 2039-12-30
Also published as: CN111078781A

Abstract

本发明公开了一种多源流式大数据融合汇聚处理框架模型实现方法，包括：多源流式数据采集实现方法包括：流式数据采集代理和多源流式数据采集服务，提供汇聚元数据标准，进行流式多源数据采集；多源流式数据融合处理实现方法包括：多源流式数据融合汇聚，提供基于Flink&Spark Stream流式处理引擎，依据汇聚元数据标准，配置采集的流式多源数据融合进行流式数据处理，加工为符合汇聚元数据标准要求的汇聚元数据，进行规整化汇聚元数据标准存储，为汇聚数据统计挖掘分析提供数据。本发明融合大数据处理主流Flink、Sprakstream开源技术组件，解决多源数据融合汇聚处理中的多源数据互补、特征算子化加工、汇聚元数据标准化、流式目标数据匹配。

Description

一种多源流式大数据融合汇聚处理框架模型实现方法

技术领域

本发明涉及流式大数据汇聚处理领域，尤其是一种多源流式大数据融合汇聚处理框架模型实现方法。

背景技术

目前，流式数据处理应用主要热点在分布式云计算领域。如在一篇申请号为“CN201110450268.1”的中国专利申请文件中公开了一种适用流式处理的大规模数据连续分析系统实现方法，其适用流式处理的大规模数据连续分析系统，包括元数据管理模块，用于管理数据表和数据库的元信息；查询计划生成模块，用于接收查询请求，生成优化的查询计划；数据导入任务生成模块，用于接收数据导入请求，生成数据导入MR作业集；增量处理模块，用于并行地增量地提交Hadoop系统数据导入和查询作业；MR消息处理模块，用于接收Hadoop系统的Map或Reduce函数的结果，将结果输出给Reduce端或下一个作业；数据库连接模块，用于作为Hadoop系统和数据库之间的接口。该发明使用Hadoop系统将各节点中的数据库有机组织在一起，并发地执行数据导入和数据查询，使用管道技术改进MapReduce(MR)执行流程，使得数据查询以连续的流水的方式执行，大大缩短了大规模数据分析的时间。

上述专利技术方案的存在的主要问题：

1、在于对数据采用传统的增量迭代处理来实现流式数据处理，并非真正的流式处理方法，不适应具备时效性特征的数据目标的发现。

2、没有提出满足高性能的流式数据加工处理，以及其对数据的处理内在规律分析等方面有效实现技术方法

3、没有给出面向多源数据的融合汇聚处理的技术方案，不适用于多源流式数据融合汇聚处理。

4、没有给出用户可定义的多源数据融合汇聚处理可定义的技术方法。

发明内容

本发明所要解决的技术问题是：针对上述存在的问题，提供一种多源流式大数据融合汇聚处理框架模型实现方法。

本发明采用的技术方案如下：

一种多源流式大数据融合汇聚处理框架模型实现方法，包括多源流式数据采集实现方法和多源流式数据融合处理实现方法；

所述多源流式数据采集实现方法包括：

流式数据采集代理，实现多源流式数据源节点的数据采集，并将采集的流式多源数据回传到给多源流式数据采集服务；

多源流式数据采集服务，提供用户基于多源流式数据融合汇聚制定的汇聚元数据标准，并配置汇聚元数据标准与流式多源数据间的映射关系服务；其中，汇聚元数据标准与流式多源数据间的映射关系服务转换为流式数据采集代理需求配置，下发给流式数据采集代理；并管理和接收流式数据采集代理的回传数据，再将流式数据采集代理的回传数据融合分类标识后通过数据总线后传给多源流式数据融合汇聚；

所述多源流式数据融合处理实现方法包括：

多源流式数据融合汇聚，提供基于Flink&Spark Stream流式处理引擎，依据多源流式数据融合汇聚制定的汇聚元数据标准，配置采集的流式多源数据融合进行流式数据处理，加工为符合汇聚元数据标准要求的汇聚元数据，进行规整化汇聚元数据标准存储，为汇聚数据统计挖掘分析提供数据；

汇聚数据统计挖掘分析，提供基于Spark大数据计算，对汇聚元数据进行专题挖掘分析生成新质元数据；

多源数据采集融合汇聚应用服务：提供流式数据采集代理、多源流式数据采集服务、多源流式数据融合汇聚和汇聚数据统计挖掘分析的应用服务及其交互界面。

进一步，实现所述流式数据采集的组件包括流式数据采集代理组件和多源流式数据采集服务组件；

所述流式数据采集代理组件，提供流式数据源接口用于流式多源数据的抽取/接入，实现流式多源数据的数据采集，并将采集的流式多源数据回传到给多源流式数据采集服务；

所述多源流式数据采集服务组件包括：

数据采集流程处理器，实现对采集的流式多源数据进行数据校验、数据清洗、数据转换、数据输出的流程可视化与编排；

数据采集web服务，实现数据采集任务的统一管理、调度和监控，以及提供用户基于多源流式数据融合汇聚制定的汇聚元数据标准，并配置汇聚元数据标准与流式多源数据间的映射关系服务，并通过数据采集流程处理器下发给多源流式数据采集服务组件。

进一步，所述流式数据采集代理组件提供的流式数据源接口，实现包括从关系及非关系型数据库抽取元数据及数据、从文件中抽取元数据及数据、从实时数据源中请求及接入实时流式多源数据。

进一步，实现所述多源流式数据融合汇聚的组件包括：数据流作业组件和流式处理配置管理web管理服务；

所述流式处理配置管理web管理服务，提供数据补全规则、目标匹配规则、加工算子及存储规则的配置，并提供数据融合处理配置，用于用户指定任一数据流作业进行数据补全规则、目标匹配规则、加工算子及存储规则选定及其先后处理流程进行配置；

所述数据流作业组件，针对Flink或Spark Stream提交的数据流，依据数据融合处理配置加载处理流程制定的数据补全规则、目标匹配规则、加工算子及存储规则后，对接入的数据流按流程配置要求进行多源流式数据融合汇聚处理。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

本发明融合大数据处理主流Flink、Sprakstream开源技术组件，解决多源数据融合汇聚处理中的多源数据互补、特征算子化加工、汇聚元数据标准化、流式目标数据匹配。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明的多源流式大数据融合汇聚处理框架模型的示意图。

图2为本发明的实现所述流式数据采集的组件的示意图。

图3为本发明的实现所述多源流式数据融合汇聚的组件的示意图。

图4为本发明的多源流式大数据融合汇聚处理框架模型工作原理示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种多源流式大数据融合汇聚处理框架模型实现方法，包括多源流式数据采集实现方法和多源流式数据融合处理实现方法；

所述多源流式数据采集实现方法包括：

所述多源流式数据融合处理实现方法包括：

如图2所示，实现所述流式数据采集的组件包括流式数据采集代理组件和多源流式数据采集服务组件；

所述流式数据采集代理组件，提供流式数据源接口用于流式多源数据的抽取/接入，实现流式多源数据的数据采集，并将采集的流式多源数据回传到给多源流式数据采集服务；通过所述流式数据采集代理组件完成分布在不同地域的多源流式数据源节点数据采集接入，并通过网络回传到多源流式数据采集服务组件，具备单独部署能力。流式数据采集代理组件与多源流式数据源节点个性化定制实现，具备在既有数据源系统接口的主机上进行接口编程的便利条件，可以在原生环境中适配数据源系统业务伸缩发展带来的复杂环境。同时前置流式数据采集代理组件与数据源系统同机房便于处理节点间网络异常的容错处理能力。

其中，所述流式数据采集代理组件提供的流式数据源接口，实现包括从关系及非关系型数据库抽取元数据及数据、从文件中抽取元数据及数据、从实时数据源中请求及接入实时流式多源数据。

所述多源流式数据采集服务组件具备多服务集群部署能力，保证数据采集流量、规模、性能的动态伸缩能力，包括：

数据采集流程处理器，实现对采集的流式多源数据进行数据校验、数据清洗、数据转换、数据加载/输出的流程可视化与编排；

其中，数据采集流程处理器实现的数据校验、数据清洗、数据转换、数据加载/输出的的功能如下：

数据清洗：数据去重、脏数据、数据标准清洗；

数据校验：文件校验、数据校验、元数据标准校验；

数据转换：数据类型归一转换、数值转换、数据字段转换等；

数据输出：抽取到的数据输出到Kafka、ES索引自动生成、写入文件系统；抽取完成的数据批量写入数据库Oracle、MySQL、GBase、HBase和MPP等。具体数据输出方式由数据服务接口进行配置。

如图3所示，实现所述多源流式数据融合汇聚的组件包括：数据流作业组件和流式处理配置管理web管理服务；

其中，进行数据补全规则、目标匹配规则、加工算子及存储规则的配置方法为：

数据补全规则：是指针对数据流间进行补全关系，支持用户基于知识库(如IP归属知识库等)进行补全，基于多源流式数据间字段信息交叉抽取补全(如A数据流具有用户的位置性，B数据源具有用户的身份属性信息)，内在关联业务数据间交叉印证补全(如A数据为用户访问某网站行为记录，B数据为用户与某网站的交互内容记录)。

目标匹配规则：是指基于正则表达式定义目标发现预警配置，即针对数据汇聚库中的某些字段进行正则表达式逻辑匹配(如在电商交易流式数据匹配出交易额度高于10万以上的用户)。

加工算子：是指自定义数据(特征)加工算子，即将流式多源数据中的信息叠加为某些高维特征字段的处理算子(如依据飞行器的航迹点加工出飞行器的飞行方向、加速度等特征维度字段)。

存储规则：支撑用户定义数据存储的位置，流式多源数据与汇聚元数据标准的字段映射关系。

如图4所示，通过上述的一种多源流式大数据融合汇聚处理框架模型实现方法，实现的多源流式大数据融合汇聚处理框架模型的工作原理如下：

(1)控制工作原理：

采集规则流程控制：

用户基于数据采集web服务，首先完成采集流式多源数据及汇聚元数据标准配置；其次，完成汇聚元数据标准与流式多源数据间的映射关系服务的配置，同时针对每个采集的流式多源数据的数据集进行数据校验、数据清洗、数据转换以及数据输出的采集处理流程配置；最后，根据流式数据源的流式数据采集代理分布情况分发相应的采集数据参数。

多源流式数据融合汇聚控制：

用户基于流式处理配置管理web管理服务，首先对与流式数据源与汇聚元数据存在差异或无法直接形成对应映射关系接对应的，通过配置的数据补全规则和加工算子对数据流间进行补全关系或自定义数据(特征)加工算子将流式多源数据加工处理为汇聚元数据标准所需的数据；其次，用户根据实际业务需要，基于正则表达式配置流式实时匹配目标。最后，数据融合处理配置，用户指定任一数据流作业进行具体的数据补全规则、目标匹配规则、加工算子及存储规则选定及其先后处理流程进行配置。

(2)数据采集汇聚工作原理

流式数据采集：流式数据采集代理完成分布在不同地域的多源流式数据源节点数据采集接入，并通过网络回传到数据融合汇聚节点的多源流式数据采集服务。多源流式数据采集服务接收采集流式数据采集代理的回传数据，基于制定汇聚元数据标准及相关配置进行数据校验、数据清洗、数据转换并进行分类标识后通过数据总线后输出给多源流式数据融合汇聚处理。

多源流式数据融合汇聚处理：数据作业流依据数据融合处理配置加载流程处理制定的数据补全规则、目标匹配规则、加工算子及存储规则后，对接入的数据流按流程配置要求进行多源流式数据融合汇聚处理，包括补全规则处理、目标匹配规则处理、加工算子处理，最后依据存储规则将融合汇聚后的数据存入数据汇聚库，为汇聚数据统计挖掘分析提供数据。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多源流式大数据融合汇聚处理框架模型实现方法，其特征在于，包括多源流式数据采集实现方法和多源流式数据融合处理实现方法；

所述多源流式数据采集实现方法包括：

所述多源流式数据融合处理实现方法包括：

多源数据采集融合汇聚应用服务：提供流式数据采集代理、多源流式数据采集服务、多源流式数据融合汇聚和汇聚数据统计挖掘分析的应用服务及其交互界面；

实现所述多源流式数据融合汇聚的组件包括：数据流作业组件和流式处理配置管理web管理服务；

所述数据流作业组件，针对Flink或Spark Stream提交的数据流，依据数据融合处理配置加载处理流程制定的数据补全规则、目标匹配规则、加工算子及存储规则后，对接入的数据流按流程配置要求进行多源流式数据融合汇聚处理；其中，数据补全规则、目标匹配规则、加工算子及存储规则的配置方法为：

数据补全规则：是指针对数据流间进行补全关系，支持用户基于知识库进行补全，基于多源流式数据间字段信息交叉抽取补全，内在关联业务数据间交叉印证补全；

目标匹配规则：是指基于正则表达式定义目标发现预警配置，即针对数据汇聚库中的某些字段进行正则表达式逻辑匹配；

加工算子：是指自定义数据加工算子，即将流式多源数据中的信息叠加为某些高维特征字段的处理算子；

2.根据权利要求1所述的多源流式大数据融合汇聚处理框架模型实现方法，其特征在于，实现所述流式数据采集的组件包括流式数据采集代理组件和多源流式数据采集服务组件；

所述多源流式数据采集服务组件包括：

3.根据权利要求2所述的多源流式大数据融合汇聚处理框架模型实现方法，其特征在于，所述流式数据采集代理组件提供的流式数据源接口，实现包括从关系及非关系型数据库抽取元数据及数据、从文件中抽取元数据及数据、从实时数据源中请求及接入实时流式多源数据。