CN109086410A

CN109086410A - 流式海量数据的处理方法及系统

Info

Publication number: CN109086410A
Application number: CN201810872721.XA
Authority: CN
Inventors: 张晶龙; 杨友洪; 王彦贺; 曲世; 曲世一; 原林; 赵锐; 张雨; 李娜; 金津
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2018-08-02
Filing date: 2018-08-02
Publication date: 2018-12-25

Abstract

本发明提供一种流式海量数据的处理方法及系统，通过从任一分布式数据库获取各流式数据的轨迹文件，并对轨迹文件进行前置处理，生成预定格式的消息数据，将消息数据集中存储，不需要高度定制化的流式数据模型，从而使得流式数据获取过程更灵活；然后根据预定业务需求对消息数据进行数据处理；对数据处理结果进行统计分析，并输出数据处理结果和/或统计分析结果。本发明根据预定需求进行数据处理，可以与其他信息系统对接、实现新功能的扩展，从而实现快速响应业务变化、提高灵活性。

Description

流式海量数据的处理方法及系统

技术领域

本发明涉及通信技术领域，尤其涉及一种流式海量数据的处理方法及系统。

背景技术

随着互联网、移动互联网、数码设备、物联网等技术的发展，全球数据生产正在高速增长，信息已成为企业的战略资产，以进行用户行为分析、市场研究等。根据数据处理的时效性，数据处理系统可分为批式(batch)数据和流式(streaming)数据两类。

现有技术中，对于流式海量数据处理系统通常采用烟囱式架构也即垂直的体系结构，数据直接从各个数据源被直接抓取到最终目的地，进行特定业务的数据处理，采集、镜像、计算紧密耦合，中间无任何缝隙，可以快速响应了特定业务需求。

但是随着运行时间延长，现有技术的数据处理系统无法与其他信息系统对接、无法扩充新功能等缺乏系统规划的弊端就暴露无遗了，采集、镜像、计算紧密耦合，数据模型不够灵活，不能快速响应业务的变化，当发生业务变化时需要牵一发动全身，响应时间慢，成本高，不适合业务会经常变化的企业使用。

发明内容

本发明提供一种流式海量数据的处理方法及系统，以提高流式海量数据处理的灵活性，实现快速响应业务变化。

本发明的一个方面是提供一种流式海量数据的处理方法，该方法包括如下步骤：

从任一分布式数据库获取各流式数据的轨迹文件，并对所述轨迹文件进行前置处理，生成预定格式的消息数据，将所述消息数据集中存储；

根据预定业务需求对所述消息数据进行数据处理；

对数据处理结果进行统计分析，并输出所述数据处理结果和/或统计分析结果。

进一步的，所述输出所述数据处理结果和/或统计分析结果，具体包括：

提供与客户端连接的API接口，在接收到所述客户端发送的查询请求时通过所述API接口向所述客户端发送所述数据处理结果和/或所述统计分析结果；或者

将所述数据处理结果和/或所述统计分析结果卸载成文件或卸载到其他系统。

进一步的，所述将所述消息数据集中存储后，还包括：

对所述消息数据进行清洗和/或转换，并将清洗和/或转换后的消息数据进行存储。

进一步的，所述方法还包括：

对所述数据处理结果和/或所述统计分析结果进行数据的Context式存储；

所述将所述消息数据集中存储，包括：

对所述消息数据集中进行数据的Context式存储。

进一步的，所述从任一分布式数据库获取各流式数据的轨迹文件后，还包括：

对获取的所述轨迹文件进行同步稽核，以保证所述轨迹文件在传输过程的可靠性。

本发明的另一个方面是提供一种流式海量数据的处理系统，该系统具体包括：采集层、镜像层、计算层、统计分析层、以及结果同步层。

其中，采集层，用于从任一分布式数据库获取各流式数据的轨迹文件，并对所述轨迹文件进行前置处理，生成预定格式的消息数据；

镜像层，用于将所述消息数据集中存储；

计算层，用于根据预定业务需求对所述消息数据进行数据处理；

统计分析层，用于对数据处理结果进行统计分析；

结果同步层，用于输出所述数据处理结果和/或统计分析结果。

进一步的，所述结果同步层具体用于：

进一步的，所述镜像层还用于：

进一步的，所述计算层还用于，对所述数据处理结果进行数据的Context式存储；

所述统计分析层还用于，对所述统计分析结果进行数据的Context式存储

所述镜像层具体用于，对所述消息数据集中进行数据的Context式存储。

进一步的，所述采集层还用于：

本发明提供的流式海量数据的处理方法及系统，通过从任一分布式数据库获取各流式数据的轨迹文件，并对轨迹文件进行前置处理，生成预定格式的消息数据，将消息数据集中存储，不需要高度定制化的流式数据模型，从而使得流式数据获取过程更灵活；然后根据预定业务需求对消息数据进行数据处理；对数据处理结果进行统计分析，并输出数据处理结果和/或统计分析结果。本发明根据预定需求进行数据处理，可以与其他信息系统对接、实现新功能的扩展，从而实现快速响应业务变化、提高灵活性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的流式海量数据的处理方法流程图；

图2为本发明实施例提供的流式海量数据的处理系统的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的流式海量数据的处理方法流程图。本实施例提供了一种流式海量数据的处理方法，应用于流式海量数据的处理系统，其中流式海量数据的处理系统如图2所示，包括：采集层、镜像层、计算层、统计分析层、以及结果同步层。如图1所示，本实施例提供的方法具体步骤如下：

S101、从任一分布式数据库获取各流式数据的轨迹文件，并对所述轨迹文件进行前置处理，生成预定格式的消息数据，将所述消息数据集中存储。

在本实施例中，可由采集层从任一分布式数据库获取各流式数据的轨迹文件，例如电信运行商的省分数据库通常为Oracle，当需要将省分流式数据采集到数据中心时，采集层可采用OGG+Kafka的方式，其中OGG(Oracle GoldenGate)分别部署并配置在各分布式数据库主机上，OGG for Big Data、数据分发程序(User Exit建成UE)安装到前置处理机。OGG的Extract进程将实时抓取生产环境Oracle数据库的Redo Log日志(记录了数据库中每一条流式数据的变化情况)并形成Trail文件(轨迹文件)。然后对Trail文件进行前置处理，可通过解析重组生成预定格式的消息数据，具体的，OGG可通过Pump进程将Trail文件进行发送至省分前置处理机，省分前置处理机上安装的OGG for Big Data负责接收分布式数据库主机传过来的Trail文件，并利用OGG提供的CAPI(Computer Assisted PersonalInterviewing，计算机辅助面访)函数，解析Trail文件的每行记录，拆解成单个字段，再将这些字段按照业务规范定义的格式，重组成统一格式的Kafka消息，消息中包含数据库类型、SCN号、事务ID、事务所在文件序号、事务所在文件内位置、操作类型、操作时间、表名、新值、旧值等信息。将Kafka消息推送给位于数据中心的Kafka消息集群，然后由镜像层从Kafka消息集群中拉取消息数据，将所述消息数据集中存储。

镜像层可存储原始数据及历史片段，并支持数据清洗、转换等多种数据变换(Transformation)计算。例如，镜像层针对各省上收的数据进行原样保存，并可进行一些必要的转换，如：表内字段按照配置的参数转换，省分系统中性别0表示男，但在系统中定义了M为男性，则可在此层进行配置，这些数据将作为最基础的数据、为以后的业务提供支撑。消息数据的原始数据采用Injector进行流式消息的实时读取分发，读取后按照模型设计，将原始数据进行存储，模型的设计可与省分表的数据一致性。

S102、根据预定业务需求对所述消息数据进行数据处理。

在本实施例中，由计算层根据业务需求实现个性化计算业务，可共享镜像层的丰富数据，共同挖掘数据内在价值。例如业务需求为需要对镜像层的各省份数据进行自然人的计算归集，可由计算层获取镜像层中的客户资料，然后归并客户实名标识，判断客户实名标识的类型，实名类型根据验证形式共分四类：双实名、实名-公安、实名-二代、非实名。其中，实名-公安是指由公安部门唯一指定的身份认证服务商国政通进行实名认证通过；实名-二代是指由前台工作人员刷二代身份证进行实名认证；双实名是指既是实名-公安，又是实名-二代认证；非实名则是没有通过实名认证。若判断客户实名标识的类型为双实名、实名-公安、或实名-二代，则进一步判断用户姓名是否唯一，唯一则依据“冲突处理规则”处理，自动沉淀为自然人，若不唯一则再判断系统是否可自动确认姓名唯一，若仍不唯一则单独标记，并下发用户清单由人工进行处理；若判断客户实名标识的类型为实名-系统或非实名，则进一步可判断客户是否为合法证件客户，若为合法证件用户则依据证件类型进行上述的用户姓名是否唯一的判断流程，若为非合法证件用户，下发用户清单至省分进行稽查整改。

S103、对数据处理结果进行统计分析，并输出所述数据处理结果和/或统计分析结果。

在本实施例中，由统计分析层对数据处理结果进行统计分析，此外统计分析层也可对镜像层的消息数据进行统计分析，具体的，统计分析层采集镜像层或计算层输出的WebtoCapture文件，流式获取数据，进行统计分析、报表构建，用于快速支撑报表需求、大屏需求等数据可视化操作。例如对某一业务订单受理情况的大屏统计业务，可通过统计分析层采集订单数据，按照省分、地市、区县、渠道、员工、门店全维度统计订单受理情况，并将结果每隔预定时间(例如两分钟)实时同步，进行大屏展现。也可针对所有维度创建索引，以支持来自运营监控系统的多维度查询请求。统计分析层可采用MioVantage构建，通过建模完成业务数据计算，通过定时任务及工作流进行定时的数据卸载或报表自动生成。

进一步的，本实施例可由结果同步层输出所述数据处理结果和/或统计分析结果，利用Kafka消息队列将计算层或统计分析层中需要卸载的数据，实时发送到Topic中，由相关系统进行消费，便于其他系统流式的接收此部分数据，结合业务对数据进行进一步处理。结果同步层指定了标准化数据卸载通道，支持消息，文件等多种形式，便于结果数据应用。更具体的，应用结果层提供的数据输出方式可以包括API方式和数据文件卸载，其中API方式为提供与客户端连接的API接口，在接收到所述客户端发送的查询请求时通过所述API接口向所述客户端发送所述数据处理结果和/或所述统计分析结果，例如可提供给各省份接口进行全国资料查询、一证五卡的校验等功能；数据文件卸载则可将所述数据处理结果和/或所述统计分析结果卸载成文件或卸载到其他系统，例如卸载到Kafka中，由于Kafka的使用较为普遍，对接门槛低，方便其他系统进行消费。

本实施例提供的流式海量数据的处理方法，通过从任一分布式数据库获取各流式数据的轨迹文件，并对轨迹文件进行前置处理，生成预定格式的消息数据，将消息数据集中存储，不需要高度定制化的流式数据模型，从而使得流式数据获取过程更灵活；然后根据预定业务需求对消息数据进行数据处理；对数据处理结果进行统计分析，并输出数据处理结果和/或统计分析结果。本实施例的方法根据预定需求进行数据处理，可以与其他信息系统对接、实现新功能的扩展，从而实现快速响应业务变化、提高灵活性。

进一步的，所述方法还可包括：对所述数据处理结果和/或所述统计分析结果进行数据的Context式存储；

S101中所述的将所述消息数据集中存储，包括：对所述消息数据集中进行数据的Context式存储。

在本实施例中，在镜像层、计算层、统计分析层均可使用MioDB进行Context式的数据存储，也即镜像层对消息数据集中进行数据的Context式存储、计算层数据处理结果进行数据的Context式存储、统计分析层对统计分析结果进行数据的Context式存储，Context存储的结构属于面向对象的数据存储方式，且存储的不是单一对象，它是一个多对象及对象之间关系的集合，数据的存储与读取以Context作为基本单位，将有关系的对象作为一个整体存储，能够极大提升复杂模型、关系的数据读取速度。所以，Context存储方式与其他存储方式的对比，能够胜任大数据量、关联关系极其复杂、数据结构复杂的业务场景，同时支持联机事务处理(on-line transaction processing，OLTP)和联机分析处理(On-LineAnalytical Processing，OLAP)。

进一步的，S101所述的从任一分布式数据库获取各流式数据的轨迹文件后，还可包括：

本实施例中，由于在数据实时上收过程中，经常发现不准确及数据丢失的情况，针对此问题，可对获取的轨迹文件进行同步稽核，以保证所述轨迹文件在传输过程的可靠性，具体的，可使用C++/GO/React.js多种语言，从数据的实时采集与可靠传输、数据的可靠存储、数据的高效稽核、稽核结果的报告展现、丢失数据的补全几个方面，构建实时增量数据同步稽核系统，为数据的增量实时同步与准确提供了稽核与保障。该稽核系统可包括OGG-Kafka稽核对账模块，实时监控Kafka的消息数量，以Trail文件为单位将消息量与java UE进程产生的Kafka消息量进行去重对比，保证数据在传输过程中的可靠性。也即，OGG-Kafka稽核对账模块根据OGG产生的Trail文件号与偏移量，确定传输数据的数量与位置，由于Trail文件的滚动机制，当一个文件封口以后，会自增长Trail文件号生成下一个Trail文件，并且由于Kafka消息的顺序性，同一个Trail文件产生的Kafka消息量是确定的。因此以Trail文件为单位，通过比较稽核对账程序与java UE程序产生的Kafka消息量，来判断数据在传输过程中数据量准确性。本实施例中采集层可适配主流数据库使用数据卸载技术UE，通过Kafka上收数据，并结合同步稽核算法，构建了可靠灵活的数据上收通道。

本实施例提供的流式海量数据的处理方法，通过从任一分布式数据库获取各流式数据的轨迹文件，并对轨迹文件进行前置处理，生成预定格式的消息数据，将消息数据集中存储，不需要高度定制化的流式数据模型，从而使得流式数据获取过程更灵活；然后根据预定业务需求对消息数据进行数据处理；对数据处理结果进行统计分析，并输出数据处理结果和/或统计分析结果。本实施例的方法根据预定需求进行数据处理，可以与其他信息系统对接、实现新功能的扩展，从而实现快速响应业务变化、提高灵活性。此外，本实施例的方法由流式海量数据的处理系统实现，通过五层架构的拆分，解耦了各层数据之间的关系，实现了数据采集、存储、计算、服务的分离，能够快速灵活地响应模型的变化，以及体系中各应用间的数据共享；且弱化特定数据模型带来的固化流程，设计出高效、通用且具有普惠性的流式海量数据处理平台；支持标准化接入接出，支持Oracle和DRDS的实时流式数据载入，采用Kafka进行实时数据卸载，对接门槛低，具备推广性。

图2为本发明实施例提供的流式海量数据的处理系统的结构图。本实施例提供一种流式海量数据的处理系统，可以执行流式海量数据的处理方法实施例提供的处理流程，如图2所示，本实施例提供的流式海量数据的处理系统包括：采集层21、镜像层22、计算层23、统计分析层24、以及结果同步层25。

其中，采集层21，用于从任一分布式数据库获取各流式数据的轨迹文件，并对所述轨迹文件进行前置处理，生成预定格式的消息数据；

镜像层22，用于将所述消息数据集中存储；

计算层23，用于根据预定业务需求对所述消息数据进行数据处理；

统计分析层24，用于对数据处理结果进行统计分析；

结果同步层25，用于输出所述数据处理结果和/或统计分析结果。

进一步的，所述结果同步层25具体用于：

进一步的，所述镜像层22还用于：

进一步的，所述计算层23还用于，对所述数据处理结果进行数据的Context式存储；

所述统计分析层24还用于，对所述统计分析结果进行数据的Context式存储

所述镜像层22具体用于，对所述消息数据集中进行数据的Context式存储。

进一步的，所述采集层21还用于：

本实施例提供的流式海量数据的处理系统可以具体用于执行上述图1所提供的方法实施例，具体功能此处不再赘述。

本实施例提供的流式海量数据的处理系统，通过从任一分布式数据库获取各流式数据的轨迹文件，并对轨迹文件进行前置处理，生成预定格式的消息数据，将消息数据集中存储，不需要高度定制化的流式数据模型，从而使得流式数据获取过程更灵活；然后根据预定业务需求对消息数据进行数据处理；对数据处理结果进行统计分析，并输出数据处理结果和/或统计分析结果。本实施例的系统根据预定需求进行数据处理，可以与其他信息系统对接、实现新功能的扩展，从而实现快速响应业务变化、提高灵活性；并且五层架构的拆分，解耦了各层数据之间的关系，实现了数据采集、存储、计算、服务的分离，能够快速灵活地响应模型的变化，以及体系中各应用间的数据共享；且弱化特定数据模型带来的固化流程，设计出高效、通用且具有普惠性的流式海量数据处理平台；支持标准化接入接出，支持Oracle和DRDS的实时流式数据载入，采用Kafka进行实时数据卸载，对接门槛低，具备推广性。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种流式海量数据的处理方法，其特征在于，包括：

根据预定业务需求对所述消息数据进行数据处理；

2.根据权利要求1所述的方法，其特征在于，所述输出所述数据处理结果和/或统计分析结果，具体包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述消息数据集中存储后，还包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，还包括：

所述将所述消息数据集中存储，包括：

对所述消息数据集中进行数据的Context式存储。

5.根据权利要求4所述的方法，其特征在于，所述从任一分布式数据库获取各流式数据的轨迹文件后，还包括：

6.一种流式海量数据的处理系统，其特征在于，包括：

采集层，用于从任一分布式数据库获取各流式数据的轨迹文件，并对所述轨迹文件进行前置处理，生成预定格式的消息数据；

镜像层，用于将所述消息数据集中存储；

统计分析层，用于对数据处理结果进行统计分析；

7.根据权利要求6所述的系统，其特征在于，所述结果同步层具体用于：

8.根据权利要求6所述的系统，其特征在于，所述镜像层还用于：

9.根据权利要求6-8任一项所述的系统，其特征在于，

所述计算层还用于，对所述数据处理结果进行数据的Context式存储；

所述统计分析层还用于，对所述统计分析结果进行数据的Context式存储所述镜像层具体用于，对所述消息数据集中进行数据的Context式存储。

10.根据权利要求9所述的系统，其特征在于，所述采集层还用于：