CN110955645B

CN110955645B - 大数据集成处理方法及系统

Info

Publication number: CN110955645B
Application number: CN201910959242.6A
Authority: CN
Inventors: 赵建强; 黄俊杰
Original assignee: Wanghai Kangxin Beijing Technology Co ltd
Current assignee: Wanghai Kangxin Beijing Technology Co ltd
Priority date: 2019-10-10
Filing date: 2019-10-10
Publication date: 2022-10-11
Anticipated expiration: 2039-10-10
Also published as: CN110955645A

Abstract

本申请公开了大数据集成处理方法及系统，其中所述方法包括：将来自数据源的原始数据写入消息队列；将所述原始数据从消息队列写入到Phoenix；标准化处理模块响应于从消息队列接收到所述原始数据，向消息队列返回参标数据，其中所述参标数据反映所述原始数据与相应标准数据之间的对应关系；将所述参标数据从消息队列更新到Phoenix中；响应于标准化处理模块将标准数据写入消息队列，将标准数据写入到Phoenix中，根据所述参标数据使用所述标准数据更新相应原始数据的标准数据内容。本发明使能提高大数据集成处理性能并节省存储空间。

Description

大数据集成处理方法及系统

技术领域

本申请涉及电数字数据处理领域，尤其涉及大数据集成处理方法及系统。

背景技术

全球已步入大数据时代，作为继云计算后的新一代信息技术，大数据技术和产业的发展和应用已经对政府、企业决策和人们的生活方式产生深远的影响。

当前，各种大数据存产品和面向各行业的大数据应用层出不穷，急需通过标准化的途径规范认知，整合资源，促进各方达成共识，为我国大数据产业的健康发展打下基础，为数据安全应用提供保障，同时促进大数据交易等新兴服务模式规范发展。

现有的大数据平台之一对离线和实时数据进行处理，从一开始的数据收集，涵盖各种数据库(Mysql、Oracle、Sql Server)和各种数据源(离线和实时)，到数据进入标准化平台，经过自动化和人工标准化，将标准化结果返回到集成平台存储。然而，由于标准化平台不是业务系统，不希望接入业务系统的逻辑，往往需要加入中间表来存储映射关系。但是存储映射关系以后，由于数据量非常大，映射关系表会成为性能瓶颈和额外存储需求的非常大的负担。

发明内容

为了克服现有技术中存在的不足，本发明要解决的技术问题是提供一种大数据集成处理方法及系统，其使能提高大数据集成处理性能并节省存储空间。

为解决上述技术问题，根据本发明的第一方面，提供一种大数据集成处理方法，该方法包括：

将来自数据源的原始数据写入消息队列；

将所述原始数据从消息队列写入到Phoenix；

标准化处理模块响应于从消息队列接收到所述原始数据，向消息队列返回参标数据，其中所述参标数据反映所述原始数据与相应标准数据之间的对应关系；

将所述参标数据从消息队列更新到Phoenix中；

响应于标准化处理模块将标准数据写入消息队列，将标准数据写入到Phoenix中，根据所述参标数据使用所述标准数据更新相应原始数据的标准数据内容。

作为本发明所述方法的改进，所述方法还包括：在将来自数据源的原始数据写入消息队列之前对所述原始数据进行预处理，其中所述预处理包括标记来源和/或格式化。

作为本发明所述方法的另一种改进，所述方法还包括：在将所述原始数据从消息队列写入到Phoenix之后从Phoenix将原始数据放入到消息队列。

作为本发明所述方法的又一种改进，所述方法还包括：定期将Phoenix同步到hive中。

作为本发明所述方法的再一种改进，所述方法还包括：按照不同主题的业务要求从hive中提取数据到主题库中。

为解决上述技术问题，根据本发明的第二方面，提供一种大数据集成处理系统，该系统包括：

第一写模块，用于将来自数据源的原始数据写入消息队列；

第二写模块，用于将所述原始数据从消息队列写入到Phoenix；

返回模块，用于标准化处理模块响应于从消息队列接收到所述原始数据，向消息队列返回参标数据，其中所述参标数据反映所述原始数据与相应标准数据之间的对应关系；

第一更新模块，用于将所述参标数据从消息队列更新到Phoenix中；

第三写模块，用于响应于标准化处理模块将标准数据写入消息队列，将标准数据写入到Phoenix中，根据所述参标数据使用所述标准数据更新相应原始数据的标准数据内容。

为解决上述技术问题，本发明的有形计算机可读介质，包括用于执行本发明的大数据集成处理方法的计算机程序代码。

为解决上述技术问题，本发明提供一种装置，包括至少一个处理器；及至少一个存储器，含有计算机程序代码，所述至少一个存储器和所述计算机程序代码被配置为利用所述至少一个处理器使得所述装置执行本发明的大数据集成处理方法的至少部分步骤。

按照本发明，大幅优化处理流程，减少定时器的使用，免除了中间表，通过消息队列中转，大幅提升了系统的吞吐量，极大提高了性能，可满足公司有10TB以上待处理数据的性能需求和存储处理分析未来海量数据处理的需求。此外，由于中间表需要存储的数据量非常大，本发明通过消除中间表的使用，为大数据平台节省了巨大的存储空间。

结合附图阅读本发明实施方式的详细描述后，本发明的其它特点和优点将变得更加清楚。

附图说明

图1为根据本发明方法的一实施例的流程图。

图2为根据本发明系统的一实施例的结构示意图。

为清晰起见，这些附图均为示意性及简化的图，它们只给出了对于理解本发明所必要的细节，而省略其他细节。

具体实施方式

下面参照附图对本发明的实施方式和实施例进行详细说明。

通过下面给出的详细描述，本发明的适用范围将显而易见。然而，应当理解，在详细描述和具体例子表明本发明优选实施例的同时，它们仅为说明目的给出。

图1示出了根据本发明的大数据集成处理方法的一优选实施例的流程图。

在步骤S102，对来自数据源的原始数据进行预处理。数据来源可包括在线数据和/或离线数据。预处理可包括对原始数据打标记以区分原始数据的来源如在线或离线。预处理还可包括对原始数据进行格式化处理和/或任何其它适当的处理。

在步骤S104，将预处理后的原始数据写入消息队列(MQ)，在此优选使用Kafka消息队列，也可使用其它类型的消息队列。

在步骤S106，将预处理后的原始数据从Kafka消息队列写入到Phoenix。Phoenix是构建在Hbase上的一个SQL层，可实现创建表、插入数据、对Hbase数据查询等功能。

在步骤S108，从Phoenix将原始数据放入到Kafka消息队列。kafka是目前开源软件中性能最高的消息队列，对于处理并发消息能力极高，可以达到上百万/s。通过消息队列中转数据，除了消息队列本身可以避免数据错误外，还可以减少由于发送、接受两方接口通信失败引起的错误。

在步骤S110，标准化处理模块响应于从Kafka消息队列接收到预处理后的原始数据，向消息队列返回参标数据，参标数据指明原始数据与相应标准数据之间的对应关系。标准化处理模块也称为标准化平台，用于对输入的原始数据进行自动或人工标准化然后输出标准数据(标准化结果)。由于本发明并不关注标准化处理本身，在此不对具体的标准化处理进行描述。在大数据情形下，由于数据量很大，即便是自动标准化，得到标准数据也需要一定时间，更不用说一些数据的标准化还需要人工参与，所需要的时间会更长。在此通过响应于接收到原始数据，先返回一个指明原始数据与将要得到的相应标准数据之间的对应关系的参标数据，可减少处理等待时间，提高处理性能。

在步骤S112，将参标数据从Kafka消息队列更新到Phoenix中。

在步骤S114，响应于标准化处理模块将标准数据写入Kafka消息队列，将标准数据写入到Phoenix中，根据参标数据指明的对应关系使用标准数据更新相应原始数据的标准数据内容。

在另一实施例中，除图1所示步骤之外，本发明的大数据集成处理方法还可包括定期将Phoenix同步到hive中以对数据进行复杂处理。Hive是运行在Hadoop上的搜索工具，其让复杂的编辑过程简化成用SQL语言对海量数据的操作，支持对数据的复杂处理。而Phoenix仅支持简单查询。在其它实施例中，也可按照不同主题的业务要求从hive中提取数据到主题库中以供专门的目的使用，从而进一步提高性能。

图2示出了根据本发明的大数据集成处理系统的一优选实施例的框图。该系统包括：第一写模块202，用于将来自数据源的原始数据写入消息队列；第二写模块204，用于将所述原始数据从消息队列写入到Phoenix；返回模块206，用于标准化处理模块响应于从消息队列接收到所述原始数据，向消息队列返回参标数据，其中所述参标数据反映所述原始数据与相应标准数据之间的对应关系；第一更新模块208，用于将所述参标数据从消息队列更新到Phoenix中；第三写模块210，用于响应于标准化处理模块将标准数据写入消息队列，将标准数据写入到Phoenix中，根据所述参标数据使用所述标准数据更新相应原始数据的标准数据内容。

在其它实施例中，图2所示的系统还可包括：预处理模块，用于在将来自数据源的原始数据写入消息队列之前对所述原始数据进行预处理，其中所述预处理包括标记来源和/或格式化；和/或放入模块，用于在将所述原始数据从消息队列写入到Phoenix之后从Phoenix将原始数据放入到消息队列；和/或同步模块，用于定期将Phoenix同步到hive中。

在此所述的多个不同实施例或者其特定特征、结构或特性可在本发明的一个或多个实施方式中适当组合。另外，在某些情形下，只要适当，流程图中和/或流水处理描述的步骤顺序可修改，并不必须精确按照所描述的顺序执行。另外，本发明的多个不同方面可使用软件、硬件、固件或者其组合和/或执行所述功能的其它计算机实施的模块或装置进行实施。本发明的软件实施可包括保存在计算机可读介质中并由一个或多个处理器执行的可执行代码。计算机可读介质可包括计算机硬盘驱动器、ROM、RAM、闪存、便携计算机存储介质如CD-ROM、DVD-ROM、闪盘驱动器和/或例如具有通用串行总线(USB)接口的其它装置，和/或任何其它适当的有形或非短暂计算机可读介质或可执行代码可保存于其上并由处理器执行的计算机存储器。本发明可结合任何适当的操作系统使用。

除非明确指出，在此所用的单数形式“一”、“该”均包括复数含义(即具有“至少一”的意思)。应当进一步理解，说明书中使用的术语“具有”、“包括”和/或“包含”表明存在所述的特征、步骤、操作、元件和/或部件，但不排除存在或增加一个或多个其他特征、步骤、操作、元件、部件和/或其组合。如在此所用的术语“和/或”包括一个或多个列举的相关项目的任何及所有组合。

前面说明了本发明的一些优选实施例，但是应当强调的是，本发明不局限于这些实施例，而是可以本发明主题范围内的其它方式实现。本领域技术人员可以在本发明技术构思的启发和不脱离本发明内容的基础上对本发明做出各种变型和修改，这些变型或修改仍落入本发明的保护范围之内。

Claims

1.一种大数据集成处理方法，其特征在于，所述方法包括：

将来自数据源的原始数据写入消息队列；

将所述原始数据从消息队列写入到Phoenix；

将所述参标数据从消息队列更新到Phoenix中；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在将来自数据源的原始数据写入消息队列之前对所述原始数据进行预处理，其中所述预处理包括标记来源和/或格式化。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在将所述原始数据从消息队列写入到Phoenix之后从Phoenix将原始数据放入到消息队列。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

定期将Phoenix同步到hive中。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

按照不同主题的业务要求从hive中提取数据到主题库中。

6.根据权利要求1所述的方法，其特征在于，所述消息队列为Kafka消息队列。

7.一种大数据集成处理系统，其特征在于，所述系统包括：

第一写模块，用于将来自数据源的原始数据写入消息队列；

第二写模块，用于将所述原始数据从消息队列写入到Phoenix；

8.根据权利要求7所述的系统，其特征在于，所述系统还包括：

预处理模块，用于在将来自数据源的原始数据写入消息队列之前对所述原始数据进行预处理，其中所述预处理包括标记来源和/或格式化。

9.根据权利要求7所述的系统，其特征在于，所述系统还包括：

放入模块，用于在将所述原始数据从消息队列写入到Phoenix之后从Phoenix将原始数据放入到消息队列。

10.根据权利要求7所述的系统，其特征在于，所述系统还包括：

同步模块，用于定期将Phoenix同步到hive中。