CN110955645A - 大数据集成处理方法及系统 - Google Patents

大数据集成处理方法及系统 Download PDF

Info

Publication number
CN110955645A
CN110955645A CN201910959242.6A CN201910959242A CN110955645A CN 110955645 A CN110955645 A CN 110955645A CN 201910959242 A CN201910959242 A CN 201910959242A CN 110955645 A CN110955645 A CN 110955645A
Authority
CN
China
Prior art keywords
data
message queue
phoenix
writing
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910959242.6A
Other languages
English (en)
Other versions
CN110955645B (zh
Inventor
赵建强
黄俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wanghai Kangxin Beijing Technology Co Ltd
Original Assignee
Wanghai Kangxin Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wanghai Kangxin Beijing Technology Co Ltd filed Critical Wanghai Kangxin Beijing Technology Co Ltd
Priority to CN201910959242.6A priority Critical patent/CN110955645B/zh
Publication of CN110955645A publication Critical patent/CN110955645A/zh
Application granted granted Critical
Publication of CN110955645B publication Critical patent/CN110955645B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/217Database tuning

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了大数据集成处理方法及系统,其中所述方法包括:将来自数据源的原始数据写入消息队列;将所述原始数据从消息队列写入到Phoenix;标准化处理模块响应于从消息队列接收到所述原始数据,向消息队列返回参标数据,其中所述参标数据反映所述原始数据与相应标准数据之间的对应关系;将所述参标数据从消息队列更新到Phoenix中;响应于标准化处理模块将标准数据写入消息队列,将标准数据写入到Phoenix中,根据所述参标数据使用所述标准数据更新相应原始数据的标准数据内容。本发明使能提高大数据集成处理性能并节省存储空间。

Description

大数据集成处理方法及系统
技术领域
本申请涉及电数字数据处理领域,尤其涉及大数据集成处理方法及系统。
背景技术
全球已步入大数据时代,作为继云计算后的新一代信息技术,大数据技术和产业的发展和应用已经对政府、企业决策和人们的生活方式产生深远的影响。
当前,各种大数据存产品和面向各行业的大数据应用层出不穷,急需通过标准化的途径规范认知,整合资源,促进各方达成共识,为我国大数据产业的健康发展打下基础,为数据安全应用提供保障,同时促进大数据交易等新兴服务模式规范发展。
现有的大数据平台之一对离线和实时数据进行处理,从一开始的数据收集,涵盖各种数据库(Mysql、Oracle、Sql Server)和各种数据源(离线和实时),到数据进入标准化平台,经过自动化和人工标准化,将标准化结果返回到集成平台存储。然而,由于标准化平台不是业务系统,不希望接入业务系统的逻辑,往往需要加入中间表来存储映射关系。但是存储映射关系以后,由于数据量非常大,映射关系表会成为性能瓶颈和额外存储需求的非常大的负担。
发明内容
为了克服现有技术中存在的不足,本发明要解决的技术问题是提供一种大数据集成处理方法及系统,其使能提高大数据集成处理性能并节省存储空间。
为解决上述技术问题,根据本发明的第一方面,提供一种大数据集成处理方法,该方法包括:
将来自数据源的原始数据写入消息队列;
将所述原始数据从消息队列写入到Phoenix;
标准化处理模块响应于从消息队列接收到所述原始数据,向消息队列返回参标数据,其中所述参标数据反映所述原始数据与相应标准数据之间的对应关系;
将所述参标数据从消息队列更新到Phoenix中;
响应于标准化处理模块将标准数据写入消息队列,将标准数据写入到Phoenix中,根据所述参标数据使用所述标准数据更新相应原始数据的标准数据内容。
作为本发明所述方法的改进,所述方法还包括:在将来自数据源的原始数据写入消息队列之前对所述原始数据进行预处理,其中所述预处理包括标记来源和/或格式化。
作为本发明所述方法的另一种改进,所述方法还包括:在将所述原始数据从消息队列写入到Phoenix之后从Phoenix将原始数据放入到消息队列。
作为本发明所述方法的又一种改进,所述方法还包括:定期将Phoenix同步到hive中。
作为本发明所述方法的再一种改进,所述方法还包括:按照不同主题的业务要求从hive中提取数据到主题库中。
为解决上述技术问题,根据本发明的第二方面,提供一种大数据集成处理系统,该系统包括:
第一写模块,用于将来自数据源的原始数据写入消息队列;
第二写模块,用于将所述原始数据从消息队列写入到Phoenix;
返回模块,用于标准化处理模块响应于从消息队列接收到所述原始数据,向消息队列返回参标数据,其中所述参标数据反映所述原始数据与相应标准数据之间的对应关系;
第一更新模块,用于将所述参标数据从消息队列更新到Phoenix中;
第三写模块,用于响应于标准化处理模块将标准数据写入消息队列,将标准数据写入到Phoenix中,根据所述参标数据使用所述标准数据更新相应原始数据的标准数据内容。
为解决上述技术问题,本发明的有形计算机可读介质,包括用于执行本发明的大数据集成处理方法的计算机程序代码。
为解决上述技术问题,本发明提供一种装置,包括至少一个处理器;及至少一个存储器,含有计算机程序代码,所述至少一个存储器和所述计算机程序代码被配置为利用所述至少一个处理器使得所述装置执行本发明的大数据集成处理方法的至少部分步骤。
按照本发明,大幅优化处理流程,减少定时器的使用,免除了中间表,通过消息队列中转,大幅提升了系统的吞吐量,极大提高了性能,可满足公司有10TB以上待处理数据的性能需求和存储处理分析未来海量数据处理的需求。此外,由于中间表需要存储的数据量非常大,本发明通过消除中间表的使用,为大数据平台节省了巨大的存储空间。
结合附图阅读本发明实施方式的详细描述后,本发明的其它特点和优点将变得更加清楚。
附图说明
图1为根据本发明方法的一实施例的流程图。
图2为根据本发明系统的一实施例的结构示意图。
为清晰起见,这些附图均为示意性及简化的图,它们只给出了对于理解本发明所必要的细节,而省略其他细节。
具体实施方式
下面参照附图对本发明的实施方式和实施例进行详细说明。
通过下面给出的详细描述,本发明的适用范围将显而易见。然而,应当理解,在详细描述和具体例子表明本发明优选实施例的同时,它们仅为说明目的给出。
图1示出了根据本发明的大数据集成处理方法的一优选实施例的流程图。
在步骤S102,对来自数据源的原始数据进行预处理。数据来源可包括在线数据和/或离线数据。预处理可包括对原始数据打标记以区分原始数据的来源如在线或离线。预处理还可包括对原始数据进行格式化处理和/或任何其它适当的处理。
在步骤S104,将预处理后的原始数据写入消息队列(MQ),在此优选使用Kafka消息队列,也可使用其它类型的消息队列。
在步骤S106,将预处理后的原始数据从Kafka消息队列写入到Phoenix。Phoenix是构建在Hbase上的一个SQL层,可实现创建表、插入数据、对Hbase数据查询等功能。
在步骤S108,从Phoenix将原始数据放入到Kafka消息队列。kafka是目前开源软件中性能最高的消息队列,对于处理并发消息能力极高,可以达到上百万/s。通过消息队列中转数据,除了消息队列本身可以避免数据错误外,还可以减少由于发送、接受两方接口通信失败引起的错误。
在步骤S110,标准化处理模块响应于从Kafka消息队列接收到预处理后的原始数据,向消息队列返回参标数据,参标数据指明原始数据与相应标准数据之间的对应关系。标准化处理模块也称为标准化平台,用于对输入的原始数据进行自动或人工标准化然后输出标准数据(标准化结果)。由于本发明并不关注标准化处理本身,在此不对具体的标准化处理进行描述。在大数据情形下,由于数据量很大,即便是自动标准化,得到标准数据也需要一定时间,更不用说一些数据的标准化还需要人工参与,所需要的时间会更长。在此通过响应于接收到原始数据,先返回一个指明原始数据与将要得到的相应标准数据之间的对应关系的参标数据,可减少处理等待时间,提高处理性能。
在步骤S112,将参标数据从Kafka消息队列更新到Phoenix中。
在步骤S114,响应于标准化处理模块将标准数据写入Kafka消息队列,将标准数据写入到Phoenix中,根据参标数据指明的对应关系使用标准数据更新相应原始数据的标准数据内容。
在另一实施例中,除图1所示步骤之外,本发明的大数据集成处理方法还可包括定期将Phoenix同步到hive中以对数据进行复杂处理。Hive是运行在Hadoop上的搜索工具,其让复杂的编辑过程简化成用SQL语言对海量数据的操作,支持对数据的复杂处理。而Phoenix仅支持简单查询。在其它实施例中,也可按照不同主题的业务要求从hive中提取数据到主题库中以供专门的目的使用,从而进一步提高性能。
图2示出了根据本发明的大数据集成处理系统的一优选实施例的框图。该系统包括:第一写模块202,用于将来自数据源的原始数据写入消息队列;第二写模块204,用于将所述原始数据从消息队列写入到Phoenix;返回模块206,用于标准化处理模块响应于从消息队列接收到所述原始数据,向消息队列返回参标数据,其中所述参标数据反映所述原始数据与相应标准数据之间的对应关系;第一更新模块208,用于将所述参标数据从消息队列更新到Phoenix中;第三写模块210,用于响应于标准化处理模块将标准数据写入消息队列,将标准数据写入到Phoenix中,根据所述参标数据使用所述标准数据更新相应原始数据的标准数据内容。
在其它实施例中,图2所示的系统还可包括:预处理模块,用于在将来自数据源的原始数据写入消息队列之前对所述原始数据进行预处理,其中所述预处理包括标记来源和/或格式化;和/或放入模块,用于在将所述原始数据从消息队列写入到Phoenix之后从Phoenix将原始数据放入到消息队列;和/或同步模块,用于定期将Phoenix同步到hive中。
在此所述的多个不同实施例或者其特定特征、结构或特性可在本发明的一个或多个实施方式中适当组合。另外,在某些情形下,只要适当,流程图中和/或流水处理描述的步骤顺序可修改,并不必须精确按照所描述的顺序执行。另外,本发明的多个不同方面可使用软件、硬件、固件或者其组合和/或执行所述功能的其它计算机实施的模块或装置进行实施。本发明的软件实施可包括保存在计算机可读介质中并由一个或多个处理器执行的可执行代码。计算机可读介质可包括计算机硬盘驱动器、ROM、RAM、闪存、便携计算机存储介质如CD-ROM、DVD-ROM、闪盘驱动器和/或例如具有通用串行总线(USB)接口的其它装置,和/或任何其它适当的有形或非短暂计算机可读介质或可执行代码可保存于其上并由处理器执行的计算机存储器。本发明可结合任何适当的操作系统使用。
除非明确指出,在此所用的单数形式“一”、“该”均包括复数含义(即具有“至少一”的意思)。应当进一步理解,说明书中使用的术语“具有”、“包括”和/或“包含”表明存在所述的特征、步骤、操作、元件和/或部件,但不排除存在或增加一个或多个其他特征、步骤、操作、元件、部件和/或其组合。如在此所用的术语“和/或”包括一个或多个列举的相关项目的任何及所有组合。
前面说明了本发明的一些优选实施例,但是应当强调的是,本发明不局限于这些实施例,而是可以本发明主题范围内的其它方式实现。本领域技术人员可以在本发明技术构思的启发和不脱离本发明内容的基础上对本发明做出各种变型和修改,这些变型或修改仍落入本发明的保护范围之内。

Claims (10)

1.一种大数据集成处理方法,其特征在于,所述方法包括:
将来自数据源的原始数据写入消息队列;
将所述原始数据从消息队列写入到Phoenix;
标准化处理模块响应于从消息队列接收到所述原始数据,向消息队列返回参标数据,其中所述参标数据反映所述原始数据与相应标准数据之间的对应关系;
将所述参标数据从消息队列更新到Phoenix中;
响应于标准化处理模块将标准数据写入消息队列,将标准数据写入到Phoenix中,根据所述参标数据使用所述标准数据更新相应原始数据的标准数据内容。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在将来自数据源的原始数据写入消息队列之前对所述原始数据进行预处理,其中所述预处理包括标记来源和/或格式化。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在将所述原始数据从消息队列写入到Phoenix之后从Phoenix将原始数据放入到消息队列。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
定期将Phoenix同步到hive中。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
按照不同主题的业务要求从hive中提取数据到主题库中。
6.根据权利要求1所述的方法,其特征在于,所述消息队列为Kafka消息队列。
7.一种大数据集成处理系统,其特征在于,所述系统包括:
第一写模块,用于将来自数据源的原始数据写入消息队列;
第二写模块,用于将所述原始数据从消息队列写入到Phoenix;
返回模块,用于标准化处理模块响应于从消息队列接收到所述原始数据,向消息队列返回参标数据,其中所述参标数据反映所述原始数据与相应标准数据之间的对应关系;
第一更新模块,用于将所述参标数据从消息队列更新到Phoenix中;
第三写模块,用于响应于标准化处理模块将标准数据写入消息队列,将标准数据写入到Phoenix中,根据所述参标数据使用所述标准数据更新相应原始数据的标准数据内容。
8.根据权利要求7所述的系统,其特征在于,所述系统还包括:
预处理模块,用于在将来自数据源的原始数据写入消息队列之前对所述原始数据进行预处理,其中所述预处理包括标记来源和/或格式化。
9.根据权利要求7所述的系统,其特征在于,所述系统还包括:
放入模块,用于在将所述原始数据从消息队列写入到Phoenix之后从Phoenix将原始数据放入到消息队列。
10.根据权利要求7所述的系统,其特征在于,所述系统还包括:
同步模块,用于定期将Phoenix同步到hive中。
CN201910959242.6A 2019-10-10 2019-10-10 大数据集成处理方法及系统 Active CN110955645B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910959242.6A CN110955645B (zh) 2019-10-10 2019-10-10 大数据集成处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910959242.6A CN110955645B (zh) 2019-10-10 2019-10-10 大数据集成处理方法及系统

Publications (2)

Publication Number Publication Date
CN110955645A true CN110955645A (zh) 2020-04-03
CN110955645B CN110955645B (zh) 2022-10-11

Family

ID=69975538

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910959242.6A Active CN110955645B (zh) 2019-10-10 2019-10-10 大数据集成处理方法及系统

Country Status (1)

Country Link
CN (1) CN110955645B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434001A (zh) * 2020-11-24 2021-03-02 杭州未名信科科技有限公司 支持数据预处理的多数据源可配置MongoDB数据同步系统、电子设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105243155A (zh) * 2015-10-29 2016-01-13 贵州电网有限责任公司电力调度控制中心 一种大数据抽取和交换系统
CN107391719A (zh) * 2017-07-31 2017-11-24 南京邮电大学 一种云环境中分布式流数据处理方法及系统
CN109145040A (zh) * 2018-06-28 2019-01-04 中译语通科技股份有限公司 一种基于双消息队列的数据治理方法
CA2997478A1 (en) * 2018-03-06 2019-09-06 Rahman, Shaw Common platform architecture - an alternative solution for streaming data integration in a system of systems, multi-layered business transformation (specific context: byte, map, graph, stream) [english]

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105243155A (zh) * 2015-10-29 2016-01-13 贵州电网有限责任公司电力调度控制中心 一种大数据抽取和交换系统
CN107391719A (zh) * 2017-07-31 2017-11-24 南京邮电大学 一种云环境中分布式流数据处理方法及系统
CA2997478A1 (en) * 2018-03-06 2019-09-06 Rahman, Shaw Common platform architecture - an alternative solution for streaming data integration in a system of systems, multi-layered business transformation (specific context: byte, map, graph, stream) [english]
CN109145040A (zh) * 2018-06-28 2019-01-04 中译语通科技股份有限公司 一种基于双消息队列的数据治理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈任飞: ""基于企业营业日志的大数据分析与辅助决策研究"", 《中国优秀硕士学位论文全文数据库 经济与管理科学辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434001A (zh) * 2020-11-24 2021-03-02 杭州未名信科科技有限公司 支持数据预处理的多数据源可配置MongoDB数据同步系统、电子设备及介质

Also Published As

Publication number Publication date
CN110955645B (zh) 2022-10-11

Similar Documents

Publication Publication Date Title
CN110083639B (zh) 一种基于聚类分析的数据血缘智能溯源的方法及装置
US9619512B2 (en) Memory searching system and method, real-time searching system and method, and computer storage medium
CN111291049A (zh) 一种创建表的方法、装置、设备和存储介质
CN109635305B (zh) 语音翻译方法及装置、设备及存储介质
CN109947924B (zh) 对话系统训练数据构建方法、装置、电子设备及存储介质
US20140237554A1 (en) Unified platform for big data processing
CN110647318B (zh) 一种有状态应用的实例创建方法、装置、设备及介质
CN111079408A (zh) 一种语种识别方法、装置、设备及存储介质
CN111061740B (zh) 一种数据同步方法、设备和存储介质
CN114722119A (zh) 数据同步方法及系统
CN112860706A (zh) 一种业务的处理方法、装置、设备及存储介质
CN113408306A (zh) 翻译方法及分类模型的训练方法、装置、设备和存储介质
CN114996288A (zh) 数据比对方法及装置、计算机存储介质、电子设备
CN112613964A (zh) 一种对账方法、装置、设备及存储介质
CN110955645B (zh) 大数据集成处理方法及系统
CN110728156B (zh) 翻译方法、装置、电子设备及可读存储介质
CN111324653B (zh) 一种离线数据的采集方法、装置、设备及存储介质
CN110569230A (zh) 数据库设计模型与设计文档互相转换方法、系统及设备
CN112000738B (zh) 数据库连接的切换方法、装置、设备及介质
CN116074183B (zh) 一种基于规则引擎的c3超时分析方法、装置及设备
CN114677125A (zh) 标准数据处理方法、装置及系统
CN115495440A (zh) 异构数据库的数据迁移方法、装置、设备及存储介质
CN114265966A (zh) 一种数据处理方法、装置、电子设备和存储介质
CN113076254A (zh) 一种测试用例集的生成方法和装置
CN110781647B (zh) 一种基于Flink实现数据格式校验的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant