CN109408586A - 一种分布式多元异构数据融合方法 - Google Patents

一种分布式多元异构数据融合方法 Download PDF

Info

Publication number
CN109408586A
CN109408586A CN201811019744.2A CN201811019744A CN109408586A CN 109408586 A CN109408586 A CN 109408586A CN 201811019744 A CN201811019744 A CN 201811019744A CN 109408586 A CN109408586 A CN 109408586A
Authority
CN
China
Prior art keywords
data
buffer storage
fusion
module
storage pond
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811019744.2A
Other languages
English (en)
Inventor
周先东
刘国庆
章文友
孟彦
朱静轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Network Information Security Ltd By Share Ltd
Original Assignee
China Network Information Security Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Network Information Security Ltd By Share Ltd filed Critical China Network Information Security Ltd By Share Ltd
Priority to CN201811019744.2A priority Critical patent/CN109408586A/zh
Publication of CN109408586A publication Critical patent/CN109408586A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据融合技术领域,具体涉及一种分布式多元异构数据融合方法,包括数据获取模块,数据转换模块、数据融合模块,具体实施步骤包括:建立并提交原始数据源配置文件、数据获取模块将源数据进行拉取、任务切割、将得到的数据集合缓存至数据缓存池、数据转换模块从数据缓存池中获取数据并对获取的数据进行清洗、数据转换模块再将清洗后的数据进行格式转换、数据转换模块将转换后的数据缓存至数据缓存池中。本发明的有益效果:本发明中的关键步骤是任务切割,通过从原始数据读取数据,存入数据缓存池中,再通过清洗,转换,将源数据融合到目标数据中,提高数据融合的速度,且实现大数据量分布式融合。

Description

一种分布式多元异构数据融合方法
技术领域
本发明涉及数据融合技术领域,具体涉及一种分布式多元异构数据融合方法。
背景技术
随着互联网技术的飞快发展,各类数据之间相互融合成为各大行业急需解决的难题,目前虽然已有不同的解决方案,但大多只是针对特定业务场景的才能使用,无法做到通用场景下的数据互联互通或者轻定制化的融合需求。
通常的数据融合方法,就是简单的从一个数据库读取数据然后存储到另一个数据库中,但是目前的数据种类繁多,数据量大,有结构化和半结构化的数据,传统数据融合方法很难满足要求。
发明内容
本发明的目的在于克服现有技术中存在的问题,提供一种分布式多元异构数据融合方法,它可以实现支持绝大多结构化数据库和半结构化数据库、支持大数据量分布式融合。
为实现上述技术目的,达到上述技术效果,本发明是通过以下技术方案实现的:
一种分布式多元异构数据融合方法,包括数据获取模块,数据转换模块、数据融合模块,具体实施步骤包括:
S1,建立并提交原始数据源配置文件;
S2,所述数据获取模块将配置文件中的源数据进行拉取;
S3,任务切割:根据数据主键ID规则将大数据量数据集合切分成同等大小的数据集合;
S4,将得到的数据集合缓存至数据缓存池;
S5,所述数据转换模块从数据缓存池中获取数据并对获取的数据进行清洗;
S6,所述数据转换模块再将清洗后的数据进行格式转换;
S7,所述数据转换模块将转换后的数据缓存至数据缓存池中;
S8,所述数据融合模块从所述S1中的配置文件中获取目标源数据;
S9,所述数据融合模块将数据缓存池中的数据写入到目标源数据中;
S10,整个融合过程以流水式方式循环,直至所有数据融合完毕,最终数据缓存池中再无数据。
进一步地,所述S2中的拉取方式为分布式方法。
进一步地,所述S5中清洗的方式为过滤空行数据。
本发明的有益效果:本发明中的关键步骤是任务切割,通过从原始数据读取数据,存入数据缓存池中,再通过清洗,转换,将源数据融合到目标数据中,提高数据融合的速度,且实现大数据量分布式融合。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的方法流程示意图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示的一种分布式多元异构数据融合方法,包括数据获取模块,数据转换模块、数据融合模块,具体实施步骤包括:
S1,建立并提交原始数据源配置文件;
S2,所述数据获取模块将配置文件中的源数据进行拉取;
S3,任务切割:根据数据主键ID规则将大数据量数据集合切分成同等大小的数据集合;
S4,将得到的数据集合缓存至数据缓存池;
S5,所述数据转换模块从数据缓存池中获取数据并对获取的数据进行清洗;
S6,所述数据转换模块再将清洗后的数据进行格式转换;
S7,所述数据转换模块将转换后的数据缓存至数据缓存池中;
S8,所述数据融合模块从所述S1中的配置文件中获取目标源数据;
S9,所述数据融合模块将数据缓存池中的数据写入到目标源数据中,进一步地可通过分布式方法将数据写入到目标源数据中,所述分布式方法为利用闲置计算机的CPU进行分散式的计算;
S10,整个融合过程以流水式方式循环,直至所有数据融合完毕,最终数据缓存池中再无数据。
所述S2中的拉取方式为分布式方法。
所述S5中清洗的方式为过滤空行数据。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (3)

1.一种分布式多元异构数据融合方法,其特征在于,包括数据获取模块,数据转换模块、数据融合模块,具体实施步骤包括:
S1,建立并提交原始数据源配置文件;
S2,所述数据获取模块将配置文件中的源数据进行拉取;
S3,任务切割:根据数据主键ID规则将大数据量数据集合切分成同等大小的数据集合;
S4,将得到的数据集合缓存至数据缓存池;
S5,所述数据转换模块从数据缓存池中获取数据并对获取的数据进行清洗;
S6,所述数据转换模块再将清洗后的数据进行格式转换;
S7,所述数据转换模块将转换后的数据缓存至数据缓存池中;
S8,所述数据融合模块从所述S1中的配置文件中获取目标源数据;
S9,所述数据融合模块将数据缓存池中的数据写入到目标源数据中;
S10,整个融合过程以流水式方式循环,直至所有数据融合完毕,最终数据缓存池中再无数据。
2.根据权利要求1所述的一种分布式多元异构数据融合方法,其特征在于,所述S2中的拉取方式为分布式方法。
3.根据权利要求1所述的一种分布式多元异构数据融合方法,其特征在于,所述S5中清洗的方式为过滤空行数据。
CN201811019744.2A 2018-09-03 2018-09-03 一种分布式多元异构数据融合方法 Pending CN109408586A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811019744.2A CN109408586A (zh) 2018-09-03 2018-09-03 一种分布式多元异构数据融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811019744.2A CN109408586A (zh) 2018-09-03 2018-09-03 一种分布式多元异构数据融合方法

Publications (1)

Publication Number Publication Date
CN109408586A true CN109408586A (zh) 2019-03-01

Family

ID=65463861

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811019744.2A Pending CN109408586A (zh) 2018-09-03 2018-09-03 一种分布式多元异构数据融合方法

Country Status (1)

Country Link
CN (1) CN109408586A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199363A (zh) * 2020-10-15 2021-01-08 南京数溪智能科技有限公司 一种农业多源异构数据的融合存储方法与系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170075964A1 (en) * 2015-09-11 2017-03-16 International Business Machines Corporation Transforming and loading data utilizing in-memory processing
CN106897411A (zh) * 2017-02-20 2017-06-27 广东奡风科技股份有限公司 基于Spark技术的ETL系统及其方法
CN107193967A (zh) * 2017-05-25 2017-09-22 南开大学 一种多源异构行业领域大数据处理全链路解决方案
CN107402976A (zh) * 2017-07-03 2017-11-28 国网山东省电力公司经济技术研究院 一种基于多元异构模型的电网多源数据融合方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170075964A1 (en) * 2015-09-11 2017-03-16 International Business Machines Corporation Transforming and loading data utilizing in-memory processing
CN106897411A (zh) * 2017-02-20 2017-06-27 广东奡风科技股份有限公司 基于Spark技术的ETL系统及其方法
CN107193967A (zh) * 2017-05-25 2017-09-22 南开大学 一种多源异构行业领域大数据处理全链路解决方案
CN107402976A (zh) * 2017-07-03 2017-11-28 国网山东省电力公司经济技术研究院 一种基于多元异构模型的电网多源数据融合方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199363A (zh) * 2020-10-15 2021-01-08 南京数溪智能科技有限公司 一种农业多源异构数据的融合存储方法与系统

Similar Documents

Publication Publication Date Title
CN102426609B (zh) 一种基于MapReduce编程架构的索引生成方法和装置
CN106339274A (zh) 一种数据快照获取的方法及系统
CN103052950A (zh) 用于过滤网页内容的系统和方法
CN102110167B (zh) 数控系统中实现日志信息管理的方法
CN105260374A (zh) 异步流水线式的图查询方法及系统
CN111027456B (zh) 基于图像识别的机械水表读数识别方法
CN115829058B (zh) 训练样本处理方法、跨模态匹配方法、装置、设备和介质
CN110716970A (zh) 异构数据同构化处理方法、装置、计算机设备及存储介质
CN103353866A (zh) 一种支持xna技术的三维模型文件格式转换方法
CN109408586A (zh) 一种分布式多元异构数据融合方法
CN103488702A (zh) 基于SorlCloud非结构化数据检索方法和系统
CN112764004A (zh) 一种点云处理方法、装置、设备及存储介质
Zhang et al. Dimension embeddings for monocular 3d object detection
CN113722600B (zh) 应用于大数据的数据查询方法、装置、设备及产品
CN113360683B (zh) 训练跨模态检索模型的方法以及跨模态检索方法和装置
CN104794567B (zh) 一种基于HBase的传染病数据管理方法
CN114490763A (zh) 一种单机高性能批流一体数据处理系统
Huang et al. Attention‐Enhanced One‐Stage Algorithm for Traffic Sign Detection and Recognition
CN109885607A (zh) 一种工业海量非结构化数据处理方法及系统
KR20210042272A (ko) 지능형 응답 방법, 장치, 기기, 저장 매체 및 컴퓨터 프로그램
CN112036387A (zh) 基于门控卷积神经网络的新闻画面拍摄角度识别方法
CN104281581A (zh) 网页的推荐位内容曝光量的监测方法和系统
CN103106270B (zh) 云数据融合方法和系统
US20230143568A1 (en) Intelligent table suggestion and conversion for text
CN114820885A (zh) 图像编辑方法及其模型训练方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190301