CN112347093A - 便于海量多源异构数据的清洗整合存储的方法 - Google Patents

便于海量多源异构数据的清洗整合存储的方法 Download PDF

Info

Publication number
CN112347093A
CN112347093A CN202011225571.7A CN202011225571A CN112347093A CN 112347093 A CN112347093 A CN 112347093A CN 202011225571 A CN202011225571 A CN 202011225571A CN 112347093 A CN112347093 A CN 112347093A
Authority
CN
China
Prior art keywords
data
source
order
link
integrating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011225571.7A
Other languages
English (en)
Other versions
CN112347093B (zh
Inventor
刘源
周含笑
姜宇
于雷
赵辉
谢雨
王兆祥
董丽娜
李墨野
刘京京
王建勋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Space Star Data System Technology Co ltd
Original Assignee
Harbin Space Star Data System Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Space Star Data System Technology Co ltd filed Critical Harbin Space Star Data System Technology Co ltd
Priority to CN202011225571.7A priority Critical patent/CN112347093B/zh
Publication of CN112347093A publication Critical patent/CN112347093A/zh
Application granted granted Critical
Publication of CN112347093B publication Critical patent/CN112347093B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种便于海量多源异构数据的清洗整合存储的方法,属于海量多源异构数据处理领域,海量多源异构数据处理中全局因素无法整合等问题;本发明通过构造数据源集合、遍历集合,记录类型及数据协议、数据接入环节、协议适配环节,形成1阶数据,推送缓存队列、拉取1阶数据,清洗环节,形成2阶数据,推送缓存队列、取2阶数据,主被动混合模式转换整合环节,形成3阶数据,推送缓存队列以及最终拉取3阶数据,分布存储环节,完成最终存储。本发明提供的方法,方便快捷、流程化明确,可降低海量多源异构数据的清洗整合存储各环节的耦合程度,通过逐层迁移、降阶处理,可有效降低海量数据压力、削峰填谷,能够提升整个方法过程的鲁棒性。

Description

便于海量多源异构数据的清洗整合存储的方法
技术领域
本发明涉及海量多源异构数据处理领域,尤其涉及一种便于海量多源异构数据的清洗整合存储的方法。
背景技术
在智慧城市领域,各种各样的智能终端以及传感器网络越来越多,各个城市应用专题也越来越广泛,这使得智慧城市领域下的数据来源变得更加丰富,其数据量也成为了海量数据、大数据的维度,各类数据源也属于海量的、多源的、异构的数据源。那么在此技术背景下,海量多源异构数据处理则成为了该领域的技术重点。
面向海量多源异构数据处理领域,针对其接入-清洗-整合-存储的过程,需找到一种方便快捷、工艺流程明确的过程方法,同时考虑源数据结构的不同以及最终数据的应用属性不同,而且当面对海量数据进行清洗整合存储时,海量数据造成的压力也要进行降低。
因而,面向海量多源异构数据处理领域,针对其接入-清洗-整合-存储完整过程,亟需一种能够考虑全局因素的便于海量多源异构数据的清洗整合存储的方法。
发明内容
为解决海量多源异构数据处理中全局因素无法整合的问题,提供一种能够考虑全局因素的便于海量多源异构数据的清洗整合存储的方法,发明的方案如下:具体方法步骤是:
步骤一,构造数据源集合;
步骤二,遍历数据源集合;
步骤三,数据接入环节;
步骤四,协议适配环节,形成1阶数据,推送缓存队列;
步骤五,拉取1阶数据,清洗环节,形成2阶数据,推送缓存队列;
步骤六,取2阶数据,主被动混合模式转换整合环节,形成3阶数据,推送缓存队列;
步骤七,拉取3阶数据,分布存储环节,完成最终存储。
进一步地,在步骤一中,所述的构造数据源集合,为海量多源异构数据源构造成的原始采集数据源集合;
进一步地,在步骤二中,所述的遍历数据源集合,其遍历过程需记录集合中各个数据源的源类型、源个数、源维度以及源数据协议。
进一步地,在步骤三中所述的数据接入环节,为数据源在进行数据处理前的接入。
进一步地,在步骤四中,所述的协议适配环节,按照各数据源的源类型及数据协议进行对应的首次解析,解析后的数据形成1阶数据,推送至数据缓存队列中的1阶主题;
进一步地,所述的清洗环节,首先进行1阶数据拉取,然后依据数据清洗规则进行异常、问题数据的清洗、剔除,清洗后的数据形成2阶数据,推送至数据缓存队列的2阶主题;
进一步地,所述的主被动混合模式转换整合环节,首先进行2阶数据拉取,一部分特殊动态数据按照主动自定义模式进行转换整合,一部分常规业务数据按照被动自动化模式进行转换整合,两个模式整合后的数据形成3阶数据,推送至数据缓存队列中的3阶主题;
进一步地,所述的存储环节,先拉取3阶数据,然后通过分布式机制进行海量数据存储,将业务基础数据存入到关系型存储中,将动态时序数据存入到时序存储中,完成最终存储。
本发明的有益效果包括:
1、本发明提供的方法,方便快捷、流程化明确,可降低海量多源异构数据的清洗整合存储各环节的耦合程度,为该领域提供了一种新的解决问题角度与思路参考。
2、本发明提供的方法,通过接入后的协议适配与主被动混合模式数据转换整合,同时兼顾考虑了最终数据的应用属性不同,能够后有效满足多源异构数据从接入到入库的规范化过程。
3、本发明提供的方法,当面对海量数据进行清洗整合存储时,通过数据缓存队列的阶段性主题模式,进行逐层迁移、降阶处理,可有效降低海量数据压力、削峰填谷,能够提升整个方法过程的鲁棒性。
附图说明
图1为本发明便于海量多源异构数据的清洗整合存储的方法的流程图;
图2为本发明最后一个实施例的便于海量多源异构数据的清洗整合存储的方法的处理过程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下对本发明实施例的便于海量多源异构数据的清洗整合存储的方法的具体实施方式进行说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
具体实施方式一:一种便于海量多源异构数据的清洗整合存储的方法,该方法包括如下步骤:执行构造数据源集合;进行集合遍历,记录类型及数据协议;进行数据接入环节;再通过协议适配环节,形成1阶数据,推送缓存队列;拉取1阶数据,进行清洗环节,形成2阶数据,推送缓存队列;拉取2阶数据,进行主被动混合模式转换整合环节,形成3阶数据,推送缓存队列;拉取3阶数据,进行分布存储环节,完成最终存储。
具体实施方式二:根据他实施方式一所述的方法,各个步骤还可细化为:
构造数据源集合环节,是将海量多源异构数据源构造成的原始采集数据源集合;
遍历集合环节,是记录集合中各个数据源的源类型、源个数、源维度以及源数据协议,形成数组列表;
数据接入环节,是数据源在进行数据处理前的接入;
协议适配环节,是按照各数据源的源类型及数据协议进行对应的首次解析,解析后的数据形成1阶数据,推送至数据缓存队列中的1阶主题;
清洗环节,首先是进行1阶数据拉取,然后依据数据清洗规则进行异常、问题数据的清洗、剔除,清洗后的数据形成2阶数据,推送至数据缓存队列的2阶主题;
主被动混合模式转换整合环节,首先是进行2阶数据拉取,一部分特殊动态数据按照主动自定义模式进行转换整合,一部分常规业务数据按照被动自动化模式进行转换整合,两个模式整合后的数据形成3阶数据,推送至数据缓存队列中的3阶主题;
分布存储环节,首先是进行3阶数据拉取,然后通过分布式机制进行海量数据存储,将业务基础数据存入到关系型存储中,将动态时序数据存入到时序存储中,完成最终存储。
具体实施方式三:实施例提供一种模拟应用场景,在现有数据库类数据源3个:DB1、DB2、DB3,excel类数据源2个:EL1、EL2,json类数据源1个:JN1,protocol buffer类数据源2个PB1,PB2,传感器类数据源2个:SN1、SN2,共5类数据源,个数为10个。现需将这10个数据源的数据进行接入-清洗-整合-存储的完整过程,那么依照方法方法进行该过程的实施:
首先构造数据源集合,集合内元素个数为10;遍历集合,记录(数据源标识,数据源类型,接入方式,适配器)四元组,形成列表:
{(DB1,DB,JDBC,JavaApi),(DB2,DB,JDBC,JavaApi),(DB3,DB,JDBC,JavaApi),(EL1,EL,FIO,Buffer),(EL2,EL,FIO,Buffer),(JN1,JSON,HTTP,Json),(PB1,PB,HTTP,Pb),(PB2,PB,HTTP,Pb),(SN1,SN,SOCKET,Buffer),(SN2,SN,SOCKET,Buffer)};
按照四元组中的接入方式进行数据接入;按照四元组中的适配器,实现解析,解析后的数据形成10组1阶数据,推送至数据缓存队列中的1阶主题;对1阶数据拉取,进行异常、问题数据的清洗、剔除,清洗后的数据形成10组2阶数据,推送至数据缓存队列的2阶主题;对2阶数据进行拉取,JN1、PB1、PB2、SN1、SN2这5组2阶数据按照主动自定义模式进行字节级别或关键值级别的转换整合,DB1、DB2、DB3、EL1、EL2这5组2阶数据按照被动自动化模式进行字段级别的转换整合,两个模式整合后的数据形成10组3阶数据,推送至数据缓存队列中的3阶主题;对3阶数据进行拉取,将DB1、DB2、DB3、EL1、EL2这5组3阶数据存入到关系型存储中,N1、PB1、PB2、SN1、SN2这5组2阶数据存入到时序存储中,完成最终存储,该实施例的便于海量多源异构数据的清洗整合存储的方法的处理过程如图2所示。
综上,本发明提供的一种便于海量多源异构数据的清洗整合存储的方法,首先构造数据源集合;然后进行集合遍历,记录类型及数据协议;再进行数据接入环节;通过协议适配环节,形成1阶数据,推送缓存队列;拉取1阶数据,进行清洗环节,形成2阶数据,推送缓存队列;拉取2阶数据,进行主被动混合模式转换整合环节,形成3阶数据,推送缓存队列;拉取3阶数据,进行分布存储环节,完成最终存储。本发明提供的方法,方便快捷、流程化明确,可降低海量多源异构数据的清洗整合存储各环节的耦合程度,为该领域提供了一种新的解决问题角度与思路参考。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种便于海量多源异构数据的清洗整合存储的方法,其特征在于:具体步骤如下:
步骤一,构造数据源集合;
步骤二,遍历数据源集合;
步骤三,数据接入环节;
步骤四,协议适配环节,形成1阶数据,推送缓存队列;
步骤五,拉取1阶数据,清洗环节,形成2阶数据,推送缓存队列;
步骤六,取2阶数据,主被动混合模式转换整合环节,形成3阶数据,推送缓存队列;
步骤七,拉取3阶数据,分布存储环节,完成最终存储。
2.根据权利要求1所述的便于海量多源异构数据的清洗整合存储的方法,其特征在于:在步骤一中,所述的改造数据源集合,为海量多源异构数据源构造成的原始采集数据源集合。
3.根据权利要求1所述的便于海量多源异构数据的清洗整合存储的方法,其特征在于:在步骤二中,所述的遍历数据源集合,其遍历过程需记录集合中各个数据源的源类型、源个数、源维度以及源数据协议。
4.根据权利要求1所述的便于海量多源异构数据的清洗整合存储的方法,其特征在于:在步骤三中,所述的数据接入环节,为数据源在进行数据处理前的接入。
5.根据权利要求1所述的便于海量多源异构数据的清洗整合存储的方法,其特征在于:在步骤四中,所述的协议适配环节,按照各数据源的源类型及数据协议进行对应的首次解析,解析后的数据形成1阶数据,推送至数据缓存队列中的1阶主题。
6.根据权利要求5所述的便于海量多源异构数据的清洗整合存储的方法,其特征在于:所述的清洗环节,首先进行1阶数据拉取,然后依据数据清洗规则进行异常、问题数据的清洗、剔除,清洗后的数据形成2阶数据,推送至数据缓存队列的2阶主题。
7.根据权利要求6所述的便于海量多源异构数据的清洗整合存储的方法,其特征在于:所述的主被动混合模式转换整合环节,首先进行2阶数据拉取,一部分特殊动态数据按照主动自定义模式进行转换整合,一部分常规业务数据按照被动自动化模式进行转换整合,两个模式整合后的数据形成3阶数据,推送至数据缓存队列中的3阶主题。
8.根据权利要求7所述的便于海量多源异构数据的清洗整合存储的方法,其特征在于:所述的存储环节,先拉取3阶数据,然后通过分布式机制进行海量数据存储,将业务基础数据存入到关系型存储中,将动态时序数据存入到时序存储中,完成最终存储。
CN202011225571.7A 2020-11-05 2020-11-05 便于海量多源异构数据的清洗整合存储的方法 Active CN112347093B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011225571.7A CN112347093B (zh) 2020-11-05 2020-11-05 便于海量多源异构数据的清洗整合存储的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011225571.7A CN112347093B (zh) 2020-11-05 2020-11-05 便于海量多源异构数据的清洗整合存储的方法

Publications (2)

Publication Number Publication Date
CN112347093A true CN112347093A (zh) 2021-02-09
CN112347093B CN112347093B (zh) 2021-08-03

Family

ID=74429797

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011225571.7A Active CN112347093B (zh) 2020-11-05 2020-11-05 便于海量多源异构数据的清洗整合存储的方法

Country Status (1)

Country Link
CN (1) CN112347093B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113723486A (zh) * 2021-08-23 2021-11-30 水利部交通运输部国家能源局南京水利科学研究院 一种离心泵多模态监测数据清洗及建模方法
CN117009334A (zh) * 2023-08-04 2023-11-07 哈尔滨航天恒星数据系统科技有限公司 一种海量农业多源异构传感数据智能接入及处理方法、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512201A (zh) * 2015-11-26 2016-04-20 晶赞广告(上海)有限公司 数据收集和加工方法及装置
CN106339509A (zh) * 2016-10-26 2017-01-18 国网山东省电力公司临沂供电公司 一种基于大数据技术的电网运营数据共享系统
CN106528865A (zh) * 2016-12-02 2017-03-22 航天科工智慧产业发展有限公司 一种快速精准的交通大数据清洗方法
CN106649636A (zh) * 2016-12-08 2017-05-10 北京锐安科技有限公司 一种基于移动终端的人员流动性分析方法及装置
CN109241156A (zh) * 2018-07-31 2019-01-18 安徽四创电子股份有限公司 基于etl工具从关系型数据库向非关系型数据库更新的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512201A (zh) * 2015-11-26 2016-04-20 晶赞广告(上海)有限公司 数据收集和加工方法及装置
CN106339509A (zh) * 2016-10-26 2017-01-18 国网山东省电力公司临沂供电公司 一种基于大数据技术的电网运营数据共享系统
CN106528865A (zh) * 2016-12-02 2017-03-22 航天科工智慧产业发展有限公司 一种快速精准的交通大数据清洗方法
CN106649636A (zh) * 2016-12-08 2017-05-10 北京锐安科技有限公司 一种基于移动终端的人员流动性分析方法及装置
CN109241156A (zh) * 2018-07-31 2019-01-18 安徽四创电子股份有限公司 基于etl工具从关系型数据库向非关系型数据库更新的方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113723486A (zh) * 2021-08-23 2021-11-30 水利部交通运输部国家能源局南京水利科学研究院 一种离心泵多模态监测数据清洗及建模方法
CN117009334A (zh) * 2023-08-04 2023-11-07 哈尔滨航天恒星数据系统科技有限公司 一种海量农业多源异构传感数据智能接入及处理方法、电子设备及存储介质
CN117009334B (zh) * 2023-08-04 2024-03-01 哈尔滨航天恒星数据系统科技有限公司 一种海量农业多源异构传感数据智能接入及处理方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN112347093B (zh) 2021-08-03

Similar Documents

Publication Publication Date Title
CN112347093B (zh) 便于海量多源异构数据的清洗整合存储的方法
CN105989194A (zh) 表数据比较的方法和系统
CN105956015A (zh) 一种基于大数据的服务平台整合方法
CN110389950B (zh) 一种快速运行的大数据清洗方法
CN111078780A (zh) 一种ai优化数据治理的方法
CN106164865A (zh) 用于数据复制的依赖性感知的事务批处理
CN112256782A (zh) 基于Hadoop的电力大数据处理系统
CN103686244A (zh) 视频数据的管理方法及其系统
CN112231333A (zh) 一种生态环境数据共享交换方法和系统
CN110909881B (zh) 一种面向跨媒体知识推理任务的知识表示方法
CN113868230A (zh) 一种基于Spark计算框架的大表连接优化方法
CN108255966A (zh) 一种数据迁移方法及存储介质
CN108073641B (zh) 查询数据表的方法和装置
CN116431598A (zh) 一种基于Redis的关系型数据库全量内存化的方法
CN104965846B (zh) MapReduce平台上的虚拟人建立方法
CN107943412A (zh) 一种分区分裂、删除分区中数据文件的方法、装置及系统
CN115329011A (zh) 数据模型的构建方法、数据查询的方法、装置及存储介质
CN116775632A (zh) 一种基于车载终端采集数据的近实时清洗数据执行方法
CN111125079A (zh) 一种输变电设备远程运维数据清洗方法
CN110162513A (zh) 用于智能电网大数据处理的数据表连接方法及计算机可读存储介质
CN110389939A (zh) 一种基于NoSQL和分布式文件系统的物联网存储系统
CN115827885A (zh) 一种运维知识图谱的构建方法、装置及电子设备
CN106227857B (zh) 数据推送和加载方法和装置
CN114722045A (zh) 时间序列数据的存储方法及装置
CN115098486A (zh) 基于海关业务大数据的实时数据采集方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant