CN112347093A

CN112347093A - 便于海量多源异构数据的清洗整合存储的方法

Info

Publication number: CN112347093A
Application number: CN202011225571.7A
Authority: CN
Inventors: 刘源; 周含笑; 姜宇; 于雷; 赵辉; 谢雨; 王兆祥; 董丽娜; 李墨野; 刘京京; 王建勋
Original assignee: Harbin Space Star Data System Technology Co ltd
Current assignee: Harbin Space Star Data System Technology Co ltd
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2021-02-09
Anticipated expiration: 2040-11-05
Also published as: CN112347093B

Abstract

本发明涉及一种便于海量多源异构数据的清洗整合存储的方法，属于海量多源异构数据处理领域，海量多源异构数据处理中全局因素无法整合等问题；本发明通过构造数据源集合、遍历集合，记录类型及数据协议、数据接入环节、协议适配环节，形成1阶数据，推送缓存队列、拉取1阶数据，清洗环节，形成2阶数据，推送缓存队列、取2阶数据，主被动混合模式转换整合环节，形成3阶数据，推送缓存队列以及最终拉取3阶数据，分布存储环节，完成最终存储。本发明提供的方法，方便快捷、流程化明确，可降低海量多源异构数据的清洗整合存储各环节的耦合程度，通过逐层迁移、降阶处理，可有效降低海量数据压力、削峰填谷，能够提升整个方法过程的鲁棒性。

Description

便于海量多源异构数据的清洗整合存储的方法

技术领域

本发明涉及海量多源异构数据处理领域，尤其涉及一种便于海量多源异构数据的清洗整合存储的方法。

背景技术

在智慧城市领域，各种各样的智能终端以及传感器网络越来越多，各个城市应用专题也越来越广泛，这使得智慧城市领域下的数据来源变得更加丰富，其数据量也成为了海量数据、大数据的维度，各类数据源也属于海量的、多源的、异构的数据源。那么在此技术背景下，海量多源异构数据处理则成为了该领域的技术重点。

面向海量多源异构数据处理领域，针对其接入-清洗-整合-存储的过程，需找到一种方便快捷、工艺流程明确的过程方法，同时考虑源数据结构的不同以及最终数据的应用属性不同，而且当面对海量数据进行清洗整合存储时，海量数据造成的压力也要进行降低。

因而，面向海量多源异构数据处理领域，针对其接入-清洗-整合-存储完整过程，亟需一种能够考虑全局因素的便于海量多源异构数据的清洗整合存储的方法。

发明内容

为解决海量多源异构数据处理中全局因素无法整合的问题，提供一种能够考虑全局因素的便于海量多源异构数据的清洗整合存储的方法，发明的方案如下：具体方法步骤是：

步骤一，构造数据源集合；

步骤二，遍历数据源集合；

步骤三，数据接入环节；

步骤四，协议适配环节，形成1阶数据，推送缓存队列；

步骤五，拉取1阶数据，清洗环节，形成2阶数据，推送缓存队列；

步骤六，取2阶数据，主被动混合模式转换整合环节，形成3阶数据，推送缓存队列；

步骤七，拉取3阶数据，分布存储环节，完成最终存储。

进一步地，在步骤一中，所述的构造数据源集合，为海量多源异构数据源构造成的原始采集数据源集合；

进一步地，在步骤二中，所述的遍历数据源集合，其遍历过程需记录集合中各个数据源的源类型、源个数、源维度以及源数据协议。

进一步地，在步骤三中所述的数据接入环节，为数据源在进行数据处理前的接入。

进一步地，在步骤四中，所述的协议适配环节，按照各数据源的源类型及数据协议进行对应的首次解析，解析后的数据形成1阶数据，推送至数据缓存队列中的1阶主题；

进一步地，所述的清洗环节，首先进行1阶数据拉取，然后依据数据清洗规则进行异常、问题数据的清洗、剔除，清洗后的数据形成2阶数据，推送至数据缓存队列的2阶主题；

进一步地，所述的主被动混合模式转换整合环节，首先进行2阶数据拉取，一部分特殊动态数据按照主动自定义模式进行转换整合，一部分常规业务数据按照被动自动化模式进行转换整合，两个模式整合后的数据形成3阶数据，推送至数据缓存队列中的3阶主题；

进一步地，所述的存储环节，先拉取3阶数据，然后通过分布式机制进行海量数据存储，将业务基础数据存入到关系型存储中，将动态时序数据存入到时序存储中，完成最终存储。

本发明的有益效果包括：

1、本发明提供的方法，方便快捷、流程化明确，可降低海量多源异构数据的清洗整合存储各环节的耦合程度，为该领域提供了一种新的解决问题角度与思路参考。

2、本发明提供的方法，通过接入后的协议适配与主被动混合模式数据转换整合，同时兼顾考虑了最终数据的应用属性不同，能够后有效满足多源异构数据从接入到入库的规范化过程。

3、本发明提供的方法，当面对海量数据进行清洗整合存储时，通过数据缓存队列的阶段性主题模式，进行逐层迁移、降阶处理，可有效降低海量数据压力、削峰填谷，能够提升整个方法过程的鲁棒性。

附图说明

图1为本发明便于海量多源异构数据的清洗整合存储的方法的流程图；

图2为本发明最后一个实施例的便于海量多源异构数据的清洗整合存储的方法的处理过程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下对本发明实施例的便于海量多源异构数据的清洗整合存储的方法的具体实施方式进行说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

具体实施方式一：一种便于海量多源异构数据的清洗整合存储的方法，该方法包括如下步骤：执行构造数据源集合；进行集合遍历，记录类型及数据协议；进行数据接入环节；再通过协议适配环节，形成1阶数据，推送缓存队列；拉取1阶数据，进行清洗环节，形成2阶数据，推送缓存队列；拉取2阶数据，进行主被动混合模式转换整合环节，形成3阶数据，推送缓存队列；拉取3阶数据，进行分布存储环节，完成最终存储。

具体实施方式二：根据他实施方式一所述的方法，各个步骤还可细化为：

构造数据源集合环节，是将海量多源异构数据源构造成的原始采集数据源集合；

遍历集合环节，是记录集合中各个数据源的源类型、源个数、源维度以及源数据协议，形成数组列表；

数据接入环节，是数据源在进行数据处理前的接入；

协议适配环节，是按照各数据源的源类型及数据协议进行对应的首次解析，解析后的数据形成1阶数据，推送至数据缓存队列中的1阶主题；

清洗环节，首先是进行1阶数据拉取，然后依据数据清洗规则进行异常、问题数据的清洗、剔除，清洗后的数据形成2阶数据，推送至数据缓存队列的2阶主题；

主被动混合模式转换整合环节，首先是进行2阶数据拉取，一部分特殊动态数据按照主动自定义模式进行转换整合，一部分常规业务数据按照被动自动化模式进行转换整合，两个模式整合后的数据形成3阶数据，推送至数据缓存队列中的3阶主题；

分布存储环节，首先是进行3阶数据拉取，然后通过分布式机制进行海量数据存储，将业务基础数据存入到关系型存储中，将动态时序数据存入到时序存储中，完成最终存储。

具体实施方式三：实施例提供一种模拟应用场景，在现有数据库类数据源3个：DB1、DB2、DB3，excel类数据源2个：EL1、EL2，json类数据源1个：JN1，protocol buffer类数据源2个PB1，PB2，传感器类数据源2个：SN1、SN2，共5类数据源，个数为10个。现需将这10个数据源的数据进行接入-清洗-整合-存储的完整过程，那么依照方法方法进行该过程的实施：

首先构造数据源集合，集合内元素个数为10；遍历集合，记录(数据源标识，数据源类型，接入方式，适配器)四元组，形成列表：

{(DB1,DB,JDBC,JavaApi),(DB2,DB,JDBC,JavaApi),(DB3,DB,JDBC,JavaApi),(EL1,EL,FIO,Buffer),(EL2,EL,FIO,Buffer),(JN1,JSON,HTTP,Json),(PB1,PB,HTTP,Pb),(PB2,PB,HTTP,Pb),(SN1,SN,SOCKET,Buffer),(SN2,SN,SOCKET,Buffer)}；

按照四元组中的接入方式进行数据接入；按照四元组中的适配器，实现解析，解析后的数据形成10组1阶数据，推送至数据缓存队列中的1阶主题；对1阶数据拉取，进行异常、问题数据的清洗、剔除，清洗后的数据形成10组2阶数据，推送至数据缓存队列的2阶主题；对2阶数据进行拉取，JN1、PB1、PB2、SN1、SN2这5组2阶数据按照主动自定义模式进行字节级别或关键值级别的转换整合，DB1、DB2、DB3、EL1、EL2这5组2阶数据按照被动自动化模式进行字段级别的转换整合，两个模式整合后的数据形成10组3阶数据，推送至数据缓存队列中的3阶主题；对3阶数据进行拉取，将DB1、DB2、DB3、EL1、EL2这5组3阶数据存入到关系型存储中，N1、PB1、PB2、SN1、SN2这5组2阶数据存入到时序存储中，完成最终存储，该实施例的便于海量多源异构数据的清洗整合存储的方法的处理过程如图2所示。

综上，本发明提供的一种便于海量多源异构数据的清洗整合存储的方法，首先构造数据源集合；然后进行集合遍历，记录类型及数据协议；再进行数据接入环节；通过协议适配环节，形成1阶数据，推送缓存队列；拉取1阶数据，进行清洗环节，形成2阶数据，推送缓存队列；拉取2阶数据，进行主被动混合模式转换整合环节，形成3阶数据，推送缓存队列；拉取3阶数据，进行分布存储环节，完成最终存储。本发明提供的方法，方便快捷、流程化明确，可降低海量多源异构数据的清洗整合存储各环节的耦合程度，为该领域提供了一种新的解决问题角度与思路参考。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种便于海量多源异构数据的清洗整合存储的方法，其特征在于：具体步骤如下：

步骤一，构造数据源集合；

步骤二，遍历数据源集合；

步骤三，数据接入环节；

步骤四，协议适配环节，形成1阶数据，推送缓存队列；

步骤七，拉取3阶数据，分布存储环节，完成最终存储。

2.根据权利要求1所述的便于海量多源异构数据的清洗整合存储的方法，其特征在于：在步骤一中，所述的改造数据源集合，为海量多源异构数据源构造成的原始采集数据源集合。

3.根据权利要求1所述的便于海量多源异构数据的清洗整合存储的方法，其特征在于：在步骤二中，所述的遍历数据源集合，其遍历过程需记录集合中各个数据源的源类型、源个数、源维度以及源数据协议。

4.根据权利要求1所述的便于海量多源异构数据的清洗整合存储的方法，其特征在于：在步骤三中，所述的数据接入环节，为数据源在进行数据处理前的接入。

5.根据权利要求1所述的便于海量多源异构数据的清洗整合存储的方法，其特征在于：在步骤四中，所述的协议适配环节，按照各数据源的源类型及数据协议进行对应的首次解析，解析后的数据形成1阶数据，推送至数据缓存队列中的1阶主题。

6.根据权利要求5所述的便于海量多源异构数据的清洗整合存储的方法，其特征在于：所述的清洗环节，首先进行1阶数据拉取，然后依据数据清洗规则进行异常、问题数据的清洗、剔除，清洗后的数据形成2阶数据，推送至数据缓存队列的2阶主题。

7.根据权利要求6所述的便于海量多源异构数据的清洗整合存储的方法，其特征在于：所述的主被动混合模式转换整合环节，首先进行2阶数据拉取，一部分特殊动态数据按照主动自定义模式进行转换整合，一部分常规业务数据按照被动自动化模式进行转换整合，两个模式整合后的数据形成3阶数据，推送至数据缓存队列中的3阶主题。

8.根据权利要求7所述的便于海量多源异构数据的清洗整合存储的方法，其特征在于：所述的存储环节，先拉取3阶数据，然后通过分布式机制进行海量数据存储，将业务基础数据存入到关系型存储中，将动态时序数据存入到时序存储中，完成最终存储。