CN112052284A

CN112052284A - 一种大数据下的主数据管理方法及系统

Info

Publication number: CN112052284A
Application number: CN202010869567.8A
Authority: CN
Inventors: 夏晗
Original assignee: Nanjing Yueyang Technology Co ltd
Current assignee: Nanjing Yueyang Technology Co ltd
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2020-12-08

Abstract

本发明公开了一种大数据下的主数据管理方法及系统，涉及主数据管理技术领域，为解决现有该大数据管理方法及大数据管理系统中各个系统的数据如何进行有效的分类处理并没有明确说明，数据分类处理效果模糊，针对数据容易存在的碎片化和精度低的情况不能够做到完善处理的问题。所述数据管理依次由数据收集、分析与识别、方法与评估、数据转换、清洗与检查、数据检测、回流与应用七个部分组成，其中清洗与检查由初步标记、分类清理、先分后合、分段清理、检查反馈、数据导入六个部分组成。

Description

一种大数据下的主数据管理方法及系统

技术领域

本发明涉及主数据管理技术领域，具体为一种大数据下的主数据管理方法及系统。

背景技术

专利号：“CN106548440A”中提及了一种大数据管理方法及大数据管理系统，其具有对各个系统的数据进行汇总和分类处理，并对其进行展示的功能。

但是，现有该大数据管理方法及大数据管理系统中各个系统的数据如何进行有效的分类处理并没有明确说明，数据分类处理效果模糊，针对数据容易存在的碎片化和精度低的情况不能够做到完善处理的问题；因此，不满足现有的需求，对此我们提出了一种大数据下的主数据管理方法及系统。

发明内容

本发明的目的在于提供一种大数据下的主数据管理方法及系统，以解决上述背景技术中提出的现有该大数据管理方法及大数据管理系统中各个系统的数据如何进行有效的分类处理并没有明确说明，数据分类处理效果模糊，针对数据容易存在的碎片化和精度低的情况不能够做到完善处理的问题。

为实现上述目的，本发明提供如下技术方案：一种大数据下的主数据管理方法，包括数据管理，所述数据管理依次由数据收集、分析与识别、方法与评估、数据转换、清洗与检查、数据检测、回流与应用七个部分组成，其中清洗与检查由初步标记、分类清理、先分后合、分段清理、检查反馈、数据导入六个部分组成。

优选的，所述数据收集采用离线采集、实时采集、互联网采集、数据商合作四个部分组成。

优选的，所述离线采集所需工具为ETL、实时采集所需工具为Flume/Kafka、互联网采集所需工具为Crawler/DPI。

优选的，所述分析与识别包括数据识别分析路线图和数据识别分析矩阵。

优选的，所述数据管理主要通过数据识别方法论、主数据规划设计、主数据应用场景、主数据集成规范来形成统一的管理体系。

优选的，所述一种大数据下的主数据管理系统，包括以下模块，所述主数据管理系统由分布式文件系统、内存数据、数据交换器与操作扩展器、云服务器、事务处理器、SQL分析处理服务器、客户端八个部分组成。

优选的，所述主数据管理系统基于Ginkgo的系统框架构成。

优选的，所述事务服务器采用Cedar系统框架构成。

优选的，所述SQL分析处理服务器的管理方式分为面向操作型的关系数据库技术、面向分析型的关系数据库技术、面向操作型的noSQL技术、面向分析型的noSQL技术四类组成。

优选的，所述云服务器包括数据交换器、操作扩展器、查询分析器、资源管理器、调度器、储存器。

与现有技术相比，本发明的有益效果是：

1、本发明通过数据收集来对大数据进行收集，数据收集采用离线采集、实时采集、互联网采集、数据商合作四个部分组成，离线采集所需工具为ETL，ETL包括数据提取、转换和加载，实时采集为流式的处理方式，而非定时的批处理Job，工具采用分布式架构，能够满足每秒数百MB的日志数据采集和传输需求，互联网采集一般为网络爬虫，其能够自动抓取万维网信息，能够支持对图片、音频、视频等文件或附件的采集，依靠上述采集能够提高大数据采集的范围，使其大数据量得到提高，用户在获取大数据时精确度高，减少了后续数据清理时的工作量；数据管理依次由数据收集、分析与识别、方法与评估、数据转换、清洗与检查、数据检测、回流与应用七个部分组成，其中清洗与检查由初步标记、分类清理、先分后合、分段清理、检查反馈、数据导入六个部分组成；初步标记：对不同数据问题和数据类型划分进行初步标记；分类清理：按照类型、类别分配至不同人员进行清洗，分散工作量，提供清洗工具；先分后合：对分类清理完的数据进行合并汇总检查；分段清理：按照时间进度区间，逐层清理；检查反馈：对清理完的数据进行多次检查，并在过程中进行上报反馈；数据导入：对彻底检查完毕的数据进行数据的导入操作；相较于一般的数据管理本发明管理起来结构清晰，在应用前对数据进行检测、清理，依靠计算机来模拟大数据的使用过程，对模拟过程中存在的缺陷数据进行删除，提高了在使用与查询主数据时主数据的精确度，避免在管理过程中因数据分类不规范，数据碎片化严重，导致用户后续在进行查询时效率低下、精度低的情况发生。

2、主数据管理系统基于Ginkgo的系统框架构成，Ginkgo采用内存计算架构，充分利用高速访问内存的特性，同时在数据处理逻辑的多个层面上通过并行化提高响应速度：充分利用分区并行、流水线并行、操作内并行和独立并行，高并发执行任务；利用LLVM技术编译代码，提高操作运行效率；采用弹性流水线技术，可以根据负载和资源，动态伸缩并行度，充分利用资源提高运行效率；运行时任务调度模块能够感知系统负载，调度合适的任务，高效地实现任务之间的独立并行；Ginkgo具备实时查询处理功能的同时，还支持数据源新数据的实时注入。区别于数据流系统，Ginkgo不仅支持对数据的在线处理，而且可将这些数据持久化存储。实时注入基于事务处理控制方式，设计并实现以下一系列功能：针对实时数据注入对应的追加型事务，采用面向元数据的集中式事务处理策略，实现事务型数据注入；非阻塞分布式数据注入框架，将传统的集中式单机数据注入转变为分布式数据注入，充分利用分布式系统的特点，避免单机的单点故障和性能瓶颈；数据注入过程中实现了读写分离和写写分离，有效提高并行处理效率。

附图说明

图1为本发明的管理方法结构示意图；

图2为本发明的清洗与检查结构示意图；

图3为本发明的系统结构示意图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

请参阅图1-3，本发明提供的一种实施例：一种大数据下的主数据管理方法，包括数据管理，数据管理依次由数据收集、分析与识别、方法与评估、数据转换、清洗与检查、数据检测、回流与应用七个部分组成，其中清洗与检查由初步标记、分类清理、先分后合、分段清理、检查反馈、数据导入六个部分组成。

进一步，数据收集采用离线采集、实时采集、互联网采集、数据商合作四个部分组成。

进一步，离线采集所需工具为ETL、实时采集所需工具为Flume/Kafka、互联网采集所需工具为Crawler/DPI，ETL包括数据提取、转换和加载，实时采集为流式的处理方式，而非定时的批处理Job，工具采用分布式架构，能够满足每秒数百MB的日志数据采集和传输需求，互联网采集一般为网络爬虫，其能够自动抓取万维网信息，能够支持对图片、音频、视频等文件或附件的采集，依靠上述采集能够提高大数据采集的范围，使其大数据量得到提高，同时也为了后续的大数据分析奠定了基础。

进一步，分析与识别包括数据识别分析路线图和数据识别分析矩阵，数据识别分析路线主要通过每类数据对业务的影响程度以及数据共享程度来决定主数据的重要程度分析，然后通过主数据管理的成熟度和统一难易度来进行主数据管控难易度分析以及主数据需求迫切程度分析，从而确定整个主数据实施的优先级；数据识别分析矩阵则跟进主数据重要程度分析、主数据管控难易程度分析以及主数据实施优先级来进行整个主数据的实施。

进一步，数据管理主要通过数据识别方法论、主数据规划设计、主数据应用场景、主数据集成规范来形成统一的管理体系。

进一步，一种大数据下的主数据管理系统，包括以下模块，主数据管理系统由分布式文件系统、内存数据、数据交换器与操作扩展器、云服务器、事务处理器、SQL分析处理服务器、客户端八个部分组成。

进一步，主数据管理系统基于Ginkgo的系统框架构成，Ginkgo采用内存计算架构，充分利用高速访问内存的特性，同时在数据处理逻辑的多个层面上通过并行化提高响应速度：充分利用分区并行、流水线并行、操作内并行和独立并行，高并发执行任务；利用LLVM技术编译代码，提高操作运行效率；采用弹性流水线技术，可以根据负载和资源，动态伸缩并行度，充分利用资源提高运行效率；运行时任务调度模块能够感知系统负载，调度合适的任务，高效地实现任务之间的独立并行；Ginkgo具备实时查询处理功能的同时，还支持数据源新数据的实时注入。区别于数据流系统，Ginkgo不仅支持对数据的在线处理，而且可将这些数据持久化存储。实时注入基于事务处理控制方式，设计并实现以下一系列功能：针对实时数据注入对应的追加型事务，采用面向元数据的集中式事务处理策略，实现事务型数据注入；非阻塞分布式数据注入框架，将传统的集中式单机数据注入转变为分布式数据注入，充分利用分布式系统的特点，避免单机的单点故障和性能瓶颈；数据注入过程中实现了读写分离和写写分离，有效提高并行处理效率。

进一步，事务服务器采用Cedar系统框架构成。

进一步，SQL分析处理服务器的管理方式分为面向操作型的关系数据库技术、面向分析型的关系数据库技术、面向操作型的noSQL技术、面向分析型的noSQL技术四类组成。

进一步，云服务器包括数据交换器、操作扩展器、查询分析器、资源管理器、调度器、储存器。

工作原理：使用时，通过数据收集来对大数据进行收集，数据收集采用离线采集、实时采集、互联网采集、数据商合作四个部分组成，离线采集所需工具为ETL，ETL包括数据提取、转换和加载，实时采集为流式的处理方式，而非定时的批处理Job，工具采用分布式架构，能够满足每秒数百MB的日志数据采集和传输需求，互联网采集一般为网络爬虫，其能够自动抓取万维网信息，能够支持对图片、音频、视频等文件或附件的采集，依靠上述采集能够提高大数据采集的范围，使其大数据量得到提高，同时也为了后续的大数据分析奠定了基础；数据管理依次由数据收集、分析与识别、方法与评估、数据转换、清洗与检查、数据检测、回流与应用七个部分组成，其中清洗与检查由初步标记、分类清理、先分后合、分段清理、检查反馈、数据导入六个部分组成；初步标记：对不同数据问题和数据类型划分进行初步标记；分类清理：按照类型、类别分配至不同人员进行清洗，分散工作量，提供清洗工具；先分后合：对分类清理完的数据进行合并汇总检查；分段清理：按照时间进度区间，逐层清理；检查反馈：对清理完的数据进行多次检查，并在过程中进行上报反馈；数据导入：对彻底检查完毕的数据进行数据的导入操作；本发明在大方向上进行数据收集、分析与识别、方法与评估、数据转换、清洗与检查、数据检测、回流与应用，小方向上进行初步标记、分类清理、先分后合、分段清理、检查反馈、数据导入，通过上述步骤能够顾对大数据的主数据进行精确的管理与分类，从而能够避免在管理过程中因数据分类不规范，数据碎片化严重，导致用户后续在进行查询时效率低下的情况发生，相较于一般的数据管理本发明在应用前对数据进行检测，依靠计算机来模拟大数据的使用过程，对模拟过程中存在的缺陷数据进行删除，从而能够提高整个数据的精确性，主数据管理系统基于Ginkgo的系统框架构成，Ginkgo采用内存计算架构，充分利用高速访问内存的特性，同时在数据处理逻辑的多个层面上通过并行化提高响应速度：充分利用分区并行、流水线并行、操作内并行和独立并行，高并发执行任务；利用LLVM技术编译代码，提高操作运行效率；采用弹性流水线技术，可以根据负载和资源，动态伸缩并行度，充分利用资源提高运行效率；运行时任务调度模块能够感知系统负载，调度合适的任务，高效地实现任务之间的独立并行；Ginkgo具备实时查询处理功能的同时，还支持数据源新数据的实时注入，区别于数据流系统，Ginkgo不仅支持对数据的在线处理，而且可将这些数据持久化存储。实时注入基于事务处理控制方式，设计并实现以下一系列功能：针对实时数据注入对应的追加型事务，采用面向元数据的集中式事务处理策略，实现事务型数据注入；非阻塞分布式数据注入框架，将传统的集中式单机数据注入转变为分布式数据注入，充分利用分布式系统的特点，避免单机的单点故障和性能瓶颈；数据注入过程中实现了读写分离和写写分离，有效提高并行处理效率。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种大数据下的主数据管理方法，包括数据管理，其特征在于：所述数据管理依次由数据收集、分析与识别、方法与评估、数据转换、清洗与检查、数据检测、回流与应用七个部分组成，其中清洗与检查由初步标记、分类清理、先分后合、分段清理、检查反馈、数据导入六个部分组成。

2.根据权利要求1所述的一种大数据下的主数据管理方法，其特征在于：所述数据收集采用离线采集、实时采集、互联网采集、数据商合作四个部分组成。

3.根据权利要求2所述的一种大数据下的主数据管理方法，其特征在于：所述离线采集所需工具为ETL、实时采集所需工具为Flume/Kafka、互联网采集所需工具为Crawler/DPI。

4.根据权利要求1所述的一种大数据下的主数据管理方法，其特征在于：所述分析与识别包括数据识别分析路线图和数据识别分析矩阵。

5.根据权利要求1所述的一种大数据下的主数据管理方法，其特征在于：所述数据管理主要通过数据识别方法论、主数据规划设计、主数据应用场景、主数据集成规范来形成统一的管理体系。

6.根据权利要求1-5所述的一种大数据下的主数据管理系统，其特征在于：包括以下模块，所述主数据管理系统由分布式文件系统、内存数据、数据交换器与操作扩展器、云服务器、事务处理器、SQL分析处理服务器、客户端八个部分组成。

7.根据权利要求6所述的一种大数据下的主数据管理系统，其特征在于：所述主数据管理系统基于Ginkgo的系统框架构成。

8.根据权利要求6所述的一种大数据下的主数据管理系统，其特征在于：所述事务服务器采用Cedar系统框架构成。

9.根据权利要求6所述的一种大数据下的主数据管理系统，其特征在于：所述SQL分析处理服务器的管理方式分为面向操作型的关系数据库技术、面向分析型的关系数据库技术、面向操作型的noSQL技术、面向分析型的noSQL技术四类组成。

10.根据权利要求6所述的一种大数据下的主数据管理系统，其特征在于：所述云服务器包括数据交换器、操作扩展器、查询分析器、资源管理器、调度器、储存器。