CN112052284A - 一种大数据下的主数据管理方法及系统 - Google Patents

一种大数据下的主数据管理方法及系统 Download PDF

Info

Publication number
CN112052284A
CN112052284A CN202010869567.8A CN202010869567A CN112052284A CN 112052284 A CN112052284 A CN 112052284A CN 202010869567 A CN202010869567 A CN 202010869567A CN 112052284 A CN112052284 A CN 112052284A
Authority
CN
China
Prior art keywords
data
collection
cleaning
under big
data management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010869567.8A
Other languages
English (en)
Inventor
夏晗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Yueyang Technology Co ltd
Original Assignee
Nanjing Yueyang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Yueyang Technology Co ltd filed Critical Nanjing Yueyang Technology Co ltd
Priority to CN202010869567.8A priority Critical patent/CN112052284A/zh
Publication of CN112052284A publication Critical patent/CN112052284A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种大数据下的主数据管理方法及系统,涉及主数据管理技术领域,为解决现有该大数据管理方法及大数据管理系统中各个系统的数据如何进行有效的分类处理并没有明确说明,数据分类处理效果模糊,针对数据容易存在的碎片化和精度低的情况不能够做到完善处理的问题。所述数据管理依次由数据收集、分析与识别、方法与评估、数据转换、清洗与检查、数据检测、回流与应用七个部分组成,其中清洗与检查由初步标记、分类清理、先分后合、分段清理、检查反馈、数据导入六个部分组成。

Description

一种大数据下的主数据管理方法及系统
技术领域
本发明涉及主数据管理技术领域,具体为一种大数据下的主数据管理方法及系统。
背景技术
专利号:“CN106548440A”中提及了一种大数据管理方法及大数据管理系统,其具有对各个系统的数据进行汇总和分类处理,并对其进行展示的功能。
但是,现有该大数据管理方法及大数据管理系统中各个系统的数据如何进行有效的分类处理并没有明确说明,数据分类处理效果模糊,针对数据容易存在的碎片化和精度低的情况不能够做到完善处理的问题;因此,不满足现有的需求,对此我们提出了一种大数据下的主数据管理方法及系统。
发明内容
本发明的目的在于提供一种大数据下的主数据管理方法及系统,以解决上述背景技术中提出的现有该大数据管理方法及大数据管理系统中各个系统的数据如何进行有效的分类处理并没有明确说明,数据分类处理效果模糊,针对数据容易存在的碎片化和精度低的情况不能够做到完善处理的问题。
为实现上述目的,本发明提供如下技术方案:一种大数据下的主数据管理方法,包括数据管理,所述数据管理依次由数据收集、分析与识别、方法与评估、数据转换、清洗与检查、数据检测、回流与应用七个部分组成,其中清洗与检查由初步标记、分类清理、先分后合、分段清理、检查反馈、数据导入六个部分组成。
优选的,所述数据收集采用离线采集、实时采集、互联网采集、数据商合作四个部分组成。
优选的,所述离线采集所需工具为ETL、实时采集所需工具为Flume/Kafka、互联网采集所需工具为Crawler/DPI。
优选的,所述分析与识别包括数据识别分析路线图和数据识别分析矩阵。
优选的,所述数据管理主要通过数据识别方法论、主数据规划设计、主数据应用场景、主数据集成规范来形成统一的管理体系。
优选的,所述一种大数据下的主数据管理系统,包括以下模块,所述主数据管理系统由分布式文件系统、内存数据、数据交换器与操作扩展器、云服务器、事务处理器、SQL分析处理服务器、客户端八个部分组成。
优选的,所述主数据管理系统基于Ginkgo的系统框架构成。
优选的,所述事务服务器采用Cedar系统框架构成。
优选的,所述SQL分析处理服务器的管理方式分为面向操作型的关系数据库技术、面向分析型的关系数据库技术、面向操作型的noSQL技术、面向分析型的noSQL技术四类组成。
优选的,所述云服务器包括数据交换器、操作扩展器、查询分析器、资源管理器、调度器、储存器。
与现有技术相比,本发明的有益效果是:
1、本发明通过数据收集来对大数据进行收集,数据收集采用离线采集、实时采集、互联网采集、数据商合作四个部分组成,离线采集所需工具为ETL,ETL包括数据提取、转换和加载,实时采集为流式的处理方式,而非定时的批处理Job,工具采用分布式架构,能够满足每秒数百MB的日志数据采集和传输需求,互联网采集一般为网络爬虫,其能够自动抓取万维网信息,能够支持对图片、音频、视频等文件或附件的采集,依靠上述采集能够提高大数据采集的范围,使其大数据量得到提高,用户在获取大数据时精确度高,减少了后续数据清理时的工作量;数据管理依次由数据收集、分析与识别、方法与评估、数据转换、清洗与检查、数据检测、回流与应用七个部分组成,其中清洗与检查由初步标记、分类清理、先分后合、分段清理、检查反馈、数据导入六个部分组成;初步标记:对不同数据问题和数据类型划分进行初步标记;分类清理:按照类型、类别分配至不同人员进行清洗,分散工作量,提供清洗工具;先分后合:对分类清理完的数据进行合并汇总检查;分段清理:按照时间进度区间,逐层清理;检查反馈:对清理完的数据进行多次检查,并在过程中进行上报反馈;数据导入:对彻底检查完毕的数据进行数据的导入操作;相较于一般的数据管理本发明管理起来结构清晰,在应用前对数据进行检测、清理,依靠计算机来模拟大数据的使用过程,对模拟过程中存在的缺陷数据进行删除,提高了在使用与查询主数据时主数据的精确度,避免在管理过程中因数据分类不规范,数据碎片化严重,导致用户后续在进行查询时效率低下、精度低的情况发生。
2、主数据管理系统基于Ginkgo的系统框架构成,Ginkgo采用内存计算架构,充分利用高速访问内存的特性,同时在数据处理逻辑的多个层面上通过并行化提高响应速度:充分利用分区并行、流水线并行、操作内并行和独立并行,高并发执行任务;利用LLVM技术编译代码,提高操作运行效率;采用弹性流水线技术,可以根据负载和资源,动态伸缩并行度,充分利用资源提高运行效率;运行时任务调度模块能够感知系统负载,调度合适的任务,高效地实现任务之间的独立并行;Ginkgo具备实时查询处理功能的同时,还支持数据源新数据的实时注入。区别于数据流系统,Ginkgo不仅支持对数据的在线处理,而且可将这些数据持久化存储。实时注入基于事务处理控制方式,设计并实现以下一系列功能:针对实时数据注入对应的追加型事务,采用面向元数据的集中式事务处理策略,实现事务型数据注入;非阻塞分布式数据注入框架,将传统的集中式单机数据注入转变为分布式数据注入,充分利用分布式系统的特点,避免单机的单点故障和性能瓶颈;数据注入过程中实现了读写分离和写写分离,有效提高并行处理效率。
附图说明
图1为本发明的管理方法结构示意图;
图2为本发明的清洗与检查结构示意图;
图3为本发明的系统结构示意图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
请参阅图1-3,本发明提供的一种实施例:一种大数据下的主数据管理方法,包括数据管理,数据管理依次由数据收集、分析与识别、方法与评估、数据转换、清洗与检查、数据检测、回流与应用七个部分组成,其中清洗与检查由初步标记、分类清理、先分后合、分段清理、检查反馈、数据导入六个部分组成。
进一步,数据收集采用离线采集、实时采集、互联网采集、数据商合作四个部分组成。
进一步,离线采集所需工具为ETL、实时采集所需工具为Flume/Kafka、互联网采集所需工具为Crawler/DPI,ETL包括数据提取、转换和加载,实时采集为流式的处理方式,而非定时的批处理Job,工具采用分布式架构,能够满足每秒数百MB的日志数据采集和传输需求,互联网采集一般为网络爬虫,其能够自动抓取万维网信息,能够支持对图片、音频、视频等文件或附件的采集,依靠上述采集能够提高大数据采集的范围,使其大数据量得到提高,同时也为了后续的大数据分析奠定了基础。
进一步,分析与识别包括数据识别分析路线图和数据识别分析矩阵,数据识别分析路线主要通过每类数据对业务的影响程度以及数据共享程度来决定主数据的重要程度分析,然后通过主数据管理的成熟度和统一难易度来进行主数据管控难易度分析以及主数据需求迫切程度分析,从而确定整个主数据实施的优先级;数据识别分析矩阵则跟进主数据重要程度分析、主数据管控难易程度分析以及主数据实施优先级来进行整个主数据的实施。
进一步,数据管理主要通过数据识别方法论、主数据规划设计、主数据应用场景、主数据集成规范来形成统一的管理体系。
进一步,一种大数据下的主数据管理系统,包括以下模块,主数据管理系统由分布式文件系统、内存数据、数据交换器与操作扩展器、云服务器、事务处理器、SQL分析处理服务器、客户端八个部分组成。
进一步,主数据管理系统基于Ginkgo的系统框架构成,Ginkgo采用内存计算架构,充分利用高速访问内存的特性,同时在数据处理逻辑的多个层面上通过并行化提高响应速度:充分利用分区并行、流水线并行、操作内并行和独立并行,高并发执行任务;利用LLVM技术编译代码,提高操作运行效率;采用弹性流水线技术,可以根据负载和资源,动态伸缩并行度,充分利用资源提高运行效率;运行时任务调度模块能够感知系统负载,调度合适的任务,高效地实现任务之间的独立并行;Ginkgo具备实时查询处理功能的同时,还支持数据源新数据的实时注入。区别于数据流系统,Ginkgo不仅支持对数据的在线处理,而且可将这些数据持久化存储。实时注入基于事务处理控制方式,设计并实现以下一系列功能:针对实时数据注入对应的追加型事务,采用面向元数据的集中式事务处理策略,实现事务型数据注入;非阻塞分布式数据注入框架,将传统的集中式单机数据注入转变为分布式数据注入,充分利用分布式系统的特点,避免单机的单点故障和性能瓶颈;数据注入过程中实现了读写分离和写写分离,有效提高并行处理效率。
进一步,事务服务器采用Cedar系统框架构成。
进一步,SQL分析处理服务器的管理方式分为面向操作型的关系数据库技术、面向分析型的关系数据库技术、面向操作型的noSQL技术、面向分析型的noSQL技术四类组成。
进一步,云服务器包括数据交换器、操作扩展器、查询分析器、资源管理器、调度器、储存器。
工作原理:使用时,通过数据收集来对大数据进行收集,数据收集采用离线采集、实时采集、互联网采集、数据商合作四个部分组成,离线采集所需工具为ETL,ETL包括数据提取、转换和加载,实时采集为流式的处理方式,而非定时的批处理Job,工具采用分布式架构,能够满足每秒数百MB的日志数据采集和传输需求,互联网采集一般为网络爬虫,其能够自动抓取万维网信息,能够支持对图片、音频、视频等文件或附件的采集,依靠上述采集能够提高大数据采集的范围,使其大数据量得到提高,同时也为了后续的大数据分析奠定了基础;数据管理依次由数据收集、分析与识别、方法与评估、数据转换、清洗与检查、数据检测、回流与应用七个部分组成,其中清洗与检查由初步标记、分类清理、先分后合、分段清理、检查反馈、数据导入六个部分组成;初步标记:对不同数据问题和数据类型划分进行初步标记;分类清理:按照类型、类别分配至不同人员进行清洗,分散工作量,提供清洗工具;先分后合:对分类清理完的数据进行合并汇总检查;分段清理:按照时间进度区间,逐层清理;检查反馈:对清理完的数据进行多次检查,并在过程中进行上报反馈;数据导入:对彻底检查完毕的数据进行数据的导入操作;本发明在大方向上进行数据收集、分析与识别、方法与评估、数据转换、清洗与检查、数据检测、回流与应用,小方向上进行初步标记、分类清理、先分后合、分段清理、检查反馈、数据导入,通过上述步骤能够顾对大数据的主数据进行精确的管理与分类,从而能够避免在管理过程中因数据分类不规范,数据碎片化严重,导致用户后续在进行查询时效率低下的情况发生,相较于一般的数据管理本发明在应用前对数据进行检测,依靠计算机来模拟大数据的使用过程,对模拟过程中存在的缺陷数据进行删除,从而能够提高整个数据的精确性,主数据管理系统基于Ginkgo的系统框架构成,Ginkgo采用内存计算架构,充分利用高速访问内存的特性,同时在数据处理逻辑的多个层面上通过并行化提高响应速度:充分利用分区并行、流水线并行、操作内并行和独立并行,高并发执行任务;利用LLVM技术编译代码,提高操作运行效率;采用弹性流水线技术,可以根据负载和资源,动态伸缩并行度,充分利用资源提高运行效率;运行时任务调度模块能够感知系统负载,调度合适的任务,高效地实现任务之间的独立并行;Ginkgo具备实时查询处理功能的同时,还支持数据源新数据的实时注入,区别于数据流系统,Ginkgo不仅支持对数据的在线处理,而且可将这些数据持久化存储。实时注入基于事务处理控制方式,设计并实现以下一系列功能:针对实时数据注入对应的追加型事务,采用面向元数据的集中式事务处理策略,实现事务型数据注入;非阻塞分布式数据注入框架,将传统的集中式单机数据注入转变为分布式数据注入,充分利用分布式系统的特点,避免单机的单点故障和性能瓶颈;数据注入过程中实现了读写分离和写写分离,有效提高并行处理效率。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (10)

1.一种大数据下的主数据管理方法,包括数据管理,其特征在于:所述数据管理依次由数据收集、分析与识别、方法与评估、数据转换、清洗与检查、数据检测、回流与应用七个部分组成,其中清洗与检查由初步标记、分类清理、先分后合、分段清理、检查反馈、数据导入六个部分组成。
2.根据权利要求1所述的一种大数据下的主数据管理方法,其特征在于:所述数据收集采用离线采集、实时采集、互联网采集、数据商合作四个部分组成。
3.根据权利要求2所述的一种大数据下的主数据管理方法,其特征在于:所述离线采集所需工具为ETL、实时采集所需工具为Flume/Kafka、互联网采集所需工具为Crawler/DPI。
4.根据权利要求1所述的一种大数据下的主数据管理方法,其特征在于:所述分析与识别包括数据识别分析路线图和数据识别分析矩阵。
5.根据权利要求1所述的一种大数据下的主数据管理方法,其特征在于:所述数据管理主要通过数据识别方法论、主数据规划设计、主数据应用场景、主数据集成规范来形成统一的管理体系。
6.根据权利要求1-5所述的一种大数据下的主数据管理系统,其特征在于:包括以下模块,所述主数据管理系统由分布式文件系统、内存数据、数据交换器与操作扩展器、云服务器、事务处理器、SQL分析处理服务器、客户端八个部分组成。
7.根据权利要求6所述的一种大数据下的主数据管理系统,其特征在于:所述主数据管理系统基于Ginkgo的系统框架构成。
8.根据权利要求6所述的一种大数据下的主数据管理系统,其特征在于:所述事务服务器采用Cedar系统框架构成。
9.根据权利要求6所述的一种大数据下的主数据管理系统,其特征在于:所述SQL分析处理服务器的管理方式分为面向操作型的关系数据库技术、面向分析型的关系数据库技术、面向操作型的noSQL技术、面向分析型的noSQL技术四类组成。
10.根据权利要求6所述的一种大数据下的主数据管理系统,其特征在于:所述云服务器包括数据交换器、操作扩展器、查询分析器、资源管理器、调度器、储存器。
CN202010869567.8A 2020-08-26 2020-08-26 一种大数据下的主数据管理方法及系统 Pending CN112052284A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010869567.8A CN112052284A (zh) 2020-08-26 2020-08-26 一种大数据下的主数据管理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010869567.8A CN112052284A (zh) 2020-08-26 2020-08-26 一种大数据下的主数据管理方法及系统

Publications (1)

Publication Number Publication Date
CN112052284A true CN112052284A (zh) 2020-12-08

Family

ID=73600723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010869567.8A Pending CN112052284A (zh) 2020-08-26 2020-08-26 一种大数据下的主数据管理方法及系统

Country Status (1)

Country Link
CN (1) CN112052284A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112527884A (zh) * 2020-12-17 2021-03-19 中国航空工业集团公司成都飞机设计研究所 一种分段负责的主数据管理方法
CN115098247A (zh) * 2022-06-06 2022-09-23 支付宝(杭州)信息技术有限公司 资源分配方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722560A (zh) * 2012-05-31 2012-10-10 深圳市远行科技有限公司 一种基于电信行业主数据的自动识别方法及系统
CN106529891A (zh) * 2016-08-05 2017-03-22 安徽和信科技发展有限责任公司 一种平台数据清理方法
CN107480263A (zh) * 2016-08-19 2017-12-15 北京市燃气集团有限责任公司 一种数据资源的管理方法及管理系统
CN108846076A (zh) * 2018-06-08 2018-11-20 山大地纬软件股份有限公司 支持接口适配的海量多源异构数据etl方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722560A (zh) * 2012-05-31 2012-10-10 深圳市远行科技有限公司 一种基于电信行业主数据的自动识别方法及系统
CN106529891A (zh) * 2016-08-05 2017-03-22 安徽和信科技发展有限责任公司 一种平台数据清理方法
CN107480263A (zh) * 2016-08-19 2017-12-15 北京市燃气集团有限责任公司 一种数据资源的管理方法及管理系统
CN108846076A (zh) * 2018-06-08 2018-11-20 山大地纬软件股份有限公司 支持接口适配的海量多源异构数据etl方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112527884A (zh) * 2020-12-17 2021-03-19 中国航空工业集团公司成都飞机设计研究所 一种分段负责的主数据管理方法
CN112527884B (zh) * 2020-12-17 2022-06-28 中国航空工业集团公司成都飞机设计研究所 一种分段负责的主数据管理方法
CN115098247A (zh) * 2022-06-06 2022-09-23 支付宝(杭州)信息技术有限公司 资源分配方法和装置

Similar Documents

Publication Publication Date Title
CN111124679B (zh) 一种面向多源异构海量数据限时自动处理方法
CN100465900C (zh) 信息系统、负载控制方法、负载控制程序和记录媒体
CN108470228A (zh) 财务数据稽核方法及稽核系统
CN106126601A (zh) 一种社保大数据分布式预处理方法及系统
CN106126403B (zh) Oracle数据库故障分析方法和装置
CN107301205A (zh) 一种大数据分布式实时查询方法及系统
CN112052284A (zh) 一种大数据下的主数据管理方法及系统
CN112365355B (zh) 实时计算基金估值和风险指标的方法、装置及可读介质
CN106354729A (zh) 一种图数据处理方法、装置和系统
EP4044031A1 (en) Cloud orchestration system and method based on read-write separation and auto-scaling
Liu et al. Run-time operator state spilling for memory intensive long-running queries
CN106897133A (zh) 一种基于pbs作业调度管理集群负载的实现方法
CN117149873A (zh) 一种基于流批一体化的数据湖服务平台构建方法
CN114756629A (zh) 基于sql的多源异构数据交互分析引擎及方法
CN111190704A (zh) 一种基于大数据处理框架的任务分类处理方法
CN114817171B (zh) 一种埋点数据质量治理方法
Wang et al. FineQuery: Fine-grained query processing on CPU-GPU integrated architectures
CN110879753A (zh) 基于自动化集群资源管理的gpu加速性能优化方法和系统
Ji et al. AdaptiveSLA: a two-stage scheduling framework for SLA profit maximization in multi-tenant database
CN115952236A (zh) 一种基于实时流计算的停电数据分析处理方法及装置
CN109033196A (zh) 一种分布式数据调度系统及方法
CN113886465A (zh) 一种用于汽车物流的大数据分析平台
Rakshith et al. Enterprise data analytics and processing with an integrated hadoop and R platforms
CN112579685A (zh) 大数据作业的状态监测及健康度评估方法、装置
Aurangzaib et al. Scalable Containerized Pipeline for Real-time Big Data Analytics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination