CN109947820A - 一种基于Hadoop的数据治理系统 - Google Patents

一种基于Hadoop的数据治理系统 Download PDF

Info

Publication number
CN109947820A
CN109947820A CN201910186592.3A CN201910186592A CN109947820A CN 109947820 A CN109947820 A CN 109947820A CN 201910186592 A CN201910186592 A CN 201910186592A CN 109947820 A CN109947820 A CN 109947820A
Authority
CN
China
Prior art keywords
data
rule
module
hadoop
administer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910186592.3A
Other languages
English (en)
Inventor
林贵绪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Original Assignee
Shandong Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Inspur Cloud Information Technology Co Ltd filed Critical Shandong Inspur Cloud Information Technology Co Ltd
Priority to CN201910186592.3A priority Critical patent/CN109947820A/zh
Publication of CN109947820A publication Critical patent/CN109947820A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于Hadoop的数据治理系统,属于数据治理技术领域。本发明的基于Hadoop的数据治理系统包括数据源、数据治理规则配置模块、数据治理规则执行模块、数据交付模块、数据治理评估报告模块、日志模块和权限管理模块。数据源通过查询过滤条件,配置数据挖掘所需的数据;数据治理规则配置模块选择数据源中的数据进入数据挖掘计算;数据治理规则执行模块针对数据处理规则,对输入数据进行治理;数据交付模块使经过治理的数据与数据挖掘模型的输入类型匹配。该发明的基于Hadoop的数据治理系统能够解决数据挖掘、数据计算、数据分析过程中遇到的数据缺少、数据冗余、数据错误等异常情况,具有很好的推广应用价值。

Description

一种基于Hadoop的数据治理系统
技术领域
本发明涉及数据治理技术领域,具体提供一种基于Hadoop的数据治理系统。
背景技术
随着社会的不断进步,社会经济飞速发展,同时带动着社会中各项工业的发展。计算机具有存储信息量大,使用者获取信息方便快捷等优点,受到广泛的应用,并且社会工业的发展离不开计算机的使用。计算机能够快速的整合各企业的相关数据,并能快速的处理企业已经发生的数据信息,为企业业务的稳定运营及正常发展提供基础。特别是随着经济的进一步发展,各个企业的数据量越来越多,如何能够正确的记录企业的数据具有重要的意义。
但是,目前随着数据量的不断增多,在数据方面存在数据缺少、数据冗余、数据错误等异常情况,当出现上述情况时,数据的实用价值会大大降低,并且会影响企业的正常运营,具有很大的缺陷。
发明内容
本发明的技术任务是针对上述存在的问题,提供一种能够解决数据挖掘、数据计算、数据分析过程中遇到的数据缺少、数据冗余、数据错误等异常情况的基于Hadoop的数据治理系统。
为实现上述目的,本发明提供了如下技术方案:
一种基于Hadoop的数据治理系统,该系统包括数据源、数据治理规则配置模块、数据治理规则执行模块、数据交付模块、数据治理评估报告模块、日志模块和权限管理模块,数据源通过查询过滤条件,配置数据挖掘所需的数据;数据治理规则配置模块选择数据源中的数据进入数据挖掘计算;数据治理规则执行模块针对数据处理规则,对输入数据进行治理;数据交付模块使经过治理的数据与数据挖掘模型的输入类型匹配;数据治理评估报告模块给出应用数据治理规则后,与原始数据的差异性;日志模块用于记录数据挖掘过程产生的日志数据;权限管理模块用于控制用户的权限。
该基于Hadoop的数据治理系统着重于交付可信、安全的数据,为数据挖掘、数据分析算法提供支持,并通过该系统中可选择的参数配置默认的数据治理方案,包括数据质量规则、安全屏蔽规则、存档规则和数据保留政策。在海量数据的背景下,该系统以hadhoop为平台结合MapReduce以及Spark的计算能力达到跟踪数据质量和解决数据异常的效果。用于解决数据挖掘、数据计算、数据分析等过程中遇到的数据缺少、数据冗余及数据错误等异常情况,通过对异常数据的治理,数据能够达到一定的实用价值。该系统中涉及的数据治理规则通过预先设置的模板或算法。
作为优选,所述数据源为结构化数据,结构化数据通过sql查询。
结构化数据包括Oracle、Mysql等。
作为优选,所述数据源为非结构化数据,非结构化数据通过关键字方式进行查询。
非结构化数据包括Hadoop、Hive、HBase等。
所述数据源在UI界面上展示数据内容至少展示元数据。
作为优选,所述数据治理规则配置模块对数据源中的数据列配置对应的数据治理规则及其参数。
作为优选,所述配置对应的数据治理规则涉及文本与数字类型、数据列表类型和bool类型。
理想情况下,选定数据列后,系统应提示可选择的过滤规则,选定治理规则后,界面上应提示异常数据,体现被影响数据的具体变化。
作为优选,所述数据治理规则执行模块中,数据在不同的数据处理规则中单向流转,同一列数据需要多个数据处理规则时,按照规则定义的先后顺序执行,同一个规则需要多个数据源时,对每个数据源应用子规则,同时有一个合并的总规则。
数据治理规则执行模块中治理的结果应保持数据的类型、完整性、准确性和一致性。
作为优选,所述数据治理规则执行模块快中计算方式通过MapReduce或Spark执行。
作为优选,所述数据交付模块采用替换原始数据、保存为新的数据或挖掘计算后丢弃进行交付。
其中替换原始数据后期可与权限管理相结合。
所述挖掘计算后丢弃特征易发生改变的时效性数据。
作为优选,所述数据治理评估报告模块给出应用数据治理规则后,与原始数据的差异性。
给出应用数据治理规则后,与原始数据的差异性包括可通过方差、标准差、过滤量统计等方式给出准确性、时效性、一致性的参数。其衡量标准应该与具体的规则相关。默认不展示数据,可通过按钮展开列表,查看数据。
作为优选,所述权限管理模块的权限为可配置的。
与现有技术相比,本发明的基于Hadoop的数据治理系统具有以下突出的有益效果:所述基于Hadoop的数据治理系统以hadhoop为平台结合MapReduce以及Spark的计算能力达到跟踪数据质量和解决数据异常的效果,着重于交付可信、安全的数据,为数据挖掘、数据分析算法提供支持,并通过该系统中可选择的参数配置默认的数据治理方案,包括数据质量规则、安全屏蔽规则、存档规则和数据保留政策,能够解决数据挖掘、数据计算、数据分析等过程中遇到的数据缺少、数据冗余、数据错误等异常情况,通过该基于Hadoop的数据治理系统对异常数据的治理,数据能够达到一定的实用价值,具有良好的推广应用价值。
附图说明
图1是本发明所述基于Hadoop的数据治理系统的工作流程示意图;
图2是本发明所述基于Hadoop的数据治理系统的另一工作流程示意图。
具体实施方式
下面将结合附图和实施例,对本发明的基于Hadoop的数据治理系统作进一步详细说明。
实施例
本发明的基于Hadoop的数据治理系统,包括数据源、数据治理规则配置模块、数据治理规则执行模块、数据交付模块、数据治理评估报告模块、日志模块和权限管理模块。数据源通过查询过滤条件,配置数据挖掘所需的数据;数据治理规则配置模块选择数据源中的数据进入数据挖掘计算;数据治理规则执行模块针对数据处理规则,对输入数据进行治理;数据交付模块使经过治理的数据与数据挖掘模型的输入类型匹配;数据治理评估报告模块给出应用数据治理规则后,与原始数据的差异性;日志模块用于记录数据挖掘过程产生的日志数据;权限管理模块用于控制用户的权限。
数据源通过查询过滤条件,配置数据挖掘所需的数据。
数据源分为结构化数据和非结构化数据。
结构化数据包括Oracle、Mysql等,结构化数据通过sql查询。
非结构化数据,包括Hadoop、Hive、HBase等,非结构化数据通过关键字方式进行查询。
数据源在UI界面上展示数据内容至少展示元数据。
数据治理规则配置模块选择数据源中的数据进入数据挖掘计算。数据治理规则配置模块对数据源中的数据列配置对应的数据治理规则及其参数。
配置对应的数据治理规则涉及文本与数字类型、数据列表类型和bool类型。理想情况下,选定数据列后,系统应提示可选择的过滤规则,选定治理规则后,界面上应提示异常数据,体现被影响数据的具体变化。
数据治理规则执行模块中,数据在不同的数据处理规则中单向流转,同一列数据需要多个数据处理规则时,按照规则定义的先后顺序执行。如图1所示,数据源A采集到的数据进入本系统,会先经由数据治理规则1处理,然后由数据治理规则2顺序处理,并最终交付数据生成数据治理评估报告。
数据治理规则执行模块中,数据在不同的数据处理规则中单向流转,同一个规则需要多个数据源时,对每个数据源应用子规则,同时有一个合并的总规则。如图2所示,数据源B以及数据源C会分别通过子数据处理规则3-1以及子数据处理规则3-2的处理,然后由父数据处理规则3-3汇总处理,并最终交付数据生成数据治理评估报告。
数据治理规则执行模块针对数据处理规则,对输入数据进行治理。
数据治理规则执行模块中治理的结果应保持数据的类型、完整性、准确性和一致性。数据治理规则执行模块快中计算方式通过MapReduce或Spark执行。
数据交付模块使经过治理的数据与数据挖掘模型的输入类型匹配。
数据交付模块采用替换原始数据、保存为新的数据或挖掘计算后丢弃进行交付。其中替换原始数据后期可与权限管理相结合。挖掘计算后丢弃特征易发生改变的时效性数据。
数据治理评估报告模块给出应用数据治理规则后,与原始数据的差异性。
给出应用数据治理规则后,与原始数据的差异性包括可通过方差、标准差、过滤量统计等方式给出准确性、时效性、一致性的参数。其衡量标准应该与具体的规则相关。默认不展示数据,可通过按钮展开列表,查看数据。
日志模块用于记录数据挖掘过程产生的日志数据。
权限管理模块用于控制用户的权限。
权限管理模块的权限为可配置的。
该基于Hadoop的数据治理系统着重于交付可信、安全的数据,为数据挖掘、数据分析算法提供支持,并通过该系统中可选择的参数配置默认的数据治理方案,包括数据质量规则、安全屏蔽规则、存档规则和数据保留政策。在海量数据的背景下,该系统以hadhoop为平台结合MapReduce以及Spark的计算能力达到跟踪数据质量和解决数据异常的效果。用于解决数据挖掘、数据计算、数据分析等过程中遇到的数据缺少、数据冗余及数据错误等异常情况,通过对异常数据的治理,数据能够达到一定的实用价值。该系统中涉及的数据治理规则通过预先设置的模板或算法。
以上所述的实施例,只是本发明较优选的具体实施方式,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims (10)

1.一种基于Hadoop的数据治理系统,其特征在于:该系统包括数据源、数据治理规则配置模块、数据治理规则执行模块、数据交付模块、数据治理评估报告模块、日志模块和权限管理模块,数据源通过查询过滤条件,配置数据挖掘所需的数据;数据治理规则配置模块选择数据源中的数据进入数据挖掘计算;数据治理规则执行模块针对数据处理规则,对输入数据进行治理;数据交付模块使经过治理的数据与数据挖掘模型的输入类型匹配;数据治理评估报告模块给出应用数据治理规则后,与原始数据的差异性;日志模块用于记录数据挖掘过程产生的日志数据;权限管理模块用于控制用户的权限。
2.根据权利要求1所述的基于Hadoop的数据治理系统,其特征在于:所述数据源为结构化数据,结构化数据通过sql查询。
3.根据权利要求1所述的基于Hadoop的数据治理系统,其特征在于:所述数据源为非结构化数据,非结构化数据通过关键字方式进行查询。
4.根据权利要求1、2或3所述的基于Hadoop的数据治理系统,其特征在于:所述数据治理规则配置模块对数据源中的数据列配置对应的数据治理规则及其参数。
5.根据权利要求4所述的基于Hadoop的数据治理系统,其特征在于:所述配置对应的数据治理规则涉及文本与数字类型、数据列表类型和bool类型。
6.根据权利要求5所述的基于Hadoop的数据治理系统,其特征在于:所述数据治理规则执行模块中,数据在不同的数据处理规则中单向流转,同一列数据需要多个数据处理规则时,按照规则定义的先后顺序执行,同一个规则需要多个数据源时,对每个数据源应用子规则,同时有一个合并的总规则。
7.根据权利要求6所述的基于Hadoop的数据治理系统,其特征在于:所述数据治理规则执行模块快中计算方式通过MapReduce或Spark执行。
8.根据权利要求7所述的基于Hadoop的数据治理系统,其特征在于:所述数据交付模块采用替换原始数据、保存为新的数据或挖掘计算后丢弃进行交付。
9.根据权利要求8所述的基于Hadoop的数据治理系统,其特征在于:所述数据治理评估报告模块给出应用数据治理规则后,与原始数据的差异性。
10.根据权利要求9所述的基于Hadoop的数据治理系统,其特征在于:所述权限管理模块的权限为可配置的。
CN201910186592.3A 2019-03-12 2019-03-12 一种基于Hadoop的数据治理系统 Pending CN109947820A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910186592.3A CN109947820A (zh) 2019-03-12 2019-03-12 一种基于Hadoop的数据治理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910186592.3A CN109947820A (zh) 2019-03-12 2019-03-12 一种基于Hadoop的数据治理系统

Publications (1)

Publication Number Publication Date
CN109947820A true CN109947820A (zh) 2019-06-28

Family

ID=67008753

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910186592.3A Pending CN109947820A (zh) 2019-03-12 2019-03-12 一种基于Hadoop的数据治理系统

Country Status (1)

Country Link
CN (1) CN109947820A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475600A (zh) * 2020-03-30 2020-07-31 招商局金融科技有限公司 数据治理方法、装置及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8595718B1 (en) * 2007-08-17 2013-11-26 Oracle America, Inc. Method and system for generating a knowledge package
CN107577771A (zh) * 2017-09-07 2018-01-12 北京海融兴通信息安全技术有限公司 一种大数据挖掘系统
CN108228830A (zh) * 2018-01-03 2018-06-29 广东工业大学 一种数据处理系统
CN109299083A (zh) * 2018-10-16 2019-02-01 全球能源互联网研究院有限公司 一种数据治理系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8595718B1 (en) * 2007-08-17 2013-11-26 Oracle America, Inc. Method and system for generating a knowledge package
CN107577771A (zh) * 2017-09-07 2018-01-12 北京海融兴通信息安全技术有限公司 一种大数据挖掘系统
CN108228830A (zh) * 2018-01-03 2018-06-29 广东工业大学 一种数据处理系统
CN109299083A (zh) * 2018-10-16 2019-02-01 全球能源互联网研究院有限公司 一种数据治理系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475600A (zh) * 2020-03-30 2020-07-31 招商局金融科技有限公司 数据治理方法、装置及计算机可读存储介质
CN111475600B (zh) * 2020-03-30 2023-05-12 招商局金融科技有限公司 数据治理方法、装置及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN110349639A (zh) 一种基于通用医疗术语库的多中心医疗术语标准化系统
Müller-Birn et al. Work-to-rule: the emergence of algorithmic governance in Wikipedia
CN112395361B (zh) 电力工程建设区块链管理系统
US11403460B2 (en) Transformation in tabular data cleaning tool
WO2015077216A1 (en) Efficient data mapping requirements establishment and reference
US8838524B2 (en) Automated system for preparing and presenting control charts
CN104156804A (zh) 省公司班组对标数据处理系统及数据处理方法
CN112162980A (zh) 数据质量管控方法及系统、存储介质、电子设备
WO2015070025A1 (en) Document analysis and processing systems and methods
CN109947820A (zh) 一种基于Hadoop的数据治理系统
CN107590254A (zh) 具有合并处理方法的大数据支撑平台
CN110750972A (zh) 一种调度报表信息采集方法及系统
Li et al. Visualization generation with large language models: An evaluation
CN109242438A (zh) 软件同行评审系统
Zou et al. Information Overload in using Content Management Systems: Causes and Consequences.
CN109360612A (zh) 流行病学调查信息管理系统
Mao Design and Implementation of Tax Collection and Management Index Early Warning System Based on Data Mining
Zhao et al. A platform of county innovation capability monitoring
CN116975041B (zh) Ab实验分流及分析系统
CN110827983A (zh) 一种血液透析患者异常指标质量持续改进的管理方法
Wang Dynamic financial economic fluctuation model based on non-normal distribution
Salnikov et al. Experiences Creating an Automated Information System for Gathering and Analyzing the Results of Activities of Researchers and Scientific Groups
Kolaković-Bojović Efficient Monitoring and Evaluation of Judical Reform as a Way to Speed up Achieving the EU Standards
Yang et al. Design and development of management system for enterprise energy consumption and cost
Carter et al. Under the influence? Intellectual exchange in political science

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20190710

Address after: 214029 No. 999 Gaolang East Road, Binhu District, Wuxi City, Jiangsu Province (Software Development Building) 707

Applicant after: Chaozhou Zhuoshu Big Data Industry Development Co., Ltd.

Address before: 250100 S06 tower, 1036, Chao Lu Road, hi tech Zone, Ji'nan, Shandong.

Applicant before: Shandong Tidal Cloud Information Technology Co., Ltd.

TA01 Transfer of patent application right