CN103699693B - 一种基于元数据的数据质量管理方法及系统 - Google Patents
一种基于元数据的数据质量管理方法及系统 Download PDFInfo
- Publication number
- CN103699693B CN103699693B CN201410013537.1A CN201410013537A CN103699693B CN 103699693 B CN103699693 B CN 103699693B CN 201410013537 A CN201410013537 A CN 201410013537A CN 103699693 B CN103699693 B CN 103699693B
- Authority
- CN
- China
- Prior art keywords
- data
- verification rule
- quality
- metadata
- contract
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Abstract
本发明提出一种基于元数据的数据质量管理方法,包括步骤:根据数据库内数据建立统一数据模型;根据建立的数据模型配置元数据;生成校验规则;配置执行策略,每一执行策略绑定一个或多个校验规则;按计划自动执行策略,在数据库中查找并存储目标数据;生成报告并分发。根据本发明的企业数据质量管理基于元数据进行,通过解析元数据设置的业务特征和管理特征结果,实现了数据完整性校验规则和数据合规性校验规则的自动生成,并以自动化手段全面支撑数据质量管理的事前防范事中检查以及事后评价。
Description
技术领域
本发明涉及一种数据处理方法,尤其是一种基于元数据的数据质量管理方法及系统。
背景技术
随着信息化技术的发展,产生了越来越多的数据信息,数据从计划、获取、存储、共享、维护、应用、消亡整个生命周期里可能会引发各类数据质量问题。错误的数据将会对企业的运营、决策造成严重的不良后果,因此数据质量管理已成为企业信息化建设中至关重要的环节。
目前业界缺少一种完整的数据质量管理解决方案,通常都要数据库管理员编写程序脚本来识别存在问题的数据。这种方法的优点是简单、不需部署额外的系统,缺点是不规范、可维护性差、容易出错、不能监控问题数据整改情况。还有种做法是使用规章制度来规范数据录入数据工作,这种规章制度在一定程度上能防止缺陷数据进入数据库,但操作人员的技能水平、责任感、操作失误等都会产生数据质量问题。
无论是使用程序脚本还是规章制度都不能自动地对问题数据进行识别、度量和报警。当有成千上万条数据质量规则需要校验时,这种依靠人工干预才能完成的方式已不能满足需求。
举例来说,大型企业在数据管理工作方面往往存在以下问题:
1.缺乏统一管理,各业务系统或各分子公司的数据管理方式和方法差异较大,水平参差不齐;
2.数据源不唯一,按系统边界进行数据管理,系统间数据冗余导致数据多头管理,数据一致性较差;
3.责任不明确,数据的管理、录入、使用责任没有落实到具体部门和岗位;
4.缺乏企业资源统一建模,人、财、物等企业资源数据模型不统一,导致数据整合和集成的难度较大;
5.数据标准执行不到位,已有业务系统没有全面固化和遵守数据规范,存在信息分类编码不一致、业务含义不统一的现象。
发明内容
针对以上现有技术的缺陷,本发明的目的在于提供一种完整的数据质量管理解决方案,
本发明的技术方案为:
一种基于元数据的数据质量管理方法,包括以下步骤:
1)根据数据库内数据建立统一数据模型;
2)根据建立的数据模型配置元数据;
3)通过解析元数据设置的业务特征和管理特征结果生成校验规则;
4)配置执行策略,每一执行策略绑定一个或多个校验规则;
5)按计划自动执行策略,在目标数据库中查找并存储目标数据;
6)生成报告并分发。
作为以上技术方案的一种改进,步骤3)还包括导出含有校验规则的离线包,其中的校验规则包括数据完整性校验规则和数据合规性校验规则。
作为以上技术方案的一种改进,还包括以下步骤:与上次执行策略查找到目标数据进行对比,分析并标记出本次查找到的目标数据中已经整改的数据。
本发明还提出一种基于以上方法的系统,包括:
数据模型模块,根据数据库内数据建立统一数据模型;
元数据配置模块,根据建立的数据模型配置元数据;
校验规则生成模块,通过解析元数据设置的业务特征和管理特征结果生成校验规则;
策略配置模块,配置执行策略,每一执行策略绑定一个或多个校验规则;
执行引擎,按计划自动执行策略,在目标数据库中查找并存储目标数据;
报告生模块,生成报告并分发。
作为以上技术方案的一种改进,校验规则生成模块导出含有校验规则的离线包,其中的校验规则包括数据完整性校验规则和数据合规性校验规则。
作为以上技术方案的一种改进,还包括比较标记模块,将本次查找到的目标数据与上次执行策略查找到目标数据进行对比,分析并标记出本次查找到的目标数据中已经整改的数据。
本发明的有益效果在于:
数据质量管理基于元数据进行,通过解析元数据设置的业务特征和管理特征结果,实现了数据完整性校验规则和数据合规性校验规则的自动生成。同时,系统能把校验规则导出离线包功能,支撑业务系统或主数据管理系统的数据质量管理需求;此外,系统支持数据质量校验规则的自动以及校验报告的自动生成,以自动化手段全面支撑数据质量管理的事前防范事中检查以及事后评价。
附图说明
以下结合附图和实施例对本发明作进一步说明,其中:
图1为本发明的流程示意图。
具体实施方式
在此作为示范的优选实施例中,以电网营销系统为例说明整个流程。为了简化业务逻辑,该例子只选取“合同”对象做说明。
如图1所示,本发明所提出的基于元数据的数据质量管理方法可以在现有的办公系统中实现,即可以在常见的网络结构上部署。在根据本发明的方法实施的系统里,首先,在步骤1,系统的数据模型模块根据数据库里的数据类型生成统一的数据模型。
在步骤2,系统的元数据配置模块根据数据模型里配置元数据提供便利,在一些可选的实施方案中,系统的元数据配置模块可根据已有的元数据库或者数据库自动分析生成所需的元数据,即系统可根据现有的数据库中数据进行数据挖掘,自动生成数据的定义及数据之间的关系,系统管理员可对自动生成的元数据进行修改。
在此实施例中,统一数据模型由承建营销系统的厂商提供,数据模型的内容主要包括业务系统中存在哪些对象、对象包含哪些属性以及对象之间的关系等。系统管理员根据该数据模型在系统中录入对应的元数据,对象的元数据包括业务特征和管理特征,限于篇幅下表只列出“合同”的部分元数据:
以及
在步骤3,按照业务部门制定的数据质量管理细则,在系统的校验规则配置模块生成校验规则。在一些实施例中,这可以是基于系统存储的经验数据进行的自动操作。配置好的校验规则可以导出成离线包给其他系统使用。
在此实施例中,业务部门发布数据质量管理细则,假设细则里要求校验合同签署日期不能为空。由于“合同”的业务特征里已配置“合同签署日期”不能为空,因此系统管理员可以使用系统自动生成该校验规则。假设“合同”里有三条数据:
用户编号 | 合同编号 | 合同协议分类代码 | 合同签署日期 | 合同终止日期 |
6020021101 | 830499008 | 1 | 20120108 | |
6020021102 | 830499009 | 1 | ||
6020021103 | 830499010 | 3 | 20100909 | 20130101 |
在步骤4,系统的策略配置模块配置执行策略,每个策略可以绑定多条规则,策略可以配置自动执行的时间、周期以及开始和结束时间。
在步骤5,系统的执行引擎根据步骤4生成的时间表,在指定的时间自动执行策略。
对于步骤4和5,在此实施例中,到了指定的时间,规则自动执行并抽取缺陷数据。举例来说,校验合同签署日期不能为空的规则自动找出问题数据一条:
用户编号 | 合同编号 | 合同协议分类代码 | 合同签署日期 | 合同终止日期 | 是否已整改 |
6020021102 | 830499009 | 1 | 否 |
在步骤6,执行引擎在策略执行完之后自动归档找到的目标数据,在此实施例中为缺陷数据,并与上一次发现的缺陷数据对比,分析并标记出已经整改的缺陷数据。
在此实施例中,策略再次执行,假设步骤5中发现的问题数据已整改完毕,则系统中自动把问题数据标记成已整改
用户编号 | 合同编号 | 合同协议分类代码 | 合同签署日期 | 合同终止日期 | 是否已整改 |
6020021102 | 830499009 | 1 | 是 |
在步骤7,缺陷数据处理完毕后,系统会定期统计缺陷数据并生成数据质量报告,系统将数据质量报告下发给责任部门,责任部门根据数据质量报告进行数据整改。
在此实施例中,系统自动统计数据质量情况和整改情况并生成数据质量报告,质量报告主要包括问题数据条数、已整改记录条数、未整改记录条数以及缺陷数据明细等内容。责任部门根据数据质量系统的校验结果进行数据整改,并把已整改的数据同步到中间库。
数据质量管理基于元数据进行,通过解析元数据设置的业务特征和管理特征结果,实现了数据完整性校验规则和数据合规性校验规则的自动生成。同时,系统能把校验规则导出离线包功能,支撑业务系统或主数据管理系统的数据质量管理需求;此外,系统支持数据质量校验规则的自动以及校验报告的自动生成,以自动化手段全面支撑数据质量管理的事前防范事中检查以及事后评价。
本发明除了上述实施方式之外,其等同技术方案也应当在其保护范围之内,在此不再一一叙述。
Claims (2)
1.一种基于元数据的数据质量管理方法,其特征在于,包括以下步骤:
1)根据数据库内数据建立统一数据模型,其中所述数据模型的内容包括业务系统中的对象、对象属性以及对象之间的关系,对象的元数据包括业务特征和管理特征;
2)根据建立的数据模型配置元数据,其中根据数据库中的数据进行数据挖掘,自动生成数据的定义及数据之间的关系;
3)按照制定的数据质量管理细则,基于存储的经验数据,通过解析元数据设置的业务特征和管理特征结果生成校验规则,以及导出含有所述校验规则的离线包,其中所述校验规则包括数据完整性校验规则和数据合规性校验规则,其中业务特征包括合同编号和合同签署日期,数据质量管理细则包括不允许合同签署日期的内容为空,校验规则包括检查该合同签署日期的内容是否为空;
4)配置执行策略,每一执行策略绑定一个或多个校验规则,其中为所述执行策略配置自动执行的时间、周期以及开始和结束时间;
5)按计划自动执行策略,在目标数据库中查找并存储目标数据,其中,在指定的时间,校验规则自动执行并抽取缺陷数据,其中将该合同签署日期为空的对应的合同编号的数据作为缺陷数据抽取出来以要求后续的整改;
6)在策略执行完之后自动归档找到的目标数据,将本次查找到的目标数据与上次执行策略查找到的目标数据进行对比,分析并标记出本次查找到的目标数据中已经整改的数据,所述目标数据包括缺陷数据;
7)缺陷数据处理完毕后,定期统计缺陷数据并生成数据质量报告,将数据质量报告分发给责任部门,以便责任部门根据数据质量报告进行数据整改,责任部门把已整改的数据同步到中间库,其中,统计缺陷数据包括统计数据质量情况和整改情况,数据质量报告包括问题数据条数、已整改记录条数、未整改记录条数以及缺陷数据明细。
2.一种基于元数据的数据质量管理系统,其特征在于,包括:
数据模型模块,根据数据库内数据建立统一数据模型,其中所述数据模型的内容包括业务系统中的对象、对象属性以及对象之间的关系,对象的元数据包括业务特征和管理特征;
元数据配置模块,根据建立的数据模型配置元数据,其中根据数据库中的数据进行数据挖掘,自动生成数据的定义及数据之间的关系;
校验规则生成模块,按照制定的数据质量管理细则,基于存储的经验数据,通过解析元数据设置的业务特征和管理特征结果生成校验规则,以及导出含有所述校验规则的离线包,其中所述校验规则包括数据完整性校验规则和数据合规性校验规则,其中业务特征包括合同编号和合同签署日期,数据质量管理细则包括不允许合同签署日期的内容为空,校验规则包括检查该合同签署日期的内容是否为空;
策略配置模块,配置执行策略,每一执行策略绑定一个或多个校验规则,其中为所述执行策略配置自动执行的时间、周期以及开始和结束时间;
执行引擎,按计划自动执行策略,在目标数据库中查找并存储目标数据,其中,在指定的时间,校验规则自动执行并抽取缺陷数据,其中将该合同签署日期为空的对应的合同编号的数据作为缺陷数据抽取出来以要求后续的整改;
比较标记模块,在策略执行完之后自动归档找到的目标数据,将本次查找到的目标数据与上次执行策略查找到的目标数据进行对比,分析并标记出本次查找到的目标数据中已经整改的数据,所述目标数据包括缺陷数据;
报告生成模块,缺陷数据处理完毕后,定期统计缺陷数据并生成数据质量报告,将数据质量报告分发给责任部门,以便责任部门根据数据质量报告进行数据整改,责任部门把已整改的数据同步到中间库,其中,统计缺陷数据包括统计数据质量情况和整改情况,数据质量报告包括问题数据条数、已整改记录条数、未整改记录条数以及缺陷数据明细。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410013537.1A CN103699693B (zh) | 2014-01-10 | 2014-01-10 | 一种基于元数据的数据质量管理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410013537.1A CN103699693B (zh) | 2014-01-10 | 2014-01-10 | 一种基于元数据的数据质量管理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103699693A CN103699693A (zh) | 2014-04-02 |
CN103699693B true CN103699693B (zh) | 2015-08-19 |
Family
ID=50361221
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410013537.1A Active CN103699693B (zh) | 2014-01-10 | 2014-01-10 | 一种基于元数据的数据质量管理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103699693B (zh) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104537461A (zh) * | 2014-12-09 | 2015-04-22 | 华迪计算机集团有限公司 | 对企业内部控制制度进行合规性检查的方法和装置 |
CN104486337B (zh) * | 2014-12-12 | 2018-05-18 | 北京国双科技有限公司 | 数据有效性验证方法及装置 |
CN104484448A (zh) * | 2014-12-26 | 2015-04-01 | 浙江协同数据系统有限公司 | 一种关系型数据质量的评估方法 |
CN104766151A (zh) * | 2014-12-29 | 2015-07-08 | 国家电网公司 | 一种用于电力交易数据仓库的质量管控方法及其管控系统 |
CN106296246B (zh) * | 2015-05-26 | 2021-04-16 | 腾讯科技(深圳)有限公司 | 业务处理方法及装置 |
CN107229662B (zh) * | 2016-03-25 | 2022-02-25 | 阿里巴巴集团控股有限公司 | 数据清洗方法和装置 |
CN106528828A (zh) * | 2016-11-22 | 2017-03-22 | 山东浪潮云服务信息科技有限公司 | 一种基于多维度校验规则的数据质量检测方法 |
CN108268462B (zh) * | 2016-12-30 | 2021-04-20 | 广东精点数据科技股份有限公司 | 一种关系完整性的数据质量检测系统 |
CN107193868B (zh) * | 2017-04-07 | 2021-04-20 | 广东精点数据科技股份有限公司 | 一种数据质量问题报告系统 |
CN107092694B (zh) * | 2017-04-25 | 2020-10-20 | 杭州数梦工场科技有限公司 | 数据质量的稽查任务生成方法以及装置 |
CN107861965A (zh) * | 2017-05-19 | 2018-03-30 | 广东精点数据科技股份有限公司 | 数据智能识别方法及系统 |
CN107609016A (zh) * | 2017-08-03 | 2018-01-19 | 南京南瑞集团公司 | 基于表达式解析的电力交易数据准确性校验方法 |
WO2019035903A1 (en) | 2017-08-16 | 2019-02-21 | Walmart Apollo, Llc | SYSTEMS AND METHODS FOR VALIDATION OF DISTRIBUTED DATA |
CN107609124A (zh) * | 2017-09-15 | 2018-01-19 | 山东浪潮云服务信息科技有限公司 | 一种数据管理方法及数据管理平台 |
CN108595563A (zh) * | 2018-04-13 | 2018-09-28 | 林秀丽 | 一种数据质量管理方法及装置 |
CN108830554B (zh) * | 2018-05-29 | 2020-07-03 | 农业农村部规划设计研究院 | 基于任务模型的数据成果信息质量智能检测方法和系统 |
CN109144990A (zh) * | 2018-09-03 | 2019-01-04 | 国网浙江省电力有限公司信息通信分公司 | 一种基于元数据驱动的电力通信大数据质量管理方法 |
CN109213986A (zh) * | 2018-09-06 | 2019-01-15 | 中国疾病预防控制中心环境与健康相关产品安全所 | 一种环境健康数据质量核查的自动化报告方法 |
CN109902084B (zh) * | 2019-02-27 | 2023-04-14 | 浪潮软件集团有限公司 | 一种全自动检测与分析数据质量的系统及方法 |
CN110210253A (zh) * | 2019-05-08 | 2019-09-06 | 北京机电工程总体设计部 | 一种基于pdm系统的企业间ebom校验方法 |
CN110413596A (zh) * | 2019-07-30 | 2019-11-05 | 北京明略软件系统有限公司 | 字段处理方法及装置、存储介质、电子装置 |
CN110472109B (zh) * | 2019-07-30 | 2022-06-21 | 深圳中科保泰空天技术有限公司 | 动态化数据质量分析方法及平台系统 |
CN113094406A (zh) * | 2019-12-23 | 2021-07-09 | 内蒙古电力(集团)有限责任公司电力营销服务与运营管理分公司 | 一种电力营销数据治理方法以及系统 |
US20220019910A1 (en) * | 2020-07-20 | 2022-01-20 | Cigna Intellectual Property, Inc. | Computer-automated analysis and validation systems for data models |
CN112905329A (zh) * | 2021-03-24 | 2021-06-04 | 武汉众邦银行股份有限公司 | 一种提高数据标准落标率的全生命周期管控方法 |
CN113094520B (zh) * | 2021-03-29 | 2023-05-12 | 四川新网银行股份有限公司 | 一种检查电子合同的方法 |
CN115392811A (zh) * | 2022-10-31 | 2022-11-25 | 成都飞机工业(集团)有限责任公司 | 一种主数据质量评价方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102542513A (zh) * | 2012-01-17 | 2012-07-04 | 上海交通大学 | 基于本体的电网公共信息模型的验证工具及其方法 |
CN103295162A (zh) * | 2012-02-28 | 2013-09-11 | 杭州市电力局 | 一种基于本体的iec61968松耦合消息模型的设计方法 |
CN103294878A (zh) * | 2012-02-26 | 2013-09-11 | 杭州市电力局 | 一种基于 dms 的多维电网模型统一建模方法 |
-
2014
- 2014-01-10 CN CN201410013537.1A patent/CN103699693B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102542513A (zh) * | 2012-01-17 | 2012-07-04 | 上海交通大学 | 基于本体的电网公共信息模型的验证工具及其方法 |
CN103294878A (zh) * | 2012-02-26 | 2013-09-11 | 杭州市电力局 | 一种基于 dms 的多维电网模型统一建模方法 |
CN103295162A (zh) * | 2012-02-28 | 2013-09-11 | 杭州市电力局 | 一种基于本体的iec61968松耦合消息模型的设计方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103699693A (zh) | 2014-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103699693B (zh) | 一种基于元数据的数据质量管理方法及系统 | |
CN104717085B (zh) | 一种日志解析方法及装置 | |
CN104598376A (zh) | 一种数据驱动的分层自动化测试系统和方法 | |
CN105184144A (zh) | 一种多系统权限管理方法 | |
Fisher et al. | Utilizing Atlassian JIRA for large-scale software development management | |
CN105577475A (zh) | 自动化性能测试系统及方法 | |
CN110063042B (zh) | 一种数据库故障的响应方法及其终端 | |
CN105373472A (zh) | 一种基于数据库的统计准确性的测试方法及测试系统 | |
Bavota et al. | Supporting extract class refactoring in eclipse: The aries project | |
CN104317722A (zh) | 一种基于Junit的单元测试方法及装置 | |
WO2019047070A1 (zh) | 一种数据库维护方法及其系统 | |
CN105187434A (zh) | 基于多应用系统的用户账号管控方法及系统 | |
CN105872127A (zh) | 一种ip地址管理系统 | |
CN102855319A (zh) | Oracle数据库操作监控系统 | |
CN103164337B (zh) | 基于有限状态机的云计算软件测试方法 | |
CN112348530A (zh) | 一种服务器生产自动检验及返修的方法 | |
CN105573774A (zh) | 应用程序参数管理及配置方法 | |
CN105117329A (zh) | 一种应用程序自动上线方法及系统 | |
CN103399744B (zh) | 一种构建企业门户平台的方法 | |
CN104967532A (zh) | Toc技术运维系统及应用方法 | |
CN105446824A (zh) | 表增量获取方法及异地数据备份方法 | |
CN105550116A (zh) | 一种自动化测试管理系统 | |
CN105791441A (zh) | 一种利用云平台排除服务器故障的方法 | |
CN107347086B (zh) | 一种基于备件身份标识的自检系统 | |
CN102567351A (zh) | 一种数据库变更效果的测试方法及测试装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |