CN108268462B - 一种关系完整性的数据质量检测系统 - Google Patents

一种关系完整性的数据质量检测系统 Download PDF

Info

Publication number
CN108268462B
CN108268462B CN201611254042.3A CN201611254042A CN108268462B CN 108268462 B CN108268462 B CN 108268462B CN 201611254042 A CN201611254042 A CN 201611254042A CN 108268462 B CN108268462 B CN 108268462B
Authority
CN
China
Prior art keywords
data
relation
integrity
template
processing module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611254042.3A
Other languages
English (en)
Other versions
CN108268462A (zh
Inventor
李青海
侯大勇
简宋全
邹立斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Kingpoint Data Science And Technology Co ltd
Original Assignee
Guangdong Kingpoint Data Science And Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Kingpoint Data Science And Technology Co ltd filed Critical Guangdong Kingpoint Data Science And Technology Co ltd
Priority to CN201611254042.3A priority Critical patent/CN108268462B/zh
Publication of CN108268462A publication Critical patent/CN108268462A/zh
Application granted granted Critical
Publication of CN108268462B publication Critical patent/CN108268462B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/217Database tuning

Abstract

本发明提供一种关系完整性的数据质量检测系统,其包括:元数据处理模块,用于从待检测数据所在的数据库中读取待检测数据的逻辑数据结构,并通过用户交互和自动检测发现潜在的数据关系来生成关系完整性规则模板;模板处理模块,用于在资源库中存储和提取所述元数据处理模块得到的关系完整性规则模板;问题处理模块,用于发现、展示和处理关系完整性数据问题。本发明提供的一种关系完整性的数据质量检测系统,可以解决复杂的关系完整性数据问题的检测,并通过用户辅助和一定自动化生成质量检测模板,为后续增量数据的检测提供便利,相比人工检测节省了大量时间和精力。

Description

一种关系完整性的数据质量检测系统
技术领域
本发明涉及ETL过程中的数据质量监控领域,特别是一种关系完整性的数据质量检测系统。
背景技术
信息技术的快速发展使得数据逐渐成为实现企业业务价值最重要的资源之一。然而随着数据量的不断增大,数据质量问题也随之而来。数据缺失、错误、不一致等问题使企业对其的应用受到阻碍,严重的甚至会导致企业做出错误决策,损失重要价值进而引发信任危机。针对这些脏数据,许多数据质量检测和清洗方案应运而生。而关系完整性在其中则是比较复杂的一种数据质量问题。关系完整性主要有四条规则:1.唯一性规则(identityrules);2.参照性规则(reference rules);3.参与度规则(cardinal rules);4.派生规则(inheritance rules)这四种规则的多种情况导致其在数据表中呈现出现不同的逻辑结构,如参与度规则中实体间1对1和1对N关系在数据库中只需两张实体表,而多对多关系则需要再多一张关系表来记录两个实体间的多对多关系。另外,尽管在数据库中可以设置外键规则,但许多公司可能并不会进行设置,这是因为比起防止输入错误的外键参照数据,公司更在意这些仅出现参照错误的数据记录的价值,因此更倾向于在输入之后进行修改。这些复杂情形使数据库逐渐累积了大量错误数据,并为数据质量的监控带来了重重挑战。
目前比较有代表性的数据质量评价工具对于简单的数据质量问题如属性域约束和关系完整性中主外键约束有较好的检测效果,但对于复杂的逻辑结构,如参与度规则涉及的参与度问题和弱实体问题、以及派生规则中包含的子类型问题考虑的比较少。因此有必要设计一种比较易用和全面的系统对数据源中的数据和新增的数据进行关系完整性检查。
鉴于上述缺陷,本发明创作者经过长时间的研究和实践终于获得了本发明。
发明内容
为解决上述技术缺陷,本发明采用的技术方案在于,提供一种关系完整性的数据质量检测系统,其包括:元数据处理模块,用于从待检测数据所在的数据库中读取待检测数据的逻辑数据结构,并通过用户交互和自动检测发现潜在的数据关系来生成关系完整性规则模板;模板处理模块,用于在资源库中存储和提取所述元数据处理模块得到的关系完整性规则模板;问题处理模块,用于发现、展示和处理关系完整性数据问题。
较佳的,所述元数据处理模块包括:数据模型提取单元,用于从待检测数据所在的数据库中读取待检测数据的逻辑数据结构,所述逻辑数据结构包括表结构和在数据库中预定义的主外键约束;数据关系发现单元,用于通过用户交互和自动检测发现潜在的数据关系,并生成关系完整性规则模板。
较佳的,所述元数据处理模块还包括如果所述数据模型提取单元提取出的数据模型已将主外键约束定义完整,则不需数据质量分析员指定各表的主外键,否则需对主外键进行指定,根据定义好的主外键自动发现实体之间的关系参与度和子类型,并由分析员在此基础上进行修改或调整,得到关系完整性规则模板,在自动发现过程中,输出每个外键字段的每个不同值对应的记录编号的计数,根据记录的最小和最大计数确定关系参与度,并扫描具有相同主键的数据表,确定潜在的父类型和子类型关系。
较佳的,所述模板处理模块包括:模板存储单元,用于将获取的关系完整性规则模板存入资源库,待后续有新增数据进入时使用;模板提取单元,用于在需要时从资源库中提取关系完整性模板进行关系完整性检测。
较佳的,所述问题处理模块:数据问题发现单元,用于根据关系完整性规则模板来发现数据中存在的关系完整性问题;数据问题展示单元,用于对发现的关系完整性问题及涉及的错误数据进行展示;数据问题处理单元,用于为发现的问题数据的修改提供接口,便于数据质量分析员直接对出现问题的数据进行修改。
与现有技术相比,本发明提供的一种关系完整性的数据质量检测系统,可以解决复杂的关系完整性数据问题的检测,并通过用户辅助和一定自动化生成质量检测模板,为后续增量数据的检测提供便利,相比人工检测节省了大量时间和精力。
附图说明
为了更清楚地说明本发明各实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
图1为本发明的一种关系完整性的数据质量检测系统的功能框图。
具体实施方式
以下结合附图,对本发明上述的和另外的技术特征和优点作更详细的说明。
如图1所示,为本发明的一种关系完整性的数据质量检测系统的功能框图,该关系完整性的数据质量检测系统包括:元数据处理模块10、模板处理模块20和问题处理模块30。
所述元数据处理模块10,用于从待检测数据所在的数据库中读取待检测数据的逻辑数据结构,并通过用户交互和自动检测发现潜在的数据关系来生成关系完整性规则模板。
所述元数据处理模块10包括:数据模型提取单元101和数据关系发现单元102。所述数据模型提取单元101,用于从待检测数据所在的数据库中读取待检测数据的逻辑数据结构,逻辑数据结构包括表结构、在数据库中预定义的主外键约束等。所述数据关系发现单元102,用于通过用户交互和自动检测发现潜在的数据关系,并生成关系完整性规则模板。具体的,如果所述数据模型提取单元101提取出的数据模型已将主外键约束定义完整,则不需数据质量分析员指定各表的主外键,否则需对主外键进行指定,根据定义好的主外键自动发现实体之间的关系参与度和子类型,并由分析员在此基础上进行修改或调整,得到关系完整性规则模板。在自动发现过程中,输出每个外键字段的每个不同值对应的记录编号的计数,根据记录的最小和最大计数确定关系参与度,并扫描具有相同主键的数据表,确定潜在的父类型和子类型关系。
所述模板处理模块20,用于在资源库中存储和提取所述元数据处理模块10得到的关系完整性规则模板。所述模板处理模块20包括:模板存储单元201和模板提取单元202。所述模板存储单元201,用于将获取的关系完整性规则模板存入资源库,待后续有新增数据进入时使用。所述模板提取单元202,用于在需要时从资源库中提取关系完整性模板进行关系完整性检测。
所述问题处理模块30,用于发现、展示和处理关系完整性数据问题。所述问题处理模块30包括:数据问题发现单元301,数据问题展示单元302和数据问题处理单元303。所述数据问题发现单元301,用于根据关系完整性规则模板来发现数据中存在的关系完整性问题。所述数据问题展示单元302,用于对发现的关系完整性问题及涉及的错误数据进行展示。所述数据问题处理单元303,用于为发现的问题数据的修改提供接口,便于数据质量分析员直接对出现问题的数据进行修改。
本发明提供的一种关系完整性的数据质量检测系统,可以解决复杂的关系完整性数据问题的检测,并通过用户辅助和一定自动化生成质量检测模板,为后续增量数据的检测提供便利,相比人工检测节省了大量时间和精力。
以上所述仅为本发明的较佳实施例,对本发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在本发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。

Claims (4)

1.一种关系完整性的数据质量检测系统,其特征在于,其包括:
元数据处理模块,包括数据模型提取单元,用于从待检测数据所在的数据库中读取待检测数据的逻辑数据结构,所述逻辑数据结构包括表结构和在数据库中预定义的主外键约束;还包括数据关系发现单元,用于通过用户交互和自动检测发现潜在的数据关系来生成关系完整性规则模板,还用于在所述自动检测过程中,输出每个外键字段的每个不同值对应的记录编号的计数,根据记录的最小和最大计数确定关系参与度,并扫描具有相同主键的数据表,确定潜在的父类型和子类型关系;
模板处理模块,用于在资源库中存储和提取所述元数据处理模块得到的关系完整性规则模板;
问题处理模块,用于发现、展示和处理关系完整性数据问题。
2.根据权利要求1所述的一种关系完整性的数据质量检测系统,其特征在于,所述元数据处理模块还包括如果所述数据模型提取单元提取出的数据模型已将主外键约束定义完整,则不需数据质量分析员指定各表的主外键,否则需对主外键进行指定,根据定义好的主外键自动发现实体之间的关系参与度和子类型,并由分析员在此基础上进行修改或调整,得到关系完整性规则模板。
3.根据权利要求1所述的一种关系完整性的数据质量检测系统,其特征在于,所述模板处理模块包括:
模板存储单元,用于将获取的关系完整性规则模板存入资源库,待后续有新增数据进入时使用;
模板提取单元,用于在需要时从资源库中提取关系完整性模板进行关系完整性检测。
4.根据权利要求1所述的一种关系完整性的数据质量检测系统,其特征在于,所述问题处理模块:
数据问题发现单元,用于根据关系完整性规则模板来发现数据中存在的关系完整性问题;
数据问题展示单元,用于对发现的关系完整性问题及涉及的错误数据进行展示;
数据问题处理单元,用于为发现的问题数据的修改提供接口,便于数据质量分析员直接对出现问题的数据进行修改。
CN201611254042.3A 2016-12-30 2016-12-30 一种关系完整性的数据质量检测系统 Active CN108268462B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611254042.3A CN108268462B (zh) 2016-12-30 2016-12-30 一种关系完整性的数据质量检测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611254042.3A CN108268462B (zh) 2016-12-30 2016-12-30 一种关系完整性的数据质量检测系统

Publications (2)

Publication Number Publication Date
CN108268462A CN108268462A (zh) 2018-07-10
CN108268462B true CN108268462B (zh) 2021-04-20

Family

ID=62754311

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611254042.3A Active CN108268462B (zh) 2016-12-30 2016-12-30 一种关系完整性的数据质量检测系统

Country Status (1)

Country Link
CN (1) CN108268462B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162516B (zh) * 2019-05-27 2022-11-01 浪潮软件股份有限公司 一种基于海量数据处理的数据治理的方法及系统
CN112364011B (zh) * 2021-01-13 2021-04-02 睿至科技集团有限公司 一种线上数据模型管理装置、方法及其系统
CN113987190B (zh) * 2021-11-16 2023-02-28 国网智能电网研究院有限公司 一种数据质量校验规则提取方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699693A (zh) * 2014-01-10 2014-04-02 中国南方电网有限责任公司 一种基于元数据的数据质量管理方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030036683A1 (en) * 2000-05-01 2003-02-20 Kehr Bruce A. Method, system and computer program product for internet-enabled, patient monitoring system
CN101452441A (zh) * 2008-12-05 2009-06-10 山东浪潮齐鲁软件产业股份有限公司 一种电子表格通用数据解析导入方法
CN101561826B (zh) * 2009-05-18 2011-03-16 汤胤 基于节点粒度语义的在线非结构化文档共享协同方法及其应用
CN102073698B (zh) * 2010-12-28 2012-10-17 中国工商银行股份有限公司 企业级数据仓库系统的样本数据获取方法及装置
CN105005683A (zh) * 2015-06-17 2015-10-28 北京锐易特软件技术有限公司 一种解决区域医疗系统数据规范化问题的缓存系统及方法
CN106202447B (zh) * 2016-07-15 2019-10-01 西安测绘研究所 一种具备生产与管理一体化的数字地图制图系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699693A (zh) * 2014-01-10 2014-04-02 中国南方电网有限责任公司 一种基于元数据的数据质量管理方法及系统

Also Published As

Publication number Publication date
CN108268462A (zh) 2018-07-10

Similar Documents

Publication Publication Date Title
AU2020250205B2 (en) Characterizing data sources in a data storage system
Souibgui et al. Data quality in ETL process: A preliminary study
US10013439B2 (en) Automatic generation of instantiation rules to determine quality of data migration
US8719308B2 (en) Method and system to process unstructured data
US8825581B2 (en) Simplifying a graph of correlation rules while preserving semantic coverage
US20160092596A1 (en) Database migration method and apparatus
CN110119395B (zh) 大数据治理中基于元数据实现数据标准与数据质量关联处理的方法
US10878000B2 (en) Extracting graph topology from distributed databases
CN108268462B (zh) 一种关系完整性的数据质量检测系统
US10002142B2 (en) Method and apparatus for generating schema of non-relational database
CN111177134B (zh) 适用于海量数据的数据质量分析方法、装置、终端及介质
US9417991B2 (en) Translation verification testing
Cheah et al. Provenance analysis: Towards quality provenance
Kumar et al. Attribute correction-data cleaning using association rule and clustering methods
CN112753029A (zh) 用于基于图的查询分析的系统和方法
US11170050B1 (en) Method and device for graph data quality verification
CN108009223B (zh) 一种交易数据的一致性检测方法及装置
CN110990447A (zh) 一种数据探查方法、装置、设备及存储介质
CN111159161A (zh) 基于etl规则的数据质量监控及预警系统和方法
CN111177139A (zh) 基于数据质量体系的数据质量验证监控及预警方法和系统
Xie et al. Big data validation case study
Berko et al. Knowledge-based big data cleanup method
Cheah et al. Provenance quality assessment methodology and framework
CN112486841A (zh) 埋点采集数据校验的方法及装置
CN102523286A (zh) 服务信誉度获取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant