CN106528828A - 一种基于多维度校验规则的数据质量检测方法 - Google Patents
一种基于多维度校验规则的数据质量检测方法 Download PDFInfo
- Publication number
- CN106528828A CN106528828A CN201611029394.9A CN201611029394A CN106528828A CN 106528828 A CN106528828 A CN 106528828A CN 201611029394 A CN201611029394 A CN 201611029394A CN 106528828 A CN106528828 A CN 106528828A
- Authority
- CN
- China
- Prior art keywords
- data
- rule
- detection
- standard
- various dimensions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种基于多维度校验规则的数据质量检测方法,其实现过程为:首先定义一系列数据标准,形成体系化的数据标准系统;构建一套多维度的校验规则体系,即对要检测的目标数据,其数据表的每个字段针对性的对应一项或多项数据标准,形成针对检测目标的校验规则体系;设计数据检测引擎,通过该数据检测引擎对目标数据运用校验规则体系进行校验;最后对检测引擎给出的检测结果形成数据检测报告。该基于多维度校验规则的数据质量检测方法与现有技术相比,提供多个维度的数据质量检测体系,在数据检测中提供多方面的检测指标,导出多维度的数据检测报告,从而解决数据检测中取向单一,检测结果结论不全面的问题,实用性强。
Description
技术领域
本发明涉及计算机应用技术领域,具体地说是一种实用性强、基于多维度校验规则的数据质量检测方法。
背景技术
在大型企业或组织中,存在多地区、多产品、多业务、多系统的环境,在数据信息、报表统计、业务分析和业务元定义上存在诸多数据质量问题,主要包括:数据不一致、不完整、不统一以及不真实和不及时等现象,由此导致管理者、业务人员和信息使用者的误解,导致数据利用出现错误,企业决策出现偏差。同时低劣数据质量往往造成开发出来的系统与用户预期大相径庭,并且导致运行维护成本过高,工作量过大,系统难以扩展。诸如此类的问题迫切需要加强对于数据本身质量的研究和管理,而数据质量检测是研究数据质量问题的标准和指导方案。
随着大数据技术的发展,数据检测方法也呈现多样化的发展趋势,传统的数据检测方法开发、更新、维护周期长,时间投入和资金成本给数据应用带来巨大负担。很多新的数据检测方法虽然弥补了传统的数据检测方法的劣势,但是其功能无法和传统的数据检测方法媲美,检测维度的多样性称为其短板。多重规则的数据检测正是融合了传统的数据检测方法的优势,具有检测效率高、维护成本低、检测维度多样的优势。
以往的数据检测方法仅对数据内容进行格式化的规则检测,这使得检测维度局限,检测结果单一,不能满足用户多方位考察数据质量的要求。基于此,本发明提供一种采用多维度的数据校验规则对数据进行质量检测的方法。
发明内容
本发明的技术任务是针对以上不足之处,提供一种实用性强、基于多维度校验规则的数据质量检测方法。
一种基于多维度校验规则的数据质量检测方法,其实现过程为:
首先定义一系列数据标准,形成体系化的数据标准系统;
构建一套多维度的校验规则体系,即对要检测的目标数据,其数据表的每个字段针对性的对应一项或多项数据标准,形成针对检测目标的校验规则体系;
设计数据检测引擎,通过该数据检测引擎对目标数据运用校验规则体系进行校验;
最后对检测引擎给出的检测结果形成数据检测报告。
所述数据标准包括:字段标准、数据元标准、数据表标准、约束规则、数据字典、敏感字段、黑白名单,其中,
字段标准约束了数据的形态;
数据字典约束了数据内容的范围不能超出字典范围;
敏感字段包括敏感信息的枚举信息;
约束规则包括等于规则、截取自规则和合并自规则。
所述校验规则体系由两部分组成:物理规则体系、逻辑规则体系,其中,
物理规则体系规定了数据需要满足的物理标准,包括:字段标准、数据元标准对数据规则的约束和数据字典、敏感字段、黑白名单对内容的约束;
逻辑规则体系包括目标数据与标准数据之间的约束规则的建立,目标数据与标准数据之间的约束规则包括等于规则、截取自规则和合并自规则。
所述约束规则中,等于规则表示要检测的目标数据的内容与已有标准数据的某些内容相等;截取自规则表示要检测的目标数据的内容是由已有标准数据的某些内容截取而来;合并自规则表示要检测的目标数据的内容是由已有标准数据的某些内容组合而来。
数据检测引擎运用校验规则体系进行校验的过程为:将目标数据和与其对应的校验规则体系输入数据检测引擎,数据检测引擎针对校验规则的每项标准对目标数据实行检测,并对检测结果进行记录和处理。
检测引擎给出的检测结果形成的数据报告是多维度的,具体分为:完整性报告、规范性报告、一致性报告、准确性报告、唯一性报告、关联性报告、安全性报告。
本发明的一种基于多维度校验规则的数据质量检测方法,具有以下优点:
本发明提供的一种基于多维度校验规则的数据质量检测方法,提供多个维度的数据质量检测体系,在数据检测中提供多方面的检测指标,导出多维度的数据检测报告,从而解决数据检测中取向单一,检测结果结论不全面的问题;本方法对数据检测,特别是对不同数据集组成的数据体系中,有参照的数据比对有特别的方法和优势,校验规则体系的建立,为数据检测的动态检测(逻辑规则体系)和多维度检测提供了基础和依据;丰富了数据检测的检测维度,为现阶段的数据检测方案和利用提供了新的技术支持和思路;针对行业领域,能够为各企事业单位提供了多样化的数据检测报告,能满足更多的数据检测需求;实用性强,适用范围广泛,易于推广。
附图说明
附图1是本发明的实现示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步说明。
如附图1所示,本发明的一种基于多维度校验规则的数据质量检测方法,包括:一套细化的数据标准体系,一套多维度的校验规则体系,一个适用与多维度校验的数据检测引擎和一套多维度的数据检测报告。通过对特定检测目标中的格列应用数据标准体系中的不同单元进行标记来组成该检测目标独有的检测规则,通过数据检测引擎对该检测目标运用这套检测规则从而得出一套多维度的检测报告。
其实现过程为:
1、数据标准体系的构建:
定义一系列的数据标准,形成体系化的数据标准系统。其中数据标准主要包括:字段标准,数据元标准,数据表标准,约束规则,数据字典,敏感字段,黑白名单。字段标准主要约束了数据的形态,如:数据是一个邮箱地址,就应该中间包含@。数据字典约束了数据内容的范围不能超出字典范围。敏感字段包括敏感信息的枚举信息。约束规则主要包括:等于规则,截取自规则和合并自规则。等于规则表示要检测的目标数据的内容与已有标准数据的某些内容相等。截取自规则表示要检测的目标数据的内容是由已有标准数据的某些内容截取而来。合并自规则表示要检测的目标数据的内容是由已有标准数据的某些内容组合而来。
2、校验规则体系的构建:
针对要检测的目标数据,主要是数据表的每个字段针对性的对应一项或多项数据标准,形成针对检测目标的校验规则体系。校验规则体系由两部分组成:物理规则体系,逻辑规则体系。物理规则体系规定了数据需要满足的物理标准,包括:字段标准,数据元标准对数据规则的约束和数据字典,敏感字段,黑白名单对内容的约束。
逻辑规则体系主要包括目标数据与标准数据之间的约束规则的建立。目标数据与标准数据之间的约束规则包括等于规则、截取自规则和合并自规则。建立目标数据各字段与标准数据之间的约束规则从而组成逻辑规则体系。最重要的是。约束条件的运用可以是复合型的,如:目标数据有身份证件号字段,身份证件号的前14位是由地市代码截取前6位再与出生年月日合并组成,这就用到了截取自和合并自规则的组合。
3、通过数据检测引擎对目标数据运用校验规则体系进行校验:
将目标数据和与其对应的校验规则体系输入数据检测引擎,数据检测引擎针对校验规则的每项标准对目标数据实行检测,并对检测结果进行记录和处理。
4、形成数据检测报告:
方法对检测引擎给出的检测结果形成数据报告。数据报告是多维度的,所以数据检测结果和数据报告之间有若干的复杂对应规则,每项数据报告都是由数据检测结果中的多项指标运算和汇总而来。
检测报告分为:完整性报告、规范性报告、一致性报告、准确性报告、唯一性报告、关联性报告、安全性报告。
本发明提供的一种基于多维度校验规则的数据质量检测方法,旨在创建一种模型,提供多个维度的数据质量检测体系,在数据检测中提供多方面的检测指标,导出多维度的数据检测报告。从而解决数据检测中取向单一,检测结果结论不全面的问题。本方法对数据检测,特别是对不同数据集组成的数据体系中,有参照的数据比对有特别的方法和优势。
在逻辑规则体系中可以指定任意想要的数据集作为标准数据集与目标数据集进行比对。
在逻辑规则体系中约束规则的关联是可以组合使用的,如:截取自规则与合并自规则的组合。
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明的一种基于多维度校验规则的数据质量检测方法的权利要求书的且任何所述技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。
Claims (6)
1.一种基于多维度校验规则的数据质量检测方法,其特征在于,其实现过程为:
首先定义一系列数据标准,形成体系化的数据标准系统;
构建一套多维度的校验规则体系,即对要检测的目标数据,其数据表的每个字段针对性的对应一项或多项数据标准,形成针对检测目标的校验规则体系;
设计数据检测引擎,通过该数据检测引擎对目标数据运用校验规则体系进行校验;
最后对检测引擎给出的检测结果形成数据检测报告。
2.根据权利要求1所述的一种基于多维度校验规则的数据质量检测方法,其特征在于,所述数据标准包括:字段标准、数据元标准、数据表标准、约束规则、数据字典、敏感字段、黑白名单,其中,
字段标准约束了数据的形态;
数据字典约束了数据内容的范围不能超出字典范围;
敏感字段包括敏感信息的枚举信息;
约束规则包括等于规则、截取自规则和合并自规则。
3.根据权利要求1所述的一种基于多维度校验规则的数据质量检测方法,其特征在于,所述校验规则体系由两部分组成:物理规则体系、逻辑规则体系,其中,
物理规则体系规定了数据需要满足的物理标准,包括:字段标准、数据元标准对数据规则的约束和数据字典、敏感字段、黑白名单对内容的约束;
逻辑规则体系包括目标数据与标准数据之间的约束规则的建立,目标数据与标准数据之间的约束规则包括等于规则、截取自规则和合并自规则。
4.根据权利要求2或3所述的一种基于多维度校验规则的数据质量检测方法,其特征在于,所述约束规则中,等于规则表示要检测的目标数据的内容与已有标准数据的某些内容相等;截取自规则表示要检测的目标数据的内容是由已有标准数据的某些内容截取而来;合并自规则表示要检测的目标数据的内容是由已有标准数据的某些内容组合而来。
5.根据权利要求1所述的一种基于多维度校验规则的数据质量检测方法,其特征在于,数据检测引擎运用校验规则体系进行校验的过程为:将目标数据和与其对应的校验规则体系输入数据检测引擎,数据检测引擎针对校验规则的每项标准对目标数据实行检测,并对检测结果进行记录和处理。
6.根据权利要求1所述的一种基于多维度校验规则的数据质量检测方法,其特征在于,检测引擎给出的检测结果形成的数据报告是多维度的,具体分为:完整性报告、规范性报告、一致性报告、准确性报告、唯一性报告、关联性报告、安全性报告。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611029394.9A CN106528828A (zh) | 2016-11-22 | 2016-11-22 | 一种基于多维度校验规则的数据质量检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611029394.9A CN106528828A (zh) | 2016-11-22 | 2016-11-22 | 一种基于多维度校验规则的数据质量检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106528828A true CN106528828A (zh) | 2017-03-22 |
Family
ID=58353172
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611029394.9A Pending CN106528828A (zh) | 2016-11-22 | 2016-11-22 | 一种基于多维度校验规则的数据质量检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106528828A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107895003A (zh) * | 2017-10-31 | 2018-04-10 | 山东浪潮云服务信息科技有限公司 | 一种数据质量检测方法和装置 |
CN108733362A (zh) * | 2018-05-14 | 2018-11-02 | 浪潮通用软件有限公司 | 一种数据质量检验方法和装置 |
CN109472093A (zh) * | 2018-11-14 | 2019-03-15 | 北京机电工程总体设计部 | 一种基于pdm系统的三维模型校验方法 |
CN110737650A (zh) * | 2019-09-27 | 2020-01-31 | 北京明略软件系统有限公司 | 数据质量检测方法及装置 |
CN111400365A (zh) * | 2020-02-26 | 2020-07-10 | 杭州美创科技有限公司 | 基于标准sql下的业务系统数据质量检测方法 |
CN111756697A (zh) * | 2020-05-27 | 2020-10-09 | 杭州数梦工场科技有限公司 | Api安全检测方法、装置、存储介质及计算机设备 |
CN112231312A (zh) * | 2020-10-29 | 2021-01-15 | 山东超越数控电子股份有限公司 | 一种基于流程的数据质量校验方法 |
WO2021184995A1 (zh) * | 2020-03-19 | 2021-09-23 | 华为技术有限公司 | 数据处理方法及数据标准管理系统 |
CN115292297A (zh) * | 2022-06-29 | 2022-11-04 | 江苏昆山农村商业银行股份有限公司 | 一种构建数据仓库数据质量监测规则的方法和系统 |
CN116108021A (zh) * | 2023-04-11 | 2023-05-12 | 北方健康医疗大数据科技有限公司 | 基于标准数据集进行多维度数据质控的方法、装置及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699693A (zh) * | 2014-01-10 | 2014-04-02 | 中国南方电网有限责任公司 | 一种基于元数据的数据质量管理方法及系统 |
CN105321047A (zh) * | 2015-11-10 | 2016-02-10 | 中国电力科学研究院 | 一种调度计划类数据多维度校验方法 |
CN105976120A (zh) * | 2016-05-17 | 2016-09-28 | 全球能源互联网研究院 | 一种电力运营监控数据质量评估系统及方法 |
-
2016
- 2016-11-22 CN CN201611029394.9A patent/CN106528828A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699693A (zh) * | 2014-01-10 | 2014-04-02 | 中国南方电网有限责任公司 | 一种基于元数据的数据质量管理方法及系统 |
CN105321047A (zh) * | 2015-11-10 | 2016-02-10 | 中国电力科学研究院 | 一种调度计划类数据多维度校验方法 |
CN105976120A (zh) * | 2016-05-17 | 2016-09-28 | 全球能源互联网研究院 | 一种电力运营监控数据质量评估系统及方法 |
Non-Patent Citations (2)
Title |
---|
从慧刚: "基于业务规则的数据中心数据质量研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
高科 等: "基于简单规则的数据质量检查系统设计与应用", 《计算机技术与发展》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107895003A (zh) * | 2017-10-31 | 2018-04-10 | 山东浪潮云服务信息科技有限公司 | 一种数据质量检测方法和装置 |
CN108733362A (zh) * | 2018-05-14 | 2018-11-02 | 浪潮通用软件有限公司 | 一种数据质量检验方法和装置 |
CN109472093A (zh) * | 2018-11-14 | 2019-03-15 | 北京机电工程总体设计部 | 一种基于pdm系统的三维模型校验方法 |
CN110737650A (zh) * | 2019-09-27 | 2020-01-31 | 北京明略软件系统有限公司 | 数据质量检测方法及装置 |
CN111400365B (zh) * | 2020-02-26 | 2023-09-19 | 杭州美创科技股份有限公司 | 基于标准sql下的业务系统数据质量检测方法 |
CN111400365A (zh) * | 2020-02-26 | 2020-07-10 | 杭州美创科技有限公司 | 基于标准sql下的业务系统数据质量检测方法 |
WO2021184995A1 (zh) * | 2020-03-19 | 2021-09-23 | 华为技术有限公司 | 数据处理方法及数据标准管理系统 |
CN111756697A (zh) * | 2020-05-27 | 2020-10-09 | 杭州数梦工场科技有限公司 | Api安全检测方法、装置、存储介质及计算机设备 |
CN112231312A (zh) * | 2020-10-29 | 2021-01-15 | 山东超越数控电子股份有限公司 | 一种基于流程的数据质量校验方法 |
CN115292297A (zh) * | 2022-06-29 | 2022-11-04 | 江苏昆山农村商业银行股份有限公司 | 一种构建数据仓库数据质量监测规则的方法和系统 |
CN115292297B (zh) * | 2022-06-29 | 2024-02-02 | 江苏昆山农村商业银行股份有限公司 | 一种构建数据仓库数据质量监测规则的方法和系统 |
CN116108021A (zh) * | 2023-04-11 | 2023-05-12 | 北方健康医疗大数据科技有限公司 | 基于标准数据集进行多维度数据质控的方法、装置及设备 |
CN116108021B (zh) * | 2023-04-11 | 2023-09-08 | 北方健康医疗大数据科技有限公司 | 基于标准数据集进行多维度数据质控的方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106528828A (zh) | 一种基于多维度校验规则的数据质量检测方法 | |
CN110597870A (zh) | 一种企业关系挖掘方法 | |
Dai et al. | Data profiling technology of data governance regarding big data: review and rethinking | |
CN111680153A (zh) | 一种基于知识图谱的大数据鉴真方法与系统 | |
CN104036365A (zh) | 一种企业级数据服务平台建设方法 | |
CN113722301A (zh) | 基于教育信息的大数据处理方法、装置及系统、存储介质 | |
US11720597B2 (en) | Generating an OLAP model from a spreadsheet | |
CN106920022B (zh) | 卷烟工业控制系统的安全脆弱性评估方法、系统及设备 | |
CN110471912B (zh) | 一种员工属性信息校验方法、装置及终端设备 | |
Arachchi et al. | Quality assurance and quality control in ERP systems implementation | |
Jamshed | Lawyers Response to COVID-19 infodemic on social media | |
Zheng et al. | Discussion of University Chemistry Laboratory Management Using DOSA Platform and Safety Education Based on Blockchain | |
CN104123138A (zh) | 一种erp系统的快速构建方法 | |
CN111078783A (zh) | 一种基于监管保护的数据治理可视化方法 | |
WO2017038221A1 (ja) | コンピュータ装置の動作記録の解析、翻訳を行い、監査に対する情報の出力及びシステムの傾向分析装置。 | |
CN115344631A (zh) | 企业数据管理平台 | |
CN103605699A (zh) | 一种数据关联配置方法及装置 | |
Wang et al. | Enterprise Intelligent Accounting System Structure and Intelligent Accounting Algorithm | |
Ye et al. | SCKPISec: A KPI-Guided Model-Based Approach to Realize Security by Design for Smart City Systems | |
Zheng et al. | Research and application of bottom-up route-based product data conformity inspection approach for civil aircraft | |
CN106874270A (zh) | 一种数据一致性认证的方法和装置 | |
Sun et al. | An algorithm combining latent dirichlet allocation and bimodal network for evaluating goal deviation of intellectual property strategy execution in China | |
CN116361363B (zh) | 用于科学工艺评估系统的审计追踪记录生成方法及相关装置 | |
Sharma et al. | Data Modeling Best Practices Key to Data Mining and Data Standardization | |
Zhou | Application of Machine Learning Algorithms in Audit Data Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170322 |
|
RJ01 | Rejection of invention patent application after publication |