CN102411600A

CN102411600A - 一种基于蕴涵规则的数据质量自动检测方法

Info

Publication number: CN102411600A
Application number: CN2011102189071A
Authority: CN
Inventors: 刘波; 许阳阳; 赖伟
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2011-08-02
Filing date: 2011-08-02
Publication date: 2012-04-11
Anticipated expiration: 2031-08-02
Also published as: CN102411600B

Abstract

本发明公开了一种基于蕴涵规则的数据质量自动检测方法，该方法首先需选择检测对象，定义或修改检测对象及其之间的蕴涵规则，并将规则存储到规则库中；然后从规则库中读取与检测对象有关的、尚未读取过的、元组变量列表相同的规则，将它们存入清空的规则临时表中，然后计算检测关系中违背规则临时表中规则的元组，并将这些元组放入一个集合中；如果规则库中已不存在与检测对象有关的、尚未读取过的规则，则输出违背规则库中与检测对象有关的规则的所有元组，提供给用户修复。该方法通用性强，且检测速度快，形式简洁，使用与维护方便，独立性和灵活性强，不依赖于数据库管理系统，适用于检测任何关系型数据库或结构化文件。

Description

一种基于蕴涵规则的数据质量自动检测方法

技术领域

本发明涉及计算机数据处理领域，特别涉及一种基于蕴涵规则的数据质量自动检测方法。

背景技术

在信息系统建设过程中，由于数据获取、数据输入、数据传递、数据装载、数据集成与维护等环节出现异常或错误现象，难免产生错误、不一致、重复等数据质量问题，这些问题已成为数据集成和资源整合与应用的主要障碍。

目前，政府部门、企业等单位的信息系统及数据中心绝大部分以关系数据库管理为核心，从中快速、准确地识别出错误、不一致、重复等异常数据需要高效可行的技术与方法支持，检测的对象涉及数据表的记录或属性级别。为了减少人工核查的工作强度、提高检测的准确度，数据质量检测工具需求越来越大，其可以应用到任何数据库应用部门，包括政府、企业、事业单位等，尤其像电信、银行、证券、保险等数据量大的服务行业。从用途方面考虑，数据质量检测方法适用于业务数据处理与统计、数据归档、数据仓库维护、数据清洗、数据集成或整合等领域。

在当今信息化时代，数据质量如同企业产品质量一样重要，是企业生存和社会服务体系的命脉。统计表明，一般的应用系统的数据库中存在将近10％的错误，这些脏数据造成一些国家每年数亿美元的损失。为此，未来几年在政府、事业、企业等单位的信息化建设过程中引入数据质量管理平台、建立各个层次上数据质量检测系统将成为必然趋势。错误、不一致、重复等异常数据检测方法及相应的检测工具具有很好的产业前景。

目前检测关系数据库中异常数据(即错误、不一致、重复等数据)的方式主要有五种：

(1)手工方式，用人工来检测所有异常数据。

(2)专门编写应用程序，检测特定的关系数据库或文件中异常数据。

(3)采用数据质量规则自动检测的方法。相关研究关注基于某一类数据规则的检测方法，如：文献[1](Wenfei Fan，etc.Conditional functional dependenciesfor capturing data inconsistencies.ACM Transactions on Database Systems，v 33，n 2，June 1，2008.)提出基于CFD(Conditional Funtional Dependencies，条件函数依赖)约束的检测方法，文献[2](Lukasz Ciszak，etc.Application of Clustering andAssociation Methods in Data Cleaning.Proceedings of the InternationalMulticonference on Computer Science and Information Technology，2008：97-103.)提出基于聚类和关联规则的方法。

(4)运用数据清洗工具及数据仓库ETL工具，提供交互式的系统框架，制定数据清洗或解决冲突流程，通过编译和调试每个检测与变换过程，产生数据清洗或集成执行计划。

(5)通过数据库管理系统定义数据完整性约束，如商用数据库管理系统Oracle、SQL Sever等，采用标准的SQL语言把各种完整性约束作为数据库模式定义的一部分，在输入、删除或修改数据时检测违背约束的异常数据。这些数据库管理系统可对三种不同类型的完整性约束进行设置及检测，即：实体完整性、参照完整性约束与外部码、用户自定义完整性约束(包括非空约束、对属性的CHECK约束、对元组的CHECK约束、触发器等实现用户的各种完整性要求)。

上述方法大多只能解决特定类型数据质量问题，通用性较差，并且针对多种约束或规则需要多次扫描检测关系中的所有元组，检测效率较低。因此，需要提供一种通用性高、效率高的数据质量自动检测方法。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于蕴涵规则的数据质量自动检测方法，该方法可检测多种类型的数据质量问题，通用性强，且检测效率高。

本发明的目的通过以下的技术方案实现：一种基于蕴涵规则的数据质量自动检测方法，包括以下步骤：

(1)选择检测对象，检测对象具体是指一个或多个关系表；

(2)判断是否需要新定义规则或修改原有规则，是则新定义或修改检测对象及其之间的蕴涵规则，并将规则存储到规则库中，然后进入步骤(3)；否则直接进入步骤(3)；

(3)从规则库中读取与检测对象有关的、尚未读取过的、元组变量列表相同的规则，存入清空的规则临时表中，然后计算检测关系中违背规则临时表中规则的元组，并将这些元组放入一个集合中；

(4)判断检测规则库中是否还有与检测对象有关的、未读取的检测规则，有则进入步骤(3)，没有则进入步骤(5)；

(5)输出违背规则库中与检测对象有关的规则的所有元组，提供给用户修复。

所述步骤(2)中的蕴涵规则包括以下信息：

规则编号，每一规则对应有唯一编号；

检测关系列表，具体为规则所涉及到的检测对象关系表名称列表；

元组变量列表，包括规则所涉及的所有元组变量信息；

A公式，具体为涉及一个或多个元组变量的公式，或为空，用NULL表示；

B公式，具体为涉及一个或多个元组变量的公式。

所述步骤(2)中的蕴涵规则的形式定义为：

含义为：如果检测对象满足公式A，也必须满足公式B。

作为优选方案，所述步骤(2)的规则库中每条规则的元组变量数目不超过2，因此每条规则涉及到的检测关系表数目也不超过2，对于元组变量个数大于两个的规则需转换成两条或两条以上的规则定义。

更进一步的，蕴涵规则中的元组变量为约束变元，一个元组变量的描述具体为元组变量类别、元组变量符及所对应的关系表名，所述元组变量类别分为存在性元组变量和全称性元组变量，存在性元组变量用存在量词符号

表示，具体形式为(元组变量符名，关系表名)；全称性元组变量用全称量词符号

或空来表示，具体形式为(元组变量符名，关系表名)或(

元组变量符名，关系表名)。

所述步骤(3)中，元组变量列表相同的规则是指：元组变量列表中元组变量个数、元组变量类别及对应的关系表名均相同的规则集合。

所述步骤(3)～(5)中，与检测对象有关的规则判断依据是：如果一条规则的检测关系列表中包括检测对象关系表名，则该规则与检测对象有关。

所述步骤(3)中，首先从规则库中读取与检测对象有关的、尚未读取过的、元组变量列表相同的规则子集，存入清空的规则临时表中，并将读取过的规则编号记录在一个初始值为空的序列中，再开始检测，检测过程具体如下：

(3-1)判断当前规则临时表中规则的检测关系列表中涉及几个关系表，如果为1个，则进入步骤(3-2)；如果为2个，则进入步骤(3-3)；

(3-2)从数据库中读取检测关系列表所表示的数据表R，然后计算R中违背规则临时表中规则的元组，步骤如下：

(3-2-1)判断规则临时表中元组变量列表中元组变量的个数，如果为1，进入步骤(3-2-2)；如果为2，进入步骤(3-2-3)；

(3-2-2)从规则临时表中每条元组变量个数为1的规则所定义的A和B公式中提取元组属性取值及关系的逻辑表达式，设对于规则r_i，i＝1，2，L，n，提取的结果分别记为r_i_A和r_i_B；判断数据表R中的每一条元组是否满足

若满足，则将该元组放入集合Vio中；对于其中任意规则r_i，如果提取的公式r_i_A为空，则将判断公式中的

替换为

(3-2-3)从规则临时表中每条元组变量个数为2的规则所定义的A和B公式中提取元组属性取值及关系的逻辑表达式，设对于规则r_i，i＝1，2，L，n，提取的结果分别记为r_i_A和r_i_B；判断数据表R中的每两条元组是否满足

若满足，则将这两条元组放入集合Vio中；对于其中任意规则r_i，如果提取的公式r_i_A为空，则将判断公式中的

替换为

(3-3)从数据库中读取检测关系列表所表示的数据表R₁、R₂，然后计算R₁、R₂中违背规则临时表中规则的元组，步骤如下：

(3-3-1)从规则临时表中每条元组变量个数为2的规则所定义的A和B公式中提取元组属性取值及关系的逻辑表达式，设对于规则r_i，i＝1，2，L，n，提取的结果分别记为r_i_A和r_i_B；

(3-3-2)分别将数据表R₁中的每一条元组和数据表R₂中的每一条元组进行比对，判断两条元组是否满足

替换为

在所述步骤(3-2)和(3-3)中，当判断数据表元组是否满足临时表中规则时，如果某规则的检测关系元组变量t前有符修饰，则需要在该检测关系的所有元组中查找是否存在一条元组，满足涉及变量t的公式。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明的数据质量检测方法通用性强。基于统一形式的数据质量规则，不局限于特定质量问题的解决，可以检测多种类型的数据质量问题。

2、本发明中所采用的数据质量蕴涵规则，每条规则涉及的关系数目和元组变量个数均不超过2，不仅形式简洁、使用与维护方便，而且可以表达函数依赖、主外键、非重复、属性值域、属性之间多种约束及关系。

3、本发明中对于多条数据质量规则，读取元组变量列表相同的规则放入检测规则临时表中，再在检测过程中同时用检测规则临时表中的所有规则对检测关系进行检测，大大减少了扫描检测关系次数，提高了检测效率。例如：假设定义10条数据质量规则，可划分为3个元组变量列表完全相同的规则子集，若每次读取一条规则对检测关系中的元组进行检测，至少需要扫描检测关系10次；而每次读取一个元组变量列表完全相同的规则子集对检测关系中的元组进行检测，扫描检测关系的次数可以降为3次。

4、本发明将多种数据约束统一为用蕴涵关系表达的一阶公式(称为蕴涵规则)作为检测方法的输入条件，数据约束的定义不依赖于任何数据库管理系统，检测方法不依赖于任何应用处理系统及其程序代码，独立性强，适用于检测任何关系型数据库或结构化文件。

5、本发明方法灵活性强。蕴涵规则库可以修改，且可以定义多个数据库或多个结构化文件的检测规则；检测操作可以在数据库或文件稳定状态下任何时期实施。

附图说明

图1是本发明方法的流程示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例1

本实施例以一个包含两个关系数据集的数据库为例，结合图1来说明本发明实施方式。

(1)两个关系模式为：职工关系(职工号，姓名，部门号，工资)，即Emp(Eno，Ename，Dno，Esal)；部门关系(部门号，部门名，经理编号)，即Dept(Dno，Dname，Mno)。假设一个数据库实例按照上述两个关系模式已构建完成，两个关系分别包含10000条记录和100条记录，在创建数据库关系表时没有定义任何数据完整性约束。

表1蕴涵规则示例

(2)用户选择检测对象Emp和Dept关系表，按照本发明给定的蕴涵规则形式，定义6条蕴涵规则，如表1所示，其中：元组变量列表用形式：(

元组变量符名，关系表名)表示一个元组变量信息，

是选项，若有存在量词符号

表示元组变量为存在性变量；否则，无存在量词符号或有全称量词符号

表示元组变量为全称性变量；A和B公式中，t[Attr]表示元组t的Attr属性值。将这6条规则存入规则库。

(3)从规则库中读取ID1规则及与其具有相同元组变量列表的规则(表1中不存在与ID1具有相同元组变量列表的规则)，存入清空的检测规则临时表Temp中，用ID1规则检测Emp关系表中的所有记录，计算违背这条规则的元组集合。计算方法如下：

从数据库中读取检测数据表Emp，接着，计算Emp中违背检测规则临时表Temp中规则的元组，步骤如下：从ID1规则所定义的A和B公式中提取元组属性取值及关系的逻辑表达式，即ID1_A和ID1_B，其中ID1_A为空，用NULL表示；计算Emp关系表中满足

的元组集，即对Emp中的每条元组t判断其是否满足

若满足，则将它放入集合Vio中。

(4)规则库仍存在未读取的、与检测对象Emp或Dept有关的检测规则，从规则库中读取ID2规则及与其具有相同元组变量列表的规则ID3，存入清空的检测规则临时表Temp中，用ID2和ID3规则同时对Emp中每两条元组检测，计算出违背它们的元组并放入Vio中，具体方法如下：

(4-1)从ID2和ID3规则所定义的A和B公式中提取元组属性取值及关系的逻辑表达式，分别为ID2_A和ID2_B、ID3_A和ID3_B；

(4-2)从数据库中读取检测数据表Emp，计算Emp关系表中满足的元组，即：对Emp关系表中的每两条元组t1、t2判断其是否满足若满足，则将它们放入Vio中。

(5)规则库仍存在未读取的、与检测对象Emp或Dept有关的检测规则，从规则库中读取ID4规则及与其具有相同元组变量列表的规则(表1中不存在与ID4具有相同元组变量列表的规则)，存入清空的检测规则临时表Temp中，用ID4规则检测Dept关系表中的所有记录，计算违背这条规则的元组集合。计算方法如下：

从数据库中读取检测数据表Dept，接着，计算Dept中违背检测规则临时表Temp中规则的元组，步骤如下：从ID4规则所定义的A和B公式中提取元组属性取值及关系的逻辑表达式，为ID4_A和ID4_B；计算Dept关系表中满足

的元组集，即：对Dept关系表中的每两条元组t1、t2判断其是否满足

若满足，则将它们放入Vio中。

(6)规则库还存在未读取的、与检测对象Emp或Dept有关的检测规则，从规则库中读取ID5规则及与其具有相同元组变量列表的规则(表1中不存在与ID5具有相同元组变量列表的规则)，存入清空的检测规则临时表Temp中，用ID5规则检测Emp和Dept关系表中的所有记录，计算违背这条规则的元组集合。计算方法如下：

从ID5规则所定义的A和B公式中提取元组属性取值及关系的逻辑表达式，即ID5_A和ID5_B，其中ID5_A为空，用NULL表示，由于Dept的元组变量前有

符号，所以对Emp关系表中的每条元组t1，在Dept中查找是否存在t2满足

若满足，则将t1、t2放入Vio中。

(7)规则库还存在未读取的、与检测对象Emp或Dept有关的检测规则，从规则库中读取ID6规则及与其具有相同元组变量列表的规则(表1中不存在与ID6具有相同元组变量列表的规则)，存入清空的检测规则临时表Temp中，用ID6规则检测Emp和Dept关系表中的所有记录，计算违背这条规则的元组集合。计算方法如下：

从ID6规则所定义的A和B公式中提取元组属性取值及关系的逻辑表达式，即ID6_A和ID6_B，其中ID6A_为空，用NULL表示，由于Emp的元组变量前有

符号，所以对Dept关系表中的每条元组t1，在Emp中查找是否存在t2满足

若满足，则将t1、t2放入Vio中。

(8)规则库中已不存在未读取的、与检测对象Emp或Dept有关的检测规则，输出计算出来的违背规则库中规则的元组集合Vio，提供给用户修复。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于蕴涵规则的数据质量自动检测方法，其特征在于，包括以下步骤：

(1)选择检测对象，检测对象具体是指一个或多个关系表；

2.根据权利要求1所述的基于蕴涵规则的数据质量自动检测方法，其特征在于，所述步骤(2)中的蕴涵规则包括以下信息：

规则编号，每一规则对应有唯一编号；

元组变量列表，包括规则所涉及的所有元组变量信息；

B公式，具体为涉及一个或多个元组变量的公式。

3.根据权利要求2所述的基于蕴涵规则的数据质量自动检测方法，其特征在于，所述步骤(2)中的蕴涵规则的形式定义为：含义为：如果检测对象满足公式A，也必须满足公式B。

4.根据权利要求2所述的基于蕴涵规则的数据质量自动检测方法，其特征在于，所述步骤(2)的规则库中每条规则的元组变量数目不超过2，因此每条规则涉及到的检测关系表数目也不超过2，对于元组变量个数大于两个的规则需转换成两条或两条以上的规则定义。

5.根据权利要求2所述的基于蕴涵规则的数据质量自动检测方法，其特征在于，所述蕴涵规则中的元组变量为约束变元，一个元组变量的描述具体为元组变量类别、元组变量符及所对应的关系表名，所述元组变量类别分为存在性元组变量和全称性元组变量，存在性元组变量用存在量词符号

表示，具体形式为(

元组变量符名，关系表名)；全称性元组变量用全称量词符号或空来表示，具体形式为(元组变量符名，关系表名)或(

元组变量符名，关系表名)。

6.根据权利要求1所述的基于蕴涵规则的数据质量自动检测方法，其特征在于，所述步骤(3)中，元组变量列表相同的规则是指：元组变量列表中元组变量个数、元组变量类别及对应的关系表名均相同的规则集合。

7.根据权利要求1所述的基于蕴涵规则的数据质量自动检测方法，其特征在于，所述步骤(3)～(5)中，与检测对象有关的规则判断依据是：如果一条规则的检测关系列表中包括检测对象关系表名，则该规则与检测对象有关。

8.根据权利要求1所述的基于蕴涵规则的数据质量自动检测方法，其特征在于，所述步骤(3)中，首先从规则库中读取与检测对象有关的、尚未读取过的、元组变量列表相同的规则子集，存入清空的规则临时表中，并将读取过的规则编号记录在一个初始值为空的序列中，再开始检测，检测过程具体如下：

替换为

替换为

若满足，则将这两条元组放入集合Vio中，对于其中任意规则r_i，如果提取的公式r_i_A为空，则将判断公式中的

替换为

9.根据权利要求8所述的基于蕴涵规则的数据质量自动检测方法，其特征在于，在所述步骤(3-2)和(3-3)中，当判断数据表元组是否满足临时表中规则时，如果某规则的检测关系元组变量t前有

符修饰，则需要在该检测关系的所有元组中查找是否存在一条元组，满足涉及变量t的公式。