CN102411600A - 一种基于蕴涵规则的数据质量自动检测方法 - Google Patents

一种基于蕴涵规则的数据质量自动检测方法 Download PDF

Info

Publication number
CN102411600A
CN102411600A CN2011102189071A CN201110218907A CN102411600A CN 102411600 A CN102411600 A CN 102411600A CN 2011102189071 A CN2011102189071 A CN 2011102189071A CN 201110218907 A CN201110218907 A CN 201110218907A CN 102411600 A CN102411600 A CN 102411600A
Authority
CN
China
Prior art keywords
rule
tuple
regular
variable
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011102189071A
Other languages
English (en)
Other versions
CN102411600B (zh
Inventor
刘波
许阳阳
赖伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN 201110218907 priority Critical patent/CN102411600B/zh
Publication of CN102411600A publication Critical patent/CN102411600A/zh
Application granted granted Critical
Publication of CN102411600B publication Critical patent/CN102411600B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于蕴涵规则的数据质量自动检测方法,该方法首先需选择检测对象,定义或修改检测对象及其之间的蕴涵规则,并将规则存储到规则库中;然后从规则库中读取与检测对象有关的、尚未读取过的、元组变量列表相同的规则,将它们存入清空的规则临时表中,然后计算检测关系中违背规则临时表中规则的元组,并将这些元组放入一个集合中;如果规则库中已不存在与检测对象有关的、尚未读取过的规则,则输出违背规则库中与检测对象有关的规则的所有元组,提供给用户修复。该方法通用性强,且检测速度快,形式简洁,使用与维护方便,独立性和灵活性强,不依赖于数据库管理系统,适用于检测任何关系型数据库或结构化文件。

Description

一种基于蕴涵规则的数据质量自动检测方法
技术领域
本发明涉及计算机数据处理领域,特别涉及一种基于蕴涵规则的数据质量自动检测方法。
背景技术
在信息系统建设过程中,由于数据获取、数据输入、数据传递、数据装载、数据集成与维护等环节出现异常或错误现象,难免产生错误、不一致、重复等数据质量问题,这些问题已成为数据集成和资源整合与应用的主要障碍。
目前,政府部门、企业等单位的信息系统及数据中心绝大部分以关系数据库管理为核心,从中快速、准确地识别出错误、不一致、重复等异常数据需要高效可行的技术与方法支持,检测的对象涉及数据表的记录或属性级别。为了减少人工核查的工作强度、提高检测的准确度,数据质量检测工具需求越来越大,其可以应用到任何数据库应用部门,包括政府、企业、事业单位等,尤其像电信、银行、证券、保险等数据量大的服务行业。从用途方面考虑,数据质量检测方法适用于业务数据处理与统计、数据归档、数据仓库维护、数据清洗、数据集成或整合等领域。
在当今信息化时代,数据质量如同企业产品质量一样重要,是企业生存和社会服务体系的命脉。统计表明,一般的应用系统的数据库中存在将近10%的错误,这些脏数据造成一些国家每年数亿美元的损失。为此,未来几年在政府、事业、企业等单位的信息化建设过程中引入数据质量管理平台、建立各个层次上数据质量检测系统将成为必然趋势。错误、不一致、重复等异常数据检测方法及相应的检测工具具有很好的产业前景。
目前检测关系数据库中异常数据(即错误、不一致、重复等数据)的方式主要有五种:
(1)手工方式,用人工来检测所有异常数据。
(2)专门编写应用程序,检测特定的关系数据库或文件中异常数据。
(3)采用数据质量规则自动检测的方法。相关研究关注基于某一类数据规则的检测方法,如:文献[1](Wenfei Fan,etc.Conditional functional dependenciesfor capturing data inconsistencies.ACM Transactions on Database Systems,v 33,n 2,June 1,2008.)提出基于CFD(Conditional Funtional Dependencies,条件函数依赖)约束的检测方法,文献[2](Lukasz Ciszak,etc.Application of Clustering andAssociation Methods in Data Cleaning.Proceedings of the InternationalMulticonference on Computer Science and Information Technology,2008:97-103.)提出基于聚类和关联规则的方法。
(4)运用数据清洗工具及数据仓库ETL工具,提供交互式的系统框架,制定数据清洗或解决冲突流程,通过编译和调试每个检测与变换过程,产生数据清洗或集成执行计划。
(5)通过数据库管理系统定义数据完整性约束,如商用数据库管理系统Oracle、SQL Sever等,采用标准的SQL语言把各种完整性约束作为数据库模式定义的一部分,在输入、删除或修改数据时检测违背约束的异常数据。这些数据库管理系统可对三种不同类型的完整性约束进行设置及检测,即:实体完整性、参照完整性约束与外部码、用户自定义完整性约束(包括非空约束、对属性的CHECK约束、对元组的CHECK约束、触发器等实现用户的各种完整性要求)。
上述方法大多只能解决特定类型数据质量问题,通用性较差,并且针对多种约束或规则需要多次扫描检测关系中的所有元组,检测效率较低。因此,需要提供一种通用性高、效率高的数据质量自动检测方法。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于蕴涵规则的数据质量自动检测方法,该方法可检测多种类型的数据质量问题,通用性强,且检测效率高。
本发明的目的通过以下的技术方案实现:一种基于蕴涵规则的数据质量自动检测方法,包括以下步骤:
(1)选择检测对象,检测对象具体是指一个或多个关系表;
(2)判断是否需要新定义规则或修改原有规则,是则新定义或修改检测对象及其之间的蕴涵规则,并将规则存储到规则库中,然后进入步骤(3);否则直接进入步骤(3);
(3)从规则库中读取与检测对象有关的、尚未读取过的、元组变量列表相同的规则,存入清空的规则临时表中,然后计算检测关系中违背规则临时表中规则的元组,并将这些元组放入一个集合中;
(4)判断检测规则库中是否还有与检测对象有关的、未读取的检测规则,有则进入步骤(3),没有则进入步骤(5);
(5)输出违背规则库中与检测对象有关的规则的所有元组,提供给用户修复。
所述步骤(2)中的蕴涵规则包括以下信息:
规则编号,每一规则对应有唯一编号;
检测关系列表,具体为规则所涉及到的检测对象关系表名称列表;
元组变量列表,包括规则所涉及的所有元组变量信息;
A公式,具体为涉及一个或多个元组变量的公式,或为空,用NULL表示;
B公式,具体为涉及一个或多个元组变量的公式。
所述步骤(2)中的蕴涵规则的形式定义为:
Figure BDA0000080427500000031
含义为:如果检测对象满足公式A,也必须满足公式B。
作为优选方案,所述步骤(2)的规则库中每条规则的元组变量数目不超过2,因此每条规则涉及到的检测关系表数目也不超过2,对于元组变量个数大于两个的规则需转换成两条或两条以上的规则定义。
更进一步的,蕴涵规则中的元组变量为约束变元,一个元组变量的描述具体为元组变量类别、元组变量符及所对应的关系表名,所述元组变量类别分为存在性元组变量和全称性元组变量,存在性元组变量用存在量词符号
Figure BDA0000080427500000032
表示,具体形式为(元组变量符名,关系表名);全称性元组变量用全称量词符号
Figure BDA0000080427500000034
或空来表示,具体形式为(元组变量符名,关系表名)或(
Figure BDA0000080427500000035
元组变量符名,关系表名)。
所述步骤(3)中,元组变量列表相同的规则是指:元组变量列表中元组变量个数、元组变量类别及对应的关系表名均相同的规则集合。
所述步骤(3)~(5)中,与检测对象有关的规则判断依据是:如果一条规则的检测关系列表中包括检测对象关系表名,则该规则与检测对象有关。
所述步骤(3)中,首先从规则库中读取与检测对象有关的、尚未读取过的、元组变量列表相同的规则子集,存入清空的规则临时表中,并将读取过的规则编号记录在一个初始值为空的序列中,再开始检测,检测过程具体如下:
(3-1)判断当前规则临时表中规则的检测关系列表中涉及几个关系表,如果为1个,则进入步骤(3-2);如果为2个,则进入步骤(3-3);
(3-2)从数据库中读取检测关系列表所表示的数据表R,然后计算R中违背规则临时表中规则的元组,步骤如下:
(3-2-1)判断规则临时表中元组变量列表中元组变量的个数,如果为1,进入步骤(3-2-2);如果为2,进入步骤(3-2-3);
(3-2-2)从规则临时表中每条元组变量个数为1的规则所定义的A和B公式中提取元组属性取值及关系的逻辑表达式,设对于规则ri,i=1,2,L,n,提取的结果分别记为ri_A和ri_B;判断数据表R中的每一条元组是否满足
Figure BDA0000080427500000041
若满足,则将该元组放入集合Vio中;对于其中任意规则ri,如果提取的公式ri_A为空,则将判断公式中的
Figure BDA0000080427500000042
替换为
Figure BDA0000080427500000043
(3-2-3)从规则临时表中每条元组变量个数为2的规则所定义的A和B公式中提取元组属性取值及关系的逻辑表达式,设对于规则ri,i=1,2,L,n,提取的结果分别记为ri_A和ri_B;判断数据表R中的每两条元组是否满足
Figure BDA0000080427500000044
若满足,则将这两条元组放入集合Vio中;对于其中任意规则ri,如果提取的公式ri_A为空,则将判断公式中的
Figure BDA0000080427500000045
替换为
Figure BDA0000080427500000046
(3-3)从数据库中读取检测关系列表所表示的数据表R1、R2,然后计算R1、R2中违背规则临时表中规则的元组,步骤如下:
(3-3-1)从规则临时表中每条元组变量个数为2的规则所定义的A和B公式中提取元组属性取值及关系的逻辑表达式,设对于规则ri,i=1,2,L,n,提取的结果分别记为ri_A和ri_B;
(3-3-2)分别将数据表R1中的每一条元组和数据表R2中的每一条元组进行比对,判断两条元组是否满足
Figure BDA0000080427500000047
若满足,则将这两条元组放入集合Vio中;对于其中任意规则ri,如果提取的公式ri_A为空,则将判断公式中的
Figure BDA0000080427500000048
替换为
Figure BDA0000080427500000049
在所述步骤(3-2)和(3-3)中,当判断数据表元组是否满足临时表中规则时,如果某规则的检测关系元组变量t前有符修饰,则需要在该检测关系的所有元组中查找是否存在一条元组,满足涉及变量t的公式。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明的数据质量检测方法通用性强。基于统一形式的数据质量规则,不局限于特定质量问题的解决,可以检测多种类型的数据质量问题。
2、本发明中所采用的数据质量蕴涵规则,每条规则涉及的关系数目和元组变量个数均不超过2,不仅形式简洁、使用与维护方便,而且可以表达函数依赖、主外键、非重复、属性值域、属性之间多种约束及关系。
3、本发明中对于多条数据质量规则,读取元组变量列表相同的规则放入检测规则临时表中,再在检测过程中同时用检测规则临时表中的所有规则对检测关系进行检测,大大减少了扫描检测关系次数,提高了检测效率。例如:假设定义10条数据质量规则,可划分为3个元组变量列表完全相同的规则子集,若每次读取一条规则对检测关系中的元组进行检测,至少需要扫描检测关系10次;而每次读取一个元组变量列表完全相同的规则子集对检测关系中的元组进行检测,扫描检测关系的次数可以降为3次。
4、本发明将多种数据约束统一为用蕴涵关系表达的一阶公式(称为蕴涵规则)作为检测方法的输入条件,数据约束的定义不依赖于任何数据库管理系统,检测方法不依赖于任何应用处理系统及其程序代码,独立性强,适用于检测任何关系型数据库或结构化文件。
5、本发明方法灵活性强。蕴涵规则库可以修改,且可以定义多个数据库或多个结构化文件的检测规则;检测操作可以在数据库或文件稳定状态下任何时期实施。
附图说明
图1是本发明方法的流程示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1
本实施例以一个包含两个关系数据集的数据库为例,结合图1来说明本发明实施方式。
(1)两个关系模式为:职工关系(职工号,姓名,部门号,工资),即Emp(Eno,Ename,Dno,Esal);部门关系(部门号,部门名,经理编号),即Dept(Dno,Dname,Mno)。假设一个数据库实例按照上述两个关系模式已构建完成,两个关系分别包含10000条记录和100条记录,在创建数据库关系表时没有定义任何数据完整性约束。
表1蕴涵规则示例
Figure BDA0000080427500000061
(2)用户选择检测对象Emp和Dept关系表,按照本发明给定的蕴涵规则形式,定义6条蕴涵规则,如表1所示,其中:元组变量列表用形式:(
Figure BDA0000080427500000062
元组变量符名,关系表名)表示一个元组变量信息,
Figure BDA0000080427500000063
是选项,若有存在量词符号
Figure BDA0000080427500000064
表示元组变量为存在性变量;否则,无存在量词符号或有全称量词符号
Figure BDA0000080427500000066
表示元组变量为全称性变量;A和B公式中,t[Attr]表示元组t的Attr属性值。将这6条规则存入规则库。
(3)从规则库中读取ID1规则及与其具有相同元组变量列表的规则(表1中不存在与ID1具有相同元组变量列表的规则),存入清空的检测规则临时表Temp中,用ID1规则检测Emp关系表中的所有记录,计算违背这条规则的元组集合。计算方法如下:
从数据库中读取检测数据表Emp,接着,计算Emp中违背检测规则临时表Temp中规则的元组,步骤如下:从ID1规则所定义的A和B公式中提取元组属性取值及关系的逻辑表达式,即ID1_A和ID1_B,其中ID1_A为空,用NULL表示;计算Emp关系表中满足
Figure BDA0000080427500000071
的元组集,即对Emp中的每条元组t判断其是否满足
Figure BDA0000080427500000072
若满足,则将它放入集合Vio中。
(4)规则库仍存在未读取的、与检测对象Emp或Dept有关的检测规则,从规则库中读取ID2规则及与其具有相同元组变量列表的规则ID3,存入清空的检测规则临时表Temp中,用ID2和ID3规则同时对Emp中每两条元组检测,计算出违背它们的元组并放入Vio中,具体方法如下:
(4-1)从ID2和ID3规则所定义的A和B公式中提取元组属性取值及关系的逻辑表达式,分别为ID2_A和ID2_B、ID3_A和ID3_B;
(4-2)从数据库中读取检测数据表Emp,计算Emp关系表中满足 的元组,即:对Emp关系表中的每两条元组t1、t2判断其是否满足若满足,则将它们放入Vio中。
(5)规则库仍存在未读取的、与检测对象Emp或Dept有关的检测规则,从规则库中读取ID4规则及与其具有相同元组变量列表的规则(表1中不存在与ID4具有相同元组变量列表的规则),存入清空的检测规则临时表Temp中,用ID4规则检测Dept关系表中的所有记录,计算违背这条规则的元组集合。计算方法如下:
从数据库中读取检测数据表Dept,接着,计算Dept中违背检测规则临时表Temp中规则的元组,步骤如下:从ID4规则所定义的A和B公式中提取元组属性取值及关系的逻辑表达式,为ID4_A和ID4_B;计算Dept关系表中满足
Figure BDA0000080427500000076
的元组集,即:对Dept关系表中的每两条元组t1、t2判断其是否满足
Figure BDA0000080427500000077
若满足,则将它们放入Vio中。
(6)规则库还存在未读取的、与检测对象Emp或Dept有关的检测规则,从规则库中读取ID5规则及与其具有相同元组变量列表的规则(表1中不存在与ID5具有相同元组变量列表的规则),存入清空的检测规则临时表Temp中,用ID5规则检测Emp和Dept关系表中的所有记录,计算违背这条规则的元组集合。计算方法如下:
从ID5规则所定义的A和B公式中提取元组属性取值及关系的逻辑表达式,即ID5_A和ID5_B,其中ID5_A为空,用NULL表示,由于Dept的元组变量前有
Figure BDA0000080427500000081
符号,所以对Emp关系表中的每条元组t1,在Dept中查找是否存在t2满足
Figure BDA0000080427500000082
若满足,则将t1、t2放入Vio中。
(7)规则库还存在未读取的、与检测对象Emp或Dept有关的检测规则,从规则库中读取ID6规则及与其具有相同元组变量列表的规则(表1中不存在与ID6具有相同元组变量列表的规则),存入清空的检测规则临时表Temp中,用ID6规则检测Emp和Dept关系表中的所有记录,计算违背这条规则的元组集合。计算方法如下:
从ID6规则所定义的A和B公式中提取元组属性取值及关系的逻辑表达式,即ID6_A和ID6_B,其中ID6A_为空,用NULL表示,由于Emp的元组变量前有
Figure BDA0000080427500000083
符号,所以对Dept关系表中的每条元组t1,在Emp中查找是否存在t2满足
Figure BDA0000080427500000084
若满足,则将t1、t2放入Vio中。
(8)规则库中已不存在未读取的、与检测对象Emp或Dept有关的检测规则,输出计算出来的违背规则库中规则的元组集合Vio,提供给用户修复。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

1.一种基于蕴涵规则的数据质量自动检测方法,其特征在于,包括以下步骤:
(1)选择检测对象,检测对象具体是指一个或多个关系表;
(2)判断是否需要新定义规则或修改原有规则,是则新定义或修改检测对象及其之间的蕴涵规则,并将规则存储到规则库中,然后进入步骤(3);否则直接进入步骤(3);
(3)从规则库中读取与检测对象有关的、尚未读取过的、元组变量列表相同的规则,存入清空的规则临时表中,然后计算检测关系中违背规则临时表中规则的元组,并将这些元组放入一个集合中;
(4)判断检测规则库中是否还有与检测对象有关的、未读取的检测规则,有则进入步骤(3),没有则进入步骤(5);
(5)输出违背规则库中与检测对象有关的规则的所有元组,提供给用户修复。
2.根据权利要求1所述的基于蕴涵规则的数据质量自动检测方法,其特征在于,所述步骤(2)中的蕴涵规则包括以下信息:
规则编号,每一规则对应有唯一编号;
检测关系列表,具体为规则所涉及到的检测对象关系表名称列表;
元组变量列表,包括规则所涉及的所有元组变量信息;
A公式,具体为涉及一个或多个元组变量的公式,或为空,用NULL表示;
B公式,具体为涉及一个或多个元组变量的公式。
3.根据权利要求2所述的基于蕴涵规则的数据质量自动检测方法,其特征在于,所述步骤(2)中的蕴涵规则的形式定义为:含义为:如果检测对象满足公式A,也必须满足公式B。
4.根据权利要求2所述的基于蕴涵规则的数据质量自动检测方法,其特征在于,所述步骤(2)的规则库中每条规则的元组变量数目不超过2,因此每条规则涉及到的检测关系表数目也不超过2,对于元组变量个数大于两个的规则需转换成两条或两条以上的规则定义。
5.根据权利要求2所述的基于蕴涵规则的数据质量自动检测方法,其特征在于,所述蕴涵规则中的元组变量为约束变元,一个元组变量的描述具体为元组变量类别、元组变量符及所对应的关系表名,所述元组变量类别分为存在性元组变量和全称性元组变量,存在性元组变量用存在量词符号
Figure FDA0000080427490000021
表示,具体形式为(
Figure FDA0000080427490000022
元组变量符名,关系表名);全称性元组变量用全称量词符号或空来表示,具体形式为(元组变量符名,关系表名)或(
Figure FDA0000080427490000024
元组变量符名,关系表名)。
6.根据权利要求1所述的基于蕴涵规则的数据质量自动检测方法,其特征在于,所述步骤(3)中,元组变量列表相同的规则是指:元组变量列表中元组变量个数、元组变量类别及对应的关系表名均相同的规则集合。
7.根据权利要求1所述的基于蕴涵规则的数据质量自动检测方法,其特征在于,所述步骤(3)~(5)中,与检测对象有关的规则判断依据是:如果一条规则的检测关系列表中包括检测对象关系表名,则该规则与检测对象有关。
8.根据权利要求1所述的基于蕴涵规则的数据质量自动检测方法,其特征在于,所述步骤(3)中,首先从规则库中读取与检测对象有关的、尚未读取过的、元组变量列表相同的规则子集,存入清空的规则临时表中,并将读取过的规则编号记录在一个初始值为空的序列中,再开始检测,检测过程具体如下:
(3-1)判断当前规则临时表中规则的检测关系列表中涉及几个关系表,如果为1个,则进入步骤(3-2);如果为2个,则进入步骤(3-3);
(3-2)从数据库中读取检测关系列表所表示的数据表R,然后计算R中违背规则临时表中规则的元组,步骤如下:
(3-2-1)判断规则临时表中元组变量列表中元组变量的个数,如果为1,进入步骤(3-2-2);如果为2,进入步骤(3-2-3);
(3-2-2)从规则临时表中每条元组变量个数为1的规则所定义的A和B公式中提取元组属性取值及关系的逻辑表达式,设对于规则ri,i=1,2,L,n,提取的结果分别记为ri_A和ri_B;判断数据表R中的每一条元组是否满足
Figure FDA0000080427490000025
若满足,则将该元组放入集合Vio中;对于其中任意规则ri,如果提取的公式ri_A为空,则将判断公式中的
Figure FDA0000080427490000026
替换为
Figure FDA0000080427490000027
(3-2-3)从规则临时表中每条元组变量个数为2的规则所定义的A和B公式中提取元组属性取值及关系的逻辑表达式,设对于规则ri,i=1,2,L,n,提取的结果分别记为ri_A和ri_B;判断数据表R中的每两条元组是否满足
Figure FDA0000080427490000031
若满足,则将这两条元组放入集合Vio中;对于其中任意规则ri,如果提取的公式ri_A为空,则将判断公式中的
Figure FDA0000080427490000032
替换为
(3-3)从数据库中读取检测关系列表所表示的数据表R1、R2,然后计算R1、R2中违背规则临时表中规则的元组,步骤如下:
(3-3-1)从规则临时表中每条元组变量个数为2的规则所定义的A和B公式中提取元组属性取值及关系的逻辑表达式,设对于规则ri,i=1,2,L,n,提取的结果分别记为ri_A和ri_B;
(3-3-2)分别将数据表R1中的每一条元组和数据表R2中的每一条元组进行比对,判断两条元组是否满足
Figure FDA0000080427490000034
若满足,则将这两条元组放入集合Vio中,对于其中任意规则ri,如果提取的公式ri_A为空,则将判断公式中的
Figure FDA0000080427490000035
替换为
Figure FDA0000080427490000036
9.根据权利要求8所述的基于蕴涵规则的数据质量自动检测方法,其特征在于,在所述步骤(3-2)和(3-3)中,当判断数据表元组是否满足临时表中规则时,如果某规则的检测关系元组变量t前有
Figure FDA0000080427490000037
符修饰,则需要在该检测关系的所有元组中查找是否存在一条元组,满足涉及变量t的公式。
CN 201110218907 2011-08-02 2011-08-02 一种基于蕴涵规则的数据质量自动检测方法 Expired - Fee Related CN102411600B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110218907 CN102411600B (zh) 2011-08-02 2011-08-02 一种基于蕴涵规则的数据质量自动检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110218907 CN102411600B (zh) 2011-08-02 2011-08-02 一种基于蕴涵规则的数据质量自动检测方法

Publications (2)

Publication Number Publication Date
CN102411600A true CN102411600A (zh) 2012-04-11
CN102411600B CN102411600B (zh) 2013-05-15

Family

ID=45913674

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110218907 Expired - Fee Related CN102411600B (zh) 2011-08-02 2011-08-02 一种基于蕴涵规则的数据质量自动检测方法

Country Status (1)

Country Link
CN (1) CN102411600B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103713967A (zh) * 2013-12-04 2014-04-09 深圳市华傲数据技术有限公司 一种基于规则优化的数据防火墙修复方法及系统
WO2015103880A1 (zh) * 2014-01-07 2015-07-16 深圳市华傲数据技术有限公司 一种对批量数据进行自动修复的方法及系统
CN105335407A (zh) * 2014-07-29 2016-02-17 阿里巴巴集团控股有限公司 一种数据自动化测试方法及装置
CN105447090A (zh) * 2015-11-05 2016-03-30 华中科技大学 一种自动化数据挖掘预处理方法
CN105630785A (zh) * 2014-10-27 2016-06-01 航天信息股份有限公司 一种发票使用异常预警方法和系统
CN105701199A (zh) * 2016-01-08 2016-06-22 广东电网有限责任公司信息中心 一种数据依赖的数据质量检测方法及装置
CN110413596A (zh) * 2019-07-30 2019-11-05 北京明略软件系统有限公司 字段处理方法及装置、存储介质、电子装置
CN111950013A (zh) * 2020-08-24 2020-11-17 河南大学 一种基于属性探索的rbac角色快速辅助构建方法
CN116028481A (zh) * 2023-03-30 2023-04-28 紫金诚征信有限公司 一种数据质量检测方法、装置、设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101118550A (zh) * 2007-09-04 2008-02-06 山东浪潮齐鲁软件产业股份有限公司 一种应用数据质量检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101118550A (zh) * 2007-09-04 2008-02-06 山东浪潮齐鲁软件产业股份有限公司 一种应用数据质量检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘波等: "基于频繁模式图的多维关联规则挖掘算法研究", 《电子学报》 *
刘波等: "规则评估方法与数据质量挖掘系统", 《计算机集成制造系统》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103713967A (zh) * 2013-12-04 2014-04-09 深圳市华傲数据技术有限公司 一种基于规则优化的数据防火墙修复方法及系统
WO2015103880A1 (zh) * 2014-01-07 2015-07-16 深圳市华傲数据技术有限公司 一种对批量数据进行自动修复的方法及系统
CN105335407A (zh) * 2014-07-29 2016-02-17 阿里巴巴集团控股有限公司 一种数据自动化测试方法及装置
CN105630785A (zh) * 2014-10-27 2016-06-01 航天信息股份有限公司 一种发票使用异常预警方法和系统
CN105447090A (zh) * 2015-11-05 2016-03-30 华中科技大学 一种自动化数据挖掘预处理方法
CN105447090B (zh) * 2015-11-05 2018-10-26 华中科技大学 一种自动化数据挖掘预处理方法
CN105701199A (zh) * 2016-01-08 2016-06-22 广东电网有限责任公司信息中心 一种数据依赖的数据质量检测方法及装置
CN105701199B (zh) * 2016-01-08 2019-04-26 广东电网有限责任公司信息中心 一种数据依赖的数据质量检测方法及装置
CN110413596A (zh) * 2019-07-30 2019-11-05 北京明略软件系统有限公司 字段处理方法及装置、存储介质、电子装置
CN111950013A (zh) * 2020-08-24 2020-11-17 河南大学 一种基于属性探索的rbac角色快速辅助构建方法
CN111950013B (zh) * 2020-08-24 2022-12-02 河南大学 一种基于属性探索的rbac角色快速辅助构建方法
CN116028481A (zh) * 2023-03-30 2023-04-28 紫金诚征信有限公司 一种数据质量检测方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN102411600B (zh) 2013-05-15

Similar Documents

Publication Publication Date Title
CN102411600B (zh) 一种基于蕴涵规则的数据质量自动检测方法
US9665619B1 (en) Optimizing database queries using subquery composition
Fuxman et al. Conquer: Efficient management of inconsistent databases
Rahm et al. Data cleaning: Problems and current approaches
Papadakis et al. Efficient entity resolution for large heterogeneous information spaces
US20090077010A1 (en) Optimization of Database Queries Including Grouped Aggregation Functions
US20070005658A1 (en) System, service, and method for automatically discovering universal data objects
CN102968420A (zh) 数据库查询的方法和系统
US20090077054A1 (en) Cardinality Statistic for Optimizing Database Queries with Aggregation Functions
Hamad et al. An enhanced technique to clean data in the data warehouse
Saleem Storage, indexing, query processing, and benchmarking in centralized and distributed RDF engines: a survey
Ordonez Horizontal aggregations for building tabular data sets
Song et al. Mining multi-relational high utility itemsets from star schemas
US8793268B1 (en) Smart key access and utilization to optimize data warehouse performance
Peyravi A schema selection framework for data warehouse design
Rantzau Frequent itemset discovery with SQL using universal quantification
Endres et al. Semi-skyline optimization of constrained skyline queries
Necir et al. A distributed maximal frequent itemset mining with multi agents system on bitmap join indexes selection
Fan Extending dependencies with conditions for data cleaning
Flesca et al. Consistent answers to Boolean aggregate queries under aggregate constraints
CN117390064B (zh) 一种基于可嵌入子图的数据库查询优化方法
Ma et al. A heuristic approach to cost-efficient derived horizontal fragmentation of complex value databases
Gang et al. A kind of bidirectional mapping strategy of heterogeneous data model based on metadata-driven
Ghaderi et al. Detecting data errors with employing negative association rules
Cong et al. Research and design of interactive data transformation and migration system for heterogeneous data sources

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130515

Termination date: 20150802

EXPY Termination of patent right or utility model