CN102257496A

CN102257496A - 用于加速的数据质量增强的方法和系统

Info

Publication number: CN102257496A
Application number: CN2010800025244A
Authority: CN
Inventors: P·Z-C·耶; C·A·普里
Original assignee: Accenture Global Services GmbH
Current assignee: Accenture Global Services GmbH
Priority date: 2009-12-07
Filing date: 2010-12-06
Publication date: 2011-11-23
Anticipated expiration: 2030-12-06
Also published as: CN102257496B; CA2734599C; US8700577B2; WO2011071833A1; CA2734599A1; US20110138312A1; EP2350887A1

Abstract

本发明的实施例解决了如下技术问题，即标识、收集和管理用于由改善企业方案(其范围从数据管控到业务智能)的较差质量数据的规则。在本发明的特定实施例中，提供了一种用于产生针对数据集合的数据质量规则的方法。生成候选条件功能依赖关系集合，包括在数据集合的本体中的特定相关度内的属性的候选种子。然后，向数据应用候选条件功能依赖关系，并在其到达静止状态之前对其进行完善，其中在该静止状态处，尽管候选条件功能依赖关系所应用于的数据已经稳定，也不对该候选条件功能依赖关系进行完善。所得到的完善后的候选条件功能依赖关系是针对数据集合和其他相关的数据集合的数据增强规则。在本发明的另一特定实施例中，提供了一种用于开发数据质量规则的计算机系统，其具有规则库、数据质量规则发现引擎以及用户接口。

Description

用于加速的数据质量增强的方法和系统

优先权

本申请要求2009年12月7日提交的申请号为61/267,338、题为“Method and System for Accelerated Data Quality Enhancement”的临时申请的优先权。本申请还要求2010年1月21日提交的申请号为61/297,233、题为“Discovering Conditional Functional Dependencies toDetect Data Inconsistencies”的临时申请的优先权。

技术领域

本发明一般地涉及自动化数据清洗，并且更特别地涉及通过应用条件功能依赖关系来进行自动化数据质量增强。

背景技术

现代社会的特征在于越来越多地依赖于迅速扩张的数据仓库的准确度。IDC确定，2007年全世界产生的数据量是281艾字节，代表了相对于2006年的56％的年增长率。同时，这一数据的准确度对于现代企业的运转而言越来越重要。近来，当公共可访问数据库表明来自复兴计划的若干拨款被分配给了并不存在的国会选区，美国政府十分尴尬。除了引起尴尬和混淆，较差的数据质量还会引起严重的经济危害。数据可能由于手工输入到系统中或由人为设计的传感器获取的人为错误而被破坏。由于人为错误是不可避免的，因此其是对社会所依赖于的数据的潜在破坏。

在大型组织要被迫处理的数据量越来越多的情况下，若干公司提供了帮助针对大型数据库滤除错误和纠正错误的产品和服务。这种公司一般称为数据质量供应商，其提供的滤除和纠正数据库的服务称为数据质量增强。数据质量增强一般是自动化过程，其中计算机对电子存储数据库中的所有数据进行滤除并且自动地标记或删除表现为错误的数据值。

数据质量增强中的关键任务是标识对较差质量数据进行有效性验证、清洗和管控的规则。使用上述政府救济计划的示例，充分的规则可以是针对对其发放了资金的选区的任何条目都必须也出现在美国所有国会选区的列表中。可以使用人工或自动化开发来标识数据质量规则。人工开发涉及利用主题专家(SME)的输入或使用数据归档工具的数据或业务分析人员。

SME是理解涵盖其精通领域内的信息的数据集合的特征的个人。例如，数据分析人员可以利用公共事业设施领域中的SME来获悉表计的序列号通常被错误地记录，并且表计被连接到具有与该表计的序列号相关的序列号的变换器。然后，分析人员将能够采用这一信息，并且创建数据质量规则，该数据质量规则在数据集合中滤除与所描述模式不适配的序列号。

数据归档工具是检查所关心的数据以报告统计数据的计算机程序，该统计数据诸如值频率、两列之间的重合百分比，以及数据固有的其他关系和值。数据归档工具的示例包括TS Discovery、Informatica IDE/IDQ以及Oracle Data Integrator。从数据归档工具搜集的信息能够表明潜在的质量问题。分析人员使用他们从数据归档工具的使用中获得的信息来人工地创建能够增强所检查数据的质量的规则。

某些归档器，诸如Informatica Data Explorer，其本身能够自动地推断基本数据质量规则。例如，它们能够设定关于哪些列不能具有空值的规则。然而，这是特别简单的数据质量规则。空值条目是最容易检测的错误类型，其原因在于它们清楚地表明了数据条目疏漏并且它们不具有等同于任何可能正确的条目的值。其他归档器，诸如TS Discovery、Informatica Data Quality，提供了针对名称和地址有效性验证的有创意(out-of-the-box)的规则。这些规则同样稍显简陋，其原因在于地址从特征上说是严格管制的，是用于大型商业数据库的典型元素，并且遵循紧密的模式。可用数据归档器不包含针对更复杂或更客户特定的质量问题的规则。

这两种获得用于数据质量规则的人工开发的信息的方式具有其缺陷。现代数据归档工具功能极其强大，并且能够为分析人员提供数据集内的大量数据特征和相互关系。然而，创建可操作数据质量规则仍将需要用于解释和应用所获取的统计数据的耗费时间的繁重处理。鉴于信息通常必须通过个人会晤来搜集，这种个人会晤需要分析人员和SME两者的大量时间，从SME获取信息同样可能是耗费时间且困难的。出于显然的原因，分析人员断开与SME的交互并且其本身试图变得精通给定领域的数据库，同样是耗费时间的。

学术文献中已经描述了自动化规则开发方法。这些方法中最突出的莫过于对数据进行挖掘以形成关联规则以及对数据进行挖掘以便得到条件功能依赖关系(CFD)。在该领域中存在普遍共识，即关联规则对于解决大型数据库中的数据质量问题而言是不够的。对数据进行挖掘以便得到CFD的过程作为一种用于自动化数据增强的更有前途的方法便出现了。

CFD是增强语义相关约束的模式的规则。图1提供了简单CFD的示例。在此情况下，输入数据点101和102具有3个属性，即国家代码(CC)、州(S)以及地区代码(AC)。包括这种数据点的数据集合可以是跟踪企业客户的位置的数据库的一部分。CFD 100基于如下事实来检查数据，即国家代码是针对美国的01，地区代码是408，然后所伴随的州应当为加利福尼亚。向CFD 100应用数据输入101将得到通过输出值103。而向CFD 100应用数据输入102将得到失败输出值104。

使CFD的发现自动化的方法有两个主要缺陷。第一个是可能应用于数据集合的CFD数目随着数据集合中属性数目的增加而呈指数增加。这导致这种方法的复杂度高得几乎令人望而却步。在以上示例中，对于相对简单的三个值的集合，仍然能有12个功能依赖关系。再乘以在美国所服务的超过270个地区代码，可能的CFD的数目将大大超出这一数目。当前的自动化发现方法也不能处理含噪数据。

发明内容

在本发明的一个实施例中，提供了一种用于产生针对数据集合的数据质量规则的计算机实现的方法。在第一步骤中，通过使用所述数据集合的本体基于候选种子集合生成候选条件功能依赖关系集合。每个候选种子包括从所述数据集合的所有属性的集合提取的在所述本体中具有预定隔离度的属性子集。在第二步骤中，单独向数据集合应用候选条件功能依赖关系以获得针对每个候选条件功能依赖关系的对应结果值集合。在第三步骤中，如果其对应结果值集合未能形成达到预定期望的结果签名，则候选条件功能依赖关系被单独完善(refine)和向数据再次应用。在第四步骤中，当所有候选条件功能依赖关系到达静止状态时，应用和完善终止。在最终步骤中，选择所述候选条件功能依赖关系的相关集合以用作针对所述数据集合的所述数据质量规则。

附图说明

图1图示了在输入数据上操作的条件功能依赖关系。

图2图示了根据本发明的用于产生针对数据集合的数据质量规则的方法。

图3图示了根据本发明的用于产生针对数据集合的数据质量规则的系统。

图4图示了根据本发明的图形用户接口数据输入。

图5图示了根据本发明的图形用户接口规则显示。

图6图示了用于属性组合的完全连接图。

具体实施方式

现在将详细参考所公开发明的实施例，附图中图示了其一个或多个示例。每个示例都是以说明本技术的方式而不是以限制本技术的方式提供的。实际上，对本领域技术人员来说明显的是，在不脱离其精神和范围的情况下，可以对本技术进行修改和变更。例如，作为一个实施例的一部分而图示和描述的特征可以与另一实施例一起使用以产生又一实施例。由此，本主题旨在覆盖在所附权利要求书及其等同形式的范围内的修改和变更。

本发明的实施例解决了如下技术问题，即标识、收集和管理用于改善针对企业方案(其范围从数据管控到业务智能)的较差质量数据的规则。本发明的实施例还显著减少了收集针对企业方案(诸如主数据管理、业务智能等)的数据质量规则所需的人工劳动量。另外，本发明的实施例还支持其他业务需要，诸如保证其数据遵循预定业务逻辑。

本发明的实施例通过自动地发现可操作数据质量规则和通过提供直观的规则浏览器来管理这些规则而解决了上述问题。本发明的实施例不会受制于现有技术方法的计算复杂度并且能够处理含噪数据。最后，本发明的实施例能够针对特定客户数据清洁度问题提供数据质量增强规则，而不需要以昂贵的方式访问或消化数据特征的SME知识。

图2显示了根据本发明的用于产生针对数据集合的数据质量规则的方法。在该方法开始之前，假定数据集合的本体可用，其表明了数据集合中的哪些属性是相关的。为了使用上述示例，地区代码和州可以是直接相关的，而不同的变量，诸如客户的名字可以完全不与地区代码相关。在步骤200中，生成候选CFD集合。候选CFD基于候选种子集合，候选种子集合是数据集合中所有属性的子集。与先前示例一致，候选种子可以是国家代码和地区代码的组合。选作候选种子的属性可以在本体中具有预定隔离度。例如，可以将在本体中3个链接之内的属性选择为针对候选种子的属性群组。

在本发明的特定实施例中，候选CFD的数目、每个CFD中条件的数目以及每个CFD中属性的数目由用户在开始实践本发明之前确定。CFD中条件的数目确定了对形成CFD的属性进行了多少约束。与本发明示例一致，规则“如果地区代码是408；则州必须是加利福尼亚”可以计为单个条件。所有3个这些变量将对该方法的自动化部分执行所要耗费的时间具有直接影响。针对任何这些值选择较低数值将以所得到的数据增强规则集合的整体效率来换取候选CFD的更快收敛。

在步骤201中，可以单独将候选CFD应用于数据集合中的数据。在本发明的特定实施例中，这一应用可以在具有预定长度的数据片段中进行。例如，可以将CFD应用于具有1000个数据点的长度的数据片段。采用这一方法的实施例可以节省大量时间，其原因在于与整个数据集合相比，将规则应用于数据片段将耗费更少的时间。

在本发明的特定实施例中，数据片段的大小可以通过由用户确定的扫描周期来设定。将CFD应用于数据的目的可以是针对每个CFD得到对应结果值集合。对应结果值集合在大小上一般可以等同于所述CFD向其应用的数据点数目。在本发明的另一特定实施例中，结果值集合可以表明规则是否与数据点匹配，规则是否虽与数据点不匹配但也不与数据点冲突，以及规则是否与数据点冲突。

在步骤202中，如果候选CFD所具有的结果签名未达到预定期望，则单独完善候选CFD。在特定实施例中，结果签名可以是来自于将各CFD应用于数据的结果值的列表。可以进行各候选CFD的完善，从而使得如果再次应用于数据则它们将更接近地达到预定期望。

在本发明的特定实施例中，该完善可以通过从候选CFD省略高熵属性来实现。高熵属性可以是候选CFD中承担整个数据集合中最多值的属性。选择这一属性用于省略在完善候选CFD方面是有效的，其原因在于，从统计学上说，其可能是用于省略的最佳属性以便使得候选CFD更少地受限。在上述的具有3个属性的示例中，这很可能导致省略任何候选CFD中并未达到预定期望的地区代码属性。

在本发明的特定实施例中，预定期望通过覆盖估计和预定错误估计来设定。覆盖估计可以是关于候选CFD将应用于多少不同的数据点(意味着候选CFD所操作的属性和值出现在数据点中)的估计。例如，具有条件“如果地区代码是408；则州必须是加利福尼亚”的候选CFD将覆盖地区代码属性是408的任何数据点。错误估计可以是关于多少不同数据点将使表达数据中的所希望关系的候选CFD不能通过的估计。例如，SME可能提供如下信息，即数据库中5％的地区代码很可能是错误的，并且这些错误是随机的。在此情况下，错误估计将是5％，并且具有地区代码408和加利福尼亚之外的州的数据点将针对结果签名的总错误内容而计为一个数据点。如果在针对具有100个数据点的数据片段的结果签名中有5个错误，则错误估计将精确地匹配。利用错误估计的实施例将能够处理含噪数据，其原因在于其考虑了潜在错误。在不考虑错误估计的情况下，表明规则不适配的结果值将不会携带关于规则是否错误的任何信息。在本发明的另一特定实施例中，覆盖估计和错误估计可以由用户调节。

在步骤203中，当候选CFD到达静止状态时，对候选CFD的应用和完善终止。这种方法的益处在于防止了不必要的处理，其原因在于已经证明无效的规则不会继续被应用。此外，并非有限数据集合中的所有数据都需要被检查，只要足以制定稳定的规则即可。在本发明的特定实施例中，将静止状态定义为这样的时刻，即，已经向包含稳定数据的一系列数据点应用了候选CFD，而无需对该候选CFD进行完善。数据稳定性可以通过参考特定属性的值相对于已知偏差的摆动来确定，或者其可以通过从SME获得的容限来设定。上述一系列中的数据点数目可以通过窗口周期值来设定，并且在本发明的另一特定实施例中，窗口周期可以由用户调节。由于步骤201中的这一窗口周期和数据片段具有不同大小，在步骤202产生达到期望结果的时间与步骤203执行和确定受测试CFD是否到达静止的时间之间存在滞后时间。

在本发明的特定实施例中，不同的候选CFD可以位于图2内的不同地方。某些候选CFD可能迅速到达静止并且准备移动到步骤204，而其他的则仍然循环回步骤201。如上所述，这一方法可以节省宝贵的计算时间，其原因在于已经收敛的CFD不会再次应用于数据。

在步骤204中，选择所述候选CFD的相关集合。候选CFD的相关集合将是针对数据集合的数据质量规则。相关性主要由任何特定候选CFD的覆盖水平确定。覆盖，如上所述，并且是指候选CFD应用于多少数据点。在本发明的特定实施例中，相关性还可以通过稳定的候选CFD的适配统计分析的良好程度来设定。相关性适配分析的良好程度将包括检测到的错误率和CFD的覆盖程度。依照相关性适配分析的良好程度、最相关的CFD将是覆盖水平最高以及其检测到的错误率与所估计的错误率之间的接近度最小的那些。

在本发明的特定实施例中，可以自动地存储数据质量规则。这将是重要的，其原因在于，在很多复杂情形下，稳定的候选CFD的数目将非常高并且其分析将是耗费时间的。例如，可以根据兴趣度因子对相关集合中的候选CFD进行排名。可以进行该排名，从而使得评估相关CFD的个人在引导注意力方面得到辅助。兴趣度因子将随着包含候选CFD所基于的值之一的数据集合部分减小而增大，使用上述示例，如果数据集合中有1000个地区代码属性为值408的数据点，并且数据集合中有4个地区代码属性为值212的数据点，则基于等于212的地区代码的候选CFD将具有更高的兴趣度因子值。在本发明的另一特定实施例中，可以将数据质量规则一起归组为解决类似数据质量问题的规则子集。在又一实施例中，可以随规则一起提供统计数据，诸如规则之间的连接、规则之间的冲突以及每个规则所覆盖的数据百分比。

在本发明的另一实施例中，提供了一种用于增强数据质量的方法。该方法将以参考图2所描述的差不多的方式进行。然而，由该过程产生的候选CFD的相关集合将被应用于增强数据集合的数据质量。候选CFD(此时将是数据增强规则)将被应用于数据集合中的所有数据。不符合数据增强规则的数据点将被标记以供以后注意或者可以被删除或修改为对其正确值的最佳猜测，由此增强数据集合的数据质量。

在本发明的实施例中，还可以将根据本发明生成的数据增强规则应用于增强数据集合的相关群组的数据质量。可以将规则应用于任何数目的具有类似内容的数据集合，意味着相关数据集合中的数据具有与该方法在其上确定数据质量规则的原始数据集合的特征类似的特征。这一过程可以通过向数据质量产品或外部数据库管理系统导出相关规则而针对外部地存储的数据集合来调整。特别地，可以向其导出规则的数据质量产品可以是TS Discovery、InformaticaIDE/IDQ以及Oracle Data Integrator。

图3显示了根据本发明的用于开发数据质量规则的计算机系统。规则库302用于存储数据质量规则。在本发明的特定实施例中，规则库302能够向诸如插件303之类的数据交换器插件递送规则。可以将插件303添加至系统，这允许可以以兼容的方式向另一系统导出数据规则。在优选实施例中，插件303可以包括插件集合，其中每个插件确保与不同外部系统的兼容性。这种实施例将是希望的，其原因在于然后规则就可以适于沿着数据线路304应用于任何数目的外部系统。能够接收数据质量规则的外部系统可以是如下系统，该系统运行数据质量产品、外部数据库管理系统或者数据质量规则可以应用于的任何其他系统。特别地，该外部系统可以是运行诸如TS Discovery、Informatica IDE/IDQ以及Oracle Data Integrator之类的数据质量产品的系统。

规则库302从数据质量规则发现引擎301获得数据质量规则。数据质量规则发现引擎301能够接收来自用户接口300的数据集合、数据集合的本体以及规则生成参数集合。用户接口300还能够输出由数据质量规则发现引擎301发现的数据质量规则以供外部使用。数据质量规则发现引擎301基于数据集合的本体来形成候选CFD集合，并且基于当应用于数据时这些规则如何运行来迭代地完善这些规则。当候选CFD到达静止状态并且成为数据质量规则时，数据质量规则发现引擎301终止迭代的完善处理。

在特定实施例中，用户接口，诸如用户接口300，可以进一步包括图形用户接口(GUI)。在本发明的特定实施例中，这种GUI可能能够接收来自用户的规则生成参数、数据集合地址、相关数据集合地址以及本体地址。规则生成参数还可以由用户通过使用GUI来调整。最后，GUI还可能能够向用户显示由规则发现引擎生成的规则，从而使得用户可以再次检查以及可选地修改所显示的规则。还可以通过GUI向用户显示关于规则的信息，诸如规则所应用于的数据部分以及当应用于规则时检测到的数据错误率。

图4显示了根据本发明的GUI的输入显示的示例。GUI 400能够向用户显示信息以及从用户接收信息。显示窗口401包含若干选择器。在特定实施例中，选择器可以包括能够接受和设定候选CFD数目的最大规则数目选择器402，能够接受和设定每个候选CFD中的最大条件数目的最大条件数目选择器403，能够接受和设定每个候选CFD中的最大候选种子数目的最大种子数目选择器404，能够接受和设定应用于数据集合的任何特定CFD的所希望覆盖的覆盖选择器405，能够接受和设定应用于数据集合的任何特定CFD的期望错误率的错误率选择器406，能够接受和设定针对每次将任何特定CFD应用于数据集合的扫描周期的频率选择器407，以及能够接受和设定在针对静止而评估规则之前需要评估的数据量的窗口大小选择器408。可以将由选择器选择的值提交给数据质量规则发现引擎301。

图5显示了根据本发明的GUI的输出显示的示例。GUI 500能够向用户显示信息以及从用户接收信息。显示窗口501能够通过报告诸如规则之间的连接、规则之间的冲突以及每个规则所覆盖的数据百分比之类的关键信息来使得商业用户和技术用户两者能够理解、修改和管理所发现的规则。规则显示格503能够显示每个规则的概要以及规则的重要统计数据。规则列表502能够以组织好的且可修改的格式显示规则，其中每个规则的统计数据概要显示在旁边。细节格504能够显示关于所选择规则的更深入信息。

下面描述一种解决如下限制的方法，这些限制在于需要FD作为输入以及与和很大数目的属性的关系成比例的困难度。这一方法能够：有效地削减搜索空间并且因此能够处理与很大数目的(例如多达100个)属性的关系；以高度鲁棒方式处理发现期间的污染数据并且因此甚至是在数据具有很大百分比的不一致性(例如高达50％)时也能够发现有用的CFD；以及确定规则何时变得稳定并且因此能够避免检查整个数据集合和过度适配。

在一个实施例中，该方法可以称为“CFinder”。在一个实施例中，CFinder通过以下步骤从感兴趣的关系中发现CFD。CFinder首先生成初始候选CFD集合。然后，CFinder通过移除无关的(或无效的)条件来完善每个CFD，并且当CFD变为稳定时，停止完善CFD。最后，CFinder过滤弱的(且被归入其中(subsume)的)CFD，并且归纳其余CFD以增加其可应用性。

在一个实施例中，给定关系R，CFinder生成候选CFD(即(X→Y，Tp)形式的规则，其中X和Y是来自R的属性，并且Tp是包括来自这些属性的值的模式元组)。

在一个实施例中，CFinder首先从R生成大小为N+1的所有属性组合，其中N是CFD的前项X中所允许的最大属性数目(并且因此是最大条件数目)。CFinder加上这一限制是因为在前项中具有很大数目的条件的CFD在实践中具有有限的可应用性。

然后，CFinder从每个组合生成候选CFD。对于组合中的每个属性，CFinder将该属性转换为CFD的后项(即Y)并且将其余属性转换为前项(即X)。然后，CFinder利用来自这些属性的其频率超出最小支持阈值的相应值来实例化模式元组。例如，给定表1，来自密西根州接收的美国联邦拨款的记录和属性的样本：

表1

并且给定20％的最小支持率以及来自表1的以下属性组合：

(机构，机构代码，项目，CFDA号)

CFinder将会生成的某些CFD包括：

(机构代码，项目，CFDA号→机构，(9131：DOED，Pell，84.063‖ED))

(机构，机构代码，项目→CFDA号，(HUD，8630：HUD，Pell‖14.317))

在一个实施例中，当组合数目(并且因此候选CFD数目)极其大时，CFinder基于两个试探来削减不太可能产生有用CFD的组合。

第一试探是有用的CFD更有可能从强相关的属性(例如机构和机构代码)生成。在一个实施例中，使用如下公式，CFinder通过将每个组合作为以属性作为节点的完全连接图来处理以及通过计算跨所有边的平均强度(并且因此属性彼此相关的强度如何)来实现这一试探：

\frac{Σ_{(A, B) &Element; E (c)} Strength (A, B)}{| E (c) |}

其中E(c)是属性组合c中的所有边，(A，B)是属性A与B之间的边，Strength(A，B)度量了A与B相关的强度如何。Strength(A，B)的良好度量可以是当本体可用时提供的语义关系。如果本体不可用，则诸如这些属性之间的相互依赖关系之类的度量能够提供对Strength(A，B)的备选度量，这是因为高相互依赖关系表明了A与B之间的较强的关系。因此，在一个实施例中，CFinder将Strength(A，B)定义为在A与B之间共享的相互信息：

\underset{a &Element; U (A)}{Σ} \underset{b &Element; U (B)}{Σ} P (a, b) \log \frac{P (a, b)}{P (a) P (b)}

其中U(A)和U(B)分别是A和B中的唯一值；并且P是属性(或属性对)中的值(或值对)的相对频率。在一个实施例中，CFinder削减具有低强度的组合，并且将默认强度阈值设定为0.5。例如，图6示出了针对来自表1的以下属性组合的完全连接图。

c₁：(接收类别，接收城市，机构，机构代码)

边标签表明了这些属性之间的强度。在一个实施例中，由于平均强度(即1.13)大于0.5，因此CFinder将保持这一组合。

第二试探是很多组合是彼此的变型并且可以削减。这些变型通常导致发现相同的CFD，其原因在于，在一个实施例中，CFinder通过从前项移除无关和/或无效的条件来完善CFD。

在一个实施例中，CFinder通过首先基于强度以降序对在应用第一试探后剩下的组合进行排列来实现这一试探。在一个实施例中，CFinder随后以降序遍历这一列表，并且针对每个组合c，其找到与c差异最小的所有在先组合C′。在一个实施例中，CFinder将这一差异定义为在c中但不在c′中的属性的数目，其中c′εC′，并且将默认差异设定为1(即C′将包含与c有一个属性不同的所有组合)。

在一个实施例中，由于C′包含比c更有希望的组合(并且因此CFD)，因此如果c与C′具有显著重合，则CFinder应当削减c。由于每个组合都可以作为完全连接图来处理，因此c与C′中任何组合之间的重合是其最大共同子图表。如果c的非重合边(即在C′中不能找到的边)较弱，则这一组合不太可能会产生任何新的有用的CFD。在一个实施例中，CFinder以如下形式表示这一概念：

\frac{Σ_{(A^{'}, B^{'}) &Element; E^{'} (c)} Strength (A^{'}, B^{'})}{Σ_{(A, B) &Element; E (c)} Strength (A, B)}

其中E(c)是在c中的所有边，并且E′(c)是在c中的不与C′中的组合重合的边。如果这一值超出了削减阈值HP，则削减该组合。

例如，图6示出了来自表1的强度排名高于c₁的两个附加组合。在一个实施例中，如果HP是0.85，则CFinder将削减c₁，其原因在于其与c₂和c₃具有高度重合(以粗线示出)，并且c₁中的非重合边较弱。

在一个实施例中，CFinder从其余组合生成候选CFD。在一个实施例中，CFinder从最强的一个开始并且以这些CFD被生成的顺序完善它们。

在一个实施例中，CFinder通过将每个候选CFD与来自感兴趣的关系的记录相比较来完善该每个候选CFD。在一个实施例中，CFinder使检查记录的顺序随机化。在一个实施例中，对于每个记录，CFinder确定记录是与CFD一致、不一致还是不相关。

如果CFD的模式元组与记录中的相应值相匹配，则该记录与CFD一致。在一个实施例中，如果这样，则CFinder将一致记录计数R_C递增1。

如果模式元组中对应于CFD前项的所有值与记录中的相应值相匹配，但对应于后项的值与记录中的相应值不匹配，则该记录与CFD不一致。在一个实施例中，如果这样，则CFinder将不一致记录计数R_I递增1。

否则，记录与CFD不相关，并且在一个实施例中，CFinder将不相关记录计数R_V递增1。在一个实施例中，CFinder使用这些计数来检查CFD是否过于具体(并且因此需要完善)以及针对CFD而遇到的非一致性是实际的数据错误还是异常，异常是可以忽略的。在一个实施例中，CFinder使用最小支持阈值H_S(即R_C/(R_C+R_V)≥H_S)和最大不一致性阈值H_I(即R_I/(R_I+R_V)≤H_I)来针对每M个记录执行一次这一检查。

在一个实施例中，如果CFD未能达到最小支持阈值H_S，则CFinder通过从前项移除无关和/或无效的条件来完善CFD。然而，观察到的支持(即R_C/(R_C+R_V)与期望的支持(即H_S)之间的差异可能是由于M个所检查的记录的“采样”效应造成的。这一效应可能导致CFD被过分完善，变得过于杂乱。因此，在一个实施例中，CFinder需要确定这一差异的大小，并且其使用X²测试(或者类似的测试，诸如G测试)，其初始化为：

在一个实施例中，仅当差异显著时，CFinder将完善CFD。如果在指定的置信度水平(CFinder默认为99％)处，所得到的X²值超出临界X²值，则差异是显著的。在一个实施例中，CFinder选择前K个最有希望的条件以从CFD的前项中移除。由于目标是改善支持，因此，在一个实施例中，CFinder应当移除其值不频繁出现并且其对应的属性具有高不确定性(即包含很多不同的值)的条件，其原因在于这些条件导致很多记录不相关。在一个实施例中，CFinder以如下形式表示这一概念：

(1-P(T_p(A)，T_p(B)))Entropy(A，B)

其中A和B分别是条件和后项的属性；

T_p(*)是模式元组中属性的值；P是值对的相对频率

T_p(A)和T_p(B)到目前为止跨所检查的所有记录；并且Entropy(A，B)是A与B之间的到目前为止跨所检查的所有记录的联合熵。

在一个实施例中，CFinder基于以上公式选择具有最高分值的K个条件，并且对于每个条件，CFinder从原始CFD的前项移除条件以生成新CFD。例如，假定CFinder需要通过选择顶部两个条件来完善以下CFD，并且表1中的记录是到目前为止所检查的那些。

(机构代码，项目，CFDA号→机构，

(9131：DOED，Pell，84.063‖ED))

在一个实施例中，CFinder将选择项目和CFDA号(其分值分别为1.97和1.69)(机构代码具有最低分值0.98)并且从原始CFD移除它们以生成以下新CFD。

(机构代码，CFDA号→机构，(913l：DOED，86.063‖ED))

(机构代码，项目→机构，(9131：DOED.Pel1‖ED))

在一个实施例中，对于每个新CFD，CFinder记录CFD以防止其被再次生成；并且针对CFD重新计算R_C、R_I和R_V。如果条件仍然在前项中，则丢弃CFD。

类似地，在一个实施例中，如果CFD超出最大不一致性阈值H_I，则CFinder使用X²测试(或者类似的测试，诸如G测试)来确定观察到的不一致性(即R_I/(R_I+R_C))与期望的不一致性(即H_I)之间的差异是显著的，其初始化为：

\frac{{(R_{I} - H_{I} (R_{C} + R_{I})}^{2}}{H_{I} (R_{C} + R_{I})} + \frac{(R_{C} - (1 - H_{I}) {(R_{C} + R_{I})}^{2}}{(1 - H_{I}) (R_{C} + R_{I})}

在一个实施例中，如果差异是显著的，则CFinder通过将R_I加到R_V然后重新将R_I设定为0来惩罚CFD。这一惩罚增加了CFD将不能达到最小支持阈值的可能性，这将导致CFD被完善并且最终被丢弃(如果不一致性持续)。

在一个实施例中，CFinder重复以上过程，直到已经检查了所有记录或者CFinder变得稳定为止。

检查所有记录以发现CFD计算成本很高并且可能导致与数据过度适配的CFD。在一个实施例中，CFinder通过确定CFD是否稳定并且因此不需要进一步完善来解决这两个问题。如果对CFD的支持和构成在CFD中所引用的属性的值的确定性在给定时间段上恒定，则CFD就是稳定的。在一个实施例中，CFinder通过首先使用以下公式针对CFD计算稳定分值St来表示这一概念：

\frac{R_{C}}{R_{C} + R_{V}} \underset{A &Element; X \cup Y}{Σ} Entropy (A)

其中R_C和R_V分别是针对CFD的一致记录计数和不相关记录计数(参见前一小节)；X∪Y是在CFD中所引用的所有属性；并且Entropy(A)是到目前为止跨所检查的所有记录的熵。在一个实施例中，CFinder针对每M个记录计算一次这一分值——当它检查最小支持阈值和最大不一致性阈值时。

在一个实施例中，CFinder随后针对上L个稳定性分值计算标准偏差SD_ST；并且如果根据以下公式SD_ST是恒定的，则CFD是稳定的。

\frac{{SD}_{St}}{{Avg}_{St}} \leq H_{St}

其中Avg_St是上L个稳定性分值的平均；并且H_St是稳定性阈值。

例如，如果CFD中的属性的值的确定性波动或者从CFD中移除了条件，则稳定性分值的熵分量St将显著改变，这将防止CFD变得稳定。类似地，如果对CFD的支持波动，则St同样将波动，这将防止CFD变得稳定。

在一个实施例中，CFinder使用支持和确信(conviction)的度量来过滤弱CFD(即未达到和/或超出针对这些度量而指定的阈值的CFD)。支持度量对于CFD有多少证据，并且可以使用一致记录计数和不相关记录计数来定义。置信在考虑方向性的同时度量CFD的前项和后项与独立性偏差多远。这一度量对于过滤弱CFD而言表现得比较有效。

在一个实施例中，除这些度量之外，CFinder应用附加过滤器来移除被归入其中的CFD。如果Y₁等于Y₂，

并且

则CFD(即F₁：(X₁→Y₁，T_p1))将另一CFD(即F₂：(X₂→Y₂，T_p2))归入其中。在一个实施例中，如果达到条件，则CFinder移除被归入其中的CFD(即F₂)，其原因在于其具有更小的可应用性。

在一个实施例中，CFinder随后归纳其余CFD以进一步增大其可应用性。如果存在另一CFD F2从而使得F1和F2具有相同的前项和后项，即X1等于X2并且Y1等于Y2，则可以归纳CFD F1。在一个实施例中，如果达到这些条件，则F1和F2的模式元组有单个值不同，CFinder通过将其模式元组中的不同值替换为能够与任何任意值相匹配的通配符(“_”)来将F1和F2归纳为单个CFD。例如，给定以下CFD：

(接收类别，机构→项目，

(盈利，ED‖拨款))

(接收类别，机构→项目，

(更高ED，ED‖拨款))

在一个实施例中，CFinder可以将它们归纳为：

(接收类别，机构→项目，(ED，_‖拨款))

上述的本发明实施例能够通过显著地减少标识和收集数据质量规则所需的人工劳动量而显著地加速针对企业方案(范围从主控数据管理到业务智能)的数据质量劳动。此外，它们能够与关键数据质量供应商解决方案集成这一事实确保了能够快速使得数据质量规则对于这些解决方案可操作。同样重要的是注意到，它们能够对除地址、名称、空值以及值范围之外的数据质量问题进行有效的检测和有效性判断。

尽管已经主要针对本发明的特定实施例对本发明的实施例进行了讨论，但其他变型是可能的。作为对在此提出的配置的替代或补充，可以使用所描述系统的各种配置。例如，尽管将系统描述为似乎其组件都是串联连接的，但组件可以由分立的数据总线或者通过任何数目的其他配置来链接。本发明不限于与有限数据集合一起使用，而是可以使用经常改变的数据集合来训练所需规则。在在线情况下，规则集合可以类似地持续更新。功能可以按照需要由硬件或软件来执行。一般而言，所提出的任何示图都仅旨在表明一种可能的配置，很多变型都是可能的。本领域技术人员还将意识到，根据本发明的方法和系统适合于在涵盖任何涉及数据管理的很宽范围的应用中使用。尽管说明书是针对本发明的特定实施例来详细描述的，但本领域技术人员将意识到，在获得对前述内容的理解后，可以容易地想到这些实施例的变更、变型和等同形式。在不脱离在所附权利要求书中更特别地阐明的本发明精神和范围的情况下，本领域技术人员能够实践本发明的这些和其他修改和变型。另外，本领域技术人员将意识到，前述描述仅作为示例，而并非旨在限制本发明。

Claims

1.一种用于产生针对数据集合的数据质量规则的计算机实现的方法，包括：

通过使用所述数据集合的本体、基于候选种子集合来生成候选条件功能依赖关系集合，所述候选种子包括从所述数据集合的属性集合提取的、在所述本体中具有预定隔离度的属性子集；

单独向所述数据集合应用所述候选条件功能依赖关系，以获得针对所述候选条件功能依赖关系的对应结果值集合；

如果所述对应结果值集合不具有达到预定期望的结果签名，则单独完善所述候选条件功能依赖关系，并且重复所述应用；

当所述候选条件功能依赖关系单独到达静止状态时，单独终止对所述候选条件功能依赖关系的所述完善和应用；以及

选择所述候选条件功能依赖关系的相关集合以用作针对所述数据集合的所述数据质量规则。

2.根据权利要求1的用于产生针对数据集合的数据质量规则的计算机实现的方法，其中所述完善通过省略单独一个所述候选条件功能依赖关系的高熵属性来实现。

3.根据权利要求1的用于产生针对数据集合的数据质量规则的计算机实现的方法，其中：

在生成所述候选条件功能依赖关系集合之前，每个所述候选条件功能依赖关系的第一数目的条件能够由用户调节；并且

在生成所述候选种子集合之前，所述候选种子集合的候选种子中的第二数目的属性能够由用户调节。

4.根据权利要求1的用于产生针对数据集合的数据质量规则的计算机实现的方法，其中所述预定期望通过由单独一个所述候选条件功能依赖关系覆盖的第一部分所述数据集合的预定覆盖估计以及将为错误的第二部分所述数据集合的预定错误估计来设定。

5.根据权利要求4的用于产生针对数据集合的数据质量规则的计算机实现的方法，其中：

所述候选条件功能依赖关系集合具有预定数目的所述候选条件功能依赖关系；并且

所述预定数目的条件功能依赖关系能够由用户调节。

6.根据权利要求4的用于产生针对数据集合的数据质量规则的计算机实现的方法，其中所述相关集合中的所述候选条件功能依赖关系具有对应的组合结果签名集合，就所述数据集合的最大覆盖程度以及检测到的错误率与所述预定错误估计之间的最小接近度而言，所述对应的组合结果签名集合具有最佳的适配度。

7.根据权利要求6的用于产生针对数据集合的数据质量规则的计算机实现的方法，进一步包括：

根据兴趣度因子对所述相关集合中的所述候选条件功能依赖关系进行排名；其中

随着包括特定的一个所述候选条件功能依赖关系所基于的数据值的一部分所述数据集合减小，针对所述特定的一个所述候选条件功能依赖关系的所述兴趣度因子增大。

8.根据权利要求4的用于产生针对数据集合的数据质量规则的计算机实现的方法，其中在所述应用期间、所述候选条件功能依赖关系向其应用的所述数据集合的数据片段的大小通过预定扫描周期来设定。

9.根据权利要求8的用于产生针对数据集合的数据质量规则的计算机实现的方法，其中所述预定覆盖估计、所述预定错误估计以及所述预定扫描周期能够由用户调节。

10.根据权利要求4的用于产生针对数据集合的数据质量规则的计算机实现的方法，其中针对特定的一个所述候选条件功能依赖关系的所述静止状态为这样的时刻，即，已经通过所述应用将所述特定的一个所述候选条件功能依赖关系单独应用于总共包含大小等于预定窗口周期的数据点量的一系列所述数据片段，以及所述一系列的所述数据片段已经包含稳定数据，而所述完善不会改变所述特定候选条件功能依赖关系。

11.根据权利要求10的用于产生针对数据集合的数据质量规则的计算机实现的方法，其中所述预定窗口周期能够由用户调节。

12.一种用于增强数据质量的计算机实现的方法，包括步骤：

通过使用数据集合的本体、基于候选种子集合来生成候选条件功能依赖关系集合，每个所述候选种子包括从所述数据集合的所有属性的集合提取的、在所述本体中具有预定隔离度的属性子集；

单独向所述数据集合应用所述候选条件功能依赖关系以获得针对每个所述候选条件功能依赖关系的对应结果值集合；

当所述候选条件功能依赖关系单独到达静止状态时，单独终止对所述候选条件功能依赖关系的所述完善和应用；

选择所述候选条件功能依赖关系的相关集合以用作针对所述数据集合的所述数据质量规则；以及

通过相对于所述相关集合检查所述数据集合的数据，以及如果所述数据不遵循所述相关集合中所包含的规则则滤除所述数据，来增强所述数据集合的数据质量。

13.根据权利要求12的用于增强数据质量的计算机实现的方法，进一步包括继续应用所述相关集合以增强在内容上与所述数据集合相关的附加数据集合群组的数据质量。

14.根据权利要求12的用于增强数据质量的计算机实现的方法，进一步包括向数据质量产品和外部数据库管理系统中的一个导出所述相关集合。

15.一种用于开发数据质量规则的计算机系统，包括：

规则库，用于存储所述数据质量规则；

用户接口，能够接收数据集合、本体以及规则生成参数集合，并且能够输出数据质量规则集合；

数据质量规则发现引擎，能够接收来自所述用户接口的所述数据集合、所述本体以及所述规则生成参数集合，生成所述数据质量规则集合，以及向所述规则库发送所述数据质量规则集合；

其中所述数据质量规则发现引擎通过使用所述本体、基于候选种子集合制定候选条件功能依赖关系集合，所述候选种子包括从所述数据集合的所有属性的集合提取的、在所述本体中具有预定隔离度的属性子集；以及

其中所述数据质量规则发现引擎执行如下操作：

如果所述候选条件功能依赖关系集合在应用于所述数据集合时并未达到预定期望，则迭代地完善所述候选条件功能依赖关系集合，并且当所述条件功能依赖关系集合到达静止状态并成为所述数据质量规则时，终止所述完善。

16.根据权利要求15的用于开发数据质量规则的计算机系统，所述用户接口进一步包括：

图形用户接口，能够显示和接收所述规则生成参数、所述数据集合的地址、相关数据集合地址、所述本体的地址以及所述数据质量规则集合；以及

其中所述规则生成参数能够由用户通过所述图形用户接口调节。

17.根据权利要求15的用于开发数据质量规则的计算机系统，其中所述数据质量规则发现引擎通过省略所述候选条件功能依赖关系的高熵属性来完善所述候选条件功能依赖关系。

18.根据权利要求15的用于开发数据质量规则的计算机系统，进一步包括数据交换器插件，其能够向数据质量产品和外部数据库管理系统中的一个导出所述数据质量规则的相关集合。