CN109614491B

CN109614491B - 基于数据质量检测规则挖掘结果的进一步挖掘方法

Info

Publication number: CN109614491B
Application number: CN201811571159.3A
Authority: CN
Inventors: 唐雪飞; 黄永鑫; 汪林川; 胡茂秋
Original assignee: Chengdu Comsys Information Technology Co ltd
Current assignee: Chengdu Comsys Information Technology Co ltd
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2023-06-30
Anticipated expiration: 2038-12-21
Also published as: CN109614491A

Abstract

本发明提供了一种基于数据质量检测规则挖掘结果的进一步挖掘方法，属于数据挖掘技术领域。本发明通过定义数据质量检测规则的表达形式，自动发现出数据表中属性之间的数据质量检测规则，并在此基础上进一步挖掘属性值中隐藏的具体关系或信息，进而在提升数据质量的同时为数据使用者做出相应决策提供依据。本发明有效地挖掘出了属性之间存在的数据质量检测规则，减少了领域专家设计、配置数据质量检测规则的工作量，提高了工作效率，并且提取出了隐藏在数据值背后的相关规律，为数据使用者做出相应的决策提供了强有力的数据支撑。

Description

基于数据质量检测规则挖掘结果的进一步挖掘方法

技术领域

本发明属于数据挖掘技术领域，特别涉及一种基于数据质量检测规则挖掘结果的进一步挖掘方法。

背景技术

在数据呈爆炸性增长的今天，所有的数据都有一定程度的质量。数据质量(DataQuality)指的是在业务环境中，数据满足用户需求的程度以及在完整性、有效性、一致性等方面的完善程度。数据质量检测规则是检测数据质量的关键，是一种使用语义、语法等限定方法对数据、知识和业务范围进行限制的方式。自动发现数据质量检测规则可以减少领域专家设计、配置数据质量检测规则的周期，减少领域专家的工作量，提高工作效率，加快数据质量的建设进程。

随着组织对数据质量建设的重视，对数据质量检测规则的挖掘也越来越具有发展潜力，但是如何在数据质量检测规则挖掘结果的基础上再进一步地挖掘出数据值背后所潜藏的规律，成为了一个新的发展方向。目前虽然已有一些对数据质量检测规则进行挖掘的方法，但并未在挖掘结果之上做进一步的研究，因此对于数据所潜在的应用价值也未进行充分地利用，未能从数据中提炼出潜在的发展规律，从长远的发展角度来看，未能很好地适应当前结合人工智能技术进行持续发展的现状和要求。

发明内容

本发明的目的在于通过进行数据质量检测规则的挖掘，在挖掘结果的基础上分析、提炼出属性值之间潜藏的规律，为决策者进行相应的决策调整提供强有力的数据支撑。

一种基于数据质量检测规则挖掘结果的进一步挖掘方法，包括以下步骤：

S1、挖掘数据质量检测规则；

S2、根据挖掘结果，得到M字段和N字段的关联关系，将M字段和N字段的字段值进行聚类，对聚类结果中每一簇的特征进行转换，并标记各簇的特征。

进一步地，所述步骤S1包括以下流程：

R为关系模式，R的一实例为r，attr(R)为关系模式R的所有属性的集合，X为关系模式R的一属性子集，A为关系模式R的单个属性，t_p为包含了X和A中属性的模式元组，挖掘到的数据质量检测规则的表达形式为CFD:(X→A,t_p)。

进一步地，所述步骤S1中挖掘数据质量检测规则的过程包括以下流程：

S11、扫描数据库，在所述关系模式R中通过将所有先行值(即X→A中的X)集合建模得到属性包含格，搜索时，先考虑所有由单个属性组成的节点，再逐次考虑多属性组成的节点，直到达到(n-1)级，其中，n为关系模式R中的属性个数；

S12、为本层各节点(X,t_p)计算其C⁺(X,t_p)，其中，C⁺(X,t_p)＝{(A,C_A)}；判断本层各个(X,t_p)是否有相应的CFD:(X\{A}→A,t_p[X\{A}]||t_p[A])成立，若CFD成立，则修改本层中所有比节点(X,t_p)更具体的(X,U_p)的C⁺(X,U_p)，从C⁺(X,U_p)中除去节点(A,C_A)及(B,C_B)，其中B属于关系模式R上去除了属性集X的属性集；

S13、检查本层各个(X,t_p)，若C⁺(X,t_p)为空，则剪去(X,t_p)；

S14、若两节点(X,s_p)、(Y,t_p)的前缀相同，，即X与Y、s_p与t_p各自的前k-1个值对应相同，则为L_k+1层生成新节点(Z,U_p)＝(XUY[k],s_pUt_p[k])，并令L_k＝L_k+1，直至L_k+1为空集。

进一步地，所述步骤S2包括以下流程：

S21、根据所述步骤S1的挖掘结果，提取具有关联关系的M字段和N字段，对其中一个字段进行数据列剖析，得到该列字段值中存在的不同值个数，以此作为聚类的簇数m；

S22、判断M字段和N字段中是否存在中文，若存在中文，则以数值编码的方式将中文转换为数值进行表示，将两字段的字段值按行取出存入集合中；

S23、进行聚类，创建初始划分，从数据集中随机选择m个对象，每个对象初始代表一个簇中心；对于除簇中心m个对象以外的其它对象，计算其与每个簇中心的距离，将其划入到距离最近的簇，采用欧几里得距离公式计算距离；采用迭代的方法，当有新的对象加入簇或已有对象离开簇的时候，重新计算簇中心的值，对对象进行重新分配；直到各簇中对象不再变化，迭代结束，得到聚类结果；

S24，对聚类结果中每一个簇的特征进行转换，将数值与对应的中文值进行映射，并标记各簇的特征。

本发明的有益效果：本发明提供了一种基于数据质量检测规则挖掘结果的进一步挖掘方法，本发明从数据质量检测规则挖掘结果出发，在挖掘结果的基础上分析、提炼，从数据值中发现出潜在的知识与规律，为数据管理者做出决策提供强有力的数据支撑。

附图说明

图1为本发明实施例的流程图。

具体实施方式

下面结合附图对本发明的实施例做进一步的说明。

请参阅图1，本发明提出的一种基于数据质量检测规则挖掘结果的进一步挖掘方法，通过以下步骤实现：

S1、挖掘数据质量检测规则。

本实施例中，R为关系模式，R的一实例为r，attr(R)为关系模式R的所有属性的集合，X为关系模式R的一属性子集，A为关系模式R的单个属性，t_p为包含了X和A中属性的模式元组，挖掘到的数据质量检测规则的表达形式为CFD:(X→A,t_p)，且CFD(条件函数依赖，Conditional Functional Dependency，CFD)必须满足以下两个条件:

最小性：指的是若(X→A,t_p)成立，则对于X的任何一个子集Y，都没有(Y→A,t_p)成立；

非平凡性：指的是若(X→A,t_p)成立，则属性A不属于属性集X。

本实施例中，步骤S1的挖掘过程通过以下流程实现：

S11、扫描数据库，在关系模式R中通过将所有先行值(即X→A中的X)集合建模得到属性包含格，搜索时，先考虑所有由单个属性组成的节点，再逐次考虑多属性组成的节点，直到达到(n-1)级，其中，n为关系模式R中的属性个数。

S12、为本层各节点(X,t_p)计算其C⁺(X,t_p)，其中，C⁺(X,t_p)＝{(A,C_A)}；判断本层各个(X,t_p)是否有相应的CFD:(X\{A}→A,t_p[X\{A}]||t_p[A])成立，若CFD成立，则修改本层中所有比节点(X,t_p)更具体的(X,U_p)的C⁺(X,U_p)，从C⁺(X,U_p)中除去节点(A,C_A)及(B,C_B)，其中B属于关系模式R上去除了属性集X的属性集。

S13、检查本层各个(X,t_p)，若C⁺(X,t_p)为空，则剪去(X,t_p)。

S14、若两节点(X,s_p)、(Y,t_p)的前缀相同，即X与Y、s_p与t_p各自的前k-1个值对应相同，则为L_k+1层生成新节点(Z,U_p)＝(XUY[k],s_pUt_p[k])，并令L_k＝L_k+1，直至L_k+1为空集。

在产生的CFD的基础上为了获得感兴趣，或者说达到了指定要求的数据质量检测规则，可以使用三种兴趣度度量指标来进行最终的检验，即支持度、卡方检验和置信度。支持度是一种频率度量，它基于的观点是经常共同出现的值有更多的证据来表明他们是相关的。卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小。置信度测量了在条件Q下，给定P，发生A的可能性。

本实施例中，步骤S2通过以下流程实现：

S21、根据步骤S1的挖掘结果，提取具有关联关系的M字段和N字段，对其中一个字段进行数据列剖析，得到该列字段值中存在的不同值的个数，以此作为聚类的簇数m。

S22、判断M字段和N字段中是否存在中文，若存在中文，则以数值编码的方式将中文转换为数值进行表示，将两字段的字段值按行取出存入集合中。

本实施例中，步骤S22通过以下流程实现：

S221、判断M字段和N字段中是否存在中文；

S222、若存在中文，则以数值编码的方式将中文转换为数值进行表示，将两字段的字段值按行取出存入集合中，流程进入S23；

S223、若不存在中文，则流程直接进入S23。

S23、进行聚类。

本实施例中，步骤S23通过以下流程实现：

S231创建初始划分，从数据集中随机选择m个对象，每个对象初始代表一个簇中心；

对于除簇中心m个对象以外的其它对象，计算其与每个簇中心的距离，将其划入到距离最近的簇；

采用欧几里得距离公式计算距离，计算公式为

采用迭代的方法，当有新的对象加入簇或已有对象离开簇的时候，重新计算簇中心的值，对对象进行重新分配。

S232、判断各簇中对象是否变化。

S233、若各簇中对象仍在变化，则迭代尚未结束，流程回到S231，继续迭代。

S234、若各簇中对象不再发生变化，则迭代结束，得到聚类结果，流程进入S24。

本实施例中，对聚类结果中每一个簇所独有的特征进行自动转换，即自动将数值与对应的中文值进行映射，并标记各簇所具有的特征。比如，簇1中学生的成绩范围是85～100,所在寝室号的范围为301～318，簇2中学生的成绩范围为70～84，所在寝室号的范围为202～209，以此可以得出哪些寝室的学生成绩较好的这一信息，为数据管理者做出相应的决策提供了数据支撑。

本领域的普通技术人员将会意识到，这里的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于数据质量检测规则挖掘结果的进一步挖掘方法，其特征在于，包括以下步骤：

S1、挖掘数据质量检测规则；

S2、根据挖掘结果，得到M字段和N字段的关联关系，将M字段和N字段的字段值进行聚类，对聚类结果中每一簇的特征进行转换，并标记各簇的特征；

所述步骤S2包括以下流程：

2.如权利要求1所述的基于数据质量检测规则挖掘结果的进一步挖掘方法，其特征在于，所述步骤S1包括以下流程：

3.权利要求2所述的基于数据质量检测规则挖掘结果的进一步挖掘方法，其特征在于，所述步骤S1中挖掘数据质量检测规则的过程包括以下流程：

S11、扫描数据库，在所述关系模式R中通过将所有先行值集合建模得到属性包含格，所述先行值为X→A中的X，搜索时，先考虑所有由单个属性组成的节点，再逐次考虑多属性组成的节点，直到达到(n-1)级，其中，n为关系模式R中的属性个数；

S13、检查本层各个(X,t_p)，若C⁺(X,t_p)为空，则剪去(X,t_p)；