CN109614491B - 基于数据质量检测规则挖掘结果的进一步挖掘方法 - Google Patents

基于数据质量检测规则挖掘结果的进一步挖掘方法 Download PDF

Info

Publication number
CN109614491B
CN109614491B CN201811571159.3A CN201811571159A CN109614491B CN 109614491 B CN109614491 B CN 109614491B CN 201811571159 A CN201811571159 A CN 201811571159A CN 109614491 B CN109614491 B CN 109614491B
Authority
CN
China
Prior art keywords
cluster
mining
quality detection
data quality
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811571159.3A
Other languages
English (en)
Other versions
CN109614491A (zh
Inventor
唐雪飞
黄永鑫
汪林川
胡茂秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Comsys Information Technology Co ltd
Original Assignee
Chengdu Comsys Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Comsys Information Technology Co ltd filed Critical Chengdu Comsys Information Technology Co ltd
Priority to CN201811571159.3A priority Critical patent/CN109614491B/zh
Publication of CN109614491A publication Critical patent/CN109614491A/zh
Application granted granted Critical
Publication of CN109614491B publication Critical patent/CN109614491B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于数据质量检测规则挖掘结果的进一步挖掘方法,属于数据挖掘技术领域。本发明通过定义数据质量检测规则的表达形式,自动发现出数据表中属性之间的数据质量检测规则,并在此基础上进一步挖掘属性值中隐藏的具体关系或信息,进而在提升数据质量的同时为数据使用者做出相应决策提供依据。本发明有效地挖掘出了属性之间存在的数据质量检测规则,减少了领域专家设计、配置数据质量检测规则的工作量,提高了工作效率,并且提取出了隐藏在数据值背后的相关规律,为数据使用者做出相应的决策提供了强有力的数据支撑。

Description

基于数据质量检测规则挖掘结果的进一步挖掘方法
技术领域
本发明属于数据挖掘技术领域,特别涉及一种基于数据质量检测规则挖掘结果的进一步挖掘方法。
背景技术
在数据呈爆炸性增长的今天,所有的数据都有一定程度的质量。数据质量(DataQuality)指的是在业务环境中,数据满足用户需求的程度以及在完整性、有效性、一致性等方面的完善程度。数据质量检测规则是检测数据质量的关键,是一种使用语义、语法等限定方法对数据、知识和业务范围进行限制的方式。自动发现数据质量检测规则可以减少领域专家设计、配置数据质量检测规则的周期,减少领域专家的工作量,提高工作效率,加快数据质量的建设进程。
随着组织对数据质量建设的重视,对数据质量检测规则的挖掘也越来越具有发展潜力,但是如何在数据质量检测规则挖掘结果的基础上再进一步地挖掘出数据值背后所潜藏的规律,成为了一个新的发展方向。目前虽然已有一些对数据质量检测规则进行挖掘的方法,但并未在挖掘结果之上做进一步的研究,因此对于数据所潜在的应用价值也未进行充分地利用,未能从数据中提炼出潜在的发展规律,从长远的发展角度来看,未能很好地适应当前结合人工智能技术进行持续发展的现状和要求。
发明内容
本发明的目的在于通过进行数据质量检测规则的挖掘,在挖掘结果的基础上分析、提炼出属性值之间潜藏的规律,为决策者进行相应的决策调整提供强有力的数据支撑。
一种基于数据质量检测规则挖掘结果的进一步挖掘方法,包括以下步骤:
S1、挖掘数据质量检测规则;
S2、根据挖掘结果,得到M字段和N字段的关联关系,将M字段和N字段的字段值进行聚类,对聚类结果中每一簇的特征进行转换,并标记各簇的特征。
进一步地,所述步骤S1包括以下流程:
R为关系模式,R的一实例为r,attr(R)为关系模式R的所有属性的集合,X为关系模式R的一属性子集,A为关系模式R的单个属性,tp为包含了X和A中属性的模式元组,挖掘到的数据质量检测规则的表达形式为CFD:(X→A,tp)。
进一步地,所述步骤S1中挖掘数据质量检测规则的过程包括以下流程:
S11、扫描数据库,在所述关系模式R中通过将所有先行值(即X→A中的X)集合建模得到属性包含格,搜索时,先考虑所有由单个属性组成的节点,再逐次考虑多属性组成的节点,直到达到(n-1)级,其中,n为关系模式R中的属性个数;
S12、为本层各节点(X,tp)计算其C+(X,tp),其中,C+(X,tp)={(A,CA)};判断本层各个(X,tp)是否有相应的CFD:(X\{A}→A,tp[X\{A}]||tp[A])成立,若CFD成立,则修改本层中所有比节点(X,tp)更具体的(X,Up)的C+(X,Up),从C+(X,Up)中除去节点(A,CA)及(B,CB),其中B属于关系模式R上去除了属性集X的属性集;
S13、检查本层各个(X,tp),若C+(X,tp)为空,则剪去(X,tp);
S14、若两节点(X,sp)、(Y,tp)的前缀相同,,即X与Y、sp与tp各自的前k-1个值对应相同,则为Lk+1层生成新节点(Z,Up)=(XUY[k],spUtp[k]),并令Lk=Lk+1,直至Lk+1为空集。
进一步地,所述步骤S2包括以下流程:
S21、根据所述步骤S1的挖掘结果,提取具有关联关系的M字段和N字段,对其中一个字段进行数据列剖析,得到该列字段值中存在的不同值个数,以此作为聚类的簇数m;
S22、判断M字段和N字段中是否存在中文,若存在中文,则以数值编码的方式将中文转换为数值进行表示,将两字段的字段值按行取出存入集合中;
S23、进行聚类,创建初始划分,从数据集中随机选择m个对象,每个对象初始代表一个簇中心;对于除簇中心m个对象以外的其它对象,计算其与每个簇中心的距离,将其划入到距离最近的簇,采用欧几里得距离公式计算距离;采用迭代的方法,当有新的对象加入簇或已有对象离开簇的时候,重新计算簇中心的值,对对象进行重新分配;直到各簇中对象不再变化,迭代结束,得到聚类结果;
S24,对聚类结果中每一个簇的特征进行转换,将数值与对应的中文值进行映射,并标记各簇的特征。
本发明的有益效果:本发明提供了一种基于数据质量检测规则挖掘结果的进一步挖掘方法,本发明从数据质量检测规则挖掘结果出发,在挖掘结果的基础上分析、提炼,从数据值中发现出潜在的知识与规律,为数据管理者做出决策提供强有力的数据支撑。
附图说明
图1为本发明实施例的流程图。
具体实施方式
下面结合附图对本发明的实施例做进一步的说明。
请参阅图1,本发明提出的一种基于数据质量检测规则挖掘结果的进一步挖掘方法,通过以下步骤实现:
S1、挖掘数据质量检测规则。
本实施例中,R为关系模式,R的一实例为r,attr(R)为关系模式R的所有属性的集合,X为关系模式R的一属性子集,A为关系模式R的单个属性,tp为包含了X和A中属性的模式元组,挖掘到的数据质量检测规则的表达形式为CFD:(X→A,tp),且CFD(条件函数依赖,Conditional Functional Dependency,CFD)必须满足以下两个条件:
最小性:指的是若(X→A,tp)成立,则对于X的任何一个子集Y,都没有(Y→A,tp)成立;
非平凡性:指的是若(X→A,tp)成立,则属性A不属于属性集X。
本实施例中,步骤S1的挖掘过程通过以下流程实现:
S11、扫描数据库,在关系模式R中通过将所有先行值(即X→A中的X)集合建模得到属性包含格,搜索时,先考虑所有由单个属性组成的节点,再逐次考虑多属性组成的节点,直到达到(n-1)级,其中,n为关系模式R中的属性个数。
S12、为本层各节点(X,tp)计算其C+(X,tp),其中,C+(X,tp)={(A,CA)};判断本层各个(X,tp)是否有相应的CFD:(X\{A}→A,tp[X\{A}]||tp[A])成立,若CFD成立,则修改本层中所有比节点(X,tp)更具体的(X,Up)的C+(X,Up),从C+(X,Up)中除去节点(A,CA)及(B,CB),其中B属于关系模式R上去除了属性集X的属性集。
S13、检查本层各个(X,tp),若C+(X,tp)为空,则剪去(X,tp)。
S14、若两节点(X,sp)、(Y,tp)的前缀相同,即X与Y、sp与tp各自的前k-1个值对应相同,则为Lk+1层生成新节点(Z,Up)=(XUY[k],spUtp[k]),并令Lk=Lk+1,直至Lk+1为空集。
在产生的CFD的基础上为了获得感兴趣,或者说达到了指定要求的数据质量检测规则,可以使用三种兴趣度度量指标来进行最终的检验,即支持度、卡方检验和置信度。支持度是一种频率度量,它基于的观点是经常共同出现的值有更多的证据来表明他们是相关的。卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小。置信度测量了在条件Q下,给定P,发生A的可能性。
S2、根据挖掘结果,得到M字段和N字段的关联关系,将M字段和N字段的字段值进行聚类,对聚类结果中每一簇的特征进行转换,并标记各簇的特征。
本实施例中,步骤S2通过以下流程实现:
S21、根据步骤S1的挖掘结果,提取具有关联关系的M字段和N字段,对其中一个字段进行数据列剖析,得到该列字段值中存在的不同值的个数,以此作为聚类的簇数m。
S22、判断M字段和N字段中是否存在中文,若存在中文,则以数值编码的方式将中文转换为数值进行表示,将两字段的字段值按行取出存入集合中。
本实施例中,步骤S22通过以下流程实现:
S221、判断M字段和N字段中是否存在中文;
S222、若存在中文,则以数值编码的方式将中文转换为数值进行表示,将两字段的字段值按行取出存入集合中,流程进入S23;
S223、若不存在中文,则流程直接进入S23。
S23、进行聚类。
本实施例中,步骤S23通过以下流程实现:
S231创建初始划分,从数据集中随机选择m个对象,每个对象初始代表一个簇中心;
对于除簇中心m个对象以外的其它对象,计算其与每个簇中心的距离,将其划入到距离最近的簇;
采用欧几里得距离公式计算距离,计算公式为
Figure BDA0001915556960000061
采用迭代的方法,当有新的对象加入簇或已有对象离开簇的时候,重新计算簇中心的值,对对象进行重新分配。
S232、判断各簇中对象是否变化。
S233、若各簇中对象仍在变化,则迭代尚未结束,流程回到S231,继续迭代。
S234、若各簇中对象不再发生变化,则迭代结束,得到聚类结果,流程进入S24。
S24,对聚类结果中每一个簇的特征进行转换,将数值与对应的中文值进行映射,并标记各簇的特征。
本实施例中,对聚类结果中每一个簇所独有的特征进行自动转换,即自动将数值与对应的中文值进行映射,并标记各簇所具有的特征。比如,簇1中学生的成绩范围是85~100,所在寝室号的范围为301~318,簇2中学生的成绩范围为70~84,所在寝室号的范围为202~209,以此可以得出哪些寝室的学生成绩较好的这一信息,为数据管理者做出相应的决策提供了数据支撑。
本领域的普通技术人员将会意识到,这里的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (3)

1.一种基于数据质量检测规则挖掘结果的进一步挖掘方法,其特征在于,包括以下步骤:
S1、挖掘数据质量检测规则;
S2、根据挖掘结果,得到M字段和N字段的关联关系,将M字段和N字段的字段值进行聚类,对聚类结果中每一簇的特征进行转换,并标记各簇的特征;
所述步骤S2包括以下流程:
S21、根据所述步骤S1的挖掘结果,提取具有关联关系的M字段和N字段,对其中一个字段进行数据列剖析,得到该列字段值中存在的不同值个数,以此作为聚类的簇数m;
S22、判断M字段和N字段中是否存在中文,若存在中文,则以数值编码的方式将中文转换为数值进行表示,将两字段的字段值按行取出存入集合中;
S23、进行聚类,创建初始划分,从数据集中随机选择m个对象,每个对象初始代表一个簇中心;对于除簇中心m个对象以外的其它对象,计算其与每个簇中心的距离,将其划入到距离最近的簇,采用欧几里得距离公式计算距离;采用迭代的方法,当有新的对象加入簇或已有对象离开簇的时候,重新计算簇中心的值,对对象进行重新分配;直到各簇中对象不再变化,迭代结束,得到聚类结果;
S24,对聚类结果中每一个簇的特征进行转换,将数值与对应的中文值进行映射,并标记各簇的特征。
2.如权利要求1所述的基于数据质量检测规则挖掘结果的进一步挖掘方法,其特征在于,所述步骤S1包括以下流程:
R为关系模式,R的一实例为r,attr(R)为关系模式R的所有属性的集合,X为关系模式R的一属性子集,A为关系模式R的单个属性,tp为包含了X和A中属性的模式元组,挖掘到的数据质量检测规则的表达形式为CFD:(X→A,tp)。
3.权利要求2所述的基于数据质量检测规则挖掘结果的进一步挖掘方法,其特征在于,所述步骤S1中挖掘数据质量检测规则的过程包括以下流程:
S11、扫描数据库,在所述关系模式R中通过将所有先行值集合建模得到属性包含格,所述先行值为X→A中的X,搜索时,先考虑所有由单个属性组成的节点,再逐次考虑多属性组成的节点,直到达到(n-1)级,其中,n为关系模式R中的属性个数;
S12、为本层各节点(X,tp)计算其C+(X,tp),其中,C+(X,tp)={(A,CA)};判断本层各个(X,tp)是否有相应的CFD:(X\{A}→A,tp[X\{A}]||tp[A])成立,若CFD成立,则修改本层中所有比节点(X,tp)更具体的(X,Up)的C+(X,Up),从C+(X,Up)中除去节点(A,CA)及(B,CB),其中B属于关系模式R上去除了属性集X的属性集;
S13、检查本层各个(X,tp),若C+(X,tp)为空,则剪去(X,tp);
S14、若两节点(X,sp)、(Y,tp)的前缀相同,即X与Y、sp与tp各自的前k-1个值对应相同,则为Lk+1层生成新节点(Z,Up)=(XUY[k],spUtp[k]),并令Lk=Lk+1,直至Lk+1为空集。
CN201811571159.3A 2018-12-21 2018-12-21 基于数据质量检测规则挖掘结果的进一步挖掘方法 Active CN109614491B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811571159.3A CN109614491B (zh) 2018-12-21 2018-12-21 基于数据质量检测规则挖掘结果的进一步挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811571159.3A CN109614491B (zh) 2018-12-21 2018-12-21 基于数据质量检测规则挖掘结果的进一步挖掘方法

Publications (2)

Publication Number Publication Date
CN109614491A CN109614491A (zh) 2019-04-12
CN109614491B true CN109614491B (zh) 2023-06-30

Family

ID=66010151

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811571159.3A Active CN109614491B (zh) 2018-12-21 2018-12-21 基于数据质量检测规则挖掘结果的进一步挖掘方法

Country Status (1)

Country Link
CN (1) CN109614491B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825788A (zh) * 2019-11-07 2020-02-21 成都康赛信息技术有限公司 基于数据质量检测规则挖掘结果的规则约简方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1685345A (zh) * 2002-11-01 2005-10-19 三菱电机株式会社 用于挖掘视频内容的方法
CN106384128A (zh) * 2016-09-09 2017-02-08 西安交通大学 一种挖掘时序数据状态关联的方法
CN107248118A (zh) * 2017-07-24 2017-10-13 国网节能服务有限公司 数据挖掘方法、装置和系统
CN108446294A (zh) * 2018-01-22 2018-08-24 东华大学 一种面向脏数据的清洗规则挖掘系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100250596A1 (en) * 2009-03-26 2010-09-30 Wenfei Fan Methods and Apparatus for Identifying Conditional Functional Dependencies

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1685345A (zh) * 2002-11-01 2005-10-19 三菱电机株式会社 用于挖掘视频内容的方法
CN106384128A (zh) * 2016-09-09 2017-02-08 西安交通大学 一种挖掘时序数据状态关联的方法
CN107248118A (zh) * 2017-07-24 2017-10-13 国网节能服务有限公司 数据挖掘方法、装置和系统
CN108446294A (zh) * 2018-01-22 2018-08-24 东华大学 一种面向脏数据的清洗规则挖掘系统

Also Published As

Publication number Publication date
CN109614491A (zh) 2019-04-12

Similar Documents

Publication Publication Date Title
KR101130524B1 (ko) 목표 변수를 위한 데이터 전망 자동 생성
CN107016072B (zh) 基于社交网络知识图谱的知识推理系统及方法
Kolaczyk et al. Statistical analysis of network data with R
Franceschet Collaboration in computer science: A network science approach
JP5092165B2 (ja) データ構築方法とシステム
CN103514381B (zh) 整合拓扑属性和功能的蛋白质生物网络模体识别方法
CN111382276A (zh) 一种事件发展脉络图生成方法
CN102609465B (zh) 基于潜在社群的信息推荐方法
CN102971729A (zh) 将可操作属性归于描述个人身份的数据
CN109783628A (zh) 结合时间窗口和关联规则挖掘的关键词搜索ksaarm算法
CN106570188A (zh) 一种多主题消息传播中结构洞节点的挖掘方法
CN109614491B (zh) 基于数据质量检测规则挖掘结果的进一步挖掘方法
CN103870489B (zh) 基于搜索日志的中文人名自扩展识别方法
CN109597901B (zh) 一种基于生物数据的数据分析方法
CN115203337A (zh) 一种数据库元数据关系知识图谱生成方法
CN107194468A (zh) 面向情报大数据的决策树增量学习方法
CN106815320B (zh) 基于拓展三维直方图的调研大数据可视化建模方法及系统
CN117370846A (zh) 一种基于微震事件的水力压裂三维裂缝网构建方法及系统
CN115878818B (zh) 一种地理知识图谱构建方法、装置、终端及存储介质
CN109240549B (zh) 一种基于外接数位设备和大数据智能分析的书法矫正器
CN103927373A (zh) 基于增量式关联规则技术的动态大数据模型高效建立方法
Bednarik et al. Efficiency analysis of quality threshold clustering algorithms
CN111008285A (zh) 一种基于论文关键属性网络的作者消歧方法
Abdullah et al. Discovering interesting association rules from student admission dataset
CN113010642A (zh) 语义关系的识别方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant