CN102637208A - 一种基于模式挖掘的噪音数据过滤方法 - Google Patents

一种基于模式挖掘的噪音数据过滤方法 Download PDF

Info

Publication number
CN102637208A
CN102637208A CN2012100847220A CN201210084722A CN102637208A CN 102637208 A CN102637208 A CN 102637208A CN 2012100847220 A CN2012100847220 A CN 2012100847220A CN 201210084722 A CN201210084722 A CN 201210084722A CN 102637208 A CN102637208 A CN 102637208A
Authority
CN
China
Prior art keywords
tree
data
interest
collection
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100847220A
Other languages
English (en)
Other versions
CN102637208B (zh
Inventor
曹杰
伍之昂
李秀怡
毛波
杨风召
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Original Assignee
Nanjing University of Finance and Economics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Finance and Economics filed Critical Nanjing University of Finance and Economics
Priority to CN201210084722.0A priority Critical patent/CN102637208B/zh
Publication of CN102637208A publication Critical patent/CN102637208A/zh
Application granted granted Critical
Publication of CN102637208B publication Critical patent/CN102637208B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于模式挖掘的噪音数据过滤方法,该方法首先建立由词袋数据集D构成的预处理数据结构FP树,该FP树包含了词袋数据集及其相应的事物数据集;其次,根据FP-2INF算法,最终将所有2-项集兴趣模式添加到兴趣模式集L中,完成噪音数据过滤。本发明根据兴趣度指标条件,将兴趣度指标直接进行剪枝,一步到位地挖掘出兴趣模式,有效实现噪音数据过滤,获得高质量数据,提高了数据的正确性、一致性。

Description

一种基于模式挖掘的噪音数据过滤方法
技术领域
本发明涉及一种数据处理方法,具体地说是一种基于模式挖掘的噪音数据过滤方法。
背景技术
数据质量指数据满足明确或隐含需求程度的指标,是对于现实世界的真实写照。数据质量问题不仅仅指出现不正确的数据还指数据不一致性问题,随着数据量的增加,数据的内部一致性问题变得极为重要,是广泛存在于各学科数据使用中的一个主题。噪声作为测量误差的随机部分,它可能涉及到值的失真或加入了伪造的对象数据。
关联分析作为数挖掘中的核心问题之一,用于寻找给定数据记录集中数据项间隐藏的关联关系及描述数据间有意义的联系,对于关联规则挖掘往往转化为基于支持度-置信度框架的频繁模式挖掘,但是,频繁模式往往不是真正用户感兴趣的模式,所以,兴趣模式挖掘的研究和应用得到人们的重视,在购物篮事物(market basket transaction)、生物信息学、公共健康及Web挖掘中等领域有着广泛的应用。
设数据集D={I1,I2,...,Ii...,In}n个事务构成,对于每一个去除词频的实例看作一个事务Ii={w i 1,w i 2,...,w i |Ii|}。设L={p1,p2,...,pk}表示兴趣模式集合,若实例Ii中不包含任何兴趣模式,即(                                                ),则实例Ii为数据集的噪音数据。为此,需要通过去除D中所有噪音实例的噪音过滤获得高质量数据以确保数据的正确性、一致性。
发明内容
为了克服现有技术中采用频繁模式挖掘噪音数据存在的问题,本发明的目的是提供一种基于模式挖掘的噪音数据过滤方法。该方法根据兴趣度指标条件,将兴趣度指标直接进行剪枝,一步到位地挖掘出兴趣模式,有效实现噪音数据过滤,获得高质量数据,提高了数据的正确性、一致性。
本发明的目的是通过以下技术方案来实现的:
一种基于模式挖掘的噪音数据过滤方法,其特征在于该方法首先建立由词袋数据集D构成的预处理数据结构FP树,该FP树包含了词袋数据集及其相应的事物数据集;其次,根据FP-2INF算法,最终将所有2-项集兴趣模式添加到兴趣模式集L中,完成噪音数据过滤;具体步骤如下:
1)预处理输入数据集;输入数据由二元组<Word_ID, Frequency>的词袋数据集组成的Word_ID-Instance矩阵,该矩阵每一行由Word_ID及其相关的实例数据构成,进而转化为构建FP树的事务数据集;
2)根据预处理的数据集,通过频繁集中频率降序的顺序建立FP树,设立基于2-项集余弦相似度兴趣模式噪音数据挖掘的参数min_suppmin_cos
3)使用算法FP-2INF,将FP树分成前缀路径FP树P和多缀路径FP树Q,算法开始试图寻找单路径树,遍历单路径树P上的任意2-项集βα,如果满足cos(βα)≥min_cos兴趣模式,则将其添加至兴趣模式集L中;在多缀路径树Q中,对路径上的任意元素:若为单项集,建立条件模式基及条件FP树Treeβ,对非空的FP树Treeβ继续FP-2INF迭代;否则,对满足2-项集模式且符合余弦相似度条件的2-项集添加至兴趣模式集L中;
4)根据FP-2INF返回的2-项集余弦相似度兴趣模式,比较数据集D和模式集L中的数据;对于任意数据
Figure 228964DEST_PATH_IMAGE002
而言,如果存在
Figure 810511DEST_PATH_IMAGE004
Figure 9411DEST_PATH_IMAGE002
即为被兴趣模式过滤的噪音数据,完成噪音数据过滤。
本发明的初始输入是数据集合D、D上构建的FP树,及阈值min_suppmin_cos。由兴趣度评估关联规则的定义,潜在兴趣模式的最小长度为2。对于D中的实例Ii,为了能够证明当存在一个k-项集(k>2)的兴趣模式下而不包含任意2-项集兴趣模式的情况存在,进而从很大程度上简化兴趣模式发现。本发明首先引入噪音数据过滤适用的条件及度量方法构建FP树,在此基础上通过定理证明了对于满足余弦相似度度量条件的2-项集调用FP-2INF( FP -Growth based 2-Itemsets Noise Filter)算法可以有效达到噪音数据过滤的目的。
为了验证噪音数据过滤的高效性,本发明使用了来自Flickr的图像数据集Oxford_5K。该数据集由标注了11类不同牛津地标的5060张图片组成,由含有1M属性的词袋表示,特征值即为视觉词的出现频率。去除出现频率不足3次的属性,最终获得由658346个特征的数据集,其中数据密度0.0228%,噪音91.58%。
本发明根据兴趣度指标条件,将兴趣度指标直接进行剪枝,一步到位地挖掘出兴趣模式,有效实现噪音数据过滤,获得高质量数据,提高了数据的正确性、一致性。
附图说明
图1是本发明具体的流程图。
图2是不同参数设置情况下噪音过滤前后聚类性能对比图。
具体实施方式
一种本发明所述的基于模式挖掘的噪音数据过滤方法,该方法首先建立由词袋数据集D构成的预处理数据结构FP树,该FP树包含了词袋数据集及其相应的事物数据集;其次,根据FP-2INF算法,最终将所有2-项集兴趣模式添加到兴趣模式集L中,完成噪音数据过滤;图1是本发明具体的流程图,具体步骤如下:
1)预处理输入数据集;输入数据由二元组<Word_ID, Frequency>的词袋数据集组成的Word_ID-Instance矩阵,该矩阵每一行由Word_ID及其相关的实例数据构成,进而转化为构建FP树的事务数据集;
2)根据预处理的数据集,通过频繁集中频率降序的顺序建立FP树,设立基于2-项集余弦相似度兴趣模式噪音数据挖掘的参数min_suppmin_cos
3)使用算法FP-2INF,将FP树分成前缀路径FP树P和多缀路径FP树Q,算法开始试图寻找单路径树,遍历单路径树P上的任意2-项集βα,如果满足cos(βα)≥min_cos兴趣模式,则将其添加至兴趣模式集L中;在多缀路径树Q中,对路径上的任意元素:若为单项集,建立条件模式基及条件FP树Treeβ,对非空的FP树Treeβ继续FP-2INF迭代;否则,对满足2-项集模式且符合余弦相似度条件的2-项集添加至兴趣模式集L中;
4)根据FP-2INF返回的2-项集余弦相似度兴趣模式,比较数据集D和模式集L中的数据;对于任意数据
Figure 740607DEST_PATH_IMAGE002
而言,如果存在即为被兴趣模式过滤的噪音数据,完成噪音数据过滤。
 兴趣度指标条件如下:
为了揭示对2-项集兴趣模式具有足够的噪音过滤能力,给出以下两个满足度量的条件。对于所有满足条件1或条件2的指标都可以作为兴趣度衡量指标,同时,由于余弦相似度很好的满足了条件反单调性、交叉支持等性质,将选用余弦度量作为噪音数据过滤的方法。
条件1:令V是项的集合,J=2 V 是V的幂集。对于兴趣度量f ,如果
Figure 2012100847220100002DEST_PATH_IMAGE005
,则(Y∈L)→(X∈L)。
这表明度量f满足反单调性,从而有助于修剪无兴趣候选项的超集。
条件2:令V是项的集合,J=2 V 是V的幂集。对于兴趣度量f ,如果
Figure 38361DEST_PATH_IMAGE006
,则(Y∈L)→(X∈L)。
其中,σ(w)是数据集D上的支持度(support),度量f满足条件反单调性质。鉴于余弦度量方法很好的满足了以上性质,本发明主要采用余弦度量方法的噪音数据过滤。证明如定理1所示:
定理1:设k-项集(k≥2)模式p={w1,w2,..,wk},则关于p的cosine度量如公式(1)所示满足条件2。
Figure 2012100847220100002DEST_PATH_IMAGE007
(1)
证明:设k-项集模式X={w1,w2,..,wk}及由其超集Y={ w1,w2,..,wk,wk+1,…,wk+m}构成的(k+m)-项集(m≥1)。由条件2可知:
Figure 624063DEST_PATH_IMAGE008
Figure 53908DEST_PATH_IMAGE010
也即:cos(X)≥cos(Y),得证。
 FP-2INF算法如下:
FP树通过频繁集中频率降序的顺序添加兴趣模式中的每一个事务pi构成,设FP树中的路径pathi={root, w i 1,w i 2,...,w i k},则σ(w i 1)≥σ(w i 2) ≥... ≥σ(w i k)。由条件2简化2-项集兴趣模式,然后利用支持度的反单调性以及余弦相似度的条件反单调性一步到位进行兴趣模式的挖掘。由于本发明只要求对2-项集兴趣模式挖掘,且对FP树中满足支持度条件和余弦相似度条件的2-项集双剪枝操作,所以比传统先对满足支持度条件剪枝,进而在所得到频繁模式基础上做兴趣度分析的方法而言本发明速度更快、效率更高。定理2证明了本发明对满足cosine度量条件的2-项集可以有效达到噪音数据过滤的目的。
定理2FP-2INF算法仅需挖掘满足以下条件的2-项集模式:对于2-项集p={wi,wj},若满足支持度
Figure 2012100847220100002DEST_PATH_IMAGE011
≥min_supp且cosine≥min_cos,如果可以将所有的2-项集兴趣模式添加到L中,则满足了噪音数据过滤要求。
证明:设2-项集模式X={wi,wj}及以{wi,wj}结尾的k-项集模式Y={w1,...,wk-2,wi,wj},根据条件1和2可得:σ(X)≥σ(Y)cos(X)≥cos(Y)。所以,当Y满足阈值加入L时,X同时也存在于L中,即如果一个实例包括Y,这个实例必定也包括X。所以只需添加2-项集兴趣模式到L就可过滤噪音数据。
明为了验证算法的高效性,使用了来自Flickr的图像数据集Oxford_5K。该数据集由标注了11类不同牛津地标的5060张图片组成,由含有1M属性的词袋表示,特征值即为视觉词的出现频率。去除出现频率不足3次的属性,最终获得由658346个特征的数据集,其中数据密度0.0228%,噪音91.58%。
为了评估本文所提出算法的有效性,首先在不同参数设置下使用本发明过滤方法得到剩余图片的数及在Oxford_5K中标注“Good”或“OK”的清晰图片数,其中,“Good”表示图像清晰可见,“OK”表示图像超过25%的部分清晰可见,结果如表1所示。在示例1中,当没有过滤时显示剩余图片5060张图片及标注清晰图片568张,随着参数阈值(min_suppmin_cos)的持续增长,2-项集模式、剩余图片及清晰图片也稳步增长。特别地,在示例8中本发明过滤了将近82.5%的噪音图片。
表1. 不同参数设置下的结果
Figure 2012100847220100002DEST_PATH_IMAGE013
在以上8种不同参数设置的基础上使用CLUTO考虑图片中标注的地表对其进行(K=11)聚类,最后通过NMI(Normalized Mutual Information)方法(公式(2)所示)评估本发明下的聚类性能。
 (2)
其中,X表示聚类簇向量,Y表示标记向量。NMI值处于[0,1]区间内,值越高表示聚类的效果越好。
图2描述了通过本发明噪音过滤前后在表1中8种不同参数设置情况下在NMI上的聚类性能对比图。由于大规模噪音的存在严重影响了K均值质心计算从而最终导致聚类结果偏差,示例1没有采用噪音过滤时,NMI值相对于其他示例是最小的;当采用噪音过滤后,聚类性能急剧上升,示例5-8尤其明显。

Claims (1)

1.一种基于模式挖掘的噪音数据过滤方法,其特征在于该方法首先建立由词袋数据集D构成的预处理数据结构FP树,该FP树包含了词袋数据集及其相应的事物数据集;其次,根据FP-2INF算法,最终将所有2-项集兴趣模式添加到兴趣模式集L中,完成噪音数据过滤;具体步骤如下:
1)预处理输入数据集;输入数据由二元组<Word_ID, Frequency>的词袋数据集组成的Word_ID-Instance矩阵,该矩阵每一行由Word_ID及其相关的实例数据构成,进而转化为构建FP树的事务数据集;
2)根据预处理的数据集,通过频繁集中频率降序的顺序建立FP树,设立基于2-项集余弦相似度兴趣模式噪音数据挖掘的参数min_suppmin_cos
3)使用算法FP-2INF,将FP树分成前缀路径FP树P和多缀路径FP树Q,算法开始试图寻找单路径树,遍历单路径树P上的任意2-项集βα,如果满足cos(βα)≥min_cos兴趣模式,则将其添加至兴趣模式集L中;在多缀路径树Q中,对路径上的任意元素:若为单项集,建立条件模式基及条件FP树Treeβ,对非空的FP树Treeβ继续FP-2INF迭代;否则,对满足2-项集模式且符合余弦相似度条件的2-项集添加至兴趣模式集L中;
4)根据FP-2INF返回的2-项集余弦相似度兴趣模式,比较数据集D和模式集L中的数据;对于任意数据                                                
Figure 475537DEST_PATH_IMAGE001
而言,如果存在
Figure 392677DEST_PATH_IMAGE002
Figure 172414DEST_PATH_IMAGE001
即为被兴趣模式过滤的噪音数据,完成噪音数据过滤。
CN201210084722.0A 2012-03-28 2012-03-28 一种基于模式挖掘的噪音数据过滤方法 Active CN102637208B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210084722.0A CN102637208B (zh) 2012-03-28 2012-03-28 一种基于模式挖掘的噪音数据过滤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210084722.0A CN102637208B (zh) 2012-03-28 2012-03-28 一种基于模式挖掘的噪音数据过滤方法

Publications (2)

Publication Number Publication Date
CN102637208A true CN102637208A (zh) 2012-08-15
CN102637208B CN102637208B (zh) 2013-10-30

Family

ID=46621602

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210084722.0A Active CN102637208B (zh) 2012-03-28 2012-03-28 一种基于模式挖掘的噪音数据过滤方法

Country Status (1)

Country Link
CN (1) CN102637208B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105493096A (zh) * 2013-08-28 2016-04-13 慧与发展有限责任合伙企业 分布式模式发现
US9734179B2 (en) 2014-05-07 2017-08-15 Sas Institute Inc. Contingency table generation
CN107045513A (zh) * 2016-02-05 2017-08-15 北京迅奥科技有限公司 网页标题去噪
CN107135663A (zh) * 2014-11-05 2017-09-05 起元技术有限责任公司 影响分析
CN107220483A (zh) * 2017-05-09 2017-09-29 西北大学 一种多元时序数据的模式预测方法
WO2019178733A1 (zh) * 2018-03-20 2019-09-26 深圳大学 大规模数据集的频繁项集挖掘方法、装置、设备及介质
CN111523710A (zh) * 2020-04-10 2020-08-11 三峡大学 基于pso-lssvm在线学习的电力设备温度预测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030208488A1 (en) * 2000-09-20 2003-11-06 North Dakota State University System and method for organizing, compressing and structuring data for data mining readiness
CN101976307A (zh) * 2010-11-05 2011-02-16 东华大学 印染流程污水监测指标时间约束关联规则挖掘算法
CN102184210A (zh) * 2011-04-29 2011-09-14 北京理工大学 一种层叠决策树构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030208488A1 (en) * 2000-09-20 2003-11-06 North Dakota State University System and method for organizing, compressing and structuring data for data mining readiness
CN101976307A (zh) * 2010-11-05 2011-02-16 东华大学 印染流程污水监测指标时间约束关联规则挖掘算法
CN102184210A (zh) * 2011-04-29 2011-09-14 北京理工大学 一种层叠决策树构建方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105493096A (zh) * 2013-08-28 2016-04-13 慧与发展有限责任合伙企业 分布式模式发现
US9734179B2 (en) 2014-05-07 2017-08-15 Sas Institute Inc. Contingency table generation
CN107135663A (zh) * 2014-11-05 2017-09-05 起元技术有限责任公司 影响分析
CN107135663B (zh) * 2014-11-05 2021-06-22 起元技术有限责任公司 影响分析
US11475023B2 (en) 2014-11-05 2022-10-18 Ab Initio Technology Llc Impact analysis
CN107045513A (zh) * 2016-02-05 2017-08-15 北京迅奥科技有限公司 网页标题去噪
CN107220483A (zh) * 2017-05-09 2017-09-29 西北大学 一种多元时序数据的模式预测方法
WO2019178733A1 (zh) * 2018-03-20 2019-09-26 深圳大学 大规模数据集的频繁项集挖掘方法、装置、设备及介质
CN111523710A (zh) * 2020-04-10 2020-08-11 三峡大学 基于pso-lssvm在线学习的电力设备温度预测方法

Also Published As

Publication number Publication date
CN102637208B (zh) 2013-10-30

Similar Documents

Publication Publication Date Title
CN102637208B (zh) 一种基于模式挖掘的噪音数据过滤方法
CN106156286B (zh) 面向专业文献知识实体的类型抽取系统及方法
CN109710701A (zh) 一种用于公共安全领域大数据知识图谱的自动化构建方法
CN104504047B (zh) 一种基于双层数据库的固体矿产资源储量估算系统
CN106960006A (zh) 一种不同轨迹间相似度度量系统及其度量方法
CN110297931A (zh) 一种图像检索方法
CN101667201A (zh) 基于树合并的Deep Web查询接口集成方法
CN106294715A (zh) 一种基于属性约简的关联规则挖掘方法及装置
Winkler Approximate string comparator search strategies for very large administrative lists
CN102306177B (zh) 一种多策略组合的本体或实例匹配方法
CN104636408A (zh) 基于用户生成内容的新闻认证预警方法及系统
CN109828997A (zh) 一种大学生行为数据分析及学业预警方法
CN105138538A (zh) 一种面向跨领域知识发现的主题挖掘方法
CN110469299A (zh) 一种采油井注水开发见效效果评价方法
CN102521325B (zh) 基于频繁关联标签序列的xml结构相似度度量方法
CN105677757A (zh) 一种基于双缀过滤的大数据相似性连接方法
CN105631465A (zh) 一种基于密度峰值的高效层次聚类方法
CN103440328A (zh) 一种基于鼠标行为的用户分类方法
CN105930465A (zh) 一种数据挖掘处理方法
CN103020283A (zh) 一种基于背景知识的动态重构的语义检索方法
CN116401311B (zh) 一种基于gis的三维可视化数据管理系统及方法
CN104636324B (zh) 话题溯源方法和系统
CN110046265B (zh) 一种基于双层索引的子图查询方法
CN104573080A (zh) 一种基于事务二进制的约束频繁项集挖掘方法
CN106952198A (zh) 一种基于Apriori算法的学生就业数据分析方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20120815

Assignee: Jiangsu Yunrun Meat Ware Co., Ltd.

Assignor: Nanjing University of Finance and Economics

Contract record no.: 2016320000038

Denomination of invention: Method for filtering noise data based on pattern mining

Granted publication date: 20131030

License type: Exclusive License

Record date: 20160229

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
EC01 Cancellation of recordation of patent licensing contract
EC01 Cancellation of recordation of patent licensing contract

Assignee: Jiangsu Yunrun Meat Ware Co., Ltd.

Assignor: Nanjing University of Finance and Economics

Contract record no.: 2016320000038

Date of cancellation: 20170123

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201204

Address after: 210000 No. 20 West Beijing Road, Jiangsu, Nanjing

Patentee after: STATE GRID JIANGSU ELECTRIC POWER Co.,Ltd. INFORMATION & TELECOMMUNICATION BRANCH

Address before: 210003 No. 128 North Railway Street, Jiangsu, Nanjing

Patentee before: NANJING University OF FINANCE AND ECONOMICS