CN102637208A

CN102637208A - 一种基于模式挖掘的噪音数据过滤方法

Info

Publication number: CN102637208A
Application number: CN2012100847220A
Authority: CN
Inventors: 曹杰; 伍之昂; 李秀怡; 毛波; 杨风召
Original assignee: Nanjing University of Finance and Economics
Current assignee: Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2012-03-28
Filing date: 2012-03-28
Publication date: 2012-08-15
Anticipated expiration: 2032-03-28
Also published as: CN102637208B

Abstract

本发明公开了一种基于模式挖掘的噪音数据过滤方法，该方法首先建立由词袋数据集D构成的预处理数据结构FP树，该FP树包含了词袋数据集及其相应的事物数据集；其次，根据FP-2INF算法，最终将所有2-项集兴趣模式添加到兴趣模式集L中，完成噪音数据过滤。本发明根据兴趣度指标条件，将兴趣度指标直接进行剪枝，一步到位地挖掘出兴趣模式，有效实现噪音数据过滤，获得高质量数据，提高了数据的正确性、一致性。

Description

一种基于模式挖掘的噪音数据过滤方法

技术领域

本发明涉及一种数据处理方法，具体地说是一种基于模式挖掘的噪音数据过滤方法。

背景技术

数据质量指数据满足明确或隐含需求程度的指标，是对于现实世界的真实写照。数据质量问题不仅仅指出现不正确的数据还指数据不一致性问题，随着数据量的增加，数据的内部一致性问题变得极为重要，是广泛存在于各学科数据使用中的一个主题。噪声作为测量误差的随机部分，它可能涉及到值的失真或加入了伪造的对象数据。

关联分析作为数挖掘中的核心问题之一，用于寻找给定数据记录集中数据项间隐藏的关联关系及描述数据间有意义的联系，对于关联规则挖掘往往转化为基于支持度-置信度框架的频繁模式挖掘，但是，频繁模式往往不是真正用户感兴趣的模式，所以，兴趣模式挖掘的研究和应用得到人们的重视，在购物篮事物(market basket transaction)、生物信息学、公共健康及Web挖掘中等领域有着广泛的应用。

设数据集D={I1,I2,...,Ii...,In}由n个事务构成，对于每一个去除词频的实例看作一个事务Ii={w ⁱ 1,w ⁱ 2,...,w ⁱ |Ii|}。设L={p1,p2,...,pk}表示兴趣模式集合，若实例Ii中不包含任何兴趣模式，即( )，则实例Ii为数据集的噪音数据。为此，需要通过去除D中所有噪音实例的噪音过滤获得高质量数据以确保数据的正确性、一致性。

发明内容

为了克服现有技术中采用频繁模式挖掘噪音数据存在的问题，本发明的目的是提供一种基于模式挖掘的噪音数据过滤方法。该方法根据兴趣度指标条件，将兴趣度指标直接进行剪枝，一步到位地挖掘出兴趣模式，有效实现噪音数据过滤，获得高质量数据，提高了数据的正确性、一致性。

本发明的目的是通过以下技术方案来实现的：

一种基于模式挖掘的噪音数据过滤方法，其特征在于该方法首先建立由词袋数据集D构成的预处理数据结构FP树，该FP树包含了词袋数据集及其相应的事物数据集；其次，根据FP-2INF算法，最终将所有2-项集兴趣模式添加到兴趣模式集L中，完成噪音数据过滤；具体步骤如下：

1）预处理输入数据集；输入数据由二元组<Word_ID, Frequency>的词袋数据集组成的Word_ID-Instance矩阵，该矩阵每一行由Word_ID及其相关的实例数据构成,进而转化为构建FP树的事务数据集；

2）根据预处理的数据集，通过频繁集中频率降序的顺序建立FP树，设立基于2-项集余弦相似度兴趣模式噪音数据挖掘的参数min_supp、min_cos；

3）使用算法FP-2INF，将FP树分成前缀路径FP树P和多缀路径FP树Q，算法开始试图寻找单路径树，遍历单路径树P上的任意2-项集β∪α，如果满足cos(β∪α)≥min_cos兴趣模式，则将其添加至兴趣模式集L中；在多缀路径树Q中，对路径上的任意元素：若为单项集，建立条件模式基及条件FP树Treeβ，对非空的FP树Treeβ继续FP-2INF迭代；否则，对满足2-项集模式且符合余弦相似度条件的2-项集添加至兴趣模式集L中；

4）根据FP-2INF返回的2-项集余弦相似度兴趣模式，比较数据集D和模式集L中的数据；对于任意数据

而言，如果存在

则

即为被兴趣模式过滤的噪音数据，完成噪音数据过滤。

本发明的初始输入是数据集合D、D上构建的FP树，及阈值min_supp、min_cos。由兴趣度评估关联规则的定义，潜在兴趣模式的最小长度为2。对于D中的实例Ii，为了能够证明当存在一个k-项集(k>2)的兴趣模式下而不包含任意2-项集兴趣模式的情况存在，进而从很大程度上简化兴趣模式发现。本发明首先引入噪音数据过滤适用的条件及度量方法构建FP树，在此基础上通过定理证明了对于满足余弦相似度度量条件的2-项集调用FP-2INF( FP -Growth based 2-Itemsets Noise Filter)算法可以有效达到噪音数据过滤的目的。

为了验证噪音数据过滤的高效性，本发明使用了来自Flickr的图像数据集Oxford_5K。该数据集由标注了11类不同牛津地标的5060张图片组成，由含有1M属性的词袋表示，特征值即为视觉词的出现频率。去除出现频率不足3次的属性，最终获得由658346个特征的数据集，其中数据密度0.0228%，噪音91.58%。

本发明根据兴趣度指标条件，将兴趣度指标直接进行剪枝，一步到位地挖掘出兴趣模式，有效实现噪音数据过滤，获得高质量数据，提高了数据的正确性、一致性。

附图说明

图1是本发明具体的流程图。

图2是不同参数设置情况下噪音过滤前后聚类性能对比图。

具体实施方式

一种本发明所述的基于模式挖掘的噪音数据过滤方法，该方法首先建立由词袋数据集D构成的预处理数据结构FP树，该FP树包含了词袋数据集及其相应的事物数据集；其次，根据FP-2INF算法，最终将所有2-项集兴趣模式添加到兴趣模式集L中，完成噪音数据过滤；图1是本发明具体的流程图，具体步骤如下：

而言，如果存在则即为被兴趣模式过滤的噪音数据，完成噪音数据过滤。

兴趣度指标条件如下：

为了揭示对2-项集兴趣模式具有足够的噪音过滤能力，给出以下两个满足度量的条件。对于所有满足条件1或条件2的指标都可以作为兴趣度衡量指标，同时，由于余弦相似度很好的满足了条件反单调性、交叉支持等性质，将选用余弦度量作为噪音数据过滤的方法。

条件1：令V是项的集合，J=2 ^V是V的幂集。对于兴趣度量f ，如果

Figure 2012100847220100002DEST_PATH_IMAGE005

，则(Y∈L)→(X∈L)。

这表明度量f满足反单调性，从而有助于修剪无兴趣候选项的超集。

条件2：令V是项的集合，J=2 ^V是V的幂集。对于兴趣度量f ，如果

,则(Y∈L)→(X∈L)。

其中，σ(w)是数据集D上的支持度(support)，度量f满足条件反单调性质。鉴于余弦度量方法很好的满足了以上性质，本发明主要采用余弦度量方法的噪音数据过滤。证明如定理1所示：

定理1：设k-项集(k≥2)模式p={w1,w2,..,wk}，则关于p的cosine度量如公式(1)所示满足条件2。

Figure 2012100847220100002DEST_PATH_IMAGE007

(1)

证明：设k-项集模式X={w1,w2,..,wk}及由其超集Y={ w1,w2,..,wk,wk+1,…,wk+m}构成的(k+m)-项集(m≥1)。由条件2可知：

。

也即：cos(X)≥cos(Y)，得证。

FP-2INF算法如下：

FP树通过频繁集中频率降序的顺序添加兴趣模式中的每一个事务pi构成，设FP树中的路径pathi={root, w ⁱ 1,w ⁱ 2,...,w ⁱ k}，则σ(w ⁱ 1)≥σ(w ⁱ 2) ≥... ≥σ(w ⁱ k)。由条件2简化2-项集兴趣模式，然后利用支持度的反单调性以及余弦相似度的条件反单调性一步到位进行兴趣模式的挖掘。由于本发明只要求对2-项集兴趣模式挖掘，且对FP树中满足支持度条件和余弦相似度条件的2-项集双剪枝操作，所以比传统先对满足支持度条件剪枝，进而在所得到频繁模式基础上做兴趣度分析的方法而言本发明速度更快、效率更高。定理2证明了本发明对满足cosine度量条件的2-项集可以有效达到噪音数据过滤的目的。

定理2：FP-2INF算法仅需挖掘满足以下条件的2-项集模式：对于2-项集p={wi,wj}，若满足支持度

Figure 2012100847220100002DEST_PATH_IMAGE011

≥min_supp且cosine≥min_cos，如果可以将所有的2-项集兴趣模式添加到L中，则满足了噪音数据过滤要求。

证明：设2-项集模式X={wi,wj}及以{wi,wj}结尾的k-项集模式Y={w1,...,wk-2,wi,wj}，根据条件1和2可得：σ(X)≥σ(Y)、cos(X)≥cos(Y)。所以，当Y满足阈值加入L时，X同时也存在于L中，即如果一个实例包括Y，这个实例必定也包括X。所以只需添加2-项集兴趣模式到L就可过滤噪音数据。

明为了验证算法的高效性，使用了来自Flickr的图像数据集Oxford_5K。该数据集由标注了11类不同牛津地标的5060张图片组成，由含有1M属性的词袋表示，特征值即为视觉词的出现频率。去除出现频率不足3次的属性，最终获得由658346个特征的数据集，其中数据密度0.0228%，噪音91.58%。

为了评估本文所提出算法的有效性，首先在不同参数设置下使用本发明过滤方法得到剩余图片的数及在Oxford_5K中标注“Good”或“OK”的清晰图片数，其中，“Good”表示图像清晰可见，“OK”表示图像超过25％的部分清晰可见，结果如表1所示。在示例1中，当没有过滤时显示剩余图片5060张图片及标注清晰图片568张，随着参数阈值(min_supp，min_cos)的持续增长，2-项集模式、剩余图片及清晰图片也稳步增长。特别地，在示例8中本发明过滤了将近82.5%的噪音图片。

表1. 不同参数设置下的结果

Figure 2012100847220100002DEST_PATH_IMAGE013

在以上8种不同参数设置的基础上使用CLUTO考虑图片中标注的地表对其进行(K=11)聚类，最后通过NMI(Normalized Mutual Information)方法(公式(2)所示)评估本发明下的聚类性能。

(2)

其中，X表示聚类簇向量，Y表示标记向量。NMI值处于[0,1]区间内，值越高表示聚类的效果越好。

图2描述了通过本发明噪音过滤前后在表1中8种不同参数设置情况下在NMI上的聚类性能对比图。由于大规模噪音的存在严重影响了K均值质心计算从而最终导致聚类结果偏差，示例1没有采用噪音过滤时，NMI值相对于其他示例是最小的；当采用噪音过滤后，聚类性能急剧上升，示例5-8尤其明显。

Claims

1.一种基于模式挖掘的噪音数据过滤方法，其特征在于该方法首先建立由词袋数据集D构成的预处理数据结构FP树，该FP树包含了词袋数据集及其相应的事物数据集；其次，根据FP-2INF算法，最终将所有2-项集兴趣模式添加到兴趣模式集L中，完成噪音数据过滤；具体步骤如下：

而言，如果存在

则

即为被兴趣模式过滤的噪音数据，完成噪音数据过滤。