CN101571868A

CN101571868A - 一种基于信息瓶颈理论的文档聚类方法

Info

Publication number: CN101571868A
Application number: CNA2009100848414A
Authority: CN
Inventors: 刘永利; 熊璋; 任捷; 欧阳元新
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2009-05-25
Filing date: 2009-05-25
Publication date: 2009-11-04

Abstract

本发明公开了一种基于信息瓶颈理论的文档聚类方法，该方法首先利用信息瓶颈理论计算文档之间的相似性，采用增量式的聚类算法对文档进行聚类，并对聚类结果进行最小共有信息损失计算，如果最小共有信息损失满足规定阈值，则将该文档合并到距离最近簇，否则新建一个簇存放该文档；为了提高聚类准确性，采用序列聚类方法对聚类结果进行调整，在调整过程中，对每个文档依次进行取样，并规定对所有文档的取样次数来控制调整的强度。这种调整策略涵盖了所有的样本文档，有助于提高聚类的准确率。

Description

一种基于信息瓶颈理论的文档聚类方法

技术领域

本发明涉及一种对电子文档进行的聚类方法。更特别地说，是指一种基于信息瓶颈理论的文档聚类方法。

背景技术

Internet中信息的爆炸式增长为信息的管理和使用带来了不便。为了揭示隐藏在Web数据之后具有潜在价值的信息或结构，近年来Web挖掘技术取得了较快的发展和广泛的应用。文档聚类是Web挖掘领域中最重要的工具之一，其目的是将一个文档集合分成若干个簇，要求同一个簇内的文本内容具有较高的相似度，而不同簇之间的相似度尽可能小。每个聚类过程主要包括文本内容相似度的计算和文本聚类方法两个部分。

大多数的聚类过程都是以每对文档之间的相似度(或距离)为基础。由于对每对文档之间的相似度计算的选择存在较大的随意性，并且相似度计算本身对文档数据的具体描述非常敏感，所以基于相似度的聚类方法有时并不能准确地反映文档之间的关系。

影响聚类结果的另一个因素是聚类方法。聚类方法体现了数据在聚类中的积聚规则以及应用这些规则的方法。为了满足大型数据集和在线应用对时间复杂度的要求，增量聚类方法已成为一个研究热点。增量聚类的时间复杂度较低，但往往与文档序列的顺序紧密相关，不同的顺序可能导致不同的聚类结果，因此聚类的准确性较难保证。

发明内容

为了保证同一文本在聚类过程中的聚类准确性，本发明提出一种基于信息瓶颈理论的文档聚类方法，该方法以信息瓶颈理论为基础，使用增量聚类方法对文档进行聚类，在增量聚类过程完成之后，采用序列聚类方法对聚类结果进行调整，避开了各自的缺点，提高了增量聚类结果的准确度，实现了针对大规模文档的聚类，具有较高的准确率和效率。

本发明的一种基于信息瓶颈理论的文档聚类方法，该方法一方面利用信息瓶颈理论计算文档之间的相似度d，另一方面利用增量式的聚类方法对文档进行聚类获得聚类结果C；在聚类过程中的处理步骤有：

步骤一，采用建簇方法对待聚类文档T＝{t₁，t₂，t₃，……，t_m}中的全部文档进行簇处理，从而获得一个簇集合CT＝{ct₁，ct₂，ct₃，……，ct_m}；

第一文档t₁的簇记为第一簇ct₁；

第二文档t₂的簇记为第二簇ct₂；

第三文档t₃的簇记为第三簇ct₃；

……；

第m文档t_m的簇记为第m簇ct_m；

步骤二，将第二文档t₂与簇集合CT进行最小共有信息损失的计算，如果最小共有信息损失满足规定阈值ε＝α×aver，则将该第二文档t₂合并到簇集合CT中相似度最高的哪个簇中，否则新建一个簇c_i来存放该第二文档t₂；

步骤三，采用与步骤二相同的方式对第三文档t₃、……、第m文档t_m进行聚类处理，得到聚类结果C＝c₁，……，c_n，新建簇c_i属于聚类结果C中；

步骤四，对聚类结果C采用序列聚类方法进行调整，得到最终的聚类结果C_final，该最终聚类结果C_final能够将所有待聚类文档T依据相似度d自动化分为若干个簇c_n，并保证簇内的相似度尽可能大，簇间的相似度尽可能小。

本发明文档聚类方法的优点在于：

1.首先将信息瓶颈理论应用到聚类领域中计算文档之间的“相似度”关系，得到了很好的聚类效果。

2.使用序列聚类算法对第一次增量聚类的结果进行调整，在调整过程中，对每个文档依次进行取样，并规定对所有文档的取样次数来控制调整的强度。这种调整策略涵盖了所有的样本文档，有助于提高聚类的准确率。这种序列-增量聚类组合摒弃了传统SIB算法每次从任意簇中选择任意一个文档作为调整对象，使用两个阈值maxL和ε控制调整的强度的做法，成功避免了这种基于随机取样的调整方式对聚类结果带来的不确定性。

3.本发明以增量聚类算法和序列算法的组合，能够满足大型数据集和在线应用对时间复杂度的要求，因而和现有技术相比，具有原理简单、准确率高、速度快、易于实现等优点。

具体实施方式

本发明是一种利用信息瓶颈理论计算文档之间的“相似性”关系，并采用增量聚类算法对文档进行聚类，保证了本方法拥有较低的时间复杂度，适用于对时间性能要求较高的应用，同时通过一种序列聚类算法对增量聚类结果进行调整，保证聚类过程能够获得较高的准确度。经过大量的实验表明，本方法与K-Means算法和AIB算法等经典聚类算法相比性能更优。

本发明是一种基于信息瓶颈理论的文档聚类方法，该方法一方面利用信息瓶颈理论计算文档之间的相似度d，另一方面利用增量式的聚类方法对文档进行聚类获得聚类结果C；在聚类过程中的处理步骤有：

步骤一，采用建簇方法对待聚类文档T(T＝{t₁，t₂，t₃，……，t_m})中的全部文档进行簇处理，从而获得一个簇集合CT(CT＝{ct₁，ct₂，ct₃，……，ct_m})；

第一文档t₁的簇记为第一簇ct₁；

第二文档t₂的簇记为第二簇ct₂；

第三文档t₃的簇记为第三簇ct₃；

……；

第m文档t_m的簇记为第m簇ct_m；

在本发明中，本聚类方法以共有信息损失作为文档之间关系的衡量标准，因此不能简单地按照通常聚类算法中的相似度阈值选择方法为本方法选择阈值。本方法在增量聚类过程中给出了一种阈值设置方法，该方法维护一个最小值列表，并将每个文档与各簇比较时得到的最小共有信息损失动态添加到最小值列表中，计算最小值列表的算术平均值aver，将α×aver作为增量聚类过程的阈值ε，其中a为一个调节系数。由于aver的值反映了文档集合最小共有信息损失的水平，而且随着聚类过程的进行，这种反映能力逐渐精确，因此比较适合充当聚类过程的阈值。

步骤三，采用与步骤二相同的方式对第三文档t₃、……、第m文档t_m进行聚类处理，得到聚类结果C(C＝c₁，……，c_n)，新建簇c_i属于聚类结果C中；

在本发明中，信息瓶颈理论的基本思想来源于香农的信息率失真理论。信息率失真理论的核心是信息率失真函数，即给定信源x、信宿失真函数

以及信源及信宿变量的出现概率p(x)与

则用信宿位数D代表信源x的最小失真，并用下述率失真函数计算：

R (D) &equiv; \min_{{p (\hat{x} | x) | \overset{&OverBar;}{d} (x, \hat{x}) \leq D}} I (x, \hat{x}) - - - (1)

D表示信宿位数，

表示给定信源x与信宿

的公共信息，表示给定信源x与信宿的平均失真，则有：

\overset{&OverBar;}{d} (x, \hat{x}) = Σ_{x, \hat{x}} p (x) p (\hat{x} | x) d (x, \hat{x}) - - - (2)

I (x, \hat{x}) = \underset{x, \hat{x}}{Σ} p (x) p (\hat{x} | x) \log \frac{p (\hat{x} | x)}{p (\hat{x})} - - - (3)

信息理论对信息率失真理论做了进一步的延伸，其基本思想是给定待分类的样本空间X，特征空间Y，在预测样本空间分类的情况下，率失真函数为(其中，X、

与Y相互独立)：

R (D) &equiv; \min_{{p (\hat{x} | x) | \overset{&OverBar;}{d} (x, \hat{x}) \leq D}} I (X, Y) - I (\hat{X}, Y) - - - (4)

即在样本中寻找一种分类方式，使得在对应分类情况下，样本与特征之间的共有信息损失最少。具体在使用信息瓶颈理论进行聚类的过程中，相邻两个簇合并时所产生的共有信息损失记为：

d (c_{1}, c_{2}) = \underset{y, i = 1,2}{Σ} p (c_{i}, y) \log \frac{p (y | c_{i})}{p (y | c_{i} \cup c_{2})} - - - (5)

c₁表示第一簇，c₂表示第二簇，c_i表示新建簇，y，i表示求和的参数，是一数学关系。

在增量聚类过程中，算法的每一次迭代都选择共有信息损失最小的两个簇进行合并，直到将所有的文档处理完毕。

本发明在增量聚类的过程完成之后，又采用了序列聚类算法对第一次的聚类结果进行调整。在调整过程中，对每个文档依次进行取样，并规定对所有文档的取样次数来控制调整的强度。这种调整策略涵盖了所有的样本文档，有助于提高聚类的准确率。避免了传统SIB算法每次从任意簇中选择任意一个文档作为调整对象对聚类结果产生的不确定性。

Claims

1、一种基于信息瓶颈理论的文档聚类方法，其特征在于：该方法一方面利用信息瓶颈理论计算文档之间的相似度d，另一方面利用增量式的聚类方法对文档进行聚类获得聚类结果C；在聚类过程中的处理步骤有：

第一文档t₁的簇记为第一簇ct₁；

第二文档t₂的簇记为第一簇ct₂；

第三文档t₃的簇记为第一簇ct₃；

……；

第m文档t_m的簇记为第一簇ct_m；