CN101571868A - 一种基于信息瓶颈理论的文档聚类方法 - Google Patents

一种基于信息瓶颈理论的文档聚类方法 Download PDF

Info

Publication number
CN101571868A
CN101571868A CNA2009100848414A CN200910084841A CN101571868A CN 101571868 A CN101571868 A CN 101571868A CN A2009100848414 A CNA2009100848414 A CN A2009100848414A CN 200910084841 A CN200910084841 A CN 200910084841A CN 101571868 A CN101571868 A CN 101571868A
Authority
CN
China
Prior art keywords
bunch
document
cluster
clustering
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2009100848414A
Other languages
English (en)
Inventor
刘永利
熊璋
任捷
欧阳元新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CNA2009100848414A priority Critical patent/CN101571868A/zh
Publication of CN101571868A publication Critical patent/CN101571868A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于信息瓶颈理论的文档聚类方法,该方法首先利用信息瓶颈理论计算文档之间的相似性,采用增量式的聚类算法对文档进行聚类,并对聚类结果进行最小共有信息损失计算,如果最小共有信息损失满足规定阈值,则将该文档合并到距离最近簇,否则新建一个簇存放该文档;为了提高聚类准确性,采用序列聚类方法对聚类结果进行调整,在调整过程中,对每个文档依次进行取样,并规定对所有文档的取样次数来控制调整的强度。这种调整策略涵盖了所有的样本文档,有助于提高聚类的准确率。

Description

一种基于信息瓶颈理论的文档聚类方法
技术领域
本发明涉及一种对电子文档进行的聚类方法。更特别地说,是指一种基于信息瓶颈理论的文档聚类方法。
背景技术
Internet中信息的爆炸式增长为信息的管理和使用带来了不便。为了揭示隐藏在Web数据之后具有潜在价值的信息或结构,近年来Web挖掘技术取得了较快的发展和广泛的应用。文档聚类是Web挖掘领域中最重要的工具之一,其目的是将一个文档集合分成若干个簇,要求同一个簇内的文本内容具有较高的相似度,而不同簇之间的相似度尽可能小。每个聚类过程主要包括文本内容相似度的计算和文本聚类方法两个部分。
大多数的聚类过程都是以每对文档之间的相似度(或距离)为基础。由于对每对文档之间的相似度计算的选择存在较大的随意性,并且相似度计算本身对文档数据的具体描述非常敏感,所以基于相似度的聚类方法有时并不能准确地反映文档之间的关系。
影响聚类结果的另一个因素是聚类方法。聚类方法体现了数据在聚类中的积聚规则以及应用这些规则的方法。为了满足大型数据集和在线应用对时间复杂度的要求,增量聚类方法已成为一个研究热点。增量聚类的时间复杂度较低,但往往与文档序列的顺序紧密相关,不同的顺序可能导致不同的聚类结果,因此聚类的准确性较难保证。
发明内容
为了保证同一文本在聚类过程中的聚类准确性,本发明提出一种基于信息瓶颈理论的文档聚类方法,该方法以信息瓶颈理论为基础,使用增量聚类方法对文档进行聚类,在增量聚类过程完成之后,采用序列聚类方法对聚类结果进行调整,避开了各自的缺点,提高了增量聚类结果的准确度,实现了针对大规模文档的聚类,具有较高的准确率和效率。
本发明的一种基于信息瓶颈理论的文档聚类方法,该方法一方面利用信息瓶颈理论计算文档之间的相似度d,另一方面利用增量式的聚类方法对文档进行聚类获得聚类结果C;在聚类过程中的处理步骤有:
步骤一,采用建簇方法对待聚类文档T={t1,t2,t3,……,tm}中的全部文档进行簇处理,从而获得一个簇集合CT={ct1,ct2,ct3,……,ctm};
第一文档t1的簇记为第一簇ct1
第二文档t2的簇记为第二簇ct2
第三文档t3的簇记为第三簇ct3
……;
第m文档tm的簇记为第m簇ctm
步骤二,将第二文档t2与簇集合CT进行最小共有信息损失的计算,如果最小共有信息损失满足规定阈值ε=α×aver,则将该第二文档t2合并到簇集合CT中相似度最高的哪个簇中,否则新建一个簇ci来存放该第二文档t2
步骤三,采用与步骤二相同的方式对第三文档t3、……、第m文档tm进行聚类处理,得到聚类结果C=c1,……,cn,新建簇ci属于聚类结果C中;
步骤四,对聚类结果C采用序列聚类方法进行调整,得到最终的聚类结果Cfinal,该最终聚类结果Cfinal能够将所有待聚类文档T依据相似度d自动化分为若干个簇cn,并保证簇内的相似度尽可能大,簇间的相似度尽可能小。
本发明文档聚类方法的优点在于:
1.首先将信息瓶颈理论应用到聚类领域中计算文档之间的“相似度”关系,得到了很好的聚类效果。
2.使用序列聚类算法对第一次增量聚类的结果进行调整,在调整过程中,对每个文档依次进行取样,并规定对所有文档的取样次数来控制调整的强度。这种调整策略涵盖了所有的样本文档,有助于提高聚类的准确率。这种序列-增量聚类组合摒弃了传统SIB算法每次从任意簇中选择任意一个文档作为调整对象,使用两个阈值maxL和ε控制调整的强度的做法,成功避免了这种基于随机取样的调整方式对聚类结果带来的不确定性。
3.本发明以增量聚类算法和序列算法的组合,能够满足大型数据集和在线应用对时间复杂度的要求,因而和现有技术相比,具有原理简单、准确率高、速度快、易于实现等优点。
具体实施方式
本发明是一种利用信息瓶颈理论计算文档之间的“相似性”关系,并采用增量聚类算法对文档进行聚类,保证了本方法拥有较低的时间复杂度,适用于对时间性能要求较高的应用,同时通过一种序列聚类算法对增量聚类结果进行调整,保证聚类过程能够获得较高的准确度。经过大量的实验表明,本方法与K-Means算法和AIB算法等经典聚类算法相比性能更优。
本发明是一种基于信息瓶颈理论的文档聚类方法,该方法一方面利用信息瓶颈理论计算文档之间的相似度d,另一方面利用增量式的聚类方法对文档进行聚类获得聚类结果C;在聚类过程中的处理步骤有:
步骤一,采用建簇方法对待聚类文档T(T={t1,t2,t3,……,tm})中的全部文档进行簇处理,从而获得一个簇集合CT(CT={ct1,ct2,ct3,……,ctm});
第一文档t1的簇记为第一簇ct1
第二文档t2的簇记为第二簇ct2
第三文档t3的簇记为第三簇ct3
……;
第m文档tm的簇记为第m簇ctm
步骤二,将第二文档t2与簇集合CT进行最小共有信息损失的计算,如果最小共有信息损失满足规定阈值ε=α×aver,则将该第二文档t2合并到簇集合CT中相似度最高的哪个簇中,否则新建一个簇ci来存放该第二文档t2
在本发明中,本聚类方法以共有信息损失作为文档之间关系的衡量标准,因此不能简单地按照通常聚类算法中的相似度阈值选择方法为本方法选择阈值。本方法在增量聚类过程中给出了一种阈值设置方法,该方法维护一个最小值列表,并将每个文档与各簇比较时得到的最小共有信息损失动态添加到最小值列表中,计算最小值列表的算术平均值aver,将α×aver作为增量聚类过程的阈值ε,其中a为一个调节系数。由于aver的值反映了文档集合最小共有信息损失的水平,而且随着聚类过程的进行,这种反映能力逐渐精确,因此比较适合充当聚类过程的阈值。
步骤三,采用与步骤二相同的方式对第三文档t3、……、第m文档tm进行聚类处理,得到聚类结果C(C=c1,……,cn),新建簇ci属于聚类结果C中;
步骤四,对聚类结果C采用序列聚类方法进行调整,得到最终的聚类结果Cfinal,该最终聚类结果Cfinal能够将所有待聚类文档T依据相似度d自动化分为若干个簇cn,并保证簇内的相似度尽可能大,簇间的相似度尽可能小。
在本发明中,信息瓶颈理论的基本思想来源于香农的信息率失真理论。信息率失真理论的核心是信息率失真函数,即给定信源x、信宿失真函数
Figure A20091008484100062
以及信源及信宿变量的出现概率p(x)与
Figure A20091008484100063
则用信宿位数D代表信源x的最小失真,并用下述率失真函数计算:
R ( D ) ≡ min { p ( x ^ | x ) | d ‾ ( x , x ^ ) ≤ D } I ( x , x ^ ) - - - ( 1 )
D表示信宿位数,
Figure A20091008484100065
表示给定信源x与信宿
Figure A20091008484100066
的公共信息,表示给定信源x与信宿的平均失真,则有:
d ‾ ( x , x ^ ) = Σ x , x ^ p ( x ) p ( x ^ | x ) d ( x , x ^ ) - - - ( 2 )
I ( x , x ^ ) = Σ x , x ^ p ( x ) p ( x ^ | x ) log p ( x ^ | x ) p ( x ^ ) - - - ( 3 )
信息理论对信息率失真理论做了进一步的延伸,其基本思想是给定待分类的样本空间X,特征空间Y,在预测样本空间分类的情况下,率失真函数为(其中,X、
Figure A200910084841000612
与Y相互独立):
R ( D ) ≡ min { p ( x ^ | x ) | d ‾ ( x , x ^ ) ≤ D } I ( X , Y ) - I ( X ^ , Y ) - - - ( 4 )
即在样本中寻找一种分类方式,使得在对应分类情况下,样本与特征之间的共有信息损失最少。具体在使用信息瓶颈理论进行聚类的过程中,相邻两个簇合并时所产生的共有信息损失记为:
d ( c 1 , c 2 ) = Σ y , i = 1,2 p ( c i , y ) log p ( y | c i ) p ( y | c i ∪ c 2 ) - - - ( 5 )
c1表示第一簇,c2表示第二簇,ci表示新建簇,y,i表示求和的参数,是一数学关系。
在增量聚类过程中,算法的每一次迭代都选择共有信息损失最小的两个簇进行合并,直到将所有的文档处理完毕。
本发明在增量聚类的过程完成之后,又采用了序列聚类算法对第一次的聚类结果进行调整。在调整过程中,对每个文档依次进行取样,并规定对所有文档的取样次数来控制调整的强度。这种调整策略涵盖了所有的样本文档,有助于提高聚类的准确率。避免了传统SIB算法每次从任意簇中选择任意一个文档作为调整对象对聚类结果产生的不确定性。

Claims (1)

1、一种基于信息瓶颈理论的文档聚类方法,其特征在于:该方法一方面利用信息瓶颈理论计算文档之间的相似度d,另一方面利用增量式的聚类方法对文档进行聚类获得聚类结果C;在聚类过程中的处理步骤有:
步骤一,采用建簇方法对待聚类文档T={t1,t2,t3,……,tm}中的全部文档进行簇处理,从而获得一个簇集合CT={ct1,ct2,ct3,……,ctm};
第一文档t1的簇记为第一簇ct1
第二文档t2的簇记为第一簇ct2
第三文档t3的簇记为第一簇ct3
……;
第m文档tm的簇记为第一簇ctm
步骤二,将第二文档t2与簇集合CT进行最小共有信息损失的计算,如果最小共有信息损失满足规定阈值ε=α×aver,则将该第二文档t2合并到簇集合CT中相似度最高的哪个簇中,否则新建一个簇ci来存放该第二文档t2
步骤三,采用与步骤二相同的方式对第三文档t3、……、第m文档tm进行聚类处理,得到聚类结果C=c1,……,cn,新建簇ci属于聚类结果C中;
步骤四,对聚类结果C采用序列聚类方法进行调整,得到最终的聚类结果Cfinal,该最终聚类结果Cfinal能够将所有待聚类文档T依据相似度d自动化分为若干个簇cn,并保证簇内的相似度尽可能大,簇间的相似度尽可能小。
CNA2009100848414A 2009-05-25 2009-05-25 一种基于信息瓶颈理论的文档聚类方法 Pending CN101571868A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2009100848414A CN101571868A (zh) 2009-05-25 2009-05-25 一种基于信息瓶颈理论的文档聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2009100848414A CN101571868A (zh) 2009-05-25 2009-05-25 一种基于信息瓶颈理论的文档聚类方法

Publications (1)

Publication Number Publication Date
CN101571868A true CN101571868A (zh) 2009-11-04

Family

ID=41231225

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2009100848414A Pending CN101571868A (zh) 2009-05-25 2009-05-25 一种基于信息瓶颈理论的文档聚类方法

Country Status (1)

Country Link
CN (1) CN101571868A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102110172A (zh) * 2011-03-31 2011-06-29 河南理工大学 分布式Web文档聚类系统
CN101763404B (zh) * 2009-12-10 2012-03-21 陕西鼎泰科技发展有限责任公司 基于模糊聚类的网络文本数据检测方法
CN103150335A (zh) * 2013-01-25 2013-06-12 河南理工大学 一种基于联合聚类的煤矿舆情监测系统
CN104899605A (zh) * 2015-06-17 2015-09-09 大连理工大学 一种基于自动编码机实现数据增量聚类的方法
WO2022053018A1 (zh) * 2020-09-10 2022-03-17 华为云计算技术有限公司 一种文本聚类系统、方法、装置、设备及介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763404B (zh) * 2009-12-10 2012-03-21 陕西鼎泰科技发展有限责任公司 基于模糊聚类的网络文本数据检测方法
CN102110172A (zh) * 2011-03-31 2011-06-29 河南理工大学 分布式Web文档聚类系统
CN103150335A (zh) * 2013-01-25 2013-06-12 河南理工大学 一种基于联合聚类的煤矿舆情监测系统
CN104899605A (zh) * 2015-06-17 2015-09-09 大连理工大学 一种基于自动编码机实现数据增量聚类的方法
WO2022053018A1 (zh) * 2020-09-10 2022-03-17 华为云计算技术有限公司 一种文本聚类系统、方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
Jumadi Dehotman Sitompul et al. Enhancement clustering evaluation result of davies-bouldin index with determining initial centroid of k-means algorithm
Lin et al. Lookahead strategies for sequential Monte Carlo
CN101488150B (zh) 一种实时多角度网络热点事件分析装置及分析方法
CN101571868A (zh) 一种基于信息瓶颈理论的文档聚类方法
CN105512311A (zh) 一种基于卡方统计的自适应特征选择方法
CN107562865A (zh) 基于Eclat的多元时间序列关联规则挖掘方法
Martino et al. A fast universal self-tuned sampler within Gibbs sampling
CN102750379B (zh) 一种基于过滤型的字符串快速匹配方法
CN103324628A (zh) 一种针对发布文本的行业分类方法和系统
CN107526975A (zh) 一种基于差分隐私保护决策树的方法
CN110782658A (zh) 一种基于LightGBM算法的交通量预测方法
CN103745482A (zh) 一种基于蝙蝠算法优化模糊熵的双阈值图像分割方法
CN103699678A (zh) 一种基于多阶段分层采样的层次聚类方法和系统
CN102521402B (zh) 文本过滤系统及方法
Hancer et al. A wrapper metaheuristic framework for handwritten signature verification
CN103020319A (zh) 一种实时移动空间关键字近似Top-k查询方法
Ma The Research of Stock Predictive Model based on the Combination of CART and DBSCAN
CN103838737A (zh) 一种提高向量距离分类质量的方法
Roeva et al. Hybrid bat algorithm for parameter identification of an e. coli cultivation process model
CN106776692A (zh) 一种基于预定义模式匹配的股票推荐选股方法
CN110334811A (zh) 基于贝叶斯网络的动态数据流分类方法
CN102110172B (zh) 一种分布式Web文档聚类方法
Benguigui et al. From lognormal distribution to power law: A new classification of the size distributions
Lee et al. Channel Shuffle Neural Architecture Search for Key Word Spotting
Hidouci Parabolic Threshold Discretization for Big Data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20091104