CN102110172B - 一种分布式Web文档聚类方法 - Google Patents

一种分布式Web文档聚类方法 Download PDF

Info

Publication number
CN102110172B
CN102110172B CN 201110083090 CN201110083090A CN102110172B CN 102110172 B CN102110172 B CN 102110172B CN 201110083090 CN201110083090 CN 201110083090 CN 201110083090 A CN201110083090 A CN 201110083090A CN 102110172 B CN102110172 B CN 102110172B
Authority
CN
China
Prior art keywords
bunch
centerdot
document
expression
cup
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 201110083090
Other languages
English (en)
Other versions
CN102110172A (zh
Inventor
刘永利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University of Technology
Original Assignee
Henan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University of Technology filed Critical Henan University of Technology
Priority to CN 201110083090 priority Critical patent/CN102110172B/zh
Publication of CN102110172A publication Critical patent/CN102110172A/zh
Application granted granted Critical
Publication of CN102110172B publication Critical patent/CN102110172B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本申请提出一个分布式Web文档聚类系统DCS(Distributed Clustering System),该系统采用的主要方法称之为DACWD(Distributed Approach to Clustering Web Documents)。DACWD方法的核心是一个基于信息瓶颈理论的文档聚类方法DCIB(Document Clustering using Information Bottleneck)。DACWD的局部聚类和全局聚类过程迭代使用了DCIB方法。

Description

一种分布式Web文档聚类方法
技术领域
本申请属于信息检索、数据挖掘、人工智能领域。
背景技术
为了揭示隐藏在Web数据之后具有潜在价值的信息或结构,近年来Web挖掘技术取得了较快的发展和广泛的应用。文档聚类是Web挖掘领域中最重要的工具之一,其目的是将一个文档集合分成若干个簇,要求同一个簇内的文本内容具有较高的相似度,而不同簇之间的相似度尽可能小。每个聚类过程主要包括相似度计算方法和聚类算法两个部分。
目前,研究者已经提出多种文档聚类算法,大致可分为4个类别,即层次化聚类算法、划分式聚类算法、基于密度和网格的聚类算法和其它聚类算法。这些聚类算法的研究主要是针对集中式数据源进行挖掘,即数据对象集中分布在同一个数据节点上。然而,在许多Web应用中,因为数据量庞大、访问效率等原因,不得不将数据分布在多个节点上,如众多站点为提高访问效率广泛采用了多镜像技术,使得数据对象分布在不同的镜像站点上。在这种应用环境中,必须将传统的聚类方法和分布式的策略相结合,即采用分布式聚类方法。分布式聚类方法通常包括两个步骤:①对各个节点的数据进行本地独立聚类(局部聚类),获得数据的局部模式;②将各节点的聚类结果进行合并(全局聚类),获得数据的全局模式。
发明内容
本申请提出一种分布式Web文档聚类方法DCS(Distributed Clustering System),该方法采用的主要方法称之为DACWD(Distributed Approach to Clustering Web Documents)。DACWD方法的核心是一个基于信息瓶颈理论的文档聚类方法DCIB(Document Clustering using Information Bottleneck)。DACWD的局部聚类和全局聚类过程迭代使用了DCIB方法。
附图说明
图1是DCS系统的聚类过程图。
具体实施方式
DCS系统的聚类过程如图1所示。首先使用DCIB方法对各个节点上的Web文档进行本地聚类,然后将各个节点的聚类结果集合起来作为数据对象,再次使用DCIB方法进行聚类。
具体实现步骤如下:
图1说明了DCS系统聚类的基本过程。该过程分为局部聚类和全局聚类两个阶段。在局部聚类阶段,各数据节点将各自节点上的文档数据使用DCIB方法进行独立聚类,聚类结果代表了该节点上文档的总体特征;在全局聚类阶段,将局部聚类阶段产生的聚类结果作为数据输入,再次使用DCIB方法进行聚类。
DCIB方法是一种基于信息瓶颈理论的文档聚类方法。该方法采用信息瓶颈理论度量文档之间的“相似”关系,并使用增量聚类算法对文档数据进行聚类,最后对聚类结果进行调整。这样的聚类过程一方面避免了因随机选用相似度计算方法所造成的误差;另一方面是所采用的增量方式保证了较高的聚类效率,能够满足对时间性能有较高要求的Web应用;同时,针对聚类结果的调整过程减轻了文档次序对增量过程造成的影响,提高了聚类的准确率。DCIB首先随机选取一个文档初始化为一个簇,然后依次处理每个文档直至文档处理完毕。处理过程中比较新文档与现存各个簇合并所产生的最小共有信息损失,如果最小共有信息损失满足规定阈值,则将该文档合并到“距离”最近簇,否则新建一个簇存放该文档。
DACWD方法的详细步骤为:
1.假设在一个分布式的环境中,Web文档分布在n个数据节点N1,N2,…,Nn上,各个节点上的文档数目分别为s1,s2,…,sn,节点Ni(1≤i≤n)上的文档表示为
Figure GSB00001010037200021
假设文档的特征词集合为{t1,t2,…,tm},其中m为特征词个数。
2.针对每个节点Ni(1≤i≤n),使用下述DCIB方法进行局部聚类
1)得到节点Ni(1≤i≤n)上各文档
Figure GSB00001010037200022
的向量表示形式。根据文档中特征词的分布情况,文档 d j i ( 1 ≤ i ≤ n , 1 ≤ j ≤ s i ) 的向量形式表示为
d → j i = { p ( t 1 | d j i ) , p ( t 2 | d j i ) , · · · , p ( t m | d j i ) }
其中,
Figure GSB00001010037200025
(其中1≤a≤m)表示文档
Figure GSB00001010037200026
中特征词ta出现的条件概率,其计算方法为
Figure GSB00001010037200027
Figure GSB00001010037200028
表示文档
Figure GSB00001010037200029
中特征词ta的出现次数。
2)将节点Ni(1≤i≤n)上的文档
Figure GSB000010100372000210
表示为一个集合
Figure GSB000010100372000211
从中随机取一个文档表示为
Figure GSB000010100372000212
将其初始化为一个簇,记为
Figure GSB000010100372000213
存放在簇集合Ci中,即
Figure GSB000010100372000214
同时将从Xi中删除。簇
Figure GSB000010100372000216
的向量形式表示为:
c → 0 i = { p ( t 1 | c 0 i ) , p ( t 2 | c 0 i ) , · · · , p ( t m | c 0 i ) } = { p ( t 1 | x 0 i ) , p ( t 2 | x 0 i ) , · · · , p ( t m | x 0 i ) }
其中,
Figure GSB000010100372000218
(1≤a≤m)表示簇
Figure GSB000010100372000219
中特征词ta出现的条件概率。
Figure GSB000010100372000220
(1≤a≤m)表示文档
Figure GSB000010100372000221
中特征词ta出现的条件概率。
3)从Xi中取一个文档xi,并将其初始化为一个簇
Figure GSB000010100372000222
从Ci中寻找簇ci,使得
Figure GSB000010100372000223
其中
Figure GSB000010100372000224
表示合并
Figure GSB000010100372000225
Figure GSB000010100372000226
两个簇时产生的共有信息损失,其计算方法如下:
D ( c e i , c f i ) = Σ u = e , f | c u i | | X i | Σ a = 1 m p ( t a | c u i ) log p ( t a | c u i ) p ( t a | c e i ∪ c f i )
其中,|Xi|表示集合Xi中文档的个数,
Figure GSB000010100372000228
表示合并
Figure GSB000010100372000229
Figure GSB000010100372000230
两个簇所得到的新簇中特征词ta出现的条件概率,
p ( t a | c e i ∪ c f i ) = | c e i | | c e i ∪ c f i | p ( t a | c e i ) + | c f i | | c e i ∪ c f i | p ( t a | c f i )
得到ci之后,若
Figure GSB00001010037200031
Figure GSB00001010037200032
的值加入到最小值列表Li中,将xi添加到簇ci中;否则,为xi新建一个簇保存,并将新建的簇添加到集合Ci中,其中αi为调节系数,averi为最小值列表Li中所有最小值的算术平均,Li在初始时为空。
4)若Xi中还有文档未处理,则重复步骤3。
5)对上述聚类结果进行调整。依次从Ci的每个簇中取每个文档x构成一个新的簇{x},根据共有信息损失最小原则,将{x}合并到Ci包含的一个簇中,从而完成对聚类结果的一次调整。将上述针对调整过程循环sum次后,聚类过程完成。
3.综合各节点的聚类结果,使用DCIB方法进行全局聚类
1)节点Ni(1≤i≤n)上的文档经局部聚类后产生的簇集合表示为
Figure GSB00001010037200033
ki表示节点Ni上的聚类结果所包含的簇数目。由局部聚类的过程可知,簇
Figure GSB00001010037200034
的向量表示形式为 c → v i = { p ( t 1 | c v i ) , p ( t 2 | c v i ) , · · · , p ( t m | c v i ) } , 其中(其中1≤a≤m)表示簇
Figure GSB00001010037200037
中特征词ta出现的条件概率。
2)将所有节点上聚类得到的簇集合进行合并,得到所有簇组成的集合C,即
C = C 1 ∪ C 2 ∪ · · · ∪ C n = { c 1 1 , c 2 1 , · · · , c k 1 1 , c 1 2 , c 2 2 , · · · , c k 2 2 , · · · c 1 n , c 2 n , · · · , c k n n } = { c 1 c 2 , · · · , c r }
其中,从集合C中随机取一个簇表示为c0,存放在簇集合C′中,即C′={{c0}}(注意,集合C′的元素为簇,这些簇并非由文档直接组成,而是由局部聚类阶段产生的簇组成,故集合C′形如C′={{c1,c2},{c3,c4},{c5,c6}}),同时将c0从C中删除。簇c0的向量形式表示为:
c → 0 = { p ( t 1 | c 0 ) , p ( t 2 | c 0 ) , · · · , p ( t m | c 0 ) }
其中,p(ta|c0)(1≤a≤m)表示簇c0中特征词ta出现的条件概率。
3)从集合C中取一个簇记为ce,从C′中寻找簇c,使得
Figure GSB000010100372000311
其中D(ce,cf)表示合并ce和cf两个簇时产生的共有信息损失,其计算方法如下:
D ( c e , c f ) = Σ u = e , f | c u | r Σ a = 1 m p ( t a | c u ) log p ( t a | c u ) p ( t a | c e ∪ c f )
其中,|cu|表示簇cu所包含簇的个数,
Figure GSB00001010037200041
表示合并ce和cf两个簇所得到的新簇中特征词ta出现的条件概率,
p ( t a | c e ∪ c f ) = | c e | | c e ∪ c f | p ( t a | c e ) + | c f | | c e ∪ c f | p ( t a | c f )
得到c之后,若D(ce,c)<α×aver,将D(ce,c)的值加入到最小值列表L中,将ce添加到簇c中;否则,为ce新建一个簇保存,并将新建的簇添加到集合C中,其中α为调节系数,aver为最小值列表L中所有最小值的算术平均,L在初始时为空。
4)若C中还有簇未处理,则重复步骤3。
5)对上述聚类结果进行调整。依次从C的每个簇中取每个簇c构成一个新的簇{c},根据共有信息损失最小原则,将{c}合并到C包含的一个簇中,从而完成对聚类结果的一次调整。将上述针对调整过程循环sum次后,聚类过程完成。

Claims (1)

1.一种分布式Web文档聚类方法,该方法包括多个局部数据节点服务器和一个中心数据节点服务器,每个局部数据节点服务器负责存储Web文档及完成局部聚类,中心数据节点服务器负责完成全局聚类,其特征在于:该方法采取以下步骤进行聚类:
①设在一个分布式的环境中,Web文档分布在n个数据节点N1,N2,…,Nn上,各个节点上的文档数目分别为s1,s2,…,sn,节点Ni上的文档表示为
Figure FSB00001010037100011
假设文档的特征词集合为{t1,t2,…,tm},其中n、i和m为自然数,且m为特征词个数,1≤i≤n;
②针对每个节点Ni,使用下述方法进行局部聚类:
1)得到节点Ni上各文档
Figure FSB00001010037100012
的向量表示形式,根据文档中特征词的分布情况,文档
Figure FSB00001010037100013
的向量形式表示为
d → j i = { p ( t 1 | d j i ) , p ( t 2 | d j i ) , · · · , p ( t m | d j i ) }
其中,1≤j≤si
Figure FSB00001010037100015
表示文档
Figure FSB00001010037100016
中特征词ta出现的条件概率,1≤a≤m,其计算方法为
Figure FSB00001010037100017
Figure FSB00001010037100018
表示文档
Figure FSB00001010037100019
中特征词ta的出现次数;
2)将节点Ni上的文档
Figure FSB000010100371000110
表示为一个集合
Figure FSB000010100371000111
从中随机取一个文档表示为
Figure FSB000010100371000112
将其初始化为一个簇,记为
Figure FSB000010100371000113
存放在簇集合Ci中,即
Figure FSB000010100371000114
同时将
Figure FSB000010100371000115
从Xi中删除,簇
Figure FSB000010100371000116
的向量形式表示为:
c → 0 i = { p ( t 1 | c 0 i ) , p ( t 2 | c 0 i ) , · · · , p ( t m | c 0 i ) } = { p ( t 1 | x 0 i ) , p ( t 2 | x 0 i ) , · · · , p ( t m | x 0 i ) }
其中,
Figure FSB000010100371000118
表示簇
Figure FSB000010100371000119
中特征词ta出现的条件概率,
Figure FSB000010100371000120
(1≤a≤m)表示文档
Figure FSB000010100371000121
中特征词ta出现的条件概率;
3)从Xi中取一个文档xi,并将其初始化为一个簇
Figure FSB000010100371000122
从Ci中寻找簇ci,使得
Figure FSB000010100371000123
其中
Figure FSB000010100371000124
表示合并
Figure FSB000010100371000125
两个簇时产生的共有信息损失,其计算方法如下:
D ( c e i , c f i ) = Σ u = e , f | c u i | | X i | Σ a = 1 m p ( t a | c u i ) log p ( t a | c u i ) p ( t a | c e i ∪ c f i )
其中,|Xi|表示集合Xi中文档的个数,
Figure FSB000010100371000128
表示合并
Figure FSB000010100371000129
Figure FSB000010100371000130
两个簇所得到的新簇中特征词ta出现的条件概率,
p ( t a | c e i ∪ c f i ) = | c e i | | c e i ∪ c f i | p ( t a | c e i ) + | c f i | | c e i ∪ c f i | p ( t a | c f i )
得到ci之后,若
Figure FSB00001010037100022
Figure FSB00001010037100023
的值加入到最小值列表Li中,将xi添加到簇ci中;否则,为xi新建一个簇保存,并将新建的簇添加到集合Ci中,其中αi为调节系数,averi为最小值列表Li中所有最小值的算术平均,Li在初始时为空;
4)若Xi中还有文档未处理,则重复步骤3);
5)对上述聚类结果进行调整,依次从Ci的每个簇中取每个文档x构成一个新的簇{x},根据共有信息损失最小原则,将{x}合并到Ci包含的一个簇中,从而完成对聚类结果的一次调整,将上述针对调整过程循环sum次后,聚类过程完成,其中sum为一个自然数;
③综合各节点的聚类结果,使用DCIB方法进行全局聚类
1)节点Ni上的文档经局部聚类后产生的簇集合表示为ki表示节点Ni上的聚类结果所包含的簇数目,由局部聚类的过程可知,簇
Figure FSB00001010037100025
的向量表示形式为其中
Figure FSB00001010037100027
表示簇中特征词ta出现的条件概率,v为一个自然数,1≤v≤ki
2)将所有节点上聚类得到的簇集合进行合并,得到所有簇组成的集合C,即
C = C 1 ∪ C 2 ∪ · · · ∪ C n = { c 1 1 , c 2 1 , · · · , c k 1 1 , c 1 2 , c 2 2 , · · · , c k 2 2 , · · · c 1 n , c 2 n , · · · , c k n n } = { c 1 c 2 , · · · , c r }
其中,
Figure FSB000010100371000210
从集合C中随机取一个簇表示为c0,存放在簇集合C′中,即C′={{c0}},其中集合C′的元素为簇,这些簇由局部聚类阶段产生的簇组成,即C′={{c1,c2},{c3,c4},{c5,c6}}),同时将c0从C中删除;簇c0的向量形式表示为:
c → 0 = { p ( t 1 | c 0 ) , p ( t 2 | c 0 ) , · · · , p ( t m | c 0 ) }
其中,p(ta|c0)表示簇c0中特征词ta出现的条件概率;
3)从集合C中取一个簇记为ce,从C′中寻找簇c,使得
Figure FSB000010100371000212
其中D(ce,cf)表示合并ce和cf两个簇时产生的共有信息损失,其计算方法如下:
D ( c e , c f ) = Σ u = e , f | c u | r Σ a = 1 m p ( t a | c u ) log p ( t a | c u ) p ( t a | c e ∪ c f )
其中,|cu|表示簇cu所包含簇的个数,表示合并ce和cf两个簇所得到的新簇中特征词ta出现的条件概率,
p ( t a | c e ∪ c f ) = | c e | | c e ∪ c f | p ( t a | c e ) + | c f | | c e ∪ c f | p ( t a | c f )
得到c之后,若D(ce,c)<α×aver,将D(ce,c)的值加入到最小值列表L中,将ce添加到簇c中;否则,为ce新建一个簇保存,并将新建的簇添加到集合C中,其中α为调节系数,aver为最小值列表L中所有最小值的算术平均,L在初始时为空;
4)若C中还有簇未处理,则重复步骤3);
5)对上述聚类结果进行调整,依次从C的每个簇中取每个簇c构成一个新的簇{c},根据共有信息损失最小原则,将{c}合并到C包含的一个簇中,从而完成对聚类结果的一次调整;将上述针对调整过程循环sum次后,聚类过程完成。
CN 201110083090 2011-03-31 2011-03-31 一种分布式Web文档聚类方法 Expired - Fee Related CN102110172B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110083090 CN102110172B (zh) 2011-03-31 2011-03-31 一种分布式Web文档聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110083090 CN102110172B (zh) 2011-03-31 2011-03-31 一种分布式Web文档聚类方法

Publications (2)

Publication Number Publication Date
CN102110172A CN102110172A (zh) 2011-06-29
CN102110172B true CN102110172B (zh) 2013-04-10

Family

ID=44174333

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110083090 Expired - Fee Related CN102110172B (zh) 2011-03-31 2011-03-31 一种分布式Web文档聚类方法

Country Status (1)

Country Link
CN (1) CN102110172B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451224A (zh) * 2017-07-17 2017-12-08 广州特道信息科技有限公司 一种基于大数据并行计算的聚类方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3974511B2 (ja) * 2002-12-19 2007-09-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報検索のためのデータ構造を生成するコンピュータ・システム、そのための方法、情報検索のためのデータ構造を生成するコンピュータ実行可能なプログラム、情報検索のためのデータ構造を生成するコンピュータ実行可能なプログラムを記憶したコンピュータ可読な記憶媒体、情報検索システム、およびグラフィカル・ユーザ・インタフェイス・システム
WO2008154029A1 (en) * 2007-06-11 2008-12-18 The Trustees Of Columbia University In The City Of New York Data classification and hierarchical clustering
CN101571868A (zh) * 2009-05-25 2009-11-04 北京航空航天大学 一种基于信息瓶颈理论的文档聚类方法

Also Published As

Publication number Publication date
CN102110172A (zh) 2011-06-29

Similar Documents

Publication Publication Date Title
CN104199857B (zh) 一种基于多标签分类的税务文档层次分类方法
CN108681557B (zh) 基于自扩充表示和相似双向约束的短文本主题发现方法及系统
CN106096066A (zh) 基于随机近邻嵌入的文本聚类方法
CN103488662A (zh) 基于图形处理单元的自组织映射神经网络聚类方法及系统
Froese et al. The border k-means clustering algorithm for one dimensional data
CN101968853A (zh) 基于改进的免疫算法优化支持向量机参数的表情识别方法
Nam et al. Efficient approach for damped window-based high utility pattern mining with list structure
CN109582714B (zh) 一种基于时间衰减关联的政务事项数据处理方法
CN103150163A (zh) 一种基于MapReduce模型的并行关联方法
Ding et al. A Hybrid Feature Selection Algorithm Based on Information Gain and Sequential Forward Floating Search①
CN103699678A (zh) 一种基于多阶段分层采样的层次聚类方法和系统
CN107992549B (zh) 动态短文本流聚类检索方法
CN113222181A (zh) 一种面向k-means聚类算法的联邦学习方法
CN113705099A (zh) 基于对比学习的社交平台谣言检测模型构建方法及检测方法
CN107766076B (zh) 一种概率选择的软件模块聚类方法
CN104765852A (zh) 大数据背景下基于模糊算法的数据挖掘方法
CN102110172B (zh) 一种分布式Web文档聚类方法
CN105335499A (zh) 一种基于分布-收敛模型的文献聚类方法
CN101833553B (zh) 对数据进行聚类的方法、设备和系统
CN112487110A (zh) 基于网络结构和节点内容的重叠社区演化分析方法及系统
CN117059284A (zh) 基于协同进化离散粒子群优化的糖尿病并行属性约简方法
CN112286996A (zh) 一种基于网络链接和节点属性信息的节点嵌入方法
CN117093885A (zh) 融合分层聚类和粒子群的联邦学习多目标优化方法
Singh et al. RSTDB a new candidate generation and test algorithm for frequent pattern mining
Wu Data association rules mining method based on improved apriori algorithm

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130410

Termination date: 20160331