CN102110172A - 分布式Web文档聚类系统 - Google Patents

分布式Web文档聚类系统 Download PDF

Info

Publication number
CN102110172A
CN102110172A CN2011100830901A CN201110083090A CN102110172A CN 102110172 A CN102110172 A CN 102110172A CN 2011100830901 A CN2011100830901 A CN 2011100830901A CN 201110083090 A CN201110083090 A CN 201110083090A CN 102110172 A CN102110172 A CN 102110172A
Authority
CN
China
Prior art keywords
bunch
centerdot
document
cluster
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100830901A
Other languages
English (en)
Other versions
CN102110172B (zh
Inventor
刘永利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University of Technology
Original Assignee
Henan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University of Technology filed Critical Henan University of Technology
Priority to CN 201110083090 priority Critical patent/CN102110172B/zh
Publication of CN102110172A publication Critical patent/CN102110172A/zh
Application granted granted Critical
Publication of CN102110172B publication Critical patent/CN102110172B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出一个分布式Web文档聚类系统DCS(Distributed Clustering System),该系统采用的主要方法称之为DACWD(Distributed Approach to Clustering Web Documents)。DACWD方法的核心是一个基于信息瓶颈理论的文档聚类方法DCIB(Document Clustering using Information Bottleneck)。DACWD的局部聚类和全局聚类过程迭代使用了DCIB方法。

Description

分布式Web文档聚类系统
技术领域
本申请属于信息检索、数据挖掘、人工智能领域。
背景技术
为了揭示隐藏在Web数据之后具有潜在价值的信息或结构,近年来Web挖掘技术取得了较快的发展和广泛的应用。文档聚类是Web挖掘领域中最重要的工具之一,其目的是将一个文档集合分成若干个簇,要求同一个簇内的文本内容具有较高的相似度,而不同簇之间的相似度尽可能小。每个聚类过程主要包括相似度计算方法和聚类算法两个部分。
目前,研究者已经提出多种文档聚类算法,大致可分为4个类别,即层次化聚类算法、划分式聚类算法、基于密度和网格的聚类算法和其它聚类算法。这些聚类算法的研究主要是针对集中式数据源进行挖掘,即数据对象集中分布在同一个数据节点上。然而,在许多Web应用中,因为数据量庞大、访问效率等原因,不得不将数据分布在多个节点上,如众多站点为提高访问效率广泛采用了多镜像技术,使得数据对象分布在不同的镜像站点上。在这种应用环境中,必须将传统的聚类方法和分布式的策略相结合,即采用分布式聚类方法。分布式聚类方法通常包括两个步骤:①对各个节点的数据进行本地独立聚类(局部聚类),获得数据的局部模式;②将各节点的聚类结果进行合并(全局聚类),获得数据的全局模式。
发明内容
本申请提出一个分布式Web文档聚类系统DCS(Distributed Clustering System),该系统采用的主要方法称之为DACWD(Distributed Approach to Clustering Web Documents)。DACWD方法的核心是一个基于信息瓶颈理论的文档聚类方法DCIB(Document Clustering using Information Bottleneck)。DACWD的局部聚类和全局聚类过程迭代使用了DCIB方法。
附图说明
图1是DCS系统的聚类过程图。
具体实施方式
DCS系统的聚类过程如错误!未找到引用源。所示。首先使用DCIB方法对各个节点上的Web文档进行本地聚类,然后将各个节点的聚类结果集合起来作为数据对象,再次使用DCIB方法进行聚类。
具体实现步骤如下:
错误!未找到引用源。说明了DCS系统聚类的基本过程。该过程分为局部聚类和全局聚类两个阶段。在局部聚类阶段,各数据节点将各自节点上的文档数据使用DCIB方法进行独立聚类,聚类结果代表了该节点上文档的总体特征;在全局聚类阶段,将局部聚类阶段产生的聚类结果作为数据输入,再次使用DCIB方法进行聚类。
DCIB方法是一种基于信息瓶颈理论的文档聚类方法。该方法采用信息瓶颈理论度量文档之间的“相似”关系,并使用增量聚类算法对文档数据进行聚类,最后对聚类结果进行调整。这样的聚类过程一方面避免了因随机选用相似度计算方法所造成的误差;另一方面是所采用的增量方式保证了较高的聚类效率,能够满足对时间性能有较高要求的Web应用;同时,针对聚类结果的调整过程减轻了文档次序对增量过程造成的影响,提高了聚类的准确率。DCIB首先随机选取一个文档初始化为一个簇,然后依次处理每个文档直至文档处理完毕。处理过程中比较新文档与现存各个簇合并所产生的最小共有信息损失,如果最小共有信息损失满足规定阈值,则将该文档合并到“距离”最近簇,否则新建一个簇存放该文档。
DACWD方法的详细步骤为:
1.假设在一个分布式的环境中,Web文档分布在n个数据节点N1,N2,…,Nn上,各个节点上的文档数目分别为s1,s2,…,sn,节点Ni(1≤i ≤n)上的文档表示为
Figure BSA00000466364600021
假设文档的特征词集合为{t1,t2,…,tm},其中m为特征词个数。
2.针对每个节点Ni(1≤i ≤n),使用下述DCIB方法进行局部聚类
1)得到节点Ni(1≤i ≤n)上各文档的向量表示形式。根据文档中特征词的分布情况,文档
Figure BSA00000466364600023
的向量形式表示为
d → j i = { p ( t 1 | d j i ) , p ( t 2 | d j i ) , · · · , p ( t m | d j i ) }
其中,
Figure BSA00000466364600025
(其中1≤a≤m)表示文档
Figure BSA00000466364600026
中特征词ta出现的条件概率,其计算方法为
Figure BSA00000466364600027
Figure BSA00000466364600028
表示文档中特征词ta的出现次数。
2)将节点Ni(1≤i≤n)上的文档
Figure BSA000004663646000210
表示为一个集合
Figure BSA000004663646000211
从中随机取一个文档表示为
Figure BSA000004663646000212
将其初始化为一个簇,记为
Figure BSA000004663646000213
存放在簇集合Ci中,即
Figure BSA000004663646000214
同时将
Figure BSA000004663646000215
从Xi中删除。簇
Figure BSA000004663646000216
的向量形式表示为:
c → 0 i = { p ( t 1 | c 0 i ) , p ( t 2 | c 0 i ) , · · · , p ( t m | c 0 i ) } = { p ( t 1 | x 0 i ) , p ( t 2 | x 0 i ) , · · · , p ( t m | x 0 i ) }
其中,
Figure BSA000004663646000218
表示簇
Figure BSA000004663646000219
中特征词ta出现的条件概率。
Figure BSA000004663646000220
表示文档
Figure BSA000004663646000221
中特征词ta出现的条件概率。
3)从Xi中取一个文档xi,并将其初始化为一个簇从Ci中寻找簇ci,使得其中
Figure BSA000004663646000224
表示合并
Figure BSA000004663646000225
两个簇时产生的共有信息损失,其计算方法如下:
D ( c e i , c f i ) = Σ u = e , f | c u i | | X i | Σ a = 1 m p ( t a | c u i ) log p ( t a | c u i ) p ( t a | c e i ∪ c f i )
其中,|Xi|表示集合Xi中文档的个数,
Figure BSA000004663646000228
表示合并
Figure BSA000004663646000230
两个簇所得到的新簇中特征词ta出现的条件概率,
p ( t a | c e i ∪ c f i ) = | c e i | | c e i ∪ c f i | p ( t a | c e i ) + | c f i | | c e i ∪ c f i | p ( t a | c f i )
得到ci之后,若
Figure BSA00000466364600032
的值加入到最小值列表Li中,将xi添加到簇ci中;否则,为xi新建一个簇保存,并将新建的簇添加到集合Ci中,其中αi为调节系数,averi为最小值列表Li中所有最小值的算术平均,Li在初始时为空。
4)若Xi中还有文档未处理,则重复步骤3。
5)对上述聚类结果进行调整。依次从Ci的每个簇中取每个文档x构成一个新的簇{x},根据共有信息损失最小原则,将{x}合并到Ci包含的一个簇中,从而完成对聚类结果的一次调整。将上述针对调整过程循环sum次后,聚类过程完成。
3.综合各节点的聚类结果,使用DCIB方法进行全局聚类
1)节点Ni(1≤i≤n)上的文档经局部聚类后产生的簇集合表示为
Figure BSA00000466364600034
ki表示节点Ni上的聚类结果所包含的簇数目。由局部聚类的过程可知,簇
Figure BSA00000466364600035
的向量表示形式为
Figure BSA00000466364600036
其中
Figure BSA00000466364600037
(其中1≤a≤m)表示簇
Figure BSA00000466364600038
中特征词ta出现的条件概率。
2)将所有节点上聚类得到的簇集合进行合并,得到所有簇组成的集合C,即
C = C 1 ∪ C 2 ∪ · · · ∪ C n = { c 1 1 , c 2 1 , · · · , c k 1 1 , c 1 2 , c 2 2 , · · · , c k 2 2 , · · · c 1 n , c 2 n , · · · , c k n n } = { c 1 , c 2 , · · · , c r }
其中,从集合C中随机取一个簇表示为c0,存放在簇集合C′中,即C′={{c0}}(注意,集合C′的元素为簇,这些簇并非由文档直接组成,而是由局部聚类阶段产生的簇组成,故集合C′形如C′={{c1,c2},{c3,c4},{c5,c6}}),同时将c0从C中删除。簇c0的向量形式表示为:
c → 0 = { p ( t 1 | c 0 ) , p ( t 2 | c 0 ) , · · · , p ( t m | c 0 ) }
其中,p(ta|c0)(1≤a≤m)表示簇c0中特征词ta出现的条件概率。
3)从集合C中取一个簇记为ce,从C′中寻找簇c,使得
Figure BSA000004663646000312
其中D(ce,cf)表示合并ce和cf两个簇时产生的共有信息损失,其计算方法如下:
D ( c e , c f ) = Σ u = e , f | c u | r Σ a = 1 m p ( t a | c u ) log p ( t a | c u ) p ( t a | c e ∪ c f )
其中,|cu|表示簇cu所包含簇的个数,p(ta|ce∪cf)表示合并ce和cf两个簇所得到的新簇中特征词ta出现的条件概率,
p ( t a | c e ∪ c f ) = | c e | | c e ∪ c f | p ( t a | c e ) + | c f | | c e ∪ c f | p ( t a | c f )
得到c之后,若D(ce,c)<α×aver,将D(ce,c)的值加入到最小值列表L中,将ce添加到簇c中;否则,为ce新建一个簇保存,并将新建的簇添加到集合C′中,其中α为调节系数,aver为最小值列表L中所有最小值的算术平均,L在初始时为空。
4)若C中还有簇未处理,则重复步骤3。
5)对上述聚类结果进行调整。依次从C′的每个簇中取每个簇c′构成一个新的簇{c′},根据共有信息损失最小原则,将{c′}合并到C′包含的一个簇中,从而完成对聚类结果的一次调整。将上述针对调整过程循环sum次后,聚类过程完成。

Claims (1)

1.一种分布式Web文档聚类系统,该系统包括多个局部数据节点服务器和一个中心数据节点服务器,每个局部数据节点服务器负责存储Web文档及完成局部聚类,中心数据节点服务器负责完成全局聚类,其特征在于:该系统采取以下步骤进行聚类:
①设在一个分布式的环境中,Web文档分布在n个数据节点N1,N2,…,Nn上,各个节点上的文档数目分别为s1,s2,…,sn,节点Ni上的文档表示为
Figure FSA00000466364500011
假设文档的特征词集合为{t1,t2,…,tm},其中n、i和m为自然数,且m为特征词个数,1≤i≤n。
②针对每个节点Ni,使用下述方法进行局部聚类:
1)得到节点Ni上各文档
Figure FSA00000466364500012
的向量表示形式,根据文档中特征词的分布情况,文档
Figure FSA00000466364500013
的向量形式表示为
d → j i = { p ( t 1 | d j i ) , p ( t 2 | d j i ) , · · · , p ( t m | d j i ) }
其中,1≤j≤si表示文档
Figure FSA00000466364500016
中特征词ta出现的条件概率,1≤a≤m,其计算方法为
Figure FSA00000466364500017
Figure FSA00000466364500018
表示文档
Figure FSA00000466364500019
中特征词ta的出现次数;
2)将节点Ni上的文档
Figure FSA000004663645000110
表示为一个集合
Figure FSA000004663645000111
从中随机取一个文档表示为将其初始化为一个簇,记为
Figure FSA000004663645000113
存放在簇集合Ci中,即
Figure FSA000004663645000114
同时将
Figure FSA000004663645000115
从Xi中删除,簇的向量形式表示为:
c → 0 i = { p ( t 1 | c 0 i ) , p ( t 2 | c 0 i ) , · · · , p ( t m | c 0 i ) } = { p ( t 1 | x 0 i ) , p ( t 2 | x 0 i ) , · · · , p ( t m | x 0 i ) }
其中,
Figure FSA000004663645000118
表示簇
Figure FSA000004663645000119
中特征词ta出现的条件概率,
Figure FSA000004663645000120
表示文档
Figure FSA000004663645000121
中特征词ta出现的条件概率;
3)从Xi中取一个文档xi,并将其初始化为一个簇从Ci中寻找簇ci,使得
Figure FSA000004663645000123
其中
Figure FSA000004663645000124
表示合并
Figure FSA000004663645000125
Figure FSA000004663645000126
两个簇时产生的共有信息损失,其计算方法如下:
D ( c e i , c f i ) = Σ u = e , f | c u i | | X i | Σ a = 1 m p ( t a | c u i ) log p ( t a | c u i ) p ( t a | c e i ∪ c f i )
其中,|Xi|表示集合Xi中文档的个数,
Figure FSA000004663645000128
表示合并
Figure FSA000004663645000129
Figure FSA000004663645000130
两个簇所得到的新簇中特征词ta出现的条件概率,
p ( t a | c e i ∪ c f i ) = | c e i | | c e i ∪ c f i | p ( t a | c e i ) + | c f i | | c e i ∪ c f i | p ( t a | c f i )
得到ci之后,若
Figure FSA00000466364500022
的值加入到最小值列表Li中,将xi添加到簇ci中;否则,为xi新建一个簇保存,并将新建的簇添加到集合Ci中,其中αi为调节系数,averi为最小值列表Li中所有最小值的算术平均,Li在初始时为空;
4)若Xi中还有文档未处理,则重复步骤3。
5)对上述聚类结果进行调整,依次从Ci的每个簇中取每个文档x构成一个新的簇{x},根据共有信息损失最小原则,将{x}合并到Ci包含的一个簇中,从而完成对聚类结果的一次调整,将上述针对调整过程循环sum次后,聚类过程完成,其中sum为一个自然数;
③综合各节点的聚类结果,使用DCIB方法进行全局聚类
1)节点Ni上的文档经局部聚类后产生的簇集合表示为
Figure FSA00000466364500024
ki表示节点Ni上的聚类结果所包含的簇数目,由局部聚类的过程可知,簇
Figure FSA00000466364500025
的向量表示形式为
Figure FSA00000466364500026
其中
Figure FSA00000466364500027
表示簇
Figure FSA00000466364500028
中特征词ta出现的条件概率,v为一个自然数,1≤v≤ki
2)将所有节点上聚类得到的簇集合进行合并,得到所有簇组成的集合C,即
C = C 1 ∪ C 2 ∪ · · · ∪ C n = { c 1 1 , c 2 1 , · · · , c k 1 1 , c 1 2 , c 2 2 , · · · , c k 2 2 , · · · c 1 n , c 2 n , · · · , c k n n } = { c 1 , c 2 , · · · , c r }
其中,
Figure FSA000004663645000210
从集合C中随机取一个簇表示为c0,存放在簇集合C′中,即C′={{c0}},其中集合C′的元素为簇,这些簇由局部聚类阶段产生的簇组成,即C′={{c1,c2},{c3,c4},{c5,c6}}),同时将c0从C中删除;簇c0的向量形式表示为:
c → 0 = { p ( t 1 | c 0 ) , p ( t 2 | c 0 ) , · · · , p ( t m | c 0 ) }
其中,p(ta|c0)表示簇c0中特征词ta出现的条件概率;
3)从集合C中取一个簇记为ce,从C′中寻找簇c,使得其中D(ce,cf)表示合并ce和cf两个簇时产生的共有信息损失,其计算方法如下:
D ( c e , c f ) = Σ u = e , f | c u | r Σ a = 1 m p ( t a | c u ) log p ( t a | c u ) p ( t a | c e ∪ c f )
其中,|cu|表示簇cu所包含簇的个数,p(ta|ce∪cf)表示合并ce和cf两个簇所得到的新簇中特征词ta出现的条件概率,
p ( t a | c e ∪ c f ) = | c e | | c e ∪ c f | p ( t a | c e ) + | c f | | c e ∪ c f | p ( t a | c f )
得到c之后,若D(ce,c)<α×aver,将D(ce,c)的值加入到最小值列表L中,将ce添加到簇c中;否则,为ce新建一个簇保存,并将新建的簇添加到集合C′中,其中α为调节系数,aver为最小值列表L中所有最小值的算术平均,L在初始时为空;
④若C中还有簇未处理,则重复步骤3;
⑤对上述聚类结果进行调整,依次从C′的每个簇中取每个簇c′构成一个新的簇{c′},根据共有信息损失最小原则,将{c′}合并到C′包含的一个簇中,从而完成对聚类结果的一次调整;将上述针对调整过程循环sum次后,聚类过程完成。
CN 201110083090 2011-03-31 2011-03-31 一种分布式Web文档聚类方法 Expired - Fee Related CN102110172B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110083090 CN102110172B (zh) 2011-03-31 2011-03-31 一种分布式Web文档聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110083090 CN102110172B (zh) 2011-03-31 2011-03-31 一种分布式Web文档聚类方法

Publications (2)

Publication Number Publication Date
CN102110172A true CN102110172A (zh) 2011-06-29
CN102110172B CN102110172B (zh) 2013-04-10

Family

ID=44174333

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110083090 Expired - Fee Related CN102110172B (zh) 2011-03-31 2011-03-31 一种分布式Web文档聚类方法

Country Status (1)

Country Link
CN (1) CN102110172B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451224A (zh) * 2017-07-17 2017-12-08 广州特道信息科技有限公司 一种基于大数据并行计算的聚类方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004199472A (ja) * 2002-12-19 2004-07-15 Internatl Business Mach Corp <Ibm> 情報検索のためのデータ構造を生成するコンピュータ・システム、そのための方法、情報検索のためのデータ構造を生成するコンピュータ実行可能なプログラム、情報検索のためのデータ構造を生成するコンピュータ実行可能なプログラムを記憶したコンピュータ可読な記憶媒体、情報検索システム、およびグラフィカル・ユーザ・インタフェイス・システム
CN101571868A (zh) * 2009-05-25 2009-11-04 北京航空航天大学 一种基于信息瓶颈理论的文档聚类方法
US20100174670A1 (en) * 2006-10-02 2010-07-08 The Trustees Of Columbia University In The City Of New York Data classification and hierarchical clustering

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004199472A (ja) * 2002-12-19 2004-07-15 Internatl Business Mach Corp <Ibm> 情報検索のためのデータ構造を生成するコンピュータ・システム、そのための方法、情報検索のためのデータ構造を生成するコンピュータ実行可能なプログラム、情報検索のためのデータ構造を生成するコンピュータ実行可能なプログラムを記憶したコンピュータ可読な記憶媒体、情報検索システム、およびグラフィカル・ユーザ・インタフェイス・システム
US20100174670A1 (en) * 2006-10-02 2010-07-08 The Trustees Of Columbia University In The City Of New York Data classification and hierarchical clustering
CN101571868A (zh) * 2009-05-25 2009-11-04 北京航空航天大学 一种基于信息瓶颈理论的文档聚类方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451224A (zh) * 2017-07-17 2017-12-08 广州特道信息科技有限公司 一种基于大数据并行计算的聚类方法及系统

Also Published As

Publication number Publication date
CN102110172B (zh) 2013-04-10

Similar Documents

Publication Publication Date Title
CN108681557B (zh) 基于自扩充表示和相似双向约束的短文本主题发现方法及系统
CN106096066A (zh) 基于随机近邻嵌入的文本聚类方法
CN103488662A (zh) 基于图形处理单元的自组织映射神经网络聚类方法及系统
Froese et al. The border k-means clustering algorithm for one dimensional data
CN114022693B (zh) 一种基于双重自监督的单细胞RNA-seq数据聚类方法
CN101968853A (zh) 基于改进的免疫算法优化支持向量机参数的表情识别方法
CN112182424A (zh) 一种基于异构信息和同构信息网络融合的社交推荐方法
CN104216874A (zh) 基于相关系数的中文词间加权正负模式挖掘方法及系统
CN111309777A (zh) 一种基于互斥表达的改进关联规则报表数据挖掘方法
CN104731984A (zh) R树上溢结点分裂问题的增量式聚类优化求解方法
CN113822419A (zh) 一种基于结构信息的自监督图表示学习运行方法
CN115952424A (zh) 一种基于多视图结构的图卷积神经网络聚类方法
CN115879505A (zh) 一种自适应相关感知无监督深度学习异常检测方法
CN107766076B (zh) 一种概率选择的软件模块聚类方法
CN105335499A (zh) 一种基于分布-收敛模型的文献聚类方法
CN102110172B (zh) 一种分布式Web文档聚类方法
CN112487110A (zh) 基于网络结构和节点内容的重叠社区演化分析方法及系统
CN112286996A (zh) 一种基于网络链接和节点属性信息的节点嵌入方法
Küchler et al. Decomposition of Multistage Stochastic Programs with Recombining Scenraio Trees
CN117093885A (zh) 融合分层聚类和粒子群的联邦学习多目标优化方法
Singh et al. RSTDB a new candidate generation and test algorithm for frequent pattern mining
Wu Data association rules mining method based on improved apriori algorithm
CN114943019A (zh) 一种基于双层权重网络随机游走的top k非重叠多样化社区发现方法
CN104268270A (zh) 基于MapReduce挖掘海量社交网络数据中三角形的方法
Ma et al. T-SNE with high order truncation fractional gradient descent method

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130410

Termination date: 20160331

CF01 Termination of patent right due to non-payment of annual fee