CN102110172A - 分布式Web文档聚类系统 - Google Patents
分布式Web文档聚类系统 Download PDFInfo
- Publication number
- CN102110172A CN102110172A CN2011100830901A CN201110083090A CN102110172A CN 102110172 A CN102110172 A CN 102110172A CN 2011100830901 A CN2011100830901 A CN 2011100830901A CN 201110083090 A CN201110083090 A CN 201110083090A CN 102110172 A CN102110172 A CN 102110172A
- Authority
- CN
- China
- Prior art keywords
- bunch
- centerdot
- document
- cluster
- expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提出一个分布式Web文档聚类系统DCS(Distributed Clustering System),该系统采用的主要方法称之为DACWD(Distributed Approach to Clustering Web Documents)。DACWD方法的核心是一个基于信息瓶颈理论的文档聚类方法DCIB(Document Clustering using Information Bottleneck)。DACWD的局部聚类和全局聚类过程迭代使用了DCIB方法。
Description
技术领域
本申请属于信息检索、数据挖掘、人工智能领域。
背景技术
为了揭示隐藏在Web数据之后具有潜在价值的信息或结构,近年来Web挖掘技术取得了较快的发展和广泛的应用。文档聚类是Web挖掘领域中最重要的工具之一,其目的是将一个文档集合分成若干个簇,要求同一个簇内的文本内容具有较高的相似度,而不同簇之间的相似度尽可能小。每个聚类过程主要包括相似度计算方法和聚类算法两个部分。
目前,研究者已经提出多种文档聚类算法,大致可分为4个类别,即层次化聚类算法、划分式聚类算法、基于密度和网格的聚类算法和其它聚类算法。这些聚类算法的研究主要是针对集中式数据源进行挖掘,即数据对象集中分布在同一个数据节点上。然而,在许多Web应用中,因为数据量庞大、访问效率等原因,不得不将数据分布在多个节点上,如众多站点为提高访问效率广泛采用了多镜像技术,使得数据对象分布在不同的镜像站点上。在这种应用环境中,必须将传统的聚类方法和分布式的策略相结合,即采用分布式聚类方法。分布式聚类方法通常包括两个步骤:①对各个节点的数据进行本地独立聚类(局部聚类),获得数据的局部模式;②将各节点的聚类结果进行合并(全局聚类),获得数据的全局模式。
发明内容
本申请提出一个分布式Web文档聚类系统DCS(Distributed Clustering System),该系统采用的主要方法称之为DACWD(Distributed Approach to Clustering Web Documents)。DACWD方法的核心是一个基于信息瓶颈理论的文档聚类方法DCIB(Document Clustering using Information Bottleneck)。DACWD的局部聚类和全局聚类过程迭代使用了DCIB方法。
附图说明
图1是DCS系统的聚类过程图。
具体实施方式
DCS系统的聚类过程如错误!未找到引用源。所示。首先使用DCIB方法对各个节点上的Web文档进行本地聚类,然后将各个节点的聚类结果集合起来作为数据对象,再次使用DCIB方法进行聚类。
具体实现步骤如下:
错误!未找到引用源。说明了DCS系统聚类的基本过程。该过程分为局部聚类和全局聚类两个阶段。在局部聚类阶段,各数据节点将各自节点上的文档数据使用DCIB方法进行独立聚类,聚类结果代表了该节点上文档的总体特征;在全局聚类阶段,将局部聚类阶段产生的聚类结果作为数据输入,再次使用DCIB方法进行聚类。
DCIB方法是一种基于信息瓶颈理论的文档聚类方法。该方法采用信息瓶颈理论度量文档之间的“相似”关系,并使用增量聚类算法对文档数据进行聚类,最后对聚类结果进行调整。这样的聚类过程一方面避免了因随机选用相似度计算方法所造成的误差;另一方面是所采用的增量方式保证了较高的聚类效率,能够满足对时间性能有较高要求的Web应用;同时,针对聚类结果的调整过程减轻了文档次序对增量过程造成的影响,提高了聚类的准确率。DCIB首先随机选取一个文档初始化为一个簇,然后依次处理每个文档直至文档处理完毕。处理过程中比较新文档与现存各个簇合并所产生的最小共有信息损失,如果最小共有信息损失满足规定阈值,则将该文档合并到“距离”最近簇,否则新建一个簇存放该文档。
DACWD方法的详细步骤为:
1.假设在一个分布式的环境中,Web文档分布在n个数据节点N1,N2,…,Nn上,各个节点上的文档数目分别为s1,s2,…,sn,节点Ni(1≤i ≤n)上的文档表示为假设文档的特征词集合为{t1,t2,…,tm},其中m为特征词个数。
2.针对每个节点Ni(1≤i ≤n),使用下述DCIB方法进行局部聚类
得到ci之后,若将的值加入到最小值列表Li中,将xi添加到簇ci中;否则,为xi新建一个簇保存,并将新建的簇添加到集合Ci中,其中αi为调节系数,averi为最小值列表Li中所有最小值的算术平均,Li在初始时为空。
4)若Xi中还有文档未处理,则重复步骤3。
5)对上述聚类结果进行调整。依次从Ci的每个簇中取每个文档x构成一个新的簇{x},根据共有信息损失最小原则,将{x}合并到Ci包含的一个簇中,从而完成对聚类结果的一次调整。将上述针对调整过程循环sum次后,聚类过程完成。
3.综合各节点的聚类结果,使用DCIB方法进行全局聚类
1)节点Ni(1≤i≤n)上的文档经局部聚类后产生的簇集合表示为ki表示节点Ni上的聚类结果所包含的簇数目。由局部聚类的过程可知,簇的向量表示形式为其中(其中1≤a≤m)表示簇中特征词ta出现的条件概率。
2)将所有节点上聚类得到的簇集合进行合并,得到所有簇组成的集合C,即
其中,从集合C中随机取一个簇表示为c0,存放在簇集合C′中,即C′={{c0}}(注意,集合C′的元素为簇,这些簇并非由文档直接组成,而是由局部聚类阶段产生的簇组成,故集合C′形如C′={{c1,c2},{c3,c4},{c5,c6}}),同时将c0从C中删除。簇c0的向量形式表示为:
其中,p(ta|c0)(1≤a≤m)表示簇c0中特征词ta出现的条件概率。
其中,|cu|表示簇cu所包含簇的个数,p(ta|ce∪cf)表示合并ce和cf两个簇所得到的新簇中特征词ta出现的条件概率,
得到c之后,若D(ce,c)<α×aver,将D(ce,c)的值加入到最小值列表L中,将ce添加到簇c中;否则,为ce新建一个簇保存,并将新建的簇添加到集合C′中,其中α为调节系数,aver为最小值列表L中所有最小值的算术平均,L在初始时为空。
4)若C中还有簇未处理,则重复步骤3。
5)对上述聚类结果进行调整。依次从C′的每个簇中取每个簇c′构成一个新的簇{c′},根据共有信息损失最小原则,将{c′}合并到C′包含的一个簇中,从而完成对聚类结果的一次调整。将上述针对调整过程循环sum次后,聚类过程完成。
Claims (1)
1.一种分布式Web文档聚类系统,该系统包括多个局部数据节点服务器和一个中心数据节点服务器,每个局部数据节点服务器负责存储Web文档及完成局部聚类,中心数据节点服务器负责完成全局聚类,其特征在于:该系统采取以下步骤进行聚类:
①设在一个分布式的环境中,Web文档分布在n个数据节点N1,N2,…,Nn上,各个节点上的文档数目分别为s1,s2,…,sn,节点Ni上的文档表示为假设文档的特征词集合为{t1,t2,…,tm},其中n、i和m为自然数,且m为特征词个数,1≤i≤n。
②针对每个节点Ni,使用下述方法进行局部聚类:
得到ci之后,若将的值加入到最小值列表Li中,将xi添加到簇ci中;否则,为xi新建一个簇保存,并将新建的簇添加到集合Ci中,其中αi为调节系数,averi为最小值列表Li中所有最小值的算术平均,Li在初始时为空;
4)若Xi中还有文档未处理,则重复步骤3。
5)对上述聚类结果进行调整,依次从Ci的每个簇中取每个文档x构成一个新的簇{x},根据共有信息损失最小原则,将{x}合并到Ci包含的一个簇中,从而完成对聚类结果的一次调整,将上述针对调整过程循环sum次后,聚类过程完成,其中sum为一个自然数;
③综合各节点的聚类结果,使用DCIB方法进行全局聚类
1)节点Ni上的文档经局部聚类后产生的簇集合表示为ki表示节点Ni上的聚类结果所包含的簇数目,由局部聚类的过程可知,簇的向量表示形式为其中表示簇中特征词ta出现的条件概率,v为一个自然数,1≤v≤ki;
2)将所有节点上聚类得到的簇集合进行合并,得到所有簇组成的集合C,即
其中,从集合C中随机取一个簇表示为c0,存放在簇集合C′中,即C′={{c0}},其中集合C′的元素为簇,这些簇由局部聚类阶段产生的簇组成,即C′={{c1,c2},{c3,c4},{c5,c6}}),同时将c0从C中删除;簇c0的向量形式表示为:
其中,p(ta|c0)表示簇c0中特征词ta出现的条件概率;
3)从集合C中取一个簇记为ce,从C′中寻找簇c,使得其中D(ce,cf)表示合并ce和cf两个簇时产生的共有信息损失,其计算方法如下:
其中,|cu|表示簇cu所包含簇的个数,p(ta|ce∪cf)表示合并ce和cf两个簇所得到的新簇中特征词ta出现的条件概率,
得到c之后,若D(ce,c)<α×aver,将D(ce,c)的值加入到最小值列表L中,将ce添加到簇c中;否则,为ce新建一个簇保存,并将新建的簇添加到集合C′中,其中α为调节系数,aver为最小值列表L中所有最小值的算术平均,L在初始时为空;
④若C中还有簇未处理,则重复步骤3;
⑤对上述聚类结果进行调整,依次从C′的每个簇中取每个簇c′构成一个新的簇{c′},根据共有信息损失最小原则,将{c′}合并到C′包含的一个簇中,从而完成对聚类结果的一次调整;将上述针对调整过程循环sum次后,聚类过程完成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110083090 CN102110172B (zh) | 2011-03-31 | 2011-03-31 | 一种分布式Web文档聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110083090 CN102110172B (zh) | 2011-03-31 | 2011-03-31 | 一种分布式Web文档聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102110172A true CN102110172A (zh) | 2011-06-29 |
CN102110172B CN102110172B (zh) | 2013-04-10 |
Family
ID=44174333
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201110083090 Expired - Fee Related CN102110172B (zh) | 2011-03-31 | 2011-03-31 | 一种分布式Web文档聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102110172B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107451224A (zh) * | 2017-07-17 | 2017-12-08 | 广州特道信息科技有限公司 | 一种基于大数据并行计算的聚类方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004199472A (ja) * | 2002-12-19 | 2004-07-15 | Internatl Business Mach Corp <Ibm> | 情報検索のためのデータ構造を生成するコンピュータ・システム、そのための方法、情報検索のためのデータ構造を生成するコンピュータ実行可能なプログラム、情報検索のためのデータ構造を生成するコンピュータ実行可能なプログラムを記憶したコンピュータ可読な記憶媒体、情報検索システム、およびグラフィカル・ユーザ・インタフェイス・システム |
CN101571868A (zh) * | 2009-05-25 | 2009-11-04 | 北京航空航天大学 | 一种基于信息瓶颈理论的文档聚类方法 |
US20100174670A1 (en) * | 2006-10-02 | 2010-07-08 | The Trustees Of Columbia University In The City Of New York | Data classification and hierarchical clustering |
-
2011
- 2011-03-31 CN CN 201110083090 patent/CN102110172B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004199472A (ja) * | 2002-12-19 | 2004-07-15 | Internatl Business Mach Corp <Ibm> | 情報検索のためのデータ構造を生成するコンピュータ・システム、そのための方法、情報検索のためのデータ構造を生成するコンピュータ実行可能なプログラム、情報検索のためのデータ構造を生成するコンピュータ実行可能なプログラムを記憶したコンピュータ可読な記憶媒体、情報検索システム、およびグラフィカル・ユーザ・インタフェイス・システム |
US20100174670A1 (en) * | 2006-10-02 | 2010-07-08 | The Trustees Of Columbia University In The City Of New York | Data classification and hierarchical clustering |
CN101571868A (zh) * | 2009-05-25 | 2009-11-04 | 北京航空航天大学 | 一种基于信息瓶颈理论的文档聚类方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107451224A (zh) * | 2017-07-17 | 2017-12-08 | 广州特道信息科技有限公司 | 一种基于大数据并行计算的聚类方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN102110172B (zh) | 2013-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108681557B (zh) | 基于自扩充表示和相似双向约束的短文本主题发现方法及系统 | |
CN106096066A (zh) | 基于随机近邻嵌入的文本聚类方法 | |
CN103488662A (zh) | 基于图形处理单元的自组织映射神经网络聚类方法及系统 | |
Froese et al. | The border k-means clustering algorithm for one dimensional data | |
CN114022693B (zh) | 一种基于双重自监督的单细胞RNA-seq数据聚类方法 | |
CN101968853A (zh) | 基于改进的免疫算法优化支持向量机参数的表情识别方法 | |
CN112182424A (zh) | 一种基于异构信息和同构信息网络融合的社交推荐方法 | |
CN104216874A (zh) | 基于相关系数的中文词间加权正负模式挖掘方法及系统 | |
CN111309777A (zh) | 一种基于互斥表达的改进关联规则报表数据挖掘方法 | |
CN104731984A (zh) | R树上溢结点分裂问题的增量式聚类优化求解方法 | |
CN113822419A (zh) | 一种基于结构信息的自监督图表示学习运行方法 | |
CN115952424A (zh) | 一种基于多视图结构的图卷积神经网络聚类方法 | |
CN115879505A (zh) | 一种自适应相关感知无监督深度学习异常检测方法 | |
CN107766076B (zh) | 一种概率选择的软件模块聚类方法 | |
CN105335499A (zh) | 一种基于分布-收敛模型的文献聚类方法 | |
CN102110172B (zh) | 一种分布式Web文档聚类方法 | |
CN112487110A (zh) | 基于网络结构和节点内容的重叠社区演化分析方法及系统 | |
CN112286996A (zh) | 一种基于网络链接和节点属性信息的节点嵌入方法 | |
Küchler et al. | Decomposition of Multistage Stochastic Programs with Recombining Scenraio Trees | |
CN117093885A (zh) | 融合分层聚类和粒子群的联邦学习多目标优化方法 | |
Singh et al. | RSTDB a new candidate generation and test algorithm for frequent pattern mining | |
Wu | Data association rules mining method based on improved apriori algorithm | |
CN114943019A (zh) | 一种基于双层权重网络随机游走的top k非重叠多样化社区发现方法 | |
CN104268270A (zh) | 基于MapReduce挖掘海量社交网络数据中三角形的方法 | |
Ma et al. | T-SNE with high order truncation fractional gradient descent method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130410 Termination date: 20160331 |
|
CF01 | Termination of patent right due to non-payment of annual fee |