CN102110172A

CN102110172A - 分布式Web文档聚类系统

Info

Publication number: CN102110172A
Application number: CN2011100830901A
Authority: CN
Inventors: 刘永利
Original assignee: Henan University of Technology
Current assignee: Henan University of Technology
Priority date: 2011-03-31
Filing date: 2011-03-31
Publication date: 2011-06-29
Anticipated expiration: 2031-03-31
Also published as: CN102110172B

Abstract

本申请提出一个分布式Web文档聚类系统DCS(Distributed Clustering System)，该系统采用的主要方法称之为DACWD(Distributed Approach to Clustering Web Documents)。DACWD方法的核心是一个基于信息瓶颈理论的文档聚类方法DCIB(Document Clustering using Information Bottleneck)。DACWD的局部聚类和全局聚类过程迭代使用了DCIB方法。

Description

分布式Web文档聚类系统

技术领域

本申请属于信息检索、数据挖掘、人工智能领域。

背景技术

为了揭示隐藏在Web数据之后具有潜在价值的信息或结构，近年来Web挖掘技术取得了较快的发展和广泛的应用。文档聚类是Web挖掘领域中最重要的工具之一，其目的是将一个文档集合分成若干个簇，要求同一个簇内的文本内容具有较高的相似度，而不同簇之间的相似度尽可能小。每个聚类过程主要包括相似度计算方法和聚类算法两个部分。

目前，研究者已经提出多种文档聚类算法，大致可分为4个类别，即层次化聚类算法、划分式聚类算法、基于密度和网格的聚类算法和其它聚类算法。这些聚类算法的研究主要是针对集中式数据源进行挖掘，即数据对象集中分布在同一个数据节点上。然而，在许多Web应用中，因为数据量庞大、访问效率等原因，不得不将数据分布在多个节点上，如众多站点为提高访问效率广泛采用了多镜像技术，使得数据对象分布在不同的镜像站点上。在这种应用环境中，必须将传统的聚类方法和分布式的策略相结合，即采用分布式聚类方法。分布式聚类方法通常包括两个步骤：①对各个节点的数据进行本地独立聚类(局部聚类)，获得数据的局部模式；②将各节点的聚类结果进行合并(全局聚类)，获得数据的全局模式。

发明内容

附图说明

图1是DCS系统的聚类过程图。

具体实施方式

DCS系统的聚类过程如错误！未找到引用源。所示。首先使用DCIB方法对各个节点上的Web文档进行本地聚类，然后将各个节点的聚类结果集合起来作为数据对象，再次使用DCIB方法进行聚类。

具体实现步骤如下：

错误！未找到引用源。说明了DCS系统聚类的基本过程。该过程分为局部聚类和全局聚类两个阶段。在局部聚类阶段，各数据节点将各自节点上的文档数据使用DCIB方法进行独立聚类，聚类结果代表了该节点上文档的总体特征；在全局聚类阶段，将局部聚类阶段产生的聚类结果作为数据输入，再次使用DCIB方法进行聚类。

DCIB方法是一种基于信息瓶颈理论的文档聚类方法。该方法采用信息瓶颈理论度量文档之间的“相似”关系，并使用增量聚类算法对文档数据进行聚类，最后对聚类结果进行调整。这样的聚类过程一方面避免了因随机选用相似度计算方法所造成的误差；另一方面是所采用的增量方式保证了较高的聚类效率，能够满足对时间性能有较高要求的Web应用；同时，针对聚类结果的调整过程减轻了文档次序对增量过程造成的影响，提高了聚类的准确率。DCIB首先随机选取一个文档初始化为一个簇，然后依次处理每个文档直至文档处理完毕。处理过程中比较新文档与现存各个簇合并所产生的最小共有信息损失，如果最小共有信息损失满足规定阈值，则将该文档合并到“距离”最近簇，否则新建一个簇存放该文档。

DACWD方法的详细步骤为：

1.假设在一个分布式的环境中，Web文档分布在n个数据节点N₁，N₂，…，N_n上，各个节点上的文档数目分别为s₁，s₂，…，s_n，节点N_i(1≤i ≤n)上的文档表示为

假设文档的特征词集合为{t₁，t₂，…，t_m}，其中m为特征词个数。

2.针对每个节点N_i(1≤i ≤n)，使用下述DCIB方法进行局部聚类

1)得到节点N_i(1≤i ≤n)上各文档的向量表示形式。根据文档中特征词的分布情况，文档

的向量形式表示为

{\overset{&RightArrow;}{d}}_{j}^{i} = {p (t_{1} | d_{j}^{i}), p (t_{2} | d_{j}^{i}), \cdot \cdot \cdot, p (t_{m} | d_{j}^{i})}

其中，

(其中1≤a≤m)表示文档

中特征词t_a出现的条件概率，其计算方法为

表示文档中特征词t_a的出现次数。

2)将节点N_i(1≤i≤n)上的文档

表示为一个集合

从中随机取一个文档表示为

将其初始化为一个簇，记为

存放在簇集合Cⁱ中，即

同时将

从Xⁱ中删除。簇

的向量形式表示为：

{\overset{&RightArrow;}{c}}_{0}^{i} = {p (t_{1} | c_{0}^{i}), p (t_{2} | c_{0}^{i}), \cdot \cdot \cdot, p (t_{m} | c_{0}^{i})} = {p (t_{1} | x_{0}^{i}), p (t_{2} | x_{0}^{i}), \cdot \cdot \cdot, p (t_{m} | x_{0}^{i})}

其中，

表示簇

中特征词t_a出现的条件概率。

表示文档

中特征词t_a出现的条件概率。

3)从Xⁱ中取一个文档xⁱ，并将其初始化为一个簇从Cⁱ中寻找簇cⁱ，使得其中

表示合并

和两个簇时产生的共有信息损失，其计算方法如下：

D (c_{e}^{i}, c_{f}^{i}) = \underset{u = e, f}{Σ} \frac{| c_{u}^{i} |}{| X^{i} |} Σ_{a = 1}^{m} p (t_{a} | c_{u}^{i}) \log \frac{p (t_{a} | c_{u}^{i})}{p (t_{a} | c_{e}^{i} \cup c_{f}^{i})}

其中，|Xⁱ|表示集合Xⁱ中文档的个数，

表示合并和

两个簇所得到的新簇中特征词t_a出现的条件概率，

p (t_{a} | c_{e}^{i} \cup c_{f}^{i}) = \frac{| c_{e}^{i} |}{| c_{e}^{i} \cup c_{f}^{i} |} p (t_{a} | c_{e}^{i}) + \frac{| c_{f}^{i} |}{| c_{e}^{i} \cup c_{f}^{i} |} p (t_{a} | c_{f}^{i})

得到cⁱ之后，若

将的值加入到最小值列表Lⁱ中，将xⁱ添加到簇cⁱ中；否则，为xⁱ新建一个簇保存，并将新建的簇添加到集合Cⁱ中，其中αⁱ为调节系数，averⁱ为最小值列表Lⁱ中所有最小值的算术平均，Lⁱ在初始时为空。

4)若Xⁱ中还有文档未处理，则重复步骤3。

5)对上述聚类结果进行调整。依次从Cⁱ的每个簇中取每个文档x构成一个新的簇{x}，根据共有信息损失最小原则，将{x}合并到Cⁱ包含的一个簇中，从而完成对聚类结果的一次调整。将上述针对调整过程循环sum次后，聚类过程完成。

3.综合各节点的聚类结果，使用DCIB方法进行全局聚类

1)节点N_i(1≤i≤n)上的文档经局部聚类后产生的簇集合表示为

k_i表示节点N_i上的聚类结果所包含的簇数目。由局部聚类的过程可知，簇

的向量表示形式为

其中

(其中1≤a≤m)表示簇

中特征词t_a出现的条件概率。

2)将所有节点上聚类得到的簇集合进行合并，得到所有簇组成的集合C，即

C = C^{1} \cup C^{2} \cup \cdot \cdot \cdot \cup C^{n} = {c_{1}^{1}, c_{2}^{1}, \cdot \cdot \cdot, c_{k_{1}}^{1}, c_{1}^{2}, c_{2}^{2}, \cdot \cdot \cdot, c_{k_{2}}^{2}, \cdot \cdot \cdot c_{1}^{n}, c_{2}^{n}, \cdot \cdot \cdot, c_{k_{n}}^{n}} = {c_{1}, c_{2}, \cdot \cdot \cdot, c_{r}}

其中，从集合C中随机取一个簇表示为c₀，存放在簇集合C′中，即C′＝{{c₀}}(注意，集合C′的元素为簇，这些簇并非由文档直接组成，而是由局部聚类阶段产生的簇组成，故集合C′形如C′＝{{c₁，c₂}，{c₃，c₄}，{c₅，c₆}})，同时将c₀从C中删除。簇c₀的向量形式表示为：

{\overset{&RightArrow;}{c}}_{0} = {p (t_{1} | c_{0}), p (t_{2} | c_{0}), \cdot \cdot \cdot, p (t_{m} | c_{0})}

其中，p(t_a|c₀)(1≤a≤m)表示簇c₀中特征词t_a出现的条件概率。

3)从集合C中取一个簇记为c_e，从C′中寻找簇c，使得

其中D(c_e，c_f)表示合并c_e和c_f两个簇时产生的共有信息损失，其计算方法如下：

D (c_{e}, c_{f}) = \underset{u = e, f}{Σ} \frac{| c_{u} |}{r} Σ_{a = 1}^{m} p (t_{a} | c_{u}) \log \frac{p (t_{a} | c_{u})}{p (t_{a} | c_{e} \cup c_{f})}

其中，|c_u|表示簇c_u所包含簇的个数，p(t_a|c_e∪c_f)表示合并c_e和c_f两个簇所得到的新簇中特征词t_a出现的条件概率，

p (t_{a} | c_{e} \cup c_{f}) = \frac{| c_{e} |}{| c_{e} \cup c_{f} |} p (t_{a} | c_{e}) + \frac{| c_{f} |}{| c_{e} \cup c_{f} |} p (t_{a} | c_{f})

得到c之后，若D(c_e，c)＜α×aver，将D(c_e，c)的值加入到最小值列表L中，将c_e添加到簇c中；否则，为c_e新建一个簇保存，并将新建的簇添加到集合C′中，其中α为调节系数，aver为最小值列表L中所有最小值的算术平均，L在初始时为空。

4)若C中还有簇未处理，则重复步骤3。

5)对上述聚类结果进行调整。依次从C′的每个簇中取每个簇c′构成一个新的簇{c′}，根据共有信息损失最小原则，将{c′}合并到C′包含的一个簇中，从而完成对聚类结果的一次调整。将上述针对调整过程循环sum次后，聚类过程完成。

Claims

1.一种分布式Web文档聚类系统，该系统包括多个局部数据节点服务器和一个中心数据节点服务器，每个局部数据节点服务器负责存储Web文档及完成局部聚类，中心数据节点服务器负责完成全局聚类，其特征在于：该系统采取以下步骤进行聚类：

①设在一个分布式的环境中，Web文档分布在n个数据节点N₁，N₂，…，N_n上，各个节点上的文档数目分别为s₁，s₂，…，s_n，节点N_i上的文档表示为

假设文档的特征词集合为{t₁，t₂，…，t_m}，其中n、i和m为自然数，且m为特征词个数，1≤i≤n。

②针对每个节点N_i，使用下述方法进行局部聚类：

1)得到节点N_i上各文档

的向量表示形式，根据文档中特征词的分布情况，文档

的向量形式表示为

{\overset{&RightArrow;}{d}}_{j}^{i} = {p (t_{1} | d_{j}^{i}), p (t_{2} | d_{j}^{i}), \cdot \cdot \cdot, p (t_{m} | d_{j}^{i})}

其中，1≤j≤s_i，表示文档

中特征词t_a出现的条件概率，1≤a≤m，其计算方法为

表示文档

中特征词t_a的出现次数；

2)将节点N_i上的文档

表示为一个集合

从中随机取一个文档表示为将其初始化为一个簇，记为

存放在簇集合Cⁱ中，即

同时将

从Xⁱ中删除，簇的向量形式表示为：

{\overset{&RightArrow;}{c}}_{0}^{i} = {p (t_{1} | c_{0}^{i}), p (t_{2} | c_{0}^{i}), \cdot \cdot \cdot, p (t_{m} | c_{0}^{i})} = {p (t_{1} | x_{0}^{i}), p (t_{2} | x_{0}^{i}), \cdot \cdot \cdot, p (t_{m} | x_{0}^{i})}

其中，

表示簇

中特征词t_a出现的条件概率，

表示文档

中特征词t_a出现的条件概率；

3)从Xⁱ中取一个文档xⁱ，并将其初始化为一个簇从Cⁱ中寻找簇cⁱ，使得

其中

表示合并

和

两个簇时产生的共有信息损失，其计算方法如下：

D (c_{e}^{i}, c_{f}^{i}) = \underset{u = e, f}{Σ} \frac{| c_{u}^{i} |}{| X^{i} |} Σ_{a = 1}^{m} p (t_{a} | c_{u}^{i}) \log \frac{p (t_{a} | c_{u}^{i})}{p (t_{a} | c_{e}^{i} \cup c_{f}^{i})}

其中，|Xⁱ|表示集合Xⁱ中文档的个数，

表示合并

和

两个簇所得到的新簇中特征词t_a出现的条件概率，

p (t_{a} | c_{e}^{i} \cup c_{f}^{i}) = \frac{| c_{e}^{i} |}{| c_{e}^{i} \cup c_{f}^{i} |} p (t_{a} | c_{e}^{i}) + \frac{| c_{f}^{i} |}{| c_{e}^{i} \cup c_{f}^{i} |} p (t_{a} | c_{f}^{i})

得到cⁱ之后，若

将的值加入到最小值列表Lⁱ中，将xⁱ添加到簇cⁱ中；否则，为xⁱ新建一个簇保存，并将新建的簇添加到集合Cⁱ中，其中αⁱ为调节系数，averⁱ为最小值列表Lⁱ中所有最小值的算术平均，Lⁱ在初始时为空；

4)若Xⁱ中还有文档未处理，则重复步骤3。

5)对上述聚类结果进行调整，依次从Cⁱ的每个簇中取每个文档x构成一个新的簇{x}，根据共有信息损失最小原则，将{x}合并到Cⁱ包含的一个簇中，从而完成对聚类结果的一次调整，将上述针对调整过程循环sum次后，聚类过程完成，其中sum为一个自然数；

③综合各节点的聚类结果，使用DCIB方法进行全局聚类

1)节点N_i上的文档经局部聚类后产生的簇集合表示为

k_i表示节点N_i上的聚类结果所包含的簇数目，由局部聚类的过程可知，簇

的向量表示形式为

其中

表示簇

中特征词t_a出现的条件概率，v为一个自然数，1≤v≤k_i；

C = C^{1} \cup C^{2} \cup \cdot \cdot \cdot \cup C^{n} = {c_{1}^{1}, c_{2}^{1}, \cdot \cdot \cdot, c_{k_{1}}^{1}, c_{1}^{2}, c_{2}^{2}, \cdot \cdot \cdot, c_{k_{2}}^{2}, \cdot \cdot \cdot c_{1}^{n}, c_{2}^{n}, \cdot \cdot \cdot, c_{k_{n}}^{n}} = {c_{1}, c_{2}, \cdot \cdot \cdot, c_{r}}

其中，

从集合C中随机取一个簇表示为c₀，存放在簇集合C′中，即C′＝{{c₀}}，其中集合C′的元素为簇，这些簇由局部聚类阶段产生的簇组成，即C′＝{{c₁，c₂}，{c₃，c₄}，{c₅，c₆}})，同时将c₀从C中删除；簇c₀的向量形式表示为：

{\overset{&RightArrow;}{c}}_{0} = {p (t_{1} | c_{0}), p (t_{2} | c_{0}), \cdot \cdot \cdot, p (t_{m} | c_{0})}

其中，p(t_a|c₀)表示簇c₀中特征词t_a出现的条件概率；

3)从集合C中取一个簇记为c_e，从C′中寻找簇c，使得其中D(c_e，c_f)表示合并c_e和c_f两个簇时产生的共有信息损失，其计算方法如下：

D (c_{e}, c_{f}) = \underset{u = e, f}{Σ} \frac{| c_{u} |}{r} Σ_{a = 1}^{m} p (t_{a} | c_{u}) \log \frac{p (t_{a} | c_{u})}{p (t_{a} | c_{e} \cup c_{f})}

p (t_{a} | c_{e} \cup c_{f}) = \frac{| c_{e} |}{| c_{e} \cup c_{f} |} p (t_{a} | c_{e}) + \frac{| c_{f} |}{| c_{e} \cup c_{f} |} p (t_{a} | c_{f})

得到c之后，若D(c_e，c)＜α×aver，将D(c_e，c)的值加入到最小值列表L中，将c_e添加到簇c中；否则，为c_e新建一个簇保存，并将新建的簇添加到集合C′中，其中α为调节系数，aver为最小值列表L中所有最小值的算术平均，L在初始时为空；

④若C中还有簇未处理，则重复步骤3；

⑤对上述聚类结果进行调整，依次从C′的每个簇中取每个簇c′构成一个新的簇{c′}，根据共有信息损失最小原则，将{c′}合并到C′包含的一个簇中，从而完成对聚类结果的一次调整；将上述针对调整过程循环sum次后，聚类过程完成。