CN101004761A

CN101004761A - 大规模文本逐次二分的层次聚类方法

Info

Publication number: CN101004761A
Application number: CN 200710036309
Authority: CN
Inventors: 黄萱菁; 赵林; 钱线
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2007-01-10
Filing date: 2007-01-10
Publication date: 2007-07-25
Anticipated expiration: 2027-01-10
Also published as: CN100495405C

Abstract

本发明属文本信息技术领域，具体涉及一种大规模文本的聚类方法。其核心内容有图嵌入和聚类。其步骤包括：文本的向量空间表示；两两文本的相似度计算；将图嵌入到维空间，并用K－means或层次聚类算法，将文本聚两类；并逐次二分，直到满足要求，对图不再做切分为止。本发明方法分类效果好，速度快，优于目前常用的谱聚类算法和K－means算法。

Description

大规模文本逐次二分的层次聚类方法

技术领域

本发明属文本信息技术领域，具体涉及一种大规模文本的聚类方法。

背景技术

随着互联网的普及，越来越多的人喜欢用网络来作为发表言论的媒体。很多论坛，博客，聊天室都提供了丰富的舆论信息，如何用计算机自动分析这些信息成为一个十分重要的问题。文本聚类是一种可以利用计算机自动将文本信息归类的技术，经过聚类之后，属于同一个话题的那些文章将被归为同一个类，从而方便用户查找阅读。目前主要有以下一些文本聚类方法：

1、K-means是一种快速的基于优化准则的聚类算法。该算法一开始随机找k个初始的类中心。接着将每个文本分配到中心离它最近的那个类中，得到每篇文本的类别后，重新计算每个类的中心。如此反复迭代，直到类中心的变化不再明显为止。该方法的优点是速度快，但可能得到聚类结果不是很理想，而且类的个数需要人工事先给定。

2、层次聚类算法，开始将每个文本看作一个类，接着，每次合并两个最相似的类，直到类的个数为1为止。类与类之间的相似度用在这两个类中最相似的两个文本的相似度表示。这个方法的优点是，一开始可以不知道类的个数，通过不断合并，构成了一棵树，用户可以根据自己的需要，得到相应的分类体系。这个方法的优点是，一开始类的个数不需要人工指定，但缺点是聚类效果很差。

3、谱聚类算法，计算文本两两之间的相似度，这样n篇文本构成了含n个节点的无向图，节点之间边的权重就是这两个文本之间的相似度。谱聚类算法试图将该图嵌入到一个低维的空间上去，使得图中权值较大的边能尽可能的保留，而权值较小的边则可以忽略。得到每个文本的低维空间表示后，可以用上述两种算法的任意一个进行聚类。该算法的优点是聚类效果较好，缺点是速度很慢。

发明内容

本发明的目的提出一种聚类效果好，计算速度快的大规模文本的聚类算法。

本发明提出的大规模文本的聚类方法，是吸取了上述第二第三种算法的优点。并进行改进而成的算法。它的核心技术有两部分组成：图嵌入和聚类。第一部分技术和谱聚类算法相似，需要将图嵌入到一个低维的空间上，不同的是，这里低维空间的维数规定为一维。实际上此时就是对所有的文本作了一个排序。接着用K-means或者层次聚类算法将文本聚成两类。即对图进行逐次二分。所谓的“逐次二分”即是对得到的子图继续进行“二分”，直到得到的每个子图足够紧密则停止分割。

具体步骤包括：文本的向量空间表示；两两文本的相似度计算；图嵌到一维空间，并使用K-means或层次聚类算法，对图进行聚类，将图分为两类；再逐次二分，直到满足要求，对图不再做切分。

本发明的优点如下：

由于“逐次二分”的层次聚类算法是一种改进算法，所以它的优点可以从与现有算法的比较中得出。

1、类的个数不需要人的事先指定。相对于K-means算法中需要人工指定类的个数，“逐次二分”的层次聚类算法只需要预先定一个阀值作为停止分割条件，与层次聚类算法相同。这在实际应用中是十分方便的。

2、效果好。由于“逐次二分”的层次聚类算法采用了图嵌入，所以其聚类结果明显好于K-means和层次聚类算法，与谱聚类算法十分相近。

3、速度快。在谱聚类算法中，降维消耗了大量的时间，特别是如果类的个数特别多，那么所降的维数也相应增大，此时谱聚类算法的时间开销将非常大。而K-means的聚类时间复杂度与类的个数是成正比的，在类的个数十分大的时候也会消耗大量的时间。而在“逐次二分”法中，每次将文本分成两类，所需要降的维数是最小的一维，而且得到k个类只需要作log k次操作，这与谱聚类算法和K-means算法相比，优势是十分明显的。

综上所述，“逐次二分”的层次聚类算法具有自动、效果好、快速的特性，是一种更优秀的文本聚类算法。

具体实施方式

基本流程是将文本表示成空间向量后，计算出两两文本之间的相似度，得到图，并用“逐次二分”的层次聚类算法进行聚类。

1、文本的向量空间表示。

假设现在有n篇文章，一共出现了m个词。则每篇文章用一个m维的向量表示，n篇文章构成了m×n的矩阵，记为M。M_ij表示第i个单词在第j篇文章中的tfidf值：

M_{ij} = {tf}_{ij} \times \log \frac{n}{{df}_{i}}

，其中tf_ij表示第i个词在第j篇文章中出现的频率，df_i表示包含第i个词的文章数。为了消除文本长短的差异，将文本表示成向量之后，再做归一化处理，每个向量除以其模长：

X_{ij} = \frac{M_{ij}}{\sqrt{Σ_{i = 1}^{m} M_{ij}^{2}}}

这样，就将文本表示成了空间中一个模长为1的向量了。

2、图的计算。

计算两两文本之间的相似度。两个文本之间的相似度。即两个文本的向量间的夹角余弦。n篇文本构成了含n个节点的无向图，节点之间边的权重就是这两个文本之间的相似度。其相似度矩阵用S表示。

3、分割：

a)将图嵌入到1维空间：计算矩阵L＝D*S*D，其中D是一个对角阵，

D_{ij} = \frac{1}{\sqrt{Σ_{j = 1}^{n} S_{ij}}},

接着计算L的次大特征值对应的特征向量y。则y的分量y_i就表示了第i篇文档在一维空间上的位置。

b)分割：求向量y的均值y’，如果y_i＞0，则将第i篇文档分到第一类，否则分到第二类。

4、判别：

如果得到的子图中的边的最小权重超过一个预先给定的值，则认为该图中所有的文档已经属于同一个话题，不做切分；否则回到第3步。

Claims

1、一种大规模文本逐次二分的层次聚类方法，其特征在于具体步骤如下：文本的向量空间表示；两两文本的相似度计算；图嵌到一维空间，并使用K-means或层次聚类算法，对图进行聚类，将图分为两类；再逐次二分，直到满足要求，对图不再做切分。

2、根据权利要求1所述的方法，其特征在于具体计算步骤如下：

(1)文本的向量空间表示：

假设有n篇文章，一共出现了m个词，则每篇文章用一个m维的向量表示，n篇文章构成了m×n的矩阵，记为M，M_ij表示第i个单词在第j篇文章中的tfidf值：

M_{ij} = {tf}_{ij} \times \log \frac{n}{{df}_{i}},

其中tf_ij表示第i个词在第j篇文章中出现的频率，df_i表示包含第i个词的文章数；将文本表示成向量之后，再做归一化处理：

X_{ij} = \frac{M_{ij}}{\sqrt{Σ_{i = 1}^{m} M_{ij}^{2}}}

(2)图的计算：

计算两两文本之间的相似度，其相似度矩阵用S表示；

(3)分割：

a)将图嵌入到1维空间：计算矩阵L＝D×S×D，其中D是一个对角阵，

D_{ij} = \frac{1}{\sqrt{Σ_{i = 1}^{n} S_{ij}}},

接着

计算L的次大特征值对应的特征向量y，则y的分量y_i就表示了第i篇文档在一维空间上的位置；

(4)判别：

如果得到的子图中的边的最小权重超过一个预先给定的值，则认为该图中所有的文档已经属于同一个话题，不做切分；否则回到第(3)步。