CN103049581B

CN103049581B - 一种基于一致性聚类的Web文本分类方法

Info

Publication number: CN103049581B
Application number: CN201310025642.2A
Authority: CN
Inventors: 吴俊杰; 刘洪甫; 李红; 韩小汀
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2013-01-21
Filing date: 2013-01-21
Publication date: 2015-10-07
Anticipated expiration: 2033-01-21
Also published as: CN103049581A

Abstract

本发明公开了基于一致性聚类的Web文本分类方法，包括：输入一段文字信息数据，其中包括n个文本；根据含有m个词汇的预设词库，对n个文本进行分词处理；根据每个文本中的分词在词库中出现的次数，制作每个文本的m维向量空间模型，n个文本组合在一起形成n×m的向量空间矩阵；在n×m的向量空间矩阵中随机提取n×m′的子矩阵，其中m′小于m，对n×m′子矩阵进行聚类分析；重复上述步骤r次，直到得到r个聚类分析结果；将r个聚类分析结果再进行聚类分析，得到最终聚类结果，这个最终聚类结果表征n个文本之间的归类关系，由此将n个文本分类。本方法能够克服聚类分析中的维度灾难，对海量文本数据进行分析，特别适合网络舆情监控等信息安全领域。

Description

一种基于一致性聚类的Web文本分类方法

技术领域

本发明涉及文本分类方法，特别是基于一致性聚类的文本分类方法，属于数据挖掘、机器学习和商务智能领域，特别针对海量、异质、高维数据聚类，并可用于知识融合和知识重用。

背景技术

文本数据作为重要的信息载体之一，尤其是随着互联网的普及和流行，正以惊人的速度增长。如何从这些庞杂的信息中快速有效地寻找满足需要的信息对人们来说是一个巨大的挑战。文本分类作为处理和组织大量文本数据的关键技术，能够很大程度上解决信息爆炸和信息杂乱所带来的问题。基于同类文档相似程度大，不同类的文档相似程度低的假设，文本分类目标是将一组文档分成多个簇，使得相同的簇内的文档具有较高的相似程度，不同簇的文档差别较大。由于无法获得类别标签，文本分类的本质属于聚类分析技术。然而文本数据具有海量、高维、稀疏等特点，使得单一的传统聚类算法在面对文本数据时，不仅表现不佳，而且运行耗时巨大。

特别是随着互联网的快速发展，网络媒体作为一种新的信息传播形式，已深入人们的日常生活。网友言论活跃已达到前所未有的程度，不论是国内还是国际重大事件，都能马上形成网上舆论，通过网络来表达观点、传播思想，进而产生巨大的舆论压力，达到任何部门、机构都无法忽视的地步。可以说，互联网已成为思想文化信息的集散地和社会舆论的放大器。因此需要从网络信息采集系统从互联网上采集新闻、论坛、博客、评论等舆情信息，存储到采集信息数据库中，再通过舆情分析引擎负责对采集信息进行清洗、智能研判和加工，分析结果保存在舆情成果库中。舆情分析引擎依赖于智能分析技术和舆情知识库，其基础就是文本的聚类分析。

发明内容

针对上述技术缺陷，本发明提出一种基于一致性聚类的Web文本分类方法。该方法以快速聚类法为核心，多次利用部分维度的文本数据获得多个聚类结果，进而利用一致性聚类方法最终获得具有高鲁棒性和高质量的文本分类结果。利用部分维度有可能得到质量较高的基础聚类结果，从一定程度上克服由高维导致的劣解；多个基础聚类结果通过一致性聚类方法进行组合提高结果的鲁棒性。一种基于一致性聚类的Web文本聚类方法，包括如下步骤：

步骤1：收集互联网上的文本数据。

步骤2：将文本数据进行分词处理。

步骤3：停用词移除。

步骤4：词干提取。

步骤5：针对每一条文本数据生成向量空间模型，X＝{x_l|1＜l＜n}，n为文本数据的数量。

步骤6：重复随机抽取一定百分比维度的文本数据，指定类别个数，利用快速聚类法使用余弦相似度距离进行聚类，得到基础聚类结果。用π_i表示第i个基础聚类结果，K_i表示π_i的类别个数，则∏＝{π₁，…，π_i，…，π_r}表示r个所有基础聚类结果的集合。

步骤7：在基础聚类结果上生成0-1二元矩阵。

用表示由上述基础聚类结果得到的0-1二元矩阵，b表示binary，n为样本个数，其生成方式如公式(1)所示：

x_{l}^{(b)} = < x_{l, 1}^{(b)}, \cdot \cdot \cdot x_{l, i}^{(b)}, \cdot \cdot \cdot, x_{l, r}^{(b)} > - - - (1)

其中

x_{l, i}^{(b)} = < x_{l, i 1}^{(b)}, \cdot \cdot \cdot, x_{l, ij}^{(b)}, \cdot \cdot \cdot x_{l, i K_{i}}^{(b)} >,

因此，是一个的矩阵，并且

步骤8：选择一致性聚类的效用函数，并从中分解

如果效用函数U可以进行如公式(2)所示的分解，则可利用基于本发明提出的一致性聚类的框架进行求解。

其中，p_k表示第k个类占所有数据的比例，m_k，i表示π_i的第k个类的中心，且公式(2)中为凸函数。

步骤9：基于生成用于一致性聚类的快速聚类法的距离函数。

利用快速聚类法的距离范式，如公式(3)所示：

f (x, y) = Φ (x) - Φ (y) - {(x - y)}^{T} &dtri; Φ (y) - - - (3)

其中

步骤10：基于步骤9得到的距离函数f，使用快速聚类法进行求解。

由于快速聚类法只能收敛到局部最小点，而不是全局最小点。因此，步骤10要重复运行多次，返回其目标函数最小的聚类结果。模式输出，得到最终的文本分类结果。

本发明多次利用部分维度信息进行聚类，并将多个聚类结果通过一致性聚类框架进行融合，不仅大大提高文本分类的质量，还具有很强的鲁棒性。本发明的方法能够克服聚类分析中的维度灾难，对海量文本数据进行分析，特别适合网络舆情监控等信息安全领域。

附图说明

图1为本发明的整体框架图；

图2为基础聚类结果转化为0-1二元矩阵示意图，其中示出了π₁、π₂和π₃进行组合的状况。

具体实施方式

下面将结合附图和具体实施实例对本发明做出进一步的说明。

本发明提供一种用于Web文档分类的新方法，该方法不仅能得到高质量的文本分类结果，并且具有很强的鲁棒性。通过多次对部分维度的文本数据进行聚类，得到高质量的多个基础聚类结果；再通过一致性聚类的框架，将这些基础聚类结果融合得到最后的文本分类结果。无论是获得基础聚类结果还是一致性聚类，都利用快速聚类法进行求解；而本发明创造性地将一致性聚类问题，通过对效用函数的转化，重新定义为快速聚类法的求解问题，使得熟悉本领域的人员可以很容易地使用该方法。

一种基于一致性聚类的Web文本分类方法，分为三个模块：数据收集与预处理模块，基础聚类结果生成模块和一致性聚类融合模块，其中数据收集与预处理模块包括数据收集、处理、停用词移除、提取词干和生成向量空间模型等过程，基础聚类结果生成模块利用快速聚类法生成基础聚类结果，一致性聚类融合模块包括0-1二元矩阵的生成、效用函数的选择、快速聚类法的距离函数的计算以及最后的求解和输出，具体实施过程如下：

1.收集互联网上的文本数据。

2.将文本数据进行分词处理。

3.停用词移除。

4.词干提取。

5.针对每一条文本数据生成向量空间模型，X＝{x_l|1＜l＜n}，n为文本数据的数量。

6.基础聚类结果的生成。

从上述文本数据X中抽取部分维度，得到X_p，再设定簇的个数，利用快速聚类法对进行X_p聚类。快速聚类法具体流程如下：

1)从n个数据对象中任意选择K个对象作为初始聚类中心；

2)循环2.1)到2.2)直到每个聚类不再发生变化或者达到指定迭代次数：

2.1)根据每个聚类对象的均值为该聚类生成中心对象，计算每个对象与这些中心对象的距离，并根据最小距离重新对相应对象进行划分；

2.2)重新计算每个有变化的聚类的中心对象。

一般而言，只需从x中随机抽取10％的维度生成X_p；多次重复步骤6得到r个基础聚类结果，为了最后得到稳定的结果，建议r＝100。

7.0-1二元矩阵的生成

一致性聚类方法作用在0-1二元矩阵上，因此要将输入的基础聚类结果利用公式(1)转化成0-1二元矩阵，使得每个基础聚类分量的类别除了在其所在类的位置为1，其余位置为0。

x_{l}^{(b)} = < x_{l, 1}^{(b)}, \cdot \cdot \cdot x_{l, i}^{(b)}, \cdot \cdot \cdot, x_{l, r}^{(b)} > - - - (1)

其中

x_{l, i}^{(b)} = < x_{l, i 1}^{(b)}, \cdot \cdot \cdot, x_{l, ij}^{(b)}, \cdot \cdot \cdot x_{l, i K_{i}}^{(b)} >,

例如，图2中共有3个基础聚类结果分别为π₁、π₂和π₃，它们分别将6个数据点分成3，3和4个类，如π₁中前2个点为一类，中间两个点为一类，后面两个点为一类。π_i中的每一个点将转化成一个1×K_i的行向量，最后将所有构成的矩阵拼接成见图2。因此，是一个的矩阵，并且

| x_{l, i}^{(b)} | = 1, &ForAll; l, i .

8.效用函数的选择

一致性聚类意图寻找一个与基础聚类结果都尽可能相似的一致性聚类结果，而两个聚类结果的相似程度使用效用函数进行衡量。因此，一致性聚类本质是一个NP完全的组合优化问题，见公式(5)。

\arg \max_{π} Σ_{i = 1}^{r} w_{i} U (π, π_{i}) - - - (5)

效用函数的选择与最后的一致性聚类结果有着密切的联系，并不是所有的效用函数都可以应用快速聚类法进行求解。如果效用函数U可以进行如公式(2)所示的分解，则可利用基于快速一致性聚类的框架进行求解。

其中，p_k表示第k个类占所有数据的比例，m_k，i表示π_i的第k个类的中心，且上式中为凸函数。

常用的快速一致性聚类效用函数见表1，建议使用基于信息熵的效用函数，如交互信息等。

表1给出常用的效用函数，和快速聚类法的距离函数f的对应关系。

表1常用效用函数距离

注：P⁽ⁱ⁾为各类的分布情况，H表示熵，D表示KL-divergence。

9.基于生成快速聚类法的距离函数

从上步中可从效用函数分离出凸函数进而根据构建快速聚类法的距离函数

f (x, y) = Φ (x) - Φ (y) - {(x - y)}^{T} &dtri; Φ (y) - - - (3)

其中

10快速聚类法进行求解

根据效用函数，选择与其对应的快速聚类法的距离函数，在上述0-1二元矩阵上运用快速聚类算法求得最后的一致性聚类结果。由于快速聚类法只能收敛到局部最小点，而不是全局最小点。快速聚类法要重复运行多次(一般为10次)，返回其目标函数最小的聚类结果。模式输出，得到一致性聚类结果，完成文本分类。

发明所述的基于一致性聚类的Web文本分类方法，首先在低维空间获得多个质量高的基础聚类结果，再通过一致性聚类方法获得鲁棒的文本分类结果。

具体而言，提供一种基于一致性聚类的Web文本分类方法，包括以下步骤：

步骤一，输入一段文字信息数据，其中包括n个文本；例如在人民网或强国论坛上抓取最近三天的上载言论，将每个IP地址的言论作为一个文本，或者将每段言论作为一个文本。

步骤二，根据含有m个词汇的预设词库，对n个文本进行分词处理；m是个相当庞大的数量级，例如十万级。m个词汇是分词软件预先设定好的，里面可以包括大量的中文或英文词汇。进行分词处理的时候，通常是提出一个文本，然后按照一定的顺序进行组合，并根据这m个词汇，判断组合是不是词汇，如果是，就进行分词。

步骤三，根据每个文本中的分词在词库中出现的次数，制作每个文本的m维向量空间模型，n个文本组合在一起形成n×m的向量空间矩阵；n为行数，也就是所抓取到的文本数，而m为列数，也就是预设词汇的数量。因此，这个向量空间矩阵的数据非常庞大，无法直接进行聚类分析，这就是所谓的维度灾难。那么如何将其简化进行聚类分析，并且能够得到相对准确的结果呢？

为此在步骤四中，在n×m的向量空间矩阵中随机提取n×m′的子矩阵，其中m′小于m，对n×m′子矩阵进行聚类分析；这样就极大地缩小了需要聚类的信息的数量。取哪些位置的m′是完全随机进行的。

步骤五，重复步骤四r次，直到得到r个聚类分析结果；r的值无需过大，通常为100左右即可。

步骤六，将r个聚类分析结果再进行聚类分析，得到最终聚类结果，这个最终聚类结果表征n个文本之间的归类关系，由此将n个文本分类。

所述的基于一致性聚类的Web文本分类方法中，所述步骤一中的文字信息数据来源于在互联网上抓取一预设时间段内的文字信息数据。

所述的基于一致性聚类的Web文本分类方法中，所述在互联网上抓取一预设时间段内的文字信息数据包括抓取特定网站、论坛、博客或微博中的Web文本数据。

所述的基于一致性聚类的Web文本分类方法中，在所述步骤二中，对每个文本进行分词处理都包括以下步骤：

1)去掉Web文本的所有格式标签；Web文本可能存在多种格式，例如xml、html等，去掉格式标签的目的就是将这些文本数据同化。

2)去掉无标签文本中的停止词；停止词是根据文法确定的，例如中文中的不适于进行文件含义分析的“的、了、也”之类的词汇就属于停止词。并且对于英文来说，去停止词的步骤中还包括将各种语态、时态的词还原为原形的过程。

3)根据预设词库中的词汇，按照文本文字从前到后的顺序，对文本中的文字进行分词拆分。例如针对“今天我很高兴”这个文本，首先组合出“今天”这个组合，该组合能够在词库中找到，即确认为“今天”为一个分词，然后组合出“我很”这个组合，该组合并不能够在词库中找到，而“我”这个字可以在词库中找到，“我”也为一个分词。以此类推。

所述的基于一致性聚类的Web文本分类方法中，所述步骤三中的m维向量空间模型为将一个文本中的分词与m个词汇进行比较，如果m个词汇中的一个词汇在该文本中出现a次，则在该词汇下记录a，如果m个词汇中的一个词汇在该文本中没有出现，则在该词汇下记录0，最后再根据预设词库中m个词汇的排列次序对记录值进行排序，由此得到所述m维向量空间模型。在m为十万级别的情况下，就行了一个包括十万级数据的向量空间模型，其中绝大部分数据为0，而很少的数据为数字。例如文本中包括5个“今天”这个分词，那么就在词库中的今天这个词汇的位置处标注5。

所述的基于一致性聚类的Web文本分类方法中，所述步骤四中的m′为m的十分之一。

所述的基于一致性聚类的Web文本分类方法中，所述步骤四中的聚类分析采用K均值聚类算法。K均值聚类是最著名的聚类算法，由于简洁和效率使得他成为所有聚类算法中最广泛使用的。给定一个数据点集合和需要的聚类数目K，K由用户指定，K均值算法根据某个距离函数反复把数据分入K个聚类中。先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了，每个聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是以下任何一个：

1)没有(或最小数目)对象被重新分配给不同的聚类。

2)没有(或最小数目)聚类中心再发生变化。

3)误差平方和局部最小。

实际上此处可以采用任何一种现有的聚类算法。

所述的基于一致性聚类的Web文本分类方法中，所述步骤五中的r为100。

所述的基于一致性聚类的Web文本分类方法中，所述步骤六中的将r个聚类分析结果再进行聚类分析的方法如下：如图2所示，其中示出了如果将三个聚类分析结果转换为0-1二元矩阵。第一个聚类分析结果为π₁，其中包含3个类，因此当转换为0-1二元矩阵的时候，有三列。在π₁中，n的值为6，因此当转换为0-1二元矩阵的时候，有六行。转换是这样进行的：在π₁中，第一行的数据为1，表明该样本属于第一个类，这时就在第一行第一列内记录1；第二行的数据为1，表明该样本属于第一个类，这时就在第二行第一列内记录1；第三行的数据为2，表明该样本属于第二个类，这时就在第三行第二列内记录1；第四行的数据为2，表明该样本属于第二个类，这时就在第四行第二列内记录1；第五行的数据为3，表明该样本属于第三个类，这时就在第五行第三列内记录1；第六行的数据为3，表明该样本属于第三个类，这时就在第六行第三列内记录1；其与位置均记录为0。类似的，对于第三个聚类分析结果为π₃，其中包含4个类，因此当转换为0-1二元矩阵的时候，有四列。

具体步骤如下：

1)先将每一个聚类分析结果转化为0-1二元矩阵，其中二元矩阵的行数为n，列数为该聚类分析结果中的最大值，即其中分词出现的最大次数；

2)将得到的所有0-1二元矩阵组合形成n×(每一个聚类分析结果的最大次数之和)的二元矩阵；

3)采用K均值聚类算法对组合形成的0-1二元矩阵进行聚类分析，得到所述最终一个聚类结果。本发明的方法通过将n×m这样庞大的矩阵数据转化为随机抽取其中的一部分数据n×m′，并且只抽取k次的方式，极大地缩减了待处理数据量。并且发明人创造性地提出了用转化成0-1二元矩阵的方法成功地实现了最终聚类结果的获得。发明人通过大量的样本试验发现，这种方法得到的聚类结果准确率能够达到90％以上。

所述的基于一致性聚类的Web文本分类方法中，所述随机提取为简单随机抽样提取。当然也可以采用选择性随机提取方法。

尽管本发明的实施方案公开如上，但其不仅仅限于说明书和实施方案中所列运用，它完全可以被适用于各种适合本发明的领域，对于实习本领域的人员而言，可容易地实施另外的修改，因此，在不背离权力要求及等同范围所限定的一般概念下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明保护范围内。

Claims

1.一种基于一致性聚类的Web文本分类方法，其特征在于，包括以下步骤：

步骤一，输入一段文字信息数据，其中包括n个文本；

步骤二，根据含有m个词汇的预设词库，对n个文本进行分词处理：去掉Web文本的所有格式标签；去掉无标签文本中的停止词；根据预设词库中的词汇，按照文本文字从前到后的顺序，对文本中的文字进行分词拆分；

步骤三，根据每个文本中的分词在词库中出现的次数，制作每个文本的m维向量空间模型，n个文本组合在一起形成n×m的向量空间矩阵；

步骤四，在n×m的向量空间矩阵中随机提取n×m'的子矩阵，其中m'＝10％m，对n×m'子矩阵进行聚类分析；

步骤五，重复步骤四r次，直到得到r个聚类分析结果；

步骤六，将r个聚类分析结果再进行聚类分析的方法如下：

1)先将每一个聚类分析结果利用公式(1)转化为0-1二元矩阵，用表示由上述聚类分析结果得到的0-1二元矩阵，b表示binary，n为样本个数，其生成方式如公式(1)所示：

x_{l}^{(b)} = < x_{l, 1}^{(b)}, ... x_{l, i}^{(b)}, ..., x_{l, r}^{(b)} > - - - (1)

其中

x_{l, i}^{(b)} = < x_{l, i 1}^{(b)}, ... x_{l, i j}^{(b)}, ..., x_{l, {iK}_{i}}^{(b)} >,

因此，是一个的矩阵，并且

| x_{l, i}^{(b)} | = 1, &ForAll; l, i;

其中二元矩阵的行数为n，列数为该聚类分析结果中的最大值，即包含的类的个数；

其中，用π_i表示第i个基础聚类结果，K_i表示π_i的类别个数；

2)将得到的所有0-1二元矩阵组合形成n×(每一个聚类分析结果的类别个数之和)的二元矩阵；

3)采用K均值聚类算法对组合形成的0-1二元矩阵进行聚类分析，得到最终聚类结果。

2.如权利要求1所述的基于一致性聚类的Web文本分类方法，其特征在于，所述步骤一中的文字信息数据来源于在互联网上抓取一预设时间段内的文字信息数据。

3.如权利要求2所述的基于一致性聚类的Web文本分类方法，其特征在于，所述在互联网上抓取一预设时间段内的文字信息数据包括抓取特定网站、论坛、博客或微博中的Web文本数据。

4.如权利要求3所述的基于一致性聚类的Web文本分类方法，其特征在于，所述步骤三中的m维向量空间模型为将一个文本中的分词与m个词汇进行比较，如果m个词汇中的一个词汇在该文本中出现a次，则在该词汇下记录a，如果m个词汇中的一个词汇在该文本中没有出现，则在该词汇下记录0，最后再根据预设词库中m个词汇的排列次序对记录值进行排序，由此得到所述m维向量空间模型。

5.如权利要求1或4所述的基于一致性聚类的Web文本分类方法，其特征在于，所述步骤四中的聚类分析采用K均值聚类算法。

6.如权利要求1所述的基于一致性聚类的Web文本分类方法，其特征在于，所述随机提取为简单随机抽样提取。