CN103365999A

CN103365999A - 一种基于相似度矩阵谱分解的文本聚类集成方法

Info

Publication number: CN103365999A
Application number: CN2013102962853A
Authority: CN
Inventors: 徐森; 李先锋; 曹瑞; 陈荣
Original assignee: Yangcheng Institute of Technology
Current assignee: Yangcheng Institute of Technology
Priority date: 2013-07-16
Filing date: 2013-07-16
Publication date: 2013-10-23

Abstract

本发明公开一种基于相似度矩阵谱分解的文本聚类集成方法，包括以下步骤：将文本集合表示为词-文本共现矩阵A；构造多个基聚类器对A的列进行聚类；集成基聚类器的结果获得最终的聚类结果；结束。本发明的显著优点是实现简单，利用高效的矩阵运算降低了算法计算复杂度，获得的聚类结果稳定且精度较高。

Description

一种基于相似度矩阵谱分解的文本聚类集成方法

技术领域

本发明涉及一种基于相似度矩阵谱分解的文本聚类集成方法，属于文本挖掘技术。

背景技术

随着网络信息的飞速增长和搜索引擎技术的日趋成熟，人类社会所面临的主要问题已经不再是信息匮乏，而是如何提高信息获取和信息访问的效率。通过对搜索引擎返回的结果进行聚类处理，用户可以不必依次查看所有文本，而只关注比较有可能的类别，从而迅速定位到所需要的信息。由于文本数据的高维、稀疏、海量等特性，传统的聚类算法在处理文本数据时存在聚类结果精度较低、不稳定、计算复杂度高等缺点。聚类集成技术可以有效克服传统聚类算法的缺点，提高单一聚类算法的精度和稳定性。聚类集成的基本思想是，首先用多个独立的基聚类器分别对原始数据集进行聚类，然后对基聚类器的结果进行集成，获得最终的聚类结果。现有的聚类集成方法都存在很多问题，如对簇的形状强加了某种结构、对簇的大小有很强的约束、计算复杂度高、得到局部最优解等。

发明内容

发明目的：针对现有技术存在的问题与不足，本发明提供一种可以有效提高聚类效果的基于相似度矩阵谱分解的文本聚类集成方法。

技术方案：一种基于相似度矩阵谱分解的文本聚类集成方法，包括将文本集合进行分词、去除停用词和低频词等预处理，然后进行聚类分析，得到聚类结果；进行聚类分析，得到聚类结果包括以下步骤：1、将文本集合表示为词-文本共现矩阵A；2、构造多个基聚类器对A的列进行聚类；3、集成基聚类器的结果获得最终的聚类结果；4、结束。

有益效果：与现有技术相比，本发明提供的基于相似度矩阵谱分解的文本聚类集成方法，实现简单，利用高效的矩阵运算降低了算法计算复杂度，获得的聚类结果稳定且精度高。

附图说明

图1是文本聚类的主要流程图；

图2是本发明方法的流程图；

图3是将文本集合表示为词-文本共现矩阵的流程图；

图4是构造多个基聚类器对词-文本共现矩阵A的列进行聚类的流程图；

图5是采用余弦相似度函数计算文本相似度的流程图；

图6是集成基聚类器的结果获得最终的聚类结果的流程图；

图7是构建H⁽ⁱ⁾的流程图；

图8是构建矩阵U_k的流程图；

图9是最小最大原则示意图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，文本集合经过预处理后，根据向量空间模型，每个文本被表示为向量空间模型中的向量，文本集合被表示为词-文本共现矩阵；然后对词-文本共现矩阵进行聚类分析，获得聚类结果。

本发明的方法如图2所示。步骤10是开始。步骤11将文本集合表示为词-文本共现矩阵A，该步骤将在后面的部分结合图3进行具体介绍。步骤12构造多个基聚类器对A的列进行聚类，该步骤将在后面的部分结合图4进行具体介绍。步骤13集成基聚类器的结果获得最终的聚类结果，该步骤将在后面的部分结合图6进行具体介绍。步骤14是图2的结束状态。

图3详细说明了图2中的步骤11，其作用是将文本集合表示为便于后续聚类分析的矩阵形式。步骤110是开始。步骤111对文本集合进行分词处理，得到所有词构成的集合W₀。步骤112对照停用词表，移除W₀中的停用词，得到词集W₁。步骤113移除W₁中的低频词，得到特征词集W。步骤114统计每个特征词w_i在每个文本d_j中出现的次数t_ij。步骤115构建词-文本共现矩阵A：A_ij=t_ij，1≤i≤d，1≤j≤n，d为特征词个数，亦即向量空间的维数，n为文本集合的大小。步骤116是图3的结束状态。

图4详细说明了图2中的步骤12，其作用是构造多个基聚类器对A的列进行聚类。步骤120开始。步骤121从用户处获得要使用的基聚类器个数r（r是一个大于1的整数）和聚类个数k（k值的选取是一个比较困难的问题，一般将聚类个数设置为真实文本类别数）。步骤122将控制参数i置初值1。步骤123判断i是否小于或等于r，是则转到步骤124，否则转到步骤128。步骤124采用余弦相似度函数计算文本相似度，该步骤将在后面的部分结合图5进行具体介绍。步骤125随机生成k个d维均值向量，作为K均值算法的初始质心向量，使用K均值算法对A进行划分。步骤126得到基聚类器的结果P⁽ⁱ⁾。步骤127将控制变量i加1，然后转到步骤123。步骤128输出多个基聚类器的结果Π={Ρ⁽¹⁾，…，P^(r)}。步骤129是图4的结束状态。

图5详细说明了图4中的步骤124，其作用是采用余弦相似度函数计算文本相似度，以便于后续K均值算法聚类。步骤1240是开始。步骤1241计算词频（term frequency）tf_ij=t_ij/Σ_it_ij，tf_ij捕获了词w_i在文本d_j中的重要性。步骤1242计算每个词w_i出现在文本集合中的次数n_i。步骤1243计算逆文本频率（inversedocument frequency）idf_i=log(n/n_i)，idf_i捕获了词w_i在整个文本集合中的重要性。步骤1244计算归一化因子s_j=(Σ^d _i=1(tf_ij×idf_i)²)^1/2，s_j的作用是得文本向量的欧几里德范数为1，便于后续的文本向量相似度计算。步骤1245计算经过TF-IDF（termfrequency-inverse document frequency）加权的文本向量u_j：u_ij=tf_ij×idf_i×s_j。TF-IDF加权技术的关键思想在于假设对区别文本贡献最大的特征词是那些在单个文本中出现频率高，而在整个文本集合的其他文本中出现频率低的词。引入逆文本频率IDF的概念，以TF和IDF的乘积作为特征空间坐标系的取值测度，并用它完成对权值TF的调整，以突出重要单词，抑制次要单词。步骤1246计算任意两个文本向量d_i、d_j的余弦相似度sim(d_i,d_j)=cos(θ(d_i,d_j))=u_i·u_j/||u_i||||u_j||=u_i·u_j=u_iu_j ^T，即只需计算加权文本向量之间的点积，而无需每次都计算向量的长度，这样就可以有效提高聚类算法的运行效率。步骤1247是图5的结束状态。

图6是集成基聚类器的结果获得最终的聚类结果的流程图。步骤130是初始动作。步骤131根据多个基聚类器的结果Π={Ρ⁽¹⁾，…，P^(r)}，构建超图的邻接矩阵H=H^(1…r)=(H⁽¹⁾…H^(r))，构建H⁽ⁱ⁾的步骤将在后面的部分结合图7进行具体介绍。步骤132使用代数变换方法求解相似度矩阵S的特征值分解问题，并将S的前k个最大特征向量按列排放，构建矩阵U_k=[u₁…u_k]，构建U_k的步骤将在后面的部分结合图8进行具体介绍。步骤133基于最小最大原则（示意图参见图9）选择k个k维向量，作为K均值算法的初始质心向量，使用K均值算法将U_k的行聚为k个簇C₁，…，C_k。步骤134是图6的结束状态。

图7是构建H⁽ⁱ⁾的流程图。步骤1310是开始。步骤1311初始化H⁽ⁱ⁾，其大小为n×k，矩阵元素为0。步骤1312将控制参数j置初值1。步骤1313判断j是否小于或等于k，是则转到步骤1314，否则转到步骤1316。步骤1314找到P⁽ⁱ⁾中簇标签为j的元素所在位置，将H⁽ⁱ⁾的第j列相应位置的元素值置为1。步骤1315将控制变量j加1，然后转到步骤1313。步骤1316是图7的结束状态。

图8是构建矩阵U_k的流程图。步骤1320是开始。步骤1321计算矩阵B=H^TH。步骤1322求解B的前k个最大特征值λ₁，…，λ_k及对应的特征向量v₁，…，v_k。步骤1323构建矩阵V_k=[v₁…v_k]，Λ_k=diag(λ₁,…,λ_k)。步骤1324计算U_k=HV_kΛ_k ^-1/2。步骤1325是图8的结束状态。

图9是最小最大原则示意图（k=3）。首先确定两个最远的点x₁和x₂为两个初始质心，第三个初始质心根据如下规则确定：第三个初始质心到前两个质心x₁和x₂的最小距离等于所有点中与x₁和x₂的较小距离中的最大距离。所以在确定x₁和x₂后，下一个选择的点是x₃而不是x₃'。

Claims

1.一种基于相似度矩阵谱分解的文本聚类集成方法，其特征在于，包括以下步骤：

（1）将文本集合表示为词-文本共现矩阵A；

（2）构造多个基聚类器对词-文本共现矩阵A的列进行聚类；

（3）集成基聚类器的结果获得最终的聚类结果；

（4）结束。

2.根据权利要求1所述的基于相似度矩阵谱分解的文本聚类集成方法，其特征在于，所说将文本集合表示为词-文本共现矩阵的步骤是：

（1）步骤111对文本集合进行分词处理，得到所有词构成的集合W₀；

（2）步骤112对照停用词表，移除集合W₀中的停用词，得到词集W₁；

（3）步骤113移除词集W₁中的低频词，得到特征词集W；

（4）步骤114统计特征词集W中每个特征词w_i在每个文本d_j中出现的次数t_ij；

（5）步骤115构建词-文本共现矩阵A：A_ij=t_ij，1≤i≤d，1≤j≤n，d为特征词个数，亦即向量空间的维数，n为文本集合的大小；

（6）结束。

3.根据权利要求2所述的基于相似度矩阵谱分解的文本聚类集成方法，其特征在于，所说构造多个基聚类器对A的列进行聚类的步骤是：

（1）步骤121从用户处获得要使用的基聚类器个数r和聚类个数k；其中r是一个大于1的整数，k为真实文本类别数；

（2）步骤122将控制参数i置初值1；

（3）步骤123判断i是否小于或等于r，是则执行步骤124，否则转到步骤128；

（4）步骤124采用余弦相似度函数计算文本相似度；

（5）步骤125随机生成k个d维均值向量，作为K均值算法的初始质心向量，使用K均值算法对A进行划分；

（6）步骤126得到基聚类器的结果P⁽ⁱ⁾；

（7）步骤127将控制变量i加1，然后转到步骤123；

（8）步骤128输出多个基聚类器的结果Π={Ρ⁽¹⁾，…，P^(r)}；

（9）结束。

4.根据权利要求3所述的基于相似度矩阵谱分解的文本聚类集成方法，其特征在于，构造多个基聚类器对A的列进行聚类的方法，所述采用余弦相似度函数计算文本相似度的步骤是：

（1）步骤1241计算词频tf_ij=t_ij/Σ_it_ij，tf_ij捕获了词w_i在文本d_j中的重要性；

（2）步骤1242计算每个词w_i出现在文本集合中的次数n_i；

（3）步骤1243计算逆文本频率idf_i=log(n/n_i)，idf_i捕获了词w_i在整个文本集合中的重要性；

（4）步骤1244计算归一化因子s_j=(Σ^d _i=1(tf_ij×idf_i)²)^1/2，s_j的作用是得文本向量的欧几里德范数为1；

（5）步骤1245计算经过TF-IDF加权的文本向量u_j：u_ij=tf_ij×idf_i×s_j；

（6）步骤1246计算任意两个文本向量d_i、d_j的余弦相似度sim(d_i,d_j)=cos(θ(d_i,d_j))=u_i·u_j/||u_i||||u_j||=u_i·u_j=u_iu_j ^T；

（7）结束。

5.根据权利要求4所述的基于相似度矩阵谱分解的文本聚类集成方法，其特征在于，所述集成基聚类器的结果获得最终的聚类结果的步骤是：

（1）步骤131根据多个基聚类器的结果Π={Ρ⁽¹⁾，…，P^(r)}，构建超图的邻接矩阵H=H^(1…r)=(H⁽¹⁾…H^(r))；

（2）步骤132使用代数变换方法求解相似度矩阵S的特征值分解问题，并将S的前k个最大特征向量按列排放，构建矩阵U_k=[u₁…u_k]；

（3）步骤133基于最小最大原则选择k个k维向量，作为K均值算法的初始质心向量，使用K均值算法将U_k的行聚为k个簇C₁，…，C_k；

（4）结束。

6.根据权利要求5所述的基于相似度矩阵谱分解的文本聚类集成方法，其特征在于，集成基聚类器的结果获得最终的聚类结果的方法中，所述构建H⁽ⁱ⁾的步骤是：

（1）步骤1311初始化H⁽ⁱ⁾，其大小为n×k，矩阵元素为0；

（2）步骤1312将控制参数j置初值1；

（3）步骤1313判断j是否小于或等于k，是则执行步骤1314，否则结束构建H⁽ⁱ⁾的步骤；

（4）步骤1314找到P⁽ⁱ⁾中簇标签为j的元素所在位置，将H⁽ⁱ⁾的第j列相应位置的元素值置为1；

（5）步骤1315将控制变量j加1，然后转到步骤1313；

（6）结束。

7.根据权利要求5所述的基于相似度矩阵谱分解的文本聚类集成方法，其特征在于，集成基聚类器的结果获得最终的聚类结果的方法中，所述构建U_k的步骤是：

（1）步骤1321计算矩阵B=H^TH；

（2）步骤1322求解B的前k个最大特征值λ₁，…，λ_k及对应的特征向量v₁，…，v_k；

（3）步骤1323构建矩阵V_k=[v₁…v_k]，Λ_k=diag(λ₁,…,λ_k)；

（4）步骤1324计算U_k=HV_kΛ_k ^-1/2；

（5）结束。