CN103365999A - 一种基于相似度矩阵谱分解的文本聚类集成方法 - Google Patents

一种基于相似度矩阵谱分解的文本聚类集成方法 Download PDF

Info

Publication number
CN103365999A
CN103365999A CN2013102962853A CN201310296285A CN103365999A CN 103365999 A CN103365999 A CN 103365999A CN 2013102962853 A CN2013102962853 A CN 2013102962853A CN 201310296285 A CN201310296285 A CN 201310296285A CN 103365999 A CN103365999 A CN 103365999A
Authority
CN
China
Prior art keywords
text
cluster
word
matrix
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013102962853A
Other languages
English (en)
Inventor
徐森
李先锋
曹瑞
陈荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangcheng Institute of Technology
Yancheng Institute of Technology
Original Assignee
Yangcheng Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangcheng Institute of Technology filed Critical Yangcheng Institute of Technology
Priority to CN2013102962853A priority Critical patent/CN103365999A/zh
Publication of CN103365999A publication Critical patent/CN103365999A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于相似度矩阵谱分解的文本聚类集成方法,包括以下步骤:将文本集合表示为词-文本共现矩阵A;构造多个基聚类器对A的列进行聚类;集成基聚类器的结果获得最终的聚类结果;结束。本发明的显著优点是实现简单,利用高效的矩阵运算降低了算法计算复杂度,获得的聚类结果稳定且精度较高。

Description

一种基于相似度矩阵谱分解的文本聚类集成方法
技术领域
本发明涉及一种基于相似度矩阵谱分解的文本聚类集成方法,属于文本挖掘技术。
背景技术
随着网络信息的飞速增长和搜索引擎技术的日趋成熟,人类社会所面临的主要问题已经不再是信息匮乏,而是如何提高信息获取和信息访问的效率。通过对搜索引擎返回的结果进行聚类处理,用户可以不必依次查看所有文本,而只关注比较有可能的类别,从而迅速定位到所需要的信息。由于文本数据的高维、稀疏、海量等特性,传统的聚类算法在处理文本数据时存在聚类结果精度较低、不稳定、计算复杂度高等缺点。聚类集成技术可以有效克服传统聚类算法的缺点,提高单一聚类算法的精度和稳定性。聚类集成的基本思想是,首先用多个独立的基聚类器分别对原始数据集进行聚类,然后对基聚类器的结果进行集成,获得最终的聚类结果。现有的聚类集成方法都存在很多问题,如对簇的形状强加了某种结构、对簇的大小有很强的约束、计算复杂度高、得到局部最优解等。
发明内容
发明目的:针对现有技术存在的问题与不足,本发明提供一种可以有效提高聚类效果的基于相似度矩阵谱分解的文本聚类集成方法。
技术方案:一种基于相似度矩阵谱分解的文本聚类集成方法,包括将文本集合进行分词、去除停用词和低频词等预处理,然后进行聚类分析,得到聚类结果;进行聚类分析,得到聚类结果包括以下步骤:1、将文本集合表示为词-文本共现矩阵A;2、构造多个基聚类器对A的列进行聚类;3、集成基聚类器的结果获得最终的聚类结果;4、结束。
有益效果:与现有技术相比,本发明提供的基于相似度矩阵谱分解的文本聚类集成方法,实现简单,利用高效的矩阵运算降低了算法计算复杂度,获得的聚类结果稳定且精度高。
附图说明
图1是文本聚类的主要流程图;
图2是本发明方法的流程图;
图3是将文本集合表示为词-文本共现矩阵的流程图;
图4是构造多个基聚类器对词-文本共现矩阵A的列进行聚类的流程图;
图5是采用余弦相似度函数计算文本相似度的流程图;
图6是集成基聚类器的结果获得最终的聚类结果的流程图;
图7是构建H(i)的流程图;
图8是构建矩阵Uk的流程图;
图9是最小最大原则示意图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,文本集合经过预处理后,根据向量空间模型,每个文本被表示为向量空间模型中的向量,文本集合被表示为词-文本共现矩阵;然后对词-文本共现矩阵进行聚类分析,获得聚类结果。
本发明的方法如图2所示。步骤10是开始。步骤11将文本集合表示为词-文本共现矩阵A,该步骤将在后面的部分结合图3进行具体介绍。步骤12构造多个基聚类器对A的列进行聚类,该步骤将在后面的部分结合图4进行具体介绍。步骤13集成基聚类器的结果获得最终的聚类结果,该步骤将在后面的部分结合图6进行具体介绍。步骤14是图2的结束状态。
图3详细说明了图2中的步骤11,其作用是将文本集合表示为便于后续聚类分析的矩阵形式。步骤110是开始。步骤111对文本集合进行分词处理,得到所有词构成的集合W0。步骤112对照停用词表,移除W0中的停用词,得到词集W1。步骤113移除W1中的低频词,得到特征词集W。步骤114统计每个特征词wi在每个文本dj中出现的次数tij。步骤115构建词-文本共现矩阵A:Aij=tij,1≤i≤d,1≤j≤n,d为特征词个数,亦即向量空间的维数,n为文本集合的大小。步骤116是图3的结束状态。
图4详细说明了图2中的步骤12,其作用是构造多个基聚类器对A的列进行聚类。步骤120开始。步骤121从用户处获得要使用的基聚类器个数r(r是一个大于1的整数)和聚类个数k(k值的选取是一个比较困难的问题,一般将聚类个数设置为真实文本类别数)。步骤122将控制参数i置初值1。步骤123判断i是否小于或等于r,是则转到步骤124,否则转到步骤128。步骤124采用余弦相似度函数计算文本相似度,该步骤将在后面的部分结合图5进行具体介绍。步骤125随机生成k个d维均值向量,作为K均值算法的初始质心向量,使用K均值算法对A进行划分。步骤126得到基聚类器的结果P(i)。步骤127将控制变量i加1,然后转到步骤123。步骤128输出多个基聚类器的结果Π={Ρ(1),…,P(r)}。步骤129是图4的结束状态。
图5详细说明了图4中的步骤124,其作用是采用余弦相似度函数计算文本相似度,以便于后续K均值算法聚类。步骤1240是开始。步骤1241计算词频(term frequency)tfij=tijitij,tfij捕获了词wi在文本dj中的重要性。步骤1242计算每个词wi出现在文本集合中的次数ni。步骤1243计算逆文本频率(inversedocument frequency)idfi=log(n/ni),idfi捕获了词wi在整个文本集合中的重要性。步骤1244计算归一化因子sj=(Σd i=1(tfij×idfi)2)1/2,sj的作用是得文本向量的欧几里德范数为1,便于后续的文本向量相似度计算。步骤1245计算经过TF-IDF(termfrequency-inverse document frequency)加权的文本向量uj:uij=tfij×idfi×sj。TF-IDF加权技术的关键思想在于假设对区别文本贡献最大的特征词是那些在单个文本中出现频率高,而在整个文本集合的其他文本中出现频率低的词。引入逆文本频率IDF的概念,以TF和IDF的乘积作为特征空间坐标系的取值测度,并用它完成对权值TF的调整,以突出重要单词,抑制次要单词。步骤1246计算任意两个文本向量di、dj的余弦相似度sim(di,dj)=cos(θ(di,dj))=ui·uj/||ui||||uj||=ui·uj=uiuj T,即只需计算加权文本向量之间的点积,而无需每次都计算向量的长度,这样就可以有效提高聚类算法的运行效率。步骤1247是图5的结束状态。
图6是集成基聚类器的结果获得最终的聚类结果的流程图。步骤130是初始动作。步骤131根据多个基聚类器的结果Π={Ρ(1),…,P(r)},构建超图的邻接矩阵H=H(1…r)=(H(1)…H(r)),构建H(i)的步骤将在后面的部分结合图7进行具体介绍。步骤132使用代数变换方法求解相似度矩阵S的特征值分解问题,并将S的前k个最大特征向量按列排放,构建矩阵Uk=[u1…uk],构建Uk的步骤将在后面的部分结合图8进行具体介绍。步骤133基于最小最大原则(示意图参见图9)选择k个k维向量,作为K均值算法的初始质心向量,使用K均值算法将Uk的行聚为k个簇C1,…,Ck。步骤134是图6的结束状态。
图7是构建H(i)的流程图。步骤1310是开始。步骤1311初始化H(i),其大小为n×k,矩阵元素为0。步骤1312将控制参数j置初值1。步骤1313判断j是否小于或等于k,是则转到步骤1314,否则转到步骤1316。步骤1314找到P(i)中簇标签为j的元素所在位置,将H(i)的第j列相应位置的元素值置为1。步骤1315将控制变量j加1,然后转到步骤1313。步骤1316是图7的结束状态。
图8是构建矩阵Uk的流程图。步骤1320是开始。步骤1321计算矩阵B=HTH。步骤1322求解B的前k个最大特征值λ1,…,λk及对应的特征向量v1,…,vk。步骤1323构建矩阵Vk=[v1…vk],Λk=diag(λ1,…,λk)。步骤1324计算Uk=HVkΛk -1/2。步骤1325是图8的结束状态。
图9是最小最大原则示意图(k=3)。首先确定两个最远的点x1和x2为两个初始质心,第三个初始质心根据如下规则确定:第三个初始质心到前两个质心x1和x2的最小距离等于所有点中与x1和x2的较小距离中的最大距离。所以在确定x1和x2后,下一个选择的点是x3而不是x3'。

Claims (7)

1.一种基于相似度矩阵谱分解的文本聚类集成方法,其特征在于,包括以下步骤:
(1)将文本集合表示为词-文本共现矩阵A;
(2)构造多个基聚类器对词-文本共现矩阵A的列进行聚类;
(3)集成基聚类器的结果获得最终的聚类结果;
(4)结束。
2.根据权利要求1所述的基于相似度矩阵谱分解的文本聚类集成方法,其特征在于,所说将文本集合表示为词-文本共现矩阵的步骤是:
(1)步骤111对文本集合进行分词处理,得到所有词构成的集合W0
(2)步骤112对照停用词表,移除集合W0中的停用词,得到词集W1
(3)步骤113移除词集W1中的低频词,得到特征词集W;
(4)步骤114统计特征词集W中每个特征词wi在每个文本dj中出现的次数tij
(5)步骤115构建词-文本共现矩阵A:Aij=tij,1≤i≤d,1≤j≤n,d为特征词个数,亦即向量空间的维数,n为文本集合的大小;
(6)结束。
3.根据权利要求2所述的基于相似度矩阵谱分解的文本聚类集成方法,其特征在于,所说构造多个基聚类器对A的列进行聚类的步骤是:
(1)步骤121从用户处获得要使用的基聚类器个数r和聚类个数k;其中r是一个大于1的整数,k为真实文本类别数;
(2)步骤122将控制参数i置初值1;
(3)步骤123判断i是否小于或等于r,是则执行步骤124,否则转到步骤128;
(4)步骤124采用余弦相似度函数计算文本相似度;
(5)步骤125随机生成k个d维均值向量,作为K均值算法的初始质心向量,使用K均值算法对A进行划分;
(6)步骤126得到基聚类器的结果P(i)
(7)步骤127将控制变量i加1,然后转到步骤123;
(8)步骤128输出多个基聚类器的结果Π={Ρ(1),…,P(r)};
(9)结束。
4.根据权利要求3所述的基于相似度矩阵谱分解的文本聚类集成方法,其特征在于,构造多个基聚类器对A的列进行聚类的方法,所述采用余弦相似度函数计算文本相似度的步骤是:
(1)步骤1241计算词频tfij=tijitij,tfij捕获了词wi在文本dj中的重要性;
(2)步骤1242计算每个词wi出现在文本集合中的次数ni
(3)步骤1243计算逆文本频率idfi=log(n/ni),idfi捕获了词wi在整个文本集合中的重要性;
(4)步骤1244计算归一化因子sj=(Σd i=1(tfij×idfi)2)1/2,sj的作用是得文本向量的欧几里德范数为1;
(5)步骤1245计算经过TF-IDF加权的文本向量uj:uij=tfij×idfi×sj
(6)步骤1246计算任意两个文本向量di、dj的余弦相似度sim(di,dj)=cos(θ(di,dj))=ui·uj/||ui||||uj||=ui·uj=uiuj T
(7)结束。
5.根据权利要求4所述的基于相似度矩阵谱分解的文本聚类集成方法,其特征在于,所述集成基聚类器的结果获得最终的聚类结果的步骤是:
(1)步骤131根据多个基聚类器的结果Π={Ρ(1),…,P(r)},构建超图的邻接矩阵H=H(1…r)=(H(1)…H(r));
(2)步骤132使用代数变换方法求解相似度矩阵S的特征值分解问题,并将S的前k个最大特征向量按列排放,构建矩阵Uk=[u1…uk];
(3)步骤133基于最小最大原则选择k个k维向量,作为K均值算法的初始质心向量,使用K均值算法将Uk的行聚为k个簇C1,…,Ck
(4)结束。
6.根据权利要求5所述的基于相似度矩阵谱分解的文本聚类集成方法,其特征在于,集成基聚类器的结果获得最终的聚类结果的方法中,所述构建H(i)的步骤是:
(1)步骤1311初始化H(i),其大小为n×k,矩阵元素为0;
(2)步骤1312将控制参数j置初值1;
(3)步骤1313判断j是否小于或等于k,是则执行步骤1314,否则结束构建H(i)的步骤;
(4)步骤1314找到P(i)中簇标签为j的元素所在位置,将H(i)的第j列相应位置的元素值置为1;
(5)步骤1315将控制变量j加1,然后转到步骤1313;
(6)结束。
7.根据权利要求5所述的基于相似度矩阵谱分解的文本聚类集成方法,其特征在于,集成基聚类器的结果获得最终的聚类结果的方法中,所述构建Uk的步骤是:
(1)步骤1321计算矩阵B=HTH;
(2)步骤1322求解B的前k个最大特征值λ1,…,λk及对应的特征向量v1,…,vk
(3)步骤1323构建矩阵Vk=[v1…vk],Λk=diag(λ1,…,λk);
(4)步骤1324计算Uk=HVkΛk -1/2
(5)结束。
CN2013102962853A 2013-07-16 2013-07-16 一种基于相似度矩阵谱分解的文本聚类集成方法 Pending CN103365999A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013102962853A CN103365999A (zh) 2013-07-16 2013-07-16 一种基于相似度矩阵谱分解的文本聚类集成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013102962853A CN103365999A (zh) 2013-07-16 2013-07-16 一种基于相似度矩阵谱分解的文本聚类集成方法

Publications (1)

Publication Number Publication Date
CN103365999A true CN103365999A (zh) 2013-10-23

Family

ID=49367340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013102962853A Pending CN103365999A (zh) 2013-07-16 2013-07-16 一种基于相似度矩阵谱分解的文本聚类集成方法

Country Status (1)

Country Link
CN (1) CN103365999A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182539A (zh) * 2014-09-02 2014-12-03 五八同城信息技术有限公司 异常信息批量处理的方法及系统
CN106096066A (zh) * 2016-08-17 2016-11-09 盐城工学院 基于随机近邻嵌入的文本聚类方法
CN110020439A (zh) * 2019-04-16 2019-07-16 中森云链(成都)科技有限责任公司 一种基于隐藏关联网络的多领域文本隐式特征抽取方法
CN111274537A (zh) * 2020-01-20 2020-06-12 山西大学 一种基于惩罚性矩阵分解的文献表示方法
CN112270282A (zh) * 2020-11-03 2021-01-26 华北电力大学 一种利用矩阵谱模的功率信号滤波方法和系统
CN112347246A (zh) * 2020-10-15 2021-02-09 中科曙光南京研究院有限公司 一种基于谱分解的自适应文档聚类方法及系统
CN114281994A (zh) * 2021-12-27 2022-04-05 盐城工学院 一种基于三层加权模型的文本聚类集成方法及系统
CN114328922A (zh) * 2021-12-28 2022-04-12 盐城工学院 一种基于谱图理论的选择性文本聚类集成方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101004761A (zh) * 2007-01-10 2007-07-25 复旦大学 大规模文本逐次二分的层次聚类方法
JP2012088972A (ja) * 2010-10-20 2012-05-10 Nippon Telegr & Teleph Corp <Ntt> データ分類装置、データ分類方法及びデータ分類プログラム
CN102799680A (zh) * 2012-07-24 2012-11-28 华北电力大学(保定) 一种基于近邻传播的xml文档谱聚类方法
CN103136355A (zh) * 2013-03-05 2013-06-05 电子科技大学 一种基于自动阈值鱼群算法的文本聚类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101004761A (zh) * 2007-01-10 2007-07-25 复旦大学 大规模文本逐次二分的层次聚类方法
JP2012088972A (ja) * 2010-10-20 2012-05-10 Nippon Telegr & Teleph Corp <Ntt> データ分類装置、データ分類方法及びデータ分類プログラム
CN102799680A (zh) * 2012-07-24 2012-11-28 华北电力大学(保定) 一种基于近邻传播的xml文档谱聚类方法
CN103136355A (zh) * 2013-03-05 2013-06-05 电子科技大学 一种基于自动阈值鱼群算法的文本聚类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
徐森: "文本聚类集成关键技术研究", 《中国博士学位论文全文数据库 信息科技辑》, 31 July 2011 (2011-07-31) *
徐森等: "结合K均值与Laplacian的聚类集成算法", 《中国期刊全文数据库 计算机应用与软件》, vol. 29, no. 10, 31 October 2012 (2012-10-31) *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182539B (zh) * 2014-09-02 2018-02-23 五八同城信息技术有限公司 异常信息批量处理的方法及系统
CN104182539A (zh) * 2014-09-02 2014-12-03 五八同城信息技术有限公司 异常信息批量处理的方法及系统
CN106096066B (zh) * 2016-08-17 2019-11-15 盐城工学院 基于随机近邻嵌入的文本聚类方法
CN106096066A (zh) * 2016-08-17 2016-11-09 盐城工学院 基于随机近邻嵌入的文本聚类方法
CN111859898A (zh) * 2019-04-16 2020-10-30 中森云链(成都)科技有限责任公司 一种基于隐藏关联网络的多领域文本隐式特征抽取方法及计算机存储介质
CN110020439A (zh) * 2019-04-16 2019-07-16 中森云链(成都)科技有限责任公司 一种基于隐藏关联网络的多领域文本隐式特征抽取方法
CN111859898B (zh) * 2019-04-16 2024-01-16 中森云链(成都)科技有限责任公司 一种基于隐藏关联网络的多领域文本隐式特征抽取方法及计算机存储介质
CN111274537A (zh) * 2020-01-20 2020-06-12 山西大学 一种基于惩罚性矩阵分解的文献表示方法
CN111274537B (zh) * 2020-01-20 2021-12-31 山西大学 一种基于惩罚性矩阵分解的文献表示方法
CN112347246A (zh) * 2020-10-15 2021-02-09 中科曙光南京研究院有限公司 一种基于谱分解的自适应文档聚类方法及系统
CN112347246B (zh) * 2020-10-15 2024-04-02 中科曙光南京研究院有限公司 一种基于谱分解的自适应文档聚类方法及系统
CN112270282A (zh) * 2020-11-03 2021-01-26 华北电力大学 一种利用矩阵谱模的功率信号滤波方法和系统
CN112270282B (zh) * 2020-11-03 2021-12-10 华北电力大学 一种利用矩阵谱模的功率信号滤波方法和系统
CN114281994A (zh) * 2021-12-27 2022-04-05 盐城工学院 一种基于三层加权模型的文本聚类集成方法及系统
CN114328922A (zh) * 2021-12-28 2022-04-12 盐城工学院 一种基于谱图理论的选择性文本聚类集成方法

Similar Documents

Publication Publication Date Title
CN103365999A (zh) 一种基于相似度矩阵谱分解的文本聚类集成方法
Cebeci et al. Comparison of k-means and fuzzy c-means algorithms on different cluster structures
CN105913296B (zh) 一种基于图的个性化推荐方法
CN110674407B (zh) 基于图卷积神经网络的混合推荐方法
Friedman et al. Regularization paths for generalized linear models via coordinate descent
Qin et al. Global ranking using continuous conditional random fields
CN106096066B (zh) 基于随机近邻嵌入的文本聚类方法
US9208220B2 (en) Method and apparatus of text classification
CN109960763B (zh) 基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法
US9875294B2 (en) Method and apparatus for classifying object based on social networking service, and storage medium
CN104239512B (zh) 一种文本推荐方法
O’Hagan et al. Computational aspects of fitting mixture models via the expectation–maximization algorithm
CN104574192A (zh) 在多个社交网络中识别同一用户的方法及装置
CN104573070B (zh) 一种针对混合长度文本集的文本聚类方法
CN110516210A (zh) 文本相似度的计算方法和装置
CN103427791B (zh) 一种基于粒子群优化的信号分离方法
Jin Flocking of the Motsch–Tadmor model with a cut-off interaction function
CN103914527A (zh) 一种基于新编码方式的遗传规划算法的图形图像识别与匹配方法
Chavan et al. Mini batch K-Means clustering on large dataset
CN110019653A (zh) 一种融合文本和标签网络的社交内容表征方法和系统
Wang et al. A new population initialization of particle swarm optimization method based on pca for feature selection
CN101299218B (zh) 三维模型的检索方法和装置
CN105718440B (zh) 基于聚合加权矩阵压缩算法的文本语义表示方法
Zhang et al. Node features adjusted stochastic block model
Jin et al. Score+ for network community detection

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20131023