CN114328922A - 一种基于谱图理论的选择性文本聚类集成方法 - Google Patents
一种基于谱图理论的选择性文本聚类集成方法 Download PDFInfo
- Publication number
- CN114328922A CN114328922A CN202111619737.8A CN202111619737A CN114328922A CN 114328922 A CN114328922 A CN 114328922A CN 202111619737 A CN202111619737 A CN 202111619737A CN 114328922 A CN114328922 A CN 114328922A
- Authority
- CN
- China
- Prior art keywords
- clustering
- text
- cluster
- similarity
- members
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于谱图理论的选择性文本聚类集成方法,将文本数据集采用K均值算法生成聚类成员;采用谱聚类算法从生成的聚类成员中选择出代表性成员;采用层次聚类方法对选择出的代表性成员进行集成;将集成后的代表性成员构成本文聚类结果。解决了谱聚类方法直接应用于高维、稀疏、海量的文本数据集上时导致的计算量大的问题,因此,采用本方案显著降低文本聚类的计算时间,有效提高了文本聚类的准确性。另外,本实施例使用K均值算法作为基聚类器随机选取初始质心,算法复杂度低,提升算法的鲁棒性。
Description
技术领域
本发明涉及文本聚类技术领域,具体涉及一种基于谱图理论的选择性文本聚类集成方法。
背景技术
随着大数据时代的不断发展,文本信息大量产生且富含丰富价值,如何合理利用这些文本信息成为人们面临的机遇和调整。文本聚类作为文本数据挖掘的重要手段之一,是将大量杂乱无章的文本信息,通过相似度判断进行合理的归类,文本聚类由于不需要训练过程,已经成为对文本信息进行有效组织、摘要和导航的重要手段。
同时,聚类作为一种自动化程度较高的无监督机器学习方法,近年来在信息检索、多文档自动文摘等领域获得了广泛的应用。单一的传统聚类算法不能够有效识别出具有不同大小、不同形状、不同密度甚至可能包含噪声的簇。与传统的聚类算法相比,聚类集成技术具备鲁棒性、稳定性等优点。聚类成员的多样性对聚类集成的结果有重要影响。如果将每个文本聚类成员看成是一个对象,那么通过聚类分析的方式可以把所有文本聚类成员依据其相似性划分为若干分组,使得相同组内的文本聚类成员相似度尽量高,而不同组内的文本聚类成员相似度尽量低。
目前,文本聚类主要有几个方法:1、划分法;2、密度法;3、层次法,常用的文本聚类算法包括属于划分法中的kmeans、kmean++,属于密度法的DBscan以及属于层次方法的BIRCH算法。
但是,上述这些单一聚类方法只能在特定大小、形状、不包含噪声簇的情况下进行文本聚类,鲁棒性较低,导致最终的聚类准确度较低的问题。
发明内容
本发明提供一种基于谱图理论的选择性文本聚类集成方法,以解决现有技术中存在的上述问题。
本发明提供一种基于谱图理论的选择性文本聚类集成方法,该方法包括:
S100,将文本数据集采用K均值算法生成聚类成员;
S200,采用谱聚类算法从生成的聚类成员中选择出代表性成员;
S300,采用层次聚类方法对选择出的代表性成员进行集成;
S400,将集成后的代表性成员构成本文聚类结果。
优选的,所述S200包括:
S201,计算生成的聚类成员之间的相似度;
S202,根据计算出的相似度,使用谱聚类算法对所述聚类成员进行聚类处理,获得聚类结果;所述聚类结果包括若干个聚类成员集合;
S203,在所述聚类结果中,确定每个聚类成员集合中与其他聚类成员之间的归一化互信息值之差的绝对值之和最小的聚类成员;
S204,该确定出的聚类成员作为代表性成员。
优选的,所述S202包括:
S2021,确定要选出代表性成员的数量r0;
S2022,根据计算出的聚类成员之间的相似度构造邻接矩阵,把邻接矩阵的每一列元素放加起来得到N个数,将每一列元素放在对角线上组成一个N*N阶的对角矩阵,称为度矩阵,基于所述邻接矩阵和度矩阵形成拉普拉斯矩阵;
S2023,计算出拉普拉斯矩阵的前r0个特征值及对应的特征向量;
S2024,将r0个特征向量中的列排列在一起形成N*r0阶矩阵,采用K-means算法对形成的N*r0阶矩阵进行聚类处理。
优选的,所述S100包括:
S101,设置每个聚类中聚类成员个数r和聚类个数k;所述聚类个数k设置为真实类别数;
S102,设置控制参数i的初始值为1;
S103,判断所述控制参数i的值是否小于或等于聚类成员个数r;若是,则执行步骤S104,若否则执行步骤S107;
S104,随机生成k个均值向量,作为K均值算法的初始质心,使用K均值算法对文本数据集进行划分;
S106,将所述控制参数i的值加1,执行步骤S103;
S107,构建聚类成员的集合P′={P(1),P(2),…,P(r)};
优选的,所述S300包括:
S301,将选择出的每一个代表性成员归为一类,基于每一类之间的距离确定类与类之间的相似度;
S302,基于层次聚类方法确定的类与类之间的相似度对类进行合并,形成新的类的集合;
S303,再次计算新的类的结合中类与类之间的相似度,并基于相似度对类进行再次合并;
S304,重复步骤S303,直至满足终止条件时,停止类的合并;
S305,将满足终止条件时的类的合并结果作为代表性成员的集成结果。
优选的,所述S100之前包括:
S500,将所有文本进行分词处理,以及无效词筛除处理,形成文本的有效分词特征;
S600,将所有文本进行词义提取,获得词义特征;
S700,计算所述分词特征与相应的词义特征之间的匹配关系,将所述分词特征和词义特征以及两者之间的匹配关系构建为文本特征,将所述文本特征形成文本数据集。
优选的,所述S104中使用K均值算法对文本数据集进行划分包括:
S1041,计算所述文本数据集中每个文本与k个初始质心之间的余弦距离;
S1042,基于所述余弦距离,将每一个文本划分入余弦距离最近的簇类中;
S1043,重新计算每个簇类的质心以获得新的k个聚类质心;重复基于余弦距离,将每一个簇类划分入余弦距离最近的类中,直至k个聚类质心不再改变为止,停止划分,形成对文本数据集进行划分结果。
优选的,所述S1043中重新计算每个簇类的质心以获得新的k个聚类质心,包括:
S1043-1,设定目标函数,所述目标函数标识簇类内余弦相似度和,以及设定目标函数中极大值点为中心的聚类质心;
S1043-2,基于欧式距离与余弦相似度计算的函数转换关系,将目标函数的余弦相似度计算转换为欧式距离计算;
S1043-3,对转换后的目标函数确定极小值点;
S1043-4,根据极小值点的计算过程,确定极值点,所述极值点即为新的聚类质心。
优选的,所述S101之前包括:
S108,对文本数据集中的文本向量进行标准化处理;
S109,经过标准化处理的长文本在计算相似度时侧重于方向的变化,而不是数值的变化,采用余弦相似度更紧接文本向量之间的相似程度。
优选的,所述S100还包括:
S110,从文本数据集中任意选择若干个文本向量作为初始聚类中心;
S111,对于文本数据集中每个文本向量,计算每个文本向量与所有初始聚类中心之间的余弦相似度;
S112,将所述余弦相似度值从最高到最低排序;
S113,将文本向量分配给具有最高相似度的簇中;
S114,在满足限制条件的情况下,将文本向量按照顺序分配给相似高的合格簇;所述限制条件包括:最大可分配簇和相似度比值界限;所述最大可分配簇使每个样本点同时分配给的簇的数量不大于第一预设值;所述相似度比值界限是当某个文本向量与簇中心的距离大于离簇中心距离最小的文本向量于簇中心的距离乘以第二预设值;所述第二预设值小于1;
S115,根据分配给各簇的文本重新计算若干各簇中心;
S116,重复步骤S111至S115,直至算法收敛。
与现有技术相比,本发明具有以下优点:
本发明提供一种基于谱图理论的选择性文本聚类集成方法,将文本数据集采用K均值算法生成聚类成员;采用谱聚类算法从生成的聚类成员中选择出代表性成员;采用层次聚类方法对选择出的代表性成员进行集成;将集成后的代表性成员构成本文聚类结果。解决了谱聚类方法直接应用于高维、稀疏、海量的文本数据集上时导致的计算量大的问题,因此,采用本方案显著降低文本聚类的计算时间,有效提高了文本聚类的准确性。另外,本实施例使用K均值算法作为基聚类器随机选取初始质心,算法复杂度低,提升算法的鲁棒性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种基于谱图理论的选择性文本聚类集成方法的流程图;
图2为本发明实施例中基于谱图理论的选择性文本聚类集成方法的原理流程图;
图3为本发明实施例中聚类成员生成的方法流程图;
图4为本发明实施例中聚类成员生成的原理流程图;
图5为本发明实施例中代表性成员选择的方法流程图;
图6为本发明实施例中代表性成员选择的原理流程图;
图7为本发明实施例中对代表性成员集成的方法流程图;
图8为本发明实施例中对代表性成员集成的原理流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种基于谱图理论的选择性文本聚类集成方法,请参照图1-图8,如图1所示,该方法包括以下步骤:
S100,将文本数据集采用K均值算法生成聚类成员;
S200,采用谱聚类算法从生成的聚类成员中选择出代表性成员;
S300,采用层次聚类方法对选择出的代表性成员进行集成;
S400,将集成后的代表性成员构成本文聚类结果。
上述技术方案的工作原理为:本实施例采用的方案是将文本数据集采用K均值算法生成聚类成员;采用谱聚类算法从生成的聚类成员中选择出代表性成员;采用层次聚类方法对选择出的代表性成员进行集成;将集成后的代表性成员构成本文聚类结果。
具体的基于谱图理论的选择性文本聚类集成方法的原理如图2所示,首先是对聚类成员的生成过程,然后基于谱聚类算法选择代表性成员,然后对代表性成员进行集成,最终完成文本的聚类。
上述技术方案的有益效果为:采用本实施例提供的方案将文本数据集采用K均值算法生成聚类成员;采用谱聚类算法从生成的聚类成员中选择出代表性成员;采用层次聚类方法对选择出的代表性成员进行集成;将集成后的代表性成员构成本文聚类结果。本实施例的方案通过在不同步骤利用多个不同聚类算法,解决了谱聚类方法直接应用于高维、稀疏、海量的文本数据集上时导致的计算量大的问题,因此,采用本方案显著降低文本聚类的计算时间,有效提高了文本聚类的准确性。另外,本实施例使用K均值算法作为基聚类器随机选取初始质心,算法复杂度低,提升算法的鲁棒性。
在另一实施例中,如图5所示,所述S200包括:
S201,计算生成的聚类成员之间的相似度;
S202,根据计算出的相似度,使用谱聚类算法对所述聚类成员进行聚类处理,获得聚类结果;所述聚类结果包括若干个聚类成员集合;
S203,在所述聚类结果中,确定每个聚类成员集合中与其他聚类成员之间的归一化互信息值之差的绝对值之和最小的聚类成员;
S204,该确定出的聚类成员作为代表性成员。
上述技术方案的工作原理为:本实施例采用的方案是采用谱聚类算法从生成的聚类成员中选择出代表性成员的过程,具体过程如下:
首先,计算生成的聚类成员之间的相似度;其次,根据计算出的相似度,使用谱聚类算法对所述聚类成员进行聚类处理,获得聚类结果;所述聚类结果包括若干个聚类成员集合;然后,在所述聚类结果中,确定每个聚类成员集合中与其他聚类成员之间的归一化互信息值之差的绝对值之和最小的聚类成员;最后,该确定出的聚类成员作为代表性成员。
具体的,基于谱聚类算法选择代表性成员的原理如图6所示,首先计算聚类成员之间的相似度,使用谱聚类算法对聚类成员进行聚类,最后根据聚类结果选择出代表性成员。
上述技术方案的有益效果为:采用本实施例提供的方案计算生成的聚类成员之间的相似度;根据计算出的相似度,使用谱聚类算法对所述聚类成员进行聚类处理,获得聚类结果;所述聚类结果包括若干个聚类成员集合;在所述聚类结果中,确定每个聚类成员集合中与其他聚类成员之间的归一化互信息值之差的绝对值之和最小的聚类成员;将确定出的聚类成员作为代表性成员。采用本方案显著降低文本聚类的计算时间,有效提高了文本聚类的准确性。使用K均值算法作为基聚类器随机选取初始质心,算法复杂度低,提升算法的鲁棒性。
在另一实施例中,所述S202包括:
S2021,确定要选出代表性成员的数量r0;
S2022,根据计算出的聚类成员之间的相似度构造邻接矩阵,把邻接矩阵的每一列元素放加起来得到N个数,将每一列元素放在对角线上组成一个N*N阶的对角矩阵,称为度矩阵,基于所述邻接矩阵和度矩阵形成拉普拉斯矩阵;
S2023,计算出拉普拉斯矩阵的前r0个特征值及对应的特征向量;
S2024,将r0个特征向量中的列排列在一起形成N*r0阶矩阵,采用K-means算法对形成的N*r0阶矩阵进行聚类处理。
上述技术方案的工作原理为:本实施例采用的方案是使用谱聚类算法对所述聚类成员进行聚类处理,获得聚类结果的过程,具体过程如下:
确定要选出代表性成员的数量r0;根据计算出的聚类成员之间的相似度构造邻接矩阵,把邻接矩阵的每一列元素放加起来得到N个数,将每一列元素放在对角线上组成一个N*N阶的对角矩阵,称为度矩阵,基于所述邻接矩阵和度矩阵形成拉普拉斯矩阵;计算出拉普拉斯矩阵的前r0个特征值及对应的特征向量;将r0个特征向量中的列排列在一起形成N*r0阶矩阵,采用K-means算法对形成的N*r0阶矩阵进行聚类处理。
上述技术方案的有益效果为:采用本实施例提供的方案确定要选出代表性成员的数量r0;根据计算出的聚类成员之间的相似度构造邻接矩阵,把邻接矩阵的每一列元素放加起来得到N个数,将每一列元素放在对角线上组成一个N*N阶的对角矩阵,称为度矩阵,基于所述邻接矩阵和度矩阵形成拉普拉斯矩阵;计算出拉普拉斯矩阵的前r0个特征值及对应的特征向量;将r0个特征向量中的列排列在一起形成N*r0阶矩阵,采用K-means算法对形成的N*r0阶矩阵进行聚类处理。本实施例的方案提高聚类准确性的同时,降低了计算时间,同时降低算法的复杂度,提升算法的鲁棒性。
在另一实施例中,如图3所示,所述S100包括:
S101,设置每个聚类中聚类成员个数r和聚类个数k;所述聚类个数k设置为真实类别数;
S102,设置控制参数i的初始值为1;
S103,判断所述控制参数i的值是否小于或等于聚类成员个数r;若是,则执行步骤S104,若否则执行步骤S107;
S104,随机生成k个均值向量,作为K均值算法的初始质心,使用K均值算法对文本数据集进行划分;
S106,将所述控制参数i的值加1,执行步骤S103;
S107,构建聚类成员的集合P′={P(1),P(2),…,P(r)};
上述技术方案的工作原理为:本实施例采用的方案是将文本数据集采用K均值算法生成聚类成员的过程,具体如下:
设置每个聚类中聚类成员个数r和聚类个数k;所述聚类个数k设置为真实类别数;设置控制参数i的初始值为1;判断所述控制参数i的值是否小于或等于聚类成员个数r;若判断结果为是,则执行步骤如下:随机生成k个均值向量,作为K均值算法的初始质心,使用K均值算法对文本数据集进行划分;根据划分结果得到聚类结果将所述控制参数i的值加1,继续循环执行判断所述控制参数i的值是否小于或等于聚类成员个数r,直至控制参数i的不满足判断条件,则停止循环。若判断结果为否,则执行步骤构建聚类成员的集合P′={P(1),P(2),…,P(r)}。
具体的生成聚类成员的原理如图4所示,首先获取聚类成员的个数r和聚类个数k,然后设定控制参数i=1,判断i与r之间的关系,若i≤r,则随机生成k各均值向量,作为K均值算法的初始质心,使用K均值算法对数据集进行划分,得到聚类结果,然后使i=i+1进行循环;若判断i>r,则构建聚类成员集合,然后结束整个流程。
上述技术方案的有益效果为:采用本实施例提供的方案设置每个聚类中聚类成员个数r和聚类个数k;所述聚类个数k设置为真实类别数;设置控制参数i的初始值为1;判断所述控制参数i的值是否小于或等于聚类成员个数r;若判断结果为是,则执行步骤如下:随机生成k个均值向量,作为K均值算法的初始质心,使用K均值算法对文本数据集进行划分;根据划分结果得到聚类结果将所述控制参数i的值加1,继续循环执行判断所述控制参数i的值是否小于或等于聚类成员个数r,直至控制参数i的不满足判断条件,则停止循环。若判断结果为否,则执行步骤构建聚类成员的集合P′={P(1),P(2),…,P(r)}。本实施例的方案提高聚类准确性的同时,降低了计算时间,同时降低算法的复杂度,提升算法的鲁棒性。
在另一实施例中,如图7所示,所述S300包括:
S301,将选择出的每一个代表性成员归为一类,基于每一类之间的距离确定类与类之间的相似度;
S302,基于层次聚类方法确定的类与类之间的相似度对类进行合并,形成新的类的集合;
S303,再次计算新的类的结合中类与类之间的相似度,并基于相似度对类进行再次合并;
S304,重复步骤S303,直至满足终止条件时,停止类的合并;
S305,将满足终止条件时的类的合并结果作为代表性成员的集成结果。
上述技术方案的工作原理为:本实施例采用的方案是采用层次聚类方法对选择出的代表性成员进行集成的过程,具体过程如下:
将选择出的每一个代表性成员归为一类,基于每一类之间的距离确定类与类之间的相似度;基于层次聚类方法确定的类与类之间的相似度对类进行合并,形成新的类的集合;再次计算新的类的结合中类与类之间的相似度,并基于相似度对类进行再次合并;重复步骤再次计算新的类的结合中类与类之间的相似度,并基于相似度对类进行再次合并,直至满足终止条件时,停止类的合并;将满足终止条件时的类的合并结果作为代表性成员的集成结果。
另外,用层次聚类方法对代表成员进行集成的原理如图8所示,首先计算文本数据点之间的相似度,然后用层次聚类算法对数据集进行聚类,所述聚类结果形成对代表性成员的集成。
上述技术方案的有益效果为:采用本实施例提供的方案将选择出的每一个代表性成员归为一类,基于每一类之间的距离确定类与类之间的相似度;基于层次聚类方法确定的类与类之间的相似度对类进行合并,形成新的类的集合;再次计算新的类的结合中类与类之间的相似度,并基于相似度对类进行再次合并;重复步骤再次计算新的类的结合中类与类之间的相似度,并基于相似度对类进行再次合并,直至满足终止条件时,停止类的合并;将满足终止条件时的类的合并结果作为代表性成员的集成结果。采用本方案显著降低文本聚类的计算时间,有效提高了文本聚类的准确性。使用K均值算法作为基聚类器随机选取初始质心,算法复杂度低,提升算法的鲁棒性。
在另一实施例中,所述S100之前包括:
S500,将所有文本进行分词处理,以及无效词筛除处理,形成文本的有效分词特征;
S600,将所有文本进行词义提取,获得词义特征;
S700,计算所述分词特征与相应的词义特征之间的匹配关系,将所述分词特征和词义特征以及两者之间的匹配关系构建为文本特征,将所述文本特征形成文本数据集。
上述技术方案的工作原理为:本实施例采用的方案是生成聚类成员之前,对文本进行预处理的过程,具体过程如下:
将所有文本进行分词处理,以及无效词筛除处理,形成文本的有效分词特征;将所有文本进行词义提取,获得词义特征;计算所述分词特征与相应的词义特征之间的匹配关系,将所述分词特征和词义特征以及两者之间的匹配关系构建为文本特征,将所述文本特征形成文本数据集。
上述技术方案的有益效果为:采用本实施例提供的方案将所有文本进行分词处理,以及无效词筛除处理,形成文本的有效分词特征;将所有文本进行词义提取,获得词义特征;计算所述分词特征与相应的词义特征之间的匹配关系,将所述分词特征和词义特征以及两者之间的匹配关系构建为文本特征,将所述文本特征形成文本数据集。避免长文本与短文本之间的聚类误差。
在另一实施例中,所述S104中使用K均值算法对文本数据集进行划分包括:
S1041,计算所述文本数据集中每个文本与k个初始质心之间的余弦距离;
S1042,基于所述余弦距离,将每一个文本划分入余弦距离最近的簇类中;
S1043,重新计算每个簇类的质心以获得新的k个聚类质心;重复基于余弦距离,将每一个簇类划分入余弦距离最近的类中,直至k个聚类质心不再改变为止,停止划分,形成对文本数据集进行划分结果。
上述技术方案的工作原理为:本实施例采用的方案是使用K均值算法对文本数据集进行划分包括:计算所述文本数据集中每个文本与k个初始质心之间的余弦距离;基于所述余弦距离,将每一个文本划分入余弦距离最近的簇类中;重新计算每个簇类的质心以获得新的k个聚类质心;重复基于余弦距离,将每一个簇类划分入余弦距离最近的类中,直至k个聚类质心不再改变为止,停止划分,形成对文本数据集进行划分结果。
上述技术方案的有益效果为:采用本实施例提供的方案计算所述文本数据集中每个文本与k个初始质心之间的余弦距离;基于所述余弦距离,将每一个文本划分入余弦距离最近的簇类中;重新计算每个簇类的质心以获得新的k个聚类质心;重复基于余弦距离,将每一个簇类划分入余弦距离最近的类中,直至k个聚类质心不再改变为止,停止划分,形成对文本数据集进行划分结果。提升聚类的准确性。
在另一实施例中,所述S1043中重新计算每个簇类的质心以获得新的k个聚类质心,包括:
S1043-1,设定目标函数,所述目标函数标识簇类内余弦相似度和,以及设定目标函数中极大值点为中心的聚类质心;
S1043-2,基于欧式距离与余弦相似度计算的函数转换关系,将目标函数的余弦相似度计算转换为欧式距离计算;
S1043-3,对转换后的目标函数确定极小值点;
S1043-4,根据极小值点的计算过程,确定极值点,所述极值点即为新的聚类质心。
上述技术方案的工作原理为:本实施例采用的方案是所述重新计算每个簇类的质心以获得新的k个聚类质心,包括:设定目标函数,所述目标函数标识簇类内余弦相似度和,以及设定目标函数中极大值点为中心的聚类质心;基于欧式距离与余弦相似度计算的函数转换关系,将目标函数的余弦相似度计算转换为欧式距离计算;对转换后的目标函数确定极小值点;根据极小值点的计算过程,确定极值点,所述极值点即为新的聚类质心。
上述技术方案的有益效果为:采用本实施例提供的方案所述重新计算每个簇类的质心以获得新的k个聚类质心,包括:设定目标函数,所述目标函数标识簇类内余弦相似度和,以及设定目标函数中极大值点为中心的聚类质心;基于欧式距离与余弦相似度计算的函数转换关系,将目标函数的余弦相似度计算转换为欧式距离计算;对转换后的目标函数确定极小值点;根据极小值点的计算过程,确定极值点,所述极值点即为新的聚类质心。通过欧式距离与余弦相似度之间具有直接的函数关系,基于两者之间的函数关系,可以用余弦相似度从夹角的余弦值刻画相似度转变为用向量间间隔长达大小的平方进行度量,改善余弦相似度的性能。
在另一实施例中,所述S101之前包括:
S108,对文本数据集中的文本向量进行标准化处理;
S109,经过标准化处理的长文本在计算相似度时侧重于方向的变化,而不是数值的变化,采用余弦相似度更紧接文本向量之间的相似程度。
上述技术方案的工作原理为:本实施例采用的方案是对文本数据集中的文本向量进行标准化处理;经过标准化处理的长文本在计算相似度时侧重于方向的变化,而不是数值的变化,采用余弦相似度更紧接文本向量之间的相似程度。
上述技术方案的有益效果为:采用本实施例提供的方案对文本数据集中的文本向量进行标准化处理;经过标准化处理的长文本在计算相似度时侧重于方向的变化,而不是数值的变化,采用余弦相似度更紧接文本向量之间的相似程度。采用本方案显著降低文本聚类的计算时间,有效提高了文本聚类的准确性。使用K均值算法作为基聚类器随机选取初始质心,算法复杂度低,提升算法的鲁棒性。
在另一实施例中,所述S100还包括:
S110,从文本数据集中任意选择若干个文本向量作为初始聚类中心;
S111,对于文本数据集中每个文本向量,计算每个文本向量与所有初始聚类中心之间的余弦相似度;
S112,将所述余弦相似度值从最高到最低排序;
S113,将文本向量分配给具有最高相似度的簇中;
S114,在满足限制条件的情况下,将文本向量按照顺序分配给相似高的合格簇;所述限制条件包括:最大可分配簇和相似度比值界限;所述最大可分配簇使每个样本点同时分配给的簇的数量不大于第一预设值;所述相似度比值界限是当某个文本向量与簇中心的距离大于离簇中心距离最小的文本向量于簇中心的距离乘以第二预设值;所述第二预设值小于1;
S115,根据分配给各簇的文本重新计算若干各簇中心;
S116,重复步骤S111至S115,直至算法收敛。
上述技术方案的工作原理为:本实施例采用的方案是从文本数据集中任意选择若干个文本向量作为初始聚类中心;对于文本数据集中每个文本向量,计算每个文本向量与所有初始聚类中心之间的余弦相似度;将所述余弦相似度值从最高到最低排序;将文本向量分配给具有最高相似度的簇中;在满足限制条件的情况下,将文本向量按照顺序分配给相似高的合格簇;所述限制条件包括:最大可分配簇和相似度比值界限;所述最大可分配簇使每个样本点同时分配给的簇的数量不大于第一预设值;所述相似度比值界限是当某个文本向量与簇中心的距离大于离簇中心距离最小的文本向量于簇中心的距离乘以第二预设值;所述第二预设值小于1;根据分配给各簇的文本重新计算若干各簇中心;重复步骤S111至S115,直至算法收敛。
上述技术方案的有益效果为:采用本实施例提供的方案从文本数据集中任意选择若干个文本向量作为初始聚类中心;对于文本数据集中每个文本向量,计算每个文本向量与所有初始聚类中心之间的余弦相似度;将所述余弦相似度值从最高到最低排序;将文本向量分配给具有最高相似度的簇中;在满足限制条件的情况下,将文本向量按照顺序分配给相似高的合格簇;所述限制条件包括:最大可分配簇和相似度比值界限;所述最大可分配簇使每个样本点同时分配给的簇的数量不大于第一预设值;所述相似度比值界限是当某个文本向量与簇中心的距离大于离簇中心距离最小的文本向量于簇中心的距离乘以第二预设值;所述第二预设值小于1;根据分配给各簇的文本重新计算若干各簇中心;重复步骤S111至S115,直至算法收敛。本实施例提供的方案通过限制条件对文本向量进行了软划分,使得聚类结果更快地向全局最优解逼近,提升聚类效率。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种基于谱图理论的选择性文本聚类集成方法,其特征在于,包括:
S100,将文本数据集采用K均值算法生成聚类成员;
S200,采用谱聚类算法从生成的聚类成员中选择出代表性成员;
S300,采用层次聚类方法对选择出的代表性成员进行集成;
S400,将集成后的代表性成员构成本文聚类结果。
2.根据权利要求1所述的基于谱图理论的选择性文本聚类集成方法,其特征在于,所述S200包括:
S201,计算生成的聚类成员之间的相似度;
S202,根据计算出的相似度,使用谱聚类算法对所述聚类成员进行聚类处理,获得聚类结果;所述聚类结果包括若干个聚类成员集合;
S203,在所述聚类结果中,确定每个聚类成员集合中与其他聚类成员之间的归一化互信息值之差的绝对值之和最小的聚类成员;
S204,该确定出的聚类成员作为代表性成员。
3.根据权利要求2所述的基于谱图理论的选择性文本聚类集成方法,其特征在于,所述S202包括:
S2021,确定要选出代表性成员的数量r0;
S2022,根据计算出的聚类成员之间的相似度构造邻接矩阵,把邻接矩阵的每一列元素放加起来得到N个数,将每一列元素放在对角线上组成一个N*N阶的对角矩阵,称为度矩阵,基于所述邻接矩阵和度矩阵形成拉普拉斯矩阵;
S2023,计算出拉普拉斯矩阵的前r0个特征值及对应的特征向量;
S2024,将r0个特征向量中的列排列在一起形成N*r0阶矩阵,采用K-means算法对形成的N*r0阶矩阵进行聚类处理。
5.根据权利要求1所述的基于谱图理论的选择性文本聚类集成方法,其特征在于,所述S300包括:
S301,将选择出的每一个代表性成员归为一类,基于每一类之间的距离确定类与类之间的相似度;
S302,基于层次聚类方法确定的类与类之间的相似度对类进行合并,形成新的类的集合;
S303,再次计算新的类的结合中类与类之间的相似度,并基于相似度对类进行再次合并;
S304,重复步骤S303,直至满足终止条件时,停止类的合并;
S305,将满足终止条件时的类的合并结果作为代表性成员的集成结果。
6.根据权利要求1所述的基于谱图理论的选择性文本聚类集成方法,其特征在于,所述S100之前包括:
S500,将所有文本进行分词处理,以及无效词筛除处理,形成文本的有效分词特征;
S600,将所有文本进行词义提取,获得词义特征;
S700,计算所述分词特征与相应的词义特征之间的匹配关系,将所述分词特征和词义特征以及两者之间的匹配关系构建为文本特征,将所述文本特征形成文本数据集。
7.根据权利要求4所述的基于谱图理论的选择性文本聚类集成方法,其特征在于,所述S104中使用K均值算法对文本数据集进行划分包括:
S1041,计算所述文本数据集中每个文本与k个初始质心之间的余弦距离;
S1042,基于所述余弦距离,将每一个文本划分入余弦距离最近的簇类中;
S1043,重新计算每个簇类的质心以获得新的k个聚类质心;重复基于余弦距离,将每一个簇类划分入余弦距离最近的类中,直至k个聚类质心不再改变为止,停止划分,形成对文本数据集进行划分结果。
8.根据权利要求7所述的基于谱图理论的选择性文本聚类集成方法,其特征在于,所述S1043中重新计算每个簇类的质心以获得新的k个聚类质心,包括:
S1043-1,设定目标函数,所述目标函数标识簇类内余弦相似度和,以及设定目标函数中极大值点为中心的聚类质心;
S1043-2,基于欧式距离与余弦相似度计算的函数转换关系,将目标函数的余弦相似度计算转换为欧式距离计算;
S1043-3,对转换后的目标函数确定极小值点;
S1043-4,根据极小值点的计算过程,确定极值点,所述极值点即为新的聚类质心。
9.根据权利要求4所述的基于谱图理论的选择性文本聚类集成方法,其特征在于,所述S101之前包括:
S108,对文本数据集中的文本向量进行标准化处理;
S109,经过标准化处理的长文本在计算相似度时侧重于方向的变化,而不是数值的变化,采用余弦相似度更紧接文本向量之间的相似程度。
10.根据权利要求1所述的基于谱图理论的选择性文本聚类集成方法,其特征在于,所述S100还包括:
S110,从文本数据集中任意选择若干个文本向量作为初始聚类中心;
S111,对于文本数据集中每个文本向量,计算每个文本向量与所有初始聚类中心之间的余弦相似度;
S112,将所述余弦相似度值从最高到最低排序;
S113,将文本向量分配给具有最高相似度的簇中;
S114,在满足限制条件的情况下,将文本向量按照顺序分配给相似高的合格簇;所述限制条件包括:最大可分配簇和相似度比值界限;所述最大可分配簇使每个样本点同时分配给的簇的数量不大于第一预设值;所述相似度比值界限是当某个文本向量与簇中心的距离大于离簇中心距离最小的文本向量于簇中心的距离乘以第二预设值;所述第二预设值小于1;
S115,根据分配给各簇的文本重新计算若干各簇中心;
S116,重复步骤S111至S115,直至算法收敛。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111619737.8A CN114328922B (zh) | 2021-12-28 | 2021-12-28 | 一种基于谱图理论的选择性文本聚类集成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111619737.8A CN114328922B (zh) | 2021-12-28 | 2021-12-28 | 一种基于谱图理论的选择性文本聚类集成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114328922A true CN114328922A (zh) | 2022-04-12 |
CN114328922B CN114328922B (zh) | 2022-08-02 |
Family
ID=81015640
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111619737.8A Active CN114328922B (zh) | 2021-12-28 | 2021-12-28 | 一种基于谱图理论的选择性文本聚类集成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114328922B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116450830A (zh) * | 2023-06-16 | 2023-07-18 | 暨南大学 | 一种基于大数据的智慧校园推送方法及系统 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101004761A (zh) * | 2007-01-10 | 2007-07-25 | 复旦大学 | 大规模文本逐次二分的层次聚类方法 |
CN103365999A (zh) * | 2013-07-16 | 2013-10-23 | 盐城工学院 | 一种基于相似度矩阵谱分解的文本聚类集成方法 |
CN103870923A (zh) * | 2014-03-03 | 2014-06-18 | 华北电力大学 | 基于信息熵的凝聚型层次聚类算法的风电场机群聚合方法 |
CN103995821A (zh) * | 2014-03-14 | 2014-08-20 | 盐城工学院 | 一种基于谱聚类算法的选择性聚类集成方法 |
CN104008127A (zh) * | 2014-04-21 | 2014-08-27 | 中国电子科技集团公司第二十八研究所 | 一种基于聚类算法的群组识别方法 |
CN104318241A (zh) * | 2014-09-25 | 2015-01-28 | 东莞电子科技大学电子信息工程研究院 | 基于Self-tuning的局部密度谱聚类相似度量算法 |
CN106951498A (zh) * | 2017-03-15 | 2017-07-14 | 国信优易数据有限公司 | 文本聚类方法 |
CN108681609A (zh) * | 2018-05-28 | 2018-10-19 | 盐城工学院 | 一种基于层次聚类的自适应选择性文本聚类集成方法 |
CN111695612A (zh) * | 2020-05-26 | 2020-09-22 | 东南大学 | 一种基于聚类的半监督识别方法 |
CN112347246A (zh) * | 2020-10-15 | 2021-02-09 | 中科曙光南京研究院有限公司 | 一种基于谱分解的自适应文档聚类方法及系统 |
CN112464638A (zh) * | 2020-12-14 | 2021-03-09 | 上海爱数信息技术股份有限公司 | 一种基于改进谱聚类算法的文本聚类方法 |
CN112579783A (zh) * | 2020-12-31 | 2021-03-30 | 西安理工大学 | 基于拉普拉斯图谱的短文本聚类方法 |
CN113095348A (zh) * | 2020-01-09 | 2021-07-09 | 北京邮电大学 | 基于谱聚类的图像数据快速聚类方法及装置 |
CN113159233A (zh) * | 2021-05-21 | 2021-07-23 | 广东工业大学 | 一种谱聚类加速方法、系统、计算机设备及存储介质 |
CN113282756A (zh) * | 2021-06-29 | 2021-08-20 | 华南农业大学 | 一种基于混合聚类的文本聚类智能评估方法 |
CN113420802A (zh) * | 2021-06-04 | 2021-09-21 | 桂林电子科技大学 | 基于改进谱聚类的报警数据融合方法 |
-
2021
- 2021-12-28 CN CN202111619737.8A patent/CN114328922B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101004761A (zh) * | 2007-01-10 | 2007-07-25 | 复旦大学 | 大规模文本逐次二分的层次聚类方法 |
CN103365999A (zh) * | 2013-07-16 | 2013-10-23 | 盐城工学院 | 一种基于相似度矩阵谱分解的文本聚类集成方法 |
CN103870923A (zh) * | 2014-03-03 | 2014-06-18 | 华北电力大学 | 基于信息熵的凝聚型层次聚类算法的风电场机群聚合方法 |
CN103995821A (zh) * | 2014-03-14 | 2014-08-20 | 盐城工学院 | 一种基于谱聚类算法的选择性聚类集成方法 |
CN104008127A (zh) * | 2014-04-21 | 2014-08-27 | 中国电子科技集团公司第二十八研究所 | 一种基于聚类算法的群组识别方法 |
CN104318241A (zh) * | 2014-09-25 | 2015-01-28 | 东莞电子科技大学电子信息工程研究院 | 基于Self-tuning的局部密度谱聚类相似度量算法 |
CN106951498A (zh) * | 2017-03-15 | 2017-07-14 | 国信优易数据有限公司 | 文本聚类方法 |
CN108681609A (zh) * | 2018-05-28 | 2018-10-19 | 盐城工学院 | 一种基于层次聚类的自适应选择性文本聚类集成方法 |
CN113095348A (zh) * | 2020-01-09 | 2021-07-09 | 北京邮电大学 | 基于谱聚类的图像数据快速聚类方法及装置 |
CN111695612A (zh) * | 2020-05-26 | 2020-09-22 | 东南大学 | 一种基于聚类的半监督识别方法 |
CN112347246A (zh) * | 2020-10-15 | 2021-02-09 | 中科曙光南京研究院有限公司 | 一种基于谱分解的自适应文档聚类方法及系统 |
CN112464638A (zh) * | 2020-12-14 | 2021-03-09 | 上海爱数信息技术股份有限公司 | 一种基于改进谱聚类算法的文本聚类方法 |
CN112579783A (zh) * | 2020-12-31 | 2021-03-30 | 西安理工大学 | 基于拉普拉斯图谱的短文本聚类方法 |
CN113159233A (zh) * | 2021-05-21 | 2021-07-23 | 广东工业大学 | 一种谱聚类加速方法、系统、计算机设备及存储介质 |
CN113420802A (zh) * | 2021-06-04 | 2021-09-21 | 桂林电子科技大学 | 基于改进谱聚类的报警数据融合方法 |
CN113282756A (zh) * | 2021-06-29 | 2021-08-20 | 华南农业大学 | 一种基于混合聚类的文本聚类智能评估方法 |
Non-Patent Citations (1)
Title |
---|
吴晓蓉: "K-均值聚类算法初始中心选取相关问题的研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116450830A (zh) * | 2023-06-16 | 2023-07-18 | 暨南大学 | 一种基于大数据的智慧校园推送方法及系统 |
CN116450830B (zh) * | 2023-06-16 | 2023-08-11 | 暨南大学 | 一种基于大数据的智慧校园推送方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114328922B (zh) | 2022-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112464638B (zh) | 一种基于改进谱聚类算法的文本聚类方法 | |
Bicego et al. | Similarity-based clustering of sequences using hidden Markov models | |
CN109635140B (zh) | 一种基于深度学习和密度峰值聚类的图像检索方法 | |
CN111539451B (zh) | 样本数据优化方法、装置、设备及存储介质 | |
CN113344019A (zh) | 一种决策值选取初始聚类中心改进的K-means算法 | |
CN110618082A (zh) | 基于神经网络的储层微观孔隙结构评价方法及装置 | |
CN113298184B (zh) | 用于小样本图像识别的样本抽取、扩充方法及存储介质 | |
CN114328922B (zh) | 一种基于谱图理论的选择性文本聚类集成方法 | |
CN111160461A (zh) | 基于模糊聚类的加权在线极限学习机大数据分类方法 | |
Lee et al. | Flood fill mean shift: A robust segmentation algorithm | |
CN114881429B (zh) | 基于数据驱动的台区线损量化方法及系统 | |
CN111275114A (zh) | 一种sdn架构下的基于集成学习的网络资质图片鉴别方法 | |
CN117633597A (zh) | 基于自适应谱聚类的居民峰谷用电特性分类方法及系统 | |
Hruschka et al. | Improving the efficiency of a clustering genetic algorithm | |
CN110188864B (zh) | 基于分布表示和分布度量的小样本学习方法 | |
CN113158817B (zh) | 一种基于快速密度峰聚类的客观天气分型方法 | |
CN114417095A (zh) | 一种数据集划分方法及装置 | |
CN109711439A (zh) | 一种使用Group算法加速邻居搜索的密度峰大规模游客画像数据聚类方法 | |
JP3482191B2 (ja) | 住所読み取りのための方法 | |
US7548856B2 (en) | Systems and methods for discriminative density model selection | |
CN115984671B (zh) | 模型在线更新方法、装置、电子设备及可读存储介质 | |
Gorokhovatskyi et al. | Application a Committee of Kohonen Neural Networks to Training of Image Classifier Based on Description of Descriptors Set | |
Mishra et al. | Biclustering of gene expression microarray data using dynamic deme parallelized genetic algorithm (DdPGA) | |
CN114611596A (zh) | 一种基于自适应的密度峰值聚类方法 | |
CN113657419A (zh) | 基于动态k近邻代表点的密度峰值聚类算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |