CN113282756A - 一种基于混合聚类的文本聚类智能评估方法 - Google Patents

一种基于混合聚类的文本聚类智能评估方法 Download PDF

Info

Publication number
CN113282756A
CN113282756A CN202110731348.8A CN202110731348A CN113282756A CN 113282756 A CN113282756 A CN 113282756A CN 202110731348 A CN202110731348 A CN 202110731348A CN 113282756 A CN113282756 A CN 113282756A
Authority
CN
China
Prior art keywords
clustering
text
feature
cluster
particle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110731348.8A
Other languages
English (en)
Other versions
CN113282756B (zh
Inventor
李康顺
雷逸舒
郑明坤
张海信
魏航
唐威
钱冠如
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Agricultural University
Original Assignee
South China Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Agricultural University filed Critical South China Agricultural University
Priority to CN202110731348.8A priority Critical patent/CN113282756B/zh
Publication of CN113282756A publication Critical patent/CN113282756A/zh
Application granted granted Critical
Publication of CN113282756B publication Critical patent/CN113282756B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于混合聚类的文本聚类智能评估方法,该方法包括下述步骤:对文本集预处理得到原始文本集内所有特征词;删除文本集中高频和低频的特征词得到预选择后的特征子集;采用TF‑IDF方法计算原始文本集中所有文本对应权重;对特征子集中的每个特征词进行二进制编码,对文本特征预选择后的特征词生成矩阵;设定适应值函数,对特征子集进行特征再选择,选取适应值最优的全局最优个体;对全局最优个体进行解码,得到最终特征子集T;采用TF‑IDF方法表示成T上的向量并进行归一化、标准化,采用混合聚类方法进行文本聚类,选出聚类的最终结果;为聚类结果中的每个簇生成词云。本发明具有聚类效果好,计算量较小的优点。

Description

一种基于混合聚类的文本聚类智能评估方法
技术领域
本发明涉及文本聚类技术领域,具体涉及一种基于混合聚类的文本聚类智能评估方法。
背景技术
随着大数据和互联网技术的迅速发展,网络上的文本信息充斥于人们的视野中。然而,网络上存在着数量庞大、语义复杂的文本数据,造成了许多有用的信息不容易被发现,以及一些劣质的文本没有被淘汰。面对海量的信息,如何从这些数据中挖掘出用户自己所需的精准文本信息,如何淘汰劣质文本,成为了当今非常重要的、具有广阔应用前景的研究内容。
目前,现有技术中对文本聚类主要是采用K-means算法直接对原始文本进行聚类,这种方式会造成大量的冗余特征词、且运行速度慢、聚类效果较差、受文档集质量影响大等缺陷。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提供一种基于混合聚类的文本聚类智能评估方法,该方法利用改进后的粒子群算法对冗余属性进行约简,再通过由改进后的二分K-means和K-means++算法实现的混合聚类方法进行文本聚类,具有聚类效果好,计算量较小的优点。
本发明的第二目的在于提供一种计算机可读存储介质。
本发明的第三目的在于提供一种计算设备。
为了达到上述目的,本发明采用以下技术方案:
本发明提供一种基于混合聚类的文本聚类智能评估方法,包括下述步骤:
获取原始文本集X,并对文本集X进行数据预处理,得到原始文本集内所有特征词D;
对文本特征进行预选择,设定删除比例,删除文本集中高频和低频的特征词,得到预选择后的特征子集D′;
采用TF-IDF方法计算原始文本集X中所有文本对应权重,并将原始文本集X中的所有文本表示成特征子集D′上的向量;
对特征子集D′中的每个特征词进行二进制编码,对文本特征预选择后的特征词生成矩阵;
设定适应值函数,对特征子集D′进行特征再选择,选取适应值最优的全局最优个体;
对全局最优个体进行解码,得到最终特征子集T;
将原始文本集X的所有文本采用TF-IDF方法表示成T上的向量;
对向量化后的文本集进行归一化、标准化,采用混合聚类方法进行文本聚类,所述混合聚类方法基于球面二分K-means聚类算法和球面Kmeans++聚类算法,比较两种聚类算法结果的平方误差和的大小,选择平方误差和结果相对较小的作为最终聚类结果;
为聚类结果中的每个簇生成词云,以及为每个文本生成特征标签。
作为优选的技术方案,所述对特征子集D′中的每个特征词进行二进制编码,对文本特征预选择后的特征词生成矩阵,具体步骤包括:
所述矩阵为N*M矩阵,矩阵的每个位置随机生成0或1,对预选择后的特征词计算并集;
其中,N表示粒子群种群大小个数,M表示特征词数目,1表示该位置上特征词被选中,0表示该位置上特征词未被选中。
作为优选的技术方案,所述设定适应值函数,对个体选取的特征词求并集。
作为优选的技术方案,所述对特征子集D′进行特征再选择,选取适应值最优的全局最优个体,具体步骤包括:
设置初始参数,包括设置粒子群的维度为文档集预选择后的特征词个数、种群大小、惯性权重、学习因子、精度阈值和迭代阈值;
计算适应度函数,计算种群中个体的各自适应值,将种群全局最优解初始化为适应值最优的个体的位置,
判定当前迭代次数满足小于设置的阈值与最大迭代次数的乘积的条件时,采用偏向全局搜索能力的位置更新公式,具体为:
Figure BDA0003139355360000031
Figure BDA0003139355360000032
Figure BDA0003139355360000033
时:
Figure BDA0003139355360000034
Figure BDA0003139355360000035
时:
Figure BDA0003139355360000036
判定当前迭代次数不满足小于设置的阈值与最大迭代次数的乘积的条件时,采用偏向局部搜索能力的位置更新公式,具体为:
Figure BDA0003139355360000037
Figure BDA0003139355360000038
Figure BDA0003139355360000039
时,
Figure BDA00031393553600000310
当vid>0时,
Figure BDA00031393553600000311
其中,
Figure BDA00031393553600000312
表示第i个粒子更新后的速度,ω表示惯性权重,
Figure BDA00031393553600000313
表示第i个粒子更新前的速度,c1、c2表示两个不同的学习因子,
Figure BDA0003139355360000041
表示第i个粒子的局部最优解,
Figure BDA0003139355360000042
表示第i个粒子更新后的位置,
Figure BDA0003139355360000043
表示第i个粒子的当前位置,
Figure BDA0003139355360000044
表示全局最优解,S()表示S型函数,
Figure BDA0003139355360000045
表示第i个粒子更新后的速度,
Figure BDA0003139355360000046
表示第i个粒子更新后的位置;
计算每个粒子的适应值,与粒子当前的历史最优解
Figure BDA0003139355360000047
的适应值对比,如果当前解更好,则更新粒子的历史最优解;
根据计算的适应值,将当代种群的最优个体的适应值与gbestt的适应值对比,如果前者更优,则更新全局最优解;
重复迭代更新直至满足迭代终止条件,输出最优解。
作为优选的技术方案,所述计算适应度函数,表示为:
Figure BDA0003139355360000048
其中,m个样本为随机选取,SIM为余弦相似度。
作为优选的技术方案,所述采用混合聚类方法进行文本聚类,具体步骤包括:
所述球面二分K-means聚类算法的具体步骤包括:
标准化所有样本向量,初始化簇表,所有样本点组成的一个簇,每次从簇表中取出目标函数SCE值最大的一个簇,对所选取的簇采用SKM算法进行聚类,判断簇表当前簇的个数,采用SKM算法进行聚类直至簇表内的簇达到设定聚类数目N;
所述球面Kmeans++聚类算法的具体步骤包括:
进行文本数据初始化,标准化输入模型的所有样本向量;
随机选取一个样本作为聚类中心,计算每个样本与已有聚类中心的最短距离,作为计算该样本成为下一个聚类中心的概率,最后用轮盘法选择下一中心,直至聚类中心数目达到设定的聚类数目N;
计算每个样本与N个聚类中心之间的聚类并将其划分在距离最小的类别中;
每一类重新计算聚类中心,判断聚类中心是否变化,若聚类中心发生变化,重新计算每个样本与N个聚类中心之间的聚类并将其划分在距离最小的类别中,否则输出最终聚类结果。
作为优选的技术方案,所述采用混合聚类方法进行文本聚类,采用余弦距离进行距离的衡量。
为了达到上述第二目的,本发明采用以下技术方案:
一种计算机可读存储介质,存储有程序,所述程序被处理器执行时实现上述基于混合聚类的文本聚类智能评估方法。
为了达到上述第三目的,本发明采用以下技术方案:
一种计算设备,包括处理器和用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现如上述基于混合聚类的文本聚类智能评估方法。
本发明与现有技术相比,具有如下优点和有益效果:
(1)现有对于文本聚类的处理采用的是独热编码,编码后的矩阵维度巨大,而且不能够较好的表达文本特征词在矩阵的特征性,不利于后面进行文本聚类过程的计算,而本发明对文本数据的编码采用了TF-IDF的方式,将文本数据转化为向量,每一维代表的是该文本中对应特征词的tfidf值即权值,TF-IDF具有简单快速,容易理解的优点,符合对文本数据处理的要求。
(2)相较于普通的粒子群优化算法,本发明采用改进的二进制粒子群优化算法,在当前迭代次数小于设置的阈值与最大迭代次数的乘积时,采用偏向全局搜索能力的位置更新公式,在算法前阶段增强了全局搜索能力;其他情况采用偏向局部搜索能力的位置更新公式,在算法后阶段增强了局部搜索能力,在精度和寻优速度方面相较以往的粒子群优化算法有明显提高。
(3)本发明中采用了基于优化后的球面二分K-means以及优化后的K-means++的混合聚类算法,相比与传统的SKM聚类算法,优化后的聚类算法针对SKM算法受初值影响大,不够稳定的缺点,借鉴二分K-means算法的思想,结合文本聚类做出调整,采用二分SKM聚类算法,解决SKM初值选择以及不够稳定的缺点,使得聚类结果更稳定、更准确,运算过程更迅速;同时使用余弦相似度作为度量距离的标准,相对于以往以欧氏距离作为描述文本样本与聚类中心距离的方式,余弦相似度对具体数值的绝对值大小不敏感,只关注向量的方向性,更适合用于衡量文本之间的相似度,能够更加准确地表述文本之间的关系,从而使聚类的结果更加准确。
附图说明
图1为本发明基于混合聚类的文本聚类智能评估方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
如图1所示,本实施例提供一种基于混合聚类的文本聚类智能评估方法,包括下述步骤:
S1:对原始文本集X进行数据预处理:包括分词、去除停用词等,得到原始文本集内所有特征词D;
S2:进行第一次特征选择,即对D按照设定比例删除文档频率(DF)特别高和特别低的特征词,得到粗选后的特征子集D′,减少特征冗余,而通过减少特征冗余可以降低特征维度,提高聚类准确率。本实例中设置最大DF为0.15,最小DF为0.0002。
S3::用TF-IDF方法计算原始文本集X中所有文本对应权重,并将原始文本集X中的所有文本表示成D′上的向量;
S4:对D′中的每个特征词进行二进制编码,对文本特征预选择后的特征词生成N*M矩阵,其中N是粒子群种群大小个数,M是特征词数目。矩阵的每个位置随机生成“0”或“1”,其中,“1”表示该位置上特征词被选中,“0”表示该位置上特征词未被选中;
对特征词进行编码的步骤如下:
假设经过文本特征预选择后,剩下10个特征词,设粒子群种群大小为5,则初始种群是一个5行10列的矩阵,矩阵的每个位置随机生成“0”或“1”:
Figure BDA0003139355360000071
以第一行为例,
Figure BDA0003139355360000072
表示在该解决方案中,第1、4、5、6、8以及第10个特征词被选取,而剩下的特征词则被舍弃。初始化过后,粒子按照改进二进制粒子群算法进行迭代更新,最后选取适应值最优的全局最优个体作为最后的解决方案。假设经过100次迭代之后,算法终止,此时gbest={1,0,1,1,0,1,0,0,0,1},则算法选取第1、3、4、6以及第10个特征词作为最后的特征子集,其余特征被舍弃。
S5、设定适应值函数,采用改进二进制粒子群算法GSBPSO对D′进行特征再选择;
在本实施例中,设置粒子群的维度dimension为文档集预选择后的特征词个数,大小size为100,惯性权重w为1.4,学习因子C1为1.2,C2为1.2,精度阈值theta为0.9,迭代阈值y为5。
本实施例的特征预选择即特征粗选,主要是删除掉部分对聚类贡献不大的特征,然而此时的文本向量依然是高度稀疏的,而通过粒子群算法进行特征选择就是进一步优化特征选择,降低矩阵的稀疏程度。
本实施例采用改进二进制粒子群算法进行特征选择即通过设计一个合适的适应值函数,然后按照粒子群算法流程进行迭代更新,最后选取适应值最优的全局最优个体作为最后的解决方案。即一个向量里面,每一维即文本的一个特征词,然后用0表示不选,1表示选择,最终得到的最优个体里面,将值为1对应的特征值保留,其余的去除。
在本实施例中,由于不同的个体选取的特征词不相同,因此计算本实施例构建适应值函数的时候,需要先对两个个体C1、C2选取的特征词求并集,在两个个体中,C1没选而C2选了的特征项,在dj(C1)中对应位置设为0,反之亦然,下面给出具体的计算例子:
假设有两条染色体:
C1=1 0 1 1 0 1 1 0 0 0 C1=1 0 1 0 1 0 1 1 0 1
文本dj用TF-IDF方法计算的书的原始文本向量:
dj={0.02,0.08,0.07,0.05,0.21,0.09,0.23,0.15,0.02,0.08}
对两条染色体选取的特征项取并集。由于“1”表示选,“0”表示不选,因此染色体C1选择了第1、3、4、6、7个特征,染色体C2选择了第1、3、5、7、8、10个特征,取交集,即为第1、3、4、5、6、7、8以及第10个特征,共8个特征。这里注意,两条染色体中,C1没选而C2选了的特征项,在dj(C1)中对应位置设为0,反之亦然。则:
dj(C1)={0.02,0.07,0.05,0,0.09,0.23,0,0};
dj(C2)={0.02,0.07,0,0.21,0,0.23,0.15,0.08}
然后用余弦相似度函数,计算得到SIM(di(Ind),di(j))。
S6:对粒子群算法获得的全局最优个体进行解码,得到最终特征子集T;
在本实施例中,对最优个体进行解码的步骤为:
假设编码前特征词集合为[A,B,C,D,E,F,G,H,I,J]
经过粒子群算法得到全局最优个体为:
gbest={1,0,1,1,0,1,0,0,0,1}
则选取A,C,D,F,J作为最后的特征子集,其余特征B,E,G,H,I被舍弃。
步骤S6中的粒子群优化算法为优化后的二进制粒子群优化算法,具体算法流程如下:
S61:确定参数:
(1)种群大小N
(2)速度范围[-vmax,vmax]
(3)惯性权重ω,学习因子c1、c2
(4)最大迭代次数MaxIter
(5)阈值θ、γ
S62:初始化。设当前迭代次数为t=0。根据解的范围,随机生成N个个体
Figure BDA0003139355360000091
作为初始位置,根据速度范围,随机生成每个粒子的速度
Figure BDA0003139355360000092
初始化每个粒子的历史最优位置
Figure BDA0003139355360000093
S63:计算适应度函数,计算种群中个体的各自适应值,将种群全局最优解
Figure BDA0003139355360000094
初始化为适应值最优的个体的位置。
在本实施例中,适应度函数为:
Figure BDA0003139355360000101
其中,m个样本为随机选取,SIM为余弦相似度,余弦相似度越大表示两个文本越相似,因此适应值函数值越大越好。
S64、对每个粒子,根据下面的方法更新速度
Figure BDA0003139355360000102
和位置
Figure BDA0003139355360000103
如果t<γ*MaxIter,即当前迭代次数<设置的阈值*最大迭代次数,此时采用偏向全局搜索能力的位置更新公式,使用公式(S6.1)、(S6.2)、(S6.5)、(S6.6)其他情况采用偏向局部搜索能力的位置更新公式,使用公式(S6.1)、(S6.3)、(S6.4);
其中,更新粒子速度的计算公式为:
Figure BDA0003139355360000104
Figure BDA0003139355360000105
Figure BDA0003139355360000106
Figure BDA0003139355360000107
时,
Figure BDA0003139355360000108
当vid>0时,
Figure BDA0003139355360000109
Figure BDA00031393553600001010
时:
Figure BDA00031393553600001011
Figure BDA00031393553600001012
付:
Figure BDA00031393553600001013
其中,
Figure BDA00031393553600001014
表示第i个粒子更新后的速度,ω表示惯性权重,
Figure BDA00031393553600001015
表示第i个粒子更新前的速度,c1、c2表示两个不同的学习因子,
Figure BDA0003139355360000111
表示第i个粒子的局部最优解,
Figure BDA0003139355360000112
表示第i个粒子更新后的位置,
Figure BDA0003139355360000113
表示第i个粒子的当前位置,
Figure BDA0003139355360000114
表示全局最优解,S()表示S型函数,
Figure BDA0003139355360000115
表示第i个粒子更新后的速度,
Figure BDA0003139355360000116
表示第i个粒子更新后的位置;
其中,公式(S6.2)为S型函数,用于更新粒子的位置;公式(S6.3)为S型函数,用于更新粒子的位置(具有局部搜索能力);公式(S6.4)用于更新粒子的位置(具有局部搜索能力);公式(S6.5)用于更新粒子的位置(提高了第一阶段的全局搜索能力);公式(S6.6)用于更新粒子的位置(提高了第一阶段的全局搜索能力);公式(S6.5)、公式(S6.6)中的θ是一个预设值好的参数;
S65、计算每个粒子的适应值,与粒子当前的历史最优解
Figure BDA0003139355360000117
的适应值对比,如果当前解更好,则更新粒子的历史最优解,具体表述为:
Figure BDA0003139355360000118
S66、根据计算的适应值,将当代种群的最优个体的适应值与gbestt的适应值对比,如果前者更优,则更新全局最优解gbestt+1
S67、判断算法终止条件,如果没有达到预设的精度,或没有达到最大迭代次数,则t=t+1,重复步骤S63、S64、S65、S66、S67,若达到则输出最优解。
S7、将X中的所有文本用TF-IDF方法表示成T上的向量,X中的所有文本指的是经过特征粗选+粒子群特征再选择的特征子集,里面的文本都是由经过筛选后的特征词组成;
S8、对向量化后的文档集进行归一化、标准化,主要是将向量的模都归一化为1,用以进行余弦相似度计算的时候可以直接计算内积,减小计算量;
利用聚类算法对样本进行聚类,聚类数目为N,根据样本与各聚类中心之间的差异性的不同,将样本划分给与其差异性最小的聚类中心中,所有样本划分完毕后,根据每类中的样本,更新聚类中心,并通过不断地迭代,直至趋于稳定或得到指定的N个簇划分;
步骤S8中的聚类算法为优化后的基于球面二分K-means(Bisecting SphericalK-means,BSKM)与球面K-means++(Spherical K-means++,SKM++)的混合聚类算法,与传统二分K-means聚类以及K-means++算法相较,本实施例使用的混合聚类算法采用余弦相似度作为样本之间衡量距离的指标,具有运算速度快,对文本数据较为契合等优点;
聚类的输入为文本数据集X以及聚类数目N,返回包含N个簇的聚类簇表。具体聚类过程如下:
对于基于球面二分K-means聚类算法:主要是通过将SKM和二分聚类算法结合,迭代过程的算法采用二分聚类算法,而距离度量采用SKM的。同时在二分的过程中,SKM选取初始点的时候也借鉴了Kmeans++选取初值点的做法,即计算该向量与当前质心的距离,距离越远的向量就越有机会被选中成为下一个质心,由于这里k=2,故直接选择与当前质心距离最远的一个点作为另一个质心。
S811、标准化所有样本向量,使向量模长为1
S812、初始化簇表,所有样本点组成的一个簇
S813、每次从簇表中取出目标函数SCE值最大的一个簇,对所选取的这个簇使用SKM算法进行聚类,k值定为2。
S814、从实验结果中选取使得目标函数SCE值最小的那一组簇,将这两个簇添加到簇表中。
S815、判断簇表当前簇的个数,如果簇表当前簇的个数<N,跳转至S813,直至簇表内包含N个簇。
更进一步的,步骤S811中标准化样本向量的方法如下:
对于欧氏空间中的任意两个向量
x=(x1,x2,...,xn)
y=(y1,y2,...,yn)
进行向量标准化后,得到
Figure BDA0003139355360000131
Figure BDA0003139355360000132
其中x,y分别是x,y标准化后的向量形式,||x||是向量x的模,||y||是向量y的模,n是x,y的维度。
由于欧氏空间中的任意两个向量,标准化前后余弦相似度不变,因此通过标准化,余弦相似度计算简化为了向量内积的计算,减少了计算量,提高了算法的速度。
在SKM算法中,所输入的参数为类别数k,精度要求ε,最大迭代次数M,具体实现步骤如下:
Step1、随机初始化聚类中心C=(c1,c2,...,ck),且
Figure BDA0003139355360000133
并初始化迭代次数t=0。但由于本实施例中用到的SKM算法所需要的k值仅为2,所以本实施例用到的SKM初始化聚类中心的策略有所变化,为:
随机选取一个聚类中心
Figure BDA0003139355360000134
计算每个样本与
Figure BDA0003139355360000135
的最大距离D(xi),将xi作为另一个聚类中心
Figure BDA0003139355360000136
Step2、更新隶属度:
计算每个样本xi与聚类中心C1、C2的距离D(xi),若
Figure BDA0003139355360000137
则将样本xi划分到C1簇中,否则将样本xi划分到C2簇中。
Step3、更新簇中心向量
Figure BDA0003139355360000141
Figure BDA0003139355360000142
Figure BDA0003139355360000143
Figure BDA0003139355360000144
Step4、判断SKM算法终止条件,如果
Figure BDA0003139355360000145
或者t>M,则算法终止。否则t=t+1,跳转至Step2。
更进一步的,SKM算法中D(x)采用余弦距离进行距离的衡量。
Figure BDA0003139355360000146
SCE=(∑∑1-cos(x,c))
由于输入的向量已经全部进行了归一化、标准化,其模长均为1,所以SCE计算方式亦可以是:
Figure BDA0003139355360000147
其中,
Figure BDA0003139355360000148
表示样本与簇中心向量cj的余弦相似度。
对于球面Kmeans++聚类算法:传统kmeans++是采用欧氏距离作为度量方案,对于高维数据而言欧氏距离失效,文本数据具有方向性数据的特征,余弦函数注重方向上的差异。
本实施例将SKM与二分聚类算法结合,这个结合可以克服K-means算法收敛于局部最小值的问题,同时解决高维向量中欧氏距离失效的问题;将SKM与kmeans++算法结合,解决初值点选择问题。
S821、同S811步骤,进行文本数据初始化,标准化输入模型的所有样本向量,使向量模长为1;
S822、随机选取一个样本作为聚类中心C1
S823、计算每个样本与已有聚类中心的最短距离D(xi)(即最近一个中心的距离),作为计算该样本成为下一个聚类中心的概率,D(xi)值越大,表示该样本被选作为聚类中心的概率就越大,最后用轮盘法选择下一中心Ci+1,直至聚类中心数目达到N,跳转至步骤S824,否则重复步骤823。
S824、计算每个样本xi与N个聚类中心之间的聚类并将其划分在距离最小的类别中。
S825、每一类重新计算聚类中心,判断聚类中心是否变化,若聚类中心发生变化,跳转至步骤S824,否则跳转至步骤S826。
S826、输出最终聚类结果。
在本实施例中,步骤S823中D(x)采用余弦距离进行距离的衡量,即:
Figure BDA0003139355360000151
SCE=(∑∑1-cos(x,c))
由于输入的向量已经全部进行了归一化、标准化,其模长均为1,所以SCE计算方式也可以是:
Figure BDA0003139355360000152
通过比较两种聚类结果的SCE值,评估出两种聚类算法的结果优劣,SCE值越小说明聚类结果越优。
本实施例评估两种聚类结果优劣的计算平方误差和SSE的算法如下:
Figure BDA0003139355360000161
其中,
Figure BDA0003139355360000162
表示样本与簇中心向量cj的余弦相似度。
在本实施例中,取SSE值较小的一个聚类结果作为混合聚类的最终结果。
在本实施例中,生成词云时选择筛去文档频率高于0.15或文档频率低于0.0002的特征词进行词云的生成。
S9、根据聚类模型输出的结果,生成文档集各个簇的词云,并用粒子群获得的约简后的关键词为文档集内每个文本注上标签。
本实施例通过python的wordcloud包,将聚类结果中包含有每个文本的标志用编号来表示是第几个文本,然后对每个簇里面的每个文本提取对应的特征子集,添加到词云中,是将聚类后的结果可视化,便于直观获得聚类结果,通过生成的词云对聚类得到的每个类的内容得到一个大致了解。
实施例2
本实施例提供一种计算机可读存储介质,存储介质可以是ROM、RAM、磁盘、光盘等储存介质,该存储介质存储有一个或多个程序,所述程序被处理器执行时,实现实施例1的基于混合聚类的文本聚类智能评估方法。
实施例3
本实施例提供一种计算设备,所述的计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑或其他具有显示功能的终端设备,该计算设备包括该计算设备包括处理器和存储器,存储器存储有一个或多个程序,处理器执行存储器存储的程序时,实现实施例1的基于混合聚类的文本聚类智能评估方法。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

1.一种基于混合聚类的文本聚类智能评估方法,其特征在于,包括下述步骤:
获取原始文本集X,并对文本集X进行数据预处理,得到原始文本集内所有特征词D;
对文本特征进行预选择,设定删除比例,删除文本集中高频和低频的特征词,得到预选择后的特征子集D′;
采用TF-IDF方法计算原始文本集X中所有文本对应权重,并将原始文本集X中的所有文本表示成特征子集D′上的向量;
对特征子集D′中的每个特征词进行二进制编码,对文本特征预选择后的特征词生成矩阵;
设定适应值函数,对特征子集D′进行特征再选择,选取适应值最优的全局最优个体;
对全局最优个体进行解码,得到最终特征子集T;
将原始文本集X的所有文本采用TF-IDF方法表示成T上的向量;
对向量化后的文本集进行归一化、标准化,采用混合聚类方法进行文本聚类,所述混合聚类方法基于球面二分K-means聚类算法和球面Kmeans++聚类算法,比较两种聚类算法结果的平方误差和的大小,选择平方误差和结果相对较小的作为最终聚类结果;
为聚类结果中的每个簇生成词云,以及为每个文本生成特征标签。
2.根据权利要求1所述的基于混合聚类的文本聚类智能评估方法,其特征在于,所述对特征子集D′中的每个特征词进行二进制编码,对文本特征预选择后的特征词生成矩阵,具体步骤包括:
所述矩阵为N*M矩阵,矩阵的每个位置随机生成0或1,对预选择后的特征词计算并集;
其中,N表示粒子群种群大小个数,M表示特征词数目,1表示该位置上特征词被选中,0表示该位置上特征词未被选中。
3.根据权利要求1所述的基于混合聚类的文本聚类智能评估方法,其特征在于,所述设定适应值函数,对个体选取的特征词求并集。
4.根据权利要求1所述的基于混合聚类的文本聚类智能评估方法,其特征在于,所述对特征子集D′进行特征再选择,选取适应值最优的全局最优个体,具体步骤包括:
设置初始参数,包括设置粒子群的维度为文档集预选择后的特征词个数、种群大小、惯性权重、学习因子、精度阈值和迭代阈值;
计算适应度函数,计算种群中个体的各自适应值,将种群全局最优解初始化为适应值最优的个体的位置,
判定当前迭代次数满足小于设置的阈值与最大迭代次数的乘积的条件时,采用偏向全局搜索能力的位置更新公式,具体为:
Figure FDA0003139355350000021
Figure FDA0003139355350000022
Figure FDA0003139355350000023
时:
Figure FDA0003139355350000024
Figure FDA0003139355350000025
时:
Figure FDA0003139355350000026
判定当前迭代次数不满足小于设置的阈值与最大迭代次数的乘积的条件时,采用偏向局部搜索能力的位置更新公式,具体为:
Figure FDA0003139355350000027
Figure FDA0003139355350000031
Figure FDA0003139355350000032
时,
Figure FDA0003139355350000033
当vid>0时,
Figure FDA0003139355350000034
其中,
Figure FDA0003139355350000035
表示第i个粒子更新后的速度,ω表示惯性权重,
Figure FDA0003139355350000036
表示第i个粒子更新前的速度,c1、c2表示两个不同的学习因子,
Figure FDA0003139355350000037
表示第i个粒子的局部最优解,
Figure FDA0003139355350000038
表示第i个粒子更新后的位置,
Figure FDA0003139355350000039
表示第i个粒子的当前位置,
Figure FDA00031393553500000310
表示全局最优解,S()表示S型函数,
Figure FDA00031393553500000311
表示第i个粒子更新后的速度,
Figure FDA00031393553500000312
表示第i个粒子更新后的位置;
计算每个粒子的适应值,与粒子当前的历史最优解
Figure FDA00031393553500000313
的适应值对比,如果当前解更好,则更新粒子的历史最优解;
根据计算的适应值,将当代种群的最优个体的适应值与gbestt的适应值对比,如果前者更优,则更新全局最优解;
重复迭代更新直至满足迭代终止条件,输出最优解。
5.根据权利要求4所述的基于混合聚类的文本聚类智能评估方法,其特征在于,所述计算适应度函数,表示为:
Figure FDA00031393553500000314
其中,m个样本为随机选取,SIM为余弦相似度。
6.根据权利要求1所述的基于混合聚类的文本聚类智能评估方法,其特征在于,所述采用混合聚类方法进行文本聚类,具体步骤包括:
所述球面二分K-means聚类算法的具体步骤包括:
标准化所有样本向量,初始化簇表,所有样本点组成的一个簇,每次从簇表中取出目标函数SCE值最大的一个簇,对所选取的簇采用SKM算法进行聚类,判断簇表当前簇的个数,采用SKM算法进行聚类直至簇表内的簇达到设定聚类数目N;
所述球面Kmeans++聚类算法的具体步骤包括:
进行文本数据初始化,标准化输入模型的所有样本向量;
随机选取一个样本作为聚类中心,计算每个样本与已有聚类中心的最短距离,作为计算该样本成为下一个聚类中心的概率,最后用轮盘法选择下一中心,直至聚类中心数目达到设定的聚类数目N;
计算每个样本与N个聚类中心之间的聚类并将其划分在距离最小的类别中;
每一类重新计算聚类中心,判断聚类中心是否变化,若聚类中心发生变化,重新计算每个样本与N个聚类中心之间的聚类并将其划分在距离最小的类别中,否则输出最终聚类结果。
7.根据权利要求1所述的基于混合聚类的文本聚类智能评估方法,其特征在于,所述采用混合聚类方法进行文本聚类,采用余弦距离进行距离的衡量。
8.一种计算机可读存储介质,存储有程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7任一项所述基于混合聚类的文本聚类智能评估方法。
9.一种计算设备,包括处理器和用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现如权利要求1-7任一项所述基于混合聚类的文本聚类智能评估方法。
CN202110731348.8A 2021-06-29 2021-06-29 一种基于混合聚类的文本聚类智能评估方法 Active CN113282756B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110731348.8A CN113282756B (zh) 2021-06-29 2021-06-29 一种基于混合聚类的文本聚类智能评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110731348.8A CN113282756B (zh) 2021-06-29 2021-06-29 一种基于混合聚类的文本聚类智能评估方法

Publications (2)

Publication Number Publication Date
CN113282756A true CN113282756A (zh) 2021-08-20
CN113282756B CN113282756B (zh) 2023-01-10

Family

ID=77286165

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110731348.8A Active CN113282756B (zh) 2021-06-29 2021-06-29 一种基于混合聚类的文本聚类智能评估方法

Country Status (1)

Country Link
CN (1) CN113282756B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113988817A (zh) * 2021-11-11 2022-01-28 重庆邮电大学 一种基于智慧数据平台脏数据清理方法
CN114328922A (zh) * 2021-12-28 2022-04-12 盐城工学院 一种基于谱图理论的选择性文本聚类集成方法
CN114610748A (zh) * 2022-03-16 2022-06-10 云南升玥信息技术有限公司 基于人工智能的医疗疾病数据的安全快速精准有效管理系统及应用
CN114779467A (zh) * 2022-04-27 2022-07-22 吉林大学 一种基于探测器特性的新型光谱仪膜系组合的选择方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050177351A1 (en) * 2004-02-09 2005-08-11 The Board Of Trustees Of The University Of Illinois Methods and program products for optimizing problem clustering
CN108363810A (zh) * 2018-03-09 2018-08-03 南京工业大学 一种文本分类方法及装置
CN110555506A (zh) * 2019-08-20 2019-12-10 武汉大学 一种基于群体团聚效应的梯度自适应粒子群优化方法
CN110968735A (zh) * 2019-11-25 2020-04-07 中国矿业大学 一种基于球面相似度层次聚类的无监督行人重识别方法
CN110990455A (zh) * 2019-11-29 2020-04-10 杭州数梦工场科技有限公司 大数据识别房屋性质的方法与系统
US20200349183A1 (en) * 2019-05-03 2020-11-05 Servicenow, Inc. Clustering and dynamic re-clustering of similar textual documents
CN112887994A (zh) * 2021-01-20 2021-06-01 华南农业大学 基于改进二进制粒子群的无线传感器网络优化方法及应用

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050177351A1 (en) * 2004-02-09 2005-08-11 The Board Of Trustees Of The University Of Illinois Methods and program products for optimizing problem clustering
CN108363810A (zh) * 2018-03-09 2018-08-03 南京工业大学 一种文本分类方法及装置
US20200349183A1 (en) * 2019-05-03 2020-11-05 Servicenow, Inc. Clustering and dynamic re-clustering of similar textual documents
CN110555506A (zh) * 2019-08-20 2019-12-10 武汉大学 一种基于群体团聚效应的梯度自适应粒子群优化方法
CN110968735A (zh) * 2019-11-25 2020-04-07 中国矿业大学 一种基于球面相似度层次聚类的无监督行人重识别方法
CN110990455A (zh) * 2019-11-29 2020-04-10 杭州数梦工场科技有限公司 大数据识别房屋性质的方法与系统
CN112887994A (zh) * 2021-01-20 2021-06-01 华南农业大学 基于改进二进制粒子群的无线传感器网络优化方法及应用

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DANIEL JIMÉNEZ GONZALEZ ET AL: "A Comparison of Experiments with the Bisecting-Spherical K-Means Clustering and SVD Algorithms", 《RESEARCHGATE》 *
JOONAS H¨AM¨AL ¨AINEN ET AL: "Scalable Initialization Methods for Large-Scale Clustering", 《ARXIV》 *
LAITH MOHAMMAD ABUALIGAH ET AL: "A new feature selection method to improve the document clustering using particle swarm optimization algorithm", 《JOURNAL OF COMPUTATIONAL SCIENCE》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113988817A (zh) * 2021-11-11 2022-01-28 重庆邮电大学 一种基于智慧数据平台脏数据清理方法
CN113988817B (zh) * 2021-11-11 2024-04-12 重庆邮电大学 一种基于智慧数据平台脏数据清理方法
CN114328922A (zh) * 2021-12-28 2022-04-12 盐城工学院 一种基于谱图理论的选择性文本聚类集成方法
CN114328922B (zh) * 2021-12-28 2022-08-02 盐城工学院 一种基于谱图理论的选择性文本聚类集成方法
CN114610748A (zh) * 2022-03-16 2022-06-10 云南升玥信息技术有限公司 基于人工智能的医疗疾病数据的安全快速精准有效管理系统及应用
CN114779467A (zh) * 2022-04-27 2022-07-22 吉林大学 一种基于探测器特性的新型光谱仪膜系组合的选择方法

Also Published As

Publication number Publication date
CN113282756B (zh) 2023-01-10

Similar Documents

Publication Publication Date Title
CN113282756B (zh) 一种基于混合聚类的文本聚类智能评估方法
Xiao et al. Davies Bouldin Index based hierarchical initialization K-means
Xie et al. Comparison among dimensionality reduction techniques based on Random Projection for cancer classification
CN113204952B (zh) 一种基于聚类预分析的多意图与语义槽联合识别方法
CN110941734B (zh) 基于稀疏图结构的深度无监督图像检索方法
CN112395487B (zh) 信息推荐方法、装置、计算机可读存储介质及电子设备
CN114492363B (zh) 一种小样本微调方法、系统及相关装置
CN111460201B (zh) 一种基于生成性对抗网络的模态一致性跨模态检索方法
CN115080764B (zh) 基于知识图谱及聚类算法的医学相似实体分类方法及系统
US11640493B1 (en) Method for dialogue summarization with word graphs
US20230306035A1 (en) Automatic recommendation of analysis for dataset
CN103177177A (zh) 信息处理设备、估计器生成方法和程序
CN113656373A (zh) 构建检索数据库的方法、装置、设备以及存储介质
CN111538846A (zh) 基于混合协同过滤的第三方库推荐方法
CN115410199A (zh) 图像内容检索方法、装置、设备及存储介质
Alalyan et al. Model-based hierarchical clustering for categorical data
Sun Personalized music recommendation algorithm based on spark platform
CN113553442A (zh) 一种无监督事件知识图谱构建方法及系统
CN117273134A (zh) 一种基于预训练语言模型的零样本知识图谱补全方法
CN117435685A (zh) 文档检索方法、装置、计算机设备、存储介质和产品
CN116467451A (zh) 一种文本分类方法、装置、存储介质以及电子设备
CN112579783B (zh) 基于拉普拉斯图谱的短文本聚类方法
Huang et al. A Hybrid Clustering Approach for Bag‐of‐Words Image Categorization
CN106598916A (zh) 一种基于均匀抽样的二阶差分聚类数确定方法
CN113869380B (zh) 基于Kmeans聚类的数据分类方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant