CN112464638A - 一种基于改进谱聚类算法的文本聚类方法 - Google Patents
一种基于改进谱聚类算法的文本聚类方法 Download PDFInfo
- Publication number
- CN112464638A CN112464638A CN202011464923.4A CN202011464923A CN112464638A CN 112464638 A CN112464638 A CN 112464638A CN 202011464923 A CN202011464923 A CN 202011464923A CN 112464638 A CN112464638 A CN 112464638A
- Authority
- CN
- China
- Prior art keywords
- clustering
- matrix
- texts
- keywords
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 230000003595 spectral effect Effects 0.000 title claims abstract description 22
- 239000011159 matrix material Substances 0.000 claims abstract description 123
- 238000000605 extraction Methods 0.000 claims abstract description 5
- 230000011218 segmentation Effects 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 230000009467 reduction Effects 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 3
- 230000009849 deactivation Effects 0.000 abstract description 2
- 238000012360 testing method Methods 0.000 description 17
- 230000000694 effects Effects 0.000 description 15
- 230000008569 process Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 235000018185 Betula X alpestris Nutrition 0.000 description 1
- 235000018212 Betula X uliginosa Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003339 best practice Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000013107 unsupervised machine learning method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于改进谱聚类算法的文本聚类方法,包括:对待聚类文档集依次进行分词、去停用词以及提取关键词处理;创建文本相似度矩阵、邻接矩阵、度矩阵以及拉普拉斯矩阵;计算拉普拉斯矩阵的特征值和特征向量,得到特征矩阵;采用经典聚类方法对特征矩阵进行聚类,得到对应的聚类结果;若已知类别个数,则结合聚类结果以及提取的关键词,基于TF‑IDF算法提取出类别关键词;若未知类别个数,则依次调整聚类参数,以得到对应的多个调整聚类结果,对多个调整聚类结果进行评估,选取出最优的聚类结果;输出聚类结果及对应的类别关键词。与现有技术相比,本发明针对已知或未知类别数的情况,能够对文本进行聚类,同时能够输出对应于各类别的关键词。
Description
技术领域
本发明涉及文本分析技术领域,尤其是涉及一种基于改进谱聚类算法的文本聚类方法。
背景技术
文本聚类主要是依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小。作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效组织、摘要和导航的重要手段,也被越来越多的研究人员所关注。
目前,文本聚类主要有几个方法:1、划分法;2、密度法;3、层次法,常用的聚类算法包括属于划分法中的kmeans、kmean++,属于密度法的DBscan以及属于层次方法的BIRCH算法,谱聚类算法是一种建立在谱图理论基础上的方法,与传统的聚类算法相比,它具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点。谱聚类算法将数据集中的每个对象看作是图的顶点V,将顶点间的相似度量化作为相应顶点连接边E的权值,这样就得到一个基于相似度的无向加权图G(V,E),于是聚类问题就可以转化为图的划分问题。基于图论的最优划分准则就是使划分成的子图内部相似度最大,子图之间的相似度最小。谱聚类算法有着不同的具体实现方法,但是这些实现方法都可以归纳为下面三个主要步骤:
1)构建表示对象集的相似度矩阵S;
2)计算度矩阵和拉普拉斯矩阵,构建特征向量空间;
3)利用Kmeans或其它经典聚类算法对特征向量空间中的特征向量进行聚类。
上述这些聚类方法只能在已知类别数的情况下进行文本聚类,并且无法给出聚类后的类别关键词,使得用户无法根据关键词直接获知此类别所要表达的主题内容,此外,现有的聚类方法计算得到的聚类结果大多存在精确率和召回率较低的问题,即聚类结果的准确度较低。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于改进谱聚类算法的文本聚类方法,针对已知或未知类别数的情况,能够对文本进行聚类,同时能够输出对应于各类别的关键词。
本发明的目的可以通过以下技术方案来实现:一种基于改进谱聚类算法的文本聚类方法,包括以下步骤:
S1、对待聚类文档集依次进行分词、去停用词以及提取关键词处理;
S2、根据提取的关键词,创建文本相似度矩阵;
S3、基于文本相似度矩阵构建邻接矩阵,基于邻接矩阵构建度矩阵;
S4、结合邻接矩阵和度矩阵构建拉普拉斯矩阵;
S5、计算拉普拉斯矩阵的特征值和特征向量,得到对应于待聚类文档集的特征矩阵;
S6、采用经典聚类方法对特征矩阵进行聚类,得到对应的聚类结果;
S7、若已知聚类的类别个数,则执行步骤S9;
若未知聚类的类别个数,则执行步骤S8;
S8、依次调整聚类参数,以确定对应的类别个数,之后返回执行步骤S3~S6,得到多个调整聚类结果,并对多个调整聚类结果进行评估,选取得到最优的聚类结果;
S9、结合步骤S6或步骤S8得到的聚类结果以及步骤S1提取的关键词,基于TF-IDF算法提取出类别关键词;
S10、输出聚类结果及对应的类别关键词。
进一步地,所述步骤S1提取的关键词的词性包括名词、动词、动名词、人名、地名以及机构名词。
进一步地,所述步骤S2具体包括以下步骤:
S21、计算不同文本中各关键词的TF-IDF值,并将所有文本中各关键词的TF-IDF值放入词袋中;
S22、根据词袋中存入的所有文本中各关键词的TF-IDF值,计算得到各文本之间的相似度,利用各文本之间的相似度构建文本相似度矩阵。
进一步地,所述文本相似度矩阵具体为一个N*N的矩阵,该矩阵中的每个元素分别为不同文本之间的相似度。
进一步地,所述步骤S3具体包括以下步骤:
S31、基于文本相似度矩阵,采用∈-邻近法、K邻近法或全连接法构建邻接矩阵W;
S32、根据邻接矩阵中的元素,构建一个对角矩阵,即得到度矩阵D。
进一步地,所述步骤S31中,若采用∈-邻近法,则邻接矩阵W具体为:
其中,wij为邻接矩阵W中第i行第j列元素,sij为文本相似度矩阵中元素xi与元素xj之间的欧式距离,∈为设定的距离阈值;
若采用K邻近法,则邻接矩阵W具体为:
其中,KNN(xi)为元素xi的K个近邻,KNN(xj)为元素xj的K个近邻,σ为方差;
若采用全连接法,则邻接矩阵W具体为:
进一步地,所述步骤S32中,度矩阵D具体为:
其中,di为度矩阵D中第i行位于主对角线上的元素,n为文本个数。
进一步地,所述步骤S4中拉普拉斯矩阵具体为:
L=D-W
其中,L为拉普拉斯矩阵,D为度矩阵,W为邻接矩阵。
进一步地,所述步骤S5具体包括以下步骤:
S51、根据拉普拉斯矩阵的特征多项式,求解得到特征值;
S52、根据特征值,求解得到特征向量;
S53、根据类别个数,筛选出满足预设条件的特征值的数量为k,将特征向量降维到k,从而构建得到降维处理后的特征矩阵,其中,预设条件具体为特征值的数值小于(1-1/m)*0.95,m为类别个数。
进一步地,所述步骤S8具体是采用计算直方图的方式,以对多个调整聚类结果进行评估。
与现有技术相比,本发明具有以下优点:
一、本发明通过设置调整聚类参数的过程,实现对谱聚类算法的改进,以自主给出对应的类别个数,并通过对相应的调整聚类结果进行评估,能够选取出最优的聚类结果,从而确定对应的类别个数,以此实现对未知类别个数的文档集进行聚类的目的,使得用户只需提供文档集数据,基于本发明提出的方法,即可完成对文档集的类别区分工作。
二、本发明结合聚类结果以及提取的关键词,采用TF-IDF算法能够提取出对应于聚类结果的类别关键词,使得用户能够直观查看到不同类别文本对应的类别关键词,无需翻看文件内容即可获知该文本的主题内容。
三、本发明基于类别个数对特征值进行筛选,以将筛选的特征值个数作为降维的维度数,从而降维处理得到待聚类文档集对应的特征矩阵,能够大大降低后续聚类处理的复杂度,此外,本发明利用从待聚类文档集提取的关键词,以构建文本相似度矩阵,能够有效地对稀疏数据进行聚类。
附图说明
图1为本发明的方法流程示意图;
图2为实施例中文本聚类过程示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
如图1所示,一种基于改进谱聚类算法的文本聚类方法,包括以下步骤:
S1、对待聚类文档集依次进行分词、去停用词以及提取关键词处理;
S2、根据提取的关键词,创建文本相似度矩阵;
S3、基于文本相似度矩阵构建邻接矩阵,基于邻接矩阵构建度矩阵;
S4、结合邻接矩阵和度矩阵构建拉普拉斯矩阵;
S5、计算拉普拉斯矩阵的特征值和特征向量,得到对应于待聚类文档集的特征矩阵;
S6、采用经典聚类方法对特征矩阵进行聚类,得到对应的聚类结果;
S7、若已知聚类的类别个数,则执行步骤S9;
若未知聚类的类别个数,则执行步骤S8;
S8、依次调整聚类参数,以确定对应的类别个数,之后返回执行步骤S3~S6,得到多个调整聚类结果,并对多个调整聚类结果进行评估,选取得到最优的聚类结果;
S9、结合步骤S6或步骤S8得到的聚类结果以及步骤S1提取的关键词,基于TF-IDF算法提取出类别关键词;
S10、输出聚类结果及对应的类别关键词。
将上述方法应用于实际,具体工作过程如图2所示,从用户输入文档集至输出文本聚类结果,主要包括以下过程:
一、对输入的文档集进行分词、去停用词以及提取关键词处理
在对文本聚类之前,需要提取文本关键词,有两个原因:一是缩小创建文本相似矩阵的向量维度,二是在聚类完成后可根据文本关键词提取出类别关键词。在提取关键词时,通过词性过滤,主要保留了词性为名词、动词、动名词、人名、地名及机构名词等的关键词,以提高文本相似度的精确性。
二、通过提取出来的关键词创建文本相似度矩阵
通常计算文本相似度方法有余弦相似度、欧式距离、jaccard距离等方法,本发明采用构建词袋的方式来计算文本相似度,主要是计算文本下每个关键词的TF-IDF值,保存在一个类似袋子的地方,通过判断一个文本与另一个文本之间是否有相同的关键词,再利用词袋里的TF-IDF值计算文本之间的相似度,此种方法类似余弦距离计算方式,但是能够进一步减少计算量、达到提高效率的效果。得到的文本相似度矩阵就是一个N*N的矩阵,每个值都是文本与文本之间的相似度。
三、计算邻接矩阵(W)、度矩阵(D)和拉普拉斯矩阵(L)
邻接矩阵(W):构建邻接矩阵的方法有三类:∈-邻近法、K邻近法和全连接法。其中,∈-邻近法,它设置了一个距离阈值∈,然后用欧式距离度量任意两点之间的距离。即有文本相似矩阵的欧式距离为:
其中,sij为文本相似度矩阵中元素xi与元素xj之间的欧式距离,根据sij和∈的大小关系,定义邻接矩阵W如下:
其中,wij为邻接矩阵W中第i行第j列元素;
K邻近法是只要一个点在另一个点的K近邻中,则保留sij,或两个点互为K近邻中,才能保留sij:
其中,KNN(xi)为元素xi的K个近邻,KNN(xj)为元素xj的K个近邻,σ为方差;
全连接法,相比前两种方法,全连接方法所有的点之间的权重值都大于0,因此称之为全连接法。可以选择不同的核函数来定义边权重,常用的有多项式核函数,高斯核函数和Sigmoid核函数。最常用的是高斯核函数RBF,此时相似矩阵和邻接矩阵相同:
度矩阵D是由邻接矩阵构建,度矩阵是一个对角矩阵,只有主对角线上有值,其他位置的值都为0。对角线上的值为本行所有值得和,即:
其中,di为度矩阵D中第i行位于主对角线上的元素,n为文本个数。
拉普拉斯矩阵是对称矩阵,由D和W都是对称矩阵而得,并且它的所有的特征值都是实数:
L=D-W
其中,L为拉普拉斯矩阵,D为度矩阵,W为邻接矩阵。
四、计算特征值、特征向量和特征矩阵
根据拉普拉斯矩阵计算矩阵的特征值和特征向量,先根据拉普拉斯矩阵的特征多项式求解得到特征值,根据特征值求解特征向量,再通过聚类个数(m)判断特征值大小满足条件(具体是特征值的数值小于(1-1/m)*0.95)的个数,以作为降维的维度数,通过降维得到待聚类文档集的特征矩阵。
五、本实施例通过kmeans对特征矩阵进行聚类
在构建特征矩阵后,利用传统的经典聚类算法kmeans对特征矩阵进行聚类。谱聚类只需要文本之间的相似度矩阵,对处理稀疏数据比较有效,直接用kmeans很难做到;谱聚类使用了降维,处理高维数据时比直接使用kmeans效果要好。若直接传入聚类的类别个数,在通过kmeans聚类完成后即可跳过以下第六步骤,到第七步骤,直接提取类别关键词,完成聚类任务。若未传入具体聚类的类别个数,则需要通过第六步找到一个效果较好的聚类个数完成聚类,再进行关键词提取,完成聚类任务。
六、评估聚类效果
通过调整参数聚类个数,返回步骤三,重新获得聚类结果,并且评估聚类结果的直方图,找到一个效果最优直方图对应的聚类个数作为此次聚类任务的类别个数。
七、提取类别关键词
根据聚类结果和文本关键词通过TF-IDF算法提取出类别关键词,可根据类别关键词大致判断此类别所述内容。此类别关键词是基于此次聚类任务下几个类别计算的TF-IDF值提取的关键词,与非此次任务的文本数据无关。
八、整个流程结束,返回类别文本及类别关键词
本实施例应用本发明方法与kmeans、DBscan算法分别对四类数据进行聚类处理,其中,四类数据具体为:
数据1:
表1
数据2:
表2
类别名词 | 数量(篇) | 平均大小(k) | 其他说明 |
测试 | 10 | 9 | 本类别及其他类别文本为本公司文本数据 |
方案 | 10 | 25 | |
最佳实践 | 10 | 17 | |
指导文件 | 10 | 18 |
数据3(网络下载,由清华大学自然语言处理与社会人文计算实验室提供的新浪新闻数据,共14个新闻类别):
表3
类别 | 数量(篇) |
财经 | 200 |
彩票 | 200 |
房产 | 200 |
股票 | 200 |
家具 | 200 |
教育 | 200 |
科技 | 200 |
社会 | 200 |
时尚 | 200 |
时政 | 200 |
体育 | 200 |
星座 | 200 |
娱乐 | 200 |
数据4(网络下载复旦大学李荣陆提供数据集,用于分类模型训练数据集):
表4
类别 | 数量(篇) |
Art | 800 |
Economy | 800 |
Politics | 800 |
Space | 800 |
Sports | 800 |
Agriculture | 300 |
Computer | 300 |
Enviornment | 300 |
History | 300 |
本实施例具体是利用上述四种数据,结合kmeans、DBscan算法以及本发明提出的方法测试得到精确率、召回率以及F1值,首先对这三个测试指标进行说明,根据混淆矩阵,假如现在有一个二分类问题,那么预测结果和实际结果两两结合会出现如下四种情况:
表5
由于用数字1、0表示不太方便阅读,转换为用T(True)代表正确、F(False)代表错误、P(Positive)代表1、N(Negative)代表0。先看预测结果(P|N),然后再针对实际结果对比预测结果,给出判断结果(T|F)。按照上面逻辑,重新分配后为:
表6
TP、FP、FN、TN可以理解为:
TP:预测为1,实际为1,预测正确;
FP:预测为1,实际为0,预测错误;
FN:预测为0,实际为1,预测错误;
TN:预测为0,实际为0,预测正确。
准确率:预测正确的结果占总样本的百分比,表达式为:
精确率:针对预测结果而言的,其含义是在被所有预测为正的样本中实际为正样本的概率,表达式为:
召回率:针对原样本而言的,其含义是在实际为正的样本中被预测为正样本的概率,表达式为:
F1分数表达式为:
对于数据1,在已知传入类别个数的情况下进行测试,测试结果如表7所示:
表7
由表7的数据可知,利用不同的聚类算法,传入固定的聚类个数时,本方法的精确率、召回率和F1值均优于kmeans算法和DBscan算法。
对于数据2,采用本发明提出的方法,分别在指定和未指定类别个数的情况下进行测试,测试结果如表8所示:
表8
是否指定聚类个数 | 聚类结果 | 精确率(%) | 召回率(%) | F1值(%) |
指定聚类个数4 | 4个类别 | 96.2 | 93.7 | 94.9 |
未指定聚类个数 | 4个类别 | 96.2 | 93.7 | 94.9 |
由表8的数据可知,已知测试文档集有4类数据,在指定和不指定4个类别数据时,本方法的聚类结果都是4个类别,并且聚类效果较优。
对于数据3,在指定聚类个数的情况下测试本方法结果:
表9
聚类结果 | 精确率(%) | 召回率(%) | F1值(%) |
14个类别 | 93.2 | 93 | 93 |
由表9的数据可知,当利用多个类别、数量较多的文档集进行测试时,在传入固定的类别个数情况下,本方法测试结果的平均精确率、平均召回率及平均F1值均超过90%,效果较优。
对于数据4,共进行了两次测试,第一次测试是利用所有9个类别,每个类别包含300个文本,共2700个文本进行测试,并对比kmean和DBscan测试结果如表10所示:
表10
算法 | 平均精确率(%) | 平均召回率(%) | 平均F1值(%) |
Kmeans | 65.8 | 63.9 | 64.8 |
DBscan | 52.3 | 49.5 | 50.86 |
本方法 | 68.3 | 66.9 | 67.6 |
从测试数据看,本方法与kmeans方法对比后效果并没有特别突出,整体数据值相差不大;并且每个算法整体数据都不太高;经过抽查文本及聚类结果分析,发现此数据集中有个别不同类别的文本比较相似,有交叉的情况,比如:Enviorment(环境)类别与Agriculture(农业)类别中,有较多交叉文本,提取的关键词比较相似,也就是根据这些关键词会容易判断错误类别;
基于上面的分析,本实施例对数据4进行了测试数据优化,直接去掉了有文本交叉的类别数据,只用了9个类别中的5个类别(Art,Economy,Politics,Space,Sports),每个类别800个数据,共4000个文本数据,做了第二次测试,数据结果如表11所示:
表11
算法 | 平均精确率(%) | 平均召回率(%) | 平均F1值(%) |
Kmeans | 83.3 | 79.6 | 81.4 |
DBscan | 63.2 | 65.8 | 64.5 |
本方法 | 89.61 | 89.02 | 89.31 |
由表11和表10的数据可知,整体效果都有一定提高,对比数据4的两次测试结果,不管有没有对数据集进行优化,本方法效果都比kmeans和dbscan算法的效果要高。
综上所述,本发明在原谱聚类的基础上进行改进,一是可不指定聚类个数的情况下进行聚类;二是特征向量降维的维度数不是传入的聚类个数,而是取决于特征值里较小值的个数;三是聚类完成后可提取出类别关键词。主要流程是在构建好文本相似度矩阵后,通过调整参数聚类个数,计算出邻接矩阵(W)、度矩阵(D)和拉普拉斯矩阵(L),再计算得到特征值和特征向量,通过判断特征值大小满足条件的个数k,把特征向量降维到k,构建成一个特征向量矩阵,利用其他经典聚类算法(比如:kmeans)对特征向量矩阵进行聚类,通过评估聚类效果选择聚类效果比较好的聚类个数,以达到在不传入聚类个数的情况下,聚类效果仍然能够满足需求,并保留原谱聚类方法中可指定聚类个数对文本集进行聚类的方法。不仅有利于用户对未知数据集进行聚类操作,还可以让用户在已知类别数的情况下进行文本聚类,同时在对文档集进行聚类的同时,提取出根据此聚类结果计算出的类别关键词,让用户能够根据关键词判断此类别所要表达的主题内容。通过测试,本发明的聚类效果也比传统的聚类算法在精确率和召回率上有一定的提高。
在实际应用中,采用本发明提出的方法,能够针对未知或已知类别个数的情况下,对文档集进行聚类,可以应用于客户想对一些未标注的文本集进行类别划分,并提取出类别下的关键词,可延伸精确应用于对未知类别敏感文档集进行聚类,然后再用这些有标注的敏感文档的关键词进行文档分类,以达到应用已知的敏感文件判断未知的文档是否属于敏感文件及判断所属的类别,并根据判断的敏感类别做出相应的反应。
在文本聚类时不仅可以对已知类别个数的文档集进行聚类,还可以对未知类别个数的文档集进行聚类,用户只要有文档集数据,都可以完成文档的类别区分工作;
对稀疏数据很有效,比传统聚类算法的效果好;对高维数据也使用了降维处理,聚类时的复杂度也比传统聚类算法好;
聚类结果的精确率和召回率比传统算法好,应用广泛,既可以处理未知类别文档集,又可以处理已知类别文档集。既可以对特定领域的文档集进行聚类处理(比如:已知敏感文件或机密文件等),也可以对普通的文档集进行聚类操作。在聚类的基础上还可以查看类别关键词,在不用翻看每个文件内容的情况下就可以查看类别文本所讲的大致内容。并且可以用类别文本关键词创建文本分类模型,应用于文本分类。
Claims (10)
1.一种基于改进谱聚类算法的文本聚类方法,其特征在于,包括以下步骤:
S1、对待聚类文档集依次进行分词、去停用词以及提取关键词处理;
S2、根据提取的关键词,创建文本相似度矩阵;
S3、基于文本相似度矩阵构建邻接矩阵,基于邻接矩阵构建度矩阵;
S4、结合邻接矩阵和度矩阵构建拉普拉斯矩阵;
S5、计算拉普拉斯矩阵的特征值和特征向量,得到对应于待聚类文档集的特征矩阵;
S6、采用经典聚类方法对特征矩阵进行聚类,得到对应的聚类结果;
S7、若已知聚类的类别个数,则执行步骤S9;
若未知聚类的类别个数,则执行步骤S8;
S8、依次调整聚类参数,以确定对应的类别个数,之后返回执行步骤S3~S6,得到多个调整聚类结果,并对多个调整聚类结果进行评估,选取得到最优的聚类结果;
S9、结合步骤S6或步骤S8得到的聚类结果以及步骤S1提取的关键词,基于TF-IDF算法提取出类别关键词;
S10、输出聚类结果及对应的类别关键词。
2.根据权利要求1所述的一种基于改进谱聚类算法的文本聚类方法,其特征在于,所述步骤S1提取的关键词的词性包括名词、动词、动名词、人名、地名以及机构名词。
3.根据权利要求1所述的一种基于改进谱聚类算法的文本聚类方法,其特征在于,所述步骤S2具体包括以下步骤:
S21、计算不同文本中各关键词的TF-IDF值,并将所有文本中各关键词的TF-IDF值放入词袋中;
S22、根据词袋中存入的所有文本中各关键词的TF-IDF值,计算得到各文本之间的相似度,利用各文本之间的相似度构建文本相似度矩阵。
4.根据权利要求3所述的一种基于改进谱聚类算法的文本聚类方法,其特征在于,所述文本相似度矩阵具体为一个N*N的矩阵,该矩阵中的每个元素分别为不同文本之间的相似度。
5.根据权利要求4所述的一种基于改进谱聚类算法的文本聚类方法,其特征在于,所述步骤S3具体包括以下步骤:
S31、基于文本相似度矩阵,采用∈-邻近法、K邻近法或全连接法构建邻接矩阵W;
S32、根据邻接矩阵中的元素,构建一个对角矩阵,即得到度矩阵D。
8.根据权利要求7所述的一种基于改进谱聚类算法的文本聚类方法,其特征在于,所述步骤S4中拉普拉斯矩阵具体为:
L=D-W
其中,L为拉普拉斯矩阵,D为度矩阵,W为邻接矩阵。
9.根据权利要求1所述的一种基于改进谱聚类算法的文本聚类方法,其特征在于,所述步骤S5具体包括以下步骤:
S51、根据拉普拉斯矩阵的特征多项式,求解得到特征值;
S52、根据特征值,求解得到特征向量;
S53、根据类别个数,筛选出满足预设条件的特征值的数量为k,将特征向量降维到k,从而构建得到降维处理后的特征矩阵,其中,预设条件具体为特征值的数值小于(1-1/m)*0.95,m为类别个数。
10.根据权利要求1所述的一种基于改进谱聚类算法的文本聚类方法,其特征在于,所述步骤S8具体是采用计算直方图的方式,以对多个调整聚类结果进行评估。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011464923.4A CN112464638B (zh) | 2020-12-14 | 2020-12-14 | 一种基于改进谱聚类算法的文本聚类方法 |
PCT/CN2021/071166 WO2022126810A1 (zh) | 2020-12-14 | 2021-01-12 | 文本聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011464923.4A CN112464638B (zh) | 2020-12-14 | 2020-12-14 | 一种基于改进谱聚类算法的文本聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112464638A true CN112464638A (zh) | 2021-03-09 |
CN112464638B CN112464638B (zh) | 2022-12-30 |
Family
ID=74804038
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011464923.4A Active CN112464638B (zh) | 2020-12-14 | 2020-12-14 | 一种基于改进谱聚类算法的文本聚类方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112464638B (zh) |
WO (1) | WO2022126810A1 (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113011153A (zh) * | 2021-03-15 | 2021-06-22 | 平安科技(深圳)有限公司 | 文本相关性检测方法、装置、设备及存储介质 |
CN113361605A (zh) * | 2021-06-07 | 2021-09-07 | 汇智数字科技控股(深圳)有限公司 | 一种基于亚马逊关键词的产品相似度定量方法 |
CN113554074A (zh) * | 2021-07-09 | 2021-10-26 | 浙江工贸职业技术学院 | 一种基于分层Laplace的图像特征分析方法 |
CN114328922A (zh) * | 2021-12-28 | 2022-04-12 | 盐城工学院 | 一种基于谱图理论的选择性文本聚类集成方法 |
CN114969348A (zh) * | 2022-07-27 | 2022-08-30 | 杭州电子科技大学 | 基于逆变调节知识库的电子文件分级分类方法及系统 |
CN115841110A (zh) * | 2022-12-05 | 2023-03-24 | 武汉理工大学 | 一种获取科学知识发现的方法及系统 |
CN115982633A (zh) * | 2023-03-21 | 2023-04-18 | 北京百度网讯科技有限公司 | 目标对象分类方法、装置、电子设备及存储介质 |
CN116402554A (zh) * | 2023-06-07 | 2023-07-07 | 江西时刻互动科技股份有限公司 | 一种广告点击率预测方法、系统、计算机及可读存储介质 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115186778A (zh) * | 2022-09-13 | 2022-10-14 | 福建省特种设备检验研究院 | 一种基于文本分析的承压类特种设备隐患识别方法及终端 |
CN117891411B (zh) * | 2024-03-14 | 2024-06-14 | 济宁蜗牛软件科技有限公司 | 一种海量档案数据优化存储方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103514183A (zh) * | 2012-06-19 | 2014-01-15 | 北京大学 | 基于交互式文档聚类的信息检索方法及系统 |
CN104462253A (zh) * | 2014-11-20 | 2015-03-25 | 武汉数为科技有限公司 | 一种面向网络文本大数据的话题检测或跟踪方法 |
CN104778480A (zh) * | 2015-05-08 | 2015-07-15 | 江南大学 | 一种基于局部密度和测地距离的分层谱聚类方法 |
CN105159998A (zh) * | 2015-09-08 | 2015-12-16 | 海南大学 | 一种基于文档聚类关键词计算方法 |
CN106991430A (zh) * | 2017-02-28 | 2017-07-28 | 浙江工业大学 | 一种基于临近点法的聚类个数自动确定谱聚类方法 |
CN107590218A (zh) * | 2017-09-01 | 2018-01-16 | 南京理工大学 | 基于Spark的多特征结合中文文本高效聚类方法 |
CN111401468A (zh) * | 2020-03-26 | 2020-07-10 | 上海海事大学 | 一种基于共享近邻的权重自更新多视角谱聚类方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080243829A1 (en) * | 2007-03-29 | 2008-10-02 | Microsoft Corporation | Spectral clustering using sequential shrinkage optimization |
CN107943856A (zh) * | 2017-11-07 | 2018-04-20 | 南京邮电大学 | 一种基于扩充标记样本的文本分类方法及系统 |
CN108132968B (zh) * | 2017-12-01 | 2020-08-04 | 西安交通大学 | 网络文本与图像中关联语义基元的弱监督学习方法 |
CN109960730B (zh) * | 2019-04-19 | 2022-12-30 | 广东工业大学 | 一种基于特征扩展的短文本分类方法、装置以及设备 |
-
2020
- 2020-12-14 CN CN202011464923.4A patent/CN112464638B/zh active Active
-
2021
- 2021-01-12 WO PCT/CN2021/071166 patent/WO2022126810A1/zh active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103514183A (zh) * | 2012-06-19 | 2014-01-15 | 北京大学 | 基于交互式文档聚类的信息检索方法及系统 |
CN104462253A (zh) * | 2014-11-20 | 2015-03-25 | 武汉数为科技有限公司 | 一种面向网络文本大数据的话题检测或跟踪方法 |
CN104778480A (zh) * | 2015-05-08 | 2015-07-15 | 江南大学 | 一种基于局部密度和测地距离的分层谱聚类方法 |
CN105159998A (zh) * | 2015-09-08 | 2015-12-16 | 海南大学 | 一种基于文档聚类关键词计算方法 |
CN106991430A (zh) * | 2017-02-28 | 2017-07-28 | 浙江工业大学 | 一种基于临近点法的聚类个数自动确定谱聚类方法 |
CN107590218A (zh) * | 2017-09-01 | 2018-01-16 | 南京理工大学 | 基于Spark的多特征结合中文文本高效聚类方法 |
CN111401468A (zh) * | 2020-03-26 | 2020-07-10 | 上海海事大学 | 一种基于共享近邻的权重自更新多视角谱聚类方法 |
Non-Patent Citations (3)
Title |
---|
丁祥武等: "一种大规模分类数据聚类算法及其并行实现", 《计算机研究与发展》 * |
孙丽娟: "谱聚类算法研究及其在文本聚类中的应用", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
空白_J: "谱聚类算法总结", 《HTTPS://WWW.JIANSHU.COM/P/1DC1C123DFE2》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113011153B (zh) * | 2021-03-15 | 2022-03-29 | 平安科技(深圳)有限公司 | 文本相关性检测方法、装置、设备及存储介质 |
CN113011153A (zh) * | 2021-03-15 | 2021-06-22 | 平安科技(深圳)有限公司 | 文本相关性检测方法、装置、设备及存储介质 |
CN113361605B (zh) * | 2021-06-07 | 2024-05-24 | 汇智数字科技控股(深圳)有限公司 | 一种基于亚马逊关键词的产品相似度定量方法 |
CN113361605A (zh) * | 2021-06-07 | 2021-09-07 | 汇智数字科技控股(深圳)有限公司 | 一种基于亚马逊关键词的产品相似度定量方法 |
CN113554074A (zh) * | 2021-07-09 | 2021-10-26 | 浙江工贸职业技术学院 | 一种基于分层Laplace的图像特征分析方法 |
CN114328922A (zh) * | 2021-12-28 | 2022-04-12 | 盐城工学院 | 一种基于谱图理论的选择性文本聚类集成方法 |
CN114328922B (zh) * | 2021-12-28 | 2022-08-02 | 盐城工学院 | 一种基于谱图理论的选择性文本聚类集成方法 |
CN114969348A (zh) * | 2022-07-27 | 2022-08-30 | 杭州电子科技大学 | 基于逆变调节知识库的电子文件分级分类方法及系统 |
CN114969348B (zh) * | 2022-07-27 | 2023-10-27 | 杭州电子科技大学 | 基于逆变调节知识库的电子文件分级分类方法及系统 |
CN115841110B (zh) * | 2022-12-05 | 2023-08-11 | 武汉理工大学 | 一种获取科学知识发现的方法及系统 |
CN115841110A (zh) * | 2022-12-05 | 2023-03-24 | 武汉理工大学 | 一种获取科学知识发现的方法及系统 |
CN115982633A (zh) * | 2023-03-21 | 2023-04-18 | 北京百度网讯科技有限公司 | 目标对象分类方法、装置、电子设备及存储介质 |
CN115982633B (zh) * | 2023-03-21 | 2023-06-20 | 北京百度网讯科技有限公司 | 目标对象分类方法、装置、电子设备及存储介质 |
CN116402554A (zh) * | 2023-06-07 | 2023-07-07 | 江西时刻互动科技股份有限公司 | 一种广告点击率预测方法、系统、计算机及可读存储介质 |
CN116402554B (zh) * | 2023-06-07 | 2023-08-11 | 江西时刻互动科技股份有限公司 | 一种广告点击率预测方法、系统、计算机及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2022126810A1 (zh) | 2022-06-23 |
CN112464638B (zh) | 2022-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112464638B (zh) | 一种基于改进谱聚类算法的文本聚类方法 | |
CN109189925B (zh) | 基于点互信息的词向量模型和基于cnn的文本分类方法 | |
CN108804641B (zh) | 一种文本相似度的计算方法、装置、设备和存储介质 | |
CN106407406B (zh) | 一种文本处理方法和系统 | |
Babar et al. | Improving performance of text summarization | |
CN108228541B (zh) | 生成文档摘要的方法和装置 | |
CN111090719B (zh) | 文本分类方法、装置、计算机设备及存储介质 | |
CN106294733B (zh) | 基于文本分析的网页检测方法 | |
CN110569289B (zh) | 基于大数据的列数据处理方法、设备及介质 | |
CN115098690B (zh) | 一种基于聚类分析的多数据文档分类方法及系统 | |
Di Corso et al. | Self-tuning techniques for large scale cluster analysis on textual data collections | |
CN111144106A (zh) | 一种不平衡数据集下的两阶段文本特征选择方法 | |
CN109829154B (zh) | 基于语义的人格预测方法、用户设备、存储介质及装置 | |
CN116304063B (zh) | 一种简单的情感知识增强提示调优的方面级情感分类方法 | |
CN116501875A (zh) | 一种基于自然语言和知识图谱的文档处理方法和系统 | |
CN116804998A (zh) | 基于医学语义理解的医学术语检索方法和系统 | |
CN115344695A (zh) | 一种基于领域bert模型的服务文本分类方法 | |
CN115577080A (zh) | 一种问题回复匹配方法、系统、服务器及存储介质 | |
CN112489689B (zh) | 基于多尺度差异对抗的跨数据库语音情感识别方法及装置 | |
Zobeidi et al. | Effective text classification using multi-level fuzzy neural network | |
CN112445914A (zh) | 文本分类方法、装置、计算机设备和介质 | |
US20230259761A1 (en) | Transfer learning system and method for deep neural network | |
Dokun et al. | Single-document summarization using latent semantic analysis | |
CN110580286A (zh) | 一种基于类间信息熵的文本特征选择方法 | |
CN113723506B (zh) | 一种对抗样本的生成方法、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A Text Clustering Method Based on Improved Spectral Clustering Algorithm Effective date of registration: 20231115 Granted publication date: 20221230 Pledgee: Bank of Shanghai Limited by Share Ltd. Pudong branch Pledgor: SHANGHAI EISOO INFORMATION TECHNOLOGY Co.,Ltd. Registration number: Y2023310000743 |