CN116992026A - 一种文本聚类方法、装置、电子设备及存储介质 - Google Patents
一种文本聚类方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116992026A CN116992026A CN202310859085.8A CN202310859085A CN116992026A CN 116992026 A CN116992026 A CN 116992026A CN 202310859085 A CN202310859085 A CN 202310859085A CN 116992026 A CN116992026 A CN 116992026A
- Authority
- CN
- China
- Prior art keywords
- target
- text
- matrix
- sentence vector
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 239000011159 matrix material Substances 0.000 claims abstract description 127
- 239000013598 vector Substances 0.000 claims abstract description 123
- 238000012545 processing Methods 0.000 claims abstract description 28
- 230000009467 reduction Effects 0.000 claims abstract description 20
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 239000002245 particle Substances 0.000 claims description 39
- 238000004422 calculation algorithm Methods 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 6
- 230000009193 crawling Effects 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 12
- 230000002159 abnormal effect Effects 0.000 abstract description 3
- 238000005457 optimization Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 238000003064 k means clustering Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本聚类方法、装置、电子设备及存储介质,方法:获取目标语料数据,预处理后得到目标文本数据;对目标文本数据进行向量化处理,获得第一句向量矩阵;并对第一句向量矩阵进行降维处理,获得第二句向量矩阵;根据目标文本数据构建词汇库,对词汇库进行主题建模,获得概率矩阵;对第二句向量矩阵和概率矩阵进行拼接处理,获得目标矩阵;根据目标矩阵,拟合得到目标聚类质心,基于目标聚类质心进行文本聚类,得到文本聚类结果。本发明能够缓解主题聚类忽略文本的上下文信息的问题,同时也能捕捉到长尾词汇对语义的作用,能减少噪声与异常值的影响;并且能提高聚类的精度,从而提高对文本聚类的效果,可广泛应用于数据处理技术领域。
Description
技术领域
本发明涉及数据处理技术领域,尤其是一种文本聚类方法、装置、电子设备及存储介质。
背景技术
随着互联网的普及,用户可以自由发布文本形式的内容。这些内容形成的数据流具有强大的传播力,让社交平台用户能够获取实时的热点信息。但是随着信息的爆炸性增长,面对如此杂乱无序的信息,如何自动将这些文本信息进行主题聚类成为人们关注的焦点。
目前对于文本信息的聚类,主要有三种方式,一种是基于人工标注的方式,通过人为预先确定主题,根据文本内容进行手工标注。
另一种是基于机器学习无监督的聚类方式,其主要思路是通过计算文本的词频、词性、标志词等文本相关特征,利用机器学习进行文本聚类。这种方法是实现文本聚类的一个主要手段。但是对于这种聚类方式,其方法并没有考虑到上下文对某个词语的影响可能导致该词语脱离了原意,从而可能导致对文本主题聚类不准确。
第三种是基于深度学习的无监督聚类方式,主要思路是将文本转变为含有语义信息的向量,接着通过聚类算法对向量进行聚类,从而完成对文本的聚类,但该方法关注于句子的语义信息,同时由于深度学习的"黑盒"问题,无法对形成的向量做出解释,难以进一步解释其结果并进一步进行优化。
发明内容
有鉴于此,本发明实施例提供一种文本聚类方法、装置、电子设备及存储介质,能够高效准确进行文本聚类。
一方面,本发明的实施例提供了一种文本聚类方法,包括:
获取目标语料数据,预处理后得到目标文本数据;目标文本数据包括若干条文本;
对目标文本数据进行向量化处理,获得第一句向量矩阵;并对第一句向量矩阵进行降维处理,获得第二句向量矩阵;
根据目标文本数据构建词汇库,对词汇库进行主题建模,获得概率矩阵;
对第二句向量矩阵和概率矩阵进行拼接处理,获得目标矩阵;
根据目标矩阵,拟合得到目标聚类质心,基于目标聚类质心进行文本聚类,得到文本聚类结果。
可选地,获取目标语料数据,预处理后得到目标文本数据,包括:
利用python爬虫程序爬取各种主题下的社交文本作为目标语料数据;
对目标语料数据中的无效言论进行删除处理,获得目标文本数据,进而构建得到语料库;
其中,无效言论包括空白文本和乱码文本。
可选地,对目标文本数据进行向量化处理,获得第一句向量矩阵,包括:
利用BERT模型,将目标文本数据中的每条文本表示为句向量;
对各条文本的句向量进行数据合并,获得第一句向量矩阵。
可选地,第一句向量矩阵中包括若干句向量;对第一句向量矩阵进行降维处理,获得第二句向量矩阵,包括:
通过等距特征映射对第一句向量矩阵中的各个句向量进行降维处理,将第一句向量矩阵中的各个句向量降维到预设维度,获得第二句向量矩阵。
可选地,根据目标文本数据构建词汇库,包括:
对目标文本数据中的每条文本进行分词处理和词性标注,获得词汇集;
将词汇集中的停止词和低频词删除,并提取每条文本下的名词、动词和形容词,进而整理得到词汇库。
可选地,对词汇库进行主题建模,获得概率矩阵,包括:
通过预设主题模型对词汇库进行主题建模;
基于主题建模的评价指标的数值,确定目标聚类簇数;
根据目标聚类簇数确定每条文本所属不同主题下的概率,整理获得概率矩阵。
可选地,根据目标矩阵,拟合得到目标聚类质心,基于目标聚类质心进行文本聚类,得到文本聚类结果,包括:
利用粒子群算法拟合目标矩阵,得到K-means的目标聚类质心;
基于目标聚类质心,通过K-means进行文本聚类,得到文本聚类结果。
另一方面,本发明的实施例提供了一种文本聚类装置,包括:
第一模块,用于获取目标语料数据,预处理后得到目标文本数据;目标文本数据包括若干条文本;
第二模块,用于对目标文本数据进行向量化处理,获得第一句向量矩阵;并对第一句向量矩阵进行降维处理,获得第二句向量矩阵;
第三模块,用于根据目标文本数据构建词汇库,对词汇库进行主题建模,获得概率矩阵;
第四模块,用于对第二句向量矩阵和概率矩阵进行拼接处理,获得目标矩阵;
第五模块,用于根据目标矩阵,拟合得到目标聚类质心,基于目标聚类质心进行文本聚类,得到文本聚类结果。
另一方面,本发明的实施例提供了一种电子设备,包括处理器以及存储器;
存储器用于存储程序;
处理器执行程序实现如前面的方法。
另一方面,本发明的实施例提供了一种计算机可读存储介质,存储介质存储有程序,程序被处理器执行实现如前面的方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
本发明实施例首先获取目标语料数据,预处理后得到目标文本数据;目标文本数据包括若干条文本;对目标文本数据进行向量化处理,获得第一句向量矩阵;并对第一句向量矩阵进行降维处理,获得第二句向量矩阵;根据目标文本数据构建词汇库,对词汇库进行主题建模,获得概率矩阵;对第二句向量矩阵和概率矩阵进行拼接处理,获得目标矩阵;根据目标矩阵,拟合得到目标聚类质心,基于目标聚类质心进行文本聚类,得到文本聚类结果。本发明实施例通过结合句向量构建的句向量矩阵与主题建模的概率矩阵,能够一定程度上缓解主题聚类忽略文本的上下文信息的问题,同时也能捕捉到长尾词汇对语义的作用,一定程度上能减少噪声与异常值的影响;并且,本发明实施例通过基于目标聚类质心进行文本聚类能提高聚类的精度,从而提高对文本聚类的效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种文本聚类方法的流程示意图;
图2为本发明实施例提供的矩阵拼接的示意图;
图3为本发明实施例提供的文本聚类方法的整体流程的示意图;
图4为本发明实施例提供的文本聚类方法的整体架构流程示意图;
图5为本发明实施例提供的一种文本聚类装置的结构示意图;
图6为本发明实施例提供的一种电子设备的框架示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
首先需要说明的是,为便于本发明技术方案的理解,对本发明技术方案可能出现的相关专业术语进行名词解释:
BERT模型:BERT模型的全称是Bidirectional Encoder Representations fromTransformer(来自Transformer的双向表示编码器)。BERT模型的目标是利用大规模无标注语料训练获得文本的语义表示,然后将文本的语义表示在特定NLP(自然语言处理)任务中作微调,最终应用于该NLP任务。
在基于深度神经网络的NLP方法中,文本中的字/词通常都用一维向量来表示;在此基础上,神经网络会将文本中各个字或词的一维词向量作为输入,经过一系列复杂的转换后,输出一个一维词向量作为文本的语义表示。特别地,我们通常希望语义相近的字/词在特征向量空间上的距离也比较接近,如此一来,由字/词向量转换而来的文本向量也能够包含更为准确的语义信息。因此,BERT模型的主要输入是文本中各个字/词的原始词向量,该向量既可以随机初始化,也可以利用Word2Vector等算法进行预训练后作为初始值;输出是文本中各个字/词融合了全文语义信息后的向量表示。
句向量:句向量概念类似于词向量,就是把句子语义投影到一个n维向量空间上。通常情况下,使用神经网络模型(如循环神经网络或卷积神经网络)对输入的句子进行处理,并产生一个固定大小的向量表示。这个向量可以被用来表示句子的语义含义,从而可以在许多自然语言处理任务中使用,如文本分类、情感分析、机器翻译等。句向量的生成过程通常是通过在大规模语料库上进行无监督学习得到的。
LDA模型:LDA(Latent Dirichlet Allocation)是一种主题模型,用于发现文本中的隐藏主题。它假设每个文档包含若干个主题,每个主题又由若干个单词构成。通过观察文本中出现的单词,可以推断出每个文档的主题以及每个主题所包含的单词。具体来说,LDA假设文档的生成过程如下:首先从主题分布中随机选择一个主题,然后从该主题对应的单词分布中选择一个单词。重复这个过程直到生成整篇文档。在训练过程中,LDA试图通过最大化似然函数的方法来学习主题分布和单词分布,从而实现对文档的主题分析和聚类。LDA模型在文本挖掘、信息检索、推荐系统等领域有着广泛的应用。
粒子群算法(PSO):粒子群算法(Particle Swarm Optimization,PSO)是一种基于群体智能的优化算法,模拟了鸟群或鱼群等动物在寻找食物或避免危险时的行为。它通过维护一组候选解(称为“粒子”),以及每个粒子的位置和速度,来搜索问题的最优解。
K-means:K-means均值聚类是一种矢量量化方法,最初来自信号处理,旨在将n个观测值划分为k个簇,其中每个观测值属于具有最近均值(簇中心或簇质心)的簇,作为集群。从而将数据进行聚类。
一方面,如图1所示,本发明的实施例提供了一种文本聚类方法,包括:
S100、获取目标语料数据,预处理后得到目标文本数据;
其中,目标文本数据包括若干条文本;
需要说明的是,一些实施例中,步骤S100可以包括:利用python爬虫程序爬取各种主题下的社交文本作为目标语料数据;对目标语料数据中的无效言论进行删除处理,获得目标文本数据,进而构建得到语料库;其中,无效言论包括空白文本和乱码文本。
一些具体实施例中,可以通过利用python爬虫技术,爬取博客程序/网站(例如新浪微博)中不同主题下的用户发布的社交文本,分别包括娱乐、彩票、房产、教育、游戏.....等主题,并删除无效言论(例如空白文本、乱码等),形成大约n=800条文本。
S200、对目标文本数据进行向量化处理,获得第一句向量矩阵;并对第一句向量矩阵进行降维处理,获得第二句向量矩阵;
需要说明的是,一些实施例中,对目标文本数据进行向量化处理,获得第一句向量矩阵,可以包括:利用BERT模型,将目标文本数据中的每条文本表示为句向量;对各条文本的句向量进行数据合并,获得第一句向量矩阵。
一些具体实施例中,可以通过使用BERT模型形成每条文本的句向量,步骤如下:
将步骤S100中文本的相关数据传入基于Bert模型的ERNIE(Enhanced LanguageRepresentation with Informative Entities OR Enhanced Representation throughKnowledgeIntegration)模型中,形成768维的文本句向量,即a={a1,a2,……,ai,……},通过将每条文本的句向量数据合并,得到句向量矩阵A(即第一句向量矩阵),其表示如下:
一些实施例中,第一句向量矩阵中包括若干句向量;对第一句向量矩阵进行降维处理,获得第二句向量矩阵,可以包括:通过等距特征映射对第一句向量矩阵中的各个句向量进行降维处理,将第一句向量矩阵中的各个句向量降维到预设维度,获得第二句向量矩阵。
一些具体实施例中,可以进行句向量降维,步骤如下:
将(第一句向量矩阵中)各个句向量表示结果进行ISOmap(Isometric Mapping—等距特征映射)降维,形成降维后的句向量表示,此步骤可简述为基于流形学习算法的句向量向量重嵌入(word re-embedding)。现有的分布式词嵌入模型忽略了句子的几何结构对语义计算的影响。句子的重新嵌入的目标是通过在原始嵌入空间中的固有几何信息来细化句子表示来解决这种问题。以往的研究采用了流形学习算法,通过整合句子和它们邻居之间的几何信息来实现这一目标。为了最大限度地利用语义信息进行特定领域的概念提取,本发明综合利用局部和全局几何信息,通过流形学习算法(a manifold learningalgorithm)来细化来自预先训练好的句向量。
本发明将前面步骤形成的每条文本的句向量。运用ISOmap降维技术将句向量矩阵A降维到20维,形成降维后的句向量矩阵A′,表示如下:
S300、根据目标文本数据构建词汇库,对词汇库进行主题建模,获得概率矩阵;
需要说明的是,一些实施例中,根据目标文本数据构建词汇库,可以包括:对目标文本数据中的每条文本进行分词处理和词性标注,获得词汇集;将词汇集中的停止词和低频词删除,并提取每条文本下的名词、动词和形容词,进而整理得到词汇库。
一些具体实施例中,词汇库的整理可以通过如下步骤实现:
将步骤S100阶段中爬取到的语料数据进行处理,将爬取的语料库利用jieba库分词并标注词性后,删除停止词、较低词频的词,筛选出每条文本下的名词、动词、形容词,记为W,所有文本处理后形成词汇库D={W1,W2,……,Wi,……}。
一些实施例中,对词汇库进行主题建模,获得概率矩阵,包括:通过预设主题模型对词汇库进行主题建模;基于主题建模的评价指标的数值,确定目标聚类簇数;根据目标聚类簇数确定每条文本所属不同主题下的概率,整理获得概率矩阵。
一些具体实施例中,可以进行LDA主题建模,步骤如下:
将词汇库D输入到LDA主题模型中,在这里使用的是Sklearn库中的LDA主题模型包LatentDirichletAllocation对其进行主题建模,并通过CH值(Calinski-Harabasz)对建模效果进行判别,确定最优的聚类簇数(CH值越高聚类效果越好)。最终选取最优的聚类簇数K,完成LDA主题建模,输出为每条文本的所属不同主题下的概率P={P1,P2,……,Pi,……},所有的文本所属不同主题的概率向量P形成概率矩阵B,其表示如下:
S400、对第二句向量矩阵和概率矩阵进行拼接处理,获得目标矩阵;
一些具体实施例中,矩阵拼接可以通过如下步骤实现:
如图2所示,将前面步骤得到的降维后的句向量A′矩阵与概率矩阵B进行拼接,形成融合了文本主题概率与文本语义的矩阵C,C的公式表示如下:
其中,将降维后的句向量矩阵A′与LDA处理后的主题概率矩阵B拼接的原因是增加文本的特征信息,运用更多的特征信息以期获得更好的聚类效果。
S500、根据目标矩阵,拟合得到目标聚类质心,基于目标聚类质心进行文本聚类,得到文本聚类结果;
需要说明的是,一些实施例中,步骤S500可以包括:利用粒子群算法拟合目标矩阵,得到K-means的目标聚类质心;基于目标聚类质心,通过K-means进行文本聚类,得到文本聚类结果。
首先需要说明的是,聚类任务中最常用的聚类算法是K-means算法。然而,由于其质心的随机初始化,它可能会出现局部最优问题。为了克服这一问题,一些具体实施例中,本发明使用粒子群算法(PSO)确定质心,对K-means算法进行优化。粒子群算法公式如下所示:
xi=xi+vi;
vi=w×vi+c1×rand()×(pbesti-xi)+c2×rand()×(gbesti-xi);
式中,i=1,2,...,N,N是此群中粒子的总数;vi是粒子的带方向的速度,代表记忆项,vi的最小值Vmin,如果小于Vmin,则vi=Vmin;w是学习率,指的是每次迭代后粒子群学习的效率;rand()为介于(0,1)之间的随机数;xi表示粒子的当前位置;c1和c2是学习因子,通常c1=c2=2;c1×rand()×(pbesti-xi)作为一个整体,代表自身认知项;c2×rand()×(gbesti-xi)作为一个整体,代表群体认知项。
进而,利用PSO优化K-means质心的方式的步骤如下:
1.(基于目标矩阵,即矩阵C)确定粒子数量x;
2.将每个粒子xi当前位置随机初始化为K*(K+20)维向量,其中K是K簇的个数,K+20是聚类后的质心维度;
3.将粒子的当前位置的值转变K个质心点,每个质心点是K+20维的坐标,将所有的质心点坐标作为K-means的初始化质心,得到以该粒子的值为质心的K-means聚类结果数据labels(labels功有K种),并通过判别函数F(x)确定粒子位置优劣,F(x)判别函数的表达式如下:
其中,Clabels=i表示矩阵C中属于K-means聚类为i标签的拼接向量,centroidsi代表K-means聚类后标签为i的质心,F(x)的值代表每个标签与该标签所属向量的距离平方和的总和。F(x)值越小,代表K-means的聚类效果越好,也就证明了该粒子粒子当前位置更好。
4.粒子初始速度v(粒子移动的初始速度)、单个粒子的学习因子c1(每个粒子向该粒子历史最佳值移动的学习率),粒子群的学习因子c2(每个粒子向所有粒子搜索到的历史最佳值移动的学习率),通常(c1=c2=2);
5.确定迭代次数,对粒子群算法进行迭代,最终得到收敛后的粒子最佳位置;最终通过多轮迭代后,粒子群优化算法得到了了最优的聚类质心(即目标聚类质心)。
最终,用粒子群优化算法优化后的质心进行K-means计算,具体为:通过多轮迭代后,粒子群优化算法得到了了最优的聚类质心。将该质心作为K-means的质心输入,得到最终的文本聚类结果。
具体地,为完整阐述本发明实施例的技术原理,下面结合部分具体实施例对上述整体流程步骤作进一步说明,应当理解,下述为本发明的解释,不能看作对本发明的限制。
首先,目前方案的主题聚类准确性不足,主要体现在以下四个方面:
(1)忽略了文本的上下文信息:当前的主题聚类算法主要依赖于词频、TF-IDF等特征值进行聚类,不能很好地反映单词在不同上下文中的语义差异。
(2)无法处理多义词与近义词:同一个单词可能存在多种同一个单词可能存在多种含义,而不同单词之间可能存在相似的语义。然而,当前算法往往将它们视为完全不同的词语,导致聚类结果出现偏差。
(3)对噪声和异常值敏感:无监督主题建模算法的性能容易受到数据中噪声和异常值的影响,从而产生不准确的结果。
(4)无法处理长尾词汇:传统的主题聚类算法通常只关注高频词汇,而忽略了低频词汇的影响,从而不能很好地反映文本的真实特征。
鉴于此,为更好的对社交媒体文本数据进行无监督的聚类,本发明实施例提出了文本聚类方法用于解决上述问题至少之一,如图3和图4所示,方法可以包括如下步骤:
本发明的技术方案提出LDA主题建模结果结合句向量,通过基于粒子群算法改进后K-MEANS聚类方法(PSO-Kmeans),完成文本数据的无监督聚类,主要包括以下几个阶段:
在S1阶段,完成对社交媒体文本语料库的构建。通过python爬虫程序,爬取新浪微博上的文本语料库,形成初始的语料库。
在S2阶段,形成语料库的句向量,通过利用BERT模型,将语料库中的每条文本表示为向量,形成768维句向量矩阵A。并通过降维技术将句向量矩阵A降维为20维的句向量矩阵A′。
在S3阶段,进行LDA主题建模。将S1阶段得到的社交媒体文本语料文本进行分词处理,并删除停用词与低频词,并将分词后的结果作为输入进行LDA主题建模。形成主题概率矩阵B。
S4阶段,向量拼接。将S2阶段生成的低维句向量矩阵A与S3阶段生成的主题概率矩阵B进行拼接,形成新的矩阵C。
S5阶段,通过PSO-KMEANS聚类算法进行文本聚类。通过利用粒子群算法(PSO)拟合矩阵C得到K-means的最佳聚类质心,并以粒子群算法优化后的最佳聚类质心为基础,对矩阵C进行K-means计算,从而完成对文本的无监督自动聚类。
综上,相对于目前主题建模技术,本发明结合了文本的上下文信息与词频信息,通过粒子群优化后的K-means算法对文本进行无监督聚类,能够提高主题建模的鲁棒性与精准性,从而提高聚类的效果。具体地说,传统的主题建模方法通常只关注词频信息,而忽略了文本的上下文信息。而该发明的方法则考虑了文本的上下文信息,从而更全面地理解文本中的主题和语义。同时,该发明还采用了粒子群优化算法来优化K-means算法的参数,从而得到更优的聚类结果。这些改进使得该方法在处理大量文本数据时更加鲁棒和精准,可以提高聚类的效果。即,本发明为提高对文本主题聚类的精度,通过结合LDA主题建模与BERT训练后的句向量,能够一定程度上缓解主题聚类忽略文本的上下文信息的问题,同时也能捕捉到长尾词汇对语义的作用,一定程度上能减少噪声与异常值的影响;另外通过粒子群算法优化后的K-means聚类能提高聚类的精度,从而提高对文本聚类的效果。
另一方面,如图5所示,本发明的实施例提供了一种文本聚类装置600,包括:第一模块610,用于获取目标语料数据,预处理后得到目标文本数据;目标文本数据包括若干条文本;第二模块620,用于对目标文本数据进行向量化处理,获得第一句向量矩阵;并对第一句向量矩阵进行降维处理,获得第二句向量矩阵;第三模块630,用于根据目标文本数据构建词汇库,对词汇库进行主题建模,获得概率矩阵;第四模块640,用于对第二句向量矩阵和概率矩阵进行拼接处理,获得目标矩阵;第五模块650,用于根据目标矩阵,拟合得到目标聚类质心,基于目标聚类质心进行文本聚类,得到文本聚类结果。
本发明方法实施例的内容均适用于本装置实施例,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法达到的有益效果也相同。
如图6所示,本发明实施例的另一方面还提供了一种电子设备700,包括处理器710以及存储器720;
存储器720用于存储程序;
处理器710执行程序实现如前面的方法。
本发明方法实施例的内容均适用于本电子设备实施例,本电子设备实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法达到的有益效果也相同。
本发明实施例的另一方面还提供了一种计算机可读存储介质,存储介质存储有程序,程序被处理器执行实现如前面的方法。
本发明方法实施例的内容均适用于本计算机可读存储介质实施例,本计算机可读存储介质实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法达到的有益效果也相同。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行装置、装置或设备(如基于计算机的装置、包括处理器的装置或其他可以从指令执行装置、装置或设备取指令并执行指令的装置)使用,或结合这些指令执行装置、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行装置、装置或设备或结合这些指令执行装置、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本发明权利要求所限定的范围内。
Claims (10)
1.一种文本聚类方法,其特征在于,包括:
获取目标语料数据,预处理后得到目标文本数据;所述目标文本数据包括若干条文本;
对所述目标文本数据进行向量化处理,获得第一句向量矩阵;并对所述第一句向量矩阵进行降维处理,获得第二句向量矩阵;
根据所述目标文本数据构建词汇库,对所述词汇库进行主题建模,获得概率矩阵;
对所述第二句向量矩阵和所述概率矩阵进行拼接处理,获得目标矩阵;
根据所述目标矩阵,拟合得到目标聚类质心,基于所述目标聚类质心进行文本聚类,得到文本聚类结果。
2.根据权利要求1所述的一种文本聚类方法,其特征在于,所述获取目标语料数据,预处理后得到目标文本数据,包括:
利用python爬虫程序爬取各种主题下的社交文本作为目标语料数据;
对目标语料数据中的无效言论进行删除处理,获得目标文本数据,进而构建得到语料库;
其中,所述无效言论包括空白文本和乱码文本。
3.根据权利要求1所述的一种文本聚类方法,其特征在于,所述对所述目标文本数据进行向量化处理,获得第一句向量矩阵,包括:
利用BERT模型,将所述目标文本数据中的每条文本表示为句向量;
对各条文本的所述句向量进行数据合并,获得所述第一句向量矩阵。
4.根据权利要求1所述的一种文本聚类方法,其特征在于,所述第一句向量矩阵中包括若干句向量;所述对所述第一句向量矩阵进行降维处理,获得第二句向量矩阵,包括:
通过等距特征映射对所述第一句向量矩阵中的各个所述句向量进行降维处理,将所述第一句向量矩阵中的各个所述句向量降维到预设维度,获得第二句向量矩阵。
5.根据权利要求1所述的一种文本聚类方法,其特征在于,所述根据所述目标文本数据构建词汇库,包括:
对所述目标文本数据中的每条文本进行分词处理和词性标注,获得词汇集;
将所述词汇集中的停止词和低频词删除,并提取每条文本下的名词、动词和形容词,进而整理得到词汇库。
6.根据权利要求1所述的一种文本聚类方法,其特征在于,所述对所述词汇库进行主题建模,获得概率矩阵,包括:
通过预设主题模型对所述词汇库进行主题建模;
基于所述主题建模的评价指标的数值,确定目标聚类簇数;
根据所述目标聚类簇数确定每条文本所属不同主题下的概率,整理获得概率矩阵。
7.根据权利要求1所述的一种文本聚类方法,其特征在于,所述根据所述目标矩阵,拟合得到目标聚类质心,基于所述目标聚类质心进行文本聚类,得到文本聚类结果,包括:
利用粒子群算法拟合所述目标矩阵,得到K-means的目标聚类质心;
基于所述目标聚类质心,通过K-means进行文本聚类,得到文本聚类结果。
8.一种文本聚类装置,其特征在于,包括:
第一模块,用于获取目标语料数据,预处理后得到目标文本数据;所述目标文本数据包括若干条文本;
第二模块,用于对所述目标文本数据进行向量化处理,获得第一句向量矩阵;并对所述第一句向量矩阵进行降维处理,获得第二句向量矩阵;
第三模块,用于根据所述目标文本数据构建词汇库,对所述词汇库进行主题建模,获得概率矩阵;
第四模块,用于对所述第二句向量矩阵和所述概率矩阵进行拼接处理,获得目标矩阵;
第五模块,用于根据所述目标矩阵,拟合得到目标聚类质心,基于所述目标聚类质心进行文本聚类,得到文本聚类结果。
9.一种电子设备,其特征在于,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行实现如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310859085.8A CN116992026A (zh) | 2023-07-12 | 2023-07-12 | 一种文本聚类方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310859085.8A CN116992026A (zh) | 2023-07-12 | 2023-07-12 | 一种文本聚类方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116992026A true CN116992026A (zh) | 2023-11-03 |
Family
ID=88531248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310859085.8A Pending CN116992026A (zh) | 2023-07-12 | 2023-07-12 | 一种文本聚类方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116992026A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117235137A (zh) * | 2023-11-10 | 2023-12-15 | 深圳市一览网络股份有限公司 | 一种基于向量数据库的职业信息查询方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111078852A (zh) * | 2019-12-09 | 2020-04-28 | 武汉大学 | 基于机器学习的高校前沿科研团队探测系统 |
CN112989825A (zh) * | 2021-05-13 | 2021-06-18 | 武大吉奥信息技术有限公司 | 社区事务汇聚和任务派发方法、装置、设备及存储介质 |
CN114020921A (zh) * | 2021-12-17 | 2022-02-08 | 成都数联云算科技有限公司 | 文本处理方法、装置、设备及存储介质 |
CN114722835A (zh) * | 2022-04-26 | 2022-07-08 | 河海大学 | 基于lda和bert融合改进模型的文本情感识别方法 |
-
2023
- 2023-07-12 CN CN202310859085.8A patent/CN116992026A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111078852A (zh) * | 2019-12-09 | 2020-04-28 | 武汉大学 | 基于机器学习的高校前沿科研团队探测系统 |
CN112989825A (zh) * | 2021-05-13 | 2021-06-18 | 武大吉奥信息技术有限公司 | 社区事务汇聚和任务派发方法、装置、设备及存储介质 |
CN114020921A (zh) * | 2021-12-17 | 2022-02-08 | 成都数联云算科技有限公司 | 文本处理方法、装置、设备及存储介质 |
CN114722835A (zh) * | 2022-04-26 | 2022-07-08 | 河海大学 | 基于lda和bert融合改进模型的文本情感识别方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117235137A (zh) * | 2023-11-10 | 2023-12-15 | 深圳市一览网络股份有限公司 | 一种基于向量数据库的职业信息查询方法及装置 |
CN117235137B (zh) * | 2023-11-10 | 2024-04-02 | 深圳市一览网络股份有限公司 | 一种基于向量数据库的职业信息查询方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Application of convolutional neural network in natural language processing | |
CN108804530B (zh) | 对图像的区域加字幕 | |
Zhao et al. | Open vocabulary scene parsing | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
Chang et al. | Research on detection methods based on Doc2vec abnormal comments | |
Bellegarda et al. | State of the art in statistical methods for language and speech processing | |
US11755668B1 (en) | Apparatus and method of performance matching | |
Yan et al. | Biomedical literature classification with a CNNs-based hybrid learning network | |
US20230289396A1 (en) | Apparatuses and methods for linking posting data | |
US11538462B1 (en) | Apparatuses and methods for querying and transcribing video resumes | |
CN116992026A (zh) | 一种文本聚类方法、装置、电子设备及存储介质 | |
Parvin et al. | Transformer-based local-global guidance for image captioning | |
Sarang | Thinking Data Science: A Data Science Practitioner’s Guide | |
Mingyu et al. | AFR-BERT: Attention-based mechanism feature relevance fusion multimodal sentiment analysis model | |
US11854537B2 (en) | Systems and methods for parsing and correlating solicitation video content | |
CN110674293B (zh) | 一种基于语义迁移的文本分类方法 | |
WO2023177723A1 (en) | Apparatuses and methods for querying and transcribing video resumes | |
US11699044B1 (en) | Apparatus and methods for generating and transmitting simulated communication | |
Liu et al. | Suggestion mining from online reviews usingrandom multimodel deep learning | |
Silberer | Grounding the meaning of words with visual attributes | |
US11941546B2 (en) | Method and system for generating an expert template | |
US20240029463A1 (en) | Apparatus and method for internet-based validation of task completion | |
Hossain | Deep learning techniques for image captioning | |
CN116975595B (zh) | 一种无监督概念提取方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |