CN111274388B - 一种文本聚类的方法及装置 - Google Patents
一种文本聚类的方法及装置 Download PDFInfo
- Publication number
- CN111274388B CN111274388B CN202010038156.4A CN202010038156A CN111274388B CN 111274388 B CN111274388 B CN 111274388B CN 202010038156 A CN202010038156 A CN 202010038156A CN 111274388 B CN111274388 B CN 111274388B
- Authority
- CN
- China
- Prior art keywords
- text
- classified
- sentence
- centroid
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 239000013598 vector Substances 0.000 claims abstract description 79
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 59
- 230000007246 mechanism Effects 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000003064 k means clustering Methods 0.000 claims abstract description 20
- 238000004364 calculation method Methods 0.000 claims description 23
- 238000004891 communication Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 6
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 238000009825 accumulation Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 10
- 238000012545 processing Methods 0.000 abstract description 3
- 230000008901 benefit Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 4
- 239000012141 concentrate Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本聚类的方法及装置,涉及数据处理技术领域,为解决现有技术中实际特征相似的文本不能实现聚类的问题而发明。该方法主要包括:根据预训练BERT模型,提取待分类文本中每个句子的原始特征向量;计算所述待分类文本中的当前句子与所述待分类文本中其他句子之间的欧式距离;采用预置注意力机制算法,计算所述待分类文本中每个句子与所述待分类文本中其他句子相比的注意力特征;根据所述注意力特征,采用K‑means聚类算法,将所述待分类文本进行聚类。本发明主要应用于文本聚类的过程中。
Description
技术领域
本发明涉及一种数据处理技术领域,特别是涉及一种文本聚类的方法及装置。
背景技术
当今互联网技术的高速普及和社交媒体的广泛使用,促使文本数据数量飞速增长,文本数据如评价信息、客户咨询问题、微博评论等。通过文本聚类可以区分不同的消费群体,也可以提取并概括数据中的特点,通常用于文档聚类、信息过滤、信息推荐或优化搜索等等。
通常聚类算法分为划分法、层次法、基于密度的方法、基于网格的方法、基于模型的方法。通常的文本聚类方法包括使用对文本分词、去停用词、使用词频和逆向词频的方式得到文本的特征,然后基于特征进行聚类。现有技术中,采用循环神经网络和注意力机制获取多个待分类短文本的语义特征向量,然后利用聚类算法根据N个初始聚类中心点,对多个待分类短文本的语义特征向量行迭代聚类,将多个待分类短文本的语义特征向量分为多个短文本类。其中,语义特征向量包括上下文局部特征、全局特征。
上述聚类方法在特征提取上存在信息丢失的问题,而导致实际特征相似的文本不能实现聚类的问题。
发明内容
有鉴于此,本发明提供一种文本聚类的方法及装置,主要目的在于解决现有技术中实际特征相似的文本不能实现聚类的问题。
依据本发明一个方面,提供了一种文本聚类的方法,包括:
根据预训练BERT模型,提取待分类文本中每个句子的原始特征向量;
计算所述待分类文本中的当前句子与所述待分类文本中其他句子之间的欧式距离;
采用预置注意力机制算法,计算所述待分类文本中每个句子与所述待分类文本中其他句子相比的注意力特征,所述预置注意力机制算法的计算公式为其中Qi是当前句子的原始特征向量,K是所述当前句子的被考察句子的原始特征向量,d是所述当前句子与所述被考察句子的欧式距离,所述当前句子和所述被考察句子都属于所述待分类文本;
根据所述注意力特征,采用K-means聚类算法,将所述待分类文本进行聚类。
依据本发明另一个方面,提供了一种文本聚类的装置,包括:
提取模块,用于根据预训练BERT模型,提取待分类文本中每个句子的原始特征向量;
第一计算模块,用于计算所述待分类文本中的当前句子与所述待分类文本中其他句子之间的欧式距离;
第二计算模块,用于采用预置注意力机制算法,计算所述待分类文本中每个句子与所述待分类文本中其他句子相比的注意力特征,所述预置注意力机制算法的计算公式为其中Qi是当前句子的原始特征向量,K是所述当前句子的被考察句子的原始特征向量,d是所述当前句子与所述被考察句子的欧式距离,所述当前句子和所述被考察句子都属于所述待分类文本;
聚类模块,用于根据所述注意力特征,采用K-means聚类算法,将所述待分类文本进行聚类。
根据本发明的又一方面,提供了一种计算机存储介质,所述计算机存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述文本聚类的方法对应的操作。
根据本发明的再一方面,提供了一种计算机设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述文本聚类的方法对应的操作。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
本发明提供了一种文本聚类的方法及装置,首先根据预训练BERT模型,提取待分类文本中每个句子的原始特征向量,然后计算所述待分类文本中的当前句子与所述待分类文本中其他句子之间的欧式距离,再根据原始特征向量和欧式距离,采用预置注意力机制算法计算待分类文本中每个句子与待分类文本中其他句子相比的注意力特征,最后根据注意力特征,采用K-means聚类算法,将待分类文本进行聚类。与现有技术相比,本发明实施例通过预训练BERT模型,能够准确且快速地抽取句子的原始特征向量,采用预置注意力机制算法,通过相似点方式增强原始特征向量,使得各个聚类文本内部更加紧密。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种文本聚类的方法流程图;
图2示出了本发明实施例提供的另一种文本聚类的方法流程图;
图3示出了本发明实施例提供的一种文本聚类的装置组成框图;
图4示出了本发明实施例提供的另一种文本聚类的装置组成框图;
图5示出了本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种文本聚类的方法,如图1所示,该方法包括:
101、根据预训练BERT模型,提取待分类文本中每个句子的原始特征向量。
BERT模型是用于预训练语言表示的自然语言处理模型。BERT模型利用了大量在web上公开可用的纯文本数据,并以非监督的方式进行训练。通过BERT模型进行特征提取,是使用通过web公开的纯文本数据,提取待分类文本中每个句子的原始特征向量,通常是一个[sequence_length,bert_hidden_size]向量。在提取原始特征向量之前,还需要对待分类文本进行拆分,在拆分过程中可以用断句符“?、!、。”对待分类文本进行拆分。
由于BERT模型的训练数据是web上的公开数据,所以在实际使用时采用训练完成的预训练BERT模型提取原始特征向量。预训练BERT模型使用大量的语料和大量的参数,通过包含字符信息和时序信息,提取句子的原始特征向量。
102、计算所述待分类文本中的当前句子与所述待分类文本中其他句子之间的欧式距离。
欧式距离,用于度量句子的相似程度,距离越小相似度越高。所以在本步骤中计算的当前句子与待分类文本中其他句子之间的欧式距离,也是确定文本分类的参数之一。依次选取待分类文本中的所有句子作为当前句子,直至计算待分类文本中所有句子与其他句子之间的欧式距离。
103、采用预置注意力机制算法,计算所述待分类文本中每个句子与所述待分类文本中其他句子相比的注意力特征。
在原始特征向量的基础上,加入其他句子的原始注意力特征,并以句子之间的距离为关联系数,重新计算待分类文本中每个句子的注意力特征。与原始特征向量相比,注意力特征不仅反映句子本身的特征,还能反映该句子与其他句子的关联特征,使得后续的句子的聚类结果更准确。所述预置注意力机制算法的计算公式为其中Qi是当前句子的原始特征向量,K是所述当前句子的被考察句子的原始特征向量,d是所述当前句子与所述被考察句子的欧式距离,所述当前句子和所述被考察句子都属于所述待分类文本。
注意力机制,是指把注意力集中在重要的点上,而忽略其他不重要的因素,在本发明实施例中,通过预置注意力机制算法将聚类依据集中在当前句子的原始特征向量、被考察句子的原始特征向量,及当前句子与被考察句子之间的欧式距离三者的经过预置计算公式求得的注意力特征。也就是将当前句子的的原始特征向量与每个被考察句子的原始特征向量的转置向量进行点积运算,并将点积运算结果与当前句子与被考察句子的欧式距离的比值作为权重,然后使用softmax函数对这些权重进行归一化,然后将归一化的权重对应的K值进行加权求和得到最后的注意力特征。其中K值和欧式距离包括所有被考察句子对应的参数,而且参数值是一一对应的。
104、根据所述注意力特征,采用K-means聚类算法,将所述待分类文本进行聚类。
K-means聚类算法,也就是K均值聚类算法,是一种迭代求解的聚类分析算法,其步骤是选取K个待分类文本中的句子作为初始的聚类中心,然后计算每个句子与各个聚类中心之间的距离,把每个句子分配给距离它最近的聚类中心。聚类中心以及分配给聚类中心的句子就代表一个聚类。在分类文本完成一次聚类后,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。在聚类过程中,每个句子与聚类中心的聚类,也就是每个句子的注意力特征与聚类中心对应句子的注意力特征的距离,也就是向量距离。
本发明提供了一种文本聚类的方法,首先根据预训练BERT模型,提取待分类文本中每个句子的原始特征向量,然后计算所述待分类文本中的当前句子与所述待分类文本中其他句子之间的欧式距离,再根据原始特征向量和欧式距离,采用预置注意力机制算法计算待分类文本中每个句子与待分类文本中其他句子相比的注意力特征,最后根据注意力特征,采用K-means聚类算法,将待分类文本进行聚类。与现有技术相比,本发明实施例通过预训练BERT模型,能够准确且快速地抽取句子的原始特征向量,采用预置注意力机制算法,通过相似点方式增强原始特征向量,使得各个聚类文本内部更加紧密。
本发明实施例提供了另一种文本聚类的方法,如图2所示,该方法包括:
201、根据预训练BERT模型,提取待分类文本中每个句子的原始特征向量。
使用预训练BERT模型,作为句子编码服务,将可变长度长句映射成定长向量,也就是提取原始特征向量,具体提取过程包括:获取所述预训练BERT模型,并启动BERT服务;调用所述BERT服务,生成所述待分类文本中每个句子的原始特征向量。预训练BERT模型,是goole已经公开的训练好的模型,可以据此直接提取原始特征向量。BERT服务是使用预训练BERT模型为矩阵编码的句子编码器。获取模型启动Bert服务之后,可以直接以待分类文本为输入句子,生待分类文本中每个句子的原始特征向量。
提取原始特征向量,还需要python版本高于3.5或tensorflow版本高于1.10的软件环境。在启动BERT服务之前,需要获取预训练好的模型即预训练BERT模型,以基础中文模型为例,模型的具体参数包括:Chinese Simplified and Traditional,12-layer,768-hidden,12-heads,110M。直接获取到的训练BERT模型为压缩文件,在获取文件后将压缩文件解压,并记录解压文件的模型路径。然后在保证软件环境的基础上,通过命令“bert-serving-start-model_dir/path/to/your/model-num_worker=2”即可启动BERT服务,其中,参数-model_dir用来指定上步解压的模型路径,参数num_worker=2表示启动了两个worker,可以同时处理2个请求,因此如果用一台配置较高的机器单独做为bert的server,可以通过设定该参数提供高并发支持。在调用BERT服务,时,只需要引用BertClient模块,然后构造一个连接,既可进行embedding,待分类文本中每个句子得到的原始特征向量为768维。
202、计算所述待分类文本中的当前句子与所述待分类文本中其他句子之间的欧式距离。
欧式距离,用于度量句子的相似程度,距离越小相似度越高。所以在本步骤中计算的当前句子与待分类文本中其他句子之间的欧式距离,也是确定文本分类的参数之一。依次选取待分类文本中的所有句子作为当前句子,直至计算待分类文本中所有句子与其他句子之间的欧式距离。
203、统计所述待分类文本中的句子总数。
在统计过程中,可以直接根据待分类文本进行统计,也可以根据步骤201中的待分类文本的拆分过程进行统计,在本发明实施例中对句子总数的统计方法不做限定。
204、计算所述当前句子的待注意句子数量,所述待注意句子数量是预置比例与所述句子总数的乘积。
待注意句子数量,是指观测多少句子的注意力,假如句子总数为1000条,预置比例为1%,也就是待注意句子数量为10。待注意句子数量代表每个当前句子对应的被考察句子个数,待注意句子数量的值越大表示需要考察的句子越多,反之待注意句子数量的值越小表示需要考察的句子越少,当待注意句子数量等于句子总数时表示被考察句子为待分类文本中的全部句子,当待注意句子数量为1时表示只考虑当前句子本身。根据句子总数调整预置比例,使得待注意句子数量为3-5,待分类文本的各个句子之间相似度越大往往需要选取的待注意句子数量越大。
205、按照所述欧式距离从小到大的顺序,选取所述待注意句子数量的所述欧式距离所对应的待聚类句子。
待聚类句子,就是当前句子与其他所有句子的欧式距离并取出最小的待注意句子数量的句子。在选取待聚类句子过程中,首先将欧式距离按照从小到大的顺序进行排列,按照排列顺序选取待注意句子数量的欧式距离,然后将选取的欧式距离所对应的待分类文本中的句子确定为待聚类句子。
206、采用预置注意力机制算法,计算所述待分类文本中每个句子与所述待聚类句子中其他句子相比的注意力特征。
注意力机制,是指把注意力集中在重要的点上,而忽略其他不重要的因素,在本发明实施例中,通过预置注意力机制算法将聚类依据集中在当前句子的原始特征向量、被考察句子的原始特征向量,及当前句子与被考察句子之间的欧式距离三者的经过预置计算公式求得的注意力特征。所述预置注意力机制算法的计算公式为其中Qi是当前句子的原始特征向量,K是所述当前句子的被考察句子的原始特征向量,d是所述当前句子与所述被考察句子的欧式距离,所述当前句子和所述被考察句子都属于所述待分类文本。
也就是将当前句子的的原始特征向量与每个被考察句子的原始特征向量的转置向量进行点积运算,并将点积运算结果与当前句子与被考察句子的欧式距离的比值作为权重,然后使用softmax函数对这些权重进行归一化,然后将归一化的权重对应的K值进行加权求和得到最后的注意力特征。其中K值和欧式距离包括所有被考察句子对应的参数,而且参数值是一一对应的。
在本发明实施例中被考察句子是指步骤205中计算得到的待聚类句子,由步骤203-205可知,待聚类句子至少可以只包括当前句子本身,至多可以包括待分类文本中的所有句子。
207、根据所述注意力特征,采用K-means聚类算法,将所述待分类文本进行聚类。
将待分类文本进行聚类,也就是将待分类文本中的所有句子分成几个类别,每个类别的句子都具有共同的特征。如果根据K-means聚类算法进行聚类,那么每个类别通常都具有一个中心点,或者质心。将待分类文本进行聚类的过程,具体包括:在所述注意力特征中,选取预置数量的质心组,每个所述质心组中包括待分组数的所述注意力特征的聚类质心,所述预置数量是从所述句子总数中随机选取所述待分组数的组合数;根据所述注意力特征与所述聚类质心,计算所述每个质心组的类簇平方和;根据最小的所述类簇平方和对应的质心组,将所述待分类文本进行聚类。
首先确定待分类文本中可能包括的聚类质心,在确定聚类质心时,先确定将待分类文本分成多少组也就是待分组数,待分组数应不大于待分类文本的句子总数,对从句子总数中选取待分组数的句子进行组合运算,计算得到预置数量,也就是将待分类文本进行不同分类的可能性。根据预置数量、待分组数,从注意力特征中选取聚类质心。每个质心组能够对待分类文本进行一次聚类。对每个质心组,进行一次聚类,并计算经该质心组进行聚类后的类簇平方和。然后将类簇平方和最小的质心组对应的分类结果作为待分类本文的聚类结果。也可以将最小的类簇平方和对应的质心组,将待分类文本进行聚类。
其中,根据所述注意力特征与所述聚类质心,计算所述每个质心组的类簇平方和,包括:依次选取每个所述质心组中的聚类质心,将所述注意力特征聚类至所述聚类质心所属的质心类簇;依次计算所述质心类簇的质心平方和,所述质心平方和是所述质心类簇中每个注意力特征和所述质心类簇的聚类质心之间的特征距离的平方和;累加所述质心平方和生成所述类簇平方和。
其中,所述依次选取每个所述质心组中的聚类质心,将所述注意力特征聚类至所述聚类质心所属的质心类簇,包括:依次计算每个所述质心组中的聚类质心,与每个所述注意力特征之间的特征距离;依次在每个所述质心组中,查找所述注意力特征的所述特征距离中的最小距离,将所述注意力特征聚合至所述最小距离对应的所述聚类质心所属的质心类簇。
本发明提供了一种文本聚类的方法,首先根据预训练BERT模型,提取待分类文本中每个句子的原始特征向量,然后计算所述待分类文本中的当前句子与所述待分类文本中其他句子之间的欧式距离,再根据原始特征向量和欧式距离,采用预置注意力机制算法计算待分类文本中每个句子与待分类文本中其他句子相比的注意力特征,最后根据注意力特征,采用K-means聚类算法,将待分类文本进行聚类。与现有技术相比,本发明实施例通过预训练BERT模型,能够准确且快速地抽取句子的原始特征向量,采用预置注意力机制算法,通过相似点方式增强原始特征向量,使得各个聚类文本内部更加紧密。
进一步的,作为对上述图1所示方法的实现,本发明实施例提供了一种文本聚类的装置,如图3所示,该装置包括:
提取模块31,用于根据预训练BERT模型,提取待分类文本中每个句子的原始特征向量;
第一计算模块32,用于计算所述待分类文本中的当前句子与所述待分类文本中其他句子之间的欧式距离;
第二计算模块33,用于采用预置注意力机制算法,计算所述待分类文本中每个句子与所述待分类文本中其他句子相比的注意力特征,所述预置注意力机制算法的计算公式为其中Qi是当前句子的原始特征向量,K是所述当前句子的被考察句子的原始特征向量,d是所述当前句子与所述被考察句子的欧式距离,所述当前句子和所述被考察句子都属于所述待分类文本;
聚类模块34,用于根据所述注意力特征,采用K-means聚类算法,将所述待分类文本进行聚类。
本发明提供了一种文本聚类的装置,首先根据预训练BERT模型,提取待分类文本中每个句子的原始特征向量,然后计算所述待分类文本中的当前句子与所述待分类文本中其他句子之间的欧式距离,再根据原始特征向量和欧式距离,采用预置注意力机制算法计算待分类文本中每个句子与待分类文本中其他句子相比的注意力特征,最后根据注意力特征,采用K-means聚类算法,将待分类文本进行聚类。与现有技术相比,本发明实施例通过预训练BERT模型,能够准确且快速地抽取句子的原始特征向量,采用预置注意力机制算法,通过相似点方式增强原始特征向量,使得各个聚类文本内部更加紧密。
进一步的,作为对上述图2所示方法的实现,本发明实施例提供了另一种文本聚类的装置,如图4所示,该装置包括:
提取模块41,用于根据预训练BERT模型,提取待分类文本中每个句子的原始特征向量;
第一计算模块42,用于计算所述待分类文本中的当前句子与所述待分类文本中其他句子之间的欧式距离;
第二计算模块43,用于采用预置注意力机制算法,计算所述待分类文本中每个句子与所述待分类文本中其他句子相比的注意力特征,所述预置注意力机制算法的计算公式为其中Qi是当前句子的原始特征向量,K是所述当前句子的被考察句子的原始特征向量,d是所述当前句子与所述被考察句子的欧式距离,所述当前句子和所述被考察句子都属于所述待分类文本;
聚类模块44,用于根据所述注意力特征,采用K-means聚类算法,将所述待分类文本进行聚类。
进一步地,所述提取模块41,包括:
获取单元411,用于获取所述预训练BERT模型,并启动BERT服务;
生成单元412,用于调用所述BERT服务,生成所述待分类文本中每个句子的原始特征向量。
进一步地,所述装置还包括:
统计模块45,用于所述采用预置注意力机制算法,计算所述待分类文本中每个句子与所述待分类文本中其他句子相比的注意力特征之前,统计所述待分类文本中的句子总数;
第三计算模块46,用于计算所述当前句子的待注意句子数量,所述待注意句子数量是预置比例与所述句子总数的乘积;
选取模块47,用于按照所述欧式距离从小到大的顺序,选取所述待注意句子数量的所述欧式距离所对应的待聚类句子;
所述第二计算模块43,用于:
采用预置注意力机制算法,计算所述待分类文本中每个句子与所述待聚类句子中其他句子相比的注意力特征。
进一步地,所述聚类模块44,包括:
选取单元441,用于在所述注意力特征中,选取预置数量的质心组,每个所述质心组中包括待分组数的所述注意力特征的聚类质心,所述预置数量是从所述句子总数中随机选取所述待分组数的组合数;
计算单元442,用于根据所述注意力特征与所述聚类质心,计算所述每个质心组的类簇平方和;
聚类单元443,用于根据最小的所述类簇平方和对应的质心组,将所述待分类文本进行聚类。
进一步地,所述计算单元442,包括:
聚类子单元4421,用于依次选取每个所述质心组中的聚类质心,将所述注意力特征聚类至所述聚类质心所属的质心类簇;
计算子单元4422,用于依次计算所述质心类簇的质心平方和,所述质心平方和是所述质心类簇中每个注意力特征和所述质心类簇的聚类质心之间的特征距离的平方和;
累加子单元4423,用于累加所述质心平方和生成所述类簇平方和。
进一步地,所述聚类子单元4421,用于:
依次计算每个所述质心组中的聚类质心,与每个所述注意力特征之间的特征距离;
依次在每个所述质心组中,查找所述注意力特征的所述特征距离中的最小距离,将所述注意力特征聚合至所述最小距离对应的所述聚类质心所属的质心类簇。
本发明提供了一种文本聚类的装置,首先根据预训练BERT模型,提取待分类文本中每个句子的原始特征向量,然后计算所述待分类文本中的当前句子与所述待分类文本中其他句子之间的欧式距离,再根据原始特征向量和欧式距离,采用预置注意力机制算法计算待分类文本中每个句子与待分类文本中其他句子相比的注意力特征,最后根据注意力特征,采用K-means聚类算法,将待分类文本进行聚类。与现有技术相比,本发明实施例通过预训练BERT模型,能够准确且快速地抽取句子的原始特征向量,采用预置注意力机制算法,通过相似点方式增强原始特征向量,使得各个聚类文本内部更加紧密。
根据本发明一个实施例提供了一种存储介质,所述存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的文本聚类的方法。
图5示出了根据本发明一个实施例提供的一种计算机设备的结构示意图,本发明具体实施例并不对计算机设备的具体实现做限定。
如图5所示,该计算机设备可以包括:处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。
其中:处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。
通信接口504,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器502,用于执行程序510,具体可以执行上述文本聚类的方法实施例中的相关步骤。
具体地,程序510可以包括程序代码,该程序代码包括计算机操作指令。
处理器502可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算机设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器506,用于存放程序510。存储器506可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序510具体可以用于使得处理器502执行以下操作:
根据预训练BERT模型,提取待分类文本中每个句子的原始特征向量;
第一计算模块,用于计算所述待分类文本中的当前句子与所述待分类文本中其他句子之间的欧式距离;
第二计算模块,用于采用预置注意力机制算法,计算所述待分类文本中每个句子与所述待分类文本中其他句子相比的注意力特征,所述预置注意力机制算法的计算公式为其中Qi是当前句子的原始特征向量,K是所述当前句子的被考察句子的原始特征向量,d是所述当前句子与所述被考察句子的欧式距离,所述当前句子和所述被考察句子都属于所述待分类文本;
根据所述注意力特征,采用K-means聚类算法,将所述待分类文本进行聚类。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (9)
1.一种文本聚类的方法,其特征在于,包括:
根据预训练BERT模型,提取待分类文本中每个句子的原始特征向量;
计算所述待分类文本中的当前句子与所述待分类文本中其他句子之间的欧式距离;
采用预置注意力机制算法,计算所述待分类文本中每个句子与所述待分类文本中其他句子相比的注意力特征,所述预置注意力机制算法的计算公式为,其中/>是当前句子的原始特征向量,/>是所述当前句子的被考察句子的原始特征向量,/>是所述当前句子与所述被考察句子的欧式距离,所述当前句子和所述被考察句子都属于所述待分类文本;
根据所述注意力特征,采用K-means聚类算法,将所述待分类文本进行聚类;
所述根据所述注意力特征,采用K-means聚类算法,将所述待分类文本进行聚类,包括:
在所述注意力特征中,选取预置数量的质心组,每个所述质心组中包括待分组数的所述注意力特征的聚类质心;
根据所述注意力特征与所述聚类质心,计算每个质心组的类簇平方和;
根据最小的所述类簇平方和对应的质心组,将所述待分类文本进行聚类;
所述根据所述注意力特征与所述聚类质心,计算每个质心组的类簇平方和,包括:
依次选取每个所述质心组中的聚类质心,将所述注意力特征聚类至所述聚类质心所属的质心类簇;
依次计算所述质心类簇的质心平方和,所述质心平方和是所述质心类簇中每个注意力特征和所述质心类簇的聚类质心之间的特征距离的平方和;
累加所述质心平方和生成所述类簇平方和。
2.如权利要求1所述的方法,其特征在于,所述根据预训练BERT模型,提取待分类文本中每个句子的原始特征向量,包括:
获取所述预训练BERT模型,并启动BERT服务;
调用所述BERT服务,生成所述待分类文本中每个句子的原始特征向量。
3.如权利要求1所述的方法,其特征在于,所述采用预置注意力机制算法,计算所述待分类文本中每个句子与所述待分类文本中其他句子相比的注意力特征之前,所述方法还包括:
统计所述待分类文本中的句子总数;
计算所述当前句子的待注意句子数量,所述待注意句子数量是预置比例与所述句子总数的乘积;
按照所述欧式距离从小到大的顺序,选取所述待注意句子数量的所述欧式距离所对应的待聚类句子;
所述采用预置注意力机制算法,计算所述待分类文本中每个句子与所述待分类文本中其他句子相比的注意力特征,包括:
采用预置注意力机制算法,计算所述待分类文本中每个句子与所述待聚类句子中其他句子相比的注意力特征。
4.如权利要求3所述的方法,其特征在于,所述根据所述注意力特征,采用K-means聚类算法,将所述待分类文本进行聚类,包括:
所述预置数量是从所述句子总数中随机选取所述待分组数的组合数。
5.如权利要求1所述的方法,其特征在于,所述依次选取每个所述质心组中的聚类质心,将所述注意力特征聚类至所述聚类质心所属的质心类簇,包括:
依次计算每个所述质心组中的聚类质心,与每个所述注意力特征之间的特征距离;
依次在每个所述质心组中,查找所述注意力特征的所述特征距离中的最小距离,将所述注意力特征聚合至所述最小距离对应的所述聚类质心所属的质心类簇。
6.一种文本聚类的装置,其特征在于,包括:
提取模块,用于根据预训练BERT模型,提取待分类文本中每个句子的原始特征向量;
第一计算模块,用于计算所述待分类文本中的当前句子与所述待分类文本中其他句子之间的欧式距离;
第二计算模块,用于采用预置注意力机制算法,计算所述待分类文本中每个句子与所述待分类文本中其他句子相比的注意力特征,所述预置注意力机制算法的计算公式为,其中/>是当前句子的原始特征向量,/>是所述当前句子的被考察句子的原始特征向量,/>是所述当前句子与所述被考察句子的欧式距离,所述当前句子和所述被考察句子都属于所述待分类文本;
聚类模块,用于根据所述注意力特征,采用K-means聚类算法,将所述待分类文本进行聚类;
所述聚类模块,包括:
选取单元,用于在所述注意力特征中,选取预置数量的质心组,每个所述质心组中包括待分组数的所述注意力特征的聚类质心;
计算单元,用于根据所述注意力特征与所述聚类质心,计算每个质心组的类簇平方和;
聚类单元,用于根据最小的所述类簇平方和对应的质心组,将所述待分类文本进行聚类;
所述计算单元,包括:
聚类子单元,用于依次选取每个所述质心组中的聚类质心,将所述注意力特征聚类至所述聚类质心所属的质心类簇;
计算子单元,用于依次计算所述质心类簇的质心平方和,所述质心平方和是所述质心类簇中每个注意力特征和所述质心类簇的聚类质心之间的特征距离的平方和;
累加子单元,用于累加所述质心平方和生成所述类簇平方和。
7.如权利要求6所述的装置,其特征在于,所述提取模块,包括:
获取单元,用于获取所述预训练BERT模型,并启动BERT服务;
生成单元,用于调用所述BERT服务,生成所述待分类文本中每个句子的原始特征向量。
8.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-5中任一项所述的文本聚类方法对应的操作。
9.一种计算机设备,其特征在于,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-5中任一项所述的文本聚类方法对应的操作。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010038156.4A CN111274388B (zh) | 2020-01-14 | 2020-01-14 | 一种文本聚类的方法及装置 |
PCT/CN2020/092700 WO2021143009A1 (zh) | 2020-01-14 | 2020-05-27 | 一种文本聚类的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010038156.4A CN111274388B (zh) | 2020-01-14 | 2020-01-14 | 一种文本聚类的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111274388A CN111274388A (zh) | 2020-06-12 |
CN111274388B true CN111274388B (zh) | 2024-05-10 |
Family
ID=70998714
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010038156.4A Active CN111274388B (zh) | 2020-01-14 | 2020-01-14 | 一种文本聚类的方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111274388B (zh) |
WO (1) | WO2021143009A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112672202B (zh) * | 2020-12-28 | 2023-03-24 | 广州博冠信息科技有限公司 | 弹幕处理方法、设备和存储介质 |
CN116052081A (zh) * | 2023-01-10 | 2023-05-02 | 山东高速建设管理集团有限公司 | 一种场地安全实时监测方法、系统、电子设备及存储介质 |
CN116796214B (zh) * | 2023-06-07 | 2024-01-30 | 南京北极光生物科技有限公司 | 一种基于差分特征的数据聚类方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699525A (zh) * | 2014-01-03 | 2014-04-02 | 江苏金智教育信息技术有限公司 | 一种基于文本多维度特征自动生成摘要的方法和装置 |
CN108197111A (zh) * | 2018-01-10 | 2018-06-22 | 华南理工大学 | 一种基于融合语义聚类的文本自动摘要方法 |
CN108319668A (zh) * | 2018-01-23 | 2018-07-24 | 义语智能科技(上海)有限公司 | 生成文本摘要的方法及设备 |
CN109241536A (zh) * | 2018-09-21 | 2019-01-18 | 浙江大学 | 一种基于深度学习自注意力机制的句子排序方法 |
CN109800737A (zh) * | 2019-02-02 | 2019-05-24 | 深圳市商汤科技有限公司 | 面部识别方法及装置、电子设备和存储介质 |
CN110059323A (zh) * | 2019-04-22 | 2019-07-26 | 苏州大学 | 基于自注意力机制的多领域神经机器翻译方法 |
CN110210032A (zh) * | 2019-05-31 | 2019-09-06 | 北京神州泰岳软件股份有限公司 | 文本处理方法及装置 |
CN110555469A (zh) * | 2019-08-15 | 2019-12-10 | 阿里巴巴集团控股有限公司 | 处理交互序列数据的方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012147428A1 (ja) * | 2011-04-27 | 2012-11-01 | 日本電気株式会社 | テキストクラスタリング装置、テキストクラスタリング方法、およびコンピュータ読み取り可能な記録媒体 |
US10114823B2 (en) * | 2013-11-04 | 2018-10-30 | Ayasdi, Inc. | Systems and methods for metric data smoothing |
CN109241275B (zh) * | 2018-07-05 | 2022-02-11 | 广东工业大学 | 一种基于自然语言处理的文本主题聚类算法 |
CN110390109B (zh) * | 2019-07-29 | 2023-06-30 | 创新先进技术有限公司 | 分析多条群聊消息间关联关系的方法和装置 |
-
2020
- 2020-01-14 CN CN202010038156.4A patent/CN111274388B/zh active Active
- 2020-05-27 WO PCT/CN2020/092700 patent/WO2021143009A1/zh active Application Filing
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699525A (zh) * | 2014-01-03 | 2014-04-02 | 江苏金智教育信息技术有限公司 | 一种基于文本多维度特征自动生成摘要的方法和装置 |
CN108197111A (zh) * | 2018-01-10 | 2018-06-22 | 华南理工大学 | 一种基于融合语义聚类的文本自动摘要方法 |
CN108319668A (zh) * | 2018-01-23 | 2018-07-24 | 义语智能科技(上海)有限公司 | 生成文本摘要的方法及设备 |
CN109241536A (zh) * | 2018-09-21 | 2019-01-18 | 浙江大学 | 一种基于深度学习自注意力机制的句子排序方法 |
CN109800737A (zh) * | 2019-02-02 | 2019-05-24 | 深圳市商汤科技有限公司 | 面部识别方法及装置、电子设备和存储介质 |
CN110059323A (zh) * | 2019-04-22 | 2019-07-26 | 苏州大学 | 基于自注意力机制的多领域神经机器翻译方法 |
CN110210032A (zh) * | 2019-05-31 | 2019-09-06 | 北京神州泰岳软件股份有限公司 | 文本处理方法及装置 |
CN110555469A (zh) * | 2019-08-15 | 2019-12-10 | 阿里巴巴集团控股有限公司 | 处理交互序列数据的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111274388A (zh) | 2020-06-12 |
WO2021143009A1 (zh) | 2021-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110347835B (zh) | 文本聚类方法、电子装置及存储介质 | |
CN111274388B (zh) | 一种文本聚类的方法及装置 | |
CN111428028A (zh) | 基于深度学习的信息分类方法及相关设备 | |
WO2008098956A1 (en) | Method and apparatus for automatically discovering features in free form heterogeneous data | |
CN112116436B (zh) | 一种智能推荐方法、装置、计算机设备及可读存储介质 | |
CN110858217A (zh) | 微博敏感话题的检测方法、装置及可读存储介质 | |
CN111985228A (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
CN114610881A (zh) | 应用日志分析方法、装置、设备和存储介质 | |
CN113127607A (zh) | 文本数据标注方法、装置、电子设备及可读存储介质 | |
Vulinović et al. | Neural networks for file fragment classification | |
CN112328655A (zh) | 文本标签挖掘方法、装置、设备及存储介质 | |
CN113204956B (zh) | 多模型训练方法、摘要分段方法、文本分段方法及装置 | |
CN113282717A (zh) | 文本中实体关系的抽取方法、装置、电子设备及存储介质 | |
CN114266255B (zh) | 基于聚类模型的语料分类方法、装置、设备及存储介质 | |
CN113255319B (zh) | 模型训练方法、文本分段方法、摘要抽取方法及装置 | |
JP7272846B2 (ja) | 文書分析装置および文書分析方法 | |
CN115186138A (zh) | 一种配电网数据的比对方法及终端 | |
CN114943203A (zh) | 汉字相似度的获得方法、装置、电子设备和存储设备 | |
CN115017256A (zh) | 电力数据处理方法、装置、电子设备及存储介质 | |
CN111090743B (zh) | 一种基于词嵌入和多值形式概念分析的论文推荐方法及装置 | |
CN112632229A (zh) | 文本聚类方法及装置 | |
CN114090850A (zh) | 日志分类方法、电子设备及计算机可读存储介质 | |
CN113688240A (zh) | 威胁要素提取方法、装置、设备及存储介质 | |
CN113407700A (zh) | 一种数据查询方法、装置和设备 | |
CN111460088A (zh) | 相似文本的检索方法、装置和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |