CN114691861A

CN114691861A - 一种基于主题词语义相似度的话题聚类方法

Info

Publication number: CN114691861A
Application number: CN202011576986.9A
Authority: CN
Inventors: 姜卫平; 白冰; 赵崟江; 郭忠武; 冯慧
Original assignee: Beijing Bohui Technology Inc
Current assignee: Beijing Bohui Technology Inc
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2022-07-01

Abstract

本申请公开了一种基于主题词语义相似度的话题聚类方法，该方法对每个原始标题进行预处理，获取待聚类标题集合，然后提取目标待聚类标题对应的多个主题词，根据预设的排除词集合及每个待聚类标题对应的多个主题词，生成主题集合，对主题集合中的任一主题对象进行文本数字化处理，获取主题向量化集合，针对目标主题向量化对象，从主题向量化集合中筛选出相似的主题向量化对象，并将目标主题向量化对象与相似的主题向量化对象作为同种话题实现聚类。上述方法在针对大量网络文本数据时，不需要指定K值，通过提取主题词，然后计算相似度，便可以实现话题聚类，且能够保证聚类的主题相似，话题相近，具有覆盖范围大，计算复杂度低的优点。

Description

一种基于主题词语义相似度的话题聚类方法

技术领域

本申请涉及大数据处理技术领域，尤其涉及一种基于主题词语义相似度的话题聚类方法。

背景技术

如何在海量的网络文本数据里面找出共性话题，以进行话题聚类，是实现热点话题追踪的关键步骤。

目前通常先对网络文本数据中包含的每个标题进行预处理，提取出特征词，然后基于特征词进行聚类，进而实现话题分类，以便确定热点话题。其中，比较常见的聚类方式是划分聚类方法，这种方法的复杂度小且能够处理大规模数据集，通过预先设定K值的大小，可预先指定将话题分成几个簇。

随着网络舆情信息量的飞速增长，网络文本数据的复杂度越来越高，这导致K值的设定依据十分复杂，因此上述利用划分聚类方法将无法保证话题聚类的准确度。

发明内容

为了解决利用划分聚类方法将无法保证话题聚类准确度的技术问题，本申请通过以下实施例公开了一种基于主题词语义相似度的话题聚类方法及装置。

本申请第一方面公开了一种基于主题词语义相似度的话题聚类方法，包括：

获取至少一个原始标题，并对每个所述原始标题进行预处理，获取待聚类标题集合；

提取目标待聚类标题对应的多个主题词，所述目标待聚类标题为所述待聚类标题集合中的任一待聚类标题，任一所述主题词的词性为名词；

根据预设的排除词集合及每个所述待聚类标题对应的多个主题词，生成主题集合；所述主题集合中包括多个主题对象，每个所述主题对象由一个所述待聚类标题对应的多个主题词拼接而成；

对所述主题集合中的任一主题对象进行文本数字化处理，获取主题向量化集合，所述主题向量化集合中包含多个主题向量化对象；

针对目标主题向量化对象，从所述主题向量化集合中筛选出相似的主题向量化对象，并将所述目标主题向量化对象与所述相似的主题向量化对象作为同种话题实现聚类；所述相似的主题向量化对象与所述目标主题向量化对象之间的语义相似度不小于预设阈值，所述目标主题向量化对象为任一主题向量化对象。

可选的，所述获取至少一个原始标题，并对每个所述原始标题进行预处理，获取待聚类标题集合，包括：

获取至少一个原始标题；

对每个所述原始标题中的标点符号进行过滤，获取字段集合，所述字段集合中包括多个标题字段；

从所述字段集合中筛选出长度在预设长度范围内的标题字段，生成所述待聚类标题集合。

可选的，所述提取目标待聚类标题对应的多个主题词，包括：

对所述目标待聚类标题进行切分，获取目标词汇序列；

为所述目标词汇序列中的每一个词汇赋予词性；

从所述目标词汇序列中提取出词性为名词的词汇，设为所述目标待聚类标题对应的主题词，所述名词包括普通名词、其他专名、机构名、人名、作品名、名动词及地名。

可选的，所述根据预设的排除词集合及每个所述待聚类标题对应的多个主题词，生成主题集合，包括：

获取待拼接标题，所述待拼接标题为不包含所述排除词集合中任一排除词的待聚类标题；

将任一所述待拼接标题对应的多个主题词拼接成一个主题对象，获取所述主题集合。

可选的，所述对所述主题集合中的任一主题对象进行文本数字化处理，获取主题向量化集合，包括：

使用预设的word2vec模型将所述主题集合中的任一主题对象进行文本数字化，获取所述主题向量化集合，其中，所述主题向量化集合中所有的主题向量化对象的长度相同。

本申请第二方面公开了一种基于主题词语义相似度的话题聚类装置，所述基于主题词语义相似度的话题聚类装置应用于如本申请第一方面所述的一种基于主题词语义相似度的话题聚类方法，所述基于主题词语义相似度的话题聚类装置包括：

待聚类标题获取模块，用于获取至少一个原始标题，并对每个所述原始标题进行预处理，获取待聚类标题集合；

主题词提取模块，用于提取目标待聚类标题对应的多个主题词，所述目标待聚类标题为所述待聚类标题集合中的任一待聚类标题，任一所述主题词的词性为名词；

主题生成模块，用于根据预设的排除词集合及每个所述待聚类标题对应的多个主题词，生成主题集合；所述主题集合中包括多个主题对象，每个所述主题对象由一个所述待聚类标题对应的多个主题词拼接而成；

向量化模块，用于对所述主题集合中的任一主题对象进行文本数字化处理，获取主题向量化集合，所述主题向量化集合中包含多个主题向量化对象；

相似聚类模块，用于针对目标主题向量化对象，从所述主题向量化集合中筛选出相似的主题向量化对象，并将所述目标主题向量化对象与所述相似的主题向量化对象作为同种话题实现聚类；所述相似的主题向量化对象与所述目标主题向量化对象之间的语义相似度不小于预设阈值，所述目标主题向量化对象为任一主题向量化对象。

可选的，所述待聚类标题获取模块包括：

原始标题获取单元，用于获取至少一个原始标题；

标点符号过滤单元，用于对每个所述原始标题中的标点符号进行过滤，获取字段集合，所述字段集合中包括多个标题字段；

字段筛选单元，用于从所述字段集合中筛选出长度在预设长度范围内的标题字段，生成所述待聚类标题集合。

可选的，所述主题词提取模块包括：

切分单元，用于对所述目标待聚类标题进行切分，获取目标词汇序列；

词性设置单元，用于为所述目标词汇序列中的每一个词汇赋予词性；

名词提取单元，用于从所述目标词汇序列中提取出词性为名词的词汇，设为所述目标待聚类标题对应的主题词，所述名词包括普通名词、其他专名、机构名、人名、作品名、名动词及地名。

可选的，所述主题生成模块包括：

排除单元，用于获取待拼接标题，所述待拼接标题为不包含所述排除词集合中任一排除词的待聚类标题；

拼接单元，用于将任一所述待拼接标题对应的多个主题词拼接成一个主题对象，获取所述主题集合。

可选的，所述向量化模块包括：

word2vec向量单元，用于使用预设的word2vec模型将所述主题集合中的任一主题对象进行文本数字化，获取所述主题向量化集合，其中，所述主题向量化集合中所有的主题向量化对象的长度相同。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种基于主题词语义相似度的话题聚类方法的工作流程示意图；

图2为本申请实施例公开的一种基于主题词语义相似度的话题聚类装置的结构示意图。

具体实施方式

本申请第一实施例公开了一种基于主题词语义相似度的话题聚类方法，参见图1所示，所述方法包括：

步骤S101，获取至少一个原始标题，并对每个所述原始标题进行预处理，获取待聚类标题集合。

步骤S102，提取目标待聚类标题对应的多个主题词，所述目标待聚类标题为所述待聚类标题集合中的任一待聚类标题，任一所述主题词的词性为名词。

步骤S103，根据预设的排除词集合及每个所述待聚类标题对应的多个主题词，生成主题集合。所述主题集合中包括多个主题对象，每个所述主题对象由一个所述待聚类标题对应的多个主题词拼接而成。

步骤S104，对所述主题集合中的任一主题对象进行文本数字化处理，获取主题向量化集合，所述主题向量化集合中包含多个主题向量化对象。

步骤S105，针对目标主题向量化对象，从所述主题向量化集合中筛选出相似的主题向量化对象，并将所述目标主题向量化对象与所述相似的主题向量化对象作为同种话题实现聚类。所述相似的主题向量化对象与所述目标主题向量化对象之间的语义相似度不小于预设阈值，所述目标主题向量化对象为任一主题向量化对象。

实际应用中，目前现有的聚类方法从聚类效果看，并不能满足相关的技术需求，因为语言的多样性并且规模庞大，确定聚类的数目并不容易，现有的聚类方法，例如K-mean或者 DBSCAN等，都是随机选取聚类中心，可能会将不同的类别归到一个类别中，因此聚类效果比较差。

为了解决上述问题，本实施例采用了一种全新的聚类方式。将主题向量化集合中任一个对象与其余对象计算相似度，将相似度大于阈值的作为一个簇，然后将这个簇中的对象从主题向量化集合中删除，针对集合中余下的对象继续执行相同操作，直至全部完成聚类。

实际操作中，假设经过排除词处理以及文本数字化处理以后所形成的主题向量化集合为 A＝{a1,a2,....,an},然后将A复制一份,形成备用集合B＝{a1,a2,....,an}，A和B里面元素的内容以及数量完全一样，只是集合名字不一样，然后开始执行聚类流程：首先，从A中提出第一个元素a1，将a1和B中所有的元素a1,a2,....,an做相似计算，凡是B中的元素与 a1相似度计算结果大于预设阈值(本实施例设为0.8)的，则认为该元素与a1这个主题向量化对象是相似的,可以放到一起进行聚类，以此提取出与a1的相似的元素形成簇 1＝{a1,a2,....,am,(m<n)}，接着从A、B中删除簇1中所包含的元素，即从这两个集合中抛弃掉已经找到的一个聚类结果，然后在集合余下元素里面继续寻找相似话题并进行聚类，这里假设簇1＝{a1,a2,....,a10}，则A、B余下的集合为{a11,a12,....,an}，将余下的集合设为A1、B1，再次按照上面的聚类过程从A1中提取a11和B1做相似度计算，寻找到簇2，以此类推寻找到簇n,直到集合A和B中元素个数为0为止，则完成了这批数据的话题聚类。本实施例假设的前提是相似的话题在向量空间中位置是非常靠近的，研究过程中也确实是这样，所以通过向量相似度的方式能够找出相似的话题聚成一类，较好的解决话题聚类问题。

本申请公开了一种基于主题词语义相似度的话题聚类方法，该方法对每个原始标题进行预处理，获取待聚类标题集合，然后提取目标待聚类标题对应的多个主题词，根据预设的排除词集合及每个待聚类标题对应的多个主题词，生成主题集合，对主题集合中的任一主题对象进行文本数字化处理，获取主题向量化集合，针对目标主题向量化对象，从主题向量化集合中筛选出相似的主题向量化对象，并将目标主题向量化对象与相似的主题向量化对象作为同种话题实现聚类。本申请公开的话题聚类方法在针对大量网络文本数据时，不需要指定K 值，通过提取主题词，然后计算相似度，便可以实现话题聚类，且能够保证聚类的主题相似，话题相近，具有覆盖范围大，计算复杂度低的优点。

进一步的，所述获取至少一个原始标题，并对每个所述原始标题进行预处理，获取待聚类标题集合，包括：

获取至少一个原始标题。

对每个所述原始标题中的标点符号进行过滤，获取字段集合，所述字段集合中包括多个标题字段。

本实施例中，针对原始标题，使用下述处理规则进行预处理：

1)去掉标点符号。

2)去掉只有单个词的标题，对于原始标题较长的，只取前30个字，将标题长度控制在 3-30字以内。

原始标题是那些未经处理的原始标题，作为示例，本实施例获取了以下原始标题：“重大项目进行时，城市A高速公路隧道加紧建设！”、“城市B发生首例事件C。”及“人物D身着造型E登场！”。经过预处理之后分别得到：“重大项目进行时城市A高速公路隧道加紧建设”、“城市B发生首例事件C”及“人物D身着造型E登场”。

进一步的，所述提取目标待聚类标题对应的多个主题词，包括：

对所述目标待聚类标题进行切分，获取目标词汇序列。

为所述目标词汇序列中的每一个词汇赋予词性。

对于中文来说，词语是语义的基本单位，所以分析句子时要从词出发，将句子分成一个个独立的词语，而分词技术就是将句子切分成词语的过程。分词是众多自然语言处理任务的基础，很多中文自然语言处理任务都要涉及分词。而LAC(Lexical Analysis ofChinese， LAC)是中文分词技术的一种，能够将连续的自然语言文本，切分出具有语义合理性和完整性的词汇序列，为自然语言文本中的每一个词汇赋予一个词性，包括名词、动词、形容词、副词等等。

本实施例考虑到实际数据特征不需要提取词性表中全部的词，只需要提取出能够表达完整句子的部分词语，即可去掉句子中无用的部分，只留下骨干，因此采用LAC主题词提取方法提取词性为名词的词，其中名词词性包括：n-普通名词、nz-其他专名、ORG-机构名、PER- 人名、nw-作品名、vn-名动词、LOC-地名。

基于上述示例中的标题，经过LAC主题词提取之后，分别得到“项目/城市A/高速公路/ 隧道”、“城市B/事件C”及“人物D/造型E/登场”。

进一步的，所述根据预设的排除词集合及每个所述待聚类标题对应的多个主题词，生成主题集合，包括：

获取待拼接标题，所述待拼接标题为不包含所述排除词集合中任一排除词的待聚类标题。

在一种实现方式中，排除词为事先预设的词集合，表示用户不想提取关于含有该集合中词的标题。比如排除词集合F＝{社会、赛事、队伍、城市B、造型E}，而进行话题聚类的时候就需要将所有包含社会、赛事、队伍、城市B、造型E主题词的待聚类标题舍弃掉，具体的，可采用关键词匹配算法，将排除词集合里面的词逐个和经过LAC主题词提取后的结果进行对比，凡是该待聚类标题包含该排除词，则将该待聚类标题删除。

针对上述示例，若排除词集合F＝{社会、赛事、队伍、城市B、造型E}，那么由于“城市B/事件C”及“人物D/造型E/登场”分别包含城市B和造型E这两个排除词，因此将这两个待聚类标题删除，将剩下的“项目/城市A/高速公路/隧道”设为待拼接标题。将该待拼接标题对应的多个主题词按横向进行拼接，形成句子的最终表示，即为：项目城市A高速公路隧道。

进一步的，所述对所述主题集合中的任一主题对象进行文本数字化处理，获取主题向量化集合，包括：

word2vec是一种词向量技术，能够将高维度向量转化为低维度向量，并通过滑动窗口的方式结合上下文，生成更准确的语义向量。将拼接之后的句子使用word2vec技术将文本转化成向量，方便进行相似度计算。

具体的，将所有主题对象使用word2vec模型进行向量化的表示，即文本数字化。针对上述示例的“项目城市A高速公路隧道”，可将其文本数字化为 [[7.820036e-01,2.57854e-01,……,-1.6665891e-01,2.1457062e-01]]，其中里面的每一个维度都表示语义的一个特征，将所有标题形成固定维度(向量的长度相同)的语义特征，这样便可进行相似度计算。

现有的部分算法虽然聚类效果较好，但是需要使用者事先知道这批数据分成几类，即指定K值，比如K-mean算法。还有部分算法虽然不需要指定K值，但是往往聚出来效果较差，准确度较低，比如基于密度聚类方法。本申请采用主题提取方法，并结合相似度匹配算法，能够根据文本语义的词向量在高维向量空间的表示，计算向量与向量之间的欧式距离，有效的在海量文本中提出相似话题，完成聚类，同时算法具有较高的效率、计算复杂度低、可移植性强、聚类精确度高、聚类效果显著的优点。

本申请第二实施例公开了一种基于主题词语义相似度的话题聚类装置，所述基于主题词语义相似度的话题聚类装置应用于如本申请第一实施例所述的一种基于主题词语义相似度的话题聚类方法，参见图2，所述基于主题词语义相似度的话题聚类装置包括：

待聚类标题获取模块10，用于获取至少一个原始标题，并对每个所述原始标题进行预处理，获取待聚类标题集合。

主题词提取模块20，用于提取目标待聚类标题对应的多个主题词，所述目标待聚类标题为所述待聚类标题集合中的任一待聚类标题，任一所述主题词的词性为名词。

主题生成模块30，用于根据预设的排除词集合及每个所述待聚类标题对应的多个主题词，生成主题集合。所述主题集合中包括多个主题对象，每个所述主题对象由一个所述待聚类标题对应的多个主题词拼接而成。

向量化模块40，用于对所述主题集合中的任一主题对象进行文本数字化处理，获取主题向量化集合，所述主题向量化集合中包含多个主题向量化对象。

相似聚类模块50，用于针对目标主题向量化对象，从所述主题向量化集合中筛选出相似的主题向量化对象，并将所述目标主题向量化对象与所述相似的主题向量化对象作为同种话题实现聚类。所述相似的主题向量化对象与所述目标主题向量化对象之间的语义相似度不小于预设阈值，所述目标主题向量化对象为任一主题向量化对象。

进一步的，所述待聚类标题获取模块10包括：

原始标题获取单元，用于获取至少一个原始标题。

标点符号过滤单元，用于对每个所述原始标题中的标点符号进行过滤，获取字段集合，所述字段集合中包括多个标题字段。

进一步的，所述主题词提取模块20包括：

切分单元，用于对所述目标待聚类标题进行切分，获取目标词汇序列。

词性设置单元，用于为所述目标词汇序列中的每一个词汇赋予词性。

进一步的，所述主题生成模块30包括：

排除单元，用于获取待拼接标题，所述待拼接标题为不包含所述排除词集合中任一排除词的待聚类标题。

进一步的，所述向量化模块40包括：

以上结合具体实施方式和范例性实例对本申请进行了详细说明，不过这些说明并不能理解为对本申请的限制。本领域技术人员理解，在不偏离本申请精神和范围的情况下，可以对本申请技术方案及其实施方式进行多种等价替换、修饰或改进，这些均落入本申请的范围内。本申请的保护范围以所附权利要求为准。

Claims

1.一种基于主题词语义相似度的话题聚类方法，其特征在于，包括：

2.根据权利要求1所述的基于主题词语义相似度的话题聚类方法，其特征在于，所述获取至少一个原始标题，并对每个所述原始标题进行预处理，获取待聚类标题集合，包括：

获取至少一个原始标题；

3.根据权利要求2所述的基于主题词语义相似度的话题聚类方法，其特征在于，所述提取目标待聚类标题对应的多个主题词，包括：

对所述目标待聚类标题进行切分，获取目标词汇序列；

为所述目标词汇序列中的每一个词汇赋予词性；

4.根据权利要求1所述的基于主题词语义相似度的话题聚类方法，其特征在于，所述根据预设的排除词集合及每个所述待聚类标题对应的多个主题词，生成主题集合，包括：

5.根据权利要求4所述的基于主题词语义相似度的话题聚类方法，其特征在于，所述对所述主题集合中的任一主题对象进行文本数字化处理，获取主题向量化集合，包括：

6.一种基于主题词语义相似度的话题聚类装置，其特征在于，所述基于主题词语义相似度的话题聚类装置应用于如权利要求1-5任一项所述的一种基于主题词语义相似度的话题聚类方法，所述基于主题词语义相似度的话题聚类装置包括：

7.根据权利要求6所述的基于主题词语义相似度的话题聚类装置，其特征在于，所述待聚类标题获取模块包括：

原始标题获取单元，用于获取至少一个原始标题；

8.根据权利要求7所述的基于主题词语义相似度的话题聚类装置，其特征在于，所述主题词提取模块包括：

9.根据权利要求6所述的基于主题词语义相似度的话题聚类装置，其特征在于，所述主题生成模块包括：

10.根据权利要求9所述的基于主题词语义相似度的话题聚类装置，其特征在于，所述向量化模块包括：