CN112732914A

CN112732914A - 基于关键词匹配的文本聚类方法、系统、储存介质及终端

Info

Publication number: CN112732914A
Application number: CN202011625579.2A
Authority: CN
Inventors: 吴哲; 李志鹏; 石珺; 单方明; 张斌; 杨阳朝
Original assignee: Shenzhen Wanglian Anrui Network Technology Co ltd
Current assignee: Shenzhen Wanglian Anrui Network Technology Co ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-04-30

Abstract

本发明公开一种基于关键词匹配的文本聚类方法、系统、储存介质及终端，涉及数据处理技术领域。对分析数据进行清洗，采用TextRank算法计算文本关键词；根据不同文本间关键词的重复占比判断文本相似度，实现初步聚类；对文本簇中不同文本关键词依据汇总计算得出文本簇的关键词；文本簇聚类后形成新的文本簇同时通过相同方式再进行聚类，直至满足设定聚类轮数。本发明在不将文本转化为向量的情况下，基于不同文本间关键词的重复占比判断不同文本的相似度，实现文本聚类，简化了文本相似度的计算过程，提升了计算效率。本方法能够根据文本内容自动判断聚类个数k，无需预先指定，具有较强适用性。

Description

基于关键词匹配的文本聚类方法、系统、储存介质及终端

技术领域

本发明涉及数据处理技术领域，尤其公开一种基于关键词匹配的文本聚类方法、系统、储存介质及终端。

背景技术

目前，聚类是一种无监督学习方式，目的是把一个数据根据某种规则划分为多个子数据，一个子数据就称为一个聚类。文本聚类则是将聚类的方法应用于文本类数据，通过对不同文本进行相似度比较，将相似度高的文本归为一类的计算方法。由于数据应用场合不同，不同的聚类方式侧重点不同，各有优势和缺陷，因此目前没有一个通用的聚类算法，目前聚类算法主要分为以下几类：基于划分的聚类算法、基于层次的聚类算法、基于密度的聚类算法、基于网格的聚类算法、基于模型的聚类算法以及基于模糊的聚类算法。

现有技术方案所采用的聚类算法属于凝聚式层次聚类算法(HierarchicalAgglomerative Clustering，HAC)，凝聚式层次聚类顾名思义是凝聚数据样本，它的聚类方向是从子数据向上不断合并，该算法经常运用于话题检测中。凝聚式层次聚类首先从底部分散的单个样本开始依次计算与其他样本的距离，然后选择距离最小样本并与其合并成一个新的样本集，再重复上述过程直到形成一个包含所有样本的簇，或者达到迭代次数。

通过上述分析，现有技术存在的问题及缺陷为：

(1)现有技术所采用的聚类算法属于凝聚式层次聚类算法，判断不同文本相似度的主要思路是将文本分词后转化为词向量，并进一步计算不同向量间的距离(欧式距离、夹角余弦距离等)，通过向量距离大小判断不同文本的相似度，最终达到文本聚类的目的。将文本转换为向量并针对不同向量进行距离计算需要占用大量计算资源，导致文本聚类算法计算效率相对较低。

(2)将文本转换为向量进行计算会增加模型的复杂度，且对文本质量要求相对较高，否则会影响聚类结果的准确性。

解决以上问题及缺陷的难度为：如何在不将文本转换为向量的情况下计算不同文本间相似度，实现文本聚类，以简化计算复杂度，提升模型计算效率与鲁棒性。这是业内急需要解决的技术难题。

解决以上问题及缺陷的意义为：能够提供一种判断不同文本的相似度的新方法，降低计算复杂度，提升计算效率，为研究人员实现文本聚类提供新的思路；能够提升模型计算的鲁棒性，适度降低对分析文本质量的要求，具有更好的适用性。

发明内容

为克服相关技术中存在的问题，本发明公开实施例提供了一种基于关键词匹配的文本聚类方法、系统、储存介质及终端。所述技术方案如下：

根据本发明公开实施例的第一方面，提供一种基于文本关键词匹配度的文本聚类方法，应用于信息数据处理终端，所述基于文本关键词匹配度的文本聚类方法包括：

在不将目标文本转化为向量的情况下，通过不同文本间关键词的重复度评估所述文本的相似度，实现文本聚类；

能够根据聚类文本内容及设定的文本相似度阈值，自动判断聚类个数，无需预先指定。

优选地，所述实现文本聚类包括：

文本数据清洗；

文本关键词计算；

初步聚类；

文本簇筛选；

多轮聚类。

所述文本数据清洗具体包括：首先对分析数据进行清洗，主要方式为通过编写正则表达式方式(通过规则进行文本筛选的一种方式方法)剔除广告、网址、表情等噪声数据；

在聚类结果质量要求相对较低或时间紧迫的情况下可跳过文本数据清洗步骤，直接执行文本关键词计算步骤。

优选地，所述文本关键词计算包括：对所有文本进行逐条分析，并采用TextRank算法计算文本关键词，可指定所需提取关键词的数量，计算结果同时会生成关键词的权重值，值越大说明该关键词重要度越高；

所述初步聚类具体包括：根据不同文本间关键词的重复占比判断文本相似度，实现初步聚类；文本相似度计算式为：

文本相似度＝相同关键词数量/提取关键词数量。

所述文本簇筛选具体包括：在完成初步聚类后会形成多个文本簇，通过文本簇中文本的数量对文本簇进行初步筛选，剔除无法聚类到文本簇中的文本，文本簇中文本的数量最小为2；通过对文本簇中不同文本关键词进行汇总计算得出文本簇的关键词，即将同一文本簇中不同文本的关键词依据权重进行加合后排序，排名前N的关键词即为文本簇关键词，N为文本簇关键词的数量。

所述多轮聚类具体包括：通过文本簇关键词的重复度判断不同文本簇的相似度，实现针对文本簇的聚类。

所述根据聚类文本内容自动判断聚类个数包括：

文本簇聚类后形成新的文本簇同时通过相同方式再进行聚类，直至满足设定聚类轮数，默认多轮聚类次数为3，每次聚类文本簇关键词数量及文本簇相似度阈值可采用默认设定参数或根据需求进行指定，满足不同分析需求；

在完成多轮聚类后，根据不同文本簇中文本的数量进行汇总排序得到最终的文本聚类结果，根据排名或文本数量对聚类结果进行筛选。

根据本发明公开实施例的第二方面，提供一种基于文本关键词匹配度的文本聚类系统，所述基于文本关键词匹配度的文本聚类系统包括：

文本数据清洗模块，用于对分析数据进行清洗，主要方式为通过编写正则表达式方式剔除广告、网址、表情等噪声数据；

文本关键词计算模块，用于对所有文本进行逐条分析，并采用TextRank算法计算文本关键词，可指定所需提取关键词的数量，计算结果同时会生成关键词的权重值，值越大说明该关键词重要度越高；

初步聚类模块，用于根据不同文本间关键词的重复占比判断文本相似度，实现初步聚类；

文本簇筛选模块，用于在完成初步聚类后会形成多个文本簇，通过文本簇中文本的数量对文本簇进行初步筛选，剔除无法聚类到文本簇中的文本，通过对文本簇中不同文本关键词进行汇总计算得出文本簇的关键词；

多轮聚类模块，用于通过文本簇关键词的重复度判断不同文本簇的相似度，实现针对文本簇的聚类；

判断聚类个数模块，用于文本簇聚类后形成新的文本簇同时通过相同方式再进行聚类，直至满足设定聚类轮数。

根据本发明公开实施例的第三方面，提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

(1)文本数据清洗；

(2)文本关键词计算；

(3)初步聚类；

(4)文本簇筛选；

(5)多轮聚类；

(6)结果生成。

根据本发明公开实施例的第四方面，提供一种信息数据处理终端，所述信息数据处理终端包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述的基于文本关键词匹配度的文本聚类方法。

本发明公开的实施例提供的技术方案可以包括以下有益效果：

本发明在不将文本转化为向量的情况下，基于不同文本间关键词的重复占比判断不同文本的相似度，实现文本聚类，简化了文本相似度的计算过程，提升了计算效率。

本方法能够根据聚类文本内容及设定的文本相似度阈值，自动判断聚类个数k，无需预先指定，具有较强适用性。

本方法支持在聚类文本质量相对较低的情况进行文本聚类，在对聚类结果精度要求相对较低或时间受限的情况下，可跳过数据清洗的步骤，具有更广的适用范围。

当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是本发明实施例提供的基于关键词匹配的文本聚类方法流程图。

图2是本发明实施例提供的文本聚类结果示例效果图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本技术方案公开了一种基于文本关键词匹配度的文本聚类方法，本算法能够在不将目标文本转化为向量的情况下，通过不同文本间关键词的重复度评估其相似度，实现文本聚类，并有效提升文本聚类的计算效率。本方法能够根据文本内容自动判断聚类个数k，无需预先指定，具有较强的适用性(因为用户往往很难判断会产生多少个聚类)。

如图1所示，本发明公所提供的基于关键词匹配的文本聚类方法包括：

(1)文本数据清洗：分析所用目标数据，较多情况下会存在一定数据噪声，包含广告、表情符号、特殊字符及超链接等内容，为提升聚类算法的准确性，首先需要对分析数据进行一定清洗，通过正则表达式等方式剔除噪声数据。本模型具有较强的鲁棒性，相较于传统基于文本向量相似度匹配的算法，噪声数据对模型影响相对较低，但条件不满足或时间紧迫的情况下可跳过本步骤。

(2)文本关键词计算：对所有文本进行逐条分析，计算关键词，一般地，无监督的关键词抽取方法可分为两种类型，基于数据集的抽取方法和基于单篇文本的抽取方法。基于数据集的抽取方法以数据集为语料库，如TF-IDF方法根据词在单篇文本及数据集整体上的重要程度，从而判断词语是否为关键词。而在当下文本数据量较大的环境中，学习基于数据集的词语重要性较困难。因此，本技术方案使用基于单篇文本的关键词抽取方法。TF-IDF、共现统计信息(CSI)、中心度量法(ECC)和TextRank是四种较经典的基于单篇文本的关键词抽取方法。TextRank模型应用较为广泛，且执行效率较高，经过测试本模型最终确定使用TextRank算法计算文本关键词。

(3)初步聚类：根据不同文本间关键词的重复占比判断文本相似度，实现初步聚类。

文本相似度＝相同关键词数量/提取关键词数量

假设A、B文本分别提取了5个关键词，其中3个关键词相同，则A、B文本间的相似度即为0.6，通过设定文本相似度的阈值即可实现文本的初步聚类。初步聚类时相似度阈值不应设定过低，以免聚类结果过于宽泛，初步聚类文本相似度默认值为0.6；初步聚类提取关键词数量的默认值为5，不建议设置提取过多关键词是因为初次聚类部分文本长度较短，难以提取过多关键词，会影响计算的准确性。

(4)文本簇筛选：在完成初步聚类后会形成多个文本簇，可通过文本簇中文本的数量对文本簇进行初步筛选，剔除无法聚类到文本簇中的文本，文本簇中文本的数量最小为2；通过对文本簇中不同文本关键词依据汇总可计算得出文本簇的关键词，即将同一文本簇中不同文本的关键词依据权重进行加合后排序，排名前N的关键词即为文本簇关键词，N为文本簇关键词的数量。

(5)多轮聚类：由于初步聚类文本相似度阈值设定较高，会导致部分聚类出的部分文本簇内容存在相似性，因此需要针对初步聚类后的文本簇再进行聚类。多轮聚类的原理与初步聚类相似，即通过文本簇关键词的重复度判断不同文本簇的相似度，以实现针对文本簇的聚类。文本簇聚类后会形成新的文本簇，针对新形成的文本簇亦可通过相同方式再进行聚类，直至满足设定聚类轮数，默认多轮聚类次数为3，每次聚类文本簇关键词数量及文本簇相似度阈值均可进行指定，以满足不同分析需求。

(6)结果生成：在完成多轮聚类后，根据不同文本簇中文本的数量进行汇总排序即可得到最终的文本聚类结果，可根据排名或文本数量对聚类结果进行筛选，例如结果导出排名前10的文本聚类。

本发明还提供一种基于文本关键词匹配度的文本聚类系统，包括：

文本簇筛选模块，用于在完成初步聚类后会形成多个文本簇，通过文本簇中文本的数量对文本簇进行初步筛选，剔除无法聚类到文本簇中的文本，通过对文本簇中不同文本关键词依据汇总计算得出文本簇的关键词；

下面结合实施例对本发明的技术方案作进一步描述。

分析示例：

测试数据：随机选取了10000条微博文本数据，数据采集时间2018.10.19

分析结果：依据聚类文本的数量对聚类结果进行排序，图2展示的为排名前10的聚类结果，grope_text列为聚类出的原始文本；topic列为根据规则简单提取的话题；count列为不同聚类文本数量的统计；key_words为根据聚类结果提取的关键词；key_phrase为根据聚类结果提取的关键词组。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围应由所附的权利要求来限制。

Claims

1.一种基于文本关键词匹配度的文本聚类方法，其特征在于，应用于信息数据处理终端，所述基于文本关键词匹配度的文本聚类方法包括：

并根据聚类文本内容及设定的文本相似度阈值，自动判断聚类个数，无需预先指定。

2.根据权利要求1所述的基于文本关键词匹配度的文本聚类方法，其特征在于，所述实现文本聚类包括：

文本数据清洗；

文本关键词计算；

初步聚类；

文本簇筛选；

多轮聚类。

3.根据权利要求2所述的基于文本关键词匹配度的文本聚类方法，其特征在于，所述文本数据清洗具体包括：首先对分析数据进行清洗，通过编写正则表达式方式剔除广告、网址、表情噪声数据；

在聚类结果质量要求相对较低或时间紧迫的情况下跳过文本数据清洗步骤，直接执行文本关键词计算步骤。

4.根据权利要求2所述的基于文本关键词匹配度的文本聚类方法，其特征在于，所述文本关键词计算包括：对所有文本进行逐条分析，并采用TextRank算法计算文本关键词，指定所需提取关键词的数量，计算结果同时生成关键词的权重值，值越大所述关键词重要度越高；

文本相似度＝相同关键词数量/提取关键词数量。

5.根据权利要求2所述的基于文本关键词匹配度的文本聚类方法，其特征在于，所述文本簇筛选具体包括：在完成初步聚类后会形成多个文本簇，通过文本簇中文本的数量对文本簇进行初步筛选，剔除无法聚类到文本簇中的文本，文本簇中文本的数量最小为2；通过对文本簇中不同文本关键词依据汇总计算得出文本簇的关键词，即将同一文本簇中不同文本的关键词依据权重进行加合后排序，排名前N的关键词即为文本簇关键词，N为文本簇关键词的数量。

6.根据权利要求2所述的基于文本关键词匹配度的文本聚类方法，其特征在于，所述多轮聚类具体包括：通过文本簇关键词的重复度判断不同文本簇的相似度，实现针对文本簇的聚类。

7.根据权利要求1所述的基于文本关键词匹配度的文本聚类方法，其特征在于，根据聚类文本内容及设定的文本相似度阈值，自动判断聚类个数包括：

文本簇聚类后形成新的文本簇同时通过相同方式再进行聚类，直至满足设定聚类轮数，默认多轮聚类次数为3，每次聚类文本簇关键词数量及文本簇相似度阈值可采用默认设定参数或根据需求进行指定；

8.一种基于文本关键词匹配度的文本聚类系统，其特征在于，所述基于文本关键词匹配度的文本聚类系统包括：

文本数据清洗模块，用于对分析数据进行清洗，通过编写正则表达式方式剔除广告、网址、表情噪声数据；

文本关键词计算模块，用于对所有文本进行逐条分析，并采用TextRank算法计算文本关键词，指定所需提取关键词的数量，计算结果同时生成关键词的权重值，值越大说明所述关键词重要度越高；

9.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：