CN112597313B

CN112597313B - 短文本聚类方法、装置、电子设备及存储介质

Info

Publication number: CN112597313B
Application number: CN202110232594.9A
Authority: CN
Inventors: 高亨德
Original assignee: Beijing Wofeng Times Data Technology Co ltd
Current assignee: Beijing Wofeng Times Data Technology Co ltd
Priority date: 2021-03-03
Filing date: 2021-03-03
Publication date: 2021-06-29
Anticipated expiration: 2041-03-03
Also published as: CN112597313A

Abstract

本发明实施例提供了一种短文本聚类方法、装置、电子设备及存储介质。其中，短文本聚类方法，包括：获取待聚类文本集合中文本的分词结果；基于文本的长度，选择性地使用文本的分词结果中的所有词或者关键词，构建文本的文本特征；对于待聚类文本集合中包括词向量的文本，基于文本特征之间的编辑距离进行聚类，否则，基于文本特征之间的余弦相似度进行聚类。本发明的实施例，可以有效地提升短文本聚类结果的准确性。

Description

短文本聚类方法、装置、电子设备及存储介质

技术领域

本发明涉及短文本聚类技术领域，尤其涉及一种短文本聚类方法、装置、电子设备及存储介质。

背景技术

现有的短文本聚类算法中，在特征构建上没有根据文本的长度进行区别处理，针对无词向量句子时，一般选择舍弃，会丢掉样本。且在聚类选择时通常使用k-means，聚类距离度量没有随文本进行更改，聚类数量不能根据文本间的相似度进行调整。可调整性与准确率都较低。

发明内容

针对现有技术中的问题，本发明实施例提供一种短文本聚类方法、装置、电子设备及存储介质。

具体地，本发明实施例提供了以下技术方案：

第一方面，本发明实施例提供了一种短文本聚类方法，包括：

获取待聚类文本集合中文本的分词结果；

基于文本的长度，选择性地使用文本的分词结果中的所有词或者关键词，构建文本的文本特征；

对于待聚类文本集合中包括词向量的文本，基于文本特征之间的编辑距离进行聚类，否则，基于文本特征之间的余弦相似度进行聚类。

进一步地，所述获取待聚类文本集合中文本的分词结果，包括：

对所述文本进行分词，得到初始分词结果；

去除所述初始分词结果中的无用词，得到所述分词结果。

进一步地，所述基于文本的长度，选择性地使用文本的分词结果中的所有词或者关键词，构建文本的文本特征，包括：

如果所述文本的长度大于预定长度，则从所述文本的分词结果中筛选出关键词，并基于所述关键词得到所述文本的文本特征，否则，基于所述文本的分词结果中所有的词，得到所述文本的文本特征。

进一步地，所述从所述文本的分词结果中筛选出关键词，包括：

计算所述文本的分词结果中所有的词的频率TF值和反文档频率IDF值；

将所述文本的分词结果中所有的词的频率TF值和反文档频率IDF值之间的乘积大于预设值的词作为所述关键词。

进一步地，所述基于所述关键词得到所述文本的文本特征，包括：

将所述关键词映射为词向量；

基于所述词向量和所述关键词的反文档频率IDF值，构建所述文本特征。

进一步地，所述对于待聚类文本集合中包括词向量的文本，基于文本特征之间的编辑距离进行聚类，否则，基于文本特征之间的余弦相似度进行聚类，包括：

基于词向量在文本中所占的比重，获得所述待聚类文本集合中包括词向量的文本；

对于包括词向量的文本，计算文本特征之间的编辑距离，并根据所述编辑距离进行聚类，否则，计算文本特征之间的余弦相似度，并基于所述余弦相似度进行聚类。

第二方面，本发明实施例还提供了一种短文本聚类装置，包括：

分词模块，用于获取待聚类文本集合中文本的分词结果；

文本特征构建模块，用于基于文本的长度，选择性地使用文本的分词结果中的所有词或者关键词，构建文本的文本特征；

聚类模块，用于对于待聚类文本集合中包括词向量的文本，基于文本特征之间的编辑距离进行聚类，否则，基于文本特征之间的余弦相似度进行聚类。

第三方面，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述的短文本聚类方法的步骤。

第四方面，本发明实施例还提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所述的短文本聚类方法的步骤。

第五方面，本发明实施例还提供了一种计算机程序产品，所计算机程序产品包括有计算机程序，该计算机程序被处理器执行时实现如第一方面所述的短文本聚类方法的步骤。

由上面技术方案可知，本发明实施例提供的短文本聚类方法、装置、电子设备及存储介质，聚类时可根据文本相似度来调整阈值，达到对聚类精度的准确控制，且针对较长的文本，当使用词向量求和取平均时会丢失重要信息，本发明中采用抽取关键词的方式来提高聚类的准确率。并且，对于没有词向量或含有词向量词占句子比重较小的句子使用编辑距离作为类间度量，且使用了不同的簇间距计算方式，进一步的提高了聚类准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的短文本聚类方法的流程图之一；

图2为本发明一实施例提供的短文本聚类方法的流程图之二；

图3为本发明一实施例提供的短文本聚类装置的结构示意图；

图4为本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了本发明实施例提供的短文本聚类方法的流程图。如图1所示，并结合图2，本发明实施例提供的短文本聚类方法，包括如下步骤：

步骤101：获取待聚类文本集合中文本的分词结果。

对于多个待聚类文本，通常指短文本，例如是类似即时聊天、留言、标题及提问等的文本，其长度一般较短，通常不超过十个词。短短文本聚类广泛应用于微博、新闻、对话等领域。由于短文本具有内容少，提供的信息有限，特征不明显等特点，因此，传统的短文本聚类方法不能很好地应用于短短文本聚类中。

本发明的实施例中，首先获取待聚类文本集合中文本的分词结果，具体为：对所述文本进行分词，得到初始分词结果；去除所述初始分词结果中的无用词，得到所述分词结果。

该示例中，将文本进行分词，可以采用通用的分词工具对所有的文本进行分词，并记录初始的分词结果，然后，将文本进行预处理，在分词的基础上，去除如标点、停用词及表情符号等无意义的无用词，得到文本的分词结果。

其中，待聚类文本集合是多个待聚类的文本构成的集合，可以是一个预先构建好的文本库，即：所有的待聚类的文本存储在这个文本库中，从而，这个文本库可以是一个待聚类文本集合。

步骤102：基于文本的长度，选择性地使用文本的分词结果中的所有词或者关键词，构建文本的文本特征。

可以根据文本的长度，将长度较长的文本，使用关键词构建文本特征，而对于较短的文本，使用该文本的分词结果中的所有词构建文本特征。

作为一个具体的示例，基于文本的长度，选择性地使用文本的分词结果中的所有词或者关键词，构建文本的文本特征，包括：如果所述文本的长度大于预定长度，则从所述文本的分词结果中筛选出关键词，并基于所述关键词得到所述文本的文本特征，否则，基于所述文本的分词结果中所有的词，得到所述文本的文本特征。

该示例中，从文本的分词结果中筛选出关键词，包括：计算所述文本的分词结果中所有的词的频率TF值和反文档频率IDF值；将所述文本的分词结果中所有的词的频率TF值和反文档频率IDF值之间的乘积大于预设值的词作为所述关键词。

上述示例中，基于所述关键词得到所述文本的文本特征，包括：将所述关键词映射为词向量；基于所述词向量和所述关键词的反文档频率IDF值，构建所述文本特征。

具体来说，对待聚类文本中较长的文本抽取关键词；使用基于TF- IDF的抽取关键词算法，首先计算词的频率(Term Frequency，缩写为TF)，并将其标准化。

其中，TF=词在文本中出现的次数/文本的总词数，反文档频率(Inverse DocumentFrequency，缩写为IDF)，其中，IDF=log（文本总数/词出现的文本数+1）。

然后计算词的TF-IDF值，其中，TF-IDF值=TF*IDF。

抽取TF-IDF值超过预设值的词作为该文本的关键词，该示例中，预设值可以预先设定。

在本发明的一个实施例中，文本特征是基于词向量与IDF值构建的。例如首先选取通过Word2Vec工具训练得到的通用词向量，然后将文本的关键词使用词向量表示，并将词的IDF值作为权重，对所有词加权求和并取均值，即：加权平均值，作为该文本的特征表示，即：文本特征。

步骤103：对于待聚类文本集合中包括词向量的文本，基于文本特征之间的编辑距离进行聚类，否则，基于文本特征之间的余弦相似度进行聚类。

在本发明的一个实施例中，对于待聚类文本集合中包括词向量的文本，基于文本特征之间的编辑距离进行聚类，否则，基于文本特征之间的余弦相似度进行聚类，包括：基于词向量在文本中所占的比重，获得所述待聚类文本集合中包括词向量的文本；对于包括词向量的文本，计算文本特征之间的编辑距离，并根据所述编辑距离进行聚类，否则，计算文本特征之间的余弦相似度，并基于所述余弦相似度进行聚类。

具体采用的聚类方法可采用层次聚类算法实现，其距离与相似度度量是该聚类算法的根本，根据待聚类的文本的不同，使用不同的度量。例如：对于不含词向量与含词向量词占句子比重较小的文本，使用编辑距离作为簇间的距离度量。在使用层次聚类计算簇间距时，本发明的实施例，不使用类间的平均编辑距离，使用类间距离最近的文本代表该簇得到的聚类，其聚类更加准确。

对于含词向量词占句子比重大的文本，使用余弦相似度作为簇间的距离度量。在对该类文本使用层次聚类计算簇间距时，使用类间的平均编辑距离代表该簇得到的聚类结果更加准确。

在以上描述中，可以预先设定一个比重阈值，进而，可以确定出不含词向量与含词向量词占句子比重较小的文本，以及确定出含词向量词占句子比重较大的文本。

根据本发明实施例的短文本聚类方法，聚类时可根据文本相似度来调整阈值，达到对聚类精度的准确控制，且针对较长的文本，当使用词向量求和取平均时会丢失重要信息，本发明中采用抽取关键词的方式来提高聚类的准确率。并且，对于没有词向量或含有词向量词占句子比重较小的句子使用编辑距离作为类间度量，且使用了不同的簇间距计算方式，进一步的提高了聚类准确率。

图3示出了本发明实施例提供的短文本聚类装置的结构示意图。如图3所示，本实施例提供的短文本聚类装置，包括：分词模块310、文本特征构建模块320和聚类模块330，其中：

分词模块310，用于获取待聚类文本集合中文本的分词结果；

文本特征构建模块320，用于基于文本的长度，选择性地使用文本的分词结果中的所有词或者关键词，构建文本的文本特征；

聚类模块330，用于对于待聚类文本集合中包括词向量的文本，基于文本特征之间的编辑距离进行聚类，否则，基于文本特征之间的余弦相似度进行聚类。

根据本发明实施例的短文本聚类装置，聚类时可根据文本相似度来调整阈值，达到对聚类精度的准确控制，且针对较长的文本，当使用词向量求和取平均时会丢失重要信息，本发明中采用抽取关键词的方式来提高聚类的准确率。并且，对于没有词向量或含有词向量词占句子比重较小的句子使用编辑距离作为类间度量，且使用了不同的簇间距计算方式，进一步的提高了聚类准确率。

由于本发明实施例提供的短文本聚类装置，可以用于执行上述实施例所述的短文本聚类方法，其工作原理和有益效果类似，故此处不再详述，具体内容可参见上述实施例的介绍。

在本实施例中，需要说明的是，本发明实施例的装置中的各个模块可以集成于一体，也可以分离部署。上述模块可以合并为一个模块，也可以进一步拆分成多个子模块。

基于相同的发明构思，本发明又一实施例提供了一种电子设备，参见图4，所述电子设备具体包括如下内容：处理器401、存储器402、通信接口403和通信总线404；

其中，所述处理器401、存储器402、通信接口403通过所述通信总线404完成相互间的通信；

所述处理器401用于调用所述存储器402中的计算机程序，所述处理器执行所述计算机程序时实现上述短文本聚类方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述过程：获取待聚类文本集合中文本的分词结果；基于文本的长度，选择性地使用文本的分词结果中的所有词或者关键词，构建文本的文本特征；对于待聚类文本集合中包括词向量的文本，基于文本特征之间的编辑距离进行聚类，否则，基于文本特征之间的余弦相似度进行聚类。

可以理解的是，所述计算机程序可以执行的细化功能和扩展功能可参照上面实施例的描述。

基于相同的发明构思，本发明又一实施例提供了一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述短文本聚类方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述过程：获取待聚类文本集合中文本的分词结果；基于文本的长度，选择性地使用文本的分词结果中的所有词或者关键词，构建文本的文本特征；对于待聚类文本集合中包括词向量的文本，基于文本特征之间的编辑距离进行聚类，否则，基于文本特征之间的余弦相似度进行聚类。

基于相同的发明构思，本发明又一实施例提供了一种计算机程序产品，所计算机程序产品包括有计算机程序，该计算机程序被处理器执行时实现上述短文本聚类方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述过程：获取待聚类文本集合中文本的分词结果；基于文本的长度，选择性地使用文本的分词结果中的所有词或者关键词，构建文本的文本特征；对于待聚类文本集合中包括词向量的文本，基于文本特征之间的编辑距离进行聚类，否则，基于文本特征之间的余弦相似度进行聚类。

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的流量审计方法。

此外，在本发明中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

此外，在本发明中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种短文本聚类方法，其特征在于，包括：

获取待聚类文本集合中文本的分词结果；

基于词向量在文本中所占的比重，获得所述待聚类文本集合中包括词向量的文本，并对于待聚类文本集合中包括词向量的文本，基于文本特征之间的编辑距离进行聚类，否则，基于文本特征之间的余弦相似度进行聚类。

2.根据权利要求1所述的短文本聚类方法，其特征在于，所述获取待聚类文本集合中文本的分词结果，包括：

对所述文本进行分词，得到初始分词结果；

去除所述初始分词结果中的无用词，得到所述分词结果。

3.根据权利要求1或2所述的短文本聚类方法，其特征在于，所述基于文本的长度，选择性地使用文本的分词结果中的所有词或者关键词，构建文本的文本特征，包括：

4.根据权利要求3所述的短文本聚类方法，其特征在于，所述从所述文本的分词结果中筛选出关键词，包括：

5.根据权利要求4所述的短文本聚类方法，其特征在于，所述基于所述关键词得到所述文本的文本特征，包括：

将所述关键词映射为词向量；

6.一种短文本聚类装置，其特征在于，包括：

分词模块，用于获取待聚类文本集合中文本的分词结果；

聚类模块，用于基于词向量在文本中所占的比重，获得所述待聚类文本集合中包括词向量的文本，并对于待聚类文本集合中包括词向量的文本，基于文本特征之间的编辑距离进行聚类，否则，基于文本特征之间的余弦相似度进行聚类。

7.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现根据权利要求1~5任一项所述的短文本聚类方法的步骤。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现根据权利要求1~5任一项所述的短文本聚类方法的步骤。