CN113076404B

CN113076404B - 一种文本相似度计算方法、装置、计算机设备和存储介质

Info

Publication number: CN113076404B
Application number: CN202110431440.2A
Authority: CN
Inventors: 黄友福; 肖龙源; 李稀敏
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2022-08-23
Anticipated expiration: 2041-04-21
Also published as: CN113076404A

Abstract

本发明公开了一种文本相似度计算方法、装置、计算机设备和存储介质，方法包括：计算第一待匹配语句和第二待匹配语句间的基础相似度；对第一待匹配语句和第二待匹配语句进行分词，并对分词后的所有单词进行词性标注；分别对第一待匹配语句和第二待匹配语句分词后的所有单词进行向量化以获得词向量；计算相似度惩罚系数；基于基础相似度和相似度惩罚系数，获得第一待匹配语句和第二待匹配语句间的最终相似度。本发明在计算文本间相似度时引入了与单个词向量及词性种类相关的相似度惩罚系数，能够有效降低相似度识别错误的概率。

Description

一种文本相似度计算方法、装置、计算机设备和存储介质

技术领域

本发明涉及互联网技术领域，具体涉及一种文本相似度计算方法、装置、计算机设备和存储介质。

背景技术

自然语言处理的过程中，文本相似度计算是一个重要的步骤。现有的文本相似度计算方法有几种：1、余弦相似度(性)法，通过计算两个向量的夹角余弦值来评估他们的相似度；2、简单共有词，通过计算两个文本共有的词的总字符数除以最长文档字符数来评估他们的相似度；3、编辑距离，又称Levenshtein距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越大；4、欧几里得距离法，以两个文本所以的不重复词构成0-1向量，并计算两个向量之间的欧式距离来判断相似度。现有的相似度计算方法中，只考虑了句子之间的文本相似度，即仅通过字面上有多少重复的分词来判断句子的相似度，这样容易导致很多内涵相差甚远的文本被错误匹配成相似句。

发明内容

本发明的主要目的在于克服现有技术中的上述缺陷，提出一种用户体验好、操作便利的文本相似度计算方法、装置、计算机设备和存储介质，在计算文本间相似度时引入了与单个词向量及词性种类相关的相似度惩罚系数，能够有效降低相似度识别错误的概率。

本发明采用如下技术方案：

一方面，一种文本相似度计算方法，包括：

计算第一待匹配语句和第二待匹配语句间的基础相似度；

对第一待匹配语句和第二待匹配语句进行分词，并对分词后的每个单词进行词性标注；

分别对所述第一待匹配语句和所述第二待匹配语句分词后的每个单词进行向量化以获得对应的词向量；

基于所述第一待匹配语句和所述第二待匹配语句中的词性种类的总数，以及所述第一待匹配语句的单个词向量和所述第二待匹配语句的对应词性的单个词向量间的相似度，计算出相似度惩罚系数；

基于所述基础相似度和所述相似度惩罚系数，获得所述第一待匹配语句和所述第二待匹配语句间的最终相似度。

在一个实施例中，所述对第一待匹配语句和第二待匹配语句进行分词，并对分词后的每个单词进行词性标注，具体包括：

利用结巴分词对第一待匹配语句和第二待匹配语句进行分词，并对分词后的每个单词进行词性标注。

在一个实施例中，所述第一待匹配语句和所述第二待匹配语句间的基础相似度的计算方法，包括：

余弦相似度法、简单共有词法、编辑距离法或欧几里得距离法。

在一个实施例中，当使用余弦相似度法计算所述基础相似度时，所述计算第一待匹配语句和第二待匹配语句间的基础相似度之前，还包括：

使用word2vec分别计算所述第一待匹配语句的句向量和所述第二待匹配语句的句向量。

在一个实施例中，所述分别对所述第一待匹配语句和所述第二待匹配语句分词后的每个单词进行向量化以获得对应的词向量，具体包括：

使用word2vec分别对所述第一待匹配语句和所述第二待匹配语句分词后的每个单词进行向量化以获得对应的词向量。

在一个实施例中，所述相似度惩罚系数的计算方法如下：

其中，Penalty表示惩罚系数；n表示所述第一待匹配语句和所述第二待匹配语句中的词性种类的总数；w_A,i表示所述第一待匹配语句中词性为i的词向量；w_B,i表示所述第二待匹配语句中词性为i的词向量。

在一个实施例中，所述基于所述基础相似度和所述相似度惩罚系数，获得所述第一待匹配语句和所述第二待匹配语句间的最终相似度，具体包括：

将所述基础相似度与所述相似度惩罚系数进行乘法运算，获得所述第一待匹配语句和所述第二待匹配语句间的最终相似度。

另一方面，一种文本相似度计算系统，包括：

基础相似度获取模块，用于计算所述第一待匹配语句和所述第二待匹配语句间的基础相似度；

分词及词性标注模块，用于对第一待匹配语句和第二待匹配语句进行分词，并对分词后的每个单词进行词性标注；

词向量获取模块，用于分别对所述第一待匹配语句和所述第二待匹配语句分词后的每个单词进行向量化以获得对应的词向量；

相似度惩罚系数获取模块，用于基于所述第一待匹配语句和所述第二待匹配语句中的词性种类的总数，以及所述第一待匹配语句的单个词向量和所述第二待匹配语句的对应词性的单个词向量间的相似度，计算出相似度惩罚系数；

最终相似度获取模块，用于基于所述基础相似度和所述相似度惩罚系数，获得所述第一待匹配语句和所述第二待匹配语句间的最终相似度。

另一方面，一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现所述文本相似度计算方法的步骤。

再一方面，一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述文本相似度计算方法的步骤。

由上述对本发明的描述可知，与现有技术相比，本发明具有如下有益效果：

本发明通对待匹配的第一待匹配语句和第二待匹配语句进行分词，并对每个词进行词性标注，进而获得第一待匹配语句和第二待匹配语句的词性种类的总数，进一步计算出第一待匹配语句的单个词向量和所述第二待匹配语句的对应词性的单个词向量间的相似度，以获得相似度惩罚系数，结合基础相似度和相似度惩罚系数，获得第一待匹配语句和第二待匹配语句间的最终相似度；相似度惩罚系数的引入，能够有效降低相似度识别错误的概率；当本发明应用于人机交互或对话系统(如医疗机器人)时，能够提升文本相似度任务的准确率(如回复用户的准确性)。

上述说明仅是本发明技术方案的概述，为了能够更清楚地了解本发明的技术手段，从而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下列举本发明的具体实施方式。

根据下文结合附图对本发明具体实施例的详细描述，本领域技术人员将会更加明了本发明的上述及其他目的、优点和特征。

附图说明

图1为本发明实施例的文本相似度计算方法流程图；

图2为本发明实施例的文本相似度计算系统的结构框图；

图3为本发明实施例的计算机设备的内部结构图。

具体实施方式

以下通过具体实施方式对本发明作进一步的描述。

参见图1所示，本发明一种文本相似度计算方法，包括：

S101，计算所述第一待匹配语句和所述第二待匹配语句间的基础相似度；

S102，对第一待匹配语句和第二待匹配语句进行分词，并对分词后的每个单词进行词性标注；

S103，分别对所述第一待匹配语句和所述第二待匹配语句分词后的每个单词进行向量化以获得对应的词向量；

S104，基于所述第一待匹配语句和所述第二待匹配语句中的词性种类的总数，以及所述第一待匹配语句的单个词向量和所述第二待匹配语句的对应词性的单个词向量间的相似度，计算出相似度惩罚系数；

S105，基于所述基础相似度和所述相似度惩罚系数，获得所述第一待匹配语句和所述第二待匹配语句间的最终相似度。

本实施例中，所述第一待匹配语句和所述第二待匹配语句间的基础相似度的计算方法，包括：余弦相似度法、简单共有词法、编辑距离法或欧几里得距离法等方法。

具体的，当使用所述余弦相似度法进行基础相似度计算时，所述文本相似度计算方法还包括：利用word2vec分别计算所述第一待匹配语句的句向量和所述第二待匹配语句的句向量。

进一步的，基于所述第一待匹配语句的句向量和所述第二待匹配语句的句向量计算所述第一待匹配语句和所述第二待匹配语句间的基础相似度。

具体的，利用结巴分词对第一待匹配语句和第二待匹配语句进行分词，并对分词后的每个单词进行词性标注。

结巴分词实现了对中文句子按词语粒度进行拆分，支持三种分词模式：一是精确模式，试图将句子最精确地切开，适合文本分析；二是全模式，把句子中所有的可以成词的词语都扫描出来,速度非常快，但是不能解决歧义；三是搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。同时还能支持繁体分词和自定义词典以及词性。

本实施例中，使用结巴进行分词时，可通过函数import jieba.posseg as pseg实现，进行词性标注时，可通过函数pseg.cut("sentence")实现。

需要说明的是，“对第一待匹配语句和第二待匹配语句进行分词，并对分词后的每个单词进行词性标注”还可以通过其他分词方法或工具如“汉语言处理工具包hanlp”实现，本发明不做具体限制。

对应的，所述分别对所述第一待匹配语句和所述第二待匹配语句分词后的每个单词进行向量化以获得对应的词向量，具体包括：

即本发明的实施例中，句向量和词向量的获取均使用word2vec方法获取。word2vec也叫word embeddings，中文名“词向量”，作用就是将自然语言中的字词转为计算机可以理解的稠密向量(Dense Vector)。在word2vec出现之前，自然语言处理经常把字词转为离散的单独的符号，也就是One-Hot Encoder。但是One-Hot Encoder会造成矩阵过于稀疏，并且会造成维度灾难，使用Vector Representations可以有效解决这个问题。word2vec可以将One-Hot E ncoder转化为低维度的连续值，也就是稠密向量，并且其中意思相近的词将被映射到向量空间中相近的位置。word2vec模型其实就是简单化的神经网络。这种模型训练方法获得的词向量的语义是通过和它经常一起出现就越相似，就是说这种模型训练方法获得的词向量的语义信息是根据词的共现来捕获。通过word2vec模型训练得到词向量，再结合关键词的信息可以计算得到更准确的句向量，使相似度更精确。

余弦相似度法、简单共有词法、编辑距离法或欧几里得距离法的详细介绍参见背景技术中的描述，本实施例不做具体说明。

本实施例中，相似度惩罚系数的计算方法可以如下：

所述第一待匹配语句和所述第二待匹配语句中的词性种类的总数可以做如下理解：

(1)假如所述第一待匹配语句和所述第二待匹配语句中具有相同且等的词性种类，如均包括n类且每一类均相同，则所述第一待匹配语句和所述第二待匹配语句中的词性种类的总数为n；

(2)假如所述第一待匹配语句和所述第二待匹配语句中具有词性种类不相等且其中一个为n类，另一个为m类，m小于n，且n类中包括了m类中的所有类，则所述第一待匹配语句和所述第二待匹配语句中的词性种类的总数为n；

这种情况下，两个句子中没有对应词性种类相匹配的词向量则为零向量；

(3)假如所述第一待匹配语句和所述第二待匹配语句中具有词性种类不相等且其中一个为n类，另一个为m类，n类与m类中共有的类为c，则所述第一待匹配语句和所述第二待匹配语句中的词性种类的总数为n+m-c；

(4)假如所述第一待匹配语句和所述第二待匹配语句中具有词性种类不相等且其中一个为n类，另一个为m类，n类与m类中没有共有类，则所述第一待匹配语句和所述第二待匹配语句中的词性种类的总数为n+m；

这种情况下，两个句子中没有对应词性种类相匹配的词向量则为零向量。

需要说明的是，尽管上述公式中使用余弦相似度法求取两个词向量之间的相似度，但实际应用时，使用上述简单共有词法、编辑距离法或欧几里得距离法等方法求取两个词向量之间的相似度也是可以的，均应属于本发明保护的范围，上述实施例仅是为了方便说明。

进一步的，所述基于所述基础相似度和所述相似度惩罚系数，获得所述第一待匹配语句和所述第二待匹配语句间的最终相似度，具体包括：

需要说明的是，在不同的应用中，将所述基础相似度与所述相似度惩罚系数进行乘法运算后，根据需要，还可以进一步进行相似度的修正或补偿，均应属于本发明保护的范围。

如下以一个简单的例子进行说明。

第一待匹配语句A：眼皮太厚可以动刀吗

第二待匹配语句B：眼皮太薄可以动刀吗

这两个句子虽然句式相似但是所问的关键点方向以及对应的回答是截然相反的，因此不应该相似。

以通过余弦相似度法为例，设基本相似度为SIM()，计算句向量V_A和V_B的余弦值，得到基础相似度SIM(A，B)＝0.6958301336818875。

利用结巴分词对第一待匹配语句和第二待匹配语句进行分词，并对分词后的每个单词进行词性标注，获得：

(1)句子A词性标注如下：

[pair('眼皮'，'n'),pair('太'，'d'),pair('厚'，'a'),pair('可以'，'c'),pair('动刀'，'n'),pair('吗'，'y')]。

(2)句子B词性标注如下：

[pair('眼皮'，'n'),pair('太'，'d'),pair('薄'，'a'),pair('可以'，'c'),pair('动刀'，'n'),pair('吗'，'y')]。

具体的，词性类别的划分参考如下表1。

表1

基于相似度惩罚系数的计算方法获得相似度惩罚系数。

相似度惩罚系数Penalty＝

[SIM(眼皮，眼皮)+SIM(太，太)+SIM(厚，薄)+SIM(可以，可以)+SIM(动刀，动刀)+SIM(吗，吗)]/6

经计算SIM(厚，薄)＝0，其余词的相似度等于1，因此相似度惩罚系数＝[1+1+0+1+1+1]/6＝0.83333

因此修正过后的最终相似度等于0.5798561253011273。

可知，引入相似度惩罚系数后，降低了相似度，有效降低相似度识别错误的概率。

参见图2所示，本发明一种文本相似度计算系统，包括：

基础相似度获取模块201，用于计算所述第一待匹配语句和所述第二待匹配语句间的基础相似度；

分词及词性标注模块202，用于对第一待匹配语句和第二待匹配语句进行分词，并对分词后的每个单词进行词性标注；

词向量获取模块203，用于分别对所述第一待匹配语句和所述第二待匹配语句分词后的每个单词进行向量化以获得对应的词向量；

相似度惩罚系数获取模块204，用于基于所述第一待匹配语句和所述第二待匹配语句中的词性种类的总数，以及所述第一待匹配语句的单个词向量和所述第二待匹配语句的对应词性的单个词向量间的相似度，计算出相似度惩罚系数；

最终相似度获取模块205，用于基于所述基础相似度和所述相似度惩罚系数，获得所述第一待匹配语句和所述第二待匹配语句间的最终相似度。

进一步的，当基础相似度获取模块201使用余弦相似度法进行基础相似度计算时，所述文本相似度计算系统还包括：

句向量获取模块，用于通过word2vec分别计算所述第一待匹配语句的句向量和所述第二待匹配语句的句向量。

所述基础相似度获取模块201基于句向量获取模块获取的所述第一待匹配语句的句向量和所述第二待匹配语句的句向量计算所述第一待匹配语句和所述第二待匹配语句间的基础相似度。

关于一种文本相似度计算系统的具体限定可以参见上文中对于一种文本相似度计算方法的限定，在此不再赘述。上述文本相似度计算系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本相似度计算方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

分别计算所述第一待匹配语句的句向量和所述第二待匹配语句的句向量；

基于所述第一待匹配语句的句向量和所述第二待匹配语句的句向量，计算所述第一待匹配语句和所述第二待匹配语句间的基础相似度；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。此外，“S101”、“S102”等关于步骤的表述仅是为了更方便地进行表述，并不代表实际执行的顺序。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种文本相似度计算方法，其特征在于，包括：

计算第一待匹配语句和第二待匹配语句间的基础相似度；

基于所述基础相似度和所述相似度惩罚系数，获得所述第一待匹配语句和所述第二待匹配语句间的最终相似度；

所述相似度惩罚系数的计算方法如下：

其中，Penalty表示惩罚系数；n表示所述第一待匹配语句和所述第二待匹配语句中的词性种类的总数；w_A,i表示所述第一待匹配语句中词性为i的词向量；w_B,i表示所述第二待匹配语句中词性为i的词向量；

所述基于所述基础相似度和所述相似度惩罚系数，获得所述第一待匹配语句和所述第二待匹配语句间的最终相似度，具体包括：

将所述基础相似度与所述相似度惩罚系数进行乘法运算，获得所述第一待匹配语句和所述第二待匹配语句间的最终相似度；

第一待匹配语句和所述第二待匹配语句中的词性种类的总数n的计算方法如下：

(1)假如所述第一待匹配语句和所述第二待匹配语句中具有相同且相等的词性种类k，则所述第一待匹配语句和所述第二待匹配语句中的词性种类的总数n为k；

(2)假如所述第一待匹配语句和所述第二待匹配语句中有词性种类不相等且其中一个为k类，另一个为m类，m小于k，且k类中包括了m类中的所有类，则所述第一待匹配语句和所述第二待匹配语句中的词性种类的总数n为k；

(3)假如所述第一待匹配语句和所述第二待匹配语句中有词性种类不相等且其中一个为k类，另一个为m类，k类与m类中共有的类为c，则所述第一待匹配语句和所述第二待匹配语句中的词性种类的总数n为k+m-c；

(4)假如所述第一待匹配语句和所述第二待匹配语句中有词性种类不相等且其中一个为k类，另一个为m类，k类与m类中没有共有类，则所述第一待匹配语句和所述第二待匹配语句中的词性种类的总数n为k+m。

2.根据权利要求1所述的文本相似度计算方法，其特征在于，所述对第一待匹配语句和第二待匹配语句进行分词，并对分词后的每个单词进行词性标注，具体包括：

3.根据权利要求1所述的文本相似度计算方法，其特征在于，所述第一待匹配语句和所述第二待匹配语句间的基础相似度的计算方法，包括：

4.根据权利要求3所述的文本相似度计算方法，其特征在于，当使用余弦相似度法计算所述基础相似度时，所述计算第一待匹配语句和第二待匹配语句间的基础相似度之前，还包括：

5.根据权利要求1所述的文本相似度计算方法，其特征在于，所述分别对所述第一待匹配语句和所述第二待匹配语句分词后的每个单词进行向量化以获得对应的词向量，具体包括：

6.一种文本相似度计算系统，其特征在于，包括：

最终相似度获取模块，用于基于所述基础相似度和所述相似度惩罚系数，获得所述第一待匹配语句和所述第二待匹配语句间的最终相似度；

所述相似度惩罚系数的计算方法如下：

7.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任意一项所述方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任意一项所述方法的步骤。