CN110442863B

CN110442863B - 一种短文本语义相似度计算方法及其系统、介质

Info

Publication number: CN110442863B
Application number: CN201910638949.7A
Authority: CN
Inventors: 张云翔; 饶竹一
Original assignee: Shenzhen Power Supply Bureau Co Ltd
Current assignee: Shenzhen Power Supply Bureau Co Ltd
Priority date: 2019-07-16
Filing date: 2019-07-16
Publication date: 2023-05-05
Anticipated expiration: 2039-07-16
Also published as: CN110442863A

Abstract

本发明涉及一种短文本语义相似度计算方法及其系统、存储介质，所述方法包括如下步骤：获取第一短文本和第二短文本，并获取第一短文本和第二短文本中的词语和独立义原；根据语义词典获取词语树状层次结构和义原树状层次结构；根据第一短文本和第二短文本中的词语和独立义原以及所述词语树状层次结构和义原树状层次结构计算所述词语相似度、义原相似度、以及实词概念的相似度；根据所述词语相似度、义原相似度、以及实词概念的相似度确定所述第一短文本和第二短文本的语义相似度。

Description

一种短文本语义相似度计算方法及其系统、介质

技术领域

本发明涉及短文本语义相似度技术领域，具体涉及一种短文本语义相似度计算方法及其系统、计算机可读存储介质。

背景技术

语义具有领域性特征，不属于任何领域的语义是不存在的，而语义异构则是指对同一事物在解释上所存在差异，也就体现为同一事物在不同领域中理解的不同，对于计算机科学来说，语义一般是指用户对于那些用来描述现实世界的计算机表示的解释，也就是用户用来联系计算机表示和现实世界的途径。语义是对数据符号的解释，而语法则是对于这些符号之间的组织规则和结构关系的定义，对于信息集成领域来说，数据往往是通过模式来组织的，数据的访问也是通过作用于模式来获得的，这时语义就是指模式元素的含义，而语法则是模式元素的结构。目前短文本语义相似度计算方法在计算中不够合理，方法不够细腻，对于词义的短文本中行为词语和抽象事物以及生命物体的词义计算度低，并且计算出的差距大，导致计算的结果不合理。

发明内容

本发明的目的在于提出一种短文本语义相似度计算方法及其系统、计算机可读存储介质，以解决目前短文本语义相似度计算方法存在的技术问题。

为了实现本发明目的，根据本发明第一方面，本发明实施例提供一种短文本语义相似度计算方法，其特征在于，包括如下步骤：

步骤S1、获取第一短文本和第二短文本，并获取第一短文本和第二短文本中的词语和独立义原；

步骤S2、根据语义词典获取词语树状层次结构和义原树状层次结构；

步骤S3、根据所述词语树状层次结构计算所述第一短文本和第二短文本中各词语之间的词语距离，并根据所述义原树状层次结构计算所述第一短文本和第二短文本中各义原之间在义原树状层次结构中的路径长度，计算所述第一短文本和第二短文本中各义原之间配对相似度；

步骤S3、根据所述各词语之间的词语距离计算所述第一短文本和第二短文本的词语相似度，根据所述各义原之间在义原树状层次结构中的路径长度计算所述第一短文本和第二短文本的词语相似度，以及根据所述各义原之间配对相似度计算所述第一短文本和第二短文本中实词概念的相似度；

步骤S4、根据所述词语相似度、义原相似度、以及实词概念的相似度确定所述第一短文本和第二短文本的语义相似度。

优选地，所述步骤S3包括词语相似度的计算，其计算过程如下：

其中，Sim(W)为第一短文本和第二短文本的词语相似度，第一短文本中包括n个词语，第二短文本中包括m个词语，W_ij为第一短文本中第i个词语与第二短文本中第j个词语的词语相似度，0<i≤n，0<j≤n；Dis(W_i,W_j)为第一短文本中第i个词语与第一短文本中第j个词语的词语距离，k为比例系数。

优选地，所述步骤S3包括义原相似度的计算，其计算过程如下：

其中，Sim(P)为第一短文本和第二短文本的义原相似度，第一短文本中包括e个义原，第二短文本中包括u个义原，d_ij为第一短文本中第i个义原与第二短文本中第j个义原的义原相似度，0<i≤e，0<j≤u；Dis(W_i,W_j)为第一短文本中第i个义原与第一短文本中第j个义原的义原距离，α为可调节参数。

优选地，所述步骤S3包括实词概念的相似度的计算，其计算过程如下：

将第一短文本和第二短文本中所有独立义原进行任意配对，计算出所有可能的配对的义原相似度；

根据义原相似度对第一短文本和第二短文本中的独立义原进行分组，其中，取义原相似度最大的一对义原，并将它们归为一组；在剩下的独立义原的配对相似度中，取最大的一对，并归为一组；如此反复，直到所有独立义原都完成分组；

对每组义原的配对相似度进行加权求平均值得到所述实词概念的相似度。

优选地，所述步骤S4包括将所述词语相似度、义原相似度、以及实词概念的相似度进行加权求平均值得到所述第一短文本和第二短文本的语义相似度。

根据本发明第二方面，本发明实施例提供一种短文本语义相似度计算系统，包括：

文本获取单元，用于获取第一短文本和第二短文本，并获取第一短文本和第二短文本中的词语和独立义原；

树结构单元，用于根据语义词典获取词语树状层次结构和义原树状层次结构；

第一计算单元，用于根据所述词语树状层次结构计算所述第一短文本和第二短文本中各词语之间的词语距离，并根据所述义原树状层次结构计算所述第一短文本和第二短文本中各义原之间在义原树状层次结构中的路径长度，计算所述第一短文本和第二短文本中各义原之间配对相似度；

第二计算单元，用于根据所述各词语之间的词语距离计算所述第一短文本和第二短文本的词语相似度，根据所述各义原之间在义原树状层次结构中的路径长度计算所述第一短文本和第二短文本的词语相似度，以及根据所述各义原之间配对相似度计算所述第一短文本和第二短文本中实词概念的相似度；

第三计算单元，用于根据所述词语相似度、义原相似度、以及实词概念的相似度确定所述第一短文本和第二短文本的语义相似度。

优选地，所述第二计算单元包括词语相似度计算单元，其用于根据以下公式计算所述第一短文本和第二短文本的词语相似度；其中，公式如下：

优选地，所述第二计算单元包括义原相似度计算单元，其用于根据以下公式计算所述第一短文本和第二短文本的义原相似度；其中，公式如下：

优选地，所述第二计算单元包括实词概念相似度计算单元，其包括：

第一计算子单元，用于将第一短文本和第二短文本中所有独立义原进行任意配对，计算出所有可能的配对的义原相似度；

第二计算子单元，用于根据义原相似度对第一短文本和第二短文本中的独立义原进行分组，其中，取义原相似度最大的一对义原，并将它们归为一组；在剩下的独立义原的配对相似度中，取最大的一对，并归为一组；如此反复，直到所有独立义原都完成分组；

第三计算子单元，用于对每组义原的配对相似度进行加权求平均值得到所述实词概念的相似度。

根据本发明第三方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述短文本语义相似度计算方法。

在本发明实施例中，利用根据语义词典获取关于第一短文本和第二短文本中词语以及义原的词语树状层次结构和义原树状层次结构，根据语义词典获取词语树状层次结构和义原树状层次结构，并根据第一短文本和第二短文本中的词语和独立义原以及所述词语树状层次结构和义原树状层次结构计算所述词语相似度、义原相似度、以及实词概念的相似度，最后根据所述词语相似度、义原相似度、以及实词概念的相似度确定所述第一短文本和第二短文本的语义相似度，提高了语义短文本相似度计算方法在计算中的合理性，方法更加细腻，对于词义的短文本中行为词语和抽象事物以及生命物体的词义计算度有很大提高，分辨了文本中行为词语和抽象事物以及生命物体的相关度进行比较，并且对计算出的差距通过多次求和，计算其平均值，可以降低误差，让其更加合理。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而得以体现。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一中一种短文本语义相似度计算方法流程图。

图2为本发明实施例二中一种短文本语义相似度计算系统示意图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

另外，为了更好的说明本发明，在下文的具体实施例中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本发明同样可以实施。在一些实例中，对于本领域技术人员熟知的手段未作详细描述，以便于凸显本发明的主旨。

如图1所示，本发明实施例提供一种短文本语义相似度计算方法，包括如下步骤：

步骤S4、根据所述各词语之间的词语距离计算所述第一短文本和第二短文本的词语相似度，根据所述各义原之间在义原树状层次结构中的路径长度计算所述第一短文本和第二短文本的词语相似度，以及根据所述各义原之间配对相似度计算所述第一短文本和第二短文本中实词概念的相似度；

步骤S5、根据所述词语相似度、义原相似度、以及实词概念的相似度确定所述第一短文本和第二短文本的语义相似度。

具体而言，语义词典例如是Wordnet或Hownet等，语义词典是将所有的词组织在一棵或几棵树状的层次结构中。在一棵树状图中，任何两个结点之间有且只有一条路径。于是，这条路径的长度就可以作为这两个词语概念间语义距离的一种度量；而且随着概念所处结点越深,其所包含的语义信息越丰富,越能准确地决定概念的性质,它们对语义相似度起着决定作用。

其中，在自然语言处理中，我们会对语言中不同的语义单位进行分析和处理，语义单位包括从比较大的篇章、段落到比较小的句子、短语、词和义原等。义原是比词更小的语义单位。

其中，所述步骤S3包括词语相似度的计算，其计算过程如下：

具体而言，两个词语，在不同的上下文中可以互相替换且不改变文本的句法语义结构的可能性越大，二者的相似度就越高，否则相似度就越低；相似度一般被定义为一个0到1之间的实数，两个词语完全一样时，它们的相似度为1；当两个词语是完全不同的概念时,它们的相似度接近于0。

其中，所有的义原根据上下位关系构成了一个义原树状层次结构。

其中，所述步骤S3包括义原相似度的计算，其计算过程如下：

其中，所述步骤S3包括实词概念的相似度的计算，其计算过程如下：

其中，所述步骤S5包括：

将所述词语相似度、义原相似度、以及实词概念的相似度进行加权求平均值得到所述第一短文本和第二短文本的语义相似度。

进一步地，根据所述第一短文本和第二短文本的语义相似度与预设阈值的比较结果判定所述第一短文本和第二短文本的是否是语义相似，若第一短文本和第二短文本的语义相似度大于预设阈值，则第一短文本和第二短文本的语义相似，反之，则第一短文本和第二短文本的语义不相似。

其中，所述预设阈值优选但不限于为90％。

如图2所示，本发明实施例二提供一种短文本语义相似度计算系统，包括：

文本获取单元1，用于获取第一短文本和第二短文本，并获取第一短文本和第二短文本中的词语和独立义原；

树结构单元2，用于根据语义词典获取词语树状层次结构和义原树状层次结构；

第一计算单元3，用于根据所述词语树状层次结构计算所述第一短文本和第二短文本中各词语之间的词语距离，并根据所述义原树状层次结构计算所述第一短文本和第二短文本中各义原之间在义原树状层次结构中的路径长度，计算所述第一短文本和第二短文本中各义原之间配对相似度；

第二计算单元4，用于根据所述各词语之间的词语距离计算所述第一短文本和第二短文本的词语相似度，根据所述各义原之间在义原树状层次结构中的路径长度计算所述第一短文本和第二短文本的词语相似度，以及根据所述各义原之间配对相似度计算所述第一短文本和第二短文本中实词概念的相似度；

第三计算单元5，用于根据所述词语相似度、义原相似度、以及实词概念的相似度确定所述第一短文本和第二短文本的语义相似度。

其中，所述第二计算单元包括词语相似度计算单元，其用于根据以下公式计算所述第一短文本和第二短文本的词语相似度；其中，公式如下：

其中，所述第二计算单元包括义原相似度计算单元，其用于根据以下公式计算所述第一短文本和第二短文本的义原相似度；其中，公式如下：

其中，所述第二计算单元包括实词概念相似度计算单元，其包括：

所述第三计算单元5还用于根据所述第一短文本和第二短文本的语义相似度与预设阈值的比较结果判定所述第一短文本和第二短文本的是否是语义相似，若第一短文本和第二短文本的语义相似度大于预设阈值，则第一短文本和第二短文本的语义相似，反之，则第一短文本和第二短文本的语义不相似。其中，所述预设阈值优选但不限于为90％。

需说明的是，本实施例二所述系统为与实施例一所述方法对应，其用于实施实施例一所述方法，因此，有关实施例二所述系统的其他未描述的内容，可以参阅实施例一所述方法内容得到，此处不再赘述。

还应该理解，可以以很多方式实施实施例一所述方法和实施例二所述系统，包括作为过程、装置或系统。本文中所述的方法可以部分地由用于指示处理器执行这种方法的程序指令、以及记录在非暂态计算机可读存储介质上的该指令而实施，非暂态计算机可读存储介质诸如硬盘驱动、软盘、光碟(诸如小型碟(CD)或数字通用碟(DVD))、闪速存储器等。在一些实施例中，程序指令可以被远程存储并且经由光学或电子通信链路而在网络上被发送。

本发明实施例三提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现实施例一所述短文本语义相似度计算方法。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种短文本语义相似度计算方法，其特征在于，包括如下步骤：

步骤S4、根据所述各词语之间的词语距离计算所述第一短文本和第二短文本的词语相似度，根据所述各义原之间在义原树状层次结构中的路径长度计算所述第一短文本和第二短文本的义原相似度，以及根据所述各义原之间配对相似度计算所述第一短文本和第二短文本中实词概念的相似度；

其中，所述词语相似度的计算如下：

其中，Sim(W)为第一短文本和第二短文本的词语相似度，第一短文本中包括n个词语，第二短文本中包括m个词语，W_ij为第一短文本中第i个词语与第二短文本中第j个词语的词语相似度，0<i≤n，0<j≤n；Dis(W_i,W_j)为第一短文本中第i个词语与第一短文本中第j个词语的词语距离，k为比例系数；

其中，所述义原相似度的计算如下：

其中，Sim(P)为第一短文本和第二短文本的义原相似度，第一短文本中包括e个义原，第二短文本中包括u个义原，d_ij为第一短文本中第i个义原与第二短文本中第j个义原的义原相似度，0<i≤e，0<j≤u；Dis(W_i,W_j)为第一短文本中第i个义原与第一短文本中第j个义原的义原距离，α为可调节参数；

其中，所述实词概念的相似度的计算如下：

对每组义原的配对相似度进行加权求平均值得到所述实词概念的相似度；

2.根据权利要求1所述的一种短文本语义相似度计算方法，其特征在于，所述步骤S5包括将所述词语相似度、义原相似度、以及实词概念的相似度进行加权求平均值得到所述第一短文本和第二短文本的语义相似度。

3.一种短文本语义相似度计算系统，其特征在于，包括：

第二计算单元，用于根据所述各词语之间的词语距离计算所述第一短文本和第二短文本的词语相似度，根据所述各义原之间在义原树状层次结构中的路径长度计算所述第一短文本和第二短文本的词语相似度，以及，根据所述各义原之间配对相似度计算所述第一短文本和第二短文本中实词概念的相似度；

第三计算单元，用于根据所述词语相似度、义原相似度、以及实词概念的相似度确定所述第一短文本和第二短文本的语义相似度；

所述第二计算单元包括词语相似度计算单元，其用于根据以下公式计算所述第一短文本和第二短文本的词语相似度；其中，公式如下：

所述第二计算单元还包括义原相似度计算单元，其用于根据以下公式计算所述第一短文本和第二短文本的义原相似度；其中，公式如下：

所述第二计算单元还包括实词概念相似度计算单元，其包括第一计算子单元、第二计算子单元和第三计算子单元；

所述第一计算子单元，用于将第一短文本和第二短文本中所有独立义原进行任意配对，计算出所有可能的配对的义原相似度；

所述第二计算子单元，用于根据义原相似度对第一短文本和第二短文本中的独立义原进行分组，其中，取义原相似度最大的一对义原，并将它们归为一组；在剩下的独立义原的配对相似度中，取最大的一对，并归为一组；如此反复，直到所有独立义原都完成分组；

所述第三计算子单元，用于对每组义原的配对相似度进行加权求平均值得到所述实词概念的相似度。

4.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1～2中任一项所述的短文本语义相似度计算方法。