CN110287286A

CN110287286A - 短文本相似度的确定方法、装置及存储介质

Info

Publication number: CN110287286A
Application number: CN201910510968.1A
Authority: CN
Inventors: 钱璟; 郭辰阳; 吕继根
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-06-13
Filing date: 2019-06-13
Publication date: 2019-09-27
Anticipated expiration: 2039-06-13
Also published as: CN110287286B

Abstract

本发明提供一种短文本相似度的确定方法、装置及存储介质。通过对获取的第一短文本和第二短文本进行拆解，得到第一短文本和第二短文本的属性信息，其中属性信息包括语义信息、拼音信息、部件信息和笔顺信息，根据第一短文本和第二短文本的属性信息，确定第一短文本和第二短文本的文本相似度。由于考虑短文本在四个维度上的相似度，且拆分的最小单元比单个汉字的粒度更小，大大提高了短文本相似度计算的准确性。

Description

短文本相似度的确定方法、装置及存储介质

技术领域

本发明实施例涉及文本信息技术领域，尤其涉及一种短文本相似度的确定方法、装置及存储介质。

背景技术

文本相似度计算是自然语言处理的基本问题，在诸如对话系统和信息检索系统中，如何度量句子或者短语之间的相似度尤为重要。例如，用户通过语音或者输入法的使用查询信息时，可能存在口音或者手误，但用户描述的文本中仍然隐含用户想要表达的信息，准确识别和理解这些文本信息，就需要使用文本相似度的计算。

文本相似度的计算主要应用的技术是编辑距离，又称Levenshtein距离，是一种常用的距离函数度量方法，在文本相似度检测领域得到了广泛的应用。该技术是以单独的汉字为最小粒度，计算各个字符(汉字是一种宽字符)之间的编辑距离只是文字表面的距离，并没有充分考虑词语的概念，使得计算结果的准确率不高，特别是对中文文本的相似度计算得不到满意的结果。

发明内容

本发明提供一种短文本相似度的确定方法、装置及存储介质，提高了短文本相似度计算的准确性。

本发明的第一方面提供一种短文本相似度的确定方法，包括：

获取第一短文本和第二短文本；

分别对所述第一短文本和所述第二短文本进行拆解，得到所述第一短文本和所述第二短文本的属性信息；所述属性信息包括语义信息、拼音信息、部件信息和笔顺信息；

根据所述第一短文本和所述第二短文本的属性信息，确定所述第一短文本和所述第二短文本的本文相似度。

在一种可能的实现方式中，所述第一短文本和所述第二短文本均为一个汉字，所述根据所述第一短文本和所述第二短文本的属性信息，确定所述第一短文本和所述第二短文本的本文相似度，包括：

根据所述第一短文本和所述第二短文本的属性信息，确定所述第一短文本和所述第二短文本的语义相似度、拼音相似度、部件相似度和笔顺相似度；

根据所述第一短文本和所述第二短文本的语义相似度、拼音相似度、部件相似度和笔顺相似度，确定所述第一短文本和所述第二短文本的文本相似度。

在一种可能的实现方式中，所述根据所述第一短文本和所述第二短文本的语义相似度、拼音相似度、部件相似度和笔顺相似度，确定所述第一短文本和所述第二短文本的文本相似度，包括：

对所述第一短文本和所述第二短文本的语义相似度、拼音相似度、部件相似度和笔顺相似度进行加权求和，得到所述第一短文本和所述第二短文本的文本相似度。

在一种可能的实现方式中，所述根据所述第一短文本和所述第二短文本的属性信息，确定所述第一短文本和所述第二短文本的语义相似度，包括：

根据所述第一短文本和所述第二短文本的语义信息构建语义矩阵；所述第一短文本和所述第二短文本的语义信息的数量均为至少一个；

计算所述语义矩阵中所述第一短文本的各语义信息与所述第二短文本的各语义信息的相似度；

将最大相似度作为所述第一短文本和所述第二短文本的语义相似度。

在一种可能的实现方式中，所述根据所述第一短文本和所述第二短文本的属性信息，确定所述第一短文本和所述第二短文本的拼音相似度，包括：

根据所述第一短文本和所述第二短文本的拼音信息，确定所述第一短文本和所述第二短文本的拼读字母和音标；

比对所述第一短文本和所述第二短文本的拼读字母和音标，确定所述第一短文本和所述第二短文本的拼音相似度。

在一种可能的实现方式中，所述根据所述第一短文本和所述第二短文本的属性信息，确定所述第一短文本和所述第二短文本的部件相似度，包括：

根据所述第一短文本和所述第二短文本的部件信息，确定所述第一短文本和所述第二短文本的各部件的笔画数以及共现部件；

根据各部件的笔画数以及共现部件的笔画数，确定所述第一短文本和所述第二短文本的部件相似度。

在一种可能的实现方式中，所述根据所述第一短文本和所述第二短文本的属性信息，确定所述第一短文本和所述第二短文本的笔顺相似度，包括：

根据预设笔顺标识表、所述第一短文本和所述第二短文本的笔顺信息，确定所述第一短文本和所述第二短文本的笔顺标识序列；

比对所述第一短文本和所述第二短文本的笔顺标识序列，确定所述第一短文本和所述第二短文本的笔顺相似度。

在一种可能的实现方式中，所述第一短文本和所述第二短文本均为词组，所述第一短文本和所述第二短文本包含的汉字数量相同；

所述分别对所述第一短文本和所述第二短文本进行拆解，得到所述第一短文本和所述第二短文本的属性信息，包括：

分别对所述第一短文本和所述第二短文本的每一个汉字进行拆解，得到所述第一短文本和所述第二短文本中每一个汉字的属性信息。

在一种可能的实现方式中，所述根据所述第一短文本和所述第二短文本的属性信息，确定所述第一短文本和所述第二短文本的本文相似度，包括：

根据所述第一短文本和所述第二短文本中每一个汉字的属性信息，确定所述第一短文本和所述第二短文本中具有对应位置关系的汉字之间的文本相似度；

根据所述第一短文本和所述第二短文本中具有对应位置关系的汉字之间的文本相似度，确定所述第一短文本和所述第二短文本的总文本相似度。

在一种可能的实现方式中，所述根据所述第一短文本和所述第二短文本中具有对应位置关系的汉字之间的文本相似度，确定所述第一短文本和所述第二短文本的总文本相似度，包括：

将所述第一短文本和所述第二短文本中具有对应位置关系的汉字之间的文本相似度进行加和取平均值，得到所述第一短文本和所述第二短文本的总文本相似度。

本发明的第二方面提供一种短文本相似度的确定装置，包括：

获取模块，用于获取第一短文本和第二短文本；

信息拆解模块，用于分别对所述第一短文本和所述第二短文本进行拆解，得到所述第一短文本和所述第二短文本的属性信息；所述属性信息包括语义信息、拼音信息、部件信息和笔顺信息；

确定模块，用于根据所述第一短文本和所述第二短文本的属性信息，确定所述第一短文本和所述第二短文本的本文相似度。

本发明的第三方面提供一种短文本相似度的确定装置，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如本发明的第一方面任一项所述的短文本相似度的确定方法。

本发明的第四方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现如本发明的第一方面任一项所述的短文本相似度的确定方法。

本发明实施例提供一种短文本相似度的确定方法、装置及存储介质。通过对获取的第一短文本和第二短文本进行拆解，得到第一短文本和第二短文本的属性信息，其中属性信息包括语义信息、拼音信息、部件信息和笔顺信息，根据第一短文本和第二短文本的属性信息，确定第一短文本和第二短文本的文本相似度。由于考虑短文本在四个维度上的相似度，且拆分的最小单元比单个汉字的粒度更小，大大提高了短文本相似度计算的准确性。

附图说明

图1为本发明一实施例提供的短文本相似度的确定方法的流程示意图；

图2为本发明另一实施例提供的短文本相似度的确定方法的流程示意图；

图3为本发明又一实施例提供的短文本相似度的确定方法的流程示意图；

图4为本发明一实施例提供的短文本相似度的确定装置的结构示意图；

图5为本发明一实施例提供的短文本相似度的确定装置的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

本发明的说明书和权利要求书中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

本发明的说明书中通篇提到的“一实施例”或“另一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一些实施例中”或“在本实施例中”未必一定指相同的实施例。需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在目前的文本相似度计算中，主要是计算字符串之间相似词语的个数，相似词语的个数越多，表示文本的相似度越高。具体来说，对于计算机编程的字符串而言，任意两个字符或者两个汉字之间，只存在相等或者不相等的关系，即非0即1，无法得到两个字符的相近程度，导致文本相似度低。

示例性的，a字符为“阿里巴巴”，b字符为“阿里爸爸”，c字符为“阿里奶奶”，根据现有技术“阿里”在a、b、c字符中的顺序相同，而“巴巴”、“爸爸”和“奶奶”将被识别为不同的字。因此，“阿里爸爸”与“阿里巴巴”的文本相似度为0.5，“阿里奶奶”与“阿里爸爸”的文本相似度也为0.5，如果想要使得“阿里爸爸”与“阿里巴巴”在认知层面实现近似相等，通过现有技术是无法实现的。

为了解决上述问题，本发明实施例提供一种短文本相似度的确定方法，该方法包括获取第一短文本和第二短文本；分别对第一短文本和第二短文本进行拆解，得到第一短文本和第二短文本的属性信息，属性信息包括语义信息、拼音信息和笔顺信息；根据第一短文本和第二短文本的属性信息，确定第一短文本和第二短文本的文本相似度。

在本实施例中，第一短文本和第二短文本均为汉字，根据汉字的独特之处，对汉字进行拆解，得到语义、拼音、部件和笔顺四个基本属性，结合这四个基本属性，计算各属性的相似程度，确定第一短文本和第二短文本的文本相似度。由于考虑短文本在四个维度上的相似度，且拆分的最小单元比单个汉字的粒度更小，大大提高了短文本相似度计算的准确性。

下面以具体的实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1为本发明一实施例提供的短文本相似度的确定方法的流程示意图，该方法可以由任意执行该方法的装置来执行，该装置可以通过软件和/或硬件实现。

如图1所示，本实施例提供的短文本相似度的确定方法包括如下步骤：

S101、获取第一短文本和第二短文本；

在本实施例中，第一短文本和第一短文本可以是一个汉字，或者是一个词组，对此本实施例不作具体限定。

S102、分别对第一短文本和第二短文本进行拆解，得到第一短文本和第二短文本的属性信息；属性信息包括语义信息、拼音信息、部件信息和笔顺信息；

在本实施例中，装置基于汉语数据库对第一短文本和第二短文本进行拆解，得到第一短文本和第二短文本的语义信息、拼音信息、部件信息和笔顺信息。

下面以短文本为单个汉字为例对短文本的语义信息、拼音信息、部件信息和笔顺信息进行说明。

对于单个汉字的语义信息，不同汉字可能对应相同的语义信息，构成同义词；也可能对应相反的语义信息，构成反义词；单个汉字可能包含一个或者多个语义信息。

对于单个汉字的拼音信息，拼音信息包括拼读字母和音标，装置将单个汉字的拼音转化为统一格式：拼读字母+音标，将音标标记为0(轻声)、1(一声)、2(二声)、3(三声)、4(四声)。示例性的，“一”的拼音是“yī”，记为“yi1”，“牙”的拼音是“yá”，记为“ya2”。不同汉字可能对应相同或者不同的拼音信息。若两个汉字具有相同的拼音信息，这两个汉字构成同音字；一个汉字可能包含一个或者多个拼音信息，其中具有多个拼音信息的汉字为多音字。

对于单个汉字的部件信息，单个汉字通常可以拆分为多个部件，部件是介于笔画与汉字之间的一个概念，它是由笔画组成的具有组配汉字功能的构字单位。示例性的，“晴”可以拆分为“日”和“青”，“睛”可以拆分为“目”和“青”。

对于单个汉字的笔顺信息，笔顺信息包括笔顺标识序列。由于单个笔顺往往不能成字，在数据存储时存在较大难度，因此使用a-z，A-Z的方式来记录笔顺，目前已知的汉字笔顺有28种，记前26种为a-z，第27种为A，第28种为B，若有新的笔顺，则记为C、D……，通过上述方法构成汉字的预设笔顺标识表。装置根据单个汉字的书写顺序将汉字的笔画按照顺序排列，结合上述预设笔顺标识表，确定单个汉字的笔顺标识序列。示例性的，“火＝点撇撇捺＝dccf”，“人＝撇捺＝cf”。

需要说明的是，对于短文本为词组的情况，词组中各个汉字的拆分方法同上，只是词组中每个汉字的语义信息和拼音信息需要结合汉字在词组中的语义进行确定。词组的文本相似度的确定方法具体参见下述实施例，此处不具体展开。

在本实施例中，拆分的最小单元可以是组成汉字的部件，或者是笔画，可见，拆分粒度相比单个汉字更小，提高了文本相似度计算的准确性。

S103、根据第一短文本和第二短文本的属性信息，确定第一短文本和第二短文本的本文相似度。

在本实施例中，装置根据第一短文本和第二短文本的语义信息确定第一短文本和第二短文本的语义相似度；根据第一短文本和第二短文本的拼音信息确定第一短文本和第二短文本的拼音相似度；根据第一短文本和第二短文本的部件信息确定第一短文本和第二短文本的部件相似度；根据第一短文本和第二短文本的笔顺信息确定第一短文本和第二短文本的笔顺相似度。

在确定第一短文本和第二短文本的语义相似度、拼音相似度、部件相似度和笔顺相似度之后，对第一短文本和第二短文本的语义相似度、拼音相似度、部件相似度和笔顺相似度进行加权求和，得到第一短文本和第二短文本的文本相似度。

需要说明的是，根据不同的应用场景可以调整语义、拼音、部件和笔顺相似度的权重值，从而得到具有场景针对性的文本相似度计算方法，提高文本相似度计算的准确性。示例性的，针对同音字查询场景，可以设置拼音相似度的权重值为1，其他相似度的权重值为0；针对形近字查询场景，可以设置部件相似度和笔顺相似度的权重值之和为1，其他相似度的权重值为0；针对词语错字判断场景，可以设置语义、拼音、部件、笔顺相似度之和为1。

本发明实施例提供的短文本相似度的确定方法，通过对获取的第一短文本和第二短文本进行拆解，得到第一短文本和第二短文本的属性信息，其中属性信息包括语义信息、拼音信息、部件信息和笔顺信息，根据第一短文本和第二短文本的属性信息，确定第一短文本和第二短文本的文本相似度。由于考虑短文本在四个维度上的相似度，且拆分的最小单元比单个汉字的粒度更小，大大提高了短文本相似度计算的准确性。

在上述实施例的基础上，本实施例提供的短文本相似度的确定方法针对第一短文本和第二短文本均为一个汉字展开，具体公开了如何根据第一短文本和第二短文本的各个属性信息确定不同类型相似度，例如语义相似度、拼音相似度、部件相似度和笔顺相似度，以及如何根据不同类型相似度确定第一短文本和第二短文本的文本相似度。由于本实施例提供的短文本相似度的确定方法考虑了短文本在四个维度(语义、拼音、部件、笔顺)上的相似度，因此得到的文本相似度更加准确。下面结合附图对本实施例提供的短文本相似度的确定方法进行详细说明。

图2为本发明另一实施例提供的短文本相似度的确定方法的流程示意图。如图2所示，本实施例提供的短文本相似度的确定方法具体包括以下步骤：

S201、获取第一短文本和第二短文本；

S202、分别对第一短文本和第二短文本进行拆解，得到第一短文本和第二短文本的属性信息；

本实施例中的S201和S202与上述实施例的S101和S102相同，其实现原理和技术效果类似，具体可参见上述实施例，此处不再赘述。

S203、根据第一短文本和第二短文本的属性信息，确定第一短文本和第二短文本的语义相似度、拼音相似度、部件相似度和笔顺相似度；

在本实施例中，根据第一短文本和第二短文本的属性信息，确定第一短文本和第二短文本的语义相似度，具体包括：根据第一短文本和第二短文本的语义信息构建语义矩阵，其中第一短文本和第二短文本的语义信息的数量为至少一个；计算语义矩阵中第一短文本的各语义信息与第二短文本的各语义信息的相似度；将最大相似度作为第一短文本和第二短文本的语义相似度。

示例性的，假设第一短文本A包含2个语义信息，第二短文本B包含3个语义信息，根据第一短文本A和第二短文本B的语义信息，构建一个2x3的语义矩阵，通过NLP语义近似度/相反度技术，计算第一短文本A的2个语义信息分别与第二短文本B的3个语义信息之间的相似度，得到6个相似度值。若语义相近，则相似度为正数，若语义相反，则相似度为负数。将绝对值最大的相似度作为第一短文本A和第二短文本B的语义相似度。

可选的，若第一短文本和第二短文本均为词组，则根据每个汉字在词组中的语义信息确定每个汉字具体的语义信息，计算第一短文本和第二短文本中对应位置汉字的语义相似度。示例性的，“一丘之貉”的“一”与“三言两语”的“两”的语义相似度，其中“一”在“一丘之貉”中的语义信息为“相同”，“两”在“三言两语”中的语义信息为“几”，均为语义矩阵中的指定项，计算该指定项的相似度分数，使用该项相似度的分数的绝对值的记为二者的语义相似度，并根据该分数原本的正负号判断是相同语义还是相反语义。

在本实施例中，根据第一短文本和第二短文本的属性信息，确定第一短文本和第二短文本的拼音相似度，具体包括：根据第一短文本和第二短文本的拼音信息，确定第一短文本和第二短文本的拼读字母和音标；比对第一短文本和第二短文本的拼读字母和音标，确定第一短文本和第二短文本的拼音相似度。

上述实施例示出了拼音信息包括拼读字母和音标，装置根据预设格式确定第一短文本和第二短文本的拼读字母和音标，得到第一短文本和第二短文本的拼读序列，根据拼读序列确定第一短文本和第二短文本的拼音相似度。具体可以根据下述公式计算拼音相似度：

拼音相似度＝1-拼音距离/拼读序列的最大长度

示例性的，“一”的拼音是“yī”，拼读序列记为“yi1”，拼读序列的长度为3，“牙”的拼音是“yá”，拼读序列记为“ya2”，拼读序列的长度为3，“yi1”与“ya2”的拼音距离为2，拼读序列的最大长度为3，则“一”和“牙”的拼音相似度为1/3。同理，“一”与“易”的拼读序列分别为“yi1”和“yi4”，“yi1”和“yi4”的拼音距离为1，拼读序列的最大长度为3，则“一”与“易”的拼音相似度为2/3。

本实施例在计算短文本的拼音相似度时，加入了拼音信息中的声调信息，得到的拼音相似度更加准确。

在本实施例中，根据第一短文本和第二短文本的属性信息，确定第一短文本和第二短文本的部件相似度，具体包括：根据第一短文本和第二短文本的部件信息，确定第一短文本和第二短文本的各部件的笔画数以及共现部件；根据各部件的笔画数以及共现部件的笔画数，确定第一短文本和第二短文本的部件相似度。其中，共现部件是指第一短文本和第二短文本共有的部件。例如“火”和“人”的共现部件为“人”，“晴”和“睛”的共现部件为“青”。

具体地，根据第一短文本和第二短文本的各部件的笔画数确定第一短文本和第二短文本的总笔画数，根据第一短文本和第二短文本的共现部件确定共现部件笔画数，根据共现部件的笔画数和最大总笔画数确定第一短文本和第二短文本的部件相似度，其中最大笔画数是第一短文本和第二短文本中总笔画数较大的笔画数。具体可以根据下述公式计算部件相似度：

部件相似度＝共现部件的笔画数/最大笔画数

示例性的，“火”和“人”的共现部件“人”的笔画数为2，最大笔画数为4，“火”和“人”的部件相似度为1/2(50％)；“晴”与“睛”的共现部件“青”的笔画数为8，最大笔画数为13，“晴”与“睛”的部件相似度为8/13(61.5％)。

在本实施例中，根据第一短文本和第二短文本的属性信息，确定第一短文本和第二短文本的笔顺相似度，具体包括：根据预设笔顺标识表、第一短文本和第二短文本的笔顺信息，确定第一短文本和第二短文本的笔顺标识序列；比对第一短文本和第二短文本的笔顺标识序列，确定第一短文本和第二短文本的笔顺相似度。

上述实施例示出了预设笔顺标识表，装置根据预设笔顺标识表确定第一短文本和第二短文本的笔顺标识序列，比对第一短文本和第二短文本的笔顺标识序列，确定第一短文本和第二短文本的笔顺距离以及笔顺标识序列的最大长度，根据笔顺距离和笔顺标识序列的最大长度确定第一短文本和第二短文本的笔顺相似度，具体可以根据下述公式计算笔顺相似度：

笔顺相似度＝1-笔顺距离/笔顺标识序列的最大长度

示例性的，基于上述实施例可知，“火”的笔顺标识序列为“dccf”，笔顺标识序列的长度为4，“人”的笔顺标识序列为“cf”，笔顺标识序列的长度为2，“火”和“人”的笔顺距离为2，“火”和“人”的笔顺相似度为1/2(50％)。

需要说明的是，本实施例中的拼音距离和笔顺距离为Levenshtein距离，又称编辑距离，指的是两个字符串(拼音序列，或者，笔顺标识序列)之间，由一个字符串转换成另一个字符串所需的最少编辑操作次数。其中编辑操作包括将一个字符替换成另一字符，插入一个字符，以及删除一个字符。

本实施例的笔顺相似度对汉字笔画顺序的依赖性大，无法很好的将两个汉字相似的部件体现出来，但汉字笔画顺序的要求正是笔顺相似度的意义所在。部件相似度则忽略了汉字笔画顺序，将相似部件直接提取出来计算相似度，在一定程度上弥补了笔顺相似度的不足。本实施例在短文本的结构上综合考虑了笔顺相似度和部件相似度，提高了短文本相似度计算的准确性。

S204、根据第一短文本和第二短文本的语义相似度、拼音相似度、部件相似度和笔顺相似度，确定第一短文本和第二短文本的文本相似度。

本实施例中的S204与上述实施例中的S103相同，其实现原理和技术效果类似，具体可参见上述实施例，此处不再赘述。

本发明本实施例提供的短文本相似度的确定方法，通过对获取的第一短文本和第二短文本进行拆解，得到第一短文本和第二短文本的属性信息，其中属性信息包括语义信息、拼音信息、部件信息和笔顺信息；根据第一短文本和第二短文本的语义信息确定语义相似度，根据第一短文本和第二短文本的拼音信息确定拼音相似度，根据第一短文本和第二短文本的部件信息确定部件相似度，根据第一短文本和第二短文本的笔顺信息确定笔顺相似度；结合第一短文本和第二短文本的语义相似度、拼音相似度、部件相似度和笔顺相似度，确定第一短文本和第二短文本的文本相似度。由于本实施例提供的短文本相似度的确定方法考虑了短文本在四个维度上的相似度，因此得到的文本相似度更加准确。

在上述各实施例的基础上，本实施例提供的短文本相似度的确定方法针对第一短文本和第二短文本均为词组展开，具体公开了如何根据第一短文本和第二短文本中每一个汉字的属性信息确定第一短文本和第二短文本的总文本相似度。由于本实施例提供的短文本相似度的确定方法考虑了词组中每一个汉字在四个维度(语义、拼音、部件、笔顺)上的相似度，因此得到词组的总文本相似度的准确度更高。下面结合附图对本实施例提供的短文本相似度的确定方法进行详细说明。

图3为本发明又一实施例提供的短文本相似度的确定方法的流程示意图。如图3所示，本实施例提供的短文本相似度的确定方法包括如下步骤：

S301、获取第一短文本和第二短文本；

在本实施例中，第一短文本和第二短文本均为词组，即包括多个汉字，第一短文本和第二短文本包含的汉字数量相同。示例性的，第一短文本为“阿里巴巴”，第二短文本为“阿里爸爸”或“阿里奶奶”，第一短文本和第二短文本的汉字数量均为4个。

S302、分别对第一短文本和第二短文本的每一个汉字进行拆解，得到第一短文本和第二短文本中每一个汉字的属性信息；

基于上述实施例，分别对第一短文本和第二短文本的每一个汉字进行拆解，得到第一短文本和第二短文本中每一个汉字的语义信息、拼音信息、部件信息和笔顺信息。具体实现过程同上述实施例，此处不再赘述。

S303、根据第一短文本和第二短文本中每一个汉字的属性信息，确定第一短文本和第二短文本的总文本相似度。

在本实施例中，装置根据第一短文本和第二短文本中每一个汉字的属性信息，确定第一短文本和第二短文本中具有对应位置关系的汉字之间的文本相似度；将第一短文本和第二短文本中具有对应位置关系的汉字之间的文本相似度进行加和取平均值，得到第一短文本和第二短文本的总文本相似度。

需要说明的是，第一短文本和第二短文本中具有对应位置关系的汉字之间的文本相似度是根据具有对应位置关系的汉字之间的语义相似度、拼音相似度、部件相似度和笔顺相似度的加权求和得到的。由于单个汉字的文本相似度中同时考虑了语义、拼音、部件和笔顺的相似度，得到的单个汉字的文本相似度更加准确，进而提高了词组的总文本相似度的准确性。

示例性的，第一短文本“阿里巴巴”与第二短文本“阿里爸爸”中，第一个汉字和第二个汉字的文本相似度均为1(完全相同)，第三个汉字和第四个汉字的文本相似度均为0.7，则“阿里巴巴”与“阿里爸爸”的总文本相似度为(1+1+0.7+0.7)/4＝0.85；第一短文本“阿里巴巴”与第二短文本“阿里奶奶”中，第一个汉字和第二个汉字的文本相似度均为1，第三个汉字和第四个汉字的文本相似度均为0.1(由于考虑了拼音相似度、部件相似度、笔顺相似度，相似度计算的准确性提高)，则“阿里巴巴”与“阿里奶奶”的总文本相似度为(1+1+0.1+0.1)/4＝0.55。

本发明实施例提供的短文本相似度的确定方法，通过获取第一短文本和第二短文本，第一短文本和第二短文本均为词组；分别对第一短文本和第二短文本的每一个汉字进行拆解，得到第一短文本和第二短文本中每一个汉字的属性信息；根据第一短文本和第二短文本中每一个汉字的属性信息，确定第一短文本和第二短文本的总文本相似度。由于本实施例考虑了词组中每一个汉字在四个维度(语义、拼音、部件、笔顺)上的相似度，因此得到词组的总文本相似度的准确度更高。

图4为本发明一实施例提供的短文本相似度的确定装置的结构示意图，如图4所示，本实施例提供的短文本相似度的确定装置40，包括：

获取模块41，用于获取第一短文本和第二短文本；

信息拆解模块42，用于分别对所述第一短文本和所述第二短文本进行拆解，得到所述第一短文本和所述第二短文本的属性信息；所述属性信息包括语义信息、拼音信息、部件信息和笔顺信息；

确定模块43，用于根据所述第一短文本和所述第二短文本的属性信息，确定所述第一短文本和所述第二短文本的本文相似度。

本发明实施例提供的短文本相似度的确定装置，包括获取模块、信息拆解模块以及确定模块。信息拆解模块分别对获取模块获取的第一短文本和第二短文本进行拆解，得到第一短文本和第二短文本的属性信息，属性信息包括语义信息、拼音信息、部件信息和笔顺信息，确定模块根据第一短文本和第二短文本的属性信息确定文本相似度。由于考虑了短文本在四个维度上的相似度，且拆分的最小单元比单个汉字的粒度更小，大大提高了短文本相似度计算的准确性。

在一种可能的实现方式中，所述第一短文本和所述第二短文本均为一个汉字；可选的，所述确定模块43，具体用于：

可选的，所述确定模块43，具体用于：

本实施例提供的短文本相似度的确定装置，可以执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本发明实施例还提供一种短文本相似度的确定装置，参见图5所示，本发明实施例仅以图5为例进行说明，并不表示本发明仅限于此。

图5为本发明一实施例提供的短文本相似度的确定装置的硬件结构示意图，如图5所示，本实施例提供的短文本相似度的确定装置50，包括：

存储器51；

处理器52；以及

计算机程序；

其中，计算机程序存储在存储器51中，并被配置为由处理器52执行以实现如前述任一项方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

可选的，存储器51既可以是独立的，也可以跟处理器52集成在一起。

当存储器51是独立于处理器52之外的器件时，短文本相似度的确定装置50还包括：

总线53，用于连接存储器51和处理器52。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器52执行以实现如上方法实施例中短文本相似度的确定装置50所执行的各个步骤。

应理解，上述处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称：ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种短文本相似度的确定方法，其特征在于，包括：

获取第一短文本和第二短文本；

2.根据权利要求1所述的方法，其特征在于，所述第一短文本和所述第二短文本均为一个汉字，所述根据所述第一短文本和所述第二短文本的属性信息，确定所述第一短文本和所述第二短文本的本文相似度，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一短文本和所述第二短文本的语义相似度、拼音相似度、部件相似度和笔顺相似度，确定所述第一短文本和所述第二短文本的文本相似度，包括：

4.根据权利要求2或3所述的方法，其特征在于，所述根据所述第一短文本和所述第二短文本的属性信息，确定所述第一短文本和所述第二短文本的语义相似度，包括：

5.根据权利要求2或3所述的方法，其特征在于，所述根据所述第一短文本和所述第二短文本的属性信息，确定所述第一短文本和所述第二短文本的拼音相似度，包括：

6.根据权利要求2或3所述的方法，其特征在于，所述根据所述第一短文本和所述第二短文本的属性信息，确定所述第一短文本和所述第二短文本的部件相似度，包括：

7.根据权利要求2或3所述的方法，其特征在于，所述根据所述第一短文本和所述第二短文本的属性信息，确定所述第一短文本和所述第二短文本的笔顺相似度，包括：

8.根据权利要求1所述的方法，其特征在于，所述第一短文本和所述第二短文本均为词组，所述第一短文本和所述第二短文本包含的汉字数量相同；

9.根据权利要求8所述的方法，其特征在于，所述根据所述第一短文本和所述第二短文本的属性信息，确定所述第一短文本和所述第二短文本的本文相似度，包括：

10.根据权利要求9所述的方法，其特征在于，所述根据所述第一短文本和所述第二短文本中具有对应位置关系的汉字之间的文本相似度，确定所述第一短文本和所述第二短文本的总文本相似度，包括：

11.一种短文本相似度的确定装置，其特征在于，包括：

获取模块，用于获取第一短文本和第二短文本；

12.一种短文本相似度的确定装置，其特征在于，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-10任一项所述的短文本相似度的确定方法。

13.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1-10任一项所述的短文本相似度的确定方法。