CN112446218A

CN112446218A - 长短句文本语义匹配方法、装置、计算机设备及存储介质

Info

Publication number: CN112446218A
Application number: CN202011382663.6A
Authority: CN
Inventors: 谢静文; 阮晓雯; 徐亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2021-03-05
Also published as: WO2022116436A1

Abstract

本发明公开了一种长短句文本语义匹配方法、装置、计算机设备及存储介质，该方法通过将待匹配句子对应的待匹配字符长度与目标样本句子对应的目标样本字符长度进行长度比较；在待匹配字符长度小于目标样本字符长度时，将待匹配字符长度记录为滑动窗口的窗口长度；在目标样本句子上滑动所述滑动窗口，将被滑动窗口覆盖的目标样本句子的目标样本字段与待匹配句子进行匹配，得到第一词义距离结果；根据待匹配句子与目标样本句子对应的第一词义距离结果，确定待匹配句子与目标样本句子之间的第一语义得分；在第一语义得分超过预设分数阈值时，将目标样本句子记录为与待匹配句子对应的语义匹配句子。本发明提高了长短句之间语义匹配的准确率。

Description

长短句文本语义匹配方法、装置、计算机设备及存储介质

技术领域

本发明涉及语义解析技术领域，尤其涉及一种长短句文本语义匹配方法、装置、计算机设备及存储介质。

背景技术

随着科学技术的发展，自然语言处理技术领域也逐步发展，且自然语言处理技术已被广泛应用在如相似句子匹配，相似表述召回等各个场景中。

目前，针对相似句子匹配，相似表述召回等场景，常常通过端到端的深度学习模型或者是无监督语义匹配进行文本匹配，以直接输出两个句子之间的语义相似度，进而进行相似度比对；针对短句子匹配则通过端到端的模型或者字符匹配等方法；但是，现有技术中针对文本与短句子之间的匹配，常常需要将文本拆解成与短句子具有相同字符的字段之后，才进行短句子与字段之间的相似度匹配，并且针对于文本与短句子之间的匹配，通过端到端的模型往往不能够准确覆盖所有语义信息，而通过字符相似度容器进行判断又容易造成误判，导致语义匹配相似度较低。

发明内容

本发明实施例提供一种长短句文本语义匹配方法、装置、计算机设备及存储介质，以解决长短句之间语义匹配准确率较低的问题。

一种长短句文本语义匹配方法，包括：

获取待匹配句子和目标样本句子，将所述待匹配句子对应的待匹配字符长度与所述目标样本句子对应的目标样本字符长度进行长度比较；

在所述待匹配字符长度小于所述目标样本字符长度时，将所述待匹配字符长度记录为滑动窗口的窗口长度；

在所述目标样本句子上滑动所述滑动窗口，将被所述滑动窗口覆盖的所述目标样本句子的目标样本字段与所述待匹配句子进行匹配，得到第一词义距离结果；

根据所述待匹配句子与所述目标样本句子对应的第一词义距离结果，确定待匹配句子与所述目标样本句子之间的第一语义得分；

在所述第一语义得分超过预设分数阈值时，将所述目标样本句子记录为与所述待匹配句子对应的语义匹配句子。

一种长短句文本语义匹配装置，包括：

句子获取模块，用于获取待匹配句子和目标样本句子，将所述待匹配句子对应的待匹配字符长度与所述目标样本句子对应的目标样本字符长度进行长度比较；

窗口长度记录模块，用于在所述待匹配字符长度小于所述目标样本字符长度时，将所述待匹配字符长度记录为滑动窗口的窗口长度；

第一句子匹配模块，用于在所述目标样本句子上滑动所述滑动窗口，将被所述滑动窗口覆盖的所述目标样本句子的目标样本字段与所述待匹配句子进行匹配，得到第一词义距离结果；

第一语义得分确定模块，用于根据所述待匹配句子与所述目标样本句子对应的第一词义距离结果，确定待匹配句子与所述目标样本句子之间的第一语义得分；

匹配句子确定模块，用于在所述第一语义得分超过预设分数阈值时，将所述目标样本句子记录为与所述待匹配句子对应的语义匹配句子。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述长短句文本语义匹配方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述长短句文本语义匹配方法。

上述长短句文本语义匹配方法、装置、计算机设备及存储介质，该方法通过获取待匹配句子和目标样本句子，将所述待匹配句子对应的待匹配字符长度与所述目标样本句子对应的目标样本字符长度进行长度比较；在所述待匹配字符长度小于所述目标样本字符长度时，将所述待匹配字符长度记录为滑动窗口的窗口长度；在所述目标样本句子上滑动所述滑动窗口，将被所述滑动窗口覆盖的所述目标样本句子的目标样本字段与所述待匹配句子进行匹配，得到第一词义距离结果；根据所述待匹配句子与所述目标样本句子对应的第一词义距离结果，确定待匹配句子与所述目标样本句子之间的第一语义得分；在所述第一语义得分超过预设分数阈值时，将所述目标样本句子记录为与所述待匹配句子对应的语义匹配句子。

本发明通过定义一个滑动窗口指标，以将被所述滑动窗口覆盖的所述目标样本句子的目标样本字段与所述待匹配句子进行匹配，得到第一词义距离结果，进而根据该第一词义距离结果确定待匹配句子与所述目标样本句子之间的第一语义得分，以确定目标样本句子中是否存在部分语义信息与待匹配句子相匹配，使得原本不会被召回的目标样本句子(目标样本句子与待匹配句子的语义相似度小于预设相似度阈值时，会被直接判定为目标样本句子与待匹配句子不匹配)，存在可能被召回的可能性，进而通过本发明可以为一些缺少样本的目标场景，提供更多的样本数据，同时还提高了短句子与长句子之间的语义匹配准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中长短句文本语义匹配方法的一应用环境示意图；

图2是本发明一实施例中长短句文本语义匹配方法的一流程图；

图3是本发明一实施例中长短句文本语义匹配方法中步骤S30的一流程图；

图4是本发明一实施例中长短句文本语义匹配方法中步骤S40的一流程图；

图5是本发明一实施例中长短句文本语义匹配方法的另一流程图；

图6是本发明一实施例中长短句文本语义匹配装置的一原理框图；

图7是本发明一实施例中长短句文本语义匹配装置中第一句子匹配模块的一原理框图；

图8是本发明一实施例中长短句文本语义匹配装置中第一语义得分确定模块的一原理框图；

图9是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的长短句文本语义匹配方法，该长短句文本语义匹配方法可应用如图1所示的应用环境中。具体地，该长短句文本语义匹配方法应用在长短句文本语义匹配系统中，该长短句文本语义匹配系统包括如图1所示的客户端和服务器，客户端与服务器通过网络进行通信，用于解决长短句之间语义匹配准确率较低问题。其中，客户端又称为用户端，是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种长短句文本语义匹配方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S10：获取待匹配句子和目标样本句子，将所述待匹配句子对应的待匹配字符长度与所述目标样本句子对应的目标样本字符长度进行长度比较。

其中，待匹配句子可以为各个不同应用场景下的句子，示例性地，在多轮智能交互机器人领域中，待匹配句子可以为机器人答复句子。目标样本句子也可以为各个不同应用场景下的句子，优选地，目标样本句子与待匹配句子为同一个应用场景下的句子。待匹配字符长度指的是待匹配句子中字符数量；目标样本字符长度指的是目标样本句子中字符数量。进一步地，待匹配句子与目标样本句子之间字符长度差距较大，如待匹配句子字符长度为4-6个字符，而目标样本字符长度为12-16个字符。

在一具体实施例中，步骤S10之前还包括：

S01：获取待匹配句子以及目标样本文本；所述目标样本文本中包含多个句子。

其中，目标样本文本为等待检测是否存在与待匹配句子语义匹配的句子的文本，该目标样本文本中包含多个句子。可以理解地，对目标样本文本进行基于句号形式的分割处理，也即将目标样本文本中以句号结尾的一个句子进行分割出来(因为通常一个完整句子中会包含一个独立的语义信息)。一般地，待匹配句子为一个单句，若待匹配句子中存在多个句号，则也可以对其进行拆分。

S02：将所述待匹配句子与各所述句子输入至预设相似度识别模型中，确定所述待匹配句子与各所述句子之间的语义相似度。

其中，预设相似度识别模型可以通过如机器学习等方法预先训练好的模型，该预设相似度识别模型用于判断两个句子之间的语义相似度。

具体地，在获取待匹配句子以及目标样本文本之后，将待匹配句子与目标样本文本中各句子输入至预设相似度识别模型中，对待匹配句子以及各句子进行编辑距离计算，亦或者杰卡德系数计算，确定待匹配句子与各句子之间的语义相似度。

S03：确定所述待匹配句子与各所述句子对应的各所述语义相似度中最高的语义相似度。

S04：在最高的语义相似度小于预设相似度阈值且其与所述预设相似度阈值之间的差值小于预设相似度差值时，将与最高的语义相似度对应的所述句子记录为目标样本句子。

其中，预设相似度阈值可以根据实际应用场景需求设定，示例性地，预设相似度阈值可以设定为0.9,0.95等。预设相似度差值可以从0.1至0.5之间任选一个值。

可以理解地，在将所述待匹配句子与各所述句子输入至预设相似度识别模型中，确定所述待匹配句子与各所述句子之间的语义相似度，由于此处讨论的需要选择与待匹配句子语义相似度最高，最匹配的句子，因此确定所述待匹配句子与各所述句子对应的各所述语义相似度中最高的语义相似度，并将最高的语义相似度与预设相似度阈值进行比较，在最高的语义相似度小于预设相似度阈值时，确定最高的语义相似度与预设相似度阈值之间的差值，并将该差值与预设相似度差值进行比较，在该差值小于预设相似度差值时，将与最高的语义相似度对应的句子记录为目标样本句子。

在现有技术中，若预设相似度识别模型判定两个句子之间的语义相似度小于预设相似度阈值时，则会判别这两个句子不相似，而在本实施例中，针对于小于预设相似度阈值对应的句子，判定其语义相似度与预设相似度阈值之间差值是否小于预设相似度差值，进而通过步骤S10-S40进行进一步语义相似度判断。

进一步地，在最高的语义相似度小于预设相似度阈值且其与所述预设相似度阈值之间的差值大于或等于预设相似度差值时，则不进行步骤S10-S40的进一步语义相似度判断。

在另一具体实施例中，在确定所述待匹配句子与各所述句子对应的各所述语义相似度中最高的语义相似度之后，还包括：

在最高的语义相似度大于或等于预设相似度阈值时，将与最高的语义相似度对应的所述句子记录为与所述待匹配句子对应的语义匹配句子。

可以理解地，在最高的语义相似度大于或等于预设相似度阈值时，则表征该最高的语义相似度对应的句子是与待匹配句子语义匹配的句子，则直接将与最高的语义相似度对应的所述句子记录为与所述待匹配句子对应的语义匹配句子。

在一具体实施例中，步骤S10之前，也即所述获取与所述待匹配句子对应的待匹配字符长度，以及与各所述目标样本句子对应的目标样本字符长度之前，包括：

(1)获取预设文本识别模型；其中，预设文本识别模型可以基于大量训练样本进行训练的word2vec或者bert模型，该预设文本识别模型用于对句子进行词向量转换。

(2)将所述待匹配句子输入至所述预设文本识别模型中，得到与所述待匹配句子对应的待匹配词向量；同时，将所述目标样本句子输入至所述预设文本识别模型中，得到与所述目标样本句子对应的目标样本词向量。

具体地，在获取待匹配句子和目标样本句子之后，获取预设文本识别模型，并将待匹配句子输入至预设文本识别模型中，对待匹配句子进行词嵌入处理，也即对待匹配句子进行分词处理之后并转换为词向量，得到与待匹配句子对应的待匹配词向量；同理，将目标样本句子输入至预设文本识别模型中，对目标样本句子进行词嵌入处理，得到与目标样本句子对应的目标样本词向量。

(3)根据各所述待匹配词向量确定所述待匹配句子的待匹配字符长度；同时根据各所述目标样本词向量确定所述目标样本句子的目标样本字符长度。

具体地，在将所述待匹配句子输入至所述预设文本识别模型中，得到与所述待匹配句子对应的待匹配词向量；同时，将所述目标样本句子输入至所述预设文本识别模型中，得到与所述目标样本句子对应的目标样本词向量之后，根据各待匹配词向量的具体数量确定待匹配句子的待匹配字符长度；同时根据各目标样本词向量具体数量确定目标样本句子的目标样本字符长度。

S20：在所述待匹配字符长度小于所述目标样本字符长度时，将所述待匹配字符长度记录为滑动窗口的窗口长度。

具体地，在获取待匹配句子和目标样本句子，将所述待匹配句子对应的待匹配字符长度与所述目标样本句子对应的目标样本字符长度进行长度比较之后，若待匹配字符长度小于目标样本字符长度，则将待匹配字符长度记录为滑动窗口的窗口长度。

S30：在所述目标样本句子上滑动所述滑动窗口，将被所述滑动窗口覆盖的所述目标样本句子的目标样本字段与所述待匹配句子进行匹配，得到第一词义距离结果。

其中，目标样本字段指的是目标样本句子中被滑动窗口覆盖的字符段。词义距离结果表征待匹配句子与目标样本句子之间是否存在关键词义信息。

具体地，如图3所示，步骤S30中，包括：

S301：将所述目标样本句子的起始字符与所述待匹配句子的起始字符对齐，将被所述滑动窗口覆盖的第一目标样本字段记录为第一截取句子。

其中，起始字符指的是句子中处于起始位置(也即第一位)的字符。

具体地，在将所述待匹配字符长度记录为滑动窗口的窗口长度之后，将目标样本句子的起始字符与待匹配句子的起始字符对齐，目的是为了从目标样本句子的起始字符开始进行滑动窗口覆盖，避免遗漏字符信息。进而将滑动窗口覆盖在目标样本句子上，将被覆盖的目标样本句子中的第一目标样本字段记录为第一截取句子。可以理解地，该第一截取句子长度等于窗口长度，也等于待匹配字符长度。

S302：将所述第一截取句子与所述待匹配句子进行语义匹配，得到所述待匹配句子与所述第一截取句子的语义结果。

其中，一个词义结果可以视为一个词义距离数值，也即表征各个截取句子与待匹配句子之间的词义距离。

具体地，在将所述目标样本句子的起始字符与所述待匹配句子的起始字符对齐，将被所述滑动窗口覆盖的第一目标样本字段记录为第一截取句子之后，将第一截取句子与待匹配句子进行语义匹配，得到待匹配句子与第一截取句子的语义结果，该语义结果表征第一截取句子与待匹配句子之间的语义是否相近。需要说明的是，此处的语义匹配是基于句子结构信息进行语义匹配判断，该句子结构信息表征第一截取句子与待匹配句子之间的句子字符组成是否相近，亦或者结构是否相近(如句子结构为主谓宾等)，可以作为对语义信息的一个补充。

S303：在所述目标样本句子上将所述滑动窗口向右滑动一个字符长度，将被所述滑动窗口覆盖的第二目标样本字段记录为第二截取句子。

具体地，在将所述第一截取句子与所述待匹配句子进行语义匹配，得到所述待匹配句子与所述第一截取句子的语义结果之后，表征第一截取句子与待匹配句子之间已经完成语义匹配，则在目标样本句子上将滑动窗口向右滑动一个字符长度，并将被滑动窗口覆盖的第二目标样本字段记录为第二截取句子；可以理解地，第二截取句子字符长度等于待匹配句子字符长度。

S304：将所述第二截取句子与所述待匹配句子进行语义匹配，得到所述待匹配句子与所述第二截取句子的语义结果。

具体地，在在所述目标样本句子上将所述滑动窗口向右滑动一个字符长度，将被所述滑动窗口覆盖的第二目标样本字段记录为第二截取句子之后，将所述第二截取句子与所述待匹配句子进行语义匹配，得到所述待匹配句子与所述第二截取句子的语义结果，该语义结果表征第二截取句子与待匹配句子之间的语义是否相近。

S305：在检测到所述滑动窗口的终点字符已与所述目标样本句子的终点字符对齐时，将所有语义结果记录为第一词义距离结果。

其中，终点字符指的是句子中最后一个字符。

具体地，在经过如上述步骤S301至S304之后，若检测到滑动窗口的终点字符已与目标样本句子的终点字符对齐时，将所有语义结果记录为第一词义距离结果；若当前滑动窗口的终点字符并未与目标样本句子的终点字符对齐，则表征目标样本句子中仍然存在未被覆盖识别的字符，则继续移动滑动窗口，直至检测到所述滑动窗口的终点字符已与所述目标样本句子的终点字符对齐。

S40：根据所述待匹配句子与所述目标样本句子对应的第一词义距离结果，确定待匹配句子与所述目标样本句子之间的第一语义得分。

其中，第一语义得分指示目标样本句子与待匹配句子中语义相似程度。第一语义得分越高表征目标样本句子中包含与待匹配句子匹配的关键语义信息更多。

具体地，如图4所示，步骤S40中，也即所述根据所述待匹配句子与所述目标样本句子对应的第一词义距离结果，确定待匹配句子与所述目标样本句子之间的第一语义得分，包括：

S401：对所述待匹配句子与所述目标样本句子对应的第一词义距离结果进行求导处理，得到与所述第一词义距离结果对应的词义曲线。

其中，第一词义距离结果可以视为由多个词义结果整合而成的连续密度序列，则可以通过对该第一词义距离结果进行求导处理，得到与第一词义距离结果对应的词义曲线。

S402：通过寻峰识别算法确定所述词义曲线中是否存在词义峰值。

其中，寻峰识别算法用于寻找词义曲线中是否出现词义峰值，该词义峰值用于表征待匹配句子与该词义曲线对应的目标样本句子之间的第一语义得分。在本实施例中，该寻峰识别算法可以在词义曲线中进行全局搜索，在全局搜索过程中，若词义曲线出现曲线先上升再下滑的点，即为出现词义峰值。

具体地，在对所述待匹配句子与所述目标样本句子对应的第一词义距离结果进行求导处理，得到与所述目标样本句子对应的词义曲线之后，通过寻峰识别算法在词义曲线中寻找是否存在词义峰值，若该词义曲线中存在词义峰值，则可以根据该词义峰值确定待匹配句子与该词义曲线对应的目标样本句子之间的第一语义得分。

S403：在所述词义曲线中存在词义峰值时，根据所述词义峰值确定待匹配句子与该词义曲线对应的目标样本句子之间的第一语义得分。

具体地，在通过寻峰识别算法确定所述词义曲线中是否存在词义峰值之后，在所述词义曲线中存在词义峰值时，可以根据该词义峰值的峰值大小，亦或者词义峰值所占面积大小，确定待匹配句子与该词义曲线对应的目标样本句子之间的第一语义得分。示例性地，词义峰值的峰值越大，表征第一语义得分越高；亦或者词义峰值所占面积大小越大，表征第一语义得分越高。

S404：在所述词义曲线不存在词义峰值时，确定待匹配句子与该词义曲线对应的目标样本句子之间的第一语义得分为0。

具体地，在通过寻峰识别算法确定所述词义曲线中是否存在词义峰值之后，在所述词义曲线中不存在词义峰值时，表征该词义曲线对应的目标样本句子与待匹配句子之间不匹配，确定待匹配句子与该词义曲线对应的目标样本句子之间的第一语义得分为0。

S50：在所述第一语义得分超过预设分数阈值时，将所述目标样本句子记录为与所述待匹配句子对应的语义匹配句子。

其中，预设分数阈值可以根据不同应用场景进行确定，示例性地，预设分数阈值可以为90、95等数值。

具体地，在根据所述待匹配句子与所述目标样本句子对应的第一词义距离结果，确定待匹配句子与所述目标样本句子之间的第一语义得分之后，将第一语义得分与预设分数阈值进行比较，在第一语义得分超过预设分数阈值时，将目标样本句子记录为与待匹配句子对应的语义匹配句子；在第一语义得分未超过预设分数阈值时，则表征该目标样本句子与待匹配句子语义不匹配。

在本实施例中，通过定义一个滑动窗口指标，以将被所述滑动窗口覆盖的所述目标样本句子的目标样本字段与所述待匹配句子进行匹配，得到第一词义距离结果，进而根据该第一词义距离结果确定待匹配句子与所述目标样本句子之间的第一语义得分，以确定目标样本句子中是否存在部分语义信息与待匹配句子相匹配，使得原本不会被召回的目标样本句子(目标样本句子与待匹配句子的语义相似度小于预设相似度阈值时，会被直接判定为目标样本句子与待匹配句子不匹配)，存在可能被召回的可能性，进而通过本发明可以为一些缺少样本的目标场景，提供更多的样本数据，同时还提高了短句子与长句子之间的语义匹配准确率，使得长短句之间的语义匹配相似度较高。

在一实施例中，如图5所示，步骤S10之后，还包括：

S60：在所述待匹配字符长度大于或等于所述目标样本字符长度时，将所述目标样本字符长度记录为所述滑动窗口的窗口长度。

具体地，在获取待匹配句子和目标样本句子，将所述待匹配句子对应的待匹配字符长度与所述目标样本句子对应的目标样本字符长度进行长度比较之后，若待匹配字符长度大于或等于目标样本字符长度，则将目标样本字符长度记录为滑动窗口的窗口长度。

S70：在所述待匹配句子上滑动所述滑动窗口，将被所述滑动窗口覆盖的所述待匹配句子的待匹配字段与所述目标样本句子进行匹配，得到第二词义距离结果。

具体地，在所述待匹配字符长度大于或等于所述目标样本字符长度时，将所述目标样本字符长度记录为所述滑动窗口的窗口长度之后，将所述目标样本句子的起始字符与所述待匹配句子的起始字符对齐，将被所述滑动窗口覆盖的第一待匹配字段(也即待匹配句子中的由与窗口长度相同长度的字符组成的字段)记录为第三截取句子，将所述第三截取句子与所述目标样本句子进行语义匹配，得到所述目标样本句子与所述第三截取句子的语义结果；在所述待匹配句子上将所述滑动窗口向右滑动一个字符长度，将被所述滑动窗口覆盖的第二待匹配字段记录为第四截取句子，将所述第四截取句子与所述目标样本句子进行语义匹配，得到所述目标样本句子与所述第四截取句子的语义结果；在检测到所述滑动窗口的终点字符已与所述待匹配句子的终点字符对齐时，将所有语义结果记录为第二词义距离结果。

S80：根据所述待匹配句子与所述目标样本句子对应的第二词义距离结果，确定所述待匹配句子与所述目标样本句子之间得到第二语义得分。

其中，第二语义得分指示目标样本句子与待匹配句子中语义相似程度。第二语义得分越高表征目标样本句子中包含与待匹配句子匹配的关键语义信息更多。

具体地，在所述待匹配句子上滑动所述滑动窗口，将被所述滑动窗口覆盖的所述待匹配句子的待匹配字段与所述目标样本句子进行匹配，得到第二词义距离结果之后，对所述第二词义距离结果进行求导处理，得到与所述第二词义距离结果对应的词义曲线；通过寻峰识别算法确定所述词义曲线中是否存在词义峰值；在所述词义曲线中存在词义峰值时，根据所述词义峰值确定待匹配句子与该词义曲线对应的目标样本句子之间的第二语义得分。在所述词义曲线不存在词义峰值时，确定待匹配句子与该词义曲线对应的目标样本句子之间的第二语义得分为0。

S90：在所述第二语义得分超过所述预设分数阈值时，将所述目标样本句子记录为与所述待匹配句子对应的语义匹配句子。

具体地，在根据所述待匹配句子与所述目标样本句子对应的第二词义距离结果，确定待匹配句子与所述目标样本句子之间的第二语义得分之后，将第二语义得分与预设分数阈值进行比较，在第二语义得分超过预设分数阈值时，将目标样本句子记录为与待匹配句子对应的语义匹配句子；在第二语义得分未超过预设分数阈值时，则表征该目标样本句子与待匹配句子语义不匹配。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种长短句文本语义匹配装置，该长短句文本语义匹配装置与上述实施例中长短句文本语义匹配方法一一对应。如图6所示，该长短句文本语义匹配装置包括句子获取模块10、第一窗口长度记录模块20、第一句子匹配模块30、第一语义得分确定模块40和第一匹配句子确定模块50。各功能模块详细说明如下：

句子获取模块10，用于获取待匹配句子和目标样本句子，将所述待匹配句子对应的待匹配字符长度与所述目标样本句子对应的目标样本字符长度进行长度比较；

第一窗口长度记录模块20，用于在所述待匹配字符长度小于所述目标样本字符长度时，将所述待匹配字符长度记录为滑动窗口的窗口长度；

第一句子匹配模块30，用于在所述目标样本句子上滑动所述滑动窗口，将被所述滑动窗口覆盖的所述目标样本句子的目标样本字段与所述待匹配句子进行匹配，得到第一词义距离结果；

第一语义得分确定模块40，用于根据所述待匹配句子与所述目标样本句子对应的第一词义距离结果，确定待匹配句子与所述目标样本句子之间的第一语义得分；

第一匹配句子确定模块50，用于在所述第一语义得分超过预设分数阈值时，将所述目标样本句子记录为与所述待匹配句子对应的语义匹配句子。

优选地，所述长短句文本语义匹配装置还包括：

样本文本获取模块，用于获取待匹配句子以及目标样本文本；所述目标样本文本中包含多个句子；

语义相似度确定模块，用于将所述待匹配句子与各所述句子输入至预设相似度识别模型中，确定所述待匹配句子与各所述句子之间的语义相似度；

最高相似度确定模块，用于确定所述待匹配句子与各所述句子对应的各所述语义相似度中最高的语义相似度；

目标样本句子确定模块，用于在最高的语义相似度小于预设相似度阈值且其与所述预设相似度阈值之间的差值小于预设相似度差值时，将与最高的语义相似度对应的所述句子记录为目标样本句子。

优选地，所述长短句文本语义匹配装置还包括：

语义匹配句子记录模块，用于在最高的语义相似度大于或等于预设相似度阈值时，将与最高的语义相似度对应的所述句子记录为与所述待匹配句子对应的语义匹配句子。

优选地，所述长短句文本语义匹配装置还包括：

文本识别模型获取模块，用于获取预设文本识别模型；

词向量确定模块，用于将所述待匹配句子输入至所述预设文本识别模型中，得到与所述待匹配句子对应的待匹配词向量；同时，将所述目标样本句子输入至所述预设文本识别模型中，得到与所述目标样本句子对应的目标样本词向量；

字符长度确定模块，用于根据各所述待匹配词向量确定所述待匹配句子的待匹配字符长度；同时根据各所述目标样本词向量确定所述目标样本句子的目标样本字符长度。

优选地，如图7所示，第一句子匹配模块30包括如下单元：

字符对齐单元301，用于将所述目标样本句子的起始字符与所述待匹配句子的起始字符对齐，将被所述滑动窗口覆盖的第一目标样本字段记录为第一截取句子；

第一语义匹配单元302，用于将所述第一截取句子与所述待匹配句子进行语义匹配，得到所述待匹配句子与所述第一截取句子的语义结果；

窗口滑动单元303，用于在所述目标样本句子上将所述滑动窗口向右滑动一个字符长度，将被所述滑动窗口覆盖的第二目标样本字段记录为第二截取句子；

第二语义匹配单元304，用于将所述第二截取句子与所述待匹配句子进行语义匹配，得到所述待匹配句子与所述第二截取句子的语义结果；

词义距离结果记录单元305，用于在检测到所述滑动窗口的终点字符已与所述目标样本句子的终点字符对齐时，将所有语义结果记录为第一词义距离结果。

优选地，如图8所示，所述第一语义得分确定模块40包括：

词义曲线确定单元401，用于对所述待匹配句子与所述目标样本句子对应的第一词义距离结果进行求导处理，得到与所述第一词义距离结果对应的词义曲线；

词义峰值确定单元402，用于通过寻峰识别算法确定所述词义曲线中是否存在词义峰值；

第一语义得分确定单元403，用于在所述词义曲线中存在词义峰值时，根据所述词义峰值确定待匹配句子与该词义曲线对应的目标样本句子之间的第一语义得分；

第二语义得分确定单元404，用于在所述词义曲线不存在词义峰值时，确定待匹配句子与该词义曲线对应的目标样本句子之间的第一语义得分为0。

优选地，所述长短句文本语义匹配装置还包括：

第二窗口长度记录模块，用于在所述待匹配字符长度大于或等于所述目标样本字符长度时，将所述目标样本字符长度记录为所述滑动窗口的窗口长度；

第二句子匹配模块，用于在所述待匹配句子上滑动所述滑动窗口，将被所述滑动窗口覆盖的所述待匹配句子的待匹配字段与所述目标样本句子进行匹配，得到第二词义距离结果；

第二语义得分确定模块，用于根据所述待匹配句子与所述目标样本句子对应的第二词义距离结果，确定所述待匹配句子与所述目标样本句子之间得到第二语义得分；

第二匹配句子确定模块，用于在所述第二语义得分超过所述预设分数阈值时，将所述目标样本句子记录为与所述待匹配句子对应的语义匹配句子。

关于长短句文本语义匹配装置的具体限定可以参见上文中对于长短句文本语义匹配方法的限定，在此不再赘述。上述长短句文本语义匹配装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述实施例中长短句文本语义匹配方法中使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种长短句文本语义匹配方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中长短句文本语义匹配方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中长短句文本语义匹配方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种长短句文本语义匹配方法，其特征在于，包括：

2.如权利要求1所述的长短句文本语义匹配方法，其特征在于，所述获取待匹配句子和目标样本句子，将所述待匹配句子对应的待匹配字符长度与所述目标样本句子对应的目标样本字符长度进行长度比较之前，还包括：

获取待匹配句子以及目标样本文本；所述目标样本文本中包含多个句子；

将所述待匹配句子与各所述句子输入至预设相似度识别模型中，确定所述待匹配句子与各所述句子之间的语义相似度；

确定所述待匹配句子与各所述句子对应的各所述语义相似度中最高的语义相似度；

在最高的语义相似度小于预设相似度阈值且其与所述预设相似度阈值之间的差值小于预设相似度差值时，将与最高的语义相似度对应的所述句子记录为目标样本句子。

3.如权利要求2所述的长短句文本语义匹配方法，其特征在于，所述确定所述待匹配句子与各所述句子对应的各所述语义相似度中最高的语义相似度之后，还包括：

4.如权利要求1所述的长短句文本语义匹配方法，其特征在于，所述获取与所述待匹配句子对应的待匹配字符长度，以及与各所述目标样本句子对应的目标样本字符长度之前，包括：

获取预设文本识别模型；

将所述待匹配句子输入至所述预设文本识别模型中，得到与所述待匹配句子对应的待匹配词向量；同时，将所述目标样本句子输入至所述预设文本识别模型中，得到与所述目标样本句子对应的目标样本词向量；

根据各所述待匹配词向量确定所述待匹配句子的待匹配字符长度；同时根据各所述目标样本词向量确定所述目标样本句子的目标样本字符长度。

5.如权利要求1所述的长短句文本语义匹配方法，其特征在于，所述在所述目标样本句子上滑动所述滑动窗口，将被所述滑动窗口覆盖的所述目标样本句子的目标样本字段与所述待匹配句子进行匹配，得到第一词义距离结果，包括：

将所述目标样本句子的起始字符与所述待匹配句子的起始字符对齐，将被所述滑动窗口覆盖的第一目标样本字段记录为第一截取句子；

将所述第一截取句子与所述待匹配句子进行语义匹配，得到所述待匹配句子与所述第一截取句子的语义结果；

在所述目标样本句子上将所述滑动窗口向右滑动一个字符长度，将被所述滑动窗口覆盖的第二目标样本字段记录为第二截取句子；

将所述第二截取句子与所述待匹配句子进行语义匹配，得到所述待匹配句子与所述第二截取句子的语义结果；

在检测到所述滑动窗口的终点字符已与所述目标样本句子的终点字符对齐时，将所有语义结果记录为第一词义距离结果。

6.如权利要求1所述的长短句文本语义匹配方法，其特征在于，所述根据所述待匹配句子与所述目标样本句子对应的词义距离结果，确定待匹配句子与所述目标样本句子之间的第一语义得分，包括：

对所述待匹配句子与所述目标样本句子对应的第一词义距离结果进行求导处理，得到与所述第一词义距离结果对应的词义曲线；

通过寻峰识别算法确定所述词义曲线中是否存在词义峰值；

在所述词义曲线中存在词义峰值时，根据所述词义峰值确定待匹配句子与该词义曲线对应的目标样本句子之间的第一语义得分；

在所述词义曲线不存在词义峰值时，确定待匹配句子与该词义曲线对应的目标样本句子之间的第一语义得分为0。

7.如权利要求1所述的长短句文本语义匹配方法，其特征在于，所述将所述待匹配句子对应的待匹配字符长度与所述目标样本句子对应的目标样本字符长度进行长度比较之后，还包括：

在所述待匹配字符长度大于或等于所述目标样本字符长度时，将所述目标样本字符长度记录为所述滑动窗口的窗口长度；

在所述待匹配句子上滑动所述滑动窗口，将被所述滑动窗口覆盖的所述待匹配句子的待匹配字段与所述目标样本句子进行匹配，得到第二词义距离结果；

根据所述待匹配句子与所述目标样本句子对应的第二词义距离结果，确定所述待匹配句子与所述目标样本句子之间得到第二语义得分；

在所述第二语义得分超过所述预设分数阈值时，将所述目标样本句子记录为与所述待匹配句子对应的语义匹配句子。

8.一种长短句文本语义匹配装置，其特征在于，包括：

第一窗口长度记录模块，用于在所述待匹配字符长度小于所述目标样本字符长度时，将所述待匹配字符长度记录为滑动窗口的窗口长度；

第一匹配句子确定模块，用于在所述第一语义得分超过预设分数阈值时，将所述目标样本句子记录为与所述待匹配句子对应的语义匹配句子。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述长短句文本语义匹配方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述长短句文本语义匹配方法。