CN110781686B

CN110781686B - 一种语句相似度计算方法、装置及计算机设备

Info

Publication number: CN110781686B
Application number: CN201911044280.5A
Authority: CN
Inventors: 周学阳; 井玉欣; 陈甜甜; 崔妲珅; 宋忠森
Original assignee: Puxin Hengye Technology Development Beijing Co ltd
Current assignee: Puxin Hengye Technology Development Beijing Co ltd
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2023-04-18
Anticipated expiration: 2039-10-30
Also published as: CN110781686A

Abstract

本发明提供了一种语句相似度计算方法、装置及计算机设备，将待计算相似度的至少两个语句输入到语义向量计算模型组中，语义向量计算模型组中包含至少两个语义向量计算模型，至少两个语义向量计算模型共用一套模型参数，不同语句对应输入到不同语义向量计算模型中；利用任一个语义向量计算模型，将各自接收到的语句分别编码为预设维度的语义向量并输入到相似度计算模型中；利用相似度计算模型，将任意两个预设维度的语义向量转化为一个二分类向量，并依据二分类向量得到任意两个语句的相似度。语义向量计算模型组为多输入模型，不同语句可以对应输入到不同语义向量计算模型中，无需执行语句拼接的步骤，提高语句相似度计算效率。

Description

一种语句相似度计算方法、装置及计算机设备

技术领域

本发明涉及自然语言处理技术领域，更具体的说，是涉及一种语句相似度计算方法、装置及计算机设备。

背景技术

在自然语言处理的技术领域中，对于两个语句之间计算相似度的应用非常广泛。目前采用的基于模型的语句相似度计算方式中，所采用的模型都是单输入模型，在进行语句相似度计算之前，需要将待计算相似度的语句进行拼接，得到一条拼接语句，将该拼接语句输入到模型中进行语义分析、进而进行相似度的计算。因此，在将某一目标语句与多个候选语句进行相似度计算之前，需要将该目标语句与每一个候选语句都拼接一次，耗时较长，导致语句相似度计算效率低。

基于此，如何提高语句相似度计算效率，成为目前需要解决的技术问题。

发明内容

有鉴于此，本发明提供了一种语句相似度计算方法、装置及计算机设备，以提高语句相似度计算效率。

为实现上述目的，本发明提供如下技术方案：

一种语句相似度计算方法，所述方法包括：

将待计算相似度的至少两个语句输入到预先构建的语义向量计算模型组中，所述语义向量计算模型组中包含至少两个语义向量计算模型，所述语义向量计算模型组中的至少两个语义向量计算模型共用一套模型参数，其中，不同语句对应输入到所述语义向量计算模型组中的不同语义向量计算模型中；

利用任一个语义向量计算模型，将各自接收到的语句分别编码为预设维度的语义向量；

将任一个语义向量计算模型得到的预设维度的语义向量输入到预先训练的相似度计算模型中；

利用所述相似度计算模型，将任意两个预设维度的语义向量转化为一个二分类向量；

利用所述相似度计算模型，依据所述二分类向量得到任意两个语句的相似度。

优选的，所述利用任一个语义向量计算模型，将各自接收到的语句分别编码为预设维度的语义向量的过程包括：

利用任一个语义向量计算模型，将各自接收到的语句中的每个词转化为预设维度的词义向量；

利用任一个语义向量计算模型，将各自接收到的语句中的每个词对应的预设维度的词义向量进行组合，得到各自接收到的语句对应的预设维度的语义向量。

优选的，所述利用所述相似度计算模型，将任意两个预设维度的语义向量转化为一个二分类向量的过程包括：

利用所述相似度计算模型，计算任意两个预设维度的语义向量对应的差值语义向量以及乘积语义向量；

利用所述相似度计算模型，将所述任意两个预设维度的语义向量、所述任意两个预设维度的语义向量对应的差值语义向量以及乘积语义向量进行向量拼接，得到一个高维分布式向量；

利用所述相似度计算模型，将所述高维分布式向量转化为低维分布式向量；

利用所述相似度计算模型，将所述低维分布式向量转化为二分类向量。

优选的，所述语义向量计算模型组以及相似度计算模型的训练过程包括：

获取样本集中的训练样本语句以及任意两个训练样本语句对应的参考输出语句相似度；

将所述训练样本语句输入到语义向量计算模型组中进行训练，得到训练样本语句各自对应的预测语义向量；

将训练样本语句各自对应的预测语义向量输入到相似度计算模型中进行训练，得到任意两个训练样本语句对应的预测语句相似度；

利用所述预测语句相似度以及参考输出语句相似度，得到相似度损失值；

利用所述相似度损失值对所述相似度计算模型的模型参数以及所述语义向量计算模型组的模型参数进行调整；

返回执行所述将所述训练样本语句输入到语义向量计算模型组中进行训练，得到训练样本语句各自对应的预测语义向量的步骤继续训练，直至得到相似度损失值呈现收敛状况时的相似度计算模型的模型参数作为目标相似度计算模型参数，并将相似度损失值呈现收敛状况时的语义向量计算模型组的模型参数作为目标语义向量计算模型参数，并停止训练。

优选的，所述利用所述相似度损失值对所述相似度计算模型的模型参数以及所述语义向量计算模型组的模型参数进行调整的过程包括：

利用所述相似度损失值，依次反向计算所述相似度计算模型中每层神经元的神经元参数的梯度以及所述语义向量计算模型组中每层神经元的神经元参数的梯度；

按照所述相似度计算模型中每层神经元的神经元参数梯度下降的方向，对所述相似度计算模型中每层神经元的神经元参数进行调整；

按照所述语义向量计算模型组中每层神经元的神经元参数梯度下降的方向，对所述语义向量计算模型组中每层神经元的神经元参数进行调整。

一种语句相似度计算装置，所述装置包括：

语句输入单元，用于将待计算相似度的至少两个语句输入到预先构建的语义向量计算模型组中，所述语义向量计算模型组中包含至少两个语义向量计算模型，所述语义向量计算模型组中的至少两个语义向量计算模型共用一套模型参数，其中，不同语句对应输入到所述语义向量计算模型组中的不同语义向量计算模型中；

语义向量编码单元，用于利用任一个语义向量计算模型，将各自接收到的语句分别编码为预设维度的语义向量；

语义向量输入单元，用于将任一个语义向量计算模型得到的预设维度的语义向量输入到预先训练的相似度计算模型中；

语义向量转化单元，用于利用所述相似度计算模型，将任意两个预设维度的语义向量转化为一个二分类向量；

相似度计算单元，用于利用所述相似度计算模型，依据所述二分类向量得到任意两个语句的相似度。

优选的，所述语义向量编码单元包括：

词义向量转化单元，用于利用任一个语义向量计算模型，将各自接收到的语句中的每个词转化为预设维度的词义向量；

词义向量组合单元，用于利用任一个语义向量计算模型，将各自接收到的语句中的每个词对应的预设维度的词义向量进行组合，得到各自接收到的语句对应的预设维度的语义向量。

优选的，所述语义向量转化单元包括：

向量计算单元，用于利用所述相似度计算模型，计算任意两个预设维度的语义向量对应的差值语义向量以及乘积语义向量；

向量拼接单元，用于利用所述相似度计算模型，将所述任意两个预设维度的语义向量、所述任意两个预设维度的语义向量对应的差值语义向量以及乘积语义向量进行向量拼接，得到一个高维分布式向量；

高维分布式向量转化单元，用于利用所述相似度计算模型，将所述高维分布式向量转化为低维分布式向量；

低维分布式向量转化单元，用于利用所述相似度计算模型，将所述低维分布式向量转化为二分类向量。

优选的，还包括：模型训练单元，所述模型训练单元用于：

一种计算机设备，所述计算机设备包括：

处理器和存储器；

所述处理器，用于调用并执行所述存储器中存储的程序；

所述存储器用于存储所述程序，所述程序至少用于：

经由上述的技术方案可知，与现有技术相比，本发明提供了一种语句相似度计算方法、装置及计算机设备，通过将待计算相似度的至少两个语句输入到预先构建的语义向量计算模型组中，所述语义向量计算模型组中包含至少两个语义向量计算模型，所述语义向量计算模型组中的至少两个语义向量计算模型共用一套模型参数，其中，不同语句对应输入到所述语义向量计算模型组中的不同语义向量计算模型中；利用任一个语义向量计算模型，将各自接收到的语句分别编码为预设维度的语义向量；将任一个语义向量计算模型得到的预设维度的语义向量输入到预先训练的相似度计算模型中；利用所述相似度计算模型，将任意两个预设维度的语义向量转化为一个二分类向量；利用所述相似度计算模型，依据所述二分类向量得到任意两个语句的相似度。由于本发明实施例预先构建了语义向量计算模型组，语义向量计算模型组中包含至少两个语义向量计算模型，因此，本发明实施例中的语义向量计算模型组为多输入模型，不同语句可以对应输入到语义向量计算模型组中的不同语义向量计算模型中，无需执行语句拼接的步骤，节省了语句拼接过程所耗的时长，提高语句相似度计算效率，并且语义向量计算模型组中的至少两个语义向量计算模型共用一套模型参数，进一步减小了语义向量计算模型组的复杂度，节省了模型所占的内存空间。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的计算机设备的一种组成结构示意图；

图2为本发明实施例提供的一种语句相似度计算方法一个实施例的流程示意图；

图3为本发明实施例提供的一种语句相似度计算方法另一个实施例的流程示意图

图4为本发明实施例提供的语义向量计算模型组以及相似度计算模型的训练方法的一个实施例的流程示意图；

图5为本发明实施例提供的一种语句相似度计算装置的一种组成结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前采用的基于模型的语句相似度计算方式中，所采用的语义向量计算模型都是单输入模型，例如BERT(Bidirectional Encoder Representation from Transformers)模型，单输入模型在计算过程中每次只能接收一条语句，因此，单输入模型的输入数据强关联，在利用单输入模型进行语句相似度计算之前，需要将待计算相似度的语句进行拼接，得到一条拼接语句，将该拼接语句输入到单输入模型中进行相似度的计算。因此，在将某一目标语句与多个候选语句进行相似度计算之前，需要将该目标语句与每一个候选语句都拼接一次，耗时较长，导致语句相似度计算效率低。

为了解决上述问题，发明人想到设置多个语义向量计算模型来组成多输入的语义向量计算模型组，但是由于目前采用的语义向量计算模型(例如BERT模型)是以庞大语料数据与高性能张量处理器硬件为基础，耗费大量时间训练而成，因此目前采用的语义向量计算模型在诸多任务中相对传统机器学习、神经网络乃至深度学习模型性能有极大的提升，但相应地，其目前采用的语义向量计算模型数据占用内存很大，如果设置多个语义向量计算模型来组成多输入的语义向量计算模型组，多输入的语义向量计算模型组将会占用更大的内存，该方案为了解决语句相似度计算效率低，反而引入了模型数据占用内存大的问题。

发明人为了解决上述语句相似度计算效率低以及模型数据占用内存大的问题，进一步探索提出了如下方案：

通过将待计算相似度的至少两个语句输入到预先构建的语义向量计算模型组中，所述语义向量计算模型组中包含至少两个语义向量计算模型，所述语义向量计算模型组中的至少两个语义向量计算模型共用一套模型参数，其中，不同语句对应输入到所述语义向量计算模型组中的不同语义向量计算模型中；利用任一个语义向量计算模型，将各自接收到的语句分别编码为预设维度的语义向量；将任一个语义向量计算模型得到的预设维度的语义向量输入到预先训练的相似度计算模型中；利用所述相似度计算模型，将任意两个预设维度的语义向量转化为一个二分类向量；利用所述相似度计算模型，依据所述二分类向量得到任意两个语句的相似度。由于本发明实施例预先构建了语义向量计算模型组，语义向量计算模型组中包含至少两个语义向量计算模型，因此，本发明实施例中的语义向量计算模型组为多输入模型，不同语句可以对应输入到语义向量计算模型组中的不同语义向量计算模型中，无需执行语句拼接的步骤，节省了语句拼接过程所耗的时长，减小了计算过程复杂度，提高语句相似度计算效率，并且语义向量计算模型组中的至少两个语义向量计算模型共用一套模型参数，进一步减小了语义向量计算模型组的复杂度，节省了模型所占的内存空间。

下面，以具体的实施例详细说明本发明公开的上述语句相似度计算方法。本发明实施例的语句相似度计算方法可以应用于计算机设备，所述计算机设备可以为服务器，还可以为终端，如图1所示，其示出了本申请的方案所适用的计算机设备的一种组成结构示意图。在图1中，该计算机设备可以包括：处理器101和存储器102。

该计算机设备1000还可以包括：通信接口103、输入单元104和显示器105和通信总线106。

处理器101、存储器102、通信接口103、输入单元104、显示器105、均通过通信总线106完成相互间的通信。

在本发明实施例中，该处理器101，可以为中央处理器(Central ProcessingUnit，CPU)，现成可编程门阵列(FPGA)或者其他可编程逻辑器件等。

该处理器可以调用存储器102中存储的程序，具体的，可以处理器可以执行以下方法实施例中终端侧所执行的操作。

存储器102中用于存放一个或者一个以上程序，程序可以包括程序代码，所述程序代码包括计算机操作指令，在本申请实施例中，该存储器中至少存储有用于实现以下功能的程序：

如图2，其示出了本申请一种语句相似度计算方法一个实施例的流程示意图，本实施例包括：

S100、将待计算相似度的至少两个语句输入到预先构建的语义向量计算模型组中，所述语义向量计算模型组中包含至少两个语义向量计算模型，所述语义向量计算模型组中的至少两个语义向量计算模型共用一套模型参数，不同语句对应输入到所述语义向量计算模型组中的不同语义向量计算模型中；

需要说明的是，本发明实施例中的语义向量计算模型组中的每个语义向量计算模型用来将输入语句转换成语义向量，由于不同语句可以对应输入到所述语义向量计算模型组中的不同语义向量计算模型中，因此，本发明实施例中的语义向量计算模型组可以同时对至少两个语句执行语义向量的转化。

本发明实施例中语义向量计算模型组中的至少两个语义向量计算模型的结构相同，并且，本发明实施例的语义向量计算模型组中的至少两个语义向量计算模型共用一套模型参数，即语义向量计算模型组中的至少两个语义向量计算模型实现模型参数共享。因此，本发明实施例中的语义向量计算模型组中的至少两个语义向量计算模型在运行过程中都是调用这一套共用的模型参数进行模型计算的。

由于模型的模型参数是模型中占用内存比较大的部分，因此，本发明实施例中的语义向量计算模型组中虽然包含了至少两个语义向量计算模型，但是本发明实施例实现的是语义向量计算模型结构的复制、模型参数的共享，本发明实施例中并不是每个语义向量计算模型都对应设置一套模型参数，而是每个语义向量计算模型共用一套模型参数，大大减小了语义向量计算模型组的复杂度，节省了模型所占的内存空间。

S110、利用任一个语义向量计算模型，将各自接收到的语句分别编码为预设维度的语义向量；

本发明实施例利用任一个语义向量计算模型，通过对各自接收到的语句进行语义分析，将各自接收到的语句分别编码为预设维度的语义向量。需要说明的是，本发明实施例对于预设维度并不做具体限定，不同维度的语义向量代表了不同的语义，本发明实施例采用预设维度的语义向量可以对一个语句的语义进行表示。

本发明实施例中语义向量计算模型组中的不同语义向量计算模型对应得到相同维度的语义向量。

S120、将任一个语义向量计算模型得到的预设维度的语义向量输入到预先训练的相似度计算模型中；

在任一个语义向量计算模型得到预设维度的语义向量之后，则将各自得到预设维度的语义向量输入到预先训练的相似度计算模型中，利用所述相似度计算模型对预设维度的语义向量进行语义相似度的计算。

S130、利用所述相似度计算模型，将任意两个预设维度的语义向量转化为一个二分类向量；

本发明实施例利用相似度计算模型获取任意两个预设维度的语义向量，然后将任意两个预设维度的语义向量转化为一个二分类向量，所述二分类向量能够表示该任意两个预设维度的语义向量的语义相似度。在二分类向量中一个维度的数值表示任意两个预设维度的语义向量相似的概率，另一个维度的数值表示任意两个预设维度的语义向量不相似的概率，并且，在二分类向量中两个维度上的数值都为0-1之间的数值，包括0与1，两个维度上的数值之和为1。

S140、利用所述相似度计算模型，依据所述二分类向量得到任意两个语句的相似度。

本发明实施例利用所述相似度计算模型，按照相似度确定规则，通过对二分类向量不同维度上的数值大小进行分析，得到任意两个语句的相似度。

本发明实施例通过将待计算相似度的至少两个语句输入到预先构建的语义向量计算模型组中，所述语义向量计算模型组中包含至少两个语义向量计算模型，所述语义向量计算模型组中的至少两个语义向量计算模型共用一套模型参数，其中，不同语句对应输入到所述语义向量计算模型组中的不同语义向量计算模型中；利用任一个语义向量计算模型，将各自接收到的语句分别编码为预设维度的语义向量；将任一个语义向量计算模型得到的预设维度的语义向量输入到预先训练的相似度计算模型中；利用所述相似度计算模型，将任意两个预设维度的语义向量转化为一个二分类向量；利用所述相似度计算模型，依据所述二分类向量得到任意两个语句的相似度。由于本发明实施例预先构建了语义向量计算模型组，语义向量计算模型组中包含至少两个语义向量计算模型，因此，本发明实施例中的语义向量计算模型组为多输入模型，输入数据弱相关，不同语句可以对应输入到语义向量计算模型组中的不同语义向量计算模型中，无需执行语句拼接的步骤，节省了语句拼接过程所耗的时长，在实时性要求较高的场景中(如基于检索的问答机器人等场景)，明显提高语句相似度计算效率，满足日常线上业务处理响应时间的约束条件。例如在一般服务器环境下，与现有技术中得到单句与多个候选句相似度计算结果的平均时间相比，本发明上述基于上述模型训练得到单句与多个候选句相似度计算结果的平均时间从十秒级、秒级降低到100毫秒级。

并且语义向量计算模型组中的至少两个语义向量计算模型共用一套模型参数，进一步减小了语义向量计算模型组的复杂度，节省了模型所占的内存空间。

下面，为了详细说明本发明公开的语句相似度计算方法的具体过程，如图3，其示出了本申请一种语句相似度计算方法的另一个实施例的流程示意图，本实施例包括：

S200、将待计算相似度的至少两个语句输入到预先构建的语义向量计算模型组中，所述语义向量计算模型组中包含至少两个语义向量计算模型，所述语义向量计算模型组中的至少两个语义向量计算模型共用一套模型参数，不同语句对应输入到所述语义向量计算模型组中的不同语义向量计算模型中；

S210、利用任一个语义向量计算模型，将各自接收到的语句中的每个词转化为预设维度的词义向量；

本发明实施例中的语义向量计算模型，首先将接收到的语句做分词处理，将语句拆分成多个词，然后将语句中的每个词各自转化成预设维度的词义向量，本发明实施例对词义向量的维度并不做具体限定，不同维度的词义向量代表不同的词义。

本发明实施例中预设维度的词义向量每一维度中的值可以采用0-1之间的数值表示(包括0与1)，某一维度上的数值越大表明某一词在该维度上的词义的概率越大，某一维度上的数值越小表明某一词在该维度上的词义的概率越小。

每一个语义向量计算模型将各自接收到的语句中的每个词转化为相同维度的词义向量，任意两个词义向量在对应相同维度上具有相同的词义。

S220、利用任一个语义向量计算模型，将各自接收到的语句中的每个词对应的预设维度的词义向量进行组合，得到各自接收到的语句对应的预设维度的语义向量；

本发明实施例中一语义向量计算模型，将接收到的一语句对应的多个预设维度的词义向量中同维度的数值相加，并将各自相加得到的结果除以该语句中词义向量的个数，得到该语句对应的预设维度的语义向量。通过上述方式，将一语句对应的多个预设维度的词义向量转化成该语句对应的一个预设维度的语义向量。

S230、将任一个语义向量计算模型得到的预设维度的语义向量输入到预先训练的相似度计算模型中；

S240、利用所述相似度计算模型，计算任意两个预设维度的语义向量对应的差值语义向量以及乘积语义向量；

本发明实施例将任意两个预设维度的语义向量做差值运算，并将差值运算结果取绝对值，得到差值语义向量，差值语义向量能够反映任意两个预设维度的语义向量的差异度。

本发明实施例将任意两个预设维度的语义向量做乘积运算，得到乘积语义向量，乘积语义向量能够反映任意两个预设维度的语义向量的相似度。

S250、利用所述相似度计算模型，将所述任意两个预设维度的语义向量、所述任意两个预设维度的语义向量对应的差值语义向量以及乘积语义向量进行向量拼接，得到一个高维分布式向量；

本发明实施例中将任意两个预设维度的语义向量、所述任意两个预设维度的语义向量对应的差值语义向量以及乘积语义向量执行向量拼接的运算，即将任意两个预设维度的语义向量、所述任意两个预设维度的语义向量对应的差值语义向量以及乘积语义向量执行向量四个向量依次拼接成一个高维分布式向量，当然，本申请对任意两个预设维度的语义向量、所述任意两个预设维度的语义向量对应的差值语义向量以及乘积语义向量执行向量四个向量的拼接顺序并不做具体限定。拼接之后得到的高维分布式向量的维度为以上四个向量的维度之和。

S260、利用所述相似度计算模型，将所述高维分布式向量转化为低维分布式向量；

本发明实施例将所述高维分布式向量输入到相似度计算模型神经网络的全连接层，从而利用权值矩阵和偏移向量将高维分布式向量降维成低维分布式向量。

需要说明的是，本发明实施例利用神经网络神经元的非线性变换公式a＝σ(w^Tx+b)对高维分布式向量x进行降维，得到低维分布式向量a，其中w^T为权值矩阵，b为偏移向量。

假设高维分布式向量维度为n×k，目标输出的低维分布式向量维度为k×m，那么权值矩阵就是一个m×n维的矩阵，偏移向量就是一个n维向量，权值矩阵和偏移向量初始化时采用随机或者全0初始化。

S270、利用所述相似度计算模型，将所述低维分布式向量转化为二分类向量；

具体的，本发明实施例利用相似度计算模型中神经网络softmax层将低维分布式向量进行二分类，得到二分类向量。本发明实施例中的低维分布式向量优选为二维的分布式向量，按照预设映射规则，将二维的分布式向量转化为二分类向量。

S280、利用所述相似度计算模型，依据所述二分类向量得到任意两个语句的相似度。

本发明实施例利用所述相似度计算模型，按照相似度确定规则，通过对二分类向量不同维度上的数值进行分析，从而得到任意两个语句的相似度。

本发明上述实施例通过利用所述相似度计算模型，计算任意两个预设维度的语义向量对应的差值语义向量以及乘积语义向量，从而得到任意两个预设维度的语义向量之间的差异度和相似性，进而利用所述相似度计算模型，将所述任意两个预设维度的语义向量、所述任意两个预设维度的语义向量对应的差值语义向量以及乘积语义向量进行向量拼接，得到一个高维分布式向量，高维分布式向量能够反映任意两个预设维度的语义向量的大小，也能够反映任意两个预设维度的语义向量之间的差异度和相似性，最后利用所述相似度计算模型，将所述高维分布式向量转化为低维分布式向量；利用所述相似度计算模型，将所述低维分布式向量转化为二分类向量。从而在进行相似度计算过程中充分考虑了两个语句之间语义的差异度和相似性，能够得到更加准确的语义相似度计算结果。基于上述技术方案，本发明实施例首先按照上述方式将至少两个语义向量计算模型组合成语义向量计算模型组，所述语义向量计算模型组中的至少两个语义向量计算模型共用一套模型参数，为了拟合目标任务文本的语义特征，得到精确的语义向量计算结果，本发明实施例需要对语义向量计算模型组进行预先训练，主要是通过逐步缩小训练所用语料范围的方式，对语义向量计算模型组进行训练，使得语义向量计算模型组逐步拟合目标任务文本的语义特征。

具体训练过程为：根据迁移学习思想，首先利用通用语料对语义向量计算模型组进行训练，得到具有通用语义向量计算功能的语义向量计算模型组，再将其迁移至目标领域，利用目标领域语料对语义向量计算模型组进行训练，得到具有目标语义向量计算功能的语义向量计算模型组，最后迁移至目标任务文本数据领域，利用目标任务文本数据对语义向量计算模型组进行训练，得到具有目标任务文本语义向量计算功能的语义向量计算模型组。通过上述训练过程，逐步将语义向量计算模型组训练到适用于目标任务文本语义向量计算领域中，使其对目标任务文本语义向量计算更加精确。

可选的，为了进一步提高语义向量计算模型组的模型性能，本发明实施例在上述公开的模型训练的基础上，提出了语义向量计算模型组与相似度计算模型联合训练的方式，使得语义向量计算模型组捕获下游相似度计算模型所关注的相关语义信息，从而利用下游相似度计算模型的训练结果来优化语义向量计算模型组，从而提高语义向量计算模型组的模型性能。

本发明实施例还公开了如下语义向量计算模型组以及相似度计算模型的训练过程：如图4，其示出了本申请一种语义向量计算模型组以及相似度计算模型的训练方法的一个实施例的流程示意图，本实施例包括：

S300、获取样本集中的训练样本语句以及任意两个训练样本语句对应的参考输出语句相似度；

本发明实施例预先获取大量的训练样本语句，并对任意两个训练样本语句对应的语句相似度进行人工标注，得到任意两个训练样本语句对应的参考输出语句相似度。在人工标注过程中，可以对任意两个训练样本语句对应的参考输出语句相似度分别进行正样例以及负样例的标注。从而任意两个训练样本语句对应的参考输出语句相似度中包含了正样例语句相似度，也包含了负样例语句相似度。

S310、将所述训练样本语句输入到语义向量计算模型组中进行训练，得到训练样本语句各自对应的预测语义向量；

利用语义向量计算模型组按照上述实施例公开的语义向量计算方式，对训练样本语句进行语义向量计算，得到训练样本语句各自对应的预测语义向量。

S320、将训练样本语句各自对应的预测语义向量输入到相似度计算模型中进行训练，得到任意两个训练样本语句对应的预测语句相似度；

将训练样本语句各自对应的预测语义向量输入到相似度计算模型中，按照上述实施例公开的相似度计算方式，对任意两个训练样本语句对应的预测语义向量进行相似度计算，得到任意两个训练样本语句对应的预测语句相似度。

S330、利用所述预测语句相似度以及参考输出语句相似度，得到相似度损失值；

利用损失函数，通过对预测语句相似度以及参考输出语句相似度的比较，得到相似度损失值，相似度损失值能够体现预测语句相似度以及参考输出语句相似度之间的差异。

S340、利用所述相似度损失值对所述相似度计算模型的模型参数以及所述语义向量计算模型组的模型参数进行调整；

利用所述相似度损失值依次反向优化相似度计算模型以及语义向量计算模型组，从而对所述相似度计算模型的模型参数以及所述语义向量计算模型组的模型参数进行调整。

本发明实施例中公开的利用所述相似度损失值对所述相似度计算模型的模型参数以及所述语义向量计算模型组的模型参数进行调整的过程包括：

利用所述相似度损失值，依次反向计算所述相似度计算模型中每层神经元的神经元参数的梯度以及所述语义向量计算模型组中每层神经元的神经元参数的梯度；按照所述相似度计算模型中每层神经元的神经元参数梯度下降的方向，对所述相似度计算模型中每层神经元的神经元参数进行调整；按照所述语义向量计算模型组中每层神经元的神经元参数梯度下降的方向，对所述语义向量计算模型组中每层神经元的神经元参数进行调整。

具体的，本发明实施例利用链式法则，对正向传播时计算的各类函数进行反向链式求导，计算出相似度计算模型中每层神经元的神经元参数的梯度以及所述语义向量计算模型组中每层神经元的神经元参数的梯度。

语义向量计算模型组中每层神经元的神经元参数的梯度指的是语义向量计算模型组中包含至少两个语义向量计算模型中每层神经元的神经元参数。

S350、返回执行所述将所述训练样本语句输入到语义向量计算模型组中进行训练，得到训练样本语句各自对应的预测语义向量的步骤继续训练，直至得到相似度损失值呈现收敛状况时的相似度计算模型的模型参数作为目标相似度计算模型参数，并将相似度损失值呈现收敛状况时的语义向量计算模型组的模型参数作为目标语义向量计算模型参数，并停止训练。

本申请通过不断的训练，使得到相似度损失值达到最小值，即使得相似度损失值呈现收敛状况时停止训练。

通过上述模型训练过程，使得语义向量计算模型组与相似度计算模型进行联合训练，使得语义向量计算模型组捕获下游相似度计算模型所关注的相关语义信息，从而利用下游相似度计算模型的训练结果来优化语义向量计算模型组，提高语义向量计算模型组以及相似度计算模型的模型性能。通过上述训练方式，能够使得相似度计算模型的正确率有2.5％以上的性能提升。

对应本发明的一种语句相似度计算方法，本发明还提供了一种语句相似度计算装置。如图5所示，其示出了本发明一种语句相似度计算装置的一种组成结构示意图，该装置可以包括：

语句输入单元100，用于将待计算相似度的至少两个语句输入到预先构建的语义向量计算模型组中，所述语义向量计算模型组中包含至少两个语义向量计算模型，所述语义向量计算模型组中的至少两个语义向量计算模型共用一套模型参数，其中，不同语句对应输入到所述语义向量计算模型组中的不同语义向量计算模型中；

语义向量编码单元110，用于利用任一个语义向量计算模型，将各自接收到的语句分别编码为预设维度的语义向量；

语义向量输入单元120，用于将任一个语义向量计算模型得到的预设维度的语义向量输入到预先训练的相似度计算模型中；

语义向量转化单元130，用于利用所述相似度计算模型，将任意两个预设维度的语义向量转化为一个二分类向量；

相似度计算单元140，用于利用所述相似度计算模型，依据所述二分类向量得到任意两个语句的相似度。

所述语义向量编码单元包括：

所述语义向量转化单元包括：

还包括：模型训练单元，所述模型训练单元用于：

所述模型训练单元具体用于：

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语句相似度计算方法，其特征在于，所述方法包括：

利用任一个语义向量计算模型，通过对各自接收到的语句进行语义分析，将各自接收到的语句分别编码为预设维度的语义向量，不同维度的语义向量代表不同的语义，所述预设维度的语义向量用于对一个语句的语义进行表示；

利用所述相似度计算模型，依据所述二分类向量得到任意两个语句的相似度；

所述利用所述相似度计算模型，将任意两个预设维度的语义向量转化为一个二分类向量的过程包括：

2.根据权利要求1所述的方法，其特征在于，所述利用任一个语义向量计算模型，通过对各自接收到的语句进行语义分析，将各自接收到的语句分别编码为预设维度的语义向量的过程包括：

3.根据权利要求1所述的方法，其特征在于，所述语义向量计算模型组以及相似度计算模型的训练过程包括：

4.根据权利要求3所述的方法，其特征在于，所述利用所述相似度损失值对所述相似度计算模型的模型参数以及所述语义向量计算模型组的模型参数进行调整的过程包括：

5.一种语句相似度计算装置，其特征在于，所述装置包括：

语义向量编码单元，用于利用任一个语义向量计算模型，通过对各自接收到的语句进行语义分析，将各自接收到的语句分别编码为预设维度的语义向量，不同维度的语义向量代表不同的语义，所述预设维度的语义向量用于对一个语句的语义进行表示；

相似度计算单元，用于利用所述相似度计算模型，依据所述二分类向量得到任意两个语句的相似度；

所述语义向量转化单元包括：

6.根据权利要求5所述的装置，其特征在于，所述语义向量编码单元包括：

7.根据权利要求5所述的装置，其特征在于，还包括：模型训练单元，所述模型训练单元用于：

8.一种计算机设备，其特征在于，所述计算机设备包括：

处理器和存储器；

所述处理器，用于调用并执行所述存储器中存储的程序；

所述存储器用于存储所述程序，所述程序至少用于：