CN114896962A

CN114896962A - 多视角句子匹配模型、应用方法和相关装置

Info

Publication number: CN114896962A
Application number: CN202210462525.1A
Authority: CN
Inventors: 张哲�; 张涛; 冷洪勇; 钱育蓉; 韩坤栋; 彭玻
Original assignee: Xinjiang University
Current assignee: Xinjiang University
Priority date: 2022-04-28
Filing date: 2022-04-28
Publication date: 2022-08-12

Abstract

本发明涉及一种句子匹配技术领域，是一种多视角句子匹配模型、应用方法和相关装置，前者包括输入编码模块，将句子进行编码，获取句子的原始特征表达；等长交互注意力模块，从两个不同的方向捕获句子间的高层交互特征，学习句子的交互表示；多特征空间信息提取模块，捕获句子底层特征的细节性信息；预测模块利用句子的交互表示和细节性信息，对两个句子的语义关系进行判别。本发明利用交互注意力机制获取句子的注意力信息，利用等长卷积运算减少每个等长交互单元的时间和空间复杂度，加速高层特征的捕获过程；通过多特征空间信息提取模块获得底层特征中包含的大量的细节性信息，提高两个句子的语义关系判别的精确度。

Description

多视角句子匹配模型、应用方法和相关装置

技术领域

本发明涉及一种句子匹配技术领域，是一种多视角句子匹配模型、应用方法和相关装置。

背景技术

句子匹配是自然语言处理(NLP)领域中的一项关键任务，旨在判断两个句子是否有语义联系。该任务不仅是自然语言推理(NLI)和释义识别(PI)等下游任务的基础，其在实际应用中也起到了关键性的作用，例如智能问答和信息检索等。因为句子匹配的实际性意义，它在NLP领域中引起了学者的广泛关注。

近几年，深度学习已经成为研究句子匹配的主要方法，该方法不仅可以节省大量的人力而且可以深度提取句子的语义特征。在深度神经网络中，基于注意机制的网络结构在句子匹配任务中取得了有竞争力的结果，该结构通过设计多层注意力网络来获取句子的高层语义特征，然后对句间关系进行判别。其中，多层注意力网络在提高模型性能上发挥着至关重要的作用。

然而，堆叠多层注意力网络也存在着一些突出的问题，第一，多层注意力网络带来了更大的时间和空间复杂度，网络训练过程变得繁琐且训练时间变得漫长。第二，多层注意力网络将底层特征提取为高层特征时，会丢失部分底层特征含有的细节性信息。第三，堆叠多层注意力网络会增加网络结构的深度，网络将面临着更多的梯度问题。

发明内容

本发明提供了一种多视角句子匹配模型、应用方法和相关装置，克服了上述现有技术之不足，其能有效解决现有基于多层注意力网络的句子匹配方法，存在提取高层语义特征时，会丢失部分底层特征含有的细节性信息的问题。

本发明的技术方案之一是通过以下措施来实现的：一种多视角句子匹配模型，包括输入编码模块、等长交互注意力模块、多特征空间信息提取模块和预测模块；

输入编码模块，将句子进行编码，获取句子的原始特征表达；

等长交互注意力模块，从两个不同的方向捕获句子间的高层交互特征，学习句子的交互表示；

多特征空间信息提取模块，捕获句子底层特征的细节性信息；

预测模块，利用句子的交互表示和细节性信息，对两个句子的语义关系进行判别。

下面是对上述发明技术方案的进一步优化或/和改进：

上述等长交互注意力模块包括多个等长交互单元，多个等长交互单元从两个不同的方向捕获句子间的高层交互特征，学习句子的交互表示，其中每个等长交互单元均包括第一子模块、第二子模块和第三子模块；

第一子模块，利用交互注意力机制获取句子的注意力信息；

第二子模块，利用线性层对注意力信息进行线性处理；

第三子模块，将线性处理后的注意力信息进行等长卷积运算，融合句中每个词的上下文信息，捕获句子间的高层交互特征，学习句子的交互表示。

上述多特征空间信息提取模块包括空间映射单元、特征提取单元；

空间映射单元，根据特定的空间数对底层特征进行划分，并经线性层后将底层特征映射到不同的特征空间；

特征提取单元，对空间映射后的底层特征进行二维卷积运算，捕获和融合不同特征空间的细节性信息，并使用最大池化运算将细节性信息进行聚合。

上述输入编码模块利用孪生结构的BiLSTM网络对句子进行编码，获取句子的原始特征表达。

上述预测模块包括第一处理单元、第二处理单元和结果融合单元；

第一处理单元，将句子的交互表示转换为向量，且对其进行运算，产生运算后的特征，并将句子的交互表示与运算后的特征拼接生成句子的高层语义特征；

第二处理单元，将细节性信息进行运算，产生运算后的特征，将细节性信息与运算后的特征拼接生成句子的底层语义特征；

结果融合单元，将句子的高层语义特征和底层语义特征分别通过两个不同多层感知器进行融合，并通过归一化函数获得最终判别结果。

本发明的技术方案之二是通过以下措施来实现的：一种多视角句子匹配模型的训练方法，包括：

设置多视角句子匹配模型的中输入编码模块、等长交互注意力模块、多特征空间信息提取模块和预测模块的初始参数；

获取训练样本，利用训练样本对多视角句子匹配模型进行训练，获得训练结果；

利用损失函数对训练结果进行分析；

根据损失函数的分析结果，调节模型参数，选取最优的参数，输出多视角句子匹配模型。

下面是对上述发明技术方案的进一步优化或/和改进：

上述损失函数为交叉熵函数，具体如下所示：

其中，

是预测概率，y是真实标签，N是样本类别数。

本发明的技术方案之三是通过以下措施来实现的：一种多视角句子匹配方法，包括：

获取待进行语义关系判别的两个句子；

将两个句子输入多视角句子匹配模型，得到两个句子的语义关系判别结果。

本发明的技术方案之四是通过以下措施来实现的：一种多视角句子匹配模型的训练装置，包括：

参数设置单元，设置多视角句子匹配模型的中输入编码模块、等长交互注意力模块、多特征空间信息提取模块和预测模块的初始参数；

第一训练单元，获取训练样本，利用训练样本对多视角句子匹配模型进行训练，获得训练结果；

分析单元，利用损失函数对训练结果进行分析；

第二训练单元，根据损失函数的分析结果，调节模型参数，选取最优的参数，输出多视角句子匹配模型。

本发明的技术方案之五是通过以下措施来实现的：一种多视角句子匹配装置，包括：

原始数据获取单元，获取待进行语义关系判别的两个句子；

执行单元，将所述两个句子输入多视角句子匹配模型，得到两个句子的语义关系判别结果。

本发明采用交互注意力和多特征空间信息提取的方法来提高模型的性能，采用等长交互注意力模块和多特征空间信息提取模块来判别两个句子之间的语义相关性，完成两个句子之间的语义关系判别。其中将多个等长交互单元构成的网络结构称为等长交互注意力模块，等长交互单元中利用交互注意力机制获取句子的注意力信息，为了减少模型在时间和空间上的开销，让注意力信息在经过线性层后会进行等长卷积运算，从而减少每个等长交互单元的时间和空间复杂度，同时等长卷积运算可以融合句中每个词的上下文信息来提高语义特征的准确性，加速高层特征的捕获过程；并且通过多特征空间信息提取模块将底层语义特征映射到不同的特征空间，并采用二维卷积神经网络融合不同特征空间的信息，从而提高模型捕获细节性信息的能力，获得底层特征中包含的大量的细节性信息，有效避免现有技术中提取高层特征时会丢失部分底层特征含有的细节性信息的问题，从而提高两个句子的语义关系判别的精确度。

附图说明

附图1为本发明的一种模型结构示意图。

附图2为本发明的又一种模型结构示意图。

附图3为本发明的模型训练方法流程图。

附图4为本发明的句子匹配方法流程图。

附图5为本发明的模型训练装置结构示意图。

附图6为本发明的句子匹配装置结构示意图。

具体实施方式

本发明不受下述实施例的限制，可根据本发明的技术方案与实际情况来确定具体的实施方式。

下面结合实施例及附图对本发明作进一步描述：

实施例1：如附图1所示，本发明实施例公开了一种多视角句子匹配模型，包括输入编码模块、等长交互注意力模块、多特征空间信息提取模块和预测模块；

本发明实施例公开了一种多视角句子匹配模型，采用交互注意力和多特征空间信息提取的方法来提高模型的性能，采用等长交互注意力模块和多特征空间信息提取模块来判别两个句子之间的语义相关性，完成两个句子之间的语义关系判别。

具体的，设计等长交互注意力模块从两个不同的方向捕获句子间的高层交互特征，从而获得句子的高层语义特征，设计多特征空间信息提取模块获取句子的底层语义特征，设计预测模块融合高层语义特征和底层语义特征，有效避免现有技术中提取高层特征时会丢失部分底层特征含有的细节性信息的问题，从而提高两个句子的语义关系判别的精确度。

实施例2：如附图2所示，本发明实施例公开了一种多视角句子匹配模型，包括输入编码模块、等长交互注意力模块、多特征空间信息提取模块和预测模块；

(一)输入编码模块，将句子进行编码，获取句子的原始特征表达；

本实例中输入编码模块利用孪生结构的BiLSTM网络对句子进行编码，获取句子的原始特征表达，具体如下所示：

给出句子P和句子Q，其中句子P的长度为m，句子Q的长度为n，具体为句子P＝[p1,...,pi,...,pm]，句子Q＝[q1,...,qi,...,qn]，其中pi和qi分别代表着句子P和句子Q中的第i个词。根据嵌入表E，输入编码模块将句子P和句子Q中的词转换为向量表示，具体为EP＝[ep1,...,epi,...,epm]和EQ＝[eq1,...,eqj,...,eqn]，其中E属于R^∈v*d。v是字表的大小，d是嵌入维度。

由于在句子中，一个词的含义通常取决于其上下文信息和语序，为了能够捕获到具有时序性的上下文信息，本实施例中输入编码模块利用孪生结构的BiLSTM网络对句子进行编码，将BiLSTM网络最后一个状态的输出作为句子的原始特征表达，具体如下式：

经过BiLSTM后，句子可以表示为HP＝[hp1,...,hpi,...,hpm]和HQ＝[hq1,...,hqj,...,hqn]，故本实施例中HP和HQ为句子P和句子Q的原始特征表达。

(二)等长交互注意力模块，从两个不同的方向捕获句子间的高层交互特征，学习句子的交互表示；

本实例中等长交互注意力模块包括多个等长交互单元，多个等长交互单元从两个不同的方向捕获句子间的高层交互特征，学习句子的交互表示，其中每个等长交互单元均包括第一子模块、第二子模块和第三子模块；

第一子模块，利用交互注意力机制获取句子的注意力信息；

这里交互注意力机制的过程为现有公知技术，包括：A、信息输入；B、计算注意力分布；C、根据注意力分布来计算输入信息的加权平均。

本实施例从两个不同的方向上分别利用交互注意力机制获取句子的注意力信息，以其中一个方向利用交互注意力机制获取句子的注意力信息，则如下所示：

以Q->P方向为例，将句子Q的语义特征表达作为查询向量Query(Q)，句子P的语义特征表达作为键向量(K)和值向量(V)，通过计算Q与K的注意力分布并附加在V上来完成交互注意力的运算，Q与V越相关，则越可能被选中，可以描述为：

AQ->P＝Attention(Q,K,V)＝softmax(score(Q,K))V

其中AQ->P表示句子Q关注句子P来捕获交互特征，score()表示计算句子Q和句子P的注意力分布，Softmax为归一化函数。

第二子模块，利用线性层对注意力信息进行线性处理。

本实施例在利用交互注意力机制获取句子的注意力信息，及利用线性层对注意力信息进行线性处理后，设计有等长卷积运算，通过等长卷积运算能有效降低模型的计算量，还可以帮助模型捕获到更加准确的注意力信息，加速模型提取高层特征的过程。

即若输入序列的第n个元素为句子中第n个词的语义特征表达，利用等长卷积中大小为m的卷积核，可以将输入序列中的每个词及其左右(m-1/2)个词的上下文信息进行压缩，使得每个字都可以被上下文信息进行修饰以获得更高层次和更加准确的语义特征表达。

可以描述为：

equal-width convolution＝Conv1d(in_channels,out_channels,kernel_size＝m,padding＝(m-1)/2)

E_AQ->P＝equal-width convolution(AQ->P)

其中，in_channels为输入的通道数；out_channels为输出的通道数；kernel_size为卷积核的大小；padding是输入序列需要补齐的长度；E_AQ->P为等长卷积输出的序列。

这里等长交互注意力模块中随着交互次数的增加，一个句子的表征可以通过与另一个句子的依赖信息来编码表示，每个句子都以有向的方式关注另一个句子的信息，从而捕获到具有方向性的注意力权重和语义信息。

(三)多特征空间信息提取模块，捕获句子底层特征的细节性信息。

本实施例中随着注意力网络层数的增加，底层特征逐渐被抽象为高层特征。然而，底层特征含有大量的细节性信息，对判别句间语义关系发挥着重要的作用。因此本实施例中设计有多特征空间信息提取模块，多特征空间信息提取模块包括空间映射单元、特征提取单元；

A、空间映射单元，根据特定的空间数对底层特征进行划分，并经线性层后将底层特征映射到不同的特征空间；

这里为了更好的提取不同特征空间的细节性信息，我们对底层语义特征进行维度变换，即对句子的底层特征进行最大池化，根据特定的空间数对底层特征进行划分，并经线性层后将底层特征映射到不同的特征空间，可以描述为：

R_H＝Liner(Reshape(H，m))

其中m为需要映射的特征空间数；Reshape()为维度变换函数。Liner()为线性层。

B、特征提取单元，对空间映射后的底层特征进行二维卷积运算，捕获和融合不同特征空间的细节性信息，并使用最大池化运算将细节性信息进行聚合。

由于捕获不同特征空间的细节性信息不仅可以丰富最终的语义特征，也可以将细节性的差异信息进行放大，提高模型的判别性能。因此，这里将空间映射后的底层特征进行二维卷积运算，从而捕获和融合不同特征空间的细节性信息，并使用最大池化运算将细节性信息进行聚合；可以描述为：

C-H＝Conv2d(R_H)

F-H＝MaxPool(C-H)

M_HQ＝R_H+F-H

其中Conv2d()为二维卷积运算；MaxPool()为最大池化操作；M_HQ为句子Q的细节性底层特征。

(四)预测模块，利用句子的交互表示和细节性信息，对两个句子的语义关系进行判别。

本实施例中预测模块包括第一处理单元、第二处理单元和结果融合单元；

A、第一处理单元，将句子的交互表示转换为向量，且对其进行运算，产生运算后的特征，并将句子的交互表示与运算后的特征拼接生成句子的高层语义特征；

由于在等长交互注意力模块处理或一个句子的表征通过与另一个句子的依赖信息来编码表示，故第一处理单元执行最大池化运算，将句子的交互表示转换为固定的向量表达，然后对转换后的向量分别执行减法和点乘运算，产生运算后的特征，最后将句子的交互表示与运算后的特征拼接生成句子的高层语义特征，可以描述为：

Substraction＝(M_HQ-M_HP)·(M_HQ-M_HP)

Multiplication＝(M_HQ)·(M_HP)

MF_H＝[M_H；M_HP；Substraction；Multiplication]

其中，M_HQ和M_HP分别为经过最大池化运算后的特征；·为点乘操作；MF_H为句子的语义特征。

B、第二处理单元，将细节性信息进行运算，产生运算后的特征，将细节性信息与运算后的特征拼接生成句子的底层语义特征；这里将细节性信息进行运算即为进行减法和点乘运算；

上述过程可以描述为：

Substraction＝(Mu_HQ-Mu_HP)·(Mu_HQ-Mu_HP)

Multiplication＝(Mu_HQ)·(Mu_HP)

MUF_H＝[Mu_HQ；Mu_HP；Substraction；Multiplication]

其中Mu_HQ和Mu_HP分别为句子P和Q的细节性语义特征，MUF_H为句子的底层语义特征。

C、结果融合单元，将句子的高层语义特征和底层语义特征分别通过两个不同多层感知器进行融合，并通过归一化函数获得最终判别结果。这里可以设置一个超参数K将两个MLP的分类结果进行融合。

上述过程可以描述为：

output＝k*M_output+(1-k)*Mu_output

F_output＝SoftMax(output)

其中M_output为模型使用句子的语义特征产生的类别结果，Mu_outpu为模型使用句子的底层语义特征产生的类别结果，SoftMax为归一化函数。

本实施例中为了缓解多层注意力网络带来的梯度问题，可以在等长交互注意力模块和多特征空间信息提取模块中引入残差连接机制，残差连接机制保留底层特征来缓解细节性信息丢失的问题。

实施例3：如附图3所示，本发明实施例公开了一种多视角句子匹配模型的训练方法，包括：

步骤S301，设置多视角句子匹配模型的中输入编码模块、等长交互注意力模块、多特征空间信息提取模块和预测模块的初始参数；

这里对输入编码模块、等长交互注意力模块、多特征空间信息提取模块和预测模块中初始参数的设置可如下所示：

输入编码模块中词的嵌入维度可为300，BiLSTM的所有隐藏层维度可为300，输出维度可为600，Relu激活层的维度可为600。等长交互注意力模块中等长卷积网络的卷积核大小可为3，输入和输出通道数均可为600。多特征空间信息提取模块中二维卷积神经网络的卷积核大小可为(3，3)，输出通道数可为200。两个MLP分类器均可包括两层线性层。对于句子相似数据集(LCQMC)。

对于模型学习，可使用β1＝0.9，β2＝0.999的AdamW优化器对模型进行优化。可将初始学习率设置为2e-4，采用Warmup策略对学习率进行控制。可加入Layer Normalization以保证特征分布的稳定性。为了防止过拟合现象，可使用dropout正则化。对于线性层，可按照均值为0，标准差为0.02的数值分布对权重进行初始化。

步骤S302，获取训练样本，利用训练样本对多视角句子匹配模型进行训练，获得训练结果；其中多视角句子匹配模型是实施例1和实施例2公开的多视角句子匹配模型；

步骤S303，利用损失函数对训练结果进行分析；

这里损失函数可为如下所示的交叉熵函数，目的是使模型预测标签尽可能与真实标签一致。

其中，

是预测概率，y是真实标签，N是样本类别数。

步骤S304，根据损失函数的分析结果，调节模型参数，选取最优的参数，输出多视角句子匹配模型。

实施例4：如附图4所示，本发明实施例公开了一种多视角句子匹配方法，包括：

步骤S401，获取待进行语义关系判别的两个句子；

步骤S402，将所述两个句子输入多视角句子匹配模型，得到两个句子的语义关系判别结果；其中，多视角句子匹配模型是如实施例1和实施例2公开的多视角句子匹配模型。

实施例5：如附图5所示，本发明实施例公开了一种多视角句子匹配模型的训练装置，包括：

第一训练单元，获取训练样本，利用训练样本对多视角句子匹配模型进行训练，获得训练结果；其中多视角句子匹配模型是实施例1和实施例2公开的多视角句子匹配模型；

分析单元，利用损失函数对训练结果进行分析；

本实施例可以根据上述方法示例对多视角句子匹配模型的训练装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

实施例6：如附图6所示，本发明实施例公开了一种多视角句子匹配装置，包括：

原始数据获取单元，获取待进行语义关系判别的两个句子；

执行单元，将所述两个句子输入多视角句子匹配模型，得到两个句子的语义关系判别结果；其中，多视角句子匹配模型是实施例1和实施例2公开的多视角句子匹配模型。

本实施例可以根据上述方法示例对多视角句子匹配装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

实施例7：本发明实施例公开了一种终端，包括处理器、存储器、通信接口，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行多视角句子匹配方法中步骤的指令。

实施例8，本发明实施例公开了一种服务器，包括处理器、存储器、通信接口，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行多视角句子匹配模型的训练方法中步骤的指令。

处理器可以是中央处理器CPU，通用处理器，数字信号处理器DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。

通信模块可以是收发器、RF电路或通信接口等。存储模块可以是存储器，可以包括但不限于：U盘、只读存储器、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本申请实施例还提供一种计算机存储介质，计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤，上述计算机包括电子设备。

本申请实施例还提供一种计算机程序产品，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包，上述计算机包括电子设备。

实施例9：本实施例使用3个数据集进行实验，以评估所提出模型的有效性，分别是：(1)用于句子相似度判断的LCQMC数据集；(2)用于释义识别的PAWSX-ZH和PAWSX-EN数据集。所有数据集的详细信息如表1表示。

其中LCQMC(A Large-scale Chinese Question Matching Corpus)一个用于中文问答系统的中文问题语义识别语料库。保留238,766个用于训练的问题对，保留8,802个用于验证的问题对和12,500个用于测试的问题对。

其中PAWSX(Paraphrase Adversaries from Word Scrambling extension)是谷歌提出的同义句识别数据库，包括法语、西班牙语、德语、中文、日文、韩语等。本实施例只使用中文和英文两个子数据集(PAWSX-ZH和PAWSX-EN)，两个数据集都由高度结构化的句子对组成，并且相互之间的词汇重叠度很高。对于PAWSX-ZH和PAWSX-EN，每个数据集我们保留49401个用于训练的句子对，保留2000个用于验证的句子对和2000个用于测试的句子对。

本实施例还引入句子匹配领域中最具有代表性的基线模型与本申请进行比较，基线模型包括BiLSTM：该模型从两个不同的方向对句子进行编码，并通过softmax函数对句子对的关系进行分类；BiMPM：该模型是基于注意力机制的模型，有着多种不同的文本交互方式；ABCNN：该模型将注意力机制与CNN融合，为其他NLP工作提供了较高的参考价值；RE2:该模型采用一种改进的增强残差机制来对齐句子的语义特征；ESIM：该模型采用了不同类型的LSTM网络对句子进行编码；BERT：该模型基于transformer的模型，它使用多头注意力机制提取多特征空间的信息，在多项NLP任务上达到了先进水平。

首先在LCQMC上进行实验，实验结果如表2所示，本申请模型(表中缩写为MECA模型)在LCQMC的测试集上达到了86.1％的准确率，在与BERT进行比较时本申请模型取得了较高的分数，相比于BERT，MECA模型有着更小的参数量，且不依赖于外部知识，但却获得了有竞争力的性能。为了更加全面的对比所提出的模型与其它对比模型的优劣，除准确率(Acc)外，我们还对比了精确率(P)、召回率(R)和F1值(F1)等评价指标，实验结果表明，MECA模型在精确率上表现突出，但召回率指标较低，相比BERT和DIIN分别有1％和0.2％的差距，这说明所提出的模型在个别类别上的学习能力较差，这也导致了MECA在F1评价指标上的欠缺，这种学习能力的欠缺是我们未来的改进方向。不过，从总体表现来说，MECA的性能依然优于所有对比模型。

其次在PAWSX-ZH和PAWS-EN上进行实验，实验结果如表3所示，本申请模型(表中缩写为MECA模型)在PAWSX-ZH和PAWS-EN的测试集上分别达到了87.7％和77.1％的准确率。

实施例10：本实施例统计了一些来自LCQMC测试集上的代表性示例，证明多特征空间信息提取模块的有效性，本申请模型(表中缩写为MECA模型)分别与移除多特征空间信息提取模块的模型(ECA)和ESIM进行比较，为了评估两个句子之间的细节性信息对语义关系判别的影响，本实施例计算了两个句子之间的BLEU分数，该分数主要用来衡量两个句子之间相同词的数量，假设两个句子之间的相同词越多，两个句子之间的BLEU分数就越高。

如表4所示，本实施例分别挑选了BLUE分数很高但整体语义相反和BLUE分数很低但整体语义相同的案例，三个模型的细节性信息提取结果如表5所示，从表5可以看出，本申请模型(表中缩写为MECA模型)在三组测试集均表现出了优异的性能。这些结果可以说明，MECA具有更好的提取细节性信息的能力。

以上技术特征构成了本发明的最佳实施例，其具有较强的适应性和最佳实施效果，可根据实际需要增减非必要的技术特征，来满足不同情况的需求。

表1数据集

Dataset	Train	Dev	Test
				LCQMC	238.2K	8.8K	12.5K
PAWSX-EN	49.4K	2K	2K
				PAWSX-ZH	49.4K	2K	2K

表2语义相似度实验结果

Model	P	R	F1	Acc
					CBOW	67.9	89.9	77.4	73.7
CNN	68.4	84.6	75.7	72.8
					BiLSTM	70.6	89.3	78.9	76.1
BIMPM	77.6	93.9	85.0	83.4
					Transformer	72.4	93.1	81.5	78.8
DIIN	78.3	93.7	85.3	83.9
					BERT	80.8	94.5	87.0	85.9
MECA	83.1	93.5	85.8	86.1

表3释义识别实验结果

表4代表性示例

表5验证结果

Claims

1.一种多视角句子匹配模型，其特征在于，包括输入编码模块、等长交互注意力模块、多特征空间信息提取模块和预测模块；

2.根据权利要求1所述的多视角句子匹配模型，其特征在于，所述等长交互注意力模块包括多个等长交互单元，多个等长交互单元从两个不同的方向捕获句子间的高层交互特征，学习句子的交互表示，其中每个等长交互单元均包括第一子模块、第二子模块和第三子模块；

第一子模块，利用交互注意力机制获取句子的注意力信息；

第二子模块，利用线性层对注意力信息进行线性处理；

第三子模块，将线性处理后的注意力信息进行等长卷积运算，融合句中每个词的上下文信息，捕获句子间的高层交互特征，学习句子的交互表示；

或/和，所述多特征空间信息提取模块包括空间映射单元、特征提取单元；

3.根据权利要求1或2所述的多视角句子匹配模型，其特征在于，所述输入编码模块利用孪生结构的BiLSTM网络对句子进行编码，获取句子的原始特征表达；

或/和，所述预测模块包括第一处理单元、第二处理单元和结果融合单元；

4.一种多视角句子匹配模型的训练方法，其特征在于，包括：

获取训练样本，利用训练样本对多视角句子匹配模型进行训练，获得训练结果；其中多视角句子匹配模型是如权利要求1至3中任意一项所述的多视角句子匹配模型；

利用损失函数对训练结果进行分析；

5.根据权利要求4所述的多视角句子匹配模型的训练方法，其特征在于，所述损失函数为交叉熵函数，具体如下所示：

其中，

是预测概率，y是真实标签，N是样本类别数。

6.一种多视角句子匹配方法，其特征在于，包括：

获取待进行语义关系判别的两个句子；

将所述两个句子输入多视角句子匹配模型，得到两个句子的语义关系判别结果；其中，多视角句子匹配模型是如权利要求1至3中任意一项所述的多视角句子匹配模型。

7.一种多视角句子匹配模型的训练装置，所述多视角句子匹配模型的训练装置使用如权利要求4至5中任意一项所述的多视角句子匹配模型的训练方法，其特征在于，包括：

第一训练单元，获取训练样本，利用训练样本对多视角句子匹配模型进行训练，获得训练结果；其中多视角句子匹配模型是如权利要求1至3中任意一项所述的多视角句子匹配模型；

分析单元，利用损失函数对训练结果进行分析；

8.一种多视角句子匹配装置，所述多视角句子匹配装置使用如权利要求6所述的多视角句子匹配方法，其特征在于，包括：

原始数据获取单元，获取待进行语义关系判别的两个句子；

执行单元，将所述两个句子输入多视角句子匹配模型，得到两个句子的语义关系判别结果；其中，多视角句子匹配模型是如权利要求1至3中任意一项所述的多视角句子匹配模型。

9.一种终端，其特征在于，包括处理器、存储器、通信接口，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行如权利要求6所述的方法中步骤的指令。

10.一种服务器，其特征在于，包括处理器、存储器、通信接口，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行如权利要求4或5所述的方法中步骤的指令。