CN112906398A

CN112906398A - 句子语义匹配方法、系统、存储介质和电子设备

Info

Publication number: CN112906398A
Application number: CN202110051094.5A
Authority: CN
Inventors: 张琨; 吴乐; 汪萌
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2021-01-14
Filing date: 2021-01-14
Publication date: 2021-06-04
Anticipated expiration: 2041-01-14

Abstract

本发明提供一种句子语义匹配方法、系统、存储介质和电子设备，涉及句子语义匹配技术领域。本发明包括预处理待分析句子对，获取待分析句子对的向量表示；将所述向量表示输入预先训练的语义关系模型，获取待分析句子对语义匹配关系的概率；将所述概率作为待分析句子对语义关系的预测结果。基于对比学习的句子语义匹配方法，不仅通过分析输入句子的文本信息建模句子之间的语义关系；同时，通过对比属于同一标签和属于不同标签的句子对之间的关系(即关系的关系)，从而挖掘出句子对中与标签相关联的不变的特征，通过对这些特征的充分利用，实现了更为准确的句子语义表示以及句子语义关系的预测。

Description

句子语义匹配方法、系统、存储介质和电子设备

技术领域

本发明涉及句子语义匹配技术领域，具体涉及一种句子语义匹配方法、系统、存储介质和电子设备。

背景技术

句子语义匹配，即识别两个句子之间的语义关系，是自然语言处理的基础任务之一，在很多的自然语言处理任务中都有着重要体现。

目前，句子语义匹配技术主要包括两种：第一种为基于句子文本，主要形式为通过不同类型的神经网络结构编码句子语义以及进行语义匹配的度量。第二种为基于句子文本和标签编码，主要形式为不仅对句子文本进行处理，同时通过不同的方法编码整个标签集合，通过显式分析输入句子和标签之间的关系进行最终的语义关系分类。例如输入句子和标签联合建模，利用便签的编码影响整个句子的编码，从而保证生成的句子语义表示向量与标签的编码在同一空间，最终保证了更好的分类；再如多任务学习方法中通过将每个任务的标签都映射为一个向量表示，在训练了几个相关任务之后，针对新的任务，能够直接使用之前得到的结果。

但是，上述两种句子语义匹配技术均没有充分利用输入句子对的标签信息，无法准确预测句子语义表示。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种句子语义匹配方法、系统、存储介质和电子设备，解决了现有句子语义匹配技术无法准确预测句子语义表示的技术问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

一种句子语义匹配方法，包括：

S1、预处理待分析句子对，获取待分析句子对的向量表示；

S2、将所述向量表示输入预先训练的语义关系模型，获取待分析句子对语义匹配关系的概率；

S3、将所述概率作为待分析句子对语义关系的预测结果。

优选的，所述步骤S2具体包括：

S21、将所述向量表示输入预先训练的语义关系模型，获取待分析句子对的全局语义向量表示和局部语义向量表示；

S22、拼合所述全局语义向量表示和局部语义向量表示，获取待分析句子对的语义关系向量表示；

S23、根据所述语义关系向量表示，采用深度学习方法，获取待分析句子对语义匹配关系的概率。

优选的，所述语义关系模型的构建包括：

预处理多个句子对，获取所述多个句子对相应的向量表示；

根据所述向量表示，获取所述多个句子对的全局语义向量表示和局部语义向量表示；

拼合每个句子对的全局语义向量表示和局部语义向量表示，获取对应的语义关系向量表示；

根据任意单个句子对的语义关系向量表示，采用深度学习方法，获取该单个句子对语义匹配关系的概率；

根据任意两个句子对的语义关系向量表示，分析该两个句子对的关系；

根据三个句子对的语义关系向量表示，采用距离计算函数，分别计算锚点句子对与其他两个句子对的相似性，所述三个句子对包括锚点句子对、正例句子对和反例句子对；

根据任意单个句子对语义匹配关系的概率、任意两个句子对的关系以及锚点句子对与其他两个句子对的相似性构建所述语义关系模型。

优选的，所述语义关系模型的损失函数L为：

其中，N表示为整个训练数据中的样本组数；β表示为不同优化目标的权重系数，j表示第j组训练数据；

表示为任意单个句子对的语义关系预测优化目标：

其中，i表示第i个样本；y_i表示模型预测的单个句子对的语义关系，

表示单个句子对的真实语义关系；

表示句子a的向量表示；

表示句子b的向量表示；

表示预测单个句子对语义匹配关系的概率；

表示任意两个句子对的关系预测优化目标：

其中，

表示模型预测的两个句子对的关系，

表示两个句子对的真实关系；

表示第i组任意两个句子对；

表示任意两个句子对的语义关系是否相同的概率；

L_d表示包括锚点句子对的三个句子对的语义关系相似性优化目标：

L_d＝max((d_ap-d_an+α)_i，0)

其中，d_ap表示锚点句子对与正例句子对的距离；d_an表示锚点句子对与反例句子对的距离；α表示边界，保证d_ap与d_an之间始终有差异。

优选的，所述步骤S21中获取待分析句子对的全局语义向量表示和局部语义向量表示具体包括：

拼合所述待分析句子对中每个句子的向量表示，输入预训练的BERT模型，并将得到的结果加权求和，获取待分析句子对中每个词的语义向量表示和全局语义向量表示；

将所述待分析句子对中每个词的语义向量表示输入预先训练的卷积神经网络模型，并将得到的结果一一拼接，获取待分析句子对的局部语义向量表示。

优选的，所述步骤S22具体包括：

拼合待分析句子对的全局语义向量表示和局部语义向量表示，获取对应语义关系向量表示；

根据所述对应语义关系向量表示，采用深度学习方法，获取待分析句子对语义匹配关系的概率。

一种句子语义匹配系统，包括：

预处理模块，用于预处理待分析句子对，获取待分析句子对的向量表示；

求解模块，用于将所述向量表示输入预先训练的语义关系模型，获取待分析句子对语义匹配关系的概率；

输出模块，用于将所述概率作为待分析句子对语义关系的预测结果。

一种存储介质，其存储用于句子语义匹配的计算机程序，其中，所述计算机程序使得计算机执行如上述任一项所述的句子语义匹配方法。

一种电子设备，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如上述任一项所述的句子语义匹配方法。

(三)有益效果

本发明提供了一种句子语义匹配方法、系统、存储介质和电子设备。与现有技术相比，具备以下有益效果：

本发明包括预处理待分析句子对，获取待分析句子对的向量表示；将所述向量表示输入预先训练的语义关系模型，获取待分析句子对语义匹配关系的概率；将所述概率作为待分析句子对语义关系的预测结果。基于对比学习的句子语义匹配方法，不仅通过分析输入句子的文本信息建模句子之间的语义关系；同时，通过对比属于同一标签和属于不同标签的句子对之间的关系(即关系的关系)，从而挖掘出句子对中与标签相关联的不变的特征，通过对这些特征的充分利用，实现了更为准确的句子语义表示以及句子语义关系的预测。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种句子语义匹配方法的流程示意图；

图2为本发明实施例提供的一种句子语义匹配系统的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种句子语义匹配方法、系统、存储介质和电子设备，解决了现有句子语义匹配技术无法准确预测句子语义表示的技术问题，实现了更为准确的句子语义表示以及句子语义关系的预测。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

如图1所示，本发明实施例提供了一种句子语义匹配方法，包括：

S1、预处理待分析句子对，获取待分析句子对的向量表示；

S3、将所述概率作为待分析句子对语义关系的预测结果。

本发明实施例提供的基于对比学习的句子语义匹配方法，不仅通过分析输入句子的文本信息建模句子之间的语义关系；同时，通过对比属于同一标签和属于不同标签的句子对之间的关系(即关系的关系)，从而挖掘出句子对中与标签相关联的不变的特征，通过对这些特征的充分利用，实现了更为准确的句子语义表示以及句子语义关系的预测。

实施例：

第一方面，本发明实施例提供一种句子语义匹配方法，具体包括：

S1、预处理待分析句子对，获取待分析句子对的向量表示。

待分析句子对包括句子a和句子b。其中预处理自然语言句子a、b，获取句子a、b的向量表示：

其中，

表示句子s^a中的第i个词，l_a表示句子a包括l_a个词；

其中，

表示句子s^b中的第j个词，l_b表示句子b包括l_b个词

S2、将所述向量表示输入预先训练的语义关系模型，获取待分析句子对语义匹配关系的概率，包括：

S21、将所述向量表示输入预先训练的语义关系模型，获取待分析句子对的全局语义向量表示和局部语义向量表示，具体包括：

拼合所述待分析句子对中每个句子的向量表示，将两个句子用特殊符号“[SEP]”拼接起来，输入预训练的BERT模型，并将得到的结果加权求和，获取待分析句子对中每个词的语义向量表示和全局语义向量表示。该过程可以表述为如下形式：

其中，

表示第l层特殊符号“[SPE]”对应的输出表示；H^l表示第l层句子中每个词的语义向量表示；H表示待分析句子对的每个词的向量表示；v_g表示待分析句子对的全局语义向量表示；L表示预训练模型的层数。

在得到全局语义向量表示v_g之后，从局部关联的角度对句子语义进行建模，通过卷积神经网络CNN对句子中的短语或者局部结构等局部信息进行建模，作为对全局语义表示的一个补充。具体而言，利用全局语义向量表示中的每个词的语义表示H作为输入，然后利用拥有不同卷积核参数的CNN和池化操作实现了对局部内容的抽取和建模，最后再将得到的结果做一拼接，并通过一个非线性变化得到最终的局部语义向量表示v_l，该过程可以表示为如下形式：

H^k＝CNN_k(H)，k＝1，2，…，K (6)

v_l＝ReLu(Wh_concat+b) (10)

其中，[；]表示拼接操作；CNN_k表示使用大小为k的卷积核的CNN，K表示最大的卷积核值；max表示最大池化；vg表示平均池化；

表示对CNN_k的输出进行最大池化操作(取最大值)得到的结果，

表示对CNN_k的输出进行平均池化操作(取平均值)得到的结果；ReLu表示非线性激活函数，W，b为模型训练的参数，v_l表示待分析句子对的局部语义向量表示。

S22、拼合所述全局语义向量表示和局部语义向量表示，获取待分析句子对的语义关系向量表示，具体包括：

拼合待分析句子对的全局语义向量表示和局部语义向量表示，获取对应语义关系向量表示v：

v＝[v_g；v_l] (11)

所述采用深度学习方法，例如采用多层感知机进行分类，获取待分析句子对语义匹配关系的概率P：

P(y|(s^a，s^b))＝MLP1(v) (12)

其中，P(y|(s^a，s^b))表示预测的待分析句子对语义匹配关系的概率；MLP₁表示第一多层感知机；y表示模型预测的待分析句子对的语义关系。

S3、将所述概率作为待分析句子对语义关系的预测结果。

所述步骤S21中的语义关系模型的构建包括：

(1)预处理多个句子对，获取所述多个句子对相应的向量表示。

(2)根据所述向量表示，获取所述多个句子对的全局语义向量表示和局部语义向量表示。

(3)拼合每个句子对的全局语义向量表示和局部语义向量表示，获取对应的语义关系向量表示。

(4)根据任意单个句子对的语义关系向量表示，采用深度学习方法，获取该单个句子对语义匹配关系的概率

(5)根据任意两个句子对的语义关系向量表示v₁和v₂，分别对应两对输入句子

和

通过非线性变换将其映射到同一关系表示空间，通过启发式的匹配方法和多层感知机进行关系是否相同的判断，即分析该两个句子对的关系。该过程可表示如下：

其中，ReLu表示非线性激活函数；

分别表示语义关系向量表示v₁和v₂经过非线性变换映射到同一关系表示空间后的向量表示；W_r和b_r表示非线性变换中的参数；MLP₂表示第二多层感知机；⊙表示点乘操作；

表示两对句子的语义关系是否相同的概率；

表示两个句子对的真实语义关系。

(6)根据三个句子对的语义关系向量表示v_a、v_p和v_n，分别对应输入的三对句子锚点句子对

正例句子对

和反例句子对

采用距离计算函数，分别计算锚点句子对与其他两个句子对的相似性，即计算锚点句子对与其他两个句子对的距离。

其中，锚点句子对

和正例句子对

有相同的语义关系，锚点句子对

和反例句子对

之间有不同的语义关系，因此

称之为锚点句子对。

该环节要求有相同语义关系的句子对之间的距离应该更近一些，而有不同语义关系的句子对之间的距离应该更远一些，这样，句子的语义关系在表示时区分度就更高。该过程可以用如下公式表示：

其中，ReLu表示非线性激活函数；

分别表示语义关系向量表示v_a、v_p和v_n经过非线性变换映射到同一关系表示空间后的向量表示；W_d、b_d表示非线性变换中的参数；Dist表示距离计算函数，本发明实施例使用的是欧拉距离；d_ap表示锚点句子对与正例句子对的距离；d_an表示锚点句子对与反例句子对的距离。

当上述语义关系模型的损失函数不变时，模型收敛，模型的构建完成。所述损失函数L为：

表示为任意单个句子对的语义关系预测优化目标：

表示单个句子对的真实语义关系；

表示句子a的向量表示；

表示句子b的向量表示；

表示预测单个句子对语义匹配关系的概率；

表示任意两个句子对的关系预测优化目标：

其中，

表示模型预测的两个句子对的关系，

表示两个句子对的真实关系；

表示第i组任意两个句子对；

表示任意两个句子对的语义关系是否相同的概率；

L_d＝max((d_ap-d_an+m)_i，0)

(7)根据任意单个句子对语义匹配关系的概率、任意两个句子对的关系以及锚点句子对与其他两个句子对的相似性构建所述语义关系模型。

第二方面，如图2所示，本发明实施例提供一种句子语义匹配系统，其特征在于，包括：

可理解的是，本发明提供的句子语义匹配系统与本发明提供的句子语义匹配方法相对应，其有关内容的解释、举例和有益效果等部分可以参考句子语义匹配方法中的相应部分，此处不再赘述。

第三方面，本发明实施例提供一种存储介质，其特征在于，其存储用于句子语义匹配的计算机程序，其中，所述计算机程序使得计算机执行如上述任一项所述的句子语义匹配方法。

第四方面，本发明实施例提供一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；以及

综上所述，与现有技术相比，具备以下有益效果：

1、本发明实施例包括预处理待分析句子对，获取待分析句子对的向量表示；将所述向量表示输入预先训练的语义关系模型，获取待分析句子对语义匹配关系的概率；将所述概率作为待分析句子对语义关系的预测结果。基于对比学习的句子语义匹配方法，不仅通过分析输入句子的文本信息建模句子之间的语义关系；同时，通过对比属于同一标签和属于不同标签的句子对之间的关系(即关系的关系)，从而挖掘出句子对中与标签相关联的不变的特征，通过对这些特征的充分利用，实现了更为准确的句子语义表示以及句子语义关系的预测。

2、本发明实施例与其他句子语义匹配关系预测方法相比，通过提出一个全新的关系的关系学习任务以及融合对比学习方法实现了对标签信息的充分利用，同时，本发明实施例对标签的规模没有额外的要求，泛化性能更好。而且本发明实施例并不是直接对标签进行编码，避免了额外的计算开销，具有更好的适应性。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。