CN113392191A

CN113392191A - 一种基于多维度语义联合学习的文本匹配方法和装置

Info

Publication number: CN113392191A
Application number: CN202110945838.8A
Authority: CN
Inventors: 张聪聪; 李浩浩; 李慎国; 梅一多; 马亚中; 孙雨辰
Original assignee: Zhongguancun Smart City Co Ltd
Current assignee: Zhongguancun Smart City Co Ltd
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2021-09-14
Anticipated expiration: 2041-08-18
Also published as: CN113392191B

Abstract

本发明实施例提供的一种基于多维度语义联合学习的文本匹配方法和装置，该方法将待匹配的文本语句对进行多维语义预处理，获得包含多维语义信息的文本序列；然后将文本序列输入至transformer编码器进行编码，得到每个所述文本序列对应的多维向量表征，再根据所述多维向量表征和对应标签构建损失函数；通过所述损失函数对深度学习模型进行训练，得到多维度语义联合学习模型；将待匹配的预测文本语句对输入至所述多维度语义联合学习模型进行计算，判断所述预测文本语句对是否匹配。本发明对文本语句对分别从多个角度获得语义信息，然后再根据多维语义信息进行深度模型学习，提高了模型训练的准确度，实现了对文本多维度端到端的高效匹配。

Description

一种基于多维度语义联合学习的文本匹配方法和装置

技术领域

本发明涉及文本匹配技术领域，具体涉及一种基于多维度语义联合学习的文本匹配方法和装置。

背景技术

当前人工智能技术取得了飞速发展，自然语言处理技术被誉为人工智能皇冠上最璀璨的明珠，近年来取得了颠覆性的进步。文本语义匹配是智能问答和信息检索等多种自然语言处理任务的重要基础环节，文本语义匹配好坏直接影响下游任务的质量。文本语义匹配主要是对两个待匹配文本之间进行相似度判断，将其分为相关或不相关，目前常规的方法是使用基于TF-IDF/BM25基于词频统计算法或预训练编码器进行稀疏特征提取和稠密度向量的表征，然后利用机器学习方法对表征特征进行分类建模。

以预训练模型为基础的下游文本匹配任务，在常规应用场景已经取得了较好的效果。基于预训练的文本匹配大体上分为基于单模型的句子拼接与分类任务和两句子分别表征的孪生网络模型。基于单模型的句子对匹配方法，其对句子整体进行表征，缺乏对句子的独立表征及句子间的相关性表示；孪生网络对待匹配语句分别进行表征，对效率有一定提升，同时准确率也有一定的下降，因此，单模型对句子进行表征，对效率有一定的提升，同时准确率也有一定的下降；因此单模型对句子分别进行表征将具有重要意义。对于语义匹配往往有一些核心词的匹配，对文本的匹配至关重要，如身份证丢失如何办理”，“户口簿丢失如何办理”文本匹配中“身份证”和“户口簿”的相关性对于文本匹配至关重要。当前的处理方式将文本整体匹配和词的匹配分开，通过多个模型和算法进行处理，这样做不仅效率低，且不利于对整体句子和词之间整体相关性的学习。因此，本发明提出一种多维度语义联合学习的文本匹配方法（MTMJ, Multi-dimensional Text semantic Matching methodbased on Joint learning）。

发明内容

基于以上问题，本发明提出了一种基于多维度语义联合学习的文本匹配方法和装置，该方法从句子和核心词维度信息建模，通过单模型训练学习，实现了对文本多维度端到端的高效匹配。同时，在文本向量表征中加入了差分向量、对核心词的损失函数中使用了正、负样本相对损失以及联合学习，文本匹配结果达到了业界先进水平。其具体技术方案如下：

本发明实施例提供的一种基于多维度语义联合学习的文本匹配方法，包括步骤：

获取参与训练的多个文本语句对以及每个语句对对应的标签，分别对每个所述文本语句对进行预处理，得到多个包含多维语义信息的文本序列；

分别将每个所述文本序列输入至transformer 编码器进行编码，得到每个所述文本序列对应的多维向量表征；

根据所述多维向量表征和对应标签构建损失函数；

通过所述损失函数对深度学习模型进行训练，得到多维度语义联合学习模型；

将待匹配的预测文本语句对输入至所述多维度语义联合学习模型进行计算，判断所述预测文本语句对是否匹配。

进一步的，所述分别对每个所述文本语句对进行预处理，得到多个包含多维语义信息的文本序列，具体包括步骤：

步骤1 获取一个文本语句对，分别对所述文本语句对中的第一文本语句和第二文本语句进行核心词抽取，得到第一核心词和第二核心词；

步骤2 将所述第一文本语句、第一核心词、第二文本语句、第二核心词拼接，并在每个核心词前插入标识符后得到包含多维语义信息的文本序列；

步骤3 将获取的其他文本语句对重复步骤1-步骤2，得到多个包含多维语义信息的文本序列。

进一步的，所述将每个所述文本序列输入至transformer 编码器进行编码，得到每个所述文本序列对应的多维向量表征，具体包括步骤：

步骤4 将所述文本序列输入至transformer 编码器进行编码，分别得到第一文本语句中每个字符对应的第一字符向量和第二文本语句中每个字符对应的第二字符向量，第一核心词向量表征和第二核心词向量表征；

步骤5 根据所述第一字符向量、第二字符向量计算得到所述文本序列对应的文本序列向量表征；

步骤6 由所述文本序列向量表征、所述第一核心词向量表征和第二核心词向量表征组成多维向量表征；

步骤7 获取其他文本序列，重复步骤4-步骤6，得到每个所述文本序列对应的多维向量表征。

进一步的，所述根据所述第一字符向量、第二字符向量计算得到所述文本序列对应的文本序列向量表征，具体包括步骤：

将所述第一字符向量中的每个字符向量进行线性变换后在进行均值计算，得到所述第一文本语句的第一向量表征；

将所述第二字符向量中的每个字符向量进行线性变换后在进行均值计算，得到所述第二文本语句的第二向量表征；

将所述第一向量表征、所述第二向量表征进行差分计算，得到差分向量表征；

将所述第一向量表征、第二向量表征和差分向量表征进行拼接，得到所述文本序列对应的文本序列向量表征。

进一步的，所述根据所述多维向量表征和对应标签构建损失函数，具体包括步骤：

利用交叉熵算法对所述文本序列向量表征计算得到语句损失函数；

利用上述第一核心词向量表征和上述第二核心词向量表征的点积运算，计算得到核心词损失函数；

将所述语句损失函数和所述核心词损失函数求和，得到联合损失函数。

进一步的，所述第一核心词向量表征以其标识符经过所述transformer 编码器编码后得到的向量作为第一核心词向量表征；所述第二核心词向量表征以其标识符经过所述transformer 编码器编码后得到的向量作为第二核心词向量表征。

本发明的第二方面提供一种基于多维度语义联合学习的文本匹配装置，包括：

获取模块，用于获取参与训练的多个文本语句对以及每个语句对对应的标签，分别对每个所述文本语句对进行预处理，得到多个包含多维语义信息的文本序列；

向量表征模块，用于分别将每个所述文本序列输入至transformer 编码器进行编码，得到每个所述文本序列对应的多维向量表征；

损失函数构建模块，用于根据所述多维向量表征和对应标签构建损失函数；

模型训练模块，用于通过所述损失函数对深度学习模型进行训练，得到多维度语义联合学习模型；

预测模块，用于将待匹配的预测文本语句对输入至所述多维度语义联合学习模型进行计算，判断所述预测文本语句对是否匹配。

进一步的，所述获取模块包括：

文本语句及标签获取模块，用于获取参与训练的多个文本语句对以及每个语句对对应的标签；

文本语句对获取模块，用于获取一个文本语句对，分别对所述文本语句对中的第一文本语句和第二文本语句进行核心词抽取，得到第一核心词和第二核心词；

拼接模块，用于将所述第一文本语句、第一核心词、第二文本语句、第二核心词拼接，并在每个核心词前插入标识符后得到包含多维语义信息的文本序列；

多个文本序列获取模块，用于将获取的其他文本语句对重复步骤1-步骤2，得到多个包含多维语义信息的文本序列。

本发明的第三方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器处理所述的基于多维度语义联合学习的文本匹配方法。

本发明的第四方面提供一种电子设备，该电子设备包括：

处理器；以及，

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行所述的基于多维度语义联合学习的文本匹配方法。

本发明实施例提供的本发明提出的一种基于多维度语义联合学习的文本匹配方法和装置，该方法将待匹配的文本语句对进行多维语义预处理，获得包含多维语义信息的文本序列；然后将文本序列输入至transformer 编码器进行编码，得到每个所述文本序列对应的多维向量表征，再根据所述多维向量表征和对应标签构建损失函数；通过所述损失函数对深度学习模型进行训练，得到多维度语义联合学习模型；将待匹配的预测文本语句对输入至所述多维度语义联合学习模型进行计算，判断所述预测文本语句对是否匹配。本发明对文本语句对分别从多个角度获得语义信息，然后再根据多维语义信息进行深度模型学习，提高了模型训练的准确度，实现了对文本多维度端到端的高效匹配。

进一步的，本发明从句子和核心词维度信息建模，通过单模型训练学习，实现了对文本多维度端到端的高效匹配。

更进一步的，本发明在文本向量表征中加入了差分向量、对核心词的损失函数中使用了正、负样本相对损失以及联合学习，文本匹配结果达到了业界先进水平。

附图说明

图1是本发明一种基于多维度语义联合学习的文本匹配方法流程图；

图2是本发明一种基于多维度语义联合学习的联合损失函数计算流程示意图。

具体实施方式

以下结合附图对本发明进行说明，但不用来限制本发明的范围。

参见图1-图2，图1是本发明一种基于多维度语义联合学习的文本匹配方法流程图，图2是本发明一种基于多维度语义联合学习的联合损失函数计算流程示意图，包括：

S1：获取参与训练的多个文本语句对以及每个语句对对应的标签，分别对每个所述文本语句对进行多维语义预处理，得到多个包含多维语义信息的文本序列。

在深度学习过程中，都会获取大量的样本对模型进行训练，然后获得损失函数最小的一组参数作为最终的模型参数，在本发明实施例中，样本即为文本语句对，真实的输出结果即为样本结果标签。将文本语句对作为输入，样本结果作为输出，对深度学习模型进行有监督训练。在此，仅对一组样本和结果数据进行介绍。

上述多维语义预处理即对所述文本语句对进行多维语义提取预处理，得到包含多维语义信息的文本序列。

在本发明实施例中，上述文本语句对进行多维语义预处理，得到包含多维语义信息的文本序列，具体包括步骤：

步骤1 获取一个文本语句对，分别对所述文本语句对中的第一文本语句和第二文本语句进行核心词抽取，得到第一核心词和第二核心词。

输入包括两个待匹配中文语句，将其中一个语句中作为第一中文语句S1，另一个作为第二中文语句S2；所述第一中文语句S1和第二中文语句S2中对应的核心词为W1和核心词W2。

步骤2 将所述第一文本语句、第一核心词、第二文本语句、第二核心词拼接，并在每个核心词前插入标识符后得到包含多维语义信息的文本序列。

将第一语句S1、第二语句S2拼接，再将关键词W1和W2进行拼接，核心词的起始位置分别插入特殊字符[kw1]、 [kw2] ，得到整体的输入序列。

S2：分别将每个所述文本序列输入至transformer 编码器进行编码，得到每个所述文本序列对应的多维向量表征。

在本发明实施例中，为了后期便于计算，需要将文本序列表示成向量表征。

本发明上述步骤具体包括：

步骤4 将所述文本序列输入至transformer 编码器进行编码，分别得到第一文本语句中每个字符对应的第一字符向量和第二文本语句中每个字符对应的第二字符向量，第一核心词向量表征和第二核心词向量表征。

上述文本序列从所述transformer 编码器中编码输出后会得到文本语句中每个字符对应的字符向量。

核心词表征，利用字典、序列标注等方法对两个待匹配语句S1、S2进行核心词识别，得到文本语句对对应的核心词W1、W2，核心词的起始位置分别为特殊字符[kw1]、[kw2]，经过transformer 编码，以[kw1]编码的输出

代表第一核心词的第一核心词向量表征，以[kw2]编码的输出

代表第二核心词的第二核心词向量表征。

步骤5 根据所述第一字符向量、第二字符向量计算得到所述文本序列对应的文本序列向量表征.

然后对编码器输出的文本S1、S2中的每个字符向量进行线性变换，再进行平均操作，从而得到每个句子的向量表示。假设句子S1的字符长度为N,第i个字符的向量表示为

,

为1*768维度的向量，则表换后的第一文本语句S1的第一向量表征

表示为

，其中A为768*256的变换矩阵。

第二文本语句S2的输出向量的第二向量表征

表征为

，M为第二句子S2的字符长度。

所述语句向量包括

，

及

和

的差分向量

,差分向量为

、

对应位置的值做差值绝对值运算：

|

-

|，

的元素记为

,

中元素记为

,差分向量为

，其向量维度为256维度。

S3：根据所述多维向量表征和对应标签构建损失函数。

在本发明实施例中，文本语句和核心词的损失函数的构建是不一样的。具体的：

语句损失函数：

利用交叉熵算法对所述文本序列向量表征计算得到语句损失函数。

语句损失函数采用对语句输出向量作为输出层，采用线性变换运算，得到维度为2的向量，再对其进行softmax变换使得输出值在0 ~1范围之间的概率{y,1-y}，其中y表示预测标签为0的概率。

S1、S2匹配类别为2分类，类别

，利用交叉熵损失计算损失得到语句损失函数：

。

核心词损失函数：

核心词损失函数为最大化核心词1和核心词2的相似性，采用向量的点积计算相似度，最大化相似度作为优化目标：

同时，核心词损失函数中加入了核心词与非核心词的向量作为负样本对比，即最小化核心词与非核心词的相似度，实现对比学习效果。具体地，以核心词1与文本2中的非核心词进行相似度计算，以核心词2与文本1中的非核心词进行相似度计算：

，

整体的核心词损失函数为正负样本损失函数之和：

利用上述第一核心词向量表征和上述第二核心词向量表征的点积运算，计算得到核心词损失函数；将所述语句损失函数和所述核心词损失函数求和，得到联合损失函数。

联合损失函数为对语句损失和核心词损失函数求和，通过优化联合损失函数达到对每个损失的优化，实现全局优化。

模型网络通过对loss 计算实现参数的更新，参数为包含语句与核心词任务的全局参数，从而实现对整体目标的无限逼近。

S4：通过所述联合损失函数对深度学习模型进行训练，得到多维度语义联合学习模型。

上述联合损失函数是对文本语句和核心词分别求损失函数后求和得到的多维度的损失函数，该损失函数能够兼顾文本语句和核心词的含义，为后续深度学习模型的训练提供了多维度的信息。S5：将待匹配的预测文本语句对输入至所述多维度语义联合学习模型进行计算，判断所述预测文本语句对是否匹配。

在对深度学习模型训练好之后，使用该深度学习模型对待匹配的预测文本语句对进行预测，判断出该预测文本语句对是否是匹配的。

本发明实施例提供的一种基于多维度语义联合学习的文本匹配方法和装置，该方法将待匹配的文本语句对进行多维语义预处理，获得包含多维语义信息的文本序列；然后将文本序列输入至transformer 编码器进行编码，得到每个所述文本序列对应的多维向量表征，再根据所述多维向量表征和对应标签构建损失函数；通过所述损失函数对深度学习模型进行训练，得到多维度语义联合学习模型；将待匹配的预测文本语句对输入至所述多维度语义联合学习模型进行计算，判断所述预测文本语句对是否匹配。本发明对文本语句对分别从多个角度获得语义信息，实现了对文本多维度端到端的高效匹配。

本发明从句子和核心词维度信息建模，通过单模型训练学习，实现了对文本多维度端到端的高效匹配。

本发明在文本向量表征中加入了差分向量、对核心词的损失函数中使用了正、负样本相对损失以及联合学习，文本匹配结果达到了业界先进水平。

下面采用实例对本发明进行说明：

训练过程。数据集来源LCQMC和AFQMC及新冠疫情相关三种中文问题匹配数据集，目标是判断两句中文文本间的语义关系，数据集如表1。每个样本由两个中文问题语句与对应这两个问题语句的标签组成。标签分为0和 1两类，其中，标签0代表两个语句的语义不同，标签1代表两个语句的语义相同。

为了满足本方法的核心词，该方法先采用实体识别模型对每个句子中的关键词进行提取。

表1 数据集说明

本实验数据采用从三种数据中取数据，组成新的数据，训练集40000条，验证集5000条，测试集合3000条，集合形式如表2，

表2

模型训练与对比。本次训练采用NVIDIA Tesla v100GPU服务器，参数设置batch_size=24, length=128, epoch=3 lr=2e-5，与RoBERTa -wwm进行了对比。以F1-score为衡量指标，测试集上本发明多维度语义联合学习的文本匹配方法（MTMJ, Multi-dimensionalText semantic Matching method based on Joint learning）模型较基础模型提高.2.1%，测试结果如表3

表3 模型对比效果对比

模型	开发集（F1）	测试集（F1）
			RoBERTa-wwm	73.70	72.21
RoBERTa-wwm -MTMJ	75.82	74.33

进一步的，所述获取模块包括：

本发明的第四方面提供一种电子设备，该电子设备包括：

处理器；以及，

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种基于多维度语义联合学习的文本匹配方法，其特征在于，包括步骤：

获取参与训练的多个文本语句对以及每个语句对对应的标签，分别对每个所述文本语句对进行多维语义预处理，得到多个包含多维语义信息的文本序列；

根据所述多维向量表征和对应标签构建损失函数；

2.根据权利要求1所述的基于多维度语义联合学习的文本匹配方法，其特征在于，所述分别对每个所述文本语句对进行多维语义预处理，得到多个包含多维语义信息的文本序列，具体包括步骤：

3.根据权利要求2所述的基于多维度语义联合学习的文本匹配方法，其特征在于，所述将每个所述文本序列输入至transformer 编码器进行编码，得到每个所述文本序列对应的多维向量表征，具体包括步骤：

4.根据权利要求3所述的基于多维度语义联合学习的文本匹配方法，其特征在于，所述根据所述第一字符向量、第二字符向量计算得到所述文本序列对应的文本序列向量表征，具体包括步骤：

5.根据权利要求3所述的基于多维度语义联合学习的文本匹配方法，其特征在于，所述根据所述多维向量表征和对应标签构建损失函数，具体包括步骤：

6.根据权利要求3所述的基于多维度语义联合学习的文本匹配方法，其特征在于，所述第一核心词向量表征以其标识符经过所述transformer编码器编码后得到的向量作为第一核心词向量表征；所述第二核心词向量表征以其标识符经过所述transformer 编码器编码后得到的向量作为第二核心词向量表征。

7.一种基于多维度语义联合学习的文本匹配装置，其特征在于，包括：

8.根据权利要求7所述的基于多维度语义联合学习的文本匹配装置，其特征在于，所述获取模块包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器处理权利要求1-6任一所述的基于多维度语义联合学习的文本匹配方法。

10.一种电子设备，该电子设备包括：

处理器；以及，

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行权利要求1-6任一所述的基于多维度语义联合学习的文本匹配方法。