CN117540009A

CN117540009A - 一种基于增强预训练文本匹配模型的文本匹配方法

Info

Publication number: CN117540009A
Application number: CN202410028251.4A
Authority: CN
Inventors: 尧增; 张苗辉; 刘琦; 黄琪; 李晖; 张安安; 朱晓翠
Original assignee: ENERGY RESEARCH INSTITUTE OF JIANGXI ACADEMY OF SCIENCES
Current assignee: ENERGY RESEARCH INSTITUTE OF JIANGXI ACADEMY OF SCIENCES
Priority date: 2024-01-09
Filing date: 2024-01-09
Publication date: 2024-02-09
Anticipated expiration: 2044-01-09
Also published as: CN117540009B

Abstract

本发明公开了一种基于增强预训练文本匹配模型的文本匹配方法，构建增强预训练文本匹配模型对文本进行推断，输出结果；所述增强预训练文本匹配模型在预训练模型的基础上增加对齐掩码矩阵，所述增强预训练文本匹配模型以Align_Transformer为骨架，Align_Transformer是Transformer模型的改进，包括特征提取器和分类器；所述特征提取器使用堆叠的Align_Transformer模块对文本对进行编码得到文本特征。本发明解决了预训练模型在文本匹配任务中由于缺少对齐交互信息导致的短句匹配困难、鲁棒性不强问题。

Description

一种基于增强预训练文本匹配模型的文本匹配方法

技术领域

本发明属于自然语言处理和预训练大语言模型技术领域，具体涉及一种基于增强预训练文本匹配模型的文本匹配方法。

背景技术

文本匹配是自然语言处理的基础任务之一，旨在使用更丰富的语义表达形式计算两段文本的相似度，其结果也可应用于更高层次的搜索，问答等任务。当前预训练模型在深度学习领域取得了巨大突破，基于预训练模型的文本匹配方法是利用预训练模型在大规模语料库上学习先验知识，然后在下游文本匹配任务上进行针对性微调。

但预训练模型缺乏文本之间有效的交互匹配对齐信息，这对文本匹配任务是极其重要的；同时预训练模型对于短句的匹配效果不好，鲁棒性不强，这使基于预训练模型的文本匹配方法在实际应用时效果不好。

发明内容

为增强预训练文本匹配模型在文本匹配任务的有效性和实际可用性，提高短文本匹配效果，增强预训练文本匹配模型的鲁棒性，本发明提供了一种基于增强预训练文本匹配模型的文本匹配方法。

本发明是这样来实现的。一种基于增强预训练文本匹配模型的文本匹配方法，包括如下步骤：

步骤1：收集匹配文本对数据，并为每个文本对添加一个标签，包括正类标签和负类标签；

步骤2：构建词表，对匹配文本对数据进行预处理，拼接转化为增强预训练文本匹配模型能够读取的数据格式；

步骤3：构建增强预训练文本匹配模型,所述增强预训练文本匹配模型在预训练模型的基础上增加对齐掩码矩阵，所述增强预训练文本匹配模型以Align_Transformer为骨架，Align_Transformer是Transformer模型的改进，包括特征提取器和分类器；所述特征提取器使用堆叠的Align_Transformer模块对文本对进行编码得到文本特征；

步骤4：使用预训练模型初始化增强预训练文本匹配模型中对应的参数；对增强预训练文本匹配模型中的新增参数进行随机初始化，构造损失函数，使用不同学习率来更新预训练模型参数和新增参数，并且使用学习率预热和衰减策略训练增强预训练文本匹配模型；

步骤5：导出训练后的增强预训练文本匹配模型，设置评估模式，对需要进行预测的文本对进行推断，输出结果。

具体地，所述增强预训练文本匹配模型为Align_BERT模型或Align_RoBERTa模型。

具体地，所述特征提取器包括 12层Align_Transformer模块，每个Align_Transformer模块由对齐多头注意力层、残差连接和层归一化层和前馈神经网络层组成。

具体地，增强预训练文本匹配模型的处理过程如下：

步骤3a：步骤2产生的输入格式被映射成不同的词向量，然后将不同的词向量相加得到最终的输入特征向量；

步骤3b：输入特征向量首先会被投影成三份进入到对齐多头自注意力层模块，进行原始掩码矩阵M_mask计算，得到原始加权特征；进行对齐掩码矩阵M_{align_mask}计算，得到对齐增强加权特征，使用原始掩码矩阵和对齐掩码矩阵的对比如图4所示；原始加权特征和对齐增强加权特征通过基于门机制的特征融合方法融合到一起，再进行层归一化和残差连接送入到前馈神经网络层；

步骤3c:前馈神经网络层通过两层非线性映射对来自于对齐多头自注意力模块的特征进行信息汇总，将信息汇总后的特征继续送入到下个Align_Transformer模块；

步骤3d:在经过堆叠了12层Align_Transformer模块后，将特征送入到多层感知机进行分类，对样本的各类别进行打分，取最大分值的类别作为增强预训练文本匹配模型的分类结果。

具体地，输入特征提取器的两段文本通过起始符和分隔符拼接在一起，填充到增强预训练文本匹配模型的最大文本长度，然后一起被分词转化为词向量E_text=[CLS,x₁,x₂,SEP,…,x_n-1,x_n,SEP]，其中CLS为起始符，SEP为分隔符，x₁,x₂,…,x_n-1,x_n分别为分词后的第1个到第n个字符的特征向量，然后和位置特征E_pos、输入类别特征E_segment拼接在一起输入到Align__Transformer模块中。

具体地，对齐多头注意力层计算过程为：

输入的特征会被投影成为查询向量Q、键向量K和值向量V ，通过自注意力机制计算注意力矩阵A，其计算公式为：

；

其中，K^T为键向量K的转置，d_k是缩放因子，用于保证 softmax 函数计算过程中有稳定的梯度；

根据拼接的输入格式，把注意力矩阵A划分成4个部分：第一部分代表第一段文本中的字符和自身的相关度，第二部分代表第一段文本中的字符和第二段文本中的字符的相关程度，第三部分代表第二段文本中的字符和第一段文本中的字符的相关程度，第四部分代表第二段文本中的字符和自身的相关程度；

使用原始掩码矩阵M_mask和对齐掩码矩阵M_{align_mask}来提供不同的语义信息，得到强调两种不同信息的注意力矩阵：掩码-注意力矩阵A₁=A+M_mask, 增强对齐掩码-注意力矩阵A₂=A+M_{align_mask}；

然后分别使用softmax函数归一化，再和值向量V相乘得到加权的特征:

h₁=softmax(A₁)V;

h₂=softmax(A₂)V;

其中,h₁表示原始加权特征，h₂表示对齐增强加权特征；

然后，使用多头操作进行多个自注意力机制结果的拼接，计算公式如下：

；

其中，mf表示参与融合的原始特征，ef表示额外的对齐信息特征， k 是自注意力机制的数量，表示第一个原始加权特征，表示第k个原始加权特征，表示第一个对齐增强加权特征，表示第k个对齐增强加权特征，concat表示拼接。

具体地，基于门机制的特征融合方法融合的计算过程如下：

；

其中，为拼接后的特征，为线性融合后的特征，为特征选择向量，向量值为 0到1之间的小数，为最终输出的融合特征，W为权重矩阵，b为偏置矩阵，GELU为 Transformer中使用的非线性化激活函数。

具体地，前馈神经网络层对对齐多头注意力层输出的进一步信息汇总，包括两层线性映射和一次通过ReLU激活函数进行非线性化操作。

进一步的，所述分类器为二分类或多分类，将Align_Transformer模块输出的特征最终输出为一个分类标签。

进一步的，所述预训练模型为BERT模型或者RoBERTa模型；

进一步的，所述损失函数构建为交叉熵损失函数。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

（1）设计了一种新的加强匹配对齐信息的掩码矩阵，将其引入到Transformer结构中，加强了预训练模型的匹配对齐能力。

（2）探索了多种特征融合方法，并提出适用于预训练模型的基于门机制的特征融合，将增强对齐信息的特征和原有特征进行融合，取得了更好的文本匹配效果。

（3）进行了大量的实验，在多个基于Transformer的预训练模型和多个数据集上均有准确率和F1值的提升，验证了本发明的有效性。

（4）本发明解决了预训练模型在文本匹配任务中由于缺少对齐交互信息导致的短句匹配困难、鲁棒性不强问题。

（5）本发明应用前景广阔，可以推动自然语言处理和预训练大语言模型在文本分类领域的应用和研究。

附图说明

图1为本发明的方法流程图。

图2为本发明的输入特征向量示意图。

图3为本发明增强预训练文本匹配模型的Align_Transformer模块结构示意图。

图4为原始掩码矩阵和对齐掩码矩阵的对比示意图。

具体实施方式

下面结合附图及实施例对本发明进一步说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在自然语言处理领域，预训练模型可以用于文本匹配、智能问答、序列标注等多个领域的工作。预训练的主要优势是能利用大规模语料库进行外部知识的学习，但是预训练模型并没有针对特定下游任务进行优化，给下游任务留下优化空间。本发明聚焦于预训练模型在文本匹配任务上的应用，有着丰富的应用场景和研究意义。

如图1所示，一种基于增强预训练文本匹配模型的文本匹配方法，包括如下步骤：

步骤1：收集文本对数据，并为每个文本对添加一个标签，包括正类标签和负类标签。收集问答网站的各种问题，将相似的问题作为正例，添加正类标签，并随机采样不相似的问题作为负例，添加负类标签，并保证正负例之间的类别平衡。同时进行问题的过滤，保证问题的主题能覆盖多个方面，而不是单一主题，这样能保证数据集的多样性，有利于模型的泛化；

步骤2：构建词表，对文本对数据进行预处理，拼接转化为增强预训练文本匹配模型能够读取的数据格式。通过一个已经训练好的分词器，将文本划分为各个令牌组成的集合，如“我爱中国”会被分词为集合[“我”，“爱”，“中”，“国”]；“我爱北京”会被分词为集合[“我”，“爱”，“北”，“京”]然后将两句话按照如图2所示的输入形式组合在一起构成模型的输入。同时会产生位置编码和文段编码，位置编码为绝对位置编码如[0,1,2,3,4,5,6,7]，文段编码为划分两个文段如[1,1,1,1,0,0,0,0]；

步骤3：构建增强预训练文本匹配模型（Align_BERT模型或Align_RoBERTa模型）,增强预训练文本匹配模型是在预训练模型（BERT模型或RoBERTa模型）的基础上增加对齐掩码矩阵，从而强化匹配对齐信息，提高增强预训练文本匹配模型的文本匹配效果；增强预训练文本匹配模型以Align_Transformer为骨架，Align_Transformer是Transformer模型的改进，包括特征提取器和分类器，结构如图3所示；所述特征提取器使用堆叠的Align_Transformer模块对文本对进行编码得到文本特征；所述分类器由两层全连接网络组成，用于对文本特征进行分类；

步骤4：训练强预训练文本匹配模型。使用预训练模型来初始化增强预训练文本匹配模型中对应的参数，对增强预训练文本匹配模型中的新增参数进行随机初始化，构造损失函数，使用不同学习率来更新增强预训练文本匹配模型中的预训练模型参数和新增参数，并且使用学习率预热和衰减策略训练增强预训练文本匹配模型；构造二分类的交叉熵损失函数，使用批处理技术，通过损失函数和反向传播优化算法更新增强预训练文本匹配模型参数，对于增强预训练文本匹配模型中的预训练模型参数使用2e-5学习率，对于新增参数使用较大的2e-3的学习率，并且在开始的1000步学习率将从0线性增长到目标学习率，随后将线性衰减，直到训练完成；

步骤5：导出训练后的增强预训练文本匹配模型，设置评估模式，对需要进行预测的文本对进行推断，输出结果。本实施例通过准确率、F1值等指标评估模型的表现。然后选取表现最好的增强预训练文本匹配模型部署到线上，进行线上实时的推断。

如图3所示，本实施例的特征提取器包括 12层Align_Transformer模块，每个Align_Transformer模块由对齐多头注意力层、两组残差连接和层归一化层和前馈神经网络层组成，对齐多头注意力层后连接一组残差连接和层归一化层，再连接前馈神经网络层，前馈神经网络层后再连接另一组前馈神经网络层。

本实施例的，增强预训练文本匹配模型的处理过程如下：

步骤3a：步骤2产生的输入格式被映射成不同的词向量，然后将不同的词向量相加得到最终的输入特征向量；如图2所示，输入特征提取器的两段文本通过起始符和分隔符拼接在一起，填充到增强预训练文本匹配模型的最大文本长度，然后一起被分词转化为词向量E_text=[CLS,x₁,x₂,SEP,…,x_n-1,x_n,SEP]，其中CLS为起始符，SEP为分隔符，x₁,x₂,…,x_n-1,x_n分别为分词后的第1个到第n个字符的特征向量，然后和位置特征E_pos、输入类别特征E_segment拼接在一起输入到Align_Transformer模块中；

本实施例中，对齐多头注意力层计算过程：

首先，输入的特征会被投影成为查询向量Q、键向量K和值向量V ，通过自注意力机制计算注意力矩阵A，其计算公式为：

；

其中，K^T为键向量K的转置，d_k是缩放因子，用于保证 softmax 函数计算过程中有稳定的梯度。

根据拼接的输入格式，把注意力矩阵A划分成4个部分：第一部分代表第一段文本中的字符和自身的相关度，第二部分代表第一段文本中的字符和第二段文本中的字符的相关程度，第三部分代表第二段文本中的字符和第一段文本中的字符的相关程度，第四部分代表第二段文本中的字符和自身的相关程度。

使用两种掩码矩阵来提供不同的语义信息，一种是原始掩码矩阵M_mask，和注意力矩阵A具有相同的形状，在填充部分为一个极小值，其余位置为0；一种是对齐掩码矩阵M_{align_mask}，在第一部分、第四部分和填充部分都为极小值。这样得到强调两种不同信息的注意力矩阵：掩码-注意力矩阵A₁=A+M_mask, 增强对齐掩码-注意力矩阵A₂=A+M_{align_mask}；

h₁=softmax(A₁)V；

h₂=softmax(A₂)V；

其中,h₁表示原始加权特征，h₂表示对齐增强加权特征；

；

再次，为了融合最终的原始加权特征和对齐增强加权特征，采用的基于门机制的特征融合方法，让增强预训练文本匹配模型能够自适应的选择特征的重要性，融合计算过程如下：

；

其中，为拼接后的特征，为线性融合后的特征，为特征选择向量，向量值为 0到1之间的小数，为最终输出的融合特征，W为权重矩阵，b为偏置矩阵，GELU为 Transformer中使用的非线性化激活函数，计算公式为：

；

其中，x为进行非线性化特征向量中的元素，Sigmoid函数计算公式为：

；

其中，e为自然常数；

最后，进行层归一化(LayNorm)和残差连接。

本实施例通过前馈神经网络层对对齐多头注意力层输出的进一步信息汇总，包括两层线性映射和一次通过ReLU 激活函数进行非线性化操作。然后，前馈神经网络层也会做层归一化和残差连接的处理。

本实施例步骤3中的分类器为二分类或多分类，将Align_Transformer模块输出的特征最终输出为一个分类标签。

按照上述方案，在QNLI、QQP、MNLI和SciTail数据集上进行实验，表1和表2表明本发明在多个数据集上都取得了比原有方法更好的结果，其中表1的评估指标为准确率，同源是指和训练数据的数据分布一致，异源是指和训练数据分布不一致。

表 1: QNLI、MNLI、QQP 数据集的实验结果

表 2: SciTail 数据集结果

以上所述仅为本发明的具体实施例，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于增强预训练文本匹配模型的文本匹配方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于增强预训练文本匹配模型的文本匹配方法，其特征在于，所述增强预训练文本匹配模型为Align_BERT模型或Align_RoBERTa模型。

3.根据权利要求1所述的基于增强预训练文本匹配模型的文本匹配方法，其特征在于，所述特征提取器包括 12层Align_Transformer模块，每个Align_Transformer模块由对齐多头注意力层、残差连接和层归一化层和前馈神经网络层组成。

4.根据权利要求1所述的基于增强预训练文本匹配模型的文本匹配方法，其特征在于，增强预训练文本匹配模型的处理过程如下：

步骤3b：输入特征向量首先会被投影成三份进入到对齐多头自注意力层模块，进行原始掩码矩阵M_mask计算，得到原始加权特征；进行对齐掩码矩阵M_{align_mask}计算，得到对齐增强加权特征；原始加权特征和对齐增强加权特征通过基于门机制的特征融合方法融合到一起，再进行层归一化和残差连接送入到前馈神经网络层；

5.根据权利要求4所述的基于增强预训练文本匹配模型的文本匹配方法，其特征在于，输入特征提取器的两段文本通过起始符和分隔符拼接在一起，填充到增强预训练文本匹配模型的最大文本长度，然后一起被分词转化为词向量E_text=[CLS,x₁,x₂,SEP,…,x_n-1,x_n,SEP]，其中CLS为起始符，SEP为分隔符，x₁,x₂,…,x_n-1,x_n分别为分词后的第1个到第n个字符的特征向量，然后和位置特征E_pos、输入类别特征E_segment拼接在一起输入到Align__Transformer模块中。

6.根据权利要求4所述的基于增强预训练文本匹配模型的文本匹配方法，其特征在于，对齐多头注意力层计算过程为：

；

h₁=softmax(A₁)V；

h₂=softmax(A₂)V；

其中,h₁表示原始加权特征，h₂表示对齐增强加权特征；

；

其中,mf表示参与融合的原始特征,ef表示额外的对齐信息特征,k 是自注意力机制的数量，表示第一个原始加权特征，/>表示第k个原始加权特征，/>表示第一个对齐增强加权特征，/>表示第k个对齐增强加权特征，concat表示拼接。

7.根据权利要求6所述的基于增强预训练文本匹配模型的文本匹配方法，其特征在于，基于门机制的特征融合方法融合的计算过程如下：

；

其中，为拼接后的特征，/>为线性融合后的特征，/>为特征选择向量，向量值为0到1之间的小数，/>为最终输出的融合特征，W为权重矩阵，b为偏置矩阵，GELU为Transformer中使用的非线性化激活函数。

8.根据权利要求3所述的基于增强预训练文本匹配模型的文本匹配方法，其特征在于，前馈神经网络层对对齐多头注意力层输出的进一步信息汇总，包括两层线性映射和一次通过ReLU 激活函数进行非线性化操作。

9.根据权利要求1所述的基于增强预训练文本匹配模型的文本匹配方法，其特征在于，所述预训练模型为BERT模型或者RoBERTa模型。

10.根据权利要求1所述的基于增强预训练文本匹配模型的文本匹配方法，其特征在于，所述损失函数为交叉熵损失函数。