CN112328767A

CN112328767A - 基于bert模型和比较聚合框架的问答匹配方法

Info

Publication number: CN112328767A
Application number: CN202011255769.XA
Authority: CN
Inventors: 张璞; 朱洪倩; 明欢欢
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2021-02-05
Anticipated expiration: 2040-11-11
Also published as: CN112328767B

Abstract

本发明属于自然语言处理技术与自动问答系统领域，具体涉及一种基于BERT模型和比较聚合框架的问答匹配方法，该方法包括：实时获取数据，对数据进行预处理；将预处理后的数据输入到训练好的比较聚合问答匹配模型中，得到问题与答案的匹配得分，根据得分输出最佳答案；所述比较聚合问答匹配模型包括BERT模型、Transformer编码器以及比较聚合框架；本发明利用BERT模型获得上下文相关的词嵌入，解决了以往方法中问题句与答案句交互不充分的问题。再单独使用Transformer模型的编码器进一步对用于比较的词向量进行注意力权重分配，使得比较层能够充分探究问题序列和答案序列间复杂的语义匹配关系。

Description

基于BERT模型和比较聚合框架的问答匹配方法

技术领域

本发明属于自然语言处理技术与自动问答系统领域，具体涉及一种基于BERT模型和比较聚合框架的问答匹配方法。

背景技术

自动问答系统是自然语言处理领域中一个非常重要的研究热点,具有重大的应用价值。早期的问答匹配采用特征工程算法，即通过计算两个句子的相似性，根据相似性的大小输出相应的答案，如Wang等人将句子划分成单词以训练句子中每个词的词向量，然后通过计算每个单词之间的相似性来评估每个问答对的相似性。特征工程方法需要大量的人工定义和抽取特征，并且语料的泛化性差，在一个数据集上使用的特征很可能在另一个数据集上表现不好。

随着深度学习模型在图像识别领域取得优异效果，逐渐将深度学习模型应用到自然语言处理领域。微软研究团队在2013提出的DSSM模型是最早的深度文本匹配模型，通过全连接网络将查询语句和文档并行向量化，然后采用余弦相似度计算得到问题和候选网页文档匹配分值。但DSSM忽略了文本之间的时序关系和空间关系。2014提出的CDSSM将全连接神经网络换为卷积层和池化层，增加词哈希层以得到文本间的语序关系，提升了文本匹配的效果。中科院2016年提出的MV-LSTM模型通过双向长短时记忆网络(BiLSTM)来产生句子多个视角表达的集合，再计算两个句子不同视角下的相似度，得到相似度匹配矩阵。使用单个向量来编码整个序列会忽略序列间某些重要信息，因此，将问题与答案文本先进行交互，综合交互后的特征后再来计算问题与答案的匹配度的方式被提出。如DeepMatch通过使用主题模型查看两个文本的交互情况，然后使用深度学习架构进行不同级别的抽象，以对主题之间的关系进行建模。aNMM直接在问题-答案对之间的相互作用上构建神经网络，然后采用值共享加权方式完成问题相关词的重要性学习。

但是，以上现有技术中是将两个句子分别进行编码表示，且句子中的词嵌入表示没有考虑到上下文，两个句子之间一些重要的信息被忽略，从而无法探究到两个句子间复杂的语义关系。

发明内容

为解决以上现有技术存在的问题，本发明提出了一种基于BERT模型和比较聚合框架的问答匹配方法，该方法包括：实时获取数据，对数据进行预处理；将预处理后的数据输入到训练好的比较聚合问答匹配模型中，得到问题与答案的匹配得分，根据得分输出最佳答案；所述比较聚合问答匹配模型包括BERT模型、Transformer编码器以及比较聚合框架；

训练比较聚合问答匹配模型的过程包括：

S1：获取原始问答数据集，将原始问答数据集进行划分，得到训练集和测试集；对训练集中的数据进行预处理；

S2：将预处理后的数据输入到BERT模型中，生成问题句和答案句中每个词的词嵌入表示数据；

S3：将问题句和答案句的词嵌入表示数据输入到Transformer编码器中，得到用于比较的词嵌入数据；

S4：对问题和答案中的每个单词的词嵌入数据进行比较，得到问题词嵌入数据和答案词嵌入数据的匹配特征；

S5：对匹配特征进行聚合，得到聚合后的特征；

S6：采用Relu非线性激活函数计算聚合后特征的匹配得分；设置迭代次数的初始值；

S7：采用交叉熵损失函数来训练模型；

S8：采用Adam算法来优化模型，即在训练过程中调整BERT模型、Transformer编码器和比较聚合框架中的参数；

S9：判断迭代次数是否达到最大迭代次数，如果达到，则完成比较聚合问答匹配模型的训练，否则返回步骤S7，迭代次数加1。

优选的，对数据进行预处理的过程包括：去除原数据集中的停用词，将每个句子的长度设置为50，长度不足50的句子进行填充处理，长度超过50的则从句末截掉；将数据集中的问题句和答案句进行组合；组合后语句的格式为：

Input(Q，A)＝[CLS]，q₁，…，q_n，[SEP]，a₁，…，a_n，[SEP]

优选的，BERT模型为：

E_i＝BERT(x_i)

优选的，Transformer编码器包括多头注意力机制层和前馈神经网络层；Transformer编码器处理数据的过程为：

步骤1：采用多头注意力机制处理问题句和答案句词语的嵌入表示数据，得到每个词的注意力权重表示；

步骤2：采用前馈神经网络层对带有注意力权重的词嵌入数据进行处理，得到词嵌入数据。

进一步的，采用多头注意力机制层处理问题句和答案句的嵌入表示数据的过程包括：

步骤11：确定多头注意力机制层的参数矩阵

步骤12：将参数矩阵

分别与序列中第i个单词通过BERT生成的嵌入表示E_i相乘，得到查询向量Q_h、键向量K_h以及值向量V_h；

步骤13：根据查询向量Q_h、键向量K_h、值向量V_h以及自注意力计算公式求出head_h；

步骤14：根据head_h和参数矩阵W^O求出多头注意力权重矩阵。

进一步的，自注意力计算公式为：

多头注意力计算方法为：

MultiHead(Z_i)＝Concat(head₁，...，head_n)W^O

优选的，问题和答案之间的匹配特征为：

优选的，计算聚合特征向量的公式为：

优选的，计算匹配得分的公式为：

优选的，损失函数为：

优选的，Adam算法的公式为：

本发明利用BERT模型获得上下文相关的词嵌入，解决了以往方法中问题句与答案句交互不充分的问题；本发明通过Transformer模型的编码器进一步对用于比较的词向量进行注意力权重分配，使得比较层能够充分探究问题序列和答案序列间复杂的语义匹配关系；本发明将BERT模型和Transformer模型编码器与比较聚合框架进行结合，充分利用了两序列的交互信息，使得问答匹配的准确性提升。

附图说明

图1为本发明的整体流程图；

图2为本发明的训练过程流程图；

图3为本发明的模型结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于BERT模型和比较聚合框架的问答匹配方法，如图1所述，该方法包括：实时获取数据，对数据进行预处理；将预处理后的数据输入到训练好的比较聚合问答匹配模型中，得到问题与答案的匹配得分，根据得分输出最佳答案；所述比较聚合问答匹配模型包括BERT模型、Transformer编码器以及比较聚合框架。

如图2所述，训练比较聚合问答匹配模型的过程包括：

S5：对匹配特征进行聚合，得到聚合后的特征；

S7：采用交叉熵损失函数来训练模型；

采用维基百科公开问答数据集作为原始问答数据集，数据集划分为了三部分，其中训练集包含29258条问答对，测试集有6117条问答对，验证集包含2734条问答对。

对数据进行预处理的过程包括：去除原数据集中的停用词，将每个句子的长度设置为50，长度不足50的句子进行填充padding处理，长度超过50的则从句末截掉；将问题句与其答案句组合为一整段序列输入BERT模型中。其中，问题句为：Q＝{q₁，...，q_n}，答案句为：A＝{a₁，...，a_n}；输入到BERT模型中的序列为：

Input(Q，A)＝[CLS]，q₁，…，q_n，[SEP]，a₁，…，a_n，[SEP]

其中，Q表示问题句，A表示答案句，q_n表示问题句的单词，a_n表示答案句中的单词，[CLS]表示分类标志，第一个[SEP]表示分隔标志，末尾[SEP]表示结尾标志。

采用BERT模型对数据进行处理，得到上下文相关的词嵌入以及问题句和答案句之间的信息。BERT模型为：

E_i＝BERT(x_i)

其中，x_i表示输入序列中第i个单词的输入，E_i表示序列中第i个单词通过BERT生成的嵌入表示。

在获取问题句和答案句中每个词的词嵌入表示后，将其输入到Transformer编码器层中获取用于比较的词嵌入。此步骤采用多头自注意力机制和一个前馈神经网络层。多头注意力能够更充分地表示单词之间的联系，多头注意力计算如下：

MultiHead(Z_i)＝Concat(head₁，...，head_n)W^O

其中E_i表示序列中第i个单词通过BERT生成的词嵌入表示。

表示查询向量参数矩阵，

表示键向量参数矩阵，

表示值向量参数矩阵，W^O表示压缩各个自注意力矩阵时的参数矩阵，在训练过程会进行更新，head_h表示第h个自注意力矩阵。将E_i与

分别相乘将得到查询向量Q_h，键向量K_h，值向量V_h。MultiHead(Z_i)表示序列中第i个单词的多头注意力表示。

对于

自注意力计算如下：

其中，d_k表示键向量K_h的维度，Q_h表示查询向量、

表示键向量的转置、V_h表示值向量。

得到多头注意力表示Z_i后，将其输入到前馈神经网络获得用于比较的词向量T_i。

如图3所示，比较层左边表示经BERT模型输出的答案词向量与经BERT模型和Transformer编码器输出的问题词向量进行比较，右边则表示经BERT模型输出的问题词向量与经BERT模型和Transformer编码器输出的答案词向量进行比较。两个文本单元的比较函数一般使用标准前馈神经网络，然而基于问答匹配的本质，即需要衡量两个序列语义上的匹配性，所以我们需要选择更合适的比较函数。现已有使用余弦相似度、欧式距离和点积来定义比较函数，但在众多比较函数中有研究证明哈达玛积(Hadamard积)比较函数在问答任务上表现优于其他比较函数。所以本发明使用哈达玛积将问题和答案进行比较，通过此步骤获得两个句子之间匹配特征：

其中，T_Qi表示问题中的第i个位置上的词经过BERT模型和Transformer编码器输出的向量，T_Ai表示答案中的第i个位置上的词经过BERT模型和Transformer编码器输出的向量，E_Qi表示问题的第i个位置的词经过BERT模型输出的向量，E_Ai表示答案的第i个位置的词经过BERT模型输出的向量，⊙表示哈达玛积。

聚合两个句子之间匹配特征，便于后续计算匹配得分。经典文本分类TextCNN模型在短文本领域如问答、对话领域专注于意图分类时效果很好，它的最大优势在网络结构简单，速度快。所以采用TextCNN模型聚合匹配特征

实现过程如下：

使用与

匹配特征的宽度k一致的卷积核进行卷积，每一次卷积操作相当于一次特征向量的提取，通过定义不同的窗口，就可以提取出不同的特征向量，构成卷积层的输出。产生特征h过程如下：

h_i＝f(w·c_i：i+h-1+b)

其中，c_i：i+h-1表示由输入矩阵的第i行到第i+h-1行所组成的大小为h×k的窗口，w为h×k维的参数矩阵，b为偏置参数。

将得到的特征拼接起来，然后进行最大池化操作，最后经过softmax层输出聚合结果：

其中，w_q，w_a分别为参数矩阵，

分别为经最大池化层的问题句和答案句的聚合特征向量，b_q为问题句的偏置参数，b_a为答案句的偏置参数。

将softmax层输出的结果进行拼接，然后使用Relu非线性激活函数预测问题和答案的匹配得分。计算匹配得分的公式为：

其中，[；]表示拼接向量，W表示计算匹配得分时的参数矩阵，

表示经TextCNN模型输出的问题句的聚合特征向量，

表示经TextCNN模型输出的答案句的聚合特征向量，σ表示非线性激活函数Relu(·)＝max(0，·)，·表示非线性激活函数的输入。

损失函数为：

其中，N表示训练期间使用的样本总数，y_n表示第n个样本的目标标签，score_n为第n个样本的模型预测标签。

采用Adam算法对损失函数进行优化，获取最小损失函数。Adam算法是一种可以替代传统随机梯度下降过程的一阶优化算法，它能基于训练数据迭代地更新神经网络权重，能够通过计算梯度的一阶矩估计和二阶矩估计为不同的参数设计独立的自适应性学习率。主要计算公式如下：

其中，

表示校正后的一阶矩估计，

表示校正后的二阶矩估计；∈和η分别为训练过程中需调整的参数。

采用MRR和MAP的评价指标对模型进行评价，其中，MRR表示平均倒数排名评价指标，MAP表示目标检测评价指标；其具体的过程包括：

在排名前k个答案中，用y_i表示第i个答案的真实匹配度，则前k个答案排序的准确度为：

其中，P@k表示前k个排序结果的准确度，P指的是准确度，y_i表示第i个答案的真实匹配度。

若只考虑排名最靠前的真实匹配的文本k₁，则倒数排序指标MRR的定义为：

MRR＝P@k₁

假设预测排序中的真实匹配的答案文本的排序位置分别为k₁，k₂，...，k_r，其中r为整个列表中所有匹配答案文本的数量。那么指标MAP的计算如下：

其中，r表示整个列表中所有匹配答案文本的数量，P@k_i表示答案中排在位置k_i的准确度。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于BERT模型和比较聚合框架的问答匹配方法，其特征在于，包括：实时获取数据，对数据进行预处理；将预处理后的数据输入到训练好的比较聚合问答匹配模型中，得到问题与答案的匹配得分，根据得分输出最佳答案；所述比较聚合问答匹配模型包括BERT模型、Transformer编码器以及比较聚合层；

训练比较聚合问答匹配模型的过程包括：

S3：将问题句和答案句的词嵌入表示输入到Transformer编码器中，得到用于比较的词嵌入数据；

S5：对匹配特征进行聚合，得到聚合后的特征；

S7：采用交叉熵损失函数训练模型；

S8：采用Adam算法优化模型，即在训练过程中调整BERT模型、Transformer编码器和比较聚合框架中的参数；

2.根据权利要求1所述的一种基于BERT模型和比较聚合框架的问答匹配方法，其特征在于，所述对数据进行预处理的过程包括：去除原数据集中的停用词，将每个句子的长度设置为50，长度不足50的句子进行填充处理，长度超过50的则从句末截掉；将数据集中的问题句和答案句进行组合；组合后语句的格式为：

Input(Q,A)＝[CLS],q₁,…,q_n,[SEP],a₁,…,a_n,[SEP]

其中，Q表示问题句，A表示答案句，q_n表示问题句中的单词，a_n表示答案句中的单词，[CLS]表示分类标志，第一个[SEP]表示分隔标志，末尾[SEP]表示结尾标志。

3.根据权利要求1所述的一种基于BERT模型和比较聚合框架的问答匹配方法，其特征在于，Transformer编码器包括多头注意力机制层和前馈神经网络层；

Transformer编码器处理数据的过程为：

步骤1：采用多头注意力机制处理问题句和答案句的词嵌入表示，得到每个词的注意力权重表示；

步骤2：采用前馈神经网络层对带有注意力权重的词嵌入进行处理，得到Transformer编码器的最终输出。

4.根据权利要求3所述的一种基于BERT模型和比较聚合框架的问答匹配方法，其特征在于，采用多头注意力机制层处理问题句和答案句的词嵌入表示的过程包括：

步骤11：确定多头注意力机制层的参数矩阵

W^O；

步骤12：将参数矩阵

分别与通过BERT模型生成的第i个词的词嵌入表示E_i相乘，得到查询向量Q_h、键向量K_h以及值向量V_h；

步骤14：根据head_h和参数矩阵W^O求出多头注意力权重矩阵；

其中，

表示查询向量参数矩阵，

表示键向量参数矩阵，

表示值向量参数矩阵，W^O表示压缩各个自注意力矩阵时的参数矩阵，head_h表示第h个自注意力矩阵。

5.根据权利要求4所述的一种基于BERT模型和比较聚合框架的问答匹配方法，其特征在于，自注意力计算公式为：

其中，d_k表示键向量K_h的维度，Q_h表示查询向量、

表示键向量的转置、V_h表示值向量。

多头注意力计算方法为：

MultiHead(Z_i)＝Concat(head₁,…,head_n)W^O

其中，MultiHead(Z_i)表示序列中第i个单词的多头注意力表示，Concat(head₁,…,head_n)表示将各个自注意力矩阵进行拼接。

6.根据权利要求1所述的一种基于BERT模型和比较聚合框架的问答匹配方法，其特征在于，问题和答案之间匹配特征为：

7.根据权利要求1所述的一种基于BERT模型和比较聚合框架的问答匹配方法，其特征在于，计算聚合特征向量的公式为：

其中，

表示经TextCNN模型输出的问题句的聚合特征向量，

表示经TextCNN模型输出的答案句的聚合特征向量，C^Q表示问题和答案之间的匹配特征，C^A表示答案和问题之间的匹配特征。

8.根据权利要求1所述的一种基于BERT模型和比较聚合框架的问答匹配方法，其特征在于，计算匹配得分的公式为：

表示经TextCNN模型输出的问题句的聚合特征向量，

表示经TextCNN模型输出的答案句的聚合特征向量，σ表示非线性激活函数。

9.根据权利要求1所述的一种基于BERT模型和比较聚合框架的问答匹配方法，其特征在于，损失函数为：

其中，N表示训练期间使用的样本总数，y_n表示第n个样本的目标标签，score_n为第n个样本的预测标签。

10.根据权利要求1所述的一种基于BERT模型和比较聚合框架的问答匹配方法，其特征在于，Adam算法的公式为：

其中，

表示校正后的一阶矩估计，

表示校正后的二阶矩估计，∈，η分别为训练过程中需调整的参数。