CN110647619B

CN110647619B - 一种基于问题生成和卷积神经网络的常识问答方法

Info

Publication number: CN110647619B
Application number: CN201910708387.9A
Authority: CN
Inventors: 周瑞莹; 梁艺阐; 印鉴
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-08-01
Filing date: 2019-08-01
Publication date: 2023-05-05
Anticipated expiration: 2039-08-01
Also published as: CN110647619A

Abstract

本发明提供一种基于问题生成和卷积神经网络的常识问答方法，该方法通过BERT语言模型将内容‑问题编码成向量序列，传入问题生成模块，再传入共享的BERT语言模型，然后将内容‑问题‑答案组成的三元组通过BERT语言模型，输出的内容‑问题‑答案的编码序列传入答案选择模块，通过卷积神经网络对其做分类，最后，模型得到的评分来选取最优的选项作为模型选出的候选答案。

Description

一种基于问题生成和卷积神经网络的常识问答方法

技术领域

本发明涉及自然语言处理技术领域，更具体地，涉及一种基于问题生成和卷积神经网络的常识问答方法。

背景技术

近年来，随着大数据和计算机技术的发展，问答系统已经是应用在各个行业，而问答系统也成为智能机器人的一个关键组成部分，影响着机器人与人交流交互重要环节。而常识问答，是给予一个行为内容，对于该内容可能发生的情况提出问题，预测给出答案选项中正确的答案，该领域是人工智能与自然语言处理相结合的研究领域。常识问答中涉及的常识推理对于人而言是轻而易举的，但是对于机器而言是一个相当大的挑战，所以我们在优化这个过程，寻找让机器也能回答常识问题。

常识问答中，所提出的问题根据动机不同划分，可以能涵盖以下几种类型：想法型，反应型，描述型，动机型，需求型，影响型等。对于以上的几种常识问答的类型，当我们人在有先验知识的储备时，是很容易做出推理回答的，但是对于机器而言，就不能直接像人一样做出回答，它通过学习，推理才能够得出最后的正确答案。还有一种解决方法是，让机器先学习大量的先验常识知识模版，然后，再通过提问的问题再对知识库中的常识问题进行查询，最终得到最后的答案。但是，外部知识的引入会涵盖的范围不够广，当外部知识到达一定限度的时候，就无法正确回答问题了。而且，庞大的常识知识库的整理需要耗费高昂的人力物力。所以，我们引入了一个不依赖外部知识的常识问答方法。让模型学习常识问答中，问题是如何根据内容提出的，正确答案应该如何选出来。分析内容与问题的语义信息，挖掘隐藏在句子上下文中的信息，从而推理出候选答案中的正确答案。

对于现有的技术，只是使用简单的完全链接的网络来表示内容信息，从而直接得出候选答案的预测。所以造成效果不好的原因有以下几点：1)没有考虑到内容信息与问题信息之间的语义关联关系，没有充分利用丰富的语法和语义信息；2)在语言模型表示的向量时只考虑词头信息，未再考虑完整序列中每个词涵盖的可能被遗漏的信息。所以，我们通过加入问题生成模块，使用内容来生成问题，从而知道，常识问题一般会如何提问，找到其中内容信息与问题信息的语义关联关系。以及，我们在候选答案选择部分加入了卷积神经网络，对完整的序列做一个分类效果，让最后的常识问答准确率得到了提升。综上，我们提出了基于问题生成和卷积神经网络的常识问答方法。

发明内容

本发明提供一种基于问题生成和卷积神经网络的常识问答方法，该方法可实现选出最优的候选答案。

为了达到上述技术效果，本发明的技术方案如下：

一种基于问题生成和卷积神经网络的常识问答方法，包括以下步骤：

S1：构建内容-问题的输入序列，传入BERT语言模型，编码好的向量序列再传入问题生成模块，问题生成模块学习到了内容与问题中的重要信息，再将序列传入BERT语言模型，其中，BERT语言模型是一种预训练的深度双向Transformer语言模型；所述步骤S1的具体过程是：

S11：预处理数据集文本，拼接成由内容和问题组成的新组合序列s＝{c₁，c₂，…c_n，q₁，q₂，…，q_m}，其中，c代表内容的上下文序列，c_i代表的是内容的上下文序列的第i个词，q代表问题序列，q_j代表的是问题序列的第j个词，再将新组合中的每一个单词用一个低维度的，紧密的实数向量进行表示，向量从BERT语言模型的词库中进行匹配，该词库涵盖了30522个词，对于socialIQA数据集只有3％的未登录词；

S12：再将该序列向量表示成[cls]<内容>[sep]<问题>[sep]传入BERT预训练语言模型中，其中，[cls]表示句首标志，[sep]表示分割符，并且BERT模型中本身已经包含了对每个单词的语义建模，所以，BERT模型输出的每个词都是带有语义信息的，从而，学习到了内容与问题的相关联的语义信息，输出表示为h^qg＝BERT{s}，其中，BERT代表语言表示模型，s是S11过程中提及的由内容和问题组成的新序列；

S13：再将该输出序列放入问题生成模块，首先将传入第一层掩码多头自注意力网络层，该网络表示成s′_＜t＝Multihead(q′_＜t，q′_＜t，q′_＜t)，其中q′_＜t是原问题序列，s′是经过掩码多头自注意力网络后的表示序列，Multihead是掩码多头自注意力网络，再传入多头注意力网络o_t＝Multihead(s′_＜t，h^qg，h^qg)，其中o_t表示的是新生成的问题序列；

S14：将新生成的问题序列，传入一个前馈神经网络

o′_t＝W₂(ReLU(o_tW₁+b))，其中，ReLU(x)＝max(x，0)，W₁是权重向量，W₂是权重向量，ReLU是激活函数，b是偏移常量，再将o′_t经过一个softmax函数来计算预测的生成问题的概率序列q′_t＝softmax(o′_tW)，其中W是权重向量；S2：构建内容-问题-答案的输入序列，传入共享的BERT语言模型，编码成向量形式表示句子；所述步骤S2的具体过程是：

S21：对于每个常识问答样例，拆分成以下的形式表示，{内容，问题，答案A}，{内容，问题，答案B}，{内容，问题，答案C}，然后转化成BERT语言模型传入的向量形式表示为[cls]<内容>[sep]<问题>[sep]<答案>[sep]；

S22：将候选样例传入BERT语言模型，输入为e＝{c₁，c₂，…c_n，q₁，q₂，…，q_m，a₁，a₂，…，a_k}，其中，c代表内容的上下文序列，c_i代表的是内容的上下文序列的第i个词，q代表问题序列，q_j代表的是问题序列的第j个词，a代表候选答案的词序列，a_l代表候选答案序列的第1个词，随后，经过BERT语言模型，输出表示为h^*＝BERT{e}；

S3：经过BERT语言模型后的内容-问题-答案编码序列，传入文本卷积神经网络中训练，得到对于每个候选项的评分，通过对评分的排序，选取最高的得分选项成为预测答案；

S4：完成训练阶段，再将测试集的样例，表示成内容-问题-答案编码序列，放入模型中进行预测答案。

进一步地，所述步骤S3的具体过程如下：

S31：将BERT输出的h^*转化成矩阵的形式，假设序列中含有s个词，词向量一共有d维，那么对于该序列，便可以得到s行d列的矩阵A∈R^s×d，将A看成是一幅图，使用卷积神经网络去提取特征，在一个句子中，句子间相邻的单词关联性总是很高的，所以只需要使用一维卷积，其中卷积核的宽度就是词向量的维度d，高度是超参数，自由设置；

S32：卷积核的设置也与矩阵大小相关，设有一个卷积核，是一个宽度为d，高度为h的的矩阵W，那么W有h×d个参数需要被更新，对于一个序列，经过嵌入层之后，可以得到矩阵A∈R^s×d，那么卷积操作可以用如下公式表示：o_i＝W·A[i：i+h-1]，i＝1，2，…，s-h+1，其中，A[i：j]用来表示A的第i行到第j行。在加上偏置b，再对o_i+b使用激活函数f激活，最终得到所需要的特征，整理完成后，如公式所示：c_i＝f(o_i+b)，对于一个卷积核，可以得到特征c∈R^s-h+1，总共s-h+1个特征；

S33：再将每一个特征矩阵使用池化函数，使得他们的维度都相同，使用最常用的1-maxpooling，就是每一个卷积核得到的特征就是一个值，再将每个卷积核级联起来，得到最终的特征向量，再输入到softmax层中做分类，并使用上drop out防止过拟合；

S34：最终会得到一个分类结果的评分值，根据评分值，将最高评分的作为候选答案，再带上有标签数据，放入整个模型中训练。

进一步地，所述步骤S4的具体过程如下：

将测试集表示成[cls]<内容>[sep]<问题>[sep]<答案>[sep]的形式，放入完整模型中，将最后的预测答案结果与标签数据匹配，预测结果与标签匹配的，那说明预测答案准确，模型效果可行。

与现有技术相比，本发明技术方案的有益效果是：

本发明通过BERT语言模型将内容-问题编码成向量序列，传入问题生成模块，再传入BERT语言模型，然后将内容-问题-答案组成的三元组通过BERT语言模型，输出的内容-问题-答案的编码序列传入答案选择模块，通过卷积神经网络对其做分类，最后，模型得到的评分来选取最优的选项作为模型选出的候选答案。

附图说明

图1为本发明流程示意图；

图2为主要模型结构的示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

如图1-2所示，一种基于问题生成和卷积神经网络的常识问答方法，包括以下步骤：

S1：构建内容-问题的输入序列，传入BERT语言模型，编码好的向量序列再传入问题生成模块，问题生成模块学习到了内容与问题中的重要信息，再将序列传入BERT语言模型中；

S2：构建内容-问题-答案的输入序列，传入BERT语言模型，编码成向量形式表示句子；

步骤S1的具体过程是：

S11：预处理数据集文本，拼接成由内容和问题组成的新组合s＝{c₁，c₂，…c_n，q₁，q₂，…，q_m}，再将新组合中的每一个单词用一个低维度的，紧密的实数向量进行表示，向量从BERT语言模型的词库中进行匹配，该词库涵盖了30522个词，对于socialIQA数据集只有3％的未登录词；

S12：再将该序列向量表示成[cls]<内容>[sep]<问题>[sep]传入BERT预训练语言模型中，其中，[cls]表示句首标志，[sep]表示分割符，并且BERT模型中本身已经包含了对每个单词的语义建模，BERT模型输出的每个词都是带有语义信息的，学习到了内容与问题的相关联的语义信息，输出表示为h^qg＝BERT{s}；

S13：再将该输出序列放入问题生成模块，首先将传入第一层掩码多头自注意力网络层，该网络表示成s′_＜t＝Multihead(q′_＜t，q′_＜t，q′_＜t)，其中q′_＜t是原问题序列，s′是经过掩码多头自注意力网络后的表示序列，再传入多头注意力网络o_t＝Multihead(s′_＜t，h^qg，h^qg)，其中o_t表示的是新生成的问题序列；

S14：最后，将新生成的问题序列，传入一个前馈神经网络

o′_t＝W₂(ReLU(o_tW₁+b))，其中，ReLU(x)＝max(x，0)，

再将o′_t经过一个softmax函数来计算预测的生成问题的概率序列q′_t＝softmax(o′_tW)。

步骤S2的具体过程是：

S22：将候选样例传入BERT语言模型，输入为：

e＝{c₁，c₂，…c_n，q₁，q₂，…，q_m，a₁，a₂，…，a_k}，随后，经过BERT语言模型，输出表示为h^*＝BERT{e}。

步骤S3的具体过程如下：

S32：卷积核的设置也与矩阵大小相关，设有一个卷积核，是一个宽度为d，高度为h的的矩阵W，那么W有h×d个参数需要被更新，对于一个序列，经过嵌入层之后，可以得到矩阵A∈R^s×d，那么卷积操作可以用如下公式表示：o_i＝W·A[i：i+h-1]，i＝1，2，…，s-h+1。其中，A[i：j]用来表示A的第i行到第j行。在加上偏置b，再对o_i+b使用激活函数f激活，最终得到所需要的特征，整理完成后，如公式所示：c_i＝f(o_i+b)，对于一个卷积核，可以得到特征c∈R^s-h+1，总共s-h+1个特征；

步骤S4的具体过程如下：

本发明是针对常识型推理问答，我们使用的数据集是SocialIQA公布于2019年3月份的英文常识问答数据集，是当前常识问答中数量级最大更完善的数据集。SocialIQA数据集中的每个样例，包含了内容，问题，选项，如表1所示。

表1数据集中样例

SocialIQA数据集拥有44，811个样例分别划分成为训练集，验证集，测试集，其大小也分别为34k，5.4k和5.6k。我们的主要效果在SocialIQA上有提升。当然我们也参考了COPA和WSC这两个数量级较小的数据集，对比其他方法同样有较好的提升。

以表1中的样例作为例子，我们在问题生成模块的输入为s＝{<cls>Tracysearched for a job in the newspaper and on the internet.<sep>}，将该序列在词表中查找对应的词，转化成向量矩阵后，传入BERT语言模型后，输出为可能的生成问题，再引入正确的问题s^*＝{<cls>Why did Tracy do this？<sep>}，传入模型，对生成过程进行调整。学习其中内容与问题之间隐藏的语义和语法信息，进而更好地回答常识类问答。其中BERT-base模型是包括了12层的编码层，以及768层的隐藏层，该方法只使用到了BERT-base模型。

紧接着，再将我们的每个候选答案组织成一以下形式e_A＝{<cls>Tracy searchedfor a job in the newspaper and on the internet.<sep>Why did Tracy do this？<sep>have a resume<sep>}，e_B＝{<cls>Tracy searched for a job in the newspaperand on the internet.<sep>Why did Tracy do this？<sep>get promoted at her job<sep>}和e_C＝{<cls>Tracy searched for a job in the newspaper and on theinternet.<sep>Why did Tracy do this？<sep>get a better job<sep>}再传入到共享的BERT语言模型当中继续训练，对这一组序列，传递到答案选择模块

再答案选择模块中，根据文本CNN分类器，对每个选项得到的分数进行一个候选排序，最高分的将成为我们模型预测的答案。再根据已有的标签数据，再放入网络中训练。

对于预测最后的问题序列e＝{c₁，c₂，…c_n，q₁，q₂，…，q_m，a₁，a₂，…，a_k}，直接将其传入BERT模型，再经过答案选择模块，最终得到预测结果。

为了表现本实验的良好效果，实验使用BERT-base模型作为最基础的比较验证，使用准确率(accuracy)来作为评价指标，准确率的定义为模型正确预测的样本数目占整个测试数据集样本总数的百分比。实验的结果如下：

从结果上看，可以看出我们的方法相比于以前的方法，都有显著的提升，说明问题生成模型和答案选择模块都有助于常识问答，在不依赖外部知识的情况下，都能很好的回答问题，能学习到涵盖在内容问题中隐藏的语义和语法信息，并且更加完整地考虑到每个词涵盖的信息以防遗漏了重要信息。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所做的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于问题生成和卷积神经网络的常识问答方法，其特征在于，包括以下步骤：

S1：构建内容-问题的输入序列，传入BERT语言模型，编码好的向量序列再传入问题生成模块，问题生成模块学习到了内容与问题中的重要信息，再将序列传入共享的BERT语言模型，其中，BERT语言模型是一种预训练的深度双向Transformer语言模型；所述步骤S1的具体过程是：

S11：预处理数据集文本，拼接成由内容和问题组成的新组合序列s＝{c₁,c₂,…c_n,q₁,q₂,…,q_m}，其中，c代表内容的上下文序列，c_i代表的是内容的上下文序列的第i个词，q代表问题序列，q_j代表的是问题序列的第j个词，再将新组合中的每一个单词用一个低维度的，紧密的实数向量进行表示，向量从BERT语言模型的词库中进行匹配，该词库涵盖了30522个词，对于socialIQA数据集只有3％的未登录词；

S13：再将该输出序列放入问题生成模块，首先将传入第一层掩码多头自注意力网络层，该网络表示成s^′ _＜t＝Multihead(q^′ _＜t,q^′ _＜t,q^′ _＜t)，其中q^′ _＜t是原问题序列，s′是经过掩码多头自注意力网络后的表示序列，Multihead是掩码多头自注意力网络，再传入多头注意力网络o_t＝Multihead(s^′ _＜t,h^qg,h^qg)，其中o_t表示的是新生成的问题序列；

S14：将新生成的问题序列，传入一个前馈神经网络

o^′ _t＝W₂(ReLU(o_tW₁+b))，其中，ReLU(x)＝max(x,0)，W₁是权重向量，W₂是权重向量，ReLU是激活函数，b是偏移常量，再将o^′ _t经过一个softmax函数来计算预测的生成问题的概率序列q^′ _t＝softmax(o^′ _tW)，其中W是权重向量；

S2：构建内容-问题-答案的输入序列，传入BERT语言模型，编码成向量形式表示句子；所述步骤S2的具体过程是：

S22：将候选样例传入BERT语言模型，输入为e＝{c₁,c₂,…c_n,q₁,q₂,…,q_m,a₁,a₂,…,a_k}，其中，c代表内容的上下文序列，c_i代表的是内容的上下文序列的第i个词，q代表问题序列，q_j代表的是问题序列的第j个词，a代表候选答案的词序列，a_l代表候选答案序列的第l个词，随后，经过BERT语言模型，输出表示为h^*＝BERT{e}；

2.根据权利要求1所述的所述的基于问题生成和卷积神经网络的常识问答方法，其特征在于，所述步骤S3的具体过程如下：

S32：卷积核的设置也与矩阵大小相关，设有一个卷积核，是一个宽度为d，高度为h的的矩阵W，那么W有h×d个参数需要被更新，对于一个序列，经过嵌入层之后，可以得到矩阵A∈R^s×d，那么卷积操作可以用如下公式表示：o_i＝W·A[i:i+h-1],i＝1,2,…,s-h+1，其中，A[i:j]用来表示A的第i行到第j行，在加上偏置b，再对o_i+b使用激活函数f激活，最终得到所需要的特征，整理完成后，如公式所示：c_i＝f(o_i+b)，对于一个卷积核，可以得到特征c∈R^s ^-h+1，总共s-h+1个特征；

3.根据权利要求2所述的所述的基于问题生成和卷积神经网络的常识问答方法，其特征在于，所述步骤S4的具体过程如下：