CN109684452A

CN109684452A - 一种基于答案与答案位置信息的神经网络问题生成方法

Info

Publication number: CN109684452A
Application number: CN201811587178.5A
Authority: CN
Inventors: 王石; 资康莉; 符建辉; 王卫民; 曹存根
Original assignee: Zhongke National Power (zhenjiang) Intelligent Technology Co Ltd
Current assignee: Zhongke National Power (zhenjiang) Intelligent Technology Co Ltd
Priority date: 2018-12-25
Filing date: 2018-12-25
Publication date: 2019-04-26

Abstract

本发明公开了一种基于答案与答案位置信息的神经网络问题生成方法，神经网络模型是序列到序列的，由编码器与解码器两部分构成。编码器模型主要学习原文中的特征，解码器用于使用上述特征生成对应答案的问题句。完整的一条问题句的生成过程分为三个模式：问题词生成模式，词典词生成模式与拷贝模式。其中，问题词生成模式使用基于答案的模型，通过与答案在原文中的位置信息无关的上下文向量参与模型计算，从限定的问题词词典中生成与答案对应的问题词；问题词生成模式采用与答案在原文中的位置信息有关的上下文向量进行计算；拷贝模式的概率分布直接使用与答案在原文中的位置信息有关的注意力分布。

Description

一种基于答案与答案位置信息的神经网络问题生成方法

技术领域

本发明涉及英文自然语言处理、问答系统、机器学习领域，特别是涉及深度学习的神经网络问答系统研究中的问题生成任务。

背景技术

问答系统研究中的问题生成问题，其任务是指根据一段给定的内容文本、一个与内容相关的答案文本，来生成能对应答案的相关问题。

近年来，问题生成任务的研究方法主要分成两类：基于规则的与基于神经网络的方法。与基于规则的方法比较而言，基于神经网络的问题生成方法更多的是数据驱动、支持端到端训练的形式，不依赖与手工编写的规则。

然而，现有的基于神经网络模型的问题生成研究中仍存在两个问题：

1.生成的问题词与答案类型不符；

2.生成的问题句中直接使用的原文本中的词语离答案文本在原文本中的位置距离较远，使得问题句中存在与响应答案无关的词汇。

示例1如下：

内容：The tax collector who arrested him rose to higher politicaloffice,and Thoreau’s essay was not published until after the end of the Mexican War.

基准模型生成的问题句：Why was Thoreau’s essay published？

参考问题句：When was Thoreau’s essay published？

说明：本例中答案应该出发问题词“when”，但是由基准模型生成的问题词是“why”，与答案类型不符。

示例2如下：

内容：This mechanism is still the leading theory today；however,asecond theory suggests that most cpdna is actually linear and replicatesthrough homologous recombination.

答案：Homologous recombination.

基准模型生成的问题句：What is the leading theory today？

参考问题句：How dose the second theory say most cpdna replicates？

说明：本例中“leading theory”在原文中出现的位置距离答案文本在文中位置较远，且语义无关，但是基准模型直接使用了该词，而忽略了距离答案文本较近的词语“second theory”。

发明内容

本发明所要解决的技术问题：：针对现有基于神经网络模型的问题生成方法中存在的上述两个问题，本发明提供了一种序列到序列的、融入注意力机制的神经网络训练模型，在本模型中着重加入了答案及其在原文中的位置信息等特征，从而达到了较高的问题词正确率以及拷贝未登录词的平均准确率和平均召回率。

为了解决以上问题，本发明采用了如下技术方案:一种基于答案与答案位置信息的神经网络问题生成方法，其特征在于，第1步，采用公开数据集SQuAD“Stanford QuestionAnswering Dataset”与微软发布的MARCO“Microsoft MAchine Reading COmprehension”作为训练数据集、开发数据集和测试数据集，以及词典“数据集SQuAD中的前20000个高频词”、问题词词典；使用公开的已训练好的300维的Glove“Global Vectors for WordRepresentation”、词向量集作为模型初始词向量，并在之后的模型训练过程中微调；

其中，SQuAD数据集的问题-答案对中86635对用作训练集，8965条为开发集，其余8964对是测试集；MARCO数据集中74097对问题-答案对作为了训练集，4539对用作开发集，4539对为测试集；

第2步，使用斯坦福开源工具CoreNLP“一个对自然语言进行处理的开源工具”从数据集中抽取各个特征集，对数据集进行预处理，并训练第一部分编码器神经网络模型；

第3步，训练第二部分解码器神经网络模型，采用单项LSTM模型，其输入为原文本对应的词向量、前一个隐层状态，前一个与答案在原文中的位置无关的上下文向量；解码器神经网络模型在生成问题句的过程中加入了答案及其在原文中的位置信息特征；

第4步，在训练集与开发集上批训练编码器神经网络模型与解码器神经网络模型的能力，即将本发明预测出来的所有问题句与标准问题句依次进行比较，使预测出的所有问题句与标准问题句之间的总误差最小，使用Adagrad“Adaptive Gradient”优化算法对解码器神经网络模型与编码器神经网络模型进行训练，不断微调解码器神经网络模型与编码器神经网络模型中的各个参数值“v^T，b，W_d，β”；算法学习率设置为0.15，累加器初始值为0.1，批训练大小为64。

所述第2步包括以下内容：第2.1步，使用CoreNLP工具处理数据集中的内容文本、答案问题得到对应的特征集：命名实体、词性、答案在原文中的位置信息，特征向量随机初始化为32维的特征参与到编码器神经网络模型的训练过程；

第2.2步，编码器神经网络模型的选择：编码器是一个双向LSTM(Long Short-TermMemory，即：长短时记忆网络)神经网络模型，其输入为原文本对应的词向量、命名实体以及词性特征集合，每一个隐层状态是一个LSTM神经网络单元在当前第i步下计算得到的结果：

第2.3步，训练编码器神经网络模型：模型依次接收原文本中每一个单词对应的特征集合，使用tanh函数作为网络中的激活函数，得到编码器神经网络模型每一步的隐层状态。

所述第3步包括以下内容：第3.1步，首先计算注意力分布以及相应的上下文向量。其中，注意力分布的作用是衡量解码器神经网络模型当前隐层状态与解码器神经网络模型当前隐层状态之间的语义匹配度，根据是否考虑答案在原文中的位置信息，分为两种情况。因而上下文向量也分为两种情况：与答案在原文中位置有关的上下文向量c’_t、与答案在原文中的位置无关的上下文向量c_t，由解码器神经网络模型当前步骤的隐层状态s_t与注意力分布(α’_t或α_t)计算得到：

α_ti＝softmax(e_ti) α'_ti＝softmax(e'_ti)

其中，e_ti为计算第t步、第i个单词对应的与答案在原文中位置无关的注意力分布的中间数值，e’_ti为计算第t步、第i个单词对应的与答案在原文中位置有关的注意力分布的中间数值，最终使用softmax函数归一化得到注意力分布；v^T，b表示与答案在原文中位置无关的解码器神经网络模型中的参数，W_d为与答案在原文中位置有关的解码器神经网络模型中的参数。

第3.2步，训练解码器神经网络模型，得到解码器神经网络模型每一步的隐层状态。解码器神经网络模型的隐层状态将参与问题句生成的三个模式(问题词生成模式，词典词生成模式与拷贝模式)的计算中。

解码器神经网络模型是一个单项LSTM模型，其当前第t步的输入为原文本对应的每一个词向量w_t、前一个隐层状态s_t-1，前一个与答案在原文中位置无关的上下文向量c_t-1，输出为当前第t步的解码器神经网络模型隐层状态s_t：

s_t＝LSTM([w_t,c_t-1],s_t-1)

第3.3步，问题词生成模式，根据答案向量v_ans、每一步的解码器神经网络模型隐层状态s_t和与答案在原文中位置无关的上下文向量c_t，计算从问题词词典中生成对应答案的问题词的概率分布P_{question_word}。其中，h_{answer_start}为编码器神经网络模型在答案文本起始位置计算得到的隐层状态：

P_{question_word}＝softmax(g(v_ans,s_t,c_t))

v_ans＝h_{answer_start}

第3.4步，词典词生成模式，根据解码器神经网络模型隐层状态s_t和与答案在原文中位置有关的上下文向量c’_t，使用两层前馈网络，生成问题句中的词典词的概率分布P_vocab：

P_vocab＝softmax(g(s_t,c'_t))

第3.5步，拷贝模式，计算直接使用原文中某一词汇的概率P_copy(w)，该概率使用与答案在原文中位置有关的注意力分布α’_t:

P_copy(w)＝α'_t

第3.6步，根据与答案在原文中位置无关的上下文向量、解码器神经网络模型当前隐层状态和当前的词向量，计算三种模式(问题词生成模式，词典词生成模式与拷贝模式)之间的切换概率。最终由本发明的两部分(编码器神经网络模型与解码器神经网络模型)预测的某一个词的生成概率，是通过三种模式(问题词生成模式，词典词生成模式与拷贝模式)分别输出的概率P_{question_word}(w)，P_vocab(w)，P_copy(w)与对应的切换概率p_genv，p_genq，p_copy进行加权和计算得到，即得到编码器神经网络模型与解码器神经网络模型预测的某一个词是否是问题句中的词的概率P(w)。当预测出的某一个词的概率大于阈值β时，本发明的解码器神经网络模型输出该词w作为本发明预测的问题句中的一个单词。根据当前内容及答案，本发明依次输出的所有单词构成一条完整的预测问题句：

p_genv,p_genq,p_copy＝softmax(f(c_t,s_t,w_t))

P(w)＝p_genvP_vocab(w)+p_genqP_{question_word}(w)+p_copyP_copy(w)

所述第1步中问题词词典包括‘when',‘what',‘why',‘how',‘which',‘where',‘who',‘whom',‘whose',‘in',‘to',‘by',‘if',‘on',‘for',‘at',‘besides',‘from',‘according',‘after',‘other',‘of',‘during',‘in what',‘in which',‘what year',‘which year',‘how much',‘how many',‘how far',‘fro whom',‘of which',‘of what'。

所述第1步中SQuAD下载地址：https://rajpurkar.github.io/SQuAD-explorer/。

所述第1步中微软发布的MARCO下载地址：http://www.msmarco.org/。

所述第1步中Glove下载地址：http://nlp.stanford.edu/data/glove.6B.zip。

所述第2步中CoreNLP下载地址：https://stanfordnlp.github.io/CoreNLP/。

有益效果：本发明设计的基于答案与答案位置信息的神经网络问题生成方法可以得到73.91％的准确率；设计考虑答案在原文中位置信息的模型在拷贝未登录词时的能力从两个方面考量：平均准确率有22.79％，平均召回率为20.62％。

本方法可以有效解决生成的问题词与答案类型不符；生成的问题句中直接使用的原文本中的词语离答案文本在原文本中距离较远，使得问题句中存在与响应答案无关的词汇这两个问题，能够根据内容、答案生成较好的问题句，超越现有问题生成相关模型的能力，并提高了该领域的基线。

具体实施方式

为更清楚地解释本发明，以下定义并解释了如下符号：

(1)表示输入的特征向量集合，每一个词的特征向量集w_i∈R^dw ^+da+dn+dp，其中T_x为输入文本的长度，d_w,d_a,d_n,d_p分别是词向量、答案在原文中的位置信息向量、命名实体向量、词性向量的维度，i∈[1，T_x]。

(2)表示编码器神经网络模型中的隐层状态序列，每一个隐层状态是由正向、反向LSTM表示的级联，分别表示为与每一个h_i是一个512维的向量，i∈[1，T_x]。

(3)每一步t，与答案在原文中的位置无关的上下文向量表示为c_t,与答案在原文中的位置有关的上下文向量表示为c’_t。

(4)与答案在原文中的位置无关的注意力分布表示为α_t，与答案在原文中的位置有关的注意力分布表示为α'_t。

(5)表示答案在原文中的位置特征向量，p_i表示在原文中第i个词与答案的相对距离，d_pi对应其特征向量表示。

(6)解码器神经网络模型中的隐层状态512维。

(7)函数g(·)是一个两层前馈网络，使用Maxout激活函数；函数f(·)是一个单层前馈网络。

(8)v^T，b，W_d为本发明中的参数，在解码器神经网络模型与编码器神经网络模型一开始根据正态分布初始化，并在训练过程结束后确定最终数值。

(9)β为本发明判断一个单词是否是内容及答案对应的问题句中的单词的阈值，当预测出某一个单词的概率大于该阈值时，认为该单词是问题句中词，并输出。

(10)P_{question_word}，P_vocab，P_copy分别表示解码器神经网络模型中问题词生成模式、词典词生成模式与拷贝模式输出的概率分布；P_{question_word}(w)，P_vocab(w)，P_copy(w)分别表示某一个词通过问题词生成模式、词典词生成模式与拷贝模式输出的概率。

(11)p_genq，p_genv,p_copy分别代表解码器神经网络模型中，针对某一个单词，问题词生成模式、词典词生成模式与拷贝模式的切换概率。

本发明的方法是基于神经网络模型实现，方法是序列到序列的，由编码器与解码器两部分神经网络模型构成。编码器神经网络模型主要学习原文中的特征，解码器神经网络模型用于使用解码器神经网络模型学习得到的特征集生成对应答案的问题句。完整的一条问题句的生成过程分为三个模式：问题词生成模式，词典词生成模式与拷贝模式。其中，问题词生成模式使用基于答案的模型，通过与答案在原文中的位置信息无关的上下文向量参与模型计算，从限定的问题词词典中生成与答案对应的问题词；问题词生成模式采用与答案在原文中的位置信息有关的上下文向量进行计算；拷贝模式的概率分布直接使用与答案在原文中的位置信息有关的注意力分布。

一种基于答案与答案位置信息的神经网络问题生成方法，包括以下步骤：

第1步，采用公开数据集SQuAD(Stanford Question Answering Dataset，下载地址：https://rajpurkar.github.io/SQuAD-explorer/)与微软发布的MARCO(MicrosoftMAchine Reading COmprehension，下载地址：http://www.msmarco.org/)作为训练数据集、开发数据集和测试数据集，以及词典(数据集SQuAD中的前20000个高频词)、问题词词典(‘when',‘what',‘why',‘how',‘which',‘where',‘who',‘whom',‘whose',‘in',‘to',‘by',‘if',‘on',‘for',‘at',‘besides',‘from',‘according',‘after',‘other',‘of',‘during',‘in what',‘in which',‘what year',‘which year',‘how much',‘how many',‘how far',‘fro whom',‘of which',‘of what')。使用公开的已训练好的300维的Glove(Global Vectors for Word Representation，下载地址：http://nlp.stanford.edu/data/glove.6B.zip)词向量集作为模型初始词向量，并在之后的模型训练过程中微调。

其中，SQuAD数据集的问题-答案对中86635对用作训练集，8965条为开发集，其余8964对是测试集；MARCO数据集中74097对问题-答案对作为了训练集，4539对用作开发集，4539对为测试集。

第2步，使用斯坦福开源工具CoreNLP(一个对自然语言进行处理的开源工具,下载地址：https://stanfordnlp.github.io/CoreNLP/)从数据集中抽取各个特征集，对数据集进行预处理，并训练本发明的第一部分编码器神经网络模型：

第2.1步，使用CoreNLP工具处理数据集中的内容文本、答案问题得到对应的特征集：命名实体、词性、答案在原文中的位置信息，特征向量随机初始化为32维的特征参与到编码器神经网络模型的训练过程；

第3步，训练本发明的第二部分解码器神经网络模型，采用单项LSTM模型，其输入为原文本对应的词向量、前一个隐层状态，前一个与答案在原文中的位置无关的上下文向量。解码器神经网络模型在生成问题句的过程中加入了答案及其在原文中的位置信息等特征。

第3.1步，首先计算注意力分布以及相应的上下文向量。其中，注意力分布的作用是衡量解码器神经网络模型当前隐层状态与解码器神经网络模型当前隐层状态之间的语义匹配度，根据是否考虑答案在原文中的位置信息，分为两种情况。因而上下文向量也分为两种情况：与答案在原文中位置有关的上下文向量c’_t、与答案在原文中的位置无关的上下文向量c_t，由解码器神经网络模型当前步骤的隐层状态s_t与注意力分布(α’_t或α_t)计算得到：

α_ti＝softmax(e_ti) α'_ti＝softmax(e'_ti)

s_t＝LSTM([w_t,c_t-1],s_t-1)

P_{question_word}＝softmax(g(v_ans,s_t,c_t))

v_ans＝h_{answer_start}

P_vocab＝softmax(g(s_t,c'_t))

P_copy(w)＝α'_t

p_genv,p_genq,p_copy＝softmax(f(c_t,s_t,w_t))

P(w)＝p_genvP_vocab(w)+p_genqP_{question_word}(w)+p_copyP_copy(w)

第4步，在训练集与开发集上批训练编码器神经网络模型与解码器神经网络模型的能力，即将本发明预测出来的所有问题句与标准问题句依次进行比较，使本发明预测出的所有问题句与标准问题句之间的总误差最小，使用Adagrad(Adaptive Gradient)优化算法对解码器神经网络模型与编码器神经网络模型进行训练，不断微调解码器神经网络模型与编码器神经网络模型中的各个参数值(v^T，b，W_d，β)。算法学习率设置为0.15，累加器初始值为0.1，批训练大小为64。

本发明在训练过程中，将使用LSTM神经网络单元以及优化算法不断调整解码器神经网络模型与编码器神经网络模型中的各个参数，最终确定v^T，b，W_d，β的数值，得到一个使损失函数最小的解码器神经网络模型与编码器神经网络模型。

实验细节：本发明的编码器神经网络模型与解码器神经网络模型中，仅在编码器神经网络模型中使用Dropout策略(在一次训练的迭代过程中，对每一层中的神经元(总数为N)以概率P随机剔除，用余下的(1-P)×N个神经元所构成的网络来训练本次迭代中的数据)，dropout率设置为0.5；原文文本长度最长为100个单词，原文中词与答案的相对距离取值范围在[0,80]之间，对应的位置特征向量的维度为16维；为处理编码器神经网络模型与解码器神经网络模型训练过程汇总的梯度爆炸问题，引入梯度裁剪算法，以及2-最大梯度范数进行数据的归一化处理。在训练过程结束后，本发明选取了最优模型进行测试(优化算法得到的、使得损失函数最小的解码器神经网络模型与编码器神经网络模型)。

实验效果

本发明使用公开数据集SQuAD(Stanford Question Answering Dataset)与微软发布的MARCO(Microsoft MAchine Reading COmprehension)进行模型的训练、开发和测试，采用BLEU(bilingual evaluation understudy，即：双语互译质量评估辅助工具)评测指标进行评估。

具体评分如下：

针对问题生成任务中的生成的问题词与答案类型不符问题，本发明设计的答案与答案位置信息的神经网络问题生成方法，通过在测试集中计算问题词生成正确率，该方法可以得到73.91％的准确率。

此外，本发明设计考虑答案在原文中位置信息的模型目的在于将答案文本与内容文本中其他词语的相对距离进行建模，以期解决现有基于神经网络模型的问题生成方法中直接拷贝使用的原文本中的词语不仅在相对答案文本的距离方面较远，在语义相关性上也差距甚远的问题。本发明在两个方面分析了该模型在拷贝未登录词时的能力：平均准确率22.79％，平均召回率20.62％。

Claims

1.一种基于答案与答案位置信息的神经网络问题生成方法，其特征在于，第1步，采用公开数据集SQuAD“Stanford Question Answering Dataset”与微软发布的MARCO“Microsoft MAchine Reading COmprehension”作为训练数据集、开发数据集和测试数据集，以及词典“数据集SQuAD中的前20000个高频词”、问题词词典；使用公开的已训练好的300维的Glove“Global Vectors for Word Representation”、词向量集作为模型初始词向量，并在之后的模型训练过程中微调；

第4步，在训练集与开发集上批训练编码器神经网络模型与解码器神经网络模型的能力，即将本发明预测出来的所有问题句与标准问题句依次进行比较，使预测出的所有问题句与标准问题句之间的总误差最小，使用Adagrad“Adaptive Gradient”优化算法对解码器神经网络模型与编码器神经网络模型进行训练，不断微调解码器神经网络模型与编码器神经网络模型中的各个参数值算法学习率设置为0.15，累加器初始值为0.1，批训练大小为64。

2.根据权利要求1所述的一种基于答案与答案位置信息的神经网络问题生成方法，其特征在于，所述第2步包括以下内容：

3.根据权利要求1所述的一种基于答案与答案位置信息的神经网络问题生成方法，其特征在于，所述第3步包括以下内容：第3步，训练本发明的第二部分解码器神经网络模型，采用单项LSTM模型，其输入为原文本对应的词向量、前一个隐层状态，前一个与答案在原文中的位置无关的上下文向量。解码器神经网络模型在生成问题句的过程中加入了答案及其在原文中的位置信息等特征。

α_ti＝softmax(e_ti)α'_ti＝softmax(e'_ti)

e'_ti＝v^Ttanh(W_dd_pi+W_hh_i+W_ss_t+b)

s_t＝LSTM([w_t,c_t-1],s_t-1)

P_{question_word}＝softmax(g(v_ans,s_t,c_t))

v_ans＝h_{answer_start}

P_vocab＝softmax(g(s_t,c'_t))

P_copy(w)＝α'_t

p_genv,p_genq,p_copy＝softmax(f(c_t,s_t,w_t))

P(w)＝p_genvP_vocab(w)+p_genqP_{question_word}(w)+p_copyP_copy(w)。

4.根据权利要求1所述的一种基于答案与答案位置信息的神经网络问题生成方法，其特征在于，所述第1步中问题词词典包括‘when',‘what',‘why',‘how',‘which',‘where',‘who',‘whom',‘whose',‘in',‘to',‘by',‘if',‘on',‘for',‘at',‘besides',‘from',‘according',‘after',‘other',‘of',‘during',‘in what',‘in which',‘what year',‘which year',‘how much',‘how many',‘how far',‘fro whom',‘of which',‘of what'。

5.根据权利要求1所述的一种基于答案与答案位置信息的神经网络问题生成方法，其特征在于，所述第1步中SQuAD下载地址：https://rajpurkar.github.io/SQuAD- explorer/。

6.根据权利要求1所述的一种基于答案与答案位置信息的神经网络问题生成方法，其特征在于，所述第1步中微软发布的MARCO下载地址：http://www.msmarco.org/。

7.根据权利要求1所述的一种基于答案与答案位置信息的神经网络问题生成方法，其特征在于，所述第1步中Glove下载地址：http://nlp.stanford.edu/data/glove.6B.zip。

8.根据权利要求1所述的一种基于答案与答案位置信息的神经网络问题生成方法，其特征在于，所述第2步中CoreNLP下载地址：https://stanfordnlp.github.io/CoreNLP/。