CN109684452A - 一种基于答案与答案位置信息的神经网络问题生成方法 - Google Patents
一种基于答案与答案位置信息的神经网络问题生成方法 Download PDFInfo
- Publication number
- CN109684452A CN109684452A CN201811587178.5A CN201811587178A CN109684452A CN 109684452 A CN109684452 A CN 109684452A CN 201811587178 A CN201811587178 A CN 201811587178A CN 109684452 A CN109684452 A CN 109684452A
- Authority
- CN
- China
- Prior art keywords
- answer
- neural network
- network model
- word
- original text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于答案与答案位置信息的神经网络问题生成方法,神经网络模型是序列到序列的,由编码器与解码器两部分构成。编码器模型主要学习原文中的特征,解码器用于使用上述特征生成对应答案的问题句。完整的一条问题句的生成过程分为三个模式:问题词生成模式,词典词生成模式与拷贝模式。其中,问题词生成模式使用基于答案的模型,通过与答案在原文中的位置信息无关的上下文向量参与模型计算,从限定的问题词词典中生成与答案对应的问题词;问题词生成模式采用与答案在原文中的位置信息有关的上下文向量进行计算;拷贝模式的概率分布直接使用与答案在原文中的位置信息有关的注意力分布。
Description
技术领域
本发明涉及英文自然语言处理、问答系统、机器学习领域,特别是涉及深度学习的神经网络问答系统研究中的问题生成任务。
背景技术
问答系统研究中的问题生成问题,其任务是指根据一段给定的内容文本、一个与内容相关的答案文本,来生成能对应答案的相关问题。
近年来,问题生成任务的研究方法主要分成两类:基于规则的与基于神经网络的方法。与基于规则的方法比较而言,基于神经网络的问题生成方法更多的是数据驱动、支持端到端训练的形式,不依赖与手工编写的规则。
然而,现有的基于神经网络模型的问题生成研究中仍存在两个问题:
1.生成的问题词与答案类型不符;
2.生成的问题句中直接使用的原文本中的词语离答案文本在原文本中的位置距离较远,使得问题句中存在与响应答案无关的词汇。
示例1如下:
内容:The tax collector who arrested him rose to higher politicaloffice,and Thoreau’s essay was not published until after the end of the Mexican War.
基准模型生成的问题句:Why was Thoreau’s essay published?
参考问题句:When was Thoreau’s essay published?
说明:本例中答案应该出发问题词“when”,但是由基准模型生成的问题词是“why”,与答案类型不符。
示例2如下:
内容:This mechanism is still the leading theory today;however,asecond theory suggests that most cpdna is actually linear and replicatesthrough homologous recombination.
答案:Homologous recombination.
基准模型生成的问题句:What is the leading theory today?
参考问题句:How dose the second theory say most cpdna replicates?
说明:本例中“leading theory”在原文中出现的位置距离答案文本在文中位置较远,且语义无关,但是基准模型直接使用了该词,而忽略了距离答案文本较近的词语“second theory”。
发明内容
本发明所要解决的技术问题::针对现有基于神经网络模型的问题生成方法中存在的上述两个问题,本发明提供了一种序列到序列的、融入注意力机制的神经网络训练模型,在本模型中着重加入了答案及其在原文中的位置信息等特征,从而达到了较高的问题词正确率以及拷贝未登录词的平均准确率和平均召回率。
为了解决以上问题,本发明采用了如下技术方案:一种基于答案与答案位置信息的神经网络问题生成方法,其特征在于,第1步,采用公开数据集SQuAD“Stanford QuestionAnswering Dataset”与微软发布的MARCO“Microsoft MAchine Reading COmprehension”作为训练数据集、开发数据集和测试数据集,以及词典“数据集SQuAD中的前20000个高频词”、问题词词典;使用公开的已训练好的300维的Glove“Global Vectors for WordRepresentation”、词向量集作为模型初始词向量,并在之后的模型训练过程中微调;
其中,SQuAD数据集的问题-答案对中86635对用作训练集,8965条为开发集,其余8964对是测试集;MARCO数据集中74097对问题-答案对作为了训练集,4539对用作开发集,4539对为测试集;
第2步,使用斯坦福开源工具CoreNLP“一个对自然语言进行处理的开源工具”从数据集中抽取各个特征集,对数据集进行预处理,并训练第一部分编码器神经网络模型;
第3步,训练第二部分解码器神经网络模型,采用单项LSTM模型,其输入为原文本对应的词向量、前一个隐层状态,前一个与答案在原文中的位置无关的上下文向量;解码器神经网络模型在生成问题句的过程中加入了答案及其在原文中的位置信息特征;
第4步,在训练集与开发集上批训练编码器神经网络模型与解码器神经网络模型的能力,即将本发明预测出来的所有问题句与标准问题句依次进行比较,使预测出的所有问题句与标准问题句之间的总误差最小,使用Adagrad“Adaptive Gradient”优化算法对解码器神经网络模型与编码器神经网络模型进行训练,不断微调解码器神经网络模型与编码器神经网络模型中的各个参数值“vT,b,Wd,β”;算法学习率设置为0.15,累加器初始值为0.1,批训练大小为64。
所述第2步包括以下内容:第2.1步,使用CoreNLP工具处理数据集中的内容文本、答案问题得到对应的特征集:命名实体、词性、答案在原文中的位置信息,特征向量随机初始化为32维的特征参与到编码器神经网络模型的训练过程;
第2.2步,编码器神经网络模型的选择:编码器是一个双向LSTM(Long Short-TermMemory,即:长短时记忆网络)神经网络模型,其输入为原文本对应的词向量、命名实体以及词性特征集合,每一个隐层状态是一个LSTM神经网络单元在当前第i步下计算得到的结果:
第2.3步,训练编码器神经网络模型:模型依次接收原文本中每一个单词对应的特征集合,使用tanh函数作为网络中的激活函数,得到编码器神经网络模型每一步的隐层状态。
所述第3步包括以下内容:第3.1步,首先计算注意力分布以及相应的上下文向量。其中,注意力分布的作用是衡量解码器神经网络模型当前隐层状态与解码器神经网络模型当前隐层状态之间的语义匹配度,根据是否考虑答案在原文中的位置信息,分为两种情况。因而上下文向量也分为两种情况:与答案在原文中位置有关的上下文向量c’t、与答案在原文中的位置无关的上下文向量ct,由解码器神经网络模型当前步骤的隐层状态st与注意力分布(α’t或αt)计算得到:
αti=softmax(eti) α'ti=softmax(e'ti)
其中,eti为计算第t步、第i个单词对应的与答案在原文中位置无关的注意力分布的中间数值,e’ti为计算第t步、第i个单词对应的与答案在原文中位置有关的注意力分布的中间数值,最终使用softmax函数归一化得到注意力分布;vT,b表示与答案在原文中位置无关的解码器神经网络模型中的参数,Wd为与答案在原文中位置有关的解码器神经网络模型中的参数。
第3.2步,训练解码器神经网络模型,得到解码器神经网络模型每一步的隐层状态。解码器神经网络模型的隐层状态将参与问题句生成的三个模式(问题词生成模式,词典词生成模式与拷贝模式)的计算中。
解码器神经网络模型是一个单项LSTM模型,其当前第t步的输入为原文本对应的每一个词向量wt、前一个隐层状态st-1,前一个与答案在原文中位置无关的上下文向量ct-1,输出为当前第t步的解码器神经网络模型隐层状态st:
st=LSTM([wt,ct-1],st-1)
第3.3步,问题词生成模式,根据答案向量vans、每一步的解码器神经网络模型隐层状态st和与答案在原文中位置无关的上下文向量ct,计算从问题词词典中生成对应答案的问题词的概率分布Pquestion_word。其中,hanswer_start为编码器神经网络模型在答案文本起始位置计算得到的隐层状态:
Pquestion_word=softmax(g(vans,st,ct))
vans=hanswer_start
第3.4步,词典词生成模式,根据解码器神经网络模型隐层状态st和与答案在原文中位置有关的上下文向量c’t,使用两层前馈网络,生成问题句中的词典词的概率分布Pvocab:
Pvocab=softmax(g(st,c't))
第3.5步,拷贝模式,计算直接使用原文中某一词汇的概率Pcopy(w),该概率使用与答案在原文中位置有关的注意力分布α’t:
Pcopy(w)=α't
第3.6步,根据与答案在原文中位置无关的上下文向量、解码器神经网络模型当前隐层状态和当前的词向量,计算三种模式(问题词生成模式,词典词生成模式与拷贝模式)之间的切换概率。最终由本发明的两部分(编码器神经网络模型与解码器神经网络模型)预测的某一个词的生成概率,是通过三种模式(问题词生成模式,词典词生成模式与拷贝模式)分别输出的概率Pquestion_word(w),Pvocab(w),Pcopy(w)与对应的切换概率pgenv,pgenq,pcopy进行加权和计算得到,即得到编码器神经网络模型与解码器神经网络模型预测的某一个词是否是问题句中的词的概率P(w)。当预测出的某一个词的概率大于阈值β时,本发明的解码器神经网络模型输出该词w作为本发明预测的问题句中的一个单词。根据当前内容及答案,本发明依次输出的所有单词构成一条完整的预测问题句:
pgenv,pgenq,pcopy=softmax(f(ct,st,wt))
P(w)=pgenvPvocab(w)+pgenqPquestion_word(w)+pcopyPcopy(w)
所述第1步中问题词词典包括‘when',‘what',‘why',‘how',‘which',‘where',‘who',‘whom',‘whose',‘in',‘to',‘by',‘if',‘on',‘for',‘at',‘besides',‘from',‘according',‘after',‘other',‘of',‘during',‘in what',‘in which',‘what year',‘which year',‘how much',‘how many',‘how far',‘fro whom',‘of which',‘of what'。
所述第1步中SQuAD下载地址:https://rajpurkar.github.io/SQuAD-explorer/。
所述第1步中微软发布的MARCO下载地址:http://www.msmarco.org/。
所述第1步中Glove下载地址:http://nlp.stanford.edu/data/glove.6B.zip。
所述第2步中CoreNLP下载地址:https://stanfordnlp.github.io/CoreNLP/。
有益效果:本发明设计的基于答案与答案位置信息的神经网络问题生成方法可以得到73.91%的准确率;设计考虑答案在原文中位置信息的模型在拷贝未登录词时的能力从两个方面考量:平均准确率有22.79%,平均召回率为20.62%。
本方法可以有效解决生成的问题词与答案类型不符;生成的问题句中直接使用的原文本中的词语离答案文本在原文本中距离较远,使得问题句中存在与响应答案无关的词汇这两个问题,能够根据内容、答案生成较好的问题句,超越现有问题生成相关模型的能力,并提高了该领域的基线。
具体实施方式
为更清楚地解释本发明,以下定义并解释了如下符号:
(1)表示输入的特征向量集合,每一个词的特征向量集wi∈Rdw +da+dn+dp,其中Tx为输入文本的长度,dw,da,dn,dp分别是词向量、答案在原文中的位置信息向量、命名实体向量、词性向量的维度,i∈[1,Tx]。
(2)表示编码器神经网络模型中的隐层状态序列,每一个隐层状态是由正向、反向LSTM表示的级联,分别表示为与每一个hi是一个512维的向量,i∈[1,Tx]。
(3)每一步t,与答案在原文中的位置无关的上下文向量表示为ct,与答案在原文中的位置有关的上下文向量表示为c’t。
(4)与答案在原文中的位置无关的注意力分布表示为αt,与答案在原文中的位置有关的注意力分布表示为α't。
(5)表示答案在原文中的位置特征向量,pi表示在原文中第i个词与答案的相对距离,dpi对应其特征向量表示。
(6)解码器神经网络模型中的隐层状态512维。
(7)函数g(·)是一个两层前馈网络,使用Maxout激活函数;函数f(·)是一个单层前馈网络。
(8)vT,b,Wd为本发明中的参数,在解码器神经网络模型与编码器神经网络模型一开始根据正态分布初始化,并在训练过程结束后确定最终数值。
(9)β为本发明判断一个单词是否是内容及答案对应的问题句中的单词的阈值,当预测出某一个单词的概率大于该阈值时,认为该单词是问题句中词,并输出。
(10)Pquestion_word,Pvocab,Pcopy分别表示解码器神经网络模型中问题词生成模式、词典词生成模式与拷贝模式输出的概率分布;Pquestion_word(w),Pvocab(w),Pcopy(w)分别表示某一个词通过问题词生成模式、词典词生成模式与拷贝模式输出的概率。
(11)pgenq,pgenv,pcopy分别代表解码器神经网络模型中,针对某一个单词,问题词生成模式、词典词生成模式与拷贝模式的切换概率。
本发明的方法是基于神经网络模型实现,方法是序列到序列的,由编码器与解码器两部分神经网络模型构成。编码器神经网络模型主要学习原文中的特征,解码器神经网络模型用于使用解码器神经网络模型学习得到的特征集生成对应答案的问题句。完整的一条问题句的生成过程分为三个模式:问题词生成模式,词典词生成模式与拷贝模式。其中,问题词生成模式使用基于答案的模型,通过与答案在原文中的位置信息无关的上下文向量参与模型计算,从限定的问题词词典中生成与答案对应的问题词;问题词生成模式采用与答案在原文中的位置信息有关的上下文向量进行计算;拷贝模式的概率分布直接使用与答案在原文中的位置信息有关的注意力分布。
一种基于答案与答案位置信息的神经网络问题生成方法,包括以下步骤:
第1步,采用公开数据集SQuAD(Stanford Question Answering Dataset,下载地址:https://rajpurkar.github.io/SQuAD-explorer/)与微软发布的MARCO(MicrosoftMAchine Reading COmprehension,下载地址:http://www.msmarco.org/)作为训练数据集、开发数据集和测试数据集,以及词典(数据集SQuAD中的前20000个高频词)、问题词词典(‘when',‘what',‘why',‘how',‘which',‘where',‘who',‘whom',‘whose',‘in',‘to',‘by',‘if',‘on',‘for',‘at',‘besides',‘from',‘according',‘after',‘other',‘of',‘during',‘in what',‘in which',‘what year',‘which year',‘how much',‘how many',‘how far',‘fro whom',‘of which',‘of what')。使用公开的已训练好的300维的Glove(Global Vectors for Word Representation,下载地址:http://nlp.stanford.edu/data/glove.6B.zip)词向量集作为模型初始词向量,并在之后的模型训练过程中微调。
其中,SQuAD数据集的问题-答案对中86635对用作训练集,8965条为开发集,其余8964对是测试集;MARCO数据集中74097对问题-答案对作为了训练集,4539对用作开发集,4539对为测试集。
第2步,使用斯坦福开源工具CoreNLP(一个对自然语言进行处理的开源工具,下载地址:https://stanfordnlp.github.io/CoreNLP/)从数据集中抽取各个特征集,对数据集进行预处理,并训练本发明的第一部分编码器神经网络模型:
第2.1步,使用CoreNLP工具处理数据集中的内容文本、答案问题得到对应的特征集:命名实体、词性、答案在原文中的位置信息,特征向量随机初始化为32维的特征参与到编码器神经网络模型的训练过程;
第2.2步,编码器神经网络模型的选择:编码器是一个双向LSTM(Long Short-TermMemory,即:长短时记忆网络)神经网络模型,其输入为原文本对应的词向量、命名实体以及词性特征集合,每一个隐层状态是一个LSTM神经网络单元在当前第i步下计算得到的结果:
第2.3步,训练编码器神经网络模型:模型依次接收原文本中每一个单词对应的特征集合,使用tanh函数作为网络中的激活函数,得到编码器神经网络模型每一步的隐层状态。
第3步,训练本发明的第二部分解码器神经网络模型,采用单项LSTM模型,其输入为原文本对应的词向量、前一个隐层状态,前一个与答案在原文中的位置无关的上下文向量。解码器神经网络模型在生成问题句的过程中加入了答案及其在原文中的位置信息等特征。
第3.1步,首先计算注意力分布以及相应的上下文向量。其中,注意力分布的作用是衡量解码器神经网络模型当前隐层状态与解码器神经网络模型当前隐层状态之间的语义匹配度,根据是否考虑答案在原文中的位置信息,分为两种情况。因而上下文向量也分为两种情况:与答案在原文中位置有关的上下文向量c’t、与答案在原文中的位置无关的上下文向量ct,由解码器神经网络模型当前步骤的隐层状态st与注意力分布(α’t或αt)计算得到:
αti=softmax(eti) α'ti=softmax(e'ti)
其中,eti为计算第t步、第i个单词对应的与答案在原文中位置无关的注意力分布的中间数值,e’ti为计算第t步、第i个单词对应的与答案在原文中位置有关的注意力分布的中间数值,最终使用softmax函数归一化得到注意力分布;vT,b表示与答案在原文中位置无关的解码器神经网络模型中的参数,Wd为与答案在原文中位置有关的解码器神经网络模型中的参数。
第3.2步,训练解码器神经网络模型,得到解码器神经网络模型每一步的隐层状态。解码器神经网络模型的隐层状态将参与问题句生成的三个模式(问题词生成模式,词典词生成模式与拷贝模式)的计算中。
解码器神经网络模型是一个单项LSTM模型,其当前第t步的输入为原文本对应的每一个词向量wt、前一个隐层状态st-1,前一个与答案在原文中位置无关的上下文向量ct-1,输出为当前第t步的解码器神经网络模型隐层状态st:
st=LSTM([wt,ct-1],st-1)
第3.3步,问题词生成模式,根据答案向量vans、每一步的解码器神经网络模型隐层状态st和与答案在原文中位置无关的上下文向量ct,计算从问题词词典中生成对应答案的问题词的概率分布Pquestion_word。其中,hanswer_start为编码器神经网络模型在答案文本起始位置计算得到的隐层状态:
Pquestion_word=softmax(g(vans,st,ct))
vans=hanswer_start
第3.4步,词典词生成模式,根据解码器神经网络模型隐层状态st和与答案在原文中位置有关的上下文向量c’t,使用两层前馈网络,生成问题句中的词典词的概率分布Pvocab:
Pvocab=softmax(g(st,c't))
第3.5步,拷贝模式,计算直接使用原文中某一词汇的概率Pcopy(w),该概率使用与答案在原文中位置有关的注意力分布α’t:
Pcopy(w)=α't
第3.6步,根据与答案在原文中位置无关的上下文向量、解码器神经网络模型当前隐层状态和当前的词向量,计算三种模式(问题词生成模式,词典词生成模式与拷贝模式)之间的切换概率。最终由本发明的两部分(编码器神经网络模型与解码器神经网络模型)预测的某一个词的生成概率,是通过三种模式(问题词生成模式,词典词生成模式与拷贝模式)分别输出的概率Pquestion_word(w),Pvocab(w),Pcopy(w)与对应的切换概率pgenv,pgenq,pcopy进行加权和计算得到,即得到编码器神经网络模型与解码器神经网络模型预测的某一个词是否是问题句中的词的概率P(w)。当预测出的某一个词的概率大于阈值β时,本发明的解码器神经网络模型输出该词w作为本发明预测的问题句中的一个单词。根据当前内容及答案,本发明依次输出的所有单词构成一条完整的预测问题句:
pgenv,pgenq,pcopy=softmax(f(ct,st,wt))
P(w)=pgenvPvocab(w)+pgenqPquestion_word(w)+pcopyPcopy(w)
第4步,在训练集与开发集上批训练编码器神经网络模型与解码器神经网络模型的能力,即将本发明预测出来的所有问题句与标准问题句依次进行比较,使本发明预测出的所有问题句与标准问题句之间的总误差最小,使用Adagrad(Adaptive Gradient)优化算法对解码器神经网络模型与编码器神经网络模型进行训练,不断微调解码器神经网络模型与编码器神经网络模型中的各个参数值(vT,b,Wd,β)。算法学习率设置为0.15,累加器初始值为0.1,批训练大小为64。
本发明在训练过程中,将使用LSTM神经网络单元以及优化算法不断调整解码器神经网络模型与编码器神经网络模型中的各个参数,最终确定vT,b,Wd,β的数值,得到一个使损失函数最小的解码器神经网络模型与编码器神经网络模型。
实验细节:本发明的编码器神经网络模型与解码器神经网络模型中,仅在编码器神经网络模型中使用Dropout策略(在一次训练的迭代过程中,对每一层中的神经元(总数为N)以概率P随机剔除,用余下的(1-P)×N个神经元所构成的网络来训练本次迭代中的数据),dropout率设置为0.5;原文文本长度最长为100个单词,原文中词与答案的相对距离取值范围在[0,80]之间,对应的位置特征向量的维度为16维;为处理编码器神经网络模型与解码器神经网络模型训练过程汇总的梯度爆炸问题,引入梯度裁剪算法,以及2-最大梯度范数进行数据的归一化处理。在训练过程结束后,本发明选取了最优模型进行测试(优化算法得到的、使得损失函数最小的解码器神经网络模型与编码器神经网络模型)。
实验效果
本发明使用公开数据集SQuAD(Stanford Question Answering Dataset)与微软发布的MARCO(Microsoft MAchine Reading COmprehension)进行模型的训练、开发和测试,采用BLEU(bilingual evaluation understudy,即:双语互译质量评估辅助工具)评测指标进行评估。
具体评分如下:
针对问题生成任务中的生成的问题词与答案类型不符问题,本发明设计的答案与答案位置信息的神经网络问题生成方法,通过在测试集中计算问题词生成正确率,该方法可以得到73.91%的准确率。
此外,本发明设计考虑答案在原文中位置信息的模型目的在于将答案文本与内容文本中其他词语的相对距离进行建模,以期解决现有基于神经网络模型的问题生成方法中直接拷贝使用的原文本中的词语不仅在相对答案文本的距离方面较远,在语义相关性上也差距甚远的问题。本发明在两个方面分析了该模型在拷贝未登录词时的能力:平均准确率22.79%,平均召回率20.62%。
Claims (8)
1.一种基于答案与答案位置信息的神经网络问题生成方法,其特征在于,第1步,采用公开数据集SQuAD“Stanford Question Answering Dataset”与微软发布的MARCO“Microsoft MAchine Reading COmprehension”作为训练数据集、开发数据集和测试数据集,以及词典“数据集SQuAD中的前20000个高频词”、问题词词典;使用公开的已训练好的300维的Glove“Global Vectors for Word Representation”、词向量集作为模型初始词向量,并在之后的模型训练过程中微调;
其中,SQuAD数据集的问题-答案对中86635对用作训练集,8965条为开发集,其余8964对是测试集;MARCO数据集中74097对问题-答案对作为了训练集,4539对用作开发集,4539对为测试集;
第2步,使用斯坦福开源工具CoreNLP“一个对自然语言进行处理的开源工具”从数据集中抽取各个特征集,对数据集进行预处理,并训练第一部分编码器神经网络模型;
第3步,训练第二部分解码器神经网络模型,采用单项LSTM模型,其输入为原文本对应的词向量、前一个隐层状态,前一个与答案在原文中的位置无关的上下文向量;解码器神经网络模型在生成问题句的过程中加入了答案及其在原文中的位置信息特征;
第4步,在训练集与开发集上批训练编码器神经网络模型与解码器神经网络模型的能力,即将本发明预测出来的所有问题句与标准问题句依次进行比较,使预测出的所有问题句与标准问题句之间的总误差最小,使用Adagrad“Adaptive Gradient”优化算法对解码器神经网络模型与编码器神经网络模型进行训练,不断微调解码器神经网络模型与编码器神经网络模型中的各个参数值算法学习率设置为0.15,累加器初始值为0.1,批训练大小为64。
2.根据权利要求1所述的一种基于答案与答案位置信息的神经网络问题生成方法,其特征在于,所述第2步包括以下内容:
第2.1步,使用CoreNLP工具处理数据集中的内容文本、答案问题得到对应的特征集:命名实体、词性、答案在原文中的位置信息,特征向量随机初始化为32维的特征参与到编码器神经网络模型的训练过程;
第2.2步,编码器神经网络模型的选择:编码器是一个双向LSTM(Long Short-TermMemory,即:长短时记忆网络)神经网络模型,其输入为原文本对应的词向量、命名实体以及词性特征集合,每一个隐层状态是一个LSTM神经网络单元在当前第i步下计算得到的结果:
第2.3步,训练编码器神经网络模型:模型依次接收原文本中每一个单词对应的特征集合,使用tanh函数作为网络中的激活函数,得到编码器神经网络模型每一步的隐层状态。
3.根据权利要求1所述的一种基于答案与答案位置信息的神经网络问题生成方法,其特征在于,所述第3步包括以下内容:第3步,训练本发明的第二部分解码器神经网络模型,采用单项LSTM模型,其输入为原文本对应的词向量、前一个隐层状态,前一个与答案在原文中的位置无关的上下文向量。解码器神经网络模型在生成问题句的过程中加入了答案及其在原文中的位置信息等特征。
第3.1步,首先计算注意力分布以及相应的上下文向量。其中,注意力分布的作用是衡量解码器神经网络模型当前隐层状态与解码器神经网络模型当前隐层状态之间的语义匹配度,根据是否考虑答案在原文中的位置信息,分为两种情况。因而上下文向量也分为两种情况:与答案在原文中位置有关的上下文向量c’t、与答案在原文中的位置无关的上下文向量ct,由解码器神经网络模型当前步骤的隐层状态st与注意力分布(α’t或αt)计算得到:
αti=softmax(eti)α'ti=softmax(e'ti)
e'ti=vTtanh(Wddpi+Whhi+Wsst+b)
其中,eti为计算第t步、第i个单词对应的与答案在原文中位置无关的注意力分布的中间数值,e’ti为计算第t步、第i个单词对应的与答案在原文中位置有关的注意力分布的中间数值,最终使用softmax函数归一化得到注意力分布;vT,b表示与答案在原文中位置无关的解码器神经网络模型中的参数,Wd为与答案在原文中位置有关的解码器神经网络模型中的参数。
第3.2步,训练解码器神经网络模型,得到解码器神经网络模型每一步的隐层状态。解码器神经网络模型的隐层状态将参与问题句生成的三个模式(问题词生成模式,词典词生成模式与拷贝模式)的计算中。
解码器神经网络模型是一个单项LSTM模型,其当前第t步的输入为原文本对应的每一个词向量wt、前一个隐层状态st-1,前一个与答案在原文中位置无关的上下文向量ct-1,输出为当前第t步的解码器神经网络模型隐层状态st:
st=LSTM([wt,ct-1],st-1)
第3.3步,问题词生成模式,根据答案向量vans、每一步的解码器神经网络模型隐层状态st和与答案在原文中位置无关的上下文向量ct,计算从问题词词典中生成对应答案的问题词的概率分布Pquestion_word。其中,hanswer_start为编码器神经网络模型在答案文本起始位置计算得到的隐层状态:
Pquestion_word=softmax(g(vans,st,ct))
vans=hanswer_start
第3.4步,词典词生成模式,根据解码器神经网络模型隐层状态st和与答案在原文中位置有关的上下文向量c’t,使用两层前馈网络,生成问题句中的词典词的概率分布Pvocab:
Pvocab=softmax(g(st,c't))
第3.5步,拷贝模式,计算直接使用原文中某一词汇的概率Pcopy(w),该概率使用与答案在原文中位置有关的注意力分布α’t:
Pcopy(w)=α't
第3.6步,根据与答案在原文中位置无关的上下文向量、解码器神经网络模型当前隐层状态和当前的词向量,计算三种模式(问题词生成模式,词典词生成模式与拷贝模式)之间的切换概率。最终由本发明的两部分(编码器神经网络模型与解码器神经网络模型)预测的某一个词的生成概率,是通过三种模式(问题词生成模式,词典词生成模式与拷贝模式)分别输出的概率Pquestion_word(w),Pvocab(w),Pcopy(w)与对应的切换概率pgenv,pgenq,pcopy进行加权和计算得到,即得到编码器神经网络模型与解码器神经网络模型预测的某一个词是否是问题句中的词的概率P(w)。当预测出的某一个词的概率大于阈值β时,本发明的解码器神经网络模型输出该词w作为本发明预测的问题句中的一个单词。根据当前内容及答案,本发明依次输出的所有单词构成一条完整的预测问题句:
pgenv,pgenq,pcopy=softmax(f(ct,st,wt))
P(w)=pgenvPvocab(w)+pgenqPquestion_word(w)+pcopyPcopy(w)。
4.根据权利要求1所述的一种基于答案与答案位置信息的神经网络问题生成方法,其特征在于,所述第1步中问题词词典包括‘when',‘what',‘why',‘how',‘which',‘where',‘who',‘whom',‘whose',‘in',‘to',‘by',‘if',‘on',‘for',‘at',‘besides',‘from',‘according',‘after',‘other',‘of',‘during',‘in what',‘in which',‘what year',‘which year',‘how much',‘how many',‘how far',‘fro whom',‘of which',‘of what'。
5.根据权利要求1所述的一种基于答案与答案位置信息的神经网络问题生成方法,其特征在于,所述第1步中SQuAD下载地址:https://rajpurkar.github.io/SQuAD- explorer/。
6.根据权利要求1所述的一种基于答案与答案位置信息的神经网络问题生成方法,其特征在于,所述第1步中微软发布的MARCO下载地址:http://www.msmarco.org/。
7.根据权利要求1所述的一种基于答案与答案位置信息的神经网络问题生成方法,其特征在于,所述第1步中Glove下载地址:http://nlp.stanford.edu/data/glove.6B.zip。
8.根据权利要求1所述的一种基于答案与答案位置信息的神经网络问题生成方法,其特征在于,所述第2步中CoreNLP下载地址:https://stanfordnlp.github.io/CoreNLP/。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811587178.5A CN109684452A (zh) | 2018-12-25 | 2018-12-25 | 一种基于答案与答案位置信息的神经网络问题生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811587178.5A CN109684452A (zh) | 2018-12-25 | 2018-12-25 | 一种基于答案与答案位置信息的神经网络问题生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109684452A true CN109684452A (zh) | 2019-04-26 |
Family
ID=66189198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811587178.5A Pending CN109684452A (zh) | 2018-12-25 | 2018-12-25 | 一种基于答案与答案位置信息的神经网络问题生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109684452A (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334196A (zh) * | 2019-06-28 | 2019-10-15 | 同济大学 | 基于笔画和自注意力机制的神经网络中文问题生成系统 |
CN110457450A (zh) * | 2019-07-05 | 2019-11-15 | 平安科技(深圳)有限公司 | 基于神经网络模型的答案生成方法及相关设备 |
CN110569343A (zh) * | 2019-08-16 | 2019-12-13 | 华东理工大学 | 一种基于问答的临床文本结构化的方法 |
CN110866195A (zh) * | 2019-11-12 | 2020-03-06 | 腾讯科技(深圳)有限公司 | 文本描述的生成方法、装置、电子设备及存储介质 |
CN110969010A (zh) * | 2019-12-06 | 2020-04-07 | 浙江大学 | 一种基于关系指导及双通道交互机制的问题生成方法 |
CN111177348A (zh) * | 2019-12-20 | 2020-05-19 | 卓尔智联(武汉)研究院有限公司 | 问题生成模型的训练方法、装置、电子设备及存储介质 |
CN111339763A (zh) * | 2020-02-26 | 2020-06-26 | 四川大学 | 一种基于多层级神经网络的英文邮件主题生成方法 |
CN111563146A (zh) * | 2020-04-02 | 2020-08-21 | 华南理工大学 | 一种基于推理的难度可控问题生成方法 |
CN111738006A (zh) * | 2020-06-22 | 2020-10-02 | 苏州大学 | 基于商品评论命名实体识别的问题生成方法 |
CN111782767A (zh) * | 2020-06-30 | 2020-10-16 | 北京三快在线科技有限公司 | 问答方法、装置、设备及存储介质 |
CN111813913A (zh) * | 2019-11-27 | 2020-10-23 | 上海交通大学 | 以问题为导向的两阶段问题生成系统 |
WO2020253060A1 (zh) * | 2019-06-17 | 2020-12-24 | 平安科技(深圳)有限公司 | 语音识别方法、模型的训练方法、装置、设备及存储介质 |
CN112307773A (zh) * | 2020-12-02 | 2021-02-02 | 上海交通大学 | 机器阅读理解系统的自定义问题数据自动生成方法 |
CN112307764A (zh) * | 2019-07-30 | 2021-02-02 | 百度(美国)有限责任公司 | 用于神经命名实体识别的共指感知表示学习 |
CN112528667A (zh) * | 2020-11-27 | 2021-03-19 | 北京大学 | 一种语义解析上的领域迁移方法和装置 |
CN113094489A (zh) * | 2021-05-08 | 2021-07-09 | 北京邮电大学 | 基于疑问词分类器的神经网络问题生成方法及生成系统 |
CN113128206A (zh) * | 2021-04-26 | 2021-07-16 | 中国科学技术大学 | 基于单词重要性加权的问题生成方法 |
CN113221576A (zh) * | 2021-06-01 | 2021-08-06 | 复旦大学 | 一种基于序列到序列架构的命名实体识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107358948A (zh) * | 2017-06-27 | 2017-11-17 | 上海交通大学 | 基于注意力模型的语言输入关联性检测方法 |
CN108415977A (zh) * | 2018-02-09 | 2018-08-17 | 华南理工大学 | 一个基于深度神经网络及强化学习的生成式机器阅读理解方法 |
CN108846130A (zh) * | 2018-06-29 | 2018-11-20 | 北京百度网讯科技有限公司 | 一种问题文本生成方法、装置、设备和介质 |
-
2018
- 2018-12-25 CN CN201811587178.5A patent/CN109684452A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107358948A (zh) * | 2017-06-27 | 2017-11-17 | 上海交通大学 | 基于注意力模型的语言输入关联性检测方法 |
CN108415977A (zh) * | 2018-02-09 | 2018-08-17 | 华南理工大学 | 一个基于深度神经网络及强化学习的生成式机器阅读理解方法 |
CN108846130A (zh) * | 2018-06-29 | 2018-11-20 | 北京百度网讯科技有限公司 | 一种问题文本生成方法、装置、设备和介质 |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020253060A1 (zh) * | 2019-06-17 | 2020-12-24 | 平安科技(深圳)有限公司 | 语音识别方法、模型的训练方法、装置、设备及存储介质 |
CN110334196B (zh) * | 2019-06-28 | 2023-06-27 | 同济大学 | 基于笔画和自注意力机制的神经网络中文问题生成系统 |
CN110334196A (zh) * | 2019-06-28 | 2019-10-15 | 同济大学 | 基于笔画和自注意力机制的神经网络中文问题生成系统 |
CN110457450A (zh) * | 2019-07-05 | 2019-11-15 | 平安科技(深圳)有限公司 | 基于神经网络模型的答案生成方法及相关设备 |
CN110457450B (zh) * | 2019-07-05 | 2023-12-22 | 平安科技(深圳)有限公司 | 基于神经网络模型的答案生成方法及相关设备 |
CN112307764B (zh) * | 2019-07-30 | 2024-01-19 | 百度(美国)有限责任公司 | 用于神经命名实体识别的共指感知表示学习 |
CN112307764A (zh) * | 2019-07-30 | 2021-02-02 | 百度(美国)有限责任公司 | 用于神经命名实体识别的共指感知表示学习 |
CN110569343A (zh) * | 2019-08-16 | 2019-12-13 | 华东理工大学 | 一种基于问答的临床文本结构化的方法 |
CN110866195A (zh) * | 2019-11-12 | 2020-03-06 | 腾讯科技(深圳)有限公司 | 文本描述的生成方法、装置、电子设备及存储介质 |
CN110866195B (zh) * | 2019-11-12 | 2024-03-19 | 腾讯科技(深圳)有限公司 | 文本描述的生成方法、装置、电子设备及存储介质 |
CN111813913A (zh) * | 2019-11-27 | 2020-10-23 | 上海交通大学 | 以问题为导向的两阶段问题生成系统 |
CN111813913B (zh) * | 2019-11-27 | 2024-02-20 | 上海交通大学 | 以问题为导向的两阶段问题生成系统 |
CN110969010A (zh) * | 2019-12-06 | 2020-04-07 | 浙江大学 | 一种基于关系指导及双通道交互机制的问题生成方法 |
CN111177348A (zh) * | 2019-12-20 | 2020-05-19 | 卓尔智联(武汉)研究院有限公司 | 问题生成模型的训练方法、装置、电子设备及存储介质 |
CN111339763A (zh) * | 2020-02-26 | 2020-06-26 | 四川大学 | 一种基于多层级神经网络的英文邮件主题生成方法 |
CN111339763B (zh) * | 2020-02-26 | 2022-06-28 | 四川大学 | 一种基于多层级神经网络的英文邮件主题生成方法 |
CN111563146A (zh) * | 2020-04-02 | 2020-08-21 | 华南理工大学 | 一种基于推理的难度可控问题生成方法 |
CN111563146B (zh) * | 2020-04-02 | 2023-05-23 | 华南理工大学 | 一种基于推理的难度可控问题生成方法 |
CN111738006A (zh) * | 2020-06-22 | 2020-10-02 | 苏州大学 | 基于商品评论命名实体识别的问题生成方法 |
CN111782767A (zh) * | 2020-06-30 | 2020-10-16 | 北京三快在线科技有限公司 | 问答方法、装置、设备及存储介质 |
CN112528667A (zh) * | 2020-11-27 | 2021-03-19 | 北京大学 | 一种语义解析上的领域迁移方法和装置 |
CN112307773A (zh) * | 2020-12-02 | 2021-02-02 | 上海交通大学 | 机器阅读理解系统的自定义问题数据自动生成方法 |
CN112307773B (zh) * | 2020-12-02 | 2022-06-21 | 上海交通大学 | 机器阅读理解系统的自定义问题数据自动生成方法 |
CN113128206A (zh) * | 2021-04-26 | 2021-07-16 | 中国科学技术大学 | 基于单词重要性加权的问题生成方法 |
CN113094489A (zh) * | 2021-05-08 | 2021-07-09 | 北京邮电大学 | 基于疑问词分类器的神经网络问题生成方法及生成系统 |
CN113221576A (zh) * | 2021-06-01 | 2021-08-06 | 复旦大学 | 一种基于序列到序列架构的命名实体识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109684452A (zh) | 一种基于答案与答案位置信息的神经网络问题生成方法 | |
CN108733792B (zh) | 一种实体关系抽取方法 | |
CN110929030B (zh) | 一种文本摘要和情感分类联合训练方法 | |
CN112487143B (zh) | 一种基于舆情大数据分析的多标签文本分类方法 | |
CN111241807B (zh) | 一种基于知识引导注意力的机器阅读理解方法 | |
CN111414749B (zh) | 基于深度神经网络的社交文本依存句法分析系统 | |
Yang et al. | Multitask learning and reinforcement learning for personalized dialog generation: An empirical study | |
CN110879940A (zh) | 一种基于深度神经网络的机器翻译方法及系统 | |
CN110580287A (zh) | 基于迁移学习和on-lstm的情感分类方法 | |
CN112256876A (zh) | 基于多记忆注意力网络的方面级情感分类模型 | |
Bokka et al. | Deep Learning for Natural Language Processing: Solve your natural language processing problems with smart deep neural networks | |
CN112115687A (zh) | 一种结合知识库中的三元组和实体类型的生成问题方法 | |
CN114218928A (zh) | 一种基于图知识和主题感知的抽象文本摘要方法 | |
CN112380835B (zh) | 融合实体和句子推理信息的问题答案提取方法及电子装置 | |
CN113255366A (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
Zhao | The state-of-art applications of nlp: Evidence from chatgpt | |
Qu et al. | Novel multi‐domain attention for abstractive summarisation | |
CN111914084A (zh) | 一种基于深度学习的带有情感标签文本生成及评估系统 | |
Xiao et al. | Chinese questions classification in the law domain | |
CN116501864A (zh) | 交叉嵌入式注意力BiLSTM多标签文本分类模型、方法及设备 | |
CN115906846A (zh) | 一种基于双图的层次特征融合的文档级命名实体识别方法 | |
CN113505226B (zh) | 融合图卷积神经网络的文本情感分类系统 | |
CN112131363B (zh) | 自动问答方法、装置、设备及存储介质 | |
CN111581339B (zh) | 基于树状lstm对生物医学文献的基因事件的抽取方法 | |
CN111274359B (zh) | 基于改进vhred与强化学习的查询推荐方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190426 |
|
WD01 | Invention patent application deemed withdrawn after publication |