CN109657041A - 基于深度学习的问题自动生成方法 - Google Patents

基于深度学习的问题自动生成方法 Download PDF

Info

Publication number
CN109657041A
CN109657041A CN201811472160.0A CN201811472160A CN109657041A CN 109657041 A CN109657041 A CN 109657041A CN 201811472160 A CN201811472160 A CN 201811472160A CN 109657041 A CN109657041 A CN 109657041A
Authority
CN
China
Prior art keywords
article
answer
word
training
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811472160.0A
Other languages
English (en)
Other versions
CN109657041B (zh
Inventor
陶冶
陆建峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201811472160.0A priority Critical patent/CN109657041B/zh
Publication of CN109657041A publication Critical patent/CN109657041A/zh
Application granted granted Critical
Publication of CN109657041B publication Critical patent/CN109657041B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于深度学习的问题自动生成方法,包含如下步骤:构建训练集<文章,答案,问题>、验证集<文章,答案,问题>、预测集<文章,答案>;利用深度学习框架tensorflow搭建基于编码器‑解码器的序列到序列神经网络模型;对数据集内的句子进行分词、制作词表、词嵌入操作;所述数据集包括训练集、验证集、预测集;利用训练集来训练模型,利用验证集来检测当前训练的模型是否已经过拟合,如果过拟合,则停止训练;否则继续训练;用训练好的模型对预测集进行解码,生成问题。本发明泛化效果好,人工成本低,生成的问题与文章和答案更加匹配,可广泛应用于智能教学、智能问答和知识问答游戏等领域。

Description

基于深度学习的问题自动生成方法
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于深度学习的问题自动生成方法。
背景技术
如何教会机器更好的阅读和理解人类语言是一个较大的挑战,这需要机器能理解自然语言和知道一些必要的常识道理,近年来,关于问题自动生成的研究在自然语言领域内变得越来越流行。问题自动生成就是在给定文章和答案的情况下,自动的生成与文章和答案相关的高质量问题。
问题自动生成方法是自动的生成与文章相关的问题的方法,该方法可以广泛的应用于于智能教学、智能问答和知识问答游戏等,例如:
智能教育:在儿童教育领域,孩子读完一篇故事后,问题自动生成方法会根据故事内容自动生成各式各样的相关问题,让孩子回答,激发孩子的阅读兴趣。
智能辅导:问题自动生成方法可以自动的批量生成练习题,供学生练习。
问答游戏:问题自动生成方法可以生成各种各样的问题,让玩家回答,回答正确则获得相应奖励。
智能问答:问题自动生成方法可以用来辅助问题回答模型的训练,问题自动生成方法可以生成各种各样的问题,由此可以自动获得大量的<文章,问题,答案>样本,用来训练问题回答模型,应用于智能问答任务。
现有方法通常是基于规则来实现问题自动生成方法,严重依赖于人工抓取的特征集,其生成的问题通常存在语句不通顺,语义不合理,词重复,与文章内容不匹配等缺陷。
发明内容
本发明的目的在于提供一种基于深度学习的问题自动生成方法。
实现本发明目的的技术方案为:一种基于深度学习的问题自动生成方法,包括以下步骤:
步骤1,构建训练集<文章,答案,问题>、验证集<文章,答案,问题>、预测集<文章,答案>;
步骤2,利用深度学习框架tensorflow搭建基于编码器-解码器的序列到序列神经网络模型;
步骤3,对训练集、验证集和预测集内的句子进行分词、制作词表、词嵌入操作;
步骤4,利用训练集来训练模型,利用验证集检测当前训练的模型是否已经过拟合,如果过拟合,则停止训练;否则继续训练;
步骤5,用训练好的模型对预测集进行解码,生成问题。
与现有技术相比,本发明的显著优点为:传统的问题自动生成技术基于规则来实现的,严重依赖于人工抓取的特征集,本发明基于深度学习方法,可以自动抓取到重要特征,极大减少了模型对人工抓取特征集的依赖;在应用效果上,基于深度学习的问题自动生成方法也远好于基于规则的方法。
附图说明
图1是本发明构建的神经网络图。
图2是本发明基于深度学习的问题自动生成方法流程图。
具体实施方式
本发明针对智能教学、智能问答和知识问答游戏等领域所需的问题生成应用,提出了基于深度学习的问题自动生成方法。
如图2所示,本发明的一种基于深度学习的问题自动生成方法,包括以下步骤:
步骤1,构建训练集<文章,答案,问题>、验证集<文章,答案,问题>、预测集<文章,答案>,所述答案为文章中某一连续片段;
步骤2,利用深度学习框架tensorflow搭建基于编码器-解码器的序列到序列神经网络模型;所述神经网络模型包含注意力机制,Pointer-generator network,Answer-supression机制,注意力损失机制;
步骤3,对数据集内的句子进行分词、制作词表、词嵌入操作;所述数据集包括训练集、验证集、预测集;
步骤4,利用训练集来训练模型,利用验证集来检测当前训练的模型是否已经过拟合,如果过拟合,则停止训练;否则继续训练;
步骤5,用训练好的模型对预测集进行解码,生成问题。
进一步的,步骤1构建训练集<文章,答案,问题>、验证集<文章,答案,问题>、预测集<文章,答案>,具体方法为:
模型所需的数据集,每个样本包含<文章,答案,问题>三个主要元素,其中答案是文章中的某一连续片段,将数据集按照80%,10%,10%的比例划分为训练集,验证集,预测集。
进一步的,步骤2利用深度学习框架tensorflow搭建基于编码器-解码器的序列到序列神经网络模型,模型包含注意力机制,Pointer-generator network,Answer-supression机制,注意力损失机制,具体方法为:
(1)基于注意力机制的编码器-解码器结构:该网络结构中存在两个编码器,并且均是基于双向LSTM神经网络,分别是处理文章的文章编码器,和处理答案的答案编码器,文章编码器的输入为经过分词和词嵌入后的文章,将文章分词后得到的第i个词xi作为文章编码器第i步的输入,其双向LSTM在第i步会产生两个方向相反的隐藏层状态
上式中的是正向在第i步的隐藏层状态,是反向在第i步的隐藏层状态,我们在每一步中连接正反反向的隐藏层状态
基于双向LSTM神经网络的文章编码器在首尾两端分别能得到隐藏层状态h1,h|x|,其中|x|代指文章编码器的步长。
其答案编码器也是基于双向LSTM结构,输入为经过分词和词嵌入后的答案,将输入定义为Xanswer,则:
上式中的是答案编码器中正向LSTM第i步的隐藏层状态,是答案编码器中反向LSTM第i步的隐藏层状态,同样的,在其首尾两端也能分别得到隐藏层状态answer1将其连接起来,则:
其中,式中的|Xanswer|表示答案编码器的步长。
我们将ans_emb_output与文章编码器中得到的h1、h|x|连接起来,作为解码器隐藏层初始状态S0
c=[h|x|:h1:ans_emb_output]
h=[h|x|:h1:ans_emb_output]
S0=LSTMStateTuple(c,h).
上式中c,h分别表示LSTMCell中的长时记忆状态,短时记忆状态。
解码器是一个单层单向的LSTM网络:
st=LSTM(yt-1,st-1)
上式中的st是指解码器在第t步解码时的隐藏层状态,yt-1是指第t步的解码器的输入(在训练阶段,为第t-1步的目标词,在预测阶段,为第t-1步的模型生成词)。
(2)注意力机制:在解码器每一步解码时,都会得到在文章编码器输入文本上的一个概率分布,假设在第t步解码,可以得到概率分布at
上式中的v,Wh,Ws,Wa和battn是模型需要学习的参数,得到的at是文章编码器的输入文本上的一个概率分布,以下我们记该概率分布为文章注意力分布。由上式可知,其注意力分布由文章编码器隐藏层状态hi,解码器隐藏层状态st,答案信息ans_emb_output共同决定。每一个词都对应一个概率值可以理解该词所获取的注意力权重,我们将该词对应的隐藏层状态hi相乘,并且求和,得到上下文向量,记做
将上下文向量与当前步的解码器隐藏层状态st连接起来,再做两层的线性变换:
上式中的V′、V、b、b′都是模型需要学习的参数,我们由上面的计算过程可知,Pvocab为预设词表上的概率分布。
(3)Pointer-Generator Network
该机制可以提高生成词的准确度,通过直接利用文章编码器输入文本中有用信息,有效的处理OOV问题。最后得到的每个词的概率值不仅仅取决于上面的计算得出的Pvocab,而且也与文章注意力分布at有着密切的关系。定义变量pgen∈[0,1],在解码器解码时,假设在第t步解码,该变量可由上下文向量解码器隐藏层状态st和解码器输入yt计算得出:
上式中的bptr表示模型需要学习的参数,σ表示sigmoid函数。显然,得出的Pgen在0,1之间,则Pgen可以作为一个软阈值,用来选择当前步生成的词是来自于预设词表,还是根据文章注意力分布at从文章编码器的输入文本中采样得到。当要生成的词不在预设词表里,而出现在文章编码器的输入文本里时,该机制会使模型有机会直接从文章编码器的输入文本中取词,从而部分缓解了OOV问题。
上式中,w表示当前步要生成的词,当该词不在预设词表内,则Pvocab(w)=0,故该词只能从文章编码器的输入文本去取,反之,如若该词出现在预设词表中,而不在文章编码器输入文本内,则则该词只能从词表中去取。P(w)表示词w最终的概率,由此我们可知,在每一步解码时最终的词表是由预设词表和当前步的文章编码器的输入文本并集得到的,以下我们记这个最终词表为扩展词表,并且在该扩展词表上会得到一个最终的概率分布P。
(4)Answer-supression机制(定义损失函数)
由上面的描述,可知在每一步解码时,都会在扩展词表上得到一个概率分布P,在模型的训练阶段,假设在第t步时,我们希望目标词在扩展词表上的概率越大越好:
也就是希望其负的对数似然值越小越好,每一步都会有一个损失函数值,我们将编码器所有步的损失函数值加起来,取平均作为最终需要优化的损失函数:
假设模型生成的问题中包含答案中出现的词,则生成的问题质量可能较低,我们应当避免该类情况发生,故修改损失函数:
上式中表示解码器在第t步解码时,答案中的某个词,表示在扩展词表中最终的概率值。λ是需要人工调优的超参数。可以理解为惩罚项。该惩罚项用来避免模型生成那些在答案中出现的词。
(5)注意力损失机制
这是训练阶段的一个技巧,用来指导模型在执行注意力机制时,应该更关注到文章的哪一部分,哪一部分的词应该获得更高的关注值。当当前的目标词(当前解码应该生成的词),出现在文章中,则该词应该获取的更高关注程度,以使模型更有可能生成该目标词。假设在第t步解码时,其目标词在文章中出现,记该词为w,则w应该获取更多的关注,所以:
在上式中,wpassage代表文章词集合,代表词w所获取的关注值,λa是一个超参数,需要人工手动调优。如当前步的目标词w出现在文章中,并且所获取的关注值则其注意力损失值等于其余情况皆为0。将该注意力损失值加入到损失函数中得:
fina_Loss=loss+γ*attention_loss
上式中γ是一个需要人工手动调优的超参数,由此我们得到了模型最终损失函数的计算方法。注意力损失机制只能在模型训练阶段使用。
进一步的,步骤3对数据集内的句子进行分词、制作词表、词嵌入操作,具体为:
(1)利用StanfordCoreNLP工具包对数据集内的句子进行分词,统计每个词出现的频率,选取出现频率最高的K(K可以自定义设置大小)个词,作为预设的词表,以下记该词表为预设词表。
(2)将每个词表示成独热编码,其编码长度为预设词表的大小,记大小为vocab_size,假设在模型训练时,每次从训练集中随机选取batch_size个样本供模型训练,则该批训练样本的形状为[batch_size,vocab_size],将该批训练样本记做矩阵X,词嵌入需要定义参数W形状如[vocab_size,emb_size],词嵌入即X矩阵乘以W矩阵,将得到的结果输入给模型,W矩阵为模型需要学习的参数。
进一步的,步骤4训练集在训练模型时,利用验证集来检测当前训练的模型是否已经过拟合,如果过拟合,则停止训练,否则继续训练,具体为:
每次从训练集中随机抽取batch_size个样本,来训练模型,我们记这样一次的训练过程为一个train_step,当训练集中的所有训练样本都被抽取训练过,记这样一个过程为一个epoch,当一个epoch训练完毕,接着第二个epoch训练,依次不断循环,因此可能会发生过拟合的情况,每次达到50个train_step时,则将当前训练好的模型,保存下来,将验证集中的样本输入到模型中进行预测,可计算得到损失值,画出损失值的变化曲线,一旦该曲线越过了最低点,则表明当前模型训练可能发生过拟合了,应当停止训练。
进一步的,步骤5用训练好的模型对预测集进行解码,生成问题,具体为:
在模型训练过程中,我们会得到多个模型,选择在验证集上损失值最低的模型作为训练得到的最优模型,将预测集输入给最优模型,进行解码,解码器每一步解码时,都会得到在扩展词表上的概率分布,利用BeamSearch方式从该分布中抽样得到一个词,作为该步所生成的词,这样在解码完成后就会得到连续多个词,连在一起就是完整的句子,这就是所要生成的问题。
下面结合实施例对本发明进行详细说明。
实施例
一种基于深度学习的问题自动生成方法,包括如下步骤:
步骤1:构建训练集<文章,答案,问题>、验证集<文章,答案,问题>、预测集<文章,答案>,注意答案是文章中某一连续片段:将数据集按80%,10%,10%比例划分训练集,验证集,预测集。
步骤2:利用深度学习框架tensorflow搭建基于编码器-解码器的序列到序列的神经网络模型,其模型包含有注意力机制,Pointer-Generator Network,Answer-supression机制,注意力损失机制:
(1)基于注意力机制编码器-解码器结构:该神经网络模型中有文章编码器和答案编码器,且编码器都是基于双向LSTM神经网络,将经过分词和词嵌入后的文章和答案分别输入到文章编码器,答案编码器:
式中表示正向LSTM神经网络,表示反向LSTM神经网络,表示正向网络的第i步隐藏层状态,表示反向神经网络第i步隐藏层状态。将编码器中每一步的正向反向隐藏层状态连接起来得:
基于双向LSTM神经网络的文章编码器在首尾两端分别能得到隐藏层状态h|x|,h1,|x|表示文章编码器步长。
同理,将经过分词和词嵌入后的答案输入到答案编码器,然后再做和文章编码器同样的处理,则在其首尾两端也能分别得到隐藏层状态answer1将其连接起来,则:
其中,式中的|Xanswer|表示答案编码器的步长。
解码器是基于一个单层单向的LSTM神经网络,其初始隐藏层状态S0
c=[h|x|:h1:ans_emb_output]
h=[h|x|:h1:ans_emb_output]
S0=LSTMStateTuple(c,h).
上式中c,h分别表示LSTMCell中的长时记忆状态,短时记忆状态。
(2)注意力机制:
其中,上式中Wh、Ws、Wa、vT和battn都是模型需要学习的参数,hi表示文章编码器在第i步的隐藏层状态,st表示解码器在第t步的隐藏层状态。
上式中,V′,V,b,b′是模型需要学习的参数,表示在第t步解码时得到的上下文向量,得到的Pvocab表示在预设词表上的概率分布。
(3)Pointer-Generator Network
上式中bptr表示模型需要学习的参数,其中表示在第t步解码时得到的上下文向量,st表示解码器在第t步得到的隐藏层状态,yt表示解码器在第t步的输入,σ表示sigmoid函数,由此上式得到的Pgen数值介于0,1之间。
上式中表示文章编码器中第i个输入词wi在解码器第t步执行注意力机制时所获取的关注值。得到的P(w)表示词w在扩展词表上最终的概率值。
(4)Answer-supression机制(定义损失函数)
上式中表示解码器在第t步的目标词,表示该目标词在扩展词表中最终的概率值,losst表示解码器在第t步的损失值。将解码器所有步的损失值求和取平均作为损失函数。
上式中表示出现在答案中的某个词,表示该词在扩展词表中的最终概率值,如不在扩展词表中则为0。λ表示需要人工调优的超参数。
(5)注意力损失机制
上式中表示词w在解码器第t步解码时获取的关注值,wpassage表示文章词集合,λa表示需要人工调优的超参数。只有当当前步目标词出现在文章中,且该目标词所获取的关注值小于λa时,才会产生注意力损失。
final_Loss=loss+γ*attention_loss
修改损失函数,得到最终的损失函数,γ表示需要人工调优的超参数。
步骤3:对数据集(包括训练集、验证集、预测集)内的句子进行分词、制作词表、词嵌入操作:
利用StanfordCoreNLP工具包对数据集中的句子进行分词,并且得到预设词表,对每个词进行独热编码,其编码长度为预设词表内词的个数,记预设词表词个数为vocab_size,对于batch_size个样本作为一批待训练样本,其形状为[batch_size,vocab_size],记为X矩阵,词嵌入需要定义一个矩阵W,其形状为[vocab_size,emb_size],将矩阵X乘以矩阵W,所得到的结果作为模型的输入,W矩阵是模型在训练时需要学习的参数。
步骤4:利用训练集来训练模型,利用验证集来检测当前训练的模型是否已经过拟合,如果过拟合,则停止训练,否则继续训练:
每次从训练集中随机抽取一批样本,供模型进行训练,称这样一个过程为一个train_step,每训练50个train_step时,保存当前训练好的模型,输入验证集,计算当前模型在验证集上的损失值,并画出损失值的变化曲线,当越过最低点时,说明模型已发生过拟合,则应当停止训练。
步骤5:用训练好的模型对预测集进行解码,生成问题:
(1)将预测集中经过分词和词嵌入后的文章和答案输入到训练好的模型中,进行预测,生成与文章和答案匹配的问题。
(2)输出生成的问题。
实施例2
结合图1、图2,下面详细说明本发明的实施过程,步骤如下:
步骤1:构建训练集<文章,答案,问题>、验证集<文章,答案,问题>、预测集<文章,答案>,注意答案是文章的某一连续片段:
在本发明实验中我们使用SQuAD,DuReader两份公开数据集,并且均按照80%,10%,10%比例划分出训练集,验证集,预测集,其划分后的具体情况如表1:
表1:SQuAD,DuReader数据集划分情况
数据集 文章-答案对数量(SQuAD) 文章-答案对数量(DuReader)
训练集 74345 33780
验证集 9293 4218
预测集 9534 4225
步骤2:利用深度学习框架tensorflow搭建基于编码器-解码器的序列到序列的神经网络模型,其模型包含有注意力机制,Pointer-Generator Network,Answer-supression机制,注意力损失机制,详细的神经网络模型如图1所示。
(1)基于注意力机制编码器-解码器结构:文章编码器和答案编码器均是基于双向LSTM神经网络:
式中表示正向LSTM神经网络,表示反向LSTM神经网络,表示正向LSTM网络的第i步隐藏层状态,表示反向LSTM神经网络第i步隐藏层状态。解码器是基于单层单向的LSTM神经网络:
st=LSTM(yt-1,st-1)
上式中的st是指解码器在第t步解码时的隐藏层状态,yt-1是指第t步的解码器的输入(在训练阶段,为第t-1步的目标词,在预测阶段,为第t-1步的模型生成词)。
其中无论是双向LSTM还是单向LSTM,在本发明实验中,其隐藏层神经元个数均设置为256,其中文章编码器和答案编码器步长分别视文章和答案长度而定,而解码器步长设置为50。
(2)注意力机制:
上式中Wh、Ws、Wa、vT和battn都是模型需要学习的参数,其中参数Wh、Ws、Wa、vT均是以一个均匀分布来进行初始化,而参数battn则是以初始常数为0.0初始化。
上式中V′,V,b,b′均是模型需要学习的参数,均是以一个标准差为1e-4的截断正态分布来进行初始化。
(3)Pointer-Generator Network
上式中bptr表示模型需要学习的参数,其中参数是以一个均匀分布来进行初始化的,bptr是以常数0.0初始化的。表示在解码器第t步解码时得到的上下文向量,st表示解码器在第t步得到的隐藏层状态,yt表示解码器在第t步的输入,σ表示sigmoid函数,由此上式得到的Pgen数值介于0,1之间。
上式中表示预设词表中第i个词wi,在解码器第t步执行注意力机制时所获取的关注值。得到的P(w)表示词w在扩展词表上最终的概率值。
(4)Answer-supression机制(定义损失函数)
上式中表示解码器在第t步的目标词,表示该目标词在扩展词表中最终的概率值,losst表示解码器在第t步的损失值。将解码器所有步的损失值求和取平均作为损失函数。
上式中表示出现在答案中的词,表示该词在扩展词表中的最终概率值,如不在扩展词表中则为0。λ表示需要人工调优的超参数,在本发明实验中,对于该超参数我们尝试了0.001,0.005,0.01,0.05,0.1,0.2,发现当λ=0.01表现最优,于是设置λ为0.01。
(5)注意力损失机制
上式中表示词w在解码器第t步解码时获取的关注值,wpassage表示文章中词集合,λa表示需要人工调优的超参数,对于该超参数,在本发明实验中我们尝试了0.6,0.7,0.75,0.8,0.85,0.9,发现当λa=0.85时表现最优,于是设置λa为0.85。只有当当前步目标词出现在文章中,且该目标词所获取的关注值小于λa时,才会产生注意力损失。
final_Loss=loss+γ*attention_loss
修改损失函数,得到最终的损失函数,其中γ表示需要人工调优的超参数,在本发明实验中,尝试了γ=0.01,0.05,0.1,0.15,0.2,发现当γ=0.05时表现最优。
步骤3:对数据集(包括训练集、验证集、预测集)内的句子进行分词、制作词表、词嵌入操作:
利用StanfordCoreNLP工具包对数据集中的句子进行分词,并且得到预设词表,本实验中设置预设词表大小为20000,即vocab_size=20000,对每个词进行独热编码,其编码长度为预设词表的大小,每次选取batch_size个样本作为一批待训练样本,在本发明实验中设置batch_size=16,即每次从训练集中随机选取16个样本进行训练,则其形状为[batch_size,vocab_size],词嵌入需要定义一个矩阵W,其形状为[vocab_size,emb_size],在本实验中,我们设置emb_size=128,将矩阵X乘以矩阵W,所得到的结果作为模型的输入,W矩阵是模型在训练时需要学习的参数。
步骤4:利用训练集来训练模型,利用验证集来检测当前训练的模型是否已经过拟合,如果过拟合,则停止训练,否则继续训练:
每次从训练集中随机抽取一批样本,供模型进行训练,称这样一个过程为一个train_step,在本实验中,我们设置每训练50个train_step时,则保存当前训练好的模型,并且计算当前模型在验证集上的损失值,画出损失值的变化曲线,当越过最低点时,说明模型已发生过拟合,则应当停止训练。
步骤5:用训练好的模型对预测集进行解码,生成问题:
(1)在模型训练过程中,我们会得到多个模型,选择在验证集上损失值最低的模型作为模型训练得到的最优模型,将预测集输入给最优模型,进行解码,解码器每一步解码时,都会得到在扩展词表上的概率分布,利用BeamSearch方式从该分布中采样得到一个词,作为该步所生成的词,这样在解码完成后就会得到连续多个词,连在一起就是一个完整的句子,这就是所要生成的问题,在本实验中,我们设置BeamSize=4。
(2)输出生成的问题。
本实验使用了SQuAD,DuReader两份公开的问答数据集,提取了每个样本内的<文章,答案,问题>三个主要元素,作为本发明实验的数据集。本次实验在ubuntu16.04系统下进行,使用了StanfordCoreNLP工具包和深度学习框架TensorFlow1.20。
本发明采用公开的问答数据集来检验模型的问题生成效果。为测试本发明算法的性能,将提出的基于深度学习的问题自动生成方法与传统的基于规则的问题生成方法[Michael Heilman and Noah A.Smith.2010.Good question!statistical ranking forquestion generation.In Human Language Technologies:The 2010Annual Conferenceof the North American Chapter of the Association for ComputationalLinguistics.Association for Computational Linguistics,Los Angeles,California,pages 609–617]在预测集上进行对比,对比指标包括BLUE1,ROUGE指标等。
表2:基于深度学习的问题生成模型和基于规则的问题生成模型对比
表2为基于深度学习的问题生成模型和基于规则的问题生成模型在SQuAD,DuReader上的表现情况,可以看出在各项指标上,基于深度学习在效果都大幅领先于基于规则的效果,其中最大领先幅度达到8.11,最小领先幅度也有3.43。

Claims (6)

1.一种基于深度学习的问题自动生成方法,其特征在于,包括以下步骤:
步骤1,构建训练集<文章,答案,问题>、验证集<文章,答案,问题>、预测集<文章,答案>;
步骤2,利用深度学习框架tensorflow搭建基于编码器-解码器的序列到序列神经网络模型;
步骤3,对训练集、验证集和预测集内的句子进行分词、制作词表、词嵌入操作;
步骤4,利用训练集来训练模型,利用验证集检测当前训练的模型是否已经过拟合,如果过拟合,则停止训练;否则继续训练;
步骤5,用训练好的模型对预测集进行解码,生成问题。
2.根据权利要求1所述的基于深度学习的问题自动生成方法,其特征在于,步骤1构建训练集<文章,答案,问题>、验证集<文章,答案,问题>、预测集<文章,答案>,具体方法为:
每个样本包含<文章,答案,问题>三个主要元素,其中答案是文章中的某一连续片段,将数据集按照80%,10%,10%的比例划分为训练集、验证集、预测集。
3.根据权利要求1所述的基于深度学习的问题自动生成方法,其特征在于,步骤2利用深度学习框架tensorflow搭建基于编码器-解码器的序列到序列神经网络模型,模型包含注意力机制、Pointer-generator network、Answer-supression机制和注意力损失机制,具体方法为:
(1)基于注意力机制的编码器-解码器结构:该网络结构中存在两个编码器,并且均是基于双向LSTM神经网络,分别是处理文章的文章编码器和处理答案的答案编码器,文章编码器的输入为经过分词和词嵌入后的文章,将文章分词后得到的第i个词xi作为文章编码器第i步的输入,其双向LSTM在第i步会产生两个方向相反的隐藏层状态
上式中的为正向在第i步的隐藏层状态,为反向在第i步的隐藏层状态,在每一步中连接正反反向的隐藏层状态
基于双向LSTM神经网络的文章编码器在首尾两端分别得到隐藏层状态
h1、h|x|,其中|x|代指文章编码器的步长;
答案编码器也是基于双向LSTM结构,输入为经过分词和词嵌入后的答案,
将输入定义为Xanswer,则:
上式中的是答案编码器中正向LSTM第i步的隐藏层状态,是答案编码器中反向LSTM第i步的隐藏层状态,首尾两端分别得到隐藏层状态answer1将其连接起来,则:
其中,|Xanswer|表示答案编码器的步长;
将ans_emb_output与文章编码器中得到的h1、h|x|连接起来,作为解码器隐藏层初始状态S0
c=[h|x|:h1:ans_emb_output]
h=[h|x|:h1:ans_emb_output]
S0=LSTMStateTuple(c,h).
上式中c,h分别表示LSTMCell中的长时记忆状态和短时记忆状态;
解码器是一个单层单向的LSTM网络:
st=LSTM(yt-1,st-1)
上式中的st是指解码器在第t步解码时的隐藏层状态,yt-1是指第t步的解码器的输入;
(2)注意力机制:在解码器每一步解码时,会得到在文章编码器输入文本上的一个概率分布,假设在第t步解码,可得到概率分布at
上式中的v、Wh、Ws、Wa和battn是模型需要学习的参数,得到的at是文章编码器的输入文本上的一个概率分布,记该概率分布为文章注意力分布;由上式可知,其注意力分布由文章编码器隐藏层状态hi,解码器隐藏层状态st,答案信息ans_emb_output共同决定;每一个词都对应一个概率值将该词对应的隐藏层状态hi相乘,并且求和,得到上下文向量,记做
将上下文向量与当前步的解码器隐藏层状态st连接起来,再做两层的线性变换:
上式中的V′、V、b、b′均为模型需要学习的参数,Pvocab为预设词表上的概率分布;
(3)Pointer-Generator Network
定义变量pgen∈[0,1],在解码器解码时,假设在第t步解码,该变量可由上下文向量解码器隐藏层状态st和解码器输入yt计算得出:
上式中的bptr表示模型需要学习的参数,σ表示sigmoid函数;得出的Pgen在0,1之间,则Pgen作为一个软阈值,用来选择当前步生成的词是来自于预设词表,还是根据文章注意力分布at从文章编码器的输入文本中采样得到;
上式中,w表示当前步要生成的词,当该词不在预设词表内,则Pvocab(w)=0,故该词只能从文章编码器的输入文本去取,反之,如若该词出现在预设词表中,而不在文章编码器输入文本内,则则该词只能从词表中去取;P(w)表示词w最终的概率,在每一步解码时最终的词表由预设词表和当前步的文章编码器的输入文本并集得到,记这个最终词表为扩展词表,并且在该扩展词表上会得到一个最终的概率分布P;
(4)Answer-supression机制
每一步解码时,都会在扩展词表上得到一个概率分布P,在模型的训练阶段,假设在第t步时,希望目标词在扩展词表上的概率越大越好:
也就是希望其负的对数似然值越小越好,每一步都会有一个损失函数值,将编码器所有步的损失函数值加起来,取平均作为最终需要优化的损失函数:
假设模型生成的问题中包含答案中出现的词,修改损失函数:
上式中表示解码器在第t步解码时,答案中的某个词,表示在扩展词表中最终的概率值;λ是需要人工调优的超参数;为惩罚项,该惩罚项用来避免模型生成那些在答案中出现的词;
(5)注意力损失机制
假设在第t步解码时,目标词在文章中出现,记该词为w,则w应该获取更多的关注,所以:
在上式中,wpassage代表文章词集合,代表词w所获取的关注值,λa是一个超参数;如当前步的目标词w出现在文章中,并且所获取的关注值则其注意力损失值等于其余情况皆为0;将该注意力损失值加入到损失函数中得:
final_Loss=loss+γ*attention_loss
上式中γ是一个需要人工手动调优的超参数,由此得到模型最终损失函数的计算方法。
4.根据权利要求1所述的基于深度学习的问题自动生成方法,其特征在于,步骤3对数据集内的句子进行分词、制作词表、词嵌入操作,所述数据集包括训练集、验证集和预测集,具体为:
(1)利用StanfordCoreNLP工具包对数据集内的句子进行分词,统计每个词出现的频率,选取出现频率最高的K个词,作为预设的词表,以下记该词表为预设词表;
(2)将每个词表示成独热编码,其编码长度为预设词表的大小,记大小为vocab_size,假设在模型训练时,每次从训练集中随机选取batch_size个样本供模型训练,则该批训练样本的形状为[batch_size,vocab_size],将该批训练样本记做矩阵X,词嵌入需要定义参数W形状如[vocab_size,emb_size],词嵌入即X矩阵乘以W矩阵,将得到的结果输入给模型,W矩阵为模型需要学习的参数。
5.根据权利要求1所述的基于深度学习的问题自动生成方法,其特征在于,步骤4训练集在训练模型时,利用验证集来检测当前训练的模型是否已经过拟合,如果过拟合,则停止训练,否则继续训练,具体为:
每次从训练集中随机抽取batch_size个样本,来训练模型,记这样一次的训练过程为一个train_step,当训练集中的所有训练样本都被抽取训练过,记这样一个过程为一个epoch,当一个epoch训练完毕,接着第二个epoch训练,依次不断循环,每次达到50个train_step时,则将当前训练好的模型,保存下来,将验证集中的样本输入到模型中进行预测,可计算得到损失值,画出损失值的变化曲线,一旦该曲线越过了最低点,则表明当前模型训练可能发生过拟合,应当停止训练。
6.根据权利要求1所述的基于深度学习的问题自动生成方法,其特征在于,步骤5用训练好的模型对预测集进行解码,生成问题,具体为:
在模型训练过程中,会得到多个模型,选择在验证集上损失值最低的模型作为训练得到的最优模型,将预测集输入给最优模型,进行解码,解码器每一步解码时,都会得到在扩展词表上的概率分布,利用BeamSearch方式从该分布中抽样得到一个词,作为该步所生成的词,这样在解码完成后就会得到连续多个词,连在一起就是完整的句子,即为所要生成的问题。
CN201811472160.0A 2018-12-04 2018-12-04 基于深度学习的问题自动生成方法 Active CN109657041B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811472160.0A CN109657041B (zh) 2018-12-04 2018-12-04 基于深度学习的问题自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811472160.0A CN109657041B (zh) 2018-12-04 2018-12-04 基于深度学习的问题自动生成方法

Publications (2)

Publication Number Publication Date
CN109657041A true CN109657041A (zh) 2019-04-19
CN109657041B CN109657041B (zh) 2023-09-29

Family

ID=66111699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811472160.0A Active CN109657041B (zh) 2018-12-04 2018-12-04 基于深度学习的问题自动生成方法

Country Status (1)

Country Link
CN (1) CN109657041B (zh)

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110196899A (zh) * 2019-06-11 2019-09-03 中央民族大学 一种低资源语言问答语料库生成方法
CN110222164A (zh) * 2019-06-13 2019-09-10 腾讯科技(深圳)有限公司 一种问答模型训练方法、问题语句处理方法、装置及存储介质
CN110245334A (zh) * 2019-06-25 2019-09-17 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN110334196A (zh) * 2019-06-28 2019-10-15 同济大学 基于笔画和自注意力机制的神经网络中文问题生成系统
CN110633730A (zh) * 2019-08-07 2019-12-31 中山大学 一种基于课程学习的深度学习机器阅读理解训练方法
CN110929265A (zh) * 2019-11-25 2020-03-27 安徽工业大学 一种面向阅读理解问答的多角度答案验证方法
CN111241825A (zh) * 2020-01-08 2020-06-05 广东博智林机器人有限公司 广告词违禁检测模型的训练方法、检测方法及装置
CN111324717A (zh) * 2020-02-24 2020-06-23 武汉大学 一种面向开放域问答的基于机器阅读理解的答案获取方法及系统
CN111353035A (zh) * 2020-03-11 2020-06-30 镁佳(北京)科技有限公司 人机对话方法、装置、可读存储介质及电子设备
CN111353306A (zh) * 2020-02-22 2020-06-30 杭州电子科技大学 基于实体关系和依存Tree-LSTM的联合事件抽取的方法
CN111538838A (zh) * 2020-04-28 2020-08-14 中国科学技术大学 基于文章的问题生成方法
CN111738006A (zh) * 2020-06-22 2020-10-02 苏州大学 基于商品评论命名实体识别的问题生成方法
CN111737984A (zh) * 2020-06-23 2020-10-02 四川长虹电器股份有限公司 一种Web网页表格标题生成方法
CN111783423A (zh) * 2020-07-09 2020-10-16 北京猿力未来科技有限公司 解题模型的训练方法及装置、解题方法及装置
CN111813913A (zh) * 2019-11-27 2020-10-23 上海交通大学 以问题为导向的两阶段问题生成系统
CN111858883A (zh) * 2020-06-24 2020-10-30 北京百度网讯科技有限公司 三元组样本的生成方法、装置、电子设备及存储介质
CN111858931A (zh) * 2020-07-08 2020-10-30 华中师范大学 一种基于深度学习的文本生成方法
WO2020221142A1 (zh) * 2019-04-28 2020-11-05 华为技术有限公司 一种基于绘本的问答交互方法及电子设备
CN111898337A (zh) * 2020-07-13 2020-11-06 武汉大学 一种基于深度学习的单句摘要缺陷报告标题自动生成方法
CN112328767A (zh) * 2020-11-11 2021-02-05 重庆邮电大学 基于bert模型和比较聚合框架的问答匹配方法
CN112329464A (zh) * 2020-11-27 2021-02-05 浙江大学 基于深度神经网络的司法审理首问题生成方法、装置、介质
CN112508013A (zh) * 2020-12-02 2021-03-16 哈尔滨市科佳通用机电股份有限公司 一种锁扣丢失故障检测方法、系统及装置
CN112580343A (zh) * 2020-11-03 2021-03-30 北京字节跳动网络技术有限公司 模型生成方法、问答质量判断方法、装置、设备及介质
CN112668344A (zh) * 2021-01-25 2021-04-16 东南大学 基于混合专家模型的复杂度可控的多样化问题生成方法
CN112836474A (zh) * 2021-01-29 2021-05-25 华南师范大学 基于减法门的数学应用题解答处理方法、系统和存储介质
CN113239160A (zh) * 2021-04-29 2021-08-10 桂林电子科技大学 一种问题生成方法、装置及存储介质
CN113239165A (zh) * 2021-05-17 2021-08-10 山东新一代信息产业技术研究院有限公司 基于云化机器人的阅读理解方法、系统及存储介质
CN113282719A (zh) * 2020-02-19 2021-08-20 武汉Tcl集团工业研究院有限公司 一种标注数据集的构建方法、智能终端及存储介质
CN113495943A (zh) * 2020-04-02 2021-10-12 山东大学 一种基于知识追踪与转移的人机对话方法
WO2021217935A1 (zh) * 2020-04-29 2021-11-04 深圳壹账通智能科技有限公司 问题生成模型的训练方法、问题生成方法及其相关设备
CN113657075A (zh) * 2021-10-18 2021-11-16 腾讯科技(深圳)有限公司 答案生成方法、装置、电子设备及存储介质
CN113672708A (zh) * 2020-05-13 2021-11-19 武汉Tcl集团工业研究院有限公司 语言模型训练方法、问答对生成方法、装置及设备
CN114462018A (zh) * 2022-01-10 2022-05-10 电子科技大学 一种基于Transformer模型和深度强化学习的密码猜测系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578124A (zh) * 2017-08-28 2018-01-12 国网山东省电力公司电力科学研究院 基于多层改进gru神经网络的短期电力负荷预测方法
CN108280218A (zh) * 2018-02-07 2018-07-13 逸途(北京)科技有限公司 一种基于检索和生产混合问答的流程系统
CN108363743A (zh) * 2018-01-24 2018-08-03 清华大学深圳研究生院 一种智能问题生成方法、装置和计算机可读存储介质
CN108763284A (zh) * 2018-04-13 2018-11-06 华南理工大学 一种基于深度学习和主题模型的问答系统实现方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578124A (zh) * 2017-08-28 2018-01-12 国网山东省电力公司电力科学研究院 基于多层改进gru神经网络的短期电力负荷预测方法
CN108363743A (zh) * 2018-01-24 2018-08-03 清华大学深圳研究生院 一种智能问题生成方法、装置和计算机可读存储介质
CN108280218A (zh) * 2018-02-07 2018-07-13 逸途(北京)科技有限公司 一种基于检索和生产混合问答的流程系统
CN108763284A (zh) * 2018-04-13 2018-11-06 华南理工大学 一种基于深度学习和主题模型的问答系统实现方法

Cited By (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020221142A1 (zh) * 2019-04-28 2020-11-05 华为技术有限公司 一种基于绘本的问答交互方法及电子设备
CN110196899A (zh) * 2019-06-11 2019-09-03 中央民族大学 一种低资源语言问答语料库生成方法
CN110196899B (zh) * 2019-06-11 2020-07-21 中央民族大学 一种低资源语言问答语料库生成方法
CN110222164A (zh) * 2019-06-13 2019-09-10 腾讯科技(深圳)有限公司 一种问答模型训练方法、问题语句处理方法、装置及存储介质
CN110222164B (zh) * 2019-06-13 2022-11-29 腾讯科技(深圳)有限公司 一种问答模型训练方法、问题语句处理方法、装置及存储介质
CN110245334A (zh) * 2019-06-25 2019-09-17 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN110245334B (zh) * 2019-06-25 2023-06-16 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN110334196A (zh) * 2019-06-28 2019-10-15 同济大学 基于笔画和自注意力机制的神经网络中文问题生成系统
CN110334196B (zh) * 2019-06-28 2023-06-27 同济大学 基于笔画和自注意力机制的神经网络中文问题生成系统
CN110633730A (zh) * 2019-08-07 2019-12-31 中山大学 一种基于课程学习的深度学习机器阅读理解训练方法
CN110929265A (zh) * 2019-11-25 2020-03-27 安徽工业大学 一种面向阅读理解问答的多角度答案验证方法
CN110929265B (zh) * 2019-11-25 2022-04-26 安徽工业大学 一种面向阅读理解问答的多角度答案验证方法
CN111813913B (zh) * 2019-11-27 2024-02-20 上海交通大学 以问题为导向的两阶段问题生成系统
CN111813913A (zh) * 2019-11-27 2020-10-23 上海交通大学 以问题为导向的两阶段问题生成系统
CN111241825B (zh) * 2020-01-08 2023-03-28 广东博智林机器人有限公司 广告词违禁检测模型的训练方法、检测方法及装置
CN111241825A (zh) * 2020-01-08 2020-06-05 广东博智林机器人有限公司 广告词违禁检测模型的训练方法、检测方法及装置
CN113282719A (zh) * 2020-02-19 2021-08-20 武汉Tcl集团工业研究院有限公司 一种标注数据集的构建方法、智能终端及存储介质
CN111353306A (zh) * 2020-02-22 2020-06-30 杭州电子科技大学 基于实体关系和依存Tree-LSTM的联合事件抽取的方法
CN111324717A (zh) * 2020-02-24 2020-06-23 武汉大学 一种面向开放域问答的基于机器阅读理解的答案获取方法及系统
CN111353035A (zh) * 2020-03-11 2020-06-30 镁佳(北京)科技有限公司 人机对话方法、装置、可读存储介质及电子设备
CN113495943B (zh) * 2020-04-02 2023-07-14 山东大学 一种基于知识追踪与转移的人机对话方法
CN113495943A (zh) * 2020-04-02 2021-10-12 山东大学 一种基于知识追踪与转移的人机对话方法
CN111538838A (zh) * 2020-04-28 2020-08-14 中国科学技术大学 基于文章的问题生成方法
CN111538838B (zh) * 2020-04-28 2023-06-16 中国科学技术大学 基于文章的问题生成方法
WO2021217935A1 (zh) * 2020-04-29 2021-11-04 深圳壹账通智能科技有限公司 问题生成模型的训练方法、问题生成方法及其相关设备
CN113672708A (zh) * 2020-05-13 2021-11-19 武汉Tcl集团工业研究院有限公司 语言模型训练方法、问答对生成方法、装置及设备
CN111738006A (zh) * 2020-06-22 2020-10-02 苏州大学 基于商品评论命名实体识别的问题生成方法
CN111737984A (zh) * 2020-06-23 2020-10-02 四川长虹电器股份有限公司 一种Web网页表格标题生成方法
CN111858883A (zh) * 2020-06-24 2020-10-30 北京百度网讯科技有限公司 三元组样本的生成方法、装置、电子设备及存储介质
CN111858931B (zh) * 2020-07-08 2022-05-13 华中师范大学 一种基于深度学习的文本生成方法
CN111858931A (zh) * 2020-07-08 2020-10-30 华中师范大学 一种基于深度学习的文本生成方法
CN111783423A (zh) * 2020-07-09 2020-10-16 北京猿力未来科技有限公司 解题模型的训练方法及装置、解题方法及装置
CN111898337B (zh) * 2020-07-13 2024-01-26 武汉大学 一种基于深度学习的单句摘要缺陷报告标题自动生成方法
CN111898337A (zh) * 2020-07-13 2020-11-06 武汉大学 一种基于深度学习的单句摘要缺陷报告标题自动生成方法
CN112580343A (zh) * 2020-11-03 2021-03-30 北京字节跳动网络技术有限公司 模型生成方法、问答质量判断方法、装置、设备及介质
CN112328767A (zh) * 2020-11-11 2021-02-05 重庆邮电大学 基于bert模型和比较聚合框架的问答匹配方法
CN112328767B (zh) * 2020-11-11 2022-10-14 重庆邮电大学 基于bert模型和比较聚合框架的问答匹配方法
CN112329464B (zh) * 2020-11-27 2023-08-04 浙江大学 基于深度神经网络的司法审理首问题生成方法、装置、介质
CN112329464A (zh) * 2020-11-27 2021-02-05 浙江大学 基于深度神经网络的司法审理首问题生成方法、装置、介质
CN112508013A (zh) * 2020-12-02 2021-03-16 哈尔滨市科佳通用机电股份有限公司 一种锁扣丢失故障检测方法、系统及装置
CN112508013B (zh) * 2020-12-02 2021-07-16 哈尔滨市科佳通用机电股份有限公司 一种锁扣丢失故障检测方法、系统及装置
CN112668344A (zh) * 2021-01-25 2021-04-16 东南大学 基于混合专家模型的复杂度可控的多样化问题生成方法
CN112668344B (zh) * 2021-01-25 2024-01-26 东南大学 基于混合专家模型的复杂度可控的多样化问题生成方法
CN112836474A (zh) * 2021-01-29 2021-05-25 华南师范大学 基于减法门的数学应用题解答处理方法、系统和存储介质
CN112836474B (zh) * 2021-01-29 2023-07-21 华南师范大学 基于减法门的数学应用题解答处理方法、系统和存储介质
CN113239160A (zh) * 2021-04-29 2021-08-10 桂林电子科技大学 一种问题生成方法、装置及存储介质
CN113239165A (zh) * 2021-05-17 2021-08-10 山东新一代信息产业技术研究院有限公司 基于云化机器人的阅读理解方法、系统及存储介质
CN113239165B (zh) * 2021-05-17 2023-04-18 山东新一代信息产业技术研究院有限公司 基于云化机器人的阅读理解方法、系统及存储介质
CN113657075B (zh) * 2021-10-18 2022-02-08 腾讯科技(深圳)有限公司 答案生成方法、装置、电子设备及存储介质
CN113657075A (zh) * 2021-10-18 2021-11-16 腾讯科技(深圳)有限公司 答案生成方法、装置、电子设备及存储介质
CN114462018A (zh) * 2022-01-10 2022-05-10 电子科技大学 一种基于Transformer模型和深度强化学习的密码猜测系统及方法

Also Published As

Publication number Publication date
CN109657041B (zh) 2023-09-29

Similar Documents

Publication Publication Date Title
CN109657041A (zh) 基于深度学习的问题自动生成方法
CN108763284B (zh) 一种基于深度学习和主题模型的问答系统实现方法
CN109800294B (zh) 基于物理环境博弈的自主进化智能对话方法、系统、装置
CN108763444B (zh) 利用分层编码解码器网络机制来解决视频问答的方法
CN109492227A (zh) 一种基于多头注意力机制和动态迭代的机器阅读理解方法
Gibson et al. A deep learning approach to modeling empathy in addiction counseling
CN108229582A (zh) 一种面向医学领域的多任务命名实体识别对抗训练方法
CN108875807A (zh) 一种基于多注意力多尺度的图像描述方法
CN110390397A (zh) 一种文本蕴含识别方法及装置
CN112000772B (zh) 面向智能问答基于语义特征立方体的句子对语义匹配方法
CN109271496B (zh) 一种基于文本、知识库及序列到序列的自然问答方法
CN110427629A (zh) 半监督文本简化模型训练方法和系统
CN110717843A (zh) 一种可复用的法条推荐框架
CN108764671B (zh) 一种基于自建语料库的创造能力评测方法和装置
CN111460176A (zh) 一种基于哈希学习的多文档机器阅读理解方法
CN112599117A (zh) 模型训练、语音识别方法及装置、电子设备及存储介质
Kello Considering the junction model of lexical processing
CN111563146A (zh) 一种基于推理的难度可控问题生成方法
CN112800203A (zh) 一种融合文本和知识表征的问答匹配方法及系统
CN114297399A (zh) 知识图谱生成方法、系统、存储介质及电子设备
CN111428481A (zh) 一种基于深度学习的实体关系抽取方法
CN115510814A (zh) 一种基于双重规划的篇章级复杂问题生成方法
CN110765758B (zh) 一种同义句生成模型的生成方法、装置及介质
CN113011196B (zh) 一种概念增强表示与单向蕴含注意力的主观题自动阅卷神经网络模型
CN110929006B (zh) 一种数据型问答系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant