CN111538838B - 基于文章的问题生成方法 - Google Patents
基于文章的问题生成方法 Download PDFInfo
- Publication number
- CN111538838B CN111538838B CN202010350734.8A CN202010350734A CN111538838B CN 111538838 B CN111538838 B CN 111538838B CN 202010350734 A CN202010350734 A CN 202010350734A CN 111538838 B CN111538838 B CN 111538838B
- Authority
- CN
- China
- Prior art keywords
- article
- sentence
- answer
- word
- hop
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000007246 mechanism Effects 0.000 claims abstract description 34
- 238000012512 characterization method Methods 0.000 claims abstract description 32
- 230000010076 replication Effects 0.000 claims abstract description 10
- 230000008447 perception Effects 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 21
- 239000012634 fragment Substances 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 16
- 238000011176 pooling Methods 0.000 claims description 11
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 235000008694 Humulus lupulus Nutrition 0.000 claims description 4
- 101100339496 Caenorhabditis elegans hop-1 gene Proteins 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000009193 crawling Effects 0.000 claims description 2
- 230000001902 propagating effect Effects 0.000 claims description 2
- 230000002787 reinforcement Effects 0.000 claims description 2
- 238000007796 conventional method Methods 0.000 abstract description 4
- 230000007547 defect Effects 0.000 abstract description 2
- 239000011159 matrix material Substances 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种基于文章的问题生成方法,针对文章进行高效建模和有效利用全文信息,使用层级的编码器结合答案情境感知注意力机制和多跳推理机制,对文章进行语义表征。该方法在文章的语义表征上,能够高效的关注在答案和情境相关的地方,从而为解码器提供高质量的语义信息。解码器利用文章感知和三通路复制机制,可以高效利用全文信息,从而有效提升问题生成结果的质量,弥补了现有方法在文章级别问题语义表征不佳以及文章中有效信息不能有效利用的弊端。
Description
技术领域
本发明涉及自然语言理解和自然语言生成技术领域,尤其涉及一种基于文章的问题生成方法。
背景技术
在自然语言理解和生成领域,随着各种大规模问答数据的出现,自动化问题生成方法得到广泛关注。自动化问题生成有着广泛的应用场景:在教育领域中,问题生成的方法可以用课本内容为输入文本,输出一些内容相关的题目,从而评估学生的学习效果;在对话系统中,问题生成可以结合机器阅读理解,构建目前常用的对话系统;在机器阅读理解领域,问题生成可以自动构建一些大规模问答数据,为机器阅读理解所用,减轻人工标注的负担。因此,如何有效利用大量的问答数据来自动化生成问题是自然语言生成领域中一个急需解决的一个研究问题。
围绕这个研究问题,研究者们提出了很多方法。相关的研究主要集中在从给定的句子和答案片段来生成对应的问题,从而忽略了整篇文章中的部分语义信息。事实上,生成一些高质量的问题,有时候需要依赖于文章信息,因为一些隐含的信息,只在文章中出现。因此,利用文章和答案片段作为输入,可以提高问题生成的质量。
然而,在设计文章语义表征和生成过程中的有效方法时,仍然存在许多独特的挑战。一方面来说,对于文章这样的长序列进行建模,传统方法会丢失文章中的重要信息。另一方面,在生成的过程中,如果不能有效利用文章表征,那么相比句子级别的表征,文章表征会带来更多的不需要的噪声,从而影响问题生成的质量。
发明内容
本发明的目的是提供一种基于文章的问题生成方法,通过给定的文章和答案片段,利用层级结构并结合答案信息和情境信息,能够针对给定文章生成较高质量的问题。
本发明的目的是通过以下技术方案实现的:
一种基于文章的问题生成方法,包括:
收集多个文章,并根据每一文章中标记的答案片段产生相应的问题,从而构建文章-问题-答案数据集;
构建问题生成模型,在编码阶段,通过层级结构和答案情境感知,将文本形式文章和答案片段进行编码得到文章的语义表征;在解码阶段,对文章的语义表征,利用文章感知的解码器和三通路的复制机制来生成相应问题;
利用问题生成模型生成的问题与数据集中对应的问题构建损失函数,并对问题生成模型进行训练;
对于一个新的文章和答案片段,通过训练好的问题生成模型,对输入的文章和答案片段进行语义表征,最终生成和该文章和答案相关的问题。
由上述本发明提供的技术方案可以看出,使用基于层级结构答案和情境感知的问题生成模型来进行问题生成,相比于传统模型,能够对输入的文章结合情境和答案进行更好的表征,并且在生成的过程中能够有效结合全文信息,从而提高问题生成的质量。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种基于文章的问题生成方法,通过给定的文章和答案片段的流程图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种基于文章的问题生成方法,如图1所示,其主要包括如下步骤:
步骤11、收集多个文章,并根据每一文章中标记的答案片段产生相应的问题,从而构建文章-问题-答案数据集。
本发明实施例中,通过对已发布的词条文章进行数据爬取(例如,可以从百科网站爬取),获取各类文章文本,人工标记文章中的答案片段,针对答案片段和文章人工撰写相关问题。
本发明实施例中,获取的每篇文章P都由n个句子组成:P={S1,S2,...,Sn},其中每个句子Si都由k个词构成:Si={wi,1,wi,2,...,wi,k},i=1,2,...,n;标记的答案片段A属于某个句子(称为答案相关句)由m个词组成A={a1,a2,...,am};撰写的答案用Q表示;构建的文章-问题-答案数据集由多个{P,Q,A}三元组构成。
步骤12、构建问题生成模型,在编码阶段,通过层级结构和答案情境感知,将文本形式文章和答案片段进行编码得到文章的语义表征;在解码阶段,对文章的语义表征,利用文章感知的解码器和三通路的复制机制来生成相应问题。
本发明实施例中,编解码阶段主要以下三个部分:一、将文章P和答案片段A按每个句子送入层级结构编码器的底层,并结合答案和情境,编码得到句子强化的语义表征。二、将句子强化的语义表征送入层级结构编码器的顶层,并结合答案和情境,编码得到文章P的语义表征。三、对文章的语义表征,利用文章感知的解码器和三通路的复制机制来生成相应问题。前两部分为编码阶段,后一部分为解码阶段;所述三个部分的优选实施方式如下:
一、将文章P和答案片段A按每个句子送入层级结构编码器的底层,并结合答案和情境,编码得到句子强化的语义表征。
传统对文章进行语义表征的方法通常是将输入的文本不经过层级结构,直接通过一个循环神经网络获得相关表征。对于文章这样的长序列来说,由于循环神经网络梯度消失的问题,获得的语义表征会丢失文章中的重要信息。基于层级结构和答案和情境感知的文章编码器,可以更好的获取和答案相关的文章的语义。
本发明实施例中,将输入的文章P和答案片段A以句子为划分,送入层级结构编码器的底层,并结合答案和情境感知的注意力机制和多跳推理机制,获得句子强化的语义表征,主要过程包括:
1、将每个句子Si的长度对齐为k:Si={wi,1,wi,2,...,wi,k},超出限定长度的部分删去,不足的部分用空白符<PAD>补全。通过GloVe向量初始化文章P和答案片段A的词向量wi,t和at,其中,wi,t、at分别表示t时刻送入层级结构编码器底层的文章P中句子Si中的词、答案片段A中的词,初始化后分别记作wi,t和at。
2、通过一个双向门控循环网络(GRU)来对每个句子Si进行初始的表征:
其中,分别是t时刻、t-1时刻双向门控循环网络正向传播的隐状态,分别是t时刻、t+1时刻双向门控循环网络反向传播的隐状态;k表示总时刻数,也即句子Si的词数目;将t时刻正向状态和反向状态拼接在一起,得到每个句子Si在t时刻的隐状态hi,t;将正向传播最终状态/>和反向传播最终状态/>拼接在一起,得到每个句子Si的初始表征si。
通过同样的双向门控循环网络,得到答案片段A的表征a,实现过程与前文相同,区别仅在于,在处理答案片段时,t的取值范围与答案片段A中词的数目相关,即此时t=1,...,m。
3、使用平均池化(Average Pooling),输入每个句子Si的初始表征si,来得到情境语义表征g1;通过答案和情境感知的注意力机制,结合答案片段A的表征a和情境语义表征g1,计算每个句子Si在t个时刻隐状态的权重:
上式中,Ws、Wg、Wa与bs均为训练变量,其中/>类型为向量,Ws、Wg、Wa为权重矩阵,bs为偏置向量。tanh为双曲正切函数,上标1表示第1跳,/>表示第1跳计算出的每个句子Si中在t时刻隐状态所占权重,/>表示第1跳计算出的每个句子Si在t时刻的隐状态。
4、每个句子Si的强化语义表征为各个时刻隐状态的加权和:
5、使用多跳推理机制,重复利用答案和情境感知的注意力机制来计算每个句子Si在t时刻隐状态所占权重。对于每个句子Si而言,第l+1跳的初始输入为与/>并重新计算第l+1跳的情境语义表征gl+1和隐状态/>其中gl+1由平均池化(Average Pooling)输入/>计算得到,/>由/>和/>相乘得到;接着通过答案和情境感知的注意力机制输入/>和gl+1,计算第l+1跳中每个句子Si在t时刻隐状态所占权重/>从而计算出第l+1跳每个句子Si的强化语义表征/>最终多跳推理机制的输出为句子最终强化的语义表征/>
其中,l=1,...,L,L为总跳数。
二、将强化的句子级别语义表征送入层级结构编码器的顶层,并结合答案和情境,编码得到文章的语义表征。
上式中,Ws′、Wg′、Wa‘与bs’均为训练变量,其中/>类型为向量,Ws′、Wg′、Wa‘为权重矩阵,bs’为偏置向量。tanh为双曲正切函数,上标1表示第1跳,/>表示第1跳计算出的每个句子Si在文章中所占的语义权重,n为文章中句子数目;同理,句子Sj初始最终强化的语义表征/>等于前文计算出的最终强化的语义表征/>
2、整个文章P的语义表征表示为每个句子最终强化的语义表征的加权和:
3、使用多跳推理机制,重复利用答案和情境感知的注意力机制来计算每个句子Si在文章中所占的语义权重。对于每个句子Si而言,第l′+1跳的初始输入为第l′跳每个句子更新的最终的强化语义表征并重新计算l′+1跳的强化的情境语义表征其中/>由平均池化(Average Pooling)输入更新的最终的强化语义表征/>得到;通过答案和情境感知的注意力机制,输入/>和/>计算出第l′+1跳每个句子Si在文章中所占的语义权重/>从而计算出第l′+1跳整个文章P的语义表征pl′+1;最终多跳推理机制的输出为文章P的最终语义表征p:
其中,l′=1,...,L′,L′为总跳数。
三、解码阶段,对文章的语义表征,利用文章感知的解码器和三通路的复制机制来生成相应问题。
传统问题生成的解码器通常仅用编码器的最终状态初始化解码器的初态,比如文章最后的表征。但有时候,相比句子级别的表征,文章表征会带来更多的不需要的噪声,从而影响问题生成的质量,需要有效利用文章信息。
本发明实施例中,在解码阶段,输入获得的语义表征,利用文章感知的解码器动态考虑文章信息利用的问题,并且利用三通路复制机制选择复制文章或是句子中的稀有词。以此,有效利用文章信息,来提升问题生成的质量,主要过程包括:
其中,Ws″、Wa″与b″为训练变量,tanh为双曲正切函数,Ws″、Wa″为权重矩阵,b″为偏置向量。
2、通过门控循环网络构成的文章感知的解码器,解码器的解码基于全文信息p、前一时刻生成词的词向量yt-1、答案相关句的情境向量ct-1,计算解码器每一步状态st:
st=GRU([yt-1,ct-1,λp],st-1)
其中:
λ=sigmoid(Wosst-1+Woyyt-1+Wocct-1+Wopp+bo)
上式中,λ为文章感知的解码器动态考虑文章信息的门控;yt-1为t-1时刻生成词的词向量,由t-1时刻生成的词wo对应的词向量得到;Wos,Woy,Woc,Wop,Wah,Was,Waa,bas与bo均为训练变量,Wos,Woy,Woc,Wop,Wah,Was,Waa为权重矩阵类型,bo,bas为偏置向量,t=1,...,k;为步骤12第一部分第1跳计算出的答案相关句第p个时刻隐状态,/>为权重。初始时刻的向量y与c可以预先给定。
3、通过三通路复制机制,选择复制全文P或是答案相关句中的稀有词;三通路复制机制,有三种模式:生成模式、答案相关句词复制模式、以及文章词复制模式;
在生成模式中,生成的词的计算概率分布如下:
Pvocab=softmax(V′tanh(V[ct,st,λp]+bv)+bv′)
上式中,V、V′、bv与bv′均为可训练向量,其中,V、V′为向量。得到的Pvocab是词表大小的向量,每一维度都是对应维度词的生成概率,词表由所用数据中的词去重得到的合集产生。生成词的时候是根据词表决定的,默认取词表中概率最大的词,对于每个词表中的词w来说,生成的概率,就是由三个模式的概率加权相加得到。所以每次会寻找句子或者文章中和它相同的词,如果相同,就把对应时刻的权重复制下来,这样,词表中每个词,都有一个对应的概率,输出就是选取概率最大的词。
答案相关句词复制模式pscopy和文章词复制模式ppcopy计算概率分布如下,分别复制句子及文章中对应词在底层对应的注意力权重,即第1跳时的权重:
上式中,w表示对应词表中的词w,wp表示句子中第p个词,当词表中的词w和句子中第p个词wp相同时,复制第p个词wp在底层对应的注意力权重。在答案所相关句词复制模式下,复制句子的索引为答案相关句a,即复制权重在文章词复制模式下,复制句子的索引为j,j的取值有文章中句子总数决定(1,2,...,n),即复制权重/>p=1,...,k。
生成模式、答案相关句复制模式、以及文章词复制模式的概率计算如下:
pgen=sigmoid(f(ct,st,yt,λp))
pscopy=sigmoid(f(ct,λp))
ppcopy=1-pscopy
其中f(·)为全连接层,在t时刻,每个词表中的词生成概率P(w)是三种模式下生成词概率和当前模式概率的加权和:P(w)=pgenPvocab(w)+(1-pgen)pscopyPscopy(w)+(1-pgen)ppcopyPpcopy(w)。最终输出的生成词wo,为所有词表词w中概率最大的词,即P(w)最大的词。
按照时刻顺序排列最终输出的词,构成相应问题的文本。
步骤13、利用问题生成模型生成的问题与数据集中对应的问题构建损失函数,并对问题生成模型进行训练。
为了从分类的视角解决问题序列生成的任务,使用基于负对数似然损失函数对问题生成模型进行训练。
训练策略为:对于解码器每一时刻生成的词要尽量接近数据集中的真实值。这类似于一个分类问题,预测目标是每一时刻生成词的类别,类别的数量就是总词表的大小,而真实值就是当前时刻真实问题词所在的类别。
利用问题生成模型生成的问题与数据集中对应的问题,构建如下所示的基于负对数似然损失函数L,训练目标为最小化负对数似然损失函数L:
其中,|Q|表示数据集的大小,训练集由|Q|个(P,Q,A)三元组构成;Q(x)表示数据集中第x个问题;P(x)表示数据集中第x篇文章;A(x)表示数据集中第x个答案;表示数据集中第x个问题的第y个词;/>表示数据集中第x个问题的第y个词之前的所有词;|Q(x)|表示数据集中第x个问题的长度,即该问题词的数目;O(x)为模型生成出的第x个问题;/>表示模型生成出第x个问题的第y个词;P(·|·)为似然函数;θ表示模型中的参数。
步骤14、对于一个新的文章和答案片段,通过训练好的问题生成模型,对输入的文章和答案片段进行语义表征,最终生成和该文章和答案相关的问题。
测试阶段与训练阶段的过程相似,即输入为新的文章和答案片段,通过训练好的问题生成模型,将输入的文章通过层级的编码器,结合答案情境感知注意力机制和多跳推理机制,分别获得句子的强化语义表征和文章的语义表征。之后,在解码阶段,输入编码阶段得到的文章的语义表征,利用文章感知的解码器和三通路的复制机制,最终生成和该文章和答案片段相关的问题。
本发明实施例上述方案,针对文章进行高效建模和有效利用全文信息,使用层级的编码器结合答案情境感知注意力机制和多跳推理机制,对文章进行语义表征。该方法在文章的语义表征上,能够高效的关注在答案和情境相关的地方,从而为解码器提供高质量的语义信息。解码器利用文章感知和三通路复制机制,可以高效利用全文信息,从而有效提升问题生成结果的质量,弥补了现有方法在文章级别问题语义表征不佳以及文章中有效信息不能有效利用的弊端。
值得说明的是,本发明要求保护的方案是基于文章的问题生成方法,方案中数据处理所涉及的都是文本数据,但不限定文本数据的内容,因此,也并不限定具体的应用方向。参见之前的背景技术中所述,如果文本数据的内容课本内容,那么输出的问题自然是与课本内容相关的题目,可通过输出的题目来评估学生的学习效果;如果应用在对话系统或者机器阅读理解领域或者其他方面,使用相关内容的文本即可通过上述方案生成对应的问题。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (3)
1.一种基于文章的问题生成方法,其特征在于,包括:
收集多个文章,并根据每一文章中标记的答案片段产生相应的问题,从而构建文章-问题-答案数据集;
构建问题生成模型,在编码阶段,通过层级结构和答案情境感知,将文本形式文章和答案片段进行编码得到文章的语义表征;在解码阶段,对文章的语义表征,利用文章感知的解码器和三通路的复制机制来生成相应问题;
利用问题生成模型生成的问题与数据集中对应的问题构建损失函数,并对问题生成模型进行训练;
对于一个新的文章和答案片段,通过训练好的问题生成模型,对输入的文章和答案片段进行语义表征,最终生成和该文章和答案相关的问题;
所述在编码阶段,通过层级结构和答案情境感知,将文本形式文章和答案片段进行编码得到文章的语义表征包括:将文章P和答案片段A按每个句子送入层级结构编码器的底层,并结合答案和情境,编码得到句子强化的语义表征;将句子强化的语义表征送入层级结构编码器的顶层,并结合答案和情境,编码得到文章P的语义表征;
所述将文章和答案片段按每个句子送入层级结构编码器的底层,并结合答案和情境,编码得到句子强化的语义表征包括:
通过GloVe向量初始化文章P和答案片段A的词向量wi,t和at,其中,wi,t、at分别表示t时刻送入层级结构编码器底层的文章P中句子Si中的词、答案片段A中的词,初始化后分别记作wi,t和at;
通过一个双向门控循环网络来对每个句子Si进行初始的表征:
其中,分别是t时刻、t-1时刻双向门控循环网络正向传播的隐状态,分别是t时刻、t+1时刻双向门控循环网络反向传播的隐状态;k表示总时刻数,也即句子Si的词数目;将t时刻正向状态和反向状态拼接在一起,得到时刻每个句子Si在t时刻的隐状态hi,t;将正向传播最终状态/>和反向传播最终状态/>拼接在一起,得到每个句子Si的初始表征si;通过同样的双向门控循环网络,得到答案片段A的表征a;
之后,使用平均池化,输入每个句子Si的初始表征sf,来得到情境语义表征g1;通过答案和情境感知的注意力机制,结合答案片段A的表征a和情境语义表征g1,计算每个句子Si在t个时刻隐状态的权重:
每个句子Si的强化语义表征为各个时刻隐状态的加权和:
使用多跳推理机制,对于每个句子Si而言,第l+1跳的初始输入为与/>并重新计算第l+1跳的情境语义表征gl+1和隐状态/>其中gl+1由平均池化输入/>计算得到,/>由/>和相乘得到;接着通过答案和情境感知的注意力机制输入/>和gl+1,计算第l+1跳中每个句子Si在t时刻隐状态所占权重/>从而计算出第l+1跳每个句子Si的强化语义表征/>最终多跳推理机制的输出为句子最终强化的语义表征/>
其中,l=1,...,L,L为总跳数;
所述将句子强化的语义表征送入层级结构编码器的顶层,并结合答案和情境,编码得到文章的语义表征包括:
第1跳整个文章P的语义表征表示为每个句子最终强化的语义表征的加权和:
使用多跳推理机制,对于每个句子Si而言,第l′+1跳的初始输入为第l′跳每个句子更新的最终的强化语义表征通过平均池化计算l′+1跳的强化的情境语义表征通过答案和情境感知的注意力机制,输入/>和/>计算出第l′+1跳每个句子Si在文章中所占的语义权重/>从而计算出第l′+1跳整个文章P的语义表征pl′+1;最终多跳推理机制的输出为文章P的最终语义表征p:
其中,l′=1,...,L′,L′为总跳数;
所述在解码阶段,对文章的语义表征,利用文章感知的解码器和三通路的复制机制来生成相应问题包括:
其中,Ws″、Wa″与b″为训练变量,tanh为双曲正切函数,a为问题答案相关句的下标索引;
然后,通过门控循环网络构成的文章感知的解码器,解码器的解码基于文章P的最终语义表征p、前一时刻生成词的词向量yt-1、答案相关句的向量ct,计算解码器每一步状态st:
st=GRU([yt-1,ct-1,λp],st-1)
λ=sigmoid(Wosst-1+Woyyt-1+Wocct-1+Wopp+bo)
通过三通路复制机制,选择复制文章P或是句子中的词;三通路复制机制,有三种模式:生成模式、答案相关句词复制模式、以及文章词复制模式;
在生成模式中,生成的词的计算概率分布如下:
Pvocab=softmax(V′tanh(V[ct,st,λp]+b)+b′)
上式中,V、V′、b′与b均为可训练变量,得到的Pvocab是词表大小的向量,每一维度都是对应维度词的生成概率;
答案相关句复制模式和文章词复制模式计算概率分布如下,分别复制句子及文章中对应词在底层对应的注意力权重:
上式中,w表示对应词表中的词w,wp表示句子中第p个词,当词表中的词w和句子中第p个词wp相同时,复制第p个词wp在底层对应的注意力权重;在答案所相关句词复制模式下,复制句子的索引为答案相关句a,复制权重在文章词复制模式下,复制句子的索引为j,复制权重/>
生成模式、句子词复制模式、以及文章词复制模式的概率计算如下:
pgen=sigmoid(f(ct,st,yt,λp))
pscopy=sigmoid(f(ct,λp))
ppcopy=1-pscopy
其中f(·)为全连接层,在t时刻,最终输出词w的概率P(w),是三种模式下获得词和各模式概率的加权和:
P(w)=pgenPvocab(w)+(1-pgen)pscopyPscopy(w)+(1-pgen)ppcopyPpcopy(w)
最终输出的词wo,为所有词表词w中概率P(w)最大的词;
按照时刻顺序排列最终输出的词,构成相应问题的文本。
2.根据权利要求1所述的一种基于文章的问题生成方法,其特征在于,
通过对已发布的词条文章进行数据爬取,获取各类文章文本,人工标记文章中的答案片段,针对答案片段和文章人工撰写相关问题;
获取的每篇文章P都由n个句子组成:P={S1,S2,...,Sn},其中每个句子Si都由k个词构成:Si={wi,1,wi,2,...,wi,k},i=1,2,...,n;标记的答案片段A由m个词组成A={a1,a2,...,am};撰写的答案用Q表示;构建的文章-问题-答案数据集由多个{P,Q,A}三元组构成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010350734.8A CN111538838B (zh) | 2020-04-28 | 2020-04-28 | 基于文章的问题生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010350734.8A CN111538838B (zh) | 2020-04-28 | 2020-04-28 | 基于文章的问题生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111538838A CN111538838A (zh) | 2020-08-14 |
CN111538838B true CN111538838B (zh) | 2023-06-16 |
Family
ID=71978878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010350734.8A Active CN111538838B (zh) | 2020-04-28 | 2020-04-28 | 基于文章的问题生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111538838B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329435B (zh) * | 2020-11-27 | 2022-06-14 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备以及存储介质 |
CN112507081B (zh) * | 2020-12-16 | 2023-05-23 | 平安科技(深圳)有限公司 | 相似句匹配方法、装置、计算机设备及存储介质 |
CN115510814B (zh) * | 2022-11-09 | 2023-03-14 | 东南大学 | 一种基于双重规划的篇章级复杂问题生成方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657041A (zh) * | 2018-12-04 | 2019-04-19 | 南京理工大学 | 基于深度学习的问题自动生成方法 |
WO2019208070A1 (ja) * | 2018-04-23 | 2019-10-31 | 日本電信電話株式会社 | 質問応答装置、質問応答方法及びプログラム |
-
2020
- 2020-04-28 CN CN202010350734.8A patent/CN111538838B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019208070A1 (ja) * | 2018-04-23 | 2019-10-31 | 日本電信電話株式会社 | 質問応答装置、質問応答方法及びプログラム |
CN109657041A (zh) * | 2018-12-04 | 2019-04-19 | 南京理工大学 | 基于深度学习的问题自动生成方法 |
Non-Patent Citations (1)
Title |
---|
利用外部知识辅助和多步推理的选择题型机器阅读理解模型;盛艺暄等;《计算机系统应用》;20200415(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111538838A (zh) | 2020-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188176B (zh) | 深度学习神经网络及训练、预测方法、系统、设备、介质 | |
Gan et al. | Sparse attention based separable dilated convolutional neural network for targeted sentiment analysis | |
JP7087938B2 (ja) | 質問生成装置、質問生成方法及びプログラム | |
CN111538838B (zh) | 基于文章的问题生成方法 | |
Hayashi et al. | Latent relation language models | |
CN108959482A (zh) | 基于深度学习的单轮对话数据分类方法、装置和电子设备 | |
Ren | The use of machine translation algorithm based on residual and LSTM neural network in translation teaching | |
Chen et al. | Delving deeper into the decoder for video captioning | |
CN111666756B (zh) | 一种基于主题融合的序列模型文本摘要生成方法 | |
CN113826125A (zh) | 使用无监督数据增强来训练机器学习模型 | |
WO2019235103A1 (ja) | 質問生成装置、質問生成方法及びプログラム | |
CN109933806B (zh) | 一种复述生成方法、系统、设备及计算机可读存储介质 | |
CN112069827B (zh) | 一种基于细粒度主题建模的数据到文本生成方法 | |
WO2023045725A1 (zh) | 用于数据集创建的方法、电子设备和计算机程序产品 | |
Zhao et al. | Multi-task learning with graph attention networks for multi-domain task-oriented dialogue systems | |
CN116186216A (zh) | 基于知识增强和双图交互的问题生成方法及系统 | |
CN113312919A (zh) | 一种知识图谱的文本生成方法及装置 | |
Fang et al. | Prhan: Automated pull request description generation based on hybrid attention network | |
Li et al. | Phrase embedding learning from internal and external information based on autoencoder | |
CN114429143A (zh) | 一种基于强化蒸馏的跨语言属性级情感分类方法 | |
Wang et al. | Application of an emotional classification model in e-commerce text based on an improved transformer model | |
Hou et al. | A corpus-free state2seq user simulator for task-oriented dialogue | |
Kurup et al. | Evolution of neural text generation: Comparative analysis | |
CN113158045B (zh) | 一种基于图神经网络推理的可解释推荐方法 | |
CN111488440B (zh) | 一种基于多任务联合的问题生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |