CN111538838B - 基于文章的问题生成方法 - Google Patents

基于文章的问题生成方法 Download PDF

Info

Publication number
CN111538838B
CN111538838B CN202010350734.8A CN202010350734A CN111538838B CN 111538838 B CN111538838 B CN 111538838B CN 202010350734 A CN202010350734 A CN 202010350734A CN 111538838 B CN111538838 B CN 111538838B
Authority
CN
China
Prior art keywords
article
sentence
answer
word
hop
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010350734.8A
Other languages
English (en)
Other versions
CN111538838A (zh
Inventor
陈恩红
刘淇
孙睿军
陈彦敏
陶汉卿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202010350734.8A priority Critical patent/CN111538838B/zh
Publication of CN111538838A publication Critical patent/CN111538838A/zh
Application granted granted Critical
Publication of CN111538838B publication Critical patent/CN111538838B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种基于文章的问题生成方法,针对文章进行高效建模和有效利用全文信息,使用层级的编码器结合答案情境感知注意力机制和多跳推理机制,对文章进行语义表征。该方法在文章的语义表征上,能够高效的关注在答案和情境相关的地方,从而为解码器提供高质量的语义信息。解码器利用文章感知和三通路复制机制,可以高效利用全文信息,从而有效提升问题生成结果的质量,弥补了现有方法在文章级别问题语义表征不佳以及文章中有效信息不能有效利用的弊端。

Description

基于文章的问题生成方法
技术领域
本发明涉及自然语言理解和自然语言生成技术领域,尤其涉及一种基于文章的问题生成方法。
背景技术
在自然语言理解和生成领域,随着各种大规模问答数据的出现,自动化问题生成方法得到广泛关注。自动化问题生成有着广泛的应用场景:在教育领域中,问题生成的方法可以用课本内容为输入文本,输出一些内容相关的题目,从而评估学生的学习效果;在对话系统中,问题生成可以结合机器阅读理解,构建目前常用的对话系统;在机器阅读理解领域,问题生成可以自动构建一些大规模问答数据,为机器阅读理解所用,减轻人工标注的负担。因此,如何有效利用大量的问答数据来自动化生成问题是自然语言生成领域中一个急需解决的一个研究问题。
围绕这个研究问题,研究者们提出了很多方法。相关的研究主要集中在从给定的句子和答案片段来生成对应的问题,从而忽略了整篇文章中的部分语义信息。事实上,生成一些高质量的问题,有时候需要依赖于文章信息,因为一些隐含的信息,只在文章中出现。因此,利用文章和答案片段作为输入,可以提高问题生成的质量。
然而,在设计文章语义表征和生成过程中的有效方法时,仍然存在许多独特的挑战。一方面来说,对于文章这样的长序列进行建模,传统方法会丢失文章中的重要信息。另一方面,在生成的过程中,如果不能有效利用文章表征,那么相比句子级别的表征,文章表征会带来更多的不需要的噪声,从而影响问题生成的质量。
发明内容
本发明的目的是提供一种基于文章的问题生成方法,通过给定的文章和答案片段,利用层级结构并结合答案信息和情境信息,能够针对给定文章生成较高质量的问题。
本发明的目的是通过以下技术方案实现的:
一种基于文章的问题生成方法,包括:
收集多个文章,并根据每一文章中标记的答案片段产生相应的问题,从而构建文章-问题-答案数据集;
构建问题生成模型,在编码阶段,通过层级结构和答案情境感知,将文本形式文章和答案片段进行编码得到文章的语义表征;在解码阶段,对文章的语义表征,利用文章感知的解码器和三通路的复制机制来生成相应问题;
利用问题生成模型生成的问题与数据集中对应的问题构建损失函数,并对问题生成模型进行训练;
对于一个新的文章和答案片段,通过训练好的问题生成模型,对输入的文章和答案片段进行语义表征,最终生成和该文章和答案相关的问题。
由上述本发明提供的技术方案可以看出,使用基于层级结构答案和情境感知的问题生成模型来进行问题生成,相比于传统模型,能够对输入的文章结合情境和答案进行更好的表征,并且在生成的过程中能够有效结合全文信息,从而提高问题生成的质量。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种基于文章的问题生成方法,通过给定的文章和答案片段的流程图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种基于文章的问题生成方法,如图1所示,其主要包括如下步骤:
步骤11、收集多个文章,并根据每一文章中标记的答案片段产生相应的问题,从而构建文章-问题-答案数据集。
本发明实施例中,通过对已发布的词条文章进行数据爬取(例如,可以从百科网站爬取),获取各类文章文本,人工标记文章中的答案片段,针对答案片段和文章人工撰写相关问题。
本发明实施例中,获取的每篇文章P都由n个句子组成:P={S1,S2,...,Sn},其中每个句子Si都由k个词构成:Si={wi,1,wi,2,...,wi,k},i=1,2,...,n;标记的答案片段A属于某个句子(称为答案相关句)由m个词组成A={a1,a2,...,am};撰写的答案用Q表示;构建的文章-问题-答案数据集由多个{P,Q,A}三元组构成。
步骤12、构建问题生成模型,在编码阶段,通过层级结构和答案情境感知,将文本形式文章和答案片段进行编码得到文章的语义表征;在解码阶段,对文章的语义表征,利用文章感知的解码器和三通路的复制机制来生成相应问题。
本发明实施例中,编解码阶段主要以下三个部分:一、将文章P和答案片段A按每个句子送入层级结构编码器的底层,并结合答案和情境,编码得到句子强化的语义表征。二、将句子强化的语义表征送入层级结构编码器的顶层,并结合答案和情境,编码得到文章P的语义表征。三、对文章的语义表征,利用文章感知的解码器和三通路的复制机制来生成相应问题。前两部分为编码阶段,后一部分为解码阶段;所述三个部分的优选实施方式如下:
一、将文章P和答案片段A按每个句子送入层级结构编码器的底层,并结合答案和情境,编码得到句子强化的语义表征。
传统对文章进行语义表征的方法通常是将输入的文本不经过层级结构,直接通过一个循环神经网络获得相关表征。对于文章这样的长序列来说,由于循环神经网络梯度消失的问题,获得的语义表征会丢失文章中的重要信息。基于层级结构和答案和情境感知的文章编码器,可以更好的获取和答案相关的文章的语义。
本发明实施例中,将输入的文章P和答案片段A以句子为划分,送入层级结构编码器的底层,并结合答案和情境感知的注意力机制和多跳推理机制,获得句子强化的语义表征,主要过程包括:
1、将每个句子Si的长度对齐为k:Si={wi,1,wi,2,...,wi,k},超出限定长度的部分删去,不足的部分用空白符<PAD>补全。通过GloVe向量初始化文章P和答案片段A的词向量wi,t和at,其中,wi,t、at分别表示t时刻送入层级结构编码器底层的文章P中句子Si中的词、答案片段A中的词,初始化后分别记作wi,t和at
2、通过一个双向门控循环网络(GRU)来对每个句子Si进行初始的表征:
Figure BDA0002471734770000041
Figure BDA0002471734770000042
Figure BDA0002471734770000043
Figure BDA0002471734770000044
其中,
Figure BDA0002471734770000045
分别是t时刻、t-1时刻双向门控循环网络正向传播的隐状态,
Figure BDA0002471734770000046
分别是t时刻、t+1时刻双向门控循环网络反向传播的隐状态;k表示总时刻数,也即句子Si的词数目;将t时刻正向状态和反向状态拼接在一起,得到每个句子Si在t时刻的隐状态hi,t;将正向传播最终状态/>
Figure BDA0002471734770000047
和反向传播最终状态/>
Figure BDA0002471734770000048
拼接在一起,得到每个句子Si的初始表征si
通过同样的双向门控循环网络,得到答案片段A的表征a,实现过程与前文相同,区别仅在于,在处理答案片段时,t的取值范围与答案片段A中词的数目相关,即此时t=1,...,m。
3、使用平均池化(Average Pooling),输入每个句子Si的初始表征si,来得到情境语义表征g1;通过答案和情境感知的注意力机制,结合答案片段A的表征a和情境语义表征g1,计算每个句子Si在t个时刻隐状态的权重:
Figure BDA0002471734770000049
上式中,
Figure BDA00024717347700000410
Ws、Wg、Wa与bs均为训练变量,其中/>
Figure BDA00024717347700000411
类型为向量,Ws、Wg、Wa为权重矩阵,bs为偏置向量。tanh为双曲正切函数,上标1表示第1跳,/>
Figure BDA00024717347700000412
表示第1跳计算出的每个句子Si中在t时刻隐状态所占权重,/>
Figure BDA00024717347700000413
表示第1跳计算出的每个句子Si在t时刻的隐状态。
4、每个句子Si的强化语义表征为各个时刻隐状态的加权和:
Figure BDA00024717347700000414
其中,
Figure BDA00024717347700000415
表示第1跳计算的每个句子Si的强化语义表征。
5、使用多跳推理机制,重复利用答案和情境感知的注意力机制来计算每个句子Si在t时刻隐状态所占权重。对于每个句子Si而言,第l+1跳的初始输入为
Figure BDA00024717347700000416
与/>
Figure BDA00024717347700000417
并重新计算第l+1跳的情境语义表征gl+1和隐状态/>
Figure BDA00024717347700000418
其中gl+1由平均池化(Average Pooling)输入/>
Figure BDA0002471734770000051
计算得到,/>
Figure BDA0002471734770000052
由/>
Figure BDA0002471734770000053
和/>
Figure BDA0002471734770000054
相乘得到;接着通过答案和情境感知的注意力机制输入/>
Figure BDA0002471734770000055
和gl+1,计算第l+1跳中每个句子Si在t时刻隐状态所占权重/>
Figure BDA0002471734770000056
从而计算出第l+1跳每个句子Si的强化语义表征/>
Figure BDA0002471734770000057
最终多跳推理机制的输出为句子最终强化的语义表征/>
Figure BDA00024717347700000528
Figure BDA0002471734770000059
其中,l=1,...,L,L为总跳数。
二、将强化的句子级别语义表征送入层级结构编码器的顶层,并结合答案和情境,编码得到文章的语义表征。
1、使用平均池化,输入文章P中每个句子Si最终强化的语义表征
Figure BDA00024717347700000510
来得到强化的情境语义表征/>
Figure BDA00024717347700000511
通过答案和情境感知的注意力机制,结合答案片段A的表征a强化的情境语义表征/>
Figure BDA00024717347700000512
计算每个句子Si的权重:
Figure BDA00024717347700000513
上式中,
Figure BDA00024717347700000514
Ws′、Wg′、Wa‘与bs’均为训练变量,其中/>
Figure BDA00024717347700000515
类型为向量,Ws′、Wg′、Wa‘为权重矩阵,bs’为偏置向量。tanh为双曲正切函数,上标1表示第1跳,/>
Figure BDA00024717347700000516
表示第1跳计算出的每个句子Si在文章中所占的语义权重,n为文章中句子数目;同理,句子Sj初始最终强化的语义表征/>
Figure BDA00024717347700000517
等于前文计算出的最终强化的语义表征/>
Figure BDA00024717347700000518
2、整个文章P的语义表征表示为每个句子最终强化的语义表征的加权和:
Figure BDA00024717347700000519
其中,p1表示第1跳计算出的整个文章P的语义表征,同时,更新句子Si最终强化的语义表征
Figure BDA00024717347700000520
3、使用多跳推理机制,重复利用答案和情境感知的注意力机制来计算每个句子Si在文章中所占的语义权重。对于每个句子Si而言,第l′+1跳的初始输入为第l′跳每个句子更新的最终的强化语义表征
Figure BDA00024717347700000521
并重新计算l′+1跳的强化的情境语义表征
Figure BDA00024717347700000522
其中/>
Figure BDA00024717347700000523
由平均池化(Average Pooling)输入更新的最终的强化语义表征/>
Figure BDA00024717347700000524
得到;通过答案和情境感知的注意力机制,输入/>
Figure BDA00024717347700000525
和/>
Figure BDA00024717347700000526
计算出第l′+1跳每个句子Si在文章中所占的语义权重/>
Figure BDA00024717347700000527
从而计算出第l′+1跳整个文章P的语义表征pl′+1;最终多跳推理机制的输出为文章P的最终语义表征p:
Figure BDA0002471734770000061
其中,l′=1,...,L′,L′为总跳数。
三、解码阶段,对文章的语义表征,利用文章感知的解码器和三通路的复制机制来生成相应问题。
传统问题生成的解码器通常仅用编码器的最终状态初始化解码器的初态,比如文章最后的表征。但有时候,相比句子级别的表征,文章表征会带来更多的不需要的噪声,从而影响问题生成的质量,需要有效利用文章信息。
本发明实施例中,在解码阶段,输入获得的语义表征,利用文章感知的解码器动态考虑文章信息利用的问题,并且利用三通路复制机制选择复制文章或是句子中的稀有词。以此,有效利用文章信息,来提升问题生成的质量,主要过程包括:
1、通过包含答案片段A的答案相关句的强化语义表征
Figure BDA0002471734770000062
和答案片段A的表征a初始化解码器状态s0,其中a为问题答案相关句的下标索引,计算如下:
Figure BDA0002471734770000063
其中,Ws″、Wa″与b″为训练变量,tanh为双曲正切函数,Ws″、Wa″为权重矩阵,b″为偏置向量。
2、通过门控循环网络构成的文章感知的解码器,解码器的解码基于全文信息p、前一时刻生成词的词向量yt-1、答案相关句的情境向量ct-1,计算解码器每一步状态st
st=GRU([yt-1,ct-1,λp],st-1)
其中:
λ=sigmoid(Wosst-1+Woyyt-1+Wocct-1+Wopp+bo)
Figure BDA0002471734770000064
上式中,λ为文章感知的解码器动态考虑文章信息的门控;yt-1为t-1时刻生成词的词向量,由t-1时刻生成的词wo对应的词向量得到;
Figure BDA0002471734770000065
Wos,Woy,Woc,Wop,Wah,Was,Waa,bas与bo均为训练变量,Wos,Woy,Woc,Wop,Wah,Was,Waa为权重矩阵类型,bo,bas为偏置向量,t=1,...,k;
Figure BDA0002471734770000066
为步骤12第一部分第1跳计算出的答案相关句第p个时刻隐状态,/>
Figure BDA0002471734770000071
为权重。初始时刻的向量y与c可以预先给定。
3、通过三通路复制机制,选择复制全文P或是答案相关句中的稀有词;三通路复制机制,有三种模式:生成模式、答案相关句词复制模式、以及文章词复制模式;
在生成模式中,生成的词的计算概率分布如下:
Pvocab=softmax(V′tanh(V[ct,st,λp]+bv)+bv′)
上式中,V、V′、bv与bv′均为可训练向量,其中,V、V′为向量。得到的Pvocab是词表大小的向量,每一维度都是对应维度词的生成概率,词表由所用数据中的词去重得到的合集产生。生成词的时候是根据词表决定的,默认取词表中概率最大的词,对于每个词表中的词w来说,生成的概率,就是由三个模式的概率加权相加得到。所以每次会寻找句子或者文章中和它相同的词,如果相同,就把对应时刻的权重复制下来,这样,词表中每个词,都有一个对应的概率,输出就是选取概率最大的词。
答案相关句词复制模式pscopy和文章词复制模式ppcopy计算概率分布如下,分别复制句子及文章中对应词在底层对应的注意力权重,即第1跳时的权重:
Figure BDA0002471734770000072
Figure BDA0002471734770000073
上式中,w表示对应词表中的词w,wp表示句子中第p个词,当词表中的词w和句子中第p个词wp相同时,复制第p个词wp在底层对应的注意力权重。在答案所相关句词复制模式下,复制句子的索引为答案相关句a,即复制权重
Figure BDA0002471734770000074
在文章词复制模式下,复制句子的索引为j,j的取值有文章中句子总数决定(1,2,...,n),即复制权重/>
Figure BDA0002471734770000075
p=1,...,k。
生成模式、答案相关句复制模式、以及文章词复制模式的概率计算如下:
pgen=sigmoid(f(ct,st,yt,λp))
pscopy=sigmoid(f(ct,λp))
ppcopy=1-pscopy
其中f(·)为全连接层,在t时刻,每个词表中的词生成概率P(w)是三种模式下生成词概率和当前模式概率的加权和:P(w)=pgenPvocab(w)+(1-pgen)pscopyPscopy(w)+(1-pgen)ppcopyPpcopy(w)。最终输出的生成词wo,为所有词表词w中概率最大的词,即P(w)最大的词。
按照时刻顺序排列最终输出的词,构成相应问题的文本。
步骤13、利用问题生成模型生成的问题与数据集中对应的问题构建损失函数,并对问题生成模型进行训练。
为了从分类的视角解决问题序列生成的任务,使用基于负对数似然损失函数对问题生成模型进行训练。
训练策略为:对于解码器每一时刻生成的词要尽量接近数据集中的真实值。这类似于一个分类问题,预测目标是每一时刻生成词的类别,类别的数量就是总词表的大小,而真实值就是当前时刻真实问题词所在的类别。
利用问题生成模型生成的问题与数据集中对应的问题,构建如下所示的基于负对数似然损失函数L,训练目标为最小化负对数似然损失函数L:
Figure BDA0002471734770000081
其中,|Q|表示数据集的大小,训练集由|Q|个(P,Q,A)三元组构成;Q(x)表示数据集中第x个问题;P(x)表示数据集中第x篇文章;A(x)表示数据集中第x个答案;
Figure BDA0002471734770000082
表示数据集中第x个问题的第y个词;/>
Figure BDA0002471734770000083
表示数据集中第x个问题的第y个词之前的所有词;|Q(x)|表示数据集中第x个问题的长度,即该问题词的数目;O(x)为模型生成出的第x个问题;/>
Figure BDA0002471734770000084
表示模型生成出第x个问题的第y个词;P(·|·)为似然函数;θ表示模型中的参数。
步骤14、对于一个新的文章和答案片段,通过训练好的问题生成模型,对输入的文章和答案片段进行语义表征,最终生成和该文章和答案相关的问题。
测试阶段与训练阶段的过程相似,即输入为新的文章和答案片段,通过训练好的问题生成模型,将输入的文章通过层级的编码器,结合答案情境感知注意力机制和多跳推理机制,分别获得句子的强化语义表征和文章的语义表征。之后,在解码阶段,输入编码阶段得到的文章的语义表征,利用文章感知的解码器和三通路的复制机制,最终生成和该文章和答案片段相关的问题。
本发明实施例上述方案,针对文章进行高效建模和有效利用全文信息,使用层级的编码器结合答案情境感知注意力机制和多跳推理机制,对文章进行语义表征。该方法在文章的语义表征上,能够高效的关注在答案和情境相关的地方,从而为解码器提供高质量的语义信息。解码器利用文章感知和三通路复制机制,可以高效利用全文信息,从而有效提升问题生成结果的质量,弥补了现有方法在文章级别问题语义表征不佳以及文章中有效信息不能有效利用的弊端。
值得说明的是,本发明要求保护的方案是基于文章的问题生成方法,方案中数据处理所涉及的都是文本数据,但不限定文本数据的内容,因此,也并不限定具体的应用方向。参见之前的背景技术中所述,如果文本数据的内容课本内容,那么输出的问题自然是与课本内容相关的题目,可通过输出的题目来评估学生的学习效果;如果应用在对话系统或者机器阅读理解领域或者其他方面,使用相关内容的文本即可通过上述方案生成对应的问题。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (3)

1.一种基于文章的问题生成方法,其特征在于,包括:
收集多个文章,并根据每一文章中标记的答案片段产生相应的问题,从而构建文章-问题-答案数据集;
构建问题生成模型,在编码阶段,通过层级结构和答案情境感知,将文本形式文章和答案片段进行编码得到文章的语义表征;在解码阶段,对文章的语义表征,利用文章感知的解码器和三通路的复制机制来生成相应问题;
利用问题生成模型生成的问题与数据集中对应的问题构建损失函数,并对问题生成模型进行训练;
对于一个新的文章和答案片段,通过训练好的问题生成模型,对输入的文章和答案片段进行语义表征,最终生成和该文章和答案相关的问题;
所述在编码阶段,通过层级结构和答案情境感知,将文本形式文章和答案片段进行编码得到文章的语义表征包括:将文章P和答案片段A按每个句子送入层级结构编码器的底层,并结合答案和情境,编码得到句子强化的语义表征;将句子强化的语义表征送入层级结构编码器的顶层,并结合答案和情境,编码得到文章P的语义表征;
所述将文章和答案片段按每个句子送入层级结构编码器的底层,并结合答案和情境,编码得到句子强化的语义表征包括:
通过GloVe向量初始化文章P和答案片段A的词向量wi,t和at,其中,wi,t、at分别表示t时刻送入层级结构编码器底层的文章P中句子Si中的词、答案片段A中的词,初始化后分别记作wi,t和at
通过一个双向门控循环网络来对每个句子Si进行初始的表征:
Figure FDA0004219277490000011
Figure FDA0004219277490000012
Figure FDA0004219277490000013
Figure FDA0004219277490000014
其中,
Figure FDA0004219277490000015
分别是t时刻、t-1时刻双向门控循环网络正向传播的隐状态,
Figure FDA0004219277490000016
分别是t时刻、t+1时刻双向门控循环网络反向传播的隐状态;k表示总时刻数,也即句子Si的词数目;将t时刻正向状态和反向状态拼接在一起,得到时刻每个句子Si在t时刻的隐状态hi,t;将正向传播最终状态/>
Figure FDA0004219277490000017
和反向传播最终状态/>
Figure FDA0004219277490000018
拼接在一起,得到每个句子Si的初始表征si;通过同样的双向门控循环网络,得到答案片段A的表征a;
之后,使用平均池化,输入每个句子Si的初始表征sf,来得到情境语义表征g1;通过答案和情境感知的注意力机制,结合答案片段A的表征a和情境语义表征g1,计算每个句子Si在t个时刻隐状态的权重:
Figure FDA0004219277490000021
上式中,
Figure FDA0004219277490000022
Ws、Wg、Wa与bs均为训练变量,tanh为双曲正切函数,上标1表示第1跳,/>
Figure FDA0004219277490000023
表示第1跳计算出的每个句子Si在t时刻隐状态所占权重,/>
Figure FDA0004219277490000024
表示第1跳计算出的每个句子Si在t时刻的隐状态;
每个句子Si的强化语义表征为各个时刻隐状态的加权和:
Figure FDA0004219277490000025
使用多跳推理机制,对于每个句子Si而言,第l+1跳的初始输入为
Figure FDA0004219277490000026
与/>
Figure FDA0004219277490000027
并重新计算第l+1跳的情境语义表征gl+1和隐状态/>
Figure FDA0004219277490000028
其中gl+1由平均池化输入/>
Figure FDA0004219277490000029
计算得到,/>
Figure FDA00042192774900000210
由/>
Figure FDA00042192774900000211
Figure FDA00042192774900000212
相乘得到;接着通过答案和情境感知的注意力机制输入/>
Figure FDA00042192774900000213
和gl+1,计算第l+1跳中每个句子Si在t时刻隐状态所占权重/>
Figure FDA00042192774900000214
从而计算出第l+1跳每个句子Si的强化语义表征/>
Figure FDA00042192774900000215
最终多跳推理机制的输出为句子最终强化的语义表征/>
Figure FDA00042192774900000216
Figure FDA00042192774900000217
其中,l=1,...,L,L为总跳数;
所述将句子强化的语义表征送入层级结构编码器的顶层,并结合答案和情境,编码得到文章的语义表征包括:
第1跳时,使用平均池化,输入文章P中每个句子Si最终强化的语义表征
Figure FDA00042192774900000218
来得到强化的情境语义表征/>
Figure FDA00042192774900000219
通过答案和情境感知的注意力机制,结合答案片段A的表征a强化的情境语义表征/>
Figure FDA00042192774900000220
计算每个句子Si的权重:
Figure FDA00042192774900000221
上式中,
Figure FDA00042192774900000222
Ws′、Wg′、Wa′与bs′均为训练变量,tanh为双曲正切函数,上标1表示第1跳,/>
Figure FDA00042192774900000223
表示第1跳计算出的每个句子Si在文章中所占的语义权重,n为文章中句子数目;
第1跳整个文章P的语义表征表示为每个句子最终强化的语义表征的加权和:
Figure FDA0004219277490000031
使用多跳推理机制,对于每个句子Si而言,第l′+1跳的初始输入为第l′跳每个句子更新的最终的强化语义表征
Figure FDA0004219277490000032
通过平均池化计算l′+1跳的强化的情境语义表征
Figure FDA0004219277490000033
通过答案和情境感知的注意力机制,输入/>
Figure FDA0004219277490000034
和/>
Figure FDA0004219277490000035
计算出第l′+1跳每个句子Si在文章中所占的语义权重/>
Figure FDA0004219277490000036
从而计算出第l′+1跳整个文章P的语义表征pl′+1;最终多跳推理机制的输出为文章P的最终语义表征p:
Figure FDA0004219277490000037
其中,l′=1,...,L′,L′为总跳数;
所述在解码阶段,对文章的语义表征,利用文章感知的解码器和三通路的复制机制来生成相应问题包括:
通过包含答案片段A的答案相关句的强化语义表征
Figure FDA00042192774900000314
和答案片段A的表征a初始化解码器状态s0,计算如下:
Figure FDA0004219277490000038
其中,Ws″、Wa″与b″为训练变量,tanh为双曲正切函数,a为问题答案相关句的下标索引;
然后,通过门控循环网络构成的文章感知的解码器,解码器的解码基于文章P的最终语义表征p、前一时刻生成词的词向量yt-1、答案相关句的向量ct,计算解码器每一步状态st
st=GRU([yt-1,ct-1,λp],st-1)
λ=sigmoid(Wosst-1+Woyyt-1+Wocct-1+Wopp+bo)
Figure FDA0004219277490000039
Figure FDA00042192774900000310
上式中,λ为文章感知的解码器动态考虑文章信息的门控;
Figure FDA00042192774900000311
Wos,Woy,Woc,Wop,Wah,Was,Waa,bas与bo均为训练变量;/>
Figure FDA00042192774900000312
为第1跳计算出的答案相关句第p个时刻隐状态,/>
Figure FDA00042192774900000313
为权重;
通过三通路复制机制,选择复制文章P或是句子中的词;三通路复制机制,有三种模式:生成模式、答案相关句词复制模式、以及文章词复制模式;
在生成模式中,生成的词的计算概率分布如下:
Pvocab=softmax(V′tanh(V[ct,st,λp]+b)+b′)
上式中,V、V′、b′与b均为可训练变量,得到的Pvocab是词表大小的向量,每一维度都是对应维度词的生成概率;
答案相关句复制模式和文章词复制模式计算概率分布如下,分别复制句子及文章中对应词在底层对应的注意力权重:
Figure FDA0004219277490000041
Figure FDA0004219277490000042
上式中,w表示对应词表中的词w,wp表示句子中第p个词,当词表中的词w和句子中第p个词wp相同时,复制第p个词wp在底层对应的注意力权重;在答案所相关句词复制模式下,复制句子的索引为答案相关句a,复制权重
Figure FDA0004219277490000043
在文章词复制模式下,复制句子的索引为j,复制权重/>
Figure FDA0004219277490000044
生成模式、句子词复制模式、以及文章词复制模式的概率计算如下:
pgen=sigmoid(f(ct,st,yt,λp))
pscopy=sigmoid(f(ct,λp))
ppcopy=1-pscopy
其中f(·)为全连接层,在t时刻,最终输出词w的概率P(w),是三种模式下获得词和各模式概率的加权和:
P(w)=pgenPvocab(w)+(1-pgen)pscopyPscopy(w)+(1-pgen)ppcopyPpcopy(w)
最终输出的词wo,为所有词表词w中概率P(w)最大的词;
按照时刻顺序排列最终输出的词,构成相应问题的文本。
2.根据权利要求1所述的一种基于文章的问题生成方法,其特征在于,
通过对已发布的词条文章进行数据爬取,获取各类文章文本,人工标记文章中的答案片段,针对答案片段和文章人工撰写相关问题;
获取的每篇文章P都由n个句子组成:P={S1,S2,...,Sn},其中每个句子Si都由k个词构成:Si={wi,1,wi,2,...,wi,k},i=1,2,...,n;标记的答案片段A由m个词组成A={a1,a2,...,am};撰写的答案用Q表示;构建的文章-问题-答案数据集由多个{P,Q,A}三元组构成。
3.根据权利要求1或2所述的一种基于文章的问题生成方法,其特征在于,利用问题生成模型生成的问题与数据集中对应的问题,构建基于负对数似然损失函数:
Figure FDA0004219277490000051
其中,|Q|表示数据集的大小;Q(x)表示数据集中第x个问题;P(x)表示数据集中第x篇文章;A(x)表示数据集中第x个答案;
Figure FDA0004219277490000052
表示数据集中第x个问题的第y个词;/>
Figure FDA0004219277490000053
表示数据集中第x个问题的第y个词之前的所有词;|Q(x)|表示数据集中第x个问题的长度;O(x)为问题生成模型生成出的第x个问题;/>
Figure FDA0004219277490000054
表示问题生成模型生成出第x个问题的第y个词;P(·|·)为似然函数;θ表示问题生成模型中的参数;
训练目标为最小化负对数似然损失函数L。
CN202010350734.8A 2020-04-28 2020-04-28 基于文章的问题生成方法 Active CN111538838B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010350734.8A CN111538838B (zh) 2020-04-28 2020-04-28 基于文章的问题生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010350734.8A CN111538838B (zh) 2020-04-28 2020-04-28 基于文章的问题生成方法

Publications (2)

Publication Number Publication Date
CN111538838A CN111538838A (zh) 2020-08-14
CN111538838B true CN111538838B (zh) 2023-06-16

Family

ID=71978878

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010350734.8A Active CN111538838B (zh) 2020-04-28 2020-04-28 基于文章的问题生成方法

Country Status (1)

Country Link
CN (1) CN111538838B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329435B (zh) * 2020-11-27 2022-06-14 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备以及存储介质
CN112507081B (zh) * 2020-12-16 2023-05-23 平安科技(深圳)有限公司 相似句匹配方法、装置、计算机设备及存储介质
CN115510814B (zh) * 2022-11-09 2023-03-14 东南大学 一种基于双重规划的篇章级复杂问题生成方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657041A (zh) * 2018-12-04 2019-04-19 南京理工大学 基于深度学习的问题自动生成方法
WO2019208070A1 (ja) * 2018-04-23 2019-10-31 日本電信電話株式会社 質問応答装置、質問応答方法及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019208070A1 (ja) * 2018-04-23 2019-10-31 日本電信電話株式会社 質問応答装置、質問応答方法及びプログラム
CN109657041A (zh) * 2018-12-04 2019-04-19 南京理工大学 基于深度学习的问题自动生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
利用外部知识辅助和多步推理的选择题型机器阅读理解模型;盛艺暄等;《计算机系统应用》;20200415(第04期);全文 *

Also Published As

Publication number Publication date
CN111538838A (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
CN110188176B (zh) 深度学习神经网络及训练、预测方法、系统、设备、介质
Gan et al. Sparse attention based separable dilated convolutional neural network for targeted sentiment analysis
JP7087938B2 (ja) 質問生成装置、質問生成方法及びプログラム
CN111538838B (zh) 基于文章的问题生成方法
Hayashi et al. Latent relation language models
CN108959482A (zh) 基于深度学习的单轮对话数据分类方法、装置和电子设备
Ren The use of machine translation algorithm based on residual and LSTM neural network in translation teaching
Chen et al. Delving deeper into the decoder for video captioning
CN111666756B (zh) 一种基于主题融合的序列模型文本摘要生成方法
CN113826125A (zh) 使用无监督数据增强来训练机器学习模型
WO2019235103A1 (ja) 質問生成装置、質問生成方法及びプログラム
CN109933806B (zh) 一种复述生成方法、系统、设备及计算机可读存储介质
CN112069827B (zh) 一种基于细粒度主题建模的数据到文本生成方法
WO2023045725A1 (zh) 用于数据集创建的方法、电子设备和计算机程序产品
Zhao et al. Multi-task learning with graph attention networks for multi-domain task-oriented dialogue systems
CN116186216A (zh) 基于知识增强和双图交互的问题生成方法及系统
CN113312919A (zh) 一种知识图谱的文本生成方法及装置
Fang et al. Prhan: Automated pull request description generation based on hybrid attention network
Li et al. Phrase embedding learning from internal and external information based on autoencoder
CN114429143A (zh) 一种基于强化蒸馏的跨语言属性级情感分类方法
Wang et al. Application of an emotional classification model in e-commerce text based on an improved transformer model
Hou et al. A corpus-free state2seq user simulator for task-oriented dialogue
Kurup et al. Evolution of neural text generation: Comparative analysis
CN113158045B (zh) 一种基于图神经网络推理的可解释推荐方法
CN111488440B (zh) 一种基于多任务联合的问题生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant