CN111488440A - 一种基于多任务联合的问题生成方法 - Google Patents

一种基于多任务联合的问题生成方法 Download PDF

Info

Publication number
CN111488440A
CN111488440A CN202010236154.6A CN202010236154A CN111488440A CN 111488440 A CN111488440 A CN 111488440A CN 202010236154 A CN202010236154 A CN 202010236154A CN 111488440 A CN111488440 A CN 111488440A
Authority
CN
China
Prior art keywords
word
sentence
text
sentences
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010236154.6A
Other languages
English (en)
Other versions
CN111488440B (zh
Inventor
蔡毅
黄清宝
傅明毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202010236154.6A priority Critical patent/CN111488440B/zh
Publication of CN111488440A publication Critical patent/CN111488440A/zh
Application granted granted Critical
Publication of CN111488440B publication Critical patent/CN111488440B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于多任务联合的问题生成的方法,构建多任务联合的问题生成模型,问题生成模型包括摘要抽取模块和问题生成模块,问题生成模型采用seq2seq模型;所述方法包括步骤:利用抽取式摘要生成的方法抽取出给定文本的中心句子形成文本摘要;根据给定文本建立高频词词汇表和低频词词汇表;通过预训练好的Glove词嵌入方法将得到的文本摘要进行词向量表示;将得到的词向量表示输入到seq2seq模型的encode部分,再结合注意力机制将词向量编码为隐藏状态;通过Seq2Seq模型中的decode将得到的隐藏层状态解码为问题序列。本发明通过自动摘要的方法抽取出给定文本的中心句,再结合注意力机制、copy机制使得生成的问题更贴近文章中心。

Description

一种基于多任务联合的问题生成方法
技术领域
本发明涉及自然语言处理技术中的自然语言文本生成领域,尤其涉及一种基于多任务联合的问题生成方法。
背景技术
近年来关于文本生成中的问题生成的研究越来越多,现有的方法主要是针对单个文本生成固定简短的答案。目前广泛使用在自然语言文本生成的神经模型是基于序列到序列(seq2seq)模型,大部分研究也都是基于seq2seq模型进行修改。其主要思路是将上下文文本作为输入,同时将答案作为额外的输入来引导模型生成问题,以此来告知模型需要关注哪部分信息。
在实际阅读理解场景下,问题是根据给定上下文来回答的,答案可能不在某一段落中,它可能是跨越多个文本总结得到的,或者不能从上下文中直接得到答案,需要人为的组织上下文信息得到答案。文本生成是自然语言处理领域极具挑战的任务,而问题生成的方法需要理解整个给定的上下文并且捕捉文本中的重要信息,这些信息可能跨越一个文本的多个句子,甚至是多个文本的多个句子。同时也要特别关注一些比较重要的信息,一般都是一些高频词,数词。所以对于问题生成任务需要考虑到以上这些方面。
本发明提出了先对给定文本进行摘要提取,将文本中最重要的信息抽取出来,然后再对文摘进行提问,以此来生成与上下文内容最相关的问题。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于多任务联合的问题生成方法。本发明通过自动文摘与seq2seq模型相结合的方法来生成与内容主题最相关且具有推理总结性的问题。本发明具体通过TextRank算法提取文本摘要,抽取出文本中包含重要信息的句子,并依据重要程度进行排序,再选取前T个最重要的句子形成摘要,然后构建用于拷贝低频词词汇表和用于生成高频词词汇表,再将上下文用Glove嵌入表示词向量和BIO标记将二者拼接起来作为最终编码器的输入。本发明在编码器中应用了注意力机制,使得模型能够关注输入的重要信息,编码器的输入是上述的拼接向量,输出为隐藏层状态,然后将编码器的隐藏层状态输入到解码器中,结合拷贝机制依次迭代输出问题序列。
本发明的目的能够通过以下技术方案实现:
一种基于多任务联合的问题生成方法,包括步骤:
构建多任务联合的问题生成模型,问题生成模型包括摘要抽取模块和问题生成模块,问题生成模型采用seq2seq模型;
利用抽取式摘要生成的方法抽取出给定文本的中心句子形成摘要;
根据给定文本建立高频词词汇表V和低频词词汇表L;
通过预训练好的Glove词嵌入方法将得到的摘要进行词向量表示,输入到问题生成模块;
将从得到的词向量表示输入到seq2seq模型中的encode部分,再结合注意力机制将词向量编码为隐藏状态ct
通过Seq2Seq模型中的decode部分将得到的隐藏状态ct解码为问题序列。
多任务联合的问题生成模型中,得到的最终输出为与上下文相关的问题序列。
本发明相较于现有技术,具有以下的有益效果:
1、本发明从全局出发,首先考虑给定文本中最值得被提问的信息,从而避免了生成一些无关紧要的问题。并且通过将文本和摘要以特定的方式编码后拼接作为输入,再结合注意力机制和拷贝机制来生成问题,使得能够生成更加符合实际阅读理解场景中的问题。
附图说明
图1为本发明中一种基于多任务联合的问题生成方法的流程图。
图2为本发明实施例中模型的结构示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示为一种基于多任务联合的问题生成的方法的流程图,所述方法包括步骤:
如图2所示为问题生成模型的结构示意图,所述模型包括摘要抽取模块和问题生成模块,问题生成模型采用seq2seq模型。
(1)利用抽取式摘要生成的方法抽取出给定文本的中心句子形成摘要,包括:
设摘要抽取模型的输入是一段文本,由序列X={X1,X2,…,XK}组成,其中
Figure BDA0002431038690000031
表示第i个句子的第li个词,问题生成模型的输出是与文本相关的问题序列Y=y1y2...yl
在本实施例中,给定的上下文文本为:
context1:“Rachel Carson’s essay on The Obligation to Endure,is a veryconvincing argument about the harmful uses of chemical,pesticides,herbicidesand fertilizers on the environment.”
context2:“Caron believes that as man tries to eliminate unwantedinsects and weeds,however he is actually causing more problems by pollutingthe environment with,for example,DDT and harming living things.”
context3:“Carson subtly defers her writing in just in just the rightwriting for it to not be subject to an induction run rampant style whichgrabs the readers interest without biasing the whole article.”
根据上述三段给定文本生成与文本内容最相关的问题为:
“Why did Rachel Carson write an obligation to endure?”
(1-1)使用停用词表去除所述文本中的停用词,使用TF-IDF提取特征词并计算特征词权重;
(1-2)将所述文本分句后,计算每两个句子的相似性,并构造句子关系图G=(V,E),其中V为句子集,E为边集,句子相似性的计算公式为:
Figure BDA0002431038690000041
其中,xk是既出现在句子Xi中,又出现在句子Xj中的单词,|Xi|表示句子i的单词数。若两个句子之间的相似度大于给定的阈值θ=0.1,就在图中把两个句子连接起来。
句子权重计算公式:
Figure BDA0002431038690000042
其中,WS(Vi)表示句子i的权重,Vi表示构建的图中句子i对应的顶点,d是一个阻尼系数为0.85,In(Vi)表示指向Vi点的点集合,Out(Vj)表示Vj点指向的点集合,wji表示句子j、i之间的相似度,即计算的相似性Similarity(Xi,Xj),wjk表示句子j、k之间的相似度,WS(Vj)表示上次迭代j的权重。
(1-3)根据句子相似性,迭代传播权重计算各个句子的得分;
(1-4)将得到的句子得分进行排序,抽取得分最高的3个句子作为候选文摘句;
(1-5)根据字数或句子数的要求,从候选文摘句中抽取句子组成文本摘要。其中,优先按照句子数进行抽取。
“因此,本实施例中三段给定文本所提取的摘要句子分别为:
1.“Rachel Carson’s essay on The Obligation to Endure.”
2.“Caron believes that as man tries to eliminate unwanted insects andweeds.”
3.“however he is actually causing more problems by polluting theenvironment.”
上述句子组成的文本摘要为:
Rachel Carson’s essay on The Obligation to Endure,Caron believes thatas man tries to eliminate unwanted insects and weeds,however he is actuallycausing more problems by polluting the environment.”
(2)根据给定文本建立高频词词汇表V和低频词词汇表L,包括:
(2-1)统计单词词频,将词频大于3的词汇列为高频词,建立高频词词汇表V,把词频大于0小于3的列为低频词,构建低频词汇表L;
(2-2)将词汇表V和L以外的词用UNK表示。
(3)通过预训练好的Glove词嵌入方法将得到的文本摘要进行词向量表示,并输入到问题生成模块,包括:
(3-1)通过预训练好的Glove词嵌入方法将得到的文本摘要转换为词向量形式wi,并对词向量进行BIO编码得到bi
(3-2)将得到的词向量表示和BIO编码连接起来wi'=[wi:bi],作为问题生成模块最终的输入。
(4)将得到的词向量表示输入到seq2seq模型的encode部分,再结合注意力机制将词向量编码为隐藏状态ct;包括:
(4-1)将得到的wi'输入到由双向长短期记忆网络(Bi-LSTM)构成的encode中,其隐藏层状态更新方法为:
Figure BDA0002431038690000061
Figure BDA0002431038690000062
Figure BDA0002431038690000063
其中,
Figure BDA0002431038690000064
表示LSTM前向传播的隐藏层状态,
Figure BDA0002431038690000065
表示LSTM反向传播的隐藏层状态,ht表示将前向传播的隐藏层状态与反向传播的隐藏层状态拼接。
(4-2)在encode中计算attention得分,计算公式为:
Figure BDA0002431038690000066
αtj=softmax(etj)
ct=∑αtjhj
其中,st是当前序列的状态,va,W,U都是待学习参数,tanh是作为激活函数的双曲正切函数。
(5)通过Seq2Seq模型中的decode部分将得到的隐藏层状态的注意力得分ct解码为问题序列,包括:
(5-1)在解码器decode中,输出的单词由两部分组成,其一是来自于高频词词汇表V生成,其二是根据copy机制从低频词汇表L中拷贝,输出单词的计算公式为:
p(yt|st,yt-1,ct,M)=p(yt,g|st,yt-1,ct,M)+p(yt,c|st,yt-1,ct,M)
其中,st是解码器的状态序列,ct为attention得分,M为词汇表矩阵,p(yt,g|st,yt-1,ct,M)代表从词汇表V中生成的概率,p(yt,c|st,yt-1,ct,M)代表从低频词汇表L拷贝的概率。yt表示当前预测的单词,即要输出的单词,yt-1表示前一个输出的单词。g代表从词汇表V中生成,c代表从词汇表L中copy。
(5-2)根据输出单词的计算公式,依次迭代得出最终的输出序列Y=y1y2...yl
本实施例中给定文本的生成问题,即模型输出为:
Why did Rachel Carson write an obligation to endure?
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种基于多任务联合的问题生成的方法,其特征在于,构建多任务联合的问题生成模型,问题生成模型包括摘要抽取模块和问题生成模块,问题生成模型采用seq2seq模型;所述方法包括步骤:
利用抽取式摘要生成的方法抽取出给定文本的中心句子形成文本摘要;
根据给定文本建立高频词词汇表和低频词词汇表;
通过预训练好的Glove词嵌入方法将得到的文本摘要进行词向量表示;
将得到的词向量表示输入到seq2seq模型的encode部分,再结合注意力机制将词向量编码为隐藏状态;
通过Seq2Seq模型中的decode将得到的隐藏层状态解码为问题序列。
2.根据权利要求1所述的方法,其特征在于,所述利用抽取式摘要生成的方法抽取出给定文本的中心句子形成文本摘要的步骤中,包括:
使用停用词表去除所述文本中的停用词,使用TF-IDF提取特征词并计算特征词权重;
将所述文本分句后,计算每两个句子之间的相似性,并构造句子关系图;
根据句子相似性,迭代传播权重计算各个句子的得分;
将得到的句子得分进行排序,抽取重要度最高的3个句子作为候选文摘句;
根据字数或句子数要求,从候选文摘句中抽取句子组成文本摘要。
3.根据权利要求1所述的方法,其特征在于,所述根据给定文本建立高频词词汇表和低频词词汇表的步骤中,包括:
统计单词词频,将词频大于3的词汇列为高频词,建立高频词词汇表V,把词频大于0小于3的列为低频词,构建低频词汇表L;
将词汇表V和L以外的词用UNK表示。
4.根据权利要求2所述的方法,其特征在于,句子间相似性计算方法为:
G=(V,E),其中V为句子集,E为边集,句子相似性的计算公式为:
Figure FDA0002431038680000021
其中,xk是既出现在句子Xi中,又出现在句子Xj中的单词,|Xi|表示句子i的单词数;
构造句子关系图方法为:若两个句子之间的相似度大于给定的阈值θ=0.1,就在图中把两个句子连接起来。
5.根据权利要求2所述的方法,其特征在于,句子间相似性计算方法为:
句子权重计算公式:
Figure FDA0002431038680000022
其中,WS(Vi)表示句子i的权重,Vi表示构建的图中句子i对应的顶点,d是一个阻尼系数为0.85,In(Vi)表示指向Vi点的点集合,Out(Vj)表示Vj点指向的点集合,wji表示句子j、i之间的相似度,即计算的相似性Similarity(Xi,Xj),wjk表示句子j、k之间的相似度,WS(Vj)表示上次迭代j的权重。
6.根据权利要求1所述的方法,其特征在于,所述通过预训练好的Glove词嵌入方法将得到的文本摘要进行词向量表示的步骤中,包括:
通过预训练好的Glove词嵌入方法将文本摘要转换为词向量形式wi,并将得到的文本摘要进行BIO编码得到bi
将得到的词向量表示和BIO编码连接起来w′i=[wi:bi],作为问题生成模块最终的输入。
7.根据权利要求1所述的方法,其特征在于,所述将得到的词向量表示输入到seq2seq模型的encode部分,再结合注意力机制将词向量编码为隐藏状态的步骤中,包括:
将得到的w′i输入到由双向长短期记忆网络(Bi-LSTM)构成的encode部分中,更新其隐藏层状态;
在encode部分中计算隐藏层状态的attention得分。
8.根据权利要求7所述的方法,其特征在于,隐藏层状态的更新方法为:
Figure FDA0002431038680000031
Figure FDA0002431038680000032
Figure FDA0002431038680000033
其中,
Figure FDA0002431038680000034
表示LSTM前向传播的隐藏层状态,
Figure FDA0002431038680000035
表示LSTM反向传播的隐藏层状态,ht表示将前向传播的隐藏层状态与反向传播的隐藏层状态拼接。
9.根据权利要求7所述的方法,其特征在于,所述隐藏层状态的注意力得分计算方法为:
Figure FDA0002431038680000036
αtj=softmax(etj)
ct=∑αtjhj
其中,st是当前序列的状态,va,W,U都是待学习参数,tanh是作为激活函数的双曲正切函数。
10.根据权利要求1所述的方法,其特征在于,所述步骤(5),包括:
在解码器decode中,输出的单词由两部分组成,其一是来自于高频词词汇表V生成,其二是根据copy机制从低频词汇表L中拷贝,输出单词的计算公式为:
p(yt|st,yt-1,ct,M)=p(yt,g|st,yt-1,ct,M)+p(yt,c|st,yt-1,ct,M)
其中,st是解码器的状态序列,ct为attention的得分,M为词汇表矩阵,p(yt,g|st,yt-1,ct,M)代表从词汇表V中生成的概率,p(yt,c|st,yt-1,ct,M)代表从低频词汇表L拷贝的概率;
(5-2)根据上述计算公式,依次迭代得出最终的输出序列Y=y1y2...yl
CN202010236154.6A 2020-03-30 2020-03-30 一种基于多任务联合的问题生成方法 Active CN111488440B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010236154.6A CN111488440B (zh) 2020-03-30 2020-03-30 一种基于多任务联合的问题生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010236154.6A CN111488440B (zh) 2020-03-30 2020-03-30 一种基于多任务联合的问题生成方法

Publications (2)

Publication Number Publication Date
CN111488440A true CN111488440A (zh) 2020-08-04
CN111488440B CN111488440B (zh) 2024-02-13

Family

ID=71797618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010236154.6A Active CN111488440B (zh) 2020-03-30 2020-03-30 一种基于多任务联合的问题生成方法

Country Status (1)

Country Link
CN (1) CN111488440B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115687A (zh) * 2020-08-26 2020-12-22 华南理工大学 一种结合知识库中的三元组和实体类型的生成问题方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106383817A (zh) * 2016-09-29 2017-02-08 北京理工大学 利用分布式语义信息的论文标题生成方法
CN108491372A (zh) * 2018-01-31 2018-09-04 华南理工大学 一种基于seq2seq模型的中文分词方法
CN110472238A (zh) * 2019-07-25 2019-11-19 昆明理工大学 基于层级交互注意力的文本摘要方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106383817A (zh) * 2016-09-29 2017-02-08 北京理工大学 利用分布式语义信息的论文标题生成方法
CN108491372A (zh) * 2018-01-31 2018-09-04 华南理工大学 一种基于seq2seq模型的中文分词方法
CN110472238A (zh) * 2019-07-25 2019-11-19 昆明理工大学 基于层级交互注意力的文本摘要方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115687A (zh) * 2020-08-26 2020-12-22 华南理工大学 一种结合知识库中的三元组和实体类型的生成问题方法
WO2022041294A1 (zh) * 2020-08-26 2022-03-03 华南理工大学 一种结合知识库中的三元组和实体类型的生成问题方法
CN112115687B (zh) * 2020-08-26 2024-04-26 华南理工大学 一种结合知识库中的三元组和实体类型的生成问题方法

Also Published As

Publication number Publication date
CN111488440B (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
CN110134771B (zh) 一种基于多注意力机制融合网络问答系统的实现方法
CN110188176B (zh) 深度学习神经网络及训练、预测方法、系统、设备、介质
US11972365B2 (en) Question responding apparatus, question responding method and program
CN113158665B (zh) 一种基于文本摘要生成与双向语料改善对话文本生成的方法
CN110929515A (zh) 基于协同注意力和自适应调整的阅读理解方法及系统
CN111898369B (zh) 文章标题生成方法、模型的训练方法、装置和电子设备
CN111666756B (zh) 一种基于主题融合的序列模型文本摘要生成方法
CN113408430B (zh) 基于多级策略和深度强化学习框架的图像中文描述系统及方法
CN111241807A (zh) 一种基于知识引导注意力的机器阅读理解方法
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN112348911A (zh) 基于语义约束的堆叠文本生成细粒度图像方法及系统
CN111538838B (zh) 基于文章的问题生成方法
CN113609284A (zh) 一种融合多元语义的文本摘要自动生成方法及装置
CN112069827B (zh) 一种基于细粒度主题建模的数据到文本生成方法
Liu Neural question generation based on Seq2Seq
Mathur et al. A scaled‐down neural conversational model for chatbots
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及系统
CN117094291A (zh) 基于智能写作的自动新闻生成系统
CN112949255A (zh) 一种词向量训练方法及装置
CN111488440B (zh) 一种基于多任务联合的问题生成方法
CN113743095A (zh) 基于词格和相对位置嵌入的中文问题生成统一预训练方法
CN117932066A (zh) 一种基于预训练的“提取-生成”式答案生成模型及方法
CN113869005A (zh) 一种基于语句相似度的预训练模型方法和系统
CN117521666A (zh) 一种基于元学习扩散模型的限定域受限文本生成方法
CN115525743B (zh) 基于自学习白化网络的人机交互方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant