CN111488440A

CN111488440A - 一种基于多任务联合的问题生成方法

Info

Publication number: CN111488440A
Application number: CN202010236154.6A
Authority: CN
Inventors: 蔡毅; 黄清宝; 傅明毅
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2020-08-04
Anticipated expiration: 2040-03-30
Also published as: CN111488440B

Abstract

本发明公开了一种基于多任务联合的问题生成的方法，构建多任务联合的问题生成模型，问题生成模型包括摘要抽取模块和问题生成模块，问题生成模型采用seq2seq模型；所述方法包括步骤：利用抽取式摘要生成的方法抽取出给定文本的中心句子形成文本摘要；根据给定文本建立高频词词汇表和低频词词汇表；通过预训练好的Glove词嵌入方法将得到的文本摘要进行词向量表示；将得到的词向量表示输入到seq2seq模型的encode部分，再结合注意力机制将词向量编码为隐藏状态；通过Seq2Seq模型中的decode将得到的隐藏层状态解码为问题序列。本发明通过自动摘要的方法抽取出给定文本的中心句，再结合注意力机制、copy机制使得生成的问题更贴近文章中心。

Description

一种基于多任务联合的问题生成方法

技术领域

本发明涉及自然语言处理技术中的自然语言文本生成领域，尤其涉及一种基于多任务联合的问题生成方法。

背景技术

近年来关于文本生成中的问题生成的研究越来越多，现有的方法主要是针对单个文本生成固定简短的答案。目前广泛使用在自然语言文本生成的神经模型是基于序列到序列(seq2seq)模型，大部分研究也都是基于seq2seq模型进行修改。其主要思路是将上下文文本作为输入，同时将答案作为额外的输入来引导模型生成问题，以此来告知模型需要关注哪部分信息。

在实际阅读理解场景下，问题是根据给定上下文来回答的，答案可能不在某一段落中，它可能是跨越多个文本总结得到的，或者不能从上下文中直接得到答案，需要人为的组织上下文信息得到答案。文本生成是自然语言处理领域极具挑战的任务，而问题生成的方法需要理解整个给定的上下文并且捕捉文本中的重要信息，这些信息可能跨越一个文本的多个句子，甚至是多个文本的多个句子。同时也要特别关注一些比较重要的信息，一般都是一些高频词，数词。所以对于问题生成任务需要考虑到以上这些方面。

本发明提出了先对给定文本进行摘要提取，将文本中最重要的信息抽取出来，然后再对文摘进行提问，以此来生成与上下文内容最相关的问题。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于多任务联合的问题生成方法。本发明通过自动文摘与seq2seq模型相结合的方法来生成与内容主题最相关且具有推理总结性的问题。本发明具体通过TextRank算法提取文本摘要，抽取出文本中包含重要信息的句子，并依据重要程度进行排序，再选取前T个最重要的句子形成摘要，然后构建用于拷贝低频词词汇表和用于生成高频词词汇表，再将上下文用Glove嵌入表示词向量和BIO标记将二者拼接起来作为最终编码器的输入。本发明在编码器中应用了注意力机制，使得模型能够关注输入的重要信息，编码器的输入是上述的拼接向量，输出为隐藏层状态，然后将编码器的隐藏层状态输入到解码器中，结合拷贝机制依次迭代输出问题序列。

本发明的目的能够通过以下技术方案实现：

一种基于多任务联合的问题生成方法，包括步骤：

构建多任务联合的问题生成模型，问题生成模型包括摘要抽取模块和问题生成模块，问题生成模型采用seq2seq模型；

利用抽取式摘要生成的方法抽取出给定文本的中心句子形成摘要；

根据给定文本建立高频词词汇表V和低频词词汇表L；

通过预训练好的Glove词嵌入方法将得到的摘要进行词向量表示，输入到问题生成模块；

将从得到的词向量表示输入到seq2seq模型中的encode部分，再结合注意力机制将词向量编码为隐藏状态c_t；

通过Seq2Seq模型中的decode部分将得到的隐藏状态c_t解码为问题序列。

多任务联合的问题生成模型中，得到的最终输出为与上下文相关的问题序列。

本发明相较于现有技术，具有以下的有益效果：

1、本发明从全局出发，首先考虑给定文本中最值得被提问的信息，从而避免了生成一些无关紧要的问题。并且通过将文本和摘要以特定的方式编码后拼接作为输入，再结合注意力机制和拷贝机制来生成问题，使得能够生成更加符合实际阅读理解场景中的问题。

附图说明

图1为本发明中一种基于多任务联合的问题生成方法的流程图。

图2为本发明实施例中模型的结构示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示为一种基于多任务联合的问题生成的方法的流程图，所述方法包括步骤：

如图2所示为问题生成模型的结构示意图，所述模型包括摘要抽取模块和问题生成模块，问题生成模型采用seq2seq模型。

(1)利用抽取式摘要生成的方法抽取出给定文本的中心句子形成摘要，包括：

设摘要抽取模型的输入是一段文本，由序列X＝{X₁,X₂,…,X_K}组成，其中

表示第i个句子的第l_i个词，问题生成模型的输出是与文本相关的问题序列Y＝y₁y₂...y_l；

在本实施例中，给定的上下文文本为：

context1：“Rachel Carson’s essay on The Obligation to Endure,is a veryconvincing argument about the harmful uses of chemical,pesticides,herbicidesand fertilizers on the environment.”

context2：“Caron believes that as man tries to eliminate unwantedinsects and weeds,however he is actually causing more problems by pollutingthe environment with,for example,DDT and harming living things.”

context3:“Carson subtly defers her writing in just in just the rightwriting for it to not be subject to an induction run rampant style whichgrabs the readers interest without biasing the whole article.”

根据上述三段给定文本生成与文本内容最相关的问题为：

“Why did Rachel Carson write an obligation to endure？”

(1-1)使用停用词表去除所述文本中的停用词，使用TF-IDF提取特征词并计算特征词权重；

(1-2)将所述文本分句后，计算每两个句子的相似性，并构造句子关系图G＝(V,E),其中V为句子集，E为边集，句子相似性的计算公式为：

其中，x_k是既出现在句子X_i中，又出现在句子X_j中的单词，|X_i|表示句子i的单词数。若两个句子之间的相似度大于给定的阈值θ＝0.1，就在图中把两个句子连接起来。

句子权重计算公式：

其中，WS(V_i)表示句子i的权重，V_i表示构建的图中句子i对应的顶点，d是一个阻尼系数为0.85，In(V_i)表示指向V_i点的点集合，Out(V_j)表示V_j点指向的点集合，w_ji表示句子j、i之间的相似度，即计算的相似性Similarity(X_i,X_j)，w_jk表示句子j、k之间的相似度，WS(V_j)表示上次迭代j的权重。

(1-3)根据句子相似性，迭代传播权重计算各个句子的得分；

(1-4)将得到的句子得分进行排序，抽取得分最高的3个句子作为候选文摘句；

(1-5)根据字数或句子数的要求，从候选文摘句中抽取句子组成文本摘要。其中，优先按照句子数进行抽取。

“因此，本实施例中三段给定文本所提取的摘要句子分别为：

1.“Rachel Carson’s essay on The Obligation to Endure.”

2.“Caron believes that as man tries to eliminate unwanted insects andweeds.”

3.“however he is actually causing more problems by polluting theenvironment.”

上述句子组成的文本摘要为：

Rachel Carson’s essay on The Obligation to Endure,Caron believes thatas man tries to eliminate unwanted insects and weeds,however he is actuallycausing more problems by polluting the environment.”

(2)根据给定文本建立高频词词汇表V和低频词词汇表L，包括：

(2-1)统计单词词频，将词频大于3的词汇列为高频词，建立高频词词汇表V，把词频大于0小于3的列为低频词，构建低频词汇表L；

(2-2)将词汇表V和L以外的词用UNK表示。

(3)通过预训练好的Glove词嵌入方法将得到的文本摘要进行词向量表示，并输入到问题生成模块，包括：

(3-1)通过预训练好的Glove词嵌入方法将得到的文本摘要转换为词向量形式w_i，并对词向量进行BIO编码得到b_i；

(3-2)将得到的词向量表示和BIO编码连接起来w_i'＝[w_i:b_i]，作为问题生成模块最终的输入。

(4)将得到的词向量表示输入到seq2seq模型的encode部分，再结合注意力机制将词向量编码为隐藏状态c_t；包括：

(4-1)将得到的w_i'输入到由双向长短期记忆网络(Bi-LSTM)构成的encode中，其隐藏层状态更新方法为：

其中，

表示LSTM前向传播的隐藏层状态，

表示LSTM反向传播的隐藏层状态，h_t表示将前向传播的隐藏层状态与反向传播的隐藏层状态拼接。

(4-2)在encode中计算attention得分，计算公式为：

α_tj＝softmax(e_tj)

c_t＝∑α_tjh_j

其中，s_t是当前序列的状态，v_a,W,U都是待学习参数，tanh是作为激活函数的双曲正切函数。

(5)通过Seq2Seq模型中的decode部分将得到的隐藏层状态的注意力得分c_t解码为问题序列，包括：

(5-1)在解码器decode中，输出的单词由两部分组成，其一是来自于高频词词汇表V生成，其二是根据copy机制从低频词汇表L中拷贝，输出单词的计算公式为：

p(y_t|s_t,y_t-1,c_t,M)＝p(y_t,g|s_t,y_t-1,c_t,M)+p(y_t,c|s_t,y_t-1,c_t,M)

其中，s_t是解码器的状态序列，c_t为attention得分，M为词汇表矩阵，p(y_t,g|s_t,y_t-1,c_t,M)代表从词汇表V中生成的概率，p(y_t,c|s_t,y_t-1,c_t,M)代表从低频词汇表L拷贝的概率。y_t表示当前预测的单词，即要输出的单词，y_t-1表示前一个输出的单词。g代表从词汇表V中生成，c代表从词汇表L中copy。

(5-2)根据输出单词的计算公式，依次迭代得出最终的输出序列Y＝y₁y₂...y_l。

本实施例中给定文本的生成问题，即模型输出为：

Why did Rachel Carson write an obligation to endure？

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。