CN114861627B

CN114861627B - 一种基于深度学习的选择题干扰项自动化生成方法及装置

Info

Publication number: CN114861627B
Application number: CN202210369952.5A
Authority: CN
Inventors: 郑海涛; 李明超; 刘浩壮; 江勇; 夏树涛; 肖喜
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2022-04-08
Filing date: 2022-04-08
Publication date: 2024-07-12
Anticipated expiration: 2042-04-08
Also published as: CN114861627A

Abstract

本发明公开了一种基于深度学习的选择题干扰项自动化生成方法及模型，模型包括：答案编码器，用于对选择题的答案进行编码，以获得答案表示向量；文章编码器，用于对文章和问题进行联合编码，以获得文章表示向量；上下文推理注意力机制模块，连接于答案编码器和文章编码器，用于合并文章上下文向量和答案上下文向量，以进行上下文推理，生成编码器最终上下文向量；文章上下文向量是由文章表示向量经文章注意力机制而获得，答案上下文向量是由答案表示向量经答案注意力机制而获得；干扰项解码器，连接于答案编码器以利用答案编码器的输出进行解码器初始化，以及连接于上下文推理注意力机制模块以对所述编码器最终上下文向量进行解码，生成干扰项。

Description

一种基于深度学习的选择题干扰项自动化生成方法及装置

技术领域

本发明涉及计算机与人工智能技术领域，具体涉及一种基于深度学习的阅读理解多项选择题干扰项自动化生成方法及模型。

背景技术

随着深度学习技术的发展，越来越多的方面应用到深度学习的技术。其中深度学习在自然语言生成(NLG)领域中获得了巨大成功。自然语言生成是根据一段源文本生成特定需要的目标文本，其包含丰富的子任务，例如包含机器翻译、文本摘要、诗歌生成、问题生成、干扰项生成等任务。其中干扰项生成任务是该领域一个新兴的任务，其目的在于为阅读理解多项选择题生成具有干扰性的错误选项。传统的干扰项生成任务多是一些填空型的任务，大多只需要填写一个单词或短语，因而同义词替换等一些基于规则的方法可以生成较为合适的内容。但是这种方式的局限性也很明显，其只能生成较短的文本，并且需要构造大量的规则，因而生成的结果并不灵活。有一些研究者将神经网络引入该任务中，通过神经网络获得词向量并根据多种相似度进行替换。

近年来，有一些研究者研究阅读理解多项选择题的干扰项生成任务，该种场景下的干扰项是一个句子级别文本序列，需要对文章的内容进行理解后再生成一个流畅的句子，因而深度学习技术在干扰项生成任务中取得了一些效果。举例而言，近些年有研究者提出了基于分层编码的神经网络模型，将文章的内容进行分层编码，并对问题进行编码，之后将获得的向量作为输入放入解码器中，并使用自回归方式每次生成一个单词，最终形成一个句子。同时，研究人员设计了基于先验知识的静态注意力机制，即神经网络在文章中关注预先设定好的内容。后有研究者设计了基于分层编码的相互注意力网络，在对于文章进行分层编码的同时，增加了文章和问题之间的交互，同时增加干扰项和文章之间的语义相似损失。

虽然上述的方法在一定程度上可以生成包含完整语义的干扰项，但是生成的干扰项与答案差异较大，因而缺乏实际的干扰性。同时没有考虑到输入的各部分文本之间存在的一些逻辑推理关系，因而导致生成的干扰项逻辑性较差。

发明内容

本发明的主要目的在于克服现有技术的不足，提出一种基于深度学习的选择题干扰项自动化生成模型，针对输入的各部分文本设计上下文推理网络，并针对答案进行建模，生成适合题目、具较强逻辑性且干扰性较强的选择题干扰项文本，以解决现有技术生成的干扰项与答案差异大、不具备干扰性且逻辑性差的问题。

本发明为达上述目的，提出以下技术方案：

一种基于深度学习的选择题干扰项自动化生成模型，用于为阅读理解的选择题生成干扰项，包括：答案编码器，用于对选择题的答案进行编码，以获得答案表示向量；文章编码器，用于对文章和问题进行联合编码，以获得文章表示向量；上下文推理注意力机制模块，连接于所述答案编码器和所述文章编码器，用于合并文章上下文向量和答案上下文向量，以进行上下文推理，生成编码器最终上下文向量；其中，所述文章上下文向量是由所述文章表示向量经文章注意力机制而获得，所述答案上下文向量是由所述答案表示向量经答案注意力机制而获得；干扰项解码器，连接于所述答案编码器以利用所述答案编码器的输出进行解码器初始化，以及，连接于所述上下文推理注意力机制模块以对所述编码器最终上下文向量进行解码，生成干扰项。

进一步地，所述文章编码器对文章和问题进行联合编码，包括：利用词向量查找表将文章文本转换为文章词嵌入向量；提取问题文本中的关键词，进行关键词标记，并生成问题关键词标记向量；将所述问题关键词标记向量与所述文章词嵌入向量进行拼接，并对拼接获得的向量利用双向LSTM网络进行编码。

进一步地，还包括：利用门控自注意力机制对所述文章词嵌入向量进行信息聚合。

进一步地，问题文本中的关键词是同时出现在问题和文章中的单词。

进一步地，所述答案编码器对选择题的答案进行编码，包括：先利用词向量查找表将答案文本转换为答案词嵌入向量，然后使用双向LSTM网络对所述答案词嵌入向量进行编码，以获得所述答案表示向量。

进一步地，所述上下文推理注意力机制模块包括：连接于所述答案编码器输出端的答案注意力机制模块和连接于所述文章编码器输出端的文章注意力机制模块；所述答案注意力机制模块的输出和所述文章注意力机制模块的输出通过门控进行融合，以进行所述上下文推理。

进一步地，还包括：在所述文章注意力机制模块的输出端使用复制机制，通过注意力得分来确定生成的单词是从生成词表中选择还是从原文词表中选择。

进一步地，还包括：最终概率分布计算模块，用于根据干扰项解码器生成单词的生成得分和复制机制的复制得分计算在单词表中所有单词上的概率分布，之后取最大概率值的单词作为生成的单词。

本发明的另一方面还提出一种基于深度学习的选择题干扰项自动化生成方法，用于为阅读理解的选择题生成干扰项，利用前述的基于深度学习的选择题干扰项自动化生成模型来实现；该方法包括：训练阶段，训练集有对应好的<文章，问题，答案，干扰项>，其中<文章，问题，答案>为源文本，作为模型的输入；<干扰项>为目标文本，作为深度学习优化的目标，使用教师强制策略进行模型训练；使用阶段，利用文章、问题和答案作为输入文本，利用训练好的所述模型生成干扰项。

进一步地，在使用阶段，将输入文本的起始符作为第一个字符输入到解码器中，使用集束搜索进行解码，最终获得干扰项文本。

本发明技术方案的有益效果包括：本发明一方面根据输入的答案与文章分别进行编码，并使用上下文推理注意力机制进行建模；另一方面对于文章中问题关键词进行标注以引导生成的干扰项与问题相关；再者利用答案编码器获得的结果向量对解码器进行初始化以获得与答案句式、语义相关的干扰项。可见，本发明充分对各部分输入进行建模，并且对于干扰项与各部分输入之间的关系设计注意力机制进行关注，有效提升了生成干扰项的逻辑性和干扰性，获得高质量的干扰项。

附图说明

图1是本发明实施例基于深度学习的选择题干扰项自动化生成过程示意图。

图2是本发明实施例基于深度学习的选择题干扰项自动化生成模型的原理框图。

图3是本发明实施例基于深度学习的选择题干扰项自动化生成模型的示意图。

具体实施方式

为使本发明技术方案得以清楚的呈现，下面结合附图和具体的实施方式对本发明作进一步说明。

本发明实施例提出的基于深度学习的选择题干扰项自动化生成模型，主要包括编码部分和解码部分。对于编码部分，其输入分为两部分，即答案部分、文章与问题部分。如图1所示，针对阅读理解选择题，文章和问题的文本输入到文章编码器，而答案的文本输入到答案编码器，经编码生成对应的中间向量之后，利用解码器进行解码，生成干扰项的文本。

具体而言，如图2所示，本发明实施例基于深度学习的选择题干扰项自动化生成模型，包括：答案编码器10，用于对选择题的答案进行编码，以获得答案表示向量；文章编码器20，用于对文章和问题进行联合编码，以获得文章表示向量；上下文推理注意力机制模块30，连接于答案编码器10和文章编码器20，用于合并文章上下文向量和答案上下文向量，以进行上下文推理，生成编码器最终上下文向量；其中，所述文章上下文向量是由所述文章表示向量经文章注意力机制而获得，所述答案上下文向量是由所述答案表示向量经答案注意力机制而获得；干扰项解码器40，连接于答案编码器10以利用答案编码器10的输出进行解码器初始化，以及，连接于上下文推理注意力机制模块30以对所述编码器最终上下文向量进行解码，生成干扰项。

参考图2和图3，文章编码器20的输入来源包括文章文本与问题文本，文章文本表示为长度l的单词序列T＝{w₁,w₂,...,w_l}，问题文本表示为长度n的单词序列Q＝{q₁,q₂,...,q_n}。输入文章文本后，可以先进行文本预处理，将文本中的单词根据预先设定的词表转换为单词序号。所述预先设定好的词表例如可以是一个50000词的词表，其中每个单词对应一个序号，为0～49999，如例句“I am astudent”可以根据该词表中转换为[32558,654,4333,3]这样的单词序号序列。然后，对单词序号序列，根据词向量查找表转换为词嵌入向量，得到文章词嵌入向量w＝(w₁,w₂,…,w_l)，向量w_i(i＝1,2,…，l)的维度为d_w。这里的词向量查找表是Glove(300维)，将预处理得到的序号序列的每个序号都转换为300维的向量，即文章文本的每个单词都被转换为维度d_w＝300的词向量(或称“词嵌入向量”)。

同时，为了处理问题中的关键信息，我们将问题中的关键词信息提取出来，因为这可以引导问题相关的干扰项的生成。在这里我们定义问题的关键词为文章和问题中共同出现的词语。对于这些词，我们在文章中使用一个标记来标示这些词，其中关键词标记值为1，非关键词标记值为0。将该标记值转换为标记向量，从而得到问题关键词标记向量k，再与文章词嵌入向量w进行拼接，拼接获得的向量使用双向LSTM(长短期记忆网络)网络进行编码，公式表示如下：

h_t＝LSTM_enc(h_t-1,[w_t,k_t]) (1)

其中，h_t是文章编码器的LSTM网络第t个时间步的隐藏状态，其根据第t-1个时间步的隐藏状态h_t-1和第t个时间步的词向量[w_t,k_t]来计算；其中，w_t是第t个时间步的文章词嵌入向量，k_t是第t个时间步的问题关键词标记向量，LSTM_enc(·)表示文章编码器用到的LSTM网络。

编码使用的LSTM网络是双向的，分别从前向和后向两个方向进行编码，通过公式(2)拼接前向和后向的单词表示：

从而，实现了文章和问题的联合编码，获得包含文章信息和问题信息的编码结果H，称为“文章表示向量”。

对于文章编码器20而言，通过公式(3)计算文章自注意力分布：

其中，是文章自注意力分布，H^T是H的转置，W^S是可训练的参数矩阵，s_t是文章中第t个单词的所有隐藏状态的加权和，其表示第t个单词的自注意力值；是文章中所有单词的自注意力值。

此外，由于文章为段落级别的文本，比句子级别的文本长很多，因而使用了如图3中所示的门控自注意力机制对文章的词向量进行信息聚合，即对隐藏状态进行语言增强，计算过程如下：

f_t＝tan h(W^f[h_t,s_t]) (5)

g_t＝σ(W^g[h_t,s_t]) (6)

其中，W^f、W^g都是可训练的参数矩阵，自我增强表示f_t是隐藏状态h_t与第t个单词的自注意力值s_t计算获得的。在式(6)中，σ是Sigmoid函数，g_t是可训练的门控向量，是文章中单词的最终表示向量，它是从原始单词表示和自我增强表示值中选择的；式(7)中是最终的文章单词的隐藏状态，用于后续的注意力计算过程，在式(7)中是一个加权和的形式，加权和的权重由门控向量g_t控制，符号⊙是逐元素乘法。

请继续参考图2和图3，答案编码器10的输入来源为答案文本，答案文本可表示为长度m的单词序列A＝{a₁,a₂,...,a_m}。输入答案文本后，参照文章编码器对文章文本的处理，先进行文本预处理，将答案文本中的单词根据预先设定的词表转换为单词序号。然后，对单词序号序列，根据词向量查找表转换为词嵌入向量，得到答案词嵌入向量a＝(a₁,a₂,…,a_m)，每个单词对应的向量维度也为d_w。接着，使用双向LSTM网络对答案词嵌入向量(a₁,a₂,…,a_m)进行编码，得到答案表示向量，公式表示为：

此处表示答案的第t个时间步的隐藏状态，表示答案的第t-1个时间步的隐藏状态，表示答案编码器的LSTM网络，a_t表示答案文本的第t个单词所对应的词嵌入向量。

在解码器端，分别对两部分文本(答案、文章与问题)进行关注，即提出了答案注意力机制和文章注意力机制，以对于两部分分别进行关注，同时为了使模型理解两部分的逻辑推理关系，使用一个门控将两部分进行融合以进行推理。此外，为了解决词表外的问题，模型中使用了复制机制，即，生成的文本不仅可以从词表中选择一个单词进行生成，也可以从源文本中复制一个单词。

继续参考图2和图3，干扰项解码器40中含有注意力计算的过程，每个时间步根据注意力分布情况(每个词向量的注意力值不同)生成一个字/单词，并将其作为输入依次生成出干扰项文本。本发明实施例中，干扰项解码器40采用了基于答案的初始化：没有使用文章编码器的最终隐藏状态，而是采用答案编码器的最终隐藏状态作为解码器的初始状态，即利用答案编码器生成的词向量来初始化解码器。因为人类专家在出阅读理解多项选择题时，往往会先观察问题和答案，从文章中提取干扰信息，然后用该信息编辑答案以形成相关干扰项。将答案转换成干扰项的过程对应到编码-解码框架中，因而采用了答案编码的结果来初始化解码器，使得解码生成的干扰项更具干扰性。

在一实施例中，干扰项解码器40使用一个单向LSTM网络作为解码器来生成干扰项，计算过程如下：

d_t＝LSTM_dec(d_t-1,[y_t-1:c_t-1]) (9)

p(y_t|{y_＜t})＝softmax(W^Vd_t) (10)

其中，d_t是单向LSTM网络在第t个时间步的隐藏状态，d_t-1是单向LSTM网络在第t-1个时间步的隐藏状态，初始隐藏状态d₀由答案编码器的最后一个隐藏状态初始化；y_t表示在第t个时间步生成的单词(一个时间步代表LSTM计算一次，每一个时间步产生一个单词，因此在第t个时间会生成第t个单词y_t)，y_＜t表示第t个单词之前的所有单词；y_t-1表示在第t-1个时间步生成的单词；c_t-1代表编码器最终上下文向量。解码器的查找表与编码器的查找表相同。在式(9)中，线性层将d_t转换为词汇表大小的维度。然后，我们使用softmax函数计算词汇表V中每个单词的概率分布。W^V是一个可学习的向量。

生成干扰项的过程需要考虑到文章信息和答案信息，因此解码时需要包含两种类型的注意力，即文章注意力机制和答案注意力机制。对于文章注意力，在第t个时间步，它获取当前解码器隐藏状态d_t和所有文章单词的隐藏状态，并为每个文章单词的隐藏状态生成权重，计算如下：

其中，o_t是一个文章注意力中间变量，W^ar是可学习向量，是文章单词注意力分布，使用注意力分布作为权重来计算加权和。

然后，使用权重来计算文章文本的上下文向量计算方式如下：

同样，对于答案注意力，在第t个时间步，答案上下文向量以相同的方式计算，计算过程如下：

其中，r_t是一个答案注意力的中间变量，W^an是可学习向量，是答案单词注意力分布，是答案上下文向量。

在解决一个阅读理解多项选择题时，需要对文章进行一定的逻辑推理操作才能得到正确答案，因此本发明实施例通过基于上下文推理的注意力机制建模文章和答案之间的逻辑推理关系来提高模型生成干扰项的质量。我们引入了上下文推理注意力机制，在这个机制中，合并了文章上下文向量和答案上下文向量，以进行上下文之间的推理，计算过程如下：

其中，向量g是可学习向量，用作加权和的参数；σ是Sigmoid函数，编码器最终上下文向量c_t是在向量g的控制下，结合文章上下文向量和答案上下文向量生成的。

在本发明一些实施例中，还引入了复制机制，模型中引入复制机制(Copymechanism)来解决文本生成中词表外(Out-Of-Vocabulary)的问题。复制机制使用序列的注意力得分来确定生成的单词是应该从次表外单词列表X还是已有词汇表V中选择。在第t个时间步，X中每个词的复制得分为该词的注意力得分之和，V中每个词的复制得分为负无穷大，同时生成得分为编码结果进行转换后得到的，计算方法如下：

sc^gen(y_t)＝W^Vd_t (20)

其中，sc^copy(y_t)表示生成第t个单词时词表外单词列表中的单词复制得分；o_t,k表示第t个时间步，第k个文章单词的文章注意力中间变量(通过式(11)计算)；xk表示文章中的第k个单词；sc^gen(y_t)表示生成第t个单词时，单词表中的单词生成得分。

然后，将复制得分和生成得分拼接起来，并使用softmax方法得到所有单词(包含词表外单词列表和已有单词列表)的最终概率分布，计算如下：

p(y_t|{y_＜t})＝softmax([sc^copy:sc^gen]) (21)

获得在单词表中所有单词上的概率分布p(y_t|{y_＜t})之后，需要取最大的那个概率值的单词作为生成的单词。

本发明实施例基于深度学习的选择题干扰项自动化生成模型，将生成干扰项的过程建模为序列到序列的过程。在训练过程中，首先为了明确地为模型指出文本序列的开始和结束，我们为每个文本序列都添加上起始符与终止符。之后将源文本输入到模型的编码器部分，经过编码器获得中间的向量，之后将该向量输入到解码器中。

本发明实施例基于深度学习的选择题干扰项自动化生成方法，使用前述实施例的模型来实现，主要包括对模型的训练和使用训练好的模型进行推演生成干扰项。训练阶段，训练集有对应好的<文章，问题，答案，干扰项>，其中<文章，问题，答案>为源文本，作为模型的输入；<干扰项>为目标文本，作为深度学习优化的目标，使用教师强制策略进行模型训练；使用阶段，利用文章、问题和答案作为输入文本，利用训练好的所述模型生成干扰项。在推理过程中，将起始符作为第一个字符输入到解码器中，使用已知方法集束搜索BeamSearch)进行解码，最终获得干扰项文本。

对于阅读理解多项选择题干扰项生成而言，本发明实施例提出的模型和方法充分对各部分输入进行建模，并且对于干扰项与各部分之间的关系设计注意力机制进行关注，可以有效提升生成干扰项的质量。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种基于深度学习的选择题干扰项自动化生成装置，用于为阅读理解的选择题生成干扰项，其特征在于，包括：

答案编码器，用于对选择题的答案进行编码，以获得答案表示向量；

文章编码器，用于对文章和问题进行联合编码，以获得文章表示向量；

上下文推理注意力机制模块，连接于所述答案编码器和所述文章编码器，用于合并文章上下文向量和答案上下文向量，以进行上下文推理，生成编码器最终上下文向量；其中，所述文章上下文向量是由所述文章表示向量经文章注意力机制而获得，所述答案上下文向量是由所述答案表示向量经答案注意力机制而获得；所述上下文推理注意力机制模块包括：连接于所述答案编码器输出端的答案注意力机制模块和连接于所述文章编码器输出端的文章注意力机制模块；所述答案注意力机制模块的输出和所述文章注意力机制模块的输出通过门控进行融合，以进行所述上下文推理；在所述文章注意力机制模块的输出端使用复制机制，通过注意力得分来确定生成的单词是从生成词表中选择还是从原文词表中选择；

干扰项解码器，连接于所述答案编码器以利用所述答案编码器的输出进行解码器初始化，以及，连接于所述上下文推理注意力机制模块以对所述编码器最终上下文向量进行解码，生成干扰项；

最终概率分布计算模块，用于根据干扰项解码器生成单词的生成得分和复制机制的复制得分计算在单词表中所有单词上的概率分布，之后取最大概率值的单词作为生成的单词；

干扰项解码器使用一个单向LSTM网络作为解码器来生成干扰项，计算过程如下：

d_t＝LSTM_dec(d_t-1,[y_t-1:c_t-1])(9)

p(y_t{y_＜t})＝softmax(W^Vd_t)(10)

其中，d_t是单向LSTM网络在第t个时间步的隐藏状态，d_t-1是单向LSTM网络在第t-1个时间步的隐藏状态，初始隐藏状态d₀由答案编码器的最后一个隐藏状态初始化；y_t表示在第t个时间步生成的单词，y_＜t表示第t个单词之前的所有单词；y_t-1表示在第t-1个时间步生成的单词；c_t-1代表编码器最终上下文向量；解码器的查找表与编码器的查找表相同；在式(9)中，线性层将d_t转换为词汇表大小的维度；然后，使用softmax函数计算词汇表V中每个单词的概率分布；W^V是一个可学习的向量；

复制机制使用序列的注意力得分来确定生成的单词是应该从次表外单词列表X还是已有词汇表V中选择；在第t个时间步，X中每个词的复制得分为该词的注意力得分之和，V中每个词的复制得分为负无穷大，同时生成得分为编码结果进行转换后得到的，计算方法如下：

sc^gen(y_t)＝W^Vd_t(20)

其中，sc^copy(y_t)表示生成第t个单词时词表外单词列表中的单词复制得分；o_t,k表示第t个时间步，第k个文章单词的文章注意力中间变量；x_k表示文章中的第k个单词；sc^gen(y_t)表示生成第t个单词时，单词表中的单词生成得分。

2.如权利要求1所述的基于深度学习的选择题干扰项自动化生成装置，其特征在于，所述文章编码器对文章和问题进行联合编码，包括：

利用词向量查找表将文章文本转换为文章词嵌入向量；

提取问题文本中的关键词，进行关键词标记，并生成问题关键词标记向量；

将所述问题关键词标记向量与所述文章词嵌入向量进行拼接，并对拼接获得的向量利用双向LSTM网络进行编码。

3.如权利要求2所述的基于深度学习的选择题干扰项自动化生成装置，其特征在于，还包括：利用门控自注意力机制对所述文章词嵌入向量进行信息聚合。

4.如权利要求2所述的基于深度学习的选择题干扰项自动化生成装置，其特征在于，问题文本中的关键词是同时出现在问题和文章中的单词。

5.如权利要求1所述的基于深度学习的选择题干扰项自动化生成装置，其特征在于，所述答案编码器对选择题的答案进行编码，包括：

先利用词向量查找表将答案文本转换为答案词嵌入向量，然后使用双向LSTM网络对所述答案词嵌入向量进行编码，以获得所述答案表示向量。

6.一种基于深度学习的选择题干扰项自动化生成方法，用于为阅读理解的选择题生成干扰项，其特征在于，利用权利要求1-5任一项所述的基于深度学习的选择题干扰项自动化生成装置来实现；该方法包括：

训练阶段，训练集有对应好的<文章，问题，答案，干扰项>，其中<文章，问题，答案>为源文本，作为模型的输入；<干扰项>为目标文本，作为深度学习优化的目标，使用教师强制策略进行模型训练；

使用阶段，利用文章、问题和答案作为输入文本，利用训练好的所述模型生成干扰项。

7.如权利要求6所述的基于深度学习的选择题干扰项自动化生成方法，其特征在于，在使用阶段，将输入文本的起始符作为第一个字符输入到解码器中，使用集束搜索进行解码，最终获得干扰项文本。