CN115080723B

CN115080723B - 一种阅读理解问题的自动生成方法

Info

Publication number: CN115080723B
Application number: CN202211014514.3A
Authority: CN
Inventors: 徐坚; 甘健侯; 王俊; 吴迪; 周菊香; 张利明; 姚贤明
Original assignee: Yunnan Normal University
Current assignee: Yunnan Normal University
Priority date: 2022-08-23
Filing date: 2022-08-23
Publication date: 2022-11-11
Anticipated expiration: 2042-08-23
Also published as: CN115080723A

Abstract

本发明提出一种阅读理解问题的自动生成方法，属于自然语言处理的问题生成领域，该方法包括：通过对RACE数据集进行数据过滤和应用一种答案标记方法进行答案单词标记，重建了一个QG数据集RACE4QG；构建一个端到端的QG模型，QG模型中编码器的GRU以单词嵌入、答案标记和GAT生成的向量的拼接作为输入；编码器的隐藏状态通过门控自注意力机制，得到最终的通道‑答案表示，并输入解码器；进行问题生成模型的解码。本发明针对英语教师手动生成阅读理解问题时周期过长、耗时费力的弊端，采用深度神经网络的方法自动生成阅读理解问题。实验结果表明，本发明在机器自动评价和人工评价方面都优于传统的方法。

Description

一种阅读理解问题的自动生成方法

技术领域

本发明涉及一种阅读理解问题的自动生成方法，属于自然语言处理的问题生成技术领域。

背景技术

自动问题生成(Question Generation, QG)对于英语课程的阅读理解教学具有重要意义，它能辅助英语课程的教师根据最新的阅读材料快速自动地生成问题，使课堂教学具有新颖性和主题性，教学中还能根据学生群体的特点来开展个性化教学。QG任务的目标是基于给定的上下文及答案来生成问题，近年来吸引了大量研究者的兴趣。最先进的QG模型通常采用基于深度神经网络的问题生成策略，其中神经网络是基于sequence-to-sequence的骨干进行训练。然而，由于QG任务的艰巨性和教育领域的复杂性，目前缺乏面向教育领域的端到端问题生成模型研究。

为了解决这一挑战，本发明通过对RACE数据集应用一种新的答案标记方法和数据过滤策略，重建了一个专门的问题生成数据集RACE4QG，以训练一个新的端到端问题生成模型。在该模型中，其编码器以单词嵌入、答案标记和图注意力网络(Graph AttentionNetworks, GAT)生成的向量的拼接作为输入，编码器的隐藏状态通过门控自注意力操作，得到最终的通道-答案表示，并将被输入解码器，解码器使用pointer-generator机制来逐一生成问题的单词。实验结果表明，本发明的模型在自动指标和人工评价方面都优于传统的问题生成模型。本发明的模型在BLEU-4、ROUGE-L和METEOR等评价指标上分别提高了3.73、1.98和1.59。

发明内容

本发明要解决的技术问题是：本发明提供一种面向教育领域的端到端的阅读理解问题的自动生成方法，解决现有问题生成方法难以生成阅读理解问题的局限性，能生成精度更好的阅读理解问题。

本发明的技术方案是：一种阅读理解问题的自动生成方法，所述方法的具体步骤如下：

Step1：重构用于训练问题生成模型的数据集：通过对RACE数据集进行数据过滤和应用一种答案标记方法进行答案单词标记，重建了一个QG数据集RACE4QG；

Step1.1：对候选数据集RACE作适应性分析及重构。在RACE中，每个样本是一个四元组（段落，答案，问题，干扰项），其中干扰项是错误的答案。为了适应问题生成任务，需要对RACE进行调整，将RACE中与问题无关的信息过滤后，获得RACE4QG数据集；

Step 1.2：对前述的数据集RACE4QG进行答案标注，以将答案信息注入数据集形成新的RACE4QG数据集，训练出更好的问题生成模型。由于RACE是一个问答数据集，它的问题和答案是从实际的英语考试中获取，答案中的单词分散在上下文中，它不同于一般的问答数据集(如SQuAD)，其答案单词在文章中的分布是连续的。针对此问题，传统的答案标记方法在本任务中功能失调。为了将与答案相关的信息整合到上下文嵌入表示中，本发明利用一种新的答案标记方法来标记一个段落中的答案单词；具体来讲，给定一个答案，本发明首先将它进行分词，删除停用词，得到一个单词集合X。如果文章中某单词属于集合X，则标记为A，其他单词标记为O。

Step 2：进行问题生成模型的编码：构建一个端到端的QG模型，QG模型中编码器的门控制循环单元(Gated Recurent Unit, GRU)以单词嵌入、答案标记和GAT生成的向量的拼接作为输入；编码器的隐藏状态通过门控自注意力操作，得到最终的通道-答案表示，并输入解码器；

Step 2.1：构建一个端到端的QG模型，编码器选用GRU，用于更高效地训练问题生成模型；

Step 2.2：编码器的输入是由三种向量拼接。第一种向量是文章的单词嵌入向量；第二种向量是答案标记向量；第三种向量是GAT生成的向量，是将前两种向量输入到一个GAT以捕获句子内部和句子之间的关系，并以向量形式输出。这三种向量拼接起来，作为编码器的输入，使得编码器的输出包含文章的句子内及句子间的依赖关系信息；

Step 2.3：编码器输出的文章向量再经由门控制自注意力机制来得到编码器的最终输出。经过上述步骤后得到了原始的输入文本表示，为了聚合输入文本内部的信息和段落内的依赖关系以改进输入文本的表示，使用了门控制自注意力机制。

Step 3：进行问题生成模型的解码。

Step 3.1：解码器是一个单层单向的GRU，它利用注意力机制和指针网络逐一生成问题单词，即出现在问题文本中的单词，最终的单词序列即为模型生成的最终问题。

Step 3.2：在解码器当前时间步的预测过程中，对于编码器的当前隐藏状态，为了强调文章中更为重要的单词，具体实现机制是采用注意力机制；

解码器的当前隐藏状态将与编码器输出（一系列隐藏状态）计算注意力分值，获得文章的动态表示，称为上下文向量C_t，接着，编码器将上下文向量C_t、当前的隐藏状态dt和先前生成的单词序列{y1,...,yt-1}拼接起来，共同作为编码器的输入以便预测下一个单词。

Step 3.3：在解码阶段，为了处理文章中的未登录词和模型生成的问题存在重复单词的缺陷，采用带拷贝机制的指针网络，具体的可采用一个混合的“指针——生成器神经网络”，使得生成下一个单词时，可选择从文章中拷贝或从全局词汇表中生成。

所述Step1中，利用一种答案标记方法来标记一个段落中的答案单词，具体为：

给定一个答案，首先将它进行分词，删除停用词，得到一个单词集合X，如果文章中某单词属于集合X，则标记为A，其他单词标记为O，每个标记的向量维度为32维。

所述Step2.1中，编码器是两层双向GRU，隐藏层的维度为300维，输出维度为600维。

所述Step2.2中，编码器的输入是由单词嵌入、答案标记和GAT生成的向量三种向量拼接得到，重点是使用GAT来处理输入单词的嵌入向量，其注意力头的个数为8个，输出维度为600维。

所述Step2.3中，编码器的输出经过门控制自注意力机制的处理后得到编码器的最终输出（即文章的最终嵌入式表示），维度为600维。

所述Step3.2中，利用注意力机制来为解码器当前隐藏状态d_t对文章(

)计算注意力分布(

，得到文章的动态的上下文向量C_t，它可突显重要的单词，突显出的重要的单词对有助于解码器生成更好的单词。

，

.

所述Step3.3中，利用指针网络来处理文章中的未登录词及解码器的预测文本存在重复单词的问题，公式为

，

，

，这里，p _gen 是一个可训练的参数，它用来决定预被预测的问题单词是从输入序列中复制还是从词汇表中生成。p _vocab 表示从词汇表中生成的概率，pcopy 表示从文章中复制的概率。基于p _gen、p _copy和p _vocab可以计算解码器输出词的概率分布：

+

)。

本发明的有益效果是：

1、本发明在理论层面，提出一个可用于训练问题生成模型的数据集RACE4QG，这为面向教育领域的问题生成研究提供了基准数据集，此外，本发明基于此数据集提出了一个面向教育领域的端到端问题生成模型，这为后续研究者提供了从数据集到模型的全套研究体系；

2、在实践层面，本发明的模型经过进一步的应用开展，可以直接用于各级各类学校的英语课程阅读理解教学的自动问题生成，这对提升教学质量和教学效果具有重要意义；

3、本发明能自动生成阅读理解问题，且实验结果表明，所述阅读理解问题的自动生成方法在机器自动评价和人工评价方面都优于传统的方法。

附图说明

图1 是本发明的端到端的问题生成框架图；

图2 是本发明的RACE4QG数据集图；

图3 是本发明的问题生成模型的编码器图；

图4 是本发明的问题生成模型的解码器图；

图5 是本发明的流程框图。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

实施例1，如图1所示，一种阅读理解问题的自动生成方法，具体步骤为：

Step1：重构用于训练问题生成模型的数据集：通过对RACE数据集进行数据过滤和应用一种答案标记方法进行答案单词标记，重建了一个QG数据集RACE4QG；如图2所示。

Step1.1：对候选数据集RACE作适应性分析及重构。在RACE中，每个样本是一个四元组（段落，答案，问题，干扰项），其中干扰项是错误的答案。为了适应问题生成任务，需要对RACE进行调整。首先，需要删除干扰项。干扰项是错误的答案，它在问题生成过程中会带来噪音。其次，将RACE中与问题无关的信息过滤后，获得RACE4QG数据集；具体的，在对 RACE数据集进行调查后发现， RACE 数据集中的问题填空式问题和标准问题，填空式问题仅用于传统的问答任务，不能直接用于本发明的QG任务，要求将填空式问题删除。

Step 1.2：对前述的数据集RACE4QG进行答案标注，以将答案信息注入数据集形成新的RACE4QG数据集，训练出更好的问题生成模型。由于RACE是一个问答数据集，它的问题和答案是从实际的英语考试中获取，答案中的单词分散在上下文中，它不同于一般的QA数据集(如SQuAD)，其答案单词在文章中的分布是连续的。针对此挑战，传统的答案标记方法在本任务中功能失调。为了将与答案相关的信息整合到上下文嵌入表示中，本发明利用一种新的答案标记策略来标记一个段落中的答案单词。具体来讲，给定一个答案，本发明首先将它进行分词，删除停用词，得到一个单词集合X。如果文章中某单词属于集合X，则标记为A，其他单词标记为O。

经过以上两个步骤，RACE4QG 数据集有 46,397 个样本，占所有 RACE 样本的47.5%。这样，RACE4QG 的每个样本都是三元组（段落，答案，问题）。我们的任务是根据给定的文章和答案来生成问题。

Step 2：进行问题生成模型的编码：构建一个端到端的QG模型，QG模型中编码器的GRU以单词嵌入、答案标记和GAT生成的向量的拼接作为输入；编码器的隐藏状态通过门控自注意力操作，得到最终的通道-答案表示，并输入解码器。

如图3所示，Step 2.1：构建一个端到端的QG模型，本发明的编码器使用两层双向GRU，时间步t的隐藏状态

是由两个方向的隐藏状态拼接而成，即，

，这样，解码器的所有隐藏状态可表示为

。GRU作为一种LSTM变体，仅需要更少的参数即可获得更好的性能。 GRU以一篇文章和相应的答案作为输入，再输出文章的嵌入式表示，具体公式为

，其中

是时间步t的一个单词（属于文章）。

Step 2.2：编码器的输入为三种向量的拼接，使得编码器的输出包含文章的句子内及句子间的依赖关系信息。三种向量的生成及拼接步骤如下：第一，生成词嵌入向量，使用预训练的GloVe.840B.300d作为单词嵌入的初始化，并在训练期间对其进行微调，这样，每个单词的嵌入维度为300维；第二，获得答案标记向量，文章的每一个单词对应一个标记（A或O），A表示该单词出现在答案文本中，O则不是，每一标记对应一个32维的随机初始化向量；第三，GAT生成向量。将文章每一个单词的嵌入向量（300维）和该单词的答案标记向量（32维）拼接后输入到GAT，输出向量的维度为600维。最后，将词嵌入向量、答案标记向量、GAT生成的向量拼接后得到932维的向量输入到编码器。

Step 2.3：编码器的输出再经由门控制自注意力机制的作用后，所包含的信息量更为丰富。

Step 3：问题生成模型的解码，如图4所示。解码器是一个单层单向的GRU，它利用注意力机制和指针网络逐一生成问题单词，即出现在问题文本中的单词，最终的单词序列即为模型生成的最终问题。

具体的，本发明的解码器被训练来预测下一个单词 y_t。在每个时间步t上，对编码器的最终隐藏状态应用注意力机制以突出显示文章中更重要的单词，然后可以获得原始文本的动态表示，称为上下文向量 C_t。将 C_t、解码器已经生成的单词 (y₁, ..., y_t−1) 和当前解码器状态 dt 连接起来，输入到解码器以使用指针网络生成下一个单词 y_t。

在解码阶段，为了处理文章中的未登录词和模型生成的问题存在重复单词的缺陷，可采用一个混合的“指针——生成器神经网络”，使得生成下一个单词时，可选择从文章中拷贝或从全局词汇表中生成。

为了全面开展评估任务，本发明从精度、召回率和语义的角度选择指标。为此，分别采用 BLEU(1-4)、ROUGE-L 和 METEOR。BLEU 评估生成的问题和真实问题之间的 n-gram精度。ROUGE-L负责评估召回率。请注意，上述两个指标属于字面相似度。但是，有必要引入语义相似度的评估，因此本发明采用第三个度量METEOR。

在表1中，列出了本发明的模型和基线的评估结果：第一，通过使用 GAT和 GRU，本发明的模型在所有指标上都优于传统的问题生模型；第二，可以看到两个问题生成模型（即Seq-to-Seq 和 Transformer）之间存在明显的性能差距。主要原因可能是 Transformer使用与本发明的模型相同的分层架构；第三，本发明的模型比 Transformer 表现更好，这表明 GAT 机制在从句内和句间捕获信息方面起着至关重要的作用。

表1为本发明的模型和基线的评估对比结果

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种阅读理解问题的自动生成方法，其特征在于：所述方法的具体步骤如下：

Step2：进行问题生成模型的编码：构建一个端到端的QG模型，QG模型中编码器的GRU以单词嵌入、答案标记和GAT生成的向量的拼接作为输入；编码器的隐藏状态通过门控自注意力操作，得到最终的通道-答案表示，并输入解码器；

Step3：进行问题生成模型的解码；

所述Step1的具体步骤如下：

Step1.1：对候选数据集RACE作适应性分析及重构；将RACE中与问题无关的信息过滤后，获得RACE4QG数据集；

Step1.2：对数据集RACE4QG进行答案标注，以将答案信息注入数据集形成新的RACE4QG数据集，训练出更好的问题生成模型；

所述Step2的具体步骤如下：

Step2.1：构建一个端到端的QG模型，编码器使用GRU，用于更高效地训练问题生成模型；

Step2.2：编码器的输入为单词嵌入、答案标记和GAT生成的向量三种向量的拼接，使得编码器的输出包含文章的句子内及句子间的依赖关系信息；

Step2.3：编码器输出的文章向量经门控自注意力机制的作用，使该向量包含更丰富的信息，以利于解码阶段能生成更好的问题；

所述Step3的具体步骤如下：

Step3.1：解码器是一个单层单向的GRU，它利用注意机制和指针网络逐一生成问题单词，即出现在问题文本中的单词，最终的单词序列即为模型生成的问题；

Step3.2：在解码器的当前时间步预测过程中，对于编码器的当前隐藏状态，需将文章中重要的单词突显出来，具体实现机制是采用注意力机制；

Step3.3：在解码阶段，针对文章中的未登录词和生成的问题存在重复单词的问题，采用带拷贝机制的指针网络。

2.根据权利要求1所述的阅读理解问题的自动生成方法，其特征在于：所述Step1中，利用一种答案标记方法来标记一个段落中的答案单词，具体为：

给定一个答案，首先将它进行分词，删除停用词，得到一个单词集合X，如果文章中某单词属于集合X，则标记为A，其他单词标记为O。

3.根据权利要求1所述的阅读理解问题的自动生成方法，其特征在于：所述Step2.1中，编码器是两层双向GRU，隐藏层的维度为300维。

4.根据权利要求1所述的阅读理解问题的自动生成方法，其特征在于：所述Step2.2中，编码器的输入是由单词嵌入、答案标记和GAT生成的向量拼接得到，重点是使用了GAT来进一步处理输入单词的嵌入向量。

5.根据权利要求1所述的阅读理解问题的自动生成方法，其特征在于：所述Step2.3中，编码器的输出经过门控制自注意力机制的处理后得到编码器的最终输出，即文章的最终嵌入式表示。

6.根据权利要求2所述的阅读理解问题的自动生成方法，其特征在于：所述Step3.2中，利用注意力机制来为编码器当前隐藏状态d_t对文章计算注意力分布，以突显重要的单词，突显出的重要的单词有助于解码器生成更好的单词。