CN112307773A

CN112307773A - 机器阅读理解系统的自定义问题数据自动生成方法

Info

Publication number: CN112307773A
Application number: CN202011387634.9A
Authority: CN
Inventors: 陈旻宇; 李国强
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-12-02
Filing date: 2020-12-02
Publication date: 2021-02-02
Anticipated expiration: 2040-12-02
Also published as: CN112307773B

Abstract

一种机器阅读理解系统的自定义问题数据自动生成方法，包括：数据集预处理模块、答案挖掘模块和问题生成模块，数据集预处理模块根据HotpotQA和SQuAD机器阅读理解数据集中的信息，使用模型判定机制进行问题难度分类，得到每个问题的客观难度，使用问题类型分类器进行问题类型分类并得到每个问题的类型，将数据集进行数据集切分后输出至答案挖掘模块，答案挖掘模块从数据集中的文本得到作为答案的实体和问题类型后输出至问题生成模块，问题生成模块根据数据集文本，答案实体以及问题类型，使用编码器‑解码器架构的神经网络得到生成的问题问句和答案。本发明在阅读理解问题的难度的客观评价以及阅读理解问题的类型的客观分类的基础上，实现机器阅读理解系统的可控类型和难度的问题数据自动生成。

Description

机器阅读理解系统的自定义问题数据自动生成方法

技术领域

本发明涉及的是一种信息处理领域的技术，具体是一种机器阅读理解系统的可控类型和难度的问题数据自动生成方法。

背景技术

现有的阅读理解问题生成技术主要是以给定的答案为目标，上下文作为输入，从文本中提取信息进行问题生成的模式。在生成过程中，由于答案被固定，导致问题的类型被固定，同时需要对合适的答案进行标记；除此之外，在机器阅读理解领域中，模型往往需要对模型而言不同难度的问题作为训练数据，来提升整个阅读理解系统的泛化能力。

发明内容

本发明针对现有技术存在的上述不足，提出一种机器阅读理解系统的自定义问题数据自动生成方法，在阅读理解问题的难度的客观评价以及阅读理解问题的类型的客观分类的基础上，实现机器阅读理解系统的可控类型和难度的问题数据自动生成。

本发明是通过以下技术方案实现的：

本发明包括：数据集预处理模块、答案挖掘模块和问题生成模块，其中：数据集预处理模块根据HotpotQA和SQuAD机器阅读理解数据集中的信息，使用模型判定机制进行问题难度分类，得到每个问题的客观难度，使用问题类型分类器进行问题类型分类并得到每个问题的类型，将数据集进行数据集切分后输出至答案挖掘模块，答案挖掘模块从数据集中的文本得到作为答案的实体和问题类型后输出至问题生成模块，问题生成模块根据数据集文本，答案实体以及问题类型，使用编码器-解码器架构的神经网络得到生成的问题问句和答案。

技术效果

本发明整体解决了现有技术中机器阅读理解系统中数据稀少，生成数据方式无法应用于无标记文本，并且缺少控制生成数据的问题类型和难度的手段的问题。

与现有技术相比，本发明能够在无标记文本中自动挖掘问题实体，依据此生成答案；可以控制生成特定类型的问题和对应的答案；可以控制生成特定客观难度的问题和对应的答案。

附图说明

图1为本发明的实施例的技术方案示意图。

图2为本发明的实施例的运行流程示意图。

图3为本发明的实施例中问题生成模型的原理示意图。

具体实施方式

本实施例针对机器阅读理解特性，依据机器阅读模型在问题上的表现，客观定义不同的问题难度。根据机器阅读理解特性，定义不同的问题类型。

本实施例在HotpotQA和SQuAD两个数据集上分别进行难度分类和问题分类，将其作为数据集，在数据集上训练基于Bert的自然语言预训练文本标注模型，得到模型参数，并且利用模型在无标记文档上挖掘答案，将类型和难度分别利用嵌入矩阵进行嵌入表示。对于文档进行命名实体和关系抽取，对于该文档构建小型的语义网络，并且使用双向GRU网络对文档进行表示，利用图神经网络表示基于文档的语义网络。使用Pytorch深度学习框架搭建编码器-解码器架构的序列到序列深度神经网络问题生成模型。聚合图神经网络表示、文档表示和类型难度的嵌入表示作为编码器的输出；使用基于注意力机制和拷贝机制的解码器，得到候选单词的生成概率。在数据集上训练问题生成模型，得到模型参数，并且利用模型在无标记文档上生成问题-答案对。

如图1所示，为本实施例涉及一种类型可选难度可控的英文阅读理解问题自动生成系统，据集预处理模块、答案挖掘模块和问题生成模块，其中：数据集预处理模块根据HotpotQA和SQuAD机器阅读理解数据集中的信息，使用模型判定机制进行问题难度分类，得到每个问题的客观难度，使用问题类型分类器进行问题类型分类并得到每个问题的类型，将数据集进行数据集切分后输出至答案挖掘模块，答案挖掘模块从数据集中的文本得到作为答案的实体和问题类型后输出至问题生成模块，问题生成模块根据数据集文本，答案实体以及问题类型，使用编码器-解码器架构的神经网络得到生成的问题问句和答案。

所述的数据集预处理模块包括：问题难度分类单元、问题类型分类单元、数据集整合切分单元。其中：问题难度分类单元使用机器阅读理解数据集为输入，使用多个机器阅读模型理解模型对数据集进行测试，根据不同模型回答问题的正误打分得到问题难度，输出至问题类型分类单元，问题类型分类单元对使用机器阅读理解数据集为输入，数据集中的问题按照语义进行分类，得到问题类别后输出至数据集切分单元，数据集整合切分单元将问题难度分类单元和问题类型分类单元的输入加入到数据集中，并按照8:1:1的比例切分数据集为训练集、测试集、验证集三部分后输出至答案挖掘模块。

所述的答案挖掘模块包括：问题标注单元、答案生成单元，其中：问题标注单元根据文本中的单词是否为答案进行标记后输出至答案生成单元，答案生成单元根据问题标注单元的输出作为训练集训练模型，将数据集作为输入，得到文档中的问题后输出至问题生成模块。

所述的问题生成模块包括：编码器单元、解码器单元，其中：编码器单元根据文档内容、问题难度、问题类型和问题内容，分别使用神经网络将其嵌入，并且使用图神经网络表示文档语义，使用注意力机制编码为隐藏层，并输出至解码器单元，解码器单元根据隐藏层信息，使用基于GRU神经网络的解码器结合拷贝机制进行解码，得到所生成的问题并输出。

本实施例涉及上述系统的问题生成方法，包括以下步骤：

步骤1、数据集预处理：将数据集处理成为符合深度学习模型开发、训练和测试的样式，并且支持问题难度、问题类型两个维度，具体包括：

1.1)将公开数据集HotpotQA和SQuAD作为数据集，得到<文档，问题，答案>形式的数据。

1.2)使用BERT，ALBERT和RoBERTa三种预训练模型对数据集进行机器阅读理解测试，对于每个问题，得到正确答案将得到1分，每个问题可能得到0-3分中的一个分数作为该问题的难度分数，分数越低表示问题越难。

1.3)对问句的首个单词进行匹配，将问题分类为八种问题类型中的某一类，对于无法分类的问题从数据集中删除。

1.4)对于每个问答对，生成问题的难度和问题的类型，形成新的形式为<文档，问题，答案，难度，类型>的数据集，并且将数据集切分为8：1：1，分别用作训练、测试和开发。

步骤2、答案挖掘：对于无标记的文本，从中挖掘出文本中适合作为问题的答案的实体，以及该实体适合的问题类型，具体包括：

2.1)对于数据集中文档的非答案单词，标注成<N>，答案单词根据问题类型不同分别标注成对应的标签，如将一个“What”类型的问题的答案标注为<WHAT>。

2.2)利用Bert预训练模型，对于文档的词性标注任务进行训练，得到合适的Bert预训练模型参数

2.3)使用训练好的Bert预训练模型，从无标记文本挖掘出答案和对应的问题类型。

2.4)基于生成的答案和对应的问题类型，以及外界输入的难度，构造形为<文档，答案，问题类型，难度>的需要生成问题的样本集合。

步骤3、生成问题：对于无标记的文本，基于答案挖掘得到的答案，基于给定的问题难度和问题类型生成多样化的问题，具体包括：

3.1)将类型和难度分别利用嵌入矩阵进行嵌入表示。将不同的类型、难度分别赋值为0,1,2…以进行独热化，W_t表示类型的嵌入矩阵，W_d表示难度的嵌入矩阵。将独热化的值乘以嵌入矩阵即可得到嵌入值E_t,E_d。

3.2)对于文档进行命名实体和关系抽取，对于该文档构建小型的语义网络G＝(V,E)。网络中包含语义信息、指代信息、和实体关系。

3.3)对于文档使用双向GRU神经网络进行编码，得到文档的嵌入表示X＝[x₁,x₂,…x_l]，其中

表示为两个方向GRU结果的连接。

3.4)从语义网络和文本嵌入表示中生成语义图神经网络，图神经网络的初始状态

使用使用跨模态注意力机制计算得到，其中：节点v，

i的取值范围是实体文本所在的文本范围。

3.5)使用门控图注意力神经网络(GGNN)进行图信息传播，在第T轮时传播中止，得到图神经网络在T轮时状态H^T。

3.6)使用注意力机制聚合图神经网络信息和文本嵌入信息得到全局嵌入信息

其中：

3.7)使用基于GRU的解码器对于全局嵌入信息E进行解码，当解码至第t步，输入全局嵌入，上一步的隐藏状态，上一个生成的单词，难度嵌入和类型嵌入，计算得到当前步的隐藏状态S_t＝GRU([E,E_t,E_d,w_t-1],S_t-1)。

3.8)依据隐藏层信息，通过字典模式和拷贝模式两种模式得到对应的生成单词p(y_t)＝p_genP_vocab(y_t)+(1-p_gen)P_copy(y_t)，其中从字典中生成单词的概率p_gen＝Sigmoid(FFN(S_t,y_t))

3.9字典模式中，使用前馈网络得到从字典中每个单词被选择的概率P_vocab(y_t)＝softmax(FFN(S_t,y_t))。

3.10)拷贝模式中，使用前馈网络机制从答案的上下文中得到每个单词被选择概率

3.11)使用p(y_t)生成问题句子中的每一个单词，将生成的单词拼接从而生成阅读理解问题。

综上，本发明将问题类型和难度融合进入基于神经网络的问题生成的机制，其与现有常规技术手段相比具有显著改进的技术细节具体为：使用了图神经网络以及注意力机制实现了难度与类型可控的问题生成。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种机器阅读理解系统的自定义问题数据自动生成方法，其特征在于，包括：数据集预处理模块、答案挖掘模块和问题生成模块，其中：数据集预处理模块根据HotpotQA和SQuAD机器阅读理解数据集中的信息，使用模型判定机制进行问题难度分类，得到每个问题的客观难度，使用问题类型分类器进行问题类型分类并得到每个问题的类型，将数据集进行数据集切分后输出至答案挖掘模块，答案挖掘模块从数据集中的文本得到作为答案的实体和问题类型后输出至问题生成模块，问题生成模块根据数据集文本，答案实体以及问题类型，使用编码器-解码器架构的神经网络得到生成的问题问句和答案。

2.根据权利要求1所述的机器阅读理解系统的自定义问题数据自动生成方法，其特征是，所述的数据集预处理模块包括：问题难度分类单元、问题类型分类单元、数据集整合切分单元；其中：问题难度分类单元使用机器阅读理解数据集为输入，使用多个机器阅读模型理解模型对数据集进行测试，根据不同模型回答问题的正误打分得到问题难度，输出至问题类型分类单元，问题类型分类单元对使用机器阅读理解数据集为输入，数据集中的问题按照语义进行分类，得到问题类别后输出至数据集切分单元，数据集整合切分单元将问题难度分类单元和问题类型分类单元的输入加入到数据集中切分数据集为训练集、测试集、验证集后输出至答案挖掘模块。

3.根据权利要求2所述的机器阅读理解系统的自定义问题数据自动生成方法，其特征是，所述的训练集、测试集、验证集的比例为8:1:1。

4.根据权利要求1所述的机器阅读理解系统的自定义问题数据自动生成方法，其特征是，所述的答案挖掘模块包括：问题标注单元、答案生成单元，其中：问题标注单元根据文本中的单词是否为答案进行标记后输出至答案生成单元，答案生成单元根据问题标注单元的输出作为训练集训练模型，将数据集作为输入，得到文档中的问题后输出至问题生成模块。

5.根据权利要求1所述的机器阅读理解系统的自定义问题数据自动生成方法，其特征是，所述的问题生成模块包括：编码器单元、解码器单元，其中：编码器单元根据文档内容、问题难度、问题类型和问题内容，分别使用神经网络将其嵌入，并且使用图神经网络表示文档语义，使用注意力机制编码为隐藏层，并输出至解码器单元，解码器单元根据隐藏层信息，使用基于GRU神经网络的解码器结合拷贝机制进行解码，得到所生成的问题并输出。

6.一种基于权利要求1～5中任一所述系统的问题生成方法，其特征在于，包括以下步骤：

1.1)将公开数据集HotpotQA和SQuAD作为数据集，得到<文档，问题，答案>形式的数据；

1.2)使用BERT，ALBERT和RoBERTa三种预训练模型对数据集进行机器阅读理解测试，对于每个问题，得到正确答案将得到1分，每个问题可能得到0-3分中的一个分数作为该问题的难度分数，分数越低表示问题越难；

1.3)对问句的首个单词进行匹配，将问题分类为八种问题类型中的某一类，对于无法分类的问题从数据集中删除；

1.4)对于每个问答对，生成问题的难度和问题的类型，形成新的形式为<文档，问题，答案，难度，类型>的数据集，并且将数据集切分为8∶1∶1，分别用作训练、测试和开发；

2.1)对于数据集中文档的非答案单词，标注成<N>，答案单词根据问题类型不同分别标注成对应的标签，如将一个“What”类型的问题的答案标注为<WHAT>；

2.2)利用Bert预训练模型，对于文档的词性标注任务进行训练，得到合适的Bert预训练模型参数；

2.3)使用训练好的Bert预训练模型，从无标记文本挖掘出答案和对应的问题类型；

2.4)基于生成的答案和对应的问题类型，以及外界输入的难度，构造形为<文档，答案，问题类型，难度>的需要生成问题的样本集合；

3.1)将类型和难度分别利用嵌入矩阵进行嵌入表示；将不同的类型、难度分别赋值为0，1，2…以进行独热化，W_t表示类型的嵌入矩阵，W_d表示难度的嵌入矩阵；将独热化的值乘以嵌入矩阵即可得到嵌入值E_t，E_d；

3.2)对于文档进行命名实体和关系抽取，对于该文档构建小型的语义网络

网络中包含语义信息、指代信息、和实体关系；

3.3)对于文档使用双向GRU神经网络进行编码，得到文档的嵌入表示x＝[x₁，x₂，…x_l]，其中

表示为两个方向GRU结果的连接；

使用使用跨模态注意力机制计算得到，其中：节点v，

i的取值范围是实体文本所在的文本范围；

3.5)使用门控图注意力神经网络(GGNN)进行图信息传播，在第T轮时传播中止，得到图神经网络在T轮时状态H^T；

其中：

3.7)使用基于GRU的解码器对于全局嵌入信息E进行解码，当解码至第t步，输入全局嵌入，上一步的隐藏状态，上一个生成的单词，难度嵌入和类型嵌入，计算得到当前步的隐藏状态S_t＝GRU([E，E_t，E_d，w_t-1]，S_t-1)；

3.8)依据隐藏层信息，通过字典模式和拷贝模式两种模式得到对应的生成单词p(y_t)＝p_genP_vocab(y_t)+(1-p_gen)P_copy(y_t)，其中从字典中生成单词的概率p_gen＝Sigmoid(FFN(S_t，y_t))；

3.9字典模式中，使用前馈网络得到从字典中每个单词被选择的概率P_vocab(y_t)＝softmax(FFN(S_t，y_t))；