CN111563146A

CN111563146A - 一种基于推理的难度可控问题生成方法

Info

Publication number: CN111563146A
Application number: CN202010253345.3A
Authority: CN
Inventors: 蔡毅; 黄清宝; 梁宇
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2020-08-21
Anticipated expiration: 2040-04-02
Also published as: CN111563146B

Abstract

本发明公开了一种基于推理的难度可控问题生成的方法，包括：识别文本中的命名实体，根据设定的实体连结关系构建实体网络图；分别通过词嵌入方法和难度嵌入矩阵对自然语言文本编码得到其语义表示和难度表示；将得到的语义表示通过双向LSTM层进行编码，并利用图神经网络得到新的含有推理的上下文状态表示，随后使用注意力机制辅助解码器得到词语的推理生成概率；将难度嵌入矩阵使用难度等级控制变量经过高斯核层得到难度生成概率；将得到的推理生成词概率和难度生成词概率整合得到最终的生成概率，进而生成问题序列。本发明所定义的问题生成难度等级更具有人类客观逻辑性，将多跳推理融入自然语言文本的表示中，生成更加符合所定义难度的多样化问题。

Description

一种基于推理的难度可控问题生成方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于推理的难度可控问题生成方法。

背景技术

问题生成，即从自然语言文本和对应答案中自动生成问题。近年来，问题生成作为自然语言处理技术中的一部分，已经在学术界和教育界受到了广泛关注。在学术界，问答系统、阅读理解系统、对话系统等是自然语言处理中的几个重要领域，在优化这些任务的算法过程中，一个完备的大规模数据集必不可少。然而，这些任务现有的数据集都是通过人工标注完成，耗费大量的人力物力。通过问题生成的技术辅助，可以减少人力物力的损耗。在教育界，问题生成技术可以应用到试题生成任务中，减少教师出题的时间消耗。一份试卷中，往往需要拥有不同难度等级的试题，才能对应试者的知识掌握情况起到更好的考察作用，从而达到区分不同学生综合水平的目的。然而，现有的问题生成研究中，自然语言文本和生成的问题都是一一对应的形式，缺乏一定的多样性。其中，生成不同难度等级的问题也是问题生成任务中多样性的一种体现。

近年来，关于生成多样性问题的研究较少，特别是生成带有不同难度等级的问题。Yifan Gao在2019IJCAI会议上首次提出一种难度可控的阅读理解题生成方法。该方法利用两个阅读理解系统对SQuAD数据集中的问题打难易标签：若两个阅读理解系统能够同时回答该问题，则打简单标签；若两个阅读理解系统都不能回答该问题，则打困难标签。然而，基于阅读理解系统来判定问题的难易程度有失偏颇。Norvig(1989)认为，对人类来说容易回答的问题往往对机器来说是困难的。Saku Sugawara等人在2017ACL会议上证明文本的可读性不一定与回答有关问题的难度相关。Yifan Gao对问题难度的另一个定义是认为：若问句中包含有更多在原文本中离答案近的问题词，则该问题更好回答。但是这种思路把问题的难度限定在提问的方式上，而不是对原文本的理解上。往往在生成的问题中，简单问题只是比难问题拥有更多的原文单词，但是在回答上并没有明显的区别。与之相比，RahulSinghal等人在2016年提出解决问题的步骤数(以下简称DR)是测量问题难度的一个重要因素。

发明内容

本发明的目的在于克服现有技术的不足，通过利用DR重新定义问题的难度等级，认为越是具有难度的问题，越需要从自然文本中进行多跳推理才能获取正确答案。本发明分别从自然文本的推理表示和显式的难度等级两方面控制生成问题的难度，从而生成简单、中等及困难三种不同难度程度的问题。本发明首先利用Stanford corenlp toolkit识别文本中的命名实体，根据设定的实体连结关系构建实体网络图，然后分别通过GloVe词嵌入方法和难度嵌入矩阵对自然语言文本编码得到其语义表示和难度表示。对于语义表示，经过双向LSTM层进一步编码，并利用图神经网络得到新的含有推理的上下文状态表示，随后使用注意机制辅助解码器得到词语的推理生成概率。对于难度表示，使用难度等级控制变量经过高斯核层得到难度生成概率。最后将推理生成词概率和难度生成词概率整合得到最终的生成概率，进而生成问题。

本发明的目的能够通过以下技术方案实现：

一种基于推理的难度可控问题生成的方法，所述方法包括以下步骤：

识别文本中的命名实体，根据设定的实体连结关系构建实体网络图；

优选地，使用Stanford corenlp toolkit识别文中命名实体。

分别通过词嵌入方法和难度嵌入矩阵对自然语言文本编码得到其语义表示和难度表示；

将得到的语义表示经过双向LSTM层进一步编码，并利用图神经网络得到新的含有推理的上下文状态表示，随后使用注意力机制辅助解码器得到词语的推理生成概率；

将难度嵌入矩阵使用难度等级控制变量经过高斯核层得到难度生成概率；

将得到的语义生成词概率和难度生成词概率整合得到最终的生成概率，进而生成问题。

本发明相较于现有技术，具有以下的有益效果：

1、本发明不仅仅是通过难度标签控制问题生成的难度等级，而且同时考虑了自然语言文本中隐含的多跳推理信息，将两者融合生成具有简单、中等及困难三种不同难度等级的问题。本发明所定义的问题生成难度等级更具有人类客观做题的逻辑性，将多跳推理融入自然语言文本的表示中，生成更加符合所定义难度的问题。

附图说明

图1为本发明实施例一种基于推理的难度可控问题生成的方法的流程图。

图2为本发明实施例中问题生成模型的结构示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示为本实施例的一种基于推理的难度可控问题生成的方法的流程图，所述方法包括步骤：

(1)识别文本中的命名实体，根据设定的实体连结关系构建实体网络图，包括步骤：

(1-1)使用HOTPOTQA数据集中训练集的桥接样本作为数据集，并按照7：1：1的比例将数据集分为实验用的训练集、验证集以及测试集。在采用的数据集中，每一个初始的单一样本，均包含了十个段落级别的上下文、每个段落上下文对应的关键主题词、相应的问题、问题的难度级别以及与问题相关的段落关键主题词及答案。本实施例中只选取与问题相关的段落主题词相匹配的段落上下文，将这些段落上下文进行拼接得到一个长文本，并将这个长文本与相对应的问题、问题的难度级别以及答案作为新的单一样本；

(1-2)使用Srandford corenlp toolkit工具识别新的单一样本的上下文本中的命名实体；

(1-3)根据设定的两种实体连结关系共同构建实体网络图，其中实体连结关系分别是：一是连结同一句子中的不同实体，二是连结同一文本的同一实体。

(2)分别通过GloVe词嵌入方法和难度嵌入矩阵对新的单一样本中的长文本进行编码，得到其语义表示和难度表示，包括步骤：

设输入是含有多个句子的长文本，由序列

组成，其中

表示第i个上下文词，m表示上下文单词个数，答案由序列

组成，其中

表示第j个答案词，l表示答案词个数。

(2-1)通过预训练好的GloVe词嵌入方法将长文本组成序列以及答案组成序列中的词进行词向量表示，得到序列

其中

表示第i个词向量表示，即上下文语义表示，

表示第j个答案词向量表示，即答案语义表示，上下文语义表示和答案词向量表示在数量上分别与上下文单词个数和答案词个数相同；

(2-2)将上下文组成序列

通过一个难度嵌入矩阵E_d映射得到序列的难度表示；所述难度嵌入矩阵E_d是由问题生成模型初始化的张量经过模型训练，不断优化难度嵌入矩阵E_d的参数值，直至达到最优的难度问题生成效果所得到。

(3)将得到的语义表示通过双向LSTM层进行编码，并利用图神经网络得到新的含有推理的上下文状态表示，随后使用注意力机制辅助解码器得到词语的推理生成概率，包括步骤：

(3-1)通过双向LSTM层对得到的上下文语义表示和答案语义表示进行编码，得到上下文状态表示U_c和答案状态表示U_a，具体公式为：

其中，

和

分别表示第i个词向量的前向和后向的上下文状态表示，

则表示第i个词向量的双向上下文状态表示，U_c是上下文状态表示矩阵，是维度为m×d的张量矩阵，其中m为上下文状态表示个数，d为上下文状态表示维度；

和

分别表示第j个答案词向量的前向和后向的答案状态表示，

则表示第j个答案词向量的双向答案状态表示，U_a是答案状态表示矩阵，是维度为l×d的张量矩阵，其中l为答案状态表示个数，维度与上下文状态表示维度相同。

(3-2)通过一个二进制矩阵M选择步骤(3-1)中上下文状态表示的实体范围；其中，通过步骤(1-2)即可得到上下文单词的命名实体标记，拥有命名实体标记的单词则为实体词，若第i个上下文词属于第j个实体词，则二进制矩阵M内元素M_i,j为1。随后将二进制矩阵M中为1标记的第j个实体词的状态表示通过平均池化层合并在一起，得到该实体词的综合状态表示。对二进制矩阵M中标记为1的实体词都做如上相同的操作，最终得到上下文的实体状态表示。针对答案，将整个答案都看作是一个实体，利用平均池化层将步骤(3-1)中答案状态表示合并得到答案综合表示，具体公式为：

u_a＝MeanPooling(U_a)∈R^1×2d

其中，U_e是实体状态表示，n为上下文中的实体词个数，u_a是答案综合状态表示，Rⁿ ^×2d和R^1×2d分别表示U_e和u_a的张量维度。

(3-3)利用实体状态表示初始化图神经网络并进行更新，通过迭代的图神经网络获得新的含有推理的上下文状态表示，具体公式为：

G＝{e^k}|v_k∈V

其中，G为图神经网络，v_k∈V表示第k个图神经网络的图节点，图节点为上下文实体，G⁽⁰⁾和G^(τ)分别是其初始状态和τ时刻状态；e^k为图神经网络的第k个状态表示，其初始状态

由步骤(3-2)中的实体状态表示

和答案状态表示u_a初始化构成，

是其τ时刻状态，

表示与节点v_k相邻的状态表示之和，N(k)为第k个状态表示的相邻状态表示集合；W₀、W_g、b₀、b_g为问题生成模型学习参数；M为步骤(3-2)中的二进制矩阵，G^T为经过T次迭代后的图神经网络，

为新的含有推理的上下文状态表示。

(3-4)使用注意力机制辅助解码器得到词语的推理生成概率，具体公式为：

α_t＝softmax(∈_t)

s_t＝RNN(s_t-1,y_t-1)

其中，

是含有推理的上下文状态表示，使用其末尾的隐状态初始化解码器，通过注意力机制得到相应的注意力分数α_t，从而获得上下文表示c_t，由此更新解码器隐含状态s_t，

为更新后的解码器隐含状态；在解码过程中，解码器是另一个循环神经网络RNN，根据已编码的输入表示和预先解码的单词顺序生成单词，y_t-1为前一时刻模型生成的词向量，

为词语的推理生成概率；W_at、U_at、b_at、W_bt、W_v为问题生成模型学习参数；

(4)将难度嵌入矩阵使用难度等级控制变量经过高斯核层得到难度生成概率，包括步骤：

(4-1)由难度嵌入矩阵E_d和解码器状态s_t共同决定t时刻的难度强度，具体公式为：

g(E_d,s_t)＝sigmoid(E_dW_ds_t)

其中，g(E_d,s_t)为难度强度预测函数，使用sigmoid将预测强度值缩放到[0,1]，W_d为问题生成模型学习参数。

(4-2)使用高斯核函数引入难度等级控制变量得到难度生成概率，具体公式为：

其中，σ是标准差，d是难度等级控制变量，设置简单问题，d＝0；中等问题，d＝0.5；困难问题，d＝1；

为词语难度生成概率。

(5)将得到的推理生成词概率和难度生成词概率整合得到最终的生成概率，进而生成问题序列Y＝{y₁,y₂,…,y_M}，具体公式为：

其中，p(y_t)为最终的词语生成概率，β和γ为模型学习参数。

图2中所示的问题生成模型中，左半部分为Encoder部分，即编码部分；右半部分为Decoder部分，即解码部分。在编码部分，包含上述步骤(1)-步骤(3-3)中所述的内容，用于获取含有推理的上下文状态表示，并将最终得到的含有推理的上下文状态表示

输入到解码器当中。在解码部分，包含上述步骤(3-4)-步骤(5)中所述的内容，通过将含有推理的上下文状态表示

解码得到词语的推理生成概率，利用难度嵌入矩阵，通过难度等级控制变量经过高斯核层得到难度生成概率，并将推理生成概率和难度生成概率合并得到最终的词语生成概率，以此生成单词。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于推理的难度可控问题生成的方法，其特征在于，包括步骤：

将得到的语义表示通过双向LSTM层进行编码，并利用图神经网络得到新的含有推理的上下文状态表示，随后使用注意力机制辅助解码器得到词语的推理生成概率；

将得到的推理生成词概率和难度生成词概率整合得到最终的生成概率，进而生成问题序列。

2.根据权利要求1所述的方法，其特征在于，所述识别文本中的命名实体，根据设定的实体连结关系构建实体网络图的步骤中，包括：

使用HOTPOTQA数据集中训练集的桥接样本作为数据集，并将数据集分为训练集、验证集以及测试集；对于每一个单一样本，都含有十个段落上下文及相应的问题和答案，选取含有关键中心词的段落上下文进行拼接及相对应的问题和答案作为单一样本；

使用Srandford corenlp toolkit工具识别样本上下文本中的命名实体；

根据设定的两种实体连结关系共同构建实体网络图，其中实体连结关系分别是：一是连结同一句子中的不同实体，二是连结同一文本的同一实体。

3.根据权利要求1所述的方法，其特征在于，所述分别通过词嵌入方法和难度嵌入矩阵对自然语言文本编码得到其语义表示和难度表示的步骤中，包括：

通过预训练好的GloVe词嵌入方法将长文本组成序列以及答案组成序列中的词进行词向量表示，得到上下文语义表示序列以及答案语义表示序列；

将上下文组成序列通过一个难度嵌入矩阵E_d映射得到上下文组成序列的难度表示。

4.根据权利要求1所述的方法，其特征在于，所述将得到的语义表示通过双向LSTM层进行编码，并利用图神经网络得到新的含有推理的上下文状态表示，随后使用注意力机制辅助解码器得到词语的推理生成概率的步骤中，包括：

通过双向LSTM层对得到的上下文语义表示和答案语义表示进行编码，得到上下文状态表示U_c和答案状态表示U_a；

通过一个二进制矩阵M选择上下文状态表示序列的实体范围，并经过平均池层得到实体状态表示，将答案状态表示序列范围经过池化层得到答案综合表示；

利用实体状态表示初始化图神经网络并进行更新，通过迭代的图神经网络获得新的含有推理的上下文状态表示；

使用注意力机制辅助解码器得到词语的推理生成概率。

5.根据权利要求4所述的方法，其特征在于，上下文状态表示和答案状态表示的计算公式为：

其中，

和

分别表示第i个词向量的前向和后向的上下文状态表示，

则表示第i个词向量的双向上下文状态表示，U_c是上下文状态表示矩阵；

和

分别表示第j个答案词向量的前向和后向的答案状态表示，

则表示第j个答案词向量的双向答案状态表示，U_a是答案状态表示矩阵；

实体状态表示和答案综合状态表示的计算公式为：

u_a＝MeanPooling(U_a)∈R^l×2d

其中，U_e是实体状态表示，u_a是答案综合状态表示；

新的含有推理的上下文状态表示的计算公式为：

G＝{e^k}|v_k∈V

其中，G为图神经网络，v_k∈V表示第k个图节点，图节点为上下文实体，G⁽⁰⁾和G^(τ)分别是其初始状态和τ时刻状态；e^k为图神经网络的第k个状态表示，其初始状态

由实体状态表示

和答案状态表示u_a初始化构成，

是其τ时刻状态，

表示节点v_k的邻域隐藏状态之和；W₀、W_g、b₀、b_g为问题生成模型学习参数；

为新的含有推理的上下文状态表示，其由图神经网络和上下文状态表示通过LSTM层构成；

词语的推理生成概率的计算公式为：

α_t＝softmax(∈_t)

s_t＝RNN(s_t-1,y_t-1)

其中，

是含有推理的上下文状态表示，使用其末尾的隐状态初始化解码器，通过注意力机制得到相应的注意力分数α_t，从而获得上下文表示c_t，由此更新解码器s_t状态；在解码过程中，解码器是另一个RNN，根据已编码的输入表示和预先解码的单词顺序生成单词，

为词语的推理生成概率；W_at、U_at、b_at、W_bt、W_v为问题生成模型学习参数。

6.根据权利要求1所述的方法，其特征在于，所述将难度嵌入矩阵使用难度等级控制变量经过高斯核层得到难度生成概率的步骤中，包括：

由难度嵌入矩阵E_d和解码器状态s_t共同决定t时刻的难度强度；

使用高斯核函数引入难度等级控制变量得到难度生成概率。

7.根据权利要求6所述的方法，其特征在于，t时刻的难度强度计算公式为：

g(E_d,s_t)＝sigmoid(E_dW_ds_t)

其中，g(E_d,s_t)为难度强度预测函数，使用sigmoid将预测强度值缩放到[0,1]，W_d为问题生成模型学习参数；

难度生成概率的计算公式为：

为词语难度生成概率。

8.根据权利要求1所述的方法，其特征在于，所述将得到的推理生成词概率和难度生成词概率整合得到最终的生成概率，进而生成问题序列的步骤中，最终生成的问题序列Y＝{y₁,y₂,…,y_M}的具体公式为：

其中，p(y_t)为最终的词语生成概率，β和γ为问题生成模型学习参数。