CN115033692A

CN115033692A - 一种面向机器阅读理解的问题生成方法

Info

Publication number: CN115033692A
Application number: CN202210648290.5A
Authority: CN
Inventors: 孙媛; 刘思思
Original assignee: Minzu University of China
Current assignee: Minzu University of China
Priority date: 2022-06-09
Filing date: 2022-06-09
Publication date: 2022-09-09

Abstract

本发明涉及一种面向机器阅读理解的问题生成方法，方法包括：使用已经构建的阅读理解数据集，包括问题、段落和答案；对数据集中与答案相关的三元组知识进行提取；使用seq2seq模型，以段落、答案和三元组知识作为模型的输入数据，得到编码向量和问题生成的预测结果；使用问题生成的预测结果计算得出问题生成的损失函数；使用辅助分类模型根据编码向量预测目标问题的疑问词类型，得到疑问词类型与辅助分类模型的预测结果；使用疑问词类型与辅助分类模型的预测结果计算得出辅助分类模型的损失函数；将两个损失函数组合，得到总损失函数，使用总损失函数对seq2seq模型和辅助分类模型进行迭代训练，得到训练完成的seq2seq模型；使用训练完成的seq2seq模型进行问题生成。

Description

一种面向机器阅读理解的问题生成方法

技术领域

本发明涉及自然语言处理领域，尤其涉及一种面向机器阅读理解的问题生成方法。

背景技术

近年来，随着人工智能技术的快速发展，自然语言生成的相关研究受到越来越多的关注，其中，问题生成是自然语言生成的一个重要研究方向，目前的问题生成研究主要是有答案的问题生成，根据给定的上下文信息和指定的答案信息，让机器能够理解给定的上下文信息生成针对该指定答案的问题。问题生成技术在学术界和工业界具有广泛的应用，一方面，问题生成可以作为一种数据增强技术为问答系统和阅读理解任务产生训练数据.研究表明，利用自动生成的问题来补充数据，或者同时将答案抽取与问题生成两个任务进行训练可以显著提升问答系统的性能。另一方面，问题生成可以在教育领域模拟用户提问、在对话领域中引导机器主动提问等，在对话系统中嵌入问题生成模型，可以加强系统与人的交互，帮助系统更准确地判断人的意图，从而使人机对话更加流畅。

早期的问题生成研究主要是基于规则和模板的方式，该方法是在语法树上定义一些启发式的规则来将某个句子转换成问题句式，该方法的好处是可以保证生成问题的相关性和流利度，但是这类方法严格依赖于人工设定的转换和生成规则，同时生成问题的多样性在很大程度上受到限制，可移植性差。随着一些大规模的高质量的机器阅读理解数据集的出现，如SQuAD、MARCO，基于神经网络的问题生成取得了很大的进展。在之后的研究当中，基于神经网络的问题生成成为主流的研究方法，并且出现了大量的高质量的研究。目前，面向阅读理解的数据集构建主要采用人工的方式，该方式需要耗费大量的人力和物力资源，人工成本较高。

问题生成任务需要理解上下文并根据答案生成合适的问题，其中，问句的疑问词准确性直接决定了问句的准确性，因此，问句中疑问词的准确率至关重要。对目前问题生成模型生成的问句的准确率进行统计分析发现，生成的问句中有超过半数的问题词与问题类型不匹配，这严重影响了问题生成的效果。同时，生成的问题中还存在和原文以及答案相关性不大的问题。

发明内容

本发明的目的是提供一种面向机器阅读理解的问题生成方法，旨在解决阅读理解数据集匮乏的问题,通过有效利用深度学习的方法和技术，降低人工成本。针对生成的问句中有超过半数的问题词与问题类型不匹配的问题，本发明提出对输入的段落和答案进行分类，将问题类型按照疑问词的类别进行分类。针对生成的问题中存在和原文以及答案相关性不大的问题，本发明根据给定的答案对数据集中的三元组知识进行提取，并将该三元组知识和原始输入融合后一起输入到编码器当中，获得具有答案意识的上下文表示，通过解码器，生成与答案和原文相关的问题。

本发明为解决上述技术问题采用的技术方案为，提供了一种面向机器阅读理解的问题生成方法，方法包括：

使用已经构建的阅读理解数据集，包括问题、段落和答案；

对数据集中与所述答案相关的三元组知识进行提取；

使用seq2seq模型，以所述段落、答案和三元组知识作为模型的输入数据，对所述输入数据进行编码与解码，得到编码向量和问题生成的预测结果；

以所述问题作为标签，使用所述问题生成的预测结果计算得出问题生成的损失函数；

使用辅助分类模型根据所述编码向量预测目标问题的疑问词类型，得到疑问词类型与辅助分类模型的预测结果；

以所述问题作为标签，使用所述疑问词类型与所述辅助分类模型的预测结果计算得出辅助分类模型的损失函数；

将所述问题生成的损失函数与辅助分类模型的损失函数组合，得到总损失函数，使用所述总损失函数对所述seq2seq模型和辅助分类模型进行迭代训练，得到训练完成的seq2seq模型；

使用所述训练完成的seq2seq模型进行问题生成。

在一种可能的实施方式中，所述seq2seq模型，以基于自注意力机制的双向LSTM作为编码器，以基于注意力机制的LSTM作为解码器。

在一种可能的实施方式中，所述辅助分类模型为BERT分类模型，使用交叉熵损失函数计算所述问题生成的损失函数和辅助分类模型的损失函数。

本发明采用seq2seq架构，进行阅读理解数据集的自动构建，根据给定的文本和答案生成针对该答案的问题，同时针对目前问题生成研究中生成的问题存在疑问词不准确或缺失的问题，设计疑问词分类的辅助任务对问句类型进行分类，提高生成的问句中疑问词的准确率，另外，通过对段落和答案中存在的三元组知识进行提取，将其一起输入到模型当中，通过为模型提供更多的信息来提高生成问句的质量。

附图说明

图1为本发明实施例公开的一种面向机器阅读理解的问题生成方法的流程图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

基于seq2seq架构的问题生成的任务定义是：根据给定的段落D和答案A，模型生成一个问题

该问题可以根据给定的段落和答案进行回答，如公式(1)所示：

在步骤S101，获取训练模型所需要的训练集数据，包括问题、段落和答案。

在步骤S102，对数据集中与答案相关的三元组知识<A_t,r,e>进行提取，获得与答案A_t相关的关键词r和e，其中，A_t为实体一，r为实体关系，e为实体二，通过关键词r和e辅助模型生成与答案相关的问题。通过对原始段落中与答案相关的三元组知识进行提取，可以提高生成问题与答案的相关性。

在步骤S103，使用seq2seq模型，编码器使用双向LSTM，对输入的段落、答案和三元组知识<A_t,r,e>进行编码，如公式(2)-(3)所示：

h_t＝LSTM(h_t-1,[D_t,A_t,<A_t,r,e>]) (2)

其中，h_t-1为t-1时间步的隐状态，

和

分别代表从左向右和从右向左的编码，H为双向LSTM编码后的编码向量。

使用自注意力机制对编码后的信息进行处理，自注意力机制可以让模型为不同的信息动态地分配权重，如公式(4)-(6)所示:

f(H,h_t)＝H^TW_ah_t (4)

α_i＝softmax(f(H,h_t)) (5)

其中，W_a为可学习的参数矩阵，α_i即为单词对应的权重系数，然后进行加权求和即可得到注意力值a_t。

然后对其进行解码。首先经过LSTM解码，y_t-1为上一时刻LSTM的输出结果，s_t为t时刻的隐状态，W_u为一个可学习的参数矩阵。然后使用注意力机制对解码后的信息进行处理，计算注意力分数c_i，对其进行归一化得到注意力值u_t，如公式(7)-(10)所示：

s_t＝LSTM(s_t-1,y_t-1) (7)

c_i＝softmax(α_t) (9)

在步骤S104，使用交叉熵损失函数计算生成每一个词的概率P_QG，以问题作为标签，计算问题生成的损失函数，如公式(11)所示，其中，y_<t为t时刻之前的输出结果，y_t为问题生成的预测结果。

在步骤S105-S106，使用辅助分类模型根据编码过程中的隐藏层状态来预测目标问题的疑问词类型，之后该预测将同样使用基于注意力的解码器来指导问题生成。以问题作为标签，使用交叉熵损失函数计算分类模型的辅助分类模型的损失函数L_c，C为分类结果，y_i为辅助分类模型的预测结果，计算公式如(12)-(13)所示：

C＝softmax(W_cH) (12)

在步骤S107，将问题生成的损失函数与辅助分类模型的损失函数组合，得到总损失函数L_all，如公式(14)所示。

L_all＝L_QG+αL_c (14)

使用总损失函数对seq2seq模型和辅助分类模型进行迭代训练，得到训练完成的模型。

在步骤S108，使用所述训练完成的seq2seq模型进行问题生成。

同时，问句类型的分类准确率也对问题质量产生正影响，因此选择一个性能好的分类模型也至关重要。本发明采用准确率最高的BERT分类模型作为辅助任务的辅助分类模型，帮助问题生成模型生成疑问词准确的问题。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向机器阅读理解的问题生成方法，其特征在于，所述方法包括：

使用已经构建的阅读理解数据集，包括问题、段落和答案；

对数据集中与所述答案相关的三元组知识进行提取；

使用所述训练完成的seq2seq模型进行问题生成。

2.根据权利要求1所述的方法，其特征在于，所述seq2seq模型，以基于自注意力机制的双向LSTM作为编码器，以基于注意力机制的LSTM作为解码器。

3.根据权利要求1所述的方法，其特征在于，所述辅助分类模型为BERT分类模型，使用交叉熵损失函数计算所述问题生成的损失函数和辅助分类模型的损失函数。