CN113268561A

CN113268561A - 一种基于多任务联合训练的问题生成方法

Info

Publication number: CN113268561A
Application number: CN202110448211.1A
Authority: CN
Inventors: 毛震东; 张勇东; 于尊瑞
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2021-08-17
Anticipated expiration: 2041-04-25
Also published as: CN113268561B

Abstract

本发明公开了一种基于多任务联合训练的问题生成方法，采用答案词填空任务、相关度预测任务与问题生成任务联合训练，学习问题、答案与关键信息的潜在关联以提升所生成问题的价值。答案词填空任务，是将文本段落中的答案词删除，训练模型根据文本段落自动生成答案位置的单词，以使得模型具有根据段落中的信息推测答案的能力，促使模型在问题生成时更能关注对答案更重要的信息。相关度预测任务，是通过学习文本段落中单词之间的相对关系，利用规则获取每个单词与答案单词之间的相关度，使得生成的相关度能够在问题生成中作为指导和监督信息来训练模型预测文本段落中的每个词与答案之间的相关度，以促使模型在问题生成时更关注与答案强相关的单词。

Description

一种基于多任务联合训练的问题生成方法

技术领域

本发明涉及自然语言生成技术领域，尤其涉及一种基于多任务联合训练的问题生成方法。

背景技术

随着对话机器人、机器人客服等智能人机对话系统的广泛应用，越来越需要计算机系统能够更准确地理解和使用人类语言。“段落-问题-答案”数据是训练计算机模型实现自然语言理解和自然语言生成任务地重要数据来源，然而人工标注数据需要耗费大量的人力、物力、财力，且效率低下、数据总量少。而互联网上拥有海量无标注文本数据，可以从无标注文本段落数据中选择一个或者多个连续的词语作为答案，再使用问题生成技术生成问题，获取海量“段落-问题-答案”数据。因此，问题生成技术具有很高的研究价值与实用价值。

现有的问题生成技术多采用基于预训练语言模型进行微调的方法，然而普遍存在一个问题：无法准确抓取最关键内容，常常从不重要的角度进行提问，生成无价值的问题。这是由于问题生成任务的“一对多”特性所导致的，根据给定的段落和答案，人类可以提出多个问题，并且很容易分辨哪些问题有价值，哪些问题无价值，而对计算机系统而言，可以生成问题但是无法判断问题的价值性。生成的问题缺乏实际使用价值会导致整个“段落-问题-答案”数据集的可用性降低。

发明内容

本发明的目的是提供一种基于多任务联合训练的问题生成方法，采用两个辅助任务与问题生成任务联合训练，学习问题、答案与关键信息的潜在关联以提升所生成问题的价值，从而提升“段落-问题-答案”数据集的可用性。

本发明的目的是通过以下技术方案实现的：

一种基于多任务联合训练的问题生成方法，包括：

训练阶段：采用多任务联合的方式对深度卷积网络模型进行训练，第一轮使用答案词填空任务进行训练，第二轮使用相关度预测任务和问题生成任务进行联合训练；两轮训练交替进行直至达到设定的停止轮数超参数；其中，所述答案词填空任务是将输入文本段落的答案文本删除，并将删除的答案文本作为真实标签，训练深度卷积网络模型根据文本段落自动生成答案位置的单词；相关度预测任务是对输入文本段落，使用文本段落中每个单词与答案词在依存关系上的距离来衡量相关度，并通过训练深度卷积模型自动预测文本段落中每个单词与答案词的相关度；问题生成任务是输入文本段落与文本段落中的答案文本，将问题文本作为真实标签，训练深度卷积模型生成相应的问题文本；

测试阶段：将文本段落与答案文本以及给定的问题文本长度输入至训练好的深度卷积网络模型，输出长度不超过给定的问题文本长度的问题文本。

由上述本发明提供的技术方案可以看出，采用多任务联合训练的方法，针对问题生成任务的特性，提出利用两项有潜在关联的辅助任务：答案词填空任务、相关度预测任务，其中相关度预测任务是本专利首次提出并应用在问题生成任务上，答案词填空任务是本专利针对问题生成任务进行了特有的改进；使用两项辅助任务和问题生成任务的联合训练使得模型更好地学习答案与其他文本信息之间的潜在语义关系，获取对答案而言更重要和关键的信息，从而引导问题生成模型生成更有价值的问题。两项辅助任务针对问题生成任务有着特有的答案信息专门设计，与现有的其他自然语言生成任务上常用的多任务训练方法相比具有更细粒度更精确的优势，使模型更好地处理文本段落与答案的信息。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于多任务联合训练的问题生成方法的流程图；

图2为本发明实施例提供的相关度数据处理示意图；

图3为本发明实施例提供的针对预训练语言模型BERT进行多任务联合训练的流程图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

针对现有技术所存在的技术缺陷，本发明实施例提供了一种基于多任务联合训练的问题生成方法，采用两个辅助任务与问题生成任务联合训练，学习问题、答案与关键信息的潜在关联以提升所生成问题的价值。其中一个辅助任务是答案词填空任务，将文本段落中的答案词删除，训练模型根据文本段落自动生成答案位置的单词，以使得模型具有根据段落中的信息推测答案的能力，促使模型在问题生成时更能关注对答案更重要的信息。另一个辅助任务是我们提出的相关度预测任务，通过学习构建文本段落中每个单词之间的相对关系，进一步利用规则获取每个单词与答案单词之间的相关度，使得生成的相关度能够在问题生成中作为指导和监督信息来训练模型预测文本段落中的每个词与答案之间的相关度，以促使模型在问题生成时更关注与答案强相关的单词。如图1所示，为上述方法的主要流程，主要包括：

测试阶段：将包含答案的文本段落以及给定的问题文本长度输入至训练好的深度卷积网络模型，输出长度不超过给定的问题文本长度的问题文本。

下面针对三个任务、以及三个任务联合训练的方式做详细的介绍。

一、答案词填空任务。

所述答案词填空任务中，将文本段落的答案删除，使用掩码标志符号[MASK]代替后作为输入数据，以删除的答案文本作为真实标签训练深度卷积网络模型生成掩码标志符号[MASK]处的单词；答案词填空任务本质上可以看做是一个多分类任务，每个[MASK]处的单词的类别数目是词库表中的词语总数，损失函数采用负对数似然函数，表示为：

其中，Input₁表示输入的不包含答案的文本段落，θ表示模型参数，A_i表示段落答案中的第i个词的生成结果，A′_i表示答案文本中的第i个词的真实标签，L_A表示答案中词的数量，L_M表示答案词填空任务的损失函数，P_M表示答案词填空的概率分布。

二、相关度预测任务。

所述相关度预测任务的目标是对输入的文本段落，使用文本段落中每个单词与答案在依存关系上的距离来衡量相关度S，并通过训练模型自动预测相关度。

首先，对文本段落进行依存句法分析(例如，可通过spaCy等工具实现)：对文本段落中的每个句子标记一个根节点词语，并以根节点为起点构建单向树，单向树中每个节点表示一个词，两个节点之间的连接表示两个词之间的依存关系；对于答案所在的句子，以答案中的词为中心，计算每个词在单向树上与答案词之间边的数量，将边的数量作为词与答案之间的相关度；如果答案中有多个词，则取距离最小的结果作为词与答案之间的相关度；对于不包含答案的句子，将句子中所有词与答案之间的相关度设置为默认最大值(例如，99)。

图2提供了一个针对文本段落进行相关度处理的示意图。输入文本数据包括：文本段落(凶猛的狗咬了瘦弱的猫)，以及答案(猫)。文本段落中“咬了”是根节点，“猫”是“咬了”的名词性宾语，“狗”是“咬了”的名词性主语，“瘦弱的”是“猫”的形容词，“凶猛的”是“狗”的形容词，则“猫”和答案的距离(相关度)是 0，“瘦弱的”和答案的距离(相关度)是1，“咬了”和答案的距离(相关度)是1，“狗”和答案的距离(相关度)是2，“凶猛的”和答案的距离(相关度)是3。

相关度预测任务是一个多分类任务，相关度S＝0,1,2,…,N是N+1类，输入的文本段落中的每个词的相关度必定属于其中一类，损失函数采用负对数似然函数，表示为：

其中，Input₂表示相关度预测任务和问题生成任务联合训练时使用的数据，包括：问题文本与包含答案的文本段落，在相关度测试任务时，仅使用其中包含答案的文本段落；θ表示模型参数，S_j表示文本段落中第j个词与答案之间的相关度预测结果，S′_j表示文本段落中第j个词与答案之间的相关度真实标签，L_T表示输入的文本段落中词的数量，L_S表示相关度预测任务的损失函数，P_S表示相关度预测的概率分布。

三、问题生成任务。

问题生成任务中答案是文本段落中一段连续的文本，期望训练模型连续迭代式地依次生成词，直到生成结束符号，最后用生成的词组成一个问题。

所述问题生成任务中采用的损失函数是问题中各词的生成概率分布与真实数据的负对数似然的均值，表示为：

其中，Input₂表示相关度预测任务和问题生成任务联合训练时使用的数据，包括：问题文本与包含答案的文本段落；此任务问题文本与包含答案的文本段落都需要使用；θ表示模型参数，Q_k表示问题中第k个的词的生成结果，Q′_k表示问题中第k个的词的真实标签，L_Q表示问题中词的数量，L_QG表示问题生成任务的损失函数，P_QG表示问题生成时问题中各词的生成概率分布。

本发明实施例中，上述三个任务所涉及的概率分布P_M、P_S、P_QG均通过深度卷积网络模型末端的全连接层和softmax层得到。四、多任务联合训练。

本发明实施例中，在传统的单任务训练问题生成模型的基础上，引入答案词填空任务和相关度预测任务联合训练。通过同时训练模型实现答案词填空任务，可以使模型捕捉到段落文本中各个词与答案词的潜在语义关联；通过同时训练计算相关度，可以使得答案词填空中学到的语义关联进一步获得增强。通过此种多任务联合训练的范式，模型将会更倾向于找到不同任务之间的共性，使得在最终的主任务上会得到额外的协同。

多任务联合训练的步骤是：先用答案词填空任务的损失函数作为模型的损失函数训练一轮(1epoch)，再用相关度预测任务和问题生成任务的损失函数相加作为模型的总损失函数训练一轮(1epoch)，交替进行，直到轮数达到设定的停止轮数超参数。

本发明实施例提供的上述方案可以应用到任意深度卷积网络模型，下面以预训练语言模型BERT为例介绍相关的训练过程。如图3所示，为训练流程图，所述预训练语言模型BERT包括：嵌入向量层、编码器层与输出层。

1)数据预处理(未在图中示出)。

本发明实施例中，需要根据任务对输入文本数据进行预处理。输入文本数据由开始符号[CLS]和分隔符号[SEP]隔开的问题文本Q和文本段落T组成。

输入的文本数据表示为：

其中，

表示问题文本Q中的词序列，L_Q表示词的数量，

表示文本段落T中的词序列，L_T表示词的数量。

本领域人员可以理解，答案是文本段落中的连续文本，通常情况下直接在文本段落中进行标记。例如，在Transformer、BERT等模型中标记的方法是将文本段落中属于答案的词和不属于答案的词在嵌入向量层分别加上答案词/非答案词嵌入向量；在LSTM、 RNN等模型中标记的方法是在文本段落中答案的前后各插入一个特殊的标记单词(例如 <answer>)。

答案词填空任务无需问题，也无需答案，在答案词填空任务的训练轮中将问题文本Q 中的词修改为占位符号[PAD]，将文本段落T中的答案文本修改为掩码标志符号[MASK]；在相关度预测任务和问题生成任务训练轮中，问题文本Q和文本段落T直接使用输入的文本数据，也就是说，前文定义的Input₂等同于Input。

2)嵌入向量层。

所述嵌入向量层将每个词的词嵌入向量Emb_word、句子嵌入向量Emb_sen、位置嵌入向量Emb_pos按元素相加作为最终的嵌入向量Emb，表示为：

Emb＝Emb_word+Emb_sen+Emb_pos

其中，词嵌入向量Emb_word指的是对输入文本数据中的每个词根据其在词表中的位置序号映射得到的一个可训练向量；句子嵌入向量Emb_sen指的是对输入文本数据中的每个词根据其所在句子的前后顺序映射得到的一个可训练的向量；位置嵌入向量Emb_pos指的是对输入文本数据中的每个词根据其所在数据中的位置映射得到的一个可训练的向量。

3)编码器层。

所述编码器层采用多层Transformer结构，输入为每个词的嵌入向量Emb，输出每个词的编码向量；在编码器层，添加掩码矩阵M，使得文本段落中的词计算注意力时只考虑文本段落中的词，而不考虑问题中的词，问题文本中的词计算注意力时只考虑文本段落中的词和问题文本中自身所在位置之前的词，而不考虑问题中自身所在位置之后的词，公式表示如下：

H＝Encoder_M(Emb)

其中，Encoder_M(*)表示带有掩码矩阵M的编码器层，H表示编码器层计算得到的隐向量。

4)输出层。

所述输出层包括：三个全连接和Softmax层，输出的概率分布分别用于答案词填空任务、相关度预测任务、问题生成任务，表示为：

P_M＝Softmax(fc_M(H₁))

P_s＝Softmax(fc_S(H₂))

P_QG＝Softmax(fc_QG(H₂))

其中，fc_*(*)表示全连接层，Softmax(*)表示Softmax层，P_M表示答案词填空的概率分布，P_S表示相关度预测的概率分布，P_QG表示问题生成的概率分布；H₁表示编码器层针对答案词填空任务所涉及的文本(也即前文定义的Input₁)所输出的隐向量，H₂表示编码器层针对相关度预测任务、问题生成任务所涉及的文本(也即前文定义的Input₂)所输出的隐向量。

本领域技术人员可以理解，相关度预测任务是与问题生成任务作为一轮进行联合训练的，因此，相关度预测任务是与问题生成任务是使用同一数据，由于相关度预测任务无需使用问题文本，执行相关度预测任务时不考虑问题文本的相关数据即可。

5)多任务联合训练。

先采用单一的答案词填空任务的损失函数作为模型训练的损失函数训练一轮(epoch)，公式表示如下：

再采用相关度预测任务和问题生成任务的损失函数相加作为模型的总损失函数训练一轮(epoch)，公式表示如下：

两轮训练交替进行，直到达到设定的总轮数。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于多任务联合训练的问题生成方法，其特征在于，包括：

2.根据权利要求1所述的一种基于多任务联合训练的问题生成方法，其特征在于，所述答案词填空任务中，将文本段落的答案删除，使用掩码标志符号[MASK]代替后作为输入数据，以删除的答案文本作为真实标签训练深度卷积网络模型生成掩码标志符号[MASK]处的单词；

答案词填空任务看做是一个多分类任务，每个[MASK]处的单词的类别数目是词库表中的词语总数，损失函数采用负对数似然函数，表示为：

3.根据权利要求1所述的一种基于多任务联合训练的问题生成方法，其特征在于，所述相关度预测任务中，首先对文本段落进行依存句法分析：对文本段落中的每个句子标记一个根节点词语，并以根节点为起点构建单向树，单向树中每个节点表示一个词，两个节点之间的连接表示两个词之间的依存关系；对于答案所在的句子，以答案中的词为中心，计算每个词在单向树上与答案词之间边的数量，将边的数量作为词与答案之间的相关度；如果答案中有多个词，则取距离最小的结果作为词与答案之间的相关度；对于不包含答案的句子，将句子中所有词与答案之间的相关度设置为默认最大值。

4.根据权利要求1所述的一种基于多任务联合训练的问题生成方法，其特征在于，所述问题生成任务中采用的损失函数是问题中各词的生成概率分布与真实数据的负对数似然的均值，表示为：

其中，Input₂表示相关度预测任务和问题生成任务联合训练时使用的数据，包括：问题文本与包含答案的文本段落；问题生成任务中问题文本与包含答案的文本段落都需要使用；θ表示模型参数，Q_k表示问题中第k个的词的生成结果，Q′_k表示问题中第k个的词的真实标签，L_Q表示问题中词的数量，L_QG表示问题生成任务的损失函数，P_QG表示问题生成时问题中各词的生成概率分布。

5.根据权利要求1～4任一项所述的一种基于多任务联合训练的问题生成方法，其特征在于，所述深度卷积网络模型包含预训练语言模型BERT；所述预训练语言模型BERT包括：嵌入向量层、编码器层与输出层；

输入文本数据由开始符号[CLS]和分隔符号[SEP]隔开的问题文本Q和文本段落T组成；答案词填空任务无需问题，也无需答案，在答案词填空任务的训练轮中将问题文本Q中的词修改为占位符号[PAD]，将文本段落T中的答案文本修改为掩码标志符号[MASK]；在相关度预测任务和问题生成任务训练轮中，问题文本Q和文本段落T直接使用输入数据的形式；输入文本数据表示为：

其中，

表示问题文本Q中的词序列，L_Q表示词的数量，

表示文本段落T中的词序列，L_T表示词的数量。

6.根据权利要求5所述的一种基于多任务联合训练的问题生成方法，其特征在于，所述嵌入向量层将每个词的词嵌入向量Emb_word、句子嵌入向量Emb_sen、位置嵌入向量Emb_pos按元素相加作为最终的嵌入向量Emb，表示为：

Emb＝Emb_word+Emb_sen+Emb_pos

7.根据权利要求5所述的一种基于多任务联合训练的问题生成方法，其特征在于，所述编码器层采用多层Transformer结构，输入为每个词的嵌入向量Emb，输出每个词的编码向量；在编码器层，添加掩码矩阵M，使得文本段落中的词计算注意力时只考虑文本段落中的词，问题文本中的词计算注意力时只考虑文本段落中的词和问题文本中自身所在位置之前的词，公式表示如下：

H＝Encoder_M(Emb)

8.根据权利要求5所述的一种基于多任务联合训练的问题生成方法，其特征在于，所述输出层包括：三个全连接和Softmax层，输出的概率分布分别用于答案词填空任务、相关度预测任务、问题生成任务，表示为：

P_M＝Softmax(fc_M(H₁))

P_S＝Softmax(fc_S(H₂))

P_QG＝Softmax(fc_QG(H₂))

其中，fc_*(*)表示全连接层，Softmax(*)表示Softmax层，P_M表示答案词填空的概率分布，P_S表示相关度预测的概率分布，P_QG表示问题生成的概率分布；H₁表示编码器层针对答案词填空任务所涉及的文本所输出的隐向量，H₂表示编码器层针对相关度预测任务、问题生成任务所涉及的文本所输出的隐向量。