CN114218379A

CN114218379A - 一种面向智能问答系统的无法回答问题的归因方法

Info

Publication number: CN114218379A
Application number: CN202111393720.5A
Authority: CN
Inventors: 赵翔; 廖劲智; 唐九阳; 谭真; 李欣奕; 蔡飞; 方阳
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2022-03-22
Anticipated expiration: 2041-11-23
Also published as: CN114218379B

Abstract

本发明公开了面向智能问答系统的无法回答问题的归因方法，获取不可回答问题；使用连续模板来转换输入问题的上下文和归因类；使用预训练语言模型将连续模板嵌入到高维向量空间中；使用基于prompt的MLM模块确定标签集中的哪个标签可填充输入中的[MASK]；面向原因的模板模块使用数据驱动的方法为模板构建指导信号；语义感知的标签模块对标签集中的标签进行编码，以将它们的表示保持在与输入相同的语义空间中；将监督标签是不可回答原因的预定义类，使用交叉熵损失函数计算损失，并反向传播以更新预训练语言模型；输出不可回答问题的归因。本发明特定于任务的设计能够更好地启发模型，从而实现最先进的性能。

Description

一种面向智能问答系统的无法回答问题的归因方法

技术领域

本发明属于自然语言处理技术领域，尤其涉及一种面向智能问答系统的无法回答问题的归因方法。

背景技术

当前的问答系统因无法判断给定上下文是否可以回答特定问题而不足以面对真实场景下的实际问题。因此，最近学界和工业界出现了对问题的不可回答性及其归因的研究需求。对无法回答问题的归因要求系统为这些问题选择合适的原因。由于这项任务对人类来说十分复杂，标记数据的成本很高，这使其成为低数据资源问题。而且，原因复杂，需要仔细对比问题和上下文，这大大增加了任务的难度。

问答(QA)长期以来一直是自然语言处理(NLP)中的圣杯。然而，当前的QA系统还无法在实际场景下应用，因为它们很难确定一个问题是否可以回答。

具体来说，主流QA模型依赖于问题的答案一定在相关上下文中出现的假设，因此，它们会始终返回与问题最相关的文本片段作为答案，例如RM-Reader。然而，这在现实生活中是不正确的，因为有些问题无法根据文本回答，正如SQuAD2.0所努力证明的那样。

最新的研究进一步建议对无法回答的问题进行归因以定位其深层原因。举例来说，脱胎于SQuAD2.0的SQuAD2-CR就是一个关注归因问题的数据集，其部分样本数据如图1所示，对给定的相关文本，数据中存在与文本内容相关的归因类别不同的不可回答问题。

给定一个问题“What year did BSkyB remove Sky Italia？”及其相关的上下文文本，问答系统要能够辨别“acquisition”和“remove”两个浅色文本之间差异性，进而判断导致其不可回答的原因是“Antonym”。

本发明将此类任务称为对无法回答问题的归因。根据问题及其上下文，将无法回答的问题归入与不可回答原因有关的预定义类别之一，其中包括“Entity Swap”，“NumberSwap”，“Negation”，“Antonym”，“Mutual Exclusion”以及“No Information”。

该任务尽管在形式上是多分类问题，但极具挑战性。首先，归因是一项复杂的任务，精确标记问题和对应原因对不仅昂贵而且耗时。这就导致了低数据资源的问题，进而为充分训练机器学习模型设置了障碍(问题一)。其次，与主要依赖文本本身语义的常规文本分类不同，还需要将问题(当中的关键部分)与上下文之间的细微差别进行对比，然后基于此以决定最合适的类(问题二)。最后，原因的类别本质上是复杂的，在这种意义上，如果不了解问题的语义或将问题与上下文联系起来，就不容易对无法回答的问题继续进行归因(问题三)。

为了处理这个任务，直觉的想法是遵循标准的预训练+微调范式。基线模型通过应用预训练语言模型(PLM)来执行归因，以获得高维向量空间中问题和上下文的表示，然后训练分类器根据向量表示来预测原因。然而基线的不足在于其性能高度依赖于数据集的规模。因为训练分类器是一个典型的微调过程，需要大量数据。更值得注意的是它没有解决归因任务的核心问题。

在最近研究prompt(人工提示)的趋势中，利用prompt将分类问题转换为完形填空题，以统一预训练和微调两个阶段，通过这种方式可以减轻对数据的依赖。GPT-3的突破性性能推动了prompt学习的发展，因为可以通过手动调整prompt或描述来涵盖多个下游任务。考虑到GPT-3拥有1750亿的可学习参数，需要研究prompt的优化。

受预训练语言模型的启发，PET将下游任务重新表述为完形填空题，避免了传统预训练+微调学习框架之间的任务差距。具体来说，PET设计了一个带有掩码标记[MASK]和相关类映射函数M(·)的模板，然后强制PET预测掩码标记以将文本分类任务转换为掩码语言模型(MLM)。

由于PET中的提示是人工制作的，因此需要领域专业知识和对特定下游NLP任务的理解。为了解决这个问题，AUTOPROMT尝试基于梯度引导搜索为不同的任务自动创建模板。此外，AUTOPROMT还可以找到相应的标签。然而，梯度驱动搜索需要AUTOPROMT中的大量样本。因此，LM-BFF被提出来自动生成提示，通过配备T5，LM-BFF可以生成一组多样化的模板。

这些方法都是基于模板的自然语言(即离散)形式。但是，由于神经网络本质上是连续的，因此在prompt学习中可能无关紧要。直观地说，P-tuning和Prefix-tuning用连续的prompt代替了离散的文本设计。没有人工设计或自动生成，他们引入了一些可学习的词表示来获得系统可以理解的prompt。

发明内容

当前的研究更多地关注prompt的构建，而任务特征往往被忽视。换句话说，许多潜在的线索仍然存在，可以指导系统的学习过程。本发明发现不需要引入额外的可学习参数，利用这些信息有效地缓解问题二和三。

有鉴于此，本发明构建了一个基于prompt-tuning的框架来处理任务，即PTAU(prompt-tuning model for attributing unanswerable questions)。该框架的模型基础取自PLM(例如BERT和RoBERTa)，本发明通过进一步的对模板和标签的定制化设计以解决归因任务中的难题。

值得注意的是，由于归因的原因各不相同，因此基本模板如“It was[MASK].”不足以启发模型，尤其是在数据稀缺的情况下。理想情况下，应为每个原因设计特定的模板；例如，“the question is irrelevant to the context,so the cause is[MASK].”用于“Noinformation”类。但是，因为构建合适的模板需要人工参与导致了该过程难以实现。本发明利用通过原型计算的每个类的共性特征作为监督信号来指导模板在高维向量空间中的调整。特定原因模板有望为模型提供更多线索，并使其能够更好地关注问题和上下文的关键部分。此外，基线模型无法捕捉给定数据的原因类别的语义差异，因为原因(或标签)的数量大于现存prompt-tuning模型使用的数量和类别，后者如“是/否”和“正/负”。标签对于明确类别并将问题与上下文联系起来至关重要。因此，需要能够精确反映原因类别的包含丰富的标签来提高性能。

本发明公开的面向智能问答系统的无法回答问题的归因方法，应用于基于预训练语言模型的智能问答系统，所述智能问答系统包括编码器，基于prompt的MLM模块、面向原因的模板模块和使用语义感知的标签模块，所述方法包括以下步骤：

获取不可回答问题；

使用连续模板来转换输入问题的上下文和归因类；

使用预训练语言模型将所述连续模板嵌入到高维向量空间中；

使用基于prompt的MLM模块执行masked token预测任务，以确定标签集中的哪个标签可填充输入中的[MASK]；

所述面向原因的模板模块使用数据驱动的方法为模板构建指导信号；

使用所述语义感知的标签模块对标签集中的标签进行编码，以将它们的表示保持在与输入相同的语义空间中；

将基于prompt的MLM模块、面向原因的模板模块和语义感知的标签模块的监督标签作为不可回答原因的预定义类，使用交叉熵损失函数计算损失，并反向传播以更新预训练语言模型；

输出不可回答问题的归因。

进一步的，预训练语言模型包括BERT，RoBERTa之一。

进一步的，所述基于prompt的MLM模块将问题、其对应的上下文和设计的模板结合起来，将无法回答的问题的归因从多选式转变为完形填空式，形式如下：

T(I)＝[CLS]C[SEP]q,[P¹]…[MASK]…[P^m].[SEP].

其中，[CLS]符号对应的输出向量作为文本的语义表示，用于文本分类，[SEP]表示分句符号，用于断开输入语料中的两个句子，C表示相关文档，q表示给定的问题，该完形填空的目标是从V中选择适当的标签以填充[MASK]；

将组合文本输入预训练语言模型以获取其表示E_I，MLM头产生基于概率分布的[MASK]表示E_m；

计算预测概率。

进一步的，所述连续模板包含多个可学习的表示。

进一步的，所述面向原因的模板模块使用数据驱动的方法为模板构建指导信号包括：

使用编码器进行学习优化以获得训练数据的句子表示，所述训练数据包括文本和文本的类标签，所述句子表示E是[CLS]的embedding；

如果训练数据的类标签在标签集中，将该类标签的模板原型表示与所述训练数据的句子表示累加到该类标签的模板原型表示中；

得到模板原型表示E_tp后，使用平均值函数得到连续模板的表示，如下所示：

其中E_t表示连续模板的向量表示，E_P表示字符的向量表示，m表示模板中字符的数量；

使用点积计算连续模板的向量表示在高维向量空间中向量表示与归因中对应类别的表示的相似度。

进一步的，所述语义感知的标签模块对标签集中的标签进行编码，以将它们的表示保持在与输入相同的语义空间中包括：

通过所述编码器，获得[MASK]的表示。

使用所述编码器对每个类的标签进行高维向量空间映射，获得标签的表示，在映射过程中，不将标签与输入连接以避免噪声干扰；

经过预训练语言模型优化标签的表示之后，更新标签的表示以保证输入和标签的表示在相同的语义空间中；

将标签向量表示视为指导[MASK]表示学习的锚点，使用点积来计算[MASK]与标签之间的相似度。

进一步的，使用多任务学习方式，基于prompt的MLM模块、面向原因的模板模块和使用语义感知的标签模块都以端到端的方式进行训练。

进一步的，所述端到端的方式进行训练包括：给定标签L，使用交叉熵损失函数CE来计算每个模块的损失值。

本发明的有益效果如下：

首次对归因无法回答问题的主要挑战进行深入调研，识别该任务中的关键挑战，提出了PTAU来克服当前基线模型的局限性，具体包含：面向原因的模板模块来指导系统构建更多特定于任务的模板，以及语义感知标签模块通过放大的语义信息来丰富学习过程。

引入了prompt-tuning的思想来处理任务，将面向原因的模板模块和语义感知标签模块结合在一起共同强化了促进基于prompt的语言模型。综合实验表明，PTAU优于所有比较方法。实验证明了该方法的有效性和在各种数据稀缺规模上的优越性。

附图说明

图1SQuAD2-CR样例示意图；

图2本发明的PATU架构示意图；

图3在不同数据规模上不同模型结果示意图。

具体实施方式

下面结合附图对本发明作进一步的说明，但不以任何方式对本发明加以限制，基于本发明教导所作的任何变换或替换，均属于本发明的保护范围。

本部分正式确定无法回答问题的归因任务，并介绍了所提出的方法，包括框架和模块细节。

1任务描述

在对无法回答问题的归因中，系统需要根据对相关上下文的理解，从候选原因集中确定一个类别来对无法回答的问题进行归因。可能有一组问题Q＝(q¹,...,qⁿ)对于一个上下文C。这些问题的类别各不相同，因为它们关注上下文的不同部分或同一部分的不同方面。

2模型框架

同一个PLM在即时学习的基本假设中执行编码、预测和优化。本发明提出了两个新颖的模块来修剪可学习参数，缓解无法回答问题归因中的低数据资源问题。PTAU的框架如图2所示。

本发明设计了一个连续的模板T来转换输入中的上下文和归因类，然后使用某个PLM将其嵌入到高维向量空间中。然后基于prompt的MLM模块执行masked token预测任务，这是一个自监督任务，以确定V中的哪个标签可以填充输入中的[MASK]。

通过应用灵活的连续模板，面向原因的模板模块尝试使模板吸收每个类的特征以缓解问题二。在更新PLM之前，本发明使用原始模型来表示训练样本，以根据它们的类标签获取每个原因的共性特征表示。当输入一个样本时，其对应的特征作为相似性信号与高维向量空间中的连续模板进行匹配。

此外，考虑到问题三，为了进一步利用归因中复杂的类别信息，设计了语义感知的标签模块通过引入标签语义来强化系统。使用相同的PLM对V中的标签进行编码，以将它们的表示保持在与输入相同的语义空间中。之后，这些表示引导[MASK]的表示变得类似于基本事实。

上述模块的监督标签是不可回答原因的预定义类，使用交叉熵损失函数计算损失。所有值最终反向传播以更新PLM，在某种程度上可以看作是一个多任务学习框架。

3基于prompt的MLM模块

形式上，prompt P包括模板T和标签集M(Y)→V。Y表示无法回答的问题的属性类别，例如，entity swap和no information。M是将Y映射到从PLM词汇表中选择的标签词V的内射连接函数。具体来说，模板定义了特定的外部词、连接位置和插入到任务原始输入中的[MASK]标记。例如，在离散模板中，“It was[MASK].I”的PET，“It was[MASK].”是人工制作的单词，输入I放在它后面。V是用于替换[MASK]的标签集。按照上面关于情感分类的PET示例，可以将正类映射到标签“good”，将负类映射到“bad”。一旦系统用“good”填充[MASK]，输入的句子就是表达正面态度。

为了将无法回答的问题的归因从多选式转变为完形填空式，本发明将问题、其对应的上下文和设计的模板结合起来，形式上，

T(I)＝[CLS]C[SEP]q,[P¹]…[MASK]…[P^m].[SEP].

当中C表示相关文档，q表示给定的问题。该完形填空的目标是从V中选择适当的标签以填充[MASK]。

然后将组合文本输入PLM(例如，BERT或RoBERTa)以获取其表示E_I。MLM头可以产生基于概率分布的[MASK]表示E_m。随后将计算预测y∈Y概率的过程形式化为

其中w_(·)表示对应于v∈V的pre-softmax表示。预训练的权重w_(·)也再次证明了没有引入新参数。

4面向原因的模板模块

连续模板本质上包含一些可学习的表示，例如图2中的

以前的研究忽略了它们的含义，会使得这些表示的学习不受系统控制。但是，如果模板中包含属性类的信息，系统在训练过程中将获取潜在线索以确定问题与相关上下文之间的关系，有助于解决无法回答问题归因中的问题二。

因此，本发明尝试通过吸收每个类的共性特征来构建特定于原因的模板。但是，如果将人工定义的目标模板构建为连续模板学习的目标，问题将退回如何手动找到高质量模板。当前的研究忽略了数据集的全局信息，而同一类中的实例可能存在共同特征。受每个类可能存在一个原型表示的假设启发，本发明设计了一种数据驱动的方法来为模板构造构建指导信号。该过程在算法1中简要说明。

在算法中，使用与训练阶段一致的训练数据集D_train。换句话说，当在不同规模的数据上进行实验时，计算原型表示的样本数量会发生变化。编码器Enc与基于prompt的MLM模块中的编码器相同，本发明在对其进行学习优化之前执行算法以获得目标表示。在第2行中，l表示对应文本t的类标签。与图2中文本的输入形式不同，模板没有作为组合文本的一部分，即I＝[CLS]C[SEP]q[SEP]。遵循PLM的默认设定，第3行的句子表示E是[CLS]的embedding。对于嵌入E_tp的模板原型。在添加所有表示并计算每个类的平均值后，E_tp最终在一定程度上包含了共同特征，并被视为引导特定原因模板学习的监督信号。

得到模板原型表示E_tp后，下一步就是得到连续模板的表示。本发明使用在算法中使用过的平均值函数，如下所示，

其中E_t表示模板的向量表示，E_P表示字符的向量表示，m表示模板中字符的数量。随后，E_t的学习目标为其在高维向量空间中向量表示与归因中对应类别的表示越相似越好。因此，使用了点积来计算它们的相似度，数学形式如下，

其中，s_t(y|I_P)表示模板与y∈Y的共性特征之间的相似性。

当一个新问题和相关上下文出现时，该过程可以促进PLM在训练中的优化，使得PLM在对模板进行表示时考虑更多的与文本相关的归因类别信息。

5语义感知的标签模块

以往分类任务中的类别相对比较简单，比如“是/否”和“正/负”。这种情况可能会使相应的标签不包含太多信息。然而，当任务变得更具挑战性时，由于类型种类复杂，忽略标签语义可能不利于系统优化。以SQuAD2-CR为例，其包含entity swap,number swap,antonym,negation,mutual exclusion以及no information六个属性类，用于归因无法回答的问题。这些归因类别本身不容易理解(问题二)，甚至会影响分辨问题和相关上下文细微差别的过程(问题三)。

如基于prompt的MLM模块中所示，prompt-tuning的典型过程是将类别映射到一组标签M(Y)→V。通过内射连接函数，使得每个类在PLM的词汇表中都有一个对应的索引。系统将学习如何把输入分到词汇表one-hot向量中的适当位置。然而，该过程仅将这些标签视为监督的信号，而忽略了它们的语义信息。

因此，为了进一步解决问题，本发明将标签的语义信息添加到学习过程中。通过编码器(PLM)，可以获得[MASK]的表示(即E_m)。由于希望系统能够利用语义信息，首先对每个类的标签进行高维向量空间映射。在过程中，对输入T(I)使用相同的编码器，但不将标签与其连接以避免噪声干扰，如图2所示。因此，获得了标签的表示，即E_l。值得注意的是，在PLM优化之后，E_l也会更新以保证输入和标签的表示在相同的语义空间中。

最后，将标签向量表示视为指导[MASK]表示学习的锚点，同样使用点积来计算它们的相似度，形式上，

其中s_l(y|I_P)表示[MASK]与标签y∈Y之间的相似度。

该过程使PLM对标签的语义更加敏感，从而增强了系统在测试阶段区分不同归因类别的能力。

6模型训练与预测

总的来说，PTAU遵循多任务学习框架，所有模块都以端到端的方式进行训练。具体来说，给定标签L，使用交叉熵损失函数CE来计算每个模块的损失值，如下所示，

其中P表示从等式1得到的概率分布，St表示从等式3得到的相似度分布，Sl表示从等式4得到的相似度分布。

最后，得到PTAU的综合损失，并在同一训练集学习所有可训练参数，即，

其中，α,β,γ∈(0,1)是控制损失值数量级的超参数。

PTAU训练完成后，仅使用基于prompt的MLM模块进行预测。即给定一个测试实例T(I_test)，它首先将句子的单词编码到高维向量空间中，然后使用MLM头获取V中的概率分布。概率最高的标签最终可以通过映射函数M(Y)。

以下部分通过实验验证本发明的方法有效性。关于数据集，本发明主要基于SQuAD2-CR数据进行评估，主要包括SQuAD2.0中无法回答的问题，和对应的原因(即六个归因类别的原因)的注释，以实现对模型预测的描述性分析，如表1所示。对于模型优化，将训练数据集按照4:1的比例拆分为训练集和验证集。在提取小分割数据集时，遵循与SQuAD2-CR相同的数据分布以保持样本平衡。

表1数据集统计表

对比模型。为了更有说服力地评估模型，本发明采用了几个最先进的竞争方法：1)标准Fine-tune，首先对输入进行编码，然后使用分类器基于[CLS]向量表示预测结果；2)PET，首先尝试手动构建模板，将输入示例重构为完形填空题，并利用MLM头进行预测；3)P-tuning将连续模板引入到prompt-tuning中，其他设置与PTAU相同；4)LM-BFF使用T5自动生成模板，其他设置与PTAU相同。为了避免超参数的错误，每个实验都遵循原始论文中的默认参数。

模型细节：PTAU基于Transformers工具包实现，大多数超参数是根据Transformers默认参数设定。除在LM-BFF中生成模板时使用了Tesla V10032G服务器，其余实验均在GTX 2080Ti上进行。所有PLM均采用其基础版本，即BERT(base)和RoBERTa(base)。平衡损失值，α＝0.4,β＝0.4,γ＝0.2。模板的长度m＝4。类别映射函数M(Y)→V,实验中的V手动设计为{H：none，E：entity，#：number，N：negative，A：counter，X：exclusive，I：missing}。此外，所有实验中都使用准确度(Acc)作为评测指标。

PTAU优于对比方法，证明了所提出的模块在解决问题一、二和三方面的优越性和有效性，如表2所示。而Fine-tune未考虑三个挑战中的任意一个，PTAU比Fine-tune结果平均高出12.14％证明了这些挑战在无法回答问题的归因方面的重要性。此外，其他基于prompt的方法获得的性能相对较差，表明所有问题都应同时考虑。

表2总体结果表

表2以精度作为评价指标，其中黑体表示综合结果的最高值，下划线表示各类结果的最高值。本发明的方法并未在所有类别中都达到最优性能，并且结果的排名因采用的PLM不同而有所变化。这可能是由PLM的不同编码偏好所致。由于问题一存在，每种PLM都无法得到充分优化，极易导致对词的编码表示陷入局部最优。而本发明独特设计的两个模块可以帮助PTAU缓解这个问题，但整体性能的平衡可能会导致特定类的结果下降。然而，与其他类别相比，PTAU可以在每个类别中获得与最优结果相媲美的分数。

与手动构建模板的PET相比，PTAU平均提高了4.85％。该结果表明本发明的方法可以涵盖复杂归因类的特征，避免了离散模板的不足和不灵活性。此外，PTAU和LM-BFF之间的差距相对较小，平均为2.21％。原因可能是它在训练过程中首先使用T5自动生成相对复杂的精致模板，例如“*cls**sent 0*Which of the following is*mask*of the above？Why？*sep+*”，这些长而有意义的文本可以为系统提供更多信息。但这个过程需要很长时间，例如在本发明的测试中需要几天。

值得注意的是LM-BFF未使用连续模板，但在RoBERTa中的表现优于P-tuning，尽管PTAU优于LM-BFF和P-tuning。事实证明，虽然连续模板可以灵活省时，但系统应该引导优化方向，以提高模板质量。否则，设计良好的离散模板比连续模板要好。

很明显，所有方法在X(即MutualExclusion)和I(即NoInformation)类上的表现都很差。如表1所示，X仅占训练数据Dtrain的2.4％，导致模型在该类上的训练不充分。当减小Dtrain的规模时，这种现象会进一步恶化。I表示所提问题与内容无关，需要系统完全理解上下文。此类中的特征本质上难以捕捉，更不用说仅采用相对较少的训练样本(即6.3％)。

为了分析PTAU不同模块的影响，本部分进行了消融研究，结果如表3所示。在每个设置中，均移除一个模块并保持其余模块完好。

表3消融实验结果表

表2中下划线表示当前PLM中完整模型的结果。与完整模型的结果相比，一旦语义感知标签模块被移除，性能就会出现断崖式下降(即在BERT为1.26％，在RoBERTa为1.87％)。这意味着标签语义是增强即时学习的重要特征。在每个PLM中删除面向原因的模板模块时也会发生类似的减少，但减少的幅度较小。

导致这种现象的第一个原因可能是模块的不同学习目标。与面向原因的模板模块相比，语义感知标签模块旨在用标签的语义丰富PTAU，这可能与最终的归因类别预测直接相关。另一个原因在于利用D_train的共性特征的设计。基于原型的过程可能无法充分表示这些特征。最后但同样重要的一点是，问题三在无法回答的问题的归属方面可能对问题二产生更重要的影响。

接下来进一步考察本发明在数据规模上的表现，系统地评估解决问题一、二和三的性能可能很棘手。本发明按照每个类中的原始数据分布从整个训练数据集中随机抽样，以从侧面评估这一问题。数据规模集为(1/5,1/10,1/20)，如图3所示。图3为不同数据规模上不同模型结果示意图。横轴表示训练数据的规模，本图中选取综合结果的打分作为评价指标，RoBERTa指定为PLM PTAU和Fine-tune之间的差距距离虽有波动，但仍然表明本发明所探讨的挑战在无法回答的问题的归因方面的重要性。尽管PTAU采用与P-tuning类似的策略来构建连续模板，但在所有数据规模上都优于P-tuning，这种现象意味着连续模板不足以处理问题二，因为P-tuning的模板无法为系统提供有关原因的线索。

进一步考察本发明在不可回答性上的表现，在实际情况中，问题的类型往往不确定，这意味着有些问题可能是可以回答的。因此，本发明在数据集中引入一个了可回答的类，并将所有不可回答的问题归入同一不可回答类以测试系统确定问题的不可回答性的能力。

按照SQuAD2.0中的数据拆分(即，可回答问题的数量是不可回答问题的数量的三倍)，将可回答问题随机添加到SQuAD2-CR并选用了在SQuAD2.0中最具代表性的模型Retro-Reader作为对比方法。结果如表4所示，证明低数据资源问题也显着影响不可回答性预测的性能。

表4不可回答性预测结果表

表中Acc表示精度，下划线表示最优结果。如前所述，Retro-Reader包含一个称为TAV的强化阅读阶段，它应用启发式策略来增强先前的预测。可以从表中看到配备TAV的Retro-Reader显着减少(即25.70％)。该现象表明当数据规模变小时(即问题一)，精心设计的模块无法得到充分优化，甚至会伤害到主干模型。

本发明的有益效果如下：

本发明所使用的词语“优选的”意指用作实例、示例或例证。本发明描述为“优选的”任意方面或设计不必被解释为比其他方面或设计更有利。相反，词语“优选的”的使用旨在以具体方式提出概念。如本申请中所使用的术语“或”旨在意指包含的“或”而非排除的“或”。即，除非另外指定或从上下文中清楚，“X使用A或B”意指自然包括排列的任意一个。即，如果X使用A；X使用B；或X使用A和B二者，则“X使用A或B”在前述任一示例中得到满足。

而且，尽管已经相对于一个或实现方式示出并描述了本公开，但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型，并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件等)执行的各种功能，用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示)，即使在结构上与执行本发明所示的本公开的示范性实现方式中的功能的公开结构不等同。此外，尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开，但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或其他特征组合。而且，就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言，这样的术语旨在以与术语“包含”相似的方式包括。

本发明实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以多个或多个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器，磁盘或光盘等。上述的各装置或系统，可以执行相应方法实施例中的存储方法。

综上所述，上述实施例为本发明的一种实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种面向智能问答系统的无法回答问题的归因方法，其特征在于，应用于基于预训练语言模型的智能问答系统，所述智能问答系统包括编码器，基于prompt的MLM模块、面向原因的模板模块和使用语义感知的标签模块，所述方法包括以下步骤：

获取不可回答问题；

使用连续模板来转换输入问题的上下文和归因类；

输出不可回答问题的归因。

2.根据权利要求1所述的面向智能问答系统的无法回答问题的归因方法，其特征在于，预训练语言模型包括BERT，RoBERTa之一。

3.根据权利要求1所述的面向智能问答系统的无法回答问题的归因方法，其特征在于，所述基于prompt的MLM模块将问题、其对应的上下文和设计的模板结合起来，将无法回答的问题的归因从多选式转变为完形填空式，形式如下：

其中，[CLS]符号对应的输出向量作为文本的语义表示，用于文本分类，[SEP]表示分句符号，用于断开输入语料中的两个句子，C表示相关文档，q表示给定的问题，该完形填空的目标是从标签集V中选择适当的标签以填充[MASK]；

计算预测概率。

4.根据权利要求1所述的面向智能问答系统的无法回答问题的归因方法，其特征在于，所述连续模板包含多个可学习的表示。

5.根据权利要求1所述的面向智能问答系统的无法回答问题的归因方法，其特征在于，所述面向原因的模板模块使用数据驱动的方法为模板构建指导信号包括：

6.根据权利要求1所述的面向智能问答系统的无法回答问题的归因方法，其特征在于，所述语义感知的标签模块对标签集中的标签进行编码，以将它们的表示保持在与输入相同的语义空间中包括：

通过所述编码器，获得[MASK]的表示；

7.根据权利要求1所述的面向智能问答系统的无法回答问题的归因方法，其特征在于，使用多任务学习方式，基于prompt的MLM模块、面向原因的模板模块和使用语义感知的标签模块都以端到端的方式进行训练。

8.根据权利要求7所述的面向智能问答系统的无法回答问题的归因方法，其特征在于，所述端到端的方式进行训练包括：给定标签L，使用交叉熵损失函数CE来计算每个模块的损失值。

9.根据权利要求8所述的面向智能问答系统的无法回答问题的归因方法，其特征在于，所述交叉熵损失函数CE来计算每个模块的损失值，如下所示：

其中

表示所述基于prompt的MLM模块的损失函数，

表示所述面向原因的模板模块的损失函数，

表示所述使用语义感知的标签模块的损失函数，P表示概率分布，St表示模板与y∈Y的共性特征之间的相似度分布，Sl表示[MASK]与标签y∈Y之间的相似度分布；

计算综合损失，并在同一训练集学习所有可训练参数，即，

其中，α,β,γ∈(0,1)是控制损失值数量级的超参数。