CN115293142A

CN115293142A - 一种基于词典增强预训练模型的常识问答方法

Info

Publication number: CN115293142A
Application number: CN202210836783.1A
Authority: CN
Inventors: 张寅�; 陈强龙; 李凤麟; 徐国海; 张佶
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2022-11-04

Abstract

本发明公开了一种基于词典增强预训练模型的常识问答方法。本发明包括如下步骤：1)词典知识清洗；2)在预训练过程中，采用描述‑实体预测和实体判别两个预训练任务，将实体‑描述以及同义词、反义词送到模型编码层；3)通过传统的拼接式或外跳注意力机制与外挂相结合的手段，捕捉词典增强的预训练模型在常识问答任务下的实体表征，从而建立更强的任务相关的表征。和现有技术相比，本发明利用了专家构建的词典中蕴含的知识，并且利用任务特定输出层和外跳注意力机制，较好地建模目标任务的特性，可以有效地提升模型在知识驱动型常识问答的效果。

Description

一种基于词典增强预训练模型的常识问答方法

技术领域

本发明属于自然语言处理领域，具体涉及对比学习和词典增强的预训练模型在知识驱动的问答与自然语言理解上的应用。

背景技术

预训练的语言模型(PLMs)，如BERT、RoBERTa、ALBERT，由于其在各种自然语言处理(NLP)任务上的最先进的性能，在学术界和工业界都很流行。然而，由于它们只捕获了从大规模语料库中学习的一般语言表征，在处理知识驱动的任务时，它们被证明是缺乏知识的。为了应对这一挑战，许多工作，如 ERNIE-THU、KEPLER、KnowBERT、K-Adapter和ERICA，都是为了将知识注入PLMs以进一步改进。

常识问答是预训练的语言模型的一个典型应用场景。然而，现有的知识增强型PLM仍然存在着一些缺陷。首先，很少有方法关注知识本身，包括需要什么类型的知识以及获取这些知识的可行性。一方面，一些模型认为使用知识图谱 (KG)是理所当然的，而这在实践中是很难获得的，并被证明不如字典知识那样有效。另一方面，许多方法使用维基百科，而维基百科更容易获取，但往往是有噪声的，而且知识密度低。第二，目前的K-PLMs主要集中在一两类知识驱动的任务上。尽管它们在一些特定的任务上被证明是有用的，但它们的语言理解能力要么没有在GLUE上得到进一步验证。

因此，在常识问答领域中，如何提高PLMs的效果和性能，是目前亟待解决的技术问题。

发明内容

本发明目的是解决现有技术中存在的问题，并提供一种基于词典增强预训练模型的常识问答方法。

受字典知识比结构化知识更有效的启发，本发明利用字典资源作为外部知识来提高PLMs的效率。根据相关经验，这样做的有点如下：首先，它与人类的阅读习惯和认知过程是一致的；在阅读过程中，当遇到不熟悉的单词时，人们通常会查阅字典或百科全书。第二，与维基百科的长篇文字相比，字典知识更加简洁，知识密度高。第三，字典知识更容易获取，这对K-PLMs的实际应用具有重要意义，即使在缺乏字典的情况下，也可以通过简单地构建一个生成器来总结解释一个词的描述而获得。

本发明具体采用的技术方案如下：

一种基于词典增强预训练模型的常识问答方法，其步骤如下：

S1：获取多个词典知识作为训练语料，并将各语料样本预处理为相同的输入格式；每个语料样本的内容包括词条和词条的定义描述，同时每个词条还对应有正样本和负样本，正样本中包含词条的同义词和同义词的定义描述，负样本中包含词条的反义词和反义词的定义描述；

S2：以BERT或RoBERTa作为原始编码器模型，利用训练语料对编码器模型进行训练，更新编码器模型参数，得到词典增强的编码器模型；具体训练步骤如S21～S22：

S21：对训练语料进行采样，并对部分采样到的词条进行掩码处理，遮盖词条实体内容，形成用于通过描述预测词条实体的第一样本，其余采样到的词条直接作为第二样本；

S22：同时通过描述-实体预测预训练任务和实体判别预训练任务对所述编码器模型进行迭代训练，训练的总损失为两个预训练任务损失的加权和；

在描述-实体预测预训练任务中，将S21中采样得到的第一样本送入所述编码器模型中，得到对应的隐藏层状态，再通过池化层和全连接层进行掩码预测，并计算掩码预测损失作为描述-实体预测预训练任务的损失；

在实体判别预训练任务中，利用S21中采样得到的第二样本并结合对应的正样本和负样本，进行对比学习，由编码器模型获取每个样本对应的词条和定义描述的表征，计算对比学习损失作为实体判别预训练任务的损失，以拉近同义词表征距离，分离反义词之间的表征距离；

S3：完成S2中的模型训练后，结合所述词典增强的编码器模型和原始编码器模型形成双塔编码器模型，并在双塔编码器模型后连接问答任务输出层，得到问答模型；其中，双塔编码器模型的输入为问题文本，输入的问题文本经过原始编码器模型得到第一表征，同时基于词典对输入的问题文本进行匹配以识别出问题文本中的所有词条，识别出的词条经过所述词典增强的编码器模型得到第二表征，将第一表征和第二表征融合后输入问答任务输出层中进行回答预测；基于问答数据集对所述问答模型中的原始编码器模型和问答任务输出层进行微调；

S4、基于S3中微调完毕后的所述问答模型，根据输入的问题预测得到问题的答案。

作为优选，所述问答模型中，原始编码器模型对输入的问题文本进行编码最终输出[CLS]标记的隐藏状态作为第一表征h_c，而所述词典增强的编码器模型分别对每一个识别出的词条进行编码，最终输出每一个词条的词嵌入，将所有词条的词嵌入相加后的总和作为第二表征

作为优选，所述问答模型中，原始编码器模型对输入的问题文本进行编码最终输出[CLS]标记的隐藏状态作为第一表征h_c，而所述词典增强的编码器模型分别对每一个识别出的词条进行编码，最终输出每一个词条的词嵌入，通过注意力机制计算所有词条的词嵌入加权和作为第二表征

其中：ATT表示注意力函数，h^c作为注意力函数的键(Key)和值(Value)， e_i作为注意力函数的查询(Query)，e_i表示第i个识别的词条或者词条与其定义描述通过所述词典增强的编码器模型得到的最终输出，K是从问题文本中识别到的词条总数。

作为优选，所述问答模型中，原始编码器模型对输入的问题文本进行编码最终输出[CLS]标记的隐藏状态作为第一表征h_c，而所述词典增强的编码器模型分别对每一个识别出的词条进行编码，提取所述原始编码器模型和所述词典增强的编码器模型各自的每一层输出，并通过注意力机制计算任意第l层输出的所有词条的词嵌入加权和

然后将所有层的词嵌入加权和

进行平均得到第二表征

其中，h_l表示问题文本输入原始编码器模型后在模型第l层的输出，

表示第 i个识别的词条或者词条与其定义描述输入所述词典增强的编码器模型后在模型第l层的输出；aTT表示注意力函数，h_l作为注意力函数的键(Key)和值(Value)， e_i作为注意力函数的查询(Query)；L表示所述原始编码器模型和所述词典增强的编码器模型中的总层数，K是从问题文本中识别到的词条总数。

作为优选，所述问答模型中，通过得到的第一表征h_c和第二表征

拼接后输入问答任务输出层中进行回答预测。

作为优选，所述S1中，每个语料样本中的词条e和定义描述desc均通过增加 [CLS]和[SEP]预处理为相同的输入格式s＝{[CLS]e[SEP]desc[SEP]}。

作为优选，所述S22中，掩码预测损失L_dep采用交叉熵损失。

作为优选，所述S22中，对比学习损失L_edd计算公式如下：

其中：e表示训练语料中的词条，D表示训练的词条集合；

分布表示语料样本、正样本、负样本中的词条和词条的定义描述拼接后送入编码器模型得到的隐藏状态。

作为优选，所述S2中，对编码器模型进行训练时采用的总损失函数的计算公式为：

L＝λ₁L_dep+λ₂L_edd

其中λ₁和λ₂分别表示两个任务的损失函数的权重值。

作为优选，所述问答任务输出层由Linner层和Softmax层组成。

作为优选，所述原始编码器模型优选为BERT-large。

相对于现有技术而言，本发明的有益效果如下：

和现有技术相比，本发明能够利用了专家构建的词典中蕴含的知识，并且利用任务特定输出层，建模常识问答任务的特性，可以有效地提升模型在知识驱动型常识问答的效果。而且，本发明还可以在双塔编码器模型中通过结合外跳注意力机制和外挂式的微调手段，进一步的利用词典知识中的实体知识，有效的提升预训练模型在常识问答任务的效果。

附图说明

图1为一种基于词典增强预训练模型的常识问答方法的步骤示意图；

图2为本发明的方法的预训练流程图；

图3为本发明的三种不同的微调框架。

具体实施方式

下面结合附图和具体实施例对本发明做进一步阐述和说明。

如图1所示，在本发明的一个较佳实施例中，提供了一种基于词典增强预训练模型的常识问答方法，其步骤如S1～S4所示：

S1：获取多个词典知识作为训练语料，并将各语料样本预处理为相同的输入格式；每个语料样本的内容包括词条和词条的定义描述，同时每个词条还对应有正样本和负样本，正样本中包含词条的同义词和同义词的定义描述，负样本中包含词条的反义词和反义词的定义描述。

作为本发明实施例的一种较佳实现方式，每个语料样本中的词条e和定义描述desc均通过增加[CLS]和[SEP]标记来预处理为相同的输入格式 s＝{[CLS]e[SEP]desc[SEP]}。

由于本发明中实际包含三种词条实体，即词条Entry、其同义词Syn、反义词Ant，因此构造可以分别关于词条Entry-词条描述Desc以及同义词Syn、反义词Ant的输入格式：[CLS]Entry[SEP]Desc[SEP],[CLS]Syn[SEP]Desc[SEP], [CLS]Ant[SEP]Desc[SEP]。

在实体判别预训练任务中，利用S21中采样得到的第二样本并结合对应的正样本和负样本，进行对比学习，由编码器模型获取每个样本对应的词条和定义描述的表征，计算对比学习损失作为实体判别预训练任务的损失，以拉近同义词表征距离，分离反义词之间的表征距离。

作为本发明实施例的一种较佳实现方式，上述掩码预测损失L_dep可以采用交叉熵损失。上述对比学习损失L_edd计算公式可以采用如下形式：

其中：e表示训练语料中的词条，e表示训练的词条集合；

由此，对编码器模型进行训练时采用的总损失函数L的计算公式可以表示为：

L＝λ₁L_dep+λ₂L_edd

其中λ₁和λ₂分别表示两个任务的损失函数的权重值，具体权重值可以根据实际进行优化调整。

作为本发明实施例的一种较佳实现方式，上述预定义的任务中执行采样时的采样数据分布优选采用均匀分布，即对语料进行均匀采样，使所有词条都可能被采样到。

上述训练得到词典增强的编码器模型过程如图2所示。

S3：完成S2中的模型训练后，结合所述词典增强的编码器模型和原始编码器模型形成双塔编码器模型，并在双塔编码器模型后连接问答任务输出层，得到问答模型；其中，双塔编码器模型的输入为问题文本，输入的问题文本经过原始编码器模型得到第一表征，同时基于词典对输入的问题文本进行匹配以识别出问题文本中的所有词条，识别出的词条经过所述词典增强的编码器模型得到第二表征，将第一表征和第二表征融合后输入问答任务输出层中进行回答预测；基于问答数据集对所述问答模型中的原始编码器模型和问答任务输出层进行微调。

需要说明的是，本发明中的原始编码器模型可以是BERT或RoBERTa，后续实施例中的优选方式为BERT-large。

作为本发明实施例的一种较佳实现方式，上述问答模型中，双塔编码器模型输出的第一表征和第二表征可以设置不同的表征结合方式，主要包括是三种：(1) 直接串联拼接，(2)跳外注意力机制和(3)层感知的跳外注意力机制。如图3所示，下面分别对着三种表征结合方式的具体实现进行详细描述：

(1)直接串联拼接：

在采用该表征结合方式的问答模型中，原始编码器模型对输入的问题文本进行编码最终输出[CLS]标记的隐藏状态作为第一表征h_c，而所述词典增强的编码器模型分别对每一个识别出的词条进行编码，最终输出每一个词条的词嵌入，将所有词条的词嵌入相加后的总和作为第二表征

(2)跳外注意力机制：

在采用该表征结合方式的问答模型中，原始编码器模型对输入的问题文本进行编码最终输出[CLS]标记的隐藏状态作为第一表征h_c，而所述词典增强的编码器模型分别对每一个识别出的词条进行编码，最终输出每一个词条的词嵌入，通过注意力机制计算所有词条的词嵌入加权和作为第二表征

(3)层感知的跳外注意力机制：

在采用该表征结合方式的问答模型中，原始编码器模型对输入的问题文本进行编码最终输出[CLS]标记的隐藏状态作为第一表征h_c，而所述词典增强的编码器模型分别对每一个识别出的词条进行编码，提取所述原始编码器模型和所述词典增强的编码器模型各自的每一层输出，并通过注意力机制计算任意第l层输出的所有词条的词嵌入加权和

然后将所有层的词嵌入加权和

进行平均得到第二表征

需要特别注意的是，在上述(2)跳外注意力机制和(3)层感知的跳外注意力机制中，词典增强的编码器模型输出的注意力函数的查询(Query)均有两种形式，其区别在于词典增强的编码器模型的输入是不同的，第一种查询形式是输入了第 i个识别的词条，而第二种查询形式是输入了第i个识别的词条以及其定义描述。因此，在上述(2)跳外注意力机制中，采用第一种查询形式时，e_i表示第i个识别的词条通过所述词典增强的编码器模型得到的最终输出；采用第二种查询形式时， e_i表示第i个识别的词条与其定义描述通过所述词典增强的编码器模型得到的最终输出。在上述(3)层感知的跳外注意力机制中，采用第一种查询形式时，

表示第i个识别的词条输入所述词典增强的编码器模型后在模型第l层的输出；采用第二种查询形式时，

表示第i个识别的词条与其定义描述输入所述词典增强的编码器模型后在模型第l层的输出。

另外，作为本发明实施例的一种较佳实现方式，在上述问答模型中，均可通过得到的第一表征h_c和第二表征

可以以拼接的方式进行融合后输入问答任务输出层中进行回答预测。问答任务输出层可以由Linner层和Softmax层组成，拼接融合后的表征先通过Linner层，Linner层的输出再通过Softmax层输出预测的概率分布，从而实现对回答的预测。

下面将上述S1～S4所述的基于词典增强预训练模型的常识问答方法应用至一个具体实例中，以展示其具体实现方式和技术效果。

实施例

词典是一种资源，它列出了一种语言的词汇，通过解释说明来澄清其含义，并经常说明其发音、起源、用法、同义词和反义词等。本发明中词典中的条目即词条，对该词条的解释即定义描述。表1显示了一个关于英文单词"forest"的例子。在本发明中，使用四种信息进行预训练：每个词条、其定义描述、同义词和反义词，并利用字典中的词条和它们的含义(即解释性描述)进行知识注入预训练。另外，为了提高词条的代表性，使用词条的同义词和反义词进行对比学习。

表1词典词条的样例

如图1所示，本实施例按照上述S1～S4所述的流程，使用两个新的预训练任务：(1)词典条目预测任务和(2)条目描述判别任务，即前述的描述-实体预测预训练任务和实体判别预训练任务，通过进一步训练预训练的语言模型PLM (本实施例中采用BERT作为预训练的编码器模型)来捕捉字典知识的不同方面，进而构建问答模型。下面具体描述本实施例的实现过程：

对于词条的预测，本实施例遵循BERT中掩蔽语言建模(MLM)的设计，但对要掩蔽的标记施加了限制。最初，给定一个输入序列，MLM任务用一个特殊的[MASK]符号随机掩盖一定比例的输入标记，然后试图恢复它们。受Defsent 工作的启发，为了有效地学习词条表征，本实施例将每个词条 e＝{t₁,t2,...,t_i,...,t_m}和其描述desc＝{w₁,w₂,....w_n}作为输入，只对所选输入样本s＝{[CLS]e[SEP]desc[SEP]}中的条目e的标记进行掩蔽，最后根据相应的描述desc预测被掩蔽的条目标记。值得注意的是，如果一个条目e由多个标记组成，所有的组成标记都将被屏蔽。在多义性的情况下，一个词条e有多种意义(即描述)，本实施例以类似的方式为每个意义构建一个输入样本。本实施例可将词条标记预测表述为：

P(t₁,t₂,...,t_i,...,t_m|s\{t₁,t₂,...,t_i,...,t_m})

其中t_i是e的第i个符号，s\{t₁,t₂,...,t_i,...,t_m}表示样本s的输入符号t_i...m被屏蔽。本实施例用BERT-large的预训练检查点初始化编码器模型，并将MLM作为优化目标之一，它使用交叉熵损失作为损失函数L_dep。

为了更好地捕捉词典词条的语义，本实施例引入了条目描述判别，试图通过对比性学习来提高词条表征的稳健性。具体来说，本实施例构建正面(或负面) 样本如下：给定一个词条e和它的描述desc，本实施例从词典源中获得它的同义词D_s＝{e_syn}(或反义词D_a＝{e_ant})，并将每个e_syn(或e_ant)和它的描述desc_syn (或desc_ant)的连接作为一个正面(或负面)样本。以表1中的条目″Forest″ 为例，″woodland″和″desert″分别是其同义词和反义词之一。相应的正样本和负样本在表2中显示。在本实施例的实验中，使用相同数量的(例如，5个)正样本和负样本。请注意，目前本实施例中只利用一个词条的反义词来构建严格的负面样本，但未来也可以探索通过随机选择来构建负面样本。

表2正样本和负样本举例

Positive	[CLS]woodland[SEP]Land covered with wood or trees SEP]
		Negative	[CLS]desert[SEP]arid land with little or no vegetation[SEP]

本实施例用h_ori，h_syn，h_ant来表示原始的、正面的和负面的输入样本的表示。为了拉近h_ori和h_syn的距离，推开h_ori和h_ant，本实施例设计了一个对比性目标，其中(e_ori，e_syn)被认为是正面的一对，(e_ori，e_ant)被认为是负面的。本实施例使用h_c，表示特殊符号[CLS]的隐藏状态，来表示输入样本的表示。定义一个对比性目标L_edd如下：

其中f(x，y)表示隐藏状态x和y之间点积的指数化。本实施例将字典条目预测任务损失和条目描述判别任务损失相加，最后得到总体损失函数L：

L＝λ₁ L_dep+λ₂ L_edd

其中L_dep和L_edd表示两个任务的损失函数。在本实施例的实验中，可设定λ₁＝0.4，λ₂＝0.6。

以BERT-large作为原始编码器模型，利用训练语料对编码器模型进行训练，更新编码器模型参数，待训练至收敛后即可得到词典增强的编码器模型，本实施例中将其命名为DictBERT。具体训练步骤如前述S21～S22，此处不再重复赘述。

本实施例将DictBERT作为一个插件，在微调期间使用固定参数的PLM。通过这种方式，本实施例可以享受为不同的字典训练不同的DictBERTs的灵活性，并避免连续训练的灾难性遗忘问题。具体来说，本实施例首先从一个给定的输入中识别出词典条目，然后将DictBERT作为一个KB来检索相应的条目信息(即条目嵌入)，最后将检索到的条目信息注入原始输入中，为下游任务获得一个增强的表示。在输入由多个序列组成的情况下(例如，NLI)，本实施例对每个输入序列进行单独处理，然后将它们输入到下游的特定问答任务层进行后续处理。

具体而言，在进行问答任务时，可结合词典增强的编码器模型DictBERT和原始编码器模型BERT-large形成双塔编码器模型，并在双塔编码器模型后连接问答任务输出层，得到问答模型。其中，双塔编码器模型的输入为问题文本，输入的问题文本经过原始编码器模型得到第一表征，同时基于词典对输入的问题文本进行匹配以识别出问题文本中的所有词条，识别出的词条经过所述词典增强的编码器模型得到第二表征，将第一表征和第二表征融合后输入问答任务输出层中进行回答预测。问答任务输出层可以由Linner层和Softmax层组成，拼接融合后的表征先通过Linner层，Linner层的输出再通过Softmax层输出预测的概率分布，从而实现对回答的预测。该问答模型需进行训练，可利用带有标注的问答数据集，基于问答数据集对问答模型中的原始编码器模型和问答任务输出层进行微调，微调完毕后即可用于进行常识问答。

为了更好地利用下游任务中检索到的隐性知识，本实施例在问答模型中引入了三种不同的知识灌输机制(见图3)：(1)直接串联拼接，(2)跳外注意力机制和 (3)层感知的跳外注意力机制。

如图3所示，本实施例直接将BERT的集合输出(即h_c)和从DictBERT检索的条目嵌入的总和(即

)连接起来。然后，将该连接(即

)送入下游任务的特定任务层。

将识别出的条目纳入原始文本的最简单方法是将它们的嵌入相加，并将相加的结果与文本代表相连接。然而，这种方法无法判断哪个词条更重要，以及在多义词条的情况下哪个意义更适合。

因此，本实施例进一步提出了一种跳外关注机制来解决这一缺陷。如图3 所示，遵循Transformer-XH，将输入查询中[CLS]标记的隐藏状态h_c作为"关注中心"，关注同一输入中识别的每个词条。有了关注的权重，再将这些词条或意义作为外部知识整合到原始输入查询中时，就会关注更重要的词条或意义。外跳注意力机制的公式如下：

其中e_i表示第i个识别的条目的DictBERT输出。K是输入查询中识别的条目数，

表示检索到的条目嵌入的加权和。得到

后，即可用

进行最终推理。

为了进一步提高性能，本实施例将最后一层的跳外注意扩展到每个内层，使其成为层级的。如图3所示，计算每一层的注意力得分，最后用它们的平均值来进行隐性输入知识的判断。具体来说，层间跳外注意力可以表述为：

其中，

表示DictBERT的第l层输出的加权和。

下面将上述方法应用至具体数据集中，具体实施步骤如前所述，下面主要展示其效果。

本实施例采用CommonsenseQA和OpenBookQA等知识驱动型问答，评估了DictBERT在该任务上的性能。

本实施例在实验中评估了DictBERT的不同变体。DictBERT+Concat(K)使用连接机制，DictBERT+EHA(K)和DictBERT+EHA(K+V)采用跳外注意力机制，而 Dict-BERT+LWA(K+V)使用层间注意力机制。符号K表示使用词条从DictBERT 中检索条目嵌入，即采用前述的第一种查询形式，K+V表示同时使用词条和其对应的定义描述进行知识检索，即采用前述的第二种查询形式。

表3.CommonsenseQA和OpenbookQA的实验结果

DictBERT在知识驱动的QA任务上的表现，即CommonsenseQA和 OpenBookQA，如表4所示。与BERT-large相比，本实施例的基本设置 DictBERT+Concat在这两个任务上分别获得了6.0％和4.0％的显著改善。此外，本实施例观察到跳外注意力机制带来了明显的增长(2.4％和1.9％)，再次验证了识别输入样本中条目的敏感权重的重要性。最后，DictBERT+LWA(K+V)在两个任务上都取得了最好的结果，与BERT-large基线相比，最终获得了9.0％和7.1％的收益。为了更有说服力，本实施例还在CommonsenseQA和OpenBookQA上将DictRoBERTa与原来的RoBERTa-large进行了比较。如表4所示，这个结论对RoBERTa也是成立的。同样，DictRoBERTa+LWA(K+V)取得了最好的结果，最终可以分别提高6.4％和6.5％以上。

表4.消融实验结果

此外，本实施例对DictBERT的不同组成部分进行了消融研究。首先，本实施例评估了BERT-large+Concat(K)和BERT-large+LWA(K+V)，它们直接使用BERT-large而不是预先训练的Dict-BERT作为插件。正如从结果中所看到的，改进是相当有限的，证实了注入外部知识的必要性。其次，本实施例评估了两项每项训练任务的有效性。DictBERT(DEP)+Concat和DictBERT(DEP+EDD) +Concat。如表6所示，对比性学习在一定程度上是有帮助的(平均0.4％)，而只屏蔽词条标记比屏蔽词条和描述的标记要好(三者均为+0.3％)。最后，本实施例考察了使用DictBERT作为插件KB的必要性，而不是直接使用它进行下游任务的微调(仅DictBERT)，以及字典的大小是否重要(DictBERT plus)。如表 6所示，本实施例的三种知识灌输机制都可以进一步提高纯DictBERT的性能，这表明将DictBERT作为一个插件使用是有好处的。为了评估词典规模的影响，本实施例使用了剑桥词典、牛津词典和维基词典的结合，其总词条数超过100 万条。结果显示，DictBERT plus+LWA(K+V)可以进一步提高三个任务集的性能 (平均+0.23％)。

本实施例提出了DictBERT，通过两个新颖的预训练任务和微调期间基于注意力的知识灌输机制，用词典知识来增强PLM。同时，通过一组充分的实验来证明其在常识问答任务上的有效性。重要的是，本发明的方法可以很容易地在实践中应用。而且本发明还可以进一步探索更有效的预训练任务和知识灌输机制，将该方法应用到更多的知识驱动型任务。

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于词典增强预训练模型的常识问答方法，其特征在于，步骤如下：

2.如权利要求1所述的基于词典增强预训练模型的常识问答方法，其特征在于，所述问答模型中，原始编码器模型对输入的问题文本进行编码最终输出[CLS]标记的隐藏状态作为第一表征h_c，而所述词典增强的编码器模型分别对每一个识别出的词条进行编码，最终输出每一个词条的词嵌入，将所有词条的词嵌入相加后的总和作为第二表征

3.如权利要求1所述的基于词典增强预训练模型的常识问答方法，其特征在于，所述问答模型中，原始编码器模型对输入的问题文本进行编码最终输出[CLS]标记的隐藏状态作为第一表征h_c，而所述词典增强的编码器模型分别对每一个识别出的词条进行编码，最终输出每一个词条的词嵌入，通过注意力机制计算所有词条的词嵌入加权和作为第二表征

其中：ATT表示注意力函数，h^c作为注意力函数的键(Key)和值(Value)，e_i作为注意力函数的查询(Query)，e_i表示第i个识别的词条或者词条与其定义描述通过所述词典增强的编码器模型得到的最终输出，K是从问题文本中识别到的词条总数。

4.如权利要求1所述的基于词典增强预训练模型的常识问答方法，其特征在于，所述问答模型中，原始编码器模型对输入的问题文本进行编码最终输出[CLS]标记的隐藏状态作为第一表征h_c，而所述词典增强的编码器模型分别对每一个识别出的词条进行编码，提取所述原始编码器模型和所述词典增强的编码器模型各自的每一层输出，并通过注意力机制计算任意第l层输出的所有词条的词嵌入加权和

然后将所有层的词嵌入加权和

进行平均得到第二表征

表示第i个识别的词条或者词条与其定义描述输入所述词典增强的编码器模型后在模型第l层的输出；ATT表示注意力函数，h_l作为注意力函数的键(Key)和值(Value)，e_i作为注意力函数的查询(Query)；L表示所述原始编码器模型和所述词典增强的编码器模型中的总层数，K是从问题文本中识别到的词条总数。

5.如权利要求1所述的基于词典增强预训练模型的常识问答方法，其特征在于，所述问答模型中，通过得到的第一表征h_c和第二表征

拼接后输入问答任务输出层中进行回答预测。

6.如权利要求1所述的基于词典增强预训练模型的常识问答方法，其特征在于，所述S1中，每个语料样本中的词条e和定义描述desc均通过增加[CLS]和[SEP]预处理为相同的输入格式s＝{[CLS]e[SEP]desc[SEP]}。

7.如权利要求1所述的基于词典增强预训练模型的常识问答方法，其特征在于，所述S22中，掩码预测损失L_dep采用交叉熵损失。

8.如权利要求1所述的基于词典增强预训练模型的常识问答方法，其特征在于，所述S22中，对比学习损失L_edd计算公式如下：

其中：e表示训练语料中的词条，D表示训练的词条集合；

9.如权利要求1所述的基于词典增强预训练模型的常识问答方法，其特征在于，所述S2中，对编码器模型进行训练时采用的总损失函数的计算公式为：

L＝λ₁L_dep+λ₂L_edd

其中λ₁和λ₂分别表示两个任务的损失函数的权重值。

10.如权利要求1所述的基于词典增强预训练模型的常识问答方法，其特征在于，所述问答任务输出层由Linner层和Softmax层组成。