CN114936287A

CN114936287A - 预训练语言模型的知识注入方法和相应的交互系统

Info

Publication number: CN114936287A
Application number: CN202210114833.5A
Authority: CN
Inventors: 汪诚愚; 张涛林; 邱明辉; 黄�俊
Original assignee: Alibaba Cloud Computing Ltd
Current assignee: Alibaba Cloud Computing Ltd
Priority date: 2022-01-30
Filing date: 2022-01-30
Publication date: 2022-08-23

Abstract

公开了一种预训练语言模型的知识注入方法和相应的交互系统。所述方法包括：从知识图谱中召回与训练样本中包含的长尾实体相关的三元组信息；基于所述三元组信息构造用于替换所述长尾实体的知识表示嵌入；使用长尾实体被替换为所述知识表示嵌入的训练样本用于所述预训练语言模型PLM的预训练；以及在所述预训练过程中，使用预测出所述长尾实体不引入损失的第一损失函数对所述PLM的神经网络进行调整。本发明通过将知识图谱召回的三元组信息的伪标记嵌入注入预训练模型并要求模型预测被替换原始长尾实体，能够在不使用额外知识编码器的情况下在预训练阶段完成知识注入，从而方便后续微调和推理阶段的处理。

Description

预训练语言模型的知识注入方法和相应的交互系统

技术领域

本公开涉及深度学习领域，尤其涉及一种预训练语言模型的知识注入方法，以及配备了由此方法获取的知识注入的预训练模型的交互系统。

背景技术

作为自然语言处理(NLP)基础模型，预训练语言模型(PLM，包括 BERT，RoBERTa，XLNET等)在各个下游的自然语言理解(NLU)任务中取得了优异的成绩，具有很强的通用性。然而，主流的预训练语言模型都是基于公开的文档，从非结构化文档中学习一般的语言知识，忽略了对大量知识信息的学习，特别是结构化的知识图谱(KG)信息的学习。这将导致模型无法真正理解现实中的实体和它们之间的关系等一系列知识，难以拥有真正的NLU能力。知识的缺失，会产生一些反事实的输出(比方说，GPT模型会输出诸如“太阳有两只眼睛”等论断)，也会大大减弱模型的小样本学习能力，领域知识的迁移能力，一般知识的归纳能力等等。

为此，存在PLM学习知识图谱信息，以提升下游NLU能力的需求。然而，由于PLM从非结构化文档中学习语言知识，知识图谱则以结构化的三元组存储信息，因此如何使得PLM能够从三元组形式的信息中高效准确地学习到知识，成为本领域技术人员所要解决的一个问题。

发明内容

本公开要解决的一个技术问题是提供一种预训练语言模型的知识注入方法，该方法通过将知识图谱召回的三元组信息的伪标记嵌入注入预训练模型，能够在不使用额外知识编码器的情况下在预训练阶段完成知识注入，从而避免了在后续微调和推理阶段中对额外知识编码器的使用，方便了知识注入预训练模型的推理应用。

根据本公开的第一个方面，提供了一种预训练语言模型的知识注入方法，包括：从知识图谱中召回与训练样本中包含的长尾实体相关的三元组信息；基于所述三元组信息构造用于替换所述长尾实体的知识表示嵌入；使用长尾实体被替换为所述知识表示嵌入的训练样本用于所述预训练语言模型PLM的预训练；以及在所述预训练过程中，使用预测出所述长尾实体不引入损失的第一损失函数对所述PLM的神经网络进行调整。

可选地，所述方法还包括：判定作为预训练数据集的语料库中各句子中是否包含长尾实体，其中，根据第一因素进行所述判定，并且所述第一因素与实体在语料库中出现的频率相关。

可选地，所述方法还包括：根据如下至少一个因素判定作为预训练数据集的语料库中各句子中是否包含长尾实体：第二因素，所述第二因素与实体在句子中的语义重要性相关；以及第三因素，所述第三因素与实体在所述知识图谱中的连接度相关。

可选地，所述方法还包括：从所述知识图谱中召回所述三元组信息的相似三元组信息和无效三元组信息；针对所述三元组信息、所述相似三元组信息和所述无效三元组信息，在预训练任务中进行对比学习。

可选地，所述方法还包括：根据所述知识图谱构造关系树，并且从所述知识图谱中召回所述三元组信息的相似三元组信息和无效三元组信息包括：根据在所述关系树上关系的远近，召回所述相似三元组信息以及对比学习难度不同的多个无效三元组信息。

可选地，基于所述三元组信息构造用于替换所述长尾实体的知识表示嵌入包括：在所述长尾实体是所述三元组信息的头实体时，所述知识表示嵌入包括尾实体嵌入减去关系词嵌入；在所述长尾实体是所述三元组信息的尾实体时，所述知识表示嵌入包括头实体嵌入加上关系词嵌入。

可选地，所述知识表示嵌入还包括：串联的所述长尾实体的解释文本，所述解释文本是从作为预训练数据集的语料库中选取的。

可选地，所述方法还包括：对所述训练样本中的非实体进行掩码处理；将所述经掩码处理的训练样本输入所述预训练语言模型PLM；获得所述 PLM针对被掩码字输出的第二损失值，并据此调整所述PLM中神经网络模型的参数，其中，将第二损失值函数规定为独热向量与模型预测概率分布之间的交叉熵。

可选地，所述方法还包括：在预训练之前，对作为预训练数据集的语料库和知识图谱进行分析以标记语料库中各句子包含的长尾实体以及从知识图谱召回的与每一长尾实体相关的一个特定三元组信息。

根据本公开的第二个方面，提供了一种基于知识注入的交互系统，包括：用户输入接收单元，用于获取用户输入的特定领域相关问询；问题匹配单元，包括如第一方面所述的方法使用特定领域语料库和特定领域知识图谱获取的特定领域知识注入的预训练模型，所述模型识别所述特定领域相关问询中的相关长尾实体并据此进行生成反馈；反馈提供单元，用于将生成的反馈提供给所述用户。

根据本公开的第三个方面，提供了一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被处理器执行时，使处理器执行如上述第一方面所述的方法。

根据本公开的第四个方面，提供了一种非暂时性机器可读存储介质，其上存储有可执行代码，当可执行代码被电子设备的处理器执行时，使处理器执行如上述第一方面所述的方法。

由此，本发明基于共享编码器的关系树伪嵌入方法，提出了一种将知识编码，知识注入与预训练过程相结合的方法，使得模型在不增加额外的参数，同时在下游任务使用过程中不依赖于知识图谱也能有良好效果。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了本发明所使用的DKPLM与其他模型在运行三个阶段的比较示意图。

图2示出了根据本发明一个实施例的预训练语言模型的知识注入方法的示意性流程图。

图3示出了知识图谱的一个例子。

图4示出了根据本发明一个实施例的长尾实体检测的示意图。

图5示出了根据本发明一个实施例的DKPLM的预训练示意图。

图6示出了本发明训练得到的PLM用于实际交互的一个例子。

图7示出了根据本发明一实施例可用于实现上述预训练语言模型的知识注入方法的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

预训练语言模型(PLM)是一类自然语言处理模型的总称，用来学习文本的低维稠密实值向量的表征。早期的预训练语言模型旨在利用浅层的神经网络学习词嵌入表示，这些词嵌入表示用于下游自然语言处理的各种任务；最新的预训练语言模型学习基于上下文的词嵌入表示，并且学习的模型用于在下游任务的微调。预训练语言模型在各个下游的自然语言理解 (NLU)任务中取得了优异的成绩，具有很强的通用性。

主流的预训练语言模型都是基于公开的文档，从非结构化文档中学习一般的语言知识，忽略了对大量知识信息的学习，特别是结构化的知识图谱(KG)信息的学习。在此，非结构化和结构化旨在指示语言知识的呈现方式。在自然语言处理中，语言知识的呈现方式通常包含以下三种形式：无结构化的文本，半结构化的表格等和结构化的三元组。具体地，三元组知识存储在人工构造的大规模知识图谱数据中，由<头实体，关系，尾实体>组成。头尾实体表示一个在真实世界存在的具体事物(例如：杭州)，关系表达实体之间的某种语义关联(例如：出生地)。

在PLM中，两阶段策略(即预训练和微调)继承了预训练期间学到的知识，并将其应用于下游任务。虽然PLM存储了大量内部知识，但由于PLM从非结构化文档中学习一般的语言知识，并且缺乏系统性的结构化知识的学习，因此它很难理解外部背景知识，例如事实和常识知识。知识的缺失，将会产生一些反事实的内容(比方说，GPT模型会输出诸如“太阳有两只眼睛”等的显见为错误的论断)，也会大大减弱模型的小样本学习能力、领域知识的迁移能力和一般知识的归纳能力等等。

因此，可以通过注入外部知识三元组来提高PLM的性能，这被称为知识增强型PLM(KEPLM)。在现有技术中，注入知识的方法主要包括：

基于知识表示嵌入的融合方法(Knowledge Embedding)：该类方法主要有两个问题待解决：(1)如何对已有知识图谱中的三元组进行文本表示，分别得到头尾实体和语义关系的低维稠密实值向量。(2)如何将预训练语言模型编码的上下文表示空间与知识特征空间进行融合对齐。针对问题(1)，已有的模型(如ERNIE-THU)是通过使用已有的知识图谱表示模型(如 TransE)进行嵌入学习。针对问题(2)，已有的模型(例如ERNIE-THU，KnowBERT)通过设计单独的神经网络参数模块将两部分的表示空间进行对齐。但是其主要的缺点在于：(1)该类方法需要单独设计除预训练模型以外的额外模块来对两个特征空间进行对齐，需要更多的机器资源的支持。 (2)在真实场景运用过程中，训练范式中的三个过程都需要结构化知识的注入，但在用户端很难独立构造大规模可用的通用知识图谱或者领域知识图谱。因此，该类方法对用户实际使用的时候不友好。

基于知识语句转换的融合方法(Knowledge Converting)：该类方法是针对上述知识表示融合方法的改进，基本上不改变原始预训练语言模型框架。通常此类方法是包含了两个模块：(1)知识语句的转换：将三元组结构的表示形式按照模版转换成自然语句表达，例如<中国，首都，北京> 转换为“中国的首都在北京”，将此条知识文本链接到原始训练文本当中去，直接利用已有的预训练模型进行编码，而不需要传统的知识编码模型。 (2)知识文本的融合过程：与原始训练语句链接的知识三元组文本一同训练，在输入过程中利用Visible Matrix来让模型分别融合不同的输入文本信息，从而进行两者的融合。但此类方法仍然需要在训练的三个过程中使用已经构造好的知识图谱信息，对用户仍然是不够友好。

如上所述的知识增强的预训练模型(KEPLM)能够在预训练模型建模的基础上通过对文本中关键实体信息的语义理解进一步提升下游任务的性能。但以上的方法最大的问题是在下游任务训练和推理的时候，知识增强的预训练模型仍然需要事先构造好大规模可用的知识图谱，同时额外网络参数会增加计算资源的负担，因此在实际应用的过程中比较繁琐且效果不够稳定。

因此，希望知识增强的模型能够在微调和推理阶段不再使用知识图谱的信息也能在下游任务中达到很好的性能表现。为此，本发明基于共享编码器的关系树伪嵌入方法，提出了一种将知识编码，知识注入与预训练过程相结合的方法，使得模型在不增加额外的参数，同时在下游任务使用过程中不依赖于知识图谱也能有良好效果。具体地，本发明提出了一种名为 DKPLM(DecomposableKnowledge-enhancedPLM，可分解知识增强PLM)的新型KEPLM，它分解了KEPLM的三个阶段的知识注入过程。图1示出了本发明所使用的DKPLM与其他模型在运行三个阶段的比较示意图。在真实场景中，预训练语言模型的运行通常包含三个过程(阶段)：预训练(pre-training)、微调(fine-tuning)和推理(inference)，对于如图所示的知识增强预训练模型的训练范式而言也是如此。

如图左半部分第一行所示，普通PLM在所有三个阶段都没有利用外部知识，并且包括最基础的操作，即，使用语料库进行预训练；使用数据集进行微调，并在推理阶段针对输入的样本进行推理。

如图左半部分第二行所示，现有的KEPLM需要构造知识源，例如包括图右侧所示的KG、字典(dic.)和文本以及能够对输入的三元组进行处理的知识编码器(如图所示，可有各类神经网络(NN)和图神经网络(GNN)实现)。由于在预训练阶段使用了知识编码器，因此在后续的微调和推理阶段，仍然需要使用知识源和能够处理知识源的知识编码器来实现知识理解能力。

如图左半部分第三行所示，本发明的DKPLM在预训练期间可以使用与现有KEPLM相同的数据源，但不需要知识编码器(例如，神经网络和图神经网络)。在后续的微调和推理过程中，本发明的模型不再需要KG，因此非常灵活和高效。

由于对于本发明的DKPLM而言，知识注入仅在预训练期间应用，而无需使用额外的知识编码器。因此，在微调和推理阶段，该模型可以以与 BERT和其他普通PLM相同的方式使用，这有助于DKPLM在实际场景中的应用。具体来说，本发明中引入了三种用于预训练DKPLM的新技术：

·伪令牌表示注入：将检测到的长尾实体的嵌入替换为共享PLM编码器生成的相应知识三元组的表示，称为“伪令牌表示”。因此，能够在不向模型引入任何额外参数的情况下注入知识。

·关系知识解码：对于关系三元组，使用一个实体的表示和关系谓词 (属性)来解码另一个实体的每个标记(token)。该预训练任务充当 KEPLM的监督信号，迫使模型了解向KEPLM注入了哪些知识。

·知识感知长尾实体检测：DKPLM模型可以仅检测长尾实体用于知识注入。由此能够避免了学习过多冗余和不相关的信息。

如下将结合附图详述本发明的DKPLM的具体实现。

图2示出了根据本发明一个实施例的预训练语言模型的知识注入方法的示意性流程图。图2所示的方法如图1所示，仅在预训练模型的预训练阶段进行，在后续的微调和推理阶段则不再需要额外的知识注入。

在步骤S210，从知识图谱中召回与训练样本中包含的长尾实体相关的三元组信息。

在此，应该明确的是，现有的预训练语言模型使用语料库作为训练样本集。语料库(corpus)指经科学取样和加工的大规模电子文本库，其中存放的是在语言的实际使用中真实出现过的语言材料。借助计算机分析工具，研究者可开展相关的语言理论及应用研究。预训练语言模型使用语料库中包含的一个个句子作为训练样本，包含这些句子的语料库则可被称为 “训练样本集”。

知识图谱(Knowledge Graph)是一种知识库，其中的数据通过图结构的数据模型或拓扑整合而成。知识图谱通常被用来存储彼此之间具有相互联系的实体。知识图谱通过对错综复杂的文档的数据进行有效的加工、处理、整合，转化为简单、清晰的<头实体，关系，尾实体>的三元组，最后聚合大量知识，从而实现知识的快速响应和推理。图3示出了知识图谱的一个例子。如图所示，知识图谱包括大量的<头实体，关系，尾实体> 的三元组，用于对知识进行结构化表示。头尾实体表示一个在真实世界存在的具体事物，关系表达实体之间的某种语义关联。例如，图3中虚线框框出的一个三元组<中国，首都，北京>中，中国为头实体，首都为关系词，北京为尾实体。

步骤S210中的“长尾实体”可以理解为在训练样本集中呈现长尾分布的实体。由于这些实体在训练样本集中缺乏足够的信息描述，因此需要额外的知识注入来增加PLM对这些长尾实体的认知。可以从知识图谱中召回最能代表该长尾实体的一个三元组。

随后，在步骤S220，可以基于召回的三元组信息构造用于替换所述长尾实体的知识表示嵌入。具体地，可以利用三元组信息中除去长尾实体中的另外两组信息来进行替换，例如，在三元组<中国，首都，北京>的例子中，用<中国首都>来替换训练样本(即，语料库中一个句子)中的长尾实体<北京>，并经由同一套预训练模型将文本<中国首都>转换成文本的 embedding(嵌入)表示。并且在步骤S230，使用长尾实体被替换为所述知识表示嵌入的训练样本用于所述预训练语言模型PLM的预训练。由此，通过伪嵌入方法能够有效解决现有技术中需要在知识注入过程添加额外网络参数来进行特征空间对齐的问题。

于是，在步骤S240，在所述预训练过程中，可以使用预测出所述长尾实体不引入损失的第一损失函数对所述PLM的神经网络进行调整。为了提高知识注入的效果，通过损失函数的设定使得模型能够把注入的知识三元组信息通过解码的方式重构出来所对应的具体文本。换句话说，在注入 <中国首都>的嵌入来代替训练样本中原有的长尾实体<北京>时，需要模型能够正确预测出原有的文本<北京>。

由此，本发明使用长尾实体的源自知识图谱的知识表示嵌入来代替所述长尾实体，用于PLM进行预测，能够在无需额外知识编码器的情况下实现知识注入，并且通过仅对长尾实体进行注入，避免了模型对冗余和不必要知识信息的学习。

虽然上例(和下文)中出于方便解释的考虑使用“北京”作为长尾实体，<中国，首都，北京>作为召回的三元组信息，<中国首都>作为用于替换所述长尾实体的知识表示嵌入的原型文本，但应该理解的是，“北京 (Beijing)”由于其对应于单个英文单词且经常出现，因此在实际应用中通常不会被看作是长尾实体。

具体地，长尾实体的判定可以在预训练之前的准备阶段进行。具体地，可以提前对语料库所有的句子做一遍处理，判断句子中的实体是否为长尾实体。为此，本发明的知识注入方法可以包括：判定作为预训练数据集的语料库中各句子中是否包含长尾实体。在不同的实施例中，可以根据第一因素，甚至第二因素、第三因素，或其任意结合来进行长尾实体的判定。

在此，第一因素可以与实体在语料库中出现的频率相关。第二因素可以与实体在句子中的语义重要性相关。第三因素可以与实体在所述知识图谱中的连接度相关。例如，可以将语料库中出现频率较低(例如，低于某一阈值)的实体看作是长尾实体。可以将语料库中出现频率较低并且在某一句子的语义表述中相对重要的实体看作是长尾实体。也可以将知识图谱中相对重要的实体看作是长尾实体。另外，在英文语料库的实现中，长尾实体需要是两个或以上单词或首字母组成的实体。

如下将结合图4描述本发明中知识感知长尾实体检测的具体实现。

图4示出了根据本发明一个实施例的长尾实体检测的示意图。

在此，以英文语料库中的一个句子为例：“KevinDurant,Brooklyn Nets playerin NBA,led the U.S.men’s basketball team to the 2021XXX Games in Japan.”(参考译文可以是：凯文杜兰特，NBA布鲁克林篮网队球员，带领美国男子篮球队参加日本举办的2021年XXX运动会。)

文中下划线标出了句子中包含的实体，具体包括：“KevinDurant”、 “BrooklynNets”、“NBA”、“U.S”、“XXX Games”。在此，“Japan (日本)”虽然是实体，但由于是单个单词因此不在进行长尾实体判定中进行考虑(换句话说，长尾实体仅考虑两个或以上单词组成的实体，或者诸如“NBA”、“U.S”的大写字母组合)。需要从“KevinDurant”、“BrooklynNets”、“NBA”、“U.S”、“XXX Games”这些实体中标识出长尾实体。

在具体操作中，可以首先从大规模KG中提取结构化知识三元组，并通过实体链接工具(例如，TAGME)将KG中的实体链接到预训练样本中的目标对象。在大型语料库中，实体在语料库中的分布情况紧密遵循幂律分布，公式如下：

其中C和α是超参数，rank是实体频率等级，Freq(e)是实体e的频率。可以发现，虽然少数实体经常出现，但大多数实体很少出现在预训练语料库中(即，呈现长尾分布)，这使得PLM难以学习更好的上下文表示。

由于模型能够从高频出现的实体所在语句中习得关于高频实体足够的知识，而将高频关系三元组注入PLM并不总是有利于下游任务。这种做法更有可能引发负面的知识注入。因此，注入长尾实体而不是语料库中出现的所有实体的知识可以进一步提高PLM的理解能力。还需要注意的是，上述实体分析只考虑了预训练语料库中的频率，忽略了KG中每个实体的信息以及这些实体在句子中的重要性。为此，本发明提出了知识感知长尾实体检测机制来选择目标实体进行知识注入。

在本发明的一个优选实施例中，考虑实体的三个相邻信息来表征实体的“长尾”属性，即整个预训练语料库、当前输入句子和KG。对于特定实体e，可以考虑以下三个因素：

·实体频率：整个预训练语料库中的实体频率，记为Freq(e)；

·语义重要性：句子中实体e的重要性，记为SI(e)；

·知识连通性：KG中的实体e的多跳相邻节点的数量(即，该实体在 KG中作为头实体和尾实体的总计次数)，记为KC(e)。

Freq(e)的计算例已如上结合式(1)示出。

SI(e)则是指包含实体e的句子表示与替换e的句子表示之间的语义相似度。句子之间的相似度越大，实体被替换时对句子语义的影响就越小。将h_o和h_rep表示为原始句子和实体替换后的句子的表示。为简单起见，可以使用余弦相似度的倒数来测量SI(e)：

在实现中，可使用特殊标记“[UHN]”来替换句子中的实体e。例如，如图4所示，使用“[UHN][UHN]”来代替句子中的“Brooklyn Nets”。

KC(e)表示实体e在三元组相邻结构中的重要性，可以使用多跳相邻实体的数量来计算KC(e)：

其中R_min和R_max是预定义的阈值。具体来说，我们将计算KC(e)的跳数限制在R_min到R_max的范围内。|·|表示集合中的相邻实体编号。Hop函数表示KG结构中实体e和实体e’之间的多跳数。然后计算实体e的“知识感知长尾”KLT(e)的程度为：

其中II_{x}是指示函数，其中x为布尔表达式。R_freq是一个预定义的阈值。给定一个句子，需要检测所有实体并将KLT(e)分数低于平均值的实体视为知识感知长尾实体。

在给定的语料库和KG的情况下，例如可以将上例中的“Brooklyn Nets” 和“XXXGames”看作是长尾实体，并进行后续的知识注入。

在确定了长尾实体之后，就可以从知识图谱中召回与训练样本中包含的长尾实体相关的三元组信息。由于与某一长尾实体相关的三元组通常不止一个，比如句子中的长尾实体是“北京”，知识图谱中的三元组不仅包括“中国-首都-北京”，还包括“中国-核心都市-北京”以及“莫斯科-姐妹城市-北京”，因此需要从中进行挑选。在一个实施例中，可以根据头实体检索出所有的尾实体，根据尾实体在预训练文本中出现的频率的最大值去决定选哪个三元组。

随后，基于所述三元组信息构造用于替换所述长尾实体的知识表示嵌入包括：在所述长尾实体是所述三元组信息的头实体时，所述知识表示嵌入包括尾实体嵌入减去关系词嵌入；在所述长尾实体是所述三元组信息的尾实体时，所述知识表示嵌入包括头实体嵌入加上关系词嵌入。例如，如果以<中国，首都，北京>为例，句子中的“中国”会被代替为“北京-首都”，句子中的“北京”会被代替为“中国+首都”。此处的“-”和“+” 是针对“中国”、“首都”、“北京”各自的嵌入进行的。

在一个优选实施例中，所述知识表示嵌入还包括：串联的所述长尾实体的解释文本，所述解释文本是从作为预训练数据集的语料库中选取的。

由于原始语料库和知识图谱可以按照一定机制绑定，因此可以在预训练之前，对作为预训练数据集的语料库和知识图谱进行分析以标记语料库中各句子包含的长尾实体以及从知识图谱召回的与每一长尾实体相关的一个特定三元组信息，并且可以从语料库中提取出实体解释文本，每个实体对应一个解释语句。例如，在“北京”会被代替为“中国+首都”之后，再串接“北京是中国的一座核心都市”的实体解释问题的嵌入表示。

具体地，为了增强PLM对长尾实体的理解能力，本发明在不引入任何其他参数的情况下将知识三元组注入此类实体的位置。在此，使用伪令牌嵌入注入技术。如果预训练句子中的实体是知识三元组的头部实体e_h，则e_h的表示由以下函数建模：

其中h_eh、h_et和h_r分别是头部实体e_h、尾部实体e和关系谓词(即，关系词)r的表示。类似地，如果一个实体分别是一个尾实体e_t和关系谓词r。类似地，如果一个实体是KG中的一个尾实体e_t，可以得到：h_et＝h_eh+h_r。

具体地，可以使用底层PLM作为共享编码器来获取知识表示。在此，例如考虑实体是KG中的头实体e_h的情况。将尾部实体e_t的标记(token) 与关系谓词r连接起来，并将它们提供给PLM。PLM最后一层的标记表示分别表示为F(e_t)和F(r)。

于是，伪标记表示h_et和h_r可以如下计算：

其中LN是LayerNorm函数，f_sp是自注意力池化算子，用于生成跨度表示。 W_et和W_r是可训练的参数。

由于实体和关系谓词的长度通常很短，因此PLM生成的表示可能没有表现力。为此在一个实施例中，可以进一步考虑目标实体的描述文本，表示为

令

为由PLM生成的

的标记序列表示。将头部实体 e_h的伪令牌嵌入h_eh表示如下：

其中

指的是两个表示的串联，W_eh是可训练的参数。

可将检测到的长尾实体的表示替换为PLM嵌入层中的伪标记表示 (h_eh或h_et，具体取决于目标实体是KG中的头实体还是尾实体)。这遵循连续的多个转换器编码器层，以将知识合并到上下文表示中，而不为知识编码引入任何其他新参数。

在将关系三元组的信息注入模型后，模型是否理解注入的知识尚不清楚。为此需要在预训练过程中使用预测出所述长尾实体不引入损失的第一损失函数对所述PLM的神经网络进行调整。具体地，可以设计一个关系知识边缘解码器，迫使模型明确地理解注入的知识。具体地，可以采用自注意力池化机制来获得最后一层的掩码实体跨度表示：

其中

是可学习参数。给定头部实体

和关系谓词h_r的输出表示，目标是解码尾部实体。设

是预测的尾部实体的第i个标记的表示，则有：

其中δ_d是比例因子，

等于作为初始化启发的

由于词汇量比较大，可以使用Sampled SoftMax函数(采样的SoftMax 函数)将预测结果与基本事实进行比较。标记水平(token-level)的损失函数

定义如下：

其中y_i是真实标记，y_n是在Q(t_n|t_i)中采样的负标记。Q(·|·)是负采样函数。 N是负样本的数量。在DKPLM模型中，训练目标可以包括如上的关系知识解码预训练任务。优选地，还可以包括标记水平掩码语言建模(MLM)。使用MLM作为辅助任务，能够在一定程度上减轻小样本学习中的过拟合问题。为此，本发明的知识注入方法还可以包括：对所述训练样本中的非实体进行掩码处理；将所述经掩码处理的训练样本输入所述预训练语言模型PLM；获得所述PLM针对被掩码字输出的第二损失值，并据此调整所述PLM中神经网络模型的参数，其中，将第二损失值函数规定为独热向量与模型预测概率分布之间的交叉熵。

因此，DKPLM的总损失函数可以表示如下：

其中λ₁是超参数，

是由多个令牌组成的目标实体的总解码器损失。在一个可选实施例中，也可以利用更为简单的

作为损失函数，在此λ也可以是超参数。

在一个实施例中，还可以通过对比文件学习来提升模型对有效知识的理解能力。为此，本发明的知识注入方法还可以包括：从所述知识图谱中召回与所述三元组信息相似的相似三元组信息和无效三元组信息；针对所述三元组信息、所述相似三元组信息和所述无效三元组信息，在预训练任务中进行对比学习。由此，通过将有效和无效知识进行对比学习，使得模型能够最大程度感知到有效知识对于句子理解能力的提升远大于无效知识。

在一个实施例中，可以根据KG构造关系树。关系树是从KG中提炼出来的用于专门表示关系的树。关系树中节点表示关系。第一层的节点可以不包括任何关系，在第二层中包括关系的大分类，然后是后续的小分类。

在构造了关系树之后，可以根据关系树的分布，从所述知识图谱中召回相似三元组信息和无效三元组信息。具体地，可以根据在所述关系树上关系的远近，召回所述相似三元组信息以及对比学习难度不同的多个无效三元组信息。例如，召回的有效三元组为<中国，首都，北京>，相似三元组则可以是<中国，核心都市，北京>。用于对比的无效三元组信息则可以包括对比学习难度低、中、高的三个不同的无效三元组(也可以称为“不相似三元组”或是“无关三元组”)，由此通过将有效和无效知识进行对比学习，使得模型能够最大程度感知到有效知识对于句子理解能力的提升远大于无效知识。

图5示出了根据本发明一个实施例的DKPLM的预训练示意图。本发明的DKPLM在基本的预训练模型基础上改动了两个地方：(1)预训练语句中实体类型的选择和注入方式(2)有效与无效知识的对比学习(3) 设计了一种新型的预训练自监督任务。

以图中输入的预训练语句为例。首先在数据准备阶段，可以对数据源进行处理。数据源可以包括语料库和知识图谱。可以如上所述根据实体在预训练数据集中的频率，实体在知识图谱中的连接度和语句中的语义重要性三个因素判断是否预训练语料库中各句子(其后用作训练样本)中是否包含长尾实体。如图右侧下部所示，在“KevinDurant,Brooklyn Nets player in NBA,led the U.S.men’s basketball team to the 2021XXXGames in Japan.” 的句子中，根据如上所述的长尾实体检测方法，可以检测出不平凡(untrivial)的实体，在此句子中包括“Brooklyn Nets”和“XXX Games”，即，需要对这些稀有的长尾实体进行掩码和伪嵌入注入操作。对平凡 (trivial)实体则不进行掩码和伪嵌入注入操作，并且会对一些平凡的token (标记)进行MLM辅助任务的掩码和预测。

另外，如图左侧下部所示，可以从KG中构造关系树，并基于关系树将句子中出现的长尾实体召回有效关系三元组和无效关系三元组，在预训练任务中将两者进行对比学习。具体地，有效关系三元组就是如上所述的用于后续伪嵌入注入操作的三元组，进一步地，可以构造正例&负例三元组，包括与有效关系三元组相似的相似三元组，以及三个无效关系三元组 (对应于难、中、易的对比学习难度)。

随后，将识别出来的长尾实体检索出来所对应转换后的有效三元组信息，利用同一个预训练模型对其进行编码，得到所对应的知识嵌入表示结果。注入的过程是根据此实体是头实体还是尾实体，利用TransE算法的思想替换掉对应的输入嵌入。文本信息和注入的嵌入信息会同时经过同一套共享的预训练模型(例如BERT)，得到最后的隐层上下文知识增强的特征表示。最后，为了进一步提高知识注入的效果，可以让模型能够把注入的知识三元组信息通过解码的方式重构出来所对应的具体文本(对应于最上层左侧的实体级解码器预训练任务)，同时不同的三元组信息也进行对比学习(对应于最上层中间的加早上的三元组infoNCE预训练任务)，使得模型能够感知到对句子理解有帮助的有效知识远大于无效知识。具体地，对比学习输入是一个当前三元组(例如，上例中的中国-首都-北京) 和相似的三元组(例如，中国-核心都市-北京)，还有一组不相似的三元组(分为难、中、易三个难度)。相似和不相似的三元组都是通过关系树检索得到的。对比学习的目标就是将当前三元组(中国-首都-北京)拉近与相似三元组之间的距离，拉远与不相似三元组的距离。

具体的损失函数由两部分组成，首先是知识解码损失(即，

)将原本黑盒知识增强的预训练模型通过解码真实的注入知识文本来提升模型的可解释能力。同时包含三元组的对比学习损失来提高模型的有效知识感知能力。最后为了避免过拟合以及保留MLMhead的词预测能力(对应于最上层右侧的token-level(标记级)MLM预训练任务)，算法设置了词掩码任务作为辅助损失。

由此预训练出来的知识增强模型，在微调和推理阶段使用方法与基本的预训练模型完全相同，不必要引入知识图谱的数据，只需要用户输入具体任务的数据即可。

本发明提出了基于长尾实体伪嵌入的知识增强预训练模型算法，用于解耦模型在三种训练过程中都需要知识图谱的需求，可应用于各类文本理解任务。这一算法无需人工在下游任务中构建大规模可用的知识图谱，并且对于不同的自然语言理解任务能够取得良好结果。

DKPLM模型不受具体领域的限制，现在的预训练文本和知识图谱都是开放域的，不是特定领域的文本和图谱(比如，医疗领域，金融领域)。因此，基于本发明的原理，可以使用特定领域的语料库和知识图谱(例如，医疗文本和医疗知识图谱)在现有的PLM基础上训练出特定领域功能加强的DKPLM模型。由于特定领域的DKPLM是在特定领域数据上已经训练过，因此比没有在特定领域领域数据训练过的DKPLM对于该特定领域领域的任务(文本分类，文本训练标注等)学习到的文本表示要好很多。例如，对于具体医疗任务性能来说，就会比通用领域的DKPLM性能要好。并且适配了医疗领域服务场景的医疗DKPLM可以直接当作BERT来用，医疗的文本任务都可以调用它。

为此，本发明还可以实现为一种基于知识注入的交互系统。图6示出了本发明训练得到的PLM用于实际交互的一个例子。

具体地，一种基于知识注入的交互系统，包括：用户输入接收单元，用于获取用户输入的特定领域相关问询；

问题匹配单元，包括如上所述的方法使用特定领域语料库和特定领域知识图谱获取的特定领域知识注入的预训练模型(例如，医疗DKPLM、金融DKPLM、电商DKPLM)，所述模型识别所述特定领域相关问询中的相关长尾实体并据此进行生成反馈；反馈提供单元，用于将生成的反馈提供给所述用户。

参见图7，计算设备700包括存储器710和处理器720。

处理器720可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器720可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器720可以使用定制的电路实现，例如特定用途集成电路(ASIC，Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA，Field Programmable Gate Arrays)。

存储器710可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器720或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器710可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器 710可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器710上存储有可执行代码，当可执行代码被处理器720处理时，可以使处理器720执行上文述及的预训练语言模型的知识注入方法。

上文中已经参考附图详细描述了根据本发明的预训练语言模型的知识注入方法以及配备了由此方法获取的知识注入的预训练模型的交互系统。本文DKPLM包括如下优点：

通过使用预训练模型中同一套共享参数能够最大化的利用已有的模型解决知识三元组的表示；伪嵌入方法能够有效的减少知识注入过程添加额外网络参数来进行特征空间对齐的问题；将注入的三元组知识在预训练过程中解析出来，不仅仅增强了注入过程中对实体粒度的建模，同时相比于之前的工作也大大的提高了模型的可解释性；通过将有效和无效知识进行对比学习，使得模型能够最大程度感知到有效知识对于句子理解能力的提升是远远大于无效知识的；以及使用MLM作为辅助任务，一定程度上减轻了小样本学习中的过拟合问题。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种预训练语言模型的知识注入方法，包括：

从知识图谱中召回与训练样本中包含的长尾实体相关的三元组信息；

基于所述三元组信息构造用于替换所述长尾实体的知识表示嵌入；

使用长尾实体被替换为所述知识表示嵌入的训练样本用于所述预训练语言模型的预训练；以及

在所述预训练过程中，使用预测出所述长尾实体不引入损失的第一损失函数对所述预训练语言模型的神经网络进行调整。

2.如权利要求1所述的方法，还包括：

判定作为预训练数据集的语料库中各句子中是否包含长尾实体，其中，根据第一因素进行所述判定，并且所述第一因素与实体在语料库中出现的频率相关。

3.如权利要求2所述的方法，还包括根据如下至少一个因素判定作为预训练数据集的语料库中各句子中是否包含长尾实体：

第二因素，所述第二因素与实体在句子中的语义重要性相关；以及

第三因素，所述第三因素与实体在所述知识图谱中的连接度相关。

4.如权利要求1所述的方法，还包括：

从所述知识图谱中召回所述三元组信息的相似三元组信息和无效三元组信息；

针对所述三元组信息、所述相似三元组信息和所述无效三元组信息，在预训练任务中进行对比学习。

5.如权利要求4所述的方法，还包括：

根据所述知识图谱构造关系树，并且

从所述知识图谱中召回所述三元组信息相似三元组信息和无效三元组信息包括：

根据在所述关系树上关系的远近，召回所述相似三元组信息以及对比学习难度不同的多个无效三元组信息。

6.如权利要求1所述的方法，其中，基于所述三元组信息构造用于替换所述长尾实体的知识表示嵌入包括：

在所述长尾实体是所述三元组信息的头实体时，所述知识表示嵌入包括尾实体嵌入减去关系词嵌入；

在所述长尾实体是所述三元组信息的尾实体时，所述知识表示嵌入包括头实体嵌入加上关系词嵌入。

7.如权利要求1所述的方法，其中，所述知识表示嵌入还包括：

串联的所述长尾实体的解释文本，所述解释文本是从作为预训练数据集的语料库中选取的。

8.如权利要求1所述的方法，还包括：

对所述训练样本中的非实体进行掩码处理；

将所述经掩码处理的训练样本输入所述预训练语言模型PLM；

获得所述PLM针对被掩码字输出的第二损失值，并据此调整所述PLM中神经网络模型的参数，其中，将第二损失值函数规定为独热向量与模型预测概率分布之间的交叉熵。

9.如权利要求1所述的方法，还包括：

在预训练之前，对作为预训练数据集的语料库和知识图谱进行分析以标记语料库中各句子包含的长尾实体以及从知识图谱召回的与每一长尾实体相关的一个特定三元组信息。

10.一种基于知识注入的交互系统，包括：

用户输入接收单元，用于获取用户输入的特定领域相关问询；

问题匹配单元，包括如权利要求1-9中任一项所述的方法使用特定领域语料库和特定领域知识图谱获取的特定领域知识注入的预训练模型，所述模型识别所述特定领域相关问询中的相关长尾实体并据此进行生成反馈；

反馈提供单元，用于将生成的反馈提供给所述用户。

11.一种计算设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-9中任一项所述的方法。

12.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1-9中任一项所述的方法。