CN113641830A

CN113641830A - 模型预训练方法、装置、电子设备和存储介质

Info

Publication number: CN113641830A
Application number: CN202110815302.4A
Authority: CN
Inventors: 姜文斌; 吕雅娟; 朱勇; 吴华; 王海峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2021-11-12
Anticipated expiration: 2041-07-19
Also published as: CN113641830B

Abstract

本公开提供了一种模型预训练方法、装置、电子设备和存储介质，涉及自然语言处理、深度学习、知识图谱等领域。具体实现方案为：根据输入信息，从知识图谱中查询以确定与输入信息匹配的第一知识子图，采用预训练模型中的编码器对输入信息进行编码，以得到输入信息的语义表示，并采用预训练模型中的解码器对语义表示进行解码，以生成语义表示对应的第二知识子图，根据第一知识子图和第二知识子图之间的差异，对编码器和解码器进行修正，以使差异最小化。由此，可以使得模型在预训练的过程中，学习到知识图谱中蕴含的丰富和复杂的知识，从而提升模型的预测效果。

Description

模型预训练方法、装置、电子设备和存储介质

技术领域

本公开涉及人工智能领域，具体涉及自然语言处理、深度学习、知识图谱等领域，尤其涉及模型预训练方法、装置、电子设备和存储介质。

背景技术

预训练语言模型被广泛应用于改进上层自然语言处理任务的效果，通过设计恰当的自监督学习任务，预训练语言模型能够在大规模训练文本上学习其中蕴含的句法和语义。因此，如何对预训练语言模型进行预训练是非常重要的。

发明内容

本公开提供了一种用于模型预训练方法、装置、电子设备和存储介质。

根据本公开的一方面，提供了一种模型预训练方法，包括：

获取输入信息；

根据所述输入信息，从知识图谱中查询以确定与所述输入信息匹配的第一知识子图，其中，所述第一知识子图中包括与所述输入信息匹配的各目标实体，以及各所述目标实体之间的语义关系；

采用预训练模型中的编码器对所述输入信息进行编码，以得到所述输入信息的语义表示；

采用所述预训练模型中的解码器对所述语义表示进行解码，以生成所述语义表示对应的第二知识子图；

根据所述第一知识子图和所述第二知识子图之间的差异，对所述编码器和所述解码器进行修正，以使所述差异最小化。

根据本公开的另一方面，提供了一种模型预训练装置，包括：

获取模块，用于获取输入信息；

处理模块，用于根据所述输入信息，从知识图谱中查询以确定与所述输入信息匹配的第一知识子图，其中，所述第一知识子图中包括与所述输入信息匹配的各目标实体，以及各所述目标实体之间的语义关系；

编码模块，用于采用预训练模型中的编码器对所述输入信息进行编码，以得到所述输入信息的语义表示；

解码模块，用于采用所述预训练模型中的解码器对所述语义表示进行解码，以生成所述语义表示对应的第二知识子图；

预训练模块，用于根据所述第一知识子图和所述第二知识子图之间的差异，对所述编码器和所述解码器进行修正，以使所述差异最小化。

根据本公开的又一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开上述一方面提出的模型预训练方法。

根据本公开的再一方面，提供了一种计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开上述一方面提出的模型预训练方法。

根据本公开的还一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开上述一方面提出的模型预训练方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为知识增强语言模型训练过程的基本原理示意图；

图2为文本知识联合学习训练过程的基本原理示意图；

图3是本公开实施例一所提供的模型预训练方法的流程示意图；

图4为本公开实施例二所提供的模型预训练方法的流程示意图；

图5为本公开实施例三所提供的模型预训练方法的流程示意图；

图6为本公开实施例中生成式知识增强预训练流程示意图；

图7为本公开实施例六所提供的模型预训练装置的结构示意图；

图8示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

预训练语言模型被广泛应用于改进上层自然语言处理任务的效果，通过设计恰当的自监督学习任务，预训练语言模型能够在大规模训练文本上学习其中蕴含的句法和语义。

知识图谱也被广泛应用于改进上层人工智能任务或上层自然语言处理任务(简称为上层任务)，其中，上层任务通常以训练好的语言模型作为基础，在自身的标注数据上进行参数微调。

由于语言模型与知识图谱代表了不同的知识，这两种知识的共用能够显著提升模型的预测效果。

一般做法为，根据上层任务输入信息检索知识图谱中的相关子图，然后将相关子图信息编码后引入到上层任务中。由于语言模型与知识图谱代表了不同的知识，这两种知识的共用能够显著提升模型的预测效果。

相关技术中，可以通过以下三种策略，同时使用上述两种知识：

第一种，独立使用策略。即，预训练语言模型与知识图谱以独立的组件的形式引入上层任务流程。独立使用策略是最为直接的融合方式，信息的融合由上层任务框架进行，即在上层任务中作为独立的辅助模块提供辅助信息。需要说明的是，由于独立使用策略与本公开所提供的技术方案不相关，因此，此处不作详细描述。

第二种，知识增强语言模型策略。在预训练过程中引入一些简单的知识，如命名实体边界信息进行指导和约束，从而将简单知识融入预训练语言模型中。

具体而言，不同于经典的预训练语言模型，知识增强的预训练语言模型在训练过程中，会将由多个字词构成的概念单元或命名实体视为一个整体，统一的遮蔽掉并试图预测出来。

作为一种示例，知识增强语言模型策略的基本原理可以如图1所示，以样本语句为“Harry Potter is a series of fantasy novel written by J.K Rowling”进行示例，可以将样本语句中的“a series of”、“written”、“J.K.Rowling”进行掩码(mask)，并由模型预测对应的掩码字符。

图1中，预训练语言模型BERT是指基于机器翻译的双向编码表示(BidirectionalEncoder Representations from Transformer)模型，预训练语言模型ERNIE是指基于知识增强的持续学习语义理解框架(Enhanced Language Representation with InformativeEntities)模型。

第三种，文本知识联合学习策略。在训练文本与知识图谱之间寻找关联关系，从而利用关联关系实现两种模型的联合学习。具体而言，语言模型与知识图谱的学习分别由对应的模块负责，两个模块采用注意力等关联机制实现联合学习。

作为一种示例，文本知识联合学习策略的基本原理可以如图2所示。这种策略能够借助文本改进知识图谱学习，也能够借助知识改进语言模型学习。

图2中，KG是指知识图谱(Knowledge Graph)、w是指训练文本对应的文本序列中的字符(比如汉字、单词等)，ei、ej、ek、el分别指不同的实体(entity)。

然而第二种策略，在预训练过程中仅引入一些简单的知识，在模型学习过程中，无法有效地学习到知识图谱中丰富而复杂的知识。

原因为，知识增强语言模型的骨架还是预训练语言模型，它的基本原理还是在已有预训练语言模型学习框架之下，引入与知识有关的自监督学习任务，而现有技术所采用的自监督学习任务，都是依靠分类或标注的模式即可完成的简单任务。受制于已有的学习框架，能够采用的自监督学习形式就会受限，相应地，能够采用的外部知识类型就会受限。因此，现有的知识增强语言模型尽管能够利用一定的知识，但难以有效利用知识图谱中丰富而复杂的知识。

而第三种策略，模型构建和参数训练成本较高，无法做到像单纯的语言模型一样简单易用，即在学习和使用过程无法像单纯语言模型一样简洁高效。

原因为，文本知识联合学习由文本学习和知识学习两部分构成，它的基本原理是在两种学习模块和过程之间，引入了注意力等关联学习机制，其学习和使用都相对而言较为复杂。学习过程需要同时推进文本部分的学习、知识部分的学习以及二者之间的关联协同，这两部分的学习过程又需要设计各不相同的自监督学习任务。因此，这种策略无法做到像单纯的语言模型一样简单易用。

因此，本公开主要相关技术中同时使用两种知识的策略，要么无法有效利用知识图谱中的复杂知识，要么无法以较高的存储和计算效率支撑上层任务的问题，提出一种模型预训练方法、装置、电子设备和存储介质。

下面参考附图描述本公开实施例的模型预训练方法、装置、电子设备和存储介质。

图3为本公开实施例一所提供的模型预训练方法的流程示意图。

本公开实施例以该模型预训练方法被配置于模型预训练装置中来举例说明，该模型预训练装置可以应用于任一电子设备中，以使该电子设备可以执行模型预训练功能。

其中，电子设备可以为任一具有计算能力的设备，例如可以为个人电脑(PersonalComputer，简称PC)、移动终端、服务器等，移动终端例如可以为手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。

如图3所示，该模型预训练方法可以包括以下步骤：

步骤301，获取输入信息。

在本公开实施例中，输入信息是指训练语料，该输入信息可以从现有的测试集或训练集中获取，或者，也可以在线采集，或者，也可以线下采集，或者，也可以通过用户手动输入，等等，本公开对此并不做限制。

在本公开实施例的一种可能的实现方式中，输入信息包括但不限于字符、字符元组、单词中的一项或多项组合。比如，输入信息可以为语句、短语或者篇章，或者也可以是这些语言单位的组合，用以兼容不同的上层人工智能任务。

作为一种示例，以模型应用于翻译场景中进行示例性说明，即上层人工智能任务为翻译任务，此时，输入信息可以为输入语句。

在本公开实施例的一种可能的实现方式中，输入信息可以为序列结构，或者，也可以为依托于自然语言句法或语义分析工具所形成树状结构(例如语法树)或图状结构，本公开对此并不作限制。

步骤302，根据输入信息，从知识图谱中查询以确定与输入信息匹配的第一知识子图，其中，第一知识子图中包括与输入信息匹配的各目标实体，以及各目标实体之间的语义关系。

在本公开实施例中，知识图谱可以包括语言知识图谱、世界知识图谱、常识知识图谱等，本公开对此并不做限制。

在本公开实施例中，可以根据输入信息，从知识图谱中查询与输入信息匹配的各个目标实体，将知识图谱中包含各个目标实体的知识子图，作为第一知识子图，其中，第一知识子图中不仅包括各个目标实体，还包括各个目标实体之间的语义关系，即第一知识子图是根据输入信息从知识图谱中提取的由知识图谱中各节点(比如目标实体对应的节点)和各节点之间的关系构成的子图。

作为一种可能的实现方式，根据输入信息，从知识图谱中检索第一知识子图的过程，可以采用简单的字符匹配，例如，可以识别输入信息中的各个实体，将识别得到的各个实体与知识图谱中的各个实体进行匹配，将知识图谱中与输入信息中的各个实体匹配的实体作为目标实体，从而可以将知识图谱中包含各个目标实体的知识子图，作为第一知识子图。或者，也可以借助实体识别、实体链指等成熟的基础工具，从知识图谱中检索第一知识子图，本公开对此并不作限制。

步骤303，采用预训练模型中的编码器对输入信息进行编码，以得到输入信息的语义表示。

在本公开实施例中，对预训练模型的结构不作限制，比如，预训练模型可以为以Transformer为基本结构的模型(比如BERT、ERNIE等模型)，或者，也可以为RNN(RecurrentNeural Network，循环神经网络)、GNN(Graph Neural Network，图神经网络)等。

在本公开实施例中，可以采用预训练模型中的编码器对输入进行编码，得到该输入信息的语义表示，该语义表示还可以称为语义向量。

步骤304，采用预训练模型中的解码器对语义表示进行解码，以生成语义表示对应的第二知识子图。

在本公开实施例中，可以利用预训练模型中的解码器对输入信息的语义表示进行解码，以生成该语义表示对应的第二知识子图。也就是说，解码器可以以生成的方式为输入信息预测出知识图谱中相关的知识子图，从而使得输入信息的语义表示中蕴含了知识图谱中知识子图中的知识。

步骤305，根据第一知识子图和第二知识子图之间的差异，对编码器和解码器进行修正，以使差异最小化。

在本公开实施例中，可以确定第一知识子图和第二知识子图之间的差异，并根据上述差异对预训练模型中的编码器和解码器进行修正，以使上述差异最小化。由此，可以使得模型在预训练的过程中，学习到知识图谱中蕴含的丰富而复杂的知识，从而提升模型的预测效果。

本公开实施例的模型预训练方法，通过根据输入信息，从知识图谱中查询以确定与输入信息匹配的第一知识子图，采用预训练模型中的编码器对输入信息进行编码，以得到输入信息的语义表示，并采用预训练模型中的解码器对语义表示进行解码，以生成语义表示对应的第二知识子图，根据第一知识子图和第二知识子图之间的差异，对编码器和解码器进行修正，以使差异最小化。由此，可以使得模型在预训练的过程中，学习到知识图谱中蕴含的丰富和复杂的知识，从而提升模型的预测效果。

应当理解的是，基于简单的字符匹配方法，从知识图谱中检索第一知识子图的方式，可能导致遗漏识别目标实体的情况。举例而言，输入信息中包括：某品牌的某商品贵不贵？此时，输入信息中包含的实体仅为某品牌和某商品，然而，根据输入信息的语义，还可以确定“贵不贵”对应的实体为“价格”，因此，直接将输入信息中包含的实体，与知识图谱中的各个实体进行匹配，以确定第一知识子图的方式，将导致所确定的第一知识子图的丰富度和复杂度降低。

因此，针对上述问题，在本申请实施例的一种可能的实现方式中，可以基于输入信息的语义，从知识图谱中查询以确定与输入信息匹配的第一知识子图。下面结合实施例二，对上述过程进行详细说明。

图4为本公开实施例二所提供的模型预训练方法的流程示意图。

如图4所示，该模型预训练方法可以包括以下步骤：

步骤401，获取输入信息。

步骤401的执行过程可以参见上述实施例的执行过程，在此不做赘述。

步骤402，对输入信息进行语义分析。

在本公开实施例中，可以基于NLP(Natural Language Processing，自然语言处理)中的语义分析算法，对输入信息进行语义分析，确定该输入信息对应的语义分析结果。其中，语义分析技术主要是理解词语、句子、篇章的意义、主题、类别等语义信息，属于自然语言处理技术中的一种。

步骤403，根据语义分析结果，确定与输入信息匹配的各目标实体。

在本公开实施例中，可以根据语义分析结果，确定与输入信息匹配的各目标实体。

在本公开实施例的一种可能的实现方式中，可以采用语义分析技术将输入信息进行分解，得到分词序列。然后，根据分词序列中各个分词的词性和语义，提取出目标实体。

作为一种示例，可以对输入信息进行语义分析和句法分析，利用句法信息和语义信息对输入信息进行分解，得到分词序列，之后，可以对分词序列中各个分词进行词性和语义的分析，确定与输入信息匹配的目标实体。

步骤404，从知识图谱中查询以确定包含各目标实体的第一知识子图。

其中，第一知识子图中包括与输入信息匹配的各目标实体，以及各目标实体之间的语义关系。

在本公开实施例中，可以从知识图谱中查询以确定包含各目标实体的第一知识子图，即可以将知识图谱中包含各个目标实体的知识子图，作为第一知识子图。

步骤405，采用预训练模型中的编码器对输入信息进行编码，以得到输入信息的语义表示。

步骤406，采用预训练模型中的解码器对语义表示进行解码，以生成语义表示对应的第二知识子图。

步骤407，根据第一知识子图和第二知识子图之间的差异，对编码器和解码器进行修正，以使差异最小化。

步骤405至407的执行过程可以参见上述实施例，在此不做赘述。

本公开实施例的模型预训练方法，通过对输入信息进行语义分析，根据语义分析结果，确定与输入信息匹配的各目标实体，并从知识图谱中查询以确定包含各目标实体的第一知识子图。由此，基于输入信息的语义，从知识图谱中查询以确定与输入信息匹配的第一知识子图，可以避免遗漏识别目标实体的情况，从而保证第一知识子图的丰富度和复杂度，进而提升模型的预测效果。

应当理解的是，对于不同的上层人工智能任务，模型所需要的知识子图的复杂度可以不同，比如，当上层人工智能任务为翻译等简单任务时，对于待翻译语句，只需要直接对其进行翻译即可，而当上层人工智能任务为问答等复杂任务时，为了充分识别用户意图，可以对第一知识子图进行扩展。下面结合实施例三，对上述过程进行详细说明。

图5为本公开实施例三所提供的模型预训练方法的流程示意图。

如图5所示，该模型预训练方法可以包括以下步骤：

步骤501，获取输入信息。

步骤502，对输入信息进行语义分析。

步骤503，根据语义分析结果，确定与输入信息匹配的各目标实体。

步骤501至503的执行过程可以参见上述任一实施例的执行过程，在此不做赘述。

步骤504，确定预训练模型适配的任务。

在本公开实施例中，预训练模型适配的任务可以包括翻译、问答(例如人机交互场景)、完形填空、相邻句子预测等任务，本公开对此并不作限制。

步骤505，根据任务，从知识图谱中查询以确定包含各目标实体的第一知识子图。

在本公开实施例中，可以根据预训练模型适配的任务，从知识图谱中查询以确定包含各目标实体的第一知识子图。

在本公开实施例的一种可能的实现方式中，在预训练模型适配的任务为翻译时，可以从知识图谱中，确定仅包含各目标实体的知识子图作为初始知识子图，将该初始知识子图作为第一知识子图。由此，在预训练模型适配的任务较为简单的情况下，将知识图谱中仅包含各目标实体的知识子图，作为第一知识子图，可以实现在保证模型的预训练精度的基础上，降低模型的训练开销。

举例而言，以输入信息为“刘某的老婆是哪里人”进行示例，由于在翻译场景下，输入信息包含了翻译所需的全部信息，因此可对输入信息的原文直接进行翻译即可，而无需挖掘用户的其他意图，比如无需挖掘“刘某”的职业、公司，也无需要挖掘“刘某”的老婆是谁、故乡等具体信息，即无需扩展额外的知识。

在本公开实施例的另一种可能的实现方式中，在预训练模型适配的任务为除翻译之外的其他任务时，比如为问答、相邻句子预测等复杂任务时，可以从知识图谱中，确定仅包含各目标实体的知识子图作为初始知识子图，从知识图谱中确定与初始知识子图中各目标实体相关的候选实体，根据初始知识子图以及候选实体，确定第一知识子图。由此，在预训练模型适配的任务较为复杂的情况下，通过对知识图谱中仅包含各目标实体的知识子图进行向外扩展，得到第一知识子图，可以保证模型的预测效果。

举例而言，以输入信息为“刘某的老婆是哪里人”进行示例，假设该预训练模型应用于问答场景，为了识别用户的实际意图，不仅需要从知识图谱中查询“刘某”，还需要根据知识图谱中连接节点“刘某”的各条边，确定“刘某”的老婆是谁(比如朱某)，以及还需要根据连接节点“朱某”的各条边，确定“刘某”的故乡在哪(比如A省B市)，从而向用户回复“A省B市人”、“刘某的老婆是A省B市人”、“刘某的老婆朱某是A省B市人”等等。即在复杂任务场景下，需要扩展额外的知识，以识别用户的实际意图。

步骤506，采用预训练模型中的编码器对输入信息进行编码，以得到输入信息的语义表示。

步骤507，采用预训练模型中的解码器对语义表示进行解码，以生成语义表示对应的第二知识子图。

步骤508，根据第一知识子图和第二知识子图之间的差异，对编码器和解码器进行修正，以使差异最小化。

步骤506至508的执行过程可以参见上述实施例，在此不做赘述。

作为一种示例，本公开提出的预训练模型可以为基于生成式知识增强策略改进的预训练模型，能够充分利用知识图谱改进预训练模型，以简洁高效的形式支撑上层人工智能任务。本公开中，借助生成类任务的编码器-解码器架构，以生成的方式为输入信息预测出知识图谱中相关的知识子图，从而使得输入信息的语义表示中蕴含了知识图谱中知识子图中的知识。基本原理可以如图6所示。

编码器用于对输入信息进行编码，以生成输入信息的语义表示，解码器用于依据该语义表示以生成输入信息对应的知识子图。输入信息可以为输入的自然语言语句的词语序列。

编码器-解码器架构能够学习到从输入信息到知识子图之间的转换规律，编码器所给出的输入信息的语义表示之中包含了用以生成知识子图的指示信息。知识子图刻画了知识图谱视角下输入信息中的实体及其相关语义关系，因此，编码器给出的输入信息的语义表示即包含了该输入信息在知识图谱中对应的知识信息。

需要说明的是，编码器和解码器的选择范围包括但不限于RNN、Transformer、GNN等。编码器和解码器之间可以采用的优化策略包括但不限于注意力机制(Attention)或者拷贝机制(Copy)等关联机制。编码器和解码器的处理粒度的选择范围包括但不限于字符、字符元组、单词或者它们的组合。输入信息可以是序列结构，也可以是依托于自然语言句法或语义分析工具所形成树状结构或图状结构，相应的，解码器生成的知识子图可以是图状结构，也可以是树状结构或者序列化了的图状结构。

编码器-解码器学习所需的标注数据，可以是大规模收集的文本数据和以此为依据从知识图谱中检索出的相关子图。文本数据可以是语句、短语或者篇章，也可以是这些语言单位的组合，用以兼容不同的上层人工智能任务。其中，依据文本数据从知识图谱中检索知识子图的过程，可以采用简单的字符匹配，也可以借助实体识别、实体链指等成熟的基础工具。

进一步地，检索出的知识子图可以沿着边缘节点的连边，进一步扩展为更大的知识子图。这种扩展使得学习到的知识增强预训练模型，不仅能够为输入信息刻画相关知识，也能够刻画相关知识的相关知识。其中，是否进行子图扩展以及进行怎样的子图扩展，取决于具体的所面向的上层人工智能任务。

需要说明的是，本公开中的编码器-解码器架构可以独立使用，也可以与传统的预训练模型进行整合，这只需要在该编码器-解码器架构的基础上引入传统预训练模型的自监督学习任务，并添加相应的解码器或标注器即可。另外，由于解码器以生成式的方式运行，该架构也可以兼容更为复杂的知识图谱的知识，比如尝试知识图谱Atomic，其中的节点采用类似于自然语言语句的形式。理论上，任何知识类型的知识子图，只要能够序列化为文本符号序列，就可以兼容到这一架构之中。

综上，为了解决现有技术中同时利用语言模型和知识图谱的策略，要么无法充分利用知识图谱中的知识，要么无法做到像单纯语言模型的简单易用的技术问题，本公开中，可以实现知识增强的预训练模型，在保持简单易用性的基础上，实现知识的有效利用。

首先，采用生成方式为输入信息预测相关的知识子图，能够挖掘利用更为丰富复杂的知识图谱中的知识。与传统预训练语言模型的自监督学习任务不同，本公开中采用更为灵活的生成方式而非分类或标注方式，能够支持根据输入信息预测任意复杂的知识子图。这就意味着，借助生成方式的学习过程，可以将更为丰富和复杂的知识图谱知识融入到预训练模型之中。同时，还可以兼容传统的预训练模型，通过引入额外的标注或分类层以支持传统的自监督学习任务。

采用编码器-解码器的学习架构，使得模型的学习和使用都和传统预训练模型一样简单高效。与现有的文本知识联合学习策略不同，本公开中采用了经典的编码器-解码器架构进行从输入信息到知识子图的监督学习。编码器-解码器的学习架构在机器翻译、文本摘要等领域广泛使用，保证了学习时的易用性。学习得到的编码器即为知识增强的预训练模型，而该编码器与传统预训练模型的编码器是相同的，保证了使用时的易用性，即在预测阶段和现有模型一样，对编码器输出的输入信息的语义向量进行预测，得到预测结果(比如翻译结果)。

本公开可以实现更为高效的知识图谱增强的模型预训练，使得训练过程能够学习到知识图谱中蕴含的复杂知识，而使用过程仍然像是单纯的语言模型一样简洁高效。简而言之，该方案基于自然语言文本，以知识生成的方式预测与文本相关的知识，从而将更为丰富而复杂的知识蕴含在预训练模型之中，最终得到更有效的知识增强预训练模型。该策略能够高效融合语言模型与知识图谱两种知识，以统一的使用方式和更高的存储计算效率，更好地赋能涉及知识和推理的高级人工智能任务。

本公开实施例的模型预训练方法，通过根据预训练模型适配的任务，从知识图谱中查询以确定包含各目标实体的第一知识子图，不仅可以保证模型的预训练精度，还可以降低模型的预训练开销。

与上述图1至图5实施例提供的模型预训练方法相对应，本公开还提供一种模型预训练装置，由于本公开实施例提供的模型预训练装置与上述图1至图5实施例提供的模型预训练方法相对应，因此在模型预训练方法的实施方式也适用于本公开实施例提供的模型预训练装置，在本公开实施例中不再详细描述。

图7为本公开实施例六所提供的模型预训练装置的结构示意图。

如图7所示，该模型预训练装置700可以包括：获取模块710、处理模块720、编码模块730、解码模块740以及预训练模块750。

其中，获取模块710，用于获取输入信息。

处理模块720，用于根据输入信息，从知识图谱中查询以确定与输入信息匹配的第一知识子图，其中，第一知识子图中包括与输入信息匹配的各目标实体，以及各目标实体之间的语义关系。

编码模块730，用于采用预训练模型中的编码器对输入信息进行编码，以得到输入信息的语义表示。

解码模块740，用于采用预训练模型中的解码器对语义表示进行解码，以生成语义表示对应的第二知识子图。

预训练模块750，用于根据第一知识子图和第二知识子图之间的差异，对编码器和解码器进行修正，以使差异最小化。

在本公开实施例的一种可能的实现方式中，处理模块720，可以包括：

分析单元，用于对输入信息进行语义分析。

确定单元，用于根据语义分析结果，确定与输入信息匹配的各目标实体。

查询单元，用于从知识图谱中查询以确定包含各目标实体的第一知识子图。

在本公开实施例的一种可能的实现方式中，查询单元，具体可以用于：确定预训练模型适配的任务；根据任务，从知识图谱中查询以确定包含各目标实体的第一知识子图。

在本公开实施例的一种可能的实现方式中，查询模块，具体用于：从知识图谱中，确定仅包含各目标实体的知识子图作为初始知识子图；响应于任务为翻译，将初始知识子图作为第一知识子图。

在本公开实施例的一种可能的实现方式中，查询模块，还用于：响应于任务为问答，从知识图谱中确定与初始知识子图中各目标实体相关的候选实体，根据初始知识子图以及候选实体，确定第一知识子图。

本公开实施例的模型预训练装置，通过根据输入信息，从知识图谱中查询以确定与输入信息匹配的第一知识子图，采用预训练模型中的编码器对输入信息进行编码，以得到输入信息的语义表示，并采用预训练模型中的解码器对语义表示进行解码，以生成语义表示对应的第二知识子图，根据第一知识子图和第二知识子图之间的差异，对编码器和解码器进行修正，以使差异最小化。由此，可以使得模型在预训练的过程中，学习到知识图谱中蕴含的丰富和复杂的知识，从而提升模型的预测效果。

为了实现上述实施例，本公开还提供一种电子设备，电子设备可以包括上述实施例中的主播客户端或服务端，该电子设备可以包括至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开上述任一实施例提出的模型预训练方法。

为了实现上述实施例，本公开还提供一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开上述任一实施例提出的模型预训练方法。

为了实现上述实施例，本公开还提供一种计算机程序产品，该计算机程序产品包括计算机程序，计算机程序在被处理器执行时实现本公开上述任一实施例提出的模型预训练方法。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在ROM(Read-OnlyMemory，只读存储器)802中的计算机程序或者从存储单元807加载到RAM(Random AccessMemory，随机访问/存取存储器)803中的计算机程序，来执行各种适当的动作和处理。在RAM803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。I/O(Input/Output，输入/输出)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于CPU(Central Processing Unit，中央处理单元)、GPU(Graphic Processing Units，图形处理单元)、各种专用的AI(Artificial Intelligence，人工智能)计算芯片、各种运行机器学习模型算法的计算单元、DSP(Digital SignalProcessor，数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如上述模型预训练方法。例如，在一些实施例中，上述模型预训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的模型预训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述模型预训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、FPGA(Field Programmable Gate Array，现场可编程门阵列)、ASIC(Application-Specific Integrated Circuit，专用集成电路)、ASSP(Application Specific StandardProduct，专用标准产品)、SOC(System On Chip，芯片上系统的系统)、CPLD(ComplexProgrammable Logic Device，复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM(Electrically Programmable Read-Only-Memory，可擦除可编程只读存储器)或快闪存储器、光纤、CD-ROM(Compact Disc Read-Only Memory，便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(Cathode-Ray Tube，阴极射线管)或者LCD(Liquid Crystal Display，液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：LAN(LocalArea Network，局域网)、WAN(Wide Area Network，广域网)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(VirtualPrivate Server，虚拟专用服务器)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

其中，需要说明的是，人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

根据本公开实施例的技术方案，通过根据输入信息，从知识图谱中查询以确定与输入信息匹配的第一知识子图，采用预训练模型中的编码器对输入信息进行编码，以得到输入信息的语义表示，并采用预训练模型中的解码器对语义表示进行解码，以生成语义表示对应的第二知识子图，根据第一知识子图和第二知识子图之间的差异，对编码器和解码器进行修正，以使差异最小化。由此，可以使得模型在预训练的过程中，学习到知识图谱中蕴含的丰富和复杂的知识，从而提升模型的预测效果。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种模型预训练方法，包括：

获取输入信息；

2.根据权利要求1所述的方法，其中，所述根据所述输入信息，从知识图谱中查询以确定与所述输入信息匹配的第一知识子图，包括：

对所述输入信息进行语义分析；

根据语义分析结果，确定与所述输入信息匹配的各所述目标实体；

从所述知识图谱中查询以确定包含各所述目标实体的第一知识子图。

3.根据权利要求2所述的方法，其中，所述从所述知识图谱中查询以确定包含各所述目标实体的第一知识子图，包括：

确定所述预训练模型适配的任务；

根据所述任务，从所述知识图谱中查询以确定包含各所述目标实体的第一知识子图。

4.根据权利要求3所述的方法，其中，所述根据所述任务，从所述知识图谱中查询以确定包含各所述目标实体的第一知识子图，包括：

从所述知识图谱中，确定仅包含各所述目标实体的知识子图作为初始知识子图；

响应于所述任务为翻译，将所述初始知识子图作为所述第一知识子图。

5.根据权利要求4所述的方法，其中，所述方法，还包括：

响应于所述任务为问答，从所述知识图谱中确定与所述初始知识子图中各所述目标实体相关的候选实体，根据所述初始知识子图以及所述候选实体，确定所述第一知识子图。

6.一种模型预训练装置，包括：

获取模块，用于获取输入信息；

7.根据权利要求6所述的装置，其中，所述处理模块，包括：

分析单元，用于对所述输入信息进行语义分析；

确定单元，用于根据语义分析结果，确定与所述输入信息匹配的各所述目标实体；

查询单元，用于从所述知识图谱中查询以确定包含各所述目标实体的第一知识子图。

8.根据权利要求7所述的装置，其中，所述查询单元，具体用于：

确定所述预训练模型适配的任务；

9.根据权利要求8所述的装置，其中，所述查询模块，具体用于：

10.根据权利要求9所述的装置，其中，所述查询模块，还用于：

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的模型预训练方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-5中任一项所述的模型预训练方法。

13.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-5中任一项所述的模型预训练方法。