CN110263324A

CN110263324A - 文本处理方法、模型训练方法和装置

Info

Publication number: CN110263324A
Application number: CN201910410679.4A
Authority: CN
Inventors: 王雅圣; 蒋欣; 陈晓; 刘群; 张正彦; 岂凡超; 刘知远
Original assignee: Tsinghua University; Huawei Technologies Co Ltd
Current assignee: Tsinghua University; Huawei Technologies Co Ltd
Priority date: 2019-05-16
Filing date: 2019-05-16
Publication date: 2019-09-20
Anticipated expiration: 2039-05-16
Also published as: EP3964998A1; US20220147715A1; WO2020228376A1; EP3964998A4; CN110263324B

Abstract

本申请涉及人工智能领域，提供了一种文本处理方法、模型训练方法和装置，该方法包括：获取目标知识数据，该目标知识数据包括第一名词实体、第二名词实体，以及第一名词实体与第二名词实体之间的联系；对该目标知识数据进行处理，以获取目标知识向量；对待处理文本进行处理，以获取目标文本向量，该待处理文本包括该第一名词实体；根据目标融合模型对该目标文本向量和该目标知识向量进行融合，以获取融合后的目标文本向量和融合后的目标知识向量；根据目标处理模型对该融合后的目标文本向量和/或该融合后的目标知识向量进行处理，以获取与目标任务对应的处理结果。上述技术方案能够提高目标处理模型对目标任务处理结果的准确率。

Description

文本处理方法、模型训练方法和装置

技术领域

本申请涉及自然语言处理领域，并且更具体地，涉及一种文本处理方法、模型训练方法和装置。

背景技术

人工智能(artificial intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

随着人工智能技术的不断发展，让人机之间能够通过自然语言进行交互的自然语言人机交互系统变的越来越重要。人机之间能够通过自然语言进行交互，就需要系统能够识别出人类自然语言的具体含义。通常，系统通过采用对自然语言的句子进行关键信息提取来识别句子的具体含义。

随着计算机对自然语言文本处理技术的快速发展，自然语言人机交互系统能够从人类自然语言中学习到丰富的语义模式和语义信息以用于自然语言处理任务上。但自然语言人机交互系统学习到只是语言本身的含义，对于人类自然语言的理解能力不足，这使得其在处理自然语言处理任务时存在准确率不高的问题。

发明内容

本申请提供一种文本处理方法、模型训练方法和装置，能够提高模型对文本语言的理解能力，从而提高目标处理模型对目标任务处理结果的准确率。

第一方面，提供一种文本处理方法，包括：获取目标知识数据，所述目标知识数据包括第一名词实体、第二名词实体，以及第一名词实体与第二名词实体之间的联系；对所述目标知识数据进行处理，以获取目标知识向量，所述目标知识向量包括所述第一名词实体、所述第二名词实体以及所述第一名词实体与第二名词实体之间的联系所对应的向量；对待处理文本进行处理，以获取目标文本向量，所述待处理文本包括一个或多个名词实体，所述一个或多个名词实体包括所述第一名词实体；根据目标融合模型对所述目标文本向量和所述目标知识向量进行融合，以获取融合后的目标文本向量和融合后的目标知识向量；根据目标处理模型对所述待融合后的目标文本向量和/或所述融合后的目标知识向量进行处理，以获取与目标任务对应的处理结果。

根据本申请提供的方案，目标融合模型对待处理文本对应的目标文本向量和目标知识数据对应的目标知识向量进行融合，并将得到的融合后的目标文本向量和/或融合后的目标知识向量作为目标处理模型的输入数据，由于待处理文本中融合了知识，使得目标处理模型的输入数据更准确，能够提高目标处理模型对待处理文本的理解能力，从而提高对目标任务处理结果的准确率。

应理解，所述融合后的目标文本向量为待处理文本向量。

结合第一方面，在一种可能的实现方式中，所述待处理文本还包括至少一个第一知识标识符，所述至少一个第一知识标识符用于指示所述待处理文本中的所述一个或多个名词实体中的至少一个名词实体，所述至少一个第一知识标识符与所述待处理文本中的所述至少一个名词实体一一对应。

应理解，所述融合后的目标文本向量包括所述至少一个第一知识标识符对应的至少一个第一知识标识符向量，所述至少一个第一知识标识符向量用于指示所述待处理文本中的所述至少一个名词实体对应的向量。

可选地，所述根据目标处理模型对所述融合后的目标文本向量和/或所述融合后的目标知识向量进行处理，以获取与目标任务对应的处理结果，包括：根据所述目标处理模型对所述至少一个第一知识标识符向量所指示的所述待处理文本中的所述至少一个名词实体对应的向量进行处理，以获取与所述目标任务对应的处理结果。

通过在待处理文本中设置用于指示名词实体的第一知识标识符，能够引导目标处理模型将知识和语义信息集中到第一知识标识符上，引导模型关注第一标识符所指示的名词实体或抽取知识局部特征，从而提高目标处理模型的处理效率和准确率。

结合第一方面，在一种可能的实现方式中，所述融合后的目标文本向量包含所述目标知识数据中的至少部分信息，所述融合后的目标知识向量包含所述待处理文本的语义背景信息。

结合第一方面，在一种可能的实现方式中，所述第一名词实体与第二名词实体之间的联系为所述第一名词实体与所述第二名词实体之间的关系；或者，所述第一名词实体与第二名词实体之间的联系为所述第一名词实体的一种属性，所述第二名词实体为所述属性的属性值。

结合第一方面，在一种可能的实现方式中，所述目标融合模型为以下模型中的任意一种：多层自注意力机制模型，多层感知机模型，循环神经网络模型，权重模型，卷积神经网络模型，对抗神经网络模型，强化学习神经网络模型。

结合第一方面，在一种可能的实现方式中，所述方法还包括：获取第一知识数据，所述第一知识数据包括第三名词实体、第四名词实体，以及第三名词实体与第四名词实体之间的联系，所述目标知识数据包括所述第一知识数据；对所述第一知识数据进行处理，以获取第一知识向量，所述第一知识向量包括所述第三名词实体、所述第四名词实体以及所述第三名词实体与第四名词实体之间的联系所对应的向量；获取训练文本以及与所述训练文本和所述目标任务对应的第一任务结果，所述训练文本包括一个或多个名词实体，所述一个或多个名词实体包括所述第三名词实体；对所述训练文本进行处理，以获取第一文本向量；根据原始融合模型对所述第一文本向量与所述第一知识向量进行融合，以获取融合后的第一文本向量和融合后的第一知识向量；根据原始处理模型对所述融合后的第一文本向量和/或融合后的第一知识向量进行处理，以获取第二任务结果；根据所述第一任务结果和所述第二任务结果，调整所述原始处理模型的参数，以获取所述目标处理模型，和/或根据所述第一任务结果和所述第二任务结果，调整所述原始融合模型的参数，以获取所述目标融合模型。

在目标处理模型训练过程中，基于第一知识数据和训练文本对原始处理模型和/或原始融合模型进行参数调整，以得到目标处理模型和/或目标融合模型，提高了目标处理模型和/或目标融合模型对于自然语言的理解能力，从而提高目标处理模型处理结果的准确率。

结合第一方面，在一种可能的实现方式中，所述融合后的第一文本向量包含所述第一知识数据中的至少部分信息，所述融合后的第一知识向量包含所述训练文本的语义背景信息。

第一文本向量和第一知识向量融合后，第一文本向量融合了知识信息，第一知识向量融合了语义背景信息，有利于模型对文本语言的理解。

结合第一方面，在一种可能的实现方式中，所述训练文本还包括至少一个第二知识标识符，所述至少一个第二知识标识符用于指示所述训练文本中的所述一个或多个名词实体中的至少一个名词实体，所述至少一个第二知识标识符与所述训练文本中的所述至少一个名词实体一一对应。

应理解，所述融合后的第一文本向量包括所述至少一个第二知识标识符对应的至少一个第二知识标识符向量，所述至少一个第二知识标识符向量用于指示所述训练文本中的所述至少一个名词实体对应的向量。

可选地，所述根据原始处理模型对所述融合后的第一文本向量和/或融合后的第一知识向量进行处理，以获取第二任务结果，包括：根据所述原始处理模型对所述第二知识标识符向量所指示的所述训练文本的所述至少一个名词实体对应的向量进行处理，以获取第二任务结果。

通过在训练文本中设置用于指示名词实体的第二知识标识符，能够引导原始处理模型将知识和语义信息集中到第二知识标识符上，引导模型关注第二标识符所指示的名词实体或抽取知识局部特征。

结合第一方面，在一种可能的实现方式中，所述原始融合模型是基于所述第一知识数据和预先设定的预训练文本训练得到的。

可选地，所述预先设定的预训练文本为大规模文本语料。

结合第一方面，在一种可能的实现方式中，所述第三名词实体与第四名词实体之间的联系为所述第三名词实体与所述第四名词实体之间的关系；或者，所述第三名词实体与第四名词实体之间的联系为所述第三名词实体的一种属性，所述第四名词实体为所述属性的属性值。

结合第一方面，在一种可能的实现方式中，所述原始融合模型为以下模型中的任意一种：多层自注意力机制模型，多层感知机模型，循环神经网络模型，权重模型，卷积神经网络模型，对抗神经网络模型，强化学习神经网络模型。

第二方面，提供一种模型训练方法，包括：获取第一知识数据，所述第一知识数据包括第三名词实体、第四名词实体，以及第三名词实体与第四名词实体之间的联系；对所述第一知识数据进行处理，以获取第一知识向量，所述第一知识向量包括所述第三名词实体、所述第四名词实体以及所述第三名词实体与第四名词实体之间的联系所对应的向量；获取训练文本以及与所述训练文本和所述目标任务对应的第一任务结果，所述训练文本包括一个或多个名词实体，所述一个或多个名词实体包括所述第三名词实体；对所述训练文本进行处理，以获取第一文本向量；根据原始融合模型对所述第一文本向量与所述第一知识向量进行融合，以获取融合后的第一文本向量和融合后的第一知识向量；根据原始处理模型对所述融合后的第一文本向量和/或融合后的第一知识向量进行处理，以获取第二任务结果；根据所述第一任务结果和所述第二任务结果，调整所述原始处理模型的参数，以获取目标处理模型。

在目标处理模型训练过程中，基于第一知识数据和训练文本对原始处理模型进行参数调整，以得到目标处理模型，由于在训练文本中融合知识数据，提高了目标处理模型对于自然语言的理解能力，从而提高目标处理模型处理结果的准确率。

结合第二方面，在一种可能的实现方式中，还包括：根据所述第一任务结果和所述第二任务结果，调整所述原始融合模型的参数，以获取目标融合模型。

调整原始融合模型的参数，可以获得适配于目标处理模型的目标融合模型。并且原始融合模型能够学习到知识，使得获得的目标融合模型能够包含知识信息。

结合第二方面，在一种可能的实现方式中，所述融合后的第一文本向量包含所述第一知识数据中的至少部分信息，所述融合后的第一知识向量包含所述训练文本的语义背景信息。

结合第二方面，在一种可能的实现方式中，所述训练文本还包括至少一个第二知识标识符，所述至少一个第二知识标识符用于指示所述训练文本中的所述一个或多个名词实体中的至少一个名词实体，所述至少一个第二知识标识符与所述训练文本中的所述至少一个名词实体一一对应。

结合第二方面，在一种可能的实现方式中，所述原始融合模型是基于所述第一知识数据和预先设定的预训练文本训练得到的。

结合第二方面，在一种可能的实现方式中，所述第三名词实体与第四名词实体之间的联系为所述第三名词实体与所述第四名词实体之间的关系；或者，所述第三名词实体与第四名词实体之间的联系为所述第三名词实体的一种属性，所述第四名词实体为所述属性的属性值。

结合第二方面，在一种可能的实现方式中，所述原始融合模型为以下模型中的任意一种：多层自注意力机制模型，多层感知机模型，循环神经网络模型，权重模型，卷积神经网络模型，对抗神经网络模型，强化学习神经网络模型。

第三方面，提供一种文本处理装置，包括：存储器，用于存储程序；处理器，用于执行所述存储器存储的程序，当所述处理器执行所述存储器存储的程序时，所述处理器用于获取目标知识数据，所述目标知识数据包括第一名词实体、第二名词实体，以及第一名词实体与第二名词实体之间的联系；对所述目标知识数据进行处理，以获取目标知识向量，所述目标知识向量包括所述第一名词实体、所述第二名词实体以及所述第一名词实体与第二名词实体之间的联系所对应的向量；对待处理文本进行处理，以获取目标文本向量，所述待处理文本包括一个或多个名词实体，所述一个或多个名词实体包括所述第一名词实体；根据目标融合模型对所述目标文本向量和所述目标知识向量进行融合，以获取融合后的目标文本向量和融合后的目标知识向量；根据目标处理模型对所述融合后的目标文本向量和/或所述融合后的目标知识向量进行处理，以获取与目标任务对应的处理结果。

根据本申请提供的方案，目标融合模型对待处理文本对应的目标文本向量和目标知识数据对应的目标知识向量进行融合，并将得到的融合后的目标文本向量和/或融合后的目标知识向量作为目标处理模型的输入数据，由于待处理文本中融合了知识，使得目标处理模型的输入数据更准确，能够提高目标处理模型对待处理文本的理解能力，从而提高对目标任务处理结果的准确率，也即提高文本处理装置对目标任务处理结果的准确率。

应理解，所述融合后的目标文本向量为待处理文本向量。

结合第三方面，在一种可能的实现方式中，所述待处理文本还包括至少一个第一知识标识符，所述至少一个第一知识标识符用于指示所述待处理文本中的所述一个或多个名词实体中的至少一个名词实体，所述至少一个第一知识标识符与所述待处理文本中的所述至少一个名词实体一一对应。

可选地，所述处理器具体用于根据所述目标处理模型对所述至少一个第一知识标识符向量所指示的所述待处理文本中的所述至少一个名词实体对应的向量进行处理，以获取与所述目标任务对应的处理结果。

结合第三方面，在一种可能的实现方式中，所述融合后的目标文本向量包含所述目标知识数据中的至少部分信息，所述融合后的目标知识向量包含所述待处理文本的语义背景信息。

结合第三方面，在一种可能的实现方式中，所述第一名词实体与第二名词实体之间的联系为所述第一名词实体与所述第二名词实体之间的关系；或者，所述第一名词实体与第二名词实体之间的联系为所述第一名词实体的一种属性，所述第二名词实体为所述属性的属性值。

结合第三方面，在一种可能的实现方式中，所述目标融合模型为以下模型中的任意一种：多层自注意力机制模型，多层感知机模型，循环神经网络模型，权重模型，卷积神经网络模型，对抗神经网络模型，强化学习神经网络模型。

结合第三方面，在一种可能的实现方式中，所述处理器还用于获取第一知识数据，所述第一知识数据包括第三名词实体、第四名词实体，以及第三名词实体与第四名词实体之间的联系，所述目标知识数据包括所述第一知识数据；对所述第一知识数据进行处理，以获取第一知识向量，所述第一知识向量包括所述第三名词实体、所述第四名词实体以及所述第三名词实体与第四名词实体之间的联系所对应的向量；获取训练文本以及与所述训练文本和所述目标任务对应的第一任务结果，所述训练文本包括一个或多个名词实体，所述一个或多个名词实体包括所述第三名词实体；对所述训练文本进行处理，以获取第一文本向量；根据原始融合模型对所述第一文本向量与所述第一知识向量进行融合，以获取融合后的第一文本向量和融合后的第一知识向量；根据原始处理模型对所述融合后的第一文本向量和/或融合后的第一知识向量进行处理，以获取第二任务结果；根据所述第一任务结果和所述第二任务结果，调整所述原始处理模型的参数，以获取所述目标处理模型，和/或根据所述第一任务结果和所述第二任务结果，调整所述原始融合模型的参数，以获取所述目标融合模型。

结合第三方面，在一种可能的实现方式中，所述融合后的第一文本向量包含所述第一知识数据中的至少部分信息，所述融合后的第一知识向量包含所述训练文本的语义背景信息。

结合第三方面，在一种可能的实现方式中，所述训练文本还包括至少一个第二知识标识符，所述至少一个第二知识标识符用于指示所述训练文本中的所述一个或多个名词实体中的至少一个名词实体，所述至少一个第二知识标识符与所述训练文本中的所述至少一个名词实体一一对应。

可选地，所述处理器具体用于根据所述原始处理模型对所述第二知识标识符向量所指示的所述训练文本的所述至少一个名词实体对应的向量进行处理，以获取第二任务结果。

结合第三方面，在一种可能的实现方式中，所述原始融合模型是基于所述第一知识数据和预先设定的预训练文本训练得到的。

结合第三方面，在一种可能的实现方式中，所述第三名词实体与第四名词实体之间的联系为所述第三名词实体与所述第四名词实体之间的关系；或者，所述第三名词实体与第四名词实体之间的联系为所述第三名词实体的一种属性，所述第四名词实体为所述属性的属性值。

结合第三方面，在一种可能的实现方式中，所述原始融合模型为以下模型中的任意一种：多层自注意力机制模型，多层感知机模型，循环神经网络模型，权重模型，卷积神经网络模型，对抗神经网络模型，强化学习神经网络模型。

第四方面，提供一种模型训练装置，包括：存储器，用于存储程序；处理器，用于执行所述存储器存储的程序，当所述处理器执行所述存储器存储的程序时，所述处理器用于获取第一知识数据，所述第一知识数据包括第三名词实体、第四名词实体，以及第三名词实体与第四名词实体之间的联系；对所述第一知识数据进行处理，以获取第一知识向量，所述第一知识向量包括所述第三名词实体、所述第四名词实体以及所述第三名词实体与第四名词实体之间的联系所对应的向量；获取训练文本以及与所述训练文本和所述目标任务对应的第一任务结果，所述训练文本包括一个或多个名词实体，所述一个或多个名词实体包括所述第三名词实体；对所述训练文本进行处理，以获取第一文本向量；根据原始融合模型对所述第一文本向量与所述第一知识向量进行融合，以获取融合后的第一文本向量和融合后的第一知识向量；根据原始处理模型对所述融合后的第一文本向量和/或融合后的第一知识向量进行处理，以获取第二任务结果；根据所述第一任务结果和所述第二任务结果，调整所述原始处理模型的参数，以获取目标处理模型。

结合第四方面，在一种可能的实现方式中，所述处理器还用于根据所述第一任务结果和所述第二任务结果，调整所述原始融合模型的参数，以获取目标融合模型。

结合第四方面，在一种可能的实现方式中，所述融合后的第一文本向量包含所述第一知识数据中的至少部分信息，所述融合后的第一知识向量包含所述训练文本的语义背景信息。

结合第四方面，在一种可能的实现方式中，所述训练文本包括还至少一个第二知识标识符，所述至少一个第二知识标识符用于指示所述训练文本中的所述一个或多个名词实体中的至少一个名词实体，所述至少一个第二知识标识符与所述训练文本中的所述至少一个名词实体一一对应。

结合第四方面，在一种可能的实现方式中，所述原始融合模型是基于所述第一知识数据和预先设定的预训练文本训练得到的。

结合第四方面，在一种可能的实现方式中，所述第三名词实体与第四名词实体之间的联系为所述第三名词实体与所述第四名词实体之间的关系；或者，所述第三名词实体与第四名词实体之间的联系为所述第三名词实体的一种属性，所述第四名词实体为所述属性的属性值。

结合第四方面，在一种可能的实现方式中，所述原始融合模型为以下模型中的任意一种：多层自注意力机制模型，多层感知机模型，循环神经网络模型，权重模型，卷积神经网络模型，对抗神经网络模型，强化学习神经网络模型。

第五方面，提供一种文本处理装置，包括用于执行上述第一方面或第一方面中任一种可能实现方式中方法的模块。

第六方面，提供一种模型训练装置，包括用于执行上述第二方面或第二方面中任一种可能实现方式中方法的模块。

第七方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序(也可以称为代码，或指令)，当所述计算机程序被运行时，使得计算机执行上述第一方面或第二方面中任一种可能实现方式中的方法。

第八方面，提供了一种计算机可读介质，所述计算机可读介质存储有计算机程序(也可以称为代码，或指令)当其在计算机上运行时，使得计算机执行上述第一方面或第二方面中任一种可能实现方式中的方法。

第九方面，提供了一种芯片系统，包括存储器和处理器，该存储器用于存储计算机程序，该处理器用于从存储器中调用并运行该计算机程序，使得安装有该芯片系统的通信设备执行上述第一方面或第二方面中任一种可能实现方式中的方法。

其中，该芯片系统可以包括用于发送信息或数据的输入电路或者接口，以及用于接收信息或数据的输出电路或者接口。

第十方面，提供一种电子设备，该电子设备包括上述第三方面中的文本处理装置或者上述第五方面中的文本处理装置。

附图说明

图1是本申请实施例提供的一种自然语言处理的应用场景示意图；

图2是本申请实施例提供的另一种自然语言处理的应用场景示意图；

图3是本申请实施例提供的自然语言处理的相关设备的示意图；

图4是本申请实施例提供的一种系统架构的示意图；

图5是本申请实施例提供的一种根据CNN模型进行文本处理的示意图；

图6本申请实施例提供的另一种根据CNN模型进行文本处理的示意图；

图7是本申请实施例提供的一种芯片的硬件结构的示意图；

图8是本申请实施例提供的模型训练方法的示意性流程图；

图9是本申请实施例提供的文本处理方法的示意性流程图；

图10是本申请实施例提供的模型训练方法的一例的示意性流程图；

图11是本申请实施例提供的模型训练方法的另一例的示意性流程图；

图12是本申请实施例提供的一种神经网络模型的示意图；

图13是本申请实施例提供的神经网络训练装置示意性框图；

图14是本申请实施例提供的文本处理装置的示意性框图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

为了更好地理解本申请实施例的方案，下面先结合图1至图3对本申请实施例可能的应用场景进行简单的介绍。

图1示出了一种自然语言处理系统，该自然语言处理系统包括用户设备以及数据处理设备。其中，用户设备包括手机、个人电脑或者信息处理中心等智能终端。用户设备为自然语言数据处理的发起端，作为语言问答或者查询等请求的发起方，通常用户通过用户设备发起请求。

上述数据处理设备可以是云服务器、网络服务器、应用服务器以及管理服务器等具有数据处理功能的设备或服务器。数据处理设备通过交互接口接收来自智能终端的查询语句/语音/文本等问句，再通过存储数据的存储器以及数据处理的处理器环节进行机器学习，深度学习，搜索，推理，决策等方式的语言数据处理。数据处理设备中的存储器可以是一个统称，包括本地存储以及存储历史数据的数据库，数据库可以在数据处理设备上，也可以在其它网络服务器上。

在图1所示的自然语言处理系统中，用户设备可以接收用户的指令，例如用户设备可以接收用户输入的一段文本，然后向数据处理设备发起请求，使得数据处理设备针对用户设备得到的该一段文本执行自然语言处理应用(例如文本分类、文本推理、命名实体识别、翻译等)，从而得到针对该一段文本的对应的自然语言处理应用的处理结果(例如分类结果、推理结果、命名实体识别结果、翻译结果等)。示例性的，用户设备可以接收用户输入的一段中文，然后向数据处理设备发起请求，使得数据处理设备对该一段中文进行实体分类，从而得到针对该一段中文的实体分类结果；示例性的，用户设备可以接收用户输入的一段中文，然后向数据处理设备发起请求，使得数据处理设备将该一段中文翻译成英文，从而得到针对该一段中文的英文译文。

在图1中，数据处理设备可以执行本申请实施例的文本处理方法。

图2示出了另一种自然语言处理系统，在图2中，用户设备直接作为数据处理设备，该用户设备能够直接接收来自用户的输入并直接由用户设备本身的硬件进行处理，具体过程与图1相似，可参考上面的描述，在此不再赘述。

在图2所示的自然语言处理系统中，用户设备可以接收用户的指令，例如用户设备可以接收用户输入的一段文本，然后再由用户设备自身针对该一段文本执行自然语言处理应用(例如文本分类、文本推理、命名实体识别、翻译等)，从而得到针对该一段文本的对应的自然语言处理应用的处理结果(例如分类结果、推理结果、命名实体识别结果、翻译结果等)。示例性的，用户设备可以接收用户输入的一段中文，并针对该一段中文进行实体分类，从而得到针对该一段中文的实体分类结果；示例性的，用户设备可以接收用户输入的一段中文，并将该一段中文翻译成英文，从而得到针对该一段中文的英文译文。

在图2中，用户设备自身就可以执行本申请实施例的文本处理方法。

图3是本申请实施例提供的自然语言处理的相关设备的示意图。

上述图1和图2中的用户设备具体可以是图3中的本地设备301或者本地设备302，图1中的数据处理设备具体可以是图3中的执行设备310，其中，数据存储系统350可以存储执行设备310的待处理数据，数据存储系统350可以集成在执行设备310上，也可以设置在云上或其它网络服务器上。

图1和图2中的处理器可以通过神经网络模型或者其它模型(例如，基于支持向量机的模型)进行数据训练/机器学习/深度学习，并利用数据最终训练或者学习得到的模型针对文本序列执行自然语言处理应用(例如文本分类、序列标注、阅读理解、文本生成、文本推理、翻译等)，从而得到相应的处理结果。

由于本申请实施例涉及大量神经网络的应用，为了便于理解，下面先对本申请实施例涉及的相关术语及神经网络等相关概念进行介绍。

(1)神经网络

神经网络可以是由神经单元组成的，神经单元可以是指以x_s和截距1为输入的运算单元，该运算单元的输出可以为：

其中，s＝1、2、……n，n为大于1的自然数，W_s为x_s的权重，b为神经单元的偏置。f为神经单元的激活函数(activation functions)，用于将非线性特性引入神经网络中，来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入，激活函数可以是sigmoid函数。神经网络是将多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

(2)深度神经网络

深度神经网络(deep neural network，DNN)，也称多层神经网络，可以理解为具有多层隐含层的神经网络。按照不同层的位置对DNN进行划分，DNN内部的神经网络可以分为三类：输入层，隐含层，输出层。一般来说第一层是输入层，最后一层是输出层，中间的层数都是隐含层。层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。

虽然DNN看起来很复杂，但是就每一层的工作来说，其实并不复杂，简单来说就是如下线性关系表达式：其中，是输入向量，是输出向量，是偏移向量，W是权重矩阵(也称系数)，α()是激活函数。每一层仅仅是对输入向量经过如此简单的操作得到输出向量由于DNN层数多，系数W和偏移向量的数量也比较多。这些参数在DNN中的定义如下所述：以系数W为例，假设在一个三层的DNN中，第二层的第4个神经元到第三层的第2个神经元的线性系数定义为上标3代表系数W所在的层数，而下标对应的是输出的第三层索引2和输入的第二层索引4。

综上，第L-1层的第k个神经元到第L层的第j个神经元的系数定义为

需要注意的是，输入层是没有W参数的。在深度神经网络中，更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言，参数越多的模型复杂度越高，“容量”也就越大，也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程，其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。

(3)卷积神经网络

卷积神经网络(convolutional neuron network，CNN)是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器，该特征抽取器可以看作是滤波器。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中，一个神经元可以只与部分邻层神经元连接。一个卷积层中，通常包含若干个特征平面，每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重，这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。卷积核可以以随机大小的矩阵的形式初始化，在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外，共享权重带来的直接好处是减少卷积神经网络各层之间的连接，同时又降低了过拟合的风险。

(4)循环神经网络(recurrent neural networks，RNN)是用来处理序列数据的。在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，而对于每一层层内之间的各个节点是无连接的。这种普通的神经网络虽然解决了很多难题，但是却仍然对很多问题无能无力。例如，你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。RNN之所以称为循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐含层本层之间的节点不再无连接而是有连接的，并且隐含层的输入不仅包括输入层的输出还包括上一时刻隐含层的输出。理论上，RNN能够对任何长度的序列数据进行处理。对于RNN的训练和对传统的CNN或DNN的训练一样。

既然已经有了卷积神经网络，为什么还要循环神经网络？原因很简单，在卷积神经网络中，有一个前提假设是：元素之间是相互独立的，输入与输出也是独立的，比如猫和狗。但现实世界中，很多元素都是相互连接的，比如股票随时间的变化，再比如一个人说了：我喜欢旅游，其中最喜欢的地方是云南，以后有机会一定要去。这里填空，人类应该都知道是填“云南”。因为人类会根据上下文的内容进行推断，但如何让机器做到这一步？RNN就应运而生了。RNN旨在让机器像人一样拥有记忆的能力。因此，RNN的输出就需要依赖当前的输入信息和历史的记忆信息。

(5)注意力机制(attention mechanism)

注意力机制模仿了生物观察行为的内部过程，即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制，能够利用有限的注意力资源从大量信息中快速筛选出高价值信息。注意力机制可以快速提取稀疏数据的重要特征，因而被广泛用于自然语言处理任务，特别是机器翻译。而自注意力机制(self-attention mechanism)是注意力机制的改进，其减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性。注意力机制的本质思想可以改写为如下公式：

其中，Lx＝||Source||代表Source的长度，公式含义即将Source中的构成元素想象成是由一系列的<Key,Value>数据对构成，此时给定目标Target中的某个元素Query，通过计算Query和各个Key的相似性或者相关性，得到每个Key对应Value的权重系数，然后对Value进行加权求和，即得到了最终的Attention数值。所以本质上Attention机制是对Source中元素的Value值进行加权求和，而Query和Key用来计算对应Value的权重系数。从概念上理解，把Attention可以理解为从大量信息中有选择地筛选出少量重要信息并聚焦到这些重要信息上，忽略大多不重要的信息。聚焦的过程体现在权重系数的计算上，权重越大越聚焦于其对应的Value值上，即权重代表了信息的重要性，而Value是其对应的信息。自注意力机制可以理解为内部Attention(intra attention)，Attention机制发生在Target的元素Query和Source中的所有元素之间，自注意力机制指的是在Source内部元素之间或者Target内部元素之间发生的Attention机制，也可以理解为Target＝Source这种特殊情况下的注意力计算机制，其具体计算过程是一样的，只是计算对象发生了变化而已。

(6)对抗神经网络(generative adversarial nets，GAN)

对抗神经网络其实是两个网络的组合，可以理解为一个网络生成模拟数据，另一个网络判断生成的数据是真实的还是模拟的。生成模拟数据的网络要不断优化自己让判别的网络判断不出来，判别的网络也要不断优化自己让判断的更加精确。两者的关系形成对抗，因此叫对抗神经网络。GAN由生成模型(generator)和判别式模型(discriminator)两部分构成。生成模型主要是从训练数据中产生相同分布的样本(samples)，对于输入x，类别标签y，在生成模型中估计其联合概率分布。判别式模型判断输入的是真实数据还是生成模型生成的数据，即估计样本属于某类的条件概率分布。它采用传统的监督学习的方法。二者结合之后，经过大量次数的迭代训练会使生成模型尽可能模拟出以假乱真的样本，而判别式模型会有更精确的鉴别真伪数据的能力，最终整个GAN会达到所谓的纳什均衡，即判别式模型对于生成模型的数据鉴别结果为正确率和错误率各占50％。

(7)反向传播算法

神经网络可以采用误差反向传播(back propagation，BP)算法在训练过程中修正初始的神经网络模型中参数的大小，使得神经网络模型的重建误差损失越来越小。具体地，前向传递输入信号直至输出会产生误差损失，通过反向传播误差损失信息来更新初始的神经网络模型中参数，从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动，旨在得到最优的神经网络模型的参数，例如权重矩阵。

(8)自然语言处理(natural language processing，NLP)

自然语言(natural language)即人类语言，自然语言处理(NLP)就是对人类语言的处理。自然语言处理是以一种智能与高效的方式，对文本数据进行系统化分析、理解与信息提取的过程。通过使用NLP及其组件，我们可以管理非常大块的文本数据，或者执行大量的自动化任务，并且解决各式各样的问题，如自动摘要(automatic summarization)，机器翻译(machine translation，MT)，命名实体识别(named entity recognition，NER)，关系提取(relation extraction，RE)，信息抽取(information extraction，IE)，情感分析，语音识别(speech recognition)，问答系统(question answering)以及主题分割等等。

示例性的，自然语言处理任务可以有以下几类。

序列标注：句子中每一个单词要求模型根据上下文给出一个分类类别。如中文分词、词性标注、命名实体识别、语义角色标注。

分类任务：整个句子输出一个分类值，如文本分类。

句子关系推断：给定两个句子，判断这两个句子是否具备某种名义关系。例如entilment、QA、语义改写、自然语言推断。

生成式任务：输出一段文本，生成另一段文本。如机器翻译、文本摘要、写诗造句、看图说话。

下面示例性的列举一些自然语言处理案例。

分词(word segmentation或word breaker，WB)：将连续的自然语言文本，切分成具有语义合理性和完整性的词汇序列，可以解决交叉歧义问题。例句：致毕业和尚未毕业的同学；分词1：致毕业和尚未毕业的同学；分词2：致毕业和尚未毕业的同学。

命名实体识别(named entity recognition，NER)：识别自然语言文本中具有特定意义的实体(人、地、机构、时间、作品等)，可以从粒度整合未登录体词。例句：天使爱美丽在线观看；分词：天使爱美丽在线观看；实体：天使爱美丽->电影。

词性标注(part-speech tagging)：为自然语言文本中的每个词汇赋予一个词性(名词、动词、形容词等)；依存句法分析(dependency parsing)：自动分析句子中的句法成分(主语、谓语、宾语、定语、状语和补语等成分)，可以解决结构歧义问题。评论：房间里还可以欣赏日出；歧义1：房间还可以；歧义2：可以欣赏日出；词性：房间里(主语)，还可以(谓语)，欣赏日出(动宾短语)。

词向量与语义相似度(word embedding&semantic similarity)：对词汇进行向量化表示，并据此实现词汇的语义相似度计算，可以解决词汇语言相似度。例如：西瓜与(呆瓜/草莓)，哪个更接近？向量化表示：西瓜(0.1222,0.22333,..)；相似度计算：呆瓜(0.115)草莓(0.325)；向量化表示：(-0.333,0.1223..)(0.333，0.3333,..)。

文本语义相似度(text semantic similarity)：依托全网海量数据和深度神经网络技术，实现文本间的语义相似度计算的能力，可以解决文本语义相似度问题。例如：车头如何防止车牌与(前牌照怎么装/如何办理北京牌照)，哪个更接近？向量化表示：车头如何防止车牌(0.1222,0.22333,..)；相似度计算：前牌照怎么装(0.762)，如何办理北京牌照(0.486)，向量化表示：(-0.333,0.1223..)(0.333，0.3333,..)。

(9)语言模型(language model，LM)

语言模型是NPL中的基础模型，通过大量语料训练学习，使得LM能够根据已有的信息(例如上下文中已经出现过的词等文本信息)来推测未知词的概率，也可以理解为LM是用来计算一个句子的概率的概率模型。换句话说，语言模型是自然语言文本序列的概率分布，表征特定长度特定序列文本存在的可能性。简而言之，语言模型即是根据上下文去预测下一个词是什么，由于不需要人工标注语料，因此语言模型能够从无限制的大规模语料中学习到丰富的语义知识。

(10)大规模预训练语言模型(large scale pretrained language model)

大规模预训练语言模型，也可称为大规模语言预训练模型，一般是指使用大规模的语料(例如句子，段落等语言训练素材)，设计语言模型训练任务，训练大规模的神经网络算法结构来学习实现，最终得到的大规模神经网络算法结构就是大规模预训练语言模型，后续有其它任务可以在该模型的基础上进行特征抽取或者任务微调来实现特定任务目的。预训练的思想就是先对一个任务进行训练得到一套模型参数，然后利用该套模型参数对网络模型参数进行初始化，再利用经初始化的网络模型对其他任务进行训练，得到其他任务适配的模型。通过在大规模的语料上进行预训练，神经语言表示模型可以学习到强大语言表示能力，能够从文本中抽取出丰富的句法、语义信息。大规模预训练语言模型可以提供包含丰富语义信息的token以及句子级的特征供下游任务使用，或者直接在预训练模型上进行针对下游任务的微调(fine-tune)，方便快捷地得到下游专属模型。

(11)微调(fine tune)

微调指的是在预训练模型的基础上，使用特定的任务目标(下游任务)和任务数据(下游数据)进行小规模训练，实现对预训练模型参数的微小调整，最终得到适配到特定数据和任务的模型。

(12)知识图谱(knowledge graph)

知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图，节点表示实体或概念，边则由属性或关系构成。我们用关系去描述两个实体之间的关联，例如北京和中国之间的关系；对于实体的属性，我们就用“属性—值对”来刻画它的内在特性，比如说某个人物，他有年龄、身高、体重属性等。现在的知识图谱已被用来泛指各种大规模的知识库(knowledge base)。

实体:指的是具有可区别性且独立存在的某种事物。如某一个人、某一个城市、某一种植物等、某一种商品等等。世界万物由具体事物组成，此指实体，例如“中国”、“美国”、“日本”等。实体是知识图谱中的最基本元素，不同的实体间存在不同的关系。

语义类(概念)：具有同种特性的实体构成的集合，如国家、民族、书籍、电脑等。概念主要指集合、类别、对象类型、事物的种类，例如人物、地理等。

内容:通常作为实体和语义类的名字、描述、解释等，可以由文本、图像、音视频等来表达。

属性(值)(property):从一个实体指向它的属性值。不同的属性类型对应于不同类型属性的边。属性值主要指对象指定属性的值。例如“面积”、“人口”、“首都”是“中国”这一实体的几种不同的属性。属性值主要指对象指定属性的值，例如“中国”指定的“面积”属性的值为“960万平方公里”。

关系(relation):形式化为一个函数，它把kk个点映射到一个布尔值。在知识图谱上，关系则是一个把kk个图节点(实体、语义类、属性值)映射到布尔值的函数。

基于上述定义，为了方便计算机的处理和理解，可以用更加形式化、简洁化的方式表示知识，即三元组(triple)，基于三元组是知识图谱的一种通用表示方式。三元组的基本形式主要包括(实体1-关系-实体2)和(实体-属性-属性值)等。每个实体(概念的外延)可用一个全局唯一确定的ID来标识，每个属性-属性值对(attribute-value pair，AVP)可用来刻画实体的内在特性，而关系可用来连接两个实体，刻画它们之间的关联。例如，中国是一个实体，北京是一个实体，(中国-首都-北京)是一个(实体-关系-实体)的三元组样例，北京是一个实体，面积是一种属性，2069.3万是属性值，(北京-人口-2069.3万)构成一个(实体-属性-属性值)的三元组样例。属性和关系的区别在于，属性所在的三元组对应的两个实体多为一个实体和一个字符串，而关系所在的三元组所对应的两个实体多为两个实体，本申请实施例中，为方便理解和描述，对于属性所在的三元组中属性值也视为一个实体，属性视为两个实体之间的一种联系，换句话说，本申请实施例中基于三元组表示的知识用于指示两个实体之间的联系，其中两个实体之间的联系可以是两个实体之间的关系(例如(实体1-关系-实体2))，或者两个实体之间的联系可以是其中一个实体的一种属性，而另一个实体为该属性的属性值(例如(实体-属性-属性值))。本申请实施例中基于三元组表示的知识在也可以称为结构化知识。还应理解，三元组的表示形式不限于上述(实体1-关系-实体2)和(实体-属性-属性值)的形式，例如还可以表示为(实体1-实体2-关系)和(实体-属性值-属性)等。在一些实施例中，属性也可以视为一种广义的关系。

本申请的文本处理方法可用于对自然语言文本序列执行自然语言处理任务，其中对应于不同的自然语言处理任务(即本申请中的目标任务)，用于对自然语言文本序列进行处理的目标处理模型是不同的。下面从目标处理模型训练侧和目标处理模型应用侧对本申请提供的方法进行描述。

本申请实施例提供的目标处理模型的训练方法，涉及自然语言文本的处理，具体可以应用于数据训练、机器学习、深度学习等数据处理方法，对训练数据(如本申请中的训练文本和第一知识数据)进行符号化和形式化的智能信息建模、抽取、预处理、训练等，最终得到训练好的目标处理模型；并且，本申请实施例提供的文本处理的方法可以运用上述训练好的目标处理模型，将输入数据(如本申请中待处理文本)输入到所述训练好的目标处理模型中，得到输出数据(如本申请中与目标任务对应的处理结果)。需要说明的是，本申请实施例提供的目标处理模型的训练方法和文本处理的方法是基于同一个构思产生的发明，也可以理解为一个系统中的两个部分，或一个整体流程的两个阶段：如模型训练阶段和模型应用阶段。

为方便理解和说明，本申请实施例中以目标处理模型为CNN模型(或称CNN网络)为例进行描述，但应理解，本申请实施例中的目标处理模型的类型不限于此，还可以是上述介绍的以及未示出的模型中的任意一种。

首先，介绍本申请实施例提供的目标处理模型训练和文本处理方法的系统架构。参考图4，本申请实施例提供了一种系统架构100。如图4中的系统架构100所示，数据采集设备160用于采集训练数据，本申请实施例中训练数据包括：训练文本，第一知识数据，其中第一知识数据中包括与训练文本相关的知识信息。例如，第一知识数据中包括训练文本中的至少部分实体中的每个实体与其他实体之间的关系或者自身的属性等知识。

在采集到训练数据之后，数据采集设备160将这些训练数据存入数据库130，训练设备120基于数据库130中维护的训练数据训练得到目标模型/规则101(即本申请实施例中的目标处理模型)。训练设备120对输入的训练文本和第一知识数据进行处理，将输出的第二任务结果和与训练文本及目标任务对应的第一任务结果进行对比，直到训练设备120输出的第二任务结果与第一任务结果的差值满足预设条件(例如第二任务结果与第一任务结果的差值小于一定阈值，或者第二任务结果与第一任务结果的差值保持不变或不再减少)，从而完成目标模型/规则101的训练，随后将结合图8更详细地描述训练设备120如何基于训练数据得到目标模型/规则101。应理解，本申请实施例中的第二任务结果即训练设备120对训练数据进行处理后输出的结果，第一任务结果即已知的正确结果，第二任务结果与第一任务结果的差值可以理解为训练设备120输出的结果与正确结果之间的差值。

另外，该目标模型/规则101能够用于实现本申请实施例提供的文本处理的方法，即，将待处理文本和目标知识数据通过相关预处理(可以采用预处理模块113和/或预处理模块114进行处理)后输入该目标模型/规则101中进行处理，即可得到与目标处理模型所执行的目标任务对应的处理结果。示例性的，目标任务为实体分类，则目标处理模型为分类模型，待处理文本和目标知识数据通过相关预处理后输入目标模型/规则101(即本申请的目标处理模型)中进行处理，即可得到对待处理文本的实体分类结果。

在本申请提供的实施例中，该目标模型/规则101是通过训练原始处理模型得到的。需要说明的是，在实际的应用中，所述数据库130中维护的训练数据不一定都来自于数据采集设备160的采集，也有可能是从其他设备接收得到的。另外需要说明的是，训练设备120也不一定完全基于数据库130维护的训练数据进行目标模型/规则101的训练，也有可能从云端或其他地方获取训练数据进行模型训练，上述描述不应该作为对本申请实施例的限定。还需要说明的是，数据库130中维护的训练数据中的至少部分数据(例如第一知识数据)也可以用于执行设备110对待处理文本进行处理的过程。

根据训练设备120训练得到的目标模型/规则101可以应用于不同的系统或设备中，如应用于图4所示的执行设备110，所述执行设备110可以是终端，如手机终端，平板电脑，笔记本电脑，增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)，车载终端等，还可以是服务器或者云端等。

在图4中，执行设备110配置输入/输出(input/output，I/O)接口112，用于与外部设备进行数据交互，用户可以通过客户设备140向I/O接口112输入数据，所述输入数据在本申请实施例中可以包括：待处理文本。可选地，输入数据在本申请实施例中还可以包括第二知识数据，该第二知识数据包括与待处理文本相关的知识信息。例如，第二知识数据中包括待处理文本中的至少部分实体中的每个实体与其他实体之间的关系或者自身的属性等知识。

预处理模块113和/或预处理模块114用于根据I/O接口112接收到的输入数据(如待处理文本和第二知识数据)进行预处理(具体可以是对待处理文本和第二知识数据进行处理，得到词向量)，在本申请实施例中，也可以没有预处理模块113和预处理模块114(也可以只有其中的一个预处理模块)，而直接采用计算模块111对输入数据进行处理。需要说明的是，预处理模块113或预处理模块114可以对全部的输入数据进行预处理，也可以对输入数据的部分数据进行预处理。例如，若输入数据包括待处理文本和第二知识数据，预处理模块114可以对待处理文本进行处理，并将处理结果输入到预处理模块113中，预处理模块可以对第二知识数据和经预处理模块114处理后的待处理文本进行处理，并将处理结果输入到计算模块111中。又如，输入数据包括待处理文本和第二知识数据，则可以通过预处理模块113或预处理模块114对待处理文本和第二知识数据进行处理。需要说明的是，预处理模块113和/或预处理模块114也可以是在训练设备120中训练好的。

计算模块111用于根据上述目标模型/规则101对来自预处理模块113或者I/O接口112的输入数据执行计算等相关的处理。

在执行设备110对输入数据进行预处理，或者在执行设备110的计算模块111执行计算等相关的处理过程中，执行设备110可以调用数据存储系统150中的数据、代码等以用于相应的处理，也可以将相应处理得到的数据、指令等存入数据存储系统150中。

最后，I/O接口112将处理结果(例如分类结果、翻译结果、推理结果等)反馈给客户设备140。应理解，对应于不同的自然语言处理任务，目标模型/规则101是不同的，其处理结果相应地也是不同的。

值得说明的是，训练设备120可以针对不同的下游系统，生成该下游系统对应的目标模型/规则101，该相应的目标模型/规则101即可以用于实现上述目标或完成上述任务，从而为用户提供所需的结果。需要说明的是，训练设备120还可以针对不同的下游系统对应的目标模型/规则101生成对应的预处理模型，例如预处理模块113和/或预处理模块114中对应的预处理模型等。

在图4中所示情况下，用户可以手动给定输入数据(例如，输入一段文本)，该手动给定可以通过I/O接口112提供的界面进行操作。另一种情况下，客户设备140可以自动地向I/O接口112发送输入数据(例如，输入一段文本)，如果要求客户设备140自动发送输入数据需要获得用户的授权，则用户可以在客户设备140中设置相应权限。用户可以在客户设备140查看执行设备110输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式(例如，输出结果可以是翻译译文是否可以接受)。客户设备140也可以作为数据采集端，采集如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果作为新的样本数据，并存入数据库130。当然，也可以不经过客户设备140进行采集，而是由I/O接口112直接将如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果，作为新的样本数据存入数据库130。

值得注意的是，图4仅是本申请实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制。例如，在图4中，数据存储系统150相对执行设备110是外部存储器，在其它情况下，也可以将数据存储系统150置于执行设备110中。

如图4所示，根据训练设备120训练得到目标模型/规则101，该目标模型/规则101可以是本申请实施例中的目标处理模型，具体的，本申请实施例提供的目标处理模型为神经网络，例如可以是CNN，深度卷积神经网络(deep convolutional neural network,DCNN)，循环神经网络(recurrent neural network，RNN)等等。

由于CNN是一种非常常见的神经网络，下面结合图5重点对CNN的结构进行详细的介绍。如上文的基础概念介绍所述，卷积神经网络是一种带有卷积结构的深度神经网络，是一种深度学习(deep learning)架构，深度学习架构是指通过机器学习的算法，在不同的抽象层级上进行多个层次的学习。作为一种深度学习架构，CNN是一种前馈(feed-forward)人工神经网络，该前馈人工神经网络中的各个神经元可以对输入其中的图像作出响应。

如图5所示，卷积神经网络(CNN)200可以包括输入层210，卷积层/池化层220(其中池化层为可选的)，以及神经网络层230。下面对这些层的相关内容做详细介绍。

卷积层/池化层220：

卷积层：

如图5所示卷积层/池化层220可以包括如示例221-226层，举例来说：在一种实现中，221层为卷积层，222层为池化层，223层为卷积层，224层为池化层，225为卷积层，226为池化层；在另一种实现方式中，221、222为卷积层，223为池化层，224、225为卷积层，226为池化层。即卷积层的输出可以作为随后的池化层的输入，也可以作为另一个卷积层的输入以继续进行卷积操作。

下面将以卷积层221为例，介绍一层卷积层的内部工作原理。

卷积层221可以包括很多个卷积算子，卷积算子也称为核，其在自然语言处理中的作用相当于一个从输入的语音或语义信息中提取特定信息的过滤器，卷积算子本质上可以是一个权重矩阵，这个权重矩阵通常被预先定义。

这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到，通过训练得到的权重值形成的各个权重矩阵可以从输入数据中提取信息，从而帮助卷积神经网络200进行正确的预测。

当卷积神经网络200有多个卷积层的时候，初始的卷积层(例如221)往往提取较多的一般特征，该一般特征也可以称之为低级别的特征；随着卷积神经网络200深度的加深，越往后的卷积层(例如226)提取到的特征越来越复杂，比如高级别的语义之类的特征，语义越高的特征越适用于待解决的问题。

池化层：

由于常常需要减少训练参数的数量，因此卷积层之后常常需要周期性的引入池化层，即如图5中220所示例的221-226各层，可以是一层卷积层后面跟一层池化层，也可以是多层卷积层后面接一层或多层池化层。在自然语言数据处理过程中，池化层的唯一目的就是减少数据的空间大小。

神经网络层230：

在经过卷积层/池化层220的处理后，卷积神经网络200还不足以输出所需要的输出信息。因为如前所述，卷积层/池化层220只会提取特征，并减少输入数据带来的参数。然而为了生成最终的输出信息(所需要的类信息或别的相关信息)，卷积神经网络200需要利用神经网络层230来生成一个或者一组所需要的类的数量的输出。因此，在神经网络层230中可以包括多层隐含层(如图5所示的231、232至23n)以及输出层240，该多层隐含层中所包含的参数可以根据具体的任务类型的相关训练数据进行预先训练得到，例如该任务类型可以包括语音或语义识别、分类或生成等等。

在神经网络层230中的多层隐含层之后，也就是整个卷积神经网络200的最后层为输出层240，该输出层240具有类似分类交叉熵的损失函数，具体用于计算预测误差，一旦整个卷积神经网络200的前向传播(如图5由210至240的传播为前向传播)完成，反向传播(如图5由240至210的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏差，以减少卷积神经网络200的损失及卷积神经网络200通过输出层输出的结果和理想结果之间的误差。

需要说明的是，如图5所示的卷积神经网络200仅作为一种卷积神经网络的示例，在具体的应用中，卷积神经网络还可以以其他网络模型的形式存在。

如图6所示，卷积神经网络(CNN)200可以包括输入层210，卷积层/池化层220(其中池化层为可选的)，以及神经网络层230，在图6中，卷积层/池化层220中的多个卷积层/池化层并行，将分别提取的特征均输入给全神经网络层230进行处理。

图7为本申请实施例提供的一种芯片的硬件结构的示意图。该芯片包括神经网络处理器(neural processing unit，NPU)40。该芯片可以被设置在如图4所示的执行设备110中，用以完成计算模块111的计算工作。该芯片也可以被设置在如图4所示的训练设备120中，用以完成训练设备120的训练工作并输出目标模型/规则101。如图5和图6所示的卷积神经网络中各层的算法均可在如图7所示的芯片中得以实现。

本申请实施例的文本处理的方法的具体可以在NPU 40中的运算电路403和/或向量计算单元407中执行，从而得到目标任务的处理结果。

下面对NPU 40中的各个模块和单元进行简单的介绍。

NPU 40作为协处理器可以挂载到主CPU(host CPU)上，由主CPU分配任务。NPU40的核心部分为运算电路403，在NUP 40工作时，NPU 40中的控制器404可以控制运算电路403提取存储器(权重存储器或输入存储器)中的数据并进行运算。

在一些实现中，运算电路403内部包括多个处理单元(process engine,PE)。在一些实现中，运算电路403是二维脉动阵列。运算电路403还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路403是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路从权重存储器402中取矩阵B相应的数据，并缓存在运算电路中每一个PE上。运算电路从输入存储器401中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器(accumulator)408中。

向量计算单元407可以对运算电路的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。例如，向量计算单元407可以用于神经网络中非卷积/非全连接层(fully connected layers，FC)层的网络计算，如池化(pooling)，批归一化(batchnormalization)，局部响应归一化(local response normalization)等。

在一些实现中，向量计算单元407能将经处理的输出的向量存储到统一缓存器406。例如，向量计算单元407可以将非线性函数应用到运算电路403的输出，例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元407生成归一化的值、合并值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路403的激活输入，例如用于在神经网络中的后续层中的使用。

统一存储器406用于存放输入数据以及输出数据。

权重数据直接通过存储单元访问控制器405(direct memory accesscontroller，DMAC)将外部存储器中的输入数据搬运到输入存储器401和/或统一存储器406、将外部存储器中的权重数据存入权重存储器402，以及将统一存储器406中的数据存入外部存储器。

总线接口单元(bus interface unit，BIU)410，用于通过总线实现主CPU、DMAC和取指存储器409之间进行交互。

与控制器404连接的取指存储器(instruction fetch buffer)409，用于存储控制器404使用的指令；

控制器404，用于调用指存储器409中缓存的指令，实现控制该运算加速器的工作过程。

一般地，统一存储器406，输入存储器401，权重存储器402以及取指存储器409均可以为片上(on-chip)存储器。NPU的外部存储器可以为该NPU外部的存储器，该外部存储器可以为双倍数据率同步动态随机存储器(double data rate synchronous dynamic randomaccess memory，DDR SDRAM)、高带宽存储器(high bandwidth memory，HBM)或其他可读可写的存储器。应理解，图7示出的芯片硬件结果仅为示例性说明，本申请并未限定于此。

下面结合附图对本申请实施例的目标处理模型的训练方法进行详细介绍。本申请实施例的目标处理模型的训练方法可以由训练设备执行，该执行设备具体可以是图1中的数据处理设备，也可以是图2中的用户设备，也可以是图4中的训练设备120。

图8示出了本申请提供的一种用于文本处理的目标处理模型的训练方法800，该方法可以包括步骤S810至步骤S870。

需要说明的是，目标处理模型与目标任务相对应，对应不同的目标任务，目标处理模型不同，例如若目标任务是命名实体分类，则目标处理模型为分类模型，若目标任务是翻译，则目标处理模型为翻译模型等等，在此不再一一列举。还需要说明的是，本申请实施例中的目标任务可以称为下游任务，则目标处理模型可以称为下游任务的任务模型。

如图8所示，在步骤S810，获取第一知识数据。

第一知识数据包括第三名词实体、第四名词实体，以及第三名词实体与第四名词实体之间的联系，其中第三名词实体包括在步骤S830中的训练文本中。应理解，本申请实施例中第一知识数据包括第三名词实体、第四名词实体，以及第三名词实体与第四名词实体之间的联系仅仅示例性的，训练文本中可以包括多个第三名词实体，则第一知识数据包括多个第三名词实体、多个第四名词实体，以及多个第三名词实体与多个第四名词实体之间的联系，其中多个第三名词实体与多个第四名词实体一一对应。例如第一知识数据中可以包括多个三元组，每个三元组包括一个第三名词实体、一个第四名词实体以及一个第三名词实体与一个第四名词实体之间的联系。换句话说，第一知识数据中可以包括与训练文本中的实体有关的知识信息，这里所述的有关知识可以是直接相关或间接相关。例如，训练文本中包括实体“中国”，则第一知识数据中包括有关“中国”的知识，基于三元组的表示形式，有关“中国”的知识可以为(中国-首都-北京)、(中国-面积-960万平方公里)、(国家-政治中心-首都)。

可选地，第三名词实体与第四名词实体之间的联系为第三名词实体与第四名词实体之间的关系；或者，第三名词实体与第四名词实体之间的联系为第三名词实体的一种属性，第四名词实体为该属性的属性值。换句话说，第三名词实体与第四名词实体之间的联系基于三元组表示可以为(第三名词实体-关系-第四名词实体)，或者(第三名词实体-属性-属性值(即第四名词实体))。

可选地，第三名词实体、第四名词实体以及第三名词实体与第四名词实体之间的联系与目标任务对应，换句话说由第三名词实体、第四名词实体以及第三名词实体与第四名词实体之间的联系构成的知识与目标任务对应。

第一知识数据可以是结构化的知识，例如结构化的知识库(如百科)或者其他知识信息。第一知识数据中可以包括与训练文本和/或目标任务相关的知识，例如，第一知识数据中包括多个三元组，该多个三元组中用于指示多个第三名词实体与多个第四名词实体之间的联系。本申请实施例中“第三名词实体、第四名词实体以及第三名词实体与第四名词实体之间的联系”即对应一条结构化知识，本申请实施例中“第三名词实体、第四名词实体以及第三名词实体与第四名词实体之间的联系与目标任务对应”可以理解为该结构化知识与目标任务对应。例如，训练文本中包括实体“中国”，则第一知识数据中可以包括中国的地理位置、面积、人口等属性相关知识，还可以包括中国与北京为首都关系，中国与美国均为国家等关系相关知识，其中“中国”即可以理解为本申请实施例中的第三名词实体，“960万平方公里”、“北京”、“美国”等可以理解为本申请实施例中的第四名词实体。中国的地理位置、面积、人口，中国与北京的首都关系，中国与美国是国家概念等知识均为与训练文本和/或目标任务相关的知识。

应理解，第一知识数据还可以包括与训练文本相关，但不一定与目标任务相关的知识；对于不同的训练文本和目标任务，第一知识数据中与之相关的数据可以是不同的，例如对于目标任务#A和训练文本#A来说，第一知识数据还可以包括与训练文本#A和/或目标任务#A无关的知识，但对于训练文本#B、目标任务#B来说，第一知识数据中与训练文本#A和/或目标任务#A无关的知识可以与训练文本#B和/或目标任务#B有关。

第一知识数据也可以是文本实体概念，例如苹果、手机、中国、美国等一个一个名词实体，虽然不是结构化知识，但是文本实体概念也可以提供知识信息，在本申请实施例中也属于第一知识数据。

第一知识数据可以是同时获取的，例如，在获取训练文本之前获取第一知识数据；第一知识数据也可以是在不同时间获取的，例如，在获取训练文本前，可以获取第一知识数据中的部分数据，在获取训练文本同时或获取训练文本之后可以获取第一知识数据中的又一部分数据，本申请实施例不做具体限定。可选地，在获取训练文本之前获取的第一知识数据中的部分知识数据可以是与训练文本不相关或弱相关，在获取训练文本同时或之后获取的第一知识数据中的又一部分数据可以是与训练文本相关的。应理解，本申请实施例中知识数据与训练文本不相关或弱相关可以理解为知识数据中不包括训练文本中的实体自身的属性或与其他实体关系的知识，知识数据与训练文本相关可以理解为知识数据中包括训练文本中的实体自身的属性或与其他实体关系的知识。

在步骤S820，对第一知识数据进行处理，以获取第一知识向量。

该步骤中，是将由文字表示的第一知识数据进行向量化处理，得到以向量表示的第一知识数据，即第一知识向量。

第一知识向量包括第三名词实体、第四名词实体以及第三名词实体与第四名词实体之间的联系所对应的向量。换句话说，第一知识数据中可以包括第三名词实体、第四名词实体以及第三名词实体与第四名词实体之间的联系所对应的知识信息，在进行向量化处理时，相应地，该知识信息被转化为向量，即第三名词实体、第四名词实体以及第三名词实体与第四名词实体之间的联系所对应的向量。应理解，上述第三名词实体、第四名词实体以及第三名词实体与第四名词实体之间的联系仅仅是示例性的，第一知识数据与第一知识向量表达的知识信息是相同的，只是表示形式不同。

可选地，若第一知识数据包括结构化知识，则第一知识数据可以通过已有知识编码方法(例如translating embedding，TransE)进行编码，得到的编码信息即第一知识向量。将第一知识数据进行编码可以理解为将第一知识数据转化为向量，例如将结构化知识进行编码即将结构化知识转化为向量。

可选地，若第一知识数据包括文本实体概念，则第一知识数据可以通过文本编码方法进行编码，得到的编码信息即第一知识向量。

可选地，若第一知识数据包括结构化知识，则可以将结构化知识转化为文本，再通过文本编码方法对其编码，得到的编码信息即第一知识向量。

可选地，第一知识向量可以是n维的，n可以是预定义的或根据原始融合模型的输入数据的格式确定的。

在步骤S830，获取训练文本以及与训练文本和目标任务对应的第一任务结果。

本申请实施例中训练文本与目标任务对应，例如目标任务为将中文翻译为英文，则训练文本可以是一段中文；又如目标任务为实体分类，则训练文本中可以包括多个需要被分类的实体，等等。

训练文本可以是任意的符合语言文法规则的文本序列如新闻、百科、社交媒体消息、文学作品等等，本申请实施例不做具体限定。

可选地，训练文本可以是经预处理的文本，例如目标任务为序列概率预测任务，则训练文本可以是使用标识符[mask]随机替换某些字或词或实体的文本。

第一任务结果与训练文本和目标任务对应，可以理解为第一任务结果为与训练文本和目标任务对应的已知的正确结果，或者称为参考结果。例如，目标任务为序列概率预测任务，则第一任务结果即为上述被标识符[mask]替换掉的字或词或实体。应理解，第一任务结果是机器已知的。

在步骤S840，对训练文本进行处理，以获取第一文本向量。

本申请实施例中可以通过用于文本编码的神经网络模型(例如循环神经网络模型、自注意力转换器模型等)对训练文本进行编码，得到的文本编码信息即第一文本向量。将训练文本进行编码可以理解为将训练文本转化为向量。可选地，该用于文本编码的神经网络模型可以是预训练好的文本编码模型。应理解，训练文本与第一文本向量表达的信息是相同的，只是表示形式不同。

可选地，将训练文本进行处理后，得到的第一文本向量可以包括训练文本中的整个序列对应的文本向量或序列中的每个文本单位对应的文本向量。应理解，本申请实施例中的文本单位可以为字、词、句。

可选地，第一文本向量可以是m维的，m可以是预定义的，或者是根据原始融合模型输入数据的要求确定的。

需要说明的是，上述步骤S810至步骤S840中，步骤S810中获取第一知识数据与步骤S830中获取训练文本以及与训练文本和目标任务对应的第一任务结果可以分开执行，也可以同时执行，步骤S810与步骤S830分开执行时对于两个步骤执行的先后顺序本申请实施例不做特别限定。另外，步骤S810获取第一知识数据与步骤S820获取第一知识向量可以同时执行，也可以分开执行，例如可以在获取第一知识数据后即进行步骤S820，或者获取第一知识数据后可以将第一知识数据存储在存储介质或数据库中，当需要使用第一知识数据时再从存储介质或数据库中读取。

在步骤S850，根据原始融合模型对第一文本向量和第一知识向量进行融合，以获取融合后的第一文本向量和融合后的第一知识向量。

应理解，融合后的第一文本向量和/或融合后的第一知识向量即输入到目标处理模型并用于训练目标处理模型的数据。

融合后第一文本向量包含第一知识数据中的至少部分信息，融合后的第一知识向量包含训练文本的语义背景信息(也可以称为语义环境信息或上下文信息)。换句话说，根据原始融合模型对第一文本向量和第一知识向量进行融合，得到融合后的第一文本向量和融合后的第一知识向量，其中融合后的第一文本向量包括第一文本向量对应的训练文本的信息以及第一知识向量对应的第一知识数据中至少部分知识信息，该第一知识数据中的至少部分知识信息与训练文本是相关的(例如融合后的第一文本向量包含了训练文本中的多个实体的属性或与其他实体之间的关系的知识)，融合后的第一知识向量包括第一知识向量对应的第一知识数据以及第一文本向量对应的训练文本的语义环境信息(由于实体可能具有多种含义，在不同的语义背景下实体的含义可能是不同的，融合后的第一知识向量可以包含实体在训练文本中的上下文信息)。

根据原始融合模型对第一文本向量和第一知识向量进行融合的方式可以有多种。

例如，原始融合模型可以是采用平均的方式对第一文本向量和第一知识向量进行融合。

又如，原始融合模型可以直接将第一文本向量和第一知识向量进行拼合，即融合后的第一文本向量包括训练文本的信息和第一知识数据的信息，融合后的第一知识向量包括第一知识数据的信息和训练文本的信息。换句话说，融合后的第一文本向量和融合后的第一知识向量表示的信息内容是相同的。

再如，原始融合模型可以是权重模型，根据原始融合模型对第一文本向量和第一知识向量进行融合时可以对第一文本向量和第二文本向量赋予权重或权重矩阵。

再如，原始融合模型也可以是由复杂的多层网络结构组成，例如多层的自注意力机制模型，多层感知机模型，循环神经网络模型，卷积神经网络模型，对抗神经网络模型，强化学习神经网络模型等。根据原始模型对第一文本向量和第一知识向量进行融合时，相应地根据原始融合模型的参数进行融合过程。

可选地，原始融合模型可以是基于第一知识数据和预先设定的预训练文本训练得到的。换句话说，原始融合模型可以是预训练好的融合模型，即原始融合模型的参数不是随机初始化的，而是使用预训练好的一套参数进行初始化。可选地，原始融合模型的预训练过程可以为大规模的语言预训练过程，例如，在原始融合模型预训练时，预训练的训练文本可以是大规模的语料(或称大规模的预训练文本语言)，预训练的训练任务可以是不同于目标任务的其他任务。在预训练过程中，可以同时调整预训练任务的任务模型参数和融合模型的参数，最终得到训练好的原始融合模型。训练好的原始融合模型可以用于多个目标处理模型的训练阶段，也就是训练好的原始融合模型可以用于不同目标任务的任务模型的训练。

原始融合模型预训练过程中，预训练数据包括第一知识数据和预训练文本，原始融合模型通过文本语料能够学习到丰富的语义信息，通过第一知识数据还能够学习到知识，使得原始融合模型能够包含知识，提高了模型对于自然语言的理解能力。

可选地，原始融合模型可以是对应于目标任务的融合模型。换句话说，在对原始融合模型进行预训练的过程中，预训练的训练任务与目标任务相同，则在预训练过程中得到的训练好的原始融合模型即为与目标任务对应的融合模型。

在步骤S860，根据原始处理模型对融合后的第一文本向量和/或融合后的第一知识向量进行处理，以获取第二任务结果。

原始处理模型即尚未进行训练的目标任务对应的模型，该原始处理模型的参数可以是随机初始化的。

本申请实施例的第二任务结果为原始处理模型根据目标任务所得到的处理结果。例如，目标任务为预测时，第二任务结果为预测结果，目标任务为实体分类时，第二任务结果为分类结果。该第二任务结果为原始处理模型的输出结果。

可选地，可以根据原始处理模型对融合后的第一文本向量进行处理，获取第二任务结果；也可以根据原始处理模型对融合后的第一知识向量进行处理，获取第二任务结果，例如，融合后的第一知识向量可以包括训练文本的信息；还可以根据原始处理模型对融合后的第一文本向量和融合后的第一知识向量进行处理，获取第二任务结果。具体实现方式可以是预定义的，也可以是根据实际情况进行确定的，本申请实施例不做具体限定。

在步骤S870，判断第一任务结果与第二任务结果的相似度是否最大化。

在该步骤中，可以确定第一任务结果与第二任务结果的相似度，第一任务结果与第二任务结果的相似度越大，可以理解为第二任务结果越接近第一任务结果，也就是第二任务结果的准确率越高。如果判断结果为是，即第一任务结果与第二任务结果的相似度最大化，将使第一任务结果与第二任务结果相似度最大化时的原始处理模型确定为目标处理模型，此时，目标处理模型的训练过程完成。如果判断结果为否，则根据第一任务结果与第二任务结果的相似度可以调节原始处理模型的参数，并根据参数调节后的原始处理模型重复上述步骤S860至S870。例如，原始处理模型为CNN模型，则在步骤S870之后调整CNN模型的参数。

可选地，若判断结果为否，可以根据第一任务结果与第二任务结果的相似度调节原始融合模型的参数和原始处理模型的参数(如图8中虚线框所示)，并根据参数调节后的原始融合模型和参数调节后的原始处理模型重复上述步骤S850至步骤S870。例如，若原始融合模型为权重模型，则在步骤S870之后可以调整权重模型的权重矩阵或权重系数；若原始融合模型为神经网络模型，则在步骤S870之后可以调整神经网络模型的参数等。

这种情况下，经过参数调节后的原始融合模型可以称为目标融合模型，该目标融合模型是适配于目标处理模型的融合模型，或者可以理解为该目标融合模型为目标处理模型的专属融合模型。

可选地，在步骤S820和步骤S840中，可以通过神经网络模型#A对第一知识数据进行处理得到第一知识向量，可以通过神经网络模型#B对训练文本进行处理得到第一文本向量。相应地，在步骤S870中若判断结果为否，在对原始融合模型和/或原始处理模型进行参数调整的同时，还可以根据第一任务结果与第二任务结果的相似度调节神经网络模型#A和/或神经网络模型#B的参数，并根据参数调节后各个模型重复上述步骤S820至步骤S870。

可选地，训练文本包括一个或多个名词实体，所述一个或多个名词实体包括所述第三名词实体，训练文本中还可以包括至少一个第二知识标识符，该第二知识标识符用于指示训练文本中的该一个或多个名词实体中的至少一个名词实体，该至少一个第二知识标识符与训练文本中的该一个或多个名词实体中的至少一个名词实体一一对应。应理解，本申请实施例中将用于指示一个名词实体的第二知识标识符理解为一个第二知识标识符，但在形式上一个第二知识标识符可以包括两部分，例如第二知识标识符可以位于实体两侧用于指定实体所指范围。相应地，在步骤S840中，对训练文本进行处理包括对该至少一个第二知识标识符进行处理，经步骤S840中，获取的第一文本向量包括该至少一个第二知识标识符对应的向量。相应地，在步骤S850中，获取的融合后的第一文本向量中包括该至少一个第二知识标识符对应的至少一个第二知识标识符向量，该至少一个第二知识标识符向量用于指示训练文本中的该一个或多个名词实体中的至少一个名词实体对应的向量。相应地，在步骤S860中，根据原始处理模型对融合后的第一文本向量进行处理包括根据原始处理模型对至少一个第二知识标识符向量所指示的至少一个名词实体对应的向量进行处理，以获取第二任务结果。第二知识标识符向量会引导原始处理模型关注第二知识标识符所指示的实体，从而抽取知识信息(例如知识局部特征)，使得原始处理模型可以通过特殊的标识符完成目标任务，可以提高模型训练效率。示例性的，训练文本中的多个实体两侧存在第二知识标识符，则在原始处理模型对融合后的第一文本向量进行处理时，会关注第二知识标识符对应的向量，并根据第二知识标识符对应向量抽取第二知识标识符所指示的实体，从而对实体进行处理。

本申请实施例提供的模型训练方法中，目标处理模型是基于第一知识数据和训练文本训练得到的，具体而言，原始融合模型将训练文本对应的文本向量和第一知识数据对应的知识向量进行融合，相当于将训练文本与第一知识数据融合，这使得训练文本能够融入知识信息，从而使得训练文本语义更丰富。当融合知识的训练文本输入到原始处理模型中时，原始处理模型对于作为输入数据的融合后的训练文本的理解能力提高，也就是模型对于语言的理解能力提高，从而能够提高原始处理模型执行目标任务时处理结果的准确率，原始处理模型训练完成后得到目标处理模型对于目标任务的处理结果的准确率提高。同时，原始融合模型在对第一知识数据和训练文本对应的向量进行融合过程中，能够不断学习知识，训练完成后得到的目标融合模型能够包含知识信息。

上面结合图8介绍了本申请提供的用于文本处理的目标处理模型的训练方法，下面结合图9对本申请提供的文本处理的方法进行描述。本申请实施例中的文本处理方法也即目标处理模型的应用。该方法900可以包括步骤S910至步骤S950。

在步骤S910，获取目标知识数据。

该目标知识数据包括第一名词实体、第二名词实体，以及第一名词实体与第二名词实体之间的联系。其中第一名词实体包括在步骤S930中的待处理文本中。应理解，本申请实施例中目标知识数据包括第一名词实体、第二名词实体，以及第一名词实体与第二名词实体之间的联系仅仅示例性的，待处理文本中可以包括多个第一名词实体，则目标识数据可包括多个第一名词实体、多个第二名词实体以及多个第一名词实体与多个第二名词实体之间的联系，其中多个第一名词实体与多个第二名词实体一一对应。例如目标知识数据中可以包括多个三元组，每个三元组包括一个第一名词实体、一个第二名词实体以及一个第一名词实体与一个第二名词实体之间的联系。换句话说，目标知识数据中可以包括与待处理文本中的实体有关的知识信息，这里所述的有关知识可以是直接相关或间接相关。

所述第一名词实体与第二名词实体之间的联系为所述第一名词实体与所述第二名词实体之间的关系；或者，所述第一名词实体与第二名词实体之间的联系为所述第一名词实体的一种属性，所述第二名词实体为所述属性的属性值。换句话说，第一名词实体与第二名词实体之间的联系基于三元组表示可以为(第一名词实体-关系-第二名词实体)，或者(第一名词实体-属性-属性值(即第二名词实体))。

可选地，第一名词实体、第二名词实体以及第一名词实体与第二名词实体之间的联系与目标任务对应，换句话说由第一名词实体、第二名词实体以及第一名词实体与第二名词实体之间的联系构成的知识与目标任务对应。

目标知识数据可以是结构化的知识，例如结构化的知识库(如百科)或者其他知识信息，也可以是可以提供知识信息的文本概念，在本申请实施例中均可以认为是目标知识数据。

目标知识数据可以包括与待处理文本和目标任务相关的知识，也可以包括与待处理文本相关但不一定和目标任务相关的知识。

目标知识数据可以为第一知识数据，则目标知识数据在训练阶段获取。目标数据也可以包括第一知识数据和第二知识数据，其中第一知识数据在训练阶段获取，第二知识数据在目标处理模型应用阶段获取。换句话说，在应用目标处理模型对待处理文本进行处理时，还可以在获取第二知识数据，该第二知识数据与待处理文本相关(包括直接相关和间接相关)，例如，第二知识数据包括待处理文本中的多个实体的自身属性或与其他实体的关系的知识信息。

应理解，目标知识数据与第一知识数据表示形式等类似，具体可参考上文对第一知识数据的相关描述，为简洁，在此不再赘述。

在步骤S920，对目标知识数据进行处理，以获取目标知识向量。

该步骤中，是将由文字表示的目标知识数据进行向量化处理，得到以向量表示的目标知识数据，即目标知识向量。

目标知识向量包括第一名词实体、第二名词实体以及第一名词实体与第二名词实体之间的联系所对应的向量。换句话说，目标知识数据中可以包括第一名词实体、第二名词实体以及第一名词实体与第二名词实体之间的联系所对应的知识信息，在进行向量化处理时，相应地，该知识信息被转化为向量，即第一名词实体、第二名词实体以及第一名词实体与第二名词实体之间的联系所对应的向量。应理解，上述第一名词实体、第二名词实体以及第一名词实体与第二名词实体之间的联系仅仅是示例性的，目标知识数据与目标知识向量表达的知识信息是相同的，只是表示形式不同。

将目标知识数据转化为目标知识向量的处理过程与将第一知识数据转化为第一知识向量的处理过程类似，具体可参考上文描述。可选地，将目标知识数据转化为目标知识向量的神经网络模型可以和将第一知识数据转化为第一知识向量的神经网络模型相同，即神经网络模型#A，将目标知识数据转化为目标知识向量的神经网络模型也可以是神经网络模型#A在训练阶段经参数调整后的模型，即训练好的神经网络模型#A。

在步骤S930，对待处理文本进行处理，以获取目标文本向量。

该步骤中与步骤S840中将训练文本进行处理以获取第一文本向量的处理过程类似，具体可参考上文相关描述。可选地，将待处理文本转化为目标文本向量的神经网络模型可以和将训练文本转化为第一文本向量的神经网络模型相同，即神经网络模型#B，将待处理文本转化为目标文本向量的神经网络模型也可以是神经网络模型#B在训练阶段经参数调整后的模型，即训练好的神经网络模型#B。

可选地，在步骤S930之前，本申请实施例提供的文本处理的方法还可以包括：获取待处理文本。

需要说明的是，对于上述步骤S910至步骤S930执行的先后顺序本申请实施例不做特别限定。

在步骤S940，根据目标融合模型对目标文本向量和目标知识向量进行融合，以获取融合后的目标文本向量和融合后的目标知识向量。

应理解，融合后的目标文本向量为待处理文本向量。

应理解，融合后的目标文本向量和/或融合后的目标知识向量即输入到目标处理模型进行自然语言任务处理的数据。

融合后的目标文本向量包含目标知识数据中的至少部分信息，融合后的目标知识向量包含待处理文本的语义背景信息(也可以称为语义环境信息或上下文信息)。换句话说，根据目标融合模型对目标文本向量和目标知识向量进行融合，得到融合后的目标文本向量和融合后的目标知识向量，其中融合后的目标文本向量包括目标文本向量对应的待处理文本的信息以及目标知识向量对应的目标知识数据中至少部分知识信息，该目标知识数据中的至少部分知识信息与待处理文本是相关的(例如融合后的目标文本向量包含了待处理文本中的多个实体的属性或与其他实体之间的关系的知识)，融合后的目标知识向量包括目标知识向量对应的目标知识数据以及目标文本向量对应的待处理文本的语义环境信息(由于实体可能具有多种含义，在不同的语义背景下实体的含义可能是不同的，融合后的目标知识向量可以包含实体在待处理文本中的上下文信息)。

本申请实施例中的目标融合模型可以为训练阶段未经参数调整的原始融合模型，例如在预训练过程中预训练好的融合模型，也可以是在模型训练阶段经过参数调整后的原始融合模型，例如在模型训练阶段训练好的专属于目标处理模型的融合模型。目标融合模型的结构与原始融合模型的结构相同，也就是目标融合模型可以为多层自注意力机制模型，多层感知机模型，循环神经网络模型，权重模型，卷积神经网络模型，对抗神经网络模型，强化学习神经网络模型以及其他网络结构的模型。

该步骤与步骤S850中的所述的方法类似，具体可参考上文相关描述，在此不再赘述。

在步骤S950，根据目标处理模型对融合后的目标文本向量和/或融合后的目标知识向量进行处理，以获取与目标任务对应的处理结果。

本申请实施例中目标处理模型即在模型训练阶段中将原始处理模型经过参数调整后得到的训练好的目标处理模型。

该步骤与步骤S860的处理过程类似，具体可参考上文描述。

可选地，待处理文本包括一个或多个名词实体，所述一个或多个名词实体包括所述第一名词实体，待处理文本中还可以包括至少一个第一知识标识符，该第一知识标识符用于指示待处理文本中的该一个或多个名词实体中的至少一个名词实体，该至少一个第一知识标识符与待处理文本中的该一个或多个名词实体中的至少一个名词实体一一对应。应理解，本申请实施例中将用于指示一个名词实体的第一知识标识符理解为一个第一知识标识符，但在形式上一个第一知识标识符可以包括两部分，例如第一知识标识符可以位于实体两侧用于指定实体所指范围。相应地，在步骤S930中，对待处理文本进行处理包括对该至少一个第一知识标识符进行处理，经步骤S930后，获取的目标文本向量包括该至少一个第一知识标识符对应的向量。相应地，在步骤S940中，获取的融合后的目标文本向量中包括该至少一个第一知识标识符对应的至少一个第一知识标识符向量，该至少一个第一知识标识符向量用于指示待处理文本中的该一个或多个名词实体中的至少一个名词实体对应的向量。相应地，在步骤S950中，根据目标处理模型对融合后的目标文本向量进行处理包括根据目标处理模型对至少一个第一知识标识符向量所指示的至少一个名词实体对应的向量进行处理，以获取与目标任务对应的处理结果。第一知识标识符向量会引导目标处理模型关注第一知识标识符所指示的实体，从而抽取知识信息(例如知识局部特征)，使得目标处理模型可以通过特殊的标识符完成目标任务，可以提高目标任务处理效率。示例性的，待处理文本中的多个实体两侧存在第一知识标识符，则在目标处理模型对融合后的目标文本向量进行处理时，会关注第一知识标识符对应的向量，并根据第一知识标识符对应向量抽取第一知识标识符所指示的实体，从而对实体进行处理。

本申请的技术方案中，目标融合模型对待处理文本对应的目标文本向量和目标知识数据对应的目标知识向量进行融合，相当于将待处理文本和目标知识数据进行融合，这使得待处理文本能够融合知识，从而具有更为丰富的语义信息。当将得到的融合后的目标文本向量和/或融合后的目标知识向量作为目标处理模型的输入数据时，由于待处理文本中融合了知识，在目标处理模型执行目标任务时，对于待处理文本信息的理解能力提高，从而在进行目标任务处理时其处理结果的准确率提高。换句话说，本申请实施例通过在待处理文本中融合知识信息，使得目标处理模型的输入更准确，能够提高目标处理模型对待处理文本的理解能力，从而提高对目标任务处理结果的准确率。

下面结合图10-12详细描述本申请提供的文本处理方法的一个具体而非限定的例子。

图10示出了预训练模型框架和流程示意图。如图10所示，示例性的，目标处理模型的训练过程可以分为两个阶段，分别为预训练阶段和下游任务微调阶段。在预训练阶段，预训练任务与预训练任务的任务模型对应；在下游任务微调阶段，下游任务与下游任务的任务模型对应，其中下游任务的任务模型即为本申请实施例中的原始处理模型。

在预训练阶段，用于预训练过程的训练数据作为输入数据输入到神经网络结构#1和预训练任务的任务模型中，预训练任务的任务模型相应地输出处理结果，根据预训练任务的任务模型输出的处理结果和与该训练阶段的输入数据、预训练任务对应的正确结果之间的差异，可以调整预训练任务的任务模型的参数和神经网络结构#1的参数，使得预训练任务的任务模型输出的处理结果与对应的正确结果之间的差异越来越小最终处于一定阈值内，则可以认为预训练任务的任务模型与神经网络结构#1训练完成。在预训练阶段，可以在获得训练好的神经网络结构#1后，将神经网络结构#1剥离出来，训练好的神经网络结构#1可以为不同的下游任务提供特征，或者可以直接在训练好的神经网络结构#1上进行其他下游任务的微调。

在下游任务微调阶段，用于微调的训练数据作为输入数据输入到神经网络结构#2和下游任务的任务模型中，其中下游任务微调阶段的神经网络结构#2即预训练阶段训练好的神经网络结构#1。下游任务的任务模型相应地输出处理结果，根据下游任务的任务模型输出的处理结果和与该训练阶段的输入数据、下游任务对应的正确结果之间的差异，可以调整下游任务的任务模型的参数，使得下游任务的任务模型输出的处理结果与对应的正确结果之间的差异越来越小最终处于一定阈值内，则可以任务下游任务的任务模型训练完成，这里训练好的下游任务的任务模型即本申请实施例中的目标处理模型。此时神经网络结构#2主要作用是为下游任务的任务模型提供特征，该神经网络结构#2可以用于不同的下游任务的任务模型的训练。可选地，在下游任务的微调阶段，除了调整下游任务的任务模型的参数外，还可以相应地调整神经网络结构#2的参数，也就是说，在预训练阶段已经训练好的神经网络结构在下游任务微调阶段也可以再次进行参数的调整，使得调整参数后的神经网络结构#2适配于下游任务，可以作为下游任务的专属神经网络结构。

需要说明的是，预训练任务与下游任务可以不同，也可以相同，相应地，用于预训练的训练数据与用于微调的训练数据可以不同，也可以相同。在预训练任务和下游任务相同的情况下，在预训练阶段训练好的神经网络结构#1可以认为是适配于下游任务的网络结构。应理解，本申请实施例中的神经网络结构也可以称为神经网络模型。

可选地，在预训练阶段，用于预训练的训练数据可以为大规模的文本语料，则图10示出的为大规模预训练语言模型的训练过程示意图，其中大规模预训练语言模型即预训练阶段得到的训练好的神经网络结构#1。

图11示出了本申请一个实施例的文本处理的方法的示意性框图，该方法可以是方法800的一个具体的例子。

示例性的，本申请实施例中的目标处理模型的训练过程可以分为两个阶段，分别为预训练阶段和下游任务微调阶段，如图11所示。

预训练阶段

在S1110数据输入步骤中，预训练任务文本和预训练任务知识信息作为输入数据被输入。其中预训练任务文本中的文本语料可以是任意的符合语言文法规则的文本序列，例如新闻、百科、社交媒体消息、文学作品等；预训练任务知识信息可以是结构化的知识库例如百科或者其他结构化知识信息，也可以是文本实体概念(例如苹果，手机，美国等一个一个名词实体)。可选地，预训练任务知识信息可以为上文所述的第一知识数据。

预训练任务文本与预训练任务知识信息是相关的，例如，预训练任务文本包括多个实体(或称名词实体)，预训练任务知识信息中包括该多个实体的知识，如该多个实体的属性、该多个实体中的每个实体与其他实体的关系等。

可选地，若预训练任务知识信息为结构化的知识，则在该步骤S1110之前，可以先根据已有的知识编码方法(例如translating embedding，TransE)将结构化知识进行编码，将得到的编码信息作为知识输入。如图11中所示，预训练任务知识信息即为已经编码后的知识。

可选地，若预训练任务知识信息为文本实体概念，可将预训练任务知识信息进行文本编码，文本编码的过程可在S1110数据输入之前执行，也可以是在S1110数据输入之后执行。

在S1110之前，该方法还包括获取数据。示例性的，可以在维基网站中下载维基语料和知识库信息，维基语料可以作为本申请实施例中的预训练任务文本，知识库信息可以作为本申请实施例中的预训练任务知识信息。可选地，对于知识库信息，采用已有的知识编码算法进行知识编码，编码完成后的知识形式为每一个概念均有对应的一个向量，可以称为知识向量。

例如，获取的用于预训练阶段的训练数据可以如下所示。

示例性的，预训练任务文本包括例如词条apple:

An apple is a sweet,edible fruit produced by an apple tree(Maluspumila).Apple trees are cultivated worldwide and are the most widely grownspecies in the genus Malus.The tree originated in Central Asia,where its wildancestor,Malus sieversii,is still found today.Apples have been grown forthousands of years in Asia and Europe and were brought to North America byEuropean colonists.Apples have religious and mythological significance inmany cultures,including Norse,Greek and European Christian traditions.

示例性的，预训练任务知识信息包括知识Apple：

200维知识向量：(0.223,-0.483,….,0.576)

上文提到，预训练任务知识信息与预训练任务文本相关，示例性的，预训练任务文本可以包括如下文本序列，则与该文本序列相关的预训练任务知识中可以包括如下知识序列中的实体的知识。

示例性的，文本序列：Apples have been grown for thousands of years inAsia and Europe and were brought to North America by European colonists.

示例性的，知识序列：Apple,Asia,Europe,North America,European colonists

在S1120文本编码步骤中，被输入的预训练任务文本输入到神经网络结构#3中进行编码，也就是神经网络结构#3将预训练任务文本转化成文本向量，其中获得的文本向量可以包括预训练任务文本中的整个文本序列对应的文本向量和/或文本序列中每个文本单位对应的向量。神经网络结构#3可以是循环神经网络结构，自注意力转换器(transformer)网络结构或其他可用将文本进行编码的网络结构等。可选地，若预训练任务知识信息为非结构化的知识(例如预训练任务知识信息为知识概念)，在该步骤中，可以根据神经网络结构#3对预训练任务知识信息进行编码，也就是将预训练任务知识信息转化成向量，也可以根据其他的神经网络结构对预训练任务知识信息进行编码以获取对应的知识向量。

在S1130知识聚合步骤中，将S1120文本编码步骤中得到的文本编码序列和S1110数据输入步骤中得到的知识编码序列输入到知识聚合器#5中进行融合，得到带有知识的新的文本编码序列和新的知识编码序列输出。应理解，本申请实施例中文本编码序列即将预训练任务文本进行向量化处理后得到的文本向量，知识编码序列即将预训练任务知识信息进行向量化处理后得到的知识向量。还应理解，带有知识的新的文本编码序列和新的知识编码序列即文本编码序列和知识编码序列在知识聚合器#5中进行融合得到的融合后的文本编码序列和融合后的知识编码序列，也就是融合后的文本向量和融合后的知识向量。

知识聚集器#5可以是复杂的多层网络结构，例如多层的自注意力机制网络结构，多层感知机网络结构，循环神经网络结构等，也可以是简单的将文本编码序列和知识编码序列进行加权、平均等。

示例性的，在S1130知识聚合步骤中，知识聚合器#5可以分别先用自注意力机制神经网络对预训练任务文本对应的文本向量(即文本编码序列)和预训练任务知识信息对应的知识向量(即知识编码序列)进行再一次编码，然后用多层感知机神经网络将编码后的文本编码序列和编码后的知识编码序列进行相互融合，以同样的格式分别输出融合后的文本编码序列和知识编码序列(即融合后的文本向量和融合后的知识向量)。可选地，知识聚集器可以是多层的结构，上一层的输出是下一层的输入。其基本结构例如可以是如图13所示。

在S1140编码输出步骤中，输出的即是S1130知识聚合步骤中得到的融合后的文本编码序列和融合后的知识编码序列。

在S1150任务输出步骤中，将在S1140编码输出步骤中输出的融合后的文本编码序列和/或融合后的知识编码序列用于设定好的预训练任务。本申请实施例中，预训练任务包括两种，一种的文本预训练任务(即语言模型预训练任务)，例如序列概率预测、分类任务等，另一种是知识预训练任务，例如命名实体预测、命名实体分类等。文本预训练任务的训练可以使模型学习到语义信息，知识预训练任务可以使模型学习到知识。

可选地，在S1150中可以以融合后的文本编码序列作为文本预训练任务和知识预训练任务的输入数据；或者以融合后的知识编码序列作为文本预训练任务和知识预训练任务的输入数据；还或者以融合后的文本编码序列作为文本预训练任务的输入数据，以融合后的知识编码序列作为知识预训练任务的输入数据，本申请实施例不做具体限定，在具体实现中可以根据知识聚集器#5的类型、文本编码序列和知识编码序列的融合情况确定。

作为示例而非限定，文本预训练任务可以包括字预测和句对分类。字预测即在输入时，以一定概率随机地用[mask]符号代替某个字，最后用输出的上下文的字信息来预测这个[mask]所代表的是哪个字。句对分类即文本序列每次输入两个句子，最后取输出的文本序列的语义编码来做分类，判断这两个句子是不是上下句的关系。

例如，以字预测为例：

原句：哈尔滨是黑龙江的省会，国际冰雪文化名城。

预训练任务：哈[mask]滨是[mask]龙江的省会，[mask]际冰[mask]文化名城。

知识预训练任务可以为实体预测。例如对于一个文本序列所对应的知识序列，在输入时以一定概率随机地用[mask]符号代替某个知识实体，最后用输出的上下文的字信息来预测这个[mask]所代表的是哪个知识实体。

本申请实施例还包括参数调整步骤，在S1150任务输出步骤中会输出文本预训练任务和知识预训练任务的处理结果，根据S1150任务输出步骤输出的处理结果与对应的已知正确结果之间的差异，调整文本预训练任务和知识预训练任务中相应的任务模块的参数以及知识聚集器#5和神经网络结构#3的参数，使得任务输出步骤中输出的处理结果与对应的正确结果之间差异越来越小，最终处于阈值范围内，则预训练阶段完成。

预训练阶段完成后可以获得训练好的预训练任务的任务模型、知识聚集器#5和神经网络结构#3。知识聚集器#5可以认为是本申请实施例中的原始融合模型。当预训练任务文本为大规模文本语料时，知识聚集器#5可以学到丰富的语义信息，同时能够包含知识信息，提高了对语言的理解能力。

下游任务微调阶段

下游任务微调阶段与预训练阶段的过程类似，在预训练阶段的基础上，下游任务阶段复用预训练阶段的训练好的神经网络结构#3和训练好的知识聚集器#5进行特征抽取来进行下游任务的训练或者在预训练的基础上，对预训练阶段的训练好的神经网络结构#3和训练好的知识聚集器#5进行微调得到新的适配下游任务模型的神经网络结构和知识聚集器。本申请实施例中，训练好的神经网络结构#3即神经网络结构#4，训练好的知识聚集器#5即知识聚集器#6。

在S1110数据输入步骤中，下游任务文本和下游任务知识信息(下游任务知识信息可选)作为输入数据被输入。其中下游任务文本中的文本语料可以是任意的符合语言文法规则的文本序列，例如新闻、百科、社交媒体消息、文学作品等；下游任务知识信息可以是结构化的知识库例如百科或者其他结构化知识信息，也可以是文本实体概念(例如苹果，手机，美国等一个一个名词实体)。

下游任务知识信息与下游任务文本是相关的，例如下游任务文本包括多个实体，下游任务知识信息中包括该多个实体的知识，如该多个实体的属性、该多个实体红的每个实体与其他实体的关系等。下游任务文本与预训练任务知识信息也可以是相关的，例如预训练知识信息中包括下游任务文本中的多个实体的知识。可选地，在下游任务微调阶段若没有下游任务知识信息输入时，则预训练任务知识信息可以认为是本申请实施例中的第一知识数据；若下游任务微调阶段有下游任务信息输入时，则预训练任务知识信息和下游任务知识信息可以认为是本申请实施例中的第一知识数据，在本申请实施例中，预训练任务知识信息和下游任务知识信息可以是不在同一阶段获取。下游任务文本可以认为是本申请实施例中的训练文本，下游任务可认为是本申请实施例中的目标任务。

可选地，若下游任务知识信息为结构化的知识，则在该步骤之前，可以先根据已有的知识编码方法(例如translating embedding，TransE)将结构化知识进行编码，得到的编码信息作为知识输入。如图11所示，下游任务知识信息即为已经编码后的知识。可选地，若下游任务知识信息为文本实体概念，可将下游任务知识信息进行文本编码，文本编码的过程可在S1110数据输入之前执行，也可以是在S1110数据输入之后执行。

可选地，在该步骤中，输入的下游任务文本中可以包括知识标识符，例如在实体两侧增加知识标识符来指定实体所指的范围，知识标识符引导模型算法关注，抽取知识信息。知识标识符在后续的步骤中同文本类似，同样会经过编码和融合处理。

示例性的，本申请实施例中的下游任务可以为实体分类或实体关系抽取任务。实体分类即对于一个实体概念，将它分到某一个已有类别中，例如苹果分到水果类别中。实体关系抽取即对于两个实体(头实体和尾实体)，将它们的关系分到某一个已有类别中，例如：[头实体：中国，尾实体：北京，关系：首都]。

例如，在实体分类中，可以把实体范围用[ENT]标识符指出，输入系统：

[ENT]Zhejiang University[ENT]is located in[ENT]Hangzhou[ENT].

本申请实施例将用于指示一个实体的知识标识符认为是一个知识标识符，例如在Zhejiang University两侧有两个[ENT]，但该两个[ENT]指示一个实体ZhejiangUniversity，因为该两个[ENT]看做一个知识标识符(在某些实施例中也可以称一对知识标识符)。

又如，在实体关系抽取任务中，可以把头实体用[HD]、尾实体用[TL]标识出，输入系统：

[HD]Zhejiang University[HD]is located in[TL]Hangzhou[TL].

对应的知识序列：Zhejiang University.Hangzhou.

在S1120文本编码步骤中，被输入的下游任务文本输入到神经网络结构#4(即预训练阶段已经训练好的神经网络结构#3)中进行编码，也就是神经网络结构#4将下游任务文本转化成文本向量。换句话说，在下游任务微调阶段的S1120复用预训练阶段已经训练好的神经网络结构#3。该步骤中对于下游任务文本的处理过程与预训练阶段类似，具体可参考上文描述。在该步骤中，若下游任务文本中包括知识标识符，则在文本编码过程中，神经网络结构#4对知识标识符也会进行编码并输出相应的向量。

在S1130知识聚合步骤中，复用预训练阶段已经训练好的知识聚集器#5(即知识聚集器#6)。该步骤中的处理过程与预训练阶段类似，具体可参考上文描述。

可选地，在没有下游任务知识信息输入的情况下，在S1130中，知识聚集器#6将下游任务文本对应的文本编码序列与预训练阶段获取的预训练任务知识信息对应的知识编码序列进行融合，得到融合后的下游任务文本对应的文本编码序列和融合后的预训练任务知识信息对应的知识编码序列，其中融合后的下游任务文本对应的文本编码序列包括预训练任务知识信息中至少部分信息，融合后的预训练任务知识信息对应的知识编码序列包括下游任务文本的语义背景信息。

可选地，在存在下游任务知识信息输入的情况下，在S1130中，知识聚集器#6将下游任务文本对应的文本编码序列与预训练阶段获取的预训练任务知识信息对应的知识编码序列以及下游任务知识信息对应的知识编码序列进行融合，得到融合后的下游任务文本对应的文本编码序列和融合后的下游任务知识信息对应的知识编码序列，其中融合后的下游任务文本对应的文本编码序列包含知识信息，融合后的下游任务知识信息对应的知识编码序列包含下游任务的语义背景信息(或上下文信息)。

在S1140编码输出步骤中，输出的即是知识聚合步骤中得到的带有知识的新的文本编码序列和新的知识编码序列。

在S1150任务输出步骤中，将在编码输出步骤中输出的带有知识的新的文本编码序列和新的知识编码序列用于设定好的下游任务。该下游任务即本申请实施例中的目标任务。

作为示例而非限定，下游任务为实体分类任务，可以使用叠加分类器模型进行下游任务训练。

可选地，在输出分类结果时，可以采用如下方式进行分类：

例如，采用文本序列中实体如(Zhejiang University)的对应输出向量进行分类；

又如，采用知识标识符[ENT]的对应输出向量进行分类；

再如，采用文本序列中对应的字如(Zhejiang和University)的对应输出向量进行分类。

作为示例而非限定，下游任务为实体关系抽取任务，可选地，在输出分类结果时，可以如下方式进行分类：

例如，采用文本序列中实体对如(Zhejiang University以及Hangzhou)的对应输出向量进行分类；

又如，采用知识标识符[HD]，[TL]的对应输出向量进行分类；

再如，采用文本序列中对应的字如(Zhejiang和University以及Hangzhou)的对应输出向量进行分类。

本申请实施例还包括参数调整步骤，在任务输出步骤中会输出下游任务的处理结果，根据任务输出步骤输出的处理结果与对应的已知正确结果之间的差异，可以调整下游任务中相应的任务模块的参数，使得任务输出步骤中输出的处理结果与对应的正确结果之间差异越来越小，最终处于阈值范围内，从而获得训练好的下游任务的任务模型，即本申请实施例中目标任务模型。

可选地，在参数调整步骤中，除了调整下游任务中相应的任务模型的参数外，还可以调整神经网络结构#4和知识聚集器#6的参数，从而获得适配于下游任务的任务模型的神经网络结构和知识聚集器。

在下游任务微调阶段不调整知识聚集器#6的参数的情况下，知识聚集器#6可以认为是本申请实施例中的原始融合模型和目标融合模型，即原始融合模型与目标融合模型参数是一样的。在下游任务微调阶段调整知识聚集器#6的参数的情况下，参数调整前的知识聚集器#6可以认为是本申请实施例中的原始融合模型，参数调整后的知识聚集器#6可以认为是本申请实施例中的目标融合模型。

目标处理模型的应用过程

目标处理模型的应用过程与下游任务微调阶段的步骤类似，在S1110数据输入步骤中，可选地，可以输入与待处理文本相关的目标任务知识信息。在S1130中，知识聚集器可以将待处理文本对应的文本编码序列与预训练任务知识信息、下游任务知识信息和目标任务知识信息对应的知识编码序列进行融合。在微调阶段和应用阶段均没有知识数据输入的情况下，预训练阶段获取的预训练任务知识信息可以认为是本申请实施例中的目标知识数据；在应用阶段没有知识数据输入的情况下，预训练阶段获取的预训练任务知识信息和微调阶段获取的下游任务知识信息可以认为是本申请实施例中的目标知识数据；在微调阶段没有知识数据输入的情况下，预训练阶段获取的预训练任务知识信息和应用阶段获取的目标任务知识信息可以认为是本申请实施例中的目标知识数据；在预训练阶段、微调阶段和应用阶段均有知识数据输入的情况下，预训练阶段获取的预训练任务知识信息、微调阶段获取的下游任务知识信息和应用阶段获取的目标任务知识信息可以认为是本申请实施例中的目标知识数据。

在目标处理模型应用阶段，目标处理模型输出的处理结果即为最终的结果，没有参数调整的步骤，其他步骤与下游任务微调阶段过程类似，具体可参考上文，为简洁，在此不再赘述。

可选地，步骤S1110可以由数据输入模块执行，该数据输入模块例如可以位于图4中的I/O接口112处。

可选地，步骤S1120可以由文本编码模块执行，该文本编码模块例如可以是图4中的预处理模块113或预处理模块114。

可选地，步骤S1130可以由知识聚合模块执行，该知识聚合模块例如可以是图4中的预处理模块113或预处理模块114。

可选地，步骤S1140可以由编码输出模块执行，该编码输出模块可以与知识聚合模块集成。

可选地，步骤S1150可以由任务输出模块执行，该任务输出模块例如可以是本申请实施例中的下游任务的任务模型。

上文结合图1至图12详细的描述了本申请实施例的方法实施例，下面结合图13至图14，详细描述本申请实施例的装置实施例。应理解，方法实施例的描述与装置实施例的描述相互对应，因此，未详细描述的部分可以参见前面方法实施例。

图13是本申请实施例提供的神经网络训练装置的硬件结构示意图。图13所示的神经网络训练装置1300(该装置1300具体可以是一种计算机设备)包括存储器1301、处理器1302、通信接口1303以及总线1304。其中，存储器1301、处理器1302、通信接口1303通过总线1304实现彼此之间的通信连接。

存储器1301可以是只读存储器(read only memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(random access memory，RAM)。存储器1301可以存储程序，当存储器1301中存储的程序被处理器1302执行时，处理器1302和通信接口1303用于执行本申请实施例的神经网络的训练方法的各个步骤。

处理器1302可以采用通用的中央处理器(central processing unit，CPU)，微处理器，应用专用集成电路(application specific integrated circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的神经网络的训练装置中的单元所需执行的功能，或者执行本申请方法实施例的神经网络的训练方法。

处理器1302还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的神经网络的训练方法的各个步骤可以通过处理器1302中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1302还可以是通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(ASIC)、现成可编程门阵列(fieldprogrammable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1301，处理器1302读取存储器1301中的信息，结合其硬件完成本申请实施例的神经网络的训练装置中包括的单元所需执行的功能，或者执行本申请方法实施例的神经网络的训练方法。

通信接口1303使用例如但不限于收发器一类的收发装置，来实现装置1300与其他设备或通信网络之间的通信。例如，可以通过通信接口1303获取训练数据(如本申请实施例中的训练文本和第一知识数据)。

总线1304可包括在装置1300各个部件(例如，存储器1301、处理器1302、通信接口1303)之间传送信息的通路。

图14是本申请实施例的文本处理装置的硬件结构示意图。图14所示的文本处理装置1400(该装置1400具体可以是一种计算机设备)包括存储器1401、处理器1402、通信接口1403以及总线1404。其中，存储器1401、处理器1402、通信接口1403通过总线1404实现彼此之间的通信连接。

存储器1401可以是ROM，静态存储设备和RAM。存储器1401可以存储程序，当存储器1401中存储的程序被处理器1402执行时，处理器1402和通信接口1403用于执行本申请实施例的文本处理方法的各个步骤。

处理器1402可以采用通用的，CPU，微处理器，ASIC，GPU或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的文本处理装置中的单元所需执行的功能，或者执行本申请方法实施例的文本处理方法。

处理器1402还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请实施例的文本处理方法的各个步骤可以通过处理器1402中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1402还可以是通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1401，处理器1402读取存储器1401中的信息，结合其硬件完成本申请实施例的文本处理装置中包括的单元所需执行的功能，或者执行本申请方法实施例的文本处理方法。

通信接口1403使用例如但不限于收发器一类的收发装置，来实现装置1400与其他设备或通信网络之间的通信。例如，可以通过通信接口1403获取待处理数据。

总线1404可包括在装置1400各个部件(例如，存储器1401、处理器1402、通信接口1403)之间传送信息的通路。

应注意，尽管图13和图14所示的装置1300和1400仅仅示出了存储器、处理器、通信接口，但是在具体实现过程中，本领域的技术人员应当理解，装置1300和1400还包括实现正常运行所必须的其他器件。同时，根据具体需要，本领域的技术人员应当理解，装置1300和1400还可包括实现其他附加功能的硬件器件。此外，本领域的技术人员应当理解，装置1300和1400也可仅仅包括实现本申请实施例所必须的器件，而不必包括图13或图14中所示的全部器件。

可以理解，所述装置1300相当于1中的训练设备120，所述装置1400相当于图1中的执行设备110。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种文本处理方法，其特征在于，包括：

获取目标知识数据，所述目标知识数据包括第一名词实体、第二名词实体，以及第一名词实体与第二名词实体之间的联系；

对所述目标知识数据进行处理，以获取目标知识向量，所述目标知识向量包括所述第一名词实体、所述第二名词实体以及所述第一名词实体与第二名词实体之间的联系所对应的向量；

对待处理文本进行处理，以获取目标文本向量，所述待处理文本包括一个或多个名词实体，所述一个或多个名词实体包括所述第一名词实体；

根据目标融合模型对所述目标文本向量和所述目标知识向量进行融合，以获取融合后的目标文本向量和融合后的目标知识向量；

根据目标处理模型对所述融合后的目标文本向量和/或所述融合后的目标知识向量进行处理，以获取与目标任务对应的处理结果。

2.根据权利要求1所述的方法，其特征在于，所述待处理文本还包括至少一个第一知识标识符，所述至少一个第一知识标识符用于指示所述待处理文本中的所述一个或多个名词实体中的至少一个名词实体，所述至少一个第一知识标识符与所述待处理文本中的所述至少一个名词实体一一对应。

3.根据权利要求1或2所述的方法，其特征在于，所述融合后的目标文本向量包含所述目标知识数据中的至少部分信息，所述融合后的目标知识向量包含所述待处理文本的语义背景信息。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述第一名词实体与第二名词实体之间的联系为所述第一名词实体与所述第二名词实体之间的关系；或者，所述第一名词实体与第二名词实体之间的联系为所述第一名词实体的一种属性，所述第二名词实体为所述属性的属性值。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述目标融合模型为以下模型中的任意一种：

多层自注意力机制模型，多层感知机模型，循环神经网络模型，权重模型，卷积神经网络模型，对抗神经网络模型，强化学习神经网络模型。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述方法还包括：

获取第一知识数据，所述第一知识数据包括第三名词实体、第四名词实体，以及第三名词实体与第四名词实体之间的联系，所述目标知识数据包括所述第一知识数据；

对所述第一知识数据进行处理，以获取第一知识向量，所述第一知识向量包括所述第三名词实体、所述第四名词实体以及所述第三名词实体与第四名词实体之间的联系所对应的向量；

获取训练文本以及与所述训练文本和所述目标任务对应的第一任务结果，所述训练文本包括一个或多个名词实体，所述一个或多个名词实体包括所述第三名词实体；

对所述训练文本进行处理，以获取第一文本向量；

根据原始融合模型对所述第一文本向量与所述第一知识向量进行融合，以获取融合后的第一文本向量和融合后的第一知识向量；

根据原始处理模型对所述融合后的第一文本向量和/或融合后的第一知识向量进行处理，以获取第二任务结果；

根据所述第一任务结果和所述第二任务结果，调整所述原始处理模型的参数，以获取所述目标处理模型，和/或

根据所述第一任务结果和所述第二任务结果，调整所述原始融合模型的参数，以获取所述目标融合模型。

7.根据权利要求6所述的方法，其特征在于，所述融合后的第一文本向量包含所述第一知识数据中的至少部分信息，所述融合后的第一知识向量包含所述训练文本的语义背景信息。

8.根据权利要求6或7所述的方法，其特征在于，所述训练文本还包括至少一个第二知识标识符，所述至少一个第二知识标识符用于指示所述训练文本中的所述一个或多个名词实体中的至少一个名词实体，所述至少一个第二知识标识符与所述训练文本中的所述至少一个名词实体一一对应。

9.根据权利要求6至8中任一项所述的方法，其特征在于，所述原始融合模型是基于所述第一知识数据和预先设定的预训练文本训练得到的。

10.根据权利要求6至9中任一项所述的方法，其特征在于，所述第三名词实体与第四名词实体之间的联系为所述第三名词实体与所述第四名词实体之间的关系；或者，所述第三名词实体与第四名词实体之间的联系为所述第三名词实体的一种属性，所述第四名词实体为所述属性的属性值。

11.根据权利要求6至10中任一项所述的方法，其特征在于，所述原始融合模型为以下模型中的任意一种：

12.一种模型训练方法，其特征在于，包括：

获取第一知识数据，所述第一知识数据包括第三名词实体、第四名词实体，以及第三名词实体与第四名词实体之间的联系；

对所述训练文本进行处理，以获取第一文本向量；

根据所述第一任务结果和所述第二任务结果，调整所述原始处理模型的参数，以获取目标处理模型。

13.根据权利要求12所述的方法，其特征在于，还包括：

根据所述第一任务结果和所述第二任务结果，调整所述原始融合模型的参数，以获取目标融合模型。

14.根据权利要求12或13所述的方法，其特征在于，所述融合后的第一文本向量包含所述第一知识数据中的至少部分信息，所述融合后的第一知识向量包含所述训练文本的语义背景信息。

15.根据权利要求12至14中任一项所述的方法，其特征在于，所述训练文本还包括至少一个第二知识标识符，所述至少一个第二知识标识符用于指示所述训练文本中的所述一个或多个名词实体中的至少一个名词实体，所述至少一个第二知识标识符与所述训练文本中的所述至少一个名词实体一一对应。

16.根据权利要求12至15中任一项所述的方法，其特征在于，所述原始融合模型是基于所述第一知识数据和预先设定的预训练文本训练得到的。

17.根据权利要求12至16中任一项所述的方法，其特征在于，所述第三名词实体与第四名词实体之间的联系为所述第三名词实体与所述第四名词实体之间的关系；或者，所述第三名词实体与第四名词实体之间的联系为所述第三名词实体的一种属性，所述第四名词实体为所述属性的属性值。

18.根据权利要求12至17中任一项所述的方法，其特征在于，所述原始融合模型为以下模型中的任意一种：

19.一种装置，其特征在于，包括：

存储器，用于存储程序；

处理器，用于执行所述存储器存储的程序，当所述处理器执行所述存储器存储的程序时，所述处理器用于执行权利要求1至18中任一项所述的方法。