CN113361285B

CN113361285B - 自然语言处理模型的训练方法、自然语言处理方法及装置

Info

Publication number: CN113361285B
Application number: CN202110747046.XA
Authority: CN
Inventors: 丁思宇; 庞超; 王硕寰; 赵晏彬; 尚骏远; 孙宇; 冯仕堃; �田�浩; 吴华; 王海峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2022-07-12
Anticipated expiration: 2041-06-30
Also published as: CN113361285A; JP2022118263A; US20220293092A1

Abstract

本公开提供了一种自然语言处理模型的训练方法，涉及人工智能领域，尤其涉及自然语言处理领域。具体实现方案为：对输入文本进行针对多任务的语义学习，得到针对多任务的语义特征，其中，多任务包括多个分支任务；基于语义特征分别进行针对各个分支任务的特征学习，得到针对各个分支任务的第一输出结果；根据针对各个分支任务的第一输出结果，计算针对各个分支任务的损失；以及根据针对各个分支任务的损失，调整自然语言处理模型的参数。本公开还提供了一种自然语言处理模型的训练装置、自然语言处理方法及其装置、电子设备和存储介质。

Description

自然语言处理模型的训练方法、自然语言处理方法及装置

技术领域

本公开涉及人工智能技术领域，尤其涉及自然语言处理技术。更具体地，本公开提供了一种自然语言处理模型的训练方法及其装置、自然语言处理方法及其装置、电子设备和存储介质。

背景技术

近年来随着自然语言处理技术的不断发展，基于大规模语料的预训练语言模型已逐渐成为了经典的框架。但目前业内关于语义理解和语言生成等不同任务的语言模型的研究普遍是独立进行的，语义理解模型不具备语言生成的能力，反之亦然。

因此，如何使一个模型同时具备语义理解和语言生成的能力成为待解决的问题。

发明内容

本公开提供了一种自然语言处理模型的训练方法及其装置、自然语言处理方法及其装置、电子设备和存储介质。

根据第一方面，提供了一种自然语言处理模型的训练方法，该方法包括：对输入文本进行针对多任务的语义学习，得到针对多任务的语义特征，其中，多任务包括多个分支任务；基于语义特征分别进行针对各个分支任务的特征学习，得到针对各个分支任务的第一输出结果；根据针对各个分支任务的第一输出结果，计算针对各个分支任务的损失；以及根据针对各个分支任务的损失，调整自然语言处理模型的参数。

根据第二方面，提供了一种自然语言处理方法，该方法包括：获取针对预设分支任务的待处理文本；以及使用自然语言处理模型对待处理文本进行针对多任务的语义学习，得到针对多任务的语义特征，并根据语义特征进行针对预设分支任务的特征学习，得到针对预设分支任务的处理结果；其中，多任务包括预设分支任务，自然语言处理模型是利用根据上述自然语言处理模型的训练方法训练的。

根据第三方面，提供了一种自然语言处理模型的训练装置，该装置包括：语义学习模块，用于对输入文本进行针对多任务的语义学习，得到针对多任务的语义特征，其中，多任务包括多个分支任务；特征学习模块，用于基于语义特征分别进行针对各个分支任务的特征学习，得到针对各个分支任务的第一输出结果；损失计算模块，用于根据针对各个分支任务的第一输出结果，计算针对各个分支任务的损失；以及参数调整模块，用于根据针对各个分支任务的损失，调整自然语言处理模型的参数。

根据第四方面，提供了一种自然语言处理装置，该装置包括：获取模块，用于获取针对预设分支任务的待处理文本；以及处理模块，用于使用自然语言处理模型对待处理文本进行针对多任务的语义学习，得到针对多任务的语义特征，并根据语义特征进行针对预设分支任务的特征学习，得到针对预设分支任务的处理结果；其中，多任务包括预设分支任务，自然语言处理模型是利用根据上述自然语言处理模型的训练方法训练的。

根据第五方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行根据本公开提供的方法。

根据第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行根据本公开提供的方法。

根据第七方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据本公开提供的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1A是根据本公开一个实施例的统一预训练语言模型的结构原理图；

图1B是根据本公开一个实施例的自然语言处理模型的训练方法和/或自然语言处理方法的系统原理图；

图2是根据本公开的一个实施例的自然语言处理模型的训练方法的流程图；

图3A、图3B和图3C是根据本公开的一个实施例的基于上述自然语言处理模型实现不同分支任务的原理图；

图4A和图4B是根据本公开的一个实施例的基于上述自然语言处理模型实现的语义生成任务的原理图；

图5是根据本公开另一个实施例的自然语言处理模型的训练方法和/或自然语言处理方法的系统原理图；

图6是根据本公开的一个实施例的自然语言处理方法的流程图

图7是根据本公开的一个实施例的自然语言处理模型的训练装置的框图；

图8是根据本公开的一个实施例的自然语言处理装置的框图；

图9是根据本公开的一个实施例的自然语言处理模型的训练方法和/或自然语言处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

自然语言处理模型的应用越来越广泛，语义理解和语言生成作为自然语言处理的分支在各自的研究领域都取得了明显的进步。例如，在语义理解领域，产生了BERT、ERNIE和XLNet等经典预训练语言模型，大幅提升了各类自然语义理解任务(例如文本匹配、情感分类、检索等)的效果。在语言生成领域，产生了GPT、BART和T5等经典预训练语言模型，大幅提升了各类自然语言生成任务(例如文本生成、文本摘要生成、生成式问答等)的效果。

但目前业内关于语义理解和语言生成等不同任务的语言模型的研究普遍是独立进行的，语义理解模型不具备语言生成的能力，反之亦然。因此，当面临同时需要语义理解和语言生成能力的场景时，就需要训练两个模型，这会大大增加资源和时间的消耗。

目前业内已经提出使用统一预训练语言模型来实现语义理解任务和语言生成任务的共同训练的方案。例如，UNILM(UNIfied pre-trained Language Model)在BERT的基础上融合Seq2Seq(Sequence to Sequence，序列到序列的转换模型，简称S2S)任务，初步实现了语义理解和语言生成的共同训练。它以BERT为模型结构，利用Mask机制，将单向Mask语言模型、双向Mask语言模型以及Seq2Seq三种模型统一起来。

图1A是根据本公开一个实施例的统一预训练语言模型的结构原理图。

如图1A所示，统一预训练语言模型(例如UNILM)可以包括嵌入层111和Transformer层112。例如，以X₁，X₂......X₅为输入文本，嵌入层111用于对输入文本进行特征提取以及特征的向量化表示，输出输入文本的特征向量。Transformer层112用于基于输入文本的特征向量进行语义学习，输出语义特征h1，h2......h5。

例如，嵌入层111可以包括语句嵌入层(Segment Embedding)、位置信息嵌入层(Position Embedding)和字嵌入层(Token Embedding)，分别用于对输入文本进行语句向量化表示、输入文本中各个字的位置信息向量化表示以及各个字向量化表示，输出语句特征、位置特征和字特征。

例如，Transformer层112可以包括多层Transformer模块，Transformer模块是自然语言处理领域中一种经典的模型架构，能够学习句子中的字与字(或词与词)之间的关联性。输入文本的语句特征、位置特征和字特征经过多层Transformer模块，可以输出用于表示输入文本含义的语义特征。

应理解，统一预训练语言模型能够用于语义理解任务和语言生成任务的共同训练，针对不同的语言处理任务，对输入文本X₁，X₂......X₅的计算过程不同，输出的语义特征h1，h2......h5的含义也不同。但是不同语言处理任务是共享统一预训练语言模型的参数的，即不同语言处理任务的训练共同影响了统一预训练语言模型的参数，经训练的统一预训练语言模型既可以用来做语义理解的任务也可以用来做语言生成的任务。

统一预训练语言模型是通过完全共享模型参数来实现语义理解任务和语言生成任务的统一训练，但作为两种不同的研究模式，语义理解和语言生成有相同之处，亦有不同的部分。对于相同之处，共享模型参数可以起到相辅相成的作用，但不同之处仍然共享模型参数则会带来负向作用。

具体来说，统一预训练语言模型完全在同一套参数下学习多种类型的任务，对于多种类型的任务来说，在用于提取基础特征的模型底层共享参数是没有相互影响的，但在提取任务特定的特征的时候共享参数就会带来负向影响。

有鉴于此，本公开的实施例提出了一种自然语言处理模型的训练方法以及自然语言处理方法。

图1B是根据本公开一个实施例的自然语言处理模型的训练方法和/或自然语言处理方法的系统原理图。

如图1B所示，该自然语言处理模型的训练方法和/或自然语言处理方法的系统可以包括统一训练层110、连接层120和独立训练层130，独立训练层130可以包括多个任务子层，每个任务子层针对一个语言处理分支任务，例如独立训练层130包括语义理解任务子层131和语言生成任务子层132等。

统一训练层110可以包括统一预训练语言模型，用于多个语言处理分支任务的统一训练。连接层120用于连接统一训练层110和独立训练层130，并针对不同的任务，将统一训练层110的输出结果传输至独立训练层130中对应的任务子层。

独立训练层130中的各任务子层可以包括用于针对不同分支任务进行独立训练的模型(称为分支任务模型)，各分支任务模型可以包括多个Transformer模块，用于对语义特征进行分析和计算，实现语言处理分支任务。

根据本公开的实施例，在统一预训练语言模型的基础上分别进行各个分支任务的独立训练，达到多任务相同之处共同训练，不同之处独立训练的目的，提高自然语言处理模型对各个语言处理任务的处理效果。

应理解，本公开实施例提出了统一训练层和独立训练层的协同统一预训练框架，实现多种类型的任务共同训练统一训练层来提取基础特征信息，每类任务训练自己特定的任务分支来提取任务所需的高层语义信息，从而实现同一个模型在多种类型的任务上都能有很好的效果。

图2是根据本公开的一个实施例的自然语言处理模型的训练方法的流程图。

如图2所示，该自然语言处理模型的训练方法200可以包括操作S210～操作S240。

在操作S210，对输入文本进行针对多任务的语义学习，得到针对多任务的语义特征。

例如，多任务包括多个类型的任务，每个类型的任务对应一个分支。如语义理解任务、语言生成任务、常识推理任务和知识图谱任务等，这些任务都是自然语言处理的分支任务。自然语言处理模型可以包括统一预训练语言模型(例如UNILM)，通过统一预训练语言模型共同训练该多个分支任务(即多个类型的任务)。

例如，输入文本包括至少一个语句，每个语句包括至少一个字。针对不同的分支任务，由于任务形式不同，对输入文本的计算过程不同，则统一预训练语言模型输出的语义特征表示的含义不同。统一预训练语言模型可以对输入文本分别进行语句向量化表示、输入文本中各个字的位置信息向量化表示以及各个字向量化表示，得到语句特征、位置特征和字特征，并根据输入文本的语句特征、位置特征和字特征进行字与字(或词与词)之间的关联性的学习，输出语义特征。

例如，针对语义理解任务，输出的语义特征可以表示输入文本的语义理解信息。又例如，针对语言生成任务，输出的语义特征可以表示输入文本的下文信息。

在操作S220，基于语义特征分别进行针对各个分支任务的特征学习，得到针对各个分支任务的第一输出结果。

例如，自然语言处理模型还可以包括多个分支任务模型，每个分支任务模型用于实现对应分支任务的独立训练。针对不同的分支任务，可以将基于统一预训练语言模型输出的语义特征输入到对应的分支任务模型，使用该分支任务模型进行针对该分支任务的独立训练，能够达到多个分支任务相同之处共同训练，不同之处独立训练的目的。

应该理解，由于统一预训练语言模型共同训练了多个分支任务的训练，多个分支任务共享统一预训练语言模型的参数，即多个分支任务的训练共同影响了统一预训练语言模型的参数。因此，统一预训练语言模型输出的语义特征虽然能够用于表征针对不同分支任务的含义，同时也受到不同分支任务的影响。

本公开实施例在统一预训练语言模型输出的语义特征的基础上，分别针对各个分支任务进行独立训练，达到多个分支任务相同之处共同训练，不同之处独立训练的目的，能够避免不同分支任务之间对自然语言处理模型的参数的负向影响，提高自然语言处理模型对各个分支任务的处理效果。

在操作S230，根据针对各个分支任务的第一输出结果，计算针对各个分支任务的损失。

例如，针对各个分支任务模型，对各个分支任务进行独立训练，可以输出针对各个分支任务的第一输出结果。根据针对各个分支任务的输入文本的标签与第一输出结果之间的差异，能够计算针对各个分支任务的损失。

例如，针对语义理解任务，输入文本具有表示语义理解信息的标签，经统一预训练语言模型的统一训练，并经语义理解分支任务的独立训练之后，输出第一输出结果，该第一输出结果表示该自然语言处理模型预测的输入文本的语义理解信息。根据标签中表示的语义理解信息以及所预测的语义理解信息之间的差异，计算自然语言处理模型处理语义理解任务的损失，即针对语义理解任务的损失。

同理，可以得到针对语言生成任务的损失、针对常识推理任务的损失以及针对知识图谱任务的损失等等。

在操作S240，根据针对各个分支任务的损失，调整自然语言处理模型的参数。

例如，可以基于针对语义理解任务的损失、针对语言生成任务的损失、针对常识推理任务的损失以及针对知识图谱任务的损失等各个分支任务独立训练产生的损失之和，来调整自然语言处理模型的参数，以便更新自然语言处理模型。使用更新后的自然语言处理模型针对下一个输入文本，返回对输入文本进行针对多任务的语义学习的步骤，直至满足预设条件，该预设条件可以是针对各个分支任务的损失之和收敛。

应理解，调整自然语言处理模型的参数可以包括调整统一预训练语言模型以及调整用于对各个分支任务进行独立训练的分支任务模型的参数中的至少之一。

根据本公开的实施例，在统一预训练语言模型的基础上分别进行各个分支任务的独立训练，达到多个分支任务相同之处共同训练，不同之处独立训练的目的，提高自然语言处理模型对各个语言处理分支任务的处理效果。

下面参考图3A～图3C对基于上述自然语言处理模型所实现的不同分支任务分别进行描述。

图3A是根据本公开的一个实施例的基于上述自然语言处理模型实现语义理解任务的原理图。

图3B是根据本公开的一个实施例的基于上述自然语言处理模型实现字级别语义生成任务的原理图。

图3C是根据本公开的一个实施例的基于上述自然语言处理模型实现句子级别语义生成任务的原理图。

上述自然语言处理模型中包括统一预训练语言模型以及用于实现各个分支任务的多个分支任务模型，每个分支任务模型可以包括多个Transformer模块，用于基于语义特征进行分析和计算，实现语言处理分支任务。

如图3A～3C所示，S₁和S₂为输入文本中的两个句子(或语句)，S₁包括字(或词)X₁，X₂和X₃，S₂包括字(或词)X₄和X₅。每个方框可以表示一个字(或词)的含义，方框是白色表示经Transformer模块的计算该方框所表示的字的含义能够被获知，方框是灰色表示经Transformer模块的计算该方框所表示的字的含义不能够被获知。

针对图3A，用于实现语义理解的分支任务模型可以是双向MLM(Mask LanguageModel，Mask语言模型)。其原理是将输入文本随机遮挡掉预设百分比(例如15％)的字(或词)，编码后输入到Transformer模块，经Transformer模块的计算可以获得输入文本中的所有字(或词)的信息。

如图3A所示，针对X₁，经Transformer模块的计算可以获得X₁......X₅的含义。同理，针对X₂，经Transformer模块的计算也可以获得X₁......X₅的含义。即针对输入文本中的每个字，Transformer模块可以输出该字的上文信息和下文信息，即Transformer模块的输出包含输入文本的每个字的含义，可以理解为整个输入文本的语义，从而实现输入文本的语义理解。

例如，用于实现语义理解的分支任务模型还可以基于输入文本中每个字的上文信息和下文信息来进行句子级别的语义理解任务。例如，计算语句S₁和S₂之间的逻辑距离，逻辑距离表示句子之间是否具有逻辑顺序。又例如，针对包含多个语句的输入文本，确定各个语句之间的逻辑顺序，以便对多个语句进行重排序等等。

针对图3B，例如，用于实现字级别语义生成的分支任务模型可以是单向MLM(单向Mask语言模型)。单向MLM包括从左到右语言模型(Left-to-Right Language Model，L2RLM)和从右到左语言模型(Right-to-Left Language Model，R2L LM)。

图3B可以是从左到右语言模型的原理图，其原理是将输入文本随机遮挡掉预设百分比(例如0～100％)的字(或词)，编码后输入到Transformer模块，经Transformer模块的计算可以获得该字(或词)以及位于该字之前的所有字(或词)的信息，即上文信息(或历史信息)。

如图3B所示，针对X₅，经Transformer模块的计算可以获得X₁......X₅的含义。同理，针对X₄，经Transformer模块可以X₁......X₄的含义。即针对输入文本中的每个字，Transformer模块可以输出该字以及该字的上文信息，即Transformer模块的输出包含了所有的上文信息，基于上文信息可以预测出下文信息，实现基于单向MLM的字级别语言生成任务。

同理，从右到左语言模型其原理是将输入文本随机遮挡掉预设百分比(例如0～100％)的字(或词)，编码后输入到Transformer模块，经Transformer模块的计算可以获得该字(或词)以及位于该字之后的所有字(或词)的信息，即下文信息，基于下文信息可以预测出上文信息，实现基于单向MLM的字级别语言生成任务。

针对图3C，例如，用于实现句子级别语义生成的分支任务模型可以是Seq2Seq语言模型(Sequence to Sequence Language Model，S2S LM)。其原理是在输入文本的第二个句子中随机遮挡预设百分比(例如0～100％)的字(或词)，编码后输入到Transformer模块，经Transformer模块的计算使得第一个句子中的每一个字(或词)都能获得第一个句子中其他的所有字(或词)的含义，但不能获得第二个句子中的字(或词)的含义。而第二个句子中遮挡的词能够获得第一个句子的所有字(或词)的含义以及第二个句子中位于该字之前的上文信息，即Transformer模块的输出包含了第一个句子的所有字(或词)的含义，并且包含了第二个句子中被遮挡字(或词)的上文信息，因此可以用于句子级别的下文信息的预测，实现句子级别的语言生成任务。

如图3C所示，针对第一个句子S₁中的每个字，经Transformer模块的计算可以获得所有字X₁，X₂和X₃的含义。针对第二个句子S₂中的X₄，经Transformer模块的计算可以获得X₁，X₂，X₃以及X₄的含义。针对第二个句子S₂中的X₅，经Transformer模块的计算可以获得X₁，X₂，X₃，X₄以及X₅的含义。即Transformer模块的输出包含了第一个句子的含义以及第二个句子中所有被遮挡的字的上文信息，由此可以预测出下一个句子，实实现句子级别的语言生成任务。

需要说明的是，双向MLM任务的特征是每次训练有15％的字(token)参与训练，单向MLM任务和S2S LM任务的特性则是可以进行100％的token的预测。统一预训练语言模型将双向MLM、单向MLM以及Seq2Seq三种语言处理模型统一起来，但是其为了适配不同的任务，需要对任务的训练形式做一些调整。例如，需要单向MLM任务和S2S LM任务每次训练仅有15％的字(token)参与训练，这与原始的MLM任务和S2S LM任务的训练有着85％的损失，因此会造成模型收敛慢，进而产生资源和时间浪费的问题。

而本公开的实施例在统一预训练语言模型的基础上分别进行针对各个分支任务的独立训练，即各个分支任务可以保留各自的任务特性，无需在训练时进行适配性调整。例如单向MLM任务和S2S LM任务的特性可以进行100％的token的预测，避免误差，提高模型训练效率。

需要说明的是，基于上述自然语言处理模型实现的语义生成任务可以用于实现下文信息或上文信息中的一个或多个字的预测。

图4A是根据本公开的一个实施例的基于上述自然语言处理模型实现的语义生成任务的原理图。

图4B是根据本公开的另一个实施例的基于上述自然语言处理模型实现的语义生成任务的原理图。

自然语言处理模型中包括统一预训练语言模型以及用于实现各个分支任务的多个分支任务模型。用于实现语义生成的分支任务模型可以是从左到右语言模型，从左到右语言模型对输入文本的每一个字(或词)都进行学习，使得每个字(或词)都只能获得自身以及自身的上文信息，基于上文信息可以预测出下文信息，实现语言生成任务。

从左到右语言模型还包括从左到右N-Gram语言模型(N-Gram Language Model，N-GLM)，传统的左到右语言模型可以基于上文信息预测出下文信息中的一个字(或词)，从左到右N-Gram语言模型可以基于上文信息同时预测出下文信息中的多个字(或词)。

如图4A所示，是预测下文信息中的一个字(或词)的原理图。例如，输入文本是“哈尔滨是黑龙江的省会”，针对输入文本中的每个字，经从左到右语言模型(例如GPT-3)的Transformer模块410的语义学习，可以预测出位于该字后面的一个字。例如，针对“哈”可以预测出“尔”，针对“尔”可以预测出“滨”等等，以此类推。

如图4B所示，是同时预测下文信息中的多个字(或词)的原理图。输入文本是“哈尔滨是黑龙江的省会”，针对输入文本中的每个字，经从左到右N-Gram语言模型(例如ERNIE3.0)的Transformer模块420的语义学习，可以同时预测出位于该字后面的多个字。例如，针对“黑”可以预测出“龙江”，针对“省”可以预测出“会”等等。

根据本公开的实施例，在统一预训练语言模型的基础上进行语言生成任务的训练，能够针对输入文本中的每个字输出下文信息中的一个或多个字，实现语言生成任务。

图5是根据本公开另一个实施例的自然语言处理模型的训练方法和/或自然语言处理方法的系统原理图。

如图5所示，该自然语言处理模型的训练方法和/或自然语言处理方法的系统可以包括统一训练层510、连接层520、独立训练层530以及联合损失计算层540。

独立训练层530可以包括多个任务子层，每个任务子层针对一个语言处理分支任务，例如独立训练层530包括语义理解任务子层531、语言生成任务子层532以及常识推理任务子层533等。需要说明的是，独立训练层530还可以根据实时需要扩展更多的分支任务，例如知识图谱任务子层等。

一方面，对于输入文本，可以在经统一训练层510的统一训练之后，将输出的语义特征经连接层520传输至独立训练层530中对应的任务子层。例如，针对语义理解任务的输入文本经统一训练层510输出针对语义理解任务的语义特征，连接层520将该语义特征输入到语义理解任务子层531中进行针对语义理解任务的独立训练。各个任务子层经独立训练的输出结果为第一输出结果501。

另一方面，对于输入文本，可以在经统一训练层510的统一训练之后，将得到的语义特征作为第二输出结果502。对于不同的分支任务，第二输出结果502表征不同的含义。

联合损失计算层540可以基于第一输出结果501和第二输出结果502进行联合损失的计算，这样可以综合独立训练的损失和统一训练的损失，作为上述自然语言处理模型的整体损失，来调整上述自然语言处理模型的参数，能够使自然语言处理模型收敛更快，提高自然语言处理模型的训练效率。

图6是根据本公开的一个实施例的自然语言处理方法的流程图。

如图6所示，该自然语言处理方法600包括操作S610～S620。

在操作S610，获取针对预设分支任务的待处理文本。

在操作S620，使用自然语言处理模型对待处理文本进行针对多任务的语义学习，得到针对多任务的语义特征，并根据语义特征进行针对预设分支任务的特征学习，得到针对预设分支任务的处理结果。

多任务包括多个分支任务，预设分支任务是多个分支任务中的之一。自然语言处理模型是根据上述自然语言处理模型的训练方法训练得到的。

例如，预设分支任务是语义理解任务，将针对语义理解任务的输入文本输入到上述自然语言处理模型中，自然语言处理模型对输入文本进行针对多任务的语义学习，输出针对语义理解任务的语义特征，并基于该语义特征进行针对语义理解任务的独立特征学习，得到针对语义理解任务的处理结果，该处理结果可以表征输入文本的语义。

根据本公开的实施例，将对输入文本进行针对多任务的语义学习得到的语义特征进行针对分支任务的特征学习，达到多任务相同之处共同学习，不同之处独立学习的目的，提高针对自然语言处理的各个分支任务的处理效果。

图7是根据本公开的一个实施例的自然语言处理模型的训练装置的框图。

如图7所示，该自然语言处理模型的训练装置700可以包括语义学习模块701、特征学习模块702、损失计算模块703和参数调整模块704。

语义学习模块701用于对输入文本进行针对多任务的语义学习，得到针对多任务的语义特征，其中，多任务包括多个分支任务。

特征学习模块702用于基于语义特征分别进行针对各个分支任务的特征学习，得到针对各个分支任务的第一输出结果。

损失计算模块703用于根据针对各个分支任务的第一输出结果，计算针对各个分支任务的损失。

参数调整模块704用于根据针对各个分支任务的损失，调整自然语言处理模型的参数。

根据本公开的实施例，多任务包括用于语义理解的第一分支任务；特征学习模块702包括第一确定单元和第二确定单元。

第一确定单元用于针对输入文本中的每个字，基于语义特征确定位于字之前的上文信息以及位于字之后的下文信息。

第二确定单元用于根据上文信息和下文信息，确定输入文本的语义理解信息，作为针对第一分支任务的第一输出结果。

根据本公开的实施例，特征学习模块702还包括第一计算单元和第三确定单元。

第一计算单元用于根据上文信息和下文信息，计算输入文本中的多个语句之间的逻辑距离，作为针对第一分支任务的第一输出结果。

第三确定单元用于根据上文信息和下文信息，确定输入文本中的多个语句之间的逻辑顺序，作为针对第一分支任务的第一输出结果。

根据本公开的实施例，多任务包括用于语言生成的第二分支任务；特征学习模块702包括第四确定单元和预测单元。

第四确定单元用于针对输入文本中的每个字，基于语义特征确定位于字之前的上文信息。

预测单元用于基于上文信息，预测位于字之后的下文信息，作为针对第二分支任务的第一输出结果。

根据本公开的实施例，该自然语言处理模型的训练装置700还包括确定模块。

确定模块用于基于语义特征分别确定针对各个分支任务的第二输出结果。

根据本公开的实施例，损失计算模块703用于根据针对各个分支任务的第一输出结果和第二输出结果，计算针对各个分支任务的损失。

根据本公开的实施例，多任务包括用于语义理解的第一分支任务；确定模块用于执行以下之一：基于语义特征，确定输入文本的语义理解信息，作为针对第一分支任务的第二输出结果；基于语义特征，计算输入文本中的多个语句之间的逻辑距离，作为针对第一分支任务的第二输出结果；基于语义特征，确定输入文本中的多个语句之间的逻辑顺序，作为针对第一分支任务的第二输出结果。

根据本公开的实施例，多任务包括用于语言生成的第二分支任务，确定模块用于针对输入文本中的每个字，基于语义特征预测字的下文信息，作为针对第二分支任务的第二输出结果。

图8是根据本公开的另一个实施例的自然语言处理装置的框图。

如图8所示，该自然语言处理800可以包括获取模块801和处理模块802。

获取模块801用于获取针对预设分支任务的待处理文本。

处理模块802用于使用自然语言处理模型对待处理文本进行针对多任务的语义学习，得到针对多任务的语义特征，并根据语义特征进行针对预设分支任务的特征学习，得到针对预设分支任务的处理结果。

根据本公开的实施例，多任务包括预设分支任务，自然语言处理模型是利用根据上述自然语言处理模型的训练方法训练的。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如自然语言处理模型的训练方法和/或自然语言处理方法。例如，在一些实施例中，自然语言处理模型的训练方法和/或自然语言处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的自然语言处理模型的训练方法和/或自然语言处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行自然语言处理模型的训练方法和/或自然语言处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种自然语言处理模型的训练方法，其中，所述自然语言处理模型包括统一预训练语言模型和多个分支任务模型；所述方法包括：

将输入文本输入自然语言处理模型中的统一预训练语言模型，以便对所述输入文本进行针对多个分支任务的语义学习，得到针对所述多个分支任务的语义特征，其中，所述统一预训练语言模型是针对所述多个分支任务进行统一训练得到的，所述多个分支任务模型与所述多个分支任务一一对应，所述多个分支任务包括用于语义理解的第一分支任务和用于语言生成的第二分支任务；

将所述语义特征分别输入自然语言处理模型中与各个分支任务对应的分支任务模型，以便基于所述语义特征分别进行针对各个分支任务的特征学习，得到针对各个分支任务的第一输出结果；

根据针对各个分支任务的第一输出结果，计算针对各个分支任务的损失；以及

根据针对各个分支任务的损失，调整所述统一预训练语言模型以及所述各个分支任务模型的参数中的至少之一。

2.根据权利要求1所述的方法，其中，所述基于所述语义特征分别进行针对各个分支任务的特征学习，得到针对各个分支任务的第一输出结果包括：

针对所述输入文本中的每个字，基于所述语义特征确定位于所述字之前的上文信息以及位于所述字之后的下文信息；

根据所述上文信息和下文信息，确定所述输入文本的语义理解信息，作为针对所述第一分支任务的第一输出结果。

3.根据权利要求2所述的方法，还包括：

根据所述上文信息和下文信息，计算所述输入文本中的多个语句之间的逻辑距离，作为针对第一分支任务的第一输出结果。

4.根据权利要求2所述的方法，还包括：

根据所述上文信息和下文信息，确定所述输入文本中的多个语句之间的逻辑顺序，作为针对第一分支任务的第一输出结果。

5.根据权利要求1所述的方法，其中，所述基于所述语义特征分别进行针对各个分支任务的特征学习，得到针对各个分支任务的第一输出结果包括：针对所述输入文本中的每个字，

基于所述语义特征确定位于所述字之前的上文信息；

基于所述上文信息，预测位于所述字之后的下文信息，作为针对第二分支任务的第一输出结果。

6.根据权利要求1所述的方法，还包括：

基于所述语义特征分别确定针对各个分支任务的第二输出结果。

7.根据权利要求6所述的方法，其中，所述根据针对各个分支任务的第一输出结果，计算针对各个分支任务的损失包括：

根据所述针对各个分支任务的第一输出结果和第二输出结果，计算针对各个分支任务的损失。

8.根据权利要求6所述的方法，其中，所述基于所述语义特征分别确定针对各个分支任务的第二输出结果包括以下之一：

基于所述语义特征，确定所述输入文本的语义理解信息，作为针对第一分支任务的第二输出结果；

基于所述语义特征，计算所述输入文本中的多个语句之间的逻辑距离，作为针对第一分支任务的第二输出结果；

基于所述语义特征，确定所述输入文本中的多个语句之间的逻辑顺序，作为针对第一分支任务的第二输出结果。

9.根据权利要求6所述的方法，其中，所述基于所述语义特征分别确定针对各个分支任务的第二输出结果包括：

针对所述输入文本中的每个字，基于所述语义特征预测所述字的下文信息，作为针对第二分支任务的第二输出结果。

10.一种自然语言处理方法，包括：

获取针对预设分支任务的待处理文本；以及

使用自然语言处理模型对所述待处理文本进行针对多个分支任务的语义学习，得到针对所述多个分支任务的语义特征，并根据所述语义特征进行针对所述预设分支任务的特征学习，得到针对所述预设分支任务的处理结果；

其中，所述多个分支任务包括所述预设分支任务，所述自然语言处理模型是利用根据权利要求1至9中任一项所述的方法训练的。

11.一种自然语言处理模型的训练装置，其中，所述自然语言处理模型包括统一预训练语言模型和多个分支任务模型；所述装置包括：

语义学习模块，用于将输入文本输入自然语言处理模型中的统一预训练语言模型，以便对所述输入文本进行针对多个分支任务的语义学习，得到针对所述多个分支任务的语义特征，其中，所述统一预训练语言模型是针对所述多个分支任务进行统一训练得到的，所述多个分支任务模型与所述多个分支任务一一对应，所述多个分支任务包括用于语义理解的第一分支任务和用于语言生成的第二分支任务；

特征学习模块，用于将所述语义特征分别输入自然语言处理模型中与各个分支任务对应的分支任务模型，以便基于所述语义特征分别进行针对各个分支任务的特征学习，得到针对各个分支任务的第一输出结果；

损失计算模块，用于根据针对各个分支任务的第一输出结果，计算针对各个分支任务的损失；以及

参数调整模块，用于根据针对各个分支任务的损失，调整所述统一预训练语言模型以及所述各个分支任务模型的参数中的至少之一。

12.根据权利要求11所述的装置，其中，所述特征学习模块包括：

第一确定单元，用于针对所述输入文本中的每个字，基于所述语义特征确定位于所述字之前的上文信息以及位于所述字之后的下文信息；

第二确定单元，用于根据所述上文信息和下文信息，确定所述输入文本的语义理解信息，作为针对所述第一分支任务的第一输出结果。

13.根据权利要求12所述的装置，所述特征学习模块还包括：

第一计算单元，用于根据所述上文信息和下文信息，计算所述输入文本中的多个语句之间的逻辑距离，作为针对第一分支任务的第一输出结果。

14.根据权利要求12所述的装置，所述特征学习模块还包括：

第三确定单元，用于根据所述上文信息和下文信息，确定所述输入文本中的多个语句之间的逻辑顺序，作为针对第一分支任务的第一输出结果。

15.根据权利要求11所述的装置，其中，所述特征学习模块包括：

第四确定单元，用于针对所述输入文本中的每个字，基于所述语义特征确定位于所述字之前的上文信息；

预测单元，用于基于所述上文信息，预测位于所述字之后的下文信息，作为针对第二分支任务的第一输出结果。

16.根据权利要求11所述的装置，所述装置还包括：

确定模块，用于基于所述语义特征分别确定针对各个分支任务的第二输出结果。

17.根据权利要求16所述的装置，其中，所述损失计算模块用于根据所述针对各个分支任务的第一输出结果和第二输出结果，计算针对各个分支任务的损失。

18.根据权利要求16所述的装置，其中，所述确定模块用于执行以下之一：基于所述语义特征，确定所述输入文本的语义理解信息，作为针对第一分支任务的第二输出结果；基于所述语义特征，计算所述输入文本中的多个语句之间的逻辑距离，作为针对第一分支任务的第二输出结果；基于所述语义特征，确定所述输入文本中的多个语句之间的逻辑顺序，作为针对第一分支任务的第二输出结果。

19.根据权利要求16所述的装置，其中，所述确定模块用于针对所述输入文本中的每个字，基于所述语义特征预测所述字的下文信息，作为针对第二分支任务的第二输出结果。

20.一种自然语言处理装置，包括：

获取模块，用于获取针对预设分支任务的待处理文本；以及

处理模块，用于使用自然语言处理模型对所述待处理文本进行针对多个分支任务的语义学习，得到针对所述多个分支任务的语义特征，并根据所述语义特征进行针对所述预设分支任务的特征学习，得到针对所述预设分支任务的处理结果；

21.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至10中任一项所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至10中任一项所述的方法。

23.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1至10中任一项所述的方法。