CN111324695A

CN111324695A - 一种多任务学习方法及装置

Info

Publication number: CN111324695A
Application number: CN202010081732.3A
Authority: CN
Inventors: 李健铨; 刘小康
Original assignee: Dinfo Beijing Science Development Co ltd
Current assignee: Dinfo Beijing Science Development Co ltd
Priority date: 2020-02-06
Filing date: 2020-02-06
Publication date: 2020-06-23
Anticipated expiration: 2040-02-06
Also published as: CN111324695B

Abstract

本申请提供了一种多任务学习方法及装置，应用于具有不同任务目标的多个自然语言处理模型。首先，将每一所述任务目标相应的样本数据输入至对应的自然语言处理模型中，输出任务目标向量。然后，交互每一所述任务目标向量与其余所述任务目标向量，得到交互后任务目标向量，并根据所述交互后任务目标向量和多标签矩阵计算命中概率。之后根据所述命中概率计算相应所述任务目标对应的单任务损失值，并根据各所述单任务损失值，计算多任务损失值。最后，利用所述多任务损失值调整每一所述自然语言处理模型的参数。可见，本申请所提供的多任务学些方法可以通过同时学习多个任务，起到各任务的特征之间互相参考的效果，从而提高模型的处理精度。

Description

一种多任务学习方法及装置

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种多任务学习方法及装置。

背景技术

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向，它研究如何使计算机既能理解自然语言文本的意义，又能通过自然语言文本来表达给定的意图、思想等，前者称为自然语言理解，后者称为自然语言生成。

无论是对自然语言的理解或是对自然语言的生成，都是通过任务实现的，均可以通过自然语言处理模型来实现，通常，可以按照任务类型将任务划分为词法分析，句子分析，语义分析，信息抽取，高层任务等。其中，由于所有自然语言都具有词法、句法特征，因此对于词法分析，句子分析等任务，无需限定句子领域，故可称作基础任务。而如文本分类、机器翻译、文本摘要、问答系统、对话系统、阅读理解等任务，为直接面向普通用户提供自然语言处理产品服务的系统级任务，并且涉及多个层面的自然语言处理技术，可以称作高层任务。

通常将任务的处理结果称作任务目标，得到任务目标的过程通常通过一个基于机器学习的自然语言处理模型实现。模型的输入为自然语言文本数据，模型的输出即为任务目标。而为了提升通过该模型得到的目标的准确度，需要利用任务目标对应的大量经过标注的样本数据对该模型进行训练，并朝着训练目标不断优化，即可得到一个提升自然语言文本数据处理结果的准确度的优化模型。

通常自然语言处理模型由多个对应完成不同任务的子自然语言处理模型构成，其中，可以将对自然语言不同的处理动作看作一个任务，例如任务可以为词法分析、句子分析、语义分析、信息抽取等。一般的自然语言处理模型的学习过程都是针对单个任务的学习，即通过学习每个子自然语言处理模型，完成对每个子自然语言处理模型的优化，从而实现对整自然语言处理模型的优化。

但是单任务学习可能存在样本数据稀疏和精度不足的问题。这样，就容易导致单任务学习不能取得较好的学习效果。同时，任务与任务之间通常会具有一些相关性，如果忽略这些相关性，会导致学习的过程中丢失一定的数据信息。

发明内容

本申请提供了一种多任务学习方法及装置，以提高自然语言处理模型的处理精度。

第一方面，本申请提供了一种多任务学习方法，应用于具有不同任务目标的多个自然语言处理模型，每一所述自然语言处理模型包括第一子模型、第二子模型、融合模型和解码模型，且每一所述自然语言处理模型的第二子模型相同，所述方法包括：

将每一所述任务目标相应的样本数据输入至对应的自然语言处理模型中，并通过所述第一子模型、所述第二子模型、所述融合模型和所述解码模型输出任务目标向量；

交互每一所述任务目标向量与其余所述任务目标向量，得到每一所述任务目标对应的交互后任务目标向量；

根据所述交互后任务目标向量和多标签矩阵计算命中概率，所述多标签矩阵包括每一所述任务目标相应样本数据的标签信息；

根据所述命中概率计算相应的所述任务目标对应的单任务损失值；

根据各所述单任务损失值，计算多任务损失值；

利用所述多任务损失值调整每一所述自然语言处理模型中所述第一子模型、所述第二子模型、所述融合模型和所述解码模型的参数。

第二方面，本申请提供了一种多任务学习装置，所述装置包括：具有不同任务目标的多个自然语言处理模型，其中，每一所述自然语言处理模型包括第一子模型、第二子模型、融合模型和解码模型，且每一所述自然语言处理模型的第二子模型相同；

输入单元，用于将每一所述任务目标相应的样本数据输入至对应的自然语言处理模型中，并通过所述第一子模型、所述第二子模型、所述融合模型和所述解码模型输出任务目标向量；

交互单元，用于交互每一所述任务目标向量与其余所述任务目标向量，得到每一所述任务目标对应的交互后任务目标向量；

概率计算单元，用于根据所述交互后任务目标向量和多标签矩阵计算命中概率，所述多标签矩阵包括每一所述任务目标相应样本数据的标签信息；

单任务损失值计算单元，用于根据所述命中概率计算相应所述任务目标对应的单任务损失值；

多任务损失值计算单元，用于根据各所述单任务损失值，计算多任务损失值；

参数调整单元，用于利用所述多任务损失值调整每一所述自然语言处理模型中所述第一子模型、所述第二子模型、所述融合模型和所述解码模型的参数。

由以上技术可知，本申请提供了一种多任务学习方法及装置，应用于具有不同任务目标的多个自然语言处理模型，每一所述自然语言处理模型包括第一子模型、第二子模型、融合模型和解码模型，且每一所述自然语言处理模型的第二子模型相同，首先，将每一所述任务目标相应的样本数据输入至对应的自然语言处理模型中，并通过所述第一子模型、所述第二子模型、所述融合模型和所述解码模型输出任务目标向量。然后，交互每一所述任务目标向量与其余所述任务目标向量，得到每一所述任务目标对应的交互后任务目标向量，并根据所述交互后任务目标向量和多标签矩阵计算命中概率。之后根据所述命中概率计算相应所述任务目标对应的单任务损失值，并根据各所述单任务损失值，计算多任务损失值。最后，利用所述多任务损失值调整每一所述自然语言处理模型中所述第一子模型、所述第二子模型、所述融合模型和所述解码模型的参数。可见，本申请所提供的多任务学习方法可以通过同时学习多个任务，起到各任务的特征之间互相参考的效果，从而提高模型的处理精度。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种任务处理方法的流程图；

图2为本申请实施例提供的一种自然语言处理模型的结构示意图；

图3为本申请实施例提供的一种样本数据处理过程示意图；

图4为本申请实施例提供的一种第二子模型的结构示意图；

图5为本申请实施例提供的一种融合模型的工作方法的流程图；

图6为本申请实施例提供的一种私有特征向量交互的方法的流程图；

图7为本申请实施例提供的一种计算命中概率的方法的流程图；

图8为本申请提供的一种提高共享特征向量泛化性的方法的流程图；

图9为本申请实施例提供的一种提升特征间差异化的方法的流程图；

图10为本申请实施例提供的一种多任务学习装置的结构示意图

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

通常自然语言处理模型由多个对应完成不同任务的子自然语言处理模型构成，其中，可以将对自然语言不同的处理动作看作一个任务，例如任务可以为词法分析、句子分析、语义分析、信息抽取等。通常的自然语言处理模型的学习过程都是针对单个任务的学习，即通过学习每个子自然语言处理模型，完成对每个子自然语言处理模型的优化，从而实现对整自然语言处理模型的优化。

为了解决上述问题，本申请实施例提供了一种多任务学习方法及装置。

图1是本申请实施例提供的一种任务处理方法的流程图，如图1所述，所述方法包括：

S1、将每一所述任务目标相应的样本数据输入至对应的自然语言处理模型中，并通过所述第一子模型、所述第二子模型、所述融合模型和所述解码模型输出任务目标向量。

如图2所示，为本申请实施例提供的一种自然语言处理模型的结构示意图，可见，该自然语言处理模型由第一子模型01、第二子模型02、融合模型03和解码模型04构成。通常一个自然语言处理模型对应一个任务目标，具体地，该自然语言处理模型的输入为待处理自然文本数据，输出为任务目标。不同的任务目标需要对应不同的自然语言处理模型，对于本申请所提供的多任务学习装置，其内部需要涉及多个自然语言处理模型，以对应处理不同的任务。

样本数据为经过标注的文本数据，其已经具有既定任务目标，通过对这些样本数据进行学习，可以不断完善各个自然语言处理模型的处理精度。

具体地，如图3所示，为本申请实施例提供的一种样本数据处理过程示意图，所述方法包括：

S101、将每一所述任务目标相应的样本数据分别输入至对应的所述第一子模型和所述第二子模型，以利用所述第一子模型获取所述样本数据的私有特征向量，利用所述第二子模型获取所述样本数据的共享特征向量；

S102、将每一所述任务目标对应的所述私有特征向量和所述共享特征向量共同输入至对应的所述融合模型中，得到融合结果；

S103、将每一所述任务目标的所述融合结果输入至对应的所述解码模型中，输出任务目标向量。

任务与任务目标一一对应，任务与自然语言处理模型一一对应，在一些情况下可以用任务目标来指代任务。不同的任务目标对应不同的样本数据，因此，在学习的过程中，需要样本数据输入对应的自然语言处理模型中。

具体地，由于所有样本数据都具有词法、句法特征，因此对于样本数据的词法分析，句子分析等处理过程，无需限定任务领域，这些处理过程所对应的处理结果为任务的共享特征。而如涉及到任务本身特性的特征，可以认为是任务的私有特征。

以分类任务为例，通常的任务处理模型都是基于任务本身的特征对任务进行分类处理的，因为这些特征是最能够体现任务特点的特征，这些特征可被认为是任务的私有特征，我们可称这些私有特征所在的空间为私有空间。由上文可知，每个任务都有单独的私有空间。但是现实情况下，这些私有空间之间必然有一定的交集。研究表明，将多个任务共同学习可有效提升这些任务完成的效果。而如何有效的建立自然语言模型中各任务的特征空间、设计任务特征空间的交互方式是提升学习效果的关键。因此，本申请实施例利用第一子模型01和第二子模型02分别提取每一任务的私有特征和共享特征。其中，第一子模型01为每个任务独有，第二子模型02为各个任务共用。

其中，第一子模型01可以采用双向的递归神经网络(Bi-LSTM)，用于提取任务中的私有特征向量，LSTM单元的表示公式(1)如下：

其中，t代表时刻，t∈R^d,d代表LSTM的隐藏层个数，R为实数集，i_t,f_t,o_t,c_t,h_t分别代表为t时刻的输入门，遗忘门，输出门，记忆单元和隐藏层状态。为x_t是LSTM每一时刻的输入，W_p和b_p是仿射变换的参数。σ代表sigmoid激活函数，⊙代表矩阵的逐元素乘法。由此，LSTM的每个单元可用公式(2)表示：

h_t＝LSTM(h_t-1,x_t) (2)

其中，公式(2)所表示的LSTM是公式(1)的简写。此处为单向LSTM的定义，双向

LSTM可在此基础上利用公式(3)表示：

其中

代表正向，

代表逆向。在下文中，可以使用Bi-LSTM代表公式(3)。

私有特征向量可用公式(4)表示：

其中，

代表私有特征矩阵，[；]代表矩阵的连接操作，d代表隐藏层个数。

代表t时刻的私有特征向量，T_k代表第k个任务，k代表任务编号，t代表Bi-LSTM的时刻，x代表输入的词向量。

第二子模型02可以选择任一种深度学习神经网络模型，如递归神经网络、卷积神经网络、Attention结构等，用于提取任务中的共享特征。

具体地，如图4所示，为本申请实施例提供的一种第二子模型的结构示意图，可见，第二子模型02可以包含多个具有不同基础任务目标的模块，通常这些模块也是自然语言处理模型，例如第一层为词级模块021、第二层为词组级模块022、第三层为句级模块023。将样本数据按顺序输入不同层级的自然语言处理任务中，样本数据从底层开始逐次进入各个模块中进行词级处理、短语级处理和句级处理，最后连接这三个模块的输出得到共享特征向量。通常，位于下层的模块相较于位于上层的模块对更加基础的任务进行处理，具体地，可以根据所要提取的共享特征向量的实际需求，选择不同的模块来构建第二子模型02。

在具体的任务处理过程中，词级模块021为词性判断任务，即判断每一个输入词语的词性；词组级模块022为区块分析任务，判断所输入的词语是否可以组成一个短语，如“北京”，“大学”可以组成一个名词短语“北京大学”；句级模块023为句法树任务，判断所输入的词语对应句子的句法关系。其中，每一模块的输入数据均来自于位于其下层的模块，例如，词级模块021的输入数据为词嵌入矩阵，词组级模块022的输入数据为经词级模块021处理后的特征矩阵和词嵌入矩阵的级联，句级模块023的输入数据为经词级模块021处理后的特征矩阵和经词组级模块022处理后的特征矩阵和词嵌入矩阵的级联。

可以用公式(5)表示第二子模型02的工作原理：

其中，

代表第n层的共享特征矩阵，n代表层数，[；]代表矩阵的连接操作，

代表t时刻的共享特征向量，T_k代表任务，k代表任务编号，t代表处理模型的时刻，x代表输入的词向量。

这样利用第二子模型02可以提取每一任务的共享特征向量，以供后续任务处理使用。

融合模型03用于将私有特征向量与共享特征向量融合，以将共享特征向量融入到模型的学习的过程中。由于对于不同的任务而言，共享特征向量的各部分所包含特征信息的重要性不尽相同，因此，可以从共享特征向量中抽取出对于学习模型重要的部分，与私有特征向量融合，从而在避免信息丢失的同时，尽可能地避免引入噪声。

具体地，如图5所示，为本申请实施例提供的一种融合模型的工作方法的流程图，所述方法包括：

S111、以每一所述任务目标对应的所述私有特征向量作为待融合私有特征向量，将所述待融合私有特征向量输入所述融合模型中的全连接神经网络层中，得到第一输出结果；

S112、将所述第一输出结果输入所述融合模型中的Softmax层中，得到归一化结果；

S113、将所述归一化结果分别与各所述任务目标对应的共享特征向量相乘，得到第一计算结果；

S114、计算全部所述第一计算结果的加和，得到第二计算结果；

S115、将所述第二计算结果与所述待融合私有特征向量相拼接，得到第一输出结果。

具体实现中，融合模型03包括一全连接神经网络层和一softmax层，其对私有特征向量和共享特征向量的融合过程如下：

首先，获取样本数据在第一子模型01在最后一个时刻的隐状态h作为第一子模型01输出的私有特征向量(第一子模型为Bi-LSTM)；

然后，将私有特征向量输入到全连接神经网络层，得到第一输出结果，并利用softmax层对第一输出结果进行归一化处理，处理过程如公式(6)所示：

g(x)＝softmax(W_gh) (6)

其中，W_g代表全连接神经网络层权重矩阵，g(x)代表归一化处理结果。

其次，使用归一化结果分别与每一个共享特征向量相乘，并计算所有乘积结果的加和，处理过程如公式(7)所示：

公式(7)中，j代表共享特征向量的编号，r代表共享特征向量的数量，f(x)代表第二计算结果。

最后，将第二计算结果与私有特征向量拼接，得到第一输出结果，实现共享特征向量与私有特征向量的融合。

利用解码模型04对第一输出结果进行任务目标向量的预测，得到任务目标向量。

S2、交互每一所述任务目标向量与其余所述任务目标向量，得到每一所述任务目标对应的交互后任务目标向量。

在得到任务目标向量之后，需要通过交互各个任务目标向量，以实现各个任务之间的关联和影响。

由上文可知，除了上文提到的第二子模型02提取的任务共有特征，每个样本数据各自具有的私有特征向量也可能包含可交互部分。例如，三个情感分析任务的多任务学习过程，三个任务对应的样本数据中均包含“精英群体”，但是其在任务1对应的样本数据中和在任务2对应的样本数据中表达褒义，而在任务3对应的样本数据中表达贬义，那么显然任务1、2可将通过各自对应的第一子模型01学习到的积极情感倾向相互传递，而选择不向任务3对应的第一子模型03传递。为了提高模型的处理精度，需要考虑每个任务对应的私有特征向量之间的相互影响。

具体地，如图6所示，为本申请实施例提供的一种私有特征向量交互的方法的流程图，所述方法包括：

S201、以每一所述任务目标向量为作用对象，确定第一待组合向量和第二待组合向量，所述第一待组合向量为所述作用对象中的部分私有特征向量，所述第二待组合向量为全部任务目标向量中与所述作用对象相关联的部分私有特征向量；

S202、拼接所述第一待组合向量和所述第二待组合向量，得到每一所述任务目标向量的交互后任务目标向量。

通过特征组合器将作用对象(任务目标向量)中的第一待组合向量与其它任务目标向量中的第二待组合向量进行组合，得到一个矩阵，即交互后任务目标向量，用于表示在作用对象的处理过程中关联了其它任务。对于其他任务所对应的任务目标向量均采用如上所述的方法，得到各自对应的交互后任务目标向量。其中，特征组合器可以采用门结构。传递信息的多少根据模型学习决定。进一步地，可以根据处理精度需求，调整特征组合器的数量，即调整特征组合的次数。具体地，特征组合器的工作原理可以通过公式(8)表示，

其中，g代表门，T_j、T_k代表任务j、k，l代表特征组合器的层次，

代表T_k任务对应T_j任务的门，即T_k任务的每个词应向T_j任务的每个词传递的信息量。σ为sigmoid激活函数，将值映射到[0,1]区间。

代表T_k任务的第l层私有特征，W和b为全连接神经网络层对应的权重矩阵和偏置向量。⊙表示矩阵的逐元素相乘。

其中，第一待组合向量和第二待组合向量的选取可以根据每个任务对应任务目标的不同，对每个词设定不同的权重，进而根据权重选择。

进一步地，对每一交互后任务目标向量做池化处理，处理过程可由公式(9)表示：

具体的，按照交互后任务目标向量(矩阵)的隐藏单元维度分别求均值和最大值，并将其连接成一个向量。例如特征矩阵维度为[50,300]，其中50代表句子中有50个词语，300代表模型隐藏层维度为300，那么可在50维度取平均值和最大值，分别可以得到两个300维度的向量，将其拼接为一个600维的向量。

S3、根据所述交互后任务目标向量和多标签矩阵计算命中概率，所述多标签矩阵包括每一所述任务目标相应样本数据的标签信息。

学习的目的是为了使模型的实际预测结果(即根据命中概率预测的命中标签)与样本数据对应的真实标签无限的接近。

具体地，如图7所示，为本申请实施例提供的一种计算命中概率的方法的流程图，所述方法包括：

S301、利用所述任务目标预设的偏置矩阵对所述多标签矩阵进行偏置处理，得到偏置处理结果；

S302、将所述交互后任务目标向量与所述偏置处理结果相乘，得到命中概率。

以分类任务为例，多个任务的分类标签之间可能包含着一定的关系，如两个情感分类任务的积极、消极情感应该有着较为类似的含义。标签嵌入(label embedding)可将文本分类的标签转化为语义向量，从而将原始的分类任务转换为向量匹配任务，且由于每个任务目标对应的交互后任务目标向量需要同时与多个任务目标对应的全部标签所形成的标签集合进行匹配，在一定程度上增加了模型分类的难度，使其特征表示更为精确。

因此，本实施例将生成一多标签矩阵，该矩阵大小为

其中d_le为标签嵌入维度，使得多个任务对应的命中过程共享该多标签矩阵，以此增加标签的表达泛化能力。

例如，任务1与任务2均为二分类任务，假设标签嵌入维度为100，将这两个任务的标签转换成多标签矩阵Y_le，采用公式(10)表示：

其中，y代表100维的向量，多标签矩阵Y_le的大小为4×100。本实施例中，标签的表示，不再是没有意义的one-hot向量，而是一个多维向量，多个任务对应的标签向量融合为一个多标签矩阵，因此可以增强标签表示的泛化性，提高任务准确性。

具体地，可以采用命中率计算模型计算命中概率，其中，命中率计算模型可以采用Sigmoid函数，命中率为通过Sigmoid函数处理得到的概率值，概率越大，命中率越大。将交互后任务目标向量输入命中率计模型，以计算该交互后任务目标向量与多标签矩阵中每一标签之间的概率值，即命中概率。

基于此，通过命中率计算模型的处理，各个任务都可以计算与多标签矩阵之间的命中概率，从而消除不同任务所对应标签之间的隔阂。

具体计算过程可以通过公式(11)表示，

其中，

代表标签命中概率，Y_le代表多标签矩阵，

代表交互后任务目标向量，L_le代表多标签嵌入的损失值，

代表任务对应的权重。

S4、根据所述命中概率计算相应的所述任务目标对应的单任务损失值。

具体地，可以利用交叉熵损失函数，计算所述命中概率与所述任务目标对应的所述样本数据的全部标签信息的交叉熵损失值，得到所述任务目标对应的单任务损失值。

这里若任务为分类任务，使用交叉熵损失函数，则任务损失函数的计算方法如公式(12)表示：

其中，

代表任务目标对应的标签命中概率向量，其中每一个值为预测标签每一类的概率，

为上述池化向量，

为真实目标向量，T_k代表任务，

为参数矩阵，

为偏置矩阵，L代表损失值。

若任务为回归任务，替换对应的损失函数即可。

进一步地，如图8所示，为本申请提供的一种提高共享特征向量泛化性的方法的流程图，所述方法包括：

S111、以每一所述任务目标对应的共享特征向量作为目标共享特征向量，利用对抗学习模型计算所述目标共享特征向量与其余所述共享特征向量之间的对抗损失值；

S112、利用所述对抗学习模型降低所述对抗损失值。

多任务学习中，良好的共享特征空间应包含更多公共信息，而不包含特定于任务的私有特征。尽管上述方法可通过第二子模型02抽取共享特征向量，但是这种共享特征向量中仍然可能包含一定的私有特征向量。例如如果任务均为情感分析任务，词语“精英群体”，在特定语境下可能表达褒义也可能表达贬义。若输入的两个任务的样本数据中均有此词语，虽然褒贬含义可能不同，但该词语有可能被放入共享空间，损害模型的效果。对抗学习是一种近期出现的机器学习方法，可以用作衡量分布之间等效性的通用工具。对抗学习首先在多任务学习装置中引入一个对抗学习模型，即一个判别器，判别所输入的共享特征向量属于哪一个任务，然后使第二子模型02对抗性地朝判别器工作，即反向更新从该判别器获得的梯度，降低第二子模型02所提取的共享特征向量的可辨别性，从而阻止它对任务类型做出准确的预测。这种对抗可使得共享特征向量更纯粹，并确保共享特征向量中不会夹杂特定于任务的噪声。

具体地，由第二子模型02提取到的共享特征向量可以连接为一个共享特征矩阵，如公式(13)所示：

首先，可以用公式(14)计算出每一共享特征向量的分类概率，

其中，

代表共享特征的分类概率，

代表共享特征向量组成的矩阵，b_D代表偏置矩阵。

然后，利用公式(15)来提高共享特征向量的对抗损失值：

其中，L_adv代表对抗损失值，λ_adv代表一个预设系数，优选0.05，

代表共享特征的分类概率，

代表任务判别标量，例如k＝1时，d^t1＝1，d^t2＝0；k＝2时，d^t1＝0，d^t2＝1。

进一步地，如图9所示，为本申请实施例提供的一种提升特征间差异化的方法的流程图，所述方法包括：

S121、以每一所述任务目标对应的私有特征向量和共享特征向量作为待处理私有特征向量和待处理共享特征向量，利用差异化学习模型计算所述待处理私有特征向量和所述待处理共享特征向量之间的相似度；

S122、利用所述差异化学习模型降低所述相似度。

如果直接通过第一子模型01提取的特征可能包含部分任务特定信息的冗余，可以在多任务学习模型中引入差异化学习模型，采用差异化处理模型计算私有特征向量与共享特征向量之间的余弦相似度，通过差异化处理模型降低两者之间的余弦相似度，以扩大私有特征向量与共享特征向量之间的差异度，从而去除两者的冗余。具体地，可以利用公式(16)来表达，

其中，L_OC代表差异，λ_OC代表一个预设系数，优选0.05，T_k代表任务，n代表共享特征的层次，S代表共享特征向量，P代表私有特征向量。

S5、根据各所述单任务损失值，计算多任务损失值。

具体地，通过上述过程得到每一任务对应的自然语言处理模型中所涉及到的每个单任务的损失值，可以通过计算每一所述自然语言处理模型对应的全部所述单任务损失值的加和，得到多任务损失值。

具体地，可以根据公式(17)进行计算：

S6、利用所述多任务损失值调整每一所述自然语言处理模型中所述第一子模型、所述第二子模型、所述融合模型和所述解码模型的参数。

自然语言处理模型的参数调整，包括对多个自然语言处理模型所共用的第二子模型02的参数调整，还包括对每一自然语言处理模型的第一子模型01、融合模型03以及解码模型04参数的调整，其调整原理为，根据上述计算所得的多任务损失值确定模型的迭代更新方向和更新量，从而不断优化模型的更新参数。

通过上述学习过程，不断调整自然语言处理模型中的参数，以使自然语言处理模型对待处理文本数据的预测结果与该待处理文本数据对应的真实结果无限的接近，进而提高自然语言处理模型的处理精度。

图10为本申请实施例提供的一种多任务学习装置的结构示意图，所述装置包括：输入单元1，用于将每一所述任务目标相应的样本数据输入至对应的自然语言处理模型中，并通过所述第一子模型、所述第二子模型、所述融合模型和所述解码模型输出任务目标向量；交互单元2，用于交互每一所述任务目标向量与其余所述任务目标向量，得到每一所述任务目标对应的交互后任务目标向量；概率计算单元3，用于根据所述交互后任务目标向量和多标签矩阵计算命中概率，所述多标签矩阵包括每一所述任务目标相应样本数据的标签信息；单任务损失值计算单元4，用于根据所述命中概率计算相应所述任务目标对应的单任务损失值；多任务损失值计算单元5，用于根据各所述单任务损失值，计算多任务损失值；参数调整单元6，用于利用所述多任务损失值调整每一所述自然语言处理模型中所述第一子模型、所述第二子模型、所述融合模型和所述解码模型的参数。

本发明实施例还提供一种可读存储介质，可读存储介质中存储有计算机程序，当消息发送的装置的至少一个处理器执行该计算机程序时，消息发送的装置执行上述实施例任一所述的多任务学习方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于以计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换，而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种多任务学习方法，其特征在于，应用于具有不同任务目标的多个自然语言处理模型，每一所述自然语言处理模型包括第一子模型、第二子模型、融合模型和解码模型，且每一所述自然语言处理模型的第二子模型相同，所述方法包括：

根据各所述单任务损失值，计算多任务损失值；

2.根据权利要求1所述的方法，其特征在于，所述将每一所述任务目标相应的样本数据输入至对应的自然语言处理模型中，并通过所述第一子模型、所述第二子模型、所述融合模型和所述解码模型输出任务目标向量包括：

将每一所述任务目标相应的样本数据分别输入至对应的所述第一子模型和所述第二子模型，以利用所述第一子模型获取所述样本数据的私有特征向量，利用所述第二子模型获取所述样本数据的共享特征向量；

将每一所述任务目标对应的所述私有特征向量和所述共享特征向量共同输入至对应的所述融合模型中，得到融合结果；

将每一所述任务目标的所述融合结果输入至对应的所述解码模型中，输出任务目标向量。

3.根据权利要求1所述的方法，其特征在于，所述交互每一所述任务目标向量与其余所述任务目标向量，得到每一所述任务目标对应的交互后任务目标向量包括：

以每一所述任务目标向量为作用对象，确定第一待组合向量和第二待组合向量，所述第一待组合向量为所述作用对象中的部分私有特征向量，所述第二待组合向量为其余任务目标向量中与所述作用对象相关联的部分私有特征向量；

拼接所述第一待组合向量和所述第二待组合向量，得到每一所述任务目标向量的交互后任务目标向量。

4.根据权利要求1所述的方法，其特征在于，所述根据所述交互后任务目标向量和多标签矩阵计算命中概率包括：

利用所述任务目标预设的偏置矩阵对所述多标签矩阵进行偏置处理，得到偏置处理结果；

将所述交互后任务目标向量与所述偏置处理结果相乘，得到命中概率。

5.根据权利要求1所述的方法，其特征在于，所述根据所述命中概率计算相应所述任务目标对应的单任务损失值包括：

利用交叉熵损失函数，计算所述命中概率与所述任务目标对应的所述样本数据的全部标签信息的交叉熵损失值，得到所述任务目标对应的单任务损失值。

6.根据权利要求1所述的方法，其特征在于，所述根据各所述单任务损失值，计算多任务损失值包括：

计算每一所述自然语言处理模型对应的全部所述单任务损失值的加和，得到多任务损失值。

7.根据权利要求2所述的方法，其特征在于，所述方法还包括：

以每一所述任务目标对应的共享特征向量作为目标共享特征向量，利用对抗学习模型计算所述目标共享特征向量与其余所述共享特征向量之间的对抗损失值；

利用所述对抗学习模型降低所述对抗损失值。

8.根据权利要求2所述的方法，其特征在于，所述方法还包括：

以每一所述任务目标对应的私有特征向量和共享特征向量作为待处理私有特征向量和待处理共享特征向量，利用差异化学习模型计算所述待处理私有特征向量和所述待处理共享特征向量之间的相似度；

利用所述差异化学习模型降低所述相似度。

9.根据权利要求2所述的方法，其特征在于，所述将每一所述任务目标对应的所述私有特征向量和所述共享特征向量共同输入至对应的所述融合模型中，得到融合结果包括：

以每一所述任务目标对应的所述私有特征向量作为待融合私有特征向量，将所述待融合私有特征向量输入所述融合模型中的全连接神经网络层中，得到第一输出结果；

将所述第一输出结果输入所述融合模型中的Softmax层中，得到归一化结果；

将所述归一化结果分别与各所述任务目标对应的共享特征向量相乘，得到第一计算结果；

计算全部所述第一计算结果的加和，得到第二计算结果；

将所述第二计算结果与所述待融合私有特征向量相拼接，得到第一输出结果。

10.一种多任务学习装置，其特征在于，所述装置包括：具有不同任务目标的多个自然语言处理模型，其中，每一所述自然语言处理模型包括第一子模型、第二子模型、融合模型和解码模型，且每一所述自然语言处理模型的第二子模型相同；