CN111652364A

CN111652364A - 训练元学习网络的装置和方法

Info

Publication number: CN111652364A
Application number: CN201910160129.1A
Authority: CN
Inventors: 杨铭; 石自强; 孙俊
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-03-04
Filing date: 2019-03-04
Publication date: 2020-09-11
Also published as: JP2020144849A

Abstract

公开了一种训练元学习网络的装置和方法。训练分类模型的装置包括：获得任务网络实例单元，获得任务神经网络的多个任务网络实例；获得损失单元，获得每个任务网络实例的损失；采样单元，对损失进行采样；计算泛化损失单元，计算反映总体损失的泛化损失；计算梯度单元，计算采样后的多个损失中的每个损失对应的任务网络实例的权重参数的梯度；学习单元，将梯度分别输入到一个元学习网络，获得权重参数的更新量；第一更新单元，基于更新量，更新任务网络实例的权重参数；以及第二更新单元，基于在满足预定条件时的泛化损失，训练元学习网络，其中，基于更新后的元学习网络，迭代地上述单元中的处理，直到满足第一迭代终止条件为止。

Description

训练元学习网络的装置和方法

技术领域

本公开涉及信息处理领域，具体涉及一种训练元学习网络的装置和方法、以及利用训练得到的元学习网络对神经网络进行训练的装置和方法。

背景技术

神经网络得到了学术与工业界的广泛认可。在有时效性和少样本的应用场景下如何有效地学习神经网络的权重参数，尤其成为当前的技术热点。

发明内容

在下文中给出了关于本公开的简要概述，以便提供关于本公开的某些方面的基本理解。但是，应当理解，这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分，也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念，以此作为稍后给出的更详细描述的前序。

鉴于以上问题，本公开的目的是提供能够解决现有技术中的一个或多个缺点的训练元学习网络的装置和方法、以及利用训练得到的元学习网络对神经网络进行训练的装置和方法。

根据本公开的一方面，提供了一种训练元学习网络的装置，包括：获得任务网络实例单元，被配置成针对用于不同任务的多个任务神经网络中的每个任务神经网络，获得该任务神经网络的多个任务网络实例，其中，所述不同任务具有相似性；获得损失单元，被配置成利用训练数据，分别获得每个任务神经网络的每个任务网络实例的损失；采样单元，被配置成对所述损失进行采样从而得到采样后的多个损失；计算泛化损失单元，被配置成基于所述采样后的多个损失，计算反映所述采样后的多个损失的总体损失的泛化损失；计算梯度单元，被配置成计算所述泛化损失相对于所述采样后的多个损失中的每个损失对应的任务网络实例的权重参数的梯度；学习单元，被配置成将所述梯度分别输入到至少一个元学习网络中的一个元学习网络，从而分别获得与所述采样后的多个损失中的每个损失对应的任务网络实例的权重参数的更新量，其中，所述元学习网络是对梯度进行学习的神经网络；第一更新单元，被配置成基于所述更新量，更新与所述采样后的多个损失中的每个损失对应的任务网络实例的权重参数；以及第二更新单元，被配置成在迭代地进行所述获得损失单元、所述采样单元、所述计算泛化损失单元、所述计算梯度单元、所述学习单元以及所述第一更新单元中的处理之后满足预定条件时，基于在满足所述预定条件时的所述泛化损失，使得朝向任务网络实例的损失更小的方向训练所述至少一个元学习网络，从而获得更新后的至少一个元学习网络，其中，基于通过所述第二更新单元更新后的至少一个元学习网络，迭代地进行所述获得损失单元、所述采样单元、所述计算泛化损失单元、所述计算梯度单元、所述学习单元、所述第一更新单元、以及所述第二更新单元中的处理，直到满足第一迭代终止条件为止。

根据本公开的另一方面，提供了一种训练元学习网络的方法，包括：获得任务网络实例步骤，针对用于不同任务的多个任务神经网络中的每个任务神经网络，获得该任务神经网络的多个任务网络实例，其中，所述不同任务具有相似性；获得损失步骤，利用训练数据，分别获得每个任务神经网络的每个任务网络实例的损失；采样步骤，对所述损失进行采样从而得到采样后的多个损失；计算泛化损失步骤，基于所述采样后的多个损失，计算反映所述采样后的多个损失的总体损失的泛化损失；计算梯度步骤，计算所述泛化损失相对于所述采样后的多个损失中的每个损失对应的任务网络实例的权重参数的梯度；学习步骤，将所述梯度分别输入到至少一个元学习网络中的一个元学习网络，从而分别获得与所述采样后的多个损失中的每个损失对应的任务网络实例的权重参数的更新量，其中，所述元学习网络是对梯度进行学习的神经网络；第一更新步骤，基于所述更新量，更新与所述采样后的多个损失中的每个损失对应的任务网络实例的权重参数；以及第二更新步骤，在迭代地进行所述获得损失步骤、所述采样步骤、所述计算泛化损失步骤、所述计算梯度步骤、所述学习步骤以及所述第一更新步骤中的处理之后满足预定条件时，基于在满足所述预定条件时的所述泛化损失，使得朝向任务网络实例的损失更小的方向训练所述至少一个元学习网络，从而获得更新后的至少一个元学习网络，其中，基于通过更新后的至少一个元学习网络，迭代地进行所述获得损失步骤、所述采样步骤、所述计算泛化损失步骤、所述计算梯度步骤、所述学习步骤、所述第一更新步骤、以及所述第二更新步骤中的处理，直到满足第一迭代终止条件为止。

根据本公开的另一方面，提供了一种利用根据上述训练元学习网络的装置而训练得到的元学习网络对神经网络进行训练的装置，包括：第二获得损失单元，被配置成利用训练数据，获得待训练的神经网络的损失；第二计算梯度单元，被配置成计算所述损失相对于所述待训练的神经网络的权重参数的梯度；第二学习单元，被配置成将所述梯度分别输入到在满足所述第一迭代终止条件时获得的经训练的所述至少一个元学习网络中的一个元学习网络，从而获得所述待训练的神经网络的权重参数的更新量；第三更新单元，被配置成基于所述更新量，更新所述待训练的神经网络的权重参数，其中，迭代地进行所述第二获得损失单元、所述第二计算梯度单元、所述第二学习单元以及所述第三更新单元中的处理，直到满足第二迭代终止条件为止。

根据本公开的其它方面，还提供了用于实现上述根据本公开的方法的计算机程序代码和计算机程序产品。

在下面的说明书部分中给出本公开实施例的其它方面，其中，详细说明用于充分地公开本公开实施例的优选实施例，而不对其施加限定。

附图说明

本公开可以通过参考下文中结合附图所给出的详细描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分，用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中：

图1是示出根据本公开实施例的训练元学习网络的装置的功能配置示例的框图；

图2是示出根据本公开实施例的任务神经网络的结构示例的图；

图3是示出根据本公开实施例的训练元学习网络的装置所执行的处理的示例性框架的图；

图4是示出根据本公开实施例的元学习网络所进行的处理的示例图；

图5是示出根据本公开实施例的基于多任务网络实例的梯度信息的元学习网络和传统的基于数据的任务网络对于单个任务的二元损失曲面的俯视图；

图6是示出根据本公开实施例的训练元学习网络的方法的流程示例的流程图；

图7是示出利用经训练的元学习网络对神经网络进行训练的装置的功能配置示例的框图；

图8是示出利用经训练的元学习网络对神经网络进行训练的方法的流程示例的流程图；以及

图9是示出作为本公开实施例中可采用的个人计算机的示例结构的框图。

具体实施方式

在下文中将结合附图对本公开的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本公开，在附图中仅仅示出了与根据本公开的方案密切相关的设备结构和/或处理步骤，而省略了与本公开关系不大的其它细节。

下面结合附图详细说明根据本公开的实施例。

首先，将参照图1描述根据本公开实施例的训练元学习网络的装置100的功能框图。图1是示出根据本公开实施例的训练元学习网络的装置100的功能配置示例的框图。如图1所示，根据本公开实施例的训练元学习网络的装置100包括获得任务网络实例单元102、获得损失单元104、采样单元106、计算泛化损失单元108、计算梯度单元110、学习单元112、第一更新单元114、以及第二更新单元116。

获得任务网络实例单元102可以被配置成针对用于不同任务的多个任务神经网络中的每个任务神经网络，获得该任务神经网络的多个任务网络实例，其中，不同任务具有相似性。

例示而非限制，多个任务神经网络中的一个任务神经网络可以是用于英文识别任务的神经网络，多个任务神经网络中的另一个任务神经网络可以是用于法文识别任务的神经网络，英文识别任务和法文识别任务具有相似性。

例示而非限制，多个任务神经网络中的每个任务神经网络都是用于情感分类的神经网络系统。

例示而非限制，多个任务神经网络中的每个任务神经网络都是用于向用户推荐网站的物品列表的神经网络推荐系统。例如，物品列表可以包括商品列表。

例示而非限制，多个任务神经网络中的每个任务神经网络都是用于向用户推荐影视网站的节目列表的神经网络推荐系统。

另外，例示而非限制，多个任务神经网络中的每个任务神经网络都是用于向用户推荐购物网站的物品列表的神经网络推荐系统。

图2是示出根据本公开实施例的任务神经网络的结构示例的图。

在图2中，Q_1:n-1＝[Q₁,Q₂,…,Q_n-1]为上下文基本单元索引序列，每个Q_i(i＝1,2,…,n-1)代表基本单元的索引号，其中，在任务神经网络是用于向用户推荐购物网站的物品列表的推荐神经网络的情况下，上下文基本单元是所浏览的物品名称。嵌入层将基本单元索引号转换为低维连续非稀疏词向量。循环神经网络(例示而非限制，循环神经网络可以是长短期记忆网络LSTM)以上下文基本单元索引序列对应的词向量序列作为输入，通过循环展开，输出与Q_n-1对应的n-1位置的上下文特征h_n-1，其中，h₀为初始特征。仿射层将h_n-1变换到基本单元词典大小维度的向量O_n-1。其中，当前任务神经网络的权重参数下的O_n-1对应于所推荐的物品，真实下一个基本单元(与Q_n对应的单元)的独热向量对应于真实的浏览物品。

例示而非限制，不同任务具有相似性指的是任务的业务场景相似，例如，不同任务的任务神经网络的输入相似和/或不同任务的任务神经网络的输出相似，或者不同任务的任务神经网络的结构相似。

图3是示出根据本公开实施例的训练元学习网络的装置100所执行的处理的示例性框架的图。

如图3所述，假设存在N个任务，即任务1、任务2、……、任务N。任务1、任务2、……、任务N具有相似性。

针对每个任务神经网络获得多个任务网络实例有效地解决了神经网络的样本少的问题，可以为下面要描述的元学习网络提供更多数量的输入样本。

优选地，获得任务网络实例单元102可以被配置成通过对多个任务神经网络中的每个任务神经网络进行随机初始化，获得每个任务神经网络的多个任务网络实例。

例示而非限制，在任务神经网络是用于向用户推荐购物网站的物品列表的推荐神经网络系统的情况下，每个任务神经网络的多个任务网络实例是推荐神经网络系统的实例。

如图3所示，对用于任务1的神经网络的网络参数进行随机初始化，可获得用于任务1的神经网络的多个任务网络实例；对用于任务2的神经网络的网络参数进行随机初始化，可获得用于任务2的神经网络的多个任务网络实例；以及对用于任务N的神经网络的网络参数进行随机初始化，可获得用于任务N的神经网络的多个任务网络实例。在图3中，为了简单，示出了用于每个任务的神经网络分别具有3个任务网络实例。本领域技术人员可以理解，用于每个任务的神经网络可以具有其他数量的多个任务网络实例。

获得损失单元104可以被配置成利用训练数据，分别获得每个任务神经网络的每个任务网络实例的损失。

例示而非限制，在任务神经网络是用于向用户推荐购物网站的物品列表的推荐神经网络系统的情况下，获得损失单元104可以被配置成获得每个推荐神经网络系统的实例的损失。

作为示例，在获得损失单元104中，利用每个任务神经网络的训练集中的训练数据，采用本领域常用的计算损失的函数例如softmax等，可以分别获得每个任务神经网络的每个任务网络实例的损失。

在用于每个任务的任务神经网络分别具有相同数量的任务网络实例的情况下，所有任务网络实例的损失构成一个损失矩阵，矩阵的列数为任务的个数，行数为任务神经网络的实例个数。

在图3的示例中，由“损失”标注的方块分别表示每个任务网络实例的损失，这些损失构成一个损失矩阵，矩阵的列数为任务的个数N，行数为每个任务神经网络的实例个数3。

采样单元106可以被配置成对损失进行采样从而得到采样后的多个损失。

例示而非限制，在任务神经网络是用于向用户推荐购物网站的物品列表的推荐神经网络系统的情况下，采样单元106可以被配置成对推荐神经网络系统的实例的损失进行采样。

如下文将描述的，将与采样后的多个损失对应的任务网络实例的梯度作为下文将描述的元学习网络的输入，那么，对损失进行采样相当于对作为元学习网络的元信息的梯度进行选择性过滤，会极大地提升元学习网络的鲁棒性。

优选地，采样单元106可以被配置成通过随机选择操作对损失进行采样，从而得到所述采样后的多个损失，其中，采样后的多个损失的数量是由选择操作的保持概率参数控制的。

作为示例，随机选择操作可以是本领域技术人员所公知的dropout操作，采样后的多个损失的数量是由dropout操作的保持概率参数控制的。

通过随机选择操作例如dropout操作对损失进行采样相当于对作为元学习网络的元信息的梯度进行随机选择性过滤，会进一步提升元学习网络的鲁棒性。

在图3中，与标注“随机选择操作”对应的损失的图示中，用灰色方块表示采样后的多个损失，而用白色方块表示没有被采样到(即，没有被选中)的损失。

计算泛化损失单元108可以被配置成基于采样后的多个损失，计算反映采样后的多个损失的总体损失的泛化损失。

例示而非限制，在任务神经网络是用于向用户推荐购物网站的物品列表的推荐神经网络系统的情况下，计算泛化损失单元108可以被配置成计算推荐神经网络系统的实例的采样后的损失的泛化损失。

优选地，计算泛化损失单元108可以进一步被配置成对采样后的多个损失进行平均，并且将平均后的损失作为泛化损失。多个任务网络实例的计算损失的时间长短会有差异。例示而非限制，还可以将计算损失的时间最短的任务网络实例的损失作为泛化损失。本领域技术人员可以理解，还可以将对采样后的多个损失进行其他处理后的结果作为泛化损失，这里不再累述。

计算梯度单元110可以被配置成计算泛化损失相对于采样后的多个损失中的每个损失对应的任务网络实例的权重参数的梯度。

具体地，将泛化损失关于采样后的多个损失中的每个损失对应的任务网络实例的权重参数求偏导的结果作为梯度。

任务网络实例学习过程的本质是任务网络实例的权重参数连续更新从而使泛化损失尽可能小的过程。上述梯度可以用于控制任务网络实例的权重参数更新的方向，此外，上述梯度还可以控制任务网络实例的权重参数更新的幅度。

优选地，计算梯度单元110可以被配置成计算泛化损失相对于采样后的多个损失中的每个损失对应的任务网络实例中的各网络层的权重参数的梯度。

作为示例，任务神经网络可以包括多个网络层(例示而非限制，在任务神经网络为卷积神经网络的情况下，卷积神经网络可以包括多个卷积层、多个全连接层等等)，从而，任务网络实例也相应地包括多个网络层。学习任务网络实例的权重参数就是学习任务网络实例中的每个网络层的权重参数。因此，计算梯度单元110要计算泛化损失相对于采样后的多个损失中的每个损失对应的任务网络实例中的每个网络层的权重参数的梯度。

优选地，计算梯度单元110可以被配置成将针对多个任务神经网络获得的所有任务网络实例当中，除了与采样后的多个损失中的每个损失对应的任务网络实例之外的任务网络实例的各网络层的权重参数的梯度设置为零。

在图3中，与标注“梯度”对应的方块中，灰色的方块表示泛化损失相对于采样后的损失对应的任务网络实例中的某层的权重参数的梯度，将除了与采样后的多个损失中的每个损失对应的任务网络实例之外的任务网络实例的各网络层的权重参数的梯度设置为零，值为零的梯度用白色的方块来表示。

学习单元112可以被配置成将梯度分别输入到至少一个元学习网络中的一个元学习网络，从而分别获得与采样后的多个损失中的每个损失对应的任务网络实例的权重参数的更新量，其中，元学习网络是对梯度进行学习的神经网络。

如上所述，任务网络实例学习过程可以具体化为任务网络实例的各网络层的权重参数连续更新从而使泛化损失尽可能小的过程。

任务网络实例中的一个网络层的权重参数的更新可以描述为：

W_i+1＝W_i+ΔW，其中，W_i是该网络层的更新前的权重参数，W_i+1是该网络层的更新后的权重参数，ΔW是该网络层的权重参数的更新量。

权重参数的更新量ΔW可以表示为：

ΔW＝λ*grad

其中，λ为学习率，用于控制权重参数的更新的幅度，是例如经验值，或者是通过实验确定的参数，grad为泛化损失相对于该网络层的权重参数的梯度，用于控制权重参数更新的方向，此外，grad还可以控制权重参数更新的幅度。通过以上表达式可以发现，更新量ΔW直接影响任务网络实例学习的快慢。

根据本公开实施例的元学习网络是对梯度进行学习的神经网络。将与采样后的多个损失对应的任务网络实例的每个网络层的梯度grad分别输入到元学习网络，元学习网络输出该层的权重参数的更新量ΔW。

优选地，元学习网络基于采样后的多个损失中的每个损失对应的任务网络实例的每个网络层的权重参数的上一次更新的状态，输出该层的权重参数的更新量。

具体地，元学习网络基于采样后的多个损失中的每个损失对应的任务网络实例的每个网络层的权重参数的梯度和该层的权重参数的上一次更新产生的状态向量(初始的状态向量为零向量)，输出该层的权重参数的更新量以及该层的权重参数本次更新产生的状态向量。由此可见，前面的权重参数更新结果会对后面的权重参数更新结果产生影响，因此，权重参数的更新具有后效性。

图4是示出根据本公开实施例的元学习网络所进行的处理的示例图。

在图4中，将采样后的多个损失中的每个损失对应的任务网络实例中的一个网络层的权重参数的梯度grad输入到元学习网络，其中，grad是一个二维矩阵。

在元学习网络中，首先，通过预处理操作将二维矩阵的grad按行方向展开为一维向量的预处理梯度向量。

可以利用循环神经网络来表达权重参数的更新的后效性，如图4所示，存在多个循环神经网络，例如在图4中用“1”、“2”“3”、“4”、“5”、“6”等标注的循环神经网络。在图4中，示出了循环神经网络为长短期记忆网络LSTM，本领域技术人员可以理解，循环神经网络还可以是长短期记忆网络之外的网络。将预处理梯度向量与循环神经网络上一次的状态向量(其对应于上面所述的、任务网络实例的权重参数的上一次更新产生的状态向量，在图4中被标注为“上一次更新产生的状态”中的“上一次更新产生的状态向量”)作为循环神经网络层的输入，输出为一系列的循环神经网络的输出向量(在图4中标注为“LSTM输出向量”)，其中，循环神经网络的状态向量被统一初始化为零向量。其中，预处理梯度向量的每一维共享循环神经网络层的权重参数。需要说明的是，因为同类型的网络层由于尺寸不同会导致循环神经网络内部的输入权重无法共享，为了解决尺寸不同的问题，故在循环神经网络采用了多向量中的每个标量元素进行循环展开和权重共享的策略。无需保存展开过程中的中间状态(例如图4中的斜线小块)，只需保存展开的最后一个位置的状态输出来作为本次更新产生的状态向量(即，图4中的用“本次更新产生的状态”中的“本次更新产生的状态向量”标注的向量)。

接着，通过一个线性变换层将每个循环神经网络的输出向量转换为标量元素,再将所有的标量元素合并为最终输出向量。

最后，通过后处理将最终输出向量转换为与grad尺寸相同的矩阵，作为ΔW。

顺便提及，在图3中，用“上一次更新产生的状态”标注的方块分别表示每个任务网络实例的“上一次更新产生的状态”，此外，在图3中，在“采样后的任务网络实例的上一次更新产生的状态”标注的方块中，灰色的方块表示采样后的每个任务网络实例的上一次更新产生的状态，而白色的方块表示任务网络实例没有被采样到。

第一更新单元114可以被配置成基于更新量，更新与采样后的多个损失中的每个损失对应的任务网络实例的权重参数。

优选地，第一更新单元114可以被配置成基于更新量，更新与采样后的多个损失中的每个损失对应的任务网络实例中的各网络层的权重参数。

第二更新单元116可以被配置成在迭代地进行获得损失单元104、采样单元106、计算泛化损失单元108、计算梯度单元110、学习单元112以及第一更新单元114中的处理之后满足预定条件时，基于在满足所述预定条件时的泛化损失，使得朝向任务网络实例的损失更小的方向训练所述至少一个元学习网络，从而获得更新后的至少一个元学习网络。

具体地，在进行上述迭代处理之前，首先初始化所述至少一个元学习网络的权重参数，作为示例，可以根据经验初始化所述至少一个元学习网络的权重参数，或者可以随机初始化所述至少一个元学习网络的权重参数，或者可以根据本领域技术人员可以想到的其他方法来初始化所述至少一个元学习网络的权重参数。而在迭代地更新任务网络实例的权重参数的过程中，固定所述至少一个元学习网络的权重参数。

作为示例，上述预定条件可以是达到预定迭代次数。作为示例，在迭代地更新任务网络实例的权重参数达到预定迭代次数时，固定所述多个任务网络实例的权重参数，可以通过使得朝向任务网络实例的损失更小的方向训练所述至少一个元学习网络来更新至少一个元学习网络的权重参数。

如上所述，根据本公开实施例的元学习网络是对梯度进行学习的神经网络。如以上所提及的，针对每个任务神经网络获得多个任务网络实例有效地解决了神经网络的样本少的问题，可以为元学习网络提供更多数量的任务网络实例的梯度。通过将这些更多数量的任务网络实例的梯度作为元学习网络的样本数据来对元学习网络进行训练，经训练的元学习网络可以推断任务神经网络的学习更新规律以预测更高效的任务神经网络的权重参数的优化路径并计算出更优的权重参数的更新量ΔW，从而加快学习任务神经网络的速度。此外，对损失进行采样相当于对作为元学习网络的元信息的梯度进行选择性过滤，会极大地提升元学习网络的鲁棒性。

优选地，所述至少一个元学习网络的数量与多个任务神经网络中的网络层的类型的数量相同，并且，将采样后的多个损失中的每个损失对应的任务网络实例的每个网络层的梯度输入到与该层的类型相对应的元学习网络。也就是说，分别采用不同的元学习网络来分别学习任务网络实例中的不同类型的网络层的梯度信息，而采用相同的元学习网络来学习任务网络实例中的相同类型的网络层的梯度信息。例示而非限制，在任务神经网络为卷积神经网络并且卷积神经网络包括多个卷积层和多个全连接层的情况下，采用第一元学习网络来学习与卷积神经网络实例中的所述多个卷积层相关的梯度信息，以及采用不同于第一元学习网络的第二元学习网络来学习与卷积神经网络实例中的所述多个全连接层相关的梯度信息。

图5是示出根据本公开实施例的基于多任务网络实例的梯度信息的元学习网络和传统的基于数据的任务网络对于单个任务的二元损失曲面的俯视图。

在图5中所示的损失曲面中，曲面颜色越深的位置表示损失值越小，每个箭头线段表示单次通过网络层权重参数更新后的损失下降的方向与步长。其中，白色箭头线段构成的路径为传统的基于数据的任务网络的损失下降方式；通过虚线方框包围起来的黑色箭头线段构成的路径为通过根据本公开实施例的基于多任务网络实例的梯度信息的元学习网络的损失下降方式。在传统的基于数据的任务网络中，例如，在利用mini-batch随机梯度下降法的任务网络中，收敛到较小损失的速度往往缓慢。原因主要是：基于局部batch数据上损失得到的更新梯度是有偏的，使得每次参数更新的方向不一定是最优的(可能会走弯路)，一旦前面的更新偏差过大，必然会导致收敛速度慢、不收敛或者收敛到非常不好的局部最小损失的地方。从图5中可以发现，黑色线段到达损失较低点所需的更新次数远远小于基于数据的任务网络的更新次数，从而，根据本公开实施例的基于多任务网络实例的梯度信息的元学习网络可以预测出更高效的任务神经网络的权重参数的优化路径，从而加快学习任务神经网络的速度。

在根据本公开实施例的训练元学习网络的装置100中，基于通过第二更新单元116更新后的至少一个元学习网络，迭代地进行获得损失单元104、采样单元106、计算泛化损失单元108、计算梯度单元110、学习单元112、第一更新单元114、以及第二更新单元116中的处理，直到满足第一迭代终止条件为止。如上所述，更新后的元学习网络可以预测更高效的任务神经网络的权重参数的优化路径并计算出更优的权重参数的更新量ΔW，因此，基于通过第二更新单元116更新后的至少一个元学习网络，再次迭代地更新任务网络实例的权重参数，从而加快学习任务网络实例的速度。重复上述过程，即交替地更新所述多个任务网络实例的权重参数和所述至少一个元学习网络的参数(如上所述，在迭代地更新所述多个任务网络实例的权重参数满足所述预定条件时，更新所述至少一个元学习网络的参数)，直到满足第一迭代终止条件为止。作为示例，第一迭代终止条件可以是达到预定迭代次数、泛化损失收敛、泛化损失下降很小、泛化损失上扬中至少之一。在满足第一迭代终止条件时所得到的元学习网络可以更准确快速地推断新任务神经网络的学习更新规律，从而可以用于指导新任务神经网络的快速学习。

在现有的基于参数更新量估计的元学习网络中，在每个任务下初始化一个任务网络实例，然后通过各个任务实例的参数更新规律来学习元学习网络的参数。但是，每个任务下单一的网络实例会导致任务规律提取不充分，从而诱发在多任务下训练出来的元学习网络对任务网络实例的权重参数的更新量存在指导偏差，即，导致在多任务下训练出来的元学习网络不能准确地预测更优的任务网络实例参数的更新量。例如，在多个任务神经网络是用于向用户推荐购物网站的物品列表的神经网络推荐系统的情况下，可能导致不能准确地为用户推荐当前的购物物品列表。

在根据本公开实施例的训练元学习网络的装置100中，针对每个任务神经网络获得多个任务网络实例有效地解决了神经网络的样本少的问题，可以为元学习网络提供更多数量的任务网络实例的梯度；通过对任务网络实例的损失进行采样来对作为元信息的梯度进行选择性过滤，极大地提升了元学习网络的鲁棒性，并且该元学习网络可以预测更高效的任务神经网络的权重参数的优化路径以及计算当前更优的任务网络实例的权重参数的更新量，从而加快新的任务神经网络的训练速度。例如，在多个任务神经网络是用于向用户推荐购物网站的物品列表的神经网络推荐系统的情况下，可以根据用户的历史浏览记录，快速且准确地为用户推荐当前的购物物品列表。

与上述训练元学习网络的装置实施例相对应地，本公开还提供了以下训练元学习网络的方法的实施例。

图6是示出根据本公开实施例的训练元学习网络的方法500的流程示例的流程图。

如图6所示，根据本公开实施例的训练元学习网络的方法500包括获得任务网络实例步骤S502、获得损失步骤S504、采样步骤S506、计算泛化损失步骤S508、计算梯度步骤S510、学习步骤S512、第一更新步骤S514、以及第二更新步骤S516。

在获得任务网络实例步骤S502中，针对用于不同任务的多个任务神经网络中的每个任务神经网络，获得该任务神经网络的多个任务网络实例，其中，不同任务具有相似性。

有关任务神经网络和任务网络实例的详细描述可参见装置实施例中关于获得任务网络实例单元102的描述，在此不再重复描述。

在获得损失步骤S504中，利用训练数据，分别获得每个任务神经网络的每个任务网络实例的损失。

作为示例，利用每个任务神经网络的训练集中的训练数据，采用本领域常用的计算损失的函数例如softmax等，可以分别获得每个任务神经网络的每个任务网络实例的损失。

在采样步骤S506中，对损失进行采样从而得到采样后的多个损失。

将与采样后的多个损失对应的任务网络实例的梯度作为元学习网络的输入，那么，对损失进行采样相当于对作为元学习网络的元信息的梯度进行选择性过滤，会极大地提升元学习网络的鲁棒性。

优选地，在采样步骤S506中，通过随机选择操作对损失进行采样，从而得到所述采样后的多个损失，其中，采样后的多个损失的数量是由选择操作的保持概率参数控制的。

在计算泛化损失步骤S508中，基于采样后的多个损失，计算反映采样后的多个损失的总体损失的泛化损失。

优选地，在计算泛化损失步骤S508中，对采样后的多个损失进行平均，并且将平均后的损失作为泛化损失。多个任务网络实例的计算损失的时间长短会有差异。例示而非限制，还可以将计算损失的时间最短的任务网络实例的损失作为泛化损失。本领域技术人员可以理解，还可以将对采样后的多个损失进行其他处理后的结果作为泛化损失，这里不再累述。

在计算梯度步骤S510中，计算泛化损失相对于采样后的多个损失中的每个损失对应的任务网络实例的权重参数的梯度。

优选地，在计算梯度步骤S510中，计算泛化损失相对于采样后的多个损失中的每个损失对应的任务网络实例中的各网络层的权重参数的梯度。

作为示例，任务神经网络可以包括多个网络层(例示而非限制，在任务神经网络为卷积神经网络的情况下，卷积神经网络可以包括多个卷积层、多个全连接层等等)，从而，任务网络实例也相应地包括多个网络层。学习任务网络实例的权重参数就是学习任务网络实例中的每个网络层的权重参数。因此，在计算梯度步骤S510中，要计算泛化损失相对于采样后的多个损失中的每个损失对应的任务网络实例中的每个网络层的权重参数的梯度。

优选地，在计算梯度步骤S510中，将针对多个任务神经网络获得的所有任务网络实例当中，除了与采样后的多个损失中的每个损失对应的任务网络实例之外的任务网络实例的各网络层的权重参数的梯度设置为零。

在学习步骤S512中，将梯度分别输入到至少一个元学习网络中的一个元学习网络，从而分别获得与采样后的多个损失中的每个损失对应的任务网络实例的权重参数的更新量，其中，元学习网络是对梯度进行学习的神经网络。

有关元学习网络的详细描述可参见装置实施例中关于学习单元112的描述，在此不再重复描述。

在第一更新步骤S514中，基于更新量，更新与采样后的多个损失中的每个损失对应的任务网络实例的权重参数。

优选地，在第一更新步骤S514中，基于更新量，更新与采样后的多个损失中的每个损失对应的任务网络实例中的各网络层的权重参数。

在第二更新步骤S516中，在迭代地进行获得损失步骤S504、采样步骤S506、计算泛化损失步骤S508、计算梯度步骤S510、学习步骤S512以及第一更新步骤S514中的处理之后满足预定条件时，基于在满足所述预定条件时的泛化损失，使得朝向任务网络实例的损失更小的方向训练所述至少一个元学习网络，从而获得更新后的至少一个元学习网络。

作为示例，上述预定条件可以是达到预定迭代次数。作为示例，在迭代地更新任务网络实例的权重参数达到预定迭代次数时，固定所述多个任务网络实例的参数，可以通过使得朝向任务网络实例的损失更小的方向训练所述至少一个元学习网络来更新至少一个元学习网络的权重参数。

如上所述，根据本公开实施例的元学习网络是对梯度进行学习的神经网络。针对每个任务神经网络获得多个任务网络实例有效地解决了神经网络的样本少的问题，可以为元学习网络提供更多数量的任务网络实例的梯度。通过将这些更多数量的任务网络实例的梯度作为元学习网络的样本数据来对元学习网络进行训练，经训练的元学习网络可以推断任务神经网络的学习更新规律以预测更高效的任务神经网络的权重参数的优化路径并计算出更优的权重参数的更新量，从而加快学习任务神经网络的速度。此外，对损失进行采样相当于对作为元学习网络的元信息的梯度进行选择性过滤，会极大地提升元学习网络的鲁棒性。

优选地，所述至少一个元学习网络的数量与多个任务神经网络中的层的类型的数量相同，并且，将采样后的多个损失中的每个损失对应的任务网络实例的每个网络层的梯度输入到与该层的类型相对应的元学习网络。也就是说，分别采用不同的元学习网络来分别学习任务网络实例中的不同类型的网络层的梯度信息，而采用相同的元学习网络来学习任务网络实例中的相同类型的网络层的梯度信息。

在根据本公开实施例的训练元学习网络的方法500中，基于在第二更新步骤S516中更新后的至少一个元学习网络，迭代地进行获得损失步骤S504、采样步骤S506、计算泛化损失步骤S508、计算梯度步骤S510、学习步骤S512、第一更新步骤S514、以及第二更新步骤S516中的处理，直到满足第一迭代终止条件为止。如上所述，更新后的元学习网络可以预测更高效的任务神经网络的权重参数的优化路径并计算出更优的权重参数的更新量，因此，基于通过在第二更新步骤S516中更新后的至少一个元学习网络，再次迭代地更新任务网络实例的权重参数，从而加快学习任务网络实例的速度。重复上述过程，即交替地更新所述多个任务网络实例的权重参数和所述至少一个元学习网络的参数(如上所述，在迭代地更新所述多个任务网络实例的权重参数满足所述预定条件时，更新所述至少一个元学习网络的参数)，直到满足第一迭代终止条件为止。作为示例，第一迭代终止条件可以是达到预定迭代次数、泛化损失收敛、泛化损失下降很小、泛化损失上扬中至少之一。在满足第一迭代终止条件时所得到的元学习网络可以更准确快速地推断新任务神经网络的学习更新规律，从而可以用于指导新任务神经网络的快速学习。

在根据本公开实施例的训练元学习网络的方法500中，针对每个任务神经网络获得多个任务网络实例有效地解决了神经网络的样本少的问题，可以为元学习网络提供更多数量的任务网络实例的梯度；通过对任务网络实例的损失进行采样来对作为元信息的梯度进行选择性过滤，极大地提升了元学习网络的鲁棒性，并且该元学习网络可以预测更高效的任务神经网络的权重参数的优化路径以及计算当前更优的任务网络实例的权重参数的更新量，从而加快新的任务神经网络的训练速度。例如，在多个任务神经网络是用于向用户推荐购物网站的物品列表的神经网络推荐系统的情况下，可以根据用户的历史浏览记录，快速且准确地为用户推荐当前的购物物品列表。

本公开还提供了一种利用上述训练元学习网络的装置100或训练元学习网络的方法500训练得到的元学习网络对神经网络进行训练的装置。图7是示出利用训练元学习网络的装置100或训练元学习网络的方法500训练得到的元学习网络对神经网络进行训练的装置600的功能配置示例的框图。如图7所示，根据本公开实施例的利用经训练的元学习网络对神经网络进行训练的装置600包括第二获得损失单元602、第二计算梯度单元604、第二学习单元606以及第三更新单元608。

第二获得损失单元602可以被配置成利用训练数据，获得待训练的神经网络的损失。

作为示例，在第二获得损失单元602中，采用本领域常用的计算损失的函数例如softmax等来获得待训练的神经网络的损失。

第二计算梯度单元604可以被配置成计算损失相对于待训练的神经网络的权重参数的梯度。

待训练的神经网络学习过程的本质是待训练的神经网络的权重参数连续更新从而使损失尽可能小的过程。上述梯度可以用于控制待训练的神经网络的权重参数更新的方向，此外，上述梯度还可以控制待训练的神经网络的权重参数更新的幅度。

优选地，第二计算梯度单元604可以被配置成计算损失相对于待训练的神经网络中的各网络层的权重参数的梯度。

作为示例，待训练的神经网络可以包括多个网络层(例示而非限制，在待训练的神经网络为卷积神经网络的情况下，该卷积神经网络可以包括多个卷积层、多个全连接层等等)。学习待训练的神经网络的权重参数就是学习待训练的神经网络中的每个网络层的权重参数。因此，第二计算梯度单元604要计算损失相对于待训练的神经网络中的每个网络层的权重参数的梯度。

第二学习单元606可以被配置成将梯度分别输入到在满足以上所述第一迭代终止条件时获得的经训练的所述至少一个元学习网络中的一个元学习网络，从而获得待训练的神经网络的权重参数的更新量。

参见对根据本公开实施例的训练元学习网络的装置100的描述，根据本公开实施例的元学习网络是对梯度进行学习的神经网络。将与待训练的神经网络的每个网络层的梯度分别输入到元学习网络，元学习网络输出该层的权重参数的更新量。优选地，第二学习单元606可以被配置成将待训练的神经网络中的各网络层的梯度分别输入所述至少一个元学习网络中的、与该层的类型相对应的一个元学习网络，从而获得该层的权重参数的更新量。

参见对根据本公开实施例的训练元学习网络的装置100的描述，元学习网络的数量与神经网络中的层的类型的数量相同。例示而非限制，在待训练的神经网络为卷积神经网络并且该卷积神经网络包括多个卷积层和多个全连接层的情况下，采用第一元学习网络来学习卷积神经网络中的所述多个卷积层的梯度信息，以及采用不同于第一元学习网络的第二元学习网络来学习卷积神经网络中的所述多个全连接层的梯度信息。

第三更新单元608可以被配置成基于更新量，更新待训练的神经网络的权重参数。

优选地，第三更新单元608可以被配置成基于更新量，更新待训练的神经网络中的各网络层的权重参数。

优选地，元学习网络基于待训练的神经网络的各网络层的权重参数的上一次更新的状态，输出该层的权重参数的更新量。

参见对根据本公开实施例的训练元学习网络的装置100的描述，元学习网络基于待训练的神经网络的权重参数的梯度和该层的权重参数的上一次更新产生的状态向量，输出该层的权重参数的更新量以及该层的权重参数本次更新产生的状态向量。

在利用经训练的元学习网络对神经网络进行训练的装置600中，迭代地进行第二获得损失单元602、第二计算梯度单元604、第二学习单元606以及第三更新单元608中的处理，直到满足第二迭代终止条件为止。作为示例，第二迭代终止条件可以是达到预定迭代次数、待训练的神经网络的损失收敛、待训练的神经网络的损失下降很小、待训练的神经网络的损失上扬中至少之一。在满足第二迭代终止条件时，结束对待训练的神经网络的权重参数的训练，得到待训练的神经网络的最终权重参数。

由于根据上述训练元学习网络的装置100或训练元学习网络的方法500而训练得到的元学习网络具有鲁棒性，并且该元学习网络可以预测更高效的任务神经网络的权重参数的优化路径以及计算当前更优的任务网络实例的权重参数的更新量，因此，在本公开实施例的、利用经训练的元学习网络对神经网络进行训练的装置600中，能够准确且快速地训练出性能优良的神经网络。例如，在待训练的神经网络是用于向用户推荐购物网站的物品列表的神经网络推荐系统的情况下，可以根据用户的历史浏览记录，快速且准确地为用户推荐当前的购物物品列表。

与利用上述训练元学习网络的装置100或训练元学习网络的方法500训练得到的元学习网络对神经网络进行训练的装置600实施例相对应地，本公开还提供了利用训练元学习网络的装置100或训练元学习网络的方法500训练得到的元学习网络对神经网络进行训练的方法的实施例。

图8是示出利用经训练的元学习网络对神经网络进行训练的方法700的流程示例的流程图。

如图8所示，根据本公开实施例的利用经训练的元学习网络对神经网络进行训练的方法700包括第二获得损失步骤S702、第二计算梯度步骤S704、第二学习步骤S706以及第三更新步骤S708。

在第二获得损失步骤S702中，可以利用训练数据，获得待训练的神经网络的损失。

作为示例，在第二获得损失步骤S702中，采用本领域常用的计算损失的函数例如softmax等来获得待训练的神经网络的损失。

在第二计算梯度步骤S704中，可以计算损失相对于待训练的神经网络的权重参数的梯度。

优选地，在第二计算梯度步骤S704中，可以计算损失相对于待训练的神经网络中的各网络层的权重参数的梯度。

作为示例，待训练的神经网络可以包括多个网络层(例示而非限制，在待训练的神经网络为卷积神经网络的情况下，该卷积神经网络可以包括多个卷积层、多个全连接层等等)。学习待训练的神经网络的权重参数就是学习待训练的神经网络中的每个网络层的权重参数。因此，在第二计算梯度步骤S704中，要计算损失相对于待训练的神经网络中的每个网络层的权重参数的梯度。

在第二学习步骤S706中，可以将梯度分别输入到在满足以上所述第一迭代终止条件时获得的经训练的所述至少一个元学习网络中的一个元学习网络，从而获得待训练的神经网络的权重参数的更新量。

参见对根据本公开实施例的训练元学习网络的装置100的描述，根据本公开实施例的元学习网络是对梯度进行学习的神经网络。将与待训练的神经网络的每个网络层的梯度分别输入到元学习网络，元学习网络输出该层的权重参数的更新量。

优选地，在第二学习步骤S706中，可以将待训练的神经网络中的各网络层的梯度分别输入所述至少一个元学习网络中的、与该层的类型相对应的一个元学习网络，从而获得该层的权重参数的更新量。

在第三更新步骤S708中，可以基于更新量，更新待训练的神经网络的权重参数。

在利用经训练的元学习网络对神经网络进行训练的方法700中，迭代地进行第二获得损失步骤S702、第二计算梯度步骤S704、第二学习步骤S706以及第三更新步骤S708中的处理，直到满足第二迭代终止条件为止。作为示例，第二迭代终止条件可以是达到预定迭代次数、待训练的神经网络的损失收敛、待训练的神经网络的损失下降很小、待训练的神经网络的损失上扬中至少之一。在满足第二迭代终止条件时，结束对待训练的神经网络的权重参数的训练，得到待训练的神经网络的最终权重参数。

由于根据上述训练元学习网络的装置100或训练元学习网络的方法500而训练得到的元学习网络具有鲁棒性，并且该元学习网络可以预测更高效的任务神经网络的权重参数的优化路径以及计算当前更优的任务网络实例的权重参数的更新量，因此，在本公开实施例的、利用经训练的元学习网络对神经网络进行训练的方法700中，能够准确且快速地训练出性能优良的神经网络。例如，在待训练的神经网络是用于向用户推荐购物网站的物品列表的神经网络推荐系统的情况下，可以根据用户的历史浏览记录，快速且准确地为用户推荐当前的购物物品列表。

应指出，尽管以上描述了根据本公开实施例的训练元学习网络的装置和方法、以及利用根据上述训练元学习网络的装置或方法而训练得到的元学习网络对神经网络进行训练的装置和方法的功能配置以及操作，但是这仅是示例而非限制，并且本领域技术人员可根据本公开的原理对以上实施例进行修改，例如可对各个实施例中的功能模块和操作进行添加、删除或者组合等，并且这样的修改均落入本公开的范围内。

此外，还应指出，这里的方法实施例是与上述装置实施例相对应的，因此在方法实施例中未详细描述的内容可参见装置实施例中相应部分的描述，在此不再重复描述。

此外，本公开还提供了存储介质和程序产品。根据本公开实施例的存储介质和程序产品中的机器可执行的指令可以被配置成执行上述图像处理方法，因此在此未详细描述的内容可参考先前相应部分的描述，在此不再重复进行描述。

相应地，用于承载上述包括机器可执行的指令的程序产品的存储介质也包括在本发明的公开中。该存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

另外，还应该指出的是，上述系列处理和装置也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机，例如图9所示的通用个人计算机800安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等等。

在图9中，中央处理单元(CPU)801根据只读存储器(ROM)802中存储的程序或从存储部分808加载到随机存取存储器(RAM)803的程序执行各种处理。在RAM 803中，也根据需要存储当CPU 801执行各种处理等时所需的数据。

CPU 801、ROM 802和RAM 803经由总线804彼此连接。输入/输出接口805也连接到总线804。

下述部件连接到输入/输出接口805：输入部分806，包括键盘、鼠标等；输出部分807，包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等；存储部分808，包括硬盘等；和通信部分809，包括网络接口卡比如LAN卡、调制解调器等。通信部分809经由网络比如因特网执行通信处理。

根据需要，驱动器810也连接到输入/输出接口805。可拆卸介质811比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器810上，使得从中读出的计算机程序根据需要被安装到存储部分808中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质811安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图8所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质811。可拆卸介质811的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 802、存储部分808中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

以上参照附图描述了本公开的优选实施例，但是本公开当然不限于以上示例。本领域技术人员可在所附权利要求的范围内得到各种变更和修改，并且应理解这些变更和修改自然将落入本公开的技术范围内。

例如，在以上实施例中包括在一个单元中的多个功能可以由分开的装置来实现。替选地，在以上实施例中由多个单元实现的多个功能可分别由分开的装置来实现。另外，以上功能之一可由多个单元来实现。无需说，这样的配置包括在本公开的技术范围内。

在该说明书中，流程图中所描述的步骤不仅包括以所述顺序按时间序列执行的处理，而且包括并行地或单独地而不是必须按时间序列执行的处理。此外，甚至在按时间序列处理的步骤中，无需说，也可以适当地改变该顺序。

另外，根据本公开的技术还可以如下进行配置。

附记1.一种训练元学习网络的装置，包括：

获得任务网络实例单元，被配置成针对用于不同任务的多个任务神经网络中的每个任务神经网络，获得该任务神经网络的多个任务网络实例，其中，所述不同任务具有相似性；

获得损失单元，被配置成利用训练数据，分别获得每个任务神经网络的每个任务网络实例的损失；

采样单元，被配置成对所述损失进行采样从而得到采样后的多个损失；

计算泛化损失单元，被配置成基于所述采样后的多个损失，计算反映所述采样后的多个损失的总体损失的泛化损失；

计算梯度单元，被配置成计算所述泛化损失相对于所述采样后的多个损失中的每个损失对应的任务网络实例的权重参数的梯度；

学习单元，被配置成将所述梯度分别输入到至少一个元学习网络中的一个元学习网络，从而分别获得与所述采样后的多个损失中的每个损失对应的任务网络实例的权重参数的更新量，其中，所述元学习网络是对梯度进行学习的神经网络；

第一更新单元，被配置成基于所述更新量，更新与所述采样后的多个损失中的每个损失对应的任务网络实例的权重参数；以及

第二更新单元，被配置成在迭代地进行所述获得损失单元、所述采样单元、所述计算泛化损失单元、所述计算梯度单元、所述学习单元以及所述第一更新单元中的处理之后满足预定条件时，基于在满足所述预定条件时的所述泛化损失，使得朝向任务网络实例的损失更小的方向训练所述至少一个元学习网络，从而获得更新后的至少一个元学习网络，

其中，基于通过所述第二更新单元更新后的至少一个元学习网络，迭代地进行所述获得损失单元、所述采样单元、所述计算泛化损失单元、所述计算梯度单元、所述学习单元、所述第一更新单元、以及所述第二更新单元中的处理，直到满足第一迭代终止条件为止。

附记2.根据附记1所述的装置，其中，所述任务神经网络是用于向用户推荐购物网站的物品列表的神经网络推荐系统。

附记3.根据附记1所述的装置，

其中，所述获得任务网络实例单元被配置成通过对所述多个任务神经网络中的每个任务神经网络进行随机初始化，获得每个任务神经网络的所述多个任务网络实例。

附记4.根据附记1所述的装置，

所述采样单元被配置成通过随机选择操作对所述损失进行采样，从而得到所述采样后的多个损失，其中，所述采样后的多个损失的数量是由所述选择操作的保持概率参数控制的。

附记5.根据附记1所述的装置，

其中，所述计算泛化损失单元进一步被配置成对所述采样后的多个损失进行平均，并且将平均后的损失作为所述泛化损失。

附记6.根据附记1所述的装置，

其中，所述计算梯度单元被配置成计算所述泛化损失相对于所述采样后的多个损失中的每个损失对应的任务网络实例中的各网络层的权重参数的梯度。

附记7.根据附记6所述的装置，

其中，所述计算梯度单元被配置成将针对所述多个任务神经网络获得的所有任务网络实例当中，除了与所述采样后的多个损失中的每个损失对应的任务网络实例之外的任务网络实例的各网络层的权重参数的梯度设置为零。

附记8.根据附记7所述的装置，

其中，所述元学习网络基于所述采样后的多个损失中的每个损失对应的任务网络实例的每个网络层的权重参数的上一次更新的状态，输出该层的权重参数的更新量。

附记9.根据附记1所述的装置，

其中，所述至少一个元学习网络的数量与所述多个任务神经网络中的层的类型的数量相同，并且，将所述采样后的多个损失中的每个损失对应的任务网络实例的每个网络层的梯度输入到与该层的类型相对应的元学习网络。

附记10.一种训练元学习网络的方法，包括：

获得任务网络实例步骤，针对用于不同任务的多个任务神经网络中的每个任务神经网络，获得该任务神经网络的多个任务网络实例，其中，所述不同任务具有相似性；

获得损失步骤，利用训练数据，分别获得每个任务神经网络的每个任务网络实例的损失；

采样步骤，对所述损失进行采样从而得到采样后的多个损失；

计算泛化损失步骤，基于所述采样后的多个损失，计算反映所述采样后的多个损失的总体损失的泛化损失；

计算梯度步骤，计算所述泛化损失相对于所述采样后的多个损失中的每个损失对应的任务网络实例的权重参数的梯度；

学习步骤，将所述梯度分别输入到至少一个元学习网络中的一个元学习网络，从而分别获得与所述采样后的多个损失中的每个损失对应的任务网络实例的权重参数的更新量，其中，所述元学习网络是对梯度进行学习的神经网络；

第一更新步骤，基于所述更新量，更新与所述采样后的多个损失中的每个损失对应的任务网络实例的权重参数；以及

第二更新步骤，在迭代地进行所述获得损失步骤、所述采样步骤、所述计算泛化损失步骤、所述计算梯度步骤、所述学习步骤以及所述第一更新步骤中的处理之后满足预定条件时，基于在满足所述预定条件时的所述泛化损失，使得朝向任务网络实例的损失更小的方向训练所述至少一个元学习网络，从而获得更新后的至少一个元学习网络，

其中，基于通过更新后的至少一个元学习网络，迭代地进行所述获得损失步骤、所述采样步骤、所述计算泛化损失步骤、所述计算梯度步骤、所述学习步骤、所述第一更新步骤、以及所述第二更新步骤中的处理，直到满足第一迭代终止条件为止。

附记11.根据附记10所述的方法，其中，所述任务神经网络是用于向用户推荐购物网站的物品列表的神经网络推荐系统。

附记12.根据附记10所述的方法，

其中，在所述获得任务网络实例步骤中，通过对所述多个任务神经网络中的每个任务神经网络进行随机初始化，获得每个任务神经网络的所述多个任务网络实例。

附记13.根据附记10所述的方法，

其中，在所述采样单元中，通过随机选择操作对所述损失进行采样，从而得到所述采样后的多个损失，其中，所述采样后的多个损失的数量是由所述选择操作的保持概率参数控制的。

附记14.根据附记10所述的方法，

其中，在所述计算泛化损失步骤中，进一步对所述采样后的多个损失进行平均，并且将平均后的损失作为所述泛化损失。

附记15.根据附记10所述的方法，

其中，在所述计算梯度步骤中，计算所述泛化损失相对于所述采样后的多个损失中的每个损失对应的任务网络实例中的各网络层的权重参数的梯度。

附记16.根据附记15所述的方法，

其中，在所述计算梯度步骤中，将针对所述多个任务神经网络获得的所有任务网络实例当中，除了与所述采样后的多个损失中的每个损失对应的任务网络实例之外的任务网络实例的各网络层的权重参数的梯度设置为零。

附记17.根据附记16所述的方法，

附记18.根据附记10所述的方法，

附记19.一种利用根据附记1至9中任一项所述的训练元学习网络的装置而训练得到的元学习网络对神经网络进行训练的装置，包括：

第二获得损失单元，被配置成利用训练数据，获得待训练的神经网络的损失；

第二计算梯度单元，被配置成计算所述损失相对于所述待训练的神经网络的权重参数的梯度；

第二学习单元，被配置成将所述梯度分别输入到在满足所述第一迭代终止条件时获得的经训练的所述至少一个元学习网络中的一个元学习网络，从而获得所述待训练的神经网络的权重参数的更新量；

第三更新单元，被配置成基于所述更新量，更新所述待训练的神经网络的权重参数，

其中，迭代地进行所述第二获得损失单元、所述第二计算梯度单元、所述第二学习单元以及所述第三更新单元中的处理，直到满足第二迭代终止条件为止。

附记20.根据权利要求19所述的装置，

其中，将所述待训练的神经网络中的各网络层层的梯度输入到所述至少一个元学习网络中的、与该层的类型相对应的元学习网络。

Claims

1.一种训练元学习网络的装置，包括：

2.根据权利要求1所述的装置，其中，所述任务神经网络是用于向用户推荐购物网站的物品列表的神经网络推荐系统。

3.根据权利要求1所述的装置，

4.根据权利要求1所述的装置，

5.根据权利要求1所述的装置，

6.根据权利要求1所述的装置，

7.根据权利要求6所述的装置，

8.根据权利要求7所述的装置，

9.一种训练元学习网络的方法，包括：

10.一种利用根据权利要求1至8中任一项所述的训练元学习网络的装置而训练得到的元学习网络对神经网络进行训练的装置，包括：