CN110892418A

CN110892418A - 多任务神经网络系统

Info

Publication number: CN110892418A
Application number: CN201880028533.7A
Authority: CN
Inventors: 拉兹万·帕什卡努; 拉亚·泰·哈德塞尔; 维克托·康斯坦特·巴波斯特; 沃伊切赫·恰尔内茨基; 詹姆斯·柯克帕特里克; 伊·怀易·泰赫; 尼古拉斯·曼弗雷德·奥托·黑斯
Original assignee: DeepMind Technologies Ltd
Current assignee: DeepMind Technologies Ltd
Priority date: 2017-05-19
Filing date: 2018-05-22
Publication date: 2020-03-17
Also published as: JP2020521205A; US20220083869A1; EP3602412A1; US11983634B2; US11132609B2; US20200090048A1; WO2018211138A8; WO2018211138A1; JP6854921B2

Abstract

提出了一种用于训练诸如多任务神经网络系统等的多任务计算机系统的方法。所述系统包括可训练工作器集合和共享模块。对多个不同任务训练所述可训练工作器和所述共享模块，使得各个工作器学习根据相应的任务策略执行所述任务中的一个对应任务并且使得所述共享策略网络学习表示针对所述任务的共同行为的多任务策略。通过优化目标函数来执行所述协同训练，所述目标函数针对每个任务包括：奖励项，所述奖励项指示工作器在根据所述任务策略执行所述对应任务所获得的期望奖励；以及至少一个熵项，所述至少一个熵项朝着所述多任务策略的分布正则化所述任务策略的分布。

Description

多任务神经网络系统

本申请是2017年5月19日提交的美国临时专利申请第62/508,991号的非临时申请并且要求其优先权，该申请的全部内容以引用的方式并入本文。

背景技术

本说明书涉及训练神经网络以执行多个任务的方法，并且涉及用于执行多个任务的自适应计算机系统，诸如神经网络系统。

神经网络是采用一层或者多层非线性单元针对接收到的输入来预测输出的机器学习模型。一些神经网络是除了输出层之外还包括一个或者多个隐藏层的深度神经网络。各个隐藏层的输出被用作网络中的下一层(即，下一个隐藏层或者输出层)的输入。网络的各个层根据相应参数集的当前值从接收到的输入生成输出。

本文描述的一些技术应用在强化学习领域中。在强化学习系统中，代理通过执行由强化学习系统响应于接收到的表征环境的当前状态的观察结果而选择的动作来与环境交互。一些强化学习系统根据神经网络的输出，响应于接收到给定的观察结果，选择由代理执行的动作。

发明内容

本说明书描述了一种自适应系统，诸如神经网络系统，其被实现为在一个或多个位置处的一个或多个计算机上的用于执行多个不同任务的计算机程序、以及用于训练系统执行这些任务的方法。优选地，任务是相关的，系统的相应部分可以然后学习共享行为和任务特定行为。知识可以在系统的这些部分之间共享。

工作器可以与对应的任务或任务组相关联。与每个任务或任务组相关联的工作器被设置为执行该任务或该任务组。系统可以针对每个任务采用和/或生成至少一个相应的“任务策略”，该“任务策略”指示与该任务相关联的工作器应如何执行该任务。如果每个策略只有一个工作器，则可以将其等效地视为“工作器策略”。如果有与任务中的一个给定任务相关联的多个工作器，则他们可以共享该任务的任务策略(即，该任务策略被用作那些多个工作器中的每个工作器的工作器策略)，或者多个工作器中的每个工作器可以具有作为用于该任务的任务策略的相应的工作器策略。

系统的共享或共同部分可以学习多任务策略。共享部分可以是但不一定是神经网络。

根据策略之间的距离的量度，任务策略可以紧跟着共同的多任务策略；例如，多任务策略可以限定任务策略的质心。任务策略可以但不必使用相应的神经网络来实现。它们可以但不必基本上彼此独立地运行。

在一个示例中，系统可以是强化学习系统的一部分。任务可以包括对作用于一个或多个环境(例如，相同环境或相应环境)上或内的相应代理(“工作器”)的控制。系统可以输出用于选择动作以供代理执行的数据(“动作数据”)。例如，系统可以输入数据以观察或另外接收与环境的状态有关的数据，并且基于观察到的状态可以确定要执行的动作。每个环境可以是真实的或模拟的。可以使用一个或多个任务策略来生成用于选择要执行的动作的数据。每个任务策略可以指定针对观察到的状态要执行的动作，或者可以指定可以从中获取针对观察到的状态要执行的动作作为样本的分布。

尽管系统可以是强化学习系统的一部分，但是它也可以不是。例如，所描述的技术可以例如使用具有卷积的前馈网络来应用于诸如图像或视频识别或分类等任务。通常，系统可以被配置为接收任何种类的数字数据输入，并基于该输入生成任何种类的分值、分类或回归输出。

例如，如果神经网络的输入是图像或已经从图像中提取的特征，则神经网络针对给定图像生成的输出可以是针对一组对象类别中的每个类别的分值，每个分值表示图像包含属于该类别的对象的图像的估计似然。

作为另一个示例，如果神经网络的输入是互联网资源(例如，网页)、文档或文档的一部分或从互联网资源、文档或文档的一部分提取的特征，则由神经网络针对给定互联网资源、文档或文档的一部分生成的输出可以是针对一组主题中的每个主题的分值，每个分值表示互联网资源、文档或文档部分与该主题有关的估计似然。

作为另一示例，如果神经网络的输入是特定广告的印象上下文的特征，则由神经网络生成的输出可以是分值，该分值表示特定广告将被点击的估计似然。

作为另一示例，如果神经网络的输入是针对用户的个性化推荐的特征，例如，表征该推荐的上下文的特征，例如，表征用户所采取的先前动作的特征，则由神经网络生成的输出可以是一组内容项中的每一个内容项的分值，每个分值表示用户将对被推荐的内容项做出有利响应的估计似然。

作为另一示例，如果神经网络的输入是一种语言的文本序列，则神经网络生成的输出可以是用于另一种语言的一组文本中的每一个文本的分值，每个分值表示另一种语言的文本是将输入文本正确翻译成另一种语言的估计似然。

作为另一示例，如果神经网络的输入是表示说出来的话语的序列，则神经网络生成的输出可以是一组文本中的每一个文本的分值，每个分值表示该文本是话语的正确笔录的估计似然。

当用作强化学习系统的一部分时，环境可以是模拟环境，诸如视频游戏，而工作器可以是玩该视频游戏的模拟用户。作为另一示例，模拟环境可以是运动模拟环境，例如驾驶模拟或飞行模拟，并且工作器是在该运动模拟中导航的模拟车辆。在这些实施方式中，动作可以是控制输入以控制模拟用户或模拟车辆。

在一些其他实施方式中，环境是真实世界环境，并且工作器是与真实世界环境交互的机械工作器。例如，工作器可以是与环境交互以完成特定任务的机器人。作为另一个示例，工作器可以是在环境中导航的自动驾驶或半自动驾驶车辆。在这些实施方式中，动作可以是控制输入以控制机器人或自动驾驶车辆。

通常，本说明书中描述的主题的一个创新方面可以体现在训练多任务计算机系统(诸如多任务神经网络系统)的方法中，该系统包括与共享模块(诸如共享策略网络)结合的可训练工作器集合。所述可训练工作器和共享模块可以在多个不同任务上以协同的方式被训练，使得每个工作器学习根据相应的任务策略执行对应的关联任务，并且共享模块学习表示针对任务的共同行为的多任务策略。例如，在培训期间，可以通过共享策略网络和可培训工作器二者传播来自协同培训的培训错误/权重调整。系统可以经由监督或非监督损失例如利用强化学习来学习。可以在工作器的行为上训练系统的共享部分(即，共享模块，例如共享策略网络)，反之亦然。

可以通过优化目标函数来确定传播的错误。目标函数可以包括第一熵项，该第一熵项测量任务策略的分布与多任务策略的分布之间的差异。该项可以包括Kullback-Leibler散度，并且可通过折扣因子进行折扣。目标函数还可以包括第二熵项，该第二熵项取决于任务策略的分布，以鼓励探索。第二熵项也可以通过相同或不同的折扣因子进行折扣。

在强化学习系统中，任务策略分布和多任务策略分布可以包括状态-动作分布。目标函数可包括取决于在状态下采取行动得到的期望奖励的折扣奖励项。这样的强化学习系统可以基于，例如，Deep Q-Network(DQN)、Double-DQN、Advantage Actor Critic(A3C)网络、或其他架构。学习可以是同步的也可以是异步的；例如Hogwild！。可以将算法用于并行随机梯度下降(或上升)学习。

协同训练可以包括在训练一个或多个可训练工作器(即，关联任务的相应任务策略)与训练共享策略网络之间交替。因此，系统可以在学习任务(工作器)策略和提取多任务策略(例如以迭代方式学习)之间交替。备选地，可以联合训练工作器神经网络集合和共享策略网络，即，例如通过使用如上述组合的损失函数，针对工作器(任务)策略和多任务策略一起对其进行优化。可以将单独的网络用于每个工作器(任务)策略，将共享策略网络仅用于多任务策略，或者工作器网络可以限定相对于多任务策略的软优势，其中可以通过可控制的温度值对软优势进行参数化。

通常，协同训练可以包括反向传播，该反向传播包括旨在将来自任务策略的概率与来自多任务策略的概率相匹配以从任务策略提取多任务策略的梯度项。

在另一方面，多任务神经网络系统处理与要执行的多个习得任务中的一个任务有关的输入数据，并提供输出数据以控制该任务的执行。这样的系统可以包括用于接收输入数据的输入和耦合到该输入的工作器集合，每个工作器被配置为通过根据相应任务策略输出动作数据来执行相应的任务。共享策略网络可以耦合到输入和工作器集合中的一个或两个，并且可以限定表示针对任务的共同行为的多任务策略。多任务神经网络系统可以被配置为将针对每个任务的自适应系统的输出与习得多任务策略相结合，以限定针对该任务的任务策略，以使至少一个工作器能够执行对应的习得任务。

工作器(代理)可以包括神经网络；它们可以与共享策略网络共享一些、全部或不共享权重。系统可以具有多列架构，在该多列架构中工作器神经网络模块限定至少一列神经网络层，并且在该多列架构中共享策略网络限定第二列神经网络层。工作器和共享策略网络可以一起限定例如具有卷积的强化学习系统或前馈神经网络。

本说明书中描述的主题可以在特定实施例中实现，以实现以下优点中的一个或多个。这些方法可用于更有效地训练神经网络。例如，网络可以更有效地从转移学习中受益，在转移学习中，可以将针对一个任务的训练用于引导针对另一项相关任务的训练。这可以减少每个任务所需的训练数据总量。这些方法可用于从针对多个不同任务运行的工作器中提取共同行为。而且，这样的系统可以更快地学习并在训练后对任务产生改善的最终执行。它们对于超参数设置可能更稳健。对于每个任务的给定执行，它们总体上也可以具有较少的参数。这些技术通常适用于许多不同的神经网络架构，包括：用于监督学习和非监督学习的架构、用于强化学习的架构以及用于数据分类的架构。

附图说明

图1示意性地示出了多任务自适应计算机系统，诸如多任务神经网络系统。

图2示出了用于执行强化学习的图1所示的多任务自适应计算机系统。

图3示出了由多任务自适应计算机系统执行的方法。

图4示出了用于训练多任务自适应计算机系统的方法。

图5示出了第一多任务神经网络系统的一部分。

图6示出了第二多任务神经网络系统的一部分。

在各个图中，类似的参考符号和指定表示类似的元件。

具体实施方式

该说明书公开了一种多任务自适应计算机系统，诸如多任务神经网络系统。该系统将由配置为执行特定操作或动作的一个或多个计算机实施。每个计算机上都安装了软件、固件、硬件或它们的组合，这些软件、固件、硬件在运行时会使计算机执行该操作或动作。对于将被配置为执行特定操作或动作的一个或多个计算机程序，意味着该一个或多个程序包括指令，该指令在由数据处理设备执行时使该设备执行该操作或动作。

图1提供了多任务自适应计算机系统的高级示意图。仅出于示例的目的，其被示出为用于执行四个任务，但是该系统很容易被推广到任意多个任务。在四个任务的情况下，神经网络系统可以包括四个工作器11、12、13、14，每个工作器用于执行一个相应的任务。在系统的变型中，工作器的数量可以高于任务的数量，使得一个的多个的任务可以与包括多个工作器的相应工作器子集相关联，并且那些任务由关联的工作器集合执行。工作器的子集可以不重叠。

每个工作器产生输出，该输出是其输入的相应函数。该函数取决于工作器正在执行的任务，并被称为相应的任务策略(或者可以称其为工作器策略)。四个工作器的相应的任务策略分别用π₁，π₂，π₃和π₄表示。每个策略可能都不是确定性的。换句话说，它可以是来自由相应策略限定的概率分布的样本，该概率分布指定了工作器的所有可能输出的相应概率。

另外，多任务自适应计算机系统包括共享模块15，该共享模块15存储被表示为π₀的“多任务策略”，这也是从其输入生成至少一个输出的函数。同样，可选地，函数可以是随机的；也就是说，它可以是来自由多任务策略限定的概率分布的样本。共享模块15可以被实现为神经网络，在此被称为“共享策略网络”。

任务策略π₁，π₂，π₃和π₄以及多任务策略π₀是在以下所述的协同训练过程中一起生成的。在该训练期间，每个工作器学习根据相应的任务策略执行一个相应的任务，并且共享策略网络学习多任务策略π₀。具体而言，在协同训练过程中，多任务策略π₀适于从任务特定任务策略π₁，π₂，π₃和π₄“提取”共同的行为或表示。同时，多任务策略π₀用于“正则化”任务策略π₁，π₂，π₃和π₄，使得任务策略不会过度偏离多任务策略。如下面更详细解释的，正则化可以基于Kullback-Leibler(KL)散度。这样，一个任务中获得的知识被提取到共享策略中，然后转移到其他任务中。

在一个示例中，由相应工作器执行的任务正在生成将由作用于一个或多个环境上或内的各个代理执行的动作。例如，每个代理可以作用于相同的环境上或内，这在下面进行了假设。在一种变型中，可以存在多种环境，并且对应的一个或多个代理可以作用于每个环境上或内；根据某种标准，这些环境通常彼此相似。

为了与环境交互，计算机系统接收表征环境的当前状态的数据(“状态数据”)，并且响应于接收到的数据使每个代理执行相应的动作a，其是由A表示的动作空间(即，离散动作空间或连续动作空间)的元素。在本说明书中，将表征环境的状态的数据称为观察结果。通过用t表示多次中的每一次，状态数据可以表示为s_t，并且指示在时间t时的(对应)环境的状态。状态数据的所有可能实现的集合用S表示。因此，s_t∈S。

图2中示出了这种情况的示例，在该示例中，为简单起见，示出了单个计算机2。计算机2实现图1所示的多任务自适应计算机系统。这四个任务是控制作用于环境20上或内的四个相应的代理21、22、23、24。

图3示出了由图1的多任务计算机系统执行的方法300。在时间t，计算机1从环境20接收状态数据s_t(步骤1)。整数索引i用于标记任务(因此，i采用值1、2、3或4中的一个)。由于在此示例中任务的数量等于工作器的数量，因此索引i也可以视为对工作器进行标记。

在步骤302中，图1的多任务计算机系统的四个工作器生成相应的动作数据。动作数据针对代理21、22、23、24中的每一个指定了相应的动作a_t，该动作是A的相应元素。

在步骤303中，计算机2将动作数据发送到相应的代理21、22、23、24。

在步骤304中，一旦代理21、22、23、24已经在环境20上执行了相应的动作a_t，则多任务计算机系统接收指定每个任务的奖励{R_i(a_t，S_t)}的奖励数据。这些可以从环境20传输到计算机2，或者可以由单独的模块(未示出)计算。

在步骤305中，更新每个代理的策略和多任务策略。

在步骤306中，确定是否满足终止标准。如果是，则该方法终止(步骤307)。如果否，则该方法返回到步骤301，等待下一个状态数据。索引t更新为t+1。

图2的情况可以从几个方面进行改变。首先，计算机2可以由协同工作以实现多任务自适应计算机系统的多个计算机代替。

在一些实施方式中，存在多个环境，一个的多个代理作用于每个环境中。

在一些实施方式中，环境是(例如，由计算机2模拟的)模拟环境，并且每个代理被实现为与模拟环境交互的一个或多个计算机。例如，模拟环境可以是视频游戏，而代理可以是玩该视频游戏的模拟用户。

在其他实施方式中，环境是真实世界环境，而代理是与真实世界环境交互的机械代理。例如，代理可以是与环境交互以完成特定任务的机器人，也可以是在环境中导航的自动驾驶或半自动驾驶车辆。在这些情况下，观察结果可以是当代理与环境交互时由代理的一个或多个传感器(例如照相机、LIDAR传感器、温度传感器等)捕获的数据。

系统的优势在于，每个代理(诸如机器人、自动驾驶或半自动驾驶车辆)可以改善其与模拟或真实世界环境的交互。

现在将从数学层面上解释训练过程。任务的数量表示为n，即索引i＝1,…,n。为简单起见，我们假设每个任务都有无限视野，并且每个任务都具有相同的折扣因子γ。该方法可以很容易地推广到其他场景，比如无折扣有限视野。为简单起见，我们还将假设动作空间A和状态空间S对于所有任务都是相同的。给定的动作用a表示，其中a∈A。针对每个任务i，过渡动态p_i(s′|s，a)和奖励函数R_i(a，s)不同。

我们进一步假设单个相应的工作器与每个任务相关联，并且令π_i成为相应第i个任务的任务特定随机任务策略。(由于每个任务只有一个工作器，因此任务策略可以等效地视为工作器策略。)动态和策略产生从某个初始状态开始在状态和动作轨迹上的联合分布，我们也将这些分布表示为π_i。神经网络系统还存储“多任务策略”π₀。多任务策略π₀将捕获任务间共同的代理行为。

任务策略和多任务策略是通过优化目标函数在协同培训过程中一起生成的，该目标函数包括表示预期收益的项和提供策略正则化的一个或多个正则化项。第一个正则化项确保将每个任务策略π_i朝多任务策略进行正则化，并且可以使用折扣KL散度

限定。另一个正则化项基于折扣熵，以进一步鼓励探索。

具体来说，要最大化的目标函数是：

其中c_KL和c_Ent是大于零的标量因子，这些因子决定KL和熵正则化的强度，α≡c_KL/(c_KL+c_Ent)和β≡1/(c_KL+c_Ent)。logπ₀(a_t|s_t)项可以看作是奖励设计项，其鼓励多任务策略下具有较高概率的动作，而熵项-logπ_i(a_t|s_t)鼓励探索。上面我们对所有任务使用相同的正则化成本c_KL和c_Ent。然而，很容易将其推广到任务特定成本。如果任务的奖励规模和所需的探索量相差很大，这会很重要，尽管它确实引入了其他超参数。

可以应用文献中的一系列优化技术来最大化上述目标函数(1)。现在，我们提出两种这样的方法。第一种是基于已发布的称为软Q学习和提取的技术。我们将以表格形式表示的简单情况开始，即，对于a和s的值的某些组合以及在给定π₀下对π_i进行优化和在给定π_i下对π₀进行优化的交替最大化过程，表或其他适当的数据结构包含π₀和π₁的显式值的情况。

在图4中示出了该训练过程400。在步骤401中，设置多任务策略π₀的初始估计(例如，所有动作均等地可能)。

在步骤401中，修改π_i，使π₀固定。通过使π₀固定，(1)分解为每个任务的单独最大化问题，并且是熵正则化的期望收益，具有重新限定(正则化)的奖励

可以使用软Q学习(也称为G学习)对其进行优化，该软Q学习基于得到以下对状态和动作值的“软化”Bellman更新(例如，参见J.Schulman、P.Abbeel和X.Chen的“Equivalence between policy gradients and softQ-Learning”，arXiv:1704.06440,2017)：

Bellman更新从如下意义上来说被软化了：在状态值V_i下针对动作通常最大的算子被逆温下的软性最大值代替，该软性最大值变硬成了最大算子：β→∞。最佳策略π_i因此是逆温β时的Boltzmann策略：

其中，A_i(a，s)＝Q_i(a，s)-V_i(s_t)是软化的优势函数。注意，软化的状态值V_i(s)在上面充当对数规则化器。多任务策略π₀可以解释为策略先验，这是文献中关于RL的概率推断的一种观点。然而，与以往的研究不同，它被提高到α≤1的幂。这软化了先验π₀对的影响，并且是超出KL散度的附加熵正则化的结果。

在步骤403中，假定每个修改的任务策略π_i，对多任务策略π₀进行修改。因此，神经网络系统将学习π₀，而不是像某些早期的多任务学习技术(通常作为动作间的均匀分布)那样预先设置π₀。(1)中取决于π₀的唯一项是：

这只是将模型π₀拟合为γ折扣状态-动作分布的混合物的对数似然，在策略π_i下，每个任务i都有一个对数似然。最大似然(ML)估计值可以从每个任务转出时的状态-动作访问频率中得出，而最佳ML解则由状态-条件动作分布的混合给出。可替代地，在非表格的情况下，可以采用随机梯度上升，这恰好导致将任务策略π_i提取为π₀的更新。但是请注意，提取步骤自然是根据策略中的KL正则化目标得出的。与以前对在深度学习中使用提取的研究的另一个不同之处在于，多任务策略在下一次优化时会被“反馈”以改进任务策略，并充当管道，在该管道中，在任务策略间共享普通的且可转移的知识。

在步骤404中，确定是否满足终止标准。如果不满足，则方法400返回到步骤402。如果满足，则方法在步骤405中终止。

考虑额外的熵正则化的影响。首先，假设没有额外的熵正则化，即α＝1，并考虑仅n＝1个任务的简单情况。然后，当多任务策略π₀和任务策略π_i相等且KL正则项为0时，将(5)最大化。因此，目标函数减小为未正则化的期望收益，因此任务策略π_i收敛为局部最大化预期收益的贪婪策略。从另一个角度来看，交替最大化方案等效于信任域方法，例如自然梯度或TRPO，这些方法使用以先前策略为中心的KL球，并被认为是收敛为贪婪策略。

如果α＜1，则在(1)中存在一个附加的熵项。因此，即使在π₀＝π_i和KL(π₁||π₀)的情况下，贪婪策略也不会使目标(1)最大化。取而代之的是，(1)利用熵正则化因子β′＝β/(1-α)＝1/c_Ent减小到熵正则化的期望收益，使得最佳策略是具有逆温β的Boltzmann形式。总之，额外的熵项保证了任务策略不会变得贪婪，并且我们可以通过适当地调整c_Ent来控制探索量。

当有多个任务时，这种对探索量的额外控制非常有价值。考虑如下情况：其中一个任务更容易完成并首先得到解决，而其他任务更难，且奖励少得多。如果没有熵项，并且在遇到其他任务的奖励之前，多任务策略和所有任务策略都可以收敛为解决该简单任务的策略。此外，由于该策略是贪婪的，因此它可能无法充分地探索其他任务甚至遇到奖励，从而产生次佳的行为。

使目标函数最小化的第二种方法是基于策略梯度和更好参数化的使用。第一种方法中的算法在多任务策略π₀和任务策略π_i的最大化之间交替，并且使人联想到用于学习潜变量模型的EM算法，其中π₀起到参数的作用，而π_i起到潜变量的后验分布的作用。然而，超出表格的情况，如果都使用例如深度神经网络来实现π₀和π_i，则这种交替最大化过程可能会比通过随机梯度上升相对于任务策略和多任务策略共同优化(1)要慢。在这种情况下，仅通过带有熵正则化的策略梯度来给出π_i的梯度更新，并且可以在诸如优势动作-评价等框架内进行。

我们将神经网络执行的函数与策略π₀和π_i之间的关系称为“参数化”。

一种简单的策略参数化方法是使用带有参数θ_i的相应神经网络(“任务网络”，如果每个任务有一个工作器，则等效地称为“工作器网络”)来实现每个任务策略π_i，从而使网络执行的函数

等于π_i。另一个神经网络(“共享策略网络”)用于实现多任务策略π₀，其中策略网络π₀所执行的函数等于π₀。在图5中示意性地示出了该参数化，其中共享策略网络被表示为50，并且其中一个任务网络被表示为5i。策略网络50实施策略π₀。每个任务网络5i运行以实现相应的策略π_i。网络50和5i之间的唯一交互是在训练过程中，而不是在使用多任务神经网络系统执行任务时。网络50和5i经由KL正则化交互。然而，目标函数的奖励项导致任务网络50i从策略网络50发散以增加预期奖励。目标函数的熵项使网络50和5i有进一步发散的趋势。

通过考虑最佳Boltzmann策略(4)的形式，可以获得可能会产生更快传输的替代参数化。具体来说，神经网络系统可以使用具有以下参数的策略网络来参数化多任务策略：

并使用执行函数

的具有参数θ_i的另一相应网络(“任务网络”，或者如果每个任务有一个工作器，等效地称为“工作器网络”)估计每个任务i的软优势：

公式(6)和(7)使用“帽子”符号表示对应数量的参数化近似值。然后，任务i的策略被参数化为：

注意，不是使用公式(7)来获得优势估计，而是神经网络系统可以使用(8)来对通过策略梯度优化的策略进行参数化。

在图6中示意性地说明了这种情况，其中策略网络表示为60，第i个任务网络表示为6i。共享策略网络60实施策略π₀。与图5相比，在图6中，策略网络60和每个任务网络6i一起运行以产生相应的策略π_i。这可以看作是该策略的两列架构，其中一列是多任务策略，另一列是专门针对任务i所需的调整。在训练和操作期间，网络60和6i之间都有交互。在培训期间，这是通过KL正则化实现的。然而，目标函数的奖励项导致任务网络60i从策略网络60发散以增加预期奖励。目标函数的熵项使网络60和60i有进一步发散的趋势。

假定以上参数的情况下，我们现在可以得出策略梯度。关于任务特定参数θ_i的梯度由标准策略梯度定理给出：

其中，

是正则化的奖励。注意，由于对数导数技巧，被积分函数中的熵的偏导数具有期望

如果估计了基线值，则可以将其作为控制变量从正则化收益中减去。相对于θ₀的梯度为：

注意，第一项与θ_i的策略梯度相同。第二项试图匹配任务策略

下的概率和多任务策略

下的概率。如果系统使用相同的架构

参数化π_i，但不对该策略使用KL正则化，则第二项不存在。KL正则化的存在使多任务策略学习成为所有任务策略的质心(从某种意义上说，如果

则第二项为零)，并且有助于在任务之间以及向新任务快速传输信息。在我们的实验中，我们发现缺少KL正则化会显着影响算法的稳定性。除了KL正则化之外，熵正则化的存在还允许单独控制传输量和探索量。

我们刚刚描述的框架允许许多可能的算法实例化，作为目标、算法和架构的组合而产生，我们将在下面描述和总结这些组合。

首先，考虑KL散度与熵正则化之间的权衡。在α＝0的情况下，多任务神经网络系统具有纯熵正则化的目标函数，该函数不在任务之间耦合和传输。在α＝1的情况下，多任务神经网络系统具有纯KL正则化的目标函数，该函数确实在任务之间耦合和传输，但是如果多任务策略和任务策略变得相似且贪婪，则其可能会过早地停止探索。在0＞α＞1的情况下，多任务神经网络系统具有包括两个项的目标函数。

其次，将替代优化(如图4所示)与联合优化进行比较。交替优化产生类似于策略提取/演员模仿的算法，但是本质上是利用反馈到任务策略优化中的多任务策略迭代。同样，可以将软Q学习应用于每个任务，而不是策略梯度。虽然交替优化可能较慢，但是从策略提取/演员模仿系统的经验中得出的证据表明，它可能会更稳定地学习，尤其是对于明显不同的任务。

第三，将单独的参数化(如图5所示)与两个两列参数化(如图6所示)进行比较。在两列情况下(在这种情况下，每个任务策略都被参数化为使用多任务策略)，提取到多任务策略中的行为“立即可用于”任务策略，因此传输可以更快。然而，如果传输过程发生得太快，则可能无法有效地探索每个任务。

本说明书在系统和计算机程序组件中使用了术语“配置”。对于一个或多个要配置为执行特定操作或动作的计算机的系统，意味着该系统已在其上安装了软件、固件、硬件或它们的组合，这些软件、固件、硬件或它们的组合在运行时会使系统执行这些操作或动作。对于一个或多个要配置为执行特定操作或动作的计算机程序，意味着该一个或多个程序包括指令，该指令在由数据处理设备执行时使该设备执行这些操作或动作。

可以在数字电子电路系统中、在有形地体现的计算机软件或者固件中、在计算机硬件中(包括本说明书所公开的结构及其结构等效物)、或者它们中的一个或者多个的组合中实施本说明书中描述的主题的实施例和功能操作。可以将本说明书中描述的主题的实施例实施为一个或者多个计算机程序，即，编码在有形的非暂时性程序载体上以由数据处理设备执行或者以控制该数据处理设备的操作的计算机程序指令的一个或者多个模块。可替代地或者另外，程序指令可以编码在人工生成的传播信号上，例如，机器生成的电气、光学、或者电磁信号，生成该信号是为了对信息进行编码以便传输至合适的接收器设备供数据处理设备执行。计算机存储介质可以是机器可读存储装置、机器可读存储基板、随机或者串行存取存储器装置、或者它们中的一个或者多个的组合。然而，计算机存储介质不是被传播的信号。

术语“数据处理设备”囊括了用于处理数据的所有设备、装置和机器，包括：举例说明，可编程处理器、计算机、或者多个处理器或者计算机。该设备可以包括专用逻辑电路，例如，FPGA(现场可编程门阵列)或者ASIC(专用集成电路)。除了硬件之外，该设备还可以包括为探讨中的计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统、或者它们中的一个或者多个的组合的代码。

可以以任何形式的编程语言来编写计算机程序(也可以称为或者描述为程序、软件、软件应用、模块、软件模块、脚本、或者代码)，包括编译语言或者解译语言、宣告式语言或者程序式语言，并且可以以任何形式来部署计算机程序，包括部署为独立的程序或者部署为模块、组件、子例程、或者适合在计算环境中使用的其它单元。计算机程序可以但不需要与文件系统中的文件对应。可以将程序存储在保持其它程序或者数据(例如，存储在标记语言文档中的一个或者多个脚本)的文件的一部分中，或者存储在专用于所探讨中的程序的单个文件中，或者存储在多个协作文件(例如，存储一个或者多个模块、子程序、或者部分代码的文件)中。可以将计算机程序部署为在一个计算机上执行或者在位于一个站点处或者分布在多个站点中并且通过通信网络互相连接的多个计算机上执行。

如本说明书中使用的，“引擎”或者“软件引擎”指提供与输入不同的输出的软件实施的输入/输出系统。引擎可以是功能的编码块，诸如，库、平台、软件开发工具包(SDK)、或者对象。各个引擎可以被实施在包括一个或者多个处理器和计算机可读介质的任何恰当类型的计算装置上，例如，服务器、移动电话、平板计算机、笔记本计算机、音乐播放器、电子书阅读器、膝上型或者台式计算机、PDA、智能电话、或者其它固定的或者便携式装置。另外，其中两个或者更多个引擎可以被实施在相同的计算装置上或者实施在不同的计算装置上。

可以由执行一个或者多个计算机程序的一个或者多个可编程计算机来执行本说明书中描述的过程和逻辑流以通过对输入数据进行操作并且生成输出来执行功能。还可以由专用逻辑电路(例如，FPGA(现场编程门阵列)或者ASIC(专用集成电路))来执行过程和逻辑流，并且还可以将设备实施为专用逻辑电路(例如，FPGA(现场编程门阵列)或者ASIC(专用集成电路))。例如，过程和逻辑流程可以由图形处理单元(GPU)执行并且设备也可以被实现为图形处理单元(GPU)。

适合执行计算机程序的计算机包括，例如，可以基于通用微处理器或者专用微处理器或者两者、或者任何其它类型的中央处理单元。通常，中央处理单元会接收来自只读存储器或者随机存取存储器或者两者的指令和数据。计算机的必要元件是用于进行或者执行指令的中央处理单元、和用于存储指令和数据的一个或者多个存储器装置。通常，计算机还将包括用于存储数据的一个或者多个海量存储装置(例如，磁盘、磁光盘、或者光盘)，或者计算机可以操作地耦合以接收来自该海量存储装置的数据或者将数据传输至该海量存储装置或者进行两者。然而，计算机不需要具有这种装置。此外，计算机可以嵌入在另一装置中，例如，移动电话、个人数字助理(PDA)、移动音频或者视频播放器、游戏机、全球定位系统(GPS)接收器、或者便携式存储装置(例如，通用串行总线(USB)闪存驱动)，仅举数例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器装置，包括：例如，半导体存储器装置(例如，EPROM、EEPROM、和闪速存储器装置)、磁盘(例如，内部硬盘或者可移动盘)、磁光盘、CD-ROM盘和DVD-ROM盘。处理器和存储器可以由专用逻辑电路系统补充或者可以并入该专用逻辑电路系统中。

为了提供与用户的交互，可以在计算机上实施本说明书中描述的主题的实施例，该计算机具有：用于向用户显示信息的显示装置，例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器；以及键盘和指向装置，例如，鼠标或者轨迹球，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈，例如，视觉反馈、听觉反馈或者触觉反馈；并且可以用任何形式(包括声输入、语音输入或者触觉输入)来接收来自用户的输入。另外，计算机可以通过将文档发送至用户所使用的装置并且接收来自该装置的文档(例如，通过响应于从网络浏览器接收的请求来将网页发送至在用户的用户装置上的网络浏览器)来与用户进行交互。

在本说明书中描述的主题的实施例可以实施在计算系统中，该计算系统包括后端部件(例如，作为数据处理器)、或者包括中间件部件(例如，应用服务器)、或者包括前端部件(例如，具有图形用户接口或者网络浏览器的客户端计算机，通过该网络浏览器，用户可以与本说明书中描述的主题的实施方式互动)、或者这种后端部件、中间件部件、或者前端部件的任何组合。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)，例如互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

虽然本说明书包含了许多具体实施细节，但是不应该将这些细节视为对任何发明或者可能被要求的内容的范围的限制，而是作为可以针对特定发明的特定实施例的特征的描述。在本说明书中在单独实施例的背景下描述的某些特征还可以组合地实施在单个实施例中。相反，在单个实施例的背景中描述的各种特征也可以单独地或者按照任何合适的子组合实施在多个实施例中。此外，虽然上文可能将特征描述为以某些组合来起作用并且最初甚至同样地对该特征进行了要求，但是在一些情况下可以从组合中删除来自所要求的组合的一个或者多个特征。并且所要求的组合可以指向子组合或者子组合的变化。

同样，虽然在附图中按照特定顺序示出了操作，但是不应该将其理解为需要按照所述的特定顺序或者按照相继的顺序来进行这种操作，或者需要进行所有图示的操作以实现期望的结果。在某些情况下，多任务处理和并行处理可以是有利的。此外，不应该将在上述实施例中的各种系统模块和组件的分离理解为在所有实施例中需要这种分离，并且应该理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中或者封装到多个软件产品中。

已经对本主题的特定实施例进行了描述。其它实施例在以下权利要求书的范围内。例如，可以按照不同的顺序来执行权利要求书中阐述的动作，并且仍然实现期望的结果。作为一个示例，为了获得期望的结果，在附图中描绘的过程不一定要求示出的特定顺序、或者顺序次序。在某些实施方式中，多任务处理和并行处理可以是有利的。

以下是权利要求书。

Claims

1.一种训练多任务神经网络系统的方法，所述神经网络系统包括与共享策略网络结合的可训练工作器集合，所述方法包括：

在多个不同任务上对所述可训练工作器和所述共享策略网络进行协同训练，使得每个工作器学习根据相应的任务策略执行所述任务中的一个对应任务并且所述共享策略网络学习表示针对所述任务的共同行为的多任务策略；以及

其中，所述协同训练包括：通过所述共享策略网络和所述可训练工作器二者传播来自所述协同训练的错误。

2.根据权利要求1所述的方法，所述方法其中，所述协同训练通过优化目标函数来执行，所述目标函数针对每个任务包括：

奖励项，所述奖励项指示工作器在根据所述任务策略执行所述任务时所获得的期望奖励；以及

至少第一熵项，所述至少第一熵项测量所述任务策略的分布与所述多任务策略的分布之间的差异，以朝着所述多任务策略的分布来将所述任务策略的分布正则化。

3.根据权利要求2所述的方法，其中，所述目标函数针对每个任务进一步包括第二探索熵项，所述第二探索熵项取决于所述任务策略的分布以鼓励探索。

4.根据权利要求1、2或3所述的方法，其中，所述神经网络系统包括强化学习系统，所述强化学习系统用于选择由所述工作器中的一个或多个在与环境交互时要执行的动作，其中，所述任务包括动作的序列，所述动作中的每个动作响应于状态而被执行，以及其中，所述任务策略中的每个任务策略的相应分布和所述多任务策略的分布各自包括状态-动作分布。

5.根据权利要求4所述的方法，当引用权利要求2时，其中，所述奖励项是取决于在状态下采取动作得到的期望奖励的折扣奖励项。

6.根据权利要求1至5中任一项所述的方法，包括：在训练所述可训练工作器时，使用来自所述共享策略网络的所述多任务策略来确定用于所述可训练工作器的所述任务策略。

7.根据权利要求1至6中任一项所述的方法，其中，所述协同训练包括：在训练所述可训练工作器中的一个或多个可训练工作器与训练所述共享策略网络之间交替。

8.根据权利要求1至7中任一项所述的方法，其中，所述协同训练包括：联合优化所述共享策略网络的所述多任务策略和一个或多个所述任务策略。

9.根据权利要求1至8中任一项所述的方法，进一步包括：使用所述多任务策略对所述任务策略进行参数化。

10.根据权利要求1至9中任一项所述的方法，其中，所述可训练工作器包括一个或多个神经网络，并且所述协同训练包括：通过反向传播来联合训练所述一个或多个神经网络和所述共享策略网络。

11.根据权利要求10所述的方法，其中，所述反向传播使用目标函数，所述目标函数包括用于将来自所述任务策略的概率与来自所述多任务策略的概率相匹配以从所述任务策略提取所述多任务策略的项。

12.一种训练自适应多任务计算机系统的方法，所述计算机系统包括可训练工作器集合和共享模块，所述方法包括：

在多个不同任务上对所述可训练工作器和所述共享模块进行协同训练，使得每个工作器学习根据相应的任务策略执行所述任务中的一个对应任务并且所述共享策略网络学习表示针对所述任务的共同行为的多任务策略；以及

其中，所述协同训练通过优化目标函数来执行，所述目标函数针对每个任务包括：

奖励项，所述奖励项指示工作器在执行所述任务时所获得的期望奖励；以及

13.根据权利要求12所述的方法，其中，所述目标函数针对每个任务进一步包括第二探索熵项，所述第二探索熵项取决于所述任务策略的分布以鼓励探索。

14.根据权利要求12或13所述的方法，其中，所述计算机系统包括强化学习系统，所述强化学习系统用于选择由所述工作器中的一个或多个在与环境交互时要执行的动作，其中，所述任务包括动作的序列，所述动作中的每个动作响应于状态而被执行，以及其中，每个所述任务策略的相应分布和所述多任务策略的分布各自包括状态-动作分布。

15.根据权利要求14所述的方法，其中，所述奖励项是取决于在状态下采取动作得到的期望奖励的折扣奖励项。

16.根据权利要求12至15中任一项所述的方法，包括：在训练所述可训练工作器时，使用所述多任务策略来确定用于所述可训练工作器的所述任务策略。

17.根据权利要求12至16中任一项所述的方法，其中，所述协同训练包括：在训练所述可训练工作器中的一个或多个可训练工作器与训练所述共享模块之间交替。

18.根据权利要求12至17中任一项所述的方法，其中，所述协同训练包括：联合优化所述共享模块的所述多任务策略和一个或多个所述任务策略。

19.根据权利要求12至18中任一项所述的方法，进一步包括：使用所述多任务策略对所述任务策略进行参数化。

20.根据权利要求12至19中任一项所述的方法，其中，所述可训练工作器和所述共享模块各自包括一个或多个神经网络，并且所述协同训练包括：通过反向传播来联合训练所述一个或多个神经网络。

21.一种用于处理与要执行的多个习得任务有关的输入数据并且提供输出数据以控制所述任务的执行的多任务神经网络系统，所述系统包括：

输入端，所述输入端用于接收所述输入数据；

耦合至所述输入端的工作器集合，每个工作器被配置为通过根据相应的习得任务策略输出动作数据来执行所述多个习得任务中的一个相关联的习得任务，并且每个任务与控制模块相关联；以及

共享策略网络，所述共享策略网络耦合至所述输入端和所述工作器集合中的一者或二者，其中，所述共享策略网络限定表示针对所述任务的共同行为的习得多任务策略；以及

其中，多任务神经网络系统被配置为：针对每个任务，将相关联的控制模块的输出与所述习得多任务策略相组合以限定相应的任务策略。

22.根据权利要求21所述的多任务神经网络系统，其中，每个所述控制模块是神经网络模块。

23.根据权利要求22所述的多任务神经网络系统，具有多列架构，其中，所述神经网络模块限定神经网络层的至少一列，以及其中，所述共享策略网络限定神经网络层的第二列。

24.根据权利要求21、22或23所述的多任务神经网络系统，其中，所述动作数据包括限定要执行的动作的期望值的动作值数据。

25.根据权利要求21至24中任一项所述的多任务神经网络系统，其中，所述动作数据包括限定所述工作器能够执行的多个可能动作中的每个可能动作的似然性的数据。

26.根据权利要求21至25中任一项所述的多任务神经网络系统，其中，所述控制模块基本上彼此独立地运行。

27.根据权利要求21至26中任一项所述的多任务神经网络系统，其中，所述工作器包括神经网络，所述神经网络包括共享权重。

28.一种包括一个或多个计算机以及一个或多个存储指令的存储装置的系统，所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机执行根据权利要求1至20中任一项所述的相应方法的操作。

29.一种或多种存储指令的计算机存储介质，所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行根据权利要求1至20中任一项所述的相应方法的操作。

30.一种或多种存储指令的计算机存储介质，所述指令在由一个或多个计算机执行时使所述一个或多个计算机实现根据权利要求21至27中任一项所述的系统。