CN110114783B

CN110114783B - 利用辅助任务的强化学习

Info

Publication number: CN110114783B
Application number: CN201780080119.6A
Authority: CN
Inventors: V.姆尼; W.扎内基; M.E.雅德伯格; T.绍尔; D.西尔弗; K.卡乌库奥格卢
Original assignee: DeepMind Technologies Ltd
Current assignee: DeepMind Technologies Ltd
Priority date: 2016-11-04
Filing date: 2017-11-04
Publication date: 2023-07-18
Anticipated expiration: 2037-11-04
Also published as: JP2021185492A; US20210182688A1; US20240144015A1; US10956820B2; KR20190069582A; CN110114783A; JP6926203B2; EP3535705A1; JP7235813B2; WO2018083671A1; DK3535705T3; US20190258938A1; US11842281B2; JP2019534517A; KR102424893B1; EP3535705B1

Abstract

包括在计算机存储介质上编码的计算机程序的用于训练强化学习系统的方法、系统和装置。该方法包括：训练动作选择策略神经网络，并且在动作选择策略神经网络的训练期间，训练一个或多个辅助控制神经网络和奖励预测神经网络。辅助控制神经网络中的每个辅助控制神经网络被配置为接收由动作选择策略神经网络生成的相应的中间输出，并生成对于对应的辅助控制任务的策略输出。奖励预测神经网络被配置为接收由动作选择策略神经网络生成的一个或多个中间输出并生成对应的预测奖励。训练辅助控制神经网络中的每个辅助控制神经网络和奖励预测神经网络包括调整相应的辅助控制参数、奖励预测参数和动作选择策略网络参数的值。

Description

利用辅助任务的强化学习

技术领域

本说明书涉及强化学习。

背景技术

在强化学习系统中，代理通过执行由强化学习系统响应于接收到表征当前环境状态的观察选择的动作来与环境交互。

一些强化学习系统根据神经网络的输出、响应于接收到给定观察选择要由代理执行的动作。

神经网络是采用一层或多层非线性单元来预测对于接收的输入的输出的机器学习模型。一些神经网络是除了输出层之外还包括一个或多个隐藏层的深度神经网络。每个隐藏层的输出用作网络中下一层(即，下一隐藏层或输出层)的输入。网络的每个层根据相应参数集的当前值从接收的输入生成输出。

发明内容

本说明书描述了在一个或多个位置中的一个或多个计算机上被实施为计算机程序的强化学习系统，该强化学习系统选择要由与环境交互的代理执行的动作。通常，系统使用动作选择策略神经网络(action selection policy neural network)来响应于环境的观察选择要执行的动作。为了改进动作选择策略神经网络的训练，在该训练期间，系统还训练接收动作选择策略神经网络的相应的中间输出作为输入的(i)一个或多个辅助控制神经网络(auxiliary control neural network)、(ii)奖励预测神经网络(reward predictionneural network)、或两者。

通常，一种创新方面可以体现在用于训练强化学习系统的方法中，其中该方法包括：使用第一强化学习技术训练动作选择策略神经网络，其中，动作选择策略神经网络具有多个动作选择策略网络参数并用于选择要由与环境交互的代理执行的动作，特别用于执行主任务。动作选择策略神经网络可以被配置为接收包括观察输入的输入并根据网络参数处理输入以生成动作选择策略输出，并且其中，训练动作选择策略神经网络包括调整动作选择策略网络参数的值。该方法可以包括在使用第一强化学习技术训练动作选择策略神经网络期间：在动作选择策略神经网络的训练期间训练关于代理与环境的交互的一个或多个辅助控制神经网络中的每个辅助控制神经网络，其中，辅助控制神经网络中的每个辅助控制神经网络具有相应的辅助控制参数并对应于相应的辅助控制任务，并且被配置为：接收由动作选择策略神经网络生成的相应的中间输出，以及根据辅助控制神经网络的相应的辅助控制参数，生成对于相应的辅助控制任务的策略输出；并且其中，训练辅助控制神经网络中的每个辅助控制神经网络包括：基于由辅助控制神经网络生成的策略输出确定梯度；以及使用梯度调整相应的辅助控制参数和动作选择策略网络参数的值。

动作选择策略输出可以定义要由环境中的代理执行的动作；如之后所述，代理可以是机器人代理。在实施方式中，辅助控制神经网络可以包括耦合到动作选择策略神经网络的一个或多个隐藏层的一个或多个神经网络层，即中间输出可以包括来自这些一个或多个隐藏层的输出。因此，训练辅助控制神经网络还可以涉及训练动作选择策略神经网络的一部分，更具体地，涉及训练输入层和中间层之间的该网络的一部分。因此，在实施方式中，动作选择策略神经网络的参数(例如，权重)通过动作选择策略神经网络的训练来被训练，并且这些参数中的一些参数也通过训练(多个)辅助控制神经网络来被训练，更具体地，通过将梯度经由中间输出从(多个)辅助控制神经网络反向传播到动作选择策略神经网络来被训练。梯度可以是关于参数的辅助控制任务的策略损失函数的梯度。来自辅助控制神经网络的策略输出可以用于计算这种反向传播的损失函数；特定的损失函数取决于所选择的(多个)辅助控制任务；有许多这样的任务可以实施。非常类似的考虑适用于辅助奖励预测神经网络；在这种情况下，可以根据奖励预测损失函数来确定梯度。

在一些实施方式中，训练辅助控制神经网络中的每个辅助控制神经网络包括：响应于代理与环境的交互，接收特定于对应的辅助控制任务的辅助任务奖励；以及使用相应的第二强化学习技术(在一些情况下，但不是必需的)训练辅助控制神经网络以最大化对于对应的辅助控制任务的辅助任务奖励(更具体地，预期的长期时间折扣的辅助任务奖励)。例如，第一强化学习技术可以是在线策略(on-policy)技术，并且第二强化学习技术可以是离线策略(off-policy)技术，和/或第二强化学习技术可以比第一强化学习技术更简单以提高效率。在一些实施方式中，如此处和之后描述的，预期的长期时间折扣的辅助任务奖励可以包括预期的n步回报(n-step return)，更具体地，n个时间(动作)步动作之后预期的回报，其中时间上更晚的奖励被给予降低的权重。

在一些实施方式中，如先前所述，使用相应的第二强化学习技术训练辅助控制神经网络以最大化对于对应的辅助控制任务的预期的长期时间折扣的辅助任务奖励包括：将使用相应的第二强化学习技术(在一些情况下)计算的梯度反向传播到动作选择策略神经网络中以调整动作选择策略参数的值。

在一些实施方式中，一个或多个辅助控制神经网络包括像素控制神经网络，该像素控制神经网络对应于对于包括图像的观察的像素控制任务。该像素控制任务可以试图对于每个观察图像的一个或多个区域中的每个区域最大化该区域中的像素的值的最大变化。对于每个观察图像，对于该一个或多个区域中的每个区域的相应奖励可以从观察图像到作为代理响应于观察图像执行动作的结果而接收的下一观察图像的区域中的像素的变化导出。在执行这样的像素控制任务时，像素控制神经网络、和动作选择策略神经网络的一部分可以一起学习控制影响视觉输入的环境的各方面，并且在动作选择策略神经网络中学习的表示然后可以在学习执行主任务时有用。

在一些实施方式中，像素控制神经网络被配置为对于接收的观察图像：接收对于像素控制神经网络的相应的中间输出；以及处理相应的中间输出，以便如果代理响应于接收的观察图像执行可能动作，则对于该一个或多个区域中的每个区域以及对于要由代理执行的多个可能动作中的每个动作生成该区域中的像素的变化的估计(更具体地，长期时间折扣变化的估计)。像素的长期时间折扣变化可以包括在n个时间(动作)步动作之后预期的变化，其中在时间上更晚的变化被给予降低的权重。

在一些实施方式中，像素控制神经网络可以包括去卷积神经网络。去卷积神经网络可以用于确定可以用于训练像素控制神经网络的空间映射的辅助奖励函数值(诸如动作值函数值)的集合。在一些实施方式中，其中动作选择策略神经网络包括其后是一个或多个递归神经网络层的一个或多个卷积神经，像素控制神经网络可以耦合到一个或多个递归神经网络层之一的输出。

在一些实施方式中，辅助控制神经网络包括特征控制神经网络，该特征控制神经网络对应于试图最大化由动作选择策略神经网络的特定隐藏层中的一个或多个单元生成的激活的特征控制任务(其中可能涉及使用相应的目标网络以使得特征更不频繁地改变)。对于每个观察图像，对于该一个或多个单元中的每个单元的相应奖励可以从在处理观察图像期间生成的激活到在处理作为代理响应于观察图像执行动作的结果而接收的下一观察图像期间生成的激活的单元的激活中的变化导出。特征控制任务可以被认为类似于像素控制任务，但是在更高级别的视觉特征上。

在一些实施方式中，特征控制神经网络被配置为对于接收的观察图像：接收对于特征控制神经网络的相应的中间输出；以及处理相应的中间输出，以便如果代理响应于接收的观察图像执行可能动作，则对于该一个或多个单元中的每个单元以及对于要由代理执行的多个可能动作中的每个动作生成由单元生成的激活中的长期时间折扣变化的估计。

通常，另一创新方面可以体现在用于训练强化学习系统的方法中，其中该方法包括：使用第一强化学习技术训练动作选择策略神经网络，其中，动作选择策略神经网络具有多个网络参数并用于选择要由与环境交互的代理执行的动作，其中，动作选择策略神经网络被配置为接收包括观察输入的输入并根据网络参数处理输入以生成动作选择策略输出，并且其中，训练动作选择策略神经网络包括调整动作选择策略网络参数的值；在使用第一强化学习技术训练动作选择策略神经网络时：在动作选择策略神经网络的训练期间训练关于代理与环境的交互的奖励预测神经网络，其中，奖励预测神经网络具有奖励预测参数并被配置为：接收表征作为代理与环境的交互的结果而接收的观察图像的序列的、由动作选择策略神经网络生成的一个或多个中间输出，以及根据奖励预测参数处理该一个或多个中间输出以生成预测奖励，该预测奖励为将通过序列中的最后的观察图像之后的下一观察图像接收的奖励的估计；并且其中，训练奖励预测神经网络包括：基于由奖励预测神经网络生成的预测奖励来确定梯度；以及使用梯度调整奖励预测参数和动作选择策略网络参数的值。

在一些实施方式中，训练奖励预测神经网络包括：接收通过下一观察图像或随后观察图像接收的实际奖励；以及训练奖励预测神经网络以减少实际奖励和估计奖励之间的损失(更具体地，取决于实际奖励和估计奖励之间的差异的损失函数的值)。如之后描述的，训练奖励预测神经网络可以包括从存储在经验重放存储器中的观察的序列中进行采样，特别地，以过度表示(over-represent)奖励序列/事件，这在环境中的奖励稀疏时是有利的。

在一些实施方式中，训练奖励预测神经网络以减少实际奖励和估计奖励之间的损失包括：将计算的梯度反向传播到动作选择策略神经网络中以调整动作选择策略参数的值。

在一些实施方式中，动作选择策略神经网络包括：卷积编码器神经网络，生成输入的编码表示，中间神经网络，处理输入的编码表示以生成中间表示；和输出神经网络，处理中间表示以生成动作选择输出。

在一些实施方式中，中间神经网络是递归神经网络，并且由动作选择策略神经网络生成的表征观察图像的序列的一个或多个中间输出是对于序列中的最后的观察图像的中间表示。

在一些实施方式中，由动作选择策略神经网络生成的表征观察图像的序列的一个或多个中间输出是对于序列中的观察图像的编码表示。

在一些实施方式中，训练奖励预测神经网络包括从重放存储器采样观察的序列。

在一些实施方式中，采样观察的序列包括：与通过在序列中的最后的观察之后的观察接收的实际奖励为零的序列相比，以更高的概率采样通过在序列中的最后的观察之后的观察接收的实际奖励为非零的序列。

在一些实施方式中，第一强化学习技术是演员-评论者(actor-critic)强化学习技术，其中动作选择策略输出包括值估计和Q值。值估计可以定义状态的值或预期回报；Q值可以定义该状态下特定动作的预期回报，并且可以隐含在例如定义动作相对于基线值估计的优势的优势值中。该方法然后可以进一步包括：从重放存储器重新采样最近的序列；以及对重采样的最近的序列中的观察图像的值估计执行额外值函数回归。因此，额外值函数回归可以包括使用来自重放存储器的序列的附加训练；在计算n步回报的情况下，该方法可以进一步随机地改变n。这有助于利用奖励预测任务的好处。

以上方面可以以任何方便的形式实施。例如，方面和实施方式可以由在适当的载体介质上承载的适当的计算机程序实施，该载体介质可以是有形载体介质(例如，磁盘)或无形载体介质(例如，通信信号)。方面也可以使用采用运行计算机程序的可编程计算机的形式的合适的装置来实施。

可以实施本说明书中描述的主题的特定实施例，以便实现以下优点中的一个或多个。通过训练一个或多个辅助控制神经网络或奖励预测神经网络或两者来执行辅助任务和预测，除了训练动作选择策略神经网络以最大化累积外部奖励之外，本说明书中描述的强化学习系统可以增强在动作选择策略神经网络的训练期间接收的反馈信号以改进训练。特别地，训练辅助控制神经网络或奖励预测神经网络调整动作选择策略神经网络的参数集的值，使得它们生成更有用的观察数据表示并最终确定更有效的策略输出以最大化累积外部奖励。例如，训练奖励预测神经网络调整动作选择策略神经网络的参数集的值以识别导致在后续时间步骤接收高奖励的观察，从而允许动作选择策略神经网络确定更有效的策略输出，以最大化预期的长期时间折扣外部奖励，即使外部奖励仅很少非零时。

相比之下，当训练仅基于很少非零的外部奖励时，通过传统方法训练强化学习系统是缓慢的。此外，不同于包括通用且与代理的长期目标不紧密匹配的无监督训练的传统的强化学习系统，训练辅助控制神经网络或奖励预测神经网络使得动作选择策略神经网络生成与代理的长期目标紧密匹配的表示。

本说明书中描述的强化学习系统比传统强化学习系统更快地训练动作选择策略神经网络。因此，本说明书中描述的强化学习系统允许在训练中更有效地使用计算资源。此外，本说明书中描述的强化学习系统例如通过接收更多累积的外部奖励实现了优于传统强化学习系统的性能。

在附图和以下描述中阐述了本说明书的主题的一个或多个实施例的细节。根据说明书、附图和权利要求，本主题的其它特征、方面和优点将变得显而易见。

附图说明

图1A示出了示例强化学习系统。

图1B示出了强化学习系统的示例实施方式。

图2是用于通过训练辅助控制神经网络来训练动作选择策略神经网络的示例过程的流程图。

图3是用于通过训练奖励预测神经网络来训练动作选择策略神经网络的示例过程的流程图。

各附图中相似的附图标记和名称指示相似的元素。

具体实施方式

图1A示出了示例强化学习系统100。强化学习系统100是在实施下面描述的系统、组件和技术的一个或多个位置中的一个或多个计算机上被实施为计算机程序的系统的示例。

强化学习系统100选择要由与环境102交互的代理108在多个时间步(time step)中的每个时间步执行的动作110。为了使代理108与环境102交互，系统100接收表征环境102的当前状态的数据(例如，环境的图像)，并且响应于接收的数据选择要由代理108执行的动作110。表征环境的状态的数据在此说明书中将被称为观察104。

在一些实施方式中，环境102是模拟环境，并且代理108被实施为与模拟环境交互的一个或多个计算机程序。例如，模拟环境可以是视频游戏，并且代理可以是玩视频游戏的模拟用户。作为另一示例，模拟环境可以是运动模拟环境，例如驾驶模拟或飞行模拟，并且代理是导航经过运动模拟环境的模拟车辆。在这些实施方式中，动作可以是控制模拟用户或模拟车辆的控制输入。

在一些其它实施方式中，环境102是真实世界环境，并且代理108是与真实世界环境交互的机械代理。例如，代理可以是与环境交互以完成特定任务的机器人。作为另一示例，代理可以是导航经过环境的自主或半自主车辆。在这些实施方式中，动作可以是控制机器人或自主车辆的控制输入。在这些实施方式中的一些中，观察104可以由代理108的传感器生成或从代理108的传感器导出。例如，观察104可以由代理108的相机捕获。作为另一示例，观察104可以从从代理108的激光传感器捕获的数据导出。作为另一示例，观察可以是由代理108的高光谱传感器捕获的高光谱图像。

系统100使用动作选择策略神经网络112在每个时间步响应于观察104选择要由代理108执行的动作。具体地，动作选择策略神经网络112被配置为接收观察104作为输入并且根据参数集(在此说明书中被称为动作选择策略神经网络参数)处理该输入以生成策略输出，其中系统100使用该策略输出来确定要由代理108在时间步执行的动作110。例如，策略输出可以是可能动作集上的概率分布。作为另一示例，策略输出可以是Q值，其中Q值是如果代理108响应于观察执行特定动作将接收的长期时间折扣奖励的估计。作为另一示例，策略输出可以标识特定动作，如果该动作由代理响应于观察而执行，则该动作被预测为产生最高的长期时间折扣奖励。

通常，动作选择策略神经网络112包括卷积编码器神经网络、中间神经网络和输出神经网络，其中卷积编码器神经网络生成输入观察的编码表示，中间神经网络处理输入观察的编码表示以生成中间表示，以及输出神经网络处理中间表示以生成策略输出。

在每个时间步，系统100基于环境102的当前状态和时间步处的代理108的动作110接收奖励106。通常，系统100通过使用强化学习技术迭代地调整动作选择策略神经网络参数的值来训练动作选择策略神经网络112以生成最大化系统100接收的预期的长期时间折扣奖励的策略输出。

对于一个或多个时间步，系统100将时间步处的经验元组(experience tuple)存储在重放存储器114中，其中在本说明书中，术语经验元组指的是在时间步处的观察104、在时间步处的代理的动作110、在时间步处接收的奖励106、以及下一时间步处的观察。

在一些实施方式中，系统100使用在线策略(on-policy)强化学习技术训练动作选择策略神经网络112，并且基于生成经验元组时的经验元组训练动作选择策略神经网络112。Volodymyr Mnih等人在2016年第33届机器学习国际会议论文集中发表的“深度强化学习的异步方法(Asynchronous methods for deep reinforcement learning)”中描述了用于在线策略强化学习的示例方法。在线策略强化学习的另一个示例方法是策略梯度方法。在一些其它实施方式中，基于生成经验元组时的经验元组或采样引擎116从重放存储器114采样的经验元组，系统100使用离线策略(off policy)强化学习技术(例如，一步或n步Q学习(Q-learning))训练动作选择策略神经网络112。

Volodymyr Mnih等人在2016年第33届机器学习国际会议论文集中发表的“深度强化学习的异步方法(Asynchronous methods for deep reinforcement learning)”中描述了动作选择策略神经网络的示例。动作选择策略神经网络112的其它示例包括DQN(深度Q网络，Deep Q-Network)、DDPG(深度确定性策略梯度，Deep Deterministic PolicyGradient)、和TRPO(信任区域策略优化，Trust Region Policy Optimization)网络。

除了训练动作选择策略神经网络112以最大化预期的长期时间折扣奖励之外，系统100还可以通过另外训练一个或多个辅助控制神经网络(例如，像素控制神经网络118、或特征控制神经网络120、或两者)来训练动作选择策略神经网络112。训练辅助控制神经网络调整动作选择策略神经网络112的参数集的值，使得动作选择策略神经网络112生成与代理108的长期目标紧密匹配的、观察104的更有用的表示，并且从而确定更有效的策略输出以最大化预期的长期时间折扣奖励，即使仅很少接收到非零奖励106。

每个辅助控制神经网络具有相应的参数集(在本说明书中称为辅助控制神经网络参数)，并且在处理给定观察104时接收动作选择策略神经网络112的相应的中间输出作为输入。由于每个辅助控制神经网络接收动作选择策略神经网络112的相应的中间输出作为输入，所以每个辅助控制神经网络可以被认为是与动作选择策略神经网络112共享参数。动作选择策略神经网络112的中间输出是响应于将给定观察作为输入进行处理而在动作选择策略神经网络112的一个或多个隐藏层的一个或多个单元处生成的激活集。在一些实施方式中，动作选择策略神经网络112的中间神经网络是递归神经网络，并且对应于相应辅助控制神经网络的中间输出是由递归神经网络生成的对于给定观察的中间表示。在一些实施方式中，对应于相应辅助控制神经网络的中间输出是由动作选择策略神经网络112的卷积编码器神经网络针对给定观察生成的编码表示。

辅助控制神经网络的每个辅助控制神经网络与一个或多个相应的辅助任务奖励相关联。像素控制神经网络118的辅助任务奖励是从从给定观察图像104到作为代理108响应于给定观察104执行动作110的结果而接收的下一观察图像的一个或多个区域中的像素变化中导出的。特征控制神经网络120的辅助任务奖励是从动作选择策略神经网络112的特定隐藏层中的一个或多个单元在处理给定观察104和处理作为代理108响应于给定观察执行动作110的结果而接收的下一个观察之间产生的激活变化中导出的。

每个辅助控制神经网络为每个相关联的辅助任务奖励生成辅助控制策略输出。系统100训练辅助控制神经网络中的每个辅助控制神经网络以生成最大化对应的辅助任务奖励的预期的长期时间折扣值的辅助控制策略输出，这将通过基于辅助控制策略输出选择代理的动作来实现。

系统100使用强化学习技术训练每个辅助控制神经网络。系统100可以基于生成经验元组时的经验元组在线训练辅助控制神经网络，或者系统100可以基于采样引擎116从重放存储器114采样的、在先前时间步处生成的经验元组来训练辅助控制神经网络。强化学习技术可以是离线策略强化学习技术(诸如一步或n步Q学习)，或者强化学习技术可以是在线策略强化学习技术(诸如估计每个辅助任务奖励的值函数的强化学习技术)。

为了使用强化学习技术训练辅助控制神经网络，系统100反向传播系统100根据强化学习技术确定的梯度以调整辅助控制神经网络的参数集的值，并且调整动作选择策略神经网络112的参数集中的一些参数的值。特别地，系统调整动作选择策略神经网络的参数，该参数对应于(i)系统100提供作为辅助控制神经网络的输入的动作选择策略神经网络112的中间输出的一个或多个隐藏层的一个或多个单元，以及(ii)前馈到系统100提供作为辅助控制神经网络的输入的动作选择策略神经网络112的中间输出的一个或多个隐藏层的一个或多个单元中的单元。在本说明书中，如果第一单元的输出被直接或间接地提供作为第二单元的输入，则称第一单元前馈到第二单元。

除了训练动作选择策略神经网络112以最大化预期的长期时间折扣奖励之外，系统100还可以通过另外训练奖励预测神经网络122来训练动作选择策略神经网络112。训练奖励预测神经网络122调整动作选择策略神经网络112的参数集的值，以识别导致在后续时间步接收高奖励106的观察104，并且从而允许动作选择策略神经网络112确定更有效的策略输出，以最大化预期的长期时间折扣奖励，即使仅很少观察到非零奖励106。

奖励预测神经网络122具有参数集，在本说明书中称为奖励预测神经网络参数，并且被配置为接收表征作为代理108与环境102的交互的结果而接收的观察序列的、由动作选择策略神经网络112生成的一个或多个中间输出作为输入。由于奖励预测神经网络122接收由动作选择策略神经网络112生成的一个或多个中间输出作为输入，所以奖励预测神经网络122可以被认为与动作选择策略神经网络112共享参数。

在一些实施方式中，动作选择策略神经网络112的中间神经网络是递归神经网络，并且由动作选择策略神经网络112生成的表征观察序列的一个或多个中间输出是由递归神经网络生成的对于序列中的最后的观察的中间表示。

在一些实施方式中，由动作选择策略神经网络112生成的表征观察序列的一个或多个中间输出是对于序列中的观察的、动作选择策略神经网络112的编码表示。例如，在动作选择策略神经网络112包括卷积编码器神经网络的情况下，这可以编码来自重放存储器的状态序列的每个状态。

奖励预测神经网络122根据奖励预测神经网络参数集处理一个或多个中间输出以生成预测奖励，该预测奖励是将通过序列中的最后的观察之后的下一观察接收的实际奖励的估计。

系统100训练奖励预测神经网络122以生成最小化奖励预测损失的预测奖励。在一些实施方式中，奖励预测损失是通过在序列中的最后的观察之后的下一观察接收的预测奖励与通过在序列中的最后的观察之后的下一观察接收的实际奖励之间的均方误差损失。在一些其它实施方式中，奖励预测损失是多类交叉熵分类损失，其中三个类是零奖励、正奖励和负奖励。具体地，系统100反向传播梯度来调整奖励预测神经网络122的参数集的值并调整动作选择策略神经网络112的参数集的值，以最小化奖励预测损失。

通常，系统100基于在采样引擎116从重放存储器114采样的、在先前时间步处生成的经验元组的序列来训练奖励预测神经网络122。在一些实施方式中，采样引擎116从重放存储器114采样经验元组的序列，其中与通过在序列中的最后的观察之后的观察接收的实际奖励为零的序列相比，以更高的概率采样通过在序列中的最后的观察之后的观察接收的实际奖励为非零的序列。从重放存储器114对经验元组的序列的偏置采样改进了奖励预测神经网络122的训练，并且通过扩展动作选择策略神经网络112改进了奖励预测神经网络122的训练，特别是当很少接收到非零奖励106时。

在一些实施方式中，系统100通过另外的离线策略强化学习来增强策略强化学习以训练动作选择策略神经网络112，其中离线策略强化学习利用由系统100训练奖励预测神经网络122形成的、动作选择策略神经网络112的新发现的特征。例如，系统100用于训练动作选择策略神经网络112的强化学习技术可以是演员-评论者强化学习技术，其中策略输出包括值估计和Q值。在该示例中，系统100基于在生成经验元组时的经验元组使用在线策略训练来训练动作选择策略神经网络112，并且通过对针对由采样引擎116从重放存储器114采样的序列中的观察的值估计执行额外值函数回归来执行另外的离线策略强化学习。

图1B示出了系统100的示例实施方式。在该实施方式中，动作选择策略神经网络(a)是Volodymyr Mnih等人在2016年第33届机器学习国际会议论文集中发表的“深度强化学习的异步方法(Asynchronous methods for deep reinforcement learning)”中描述的利用A3C损失在线策略训练的卷积长短期记忆(long short-term memory，LSTM)网络，其中V表示值估计，π表示策略输出。辅助控制神经网络(b)是基于从重放缓冲器采样的经验生成Q值策略输出的像素控制神经网络。奖励预测神经网络(c)基于从重放缓冲器采样的经验生成奖励预测，其中r_τ表示在时间步τ处的预测奖励，并且偏斜采样(skewed sampling)指从重放存储器采样经验元组的序列，其中与通过在序列中的最后的观察之后的观察接收的实际奖励为零的序列相比，以更高的概率采样通过在序列中的最后的观察之后的观察接收的实际奖励为非零的序列。值函数重放(d)指示基于从重放缓冲器采样的经验进一步对动作选择策略神经网络的强化学习。

图2是用于通过训练辅助控制神经网络来训练动作选择策略神经网络的示例过程200的流程图。为方便起见，过程200将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，根据本说明书适当编程的强化学习系统(例如，图1A的强化学习系统100)可以执行过程200。

系统获得时间步处的经验元组，无论经验元组是被生成的还是来自重放存储器，其中经验元组包括时间步处的观察、时间步处的代理的动作、时间步处接收的奖励、以及下一时间步处的观察(步骤201)。

系统提供时间步处的观察作为动作选择策略神经网络的输入，生成与辅助控制神经网络对应的、动作选择策略神经网络的中间输出，并且提供中间输出作为辅助控制神经网络的输入(步骤202)。在一些实施方式中，动作选择策略神经网络的中间神经网络是递归神经网络，并且对应于辅助控制神经网络的中间输出是由递归神经网络生成的对于时间步处的观察的中间表示。在一些实施方式中，对应于辅助控制神经网络的中间输出是由动作选择策略神经网络的卷积编码器神经网络生成的对于时间步处的观察的编码表示。

系统确定时间步处的辅助任务奖励(步骤203)。

如果辅助控制神经网络是像素控制神经网络，则观察是图像，并且像素控制神经网络与对于观察的一个或多个区域中的每个区域的辅助任务奖励相关联。系统根据从时间步处的观察图像到下一时间步处的观察图像的区域中的像素的强度的变化，导出对于一个或多个区域中的每个区域的相应辅助任务奖励。例如，系统可以通过计算区域中像素的平均强度的变化来确定从时间步处的观察图像到下一时间步处的观察图像的区域中的像素的强度的变化。作为另一示例，系统可以确定从时间步处的观察图像到下一时间步处的观察图像的区域中的像素的强度的变化为区域中的各个像素的强度的平方差的和。系统可以通过将观察图像划分为由放置在观察图像上的n×n非重叠网格描绘的区域来确定观察图像的一个或多个区域。在一些实施方式中，像素控制神经网络是去卷积(deconvolutional)神经网络。

如果辅助控制神经网络是特征控制神经网络，则特征控制神经网络与对于动作选择策略神经网络的一个或多个隐藏层的一个或多个单元集中的每个单元集的辅助任务奖励相关联。例如，特征控制神经网络可以与动作选择策略神经网络的特定隐藏层的每个单元的辅助任务奖励相关联，并且系统可以确定与特定隐藏层的特定单元相关联的辅助任务奖励为在处理时间步处的观察期间生成的单元的激活与在处理下一时间步处的观察期间生成的单元的激活之间的差。

辅助控制神经网络处理动作选择策略神经网络的中间输出以生成策略输出(步骤204)。

辅助控制神经网络生成与每个辅助任务奖励相对应的策略输出。由辅助控制神经网络生成的策略输出的特定形式取决于用于训练辅助控制神经网络的强化学习技术。

如果强化学习技术是Q学习，则由辅助控制神经网络生成的策略输出为：对于每个辅助任务奖励以及对于由代理执行的每个可能动作，如果代理响应于接收到观察而执行可能动作的长期时间折扣的辅助任务奖励的估计。

例如，如果强化学习技术是Q学习并且辅助控制神经网络是像素控制神经网络，则策略输出可以是N_act×n×n的张量Q，其中N_act是可以由代理执行的可能动作的数量，并且Q(a,i,j)是如果代理响应于像素控制神经网络接收的输入执行动作a，对在放置在观察图像上的n×n非重叠网格的第(i,j)区域中的像素的长期时间折扣变化的估计。

作为另一示例，如果辅助控制神经网络是特征控制神经网络，则策略输出可以是N_act×m的张量Q，其中m是动作选择策略神经网络的特定隐藏层中的隐藏单元的数量，并且Q(a,k)是如果代理响应于由特征控制神经网络接收的输入执行可能动作a，对由单元k生成的激活中的长期时间折扣变化的估计。

对于每个辅助任务奖励，系统将系统基于辅助任务奖励和辅助控制神经网络生成的对于辅助任务奖励的策略输出确定的梯度反向传播到辅助控制神经网络和动作选择策略神经网络中(步骤206)。通常，对于每个辅助任务奖励，系统反向传播梯度以最大化预期的长期时间折扣的辅助任务奖励，这将通过系统响应于输入、根据由对应于辅助任务奖励的辅助控制神经网络生成的策略输出来选择动作来实现。由系统反向传播的梯度取决于用于训练辅助控制神经网络的强化学习技术的特定选择。在一些实施方式中，系统使用离线策略强化学习技术(诸如一步或n步Q学习)来训练辅助控制神经网络。在一些其它实施方式中，系统使用在线策略强化学习技术(诸如学习每个辅助任务奖励的值函数的强化学习技术)来训练辅助控制神经网络。

系统可以将权重因子与每个辅助任务奖励相关联，并且系统基于辅助任务奖励和对于辅助任务奖励的策略输出反向传播的梯度可以通过相关联的权重因子来缩放。

通过将基于辅助任务奖励和由辅助控制神经网络生成的策略输出确定的梯度反向传播到动作选择策略神经网络中，系统调整动作选择策略神经网络的参数，该参数对应于(i)系统提供作为辅助控制神经网络的输入的动作选择策略神经网络的中间输出的一个或多个隐藏层的一个或多个单元，以及(ii)前馈到系统提供作为辅助控制神经网络的输入的动作选择策略神经网络的中间输出的一个或多个隐藏层的一个或多个单元中的单元。

通常，用于通过训练辅助控制神经网络训练动作选择策略神经网络的过程200在多个时间步中的每个时间步处重复。此外，对于给定的时间步，过程200可以重复一次或多次，例如通过重复采样重放存储器。

图3是用于通过训练奖励预测神经网络来训练动作选择策略神经网络的示例过程300的流程图。为方便起见，过程300将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，根据本说明书适当编程的强化学习系统(例如，图1A的强化学习系统100)可以执行过程300。

系统从重放存储器中的先前时间步获得经验元组数据，该经验元组数据包括对于先前时间序列的观察和通过在最后的观察之后的观察接收的实际奖励(步骤301)。

在一些实施方式中，系统从重放存储器采样序列，其中与通过在序列中的最后的观察之后的观察接收的实际奖励为零的序列相比，以更高的概率采样通过在序列中的最后的观察之后的观察接收的实际奖励为非零的序列。例如，系统可以对序列进行采样，使得对通过在序列中的最后的观察之后的观察接收的实际奖励为非零的序列进行采样的概率为0.5。

系统使用动作选择策略神经网络处理观察序列，以生成表征观察序列的一个或多个中间输出(步骤302)。

在一些实施方式中，动作选择策略神经网络的中间神经网络是递归神经网络，并且由动作选择策略神经网络生成的表征观察序列的一个或多个中间输出是由递归神经网络生成的对于序列中的最后的观察的中间表示。

在一些其它实施方式中，由动作选择策略神经网络生成的表征观察序列的一个或多个中间输出是对于序列中的观察的、动作选择策略神经网络的编码表示。

系统提供由动作选择策略神经网络生成的表征观察序列的一个或多个中间输出作为奖励预测神经网络的输入，并且奖励预测神经网络根据奖励预测神经网络参数集处理一个或多个中间输出的序列以生成对于通过在最后的观察之后的观察接收的奖励的预测(步骤304)。

系统将系统基于由奖励预测神经网络生成的预测奖励确定的梯度反向传播到奖励预测神经网络和动作选择策略神经网络中(步骤306)。通常，系统反向传播梯度以最小化损失函数。在一些实施方式中，损失函数由通过序列中的最后的观察之后的观察接收的实际奖励与通过序列中的最后的观察之后的观察接收的奖励的预测之间的均方误差给出。在一些其它实施方式中，损失函数是多类交叉熵分类损失，其中三个类是正奖励、负奖励和零奖励。

系统可以通过权重因子来缩放系统基于由奖励预测神经网络生成的预测奖励反向传播的梯度。

通过将系统基于由奖励预测神经网络生成的预测奖励确定的梯度反向传播到动作选择策略神经网络中，系统调整动作选择策略神经网络的参数，该参数对应于(i)系统提供作为辅助控制神经网络的输入的动作选择策略神经网络的中间输出的一个或多个隐藏层的一个或多个单元，以及(ii)前馈到系统提供作为辅助控制神经网络的输入的动作选择策略神经网络的中间输出的一个或多个隐藏层的一个或多个单元中的单元。

例如，如果由动作选择策略神经网络生成的表征一个或多个连续时间步的观察序列的一个或多个中间输出是对于序列中的观察的编码表示，其中该一个或多个中间输出被提供作为奖励预测神经网络的输入，那么将梯度反向传播到动作选择策略神经网络中涉及调整卷积编码器神经网络的参数。

通常，用于通过训练奖励预测神经网络来训练动作选择策略神经网络的过程300在多个时间步中的每个时间步处重复。此外，对于给定的时间步，通过重复采样重放存储器，过程300被重复一次或多次。

本说明书结合系统和计算机程序组件使用术语“配置”。对于要配置为执行特定操作或动作的一个或多个计算机的系统，意味着系统已在其上安装了在操作时使系统执行操作或动作的软件、固件、硬件或它们的组合。对于要被配置为执行特定操作或动作的一个或多个计算机程序，意味着一个或多个程序包括当由数据处理装置执行时使装置执行操作或动作的指令。

本说明书中描述的主题和功能操作的实施例可以被实施在包括本说明书中公开的结构及其结构等同物的数字电子电路、有形体现的计算机软件或固件、计算机硬件、或者它们中的一个或多个的组合中。本说明书中描述的主题的实施例可以被实施为用于由数据处理装置执行或控制数据处理装置的操作的一个或多个计算机程序，即，在有形非暂时性存储介质上编码的一个或多个计算机程序指令模块。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。可替代地或另外地，程序指令可以在人工生成的传播信号(例如，机器生成的电、光或电磁信号)上编码，该传播信号被生成以编码信息以便传输到合适的接收器设备由数据处理装置执行。

术语“数据处理装置”是指数据处理硬件并且包括用于处理数据的所有类型的装置、设备和机器，包括例如可编程处理器、计算机或多个处理器或计算机。该装置还可以或者进一步包括专用逻辑电路，例如，FPGA(field programmable gate array，现场可编程门阵列)或ASIC(application specific integrated circuit，专用集成电路)。除了硬件之外，该装置还可以包括为计算机程序创建执行环境的代码，例如，构成处理器固件的代码、协议栈、数据库管理系统、操作系统、或者它们中的一个或多个的组合。

计算机程序也可以被称为或描述为程序、软件、软件应用、应用(app)、模块、软件模块、脚本或代码，可以用包括编译或解释语言、或声明或程序语言的任何形式的编程语言编写；并且它可以以包括作为独立程序或作为模块、组件、子程序或适用于计算环境的其它单元的任何形式部署。程序可以但不必对应于文件系统中的文件。程序可以存储在保存其它程序或数据的文件的一部分(例如，存储在标记语言文档中的一个或多个脚本)中，存储在专用于所讨论的程序的单个文件中，或者存储在多个协调文件中(例如，存储一个或多个模块、子程序或代码部分的文件)。可以部署计算机程序以在一个计算机上或在位于一个站点上或分布在多个站点上并通过数据通信网络互连的多个计算机上执行。

在本说明书中，术语“引擎”广泛用于指代被编程为执行一个或多个特定功能的基于软件的系统、子系统或过程。通常，引擎将被实施为安装在一个或多个位置中的一个或多个计算机上的一个或多个软件模块或组件。在一些情况下，一个或多个计算机将专用于特定的引擎；在其它情况下，多个引擎可以安装和运行在同一计算机或多个计算机上。

本说明书中描述的过程和逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路(例如FPGA或ASIC)或专用逻辑电路和一个或多个编程计算机的组合来执行。

适合于执行计算机程序的计算机可以基于通用或专用微处理器或两者、或者任何其它类型的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行或运行指令的中央处理单元和用于存储指令和数据的一个或多个存储器设备。中央处理单元和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。通常，计算机还将包括或可操作地耦合以从用于存储数据的一个或多个大容量存储设备(例如磁盘、磁光盘或光盘)接收数据或将数据传输到一个或多个大容量存储设备。但是，计算机不需要这样的设备。此外，计算机可以嵌入在另一个设备(例如，移动电话、个人数字助理(personal digital assistant，PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(Global Positioning System，GPS)接收器或便携式存储设备(例如，通用串行总线(universal serial bus，USB)闪存驱动器)，仅举几例)中。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，包括例如半导体存储器设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动磁盘；磁光盘；以及CD ROM和DVD-ROM磁盘。

为了提供与用户的交互，本说明书中描述的主题的实施例可以在具有用于向用户显示信息的显示设备(例如，CRT(cathode ray tube，阴极射线管)或LCD(liquid crystaldisplay，液晶显示器)监视器)、以及用户可通过其向计算机提供输入的键盘和指示设备(例如，鼠标或轨迹球)的计算机上实施。其它类型的设备也可用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以以包括声音、语音或触觉输入的任何形式接收来自用户的输入。另外，计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互；例如，通过响应于从网络(web)浏览器接收的请求将网页发送到用户设备上的web浏览器。此外，计算机可以通过向个人设备(例如，运行消息传递应用的智能电话)发送文本消息或其它形式的消息并且作为回报从用户接收响应消息来与用户交互。

用于实施机器学习模型的数据处理装置还可以包括例如专用硬件加速器单元以用于处理机器学习训练或生产的公共和计算密集部分(即推断、工作负载)。

可以使用机器学习框架(例如，TensorFlow框架、Microsoft Cognitive Toolkit框架、Apache Singa框架或Apache MXNet框架)来实施和部署机器学习模型。

本说明书中描述的主题的实施例可以被实施在包括后端组件(例如，作为数据服务器)的计算系统、或者包括中间件组件(例如，应用服务器)的计算系统、或者包括前端组件(例如，具有用户可以通过其与本说明书中描述的主题的实施方式进行交互的图形用户界面、网络浏览器或应用程序的客户端计算机)的计算系统、或者一个或多个这样的后端、中间件或前端组件的任何组合中。系统的组件可以通过任何形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(local area network，LAN)和广域网(wide area network，WAN)(例如，因特网)。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离，并且典型地通过通信网络进行交互。客户端和服务器的关系借助于在各个计算机上运行并且彼此具有客户端-服务器关系的计算机程序而生成。在一些实施例中，服务器将数据(例如，HTML页面)发送到用户设备，例如，用于向与作为客户端的设备交互的用户显示数据和从用户接收用户输入的目的。可以在服务器处从设备接收在用户设备处生成的数据，例如，用户交互的结果。

虽然本说明书包含许多具体的实施细节，但是这些不应被解释为对任何发明的范围或可能要求保护的范围的限制，而是作为特定于特定实施例的特征的描述。在单独实施例的上下文中在本说明书中描述的某些特征也可以在单个实施例中组合实施。相反，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合在多个实施例中实施。此外，尽管上面的特征可以描述为以某些组合起作用并且甚至最初如此要求保护，但是在某些情况下可以从组合中切除来自要求保护的组合的一个或多个特征，并且要求保护的组合可以针对子组合或子组合的变化。

类似地，虽然在附图中描绘了操作并且以特定顺序在权利要求中记载了操作，但是这不应该被理解为要求以所示的特定顺序或按顺序执行这些操作，或者要求所有示出的操作被执行以达到期望的效果。在某些情况下，多任务处理和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中都需要这种分离，并且应当理解，所描述的程序组件和系统通常可以集成在单个软件产品中或打包成多个软件产品。

已经描述了主题的特定实施例。其它实施例在以下权利要求的范围内。例如，权利要求中记载的动作可以以不同的顺序执行并且仍然实现期望的结果。作为一个示例，附图中描绘的过程不一定需要所示的特定顺序或连续顺序来实现期望的结果。在某些情况下，多任务处理和并行处理可能是有利的。

Claims

1.一种用于训练强化学习系统的计算机实现方法，包括：

使用第一强化学习技术训练动作选择策略神经网络(112)，

其中，动作选择策略神经网络(112)具有多个动作选择策略网络参数并用于选择要由与环境交互的代理执行的动作，

其中，动作选择策略神经网络(112)被配置为在每个时间步长接收包括观察输入(104)的输入并根据网络参数处理输入以生成动作选择策略输出，其中，动作选择策略输出确定在每个时间步长由代理(108)执行的动作(110)；并且

其中，训练动作选择策略神经网络(112)包括调整动作选择策略网络参数的值；并且特征在于：

在使用第一强化学习技术训练动作选择策略神经网络(112)期间：

在动作选择策略神经网络(112)的训练期间训练关于代理与环境的交互的一个或多个辅助控制神经网络(118,120)中的每个辅助控制神经网络，

其中，辅助控制神经网络中的每个辅助控制神经网络具有相应的辅助控制参数并对应于相应的辅助控制任务并被配置为：

接收由动作选择策略神经网络(112)生成的相应的中间输出，以及

根据辅助控制神经网络的相应的辅助控制参数，生成对于相应的辅助控制任务的策略输出；并且

其中，训练辅助控制神经网络中的每个辅助控制神经网络包括：

基于由辅助控制神经网络生成的策略输出确定梯度；以及

使用梯度调整相应的辅助控制参数和动作选择策略网络参数的值，

其中训练辅助控制神经网络中的每个辅助控制神经网络还包括：

响应于代理与环境的交互，接收特定于对应的辅助控制任务的辅助任务奖励；以及

使用相应的第二强化学习技术训练辅助控制神经网络，以最大化对于对应的辅助控制任务的预期的长期时间折扣的辅助任务奖励。

2.如权利要求1所述的方法，其中，使用相应的第二强化学习技术训练辅助控制神经网络以最大化对于对应的辅助控制任务的预期的长期时间折扣的辅助任务奖励包括：

将使用相应的第二强化学习技术计算的梯度反向传播到动作选择策略神经网络中，以调整动作选择策略参数的值。

3.如权利要求1或2中任一项所述的方法，其中，观察输入包括图像，

其中，辅助控制神经网络包括像素控制神经网络，该像素控制神经网络对应于试图对于每个观察图像的一个或多个区域中的每个区域最大化该区域中的像素的变化的像素控制任务，并且

其中，对于每个观察图像，对于该一个或多个区域中的每个区域的相应奖励是从观察图像到作为代理响应于观察图像执行动作的结果而接收的下一观察图像的区域中的像素的变化导出的。

4.如权利要求3所述的方法，其中，像素控制神经网络被配置为，对于接收的观察图像：

接收对于像素控制神经网络的相应的中间输出；以及

处理相应的中间输出，以便如果代理响应于接收的观察图像执行可能动作，则对于该一个或多个区域中的每个区域以及对于要由代理执行的多个可能动作中的每个动作生成该区域中的像素的长期时间折扣变化的估计。

5.如权利要求3所述的方法，其中，像素控制神经网络为去卷积神经网络。

6.如权利要求1-2中任一项所述的方法，其中，观察输入包括图像，

其中，辅助控制神经网络包括特征控制神经网络，该特征控制神经网络对应于试图最大化由动作选择策略神经网络的特定隐藏层中的一个或多个单元生成的激活的特征控制任务，并且

其中，对于每个观察图像，对于该一个或多个单元中的每个单元的相应奖励是从在处理观察图像期间生成的激活到在处理作为代理响应于观察图像执行动作的结果而接收的下一观察图像期间生成的激活的该单元的激活中的变化导出的。

7.如权利要求6所述的方法，其中，特征控制神经网络被配置为，对于接收的观察图像：

接收对于特征控制神经网络的相应的中间输出；以及

处理相应的中间输出，以便如果代理响应于接收的观察图像执行可能动作，则对于该一个或多个单元中的每个单元以及对于要由代理执行的多个可能动作中的每个动作生成由该单元生成的激活中的长期时间折扣变化的估计。

8.如权利要求1-2中任一项所述的方法，还包括在使用第一强化学习技术训练动作选择策略神经网络期间：

在动作选择策略神经网络的训练期间训练关于代理与环境的交互的奖励预测神经网络，

其中，奖励预测神经网络具有奖励预测参数并被配置为：

接收表征作为代理与环境的交互的结果而接收的观察图像的序列的、由动作选择策略神经网络生成的一个或多个中间输出，以及

根据奖励预测参数处理该一个或多个中间输出以生成预测奖励，该预测奖励为将通过序列中的最后的观察图像之后的下一观察图像接收的奖励的估计；并且

其中，训练奖励预测神经网络包括：

基于由奖励预测神经网络生成的预测奖励来确定梯度；以及

使用梯度调整奖励预测参数和动作选择策略网络参数的值。

9.一种用于训练强化学习系统的方法，包括：

使用第一强化学习技术训练动作选择策略神经网络，

其中，动作选择策略神经网络具有多个网络参数并用于选择要由与环境交互的代理执行的动作，

其中，动作选择策略神经网络被配置为接收包括观察输入的输入并根据网络参数处理输入以生成动作选择策略输出，并且

其中，训练动作选择策略神经网络包括调整动作选择策略网络参数的值；

在使用第一强化学习技术训练动作选择策略神经网络期间：

其中，奖励预测神经网络具有奖励预测参数并被配置为：

其中，训练奖励预测神经网络包括：

基于由奖励预测神经网络生成的预测奖励来确定梯度；以及

使用梯度调整奖励预测参数和动作选择策略网络参数的值，包括将确定的梯度反向传播到动作选择策略神经网络中以调整动作选择策略参数的值。

10.如权利要求9所述的方法，其中，训练奖励预测神经网络包括：

接收通过下一观察图像接收的实际奖励；以及

训练奖励预测神经网络以减少实际奖励和估计奖励之间的损失。

11.如权利要求9-10中任一项所述的方法，其中，训练奖励预测神经网络包括从重放存储器采样观察的序列。

12.如权利要求11所述的方法，其中，采样观察的序列包括：

与通过在序列中的最后的观察之后的观察接收的实际奖励为零的序列相比，以更高的概率采样通过在序列中的最后的观察之后的观察接收的实际奖励为非零的序列。

13.如权利要求11所述的方法，其中，第一强化学习技术是演员-评论者强化学习技术，其中动作选择策略输出包括值估计和Q值，并且其中该方法还包括：

从重放存储器重新采样最近的序列；以及

对重采样的最近的序列中的观察图像的值估计执行额外值函数回归。

14.如权利要求9-10中任一项所述的方法，

其中，动作选择策略神经网络包括：

卷积编码器神经网络，生成输入的编码表示，

中间神经网络，处理输入的编码表示以生成中间表示；和

输出神经网络，处理中间表示以生成动作选择输出。

15.如权利要求10所述的方法，其中，中间神经网络是递归神经网络，并且由动作选择策略神经网络生成的表征观察图像的序列的该一个或多个中间输出是对于序列中的最后的观察图像的中间表示。

16.如权利要求10所述的方法，其中，表征观察图像的序列的、由动作选择策略神经网络生成的该一个或多个中间输出是对于序列中的观察图像的编码表示。

17.一种包括一个或多个计算机和存储指令的一个或多个存储设备的系统，该指令在由该一个或多个计算机执行时使得该一个或多个计算机执行如权利要求1-16中任一项所述的相应方法的操作。

18.一种或多种存储指令的计算机存储介质，该指令在由一个或多个计算机执行时使得该一个或多个计算机执行如权利要求1-16中任一项所述的相应方法的操作。