CN112119404A

CN112119404A - 样本高效的强化学习

Info

Publication number: CN112119404A
Application number: CN201980032627.6A
Authority: CN
Inventors: 达尼亚尔·哈夫纳; 雅各布·巴克曼; 宏拉克·李; 尤金·布雷夫多; 乔治·杰伊·塔克
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-05-18
Filing date: 2019-05-20
Publication date: 2020-12-22
Also published as: WO2019222745A1; US20210201156A1; EP3791324A1

Abstract

用于样本高效的强化学习的方法、系统和装置，包括在计算机存储介质上的编码的计算机程序。这些方法中的一种包括：维护Q网络的集合、转变模型的集合和奖励模型的集合；获得转变；使用转变模型的集合来生成M个轨迹；对于所述轨迹中的每个轨迹中的每个时间步：使用所述奖励模型的集合来针对所述时间步生成N个奖励，使用所述Q网络的集合来针对所述时间步生成L个Q值，并且根据所述奖励、Q值和训练奖励，针对所述轨迹并针对所述时间步确定L*N个候选目标Q值；对于所述时间步中的每个时间步，组合所述候选目标Q值；确定最终目标Q值；以及使用所述最终目标Q值来训练所述集合中的Q网络的至少一个。

Description

样本高效的强化学习

背景技术

本申请涉及强化学习，尤其涉及用于与现实环境交互的代理的强化学习。

在强化学习系统中，代理通过执行动作来与环境交互，所述动作是由所述强化学习系统响应于接收到用于表征所述环境当前状态的观察结果而选择的。

一些强化学习系统根据神经网络的输出响应于接收到给定的观察结果来选择将由所述代理执行的动作。

神经网络是机器学习模型，其采用一层或多层非线性单元来预测针对接收到的输入的输出。一些神经网络是深度神经网络，除了输出层外，其还包括一个或多个隐藏层。每个隐藏层的输出用作所述网络中下一层——即，下一个隐藏层或输出层——的输入。所述网络的每一层根据相应的参数集的当前值从所接收的输入生成输出。

发明内容

本申请一般地描述一种用于训练Q神经网络的强化学习系统。在一些情况下，所述Q神经网络用于训练策略神经网络，该策略神经网络然后用于通过强化学习代理(例如机器人或其它机械代理)与物理真实世界环境交互来选择要执行的动作。在其它情况下，Q神经网络直接用于通过强化学习代理与环境交互来选择要执行的动作。

在训练期间，所述系统维护Q网络的集合(ensemble)，每个Q网络是神经网络，其被配置成：接收Q网络输入，所述Q网络输入包括(i)用于表征由代理与之交互的环境的状态的输入观察结果、和(ii)用于从动作集中标识一个动作的数据，并且处理该Q网络输入以针对输入观察结果-动作对生成Q值。

所述系统也维护转变模型的集合，每个转变模型被配置成：接收转变输入，所述转变输入包括(i)输入观察结果和(ii)由所述代理响应于所述输入观察结果而执行的动作，并且处理该转变输入以生成预测下一个观察结果，所述预测下一个观察结果用于表征作为所述代理响应于所述观察结果而执行动作的结果而由所述环境所转变成的状态。

所述系统也维护奖励模型的集合，每个奖励模型被配置成：接收奖励输入，所述奖励输入包括(i)输入观察结果、(ii)由代理响应于输入观察结果而执行的动作、和(iii)表征作为所述代理响应于观察结果而执行动作的结果而由所述环境所转变成的状态的下一个观察结果，并且处理该奖励输入以生成由所述代理响应于执行动作而接收到的预测奖励。

所述系统然后使用Q网络、转变模型和奖励模型的集合来针对转变生成目标Q值，然后使用那些目标Q值来训练Q网络的集合。特别地，所述系统从单个转变生成多个不同的轨迹，然后从所述多个轨迹内的多个不同的时间步时起在目标Q值之间内插以针对所述转变确定最终目标Q值。

可以实施本说明书中描述的主题的特定实施例，以实现以下优点中的一个或多个。

基于模型的强化学习方案使用环境动力学模型来在策略神经网络的训练期间预测所述环境的将来状态。这些方案能够产生高性能策略，同时大大减少学习策略所需要的复杂度和时间。然而，在具有复杂动力学的环境中，例如，在由机器人或其它机械代理与之交互的真实世界环境中，由所述动力学模型做出的预测将容易出错并将偏差引入到学习过程中。这常常使得使用动力学模型的现有方案未能学习高性能策略。然而，所描述的技术考虑到在复杂环境中出现的动力学模型中的偏差和不确定性，以甚至对于非常复杂的任务也允许以高得多的样本效率来学习有效策略。特别地，通过采用模型的集合并组合既来自不同长度的轨迹又来自相同长度的多个轨迹的目标输出，所描述的技术能够考虑动力学模型的不确定性和Q网络偏差，同时仍然减少来自所述环境的学习有效策略所需要的实际样本的数目。这在所述代理是与真实环境交互的机器人或其它机械代理的情况下是特别有利的，因为从所述环境收集实际样本增加了所述代理的磨损，增大了所述代理的机械故障的机会，并且是非常时间密集的。附加地，即便当维护所述环境的高度准确的模型是可能的时，所描述的技术也能够允许采用可能不那么准确的不太计算密集的模型，从而减少所述训练过程的计算开销。作为特定示例，所描述的技术能够用于以计算高效的方式学习用于在连续控制任务中控制代理的有效策略，所述连续控制任务即其中要由所述代理执行的动作的空间是连续的任务。

本申请中描述的主题的一个或多个实施例的细节在附图和以下描述中阐述。根据说明书、附图和权利要求书，本主题的其它特征、方面和优点将变得显而易见。

附图说明

图1示出示例的强化学习系统。

图2示出使用轨迹模型的集合来生成轨迹的示例。

图3是用于训练Q网络的集合的示例过程的流程图。

图4是用于产生组合的候选目标Q值的示例过程的流程图。

图5是用于为轨迹中的时间步生成候选目标Q值的示例过程的流程图。

在各个附图中，相同的附图标记和名称表示相同的元件。

具体实施方式

本申请描述了一种强化学习系统，该强化学习系统通过在多个时间步中的每个时间步处理用于表征环境在该时间步的当前状态的数据(即，“观察结果(observation)”)来控制与所述环境交互的代理以选择要由该代理执行的动作。

在每个时间步，所述环境在该时间步的状态取决于所述环境在前一个时间步的状态和由所述代理在所述前一个时间步执行的动作。

在一些实施方式中，所述环境是真实世界环境并且所述代理是与真实世界环境交互的机械代理，例如，通过所述环境导航的机器人或自主或半自主陆地、空中或海上交通工具。

在这些实施方式中，所述观察结果可以包括例如以下各项中的一种或多种：图像、对象方位数据以及用于在所述代理与环境交互时捕获观察结果的传感器数据，例如来自图像、距离或方位传感器或来自致动器的传感器数据。

例如在机器人的情况下，所述观察结果可以包括表征所述机器人的当前状态的数据，例如，以下各项中的一种或多种：关节方位、关节速度、关节力、扭矩或加速度，例如，重力补偿的扭矩反馈以及由所述机器人保持的物品的全局或相对姿势。

在机器人或其它机械代理或交通工具的情况下，所述观察结果可以类似地包括所述代理的一个或多个零件的方位、线速度或角速度、力、扭矩或加速度和全局或相对姿势中的一个或多个。可以在1维、2维或3维上定义所述观察结果，并且所述观察结果可以是绝对和/或相对观察结果。

所述观察结果也可以包括例如感测到的电子信号，诸如电机电流或温度信号；和/或例如来自相机或LIDAR传感器的图像或视频数据，例如，来自所述代理的传感器的数据或来自在所述环境中与所述代理分开地定位的传感器的数据。

在电子代理的情况下，所述观察结果可以包括来自用于监视工厂或服务设施的一部分的一个或多个传感器的数据，诸如表示装备的电子和/或机械物品的功能的电流、电压、功率、温度及其它传感器和/或电子信号。

在这些实施方式中，所述动作可以是用于控制所述机器人的控制输入，例如，用于所述机器人的关节的扭矩或更高级的控制命令，或者是用于控制自主或半自主陆地、空中、海上交通工具的控制输入，例如，到交通工具的控制面或其它控制元件的扭矩或更高级的控制命令。

换句话说，所述动作能够包括例如机器人的一个或多个关节或另一机械代理的零件的方位、速度或力/扭矩/加速度数据。动作数据可以附加地或替换地包括诸如电机控制数据的电子控制数据，或更一般地用于控制在所述环境内的一个或多个电子设备的数据，对这些电子设备的控制对所述环境的观察状态有影响。例如在自主或半自主陆地或空中或海上交通工具的情况下，所述动作可以包括用于控制导航(例如转向)和移动(例如，交通工具的制动和/或加速)的动作。

在某些其它应用中，所述代理可以在包括装备的物品的真实世界环境中控制动作，例如在数据中心中、在电力/水分配系统中或者在制造工厂或服务设施中。所述观察结果然后可能与所述工厂或设施的操作有关。例如，所述观察结果可以包括对由装备的电力或水使用的观察结果、或对发电或配电控制的观察结果、或对资源使用或废物产生的观察结果。所述动作可以包括用于控制或将操作条件强加于所述工厂/设施的装备的物品上的动作，和/或用于导致所述工厂/设施的操作设定变化的动作，例如用于调整或打开/关闭所述工厂/设施的部件。

图1示出示例强化学习系统100。强化学习系统100是被实施为在一个或多个位置中的一个或者多个计算机上的计算机程序的系统的示例，其中下述的系统、组件或者技术被实施。

系统100通过选择要由代理102执行的动作106来控制与环境104交互的代理102，所述动作使所述环境的状态转变成新状态。

系统100包括策略神经网络110、训练引擎116以及所述策略神经网络110的模型参数118的集合。

在多个时间步的每个时间步，所述策略神经网络110被配置成依照模型参数118处理包括表征所述环境104的当前状态的当前观察结果120的输入以生成动作选择输出122(“动作选择策略”)。

所述系统100使用所述动作选择输出122来选择要由所述代理在当前时间步执行的动作106。接下来描述使用所述动作选择输出122来选择要由所述代理执行的动作106的一些示例。

在一个示例中，所述动作选择输出122可以包括在能够由所述代理执行的可能动作的集合中的每个动作的相应的数值概率值。所述系统100能够例如通过依照动作的概率值对动作进行采样或者通过选择具有最高概率值的动作来选择要由所述代理执行的动作。

在另一示例中，动作选择输出122可以例如通过定义应该被施加到机器人代理的关节的扭矩的值来直接定义要由所述代理执行的动作。

在另一示例中，动作选择输出122可以包括在能够由代理执行的可能动作的集合中的每个动作的相应的Q值。所述系统100能够处理所述Q值(例如，使用soft-max函数)以生成每个可能动作的相应的概率值，这些概率值能够用于选择要由所述代理执行的动作(如早前所描述的)。所述系统100也能选择具有最高Q值的动作作为要由所述代理执行的动作。

用于动作的Q值是对将由以下步骤产生的“回报(return)”的估计：所述代理响应于当前观察结果120而执行所述动作，以及之后依照所述策略神经网络参数的当前值选择由所述代理102执行的将来动作。

回报是指由所述代理接收到的“奖励(rewards)”124的累积量度，例如，奖励的时间折扣和。所述代理能够在每个时间步接收相应的奖励124，其中所述奖励124由标量数值指定并且表征例如所述代理朝向完成指派任务的进度。

在一些情况下，所述系统100能够依照探索策略选择要由所述代理执行的动作。例如，探索策略可以是“∈-贪婪探索”策略，其中所述系统100以概率1-∈根据所述动作选择输出122来选择要由所述代理执行的动作，并且以概率∈随机地选择所述动作。在此示例中，∈是介于0与1之间的标量值。

策略神经网络110能够具有各种神经网络架构中的任一种。例如，策略神经网络110的架构可以包括一个或多个卷积层的序列，其后是递归层(例如，长短期记忆(LSTM)层)和用于生成所述动作选择策略的输出层。作为另一示例，所述架构可以是前馈神经网络的架构，例如，具有四个、六个或八个全连接层的堆叠。

所述训练引擎116被配置成通过基于所述代理与所述环境的交互而重复地更新所述策略神经网络110的模型参数118来训练所述策略神经网络110。

特别地，在训练期间，作为所述代理与环境交互的结果而生成的转变被存储在转变缓冲器114中。每个转变包括初始观察结果、由所述代理响应于初始观察结果而执行的动作、奖励以及用于表征所述环境的下一个状态的下一个观察结果。

训练引擎116能够训练所述策略神经网络110以通过对来自转变缓冲器114的转变进行采样而使用强化学习技术来增加由所述代理接收到的回报(即，奖励的累积量度)。因为奖励测量所述代理在完成任务时的进度，所以训练所述策略神经网络110以增加回报导致了所述代理能够在受所述策略神经网络110控制的同时成功地完成所指定的任务。

特别地，所述训练引擎116维护L个Q网络160A-L的集合、M个转变模型150A-M的集合和N个奖励模型140A-N的集合。通常，L、M和N都是大于一的固定整数值并且可以是相同的值或者可以彼此不同。

所述集合中的每个Q网络是神经网络，该神经网络被配置成接收包括(i)用于表征由所述代理与之交互的环境的状态的输入观察结果和(ii)用于从动作的集合中标识一个动作的数据的Q网络输入，并且处理该Q网络输入以针对输入观察结果-动作对生成Q值。

在一些情况下，所述Q网络的集合在一起是所述策略神经网络110，即，所述系统100使用由在所述集合中的Q网络所生成的输出来控制所述代理，并且所述模型参数118是所述Q网络的集合的参数。

在其它情况下，所述系统在更新分开的策略神经网络110的模型参数118时使用所述Q网络的集合。

作为特定示例，策略神经网络110能够生成动作选择输出122，所述动作选择输出例如通过定义应该被施加到机器人代理的关节的扭矩的值来直接定义要由所述代理执行的动作，并且所述训练引擎116能够使用所述Q网络160来运用策略梯度强化学习技术(例如深度确定性策略梯度(DDPG)强化学习技术)来更新所述策略神经网络110的模型参数118。换句话说，所述训练引擎116能够使用策略梯度技术来与所述策略神经网络110联合地训练所述Q网络。当动作空间是连续的时，能够采用这个方案。

作为另一特定示例，所述策略神经网络110能够生成用于在要由所述代理执行的可能动作上定义概率分布的动作选择输出122，并且所述训练引擎116能够使用所述Q网络160以运用行动者-评论家(actor-critic)强化学习技术(例如异步优势行动者-评论家(A3C)强化学习技术)来更新所述策略神经网络110的模型参数118。换句话说，所述训练引擎116能够使用行动者-评论家技术来与所述策略神经网络110联合地训练所述Q网络。

通常，所述系统在训练开始时独立地初始化所述集合中的每个Q网络的参数值，并且如下所述，在不同的训练数据上训练每个Q网络，使得所述Q网络的参数的值将在所述训练期间全部不同。

所述集合中的每个转变模型被配置成：接收转变输入，所述转变输入包括(i)输入观察结果和(ii)由所述代理响应于输入观察结果而执行的动作；并且，处理该转变输入以生成用于表征作为所述代理响应于观察结果执行所述动作的结果而由所述环境转变成的状态的预测下一个观察结果。换句话说，所述转变模型被配置成预测所述代理在所述环境处于由所述输入观察结果表征的状态时执行所述输入动作对所述环境的影响。

所述集合中的每个奖励模型被配置成：接收奖励输入，所述奖励输入包括(i)输入观察结果、(ii)由所述代理响应于输入观察结果而执行的动作、和(iii)用于表征作为所述代理响应于观察结果执行动作的结果而由所述环境转变成的状态的下一个观察结果；并且，处理该奖励输入以生成由所述代理响应于执行所述动作而接收到的预测奖励。

所述Q网络、转变模型和奖励模型能够具有各种模型架构中的任一种。例如，所述集合中的所有模型都可以是神经网络。这些神经网络中的任一个或全部的架构能够包括一个或多个卷积层的序列，之后是递归层(例如，长短期记忆(LSTM)层)和用于生成适当输出的输出层。作为另一示例，所述架构可以是前馈神经网络的架构，例如，具有四个、六个或八个全连接层的堆叠。在另一示例中，所述Q网络可以是具有以上架构中的一种的神经网络，同时所述奖励模型、转变模型或两者是其它类型的机器学习模型，例如，随机森林、支持向量机、基于决策树的模型等等。

所述训练引擎116使用所述Q网络、转变模型和奖励模型的集合来针对从转变缓冲器114采样的转变而生成目标Q值，然后使用那些目标Q值来训练所述Q网络的集合，这些Q网络共同地组成所述策略神经网络110或者用于重复地更新所述策略神经网络110的模型参数，即，使用上述技术中的一种。

特别地，在对来自转变缓冲器114的转变进行采样时，所述训练引擎116使用所述策略神经网络110和所述轨迹模型的集合来生成多个不同的轨迹。

也就是说，所述引擎116从单个转变生成多个不同的轨迹。

图2示出使用轨迹模型的集合来生成轨迹的示例。

在图2的示例中，接收转变210，该转变包括用于表征所述环境的状态的初始训练观察结果s、由所述代理响应于所述初始观察结果s而执行的训练动作a、用于表征在所述代理响应于所述观察结果s而执行了动作a之后所述环境所转变成的状态的下一个训练观察结果s’、以及响应于所述代理执行所述动作a而接收到的训练奖励r。

为了使用所述转变来训练所述Q网络的集合，所述系统使用转变模型的集合和转变210来生成轨迹数据220。

在图2的示例中，所述轨迹数据包括三个轨迹230、240和250，其中每个轨迹是使用与所述转变模型的集合不同的转变模型来生成的。

每个轨迹230、240和250包括在相同预定数目的时间步的观察结果，即，每个轨迹是相同的长度。特别地，在图2的示例中，每个轨迹包括在时间步0的下一个训练观察结果s’，然后包括在时间步1、2和3的又三个预测观察结果。

特别地，为了在第一观察结果s’之后生成在给定轨迹中的下一个观察结果，所述系统使用控制策略(即，使用上述动作选择策略)来选择动作。如果所述策略是随机的，则动作a_0,1、a_0,2和a_0,3可以是不同的。如果所述策略是确定性的，则考虑到每个轨迹从相同的下一个训练观察结果开始，所述动作a_0,1、a_0,2和a_0,3将都是相同的。

所述系统然后使用与所述轨迹相对应的转变模型来处理包括下一个观察结果和所选动作的转变输入以生成预测观察结果，即，观察结果s_1,1、观察结果s_1,2或观察结果s_1,3。因为所述转变模型将通常具有不同的参数值，所以即使动作a_0,1、a_0,2和a_0,3都是相同的，所述观察结果s_1,1、观察结果s_1,2或观察结果s_1,3也将通常都是不同的。

以轨迹240为例，所述系统然后再次使用所述控制策略并从所述观察结果s_1,1开始选择动作a_1,1并且使用与轨迹240相对应的转变模型来生成预测观察结果s_2,1。所述系统然后从预测观察结果s_2,1开始重复这个过程以选择动作a_2,1并生成预测观察结果s_3,1。换句话说，所述系统继续针对每个轨迹生成新观察结果，直到每个轨迹在预定数目的时间步包括相应的观察结果为止。

所述系统也针对每个轨迹中的每个时间步生成奖励。虽然图2仅示出每时间步和每轨迹的单个奖励，例如，为了易于图示，针对轨迹240中的时间步2的奖励r_2,1，但是所述系统实际上在每轨迹中每时间步生成N个奖励，即，针对在所述奖励模型的集合中的N个奖励模型的每一个各生成一个奖励。

虽然在图2中未示出，但是所述系统也每时间步和每轨迹生成L个Q值，即，针对在Q网络的集合中的L个Q网络的每一个各生成一个Q值。

所述系统然后使用在轨迹240、250和260的每个轨迹中的时间步中的每个时间步的L个Q值和N个奖励来针对所述转变210计算目标Q值，然后使用该目标Q值来训练在所述集合中的所述Q网络的一个或多个。

通常，所述系统以如下方式计算目标Q值：从在多个轨迹内的各种不同的时间步时起在所述目标Q值之间动态地内插，即，针对每个单独的转变在各种水平长度的轨迹之间动态地内插。在这样做时，所述系统确保所述训练过程保持低采样复杂度和基于模型的强化学习的其它好处，同时也确保不管所述转变模型和奖励模型固有地为不完美的预测器，使用所述转变模型和奖励模型来预测所述环境的将来状态都不会将显著错误引入到所述目标Q值中。换句话说，所述系统确保由所述转变模型和奖励模型所造成的误差不会阻止所述系统为所述代理学习有效控制策略。

在下面参考图3-5更详细地描述这种训练。

图3是用于训练Q网络的集合的示例过程300的流程图。为了方便，将过程300描述为由位于一个或多个位置中的一个或多个计算机的系统执行。例如，被适当地编程的强化学习系统(例如图1的强化学习系统100)能够执行所述过程300。

所述系统能够针对从存储在所述代理与环境交互期间所生成的转变的存储器中采样的转变的最小批次中的每个转变来执行所述过程300。

通过针对最小批次重复地执行过程300，所述系统训练Q网络的集合，使得该集合能够用于有效地控制所述代理(当所述Q网络直接用于控制所述代理时)或者用于改善对正在与所述Q网络的集合联合地训练的策略神经网络的训练。

所述系统获得转变(步骤302)。所述转变包括(i)初始训练观察结果、(ii)训练动作、(iii)训练奖励、以及(iv)下一个训练观察结果。如上所述，所述训练动作是由所述代理响应于初始观察结果而执行的动作，所述训练奖励是响应于所述代理执行所述训练动作而接收到的奖励，而所述下一个训练观察结果表征在所述代理执行所述训练动作之后所述环境所转变成的状态。

所述系统使用所述转变模型的集合来生成M个轨迹(步骤304)。也就是说，所述系统使用所述集合中的M个转换模型的每个转换模型来生成相应的轨迹。所述M个轨迹中的每个轨迹均从所述转变中的下一个训练观察结果开始并且在预定数目的时间步中的每个时间步包括相应的观察结果。

特别地，为了使用转变模型来生成轨迹，所述系统使用某种动作选择策略来选择要响应于所述下一个观察结果而执行的动作。

所述系统然后处理包括(i)下一个观察结果和(ii)使用转变模型来标识所选动作的数据的转变输入，以生成用于表征作为所述代理响应于所述下一个观察结果执行所选动作的结果而由所述环境所转换成的状态的预测下一个观察结果。

所述系统能够继续选择动作，然后使用转变模型来生成预测观察结果，直到所述轨迹在预定数目的时间步中的每个时间步包括观察结果为止。

在一些实施方式中，由所述系统采用的动作选择策略是使用所述策略神经网络来选择每个动作，所述策略神经网络正在使用Q网络的集合被训练。

在一些其它实施方式中，由所述系统采用的动作选择策略是使用以下各项来选择每个动作：(i)所述Q网络中的相应一个、(ii)具有作为所述集合中的Q网络的参数的较旧副本的参数值的Q网络、(iii)所述集合中的Q网络的输出的平均值。在这些实施方式中，所述系统能够选择当随着所述观察结果被处理时具有最高Q值的动作。

所述系统针对每个轨迹中的每个时间步生成L*N个候选目标Q值(步骤306)。特别地，对于轨迹中的给定时间步，所述系统使用L个Q网络和N个奖励模型的每个可能的组合来生成相应的目标Q值，结果得到针对给定轨迹中的给定时间步所生成的L*N个候选目标Q值。在下面参考图5更详细地描述生成候选目标Q值。

所述系统针对来自M个轨迹的时间步来组合M*L*N个候选目标Q值，以针对该时间步生成组合候选目标Q值(步骤308)。即，所述系统跨过所有M个轨迹针对所述时间步来组合M*L*N个候选目标Q值，以针对该时间步生成组合候选目标Q值。在下面参考图4更详细地描述针对时间步生成组合候选目标Q值。

所述系统从针对时间步的组合目标Q值确定用于所述转变的最终目标Q值(步骤310)。例如，所述系统能够针对时间步计算组合目标Q值的和或平均数以生成最终目标Q值。

所述系统使用最终目标Q值来训练Q网络中的至少一个(步骤312)。

作为特定示例，能够将最小批次中的每个转变指派给所述集合中的Q网络中的相应一个。即，能够将所述最小批次中的转变分割成随机分区，其中每个分区被指派给所述集合中的Q网络中的相应一个。在此示例中，所述系统使用最终目标Q值来训练被指派了所述转变的Q网络，并且通过针对所述最小批次中的所有转变执行所述过程300，所述系统训练所述集合中的所有Q网络。

为了使用最终目标Q值来训练Q网络，所述系统使用Q网络来在所述转变中处理初始观察结果和初始动作以生成Q值，然后通过反向传播来确定在所述Q值与最终目标Q值之间的误差(例如，差的平方)相对于所述Q网络参数的梯度。所述系统然后能够，例如依照用于优化器的更新规则(例如Adam更新规则、rmsProp更新规则或随机梯度下降更新规则)，针对在最小批次中被指派给所述Q网络的所有转变使用所计算的梯度来更新所述Q网络参数的值。

在一些情况下，所述系统使用所述Q网络的参数的较旧副本来执行生成最终目标Q值所必需的步骤。也就是说，所述系统为所述集合中的Q网络的参数维护当前值和较旧值，并且在所述训练期间仅周期性地更新所述较旧值以与当前值匹配。所述系统能够在更新所述策略神经网络时使用当前值，而在生成目标Q值以用于训练所述Q网络的集合时使用较旧值。

图4是用于生成组合候选目标Q值的示例过程400的流程图。为了方便，将所述过程400描述为由位于一个或多个位置中的一个或多个计算机的系统执行。例如，适当编程的强化学习系统，例如图1的强化学习系统100，能够执行所述过程400。

所述系统针对时间步确定M*L*N个候选目标Q值的集中趋势的量度(步骤402)。换句话说，所述系统跨过所有M个轨迹针对时间步计算M*L*N个候选目标Q值的集中趋势的量度，例如，均值或中值。

所述系统针对时间步确定M*L*N个候选目标Q值的变化的量度(步骤404)。换句话说，所述系统跨过所有M个轨迹针对时间步计算M*L*N个候选目标Q值的变化的量度，例如，方差、标准偏差或数值稳定的标准偏差。

所述系统基于针对时间步的集中趋势的量度和变化的量度来针对时间步生成组合候选目标Q值(步骤406)。特别地，所述组合候选目标Q值能够满足：

其中，

是集中趋势的量度，

是变化的量度，并且j范围遍及所述轨迹中的所有时间步。

图5是用于针对在轨迹中的时间步生成候选目标Q值的示例过程500的流程图。为了方便，将所述过程500描述为由位于一个或多个位置中的一个或多个计算机的系统执行。例如，适当编程的强化学习系统，例如图1的强化学习系统100，能够执行所述过程500。

所述系统能够针对在每个轨迹中的每个时间步执行所述过程500，以针对在每个轨迹中的每个时间步生成L*N个候选目标Q值。

所述系统使用奖励模型的集合来针对时间步生成N个奖励(步骤502)。特别地，所述系统使用所述集合中的N个奖励模型中的每个奖励模型来处理奖励输入以针对该时间步生成N个奖励，所述奖励输入包括在在前时间步的观察结果、响应于在在前时间步的观察结果而执行的动作和在该时间步的观察结果。

所述系统使用Q网络的集合来针对时间步生成L个Q值(步骤504)。特别地，所述系统处理Q网络输入，所述Q网络输入包括(i)在所述时间步的观察结果和(ii)用于标识从动作集中响应于在所述时间步的观察结果而执行的动作的数据，并且使用L个Q网络中的每个Q网络来处理该Q网络输入以生成L个Q值。

所述系统根据所述N个奖励、L个Q值和训练奖励，针对时间步确定L*N个候选目标Q值(步骤506)。

为了针对时间步生成候选目标Q值，所述系统针对(i)来自N个奖励模型的奖励模型和(ii)来自L个Q网络的Q网络的每个组合计算相应的基于模型的值扩展目标。特别地，根据奖励模型n和Q网络l针对在给定轨迹中的给定时间步H的候选目标Q值满足：

其中r是训练奖励，Dⁱ是从时间步i时起所述轨迹尚未达到终止状态的概率，所述终止状态即当所述环境转变成该状态时任务已成功地完成或者已满足某个其它终止准则的状态，γ是介于零与一之间的固定折扣因子，r_n(s_i-1，a_i-1，s_i)是由奖励模型n针对时间步i生成的奖励，并且Q_l(s_H，a_H)是针对所述时间步H的Q值。

所述系统能够以各种方式中的任一种计算所述概率Dⁱ。例如，所述系统能够访问将某些状态标识为终止状态的数据。所述系统能够使用此数据来确定在所述轨迹中的任何给定状态是否为终止状态，并且能够向在所述轨迹中在作为终止状态的第一状态之前的每个状态指派为一的概率，而向第一终止状态和在所述轨迹中在第一终止状态之后的每个状态指派为零的概率。

作为另一示例，所述系统能够维护终止模型，该终止模型接收观察结果作为输入并且返回由所述观察结果表征的状态为终止状态的概率。在此示例中，所述系统能够计算

其中d(s_j)是终止模型针对在时间步j的观察结果的输出。

因为所述系统使用奖励模型和Q网络的每一可能的组合来如上所述计算所述候选目标Q值，所以对于在给定轨迹中的每个时间步，所述结果是L*N个候选目标Q值。

在一些情况下，所述奖励模型和转变模型的参数值是固定的，即，在训练所述Q网络的集合之前预先训练所述奖励模型和转变模型。在其它情况下，像在所述集合中的Q网络一样，所述系统在最小批次中的转变的子集上训练每个奖励模型和每个转变模型。

特别地，所述系统能够使用监督学习来训练所述奖励模型、转变模型和终止模型(当使用时)以使以下损失函数最小化：

E(||T(s，a)-s′||²+H(de(s′)，d(T(s，a)))+(r(s，a，s′)-r)²)，

其中E是期望函数，T(s,a)是通过在所述转变中处理初始观察结果和初始动作的预测观察结果，s′是在所述转变中的下一个观察结果，H是交叉熵函数，并且de(s’)是当所述下一个观察结果表征终止状态时返回1否则返回0的指示函数。

以上描述表明模型的集合用于在不同轨迹(即由转变模型生成的不同转变、由奖励模型生成的不同奖励和由Q网络生成的不同Q值)之间生成不确定性和变化。然而，应该理解，用于将不确定性并入到由机器学习模型做出的预测中的其它技术能够替换本说明书中的集合中的任一个或全部。例如，这些集合中的一个或多个能够替代地用单个贝叶斯神经网络替换，并且所述系统能够从同一贝叶斯神经网络采样多次以生成被描述为由所述集合生成的输出。作为另一示例，这些集合中的一个或多个能够替代地用单个神经网络替换，并且所述系统能够使用Dropout来丢弃即禁用在所述神经网络中的不同节点集以生成必要的多个输出。

尽管已主要在物理真实世界环境的情景中描述了主题技术，但是可以理解，也可以与非真实世界环境一起利用本文描述的技术。例如，在一些实施方式中，所述环境可以是模拟环境，并且可以将所述代理实施为与该模拟环境交互的一个或多个计算机。

所述模拟环境可以是运动模拟环境，例如，驾驶模拟或飞行模拟，并且所述代理可以是通过运动模拟导航的模拟交通工具。在这些实施方式中，所述动作可以是用于控制模拟用户或模拟交通工具的控制输入。

在另一个示例中，所述模拟环境可以是视频游戏，并且所述代理可以是玩视频游戏的模拟用户。通常，在模拟环境的情况下，所述观察结果可以包括一个或多个先前描述的观察结果或观察结果类型的模拟版本，并且所述动作可以包括一个或多个先前描述的动作或动作类型的模拟版本。

本说明书结合系统和计算机程序组件使用术语“配置”。对于一个或多个要被配置为执行特定操作或动作的计算机的系统，意味着该系统已在其上安装了软件、固件、硬件或它们的组合，这些软件、固件、硬件或它们的组合在操作中使所述系统执行这些操作或动作。对于要被配置为执行特定操作或动作的一个或多个计算机程序，意味着该一个或多个程序包括指令，该指令在由数据处理装置执行时使该装置执行该操作或动作。

本说明书中描述的主题和功能操作的实施例可以在数字电子电路中、在有形体现的计算机软件或固件中、在计算机硬件中(包括在本说明书中公开的结构及其等同结构)、或它们中的一种或多种的组合中实施。本说明书中描述的主题的实施例可以被实施为一个或多个计算机程序，即，在有形的非暂时性存储介质上编码的计算机程序指令的一个或多个模块，以由数据处理装置执行或控制数据处理装置的操作。计算机存储介质可以是机器可读存储设备、机器可读存储基质、随机或串行访问存储设备或它们中的一种或多种的组合。可替代地或另外地，所述程序指令可以被编码在人工生成的传播信号(例如，机器生成的电、光或电磁信号)上，该传播信号被生成以对信息进行编码以传输到合适的接收器装置，以由数据处理装置来执行。

术语“数据处理装置”是指数据处理硬件，并且包括用于处理数据的各种装置、设备和机器，例如，包括可编程处理器、计算机或多个处理器或计算机。该装置还可以是或进一步包括专用逻辑电路，例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除硬件之外，该装置可以可选地包括为计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一种或多种的组合的代码。

可以以任何形式的编程语言(包括编译或解释语言、声明性或过程性语言)来编写计算机程序，所述计算机程序也可以被称为或描述为程序、软件、软件应用、应用、模块、软件模块、脚本或代码；它可以以任何形式进行部署，包括作为独立程序或作为模块、组件、子例程或适用于计算环境的其它单元进行部署。程序可以但不必对应于文件系统中的文件。程序可以存储在用于保存其它程序或数据(例如，存储在标记语言文档中的一个或多个脚本)的文件的一部分中，存储在专用于所讨论的程序的单个文件中或存储在多个协调文件(例如，存储一个或多个模块、子程序或部分代码的文件)中。可以部署计算机程序以在位于一个站点上或分布在多个站点上并通过数据通信网络互连的一台计算机或多台计算机上执行。

在本说明书中，术语“数据库”被广泛地用于指代任何数据集合：该数据不需要以任何特定的方式来构造，或者根本不需要被构造，并且可以被存储在一个或多个位置处的存储设备中。因此，例如，索引数据库可以包括多个数据集合，每个数据集合可以被不同地组织和访问。

类似地，在本说明书中，术语“引擎”广泛用于指代被编程以执行一个或多个特定功能的基于软件的系统、子系统或过程。通常，引擎将被实施为安装在一个或多个位置处的一台或多台计算机上的一个或多个软件模块或组件。在某些情况下，一台或多台计算机将专用于特定引擎；在其它情况下，可以在相同的一台或多台计算机上安装并运行多个引擎。

本说明书中描述的过程和逻辑流程可以由一个或多个可编程计算机来执行，该一个或多个可编程计算机执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能。所述过程和逻辑流程还可以由专用逻辑电路(例如，FPGA或ASIC)执行，或者由专用逻辑电路和一个或多个编程计算机的组合来执行。

适用于执行计算机程序的计算机可以基于通用或专用微处理器或两者，或者基于任何其它种类的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于行使或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储设备。所述中央处理单元和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备(例如，磁性、磁光盘或光盘)，或可操作地耦合一个或多个大容量存储设备(例如，磁性、磁光盘或光盘)，以从所述一个或多个大容量存储设备接收数据或将数据传输到上述一个或多个大容量存储设备，或两者。但是，计算机不是必须具有此类设备。此外，计算机可以被嵌入到另一个设备中，例如，移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏机、全球定位系统(GPS)接收器或便携式存储设备，例如，通用串行总线(USB)闪存驱动器，仅举几例。

适用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储设备，包括例如半导体存储设备，例如，EPROM、EEPROM和闪存设备；磁盘，例如，内部硬盘或可移动磁盘；磁光盘；以及CD ROM和DVD-ROM光盘。

为了提供与用户的交互，本说明书中描述的主题的实施例可以在具有显示设备以及键盘和指示设备的计算机上实施，该显示设备例如是CRT(阴极射线管)或LCD(液晶显示器)监视器，用于向用户显示信息；所述键盘和指示设备例如是鼠标或轨迹球，用户可以通过所述键盘和指示设备向计算机提供输入。其它种类的设备也可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如，视觉反馈、听觉反馈或触觉反馈；并且可以以任何形式接收来自用户的输入，包括声音、语音或触觉输入。另外，计算机可以通过向用户使用的设备发送文档以及从用户使用的设备接收文档来与用户进行交互；例如，通过响应从网络浏览器收到的请求，将网页发送到用户设备上的网络浏览器。而且，计算机可以通过将文本消息或其它形式的消息发送到个人设备(例如，运行消息收发应用的智能手机)并且进而从用户接收响应消息来与用户交互。

用于实施机器学习模型的数据处理设备还可以包括例如专用硬件加速器单元，用于处理机器学习训练或生产(即，推断、工作负载)的公共部分和计算密集部分。

可以使用机器学习框架(例如，TensorFlow框架、Microsoft Cognitive Toolkit框架、Apache Singa框架或Apache MXNet框架)来实施和部署机器学习模型。

本说明书中描述的主题的实施例可以在计算系统中实施，所述计算系统包括后端组件(例如，作为数据服务器)、或者包括中间件组件(例如，应用服务器)、或者包括前端组件(例如，具有图形用户界面、Web浏览器或应用程序的客户端计算机，用户可通过所述图形用户界面、网络浏览器或应用程序与本说明书中描述的主题的实施方案进行交互)、或者包括一个或多个此类后端、中间件或前端组件的任意组合的。所述系统的组件可以通过数字数据通信的任何形式或媒介(例如，通信网络)互连。通信网络的示例包括局域网(LAN)和广域网(WAN)，例如，互联网。

所述计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离，并且通常通过通信网络进行交互。客户端和服务器之间的关系是通过在各自计算机上运行并彼此具有客户端-服务器关系的计算机程序产生的。在一些实施例中，服务器向用户设备发送数据，例如，HTML页面，例如，用于向与充当客户端的设备交互的用户显示数据并从该用户接收用户输入。可以在服务器处从设备接收在用户设备处生成的数据，例如，用户交互的结果。

尽管本说明书包含许多特定的实施细节，但是这些细节不应被解释为对任何发明的范围或所要求保护的内容的范围的限制，而应解释为对特定于特定发明的特定实施例的特征的描述。在分开的实施例的上下文中在本说明书中描述的某些特征也可以在单个实施例中组合实施。相反，在单个实施例的上下文中描述的各种特征也可以在多个实施例中分别实施，或以任何合适的子组合来实施。而且，尽管以上可以将特征描述为以某些组合起作用并且甚至最初是这样主张的，但是在一些情况下，可以从该组合中删除所要求保护的组合中的一个或多个特征，并且可以将所要求保护的组合指向子组合或子组合的变体。

类似地，尽管以特定次序在附图中描绘了操作并在权利要求中对其进行了叙述，但这不应理解为要求以所示的特定次序或以顺序次序执行这些操作，或者要求执行所有图示的操作，以获得期望的结果。在某些情况下，多任务和并行处理可能是有利的。而且，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中都需要这种分离，并且应当理解，所描述的程序组件和系统通常可以被一起集成在单个软件产品中，或封装成多个软件产品。

已经描述了主题的特定实施例。其它实施例处于所附权利要求的范围内。例如，权利要求中叙述的动作可以以不同的次序执行并且仍然实现期望的结果。作为一个示例，附图中描绘的过程不一定需要所示的特定次序或顺序次序来实现期望的结果。在一些情况下，多任务和并行处理可能是有利的。

权利要求如前所述。

Claims

1.一种计算机实施的方法，包括：

维护Q网络的集合，每个Q网络是神经网络，每个Q网络被配置成：接收Q网络输入，所述Q网络输入包括(i)用于表征与代理交互的环境的状态的输入观察结果和(ii)用于从动作集中标识一个动作的数据，并且处理所述Q网络输入以针对所述输入观察结果-动作对生成Q值；

维护转变模型的集合，每个转变模型被配置成：接收转变输入，所述转变输入包括(i)输入观察结果和(ii)由所述代理响应于所述输入观察结果而执行的动作，并且处理所述转变输入以生成所预测的下一个观察结果，所预测的下一个观察结果用于表征作为所述代理响应于所述观察结果而执行所述动作的结果而由所述环境所转变成的状态；

维护奖励模型的集合，每个奖励模型被配置成：接收奖励输入，所述奖励输入包括(i)输入观察结果、(ii)由所述代理响应于所述输入观察结果而执行的动作、和(iii)用于表征作为所述代理响应于所述观察结果而执行所述动作的结果而由所述环境所转变成的状态的下一个观察结果，并且处理所述奖励输入以生成由所述代理响应于执行所述动作而接收到的预测奖励；

获得转变，所述转变包括(i)初始训练观察结果、(ii)训练动作、(iii)训练奖励、和(iv)下一个训练观察结果；

使用所述转变模型的集合来生成在所述转变中从所述下一个训练观察结果开始的M个轨迹，所述M个轨迹中的每个轨迹在预定数目的时间步的每个时间步包括相应的观察结果；

对于所述M个轨迹中的每个轨迹并且对于所述时间步中的每个时间步：

使用所述奖励模型的集合来针对所述时间步生成N个奖励，

使用所述Q网络的集合来针对所述时间步生成L个Q值，并且

根据所述N个奖励、所述L个Q值和所述训练奖励，针对所述轨迹并针对所述时间步确定L*N个候选目标Q值；

对于所述时间步中的每个时间步，组合来自所述M个轨迹的针对所述时间步的所述M*L*N个候选目标Q值以针对所述时间步生成组合候选目标Q值；

针对所述时间步根据组合目标Q值确定最终目标Q值；以及

使用所述最终目标Q值来训练所述集合中的所述Q网络中的至少一个Q网络。

2.根据权利要求1所述的方法，其中，所述转变是转变的最小批次中的转变中的一个，其中，所述最小批次中的每个转变被指派给所述集合中的所述Q网络中的相应一个Q网络，并且其中，使用所述最终目标Q值来训练所述集合中的所述Q网络中的至少一个Q网络包括使用所述最终目标Q值来训练被指派了所述转变的所述Q网络。

3.根据权利要求1或2中的任一项所述的方法，进一步包括：

在所述转变上训练所述转变模型中的至少一个和所述奖励模型中的至少一个。

4.根据权利要求1至3中的任一项所述的方法，进一步包括：

使用所述Q网络的集合来训练策略神经网络。

5.根据权利要求4所述的方法，其中，使用所述转变模型的集合来生成在所述转变中从所述下一个训练观察结果开始的M个轨迹包括：对于每个轨迹并在每个时间步，使用所述策略神经网络来选择在所述时间步的所述动作。

6.根据权利要求1至3中的任一项所述的方法，其中，使用所述转变模型的集合来生成在所述转变中从所述下一个训练观察结果开始的M个轨迹包括：对于每个轨迹并在每个时间步，使用以下(i)或(ii)来选择在所述时间步的所述动作：(i)所述Q网络中的相应一个，或(ii)具有作为所述集合中的所述Q网络的参数的较旧副本的参数值的Q网络。

7.根据权利要求1至6中的任一项所述的方法，其中，对于所述时间步中的每个时间步，组合来自所述M个轨迹的针对所述时间步的所述M*L*N个候选目标Q值以针对所述时间步生成组合候选目标Q值包括：

针对所述时间步确定所述M*L*N个候选目标Q值的集中趋势的量度；

针对所述时间步确定所述M*L*N个候选目标Q值的变化的量度；以及

基于所述集中趋势的量度和所述变化的量度来针对所述时间步生成所述组合候选目标Q值。

8.根据权利要求7所述的方法，其中，针对所述时间步i的所述组合候选目标Q值满足：

其中

是所述集中趋势的量度，

是所述变化的量度，并且j的范围遍及所有所述时间步。

9.根据权利要求1至8中的任一项所述的方法，其中，在所述轨迹中的每个轨迹中的第一时间步的观察结果是所述下一个训练观察结果。

10.根据权利要求1至9中的任一项所述的方法，其中，根据所述N个奖励、所述训练奖励和所述L个Q值针对所述轨迹并针对所述时间步确定L*N个候选目标Q值包括：

对于(i)奖励模型和(ii)Q网络的每个组合，确定相应的基于模型的值扩展目标。

11.根据权利要求1至10中的任一项所述的方法，其中，所述环境是真实世界环境，所述代理是被配置成与所述真实世界环境交互的机械代理，并且所述观察结果包括以下各项中的一个或多个：所述环境的图像、描述在所述环境中的一个或多个对象的方位的对象方位数据、或用于在所述代理与所述环境交互时捕获所述观察结果的传感器数据。

12.根据权利要求1至10中的任一项所述的方法，其中，所述代理被配置成控制在工厂或服务设施中的装备的物品的动作，所述观察结果与所述工厂或服务设施的操作有关，并且所述动作包括用于控制或将操作条件强加于所述工厂或服务设施的装备的物品上的动作和/或导致所述工厂或服务设施的操作设定变化的动作。

13.一种或多种存储指令的计算机可读存储介质，所述指令当由一个或多个计算机执行时，使所述一个或多个计算机执行根据权利要求1至12中的任一项所述的方法的相应操作。

14.一种包括一个或多个计算机和存储指令的一个或多个存储设备的系统，所述指令当由所述一个或多个计算机执行时，使所述一个或多个计算机执行根据权利要求1至12中的任一项所述的方法的相应操作。