CN107209872B

CN107209872B - 用于训练强化学习系统的系统、方法和存储介质

Info

Publication number: CN107209872B
Application number: CN201680009087.6A
Authority: CN
Inventors: 普拉温·迪帕克·斯里尼瓦桑; 罗里·费伦; 恰达什·阿尔奇切克; 阿伦·萨拉·奈尔; 塞缪尔·布莱克威尔; 维达维亚斯·潘尼尔谢尔万; 亚历山德罗·德玛丽亚; 沃洛季米尔·姆尼赫; 科拉伊·卡武克曲奥卢; 大卫·西尔韦; 穆斯塔法·苏莱曼
Original assignee: DeepMind Technologies Ltd
Current assignee: DeepMind Technologies Ltd
Priority date: 2015-02-06
Filing date: 2016-02-05
Publication date: 2021-05-11
Anticipated expiration: 2036-02-05
Also published as: US20160232445A1; US10445641B2; WO2016127045A1; US11507827B2; EP3254239A1; CN107209872A; US20200117992A1; EP3254239B1

Abstract

方法、系统和装置，包括编码在计算机存储介质上的计算机程序，用于分布式训练强化学习系统。一种方法包括由学习器从参数服务器接收Q网络的参数的当前值，其中，每个学习器保持相应的学习器Q网络副本和相应的目标Q网络副本；通过学习器，使用当前值，更新由学习器保持的学习器Q网络副本的参数；由学习器从相应的回放存储器选择经验元组；由学习器，使用由学习器保持的学习器Q网络副本和由学习器保持的目标Q网络副本，通过经验元组计算梯度，并且通过学习器，将计算的梯度提供给参数服务器。

Description

用于训练强化学习系统的系统、方法和存储介质

技术领域

本说明书涉及训练强化学习系统。

背景技术

强化学习代理通过接收对环境的当前状态特征化的观察，并且作为响应，执行来自预定动作集的动作，而与环境交互。根据价值函数的输出，强化学习代理通常响应于执行动作接收回报，并且响应接收给定观察，选择待执行的动作。一些强化学习代理使用神经网络代替价值函数，例如通过使用神经网络处理观察并且基于神经网络的输出选择动作，来近似价值函数的输出。

神经网络是采用非线性单元的一层或多层来预测接收的输入的输出的机器学习模型。一些神经网络是除输出层外，还包括一个或多个隐藏层的深度神经网络。每个隐藏层的输出被用作网络中的下一层的输入，即，下一隐藏层或输出层。网络的每个层根据相应参数集的当前值，通过接收的输入生成输出。

发明内容

本说明书描述涉及训练强化学习系统的技术。

对待被配置成执行特定操作或动作的一个或多个计算机的系统，是指该系统在其上已经安装了在操作中使该系统实现操作或动作的软件、固件、硬件或它们的组合。对待被配置成执行特定操作或动作的一个或多个计算机程序是指一个或多个程序包括当由数据处理装置执行时，使装置执行操作或动作的指令。

能在特定实施例中实现本说明书中所述的主题以便实现一个或多个下述优点。通过并行化训练，能更快地训练强化学习系统。此外，使用在本说明书中所述的分布式学习技术训练的强化学习系统能在训练后，与使用非分布式强化学习训练技术训练的相同的强化学习系统相比，在强化学习任务上具有提高的性能。通过提供允许分布式强化学习训练系统包括任意数目学习器、行动器和回放存储器的架构，能易于将该系统适用于训练执行各种强化学习任务的系统。此外，在训练期间，能容易调整学习器、行动器，以及可选地，回放存储器的数目，导致提高性能。

在附图和下述描述中，阐述本说明书的主题的一个或多个实施例的细节。从描述、附图和权利要求，本主题的其他特征、方面和优点将变得显而易见。

附图说明

图1示出示例分布式强化学习训练系统。

图2示出另一示例分布式强化学习训练系统。

图3是在训练强化学习系统期间生成经验元组的示例过程的流程图。

图4是在训练强化学习系统期间计算梯度的示例过程的流程图。

图5是在训练强化学习系统期间更新参数值的示例过程的流程图。

不同图中相同的参考数字和名称指示相同的元件。

具体实施方式

本说明书通常描述用于分布式训练强化学习系统的技术。特别地，所训练的强化学习系统包括与环境交互的代理。为了与环境交互，代理接收对环境的当前状态进行特征化的观察并且使用该观察，选择待执行的动作。响应于执行所选动作，代理接收回报。当与环境交互时，响应于由代理选择的所有动作，代理尝试最大化由代理接收的总回报。

特别地，响应于给定观察，代理选择将使用Q网络执行的动作。Q网络是被配置为将观察和动作接收为输入并且根据Q网络的参数集的当前值，处理该输入以生成神经网络输出的深度神经网络。在一些实施方式中，代理选择当被提供给定观察作为Q网络的输出时，导致Q网络生成预定动作集中的任一动作的最高神经网络输出的动作。在一些其他实施方式中，代理将ε-贪心策略用在选择动作中，即，代理以概率ε从预定动作集随机地选择动作，并且选择有概率1-ε导致Q网络生成最高神经网络输出的动作。

在训练强化学习系统期间，分布式强化学习训练系统训练强化学习系统来从参数的初始值调整Q网络的参数的值。在一些实施方式中，离线地训练强化学习系统，训练系统训练该强化学习系统来确定Q网络的参数的训练值。然后，运行时，代理将训练值用在与环境交互中。在一些其他实施方式中，在线地训练强化学习系统，当运行时，代理与环境交互时，训练系统连续地调整由代理使用的Q网络的参数值。

通常，分布式强化学习训练系统包括一个或多个行动器、一个或多个学习器和一个或多个回放存储器。可选地，分布式强化学习训练系统还包括参数服务器。

图1示出示例分布式强化学习训练系统100。分布式强化学习训练系统100是在实现为实现下述系统、组件和技术的一个或多个位置中的一个或多个计算机上的计算机程序的系统的示例。

分布式强化学习训练系统100包括多个捆绑束110A-110N和参数服务器150。捆绑束110A-110N的每个实现在相应计算单元上。计算单元可以是例如计算机、具有多个内核的计算机内的内核或能够独立地执行捆绑束的计算的计算机内的其他硬件或软件。

捆绑束110A-110N的每个包括相应的行动器，例如捆绑束A 110A中的行动器120A、相应的学习器，例如捆绑束A 110A中的学习器130A，以及相应的回放存储器，例如捆绑束110A中的回放存储器140A。

每个捆绑束中的每个行动器与相同环境的相应的副本交互并且保持被训练的Q网络的副本，在本说明书中，被称为行动器Q网络副本。例如，行动器120A与环境副本122A交互并且保持行动器Q网络副本124A。Q网络的副本是具有与Q网络相同神经网络架构的神经网络，具有可能不同的参数值，即，不同于Q网络的其他副本。

特别地，在训练期间，每个捆绑束中的行动器与环境的副本交互以生成经验元组并且将经验元组存储在回放存储器中。每个行动器通过接收对环境副本的当前状态进行特征化的当前观察，与环境副本交互。

然后，行动器使用由行动器保持的行动器Q网络副本来确定响应于接收观察执行的动作。在下文中，参考图3，更详细地描述确定响应于接收观察而执行的动作。

只要行动器执行确定的动作或指示另一系统执行确定的动作，行动器接收回报和对环境副本的下一状态进行特征化的下一观察，即，执行所选动作后的环境副本的状态。然后，行动器生成经验元组并且将经验元组存储在回放存储器中。经验元组包括对环境实例的当前状态进行特征化的当前观察、响应于接收当前观察执行的动作、由执行该动作的行动器接收的回报以及对环境副本的下一状态进行特征化的下一观察。例如，行动器120A将经验元组存储在回放存储器140A中。

每个捆绑束中的学习器保持Q网络的两个相应的副本：在本说明书中被称为学习器Q网络副本的一个副本，以及在本说明书中，被称为目标Q网络副本的另一副本。例如，学习器130A保持学习器Q网络副本132A和目标Q网络副本134A。在一些实施方式中，由学习器保持的学习器Q网络副本为与由学习器相同捆绑束中的行动器保持的行动器Q网络副本的相同的Q网络实例，即，捆绑束中的学习器和行动器共享Q网络实例或同步行动器Q网络副本和学习器Q网络副本的参数值。

如下文更详细所述，通常，比由学习器保持的目标Q网络副本的参数值更频繁地更新由给定学习器保持的学习器Q网络副本的参数值。

每个学习器从与学习器相同捆绑束中的回放存储器选择经验元组，例如，学习器130A从回放存储器140A选择经验元组，并且使用该元组和由学习器保持的Q网络副本，计算用于每个经验元组的梯度。在下文中，参考图4描述计算梯度。学习器将计算的梯度通过网络，例如局域网(LAN)或广域网(WAN)，例如互联网，传送到参数服务器150。

参数服务器150保持Q网络的参数的当前值并且当学习器将梯度更新到服务器时，更新保持的值。特别地，参数服务器106从学习器接收梯度更新并且应用梯度来使用常规的机器学习训练算法(例如，随机梯度下降算法)来修改Q网络的参数的当前值。

在训练期间，参数服务器150将经更新的参数值定期地提供给每个捆绑束。捆绑束中的行动器和学习器能使用接收的经更新的参数值来更新由行动器和学习器保持的Q网络副本的参数值。在下文中，参考图5，详细地描述在训练期间更新参数值并且提供经更新的参数值。

可选地，参数服务器150的功能能分配在多个参数服务器分片中。即，每个参数服务器分片能保持Q网络的参数的相应子集的值，使得模型的参数分配在参数服务器分片中。在这些情况下，每个参数服务器分片能实现在相应独立的计算单元上，计算单元被配置成能相互独立地操作。在这些情况下，参数服务器150的每个分片能相互独立地将梯度更新应用于被指派到那一分片的参数。此外，参数服务器150能将提供的更新值应用于分片相互独立地指派到那一分片的参数。

由此，每个捆绑束生成经验元组，计算梯度并且与每个其他捆绑束相互独立并且异步地将计算的梯度提供给参数服务器150。特别地，在训练期间，仅在捆绑束之间共享的信息是由每个捆绑束从参数服务器150接收的参数值更新。

此外，在训练期间，在无需传送或接收来自任何其他学习器的数据的情况下，学习器通过将计算的梯度提供给参数服务器150，共同训练Q网络来确定网络参数的训练值。

在一些实施方式中，分布式强化学习训练系统可以具有不同的架构，其中，行动器、学习器和回放存储器不会聚组成捆绑束，允许分布式强化学习训练系统具有不同数目的行动器、学习器和回放存储器。利用该不同架构，每个学习器不仅与每个其他学习器，而且独立与任何一个行动器操作。

图2示出另一示例分布式强化学习训练系统200。分布式强化学习训练系统200是实现为一个或多个位置中的一个或多个计算机上的计算机程序的系统的示例，其中，实现下文所述的系统、组件和技术。

类似图1的分布式强化学习训练系统100，分布式强化学习训练系统200包括多个行动器220A-N和多个学习器230A-N。然而，不同于图1的系统100，在分布式强化学习训练系统200中，不存在行动器与学习器的一对一耦合。

特别地，强化学习训练系统200包括多个行动器220A-N，所述多个行动器220A-N分别与环境的相应副本交互以生成存储在中央回放存储器240中的经验元组。如图1中，每个行动器220A-N使用由该行动器保持的相应的行动器Q网络副本，生成经验元组。然而，任意给定行动器的行动器Q网络副本的参数值不与学习器230A-N的任何一个的学习器Q网络副本的参数同步。

在训练期间，强化学习训练系统200中的每个学习器230A-N从中央回放存储器204选择经验元组并且使用由学习器保持的相应的学习器Q网络副本和相应的目标Q网络副本，处理元组以计算用于经验元组的梯度。由此，每个学习器能从由多个行动器生成的经验元组选择。然后，每个学习器能通过网络，将梯度传送到参数服务器250。然后，参数服务器250更新Q网络的参数并且将经更新的参数值提供给行动器220A-220N和学习器230A-230N。

因为行动器220A-220N和学习器230A-2320N没有耦合，强化学习训练系统200能包括与学习器不同数目的行动器。在一些实施方式中，在强化学习训练系统200中，每个行动器220A-220N和学习器230A-230N实现在相应的计算单元上。

尽管在图2的示例中，强化学习训练系统200包括单个中央回放存储器240，但在一些实施方式中，强化学习训练系统200能包括多个回放存储器，每个行动器将经验元组存储在多个回放存储器的所指派的一个回放存储器中。类似地，每个学习器230A-230N被指派多个回放存储器中的一个回放存储器，从该回放存储器，选择在训练期间，学习器用来计算梯度的经验元组。

类似地，尽管在图2的示例中，强化学习训练系统200包括多个行动器和多个学习器，但在一些实施方式中，强化学习训练系统200仅包括单个行动器和多个学习器。在这种情况下，多个学习器的每个在由单个行动器生成的经验元组上操作。

此外，尽管在图2的示例中，强化学习训练系统200包括多个行动器和多个学习器，但在一些实施方式中，强化学习训练系统200能包括多个行动器和单个学习器。在这种情况下，强化学习训练系统200可以不包括参数服务器250。即，单个学习器能处理来自回放存储器240的元组并且计算梯度和经更新的参数值。然后，强化学习训练系统200中的单个学习器或另一过程能将经更新的参数值提供给多个行动器中的每个。

图3是用于在训练强化学习系统期间生成经验元组的示例过程300的流程图。为了方便，过程300将被描述为由行动器，例如图1的行动器120A-N中的一个或图2的行动器220A-N中的一个执行。

行动器接收对与行动器交互的环境副本的当前状态进行特征化的当前观察(步骤302)。

行动器使用由行动器保持的Q网络的副本，处理当前观察来选择响应于当前观察执行的动作(步骤304)。特别地，由行动器保持的Q网络副本为被配置成将动作和观察用作输入的深度神经网络，并且根据深度神经网络的参数的当前值，生成神经网络输出。为了选择待执行的动作，行动器确定当前观察被提供为Q网络副本的输入时，导致行动器Q网络副本生成最高神经网络输出的动作。在一些实施方式中，行动器将ε贪心策略用在选择该动作中，即，以概率1-ε选择生成最高神经网络输出的动作并且以概率ε从预定动作集随机地选择动作。

响应于被执行的动作，行动器接收回报和对环境副本的下一状态(例如，执行被选动作后的环境副本的状态)进行特征化的下一观察(步骤306)。

行动器生成包括当前观察、被选动作、接收的回报和下一观察的经验元组(步骤308)。

行动器将经验元组存储在回放存储器中(步骤310)。在一些实施方式中，回放存储器是行动器本地的，即，仅行动器而不是任何其他行动器可访问。在一些其他实施方式中，回放存储器与一个或多个其他行动器共享，即，多个行动器将它们的经验元组存储在相同回放存储器中。

行动器接收经更新的参数值并且利用经更新的参数值，更新由行动器保持的行动器Q网络副本的参数(步骤312)。在分布式强化学习训练系统包括参数服务器的实施方式中，行动器从参数服务器接收经更新的参数值。在分布式强化学习训练系统不包括参数服务器的实施方式中，即，在系统仅包括单个学习器的实施方式中，行动器能直接从单个学习器接收经更新的参数值。

在训练强化学习训练系统期间，包括在分布式强化学习训练系统中的每个行动器能多次执行过程300。因为在训练期间，每个行动器独立于其他行动器执行过程300的每个迭代，每个行动器探索环境的状态空间中，与其他行动器不同的部分。由此，在分布式强化学习训练系统包括多个行动器的实施方式中，能在比使用非分布式的强化学习训练系统时更多的经验元组上训练强化学习系统。

图4是在训练强化学习系统期间，计算梯度的示例过程400的流程图。为了方便，过程400将被描述为由学习器执行，例如，由图1的学习器130A-N中的一个或图2的学习器230A-N中的一个执行。

学习器从回放存储器选择经验元组(步骤402)。在一些实施方式中，例如，当学习器为包括回放存储器的捆绑束的一部分时，回放存储器专用于该学习器。在一些其他实施方式中，回放存储器由多个学习器共享并且每个学习器从相同回放存储器选择经验元组。在任一情况下，学习器可以通过从在回放存储器中存储的元组随机地采样元组，从回放存储器选择经验元组。

学习器使用经验元组选择梯度(步骤404)。特别地，学习器保持学习器Q网络副本和目标Q网络副本。学习器Q网络副本和目标Q网络副本均是具有与Q网络相同网络架构以及与由每个行动器保持的行动器Q网络副本相同网络架构的深度神经网络，但其可能具有相互不同并且不同于行动器Q网络副本的深度神经网络的参数值。由此，类似于由行动器保持的行动器Q网络副本，目标Q网络副本和学习器Q网络副本被配置成将动作和观察用作输入并且根据相应深度神经网络的参数的当前值，生成神经网络输出。特别地，如下文更详细所述，与由学习器保持的目标Q网络副本的参数值相比，在训练强化学习系统期间，更频繁地更新由学习器保持的学习器Q网络副本的参数值。

为了使用经验元组计算梯度，学习器使用学习器Q网络副本，处理来自元组的所选择的动作和当前观察来确定用于被选动作的学习器Q网络输出。

学习器还确定通过处理来自元组的下一观察与预定动作集中的任一动作而生成的最大目标Q网络输出。

然后，学习器使用来自元组的回报、学习器Q网络输出和最大目标Q网络输出，计算损失函数的梯度。在Mnih,Volodymyr,Kavukcuoglu,Koray,Silver,David,Graves,Alex,Antonoglou,Ioannis,Wierstra,Daan,and Riedmiller,Martin,Playing atari withdeep reinforcement learning,In NIPS Deep Learning Workshop,2013和2013年12月5日提交的，名为“COMPUTER SYSTEM”的US专利申请No.14/097,862中描述了损失函数和计算损失函数的梯度，其全部内容通过引用合并于此。

学习器将梯度提供给参数服务器(步骤406)。即，学习器通过网络将梯度传送到参数服务器。如果共享参数服务器，学习器将与由分片保持的参数分区相对应的梯度部分传送到每个分片。

学习器从参数服务器接收经更新的参数值(408)。参数更新包括用于由学习器保持的学习器Q网络副本的参数的更新值，并且可选地，用于由学习器保持的目标Q网络副本的参数的更新值。特别地，如果学习器以多个元组成批地处理经验元组，在处理给定批量期间，学习器可以一次或多次地接收用于学习器Q网络副本的参数更新。然而，学习器可以以更长间隔接收用于目标Q网络副本的参数的更新。由此，并非从参数服务器接收的每个参数值更新都将包括用于目标Q网络副本的参数的更新值。

学习器更新学习器Q网络副本的参数，并且可选地，使用参数更新，更新目标Q网络副本(步骤410)。

分布式强化学习训练系统中的每个学习器能在训练期间，执行过程400的多次迭代。特别地，每个学习器能独立于系统中的每个其他学习器并且异步地执行过程400。

在分布式强化学习训练系统仅包括单个学习器并且不包括参数服务器，而不是将梯度提供给参数服务器，然后从参数服务器接收参数值更新的实施方式中，学习器计算经更新的参数值，例如，如下文参考图5所述，并且将经更新的参数值提供给包括在分布式强化学习训练系统中的行动器。

图5是在训练强化学习系统期间更新参数值的示例过程500的流程图。为了方便，过程500将被描述为由参数服务器执行，例如由图1的参数服务器150或图2的参数服务器250执行。

参数服务器保持Q网络的参数的当前值(步骤502)。在离线执行训练的实施方式中，只要终止训练过程，由参数保持的Q网络的参数的值变为在与环境交互中由代理使用的训练值。在一些实施方式中，然而，在线地执行训练，系统中的行动器为正被训练的强化学习系统的代理。在这些情况下，不是确定参数的训练值，然后终止训练，而是当继续与环境交互时，连续地更新代理的参数值。

参数服务器从一个或多个学习器接收梯度(步骤504)。当在训练期间，每个学习器独立于每个其他学习器操作时，参数服务器从学习器异步地接收梯度。

可选地，参数服务器能对每个接收的梯度，确定接受还是丢弃该梯度(步骤506)。例如，在一些实施方式中，参数服务器能跟踪由学习器使用的、计算梯度的参数值与由参数服务器保持的参数值之间的时间延迟。然后，参数服务器能丢弃延迟大于阈值的所有梯度。由此，丢弃使用过于陈旧的参数值计算的梯度，而不是由参数服务器接受。作为另一示例，每个学习器能对所看到的数据，保持绝对DQN损失的运行平均和标准偏差。然后，学习器或者参数服务器能丢弃具有高于平均值加上阈值数目的标准偏差的绝对损失的梯度。

参数服务器通过接收的梯度确定参数值更新(步骤508)并且将参数值更新应用于由参数服务器保持的参数的当前值来确定参数的更新值(步骤510)。特别地，参数服务器使用常见的机器学习训练技术，例如随机梯度下降训练技术，从接收的梯度确定参数值更新。可选地，训练技术能包括自适应学习率。在J.C.Duchi,E.Hazan,and Y.Singer,AdaptiveSubgradient Methods for Online Learning and Stochastic Optimization,Journalof Machine Learning Research,12:2121–2159,2011，和V.P.Plagianakos,

D.G.Sotiropoulos and M.N.Vrahatis,An Improved Backpropagation Methodwith Adaptive Learning Rate.Proceeding of the 2nd Intern.Confer.on:Circuits,Systems and Computers,1998中描述使用自适应学习率的示例机器学习训练技术。

参数服务器将经更新的参数值提供给分布式强化学习训练系统中的每个行动器和每个学习器(步骤512)。特别地，在参数的每次更新后，参数服务器将经更新的参数值提供给行动器和学习器，用在更新由行动器和学习器保持的行动器Q网络副本和学习器Q网络副本的参数中。参数服务器还确定是否满足用于对由学习器保持的目标Q网络副本提供更新参数值的标准，如果满足标准，将指示经更新的参数将被用来更新目标Q网络副本的参数值的数据提供给学习器。在一些实施方式中，当自最后一次更新目标Q网络副本参数以来，服务器完成对由服务器保持的值的阈值数目的参数更新时或当自最后一次更新目标Q网络副本参数以来，阈值时间量流逝时，服务器确定满足标准。

在训练强化学习系统期间，多次执行过程500。例如，参数服务器能在接收的梯度上重复地执行过程500，直到不再接收到梯度为止、直到参数更新满足预定终止条件为止，或直到通过例如系统管理员，终止训练为止。

在一些实施方式中，参数服务器包括多个分片，每个分片独立于其他分片操作，以及每个分片保持用于Q网络的参数的相应不相交分区的值。在这些实施方式中，对由分片保持的参数值，参数服务器的每个分片能独立于每个其他分片执行过程500。

在一些情况下，在训练期间，修改包含在训练中的行动器、学习器或两者的数目是有利的。例如，分布式训练系统能确定应当通过监视对回放存储器的读写次数，调整行动器或学习器的数目。即，当对存储器的写次数和从存储器读取的次数相差超出阈值时，系统能确定相对于行动器的数目，需要增加学习器的数目。当读次数和写次数相差超出阈值时，系统能确定相对于学习器的数目，应当增加行动器的数目。

如另一示例，系统能监视参数服务器的吞吐量来确定何时应当调整行动器或学习器的数目。例如，如果对Q网络的参数的更新次数小于添加到回放存储器的新经验元组的数目，系统能确定应当相对于行动器的数目，增加学习器的数目。

如另一示例，系统能监视在训练期间丢弃的梯度数。如果被丢弃的梯度的部分超出阈值比例，那么系统能确定应当减少学习器的数目或应当增加参数服务器的性能，例如通过为参数服务器分配更多计算资源或增加参数分片的数目。

在未捆绑系统中的学习器和行动器的架构中，只要系统确定应当调整学习器或行动器的数目，能在不改变行动器的数目的情况下，增加或去除学习器，或反之亦然。在每个学习器与行动器捆绑的架构中，能通过将捆绑束添加到该系统或从该系统去除捆绑束，改变行动器和学习器的数目。

能在数字电子电路中或者在有形地体现的计算机软件、固件或者在计算机硬件，包括在本说明书中公开的结构及其结构等效物中或者在它们中的一项或者多项的组合中实施在本说明书中描述的主题和功能操作的实施例。能将在本说明书中描述的主题的实施例实施为一个或者多个计算机程序，即编码在有形非暂时性程序载体上的用于由数据处理装置执行或者控制数据处理装置的操作的计算机程序指令的一个或者多个模块。替选地或者附加地，能在人为生成的传播的信号，例如，机器生成的电、光或者电磁信号上对程序指令编码，该信号被生成用于对信息编码以用于向适当接收器装置传送以供数据处理装置执行。计算机存储介质能是机器可读存储设备、机器可读存储基板、随机或者串行存取存储器设备或者它们中的一项或者多项的组合。

术语“数据处理装置”是指数据处理硬件并且涵盖各种用于处理数据的装置、设备和机器，举例而言包括可编程处理器、计算机、多个处理器或计算机。该装置还能是或进一步包括专用逻辑电路，例如，FPGA(现场可编程门阵列)或者ASIC(专用集成电路)。该装置除了硬件之外，可选地，也能包括为计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统的代码或者它们中的一项或者多项的组合。

计算机程序(也可以被称为或描述为程序、软件、软件应用、应用、模块、软件模块、脚本或者代码)能用任何形式的编程语言编写，包括编译或者解译语言、或说明或者过程语言，并且计算机程序能用任何形式部署，包括部署为独立程序或者部署为适合于在计算环境中使用的模块、组件、子例程或者其他单元。计算机程序可以，但是无需对应于文件系统中的文件。程序能被存储于保持其他程序或者数据的文件(例如，存储于标记语言文档中的一个或者多个脚本)的一部分中、专用于讨论的程序的单个文件中，或者多个协同文件，例如，存储一个或者多个模块、子程序或者代码部分的文件中。计算机程序能被部署以在一个计算机上或者在位于一个地点或者跨多个地点分布并且由通信网络互连的多个计算机上执行。

在本说明书中描述的过程和逻辑流程能由一个或者多个可编程计算机执行，该一个或者多个可编程计算机执行一个或者多个计算机程序以通过对输入数据操作并且生成输出来执行功能。该过程和逻辑流也能由专用逻辑电路，例如，FPGA(现场可编程门阵列)或者ASIC(专用集成电路)执行，并且装置还能够被实现为专用逻辑电路，例如，FPGA(现场可编程门阵列)或者ASIC(专用集成电路)。

例如，适合于执行计算机程序的计算机包括例如，能基于通用微处理器或者专用微处理器，或者其两者，或者任何其他种类的中央处理单元。通常，中央处理单元将从只读存储器或者随机存取存储器或者二者接收指令和数据。计算机的必要元件是用于执行指令的中央处理单元以及用于存储指令和数据的一个或者多个存储器设备。通常，计算机还将包括用于存储数据的一个或者多个海量存储装置(例如，磁盘、磁光盘或者光盘)，或者被操作地耦合用于从该一个或者多个海量存储设备接收数据或者向该一个或者多个海量存储设备发送数据或者接收和发送二者。然而，计算机无需具有这样的设备。另外，计算机能被嵌入于另一设备中，聊举数例，例如，移动电话、个人数字助理(PDA)、移动音频或者视频播放器、游戏控制台、全球定位系统(GPS)接收器或者便携存储设备，例如，通用串行总线(USB)闪存驱动。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，举例而言包括半导体存储器设备，例如，EPROM、EEPROM和闪速存储器设备；磁盘，例如，内部硬盘或者可移动盘、磁光盘、以及CD-ROM和DVD-ROM盘。处理器和存储器能由专用逻辑电路补充或并入专用逻辑电路中。

为了提供与用户的交互，能在计算机上实施在本说明书中描述的主题的实施例，该计算机具有用于向用户显示信息的显示设备(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)以及用户能用来向计算机提供输入的键盘和指针设备，例如，鼠标或者轨迹球。其他种类的设备也能用来提供与用户的交互；例如，向用户提供的反馈能是任何形式的感觉反馈，例如，视觉反馈、听觉反馈或者触觉反馈；并且能用包括声音、语音或者触觉输入的任何形式接收来自用户的输入。此外，计算机能通过向用户使用的设备发送文档和从该设备接收文档，例如，通过响应于从用户的客户端设备上的web浏览器接收的请求向web浏览器发送网页来与用户交互。

在本说明书中描述的主题的实施例能在计算系统中实施，该计算系统包括后端组件(例如作为数据服务器)，或者包括中间件组件(例如，应用服务器)或者包括前端组件(例如，具有关系图形用户交互接口或者Web浏览器，用户能通过它与在本说明书中描述的主题的实现方式交互的客户端计算机)或者一个或者多个这样的后端、中间件或者前端组件的任何组合。系统的组件能通过任何数字数据通信形式或者介质(例如，通信网络)互连。通信网络的示例包括局域网(LAN)和广域网(WAN)，例如，互联网。

计算系统能包括客户端和服务器。客户端和服务器一般相互远离并且通常通过通信网络交互。客户端和服务器的关系借助在相应计算机上运行并且相互具有客户端-服务器关系的计算机程序而产生。

尽管本说明书包含许多具体实现方式细节，但是不应将这些解释为限制任何发明的范围或可以要求保护的内容的范围，而是解释为对具体发明的具体实现方式特有的特征的描述。在本说明书中在分开的实施例的场境中描述的某些特征也能在单个实施例中被组合实施。相反地，在单个实施例的场境中描述的各种特征也能在多个实施例中分开地或者在任何适当子组合中被实施。另外，虽然上文能将特征描述为在某些组合中动作并且甚至起初这样要求保护，但是来自要求保护的组合的一个或者多个特征能在一些情况下从该组合中被删除，并且要求保护的组合能涉及子组合或者子组合的变型。

类似地，尽管在附图中以特定顺序描绘操作，但是这不应被理解为要求以所示特定顺序或者以依次顺序执行这样的操作或者执行所有所示操作以实现希望的结果。在某些境况中，多任务和并行处理会是有利的。另外，在上文描述的实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中要求这样的分离，并且应当理解描述的程序组件和系统一般能一起集成于单个软件产品中或者被封装到多个软件产品中。

描述了主题的具体实施例。其他实施例在所附权利要求的范围内。例如，在权利要求中记载的动作能按不同顺序被执行而仍然实现希望的结果。作为一个示例，在附图中描绘的过程未必需要所示特定顺序或者依次顺序以实现希望的结果。在某些实施方式中，多任务和并行处理会是有利的。

Claims

1.一种用于训练强化学习系统的系统，所述强化学习系统包括代理，所述代理通过接收对环境的当前状态进行特征化的观察以及从预定动作集选择待执行的动作，来与所述环境交互，其中，所述代理使用Q网络选择待执行的动作，其中，所述Q网络是深度神经网络，所述深度神经网络被配置成将观察和动作接收为输入并且根据参数集，从所述输入生成神经网络输出，其中，训练所述强化学习系统包括调整所述Q网络的所述参数集的值，以及其中，所述系统包括：

多个学习器，其中，每个学习器在相应的计算单元上执行，其中，每个学习器被配置成独立于每个其他学习器操作，其中，所述每个学习器保持相应的学习器Q网络副本和相应的目标Q网络副本，以及其中，每个学习器被进一步配置成重复地执行包括下述的操作：

从参数服务器接收所述Q网络的所述参数的当前值；

使用所述当前值，更新由所述学习器保持的所述学习器Q网络副本的所述参数；

从相应的回放存储器选择经验元组；

使用由所述学习器保持的所述学习器Q网络副本和由所述学习器保持的所述目标Q网络副本，根据所述经验元组计算梯度；以及

将计算的梯度提供给所述参数服务器；

其中，所述学习器Q网络副本的参数比所述目标Q网络副本的参数被更频繁地更新；

所述系统进一步包括多个行动器，其中，每个行动器在相应的计算单元上执行，其中，每个行动器被配置成独立于每个其他行动器操作，其中，每个行动器与所述环境的相应的副本交互，其中，每个行动器保持相应的行动器Q网络副本，以及其中，每个行动器被进一步配置成重复地执行包括下述的操作：

从所述参数服务器接收所述Q网络的所述参数的当前值；

使用所述当前值，更新由所述行动器保持的所述行动器Q网络副本的所述参数值；

接收对与所述行动器交互的环境副本的当前状态进行特征化的当前观察；

使用由所述行动器保持的所述行动器Q网络副本，来选择响应于所述当前观察而执行的动作；

响应于被执行的动作和对与所述行动器交互的所述环境副本的下一状态进行特征化的下一观察，接收回报；

生成经验元组，所述经验元组包括所述当前观察、所选择的动作、所述回报和所述下一观察；以及

将所述经验元组存储在相应的回放存储器中。

2.如权利要求1所述的系统，进一步包括：

所述参数服务器，其中，所述参数服务器被配置成重复地执行包括下述的操作：

从所述多个学习器接收一系列梯度；

使用所述梯度，计算对所述Q网络的所述参数值的更新；

使用所计算的更新，来更新所述Q网络的所述参数值；以及

将经更新的参数值提供给所述行动器和所述多个学习器；

其中，所述参数服务器被进一步配置成跟踪由计算梯度的学习器使用的参数的值与由所述参数服务器保持的参数的值之间的时间延迟，并且丢弃所述延迟大于阈值的所有梯度；以及

其中，每个学习器所计算的梯度是限定损失的损失函数的梯度，其中，每个学习器被配置成保持所述损失的绝对值的运行平均和标准偏差，并且其中，所述学习器或者所述参数服务器丢弃具有高于平均值加上阈值数目的标准偏差的绝对损失的梯度。

3.如权利要求2所述的系统，其中，所述参数服务器包括多个参数服务器分片，其中，每个分片被配置成保持所述Q网络的所述参数的相应不相交分区的值，以及其中，每个分片被配置成相对于每个其他分片异步地操作。

4.如权利要求2所述的系统，其中，所述参数服务器被配置成执行的所述操作进一步包括：

确定是否满足用于更新由所述学习器保持的所述目标Q网络副本的所述参数的标准；以及

当满足所述标准时，将指示经更新的参数值将被用来更新所述目标Q网络副本的所述参数的数据提供给所述学习器。

5.如权利要求4所述的系统，其中，每个所述学习器被配置成执行的所述操作进一步包括：

接收指示经更新的参数值将被用来更新由所述学习器保持的所述目标Q网络副本的所述参数的数据；以及

使用经更新的参数值，来更新由所述学习器保持的所述目标Q网络副本的所述参数。

6.如权利要求1所述的系统，其中，每个所述学习器与相应的一个所述行动器和相应的回放存储器捆绑，其中，行动器、学习器和回放存储器的每个捆绑束被实现在相应的计算单元上，其中，每个捆绑束被配置成独立于每个其他捆绑束操作，以及其中，对每个捆绑束，所述捆绑束中的所述学习器从由所述捆绑束中的所述行动器生成的经验元组中选择。

7.如权利要求6所述的系统，其中，对每个捆绑束，由所述捆绑束中的所述行动器保持的所述行动器Q网络副本的所述参数的所述当前值与由所述捆绑束中的所述学习器保持的所述学习器Q网络副本的所述参数的所述当前值同步。

8.如权利要求1所述的系统，其中，响应于所述观察、使用由所述行动器保持的所述行动器Q网络副本选择待执行的动作包括：

确定来自所述预定动作集中的下述动作：当与所述当前观察一起被提供作为由所述行动器保持的所述行动器Q网络副本的输入时，该动作生成最大行动器Q网络副本输出。

9.如权利要求8所述的系统，其中，响应于所述观察、使用由所述行动器保持的所述行动器Q网络副本选择待执行的动作进一步包括：

以概率ε从所述预定动作集选择随机动作，并且以概率1-ε选择所确定的动作。

10.如权利要求1所述的系统，其中，使用由所述学习器保持的所述学习器Q网络副本和由所述学习器保持的所述目标Q网络副本、根据所述经验元组计算梯度包括：

使用由所述学习器保持的所述学习器Q网络副本，处理来自所述经验元组的所述动作和来自所述经验元组的所述当前观察，以确定学习器Q网络副本输出；

使用由所述学习器保持的所述目标Q网络副本来确定最大目标Q网络副本输出，其中，通过处理所述预定动作集中的任何所述动作与来自所述经验元组的下一观察，来生成所述最大目标Q网络副本输出；以及

使用所述学习器Q网络副本输出、所述最大目标Q网络副本输出和来自所述经验元组的所述回报，计算所述梯度。

11.一种用于训练强化学习系统的方法，所述强化学习系统包括代理，所述代理通过接收对环境的当前状态进行特征化的观察以及从预定动作集选择待执行的动作，来与所述环境交互，其中，所述代理使用Q网络选择待执行的动作，其中，所述Q网络是深度神经网络，所述深度神经网络被配置成将观察和动作接收为输入并且根据参数集，从所述输入生成神经网络输出，其中，训练所述强化学习系统包括调整所述Q网络的所述参数集的值，其中，所述方法包括：

由多个学习器中的学习器从参数服务器接收所述Q网络的所述参数的当前值，其中，每个学习器在相应的计算单元上执行，其中，每个学习器被配置成独立于每个其他学习器操作，其中，所述每个学习器保持相应的学习器Q网络副本和相应的目标Q网络副本，

由所述学习器使用所述当前值，更新由所述学习器保持的所述学习器Q网络副本的所述参数；

由所述学习器从相应的回放存储器选择经验元组；

由所述学习器使用由所述学习器保持的所述学习器Q网络副本和由所述学习器保持的所述目标Q网络副本，根据所述经验元组计算梯度；以及

由所述学习器将计算的梯度提供给所述参数服务器；

所述强化学习系统进一步包括：

多个行动器，其中，每个行动器在相应的计算单元上执行，其中，每个行动器被配置成独立于每个其他行动器操作，其中，每个行动器与所述环境的相应的副本交互，其中，每个行动器保持相应的行动器Q网络副本，并且其中，所述方法进一步包括每个行动器重复地执行包括下述的操作：

从所述参数服务器接收所述Q网络的所述参数的当前值；

将所述经验元组存储在相应的回放存储器中。

12.如权利要求11所述的方法，进一步包括：

由所述参数服务器从所述多个学习器接收一系列梯度；

由所述参数服务器使用所述梯度，计算对所述Q网络的所述参数值的更新；

由所述参数服务器使用所计算的更新，来更新所述Q网络的所述参数值；以及

由所述参数服务器将经更新的参数值提供给所述行动器和所述多个学习器。

13.如权利要求12所述的方法，其中，所述参数服务器包括多个参数服务器分片，其中，每个分片被配置成保持所述Q网络的所述参数的相应不相交分区的值，以及其中，每个分片被配置成相对于每个其他分片异步地操作。

14.如权利要求12所述的方法，进一步包括：

由所述参数服务器确定是否满足用于更新由所述学习器保持的所述目标Q网络副本的所述参数的标准；以及

当满足所述标准时，由所述参数服务器将指示经更新的参数值将被用来更新所述目标Q网络副本的所述参数的数据提供给所述学习器。

15.如权利要求14所述的方法，进一步包括：

由所述学习器接收指示经更新的参数值将被用来更新由所述学习器保持的所述目标Q网络副本的所述参数的数据；以及

使用经更新的参数值，由所述学习器更新由所述学习器保持的所述目标Q网络副本的所述参数。

16.如权利要求11所述的方法，其中，每个所述学习器与相应的一个所述行动器和相应的回放存储器捆绑，其中，行动器、学习器和回放存储器的每个捆绑束被实现在相应的计算单元上，其中，每个捆绑束被配置成独立于每个其他捆绑束操作，以及其中，对每个捆绑束，所述捆绑束中的所述学习器从由所述捆绑束中的所述行动器生成的经验元组中选择。

17.如权利要求16所述的方法，其中，对每个捆绑束，由所述捆绑束中的所述行动器保持的所述行动器Q网络副本的所述参数的所述当前值与由所述捆绑束中的所述学习器保持的所述学习器Q网络副本的所述参数的所述当前值同步。

18.如权利要求11所述的方法，其中，响应于所述观察、使用由所述行动器保持的所述行动器Q网络副本选择待执行的动作包括：

19.如权利要求18所述的方法，其中，响应于所述观察、使用由所述行动器保持的所述行动器Q网络副本选择待执行的动作进一步包括：

20.如权利要求11所述的方法，其中，使用由所述学习器保持的所述学习器Q网络副本和由所述学习器保持的所述目标Q网络副本、根据所述经验元组计算梯度包括：

使用由所述学习器保持的所述目标Q网络副本来确定最大目标Q网络副本输出，其中，通过处理所述预定动作集中的任何动作与来自所述经验元组的下一观察，来生成所述最大目标Q网络副本输出；以及

21.编码有指令的一个或多个计算机存储介质，所述指令当由一个或多个计算机执行所述指令时，使所述一个或多个计算机实现权利要求11-20的任何一个所述的方法。