CN117910545A

CN117910545A - 使用优先化经验存储器训练神经网络

Info

Publication number: CN117910545A
Application number: CN202410037883.7A
Authority: CN
Inventors: 汤姆·绍尔; 关小龙; 大卫·西尔韦
Original assignee: DeepMind Technologies Ltd
Current assignee: DeepMind Technologies Ltd
Priority date: 2015-11-12
Filing date: 2016-11-11
Publication date: 2024-04-19
Also published as: US20170140269A1; JP2018537775A; US20180260707A1; KR20180091842A; US20230244933A1; EP3360086A1; US11568250B2; US10282662B2; JP6828121B2; CN117910543A; CN117910544A; KR102191444B1; JP6621923B2; US20200265312A1; CN108701252A; US10650310B2; WO2017083767A1; CN108701252B; JP2020047285A

Abstract

本申请涉及使用优先化经验存储器训练神经网络。公开了用于对用于选择由与环境交互的强化学习代理执行的动作的神经网络进行训练的方法、系统和装置。在一个方面中，一种方法包括维持重放存储器，其中所述重放存储器存储作为所述强化学习代理与所述环境交互的结果而生成的经验数据块。每个经验数据块与相应的预期学习进展量度相关联，所述预期学习进展量度是如果在所述经验数据块上对所述神经网络进行训练则在所述神经网络的训练中进行的预期进展量的量度。所述方法还包括通过对具有相对较高的预期学习进展量度的经验数据块进行优先级排序以供选择来从所述重放存储器中选择经验数据块，并且在所选择的经验数据块上对所述神经网络进行训练。

Description

使用优先化经验存储器训练神经网络

分案说明

本申请属于申请日为2016年11月11日的中国发明专利申请201680066410.3的分案申请。

技术领域

本说明书涉及一种强化学习。

背景技术

在强化学习系统中，代理通过执行由强化学习系统响应于接收到表征环境的当前状态的观察结果而选择的动作来与环境交互。

一些强化学习系统根据神经网络的输出来选择要由代理响应于接收到给定观察结果而执行的动作。

神经网络是采用非线性单元的一个或多个层针对接收到的输入来预测输出的机器学习模型。一些神经网络是除了输出层之外还包括一个或多个隐藏层的深度神经网络。每个隐藏层的输出被用作到网络中的下一层(即，下一个隐藏层或输出层)的输入。网络的每个层根据相应的一组参数的当前值从接收到的输入来生成输出。

发明内容

一般而言，本说明书中描述的主题的一个创新方面能够以用于对神经网络进行训练的方法加以实施，所述神经网络用于选择由与环境交互的强化学习代理通过执行使所述环境转变状态的动作而执行的动作，其中所述方法包括以下步骤的动作：维持重放存储器(replay memory)，所述重放存储器存储作为所述强化学习代理与所述环境交互的结果而生成的经验数据块，其中，所述经验数据块各自具有相应的预期学习进展量度(measure)，所述预期学习进展量度是如果在所述经验数据块上对所述神经网络进行训练则在所述神经网络的训练中进行的预期进展量的量度；通过对具有相对较高的预期学习进展量度的经验数据块进行优先级排序以供选择来从所述重放存储器中选择经验数据块；以及在所选择的经验数据块上对所述神经网络进行训练。

这个方面的其它实施例包括相对应的计算机系统、装置以及在一个或多个计算机存储设备上记录的计算机程序，它们各自被配置成执行所述方法的动作。一个或多个计算机的系统能够被配置为借助于在该系统上安装的软件、固件、硬件或其任何组合来执行特定操作或动作，所述特定操作或动作在操作中可以使系统执行动作。一个或多个计算机程序能够被配置为借助于包括指令来执行特定操作或动作，所述指令在由数据处理装置执行时使该装置执行动作。

实施方式能够包括以下特征中的一个或多个。在一些实施方式中，选择经验数据块包括：(i)确定用于每个经验数据块的相应的概率，使得与具有相对较低的预期学习进展量度的经验数据块相比，具有较高的预期学习进展量度的经验数据块具有较高的概率；以及(ii)根据所确定的概率来对经验数据块进行采样。

在一些实施方式中，经验数据块i的概率P(i)满足：

其中，α是预定常数，k的范围跨越所述重放存储器中的所述经验数据块，并且p_i是从针对所述经验数据块i的所述预期学习进展量度取得的用于所述经验数据块i的优先级。

在一些实施方式中，所述优先级是所述预期学习量度加上常数值。在一些实施方式中，所述优先级是具有预定正值作为分子以及所述经验数据块i的排名作为分母的分数，所述排名在根据其预期学习进展量度对所述重放存储器中的所述经验数据块的排名中。在一些实施方式中，所述优先级对于仍然未被用在训练中的经验数据块被设置为最大值。

在一些实施方式中，每个经验数据块是经验元组，所述经验元组包括表征所述环境的相应的当前状态的相应的当前观察结果、由所述代理响应于所述当前观察结果而执行的相应的当前动作、表征所述环境的相应的下一个状态的相应的下一状态以及响应于所述代理执行所述当前动作而接收到的奖励。

在一些实施方式中，在所选择的经验数据块上对所述神经网络进行训练包括：针对所选择的经验元组确定时间差学习误差；以及在调整所述神经网络的参数的值中使用所述时间差学习误差。

在一些实施方式中，在调整所述参数的值中使用所述时间差学习误差包括：使用针对所选择的经验元组的所述预期学习进展量度来确定用于所述时间差学习误差的权重；使用所述权重来调整所述时间差学习误差；以及使用调整后的时间差学习误差作为用于调整所述神经网络的参数的值的目标误差。

在一些实施方式中，所述方法还包括在所述神经网络的训练期间使在计算所述权重时使用的指数退火。

在一些实施方式中，针对所述重放存储器中的每个经验元组的所述预期学习进展量度是在对所述神经网络进行训练中使用所述经验元组的在前时间针对所述经验元组确定的时间差学习误差的绝对值。

在一些实施方式中，针对所述重放存储器中的每个经验元组的所述预期学习进展量度是在对所述神经网络进行训练中使用所述经验元组的在前时间针对所述经验元组确定的时间差学习误差的绝对值的导数。

在一些实施方式中，针对所述重放存储器中的每个经验元组的所述预期学习进展量度是通过使用所述经验元组来对所述神经网络进行训练的诱发权重变化的范数。

在一些实施方式中，所述方法还包括使用所述预期学习进展量度来确定何时从所述重放存储器中删除经验数据块。

本说明书中描述的主题能够被实现在特定实施例中以便实现以下优点中的一个或多个。能够以增加为了对神经网络进行训练而选择的数据的值的方式选择来自重放存储器的训练数据。这进而能够提高在选择要由代理执行的动作中使用的神经网络的训练的速度并且减少有效地对那些神经网络进行训练所需的训练数据的量。因此，能够减少对神经网络的训练所必需的计算资源的量。例如，能够减少对存储训练数据所需要的存储器的量，能够减少由训练过程使用的处理资源的量，或者兼而有之。对于比较难以训练的复杂神经网络或者为了对神经网络进行训练以选择要由执行复杂强化学习任务的代理执行的动作，增加神经网络的训练的速度可能是特别显著的。

在下面的附图和描述中阐述了本说明书的主题的一个或多个实施例的细节。主题的其它特征、方面和优点将根据本说明书、附图和权利要求书变得显而易见。

附图说明

图1示出示例强化学习系统。

图2是用于使用重放存储器来对神经网络进行训练的示例过程的流程图。

图3是用于基于经验数据的确定的概率来对经验数据进行采样的示例过程的流程图。

图4是用于在经验元组上对神经网络进行训练的示例过程的流程图。

在各个附图中，相似的附图标记和名称指示相似的元件。

具体实施方式

本说明书一般地描述强化学习系统，所述强化学习系统选择要由与环境交互的强化学习代理执行的动作。为了让代理与环境交互，系统接收表征环境的当前状态的数据并且从要由代理响应于所接收到的数据而执行的预定的一组动作中选择动作。表征环境的状态的数据将在本说明书中被称为观察结果。

在一些实施方式中，环境是模拟环境并且代理被实现为与该模拟环境交互的一个或多个计算机程序。例如，所模拟的环境可以是视频游戏并且代理可以是玩该视频游戏的模拟用户。作为另一示例，模拟环境可以是运动模拟环境，例如，驾驶模拟或飞行模拟，并且代理是通过运动模拟来导航的模拟交通工具。在这些实施方式中，动作可以是用于控制模拟用户或模拟交通工具的控制输入。

在其它一些实施方式中，环境是真实世界环境并且代理是与该真实世界环境交互的机械代理。例如，代理可以是与环境交互以实现特定任务的机器人。作为另一示例，代理可以是通过环境来导航的自主或半自主交通工具。在这些实施方式中，动作可以是用于控制机器人或自主交通工具的控制输入。

图1示出示例强化学习系统100。该强化学习系统100是在一个或多个位置中的一个或多个计算机上实现为计算机程序的系统的示例，其中实现了在下面所描述的系统、组件、和技术。

强化学习系统100选择要由与环境104交互的强化学习代理102执行的动作。也就是说，强化学习系统100接收观察结果，其中每个观察结果表征环境104的相应的状态，并且，响应于每个观察结果，从要由强化学习代理102响应于该观察结果而执行的预定一组动作中选择动作。响应于由代理102执行的动作中的一些或全部，强化学习系统100接收奖励。每个奖励是作为代理的执行动作的结果而从环境104接收到的数值，即，奖励作为代理102执行动作的结果将根据结果环境104转变成的状态而不同。特别地，强化学习系统100使用动作选择神经网络110和训练引擎120来选择要由代理102执行的动作。

动作选择神经网络110是接收关于环境104的状态的观察结果作为输入并且生成针对每个动作的相应的Q值(即，由代理102响应于观察结果而执行动作来产生的预期返回的预测)作为输出的神经网络。

为了允许代理102与环境104有效地交互，强化学习系统100包括对动作选择神经网络110进行训练，以确定动作选择神经网络110的参数的训练值的训练引擎120。

为了协助动作选择神经网络的训练，训练引擎120维持重放存储器130。

重放存储器130存储作为代理102或另一代理的与环境104或者与该环境的另一实例的交互的结果而生成的经验数据块，用于在对动作选择网络110进行训练中使用。

训练引擎120通过从重放存储器130中反复地选择经验数据块并且在所选择的经验数据块上对动作选择神经网络110进行训练来对动作选择神经网络110进行训练。在下面参考图2和图3更详细地描述使用重放存储器130中的经验数据来对动作选择神经网络110进行训练。

图2是用于使用重放存储器来对神经网络进行训练的示例过程200的流程图。为了方便起见，过程200将被描述为由位于一个或多个位置中的一个或多个计算机的系统被执行。例如，根据本说明书适当地编程的强化学习系统(例如，图1的强化学习系统100)能够执行过程200。

系统维持重放存储器(202)。重放存储器存储作为代理的与环境交互的结果而生成的经验数据块。每个经验数据块表示关于代理的与环境的交互的信息。

在一些实施方式中，每个经验数据块是经验元组，其包括：(1)表征环境的在一个时间的当前状态的当前观察结果；(2)由代理响应于当前观察结果而执行的当前动作；(3)表征环境的在代理执行当前动作之后的下一个状态的下一个观察结果，即，作为代理的执行当前动作的结果的环境转变成的状态；以及(4)响应于代理执行当前动作而接收到的奖励。

系统也维持(在重放存储器中或者在单独的存储组件中)针对经验数据块中的一些或全部的预期学习进展量度。如果使用该经验数据块来对神经网络进行训练，则与经验数据块相关联的预期学习进展量度是在神经网络的训练中进行的预期进展量的量度。换句话说，预期学习进展量度是神经网络能够预期从经验数据块中学习到多少的指示。

在一些实施方式中，系统基于经验元组的先前计算出的时间差误差(即，与在对神经网络进行训练中使用经验元组的在前时间的时间差误差)来确定与经验元组相关联的预期学习进展量度。在下面参考图3更详细地描述确定针对经验元组的时间差误差。

在一些实施方式中，预期学习进展量度是对神经网络进行训练中使用经验元组的在前时间来针对经验元组确定的时间差学习误差的绝对值。在一些实施方式中，预期学习进展量度是在对神经网络进行训练中使用经验元组的在前时间针对经验元组确定的时间差学习误差的绝对值的导数。

在一些实施方式中，与经验元组相关联的预期学习进展量度是针对经验元组的先前计算出的时间差学习误差的绝对值的调整后的量度。时间差误差的调整被配置为使得对于其先前计算出的时间差学习误差的绝对值是相等的两个经验元组，其时间差学习误差具有正值的元组将具有较高的预期学习进展量度。

在一些实施方式中，针对重放存储器中的每个经验元组的预期学习进展量度是由使用该经验元组来对神经网络进行训练产生的诱发权重变化的范数。

系统从重放存储器(204)中选择经验数据块。在选择经验数据块中，系统对相对于重放存储器中的其它经验数据块具有相对较高的预期学习进展量度的经验数据块的选择进行优先级排序。

在一些实施方式中，系统使用预期学习进展量度来确定针对每个经验数据块的相应的概率并且根据所确定的概率来对经验数据块进行采样。在下面参考图3更详细地描述根据确定的概率对经验数据进行采样。

系统在所选择的经验数据块上对神经网络进行训练(206)。在一些实施方式中，系统使用所选择的经验数据块来调整神经网络的参数的值。在下面参考图4进一步详细地描述在经验数据上对神经网络进行训练。

在一些实施方式中，在神经网络的训练期间，系统使用预期学习进展量度来确定何时从重放存储器中删除经验数据块。

在这些实施方式中的一些中，当与经验数据块相关联的相应的预期学习量度下降至阈值以下时，系统确定要删除经验数据块。阈值可以是预定常数值或存储器重放中的经验数据块的预期学习量度的集中趋势的量度的函数，例如，均值或中值。

在这些实施方式中的其它实施方式中，当至少部分地从经验数据的预期学习进展量度取得的值(例如，用于经验数据块的概率或优先级)下降至阈值以下时，系统确定删除经验数据块。

图3是用于基于经验数据的确定的概率对经验数据进行采样的示例过程300的流程图。为了方便，过程300将被描述为由位于一个或多个位置中的一个或多个计算机的系统执行。例如，根据本说明书适当地编程的强化学习系统(例如，图1的强化学习系统100)能够执行过程300。

系统确定用于每个经验数据块的相应的优先级(302)。特别地，系统基于经验数据块的预期学习量度来确定用于每个经验数据块的优先级。

在一些实施方式中，用于经验数据块的优先级是经验数据块的预期学习量度加上常数值。

在其它一些实施方式中，用于经验数据块的优先级是具有预定正值作为分子以及经验数据块的排名作为分母的分数，该排名在根据其预期学习进展量度对重放存储器中的经验数据块的排名中。

在一些实施方式中，当将不具有时间差学习误差的先验量度的新经验元组添加到重放存储器时，系统向该元组指派最大优先级的量度，即，给该经验元组指派作为能够根据系统如何确定优先级来为任何经验元组确定的最大可能的优先级。这增加系统在训练中使用所有经验元组至少一次的可能性。

系统确定用于每个经验数据块的概率(304)。系统设置用于经验数据块的概率，使得与具有相对较低的预期学习进展量度的经验数据块相比，具有较高的预期学习进展量度的经验数据块具有较高的概率。特别地，系统基于用于该经验数据块的优先级确定用于每个经验数据块的概率。

在一些实施方式中，用于经验数据块i的概率P(i)满足：

其中α是预定常数，k的范围跨越重放存储器中的经验数据块，以及p_i是用于经验数据块i的优先级。

在一些实施方式中，常数α是应当在对经验数据块进行采样中使用经验数据块的多少优先化的量度。因此，当α＝0时，不实现优先化。随着α增加，用于经验数据块i的优先级p_i成为确定用于该经验数据块的概率P(i)中的一个更重要的因素。

系统从重放存储器中对经验数据块进行采样(306)。系统根据经验数据块的已确定的概率来执行采样。在一些实施方式中，系统对具有最高确定的概率的一个或多个经验数据块进行采样。在一些其它实施方式中，该系统对具有等于用于经验数据块的所确定的概率的概率的每个经验数据块进行采样。

图4是用于在经验元组上对神经网络进行训练的示例过程400的流程图。为了方便起见，过程400将被描述为由位于一个或多个位置中的一个或多个计算机的系统执行。例如，根据本说明书适当地编程的强化学习系统(例如，图1的强化学习系统100)能够执行过程400。

系统针对经验元组确定时间差学习误差(402)。与当前经验元组相关联的时间差误差能够是以下(i)与(ii)之间的差：(i)如由神经网络在响应于元组中的当前观察结果而执行元组中的当前动作的条件下所确定的当前预期返回；以及(ii)以下各项之和：(a)在响应于元组中的下一个观察结果而执行下一个动作的条件下的时间折扣下一个预期返回和(b)元组中的奖励。

其中系统选择下一个动作并且确定下一个预期返回的方式是根据正在用于对神经网络进行训练的强化学习算法。例如，在深度Q学习技术中，系统选择动作作为下一个动作，该动作当被作为输入与下一个观察结果相结合地提供给目标神经网络时而导致该目标神经网络输出最高Q值，并且使用Q值作为下一个返回，该Q值是针对由该目标神经网络生成的下一个动作。作为另一示例，在双深度Q学习技术中，系统选择动作作为下一个动作，该动作当被作为输入与下一个观察结果相结合地提供神经网络时而导致该目标神经网络输出最高Q值，并且使用Q值作为下一个返回，该Q值通过将下一个动作和下一个观察结果作为输入提供给该目标神经网络而生成。作为又一个示例，在Sarsa学习技术中，下一个动作是由代理响应于下一个观察结果而实际地执行的动作，并且下一个返回是通过将下一个动作和下一个观察结果作为输入提供给目标神经网络而生成的Q值。目标神经网络是具有与动作选择神经网络相同的架构但是它可以具有不同的参数的神经网络。

系统确定用于时间差学习误差的权重(404)。在一些实施方式中，用于经验元组i的时间差学习误差的权重w_i满足：

其中N是重放存储器中的经验元组的数目，P(i)是针对经验元组i的概率，以及β是偏差因子。

在一些实施方式中，偏差因子是预定常数值。在其它一些实施方式中，系统在神经网络的训练期间使在计算权重中使用的指数(例如，偏差因子β)退火。在一些实施方式中，系统在神经网络的训练期间使指数从其预定初始值线性地退火到1。

系统使用权重来调整时间差学习误差(406)。在一些实施方式中，系统通过将误差乘以权重来调整时间差学习误差。

系统在调整神经网络的参数值中使用调整后的时间差学习误差(408)。在一些实施方式中，作为传统强化学习技术(例如，Sarsa、深度Q学习、或双深度Q学习)的部分，系统使用调整后的时间差学习误差作为用于调整神经网络的参数的值的目标误差。

在一些实施方式中，系统仅在从重放存储器中选择经验数据时使用时间差学习误差，而不在训练期间对时间差学习误差进行加权。也就是说，在一些实施方式中，不是像上面随着图4所描述的那样使用调整后的时间差学习误差，而是系统替代地直接使用时间差学习误差来调整参数值。

本说明书中描述的主题和功能操作的实施例能够以数字电子电路、以有形地实施的计算机软件或固件、以计算机硬件(包括本说明书中公开的结构及其结构等同物)、或者以它们中的一个或多个的组合加以实现。本说明书中描述的主题的实施例能够作为一个或多个计算机程序(即，在有形非暂时性程序载体上编码以供由数据处理装置执行或者以控制数据处理装置的操作的计算机程序指令的一个或多个模块)被实现。可替选地或此外，程序指令能够被编码在人工生成的传播信号上，所述传播信号例如为机器生成的电、光、或电磁信号，该信号被生成以对信息进行编码，用于发送到适合的接收器装置以供由数据处理装置执行。计算机存储介质能够是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。然而，计算机存储介质不是传播信号。

术语“数据处理装置”包含用于处理数据的所有种类的装置、设备和机器，作为示例包括可编程处理器、计算机、或多个处理器或计算机。该装置能够包括专用逻辑电路，例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)。该装置除了包括硬件之外，还能够包括为所述计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统、或它们中的一个或多个的组合的代码。

计算机程序(其也可以被称为或者描述为程序、软件、软件应用、模块、软件模块、脚本、或代码)能够以任何形式的编程语言来编写，所述编程语言包括编译或解释语言或声明性或过程语言，并且它能够被以任何形式部署，包括作为独立程序或者作为适合于在计算环境中使用的模块、组件、子例行程序、或其它单元。计算机程序可以但未必与文件系统中的文件相对应。能够在保持其它程序或数据(例如，存储在标记语言文档中的一个或多个脚本)的文件的部分中、在专用于所述程序的单个文件中、或者在多个协调文件(例如，存储一个或多个模块、子程序、或代码的部分的文件)中存储程序。能够将计算机程序部署成在一个计算机上或者在位于一个站点处或者跨越多个站点分布并且通过通信网络互连的多个计算机上执行。

如本说明书中所使用的，“引擎”或“软件引擎”指代提供与输入不同的输出的软件实现的输入/输出系统。引擎能够是功能性的编码块，诸如库、平台、软件开发工具包(“SDK”)、或对象。每个引擎能够被实现在包括一个或多个处理器和计算机可读介质的任何适当类型的计算设备上，所述计算设备例如服务器、移动电话、平板计算机、笔记本计算机、音乐播放器、电子书阅读器、膝上型或台式计算机、PDA、智能电话、或其它固定或便携式设备。附加地，这些引擎中的两个或更多个可以被实现在相同的计算设备上或在不同的计算设备上。

本说明书中描述的过程和逻辑流程能够通过一个或多个可编程计算机执行一个或多个计算机程序来执行，以通过对输入数据进行操作并生成输出来执行功能。这些过程和逻辑流程也能够由专用逻辑电路执行，并且装置也能够作为专用逻辑电路被实现，所述专用逻辑电路例如为FPGA(现场可编程门阵列)或ASIC(专用集成电路)。

作为示例，适合于执行计算机程序的计算机包括能够基于通用微处理器或专用微处理器或两者，或任何其它种类的中央处理单元。一般地，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的必要元件是用于执行或施行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。一般地，计算机也将包括或者可操作地被耦合以从用于存储数据的一个或多个大容量存储设备(例如，磁盘、磁光盘、或光盘)接收数据，或者将数据转移到一个或多个大容量存储设备，或者兼而有之。然而，计算机不必具有此类设备。此外，能够将计算机嵌入在另一设备中，所述另一设备例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器、或便携式存储设备，例如，通用串行总线(USB)闪速驱动器等。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，作为示例包括半导体存储器设备，例如，EPROM、EEPROM、和闪速存储器设备；磁盘，例如，内部硬盘或可移动磁盘；磁光盘；以及CD ROM和DVD-ROM盘。处理器和存储器能够由专用逻辑电路来补充，或者并入在专用逻辑电路中。

为了提供与用户的交互，能够在计算机上实现本说明书中描述的主题的实施例，所述计算机具有用于向用户显示信息的显示设备(例如，CRT(阴极射线管)或LCD(液晶显示器)监视器)以及用户能够用来向该计算机提供输入的键盘和指点设备(例如，鼠标或轨迹球)。其它种类的设备也能够用于提供用于与用户的交互；例如，提供给用户的反馈能够是任何形式的感觉性反馈，例如，视觉反馈、听觉反馈或触觉反馈；并且能够以任何形式接收来自用户的输入，所述任何形式包括声、语音、或触觉输入。此外，计算机能够通过向由用户使用的设备发送文档并且从由用户使用的设备接收文档来与用户交互；例如，通过响应于从web浏览器接收到的请求而向用户的客户端设备上的web浏览器发送web页面。

能够在计算系统中实现本说明书中描述的主题的实施例，所述计算系统包括后端组件，例如，作为数据服务器，或者包括中间件组件，例如，应用服务器，或者包括前端组件，例如，具有用户能够用来与本说明书中描述的主题的实施方式交互的图形用户界面或Web浏览器的客户端计算机，或者包括一个或多个此类后端、中间件、或前端组件的任何组合。本系统的组件能够通过任何形式或介质的数字数据通信(例如，通信网络)来互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)，例如，互联网。

该计算系统能够包括客户端和服务器。客户端和服务器一般地彼此远离并且通常通过通信网络来交互。客户端和服务器的关系借助于在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。

虽然本说明书包含许多具体实施方式细节，但是这些不应当被解释为对任何发明的或可以要求保护的范围构成限制，而是相反被解释为可能特定于特定发明的特定实施例的特征的描述。也能够在单个实施例中相结合地实现在本说明书中在单独的实施例的上下文中描述的某些特征。相反地，也能够在多个实施例中单独地或者按照任何适合的子组合实现在单个实施例的上下文中描述的各种特征。此外，尽管特征可以在上面被描述为按照某些组合起作用并且甚至最初如此要求保护，然而来自要求保护的组合的一个或多个特征能够在一些情况下被从该组合中删去，并且所要求保护的组合可以针对子组合或子组合的变化。

类似地，虽然在附图中以特定次序描绘操作，但是这不应当被理解为要求以所示的特定次序或者以顺序次序执行此类操作，或者要求所有图示的操作被执行以实现所希望的结果。在某些情况下，多任务处理和并行处理可以是有利的。此外，上述实施例中的各种系统模块和组件的分离不应当被理解为在所有实施例中要求这种分离，并且应当理解的是，所描述的程序组件和系统一般地能够被一起集成在单个软件产品中或者包装到多个软件产品中。

已经对主题的特定实施例进行了描述。其它实施例在以下权利要求书的范围内。例如，权利要求书中记载的动作能够被以不同的次序执行并仍然实现所希望的结果。作为一个示例，附图中描绘的过程不一定要求所示的特定次序或顺序次序以实现所希望的结果。在某些实施方式中，多任务处理和并行处理可以是有利的。

Claims

1.一种用于训练神经网络的方法，所述神经网络用于选择由强化学习代理执行的动作，所述强化学习代理通过执行使环境转变状态的动作与所述环境交互，所述方法包括：

维持重放存储器，所述重放存储器存储经验数据块以在训练所述神经网络时使用，其中：

每个经验数据块已作为所述强化学习代理与所述环境交互的结果而生成，

每个经验数据块包括表征所述环境的相应的当前状态的相应的当前观察结果、由所述代理响应于所述当前观察结果而执行的相应的当前动作、表征所述环境的相应的下一个状态的相应的下一状态以及响应于所述代理执行所述当前动作而接收到的奖励，

多个所述经验数据块中的每一个与相应的预期学习进展量度相关联，所述预期学习进展量度(i)是如果在所述经验数据块上对所述神经网络进行训练则在所述神经网络的训练中将进行的预期进展量的量度、并且(ii)是从所述经验数据块在训练所述神经网络时被使用的在前时间的结果取得的；

通过对具有相对较高的预期学习进展量度的经验数据块进行优先级排序以供选择来从所述重放存储器中选择经验数据块，包括：

基于所述经验数据块的相应的预期学习进展量度，确定所述重放存储器中的所述经验数据块中的每个经验数据块的相应的概率；以及

根据所确定的概率对来自所述重放存储器的经验数据块进行采样；

使用强化学习技术在所选择的经验数据块上训练所述神经网络；以及

在所述重放存储器中将所选择的经验数据块与从在所选择的经验数据块上训练所述神经网络的结果取得的新的预期学习进展量度相关联。

2.根据权利要求1所述的方法，其中，基于所述经验数据块的相应的预期学习进展量度，确定所述重放存储器中的所述经验数据块中的每个经验数据块的相应的概率包括：

确定用于每个经验数据块的相应的概率，使得与具有相对较低的预期学习进展量度的经验数据块相比，具有较高的预期学习进展量度的经验数据块具有较高的概率。

3.根据权利要求2所述的方法，其中，经验数据块i的概率P(i)满足：

4.根据权利要求3所述的方法，其中，所述优先级是所述预期学习进展量度加上常数值。

5.根据权利要求3所述的方法，其中，所述优先级是具有预定正值作为分子以及所述经验数据块i的排名作为分母的分数，所述排名在根据其预期学习进展量度对所述重放存储器中的所述经验数据块的排名中。

6.根据权利要求3所述的方法，其中，所述优先级对于仍然未被用在所述神经网络中的训练中的经验数据块被设置为最大值。

7.根据权利要求1所述的方法，其中，在所选择的经验数据块上对所述神经网络进行训练包括：

针对所选择的经验数据块确定时间差学习误差；以及

在调整所述神经网络的参数的值中使用所述时间差学习误差。

8.根据权利要求7所述的方法，其中，在调整所述参数的值中使用所述时间差学习误差包括：

使用针对所选择的经验数据块的所述预期学习进展量度来确定用于所述时间差学习误差的权重；

使用所述权重来调整所述时间差学习误差；以及

使用调整后的时间差学习误差作为用于调整所述神经网络的参数的值的目标误差。

9.根据权利要求8所述的方法，进一步包括：

在所述神经网络的训练期间使在计算所述权重中使用的指数退火。

10.根据权利要求1所述的方法，其中，针对所述重放存储器中的每个经验数据块的所述预期学习进展量度是在对所述神经网络进行训练中使用所述经验数据块的在前时间针对所述经验数据块确定的时间差学习误差的绝对值。

11.根据权利要求1所述的方法，其中，针对所述重放存储器中的每个经验数据块的所述预期学习进展量度是在对所述神经网络进行训练中使用所述经验数据块的在前时间针对所述经验数据块确定的时间差学习误差的绝对值的导数。

12.根据权利要求1所述的方法，其中，针对所述重放存储器中的每个经验数据块的所述预期学习进展量度是通过使用所述经验数据块来对所述神经网络进行训练进行的诱发权重变化的范数。

13.根据权利要求1所述的方法，进一步包括：

使用所述预期学习进展量度来确定何时从所述重放存储器中删除经验数据块。

14.根据权利要求13所述的方法，进一步包括：

确定(i)特定经验数据块的预期进展量度或(ii)从所述经验数据块的所述预期进展量度导出的值低于阈值；以及

作为响应，从所述重放存储器删除所述特定经验数据块。

15.根据权利要求1所述的方法，进一步包括：

当所述强化学习代理与所述环境交互时，使用所述神经网络控制所述强化学习代理。

16.一种系统，所述系统包括一个或多个计算机和存储指令的一个或多个存储设备，所述指令在由所述一个或多个计算机执行时可操作为使所述一个或多个计算机执行用于训练神经网络的方法的操作，所述神经网络用于选择由强化学习代理执行的动作，所述强化学习代理通过执行使环境转变状态的动作与所述环境交互，所述方法包括：

17.根据权利要求16所述的系统，基于所述经验数据块的相应的预期学习进展量度，确定所述重放存储器中的所述经验数据块中的每个经验数据块的相应的概率包括：

18.根据权利要求17所述的系统，其中，经验数据块i的概率P(i)满足：

19.根据权利要求17所述的系统，其中，在所选择的经验数据块上对所述神经网络进行训练包括：

针对所选择的经验数据块确定时间差学习误差；以及

20.一种编码有指令的非暂时性计算机可读存储介质，所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行用于训练神经网络的操作，所述神经网络用于选择由强化学习代理执行的动作，所述强化学习代理通过执行使环境转变状态的动作与所述环境交互，所述操作包括：