CN110088775B

CN110088775B - 使用加强学习的环境预测

Info

Publication number: CN110088775B
Application number: CN201780078702.3A
Authority: CN
Inventors: D.西尔弗; T.肖尔; M.黑塞尔; H.P.范哈塞尔特
Original assignee: DeepMind Technologies Ltd
Current assignee: DeepMind Technologies Ltd
Priority date: 2016-11-04
Filing date: 2017-11-04
Publication date: 2023-11-07
Anticipated expiration: 2037-11-04
Also published as: CN110088775A; US20200327399A1; JP6728495B2; EP3523760B1; US20190259051A1; EP3523760A1; JP2020191097A; CN117521725A; US10733501B2; JP2019537136A; WO2018083667A1; JP6917508B2

Abstract

本公开提供了方法、系统和装置，其包括在计算机存储介质上编码的计算机程序，所述计算机程序用于预测与环境有关的结果。在一个方面，一种系统包括状态表示神经网络，被配置为接收表征与代理交互的环境的状态的观察，并处理该观察以生成环境状态的内部状态表示；预测神经网络，被配置为接收当前环境状态的当前内部状态表示，并处理当前内部状态表示以生成环境的后续状态的预测后续状态表示和用于后续状态的预测回报；和值预测神经网络，被配置为接收当前环境状态的当前内部状态表示，并处理当前内部状态表示以生成值预测。

Description

使用加强学习的环境预测

技术领域

本说明书涉及使用机器学习模型的预测。

背景技术

机器学习模型接收输入并基于所接收的输入生成输出，例如预测输出。一些机器学习模型是参数模型，并基于接收的输入和模型的参数值生成输出。

一些机器学习模型是深度模型，所述深度模型采用多层模型来生成针对接收的输入的输出。例如，深度神经网络是深度机器学习模型，所述深度机器学习模型包括输出层和一个或多个隐藏层，其中每个隐藏层将非线性变换应用于接收的输入以生成输出。

发明内容

本说明书描述了在一个或多个位置中的一个或多个计算机上被实现为计算机程序的系统，所述系统通过一系列内部计划步骤生成值预测来确定从处于初始状态的环境得到的总回报(aggregate reward)的估计。

根据第一方面，提供了一种系统，包括：状态表示神经网络，其被配置为：接收表征(character)与代理交互的环境的状态的一个或多个观察，和处理所述一个或多个观察以生成当前环境状态的内部状态表示；预测神经网络，被配置为针对多个内部时间步骤中的每一个：接收用于内部时间步骤的内部状态表示；和处理用于内部时间步骤的内部状态表示以生成：用于下一内部时间步骤的内部状态表示，以及用于下一内部时间步骤的预测回报；值预测神经网络，被配置为针对多个内部时间步骤中的每一个：接收用于内部时间步骤的内部状态表示，和处理用于内部时间步骤的内部状态表示以生成值预测，该值预测是从下一内部时间步骤开始的对未来累积折扣回报的估计；和预测子系统，其被配置为：接收表征环境的状态的一个或多个观察；提供所述一个或多个观察作为状态表示神经网络的输入，以生成当前环境状态的内部状态表示；针对多个内部时间步骤中的每一个：使用预测神经网络和值预测神经网络，并从用于内部时间步骤的内部状态表示生成：用于下一内部时间步骤的内部状态表示、用于下一内部时间步骤的预测回报、和值预测；和根据预测回报和用于内部时间步骤的值预测来确定总回报。

在相关方面，提供了由一个或多个计算机实现的系统，该系统包括：状态表示神经网络，其被配置为：接收表征与代理交互的环境的状态的观察，和处理所述观察以生成环境状态的内部状态表示；预测神经网络，被配置为：接收当前环境状态的当前内部状态表示；和处理当前内部状态表示以生成：环境的后续状态的预测后续状态表示、以及用于后续状态的预测回报；以及值预测神经网络，其被配置为：接收当前环境状态的当前内部状态表示，和处理当前内部状态表示以生成值预测，该值预测是从当前环境状态开始的对未来累积折扣回报的估计。

在相关方面的优选实施方式中，该系统包括预测子系统，该预测子系统被配置为：接收表征环境的初始状态的初始观察；提供初始观察作为状态表示神经网络的输入，以生成环境状态的初始内部状态表示；针对多个内部时间步骤中的每一个：使用预测神经网络和值预测神经网络并且根据当前状态表示，生成预测后续状态表示、预测回报和值预测；以及根据用于所述时间步骤的预测回报和值预测来确定总回报。

因此，如本文所述，系统可以将环境模型与计划模型集成。这在这里被称为预测系统；在一些实施方式中，预测系统采用如上所述的预测子系统。预测子系统还可以被配置为提供总回报作为对从处于当前状态的环境得到的回报的估计。内部时间步骤可以被视为计划步骤。未来累积折扣回报可以包括对用于多个未来时间步骤的未来回报的估计，因此它可以是累积的。回报可以通过给予回报权重并在更晚时间步骤比在更早时间步骤对回报加权更少来打折。

在一些实施方式中，预测神经网络还被配置为生成用于下一内部时间步骤的预测折扣因子，并且预测子系统被配置为在确定总回报时使用用于内部时间步骤的预测折扣因子。可以通过折扣因子的乘积对未来回报加权来将回报打折，其中每个折扣因子在0和1之间，每个连续时间步骤一个折扣因子。预测子系统可用于预测折扣因子。如下所述，总回报可以由累加器确定。

在一些实施方式中，该系统还包括：λ(lambda)神经网络，其被配置为针对内部时间步骤中的每一个，处理用于当前内部时间步骤的内部状态表示，以生成用于下一内部时间的λ因子。并且预测子系统被配置为在确定总回报时确定用于内部时间步骤的返回(return)因子，并使用λ因子来确定用于返回因子的权重。返回因子可以包括用于内部计划时间步骤的预测返回。这可以根据预测回报、预测折扣因子和值预测的组合来确定；可以针对k个未来内部时间(即，计划步骤)中的每一个来确定。

在一些实施方式中，状态表示神经网络是递归神经网络。

在一些实施方式中，状态表示神经网络是前馈神经网络。

在一些实施方式中，预测神经网络是递归神经网络。

在一些实施方式中，预测神经网络是前馈神经网络，其在多个时间步骤中的每一个具有不同的参数值。

根据第二方面，提供了一种方法，包括由预测子系统执行的相应操作。

根据第三方面，提供了一种训练该系统的方法，包括：确定损失梯度(gradient)，所述损失梯度是基于总回报的和对从处于当前状态的环境得到的回报的估计；并且后向传播损失梯度以更新状态表示神经网络、预测神经网络、值预测神经网络和λ神经网络的参数的当前值。

根据第四方面，提供了一种用于训练该系统的方法，包括：确定一致性损失梯度，该一致性损失梯度基于由预测子系统针对内部时间步骤确定的返回因子的一致性；并且后向传播一致性损失梯度以更新状态表示神经网络、预测神经网络、值预测神经网络和λ神经网络的参数的当前值。

可以实现本说明书中描述的主题的特定实施例，以便实现以下优点中的一个或多个。本说明书中描述的预测系统联合学习环境的模型(即系统的状态表示神经网络和预测神经网络)和计划模型(即，值预测神经网络，并且在使用时，λ神经网络网络)，其中计划模型生成估计累积回报的值函数。传统系统分别学习环境的模型和计划模型，因此在传统系统中，该模型与计划任务不完全匹配。相反，对于本说明书中描述的预测系统，环境模型和计划模型是联合学习的，因此系统能够生成有助于比传统系统更准确地估计与环境的当前状态相关联的结果的值函数。

此外，与传统系统不同，本说明书中描述的预测系统可以部分地通过无监督学习方法(即基于表征其中与环境的当前状态相关联的结果是未知的环境的状态的观察)来训练。因此，由于辅助无监督训练，本说明书中描述的系统生成值函数，所述值函数有助于比传统系统更准确地估计与环境的当前状态相关联的结果。此外，如本说明书中所述，训练预测系统所需的标记(labelled)训练数据少于训练传统系统所需的标记训练数据，因为与传统系统不同，预测系统能够通过辅助无监督训练进行训练。

此外，本说明书中描述的预测系统基于取决于系统的内部状态表示和内部动态的适应性数量的计划步骤来生成输出。特别地，在一些情况下，预测系统可以基于比计划步骤的总可能数量更少的计划步骤来生成输出，并且因此比在所有情况下基于利用每个计划步骤来生成输出的传统系统消耗更少的计算资源(例如，使用更少的计算能力和计算时间)。

在附图和以下描述中阐述了本说明书的主题的一个或多个实施例的细节。根据说明书、附图和权利要求，本主题的其他特征、方面和优点将变得清楚。

附图说明

图1示出了示例性预测系统。

图2是用于确定总回报输出的示例过程的流程图。

图3是用于训练预测系统的示例过程的流程图。

各附图中相同的附图标记和名称表示相同的元件。

具体实施方式

图1示出了示例性预测系统100。预测系统100是被实现为在一个或多个位置中的一个或多个计算机上的计算机程序的系统的示例，其中在所述计算机程序中实现了下面描述的系统、组件和技术。

系统100估计由与环境106交互的代理102执行的动作104的效果。

在一些实施方式中，环境106是模拟环境，并且代理102被实现为与模拟环境交互的一个或多个计算机程序。例如，模拟环境可以是视频游戏，并且代理102可以是玩视频游戏的模拟用户。作为另一示例，模拟环境可以是运动模拟环境，例如驾驶模拟或飞行模拟，并且代理102是在运动模拟中航行的模拟车辆。

在一些其他实施方式中，环境106是真实世界环境，并且代理102是与真实世界环境交互的机械代理。例如，代理102可以是与环境交互以完成特定任务的机器人。作为另一示例，代理102可以是在环境106中航行的自主或半自主车辆。

系统100输出总回报110作为对与代理102交互的环境106的当前状态相关联的结果128的估计。系统100通过累积在多个内部时间步骤(在本说明书中称为计划步骤)上的预测回报116、预测折扣因子118、和值预测来生成总回报110。

结果128能够编码与代理102交互的环境106的任何事件或方面。例如，结果128可以包括二进制值，其指示在环境中航行的代理是否从环境106的当前状态开始到达环境中的特定位置。作为另一示例，结果128可以包括值，所述值指示基于在环境106中航行的代理102从环境106的当前状态开始完成某些任务(例如，到达环境106中的某些位置)的、由代理102接收的累积回报。

一旦经过训练，系统100就可以用于例如选择要由代理102执行的动作104。例如，如果结果128包括评定代理102与环境106的交互成功的值，例如，表示代理从环境的当前状态开始完成任务所花费的时间量的值，然后可以选择代理102的动作104作为由系统100预测的、用来优化对应于该值的结果128的分量的动作。

系统100包括预测神经网络120，针对每个计划步骤，预测神经网络120被配置为处理输入以生成以下作为输出：(i)用于下一计划步骤，即当前计划步骤之后的计划步骤，的内部状态表示114，(ii)用于下一计划步骤的预测回报116，以及(iii)用于下一计划步骤的预测折扣因子118。针对第一计划步骤，预测神经网络120接收由状态表示神经网络122生成的内部状态表示114作为输入，并且针对后续计划步骤，预测神经网络120接收由预测神经网络120在先前计划步骤生成的内部状态表示114作为输入。预测回报116、预测折扣因子118和结果128可以是标量、矢量或矩阵，并且通常都具有相同的维度。通常，预测折扣因子118的条目都是0和1之间的值。内部状态表示114、预测回报116和预测折扣因子118是系统使用的抽象表示，用于便利对与环境106的当前状态相关联的结果128的预测。

状态表示神经网络122被配置为接收环境106的一个或多个观察108的序列作为输入，并且根据状态表示神经网络参数的集合的值处理所述观察以生成用于第一计划步骤的内部状态表示114作为输出。通常，内部状态表示114的维度可以与环境106的一个或多个观察108的维度不同。

在一些实施方式中，观察108可以由代理102的传感器生成或从代理102的传感器导出。例如，观察108可以是由代理102的相机捕获的图像。作为另一示例，观察108可以从由代理102的激光传感器捕获的数据导出。作为另一示例，观察108可以是由代理102的高光谱传感器捕获的高光谱图像。

系统100包括值预测神经网络124，值预测神经网络124被配置为，针对每个计划步骤，处理用于该计划步骤的内部状态表示114以生成用于下一计划步骤的值预测。用于计划步骤的值预测是对从下一计划步骤开始的未来累积折扣回报的估计，即，值预测可以是对以下总和的估计而不是直接计算：

v_k＝r_k+1+γ_k+1r_k+2+γ_k+1γ_k+2r_k+3+…

其中v_k是在计划步骤k的值预测，r_i是在计划步骤i的预测回报116，并且γ_i是在计划步骤i的预测因子118。

累积回报110由累加器112生成，并且是对与环境106的当前状态相关联的结果128的估计。总回报110可以是标量、矢量或矩阵，并且具有与结果128相同的维度。在一些实施方式中，累加器112通过在本说明书中称为k步预测的过程来生成总回报110，其中k是1和K之间的整数，并且K是计划步骤的总数。在这些实施方式中，累加器112通过组合用于前k个计划步骤中的每一个的预测回报116和预测折扣因子118以及第k个计划步骤的值预测来生成总回报110，以确定在本说明书中被称为k步返回的输出。针对k步预测，总回报110通常被确定为对应于最终计划步骤K的k步预测。在一些实施方式中，累加器112通过在本说明书中称为λ加权预测的过程生成总回报110。在这些实施方式中，系统100包括λ神经网络126，其被配置为针对计划步骤中的每一个处理内部状态表示114以生成用于计划步骤的λ因子，其中λ因子可以是标量、矢量或矩阵。在一些情况下，λ因子的条目都是0和1之间的值。在这些实施方式中，累加器112通过确定用于每个计划步骤k的k步返回、并且根据由λ因子定义的权重来组合它们以确定在本说明书中被称为λ加权返回的输出，来生成总回报110。参考图2进一步描述确定总回报输出。

系统100由训练引擎130基于包括观察108和对应结果128的训练数据的集合来训练。具体地，训练引擎130后向传播基于损失函数确定的梯度(例如按随机梯度下降)，以联合优化值预测神经网络124、状态表示神经网络122、预测神经网络120和λ加权预测实施方式中的λ神经网络126的参数的集合的值。训练系统100涉及监督训练，并且在某些情况下，涉及辅助无监督训练。

在系统100的监督训练中，损失函数取决于对应于作为输入提供并由系统100处理的观察108的结果128。例如，在k步预测实施方式中，监督损失函数可以测量在结果128和由累加器112生成的k步返回之间的差异。作为另一示例，在λ加权预测实施方式中，监督损失函数可以测量在结果128和由累加器生成的λ加权返回之间的差异。

在系统100的无监督训练中，损失函数不取决于对应于作为输入提供并由系统100处理的观察108的结果128。例如，在λ加权预测实施方式中，无监督损失函数可以是一致性损失函数，其测量每个k步返回和λ加权返回之间的差异。在这种情况下，无监督训练联合调整系统100的神经网络的参数的值以减小各个k步返回与λ加权返回之间的差异，使得k步返回自我一致，并由此增加系统100的鲁棒性。参考图3进一步描述训练引擎130对系统100的训练。

本说明书中提到的例如矩阵和矢量的数据结构，例如系统100的神经网络的任何一个的输出，可以以允许以说明书中描述的方式使用数据结构的任何格式表示(例如被描述为矩阵的神经网络的输出可以表示为矩阵的条目的矢量)。

图2是用于确定总回报输出的示例过程200的流程图。为方便起见，过程200将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，根据本说明书适当编程的预测系统，例如图1的预测系统100，能够执行过程200。

系统接收与代理交互的环境的一个或多个观察(步骤202)。

在一些实施方式中，环境是模拟环境，并且代理被实现为与模拟环境交互的一个或多个计算机程序。例如，模拟环境可以是视频游戏，并且代理可以是玩视频游戏的模拟用户。作为另一示例，模拟环境可以是运动模拟环境，例如驾驶模拟或飞行模拟，并且代理是在运动模拟中航行的模拟车辆。

在一些其他实施方式中，环境是真实世界环境，并且代理是与真实世界环境交互的机械代理。例如，代理可以是与环境交互以完成特定任务的机器人。作为另一示例，代理可以是在环境中航行的自主或半自主车辆。

在一些实施方式中，观察可以由代理的传感器生成或从代理的传感器导出。例如，观察可以是由代理的相机捕获的图像。作为另一示例，观察可以从从由代理的激光传感器捕获的数据导出。作为另一示例，观察可以是由代理的高光谱传感器捕获的高光谱图像。

状态表示神经网络接收环境的一个或多个观察作为输入，并根据状态表示神经网络参数的集合的值来处理所述输入，以生成用于第一计划步骤的内部状态表示作为输出(步骤204)。

在一些实施方式中，状态表示神经网络是递归神经网络，并且状态表示神经网络的输出是在顺序地处理每个观察之后的递归神经网络的输出。在一些其他实施方式中，状态表示神经网络是前馈神经网络，并且状态表示神经网络的输出是前馈神经网络的最后一层的输出。在状态表示神经网络是前馈神经网络的实施方式中，系统可以在将一个或多个观察作为输入提供给状态表示神经网络122之前连接(concatenate)所述一个或多个观察。

针对每个计划步骤，预测神经网络处理输入以生成如下作为输出：(i)用于下一计划步骤的内部状态表示，(ii)用于下一计划步骤的预测回报，以及(iii)用于下一计划步骤的预测折扣因子(步骤206)。针对第一计划步骤，预测神经网络接收由状态表示神经网络生成的内部状态表示作为输入，并且针对后续计划步骤，预测神经网络接收由预测神经网络在先前计划步骤处生成的内部状态表示作为输入。预测回报和预测折扣因子可以是标量、矢量或矩阵，并且通常具有与结果相同的维度。通常，折扣因子的条目都是0到1之间的值。用于计划步骤的内部状态表示是由系统用来便利结果的预测的环境的抽象表示。

在一些实施方式中，预测神经网络是递归神经网络。在一些其他实施方式中，针对预测神经网络是前馈神经网络，其具有与计划步骤中的每一个相对应的不同参数值。在一些实施方式中，预测神经网络包括S形非线性层，以使折扣因子的条目的值位于0到1的范围内。

针对每个计划步骤，值预测神经网络处理输入以生成用于下一计划步骤的值预测(步骤208)。针对第一计划步骤，值预测神经网络接收由状态表示神经网络生成的内部状态表示作为输入，并且针对后续计划步骤，值预测神经网络接收由预测神经网络在先前计划步骤生成的内部状态表示作为输入。用于计划步骤的值预测是对从下一内部时间步骤开始的未来累积折扣回报的估计。

在一些实施方式中，值预测神经网络与预测神经网络共享参数值，即，值预测神经网络接收作为处理内部状态表示的结果而生成的预测神经网络的中间输出作为输入。预测神经网络的中间输出指的是预测神经网络的一个或多个隐藏层的一个或多个单元的激活。

在累加器通过λ加权预测确定总回报的实施方式中，λ神经网络处理输入以生成用于下一计划步骤的λ因子(步骤209)。针对第一计划步骤，λ神经网络接收由状态表示神经网络生成的内部状态表示作为输入，并且针对后续计划步骤，λ神经网络接收由预测神经网络在先前计划步骤生成的内部状态表示作为输入。λ因子可以是标量、矢量或矩阵，并且通常具有与结果相同的维度。在一些情况下，λ因子的条目的值在0和1之间。在一些实施方式中，λ神经网络包括S形非线性层，以使λ因子的条目的值位于0到1的范围内。在一些实施方式中，λ神经网络与预测神经网络共享参数值。

系统确定当前计划步骤是否是终点计划步骤(步骤210)。在一些情况下，如果当前计划步骤是预定数量的计划步骤的最后计划步骤，则当前计划步骤可以是终点计划步骤。在λ加权预测实施方式中，如果用于当前计划步骤的λ因子等于零(即，如果λ因子是标量，则λ因子为零，或者如果λ因子是矢量或矩阵，则λ因子的每个条目为零)，则当前计划步骤可以是终点计划步骤，如下面将进一步描述的。响应于确定当前计划步骤不是终点计划步骤，系统前进到下一计划步骤，回到步骤206，并重复前面的步骤。响应于确定当前计划步骤是终点计划步骤，累加器确定总回报(步骤212)。

在一些实施方式中，累加器通过k步预测确定总回报，其中k是在1和K之间的整数，其中K是计划步骤的总数。在这些实施方式中，累加器通过组合用于前k个计划步骤中的每一个的预测回报和预测折扣因子以及第k个计划步骤的值预测来生成总回报，以将k步返回确定为输出。具体而言，累加器将k步返回确定为：

g_k＝r₁+γ₁(r₂+γ₂(…+γ_k-1(r_k+γ_kv_k)…))

其中g_k是k步返回，r_i是计划步骤i的回报，γ_i是计划步骤i的折扣因子，并且v_k是计划步骤k的值预测。

在一些其他实施方式中，累加器通过λ加权预测来确定总回报。在这些实施方式中，累加器确定用于每个计划步骤k的k步返回，并根据由λ因子定义的权重将它们组合以确定λ加权返回作为输出。具体而言，累加器可以将λ加权返回确定为：

其中/>

其中g_λ是λ加权返回，λ_k是用于第k个计划步骤的λ因子，w_k是权重因子，1是单位矩阵，即对角线为一并且其他地方为零的矩阵，并且g_k是k步返回。累加器还可以通过中间步骤g_k，λ通过后向累积来确定λ加权返回，其中：

g_k，λ＝(1-λ_k)v_k+λ_k(r_k+1+γ_k+1g_k+1，λ)并且g_K,λ＝v_K

并且λ加权返回g_λ被确定为g_0,λ。

系统可以基于不包括所有K个计划步骤的连续计划步骤的序列来计算λ加权返回g_λ。例如，在先前提供的g_λ的示例公式中，如果针对计划步骤k，λ_k＝0，则基于前k个计划步骤而不是后续计划步骤的k步返回来确定g_λ，因为针对n>k而言权重w_n为零。因此，系统基于取决于内部状态表示和系统的学习动态的适应性数量的计划步骤来确定总回报。

图3是用于训练预测系统的示例过程300的流程图。为方便起见，过程300将被描述为由包括位于一个或多个位置的一个或多个计算机的引擎执行。例如，根据本说明书适当编程的训练引擎(例如，图1的训练引擎130)能够执行过程300。

引擎接收与代理交互的环境的一个或多个观察，并且在一些情况下，接收与环境的当前状态相关联的对应结果(步骤302)。

引擎向系统提供观察，并且系统确定作为结果的估计的总回报。参考图2描述用于确定总回报的示例过程。

引擎基于损失函数确定梯度，并后向传播梯度以联合更新系统的神经网络(即值预测神经网络、状态表示神经网络、预测神经网络、以及在λ加权预测实施方式中的λ神经网络)的参数的集合的值。损失函数可以是监督损失函数，即取决于与作为输入被提供并由系统处理的观察相对应的结果的损失函数，可以是无监督损失函数，即不取决于结果的损失函数，或者可以是监督损失项和无监督损失项的组合。

在k步预测实施方式中，可以由下式给出监督损失函数：

其中g是结果。作为另一示例，在λ加权预测实施方式中，用于将梯度后向传播到λ神经网络的监督损失函数可以由下式给出：

而用于将梯度后向传播到值预测神经网络、状态表示神经网络和预测神经网络中的监督损失函数可以由下式给出：

或者可以由下式给出：

在λ加权预测实施方式中，无监督损失函数可以由下式给出：

其中g_λ被认为是固定的，并且梯度被后向传播以使每个k步返回g_k更类似于g_λ，但反之亦然。基于无监督损失函数的后向传播梯度减小了k步返回和λ加权返回之间的差异，使得k步返回自我一致，从而增加系统的鲁棒性。此外，由于无监督损失函数不取决于与作为输入被提供并由系统处理的观察相对应的结果，因此引擎可以通过基于用于其中相应的结果未知的观察的序列的无监督损失函数来后向传播梯度，来训练系统。

针对其中相应的结果已知的训练观察，引擎可以基于组合监督损失项和无监督损失项两者的损失函数，来更新系统的神经网络的参数的集合的值。例如，损失函数可以是监督损失项和无监督损失项的加权线性组合。

本说明书使用与系统和计算机程序组件相关的术语“配置为”。针对要被配置为执行特定操作或动作的一个或多个计算机的系统，意味着已在其上安装了软件、固件、硬件或它们的组合的系统，所述软件、固件、硬件或它们的组合在操作时使系统执行所述操作或动作。针对要被配置为执行特定操作或动作的一个或多个计算机程序，意味着一个或多个程序包括当由数据处理装置执行时使该装置执行所述操作或动作的指令。

本说明书中描述的主题和功能操作的实施例可以在数字电子电路中实现，在有形实现的计算机软件或固件中实现，在包括本说明书中公开的结构及其结构等同物的计算机硬件中实现，或者在它们中的一个或多个的组合中实现。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即，在有形非暂时性存储介质上编码的计算机程序指令的一个或多个模块，其中所述计算机程序指令用于由数据处理装置执行或控制数据处理装置的操作。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。可替代地或另外地，程序指令能够编码在人工生成的传播信号上，例如，机器生成的电、光或电磁信号，其被生成以编码信息以便传输到合适的接收器装置以供数据处理装置执行。

术语“数据处理装置”指的是数据处理硬件并且包括用于处理数据的所有类型的装置、设备和机器，包括例如可编程处理器、计算机或多个处理器或计算机。该装置还能够是或者进一步包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外，该装置还能够包括为计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统、或者它们中的一个或多个的组合的代码。

计算机程序(也可以被称为或描述为程序、软件、软件应用、应用程序、模块、软件模块、脚本或代码)，可以用任何形式的编程语言编写，所述编程语言包括编译或解释语言、或声明语言或程序语言；它能够以任何形式部署，包括作为独立程序或作为模块、组件、子程序或适用于计算环境的其他单元。程序可以但不必对应于文件系统中的文件。程序能够存储在保存其他程序或数据的文件的一部分中，例如，存储在标记语言文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者存储在多个协调文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。可以部署计算机程序以在一个计算机上执行，或在位于一个站点或分布在多个站点上并通过数据通信网络互连的多个计算机上执行。

在本说明书中，术语“引擎”广泛用于指代被编程为执行一个或多个特定功能的基于软件的系统、子系统或过程。通常，引擎将被实现为安装在一个或多个位置中的一个或多个计算机上的一个或多个软件模块或组件。在某些情况下，一个或多个计算机将专用于特定的引擎；在其他情况下，可以在相同的一个计算机或多个计算机上安装和运行多个引擎。

本说明书中描述的过程和逻辑流程可以由一个或多个可编程计算机执行，所述一个或多个可编程计算机执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路(例如FPGA或ASIC)或专用逻辑电路与一个或多个编程计算机的组合来执行。

适合于计算机程序的执行的计算机能够基于通用或专用微处理器或两者，或任何其他种类的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行或运行指令的中央处理单元和用于存储指令和数据的一个或多个存储器设备。中央处理单元和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。通常，计算机还将包括或可操作地耦合以从用于存储数据的一个或多个大容量存储设备(例如，磁盘、磁光盘或光盘)接收数据或将数据传递到一个或多个大容量存储设备或者两者兼而有之。然而，计算机不需要具有这样的设备。此外，计算机可以嵌入在另一设备，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储设备(例如，通用串行总线(USB)闪存驱动器)，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，包括例如半导体存储器设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动磁盘；磁光盘；和CD ROM盘和DVD-ROM盘。

为了提供与用户的交互，本说明书中描述的主题的实施例能够在具有用于向用户显示信息的显示设备(例如CRT(阴极射线管)或LCD(液晶显示器)监视器)以及用户通过其向计算机提供输入的键盘和指向设备(例如，鼠标或轨迹球)的计算机上实现。其他类型的设备也能够用于提供与用户的交互；例如，提供给用户的反馈能够是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并且能够以任何形式接收来自用户的输入，包括声学输入、语音输入或触觉输入。另外，计算机能够通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互；例如，通过响应于从网络浏览器接收的请求将网页发送到用户设备上的网络浏览器。此外，计算机能够通过向个人设备(例如，运行消息收发应用程序的智能电话)发送文本消息或其他形式的消息、并且反过来从用户接收响应消息，来与用户交互。

用于实现机器学习模型的数据处理装置还能够包括，例如，专用硬件加速器单元，其用于处理机器学习训练或生产的公共和计算密集部分，即推断、工作负载。

能够使用机器学习框架来实现和部署机器学习模型，所述机器学习框架例如TensorFlow框架、Microsoft认知工具包框架、Apache Singa框架或Apache MXNet框架。

本说明书中描述的主题的实施例能够在包括后端组件的计算系统中实现(例如作为数据服务器)，或者在包括中间件组件(例如应用服务器)的计算系统中实现，或者在包括前端组件(例如，具有图形用户界面、网络浏览器或应用程序的客户端计算机，其中用户可通过该应用程序与本说明书中描述的主题的实施方式进行交互)的计算机系统中实现，或者在一个或多个这样的后端组件、中间件组件或前端组件的任何组合中实现。系统的组件能够通过任何形式或介质的数字数据通信(例如通信网络)互连。通信网络的示例包括局域网(LAN)和广域网(WAN)，例如因特网。

计算系统能够包括客户端和服务器。客户端和服务器通常彼此远离，并且通常通过通信网络进行交互。客户端和服务器的关系借助于在各个计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。在一些实施例中，服务器将数据(例如，HTML页面)发送到用户设备，例如，用于向与充当客户端的设备交互的用户显示数据和从该用户接收用户输入的目的。能够在服务器处从用户设备接收在所述设备处生成的数据，例如，用户交互的结果。

虽然本说明书包含许多具体的实施细节，但是这些不应被解释为对任何发明的范围或可能要求保护的范围的限制，而是作为对特定发明的特定实施例所专用的特征的描述。在分开的实施例的上下文中在本说明书中描述的某些特征也可以在单个实施例中组合实现。相反，在单个实施例的上下文中描述的各种特征也可以分开地或以任何合适的子组合在多个实施例中实现。此外，尽管特征可以在上面描述为以某些组合起作用并且甚至最初如此要求保护，但是在某些情况下能够从要求保护的组合中切除来自所述组合的一个或多个特征，并且要求保护的组合可以针对子组合或子组合的变化。

类似地，虽然操作在附图中以特定顺序被描绘并且在权利要求中以特定顺序被记载，但是这不应该被理解为要求以所示的特定顺序或按顺序执行这些操作，或者要执行所有示出的操作，以达到期望的结果。在某些情况下，多任务处理和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中都要求这种分离，并且应当理解，所描述的程序组件和系统通常能够一起集成在单个软件产品中或打包成多个软件产品。

已经描述了本主题的特定实施例。其他实施例在所附权利要求的范围内。例如，权利要求中记载的动作能够以不同的顺序执行并且仍然实现期望的结果。作为一个示例，附图中描绘的过程不一定要求所示的特定顺序或连续顺序来实现期望的结果。在某些情况下，多任务处理和并行处理可能是有利的。

Claims

1.一种由一个或多个计算机实现的系统，该系统包括：

状态表示神经网络，被配置为：

接收一个或多个观察，其表征正与代理交互的环境的状态，其中代理是与环境交互以完成特定任务的机器人、或者代理是在环境中航行的自主或半自主车辆、或者代理是视频游戏环境中的模拟用户、或者代理是运动模拟环境中航行的模拟车辆，以及

处理所述一个或多个观察以生成当前环境状态的内部状态表示；

预测神经网络，被配置为针对多个内部时间步骤中的每一个：

接收用于内部时间步骤的内部状态表示；和

处理用于内部时间步骤的内部状态表示以生成：

用于下一内部时间步骤的内部状态表示，和

用于下一内部时间步骤的预测回报；

值预测神经网络，被配置为针对所述多个内部时间步骤中的每一个：

接收用于内部时间步骤的内部状态表示，和

处理用于内部时间步骤的内部状态表示以生成值预测，该值预测是对从下一内部时间步骤开始的未来累积折扣回报的估计；和

子系统，被配置为：

接收表征环境的状态的一个或多个观察；

提供所述一个或多个观察作为状态表示神经网络的输入，以生成当前环境状态的内部状态表示；

针对所述多个内部时间步骤中的每一个：

使用预测神经网络和值预测神经网络以及根据用于内部时间步骤的内部状态表示来生成：用于下一内部时间步骤的内部状态表示、用于下一内部时间步骤的预测回报、以及值预测；和

根据用于内部时间步骤的预测回报和值预测来确定总回报。

2.根据权利要求1所述的系统，其中，所述子系统还被配置为：

提供总回报作为对从处于当前状态的环境得到的回报的估计。

3.根据权利要求1所述的系统，其中，所述预测神经网络还被配置为生成用于下一内部时间步骤的预测折扣因子，并且其中，所述子系统被配置为在确定总回报时使用用于内部时间步骤的预测折扣因子。

4.根据权利要求3中所述的系统，其中，所述系统还包括：

λ神经网络，被配置为针对每个内部时间步骤处理用于当前内部时间步骤的内部状态表示以生成用于下一内部时间步骤的λ因子，并且其中，子系统被配置为在确定总回报时确定用于内部时间步骤的k步返回，并使用λ因子来确定用于k步返回的权重，其中k步返回是通过将前k个内部时间步骤中的每一个的预测回报和预测折扣因子与第k内部时间步骤的值预测相结合来确定的。

5.根据权利要求1所述的系统，其中，所述状态表示神经网络包括递归神经网络。

6.根据权利要求1所述的系统，其中，所述状态表示神经网络包括前馈神经网络。

7.根据权利要求1至6中任一项所述的系统，其中，所述预测神经网络包括递归神经网络。

8.根据权利要求1至6中任一项所述的系统，其中，所述预测神经网络包括前馈神经网络，所述前馈神经网络在所述多个时间步骤中的每一个处具有不同的参数值。

9.一个或多个存储指令的计算机存储介质，所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行实施根据权利要求1-8中任一项所述的系统的操作的操作。

10.一种计算机实施的方法，包括由权利要求1-8中任一项所述的系统执行的相应操作。

11.一种训练权利要求4-8中任一项的系统的计算机实施的方法，该方法包括以下之一或以下二者：

确定监督损失梯度，所述监督损失梯度取决于总回报和对从处于当前状态的环境得到的结果，和

后向传播损失梯度以更新状态表示神经网络、预测神经网络、值预测神经网络和λ神经网络的参数的当前值；或者

确定一致性损失梯度，所述一致性损失梯度取决于由子系统针对内部时间步骤确定的k步返回的一致性，和

后向传播一致性损失梯度以更新状态表示神经网络、预测神经网络、值预测神经网络和λ神经网络的参数的当前值，

其中反向传播一致性损失梯度减少了总回报和k步返回之间的差。

12.一个或多个存储指令的计算机存储介质，所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行权利要求11的相应方法的操作。