CN110892420A

CN110892420A - 基于想象力的代理神经网络

Info

Publication number: CN110892420A
Application number: CN201880028596.2A
Authority: CN
Inventors: 丹尼尔·彼得·维尔斯特拉; 李宇佳; 拉兹万·帕什卡努; 彼得·威廉·巴塔利亚; 塞奥法尼·纪尧姆·韦伯; 拉尔斯·比辛; 戴维·保罗·赖克特; 亚瑟·克莱蒙特·格斯; 丹尼洛·吉米内斯·雷森德; 阿德里亚·普伊赫多梅内奇·巴迪亚; 奥里奥尔·温亚尔斯; 尼古拉斯·曼弗雷德·奥托·黑斯; 塞巴斯蒂安·亨利·拉卡涅雷
Original assignee: DeepMind Technologies Ltd
Current assignee: DeepMind Technologies Ltd
Priority date: 2017-05-19
Filing date: 2018-05-22
Publication date: 2020-03-17
Also published as: EP3593293B1; WO2018211141A1; US20210073594A1; US10776670B2; US20200090006A1; EP3593293A1; US11328183B2

Abstract

提出了一种神经网络系统。所述网络能够由基于模型的强化学习训练，以选择要由与环境交互的代理执行的动作，以执行任务从而试图实现指定的结果。所述系统可包括：至少一个想象力核心，并且包括所述环境的模型，所述想象力核心具有输入，以接收表征所述环境的当前状态的当前观察，并可选地接收历史观察。所述想象力核心可被配置成响应于所述当前观察和/或历史观察而输出轨迹数据。所述轨迹数据包括所述想象力核心想象的所述环境的未来特征的序列。所述系统还包括：至少一个卷展编码器，以对所述特征的序列进行编码；和强化学习输出级，以接收从所述卷展嵌入中导出的数据，并输出动作策略数据，从而定义基于所述当前观察来识别动作的动作策略。

Description

基于想象力的代理神经网络

相关申请的交叉引用

本申请是2017年5月19日提交的美国临时专利申请No.62/509,023的非临时专利申请并要求其优先权，其公开内容在此通过引用以其整体并入本文。

技术领域

本说明书涉及强化学习。

背景技术

在强化学习系统中，代理通过执行由强化学习系统响应于接收到表征环境的当前状态的观察而选择的动作来与环境交互。

一些强化学习系统响应于根据神经网络的输出接收到给定观察而选择将由代理执行的动作。

神经网络是采用一层或多层非线性单元来预测接收到的输入的输出的机器学习模型。一些神经网络是深度神经网络，除了输出层外还包括一个或多个隐藏层。每个隐藏层的输出都用作网络中的下一层，即下一隐藏层或输出层的输入。网络的每一层都根据相应的一组参数的当前值从接收的输入生成输出。

发明内容

本说明书总体上描述了强化学习系统，其选择待由与环境交互的强化学习代理执行的动作。为了使代理与环境交互，系统接收表征环境的当前状态的数据，并响应于接收到的数据选择代理要执行的动作。在本说明书中，表征环境状态的数据将被称为观察。

在一些实施方式中，环境是模拟环境，并且代理被实现为与模拟环境交互的一个或多个计算机程序。例如，模拟环境可以是视频游戏，并且代理可以是玩视频游戏的模拟用户。作为另一示例，模拟环境可以是运动模拟环境，例如驾驶模拟或飞行模拟，并且代理是在运动模拟中导航的模拟车辆。在这些实施方式中，动作可以是控制输入以控制模拟用户或模拟车辆。更一般地，环境可以是其中执行机器人控制任务的环境。

因而，在一些其它实施方式中，环境是真实环境，并且代理是与真实环境交互的机械代理。例如，代理可以是与环境交互以完成特定任务的机器人。作为另一示例，代理可以是在环境中导航的自主或半自主车辆。在这些实施方式中，动作可以是控制输入以控制机器人或自动驾驶车辆。

在本公开的一方面，用于基于模型强化学习的神经网络系统用于选择要由与环境交互的代理执行的动作，以执行任务从而试图实现指定的结果。该系统可包括至少一个想象力核心，该想象力核心具有输入以接收表征环境的当前状态的当前观察并且可选地接收历史观察，并且包括环境的模型。想象力核心可被配置成响应于当前观察和/或历史观察而输出轨迹数据，轨迹数据定义了包括想象力核心想象的环境的未来特征的序列的轨迹(即，基于代理执行某些动作的假设预测的)。该系统还可包括至少一个卷展(rollout)编码器，以对来自想象力核心的特征的序列进行编码，从而提供针对该轨迹的卷展嵌入。该系统还可包括强化学习输出级，以接收从卷展嵌入中导出的数据，并输出动作策略数据，从而定义基于当前观察来识别动作的动作策略。

强化学习(RL)输出级可以是任何类型的RL输出级。例如，它可以基于策略，例如直接搜索最佳策略并输出策略数据，并且可选地输出基线状态值数据；或者它可以基于值，例如输出Q值数据。在一些实施方式中，强化学习输出级包括动作者评价RL(actor-criticRL)输出级。策略数据可包括定义动作策略的策略向量和用于当前观察的值基线数据，以确定由动作策略定义的动作的优势。通常，动作策略数据可使用想象的轨迹作为背景。

典型地，神经网络系统用于为环境的当前状态的每次观察(当前观察)产生多个轨迹。为此，神经网络系统可以包括多个想象力核心。然后，卷展编码器或一组卷展编码器可以对来自每个轨迹的特征的序列进行编码，以为每个相应轨迹提供卷展嵌入。然后，该系统还可包括聚集器，以将卷展嵌入聚集成用于强化学习输出级的想象力代码。然后，使用想象力为背景，动作策略数据取决于想象力代码。

在一些实施方式中，想象力核心包括耦合到策略模块的神经环境模型。神经环境模型接收当前观察和/或历史观察，以及当前动作，并作为响应预测后续观察。它也可以通过采取动作来预测回报。策略模块定义了策略，以使用环境模型来卷展一系列动作和状态，并定义轨迹。轨迹可由预测的观察、预测的动作、预测的回报和预测的序列终止信号中的一个或多个来定义。神经环境模型可以响应于当前观察和历史观察来预测后续观察，其条件是来自策略模块的动作数据。

卷展编码器可包括顺序状态生成神经网络，诸如LSTM(长短期记忆)网络。聚集器可将卷展的嵌入连接起来。

在实施方式中，神经环境模型是已学习的环境模型。因而，一种训练系统的方法可包括针对想象力核心预先训练一个或多个这样的模型，然后使用强化学习来训练系统的其它自适应组件。已学习模型可能是不完美的环境模型，并且可以在与RL系统运行所在的环境相同或不同的环境下进行训练。

用于想象力核心的策略模块(卷展策略)可以是随机的，或者是根据例如由神经网络定义的无模型策略。可替选地，该策略模块例如可以通过使用成本函数对其进行训练，从强化学习输出级的想象力增强动作策略中提炼(即得出)，该成本函数是由策略模块定义的策略与强化学习级定义的想象力增强策略，例如它们响应于当前观察的输出之间的差异的函数。

在一些实施方式中，该系统包括耦合在输入和强化学习输出级之间的无模型强化学习神经网络模块，例如动作者评价RL模块。如果学习的模型发生故障或被确定(例如，被卷展编码器)为不可信的，则这有助于系统退回使用无模型的强化学习神经网络模块的输出生成的策略。

本说明书中所述的主题能够在特定实施例中实现，以便实现以下优点中的一个或多个。该系统能够在具有复杂任务和回报功能的环境中有效地学习。它能够处理已学习的，因而是潜在地不完善的环境模型，甚至是完全缺乏回报预测的模型。该系统能够学习容忍不准确性，例如退回无模型策略；它能够容忍模型与环境之间的不匹配。然而，该系统能够胜过纯无模型方法。

通过实验，发现在具有挑战性的问题中，该系统能够比无模型基线更好地执行。它以更少的训练数据获得这种更好性能。由于训练数据量减少，所以可以节省存储器需求。此外，所述系统还可能需要较少计算资源来实现给定的性能水平，因为与以前的技术相比，这可以通过更少的训练来实现。

实验还展示了基于学习第一任务来概括以执行不同但相关的任务的高能力。因而，该系统可以以高可靠性进行操作，因为即使训练数据在统计上不能代表经训练的系统必须执行的实际控制任务，也不会显著降低其性能。

实验包括导航任务，其指示用于控制导航的系统的适合性，诸如控制在环境中导航的自主或半自主车辆。实验基于来自模拟环境的像素化数据，指示该系统可以成功接收相机捕获的真实世界图像数据形式的状态数据。

在附图和以下描述中阐述了本说明书的主题的一个或多个实施例的细节。根据描述、附图和权利要求书，本主题的其它特征、方面和优点将变得显而易见。

附图说明

图1示出神经网络系统的想象力核心。

图2示出神经网络系统的预测和编码单元。

图3示出神经网络系统的结构。

图4示出在图1的想象力核心中使用的环境模型的可能结构。

图5示出产生神经网络系统的方法。

图6示出神经网络系统的操作方法。

各幅图中的相同附图标记和标识指示相同元件。

具体实施方式

本说明书大致描述一种强化学习系统，其被实现为一个或多个位置中的一个或多个计算机上的计算机程序，通过使用神经网络来选择将由与环境交互的强化学习代理来执行的动作。本说明书还描述了这种系统能够如何调整神经网络的参数。

该系统具有的优势在于，诸如机器人、自主或半自主车辆之类的代理能够改善其与模拟或现实世界环境的交互。例如，它能够实现特定任务的完成或改善环境的导航或与环境的交互。本说明书结合系统和计算机程序组件使用术语“被配置成”。对于待被配置成执行特定操作或动作的一个或多个计算机的系统，意思是该系统已在其上安装了软件、固件、硬件或它们的组合，这些软件、固件、硬件或它们的组合在操作中使系统执行这些操作或动作。对于待被配置成执行特定操作或动作的一个或多个计算机程序，意思是该一个或多个程序包括指令，这些指令在由数据处理装置执行时使该装置执行这些操作或动作。

为了与环境交互，代理接收表征环境当前状态的数据，并响应于接收到的数据从动作空间即离散动作空间或连续动作空间执行动作。在本说明书中，将表征环境状态的数据称为观察。

在一些实施方式中，环境是模拟环境，并且代理被实现为与模拟环境交互的一个或多个计算机。例如，模拟环境可以是视频游戏，而代理可以是玩视频游戏的模拟用户。

在其它实施方式中，环境是真实环境，代理是与真实环境交互的机械代理。例如，代理可以是与环境交互以完成特定任务的机器人，也可以是在环境中导航的自主或半自主车辆。在这些情况下，观察能够为当代理与环境交互时由代理的一个或多个传感器捕获的数据，这些传感器例如为相机、LIDAR传感器、温度传感器等。

图1示出了由本公开提出的想象力核心(IC)1，其是用于控制代理的神经网络系统(图3所示)的组件。IC 1包括策略模块11和神经环境模型12，神经环境模型12是在时间t给定信息的情况下能够做出关于至少一个稍后时间的预测的模型。如下所述，在神经网络中使用环境模型12进行关于时间t之后的多次预测(离散为时间步长)。这称为卷展。假设代理执行某些动作，则它表示时间t以后时间的环境的想象轨迹。结果由神经网络(编码器)解释，并用作生成表示代理的策略的数据的神经网络系统策略模块的附加内容。

在图1中，在任何时间t的环境观察用“o_t”表示，而在任何时间t的动作用“a_t”表示，并且在任何时间t的回报用“r_t”表示。与观察、动作或回报有关的符号^在图1至图3中都用于表示相应的量是想象力核心的输出，并因而与想象力卷展相关联。

对IC 1的输入可以是实际观察o_t(即，在时间t从环境获得的观察)或想象的观察

它被发送到策略模块11和环境模型12两者。

策略模块11据此生成动作

可以以几种方式来生成策略模块11。首先，它可能只是随机的。可替选地，可以对其进行预训练。下面，参考图5，我们讨论作为替代方案，它能够如何成为与神经网络的其它自适应组件联合训练的自适应模型。

环境模型12能够为能够从代理轨迹以无监督方式进行训练的任何循环架构：给定过去的状态和相应动作，环境模型12预测下一状态和来自环境的任何数量的信号。在图1的示例中，环境模型是神经网络，它接收实际观察o_t或想象的观察

(或可选地观察的历史，其可以包括观察o_t或

以及来自一个或多个先前时间的观察)和由策略模块11所产生的相应动作a_t作为输入，并预测下一观察

并可选地还预测下一回报

参考图2，其中示出了使用IC 1的预测和编码单元2。图2至图4与图1的区别在于，t用于指定“当前”时间，在该时间，预测和编码单元使用IC 1。在该示例中，假设IC 1具有输出下一观察

和下一回报

两者的形式。

为了产生轨迹，将当前(实际)观察o_t输入到单元2，并且输入到IC 1中，以产生

和

然后，将预测

再次输入到IC 1中，以生成

和

此过程总共进行τ次，以产生τ卷展时间步长的卷展轨迹。因而，图2示出了如何使用IC 1的环境模型12，以通过使用当前的实际观察初始化卷展，并随后将模拟观察馈入IC 1，以迭代地产生卷展轨迹

而获得未来多个时间步长的预测。轨迹

是特征的序列(f_t+1,…,f_t+τ)，其中对于任何整数i，f_t+i都表示环境模型12在第i步的输出。即f_t+i包括

并且在这种情况下，环境模型12还输出回报值，包括

和

两者。

如下所述，环境模型12是通过训练形成的，因此不能认为它是完美的。环境模型12有时可能会做出错误甚至毫无意义的预测。因此，优选的是不完全依赖于环境模型12的输出。因此，预测和编码单元包括卷展编码器21。卷展编码器21是自适应系统(例如，形式为一组顺序状态生成神经网络)，其经过训练以接收轨迹，并将其“编码”为一个或多个值，称为“卷展嵌入”。也就是说，编码会解释轨迹，即提取对代理的决策有用的任何信息。编码可包括在必要时忽略轨迹，例如，因为如果对卷展编码器21的输入是可能错误或毫无意义的轨迹，则卷展编码器21被训练成产生与轨迹具有低(或零)相关性的输出。卷展编码器21产生的卷展嵌入能够被表示为

并且能够被视为是卷展编码器21产生的轨迹的总结。

如图2中所示，能够在τ次迭代中将卷展编码器21应用于轨迹

在第一迭代中，将卷展编码器21应用于f_t+τ(即，用于该系列时间步长的最后一个的特征)。在每个之后的迭代中，卷展编码器21都从先前的迭代和先前时间步长的特征接收卷展编码器21的输出。

参考图3，其中示出了采用一个或多个预测和编码单元2的神经网络系统。神经网络系统接收当前的实际观察o_t。由此，预测和编码单元2被使用n次，或者并行地使用多个预测和编码单元2(例如，n个预测和编码单元，它们可以相同)以生成n个单独的轨迹

该预测和编码单元2(或每个)的卷展编码器21对每个轨迹

(j为在1至n范围内的整数)进行编码，以产生各自的卷展嵌入

n个编码值被输入到聚集器31。聚集器31将n个卷展嵌入转换为单个向量，称为想象力代码

在一个示例中，聚集器可以简单地将卷展嵌入进行连接。

神经网络系统优选地还包括无模型网络32(诸如不包括环境模型的强化学习神经网络模块)。无模型网络32可以采用任何常规形式(在我们的实验中，我们选择了卷积层加一个完全连接层的标准网络)。典型地，无模型网络32是神经网络，其接收当前(实际)观察o_t，并从中生成输出c_mf。

该神经网络还包括策略模块(强化学习输出级)33，其可以是另一神经网络。策略模块33接收想象力代码c_ia和无模型网络32的输出c_mf。策略模型33输出策略向量π(“动作策略”)和估计值V。策略向量π可以是表征使用当前(实际)观察o_t生成动作a_t的网络参数的向量，V是当前观察的基线数据，用于确定由动作策略定义的动作的优势。能够将图3中所示的神经网络系统视为通过提供来自基于模型计划的附加信息而增强无模型代理(由无模型网络(诸如无模型网络32)控制的代理)。因而，能够将神经网络系统视为比底层无模型代理32具有更高表达能力的代理。

图4表示图1的环境模型12的可能结构。对环境模型的第一输入是当前(实际或想象的)观察o_t或

在图4中，这被示为矩形41，因为对于某些实施例，它可以采取二维阵列中的一组点(像素)中的每一个的相应值的形式。在另一种情况下，当前观察可包括每个像素的多个值，因此它可以对应于多个二维阵列。环境模型12的第二输入是动作a_t。这可以以向量42的形式提供，具有与可能动作的数量相等数量的分量。与动作a_t相对应的分量采用预定值(例如1)，其它分量采用其它值(例如0)。

环境模型的两个输入被组合(例如，连接)以形成结构化的内容。结构化的内容被输入到卷积网络43，例如包括一个或多个卷积层。卷积网络43的输出是预测观察

这被表示为二维阵列44，因为它可以采取图像的像素方向概率分布的形式。卷积网络43的第二(可选)输出是预测回报

它作为数据结构45输出。

现在我们参考对神经网络的训练过程的描述，如图5中所示。训练过程包括训练环境模型12的第一步骤51。在第二步骤52中，使用成本函数同时训练网络的其它自适应组件。

如上所述，策略模块11也可以在步骤52中训练，而不是被预设。已经发现，通过从策略模块33的输出中“提取”信息来对其进行训练是有价值的。具体地，在步骤52中，生成(小型)无模型网络(其可以被表示成执行函数ft＝(σ_t))，然后通过在策略模块33为当前观察o_t生成的想象力增强策略π＝(o_t)与相同观察的策略fi＝(o_t)之间包括交叉熵辅助损耗来增强步骤52中使用的成本函数。该术语的存在意味着将对策略模块11进行训练，以使IC1倾向于产生与真实环境中的代理的实际轨迹(即，由图3的神经网络系统控制的代理的轨迹)类似的卷展轨迹。还倾向于确保卷展对应于具有相对较高回报的轨迹。同时，策略之间的不完美逼近导致卷展策略的熵值较高，因而在探索与开发之间取得平衡。

应注意，在变形中，可以通过省略步骤51并将辅助损耗项添加到步骤52中使用的成本函数来与其它自适应组件联合地训练环境模型12。然而，在我们的实验中，我们发现，如图5所示，对环境模型进行预训练加快了训练过程的运行时间。

步骤51的训练数据可以可选地从与环境交互的部分训练的标准无模型代理(例如，具有与网络32相同的形式)的轨迹中生成。使用这样的轨迹比从随机代理与环境的交互生成训练数据要好，因为非平凡环境中的随机代理通常会产生非常低的回报。

在图6中示出了神经网络的操作。在第一步骤61中，输入当前(实际)观察o_t(步骤61)。在步骤62中，使用预测和编码单元2以基于当前观察来生成n个轨迹的编码数据(卷展嵌入)。在步骤63，该数据被聚集(例如，被连接)。与步骤62和63并行(例如，与之同时)，在步骤64中，无模型网络32关于当前观察进行操作。在步骤65中，策略模块33接收聚集器31和无模型网络32的输出，并生成其输出。

本说明书中所述的主题和功能操作的实施例能够以数字电子电路、以有形体现的计算机软件或固件、以计算机硬件实现，包括本说明书中公开的结构及其等效结构，或者其一种或多种的组合。本说明书中所述的主题的实施例能够被实现为一个或多个计算机程序，即，在有形的非暂时性程序载体上编码的计算机程序指令的一个或多个模块，以由数据处理装置执行或控制数据处理装置的操作。可替选地或另外，程序指令能够被编码在人工产生的传播信号上，例如机器产生的电、光或电磁信号，这些信号被产生为对信息进行编码从而传输到合适的接收器装置从而由数据处理装置执行。计算机存储介质能够为机器可读存储设备、机器可读存储基板、随机或串行访问存储器设备或它们中的一个或多个的组合。然而，计算机存储介质不是传播的信号。

术语“数据处理装置”涵盖用于处理数据的所有类型的装置、设备和机器，例如包括可编程处理器、计算机或多个处理器或计算机。该装置能够包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除硬件之外，该装置还能够包括为所讨论的计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统或其一个或多个的组合的代码。

计算机程序(也可以称为或描述为程序、软件、软件应用程序、模块、软件模块、脚本或代码)能够用任何形式的编程语言编写，包括编译或解释性语言，声明性或过程语言，并且能够以任何形式部署，包括作为独立程序或作为模块、组件、子例程或适用于计算环境的其它单元。计算机程序可以但不必对应于文件系统中的文件。程序能够存储在保存其它程序或数据的文件的一部分中，例如一个或多个脚本，其被存储在标记语言文档中，存储在专用于所讨论程序的单个文件中，或存储在多个协调文件中，例如，存储一个或多个模块、子程序或部分代码的文件。能够将计算机程序部署成在位于一个站点或分布在多个站点上并由通信网络互连的一台计算机上或多台计算机上执行。

本说明书中所使用的“引擎”或“软件引擎”是指软件实现的输入/输出系统，其提供与输入不同的输出。引擎能够为编码的功能块，诸如库、平台、软件开发工具包(“SDK”)或对象。能够在任何适当类型的计算设备(例如，服务器、移动电话、平板计算机、笔记本计算机、音乐播放器、电子书阅读器、膝上型或台式计算机、PDA、智能电话或其它固定或便携式设备)上实现每个引擎，计算设备包括一个或多个处理器和计算机可读介质。另外，两个或多个引擎可以在同一计算设备上或在不同的计算设备上实现。

本说明书中所述的过程和逻辑流程能够由执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能的一个或多个可编程计算机来执行。过程和逻辑流程也能够由专用逻辑电路执行，并且装置也能够被实现为专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。例如，处理和逻辑流程能够由图形处理单元(GPU)执行，并且装置也能够被实现为图形处理单元(GPU)。

例如，适合于执行计算机程序的计算机能够基于通用或专用微处理器或两者，或者基于任何其它类型的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于履行或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括一个或多个用于存储数据的大容量存储设备，例如，磁盘、磁光盘或光盘，或可操作地耦合至大容量存储设备以从中接收数据或向其传输数据(或两者)的大容量存储设备。然而，计算机不必具有这种设备。此外，计算机能够被嵌入另一设备，例如，移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏机、全球定位系统(GPS)接收器或便携式存储设备，例如通用串行总线(USB)闪存驱动器等。

适用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，包括例如半导体存储器设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动盘；磁光盘；以及CD ROM和DVD-ROM盘。处理器和存储器能够由专用逻辑电路补充或被并入专用逻辑电路中。

为了提供与用户的交互，能够在具有显示设备以及键盘和定点设备的计算机上实现本说明书中所述的主题的实施例，该显示设备例如是CRT(阴极射线管)或LCD(液晶显示器)监视器，以向用户显示信息，用户能够通过键盘和定点设备，例如鼠标或轨迹球，向计算机提供输入。也能够使用其它类型的设备提供与用户的交互；例如，提供给用户的反馈能够为任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并且能够以任何形式接收来自用户的输入，包括声音、语音或触觉输入。另外，计算机能够通过向用户使用的设备发送文档以及从其中接收文档来与用户进行交互；例如，通过响应于从网页浏览器接收的请求而将网页发送到用户客户端设备上的网页浏览器。

本说明书中所述的主题的实施例能够在下列计算系统中实现，其包括后端组件(例如，作为数据服务器)，或者包括中间件组件(例如，应用程序服务器)，或者包括前端组件，例如具有用户能够通过其与本说明书中所述的主题的实施方式进行交互的图形用户界面或Web浏览器的客户端计算机，或者一个或多个这些后端、中间件或前端组件中的任何组合。系统的组件能够通过数字数据通信的任何形式或介质(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)，例如因特网。

计算系统能够包括客户端和服务器。客户端和服务器通常彼此远离，并且通常通过通信网络进行交互。客户端和服务器之间的关系是通过在各自计算机上运行并彼此具有客户端-服务器关系的计算机程序产生的。

尽管本说明书包含许多特定的实施细节，但是这些细节不应被解释为对任何发明或可能要求保护的范围的限制，而应被解释为是特定于某些发明的某些实施例的特征的描述。在单独实施例背景下在本说明书中描述的某些特征也能够在单个实施例中组合地实现。相反，在单个实施例的背景下描述的各种特征也能够在多个实施例中单独地或以任何合适的子组合来实现。此外，虽然上文可能将特征描述为以某些组合起作用并且甚至最初如此要求，但是在某些情况下能够从该组合中排除所要求保护的组合的一个或多个特征，并且所要求的组合可能涉及子组合和子组合的变形。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求以所示的特定顺序或以连续顺序执行这些操作，或者执行所有所示操作以实现期望结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中都需要这种分离，并且应理解，所述的程序组件和系统通常能够一起集成在单个软件产品中，或被包装成多个软件产品。

已经描述了主题的特定实施例。其它实施例也在所附权利要求的范围内。例如，权利要求中所述的动作能够以不同的顺序执行并且仍然实现期望的结果。作为示例，附图中描绘的过程不一定需要所示的特定顺序或连续顺序来实现期望结果。在某些实施方式中，多任务和并行处理可能是有利的。

Claims

1.一种用于基于模型的强化学习的神经网络系统，其中所述神经网络系统用于选择要由与环境交互的代理执行的动作，以执行任务从而试图实现指定的结果，所述系统包括：

至少一个想象力核心，所述至少一个想象力核心包括所述环境的模型并具有输入以至少接收表征所述环境的当前状态的当前观察，其中所述想象力核心被配置成响应于所述当前观察而输出轨迹数据，所述轨迹数据定义了包括所述想象力核心想象的所述环境的未来特征的序列的轨迹；

至少一个卷展编码器，用于对来自所述想象力核心的特征的序列进行编码，以提供针对所述轨迹的卷展嵌入；以及

强化学习输出级，用于接收从所述卷展嵌入中导出的数据，并输出动作策略数据，所述动作策略数据用于定义基于所述当前观察来识别动作的动作策略。

2.根据权利要求1所述的神经网络系统，其中，所述神经网络被配置成：除首次使用所述想象力核心在先前时间期间生成的观察之外，在每种情况下都操作所述想象力核心多次，以生成所述轨迹作为特征的序列；并且所述至少一个卷展编码器被配置成对来自所述想象力核心的所述特征的序列进行编码，以生成所述轨迹的卷展编码。

3.根据权利要求2所述的神经网络系统，所述神经网络系统被配置成生成对基于相同的观察数据开始的多个轨迹中的每个轨迹的卷展编码；所述系统还包括聚集器，用于将所述卷展编码聚集成针对所述强化学习输出级的想象力代码，；并且其中，所述动作策略数据取决于所述想象力代码。

4.根据权利要求1、2或3所述的神经网络系统，还包括耦合在所述输入和所述强化学习输出级之间的无模型强化学习神经网络模块。

5.根据权利要求1至4中的任一项所述的神经网络系统，其中所述想象力核心包括耦合至策略模块的神经环境模型，其中所述神经环境模型耦合至所述输入以接收所述当前观察或观察历史，并且还被配置成接收当前动作并作为响应而预测至少后续观察；并且其中所述想象力核心被配置成使用所述策略模块以生成动作序列，并且所述环境模型被配置成生成状态序列，其中所述轨迹数据包括所述动作序列和/或所述状态序列。

6.根据权利要求5所述的神经网络系统，其中，所述轨迹数据包括预测观察、预测动作、预测回报以及预测序列终止信号中的一个或多个。

7.根据权利要求5或6所述的神经网络系统，其中所述输入用于接收所述当前观察和观察历史，并且其中所述神经环境模型被配置成响应于所述当前观察和所述观察历史而预测所述后续观察，其条件是来自所述策略模块的动作数据。

8.根据权利要求1至7中的任一项所述的神经网络系统，其中，所述强化学习输出级被配置成输出限定策略向量的策略数据以及用于所述当前观察的值基线数据，以确定由所述动作策略限定的动作的优势，所述策略向量限定所述动作策略。

9.根据权利要求1至8中的任一项所述的神经网络系统，其中，所述至少一个卷展编码器包括一组连续状态生成神经网络。

10.根据权利要求1至9中的任一项所述的神经网络系统，其中，一个或多个所述想象力核心包括所述环境的已学习模型。

11.一种训练根据权利要求1至9中的任一项所述的神经网络系统的方法，所述方法包括预先训练所述想象力核心的所述环境的一个或多个模型，然后使用强化学习训练所述神经网络系统的另一部分。

12.根据权利要求11所述的方法，当从属于权利要求5时，其中所述神经网络的训练包括基于所述策略模块的相应输出与给定观察的所述强化学习输出级的不匹配来训练所述策略模块。

13.一种存储指令的一个或多个计算机存储介质，所述指令在由一个或多个计算机执行时引起所述一个或多个计算机实现根据权利要求1至10中的任一项所述的系统。

14.一种包括一个或多个计算机和存储指令的一个或多个存储设备的系统，所述指令在由所述一个或多个计算机执行时引起所述一个或多个计算机执行根据权利要求11至12中的任一项所述的相应方法的操作。

15.一种存储指令的一个或多个计算机存储介质，所述指令在由一个或多个计算机执行时引起所述一个或多个计算机执行根据权利要求11至12中的任一项所述的相应方法的操作。