CN116992917A

CN116992917A - 用于选择动作的系统和方法

Info

Publication number: CN116992917A
Application number: CN202310773649.6A
Authority: CN
Inventors: R·帕斯卡努; R·T·哈德塞尔; M·韦斯里克; T·罗索尔; A-A·鲁苏; N·M·O·赫斯
Original assignee: DeepMind Technologies Ltd
Current assignee: DeepMind Technologies Ltd
Priority date: 2016-10-10
Filing date: 2017-10-10
Publication date: 2023-11-03
Also published as: JP2019530105A; CN110023965A; CN110023965B; JP6875513B2; DE202017106132U1; EP3523758A1; US10632618B2; WO2018071392A1; US11534911B2; US20200223063A1; US20190232489A1; US20220355472A1

Abstract

公开了用于选择动作的系统和方法。该方法包括：接收表征与执行机器人任务的机器人智能体交互的真实世界环境的当前状态的观察，使用神经网络系统处理所述观察以生成策略输出，以及使用策略输出选择要由机器人智能体响应于所述观察而执行的动作。神经网络系统包括深度神经网络(DNN)的序列，所述DNN的序列包括模拟训练的DNN和第一机器人训练的DNN。模拟训练的DNN已经在机器人智能体的模拟版本与真实世界环境的模拟版本的交互上进行了训练，以执行机器人任务的模拟版本。第一机器人训练的DNN已经在机器人智能体与真实世界环境的交互上进行了训练，以执行机器人任务，以确定第一机器人训练的DNN的参数的训练值，同时保持模拟训练的DNN的参数的训练值固定。

Description

用于选择动作的系统和方法

本申请是申请日为2017年10月10日，申请号为201780074261.X，发明名称为“用于选择动作的神经网络的系统、方法和存储介质”的发明专利申请的分案申请。

相关申请的交叉引用

本申请要求2016年10月10日提交的美国临时申请序列号62/406,363的优先权。该在先申请的公开内容被认为是本申请的公开内容的一部分，并且通过引用结合在本申请的公开内容中。

技术领域

本说明书涉及选择由强化学习智能体执行的动作。

背景技术

强化学习智能体通过接收表征环境的当前状态的观察并且作为响应执行动作来与环境交互。

一些强化学习系统使用神经网络来选择由智能体响应于接收任何给定观察而执行的动作。

神经网络是机器学习模型，其使用一个或多个非线性单元层来预测接收的输入的输出。一些神经网络是深度神经网络，其除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出用作网络中下一层(即下一隐藏层或输出层)的输入。网络的每个层根据相应一组参数的当前值从接收的输入生成输出。

发明内容

本说明书描述了在一个或多个位置中的一个或多个计算机上实现为计算机程序的系统。

通常，一个创新方面可以体现在包括由一个或多个计算机实现的神经网络系统的系统中。神经网络系统被配置为接收表征机器人智能体与之交互以执行机器人任务的现实世界环境的当前状态的观察，并处理所述观察以生成限定由所述机器人智能体响应于所述观察而执行的动作的策略输出。神经网络系统包括深度神经网络(DNN)的序列。DNN的序列包括模拟训练的DNN，所述模拟训练的DNN已经在所述机器人智能体的模拟版本与所述现实世界环境的模拟版本的交互上被训练以执行机器人任务的模拟版本。所述模拟训练的DNN包括第一多个索引层，并且所述模拟训练的DNN被配置为接收所述观察并通过所述第一多个索引层中的每个层处理所述观察，以生成所述第一多个索引层中的每个层的相应层输出。DNN的序列还包括第一机器人训练的DNN。其可以已经在机器人智能体与现实世界环境的交互上被训练以执行机器人任务。所述第一机器人训练的DNN包括第二多个索引层。所述第一机器人训练的DNN被配置为接收所述观察并通过所述第二多个索引层中的每个层处理所述观察以生成所述策略输出，并且所述第二多个索引层中的层的一个或多个均被配置为接收下列作为输入：(i)由所述第一机器人训练的DNN的前一层生成的层输出，以及(ii)由所述模拟训练的DNN的前一层生成的层输出，其中，前一层是其索引比所述层的索引小1的层。

可以实现本说明书中描述的主题的特定实施例，以实现以下优点中的一个或多个。深度强化学习算法太慢而无法实现现实世界机器人上的性能，但可以在模拟环境中进行演示。通过使用本说明书中描述的神经网络系统来弥合现实差距并将学习的策略从模拟转移到现实世界，可以使用比现有方法更少的计算资源更快速地有效确定机器人智能体的动作选择策略。也就是说，本说明书中描述的神经网络系统允许使用深度强化学习来实现现实机器人上的快速策略学习。

在一些实施方式中，借助于模拟训练的DNN被配置为具有足够的容量和深度以从头开始学习任务以及一个或多个机器人训练的DNN具有更小的容量，可以实现不同任务的最大转移和更快的学习。模拟训练的DNN和机器人训练的DNN的容量和结构不需要相同，因此允许解决不同的任务，包括不同的输入模态。另外，在训练之后，训练的神经网络系统在被用于选择动作时可以具有较小的计算足迹，即，使用较少的处理资源和较少的存储器，同时仍然有效地选择由机器人智能体执行的动作。此外，虽然现有方法不能适应变化的网络形态或新的输入模态，但是通过使用渐进网络，本说明书中描述的神经网络系统在转移到新任务时提供了添加新容量(包括新输入连接)的灵活性。这对于弥合现实差距也是有利的，以适应模拟和现实传感器之间的不同输入。

在一些实施方式中，第一机器人训练的DNN具有比模拟训练的DNN小的容量。可以计算神经网络的容量。其广泛地涉及神经网络的参数的数量，因此第一机器人训练的DNN可以具有比模拟训练的DNN数量少的参数，诸如权重。根据经验发现，这不会妨碍，而是可以激励学习，同时减少计算负荷。以类似的方式，第一机器人训练的DNN可以具有比模拟训练的DNN窄的架构，例如在对应层中具有更少节点。

在一些实施方式中，第一机器人训练的DNN和模拟训练的DNN的层可以均包括相应的循环神经网络(recurrent neural network)层。这有助于基于观察的历史生成策略输出。

策略输出可以限定离散或连续策略。例如，输出可以提供在表示要执行的动作的连续动作空间中的值，或者可以存在表示离散动作空间中的每个可能动作的动作概率的一个值。例如，前者可以采用DDPG DNN，后者可以采用A3C DNN(其缩写参见下文)。在后一种情况下，DNN的输出层可以包括柔性最大值(softmax)层以提供策略，并且通常包括相关值函数的线性输出。也可以采用其他框架-例如，策略可以隐含在来自Deep Q网络(DQN)的输出中，例如作为值和优势函数输出。因此，可选地，动作子系统可以基于策略输出选择要由机器人智能体执行的动作。这可以使机器人智能体执行所选择的动作。如果机器人智能体具有要控制的多个自由度，则可以存在多个策略输出。

该系统可以包括第二机器人训练的DNN，其以与先前描述的方式类似的方式横向联接到第一机器人训练的DNN和模拟训练的DNN。该第二机器人训练的DNN可以接收也表征环境的当前状态的不同数据(对于观察)，连同或可能代替观察。可以训练第二机器人训练的DNN以对第一机器人训练的DNN执行不同的任务，或者其可以被训练以执行相同的任务，在这种情况下，第二机器人训练的DNN可以限定要执行的动作。进一步的DNN可以以类似的方式链接。

训练系统的方法可以包括确定DNN的序列中的一个或多个DNN的参数的训练值。因此，如果已经训练了模拟训练的DNN，则可以在现实世界环境中训练机器人训练的DNN，从而使它们能够使用通过模拟训练的DNN学习的特征。可以固定训练模拟的DNN的参数的训练值以避免忘记基于模拟的训练。可以使用现实世界环境的模拟版本来训练模拟训练的DNN。

机器人训练的DNN的训练可以涉及：接收下列作为输入：(i)由第一机器人训练的DNN的输出层之前的层生成的层输出，以及(ii)由模拟训练的DNN的输出层之前的层生成的层输出；将第一组参数应用于由第一机器人训练的DNN的输出层之前的层生成的层输出；并且将第二组参数应用于由模拟训练的DNN的输出层之前的层生成的层输出。该方法可以还包括将第二组参数的值初始化以匹配模拟训练的DNN的输出层的参数的训练值，并且可选地将第一组参数的值初始化为零。例如，该方法可以将到来自先前DNN列的最后层的DNN列的输出层的连接的一些或所有权重初始化为先前DNN列的输出权重，并且可选地将列内DNN列的输出层的一些或所有权重初始化为零。这有助于探索，特别是通过增加现实世界奖励的机会来弥补现实世界中的奖励如此稀疏以至于强化学习不成功的风险。

使用该系统的方法可以包括接收表征机器人智能体与之交互以执行机器人任务的现实世界环境的当前状态的观察；使用神经网络系统处理观察；以及响应于使用策略输出的观察选择机器人智能体要执行的动作。

根据本发明的另一个方面，提供一种计算机实现的方法，包括：接收执行机器人任务的机器人智能体的表征正在与其交互的真实世界环境的当前状态的观察；使用神经网络系统处理所述观察以生成策略输出，其中，所述神经网络系统包括深度神经网络(DNN)的序列，其中，所述DNN的序列包括：模拟训练的DNN，其已经在机器人智能体的模拟版本为了执行机器人任务的模拟版本与真实世界环境的模拟版本的交互上进行了训练，其中：所述模拟训练的DNN包括第一多个索引层，以及由一个或多个计算机实现的模拟训练的DNN被配置为接收所述观察并通过第一多个索引层中的每个层处理所述观察，以生成第一多个索引层中的每个层的各自的层输出；以及第一机器人训练的DNN，其已经在机器人智能体为了执行机器人任务与真实世界环境的交互上进行了训练，以在保持模拟训练的DNN的参数的训练值固定的同时确定第一机器人训练的DNN的参数的训练值，其中第一机器人训练的DNN包括第二多个索引层，由一个或多个计算机实现的第一机器人训练的DNN被配置为接收所述观察并通过第二多个索引层中的每个层处理所述观察，以生成策略输出，并且由一个或多个计算机实现的第二多个索引层中的一个或多个层的每个层被配置为接收下列作为输入：(i)由第一机器人训练的DNN的前一层生成的层输出，以及(ii)由模拟训练的DNN的前一层生成的层输出，其中，前一层是其索引比该层的索引小一的层；以及使用策略输出选择要由机器人智能体响应于所述观察而执行的动作。

根据本发明的另一个方面，提供一种系统，包括：一个或多个计算机；以及一个或多个存储指令的非暂时性计算机可读介质，当被一个或多个计算机执行时，所述指令使得一个或多个计算机执行操作，包括：接收执行机器人任务的机器人智能体进行的表征正在与其交互的真实世界环境的当前状态的观察；使用神经网络系统处理所述观察以生成策略输出，其中，所述神经网络系统包括深度神经网络(DNN)的序列，其中，所述DNN的序列包括：模拟训练的DNN，其已经在机器人智能体的模拟版本为了执行机器人任务的模拟版本与真实世界环境的模拟版本的交互上进行了训练，其中：所述模拟训练的DNN包括第一多个索引层，以及由一个或多个计算机实现的模拟训练的DNN被配置为接收所述观察并通过第一多个索引层中的每个层处理所述观察，以生成第一多个索引层中的每个层的各自的层输出；以及第一机器人训练的DNN，其已经在机器人智能体为了执行机器人任务与真实世界环境的交互上进行了训练，以在保持模拟训练的DNN的参数的训练值固定的同时确定第一机器人训练的DNN的参数的训练值，其中第一机器人训练的DNN包括第二多个索引层，由一个或多个计算机实现的第一机器人训练的DNN被配置为接收所述观察并通过第二多个索引层中的每个层处理所述观察，以生成策略输出，并且由一个或多个计算机实现的第二多个索引层中的一个或多个层的每个层被配置为接收下列作为输入：(i)由第一机器人训练的DNN的前一层生成的层输出，以及(ii)由模拟训练的DNN的前一层生成的层输出，其中，前一层是其索引比该层的索引小一的层；以及使用策略输出选择要由机器人智能体响应于所述观察而执行的动作。

在附图和以下描述中阐述了本说明书的主题的一个或多个实施例的细节。根据说明书、附图和权利要求，本主题的其他特征、方面和优点将变得显而易见。

附图说明

图1示出了示例强化学习系统。

图2示出了神经网络系统的示例架构。

图3是用于训练神经网络系统的示例过程的流程图。

图4是用于选择由智能体响应于观察而执行的动作的示例过程的流程图。

各附图中相同的附图标记和名称指示相同的元件。

具体实施方式

本说明书总体描述强化学习系统，其选择由与现实世界环境交互的强化学习智能体执行的动作。为了与现实世界环境交互，智能体接收表征现实世界环境的当前状态的数据并且响应于接收的数据执行来自动作空间(例如，离散动作空间或连续动作空间)的动作。表征现实世界环境的状态的数据在本说明书中将被称为观察。

在一些实施方式中，机器人智能体可以是与现实世界环境交互以完成特定任务的机器人。在其他实施方式中，机器人智能体可以是导航通过现实世界环境的自主或半自主车辆。在这些实施方式中，动作可以是用于控制机器人或自主车辆的可能的控制输入的空间中的点。

在一些情况下，观察使用表征环境的状态的低维特征向量来表征环境的状态。在这些情况下，低维特征向量的不同维度的值可以具有变化的范围。

在一些其他情况下，观察使用来自表征环境的状态的一个或多个图像(例如，当智能体与现实世界环境交互时智能体的传感器捕获的图像)的高维像素输入来表征环境的状态。

图1示出了示例强化学习系统100。强化学习系统100是在一个或多个位置中的一个或多个计算机上实现为计算机程序的系统的示例，在强化学习系统100中实现下面描述的系统、组件和技术。

强化学习系统100选择由与现实世界环境104交互的强化学习智能体102执行的动作以完成任务。也就是说，强化学习系统100接收观察，其中每个观察表征环境104的相应状态，并且响应于每个观察，选择由智能体102响应观察执行的动作。

具体地，强化学习系统100使用神经网络系统106和动作子系统108选择动作。

神经网络系统106被配置为接收观察112，该观察112表征由智能体102与之交互以执行任务的现实世界环境104的当前状态。例如，智能体102是执行机器人任务(诸如到达任务或传送器(运动跟踪)任务)的机器人智能体。

为了弥合现实差距并将学习的策略从模拟转移到现实世界，神经网络系统106包括深度神经网络(DNN)的序列，其包括模拟训练的DNN和一个或多个机器人训练的DNN。模拟训练的DNN被配置为具有足够的容量和深度以从头开始学习任务，并且一个或多个机器人训练的DNN被配置为具有更小的容量以实现不同任务的最大转移和更快地学习。模拟训练的DNN和机器人训练的DNN的容量和结构不需要相同，因此允许解决不同的任务，包括不同的输入模态。DNN序列中的每个DNN包括多个索引层和输出层。下面参考图2更详细地描述神经网络系统106的架构。

神经网络系统106被配置为使用DNN序列来处理观察112以生成策略输出110。通常，策略输出110限定可以由智能体102响应于观察112执行以完成任务的一组可能动作的概率分布。例如，在一些实施方式中，智能体102具有多个自由度，其包括一个或多个关节和一个或多个致动器(例如，具有多个关节和手指的机器人臂)。在这些实施方式中，策略输出110限定响应于观察控制智能体102的不同自由度的可能动作的概率分布，所述可能动作例如控制智能体102的每个自由度的位置改变的动作。

在一些实施方式中，神经网络系统106被配置为使用DNN序列来处理观察112以生成第二策略输出，该第二策略输出限定可以由智能体102执行以完成第二不同的任务的一组可能动作的概率分布。

为了允许智能体102有效地与现实世界环境104交互，强化学习系统100训练神经网络系统106以确定神经网络系统106的参数的训练值。具体地，系统100在智能体的模拟版本与现实世界环境的模拟版本的交互上训练模拟训练的DNN以执行任务，以确定模拟训练的DNN的参数的训练值。系统100然后在智能体与现实世界环境的交互上训练机器人训练的DNN以执行任务，以确定机器人训练的DNN的参数的训练值，同时保持模拟训练的DNN的参数的训练值固定。在训练期间，基于模拟训练的DNN的输出层的参数的训练值来初始化机器人训练的DNN的输出层的参数值，以改善探索和加速学习。下面参考图3更详细地描述用于训练神经网络系统106的示例过程。

在神经网络系统106生成策略输出110之后，动作子系统108被配置为从神经网络系统106接收策略输出110并且基于策略输出110选择由智能体102执行的动作114。具体地，动作子系统108可以通过从由策略输出110限定的概率分布中采样动作114来选择动作114，例如选择最可能的动作。然后，动作子系统108使智能体执行所选择的动作114。

图2示出了图1的神经网络系统106的示例架构。

神经网络系统106包括深度神经网络(DNN)的序列。

DNN的序列包括模拟训练的深度神经网络(DNN)222，其已经在机器人智能体的模拟版本与现实世界环境的模拟版本的交互上被训练，以执行第一机器人任务的模拟版本。

通常，模拟训练的DNN 222包括以堆叠的方式布置在彼此之上的多个神经网络层。模拟训练的DNN 222可以是前馈神经网络或循环神经网络。模拟训练的DNN 222可以包括一个或多个卷积神经网络层，其后是完全连接层或长短期记忆(LSTM)神经网络层。

如图2所示，模拟训练的DNN 222包括多个第一索引层，例如层h₁ ⁽¹⁾(204)和层h₂ ⁽¹⁾(206)，以及输出层208。模拟训练的DNN 222被配置为接收输入202，其包括表征现实世界环境的当前状态的观察。例如，观察包括视觉数据，诸如描绘现实世界环境的当前状态的一个或多个RGB图像。然后，模拟训练的DNN 222被配置为通过每个第一索引层处理观察，以生成每个层的相应的层输出。然后将每层的相应的层输出作为输入提供给下一层。

DNN的序列还包括第一机器人训练的DNN 224。第一机器人训练的DNN 224可以是前馈或循环神经网络。第一机器人训练的DNN 224可以包括一个或多个卷积神经网络层，其后是完全连接神经网络层或LSTM神经网络层。

在许多情况下，第一机器人训练的DNN 224和模拟训练的DNN 222不需要具有相同的容量或结构，并且这在模拟到现实情况中可能是有利的。模拟训练的DNN 222可以被设计为具有足够的容量和深度以从头开始学习机器人任务，但是机器人训练的DNN 224可以具有最小容量，以激励快速学习并限制总参数增长。因此，在一些情况下，模拟训练的DNN 222是标准大小的网络，而第一机器人训练的DNN 224是容量减少的网络以加速训练。这意味着第一机器人训练的DNN 224具有比模拟训练的DNN 222少得多的参数。例如，当模拟训练的DNN 222和第一机器人训练的DNN 224两者都是前馈神经网络时，模拟训练的DNN 222可以具有数十万个参数，例如，大约600,000个参数，而第一机器人训练的DNN 224可能仅具有数万个参数，例如大约40,000个参数。在另一示例中，当模拟训练的DNN 222和第一机器人训练的DNN 224都是循环神经网络时，模拟训练的DNN 222可以具有大约300,000个参数，而第一机器人训练的DNN 224可能具有大约40,000个参数。

在一些情况下，模拟训练的DNN 222具有宽架构，第一机器人训练的DNN 224具有窄架构。例如，对于多个第二索引层中的一个或多个层中的每个层，具有相同索引的多个第一索引层中的对应层是相同类型但维数(dimension)大于多个第二索引层中的层的神经网络层。例如，多个第一索引层中的对应层具有比多个第二索引层中的层多得多的节点。

如图2所示，第一机器人训练的DNN 224包括多个第二索引层，例如，层h₁ ⁽²⁾(210)和层h₂ ⁽²⁾(212)，以及输出层214。

第一机器人训练的DNN 224被配置为接收输入202，所述输入202包括表征现实世界环境的当前状态的观察(例如，RGB图像)。通常，第一机器人训练的DNN 224被配置为通过多个第二索引层中的每一个共同地处理输入202，以生成策略输出228，其限定由机器人智能体执行以执行第一机器人任务的动作。策略输出限定智能体的多个自由度中的每一个的位置的相应的改变。自由度包括智能体的一个或多个关节以及智能体的一个或多个致动器。

具体地，多个第二索引层中的第一层(例如，层h₁ ⁽²⁾(210))被配置为接收输入202并处理输入202以生成第一层输出。

为了传递从智能体的模拟版本的交互中学习的特征以用于选择由智能体执行的动作，在多个第二索引层中的第一层210之后的一个或多个层均被配置为接收下列作为输入：(i)由第一机器人训练的DNN 224的前一层生成的层输出，以及(ii)由模拟训练的DNN222的前一层生成的层输出。前一层是其索引比层的索引小1的层。例如，层h₂ ⁽²⁾(212)被配置为接收由第一机器人训练的DNN 224的层h₁ ⁽²⁾(210)生成的层输出和由层h₁ ⁽¹⁾(204)生成的层输出作为输入。该系统可以被配置为将第一组参数(权重)应用于由第一机器人训练的DNN的前一层生成的层输出，并将第二组参数(权重)应用于由模拟训练的DNN的前一层生成的层输出。可选地，序列的DNN“列”之间的连接可以包括诸如MLP(多层感知)的神经网络，以使一个DNN的层输出适应下一DNN的层输入，例如进行缩放和/或降维。在连接到输出层时可能不需要这样的适应。

在一些情况下，多个第一索引层和多个第二索引层均包括相应的循环神经网络层。在这些情况下，多个第二索引层中的循环神经网络层被配置为接收下列作为输入：(i)多个第一索引层中的循环神经网络层之前的层的层输出，(ii)多个第一索引层中的循环神经网络层的内部状态，以及(iii)多个第二索引层中的循环神经网络层之前的层的层输出。例如，假设多个第一索引层的层206和多个第二索引层的层212是循环神经网络层，则层212被配置为接收下列作为输入：层204的层输出、层206的内部状态和层210的层输出。

具体地，输出层214被配置为接收下列作为输入：(i)由第一机器人训练的DNN 224的输出层之前的层生成的层输出，例如，由层h₂ ⁽²⁾(212)生成的层输出，以及(ii)由模拟训练的DNN 222的输出层之前的层生成的层输出，例如，由层h₂ ⁽¹⁾(206)生成的层输出。输出层214被配置为将第一组参数应用于由第一机器人训练的DNN 224的输出层之前的层生成的层输出，并将第二组参数应用于由模拟训练的DNN 222的输出层之前层生成的层输出，以生成策略输出228。在使用强化学习技术在机器人智能体与现实世界环境的交互上训练第一机器人训练的DNN 224之后，确定第一组参数和第二组参数。下面参考图3更详细地描述训练第一机器人训练的DNN 224。

可选地，神经网络系统106可以包括第二机器人训练的DNN 226，其已经在机器人智能体与现实世界环境的交互上被训练以执行与第一机器人任务不同的第二机器人任务。第二机器人训练的DNN 226包括多个第三索引层(例如，层h₁ ⁽³⁾(216)和层h₂ ⁽³⁾(218))，以及输出层220。第二机器人训练的DNN被配置为接收表征当前状态的附加数据作为输入连同输入202中包括的观察(例如，RGB图像)。例如，附加数据是包括机器人智能体的本体感受特征的本体感受数据，例如机器人智能体的关节和致动器中的每一个的关节角度和速度。

通过将所述附加数据作为输入，第二机器人训练的DNN允许神经网络系统106在转移到新任务时具有添加新容量(包括新输入模态)的灵活性。这优于现有方法，因为现有方法不能适应变化的网络形态或新的输入模态。这对于弥合现实差距也是有利的，以适应模拟和现实传感器之间的不同输入。

在一个变型中，第二机器人训练的DNN可以仅接收附加数据而不接收观察，并且可以经由到第一机器人训练的DNN和/或模拟训练的DNN的横向连接隐式地接收观察。

多个第三索引层中的第一层(例如，层h₁ ⁽³⁾(216))被配置为处理接收的输入202和附加数据以生成层输出。在第二机器人训练的DNN 226中的第一层216之后的一个或多个层均被配置为接收下列作为输入：(i)由第一机器人训练的DNN 224的前一层生成的层输出，(ii)由模拟训练的DNN 222的前一层生成的层输出，以及(iii)由第二机器人训练的DNN226的前一层生成的层输出。例如，第二机器人训练的DNN 226的层h₂ ⁽³⁾(218)被配置为接收下列作为输入：由第一机器人训练的DNN 224的层h₁ ⁽²⁾(210)生成的层输出，由模拟训练的DNN的层h₁ ⁽¹⁾(204)生成的层输出222，以及由第二机器人训练的DNN 226的层h₁ ⁽³⁾(216)生成的层输出。

第一层216之后的一个或多个层均被配置为处理相应的输入以生成相应的层输出。然后将层输出作为输入提供给下一层，或者如果当前层之后没有层(即，当前层是输出层220)，则将层输出提供为第二策略输出230。第二策略输出230限定由机器人智能体执行以执行第二机器人任务的动作。

图3是用于训练神经网络系统(例如，图1的神经网络系统106)的示例过程300的流程图。为方便起见，过程300将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，根据本说明书适当地被编程的强化学习系统(例如，图1的强化学习系统100)，可以执行过程300。

系统首先在模拟版本的机器人智能体的模拟版本与现实世界环境的模拟版本的交互上训练神经网络系统的模拟训练的DNN以执行机器人任务(即，现实世界任务)，以确定模拟训练的DNN的参数的训练值(步骤302)。机器人智能体的模拟版本是虚拟3D模型，其具有与现实世界机器人智能体类似的外观并且能够模拟现实世界机器人智能体的运动。现实世界环境的模拟版本是虚拟3D环境，其渲染现实世界环境和现实世界的环境中的对象。在训练期间，机器人智能体的模拟版本被编程为移动或与模拟环境中的虚拟对象交互，以便完成现实世界任务的模拟版本。系统可以模拟训练输入数据。例如，如果现实世界环境中的输入数据包括由相机捕获的观察，则由能够渲染可能的观察的组件提供模拟的输入数据。

为了允许神经网络系统有效地适应现实世界任务、现实世界环境和机器人智能体的变化，系统可以将方差引入到模拟训练的DNN的训练中。具体地，现实世界的机器人智能体可能例如由于制造不一致性而不同。另外，任务的不同实例可能不同，例如，因为被移动的对象可能具有略微不同的维度(dimension)，并且现实世界智能体可能由于制造缺陷而具有用于执行所选动作的不同能力。因此，系统可以在与现实世界任务不完全相同的模拟任务上训练模拟训练的DNN，以允许模拟训练的DNN一般化到可能在现实世界中发生的不可预测的情况。

该系统可以以各种方式将方差引入到模拟训练的DNN的训练中。例如，系统可以在系统选择动作之前将随机噪声应用于正由智能体执行的动作。作为另一示例，系统可以在模拟任务的实例之间改变环境的模拟版本中的对象的维度。

该系统可以使用第一强化学习技术来训练模拟训练的DNN。例如，系统可以使用异步优势Actor-Critic(A3C)框架来训练模拟训练的DNN。在Volodymyr Mnih、AdriàPuigdomènech Badia、Mehdi Mirza、Alex Graves、Timothy P.Lillicrap、Tim Harley、DavidSilver和Koray Kavukcuoglu的Asynchronous methods for deep reinforcementlearning(在2016年的机器学习国际会议(ICML))中详细描述了使用A3C框架的训练方法。作为另一示例，系统可以使用策略梯度Actor-Critic算法(例如深度确定性策略梯度(DDPG)算法)来训练模拟训练的DNN。在Timothy P.Lillicrap、Jonathan J.Hunt、Alexander Pritzel、Nicolas Heess、Tom Erez、Yuval Tassa、David Silver、DaanWierstra的Continuous control with Deep Reinforcement Learning(可在https://arxiv.org/abs/1509.02971获得)中详细描述了使用DDPG算法的训练方法。

与现实机器人相比，模拟训练由于快速渲染、多线程学习算法以及无人参与而不断训练的能力而得到加速。使用模拟，系统可以高效地探索各种训练参数。例如，系统可以探索学习率和熵成本，其在对数尺度上随机均匀地采样。

然后，系统在机器人智能体与现实世界环境的交互上训练第一机器人训练的DNN以执行第一机器人任务，以确定第一机器人训练的DNN的参数的训练值(步骤304)。通常，系统首先将第一机器人训练的DNN的参数值初始化为预定或随机生成的初始值。

在现实世界训练中，存在系统接收作为机器人智能体执行动作的结果的奖励可能是如此稀疏或不存在以至于收敛率小或者不会发生收敛的风险。因此，为了在现实域中的探索期间最大化奖励的可能性，系统初始化第一机器人训练的DNN，使得机器人智能体的初始策略将与模拟训练的DNN相同。使用图2的示例神经网络系统106，当实例化第一机器人训练的DNN 224的参数时，输出层214具有来自模拟训练的DNN的层212和层206的输入连接。与随机地被初始化的第一机器人训练的DNN的其他参数不同，输出层214将应用于层212的层输出的第一参数的值被初始化为零，并且输出层214将应用于层206的层输出的第二参数的值被初始化为匹配模拟训练的DNN的输出层的参数的训练值。

在初始化第一机器人训练的DNN的参数值之后，系统在智能体与现实世界环境的交互上训练第一机器人训练的DNN以执行机器人任务，以确定第一机器人训练的DNN的参数的训练值，同时保持模拟训练的DNN的参数的训练值固定。除了表征现实世界环境的状态的观察之外，第一机器人训练的DNN可以在附加输入上被训练。附加输入可以是本体感受数据，包括机器人智能体的本体感受特征。本体感受特征可以包括机器人智能体的关节和致动器中的每一个的关节的角度和速度。

系统可以使用第二强化学习技术来在智能体的交互上训练第一机器人训练的DNN。例如，系统可以使用异步优势Actor-Critic(A3C)框架、策略梯度Actor-Critic算法(诸如深度确定性策略梯度(DDPG)算法)或其他强化学习技术来训练第一机器人训练的DNN。第二强化学习技术可以与第一强化学习技术相同或者与第一强化学习技术不同。

然后，系统在机器人智能体与现实世界环境的交互上训练第二机器人训练的DNN以执行第二不同的机器人任务，以确定第二机器人训练的DNN的参数的训练值(步骤306)。该系统在第二不同的机器人任务上训练第二机器人训练的DNN，以扩展整个系统的能力。

系统首先将第二机器人训练的DNN的参数值初始化为随机生成的初始值。

系统使用第三强化学习技术来训练第二机器人训练的DNN，该第三强化学习技术使用到模拟训练的DNN和第一机器人训练的DNN两者的横向神经连接。第三强化学习技术可以是例如使用异步优势Actor-Critic(A3C)框架、策略梯度Actor-Critic算法(例如深度确定性策略梯度(DDPG)算法)或其他强化学习技术的技术。以这种方式进行训练，第二机器人训练的DNN可以利用在第一机器人任务学习的特征或表示，其编码在模拟训练的DNN或第一机器人训练的DNN中，以提高第二机器人任务的学习速度。例如，第一机器人任务可以是去取静止对象，而第二任务可以是去取动态移动对象。

在一些实施方式中，除了表征现实世界环境的状态的观察之外，还可以在附加输入上训练第二机器人训练的DNN。附加输入可以是本体感受数据，包括机器人智能体的本体感受特征。本体感受特征可以包括机器人智能体关节和致动器中的每一个的关节的角度和速度。在一些实施方式中，在训练期间，第二机器人训练的DNN可以仅接收附加数据而不接收观察，并且可以经由到第一机器人训练的DNN和/或模拟训练的DNN的横向连接隐式地接收观察。

图4是用于选择由智能体响应于观察而执行的动作的示例过程400的流程图。为方便起见，过程400将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，根据本说明书适当地被编程的强化学习系统(例如，图1的强化学习系统100)，可以执行过程400。

系统接收表征智能体与之交互以执行机器人任务的现实世界环境的当前状态的观察(步骤402)。该观察使用来自表征环境的当前状态的一个或多个图像的高维像素输入来表征环境的当前状态，所述一个或多个图像例如在智能体与现实世界环境交互时由智能体的传感器捕获的图像。

然后，系统使用神经网络系统处理观察以生成策略输出(步骤404)。系统根据神经网络系统的参数的训练值处理观察。通常，策略输出限定可以由智能体响应观察而执行的一组可能动作的概率分布。例如，在一些实施方式中，智能体具有多个自由度，其包括一个或多个关节和一个或多个致动器(例如，具有多个关节和手指的机器人臂)。在这些实施方式中，策略输出限定响应于观察控制智能体的不同自由度的可能动作的概率分布，可能的动作例如控制智能体的每个自由度的位置改变的动作。例如，在机器人臂的情况下，动作可以包括用于手臂和手指关节的速度命令。

系统使用策略输出选择由智能体响应于观察执行的动作(步骤406)。具体地，系统通过从由策略输出限定的概率分布中采样动作来选择动作。

然后，系统使智能体执行动作(步骤408)。

本说明书使用与系统和计算机程序组件有关的术语“被配置”。对于被配置为执行特定操作或动作的一个或多个计算机的系统意味着系统已在其上安装有软件、固件、硬件或它们的组合，其在操作时使系统执行操作或动作。对于被配置为执行特定操作或动作的一个或多个计算机程序意味着一个或多个程序包括当由数据处理装置运行时使装置执行操作或动作的指令。

本说明书中描述的主题和功能操作的实施例可以用数字电子电路、用有形地具体实现的计算机软件或固件、用计算机硬件(包括本说明书中公开的结构及其结构等同物)或者用它们中的一个或多个的组合加以实现。本说明书中描述的主题的实施例可以作为一个或多个计算机程序(即，在有形非暂时性存储介质上编码以供由数据处理装置执行或者用于控制数据处理装置的操作的计算机程序指令的一个或多个模块)被实现。计算机存储介质可以是机器可读存储设备、机器可读存储基底、随机或串行存取存储器设备或它们中的一个或多个的组合。可替选地或此外，程序指令可被编码在人工生成的传播信号上，所述传播信号例如为机器生成的电、光或电磁信号，该信号被生成来对信息进行编码以便传输到适合的接收器装置以供由数据处理装置执行。

术语“数据处理装置”指数据处理硬件并且包含用于处理数据的所有种类的装置、设备和机器，作为示例包括可编程处理器、计算机或多个处理器或计算机。该装置还可以是或还可以包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。该装置除了包括硬件之外还可以可选地包括为计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。

计算机程序(其也可以被称为或者描述为程序、软件、软件应用、app、模块、软件模块、脚本或代码)可以用任何形式的编程语言(包括编译或解释语言或者声明或过程语言)编写，并且它可以被以任何形式部署，包括作为独立程序或者作为模块、组件、子例行程序或适合于在计算环境中使用的其它单元。程序可以但未必对应于文件系统中的文件。可以在保持其它程序或数据(例如，存储在标记语言文档中的一个或多个脚本)的文件的一部分中、在专用于所述程序的单个文件中或者在多个协调文件(例如，存储一个或多个模块、子程序或代码部分的文件)中存储程序。可以将计算机程序部署成在一个计算机上或者在位于一个站点处或者跨越多个站点分布并通过数据通信网络互连的多个计算机上执行。

本说明书中描述的过程和逻辑流程可以是通过一个或多个可编程计算机运行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能来执行的。过程和逻辑流程也可以由专用逻辑电路(例如FPGA或ASIC)或专用逻辑电路和一个或多个经编程计算机的组合执行。

适合于运行计算机程序的计算机可以基于通用微处理器或专用微处理器或两者，或任何其它种类的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的必要元件是用于执行或者运行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。中央处理单元和存储器可以由专用逻辑电路补充或结合在其中。通常，计算机也将包括或者在操作上耦合以从用于存储数据的一个或多个大容量存储设备(例如，磁盘、磁光盘或光盘)接收数据或者向所述大容量存储设备传送数据，或者兼而有之。然而，计算机未必具有此类设备。此外，计算机可被嵌入在另一设备中，所述另一设备例如为移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储设备(例如，通用串行总线(USB)闪存驱动器)等等。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，作为示例包括半导体存储器设备，例如EPROM、EEPROM和闪速存储器设备；磁盘，例如内部硬盘或可移动盘；磁光盘；以及CD ROM和DVD-ROM盘。

为了提供与用户的交互，可以在计算机上实现本说明书中描述的主题的实施例，所述计算机具有用于向用户显示信息的显示设备(例如，CRT(阴极射线管)或LCD(液晶显示器)监视器)以及用户可以用来向该计算机提供输入的键盘和指向设备，例如，鼠标或轨迹球。其它种类的设备也可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以任何形式接收来自用户的输入，包括声、语音或触觉输入。此外，计算机可以通过向由用户使用的设备发送文档并且从由用户使用的设备接收文档来与用户交互；例如，通过响应于从web浏览器接收到的请求而向用户的设备上的web浏览器发送web页面。此外，计算机可以通过向个人设备(例如，运行消息收发应用的智能电话)发送文本消息或其他形式的消息并且转而从用户接收响应消息来与用户交互。

用于实现机器学习模型的数据处理装置还可以包括，例如，专用硬件加速器单元，用于处理机器学习训练或生产的公共和计算密集部分，即推断、工作负载。

可以使用机器学习框架来实现和部署机器学习模型，例如TensorFlow框架、Microsoft认知工具包框架、Apache Singa框架或Apache MXNet框架。

本说明书中描述的主题的实施例可以被实现在计算系统中，所述计算系统包括后端组件(例如，作为数据服务器)，或者包括中间件组件(例如，应用服务器)，或者包括前端组件(例如，具有用户可用来与本说明书中描述的主题的实施方式交互的图形用户界面、web浏览器或app的客户端计算机)，或者包括一个或多个此类后端、中间件或前端组件的任何组合。系统的组件可以通过任何形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(LAN)和广域网(WAN)，例如，因特网。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且通常通过通信网络来交互。客户端和服务器的关系借助于在相应计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。一些实施例中，服务器将数据(例如，HTML页面)发送到用户设备，例如，用于向与作为客户端的设备交互的用户显示数据和从用户接收用户输入的目的。可以在服务器处从设备接收在用户设备处生成的数据，例如，用户交互的结果。

虽然本说明书包含许多具体实现细节，但是这些不应该被解释为对任何发明的范围或可能要求保护的范围构成限制，而是相反作为可以特定于特定发明的特定实施例的特征的描述。也可以在单个实施例中相结合地实现在本说明书中在单独的实施例的上下文中描述的某些特征。相反地，也可以在多个实施例中单独地或者按照任何适合的子组合实现在单个实施例的上下文中描述的各种特征。此外，尽管特征可能已经在上面被描述为按照某些组合起作用并且甚至最初如此要求保护，然而来自要求保护的组合的一个或多个特征可以在一些情况下被从该组合中除去，并且所要求保护的组合可以针对子组合或子组合的变化。

类似地，虽然在附图中按照特定次序描绘了操作并且在权利要求中按照特定次序记载了操作，但是这不应该被理解为要求按照所示特定次序或按照顺序次序执行此类操作，或者要求执行所有图示的操作以实现所希望的结果。在某些情况下，多任务处理和并行处理可以是有利的。此外，上述的实施例中的各种系统模块和组件的分离不应该被理解为在所有实施例中要求这种分离，并且应该理解的是，所描述的程序组件和系统通常可以被一起集成在单个软件产品中或者包装到多个软件产品中。

已经描述了主题的特定实施例。其它实施例在以下权利要求的范围内。例如，权利要求中记载的动作可以被以不同的次序执行并仍然实现所希望的结果。作为一个示例，附图中描绘的过程不一定要求所示特定次序或顺序次序来实现所希望的结果。在某些情况下，多任务处理和并行处理可能是有利的。

Claims

1.一种计算机实现的方法，包括：

接收执行机器人任务的机器人智能体的表征正在与其交互的真实世界环境的当前状态的观察；

使用神经网络系统处理所述观察以生成策略输出，其中，所述神经网络系统包括深度神经网络(DNN)的序列，

其中，所述DNN的序列包括：

模拟训练的DNN，其已经在机器人智能体的模拟版本为了执行机器人任务的模拟版本与真实世界环境的模拟版本的交互上进行了训练，其中：

所述模拟训练的DNN包括第一多个索引层，以及

由一个或多个计算机实现的模拟训练的DNN被配置为接收所述观察并通过第一多个索引层中的每个层处理所述观察，以生成第一多个索引层中的每个层的各自的层输出；以及

第一机器人训练的DNN，其已经在机器人智能体为了执行机器人任务与真实世界环境的交互上进行了训练，以在保持模拟训练的DNN的参数的训练值固定的同时确定第一机器人训练的DNN的参数的训练值，其中

第一机器人训练的DNN包括第二多个索引层，

由一个或多个计算机实现的第一机器人训练的DNN被配置为接收所述观察并通过第二多个索引层中的每个层处理所述观察，以生成策略输出，并且

由一个或多个计算机实现的第二多个索引层中的一个或多个层的每个层被配置为接收下列作为输入：(i)由第一机器人训练的DNN的前一层生成的层输出，以及(ii)由模拟训练的DNN的前一层生成的层输出，其中，前一层是其索引比该层的索引小一的层；以及

使用策略输出选择要由机器人智能体响应于所述观察而执行的动作。

2.根据权利要求1所述的方法，其中，第一机器人训练的DNN具有比模拟训练的DNN更小的容量。

3.根据权利要求1所述的方法，其中，对于第二多个索引层中的一个或多个层的每个层，第一多个索引层中具有相同索引的对应层是与第二多个索引层中的层类型相同但维度更大的神经网络层。

4.根据权利要求1所述的方法，其中，第一多个索引层和第二多个索引层中的每一个包括各自的循环神经网络层。

5.根据权利要求4所述的方法，其中，由一个或多个计算机实现的第二多个索引层中的循环神经网络层被配置为接收下列作为输入：(i)第一多个索引层中的循环神经网络层的前一层的层输出，(ii)第一多个索引层中的循环神经网络层的内部状态，以及(iii)第二多个索引层中的循环神经网络层的前一层的层输出。

6.根据权利要求1所述的方法，其中，由一个或多个计算机实现的第二多个索引层中的一个或多个层的每个层被配置为接收下列作为输入：(i)由第一机器人训练的DNN的前一层生成的层输出，以及(ii)由一个或多个计算机实现的模拟训练的DNN的前一层生成的层输出，每个层还被配置为：

将各自的第一组参数应用于由第一机器人训练的DNN的前一层生成的层输出；以及

将各自的第二组参数应用于由模拟训练的DNN的前一层生成的层输出。

7.根据权利要求1所述的方法，其中，所述策略输出定义了机器人智能体的多个自由度中的每个自由度的各自的位置变化。

8.根据权利要求7所述的方法，其中，所述多个自由度包括机器人智能体的一个或多个关节和机器人智能体的一个或多个致动器。

9.根据权利要求1所述的方法，其中，所述DNN的序列还包括：

第二机器人训练的DNN，其中：

第二机器人训练的DNN包括第三多个索引层，并且

由一个或多个计算机实现的第三多个索引层中的一个或多个层的每个层被配置为接收下列作为输入：(i)由第一机器人训练的DNN的前一层生成的层输出，(ii)由模拟训练的DNN的前一层生成的层输出，以及(iii)由第二机器人训练的DNN的前一层生成的层输出。

10.根据权利要求9所述的方法，其中：

由一个或多个计算机实现的第二机器人训练的DNN被配置为接收表征结合所述观察的当前状态的不同数据；以及

由一个或多个计算机实现的第二机器人训练的DNN被配置为通过第三多个索引层处理所述不同数据以生成第二策略输出，第二策略输出定义了机器人智能体执行第二不同的机器人任务要执行的动作。

11.根据权利要求10所述的方法，其中，所述观察是视觉数据，所述不同数据是本体感受数据。

12.一个或多个存储指令的非暂时性计算机可读介质，当由一个或多个计算机执行时，所述指令使得一个或多个计算机执行操作，包括：

接收执行机器人任务的机器人智能体进行的表征正在与其交互的真实世界环境的当前状态的观察；

其中，所述DNN的序列包括：

所述模拟训练的DNN包括第一多个索引层，以及

第一机器人训练的DNN包括第二多个索引层，

13.一种系统，包括：

一个或多个计算机；以及

一个或多个存储指令的非暂时性计算机可读介质，当被一个或多个计算机执行时，所述指令使得一个或多个计算机执行操作，包括：

其中，所述DNN的序列包括：

所述模拟训练的DNN包括第一多个索引层，以及

第一机器人训练的DNN包括第二多个索引层，

14.一个或多个存储指令的非暂时性计算机可读介质，当由一个或多个计算机执行时，所述指令使得一个或多个计算机执行用于训练神经网络系统的操作，所述神经网络系统包括深度神经网络(DNN)的序列，以确定所述DNN的序列中的一个或多个DNN的参数的训练值，其中，由一个或多个计算机实现的神经网络系统被配置为接收执行机器人任务的机器人智能体进行的表征正在与其交互的真实世界环境的当前状态的观察，并处理所述观察以生成策略输出，该策略输出定义了要由机器人智能体响应于所述观察而执行的动作，

其中，所述DNN的序列包括：

模拟训练的DNN，其中，由一个或多个计算机实现的模拟训练的DNN包括第一多个索引层，并且被配置为接收所述观察并通过第一多个索引层中的每个层处理所述观察，以生成第一多个索引层中的每个层的各自的层输出；以及

第一机器人训练的DNN包括第二多个索引层，

由一个或多个计算机实现的第二多个索引层中的一个或多个层的每个层被配置为接收下列作为输入：(i)由第一机器人训练的DNN的前一层生成的层输出，以及(ii)由模拟训练的DNN的前一层生成的层输出，其中，前一层是其索引比该层的索引小一的层，

其中，所述操作包括：

在机器人智能体为了执行机器人任务与真实世界环境的交互上训练第一机器人训练的DNN，以保持模拟训练的DNN的参数的训练值固定的同时确定第一机器人训练的DNN的参数的训练值。

15.根据权利要求14所述的一个或多个非暂时性计算机可读介质，

其中，由一个或多个计算机实现的第一机器人训练的DNN的输出层被配置为：

接收下列作为输入：(i)由第一机器人训练的DNN的输出层的前一层生成的层输出，以及(ii)由模拟训练的DNN的输出层的前一层生成的层输出；

将第一组参数应用于由第一机器人训练的DNN的输出层的前一层生成的层输出；以及

将第二组参数应用于由模拟训练的DNN的输出层的前一层生成的层输出，并且

其中，所述操作还包括：

初始化第二组参数的值，以匹配模拟训练的DNN的输出层的参数的训练值。

16.根据权利要求15所述的一个或多个非暂时性计算机可读介质，其中，所述操作还包括：

将第一组参数的值初始化为零。

17.根据权利要求15所述的一个或多个非暂时性计算机可读介质，其中，所述操作还包括：

将除了第一机器人训练的DNN的输出层之外的第一机器人训练的DNN的层的参数值初始化为随机值。

18.根据权利要求14所述的一个或多个非暂时性计算机可读介质，其中，所述操作还包括：

在机器人智能体的模拟版本为了执行机器人任务的模拟版本与真实世界环境的模拟版本的交互上训练模拟训练的DNN，以确定模拟训练的DNN的参数的训练值。

19.根据权利要求18所述的一个或多个非暂时性计算机可读介质，其中，训练模拟训练的DNN包括使用第一强化学习技术在机器人智能体的模拟版本的交互上训练模拟训练的DNN。

20.根据权利要求19所述的一个或多个非暂时性计算机可读介质，其中，训练第一机器人训练的DNN包括使用第二强化学习技术在机器人智能体的交互上训练第一机器人训练的DNN。

21.一种系统，包括：

一个或多个计算机；以及

一个或多个存储指令的非暂时性计算机可读介质，当由一个或多个计算机执行时，所述指令使得一个或多个计算机执行用于训练神经网络系统的操作，所述神经网络系统包括深度神经网络(DNN)的序列，以确定所述DNN的序列中的一个或多个DNN的参数的训练值，其中，由一个或多个计算机实现的神经网络系统被配置为接收执行机器人任务的机器人智能体进行的表征正在与其交互的真实世界环境的当前状态的观察，并处理所述观察以生成策略输出，该策略输出定义了要由机器人智能体响应于所述观察而执行的动作，

其中，所述DNN的序列包括：

第一机器人训练的DNN包括第二多个索引层，

其中，所述操作包括：

在机器人智能体为了执行机器人任务与真实世界环境的交互上训练第一机器人训练的DNN，以在保持模拟训练的DNN的参数的训练值固定的同时确定第一机器人训练的DNN的参数的训练值。

22.一种计算机实现的方法，包括：

其中，所述DNN的序列包括：

模拟训练的DNN，其已经在机器人智能体的模拟版本为了执行机器人任务的模拟版本与真实世界环境的模拟版本的交互上进行了训练，其中，所述模拟训练的DNN被配置为接收所述观察并处理所述观察，以生成一个或多个层输出，并且

第一机器人训练的DNN，其已经在机器人智能体为了执行机器人任务与真实世界环境的交互上进行了训练，以在保持模拟训练的DNN的参数的训练值固定的同时确定第一机器人训练的DNN的参数的训练值，其中，第一机器人训练的DNN被配置为接收所述观察和由模拟训练的DNN生成的一个或多个层输出，并处理所述观察和一个或多个层输出，以生成策略输出，以及

使用策略输出选择要由机器人智能体响应于所述观察而执行的动作，其中，第一机器人训练的DNN和模拟训练的DNN具有不同的能力。

23.根据权利要求22所述的方法，其中，第一机器人训练的DNN具有比模拟训练的DNN更小的容量。

24.根据权利要求22所述的方法，

其中，所述模拟训练的DNN包括第一多个索引层，并且由一个或多个计算机实现的模拟训练的DNN被配置为通过第一多个索引层中的每个层处理所述观察，以生成第一多个索引层中的每个层的各自的层输出；并且

其中，第一经机器人训练的DNN包括第二多个索引层，并且由一个或多个计算机实现的第一机器人训练的DNN被配置为通过第二多个索引层中的每个层处理所述观察，以生成策略输出。

25.根据权利要求24所述的方法，其中，对于第二多个索引层的一层或多层中的每一层，第一多个索引层中具有相同索引的对应层是与第二多个索引层中的层类型相同但维度更大的神经网络层。

26.根据权利要求24所述的方法，其中，第一多个索引层和第二多个索引层中的每一个包括各自的循环神经网络层。

27.根据权利要求26所述的方法，其中，由一个或多个计算机实现的第二多个索引层中的循环神经网络层被配置为接收下列作为输入：(i)第一多个索引层中的循环神经网络层的前一层的层输出，(ii)第一多个索引层中的循环神经网络层的内部状态，以及(iii)第二多个索引层中的循环神经网络层的前一层的层输出。

28.根据权利要求24所述的方法，其中，由一个或多个计算机实现的第二多个索引层中的一个或多个层的每个层被配置为接收下列作为输入：(i)由第一机器人训练的DNN的前一层生成的层输出，以及(ii)由模拟训练的DNN的前一层生成的层输出，并且其中，第二多个索引层中的一个或多个层的每个层还被配置为：

将各自的第二组参数应用于由模拟训练的DNN的前一层生成的层输出，其中，前一层是其索引比该层的索引小一的层。

29.根据权利要求24所述的方法，其中，所述策略输出定义了机器人智能体的多个自由度中的每个自由度的各自的位置变化。

30.根据权利要求29所述的方法，其中，所述多个自由度包括机器人智能体的一个或多个关节和机器人智能体的一个或多个致动器。

31.根据权利要求24所述的方法，其中，所述DNN的序列还包括：

第二机器人训练的DNN，其中：

第二机器人训练的DNN包括第三多个索引层，并且

32.根据权利要求31所述的方法，其中：

33.根据权利要求32所述的方法，其中，所述观察是视觉数据，所述不同数据是本体感受数据。

34.一个或多个存储指令的非暂时性计算机可读介质，当由一个或多个计算机执行时，所述指令使得一个或多个计算机执行操作，包括：

其中，所述DNN的序列包括：

35.一种系统，包括：

一个或多个计算机；以及

一个或多个存储指令的非暂时性计算机可读介质，当由一个或多个计算机执行时，所述指令使得一个或多个计算机执行操作，所述操作包括：

其中，所述DNN的序列包括：

36.一个或多个存储指令的非暂时性计算机可读介质，当由一个或多个计算机执行时，所述指令使得一个或多个计算机执行用于训练神经网络系统的操作，所述神经网络系统包括深度神经网络(DNN)的序列，以确定所述DNN的序列中的一个或多个DNN的参数的训练值，其中，由一个或多个计算机实现的神经网络系统被配置为接收执行机器人任务的机器人智能体进行的表征正在与其交互的真实世界环境的当前状态的观察，并处理所述观察以生成策略输出，该策略输出定义了要由机器人智能体响应于所述观察而执行的动作，

其中，所述DNN的序列包括：

模拟训练的DNN，其被配置为接收所述观察并处理所述观察，以生成一个或多个层输出，其中，所述模拟训练的DNN在机器人智能体的模拟版本为了执行机器人任务的模拟版本与真实世界环境的模拟版本的交互上进行训练；以及

第一机器人训练的DNN，其在机器人智能体为了执行机器人任务与真实世界环境的交互上进行训练，以在保持模拟训练的DNN的参数的训练值固定的同时确定第一机器人训练的DNN的参数的训练值，其中，第一机器人训练的DNN被配置为接收所述观察和由模拟训练的DNN生成的一个或多个层输出，并处理所述观察和一个或多个层输出，以生成策略输出；以及

其中，所述操作包括：

在机器人智能体为了执行机器人任务与真实世界环境的交互上训练第一机器人训练的DNN，以在保持模拟训练的DNN的参数的训练值固定的同时确定第一机器人训练的DNN的参数的训练值，

其中，第一机器人训练的DNN和模拟训练的DNN具有不同的能力。

37.根据权利要求36所述的一个或多个非暂时性计算机可读介质，

将第二组参数应用于由模拟训练的DNN的输出层的前一层生成的层输出，以及

其中，所述操作还包括：

38.根据权利要求37所述的一个或多个非暂时性计算机可读介质，其中，所述操作还包括：

将第一组参数的值初始化为零。

39.根据权利要求37所述的一个或多个非暂时性计算机可读介质，其中，所述操作还包括：

40.根据权利要求36所述的一个或多个非暂时性计算机可读介质，其中，所述操作还包括：

41.根据权利要求40所述的一个或多个非暂时性计算机可读介质，其中，训练模拟训练的DNN包括使用第一强化学习技术在机器人智能体的模拟版本的交互上训练模拟训练的DNN。

42.根据权利要求41所述的一个或多个非暂时性计算机可读介质，其中，训练第一机器人训练的DNN包括使用第二强化学习技术在机器人智能体的交互上训练第一机器人训练的DNN。

43.一种系统，包括：

一个或多个计算机；以及

其中，所述DNN的序列包括：

其中，所述操作包括：