CN117371492A

CN117371492A - 一种计算机实现的方法及其系统

Info

Publication number: CN117371492A
Application number: CN202311167238.9A
Authority: CN
Inventors: F·维奥拉; P·W·米罗夫基; A·巴尼诺; R·帕斯卡努; H·J·索耶; A·J·巴拉德; S·库马兰; R·T·哈德塞尔; L·西夫勒; R·戈罗什恩; K·卡夫克佐格卢; M·M·R·德尼尔
Original assignee: DeepMind Technologies Ltd
Current assignee: DeepMind Technologies Ltd
Priority date: 2016-11-04
Filing date: 2017-11-04
Publication date: 2024-01-09
Also published as: KR20190077067A; CN110088774A; KR102228503B1; US20200151515A1; EP4386624A2; JP2019537137A; EP3523762B1; CN110088774B; EP3523762A1; JP2020170535A; WO2018083672A1; DE202017106697U1; JP6728496B2; US20190266449A1; US11074481B2; JP6935550B2; US10572776B2

Abstract

用于训练强化学习系统的方法、系统和装置，包括编码在计算机存储介质上的计算机程序。在一个方面，训练动作选择策略神经网络以用于选择要由导航经过环境以实现一个或多个目标的代理执行的动作的方法包括：接收表征环境的当前状态的观察图像；使用动作选择策略神经网络处理包括观察图像的输入以生成动作选择输出；使用几何预测神经网络处理由动作选择策略神经网络生成的中间输出，以预测当处于当前状态时的环境的几何特征的值；以及将基于几何的辅助损失的梯度反向传播到动作选择策略神经网络中，以确定对于网络参数的当前值的基于几何的辅助更新。

Description

一种计算机实现的方法及其系统

本申请是申请日为2017年11月4日、申请号为201780078260.2、发明名称为“使用强化学习的环境导航”的发明专利申请的分案申请。

技术领域

本说明书涉及强化学习。

背景技术

在强化学习系统中，代理通过执行由强化学习系统响应于接收到表征当前环境状态的观察选择的动作来与环境交互。

一些强化学习系统根据神经网络的输出、响应于接收到给定观察来选择要由代理执行的动作。

神经网络是采用一层或多层非线性单元来预测对于接收的输入的输出的机器学习模型。一些神经网络是除了输出层之外还包括一个或多个隐藏层的深度神经网络。每个隐藏层的输出用作网络中下一层(即，下一隐藏层或输出层)的输入。网络的每个层根据相应参数集的当前值从接收的输入生成输出。

发明内容

本说明书描述了在一个或多个位置中的一个或多个计算机上被实施为计算机程序的强化学习系统，该强化学习系统选择要由与环境交互的代理执行的动作。通常，系统响应于环境观察使用动作选择策略神经网络(action selection policy neural network)来选择要执行的动作。为了改进动作选择策略神经网络的训练，在该训练期间，训练引擎还训练接收动作选择策略神经网络的相应中间输出作为输入的(i)几何预测神经网络(geometry prediction neural network)、(ii)回环预测神经网络(loop closureprediction neural network)或两者。

提供了一种训练动作选择策略神经网络的方法，动作选择策略神经网络具有多个网络参数以用于选择要由导航经过环境以实现一个或多个目标的代理执行的动作。该方法包括：接收表征环境的当前状态的观察图像；使用动作选择策略神经网络并根据网络参数的当前值处理包括观察图像的输入，以生成动作选择输出；使用几何预测神经网络处理由动作选择策略神经网络生成的中间输出，以预测当处于当前状态时的环境的几何特征的值；和确定基于特征的实际值和特征的预测值的基于几何的辅助损失的梯度；以及将基于几何的辅助损失的梯度反向传播到动作选择策略神经网络中，以确定对于网络参数的当前值的基于几何的辅助更新。

在一些实施方式中，几何特征的预测值是由观察图像表征的环境的预测深度，并且几何特征的实际值是由观察图像表征的环境的实际深度。在一些实施方式中，辅助损失用于训练系统，但是不需要另外使用几何特征的预测值。

在一些实施方式中，动作选择策略神经网络包括：卷积编码器神经网络，生成输入的编码表示，中间神经网络，处理输入的编码表示以生成中间表示；和输出神经网络，处理中间表示以生成动作选择输出。

在一些实施方式中，中间输出包括编码表示。

在一些实施方式中，中间输出包括中间表示。

在一些实施方式中，该方法还包括：使用回环预测神经网络处理中间表示，回环预测神经网络被配置为生成表示当环境处于当前状态时代理已返回到代理已经访问过的环境中的位置的预测似然性的分数；确定基于环境的当前状态与更早的状态之间的实际相似性和预测似然性的回环辅助损失的梯度；以及将回环辅助损失的梯度反向传播到动作选择策略神经网络中，以确定对于网络参数的当前值的回环辅助更新。

在一些实施方式中，中间神经网络是递归神经网络。

在一些实施方式中，中间神经网络是前馈神经网络。

在一些实施方式中，该方法还包括：使用动作选择输出选择当环境处于当前状态时要由代理执行的动作；接收基于朝着实现一个或多个目标的进展的奖励；至少部分地基于奖励来确定对于网络参数的主更新。

在一些实施方式中，该方法还包括：使用基于几何的辅助更新和主更新来更新网络参数的当前值。

在一些实施方式中，该方法还包括：使用基于几何的辅助更新来更新网络参数的当前值以生成更新的参数值；以及使用动作选择策略神经网络根据更新的参数值选择要由代理执行的动作。

可以实施本说明书中描述的主题的特定实施例，以便实现以下优点中的一个或多个。通过训练几何预测神经网络或回环预测神经网络或两者来执行辅助预测任务，除了训练动作选择策略神经网络以最大化累积奖励之外，本说明书中描述的强化学习系统可以增强在动作选择策略神经网络的训练期间接收到的反馈信号以改进训练。特别地，训练几何预测神经网络或回环预测神经网络调整动作选择策略神经网络参数的值，使它们生成更有用的观察数据的表示并最终确定更有效的策略输出，以最大化累积奖励，甚至当强化学习系统收到的奖励稀疏时(例如，仅很少非零)。例如，训练几何预测神经网络调整动作选择策略神经网络参数的值，以鼓励学习有助于避障和短期轨迹规划的表示。作为另一示例，训练回环预测神经网络调整动作选择策略神经网络参数的值以鼓励环境的有效探索和空间推理。

本说明书中描述的强化学习系统比不包括几何预测神经网络和回环预测神经网络的传统强化学习系统更快地训练动作选择策略神经网络。因此，本说明书中描述的强化学习系统允许在训练中更有效地使用计算资源。此外，本说明书中描述的强化学习系统实现了优于传统强化学习系统的性能，即，允许代理更有效地导航经过环境。

在附图和以下描述中阐述了本说明书的主题的一个或多个实施例的细节。根据说明书、附图和权利要求，本主题的其它特征、方面和优点将变得显而易见。

附图说明

图1示出了示例强化学习系统。

图2是用于通过训练几何预测神经网络来训练动作选择策略神经网络的示例过程的流程图。

图3是用于通过训练回环预测神经网络来训练动作选择策略神经网络的示例过程的流程图。

各个附图中相似的附图标记和名称指示相似的元素。

具体实施方式

图1示出了示例强化学习系统100。强化学习系统100是在实施下面描述的系统、组件和技术的一个或多个位置中的一个或多个计算机上被实施为计算机程序的系统的示例。

强化学习系统100选择要由与环境102交互的代理108在多个时间步(time step)中的每一个时间步执行的动作110。为了使代理108与环境102交互，系统100接收表征环境102的当前状态的观察图像104，并且响应于接收到的观察图像104选择要由代理108执行的动作110。

在一些实施方式中，环境102是模拟环境，并且代理108被实施为导航经过模拟环境与模拟环境交互的一个或多个计算机程序。例如，模拟环境可以是视频游戏，并且代理108可以是导航经过模拟环境来玩视频游戏的模拟用户。作为另一示例，模拟环境可以是运动模拟环境，例如驾驶模拟或飞行模拟，并且代理108是导航经过运动模拟环境的模拟车辆。在这些情况下，动作110可以是控制模拟用户或模拟车辆的控制输入。

在一些其它实施方式中，环境102是真实世界环境，并且代理108是与真实世界环境交互的机械代理。例如，代理108可以是导航经过环境的自主或半自主车辆。在这些情况下，动作110可以是控制机器人或自主车辆的控制输入。

在这些实施方式中的一些实施方式中，观察图像104可以由代理108的传感器生成或从代理108的传感器导出。例如，观察图像104可以是由代理108的相机捕获的RGB图像。作为另一示例，观察图像104可以从从代理108的激光传感器捕获的数据导出。作为另一示例，观察图像可以是由代理108的高光谱传感器捕获的高光谱图像。

在每个时间步，系统100基于环境102的当前状态和时间步处的代理108的动作110接收奖励(reward)106。例如，系统100可以基于朝着代理108实现一个或多个目标的进展来接收对于给定时间步的奖励106。例如，代理的目标可以是导航到环境102中的目标位置。

系统100在每个时间步响应于观察图像104使用动作选择策略神经网络112选择要由代理108执行的动作。具体地，动作选择策略神经网络112被配置为接收包括观察图像104的输入并且根据动作选择策略神经网络的参数集处理该输入以生成策略输出，其中系统100使用该策略输出来确定要由代理108在时间步执行的动作110。在一些实施方式中，动作选择策略神经网络112被配置为接收附加输入，其中该附加输入包括以下中的一个或多个：代理相对横向速度、旋转速度、由代理在先前时间步(即，在当前时间步之前的时间步)执行的动作、或系统在先前时间步接收到的奖励。代理相对横向速度是指代理的自我中心参考系中定义的代理的前向和侧向速度。角速度是指代理绕垂直轴的旋转速度。

在一些实施方式中，策略输出是可能动作集上的概率分布。在一些实施方式中，策略输出可以是Q值，其中Q值是如果代理108响应于观察执行特定动作将接收的长期时间折扣奖励的估计。在一些实施方式中，策略输出可以标识特定的动作，如果该动作由代理响应于观察而执行，则该动作被预测为产生最高的长期折扣奖励。在一些实施方式中，策略输出是先前描述的策略输出的组合。

通常，动作选择策略神经网络112包括卷积编码器神经网络、中间神经网络和输出神经网络，其中卷积编码器神经网络生成输入观察图像104的编码表示，中间神经网络处理输入观察图像的编码表示以生成中间表示，以及输出神经网络处理中间表示以生成策略输出。在一些实施方式中，中间神经网络是前馈神经网络。例如，中间神经网络可以是多层感知器(multi-layer perceptron，MLP)。在一些其它实施方式中，中间神经网络是递归神经网络。在这些实施方式中，中间神经网络可以是长短期存储器(long short-termmemory，LSTM)网络、或LSTM网络的堆栈。LSTM网络的堆栈是多个LSTM网络的有序集合，其中第一LSTM网络处理编码表示，并且每个后续LSTM网络处理先前LSTM网络的输出。在一些实施方式中，LSTM网络的堆栈可以包括在第一LSTM网络之后向LSTM网络提供编码表示的跳过连接(skip connection)。在一些实施方式中，输出神经网络是前馈神经网络。例如，输出神经网络可以是MLP。

在动作选择策略神经网络112被配置为接收观察图像104之外的输入(包括代理相对横向速度和旋转速度、代理在先前时间步执行的动作、以及系统100在先前时间步接收到的奖励)的实施方式中，可以将附加输入作为输入提供给动作选择策略神经网络112的编码器神经网络或中间神经网络。其中附加输入被提供作为中间神经网络的输入，输入观察图像和奖励的编码表示可以被提供给中间神经网络的第一层，并且附加输入可以被提供给中间神经网络的第二层，其中该第二层也具有来自第一层的输出的输入。以这种方式，第一层可以在视觉观察和奖励之间建立关联，该关联被提供给从中计算策略的第二层。

通常，通过使用强化学习技术迭代地调整动作选择策略神经网络的参数集的值，训练引擎118训练动作选择策略神经网络112以生成最大化由系统100接收到的预期累积奖励(例如，系统100接收到的长期时间折扣的奖励总和)的策略输出。强化学习技术的一个示例描述在Volodymyr Mnih等人在2016年第33届机器学习国际会议论文集中发表的“深度强化学习的异步方法(Asynchronous methods for deep reinforcement learning)”中。

除了训练动作选择策略神经网络112以最大化预期累积奖励之外，训练引擎118还可以通过另外训练接收动作选择策略神经网络112的中间输出作为输入的几何预测神经网络114来训练动作选择策略神经网络112。训练几何预测神经网络114调整动作选择策略神经网络112的参数集的值，以使动作选择策略神经网络112生成有助于避障和短期轨迹规划的更有用的观察104的表示，并且使动作选择策略神经网络112确定更有效的策略输出以最大化预期累积奖励，即使很少接收到非零奖励。

几何预测神经网络114在处理给定观察图像时接收动作选择策略神经网络112的中间输出作为输入，并且根据几何预测神经网络的参数集的值处理输入，以生成当前状态下的环境的几何特征的预测值作为输出。在一些实施方式中，当前状态下的环境的几何特征是由给定观察图像表征的环境深度，即与给定观察图像的像素对应的深度值，其中像素的深度值与从捕获给定观察图像的代理传感器到包含该像素的给定观察图像中描绘的表面或对象的距离对应。在一些实施方式中，当前状态下的环境的几何特征是代理108与环境中的已知地标的距离。在一些实施方式中，当前状态下的环境的几何特征是代理108相对于环境中的已知地标的方位(bearing)。在一些实施方式中，当前状态下的环境的几何特征是当前状态下的环境观察图像、预测的环境的未来观察图像、或者先前接收到的环境的过去观察图像的重建。在一些实施方式中，环境的几何特征是先前描述的环境的几何特征的一些组合。在一些实施方式中，几何预测神经网络114是前馈神经网络。例如，几何预测神经网络可以是MLP。

动作选择策略神经网络112的中间输出是响应于将给定观察作为输入进行处理而在动作选择策略神经网络112的一个或多个隐藏层的一个或多个单元处生成的活动集(setof activation)。在一些实施方式中，作为输入提供给几何预测神经网络114的动作选择策略神经网络112的中间输出是由动作选择策略神经网络112的卷积编码器神经网络生成的编码表示。在一些其它实施方式中，作为输入提供给几何预测神经网络114的动作选择策略神经网络112的中间输出是由动作选择策略神经网络112的中间神经网络生成的中间表示。在一些其它实施方式中，系统100包括两个几何预测神经网络，其中一个几何预测神经网络接收由动作选择策略神经网络112的卷积编码器神经网络生成的编码表示作为输入，并且其中另一个几何预测神经网络接收由动作选择策略神经网络112的中间神经网络生成的中间表示作为输入。

训练引擎118训练几何预测神经网络114以生成几何特征的预测值，其中该预测值最小化基于几何特征的实际值的基于几何的辅助损失。具体地，训练引擎118反向传播基于几何的辅助损失的梯度，以调整几何预测神经网络114的参数集的值，并调整动作选择策略神经网络112的参数集中的一些的值，以便最小化基于几何的辅助损失。特别地，训练引擎118调整动作选择策略神经网络的参数，其中该参数对应于(i)系统100提供作为几何预测神经网络的输入的动作选择策略神经网络112的中间输出的一个或多个隐藏层的一个或多个单元，以及(ii)前馈到系统100提供作为几何预测神经网络的输入的动作选择策略神经网络112的中间输出的一个或多个隐藏层的一个或多个单元中的单元。在本说明书中，如果第一单元的输出被直接或间接地提供作为第二单元的输入，则称第一单元前馈到第二单元。参考图2描述通过训练几何预测神经网络114训练动作选择策略神经网络112的示例过程。

除了训练动作选择策略神经网络112以最大化预期累积奖励之外，训练引擎118还可以通过另外训练接收动作选择策略神经网络112的中间输出作为输入的回环预测神经网络116来训练动作选择策略神经网络112。训练回环预测神经网络116调整动作选择策略神经网络112的参数集的值，以使动作选择策略神经网络112生成有助于有效的环境探索和空间推理的更有用的观察的表示，并且使动作选择策略神经网络112确定更有效的策略输出以最大化预期累积奖励，即使奖励稀疏(即，很少接收非零奖励)。

回环预测神经网络116在处理给定观察图像时接收动作选择策略神经网络112的中间输出作为输入，并且根据回环预测神经网络116的参数集的值处理该输入，以生成表示当环境处于当前状态时代理已返回到代理已经访问过的环境中的位置的预测似然性的分数作为输出。在一些实施方式中，仅当代理先前在固定的先前时间步的数量内访问环境中的位置时，才认为代理已返回到代理已经访问过该位置。在一些实施方式中，回环预测神经网络116是前馈神经网络。例如，回环预测神经网络116可以是MLP。

在一些实施方式中，被提供作为回环预测神经网络116的输入的动作选择策略神经网络112的中间输出是由动作选择策略神经网络112的卷积编码器神经网络生成的编码表示。在一些其它实施方式中，被提供作为回环预测神经网络116的输入的动作选择策略神经网络112的中间输出是由动作选择策略神经网络112的中间神经网络生成的中间表示。

训练引擎118训练回环预测神经网络116以生成最小化回环辅助损失的分数，其中该回环辅助损失的分数基于当前状态的位置与更早的环境状态的位置的实际相似性以及当环境处于当前状态时代理已返回到代理已经访问过的环境中的位置的预测似然性。具体地，训练引擎118反向传播回环辅助损失的梯度以调整回环预测神经网络116的参数集的值，并调整动作选择策略神经网络112的参数集中的一些的值，以便最小化回环辅助损失。特别地，训练引擎118调整动作选择策略神经网络的参数，其中该参数对应于(i)系统100提供作为回环预测神经网络116的输入的动作选择策略神经网络112的中间输出的一个或多个隐藏层的一个或多个单元，以及(ii)前馈到系统100提供作为回环预测神经网络116的输入的动作选择策略神经网络112的中间输出的一个或多个隐藏层的一个或多个单元中的单元。参考图3描述了通过训练回环预测神经网络116来训练动作选择策略神经网络112的示例过程。

在一些实施方式中，训练引擎118在线(即，基于接收到的观察和奖励)训练动作选择策略神经网络、几何预测神经网络和回环预测神经网络。例如，在给定时间步，系统100可以基于由动作选择策略神经网络112生成的策略输出选择要由代理108执行的动作，接收奖励106，并且训练引擎118可以通过基于一个或多个强化学习技术的梯度反向传播、基于几何的辅助损失和回环辅助损失来更新系统100的神经网络的参数值。在该示例中，在下一时间步，系统100基于动作选择策略神经网络112根据动作选择策略神经网络112的参数集的更新值生成的策略输出，选择要由代理108执行的动作。在一些实施方式中，训练引擎118从存储在回放存储器中的经验(即，包括对于前一时间步的观察、动作、奖励的元组)训练网络。训练引擎118可以使用在线策略(on-policy)训练或离线策略(off policy)训练或任何其它适当的强化学习技术来训练网络。此外，基于强化学习技术的梯度反向传播、基于几何的辅助损失和回环辅助损失与不同的权重值相关联，这些权重值基于梯度来缩放对网络的参数的调整的大小。

图2是用于通过训练几何预测神经网络来训练动作选择策略神经网络的示例过程200的流程图。为方便起见，过程200将被描述为由包括位于一个或多个位置的一个或多个计算机的训练引擎执行。例如，根据本说明书适当地编程的训练引擎(例如图1的训练引擎118)可以执行过程200。通常，训练引擎在多个时间步中的每一个执行过程200。

系统向动作选择策略神经网络提供包括表征环境的当前状态的观察图像的输入，并且动作选择策略神经网络根据动作选择策略神经网络的参数集的值处理该输入以生成策略输出(步骤202)。在一些实施方式中，观察图像是RGB图像。在一些实施方式中，提供给动作选择策略神经网络的输入可以包括附加输入，诸如代理相对横向速度和旋转速度、代理在先前时间步执行的动作、以及系统在先前时间步接收的奖励。系统在先前时间步接收到的代理相对横向速度和旋转速度以及奖励可以表示为矢量，并且代理在先前时间步执行的动作可以由独热编码矢量(one-hot encoding vector)具体表示。通常，观察图像被提供作为动作选择策略神经网络的卷积编码器神经网络的输入。取决于实施方式，附加输入可以被提供作为动作选择策略神经网络的编码器神经网络或中间神经网络的输入。

系统提供动作选择策略神经网络的中间输出作为几何预测神经网络的输入，其中几何预测神经网络根据几何预测神经网络的参数集的值处理输入以生成在当前状态下环境的几何特征的预测值作为输出(步骤206)。

在一些实施方式中，提供作为几何预测神经网络的输入的动作选择策略神经网络的中间输出是由动作选择策略神经网络的卷积编码器神经网络生成的编码表示。在一些其它实施方式中，提供作为几何预测神经网络的输入的动作选择策略神经网络的中间输出是由动作选择策略神经网络的中间神经网络生成的中间表示。在一些其它实施方式中，系统包括两个几何预测神经网络，其中一个几何预测神经网络接收由动作选择策略神经网络的卷积编码器神经网络生成的编码表示作为输入，并且其中另一个几何预测神经网络接收由动作选择策略神经网络的中间神经网络生成的中间表示作为输入。

在一些实施方式中，当前状态下的环境的几何特征可以是由给定观察图像表征的环境深度。在一些这样的实施方式中，由几何预测神经网络输出的环境的几何特征的值被表示为非负标量值数组，其中数组的每个元素具有与观察图像的对应像素的预测深度值对应的值。在一些其它此类实施方式中，由几何预测神经网络输出的环境的几何特征的值被表示为分类变量的数组，其中每个分类变量表示可能深度值的范围，并且数组的每个元素包含与观察图像的对应像素的深度对应的分类变量。在一些情况下，分类变量统一地细分可能深度值的范围。在一些其它情况下，分类变量对于更低深度值更粗略地细分可能深度值的范围，并且对于更高深度值更精细地细分可能深度值的范围。在这些实施方式中的一些中，数组具有与观察图像相同的维度，并且在一些其它实施方式中，出于计算效率的原因，数组具有比观察图像更小的维度。在一些实施方式中，当前状态下的环境的几何特征是代理与环境中的已知地标的距离。在一些实施方式中，当前状态下的环境的几何特征是代理相对于环境中的已知地标的方位。在一些实施方式中，当前状态下的环境的几何特征是当前状态下的环境观察图像、环境的未来观察图像、或环境的过去观察图像。在一些实施方式中，环境的几何特征是先前描述的环境的几何特征的某种组合。

引擎反向传播基于几何的辅助损失的梯度，以调整几何预测神经网络的参数集的值，并调整动作选择策略神经网络的参数集中的一些的值，以便最小化基于几何的辅助损失(步骤208)。通常，基于几何的辅助损失测量由几何预测神经网络生成的几何特征的预测值与几何特征的实际值之间的差。如果几何特征的预测值具有表示对于观察的相应像素的预测深度值的非负标量值数组的形式，则基于几何的辅助损失可以是预测深度值和实际深度值之间的均方误差损失。如果几何特征的预测值具有表示对于观察的相应像素的预测深度值的分类变量数组的形式，则基于几何的辅助损失可以是每个分类变量的交叉熵(cross-entropy)损失函数的总和。

图3是用于通过训练回环预测神经网络来训练动作选择策略神经网络的示例过程300的流程图。为方便起见，过程300将被描述为由包括位于一个或多个位置的一个或多个计算机的训练引擎执行。例如，根据本说明书适当编程的训练引擎(例如图1的训练引擎118)可以执行过程300。通常，训练引擎在多个时间步中的每一个执行过程300。

类似于步骤202，系统向动作选择策略神经网络提供包括表征环境的当前状态的观察图像的输入，并且在一些情况下提供一个或多个附加输入，并且动作选择策略神经网络处理输入以生成策略输出(步骤302)。

系统提供动作选择策略神经网络的中间输出作为回环预测神经网络的输入，其中回环预测神经网络根据回环预测神经网络的参数集的值处理该输入以生成表示当环境处于当前状态时代理已返回到代理已经访问过的环境中的位置的预测似然性的分数作为输出(步骤306)。在一些实施方式中，仅当代理先前在固定的先前时间步的数量内访问该位置时，才认为代理已返回到代理已经访问过的环境中的位置。

在一些实施方式中，提供作为回环预测神经网络的输入的动作选择策略神经网络的中间输出是由动作选择策略神经网络的卷积编码器神经网络生成的编码表示。在一些其它实施方式中，提供作为回环预测神经网络的输入的动作选择策略神经网络的中间输出是由动作选择策略神经网络的中间神经网络生成的中间表示。

引擎反向传播回环辅助损失的梯度，以调整回环预测神经网络的参数集的值，并调整动作选择策略神经网络的参数集中的一些的值，以便最小化回环辅助损失(步骤308)。通常，回环辅助损失基于环境的当前状态与更早状态的实际相似性以及由回环预测神经网络生成的代理已返回到代理已经访问过的环境中的位置的预测似然性。然而，附加地或可替代地，可以通过对代理相对横向速度积分来确定代理是否已经返回到先前访问过的类似位置，从而获得位置相似性的测量。在一些实施方式中，回环辅助损失是由回环预测神经网络生成的预测似然性与二进制标签之间的伯努利(Bernoulli)损失。在这些实施方式中，如果在当前时间步的代理位置位于特定先前时间步的代理位置的第一阈值距离内并且如果代理位置在特定时间步和当前时间步之间的任何时间步偏离代理的当前位置至少第二阈值距离，则二进制标签具有值1，否则二进制标签具有值0。二进制标签的值取决于第二阈值，以避免将标签值1分配给连续时间步之间的不重要的(trivial)回环。因此，在一些实施方式中，回环预测包括代理在返回到位置之前经过距离该位置大于第二阈值距离的位置的条件。

在一些实施方式中，当训练系统时，来自回环损失的梯度可以与来自几何预测的梯度以加权和的方式组合。权重可以是系统的超参数。

本说明书结合系统和计算机程序组件使用术语“配置”。对于要配置为执行特定操作或动作的一个或多个计算机的系统，意味着系统已在其上安装了在操作时使系统执行操作或动作的软件、固件、硬件或它们的组合。对于要被配置为执行特定操作或动作的一个或多个计算机程序，意味着一个或多个程序包括当由数据处理装置执行时使装置执行操作或动作的指令。

本说明书中描述的主题和功能操作的实施例可以被实施在包括本说明书中公开的结构及其结构等同物的数字电子电路、有形体现的计算机软件或固件、计算机硬件、或者它们中的一个或多个的组合中。本说明书中描述的主题的实施例可以被实施为用于由数据处理装置执行或控制数据处理装置的操作的一个或多个计算机程序，即，在有形非暂时性存储介质上编码的一个或多个计算机程序指令模块。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。可替代地或另外地，程序指令可以在人工生成的传播信号(例如，机器生成的电、光或电磁信号)上编码，该传播信号被生成以编码信息以便传输到合适的接收器设备由数据处理装置执行。

术语“数据处理装置”是指数据处理硬件并且包括用于处理数据的所有类型的装置、设备和机器，包括例如可编程处理器、计算机或多个处理器或计算机。该装置还可以或者进一步包括专用逻辑电路，例如，FPGA(field programmable gate array，现场可编程门阵列)或ASIC(application specific integrated circuit，专用集成电路)。除了硬件之外，该装置还可以包括为计算机程序创建执行环境的代码，例如，构成处理器固件的代码、协议栈、数据库管理系统、操作系统、或者它们中的一个或多个的组合。

计算机程序也可以被称为或描述为程序、软件、软件应用、应用(app)、模块、软件模块、脚本或代码，可以用包括编译或解释语言、或声明或程序语言的任何形式的编程语言编写；并且它可以以包括作为独立程序或作为模块、组件、子程序或适用于计算环境的其它单元的任何形式部署。程序可以但不必对应于文件系统中的文件。程序可以存储在保存其它程序或数据的文件的一部分(例如，存储在标记语言文档中的一个或多个脚本)中，存储在专用于所讨论的程序的单个文件中，或者存储在多个协调文件中(例如，存储一个或多个模块、子程序或代码部分的文件)。可以部署计算机程序以在一个计算机上或在位于一个站点上或分布在多个站点上并通过数据通信网络互连的多个计算机上执行。

在本说明书中，术语“引擎”广泛用于指代被编程为执行一个或多个特定功能的基于软件的系统、子系统或过程。通常，引擎将被实施为安装在一个或多个位置中的一个或多个计算机上的一个或多个软件模块或组件。在一些情况下，一个或多个计算机将专用于特定的引擎；在其它情况下，多个引擎可以安装和运行在同一计算机或多个计算机上。

本说明书中描述的过程和逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路(例如FPGA或ASIC)或专用逻辑电路和一个或多个编程计算机的组合来执行。

适合于执行计算机程序的计算机可以基于通用或专用微处理器或两者、或者任何其它类型的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行或运行指令的中央处理单元和用于存储指令和数据的一个或多个存储器设备。中央处理单元和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。通常，计算机还将包括或可操作地耦合以从用于存储数据的一个或多个大容量存储设备(例如磁盘、磁光盘或光盘)接收数据或将数据传输到一个或多个大容量存储设备。但是，计算机不需要这样的设备。此外，计算机可以嵌入在另一个设备(例如，移动电话、个人数字助理(personal digital assistant，PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(Global Positioning System，GPS)接收器或便携式存储设备(例如，通用串行总线(universal serial bus，USB)闪存驱动器)，仅举几例)中。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，包括例如半导体存储器设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动磁盘；磁光盘；以及CD ROM和DVD-ROM磁盘。

为了提供与用户的交互，本说明书中描述的主题的实施例可以在具有用于向用户显示信息的显示设备(例如，CRT(cathode ray tube，阴极射线管)或LCD(liquid crystaldisplay，液晶显示器)监视器)、以及用户可通过其向计算机提供输入的键盘和指示设备(例如，鼠标或轨迹球)的计算机上实施。其它类型的设备也可用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以以包括声音、语音或触觉输入的任何形式接收来自用户的输入。另外，计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互；例如，通过响应于从网络(web)浏览器接收的请求将网页发送到用户设备上的web浏览器。此外，计算机可以通过向个人设备(例如，运行消息传递应用的智能电话)发送文本消息或其它形式的消息并且作为回报从用户接收响应消息来与用户交互。

用于实施机器学习模型的数据处理装置还可以包括例如专用硬件加速器单元以用于处理机器学习训练或生产的公共和计算密集部分(即推断、工作负载)。

可以使用机器学习框架(例如，TensorFlow框架、Microsoft Cognitive Toolkit框架、Apache Singa框架或Apache MXNet框架)来实施和部署机器学习模型。

本说明书中描述的主题的实施例可以被实施在包括后端组件(例如，作为数据服务器)的计算系统、或者包括中间件组件(例如，应用服务器)的计算系统、或者包括前端组件(例如，具有用户可以通过其与本说明书中描述的主题的实施方式进行交互的图形用户界面、网络浏览器或应用程序的客户端计算机)的计算系统、或者一个或多个这样的后端、中间件或前端组件的任何组合中。系统的组件可以通过任何形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(local area network，LAN)和广域网(wide area network，WAN)(例如，因特网)。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离，并且典型地通过通信网络进行交互。客户端和服务器的关系借助于在各个计算机上运行并且彼此具有客户端-服务器关系的计算机程序而生成。在一些实施例中，服务器将数据(例如，HTML页面)发送到用户设备，例如，用于向与作为客户端的设备交互的用户显示数据和从用户接收用户输入的目的。可以在服务器处从设备接收在用户设备处生成的数据，例如，用户交互的结果。

虽然本说明书包含许多具体的实施细节，但是这些不应被解释为对任何发明的范围或可能要求保护的范围的限制，而是作为特定于特定实施例的特征的描述。在单独实施例的上下文中在本说明书中描述的某些特征也可以在单个实施例中组合实施。相反，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合在多个实施例中实施。此外，尽管上面的特征可以描述为以某些组合起作用并且甚至最初如此要求保护，但是在某些情况下可以从组合中切除来自要求保护的组合的一个或多个特征，并且要求保护的组合可以针对子组合或子组合的变化。

类似地，虽然在附图中描绘了操作并且以特定顺序在权利要求中记载了操作，但是这不应该被理解为要求以所示的特定顺序或按顺序执行这些操作，或者要求所有示出的操作被执行以达到期望的效果。在某些情况下，多任务处理和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中都需要这种分离，并且应当理解，所描述的程序组件和系统通常可以集成在单个软件产品中或打包成多个软件产品。

已经描述了主题的特定实施例。其它实施例在以下权利要求的范围内。例如，权利要求中记载的动作可以以不同的顺序执行并且仍然实现期望的结果。作为一个示例，附图中描绘的过程不一定需要所示的特定顺序或连续顺序来实现期望的结果。在某些情况下，多任务处理和并行处理可能是有利的。

Claims

1.一种训练动作选择神经网络的计算机实现的方法，所述动作选择神经网络具有多个网络参数以用于选择要由导航经过环境以实现一个或多个目标的代理执行的动作，所述方法包括：

接收表征环境的当前状态的观察；

使用所述动作选择神经网络并根据所述网络参数的当前值，处理包括所述观察的输入以生成动作选择输出以用于控制代理执行动作；

使用回环预测神经网络处理由所述动作选择神经网络生成的中间输出以预测表征当环境处于当前状态时，代理是否已经返回到代理已经访问过的环境中的位置的回环特征的值；

确定回环特征的实际值；以及

基于回环特征的预测值与回环特征的实际值之间的误差来确定动作选择神经网络的网络参数的当前值的基于回环的辅助更新，包括：

确定基于回环特征的预测值和回环特征的实际值之间的误差的基于回环的辅助损失的梯度；以及

将所述基于回环的辅助损失的梯度反向传播到所述动作选择神经网络中，以确定对于所述网络参数的当前值的基于回环的辅助更新。

2.根据权利要求1所述的方法，其中，确定所述回环特征的实际值包括：

确定代理在当前时间步在环境中的当前位置是否在所述代理在特定先前时间步在环境中的特定先前位置的第一阈值距离内；以及

确定代理在环境中的位置是否在特定先前时间步和当前时间步之间的时间步偏离所述代理的当前位置至少第二阈值距离。

3.根据权利要求1所述的方法，其中，所述动作选择神经网络包括：

卷积编码器神经网络，生成输入的编码表示，

中间神经网络，处理输入的编码表示以生成中间表示，以及

输出神经网络，处理中间表示以生成动作选择输出。

4.根据权利要求3所述的方法，其中，中间输出包括编码表示。

5.根据权利要求3所述的方法，其中，中间输出包括中间表示。

6.根据权利要求3所述的方法，其中，中间神经网络包括递归神经网络。

7.根据权利要求3所述的方法，其中，中间神经网络包括前馈神经网络。

8.根据权利要求1所述的方法，进一步包括：

使用动作选择输出来选择当环境处于当前状态时要由代理执行的动作；

接收基于朝着实现一个或多个目标的进展的奖励；以及

至少部分基于所述奖励来确定动作选择神经网络的网络参数的当前值的主更新。

9.根据权利要求8所述的方法，进一步包括：

使用基于回环的辅助更新和主更新来更新动作选择神经网络的网络参数的当前值。

10.根据权利要求1所述的方法，进一步包括：

使用基于回环的辅助更新来更新动作选择神经网络的网络参数的当前值，以生成更新的参数值；以及

使用动作选择神经网络根据更新的参数值来选择要由代理执行的动作。

11.一种系统，包括：

一个或多个计算机；以及

一个或多个存储设备，通信地耦合到一个或多个计算机，其中所述一个或多个存储设备存储指令，当由一个或多个计算机执行时，所述指令使一个或多个计算机执行用于训练动作选择神经网络的操作，所述动作选择神经网络具有多个网络参数以用于选择要由导航经过环境以实现一个或多个目标的代理执行的动作，所述操作包括：

接收表征环境当前状态的观察值；

确定回环特征的实际值；以及

12.根据权利要求11所述的系统，其中，确定所述回环特征的实际值包括：

13.根据权利要求11所述的系统，其中，所述动作选择神经网络包括：

卷积编码器神经网络，生成输入的编码表示，

中间神经网络，处理输入的编码表示以生成中间表示，以及

输出神经网络，处理中间表示以生成动作选择输出。

14.根据权利要求13所述的系统，其中，中间输出包括编码表示。

15.根据权利要求13所述的系统，其中，中间输出包括中间表示。

16.根据权利要求13所述的系统，其中，中间神经网络包括递归神经网络。

17.一种或多种存储指令的非暂时性计算机存储介质，当由一个或多个计算机执行时，所述指令使一个或多个计算机执行用于训练动作选择神经网络的操作，所述动作选择神经网络具有多个网络参数以用于选择要由导航经过环境以实现一个或多个目标的代理执行的动作，所述操作包括：

接收表征环境的当前状态的观察；

确定回环特征的实际值；以及

将所述基于回环的辅助损失的梯度反向传播到所述动作选择神经网络中，以确定对于所述网络参数的当前值的基于回环的辅助更新。。

18.根据权利要求17所述的非暂时性计算机存储介质，其中，确定所述回环特征的实际值包括：

19.根据权利要求17所述的非暂时性计算机存储介质，其中，所述动作选择神经网络包括：

卷积编码器神经网络，生成输入的编码表示，

中间神经网络，处理输入的编码表示以生成中间表示，以及

输出神经网络，处理中间表示以生成动作选择输出。

20.根据权利要求19所述的非暂时性计算机存储介质，其中，中间输出包括编码表示。