CN115151916A

CN115151916A - 在实验室环境中训练演员-评论家算法

Info

Publication number: CN115151916A
Application number: CN202180016801.5A
Authority: CN
Inventors: P·坎德尔瓦尔; J·麦克哥拉山; P·沃尔曼
Original assignee: Sony Group Corp; Optical Archive Inc
Current assignee: Sony Group Corp; Sony Optical Archive Inc
Priority date: 2020-08-26
Filing date: 2021-05-05
Publication date: 2022-10-04
Also published as: JP2023539183A; EP4176386A4; EP4176386A1; WO2022046197A1; US20220067504A1

Abstract

强化学习方法可以使用演员‑评论家网络，其中(1)附加的仅限实验室的状态信息用于训练在生产场合中没有这种附加的仅限实验室的信息的情况下采取很多行动的策略；并且(2)复杂的资源需求策略被提炼成可以更容易地在生产时以有限的计算资源运行的要求不高的策略。生产演员网络可以使用先前用大型演员网络进行训练的大型评论家网络的冻结版本来优化。这些方法的各方面可以利用其中评论家网络对动作值函数而不是状态值函数进行建模的演员‑评论家方法。

Description

在实验室环境中训练演员-评论家算法

技术领域

本发明的实施例一般而言涉及强化学习方法。更具体而言，本发明涉及用于在训练演员-评论家(actor-critic)模型时提高演员网络的性能的系统和方法。

背景技术

以下背景信息可能呈现现有技术的特定方面的示例(例如但不限于方案、事实或常识)，这些示例可望有助于进一步教育读者了解现有技术的其他方面，不应被解释为将本发明或其任何实施例限制为在其中陈述或暗示或据此推断的任何内容。

强化学习(RL)描述了一类问题(和解决方案)，其中，当系统动力学未知且必须由人工代理通过交互和观察来学习时，人工代理优化其对系统(或“环境”)的控制。通常，RL问题和解决方案考虑在代理的单个连续生命周期中执行学习和优化。但是，由于学习代理的初始性能将是差的，并且在行业环境中通常不安全，因此RL的行业应用受益于将RL分成两个阶段：(1)在安全实验室中发生的学习阶段，以及(2)生产阶段，其中部署了实验室学习的控制器或“策略”而无需任何后续学习。

考虑到前述，需要一种更好地使用这两个阶段来改进强化学习的系统和方法，尤其是在计算资源有限的代理中。

发明内容

本发明的实施例提供了一种训练代理的方法，包括通过使用在实验室场合和生产场合两者中可用的状态信息来使用演员网络和评论家网络训练策略，其中在实验室场合中可用的状态信息多于在生产场合中可用的状态信息；使用演员网络优化评论家网络；以及在生产场合中为代理提供生产演员网络。

在一些实施例中，评论家网络是基于动作值函数来训练的。

在一些实施例中，当训练完成时，该方法还包括将评论家网络复制为冻结的评论家网络，并使用冻结的评论家网络优化生产演员网络。

在一些实施例中，第一演员-评论家算法在评论家网络的训练期间运行，以及第二演员-评论家算法在使用冻结的评论家网络优化生产演员网络的步骤期间运行。在一些实施例中，第一演员-评论家算法与第二演员-评论家算法相同。

本发明的实施例还提供了一种训练代理的方法，包括使用演员网络和评论家网络来训练策略；使用演员网络优化评论家网络；在生产场合中为代理提供生产演员网络；当训练完成时，将评论家网络复制为冻结的评论家网络；以及使用冻结的评论家网络优化生产演员网络，其中生产演员网络小于演员网络。

本发明的实施例还提供了一种具有存储在其上的可执行程序的非暂态计算机可读存储介质，其中该程序指示一个或多个处理器执行以下步骤：通过使用在实验室场合和生产场合两者中可用的状态信息来使用演员网络和评论家网络训练策略，其中在实验室场合中可用的状态信息多于在生产场合中可用的状态信息；使用演员网络优化评论家网络；以及在生产场合中为代理提供生产演员网络。

参考以下附图、描述和权利要求书，将更好地理解本发明的这些和其他特征、方面和优点。

附图说明

本发明的一些实施例被说明为示例，并且不受附图的各图限制，在附图中，相同的附图标记可以指示相似的元素。

图1图示了强化学习的演员-评论家模型的示意图；

图2图示了如何使用实验室场合和生产场合两者中可用的状态信息训练评论家网络，而使用生产场合中可用的状态信息训练演员网络的示意图；

图3图示了使用演员-评论家方法优化大型演员网络并且然后直接从大型演员网络中提炼生产就绪的演员的常规过程；

图4图示了根据本发明的示例性实施例的过程，其中演员-评论家算法运行两次，第一次使用大型演员网络来帮助优化评论家网络，然后通过重新使用优化的评论家网络的冻结副本来优化生产就绪的演员网络。

除非另外指示，否则各图中的图示不一定按比例绘制。

现在，通过转向其中描述了图示的实施例的以下具体实施方式，可以更好地理解本发明及其各种实施例。应当清楚地理解，所图示的实施例仅是作为示例阐述的，而不是对权利要求书中最终定义的本发明的限制。

具体实施方式

本文所使用的术语仅出于描述特定实施例的目的，并不旨在限制本发明。如本文所使用的，术语“和/或”包括一个或多个相关联的列出的项目的任何和所有组合。如本文所使用的，单数形式“一”、“一个”和“该”旨在包括复数形式以及单数形式，除非上下文另外明确指出。还将理解的是，当在本说明书中使用术语“包括”和/或“包含”时，其指定了所述特征、步骤、操作、元素和/或组件的存在，但不排除一个或多个其他特征、步骤、操作、元素、组件和/或其组的存在或添加。

除非另有定义，否则本文中使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域的普通技术人员通常所理解的相同含义。还将理解的是，诸如在常用字典中定义的术语应被解释为具有与它们在相关领域和本公开的上下文中的含义一致的含义，并且将不被解释为理想化或过度形式化的意义，除非本文如此明确定义。

在描述本发明时，将理解，公开了许多技术和步骤。这些技术和步骤中的每一个都有各自的益处，并且各自也可以与一种或多种、或者在一些情况下、全部其他所公开的技术结合使用。因此，为了清楚起见，该描述将避免以不必要的方式重复各个步骤的每种可能的组合。但是，应当在理解这样的组合完全在本发明和权利要求书的范围之内的情况下阅读本说明书和权利要求书。

在下面的描述中，出于解释的目的，阐述了许多具体细节以提供对本发明的透彻理解。然而，对于本领域技术人员将清楚的是，可以在没有这些具体细节的情况下实践本发明。

本公开被认为是本发明的例示，并不旨在将本发明限制在以下附图或描述所说明的具体实施例。

至少一般相互通信的设备或系统模块不需要相互连续通信，除非另有明确规定。此外，至少一般相互通信的设备或系统模块可以通过一个或多个中介直接或间接通信。

对具有相互通信的几个组件的实施例的描述并不意味着需要所有这些组件。相反，描述了多种可选组件以说明本发明的多种可能的实施例。

“计算机”或“计算设备”可以指一种或多种装置和/或一种或多种系统，其能够接受结构化输入，根据规定的规则处理该结构化输入，并且产生处理结果作为输出。计算机或计算设备的示例可以包括：计算机；固定和/或便携式计算机；具有单个处理器、多个处理器或可以并行和/或不并行操作的多核处理器的计算机；超级计算机；大型机；超级微型计算机；小型计算机；工作站；微型计算机；服务器；客户端；交互式电视；web电器；具有互联网访问的电信设备；计算机和交互式电视的混合组合；便携式计算机；平板个人计算机(PC)；个人数字助理(PDA)；便携式电话；用于仿真计算机和/或软件的专用硬件，诸如，例如，数字信号处理器(DSP)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用指令集处理器(ASIP)、一个芯片、多个芯片、片上系统或芯片集；数据采集设备；光学计算机；量子计算机；生物特征计算机；以及通常可以接受数据、根据一个或多个存储的软件程序处理数据、生成结果并且通常包括输入、输出、存储、算术、逻辑和控制单元的装置。

“软件”或“应用”可以指用于操作计算机的规定的规则。软件或应用的示例可以包括一种或多种计算机可读语言的代码段；图形和/或文字指令；小程序(applet)；预编译代码；解释代码；编译代码；以及计算机程序。

这些计算机程序指令还可以存储在计算机可读介质中，其可以指导计算机、其他可编程数据处理装置或其他设备以特定方式运行，使得存储在计算机可读介质中的指令产生制品，其包括实现流程图和/或框图的一个或多个框中指定的功能/动作的指令。

另外，虽然处理步骤、方法步骤、算法等可能是按连续顺序描述的，但是这样的处理、方法和算法可以被配置为以替代顺序工作。换句话说，可能描述的步骤的任何序列或顺序不一定指示要求以该顺序执行步骤。本文描述的处理的步骤可以以任何实际顺序执行。此外，可以同时执行一些步骤。

将清楚的是，本文描述的各种方法和算法例如可以由适当编程的通用计算机和计算设备来实现。通常，处理器(例如，微处理器)将从存储器或类似设备接收指令并且执行那些指令，从而执行由那些指令定义的处理。此外，可以使用多种已知介质来存储和发送实现这些方法和算法的程序。

如本文所使用的术语“计算机可读介质”是指参与提供可以由计算机、处理器或类似设备读取的数据(例如，指令)的任何介质。这样的介质可以采取许多形式，包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质例如包括光盘或磁盘以及其他持久性存储器。易失性介质包括通常构成主存储器的动态随机存取存储器(DRAM)。传输介质包括同轴线缆、铜线和光纤，包括构成耦合到处理器的系统总线的线。传输介质可以包括或传送声波、光波和电磁辐射，诸如在射频(RF)和红外(IR)数据通信期间生成的声波、光波和电磁辐射。计算机可读介质的常见形式例如包括软盘、柔性盘、硬盘、磁带、任何其他磁介质、CD-ROM、DVD、任何其他光学介质、打孔卡、纸带、任何其他具有孔图案的物理介质、RAM、PROM、EPROM、FLASHEEPROM或任何其他存储器芯片或卡盒、如下文描述的载波、或者计算机可以从其读取的任何其他介质。

各种形式的计算机可读介质可以涉及将指令序列携带到处理器。例如，指令序列(i)可以从RAM传送到处理器，(ii)可以在无线传输介质上携带，和/或(iii)可以根据诸如蓝牙、TDMA、CDMA、3G之类的多种格式、标准或协议来格式化。

本发明的实施例可以包括用于执行本文公开的操作的装置。可以为期望的目的而专门构造装置，或者该装置可以包括由存储在设备中的程序选择性地激活或重新配置的通用设备。

除非另有特别说明，并且如可以从以下描述和权利要求书中清楚的，应该认识到的是，在整个说明书描述中，利用诸如“处理”、“计算”、“运算”、“确定”等的术语指代计算机或计算系统或类似电子计算设备的动作和/或处理，这些动作和/或处理将表示为计算系统的寄存器和/或存储器内的物理(诸如，电子)量的数据操纵和/或变换成类似地表示为计算系统的存储器、寄存器或其他此类信息存储、传输或显示设备内的物理量的其他数据。

以类似的方式，术语“处理器”可以指处理来自寄存器和/或存储器的电子数据以将该电子数据变换成可以存储在寄存器和/或存储器中或者可以被传送到外部设备以引起外部设备的物理变化或致动的其他电子数据的任何设备或设备的一部分。

术语“代理”或“智能代理”或“人工代理”或“人工智能代理”是指响应于观察而选择动作的任何人造实体。“代理”可以指代但不限于机器人、模拟机器人、软件代理或“网上机器人(bot)”、自适应代理、互联网或web网上机器人。

术语“机器人”可以指由计算机或计算系统直接或间接控制的、响应于感觉或观察而发出动作或命令的任何系统。该术语可以指代但不限于具有物理传感器(诸如相机、触摸传感器、距离传感器等)的传统物理机器人、或者存在于虚拟模拟中的模拟机器人、或者作为软件存在于网络中的诸如邮件机器人或搜索机器人的“网上机器人”。它可以但不限于指代任何肢体机器人、步行机器人、工业机器人(包括但不限于用于自动化组装、喷漆、维修、维护等的机器人)、轮式机器人、吸尘或割草机器人、个人助理机器人、服务机器人、医疗或外科手术机器人、飞行机器人、驾驶机器人、飞机或航天器机器人、或者在实质上自主控制下可操作的任何其他机器人、车辆或其他方式的真实的或模拟的机器人，也包括固定机器人，诸如智能家居或工作场所电器。

术语“观察”或“多个观察”是指代理通过任何手段接收到的关于代理的环境或其自身的任何信息。在一些实施例中，该信息可以是通过传感设备(诸如但不限于相机、触摸传感器、范围传感器、温度传感器、波长传感器、声音或语音传感器、位置传感器、压力或力传感器、速度或加速度或其他运动传感器、位置传感器(例如，GPS)等)接收的传感信息或信号。在其他实施例中，该信息还可以包括但不限于从与存储的信息组合的传感设备的集合编译的经编译的、抽象的或情况信息。在非限制性示例中，代理可以接收与其自身或其他对象的地点或特性相关的抽象信息作为观察。在一些实施例中，该信息可以是指人或顾客或者他们的特性，诸如购买习惯、个人联系信息、个人偏好等。在一些实施例中，观察可以是关于代理的内部部分的信息，诸如但不限于本体信息或与代理的当前或过去的动作相关的其他信息、关于代理的内部状态的信息或者已由代理计算或处理的信息。

术语“动作”是指代理的用于控制、作用于或影响代理的环境、代理的物理或模拟自我或者代理的内部功能的任何部件，其最终可以控制或影响代理的未来动作、动作选择或动作偏好。在许多实施例中，动作可以直接控制物理或模拟的伺服或致动器。在一些实施例中，动作可以是最终意图影响代理的选择的偏好或一组偏好的表达。在一些实施例中，关于代理的(一个或多个)动作的信息可以包括但不限于在代理的(一个或多个)动作上的概率分布，和/或意图影响代理的最终动作选择的输出信息。

术语“状态”或“状态信息”是指与环境或代理的状态相关的信息的任何集合，其可以包括但不限于关于代理的当前和/或过去的观察的信息。

术语“策略”是指从任何完整或部分状态信息到任何动作信息的任何函数或映射。策略可以是硬编码的，或者可以用任何适当的学习或教学方法(包括但不限于任何强化学习方法或控制优化方法)进行修改、调整或训练。策略可以是显式映射，或者可以是隐式映射，诸如但不限于可以是由于优化特定度量、值或函数而产生的映射。策略可以包括相关联的附加信息、特征或特性，诸如但不限于反映该策略可以在什么条件下开始或继续的起始条件(或概率)、反映策略可以在什么条件下终止的终止条件(或概率)。

广义地说，本发明的实施例提供了使用演员-评论家网络的强化学习方法，其中(1)附加的仅限实验室的状态信息用于训练在生产场合中没有这种附加的仅限实验室的信息的情况下采取很多行动的策略；并且(2)复杂的资源需求策略被提炼成可以更容易地在生产时以有限的计算资源运行的要求不高的策略。这些方法的各方面可以利用其中评论家网络对动作值函数而不是状态值函数进行建模的演员-评论家方法。

RL问题通常被限定为马尔可夫(Markov)决策过程(MDP)。MDP可以被表达为M＝<S，A，P，R>其中：

S表示环境的状态空间。给定状态s_t∈S完全描述了时间t之前的环境中的情况；

A是系统可以采取的动作集合；

P是给出从给定状态-动作对到达特定下一个状态的转移概率的转移函数；以及

R是奖励函数R(s_t，a_t，s_t+1))，它定义了当从状态s_t∈S采取动作a_t∈A并且环境从状态s转移到新状态s_t+1∈S时收到的奖励。

RL算法的目标是找到策略π(s)，即从状态到动作的映射，当代理遵循它时，它将随着时间的推移最大化累积奖励。在实践中，代理可能只能部分观察当前的MDP状态。在这种情况下，代理必须找到策略π(o)，它是从观察到将最大化累积奖励的动作的映射。

在RL场合中，代理无法直接访问转移函数。而是，代理可以与环境交互(选择动作)并观察结果(状态和奖励)。根据这些观察，代理可以记录数据集并使用该数据集来学习策略。

RL算法中经常估计的两个函数是状态值函数V^π(s)和动作值函数Q^π(s，a)。状态值函数V^π(s)是当从状态s遵循策略π时的预期累积未来奖励。动作值函数Q^π(s，a)是当动作a首先从状态s执行，然后此后从结果所得的状态遵循策略π时的预期累积未来奖励。

深度演员-评论家RL算法是可以用于学习策略的一系列算法，并且通常利用以下两个不同的深度神经网络。演员网络表示MDP定义中描述的策略网络π(o)并且负责选择控制动作。一旦训练完成，在评估或测试期间只需要这个网络来计算动作。评论家网络预测演员采取的动作的长期奖励。取决于算法，评论家网络将直接估计演员网络定义的策略的状态值函数或动作值函数。通过针对该评论家网络优化其动作选择来改进演员。图1图示了演员网络10和评论家网络12之间的示例性交互的简化版本。这里，评论家网络12为策略16生成值函数14，诸如动作值函数。该函数可以生成错误，诸如用于改进演员和评论家网络10、12的时间差(TD)错误。

本发明的实施例提供了针对满足以下约束的一类问题来提高演员网络的性能的方法。(1)训练可以通过在更多状态信息和计算资源可用的实验室场合中收集的数据来完成。例如，无人驾驶汽车在实验室中可以具有比一旦在生产中在路上更多/改进的传感器。(2)在现场和实验室外进行训练是不必要的，从而允许在实验室中对策略进行训练，然后将其部署到生产中。

满足这两个约束的问题可以被定义为实验室RL问题。如本文所述，本发明的示例性方法涉及实验室RL问题并利用演员-评论家强化学习。特别地，本发明的实施例可以利用演员-评论家方法，其中评论家网络对动作值函数(而不是状态值函数)进行建模。

为了有效优化演员网络，评论家网络应该准确地估计动作值函数。但是，在不区分实验室训练和生产执行的典型RL系统中，评论家网络仅使用生产时将可用的观察进行训练。因此，评论家可能会产生对动作值函数的不太准确的估计，并导致对演员的训练更差。

参考图2，因为在生产中不需要评论家20，也称为评论家网络20，因此本发明的实施例可以使用在实验室和生产两者中可用的所有状态信息(分别为实验室状态信息24和生产状态信息26)来训练评论家20，而演员22仅使用提供生产时可用的观察的生产状态信息26进行训练。提供给每个网络的信息的这种差异确保了演员网络22将使用生产期间可用的信息尽可能地表现，而不限制优化过程。

鉴于生产场合中的计算和存储器约束，可能只能在生产设备上运行特定大小的演员网络。由于仅在训练期间需要评论家网络，因此评论家网络的大小不取决于生产约束。同时，与最终需要表示最终策略的网络相比，优化通常更适用于更大的演员网络。

根据本发明的实施例，代理的实验室训练可以使用允许有效优化的大型演员网络和大型评论家网络两者来执行。然后，可以从最终的、冻结的评论家网络中使用一种提炼形式来创建可以在生产的计算限制内运行的演员网络，如下面所讨论的。

如图3中所示，典型的提炼方法旨在使用L2损失范式(loss norm)等使小型(生产)演员网络30的输出接近大型演员网络32的输出，大型演员网络32最初是使用大型评论家网络34进行训练的。但是，使用这种常规方法，策略输出中的小错误可能导致累积未来奖励中的大错误。

在本发明的各方面中，如图4中所示，在训练阶段一中，大型评论家网络40和大型演员网络42可以在训练代理时通过演员-评论家算法进行优化。然后，通过让小型演员网络44优化预先训练的评论家网络46的冻结版本，可以将大型演员网络42提炼成适合用作生产中的演员网络的小型演员网络44。这个过程可以快速执行，因为它不需要与实验室中的环境进行任何进一步的交互。

本领域普通技术人员可以在不脱离本发明的精神和范围的情况下做出许多改变和修改。因此，必须理解的是，所说明的实施例是仅出于示例的目的而阐述的，并且不应将它们视为对所附权利要求书所限定的本发明的限制。例如，虽然以下以某种组合阐述了权利要求的元素这一事实，但是必须明确地理解，本发明包括所公开的元素的更少、更多或不同的其他组合。

本说明书中用来描述本发明及其各种实施例的词语不仅应从其通常定义的意义上理解，而且应通过特殊定义在本说明书中包括它们所表示的单一种类的一般结构、材料或动作。

因此，所附权利要求书的词语或元素的定义在本说明书中被定义为不仅包括从字面上阐述的元素的组合。因此，从这个意义上考虑，可以对下面的权利要求书中的任何一个元素进行两个或更多元素的等效替换，或者可以将权利要求中的两个或更多元素替换为单个元素。虽然以上可能将元素描述为以某些组合起作用并且甚至最初是如此要求保护的，但是应当明确地理解，在一些情况下，可以从该组合中切除来自所要求保护的组合的一个或多个元素，并且可以将所要求保护的组合指示为子组合或子组合的变体。

因此，权利要求书应该被理解为包括上面具体示出和描述的内容、概念上等同的内容、可以明显替代的内容以及还有结合了本发明的基本思想的内容。

Claims

1.一种训练代理的方法，包括：

通过使用在实验室场合和生产场合两者中可用的状态信息来使用演员网络和评论家网络训练策略，其中在实验室场合中可用的状态信息多于在生产场合中可用的状态信息；

使用演员网络优化评论家网络；以及

在生产场合中为代理提供生产演员网络。

2.如权利要求1所述的方法，其中生产演员网络与演员网络相同。

3.如权利要求1所述的方法，其中实验室场合中的状态信息包括来自在生产场合中不可用的传感器的信息。

4.如权利要求1所述的方法，其中评论家网络是基于动作值函数建模的。

5.如权利要求1所述的方法，还包括：当训练完成时，将评论家网络复制为冻结的评论家网络。

6.如权利要求5所述的方法，还包括：使用冻结的评论家网络来优化生产演员网络。

7.如权利要求6所述的方法，其中生产演员网络小于演员网络。

8.如权利要求6所述的方法，其中第一演员-评论家算法在评论家网络的训练期间运行，以及第二演员-评论家算法在使用冻结的评论家网络优化生产演员网络的步骤期间运行。

9.如权利要求8所述的方法，其中第一演员-评论家算法与第二演员-评论家算法相同。

10.一种训练代理的方法，包括：

使用演员网络和评论家网络训练策略；

使用演员网络优化评论家网络；

在生产场合中为代理提供生产演员网络；

当训练完成时，将评论家网络复制为冻结的评论家网络；以及

使用冻结的评论家网络优化生产演员网络，其中

生产演员网络小于演员网络。

11.如权利要求10所述的方法，其中第一演员-评论家算法在评论家网络的训练期间运行，以及第二演员-评论家算法在使用冻结的评论家网络优化生产演员网络的步骤期间运行。

12.如权利要求11所述的方法，其中第一演员-评论家算法与第二演员-评论家算法相同。

13.如权利要求10所述的方法，其中策略的训练使用在实验室场合和生产场合两者中可用的状态信息，其中在实验室场合中可用的状态信息多于在生产场合中可用的状态信息。

14.如权利要求10所述的方法，其中评论家网络是基于动作值函数建模的。

15.一种其上存储有可执行程序的非暂态计算机可读存储介质，其中所述程序指示一个或多个处理器执行以下步骤：

使用演员网络优化评论家网络；以及

在生产场合中为代理提供生产演员网络。

16.如权利要求15所述的非暂态计算机可读存储介质，其中评论家网络是基于动作值函数建模的。

17.如权利要求15所述的非暂态计算机可读存储介质，其中所述程序指示一个或多个处理器进一步执行：

使用冻结的评论家网络优化生产演员网络。

18.如权利要求17所述的非暂态计算机可读存储介质，其中生产演员网络小于演员网络。