CN113574547A

CN113574547A - 通过双演员评论家算法进行强化学习

Info

Publication number: CN113574547A
Application number: CN202080020626.2A
Authority: CN
Inventors: J·麦克哥拉山
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2019-03-20
Filing date: 2020-02-25
Publication date: 2021-10-29
Anticipated expiration: 2040-02-25
Also published as: JP2022525423A; EP3921785A4; KR20210118182A; WO2020190460A1; US11816591B2; EP3921785A1; KR102596158B1; CN113574547B; US20200302323A1

Abstract

双演员评论家(DAC)强化学习算法提供稳定的策略改进和激进的神经网络优化，而不会对策略进行灾难性过度拟合。DAC使用离线和在线学习这两者中的任意数据历史来训练模型，并且能够被用于平滑地改进通过某种其他手段学习或定义的现有策略。最后，DAC能够优化具有离散和连续动作空间的强化学习问题。

Description

通过双演员评论家算法进行强化学习

技术领域

本发明的实施例总体上涉及机器学习系统和方法。更具体而言，本发明涉及使用双演员评论家算法(double actor critic algorithm)针对设备进行强化学习(reinforcement learning)的系统和方法，诸如智能人工代理(intelligent artificialagent)。

背景技术

以下背景信息可能呈现现有技术的特定方面的示例(例如但不限于方案、事实或常识)，这些示例可望有助于进一步教育读者了解现有技术的其他方面，不应被解释为将本发明或其任何实施例限制为在其中陈述或暗示或据此推断的任何内容。

没有任何现有的演员-评论家算法支持工业用例的多个重要特性，包括下面讨论的那些本发明的实施例解决的特性。大多数常规算法需要非常严格的数据集，这些数据集是使用最新版本的演员模型(actor model)的决策产生的。其他常规算法需要明确了解决策是如何做出的(例如，来自生成数据的系统的决策概率)。一些常规算法仅支持离散或连续的动作域，而不是两者。许多方法缺乏避免灾难性过度拟合的机制。一些常规方法将限制与其他学习范式或背景知识集成的项引入其目标函数中。最后，没有任何现有系统在两个目标中使用陈旧的(stale)演员和评论家模型这两者来进行稳定的策略迭代。

综上所述，显然需要一种能够满足常规方法的一些或全部缺陷的算法。

发明内容

双演员评论家(Double Actor Critic，DAC)满足工业用例的多个重要特性，包括以下：(1)DAC可以对按照任意策略收集的历史数据进行操作；(2)DAC不需要关于数据中的观测到的决策是如何做出的任何特殊知识；(3)DAC为离散动作问题和连续动作问题提供支持；(4)DAC执行激进的策略优化而不会对有限数据进行灾难性过度拟合；(5)DAC可以与其他策略学习范式或背景知识相集成，诸如从示范中学习；以及(6)DAC提供稳定的迭代，避免由于嘈杂的跨目标模型变化引起的拟合误差。

例如，DAC可以被用于解决离散动作HVAC控制问题，在该问题中，决策涉及基于不同区域中温度的测量、一天中的时间、区域中的人数等来打开还是关闭不同的加热和冷却系统。DAC还可以被用于解决连续动作控制问题，例如如何基于来自其相机的图像及其关节位置来控制机械臂和机械手拾取和放置物体。

本发明的实施例提供了一种用于代理的强化学习算法，该算法包括：使用动作-值模型来训练策略模型，所述动作-值模型在所述代理的一个或多个处理器内估计以下项：在假设的动作是在所述代理的当前观测下选择的并且所述代理的行为此后被遵循的情况下会收到的预期的未来折扣奖励；以及维护所述动作-值模型和所述策略模型这两者的陈旧副本，其中所述陈旧副本与新鲜副本相同地被初始化，并且随着对所述新鲜副本执行学习更新而缓慢移动以匹配所述新鲜副本，其中所述算法具有使用先前收集的数据来训练所述算法的离线变体和在所述算法训练所述策略模型时收集数据的在线变体这两者。

本发明的实施例还提供了一种训练代理的策略模型和动作-值模型的方法，包括：由所述动作-值模型在所述代理的一个或多个处理器内估计以下项：在假设的动作是在所述代理的当前观测下选择的并且所述代理的行为此后被遵循的情况下会收到的预期的未来折扣奖励，所述预期的未来折扣奖励Q由下式确定

其中r_t是在时间步t收到的奖励，s是环境状态的当前观测，a是所述假设的动作，π是所述策略模型，并且γ是定义未来的奖励如何比更直接的奖励更有价值的域[0,1)中的折扣因子；以及维护所述动作-值模型和所述策略模型这两者的陈旧副本，其中所述陈旧副本与新鲜副本相同地被初始化，并且随着对所述新鲜副本执行学习更新而逐步移动以匹配所述新鲜副本，其中所述算法具有使用先前收集的数据来训练所述算法的离线变体和在所述算法训练所述策略模型时收集数据的在线变体这两者；所述策略模型的陈旧副本用作要由所述动作-值模型评论家的新鲜副本评估的旧策略；并且所述动作-值模型的陈旧副本提供新鲜的策略模型在其上进行改进的较早策略模型的Q值。

本发明的实施例还提供了一种存储有可执行程序的非暂态计算机可读存储介质，其中，所述程序指示一个或多个处理器执行以下步骤：

(1)使用动作-值模型来训练策略模型，所述动作-值模型在代理的一个或多个处理器内估计以下项：在假设的动作是在所述代理的当前观测下选择的并且所述代理的行为此后被遵循的情况下会收到的预期的未来折扣奖励；(2)维护所述动作-值模型和所述策略模型这两者的陈旧副本，其中所述陈旧副本与新鲜副本相同地被初始化，并且随着对所述新鲜副本执行学习更新而缓慢移动以匹配所述新鲜副本，其中所述算法具有使用先前收集的数据来训练所述算法的离线变体和在所述算法训练所述策略模型时收集数据的在线变体这两者。

参考以下附图、说明书和权利要求书，将更好地理解本发明的这些和其他特征、方面和优点。

附图说明

本发明的一些实施例被说明为示例，并且不受附图的各图限制，在附图中，相同的附图标记可以指示相似的元素。

图1图示了根据本发明实施例的可操作以执行方法和算法的人工智能代理的框图；以及

图2图示了根据本发明示例性实施例的双演员评论家算法的总体方法步骤。

除非另外指示，否则各图中的图示不一定按比例绘制。

现在，通过转向描述了图示的实施例的以下具体实施方式，可以更好地理解本发明及其各种实施例。应当清楚地理解，所图示的实施例仅是作为示例阐述的，而不是对权利要求书中最终定义的本发明的限制。

具体实施方式

本文所使用的术语仅出于描述特定实施例的目的，并不旨在限制本发明。如本文所使用的，术语“和/或”包括一个或多个相关联的列出的项目的任何和所有组合。如本文所使用的，单数形式“一”、“一个”和“该”旨在包括复数形式以及单数形式，除非上下文另外明确指出。还将理解的是，当在本说明书中使用术语“包括”和/或“包含”时，其指定了所述特征、步骤、操作、元素和/或组件的存在，但不排除一个或多个其他特征、步骤、操作、元素、组件和/或其组的存在或添加。

除非另有定义，否则本文中使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域的普通技术人员通常所理解的相同含义。还将理解的是，诸如在常用字典中定义的术语应被解释为具有与它们在相关领域和本公开的上下文中的含义一致的含义，并且将不被解释为理想化或过度形式化的意义，除非本文如此明确定义。

在描述本发明时，将理解，公开了许多技术和步骤。这些技术和步骤中的每一个都有各自的益处，并且各自也可以与一种或多种、或者在一些情况下、全部其他所公开的技术结合使用。因此，为了清楚起见，该描述将避免以不必要的方式重复各个步骤的每种可能的组合。但是，应当在理解这样的组合完全在本发明和权利要求书的范围之内的情况下阅读本说明书和权利要求书。

在下面的描述中，出于解释的目的，阐述了许多具体细节以提供对本发明的透彻理解。然而，对于本领域技术人员清楚的是，可以在没有这些具体细节的情况下实践本发明。

本公开被认为是本发明的例示，并不旨在将本发明限制在以下附图或描述所说明的具体实施例。

“计算机”或“计算设备”可以指一种或多种装置和/或一种或多种系统，其能够接受结构化输入，根据规定的规则处理该结构化输入，并且产生处理结果作为输出。计算机或计算设备的示例可以包括：计算机；固定和/或便携式计算机；具有单个处理器、多个处理器或可以并行和/或不并行操作的多核处理器的计算机；通用计算机；超级计算机；大型机；超级微型计算机；小型计算机；工作站；微型计算机；服务器；客户端；交互式电视；web电器；具有互联网访问的电信设备；计算机和交互式电视的混合组合；便携式计算机；平板个人计算机(PC)；个人数字助理(PDA)；便携式电话；用于仿真计算机和/或软件的专用硬件，诸如，例如，数字信号处理器(DSP)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用指令集处理器(ASIP)、一个芯片、多个芯片、片上系统或芯片集；数据采集设备；光学计算机；量子计算机；生物特征计算机；以及通常可以接受数据、根据一个或多个存储的软件程序处理数据、生成结果并且通常包括输入、输出、存储、算术、逻辑和控制单元的装置。

“软件”或“应用”可以指用于操作计算机的规定的规则。软件或应用的示例可以包括一种或多种计算机可读语言的代码段；图形和/或文字指令；小程序(applet)；预编译代码；解释代码；编译代码；以及计算机程序。

本文描述的示例实施例可以在包括安装在计算机上的计算机可执行指令(例如，软件)的操作环境中、在硬件中或者在软件和硬件的组合中实现。计算机可执行指令可以用计算机编程语言来编写，或者可以在固件逻辑中实施。如果以符合公认标准的编程语言编写，那么此类指令可以在各种硬件平台上执行，并且可以用于各种操作系统的接口。虽然不限于此，但是可以以一种或多种合适的编程语言的任何组合来编写用于执行本发明各方面的操作的计算机软件程序代码，所述编程语言包括面向对象的编程语言和/或常规的过程编程语言，和/或诸如例如超文本标记语言(HTML)、动态HTML、可扩展标记语言(XML)、可扩展样式表语言(XSL)、文档样式语义和规范语言(DSSSL)、级联样式表(CSS)、同步多媒体集成语言(SMIL)、无线标记语言(WML)、Java.TM.、Jini.TM.、C、C++、Smalltalk、Python、Perl、UNIX Shell、Visual Basic或Visual Basic脚本、虚拟现实标记语言(VRML)、ColdFusion.TM或其他编译器、汇编器、解释器或其他计算机语言或平台。

用于执行本发明各方面的操作的计算机程序代码可以用一种或多种编程语言的任何组合来编写，所述编程语言包括诸如Java、Smalltalk、C++等面向对象的编程语言以及诸如“C”编程语言的常规的过程编程语言或者类似的编程语言。程序代码可以完全在用户计算机上、部分在用户计算机上、作为独立软件包、部分在用户计算机上并且部分在远程计算机上或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过包括局域网(LAN)或广域网(WAN)的任何类型的网络连接到用户计算机，或者可以(例如，通过使用互联网服务提供商的互联网)与外部计算机进行连接。程序代码也可以分布在多个计算单元中，其中每个单元处理全部计算的一部分。

下面参考根据本发明的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图来描述本发明的各方面。将理解的是，流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置执行的指令创建用于实现流程图和/或一个或多个框图的一个或多个框中指定的功能/动作的部件。

这些计算机程序指令还可以存储在计算机可读介质中，其可以指导计算机、其他可编程数据处理装置或其他设备以特定方式运行，使得存储在计算机可读介质中的指令产生制品，其包括实现流程图和/或一个或多个框图的一个或多个框中指定的功能/动作的指令。

另外，虽然处理步骤、方法步骤、算法等可能是按连续顺序描述的，但是这样的处理、方法和算法可以被配置为以替代顺序工作。换句话说，可能描述的步骤的任何序列或顺序不一定指示要求以该顺序执行步骤。本文描述的处理的步骤可以以任何实际顺序执行。此外，可以同时执行一些步骤。

清楚的是，本文描述的各种方法和算法例如可以由适当编程的通用计算机和计算设备来实现。通常，处理器(例如，微处理器)将从存储器或类似设备接收指令并且执行那些指令，从而执行由那些指令定义的处理。此外，可以使用多种已知介质来存储和发送实现这些方法和算法的程序。

如本文所使用的术语“计算机可读介质”是指参与提供可以由计算机、处理器或类似设备读取的数据(例如，指令)的任何介质。这样的介质可以采取许多形式，包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质例如包括光盘或磁盘以及其他持久性存储器。易失性介质包括通常构成主存储器的动态随机存取存储器(DRAM)。传输介质包括同轴线缆、铜线和光纤，包括构成耦合到处理器的系统总线的线。传输介质可以包括或传送声波、光波和电磁辐射，诸如在射频(RF)和红外(IR)数据通信期间生成的声波、光波和电磁辐射。计算机可读介质的常见形式例如包括软盘、柔性盘、硬盘、磁带、任何其他磁介质、CD-ROM、DVD、任何其他光学介质、打孔卡、纸带、任何其他具有孔图案的物理介质、RAM、PROM、EPROM、FLASHEEPROM或任何其他存储器芯片或卡盒、如下文描述的载波、或者计算机可以从其读取的任何其他介质。

各种形式的计算机可读介质可以涉及将指令序列携带到处理器。例如，指令序列(i)可以从RAM传送到处理器，(ii)可以在无线传输介质上携带，和/或(iii)可以根据诸如蓝牙、TDMA、CDMA、3G、4G、5G等多种格式、标准或协议来格式化。

本发明的实施例可以包括用于执行本文公开的操作的装置。可以为期望的目的而专门构造装置，或者该装置可以包括由存储在设备中的程序选择性地激活或重新配置的通用设备。

除非另有特别说明，并且如可以从以下描述和权利要求书中清楚的，应该认识到的是，在整个说明书描述中，利用诸如“处理”、“计算”、“运算”、“确定”等术语指代计算机和计算系统或类似电子计算设备的动作和/或处理，这些动作和/或处理将表示为计算系统的寄存器和/或存储器内的物理(诸如，电子)量的数据操纵和/或变换成类似地表示为计算系统的存储器、寄存器或其他此类信息存储装置、传输或显示设备内的物理量的其他数据。

以类似的方式，术语“处理器”可以指处理来自寄存器和/或存储器的电子数据以将该电子数据变换成可以存储在寄存器和/或存储器中或者可以被传送到外部设备以引起外部设备的物理变化或致动的其他电子数据的任何设备或设备的一部分。

算法在这里并且一般被认为是导致期望结果的动作或操作的自洽序列。这些包括物理量的物理操纵。通常，虽然不是必需，但这些量采用能够被存储、传送、组合、比较和以其他方式操纵的电或磁信号的形式。有时，主要是出于常见用途的原因，将这些信号称为位、值、元素、符号、字符、项、数字等已被证明是方便的。但是，应当理解的是，所有这些和类似的术语将与适当的物理量相关联，并且只是应用于这些量的方便标签。

术语“代理”或“智能代理”或“人工代理”或“人工智能代理”是指响应于观测而选择动作的任何人造实体。“代理”可以指代但不限于机器人、模拟机器人、软件代理或“网上机器人(bot)”、自适应代理、互联网或web网上机器人。

术语“机器人”可以指由计算机或计算系统直接或间接控制的、响应于感觉或观测而发出动作或命令的任何系统。该术语可以指代但不限于具有物理传感器(诸如相机、触摸传感器、距离传感器等)的传统物理机器人、或者存在于虚拟模拟中的模拟机器人，或者作为软件存在于网络中的诸如邮件机器人或搜索机器人的“网上机器人”。它可以但不限于指代任何肢体机器人、步行机器人、工业机器人(包括但不限于用于自动化组装、喷漆、维修、维护等的机器人)、轮式机器人、吸尘或割草机器人、个人助理机器人、服务机器人、医疗或外科手术机器人、飞行机器人、驾驶机器人、飞机或航天器机器人、或者在实质上自主控制下可操作的任何其他机器人、车辆或其他方式的真实的或模拟的机器人，也包括固定机器人，诸如智能家居或工作场所电器。

术语“观测”或“多个观测”是指代理通过任何手段接收到的关于代理的环境或其自身的任何信息。在一些实施例中，该信息可以是通过传感设备(诸如但不限于相机、触摸传感器、范围传感器、温度传感器、波长传感器、声音或语音传感器、位置传感器、压力或力传感器、速度或加速度或其他运动传感器、位置传感器(例如，GPS)等)接收的传感信息或信号。在其他实施例中，信息还可以包括但不限于从与存储的信息组合的传感设备的集合编译的经编译的、抽象的或情况信息。在非限制性示例中，代理可以接收与其自身或其他对象的地点或特性相关的抽象信息作为观测。在一些实施例中，该信息可以是指人或顾客或者他们的特性，诸如购买习惯、个人联系信息、个人偏好等。在一些实施例中，观测可以是关于代理的内部的信息，诸如但不限于本体信息或与代理的当前或过去的动作相关的其他信息、关于代理的内部状态的信息或者已由代理计算或处理的信息。

术语“动作”是指代理的用于控制、感染或影响代理的环境、代理的物理或模拟自我或者代理的内部功能的任何部件，这些部件最终可以控制或影响代理的未来动作、动作选择或动作偏好。在许多实施例中，动作可以直接控制物理或模拟的伺服或致动器。在一些实施例中，动作可以是最终意图影响代理的选择的偏好或一组偏好的表达。在一些实施例中，关于代理的(一个或多个)动作的信息可以包括但不限于在代理的(一个或多个)动作上的概率分布，和/或意图影响代理的最终动作选择的输出信息。

术语“状态”或“状态信息”是指与环境或代理的状态相关的信息的任何集合，其可以包括但不限于关于代理的当前和/或过去的观测的信息。

术语“策略”是指从任何完整或部分状态信息到任何动作信息的任何函数或映射。策略可以是硬编码的，或者可以用任何适当的学习或教学方法(包括但不限于任何强化学习方法或控制优化方法)进行修改、调整或训练。策略可以是显式映射，或者可以是隐式映射，诸如但不限于可以是由于优化特定度量、值或函数而产生的映射。策略可以包括相关联的附加信息、特征或特性，诸如但不限于反映该策略可以在什么条件下开始或继续的起始条件(或概率)、反映策略可以在什么条件下终止的终止条件(或概率)。

广义地说，本发明的实施例提供了一种DAC强化学习算法，该算法提供稳定的策略改进和激进的神经网络优化而不会对策略进行灾难性过度拟合。DAC算法使用离线和在线学习这两者中的任意数据历史来训练模型，并且能够被用于平滑地改进通过某种其他手段学习或定义的现有策略。最后，DAC算法能够优化具有离散和连续动作空间的强化学习问题。

参考图1，智能代理10被示意性地示出为具有一个或多个处理器12、存储器14和用于获得观测数据的传感器16。当然，如可以理解的，存在于本领域已知的常规智能代理中的其他传感器和部件可以被包括在代理10中。图1中提供的表示仅用于示意性目的，并且不应当被解释为限制代理的特征。代理10可以执行如图2中所示的方法20。在下面的说明书和权利要求书中描述图2的方法的其他细节。

在高级别，DAC在高级别的算法实施方式可以被用于使用神经网络模型实施方式的离散和连续动作情况。此外，DAC可以被用于改进可能已被硬编码或通过某种其他手段训练的现有演员模型。

虽然DAC主要关注的是训练被称为演员的策略模型，但是它也训练被称为评论家的动作-值模型。评论家用于训练演员的服务，并且估计以下项：在假设的动作是在当前观测下选择的并且演员的规定行为此后被遵循的情况下会收到的预期的未来折扣奖励。形式上，评论家估计被定义如下的函数Q。

其中r_t是在时间步t收到的奖励，s是环境状态的当前观测，a是假设的动作，π是演员，并且γ是定义未来的奖励如何比更直接的奖励更有价值的域[0,1)中的折扣因子。

DAC要求演员和评论家这两者都被实现为可微分的神经网络。它还要求演员定义参数随机策略。这意味着对于环境状态的给定观测(s)，演员的输出π(s)是动作空间的域上的概率分布的参数。对于离散动作空间，这些输出参数通常是概率质量值(或对数概率质量值)；对于连续的n维动作空间，输出参数常常是动作空间上的多变量高斯分布的均值和协方差。

DAC维护演员和评论家网络这两者的陈旧副本。一些新鲜模型的陈旧模型是与新鲜模型相同地被初始化并且随着对新鲜模型执行学习更新而以逐步方式缓慢移动以匹配新鲜模型的模型。假设新鲜模型收敛到固定点，它的陈旧模型将收敛到同一点，虽然陈旧模型由于其朝着新鲜模型的缓慢移动而会在比新鲜模型晚的时间到达该固定收敛点。

本文使用以下符号，其中

s表示环境状态的观测的小批集(minibatch)；

a表示可以在环境中执行的动作选择；

s'表示执行某个动作之后的环境状态的所得到的观测的小批集；

r表示标量奖励信号的小批集；

a'表示可以在环境中执行的动作选择的小批集。当表达式考虑除a之外的动作的第二单独小批集时将使用这个表示。例如，a'可以是指关于所得到的观测(s')的可能动作，而不是先前的观测(s)；

θ表示“新鲜”评论家神经网络权重；

θ'表示“陈旧”评论家神经网络权重；

Q(s,a；θ)表示在采取假设的动作a时观测小批集s的Q值的评论家估计，使用神经网络权重θ；

φ表示“新鲜”演员神经网络权重；

φ'表示“陈旧”演员神经网络权重；

π(s；φ)表示来自演员的动作概率分布参数，观测小批集s的权重为φ；

π(s,a；φ)表示演员的概率密度，当对小批集s进行观测时用于选择小批集a的权重为φ；以及

x～z表示变量x从由分布参数z定义的分布中提取。

DAC既有使用先前收集的数据进行训练的离线变体，又有在DAC训练演员时收集数据的在线变体。

离线算法在下面的算法1中示出。算法1从可用数据中采样(s,a,r,s')元组的小批集，计算评论家损失(L_Q)和演员损失(L_π)，针对评论家和演员神经网络参数区分每个损失，对参数执行基于随机梯度下降的更新(SGD)，然后通过几何系数(k)将陈旧的神经网络参数朝着新的神经网络参数更新。从数据中采样小批集的方法可以涉及任何数量的采样方案，最简单的是从数据中均匀随机地采样小批集。

算法1离线DAC

DAC的定义的核心是损失函数的目标，以及如何为离散和连续动作情况构建这些损失函数。损失函数的目标是最小化损失将产生的最优解。对于给定奖励的评论家损失函数的目标(T_Q)，所得到的观测是标量值：

目标使用陈旧的演员和陈旧的评论家引导来自下一步的值。因为演员定义了动作上的概率分布，所以演员损失函数的目标(T_π)是概率分布。具体而言，该目标是来自其中每个动作的密度被定义如下的陈旧的评论家的Q值上的Boltzmann分布。

在这个定义中，τ是“温度”超参数，它定义了目标分布朝着最高评分Q值的贪婪程度。随着该值逼近0，分布更加贪婪；当它逼近无穷大时，分布变得更加均匀。

使用Boltzmann分布作为目标以两种方式防止演员过度拟合当前的Q值估计。首先，它防止策略变成确定性的，在环境中使用时策略变成确定性的会阻碍探索。其次，Q函数估计中的高估次优动作选择的小误差不会导致利用那个小误差的演员优化。代替地，动作选择将分布在相似的评分动作中，这些动作仅因小的估计误差而不同。

随机梯度下降是个嘈杂的过程，其要求经过许多小批集上的许多步骤才能收敛到目标。DAC在相应的目标中使用缓慢移动的陈旧的演员和评论家来在所需的许多优化步骤上稳定学习。

此外，陈旧模型的使用导致更稳定的策略改进，这与用于表格状态和动作空间的经典策略迭代(policy iteration，PI)算法一致。在PI中，输入策略通过两个步骤来改进。首先，对策略的Q值进行详尽评估。其次，通过找到最大化Q值的策略来计算改进的策略。PI对新改进的策略重复这个改进过程，直到找到最优策略。

在DAC中，陈旧的演员用作要由新鲜的评论家评估的旧策略，并且陈旧的评论家提供新鲜的演员在其上进行改进的较早策略的Q值。

对于离散动作情况，可以通过由陈旧的演员对每个动作选择的概率进行边缘化来确切地计算评论家的目标(T_Q)。然后可以使用评论家与目标之间的差异的任何范数来表示损失函数。对于典型的L2范数情况，损失是

对于演员损失，也可以确切地计算目标分布(T_π)，并且使用交叉熵损失函数使演员与该目标匹配。

选择交叉熵是因为它允许朝着离散分布进行快速优化。因为目标分布在Q值中是平滑的，所以使用交叉熵损失将导致激进的优化，其不会崩溃到确定性分布，或者错误地利用小误差。

在连续动作情况下，评论家和演员损失函数的目标无法确切地计算，因为动作的数量是无限的。代替地，从演员和陈旧演员中进行采样被用于随机地逼近目标。通过随机梯度下降过程来平滑采样的方差。

除了它使用来自陈旧的演员的动作样本而不是边缘化之外，连续动作评论家损失看起来很像离散动作评论家损失。

实现演员损失的两个挑战是(1)无法确切地计算连续动作上的Boltzmann分布；以及(2)演员模型的参数连续概率分布可能无法完美地表示连续Boltzmann分布。

为了解决这些挑战，从Boltzmann分布到演员分布的KL散度可以被用作演员的损失函数。假设可以通过将演员重新参数化为状态的确定性函数f和一些外部采样的噪声(ε)来对演员的概率分布进行采样，那么可以将KL散度损失随机估计为

ε～噪声函数

许多参数连续分布允许演员被重新参数化以使用外部采样的噪声，包括常见的高斯分布。

在线算法是使用离线算法步骤函数定义的，并且如算法2中所示。

算法2在线DAC

在线算法采用与离线算法相同的超参数，不同之处在于它接收对可以与之交互的环境的引用而不是数据集。开始时，代理构建初始为空的数据集。然后它与它在其中观测当前状态的环境重复一系列交互；使用演员来选择并执行动作；观测所得到的状态和奖励；将过渡添加到其数据集；然后运行离线算法步骤。

在一些上下文中，演员可能之前已经使用另一种学习范式(例如，从演示中学习)进行了训练，或者已经通过某种手段进行了硬编码。在这种情况下，DAC应当从它停止的地方改进演员的状态。但是，如果评论家是具有随机初始化的参数的新模型，那么优化演员模型以最大化随机评论家模型将把演员拉回更均匀的随机策略。为了解决这个问题，在线DAC算法如算法3中所示进行修改。

算法3在线DAC

这个DAC的在线改进变体只花费前b步训练评论家。在这个调试期(burn-inperiod)之后，该算法按照在线DAC(算法2)的方式进行。因此，当开始更新演员时，它将使用要改进的演员的有意义的评估。

本领域普通技术人员可以在不脱离本发明的精神和范围的情况下做出许多改变和修改。因此，必须理解的是，所说明的实施例是仅出于示例的目的而阐述的，并且不应被视为对所附权利要求书所限定的本发明的限制。例如，虽然以下以某种组合阐述了权利要求的元素，但是必须明确地理解，本发明包括所公开的元素的更少、更多或不同的其他组合。

本说明书中用来描述本发明及其各种实施例的词语不仅应从其通常定义的意义上理解，而且应通过特殊定义在本说明书中包括它们所表示的单一种类的一般结构、材料或动作。

因此，所附权利要求书的词语或元素的定义在本说明书中被定义为不仅包括从字面上阐述的元素的组合。因此，从这个意义上考虑，可以对下面的权利要求书中的任何一个元素进行两个或更多元素的等效替换，或者可以将权利要求中的两个或更多元素替换为单个元素。虽然以上可能将元素描述为以某些组合起作用并且甚至最初是如此要求保护的，但是应当明确地理解，在一些情况下，可以从该组合中切除来自所要求保护的组合的一个或多个元素，并且可以将所要求保护的组合指示为子组合或子组合的变体。

从本领域普通技术人员看来，现在已知的或以后设计的对所要求保护的主题的非实质性改变被明确地考虑为等同地在权利要求书的范围内。因此，本领域普通技术人员现在或以后已知的明显替代被定义为在所定义的元素的范围内。

因此，权利要求书应该被理解为包括上面具体示出和描述的内容、概念上等同的内容、可以明显替代的内容以及还有结合了本发明的基本思想的内容。

Claims

1.一种用于代理的强化学习算法，该算法包括：

使用动作-值模型来训练策略模型，所述动作-值模型在所述代理的一个或多个处理器内估计以下项：在假设的动作是在所述代理的当前观测下选择的并且所述代理的行为此后被遵循的情况下会收到的预期的未来折扣奖励；以及

维护所述动作-值模型和所述策略模型这两者的陈旧副本，其中，所述陈旧副本与新鲜副本相同地被初始化，并且随着对所述新鲜副本执行学习更新而缓慢移动以匹配所述新鲜副本，其中，

所述算法具有使用先前收集的数据来训练所述算法的离线变体和在所述算法训练所述策略模型时收集数据的在线变体这两者。

2.如权利要求1所述的算法，其中，所述动作-值模型将所述预期的未来折扣奖励Q估计为

其中，r_t是在时间步t收到的奖励，s是环境状态的当前观测，a是所述假设的动作，π是所述策略模型，并且γ是定义未来的奖励如何比更直接的奖励更有价值的域[0,1)中的折扣因子。

3.如权利要求1所述的算法，其中：

所述策略模型的陈旧副本用作要由所述动作-值模型评论家的新鲜副本评估的旧策略；并且

所述动作-值模型的陈旧副本提供新鲜的策略模型在其上进行改进的较早的策略模型的Q值。

4.如权利要求1所述的算法，其中，对于环境状态的给定观测(s)，所述策略模型的输出π(s)是动作空间的域上的概率分布的参数。

5.如权利要求4所述的算法，其中，当所述动作空间是离散动作空间时，输出的参数是概率质量值。

6.如权利要求4所述的算法，其中，当所述动作空间是连续的n维动作空间时，输出的参数是所述动作空间上的多变量高斯分布的均值和协方差。

7.如权利要求1所述的算法，其中，所述离线变体包括离线算法，该离线算法包括：

从可用数据中采样元组的小批集；

计算评论家损失函数L_Q和演员损失函数Lπ；

针对神经网络参数区分所述评论家损失函数和所述演员损失函数中的每一个；

对所述神经网络参数执行基于随机梯度下降的更新；以及

通过几何系数将所述陈旧副本朝着所述新鲜副本更新。

8.如权利要求7所述的算法，其中：

对于离散动作情况，通过由陈旧的策略模型对每个动作选择的概率进行边缘化来确切地计算所述评论家损失函数的目标；并且

对于离散动作情况，确切地计算所述演员损失的目标，并且使用交叉熵损失函数使所述策略模型与该目标匹配。

9.如权利要求7所述的算法，其中，对于连续动作情况，未确切地计算所述评论家损失函数和所述演员损失函数的目标，其中从所述策略模型和所述策略模型的陈旧副本中进行采样被用于随机地逼近所述目标，其中通过随机梯度下降过程来平滑所述采样的方差。

10.如权利要求7所述的算法，其中，所述评论家损失函数和所述演员损失函数中的每一个的目标是最小化相应的评论家损失函数和演员损失函数将产生的最优解。

11.如权利要求7所述的算法，其中，对于给定奖励的所述评论家损失函数的目标(T_Q)，所得到的观测是由以下公式定义的标量值：

12.如权利要求7所述的算法，其中，所述演员损失函数的目标(T_π)是来自所述动作-值模型的陈旧副本的Q值上的概率分布，其中每个动作的密度被定义为

其中，τ是定义目标分布朝着最高评分Q值的贪婪程度的温度超参数，其中随着所述温度超参数逼近零，所述概率分布更加贪婪，并且随着所述温度超参数逼近无穷大，所述概率分布变得更加均匀。

13.如权利要求12所述的算法，其中，所述概率分布通过以下来阻止所述策略模型过度拟合Q值估计：(1)阻止所述策略模型变成确定性的，在环境中使用时所述策略模型变成确定性的会阻碍探索，以及(2)通过利用Q值估计中的高估次优动作选择的相对小误差来阻止所述策略模型的优化。

14.如权利要求1所述的算法，其中，所述代理是先前训练的代理，并且所述动作-值模型仅用于在预定数量的初始步骤上训练所述代理。

15.一种训练代理的策略模型和动作-值模型的方法，包括：

由所述动作-值模型在所述代理的一个或多个处理器内估计以下项：在假设的动作是在所述代理的当前观测下选择的并且所述代理的行为此后被遵循的情况下会收到的预期的未来折扣奖励，所述预期的未来折扣奖励Q由下式确定

其中，r_t是在时间步t收到的奖励，s是环境状态的当前观测，a是所述假设的动作，π是所述策略模型，并且γ是定义未来的奖励如何比更直接的奖励更有价值的域[0,1)中的折扣因子；以及

维护所述动作-值模型和所述策略模型这两者的陈旧副本，其中，所述陈旧副本与新鲜副本相同地被初始化，并且随着对所述新鲜副本执行学习更新而逐步移动以匹配所述新鲜副本，其中，

所述算法具有使用先前收集的数据来训练所述算法的离线变体和在所述算法训练所述策略模型时收集数据的在线变体这两者；

16.如权利要求15所述的方法，其中：

对于环境状态的给定观测(s)，所述策略模型的输出π(s)是动作空间的域上的概率分布的参数；并且

所述动作空间是离散动作空间，或者是连续动作空间。

17.如权利要求15所述的方法，其中，所述离线变体包括离线算法，该离线算法包括：

从可用数据中采样元组的小批集；

计算评论家损失函数L_Q和演员损失函数Lπ；

对所述神经网络参数执行基于随机梯度下降的更新；以及

通过几何系数将所述陈旧副本朝着所述新鲜副本更新。

18.如权利要求17所述的方法，其中：

对于离散动作情况，(1)通过由陈旧的策略模型对每个动作选择的概率进行边缘化来确切地计算所述评论家损失函数的目标，并且(2)确切地计算所述演员损失的目标，并且使用交叉熵损失函数使所述策略模型与该目标匹配；并且

对于连续动作情况，未确切地计算所述评论家损失函数和所述演员损失函数的目标，其中从所述策略模型和所述策略模型的陈旧副本中进行采样被用于随机地逼近所述目标，其中通过随机梯度下降过程来平滑所述采样的方差。

19.一种存储有可执行程序的非暂态计算机可读存储介质，其中程序指示一个或多个处理器执行以下步骤：

使用动作-值模型来训练策略模型，所述动作-值模型在代理的一个或多个处理器内估计以下项：在假设的动作是在所述代理的当前观测下选择的并且所述代理的行为此后被遵循的情况下会收到的预期的未来折扣奖励；

20.如权利要求19所述的存储有可执行程序的非暂态计算机可读存储介质，其中：