CN115039111A - 用于强化学习的任务优先化的经验回放算法 - Google Patents

用于强化学习的任务优先化的经验回放算法 Download PDF

Info

Publication number
CN115039111A
CN115039111A CN202180011731.4A CN202180011731A CN115039111A CN 115039111 A CN115039111 A CN 115039111A CN 202180011731 A CN202180011731 A CN 202180011731A CN 115039111 A CN115039111 A CN 115039111A
Authority
CN
China
Prior art keywords
task
agent
transfer
transition
priority
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180011731.4A
Other languages
English (en)
Inventor
V·科佩拉
J·麦克哥拉山
P·沃尔曼
P·斯通
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Group Corp
Sony Optical Archive Inc
Original Assignee
Sony Group Corp
Optical Archive Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Group Corp, Optical Archive Inc filed Critical Sony Group Corp
Publication of CN115039111A publication Critical patent/CN115039111A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Feedback Control In General (AREA)

Abstract

一种任务优先化的经验回放(TaPER)算法使得能够同时学习多个RL任务离线策略。该算法可以对作为导致任务实现的固定长度事件的部分的样本进行优先化。这使得智能体能够通过对其早期成功进行自举来快速学习任务策略。最后,TaPER可以同时提高所有任务的性能,这是多任务RL的期望特性。与应用于单个RL任务学习设置或者需要奖励是二进制或充足的、或者作为目标的参数化规范提供的传统ER算法不同,TaPER没有施加这样的限制并且支持任意的奖励和任务规范。

Description

用于强化学习的任务优先化的经验回放算法
本发明的背景技术
1.本发明的技术领域
本发明的实施例总体上涉及强化学习方法。更具体地,本发明涉及用于使用使得能够同时学习多个强化学习任务离线策略的任务优先化的经验回放算法来训练智能体的系统和方法。
2.现有技术的描述和相关信息
以下背景信息可以提出现有技术的特定方面的示例(例如,而不限于方法、事实或常识),尽管这些示例预计将有助于进一步教育读者关于现有技术的附加方面,但将不被解释为将本发明或其任何实施例限制于其中陈述或暗示或因此推断的任何内容。
强化学习(RL)描述了一类问题(和方案),其中,当系统动态未知并且必须由智能体通过交互和观测进行学习时,人工智能体优化其对系统(或“环境”)的控制。强化学习系统可以包括四个主要要素-智能体、策略、奖励和价值函数。智能体在任何时间点的行为都是依据策略定义的。
策略π(a,s)是动作a与状态s之间的概率映射。因为并非所有策略都是最佳的,所以开发用于改进策略的方法。这种方法分成在线策略(on-policy)或离线策略(off-policy)方法。在线策略方法尝试评估或改进用于做出决策的相同策略。另一方面,离线策略方法评估或改进与曾用于生成数据的策略不同的策略。离线策略强化学习使得可以从自不同行为策略收集到的经验中学习解决任务的策略。
经验回放(ER)算法在训练基于梯度的深度RL架构中起着重要作用。在线训练这些架构常常需要重复出现输入并且在时间上不相关。ER算法通过使用缓冲区存储经验并以独立且相同分布的方式从它们中采样来高效地解决这些问题。ER算法还可以分类为两个子类,一个子类对经验进行均匀地采样,另一个子类以更高的优先级对某些经验进行采样。
先前的ER算法主要应用于单个RL任务学习设置。在多任务设置中应用的一些,需要奖励要么是二进制要么是充足的。其中一些还需要目标的参数化规范。
鉴于以上,需要改进离线策略强化学习的系统和方法。
发明内容
本发明的实施例提供了一种在控制回路中训练智能体的方法,所述方法包括:由所述智能体执行从用于观测(st)的行为策略(πb)采样的动作(at);将转移元组存储在主缓冲区中,所述转移元组包括
Figure BDA0003771664890000021
其中,
Figure BDA0003771664890000022
是针对环境中的每个任务的奖励向量,并且st+1是所述动作(at)之后的下一种环境状态;更新存储在所述主缓冲区中的每个转移元组的转移优先级;对小批量的转移元组进行采样以更新任务网络;以及用离线策略算法从更新后的所述任务网络来优化任务策略。
在一些实施例中,所述环境中的所述任务对于所述智能体是未知的。
在一些实施例中,所述控制回路是偶发的(episodic),并且在每个事件(episode)之后,所述智能体的状态被重置为初始状态。
在一些实施例中,所述控制回路是连续的,其中,所述智能体在不重置所述智能体的状态的情况下执行动作。
本发明的实施例还提供了一种训练智能体的方法,所述方法包括:由所述智能体执行从用于观测(st)的行为策略(πb)采样的动作(at);将转移元组存储在主缓冲区中,所述转移元组包括
Figure BDA0003771664890000023
其中,
Figure BDA0003771664890000024
是针对环境中的每个任务的奖励向量并,且st+1是所述动作(at)之后的下一种环境状态;更新存储在所述主缓冲区中的每个转移元组的转移优先级;对小批量的转移元组进行采样以更新任务网络;以及用离线策略算法从更新后的所述任务网络来优化任务策略,其中,属于导致在第i个事件期间实现任务-j的一组转移索引的转移被赋予比没有导致在第i个事件期间实现任务-j的转移大的优先级。
本发明的实施例还提供了一种其上存储有可执行程序的非暂态计算机可读存储介质,其中,所述程序指示一个或多个处理器执行以下步骤:由所述智能体执行从用于观测(st)的行为策略(πb)采样的动作(at);将转移元组存储在主缓冲区中,所述转移元组包括
Figure BDA0003771664890000031
其中,
Figure BDA0003771664890000032
是针对环境中的每个任务的奖励向量,并且st+1是所述动作(at)之后的下一种环境状态;更新存储在所述主缓冲区中的每个转移元组的转移优先级;对小批量的转移元组进行采样以更新任务网络;以及用离线策略算法从更新后的所述任务网络来优化任务策略,其中,属于导致在第i个事件期间实现任务-j的一组转移索引的转移被赋予比没有导致在第i个事件期间实现任务-j的转移大的优先级。
参考以下附图、说明书和权利要求书,将更好地理解本发明的这些和其他特征、方面和优点。
附图的简要说明
本发明的一些实施例被图示为示例,并且不受附图中的图的限制,在附图中,类似的附图标记可以指示类似的元件。
图1图示了根据本发明的示例性实施例的环境与配备了TaPER的智能体之间的控制流程图;以及
图2图示了根据本发明的示例性实施例的使用TaPER的离线策略强化智能体的内部。
除非另外指示,否则图中的图示不一定按比例绘制。
现在,通过转向下面的详细描述,可以更好地理解本发明及其各种实施例,其中,描述了所图示的实施例。要清楚地理解,所图示的实施例是作为示例阐述的,而不是作为对本发明的限制,如最终在权利要求中限定的。
本发明的优选实施例和最佳模式的具体实施方式
本文使用的术语只是出于描述特定实施例的目的,并且不旨在是限制本发明。如本文中使用的,术语“和/或”包括一个或多个关联的所列项的任何和全部组合。如本文使用的,单数形式“一”、“一个”和“该”除单数形式之外也旨在包括复数形式,除非上下文另有清楚指示。还应该理解,术语“包括”和/或其变型当在本说明书中使用时指定存在所述特征、步骤、操作、元件和/或部件,但并不排除存在或附加一个或多个其他特征、步骤、操作、元件、部件和/或其组。
除非另外定义,否则本文使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员通常理解的相同的含义。还应该理解,诸如在通用字典中定义的术语这样的术语应该被解释为具有与其在相关技术和本公开的背景下的含义一致的含义,并且不应该以理想化或过度正式的含义来解释,除非本文中如此明确定义。
在描述本发明时,将理解,公开了多个技术和步骤。这些中的每一个都具有独立的益处,并且每一个都还可以与其他公开技术中的一个或多个或在某些情况下全部结合地使用。因此,为了清楚起见,本说明书将避免以不必要的方式重复各个步骤的每个可能的组合。然而,阅读说明书和权利要求书时应该理解的是,这种组合完全在本发明和权利要求书的范围内。
在以下的描述中,出于说明的目的,阐述了众多具体细节,以便对本发明提供更彻底的理解。然而,对于本领域技术人员将明显的是,可以在没有这些具体细节的情况下实践本发明。
本公开将被视为是本发明的示例,并不旨在将本发明限制于通过以下附图或描述例示的特定实施例。
至少一般彼此通信的设备或系统模块不需要彼此连续通信,除非另有明确指定。另外,至少一般彼此通信的设备或系统模块可以直接或通过一个或多个中介间接地通信。
对具有彼此通信的多个部件的实施例的描述并不意味着需要所有这样的部件。相反,描述了各种可选部件以例示本发明的各种可能的实施例。
“计算机”或“计算设备”可以是指能够接受结构化输入、根据规定的规则处理结构化输入并且产生处理的结果作为输出的一个或多个装置和/或一个或多个系统。计算机或计算设备的示例可以包括:计算机;固定式和/或便携式计算机;具有单个处理器、其可以并行和/或非并行地操作的多个处理器或多核处理器的计算机;超级计算机;大型机;超级小型计算机;小型计算机;工作站;微型计算机;服务器;客户端;交互式电视;网络设备;有互联网接入的电信设备;计算机和交互式电视的混合组合;便携式计算机;平板个人计算机(PC);个人数字助理(PDA);便携式电话;诸如例如数字信号处理器(DSP)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用指令集处理器(ASIP)、一个芯片、多个芯片、片上系统或芯片组之类的用于模拟计算机和/或软件的专用硬件;数据采集设备;光学计算机;量子计算机;生物计算机;以及通常地,可以接受数据,根据一个或多个所存储的软件程序来处理数据,生成结果,并且典型地包括输入、输出、存储、运算、逻辑和控制单元的装置。
“软件”或“应用”可以是指操作计算机的规定规则。软件或应用的示例可以包括一种或多种计算机可读语言中的代码段;图形和/或文本指令;小应用程序;预编译的代码;翻译的代码;编译的代码;以及计算机程序。
这些计算机程序指令也可以被存储在计算机可读介质中,该计算机可读介质可以引导计算机、其他可编程数据处理装置或其他设备以特定方式发挥作用,使得存储在计算机可读介质中的指令产生包括实现流程图和/或框图中的一个框或多个框中指定的功能/动作的指令的制品。
另外,尽管可以按顺序的次序描述处理步骤、方法步骤、算法等,但这些处理、方法和算法可以被配置为以替代的次序工作。换句话说,可以描述的步骤的任何顺序或次序不一定指示以该次序执行步骤的要求。本文描述的处理的步骤可以按实际的任何次序执行。另外,某些步骤可以同时执行。
将容易显而易见的是,本文描述的各种方法和算法可以由例如适当编程的通用计算机和计算设备来实现。典型地,处理器(例如,微处理器)将从存储器或类似设备接收指令,并执行这些指令,由此执行由这些指令限定的处理。另外,可以使用各种已知介质来存储和传输实现这种方法和算法的程序。
如本文中使用的术语“计算机可读介质”是指参与提供可以供计算机、处理器或类似设备读取的数据(例如,指令)的任何介质。这种介质可以采用许多形式,包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质包括例如光盘或磁盘和其他永久性存储器。易失性介质包括典型地构成主存储器的动态随机存取存储器(DRAM)。传输介质包括同轴电缆、铜线和光纤,包括含耦接到处理器的系统总线的电线。传输介质可以包括或传送诸如在射频(RF)和红外(IR)数据通信期间产生的声波、光波和电磁发射这样的声波、光波和电磁发射。常见形式的计算机可读介质包括例如软盘、柔性盘、硬盘、磁带、任何其他磁性介质、CD-ROM、DVD、任何其他光学介质、穿孔卡、纸带、具有孔图案的任何其他物理介质、RAM、PROM、EPROM、FLASHEEPROM、任何其他存储芯片或盒式磁带、如下文描述的载波、或计算机可从中读取的任何其他介质。
在将指令的序列携带到处理器时可以涉及到各种形式的计算机可读介质。例如,指令序列(i)可以从RAM传递到处理器,(ii)可以通过无线传输介质承载,和/或(iii)可以根据诸如蓝牙、TDMA、CDMA、3G之类的众多格式、标准或协议进行格式化。
本发明的实施例可以包括用于执行本文公开的操作的装置。装置可以被特殊构造以便用于所期望目的,或者它可以包括由存储在设备中的程序选择性地激活或重新配置的通用设备。
除非另外具体阐述,并且如以下说明书和权利要求书中显而易见的,应该了解,在整个说明书中,利用诸如“处理”、“计算”、“运算”、“确定”等之类的术语是指操纵被表示为诸如计算系统的寄存器和/或存储器内的物理(诸如,电子)量的数据和/或将该数据转换为被类似表示为计算系统的存储器、寄存器或其他这种信息存储、传输或显示设备内的物理量的其他数据的计算机或计算系统或类似电子计算设备的动作和/或处理。
以类似的方式,术语“处理器”可以是指处理来自寄存器和/或存储器的电子数据以将该电子数据转换为可以被存储在寄存器和/或存储器中或者可以被传送到外部设备以便引起外部设备的致动或物理变化的其他电子数据的任何设备或设备的一部分。
术语“智能体”或“智能的智能体”或“人工智能体”意在是指响应于观测而选择动作的任何人造实体。“智能体”可以是指而不限于机器人、仿真机器人、软件智能体或“机器人程序”(“bot”)、自适应智能体、互联网或网络机器人程序。
术语“机器人”可以是指由响应于感测或观测而发出动作或命令的计算机或计算系统直接或间接地控制的任何系统。该术语可以是指而不限于具有诸如相机、触摸传感器、距离传感器等之类的物理传感器的传统物理机器人,或者是指而不限于存在于虚拟仿真中的仿真机器人,或者是指而不限于作为软件存储于网络中的诸如邮件机器人程序或搜索机器人程序之类的“机器人程序”。它可以是指而不限于任何有肢机器人、步行机器人、工业机器人(包括但不限于用于自动化组装、喷涂、维修、维护等的机器人)、轮式机器人、真空清洁或割草机器人、个人助理机器人、服务机器人、医疗或外科手术机器人、飞行机器人、驾驶机器人、飞行器或航天器机器人、或任何其他机器人,车辆或者真实的或仿真的在基本上自主控制下操作的其他物体,还包括诸如智能家居或工作场所设备之类的固定机器人。
术语“观测”或其变型是指智能体通过任何手段接收到的关于智能体的环境或其本身的任何信息。在一些实施例中,该信息可以是通过传感设备接收的传感信息或信号,传感设备诸如而不限于照相机、触摸传感器、距离传感器、温度传感器、波长传感器、声音或语音传感器、位置传感器、压力或力传感器、速率或加速度或其他运动传感器、位置传感器(例如,GPS)等。在其他实施例中,信息还可以包括而不限于编译自与所存储的信息组合的传感设备的集合编译的、抽象的或情境的信息。在非限制性示例中,智能体可以接收关于其本身或其他对象的位置或特征的抽象信息作为观测。在一些实施例中,信息可以指人或顾客,或者是指诸如购买习惯、个人联系信息、个人偏好等之类的他们的特征。在一些实施例中,观测可以是关于智能体的内部部分的信息,诸如而不限于关于智能体的当前或过去动作的本体感受信息或其他信息、关于智能体的内部状态的信息或者已经由智能体计算或处理的信息。
术语“动作”是指智能体的用于控制、支配或影响智能体的环境、智能体的物理或仿真自我或智能体的内部功能的任何手段,这些手段最终可以控制或影响智能体的未来动作、动作选择或动作偏好。在许多实施例中,动作可以直接控制物理或仿真的伺服或致动器。在一些实施例中,动作可以是意图最终影响智能体选择的偏好或偏好集合的表达。在一些实施例中,关于智能体的动作的信息可以包括而不限于对智能体动作的概率分布和/或意图影响智能体的最终动作选择的传出信息。
术语“状态”或“状态信息”是指关于环境或智能体的状态的任何信息集合,其可以包括而不限于关于智能体的当前和/或过去的观测的信息。
术语“策略”是指从任何完整或部分状态信息到任何动作信息的任何功能或映射。策略可以是硬编码的,或者可以用任何适当的学习或教学方法(包括而不限于任何强化学习方法或控制优化方法)来修改、调整或训练。策略可以是显式映射,或者可以是隐式映射,诸如而不限于可能由于优化特定度量、值或函数而得到的映射。策略可以包括关联的附加信息、特征或特性,诸如而不限于反映策略可以在什么条件下开始或继续的起始条件(或概率)、反映策略可以在什么条件下终止的终止条件(或概率)。
概括地,本发明的实施例提供了一种使得能够同时学习多个RL任务离线策略的任务优先化经验回放(TaPER)算法。该算法可以对作为曾导致任务实现的固定长度事件的部分的样本进行优先化。这使得智能体能够通过对其早期成功进行自举(bootstrap)来快速学习任务策略。最后,TaPER可以同时提高所有任务的性能,这是多任务RL的期望特性。与应用于单个RL任务学习设置、或者需要奖励是二进制或充足的、或者作为目标的参数化规范提供的传统ER算法不同,TaPER没有施加这样的限制并且支持任意的奖励和任务规范。
TaPER满足多任务RL的多种期望性质。例如,TaPER同时提高了所有任务的性能。当在任务网络之间共享参数时,该特性是期望的。TaPER通过将对于一个任务而言优先化的数据与另一个任务共享来在任务之间进行学习传递。与均匀经验回放相比,配备了TaPER的智能体通过对其早期成功进行自举来快速学习任务策略。最后,TaPER使用随机优先化方法,该方法有助于抵抗过度拟合,尤其是在仅收集到少量经验的早期阶段。
如下面更详细地讨论的,本发明的实施例总体上涉及使用任务优先化经验回放算法的优先化离线策略RL的系统和计算机化方法。该系统和计算机化方法通过使得能够同时学习多个RL任务离线策略,通过对导致了任务实现的固定长度事件的部分的样本进行优先化,通过对其早期成功进行自举使得智能体能够快速学习任务策略,并且通过同时提高对所有任务的性能,提供计算机系统的效率和精度方面的技术改进。
在多任务RL设置的上下文中,本文中参考以下符号描述了TaPER的算法实现,其中,
n是待学习的可用任务的数量;
st是对时间t的环境状态的观测;
at是可以在时间t的环境中执行的动作选择;
πb(st)是用于观测st的智能体的行为策略的动作概率分布参数。在任何时间t,智能体执行从πb(st)采样的动作。
Figure BDA0003771664890000091
是奖励向量
Figure BDA0003771664890000092
其中每个分量
Figure BDA0003771664890000093
是由智能体在第i个任务接收到的标量奖励信号。
βj(st)∈{0,1}是每个任务j的终止函数,对于给定的观测st返回二进制值0或1。如果βj返回1,则任务已终止;否则其返回0;
Figure BDA0003771664890000094
表示所有任务的二进制终止向量。任务的终止值不会影响智能体的行为策略πb(st);
转移是指元组
Figure BDA0003771664890000095
事件(episode):T个转移的序列,其中,T是固定整数;
Figure BDA0003771664890000096
是存储所有观测到的转移的主缓冲区;
ε是事件缓冲区,其存储在正在进行的事件期间观测到的转移的索引;
所实现的任务指在事件的上下文内,如果条件
Figure BDA0003771664890000101
成立,则考虑实现的任务-j。
Figure BDA0003771664890000102
表示导致在第i个事件期间实现任务-j的一组转移索引。
Figure BDA0003771664890000103
表示所有任务的并集,并且
Figure BDA0003771664890000104
表示所有任务和事件的并集;
|X|表示存储在缓冲区X中的样本的数量。例如,
Figure BDA0003771664890000105
表示存储在主缓冲区中的转移的数量;
pi是存储在主缓冲区中的具有索引i的转移的优先级值;
P(i)是从主缓冲区采样具有索引i的转移的概率;
Figure BDA0003771664890000106
表示具有在转移索引上定义的概率分布P的从D采样的小批量转移B。
πi(st)是用于观测st的更新任务-i的策略的动作概率分布参数。在学习后,πi最佳地解决了任务;以及
Figure BDA0003771664890000107
是优化任务策略πi网络的离线策略RL算法。
TaPER做出关于环境的以下假设:
智能体以离散的时间步长与环境交互;
从t=0开始,为智能体提出要解决的n个任务。智能体知道数字n,但不知道任务描述;
在任何给定的时间t,智能体可以观测所有任务的奖励信号。即智能体知道
Figure BDA0003771664890000108
的值;
在任何给定时间t和对应的观测st,智能体可以观测到所有任务的终止值β(st)。即智能体知道
Figure BDA0003771664890000109
的值;以及
智能体的行为策略πb需要足够探索的以使智能体至少一次达到每个任务的终止状态。
参照图1,图示了在多任务RL设置中使用TaPER来学习的智能体10的概述。在图1中图示了智能体10和环境12之间的高级控制流。环境12可以包括智能体未知的n个任务描述,任务-1 14至任务-n 16。在任何时间t并且用观测到的环境状态st,智能体10可以执行动作at并且观测下一种环境状态st+1。智能体10还可以从所有任务接收标量奖励
Figure BDA0003771664890000111
和二进制终止值
Figure BDA0003771664890000112
转移元组
Figure BDA0003771664890000113
和终止向量
Figure BDA0003771664890000114
被用于更新智能体10的内部。该控制回路18可以无限期地持续或者直到所有任务都被认为解决为止。
智能体的控制回路18可以大致分类为(a)偶发的或(b)连续的。在偶发的情况下,在每个事件结束时,智能体的状态将被重置为初始状态(可以与其最后观测到的状态不同)。在这种情况下,事件具有不重叠的转移。然而,在连续的情况下,智能体在不重置的情况下继续执行动作。该情况可以被当作偶发的特殊情况对待,其中,智能体的初始状态是最后观测到的状态。连续回路中的事件被认为是T-1重叠转移的移动窗口。
智能体可以包括在图2中顺时针的总结如下的四个操作块:(1)对动作进行采样的块20可以返回针对观测st从行为策略πb采样的动作;(2)存储转移块22可以将新转移存储在主缓冲区
Figure BDA0003771664890000115
中;(3)更新优先级并对小批量(B)进行采样的块24可以更新转移优先级并对小批量的转移B进行采样;以及(4)优化任务策略块26可以使用离线策略算法
Figure BDA0003771664890000116
和小批量B来执行任务策略的优化步骤。
对动作进行采样
关于对动作进行采样的块20,智能体10具有它用于采样并在每个时间步长执行动作的探索性的行为策略πb。行为策略可以独立于任务策略πi
Figure BDA00037716648900001110
对行为策略的默认选择为均匀随机策略。然而,在复杂的环境中,均匀随机策略可能不足以进行有效的探索。其他选择包括对看不见的区域使用乐观的偏差,人为设计的策略等。
存储转移
关于存储转移块22,从行为策略采样的动作可以用于构造新转移
Figure BDA0003771664890000117
新转移
Figure BDA0003771664890000118
被存储在主缓存区
Figure BDA0003771664890000119
中。如果存在存储约束,则可以使用未确定大小的队列容器或有限大小的先进先出队列来实现主缓冲区。TaPER算法与主缓冲区的存储设计选择无关。该算法仅需要对转移按时间进行索引和排序,其中新转移具有与之相关的最高索引(到目前为止)。
更新优先级并对小批量进行采样
关于更新优先级和对小批量进行采样的块24,该块24有两个子部分:(a)更新转移优先级和(b)对小批量进行采样。
(a)更新转移优先级
相对于更新转移优先级子部分,下面详述了如何计算转移优先级。让i表示第i个事件的事件缓冲区εi。通过以下给出导致在第i个事件期间实现任务-j的一组转移索引:
Figure BDA0003771664890000121
其中,εi[0:1]表示从事件开始到t时间步长的一组转移索引。
Figure BDA0003771664890000122
是所有任务和观测到的事件的并集:
Figure BDA0003771664890000123
TaPER的一个专注是,属于
Figure BDA0003771664890000124
的转移优先化于未处于
Figure BDA0003771664890000125
的转移。考虑两个变型来设置每个转移的优先级值。第一变量为属于
Figure BDA0003771664890000126
的所有转移设置恒定优先级值:
Figure BDA0003771664890000127
针对
Figure BDA0003771664890000128
之外的转移的小的非零优先级值∈(为了不将它们完全排除在采样之外)。
还考虑到优先化的第二变型,其中,使用转移的时间差误差δ的大小来在
Figure BDA0003771664890000129
内的样本之间也进行优先化。
Figure BDA0003771664890000131
时间差误差δ是RL算法学习进度的合理代理。例如,在标准Q学习算法中,通过r+Q(st+1,arg maxa Q(st+1,a))-Q(st,at)给出δ。因此,通过使用δ的大小作为优先级值,对加速学习有用的转移优先化于未对加速学习有用的转移。加上∈,以确保优先级(|δi|+∈)是非零的。
在两种变型之间进行权衡。第二变型似乎更具吸引力,因为它可以通过专注于导致更快学习进度的转移来潜在地加快学习。然而,因为δ随时间变化,所以在计算上成本高,因此在每个优化步骤之后都需要不断地更新优先级。如果缓冲区远程存储在云中,这也会影响网络等待时间。计算不是第一变型的问题,因为优先级仅被设置一次。根据网络和计算预算,选择变型是TaPER算法的设计选择。下面的讨论依赖于第一变型的使用。
(b)对小批量进行采样
在设置了优先级的情况下,可以对下一个小批量的转移进行采样,以更新任务网络。仅使用优先级值对小批量进行采样(尤其是当集合
Figure BDA0003771664890000132
的大小小时)可以导致小集合
Figure BDA0003771664890000133
上的策略的过早收敛(过拟合)。为了应对这些问题,可以使用在贪婪优先化和均匀随机抽样之间进行插值的随机优先化方法:
Figure BDA0003771664890000134
其中,α∈[0,1]确定要使用多少优先级。由于pi非零,因此所有转移都有被选择的非零概率。通过设置α=0,TaPER减小为均匀采样ER。可建议在开始时将α设置为更接近0,并随着时间推移将其值递增至1。这使TaPER在早期通常表现得如同均匀ER,使得它避免了在小
Figure BDA0003771664890000135
中引用的转移上的过度拟合。使用转移概率,从
Figure BDA0003771664890000141
采样的小批量B的转移,以优化任务策略。
优化任务策略
使用所采样的小批量的转移B以使用离线策略算法
Figure BDA0003771664890000142
更新任务策略网络。对于时间差(TD)误差优先化变型(以上,式4),使用由
Figure BDA0003771664890000143
计算出的TD误差更新B中的转移的优先级。TaPER与算法
Figure BDA0003771664890000144
的选择无关。
下面的算法1在多任务RL设置的上下文中正式地描述了事件TaPER算法。对于连续的情况,缓冲区ε被实现为大小为T的移动窗口,以替代在每个事件结束时进行硬重置。
算法1:任务优先化的经验回放(事件)
Figure BDA0003771664890000145
如以上讨论的,任务优先化的经验回放(TaPER)算法使得能够同时学习多个RL任务离线策略。该算法对作为导致任务实现的固定长度事件的部分的样本进行优先化。这使得智能体能够通过对其早期成功进行自举来快速学习任务策略。最后,TaPER算法同时提高所有任务的性能,这是多任务RL的期望特性。
在不脱离本发明的精神和范围的情况下,可以由本领域的普通技术人员进行各种改变和修改。因此,必须理解,所图示的实施例仅出于示例的目的阐述,并且它们不应该被当作限制由以下权利要求限定的本发明。例如,尽管权利要求的要素在下面以某种组合阐述的事实,但必须明确地理解,本发明包括所公开要素中更少、更多或不同的要素的其他组合。
在本说明书中用于描述本发明及其各种实施例的词语不仅将在其共同定义的含义的意义上理解,而且将在本说明书中通过特殊定义包括它们代表单一物种的通用结构、材料或动作。
因此,在本说明书中,以下权利要求的词语或要素的定义不仅包括字面上阐述的要素的组合。因此,从这个意义上讲,可以针对以下权利要求中的任一个要素进行两个或多个要素的等效替换,或者可以针对权利要求中的两个或多个要素进行单个要素的替换。虽然要素可在以上被描述为以某些组合起作用并且甚至最初如此声明,但要明确理解,在某些情况下,所声明组合中的一个或多个要素可以被从组合中删除,并且所声明组合可以涉及子组合或子组合的变型。
因此,权利要求应该被理解为包括以上具体图示和描述的内容、概念上等同的内容、可以显而易见替代的内容还有包含本发明的基本思想的内容。

Claims (20)

1.一种在控制回路中训练智能体的方法,包括:
由所述智能体执行从用于观测(st)的行为策略(πb)采样的动作(at);
将转移元组存储在主缓冲区中,所述转移元组包括
Figure FDA0003771664880000011
其中,
Figure FDA0003771664880000012
是针对环境中的每个任务的奖励向量,并且st+1是所述动作(at)之后的下一种环境状态;
更新存储在所述主缓冲区中的每个转移元组的转移优先级;
对小批量的转移元组进行采样以更新任务网络;以及
用离线策略算法从更新后的所述任务网络优化任务策略。
2.根据权利要求1所述的方法,还包括继续所述控制循环,直到所述环境中的所有任务被解决为止。
3.根据权利要求1所述的方法,其中,所述环境中的所述任务对于所述智能体是未知的。
4.根据权利要求1所述的方法,其中,所述控制回路是偶发的,并且在每个事件之后,所述智能体的状态被重置为初始状态。
5.根据权利要求1所述的方法,其中,所述控制回路是连续的,其中,所述智能体在不重置所述智能体的状态的情况下执行动作。
6.根据权利要求1所述的方法,其中,所述行为策略是均匀随机策略。
7.根据权利要求1所述的方法,其中,所述行为策略选自使用针对看不见的区域的乐观偏差的策略或人为设计的策略。
8.根据权利要求1所述的方法,其中,通过下式给出导致在第i个事件期间实现任务-j的一组转移索引:
Figure FDA0003771664880000021
其中,εi[0:1]表示从所述事件开始到t时间步长的一组转移索引,并且
Figure FDA0003771664880000022
是所有任务和观测到的事件的并集。
9.根据权利要求8所述的方法,其中,属于
Figure FDA0003771664880000023
的转移赋予比不在
Figure FDA0003771664880000024
中的转移大的优先级。
10.根据权利要求9所述的方法,其中,属于
Figure FDA0003771664880000026
的转移的优先级值被赋予恒定值。
11.根据权利要求10所述的方法,其中,未在
Figure FDA0003771664880000027
中的转移被赋予非零优先级值。
12.根据权利要求9所述的方法,其中,属于
Figure FDA0003771664880000028
的转移的优先级值基于每个转移的时间差误差的大小而被赋予可变值。
13.根据权利要求1所述的方法,其中,根据下式来使用在贪婪优先化和均匀随机采样之间进行插值的随机优先化方法执行所述小批量的采样
Figure FDA0003771664880000025
其中,P(i)是从所述主缓冲区采样具有索引i的转移的概率,pi是从所述主缓冲区采样具有索引i的转移的优先级值,并且α∈[0,1]确定要使用多少优先级。
14.根据权利要求1所述的方法,其中,优化所述任务策略的步骤与所述离线策略算法的选择无关。
15.一种训练智能体的方法,包括:
由所述智能体执行从用于观测(st)的行为策略(πb)采样的动作(at);
将转移元组存储在主缓冲区中,所述转移元组包括
Figure FDA0003771664880000031
其中,
Figure FDA0003771664880000032
是针对环境中的每个任务的奖励向量,并且st+1是所述动作(at)之后的下一种环境状态;
更新存储在所述主缓冲区中的每个转移元组的转移优先级;
对小批量的转移元组进行采样以更新任务网络;以及
用离线策略算法从更新后的所述任务网络优化任务策略,其中,
属于导致在第i个事件期间实现任务-j的一组转移索引的转移被赋予比没有导致在第i个事件期间实现任务-j的转移大的优先级。
16.根据权利要求15所述的方法,其中,通过下式给出导致在所述第i个事件期间实现所述任务-j的一组转移索引:
Figure FDA0003771664880000033
其中,εi[0:1]表示从所述事件开始到t时间步长的一组转移索引,并且
Figure FDA0003771664880000034
是所有任务和观测到的事件的并集。
17.根据权利要求15所述的方法,其中,属于导致在所述第i个事件期间实现任务-j的所述一组转移索引的转移的优先级值被赋予恒定值,并且不在导致在所述第i个事件期间实现任务-j的所述一组转移索引中的转移被赋予非零优先级值。
18.根据权利要求15所述的方法,其中,属于导致在所述第i个事件期间实现任务-j的所述一组转移索引的转移的优先级值基于每个转移的时间差误差的大小而被赋予可变值。
19.一种其上存储有可执行程序的非暂态计算机可读存储介质,其中,所述程序指示一个或多个处理器执行以下步骤:
由所述智能体执行从用于观测(st)的行为策略(πb)采样的动作(at);
将转移元组存储在主缓冲区中,所述转移元组包括
Figure FDA0003771664880000041
其中,
Figure FDA0003771664880000042
是针对环境中的每个任务的奖励向量,并且st+1是所述动作(at)之后的下一种环境状态;
更新存储在所述主缓冲区中的每个转移元组的转移优先级;
对小批量的转移元组进行采样以更新任务网络;以及
用离线策略算法从更新后的所述任务网络优化任务策略,其中,
属于导致在第i个事件期间实现任务-j的一组转移索引的转移被赋予比没有导致在第i个事件期间实现任务-j的转移大的优先级。
20.根据权利要求19所述的非暂态计算机可读存储介质,其中,(a)属于导致在所述第i个事件期间实现任务-j的所述一组转移索引的转移的优先级值被赋予恒定值,并且不在导致在所述第i个事件期间实现任务-j的所述一组转移索引中的转移被赋予非零优先级值;或(b)属于导致在所述第i个事件期间实现任务-j的所述一组转移索引的转移的优先级值基于每个转移的时间差误差的大小而被赋予可变值。
CN202180011731.4A 2020-09-29 2021-06-03 用于强化学习的任务优先化的经验回放算法 Pending CN115039111A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/036,913 US20220101064A1 (en) 2020-09-29 2020-09-29 Task prioritized experience replay algorithm for reinforcement learning
US17/036,913 2020-09-29
PCT/US2021/070658 WO2022072955A1 (en) 2020-09-29 2021-06-03 Task prioritized experience replay algorithm for reinforcement learning

Publications (1)

Publication Number Publication Date
CN115039111A true CN115039111A (zh) 2022-09-09

Family

ID=80822001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180011731.4A Pending CN115039111A (zh) 2020-09-29 2021-06-03 用于强化学习的任务优先化的经验回放算法

Country Status (5)

Country Link
US (1) US20220101064A1 (zh)
EP (1) EP4196922A4 (zh)
JP (1) JP2023542654A (zh)
CN (1) CN115039111A (zh)
WO (1) WO2022072955A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117636623A (zh) * 2023-10-30 2024-03-01 暨南大学 一种基于离线强化学习的信号灯及路由协同控制方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220105626A1 (en) * 2020-10-05 2022-04-07 Autodesk, Inc. Techniques for force and torque-guided robotic assembly
CN115665154B (zh) * 2022-09-27 2024-06-11 武汉轻工大学 云任务分配方法及设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9679258B2 (en) * 2013-10-08 2017-06-13 Google Inc. Methods and apparatus for reinforcement learning
CN108027897B (zh) * 2015-07-24 2022-04-12 渊慧科技有限公司 利用深度强化学习的连续控制
US10839302B2 (en) * 2015-11-24 2020-11-17 The Research Foundation For The State University Of New York Approximate value iteration with complex returns by bounding
US20180165602A1 (en) * 2016-12-14 2018-06-14 Microsoft Technology Licensing, Llc Scalability of reinforcement learning by separation of concerns
EP3467717A1 (en) * 2017-10-04 2019-04-10 Prowler.io Limited Machine learning system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117636623A (zh) * 2023-10-30 2024-03-01 暨南大学 一种基于离线强化学习的信号灯及路由协同控制方法
CN117636623B (zh) * 2023-10-30 2024-08-16 暨南大学 一种基于离线强化学习的信号灯及路由协同控制方法

Also Published As

Publication number Publication date
JP2023542654A (ja) 2023-10-11
EP4196922A1 (en) 2023-06-21
EP4196922A4 (en) 2024-01-31
WO2022072955A1 (en) 2022-04-07
US20220101064A1 (en) 2022-03-31

Similar Documents

Publication Publication Date Title
CN115039111A (zh) 用于强化学习的任务优先化的经验回放算法
KR102596158B1 (ko) 이중 액터 크리틱 알고리즘을 통한 강화 학습
US11741342B2 (en) Resource-efficient neural architects
WO2018211139A1 (en) Training action selection neural networks using a differentiable credit function
CN110447041B (zh) 噪声神经网络层
JP2020204803A (ja) 学習方法及びプログラム
CN113168566A (zh) 通过使用熵约束来控制机器人
US20240123617A1 (en) Robot movement apparatus and related methods
van Hasselt et al. Learning to predict independent of span
EP4176386A1 (en) Training actor-critic algorithms in laboratory settings
Chen et al. Enhanced global flower pollination algorithm for parameter identification of chaotic and hyper-chaotic system
US11763170B2 (en) Method and system for predicting discrete sequences using deep context tree weighting
Zhang et al. Improved deep deterministic policy gradient algorithm based on prioritized sampling
JP2023512508A (ja) 異なる時定数を使用するモーメント推定を用いた学習
Sah et al. Log-based reward field function for deep-Q-learning for online mobile robot navigation
Fedorenko et al. The Neural Network for Online Learning Task Without Manual Feature Extraction
Wöhlke et al. Learning Hierarchical Planning-Based Policies from Offline Data
CN116401377B (zh) 一种基于扩散概率分布的时序知识图谱推理方法
Čík et al. Reinforcement learning as a service
Xia et al. Solving time-delay issues in reinforcement learning via transformers
JP2023118378A (ja) 計算装置および情報処理システム
Lu et al. Controller Design by Using Simultaneous Perturbation Stochastic Approximation with Changeable Sliding Window
Liang et al. Ultra-fast tuning of neural network controllers with application in path tracking of autonomous vehicle
Chen et al. A Control Method for Quadrotor Based on DDPG
Wu et al. Recency-Weighted Acceleration for Continuous Control Through Deep Reinforcement Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination