CN112613608A - 一种强化学习方法及相关装置 - Google Patents

一种强化学习方法及相关装置 Download PDF

Info

Publication number
CN112613608A
CN112613608A CN202011504906.9A CN202011504906A CN112613608A CN 112613608 A CN112613608 A CN 112613608A CN 202011504906 A CN202011504906 A CN 202011504906A CN 112613608 A CN112613608 A CN 112613608A
Authority
CN
China
Prior art keywords
preset
reinforcement learning
strategy
environment
reward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011504906.9A
Other languages
English (en)
Inventor
王杰
李厚强
周祺
匡宇飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202011504906.9A priority Critical patent/CN112613608A/zh
Publication of CN112613608A publication Critical patent/CN112613608A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Manipulator (AREA)

Abstract

本申请公开了一种强化学习方法及相关装置,其中,所述强化学习方法使用的正则化项为基于样本的正则化项,所述基于样本的正则化项包括所述目标智能体执行不同动作的额外奖励,其定义了探索行为的可取程度,且建模了所执行动作之间的相互影响,利用所述基于样本的正则化项进行强化学习时无需计算概率密度函数,有利于提升强化学习的效率,特别是提升针对复杂策略的强化学习效率。另外,利用所述基于样本的正则化项进行强化学习可以利用动作空间的几何信息,且可以与更广泛的策略结构兼容。

Description

一种强化学习方法及相关装置
技术领域
本申请涉及机器学习技术领域,更具体地说,涉及一种强化学习方法及相关装置。
背景技术
强化学习(Reinforcement Learning,RL)在视频游戏和机器人控制等领域中取得了巨大的成功。强化学习的目标是通过最大化累积回报来找到一个最优的策略,这通常会导致一个确定的策略。而在实际应用中,采用随机策略的效果优于采用确定性策略的效果。例如,对于新任务,随机策略往往可以更好地探索;此外,在发生意外情况时,使用随机策略往往比使用确定性策略的鲁棒性更好。
为了学习随机策略,现有的学习方法存在多方面的缺陷,其中主要问题包括针对复杂策略的学习效率低下的问题。
发明内容
为解决上述技术问题,本申请提供了一种强化学习方法及相关装置,以实现提高针对复杂策略的强化学习效率的目的。
为实现上述技术目的,本申请实施例提供了如下技术方案:
一种强化学习方法,包括:
获取目标智能体的环境交互信息,所述环境交互信息包括所述目标智能体按照预设策略与环境交互的结果信息;
从所述环境交互信息中,获取所述目标智能体与环境交互得到的奖励信息,根据所述奖励信息预测所述目标智能体执行第一预设动作获得的累计期望奖励;
根据所述累计期望奖励对所述预设策略进行优化;
对所述预设策略在预设状态下采取的第二预设动作进行采样,根据采样结果估计所述预设策略在所述预设状态下对应的正则项值,并将所述正则项值添加到对所述预设策略进行优化时采取的损失函数中;所述正则项值根据基于样本的正则化项估计得到,所述基于样本的正则化项包括所述目标智能体执行不同动作的额外奖励,且建模了所执行动作之间的相互影响。
可选的,所述基于样本的正则化项包括第一部分和第二部分之和,所述第一部分包括所述目标智能体执行不同动作的额外奖励,所述第二部分建模了所执行动作之间的相互影响。
可选的,所述第一部分包括:
Figure BDA0002844661830000021
所述第二部分包括:
Figure BDA0002844661830000022
所述基于样本的正则化项的表达式包括:
Figure BDA0002844661830000023
Figure BDA0002844661830000024
其中,π(·∣s)表示在预设状态为s时的动作执行概率,a和a′表示所述预设策略中的特定动作,
Figure BDA0002844661830000025
表示在执行特定动作a的概率满足π(·∣s)时,基于f(a)函数在预设状态为s时执行特定动作a的期望,
Figure BDA0002844661830000026
表示在执行特定动作a和a′的概率均满足π(·∣s)时,基于g(a,a′)函数在预设状态为s时先后执行特定动作a和a′的期望,
Figure BDA0002844661830000027
Figure BDA0002844661830000028
表示包含多个操作的紧凑操作空间,
Figure BDA0002844661830000029
表示实数集。
可选的,
Figure BDA00028446618300000210
其中,|| ||2表示二范数,u表示等概率的均匀分布。
可选的,
Figure BDA00028446618300000211
Figure BDA00028446618300000212
其中,u表示等概率的均匀分布,[·]i表示向量的第i维分量。
可选的,所述根据所述累计期望奖励对所述预设策略进行优化过程使用的目标函数包括:
Figure BDA00028446618300000213
其中,st,at表示时刻t时对应的状态和动作,Π表示策略集,α≥0表示超参数,γ∈(0,1)为折扣系数,
Figure BDA0002844661830000031
表示预设策略,Δ是
Figure BDA0002844661830000032
上的一组波莱尔概率度量,
Figure BDA0002844661830000033
表示有界奖励函数,Rmin和Rmax分别表示有界奖励函数的上界和下界。
可选的,所述获取目标智能体的环境交互信息,所述环境交互信息包括所述目标智能体按照预设策略与环境交互的结果信息之后还包括:
对获取的所述环境交互信息在预设样本库中进行存储和随机回放。
一种强化学习系统,包括:
数据采集模块,用于获取目标智能体的环境交互信息,所述环境交互信息包括所述目标智能体按照预设策略与环境交互的结果信息;
评价器训练模块,用于从所述环境交互信息中,获取所述目标智能体与环境交互得到的奖励信息,根据所述奖励信息预测所述目标智能体执行第一预设动作获得的累计期望奖励;
执行器训练模块,用于根据所述累计期望奖励对所述预设策略进行优化;
正则项模块,用于对所述预设策略在预设状态下采取的第二预设动作进行采样,根据采样结果估计所述预设策略在所述预设状态下对应的正则项值,并将所述正则项值添加到对所述预设策略进行优化时采取的损失函数中;所述正则项值根据基于样本的正则化项估计得到,所述基于样本的正则化项包括所述目标智能体执行不同动作的额外奖励,且建模了所执行动作之间的相互影响。
一种强化学习系统,包括:存储器和处理器;
所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,所述程序代码用于执行上述任一项所述的强化学习方法。
一种存储介质,所述存储介质上存储有程序代码,所述程序代码被执行时实现上述任一项所述的强化学习方法。
从上述技术方案可以看出,本申请实施例提供了一种强化学习方法及相关装置,其中,所述强化学习方法使用的正则化项为基于样本的正则化项,所述基于样本的正则化项包括所述目标智能体执行不同动作的额外奖励,其定义了探索行为的可取程度,且建模了所执行动作之间的相互影响,利用所述基于样本的正则化项进行强化学习时无需计算概率密度函数,有利于提升强化学习的效率,特别是提升针对复杂策略的强化学习效率。
另外,利用所述基于样本的正则化项进行强化学习可以利用动作空间的几何信息,且可以与更广泛的策略结构兼容。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请的一个实施例提供的一种强化学习方法的流程示意图;
图2为本申请的另一个实施例提供的一种强化学习方法的流程示意图;
图3为本申请的一个实施例提供的仿真机器人的控制环境;
图4为本申请的一个实施例提供的训练效果对比示意图;
图5为本申请的一个实施例提供的训练效果对比曲线图。
具体实施方式
正如背景技术中所述,现有技术中学习随机策略的方法主要包括软执行器-评价器(SoftActorCritic)、软Q学习(SoftQ-learning)以及路径一致性学习(PathConsistency Learning)等方法,这些方法均利用了基于熵正则化的强化学习框架。这类框架中,智能体除了最大化将例外,还需要最大化一个额外的熵正则项。常用的熵项包括香农熵(Shannonentropy)和Tsallis熵。前者可以提高策略学习的样本效率,即使用更少的样本学到更好的策略;而使用后者的解更接近原强化学习问题的最优解。
然而熵正则化往往陷入简单的策略表示与复杂低效的训练过程之间的两难选择。现有的正则项的一般形式为:
Figure BDA0002844661830000041
以前的方法通过平均值
Figure BDA0002844661830000042
对该正则项进行估计,其中N是样本数,
Figure BDA0002844661830000043
从策略π(·∣s)中采样。使用估计方式时,概率密度的计算需要是简单的。因此,常用的熵正则化强化学习方法通常用简单的分布,如高斯分布,来表示策略。然而近期的研究显示,使用简单分布表征策略存在多方面的缺陷,包括低效的探索,更容易陷入局部最优,无法学习多目标策略等。
近年来,一些方法尝试使用复杂的网络结构作为策略,以增强策略的表达能力。然而,这些方法通常需要低效的推理过程来优化策略或使用复杂的概率密度计算来估计熵。例如,通过规范化流表示策略需要额外的串行过程来计算概率密度,这带来了不可忽略的计算开销;此外,软Q学习需要使用复杂低效的变分推理技术来进行策略网络的优化。
因此,亟需一种针对复杂策略的学习提出一种高效的正则化强化学习方法,有鉴于此,本申请实施例提供了一种强化学习方法,包括:
获取目标智能体的环境交互信息,所述环境交互信息包括所述目标智能体按照预设策略与环境交互的结果信息;
从所述环境交互信息中,获取所述目标智能体与环境交互得到的奖励信息,根据所述奖励信息预测所述目标智能体执行第一预设动作获得的累计期望奖励;
根据所述累计期望奖励对所述预设策略进行优化;
对所述预设策略在预设状态下采取的第二预设动作进行采样,根据采样结果估计所述预设策略在所述预设状态下对应的正则项值,并将所述正则项值添加到对所述预设策略进行优化时采取的损失函数中;所述正则项值根据基于样本的正则化项估计得到,所述基于样本的正则化项包括所述目标智能体执行不同动作的额外奖励,且建模了所执行动作之间的相互影响。
在本实施例中,所述强化学习方法使用的正则化项为基于样本的正则化项,所述基于样本的正则化项包括所述目标智能体执行不同动作的额外奖励,其定义了探索行为的可取程度,且建模了所执行动作之间的相互影响,利用所述基于样本的正则化项进行强化学习时无需计算概率密度函数,有利于提升强化学习的效率,特别是提升针对复杂策略的强化学习效率。
另外,利用所述基于样本的正则化项进行强化学习可以利用动作空间的几何信息,且可以与更广泛的策略结构兼容。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种强化学习方法,如图1所示,包括:
S101:获取目标智能体的环境交互信息,所述环境交互信息包括所述目标智能体按照预设策略与环境交互的结果信息;
S102:从所述环境交互信息中,获取所述目标智能体与环境交互得到的奖励信息,根据所述奖励信息预测所述目标智能体执行第一预设动作获得的累计期望奖励;
S103:根据所述累计期望奖励对所述预设策略进行优化;
S104:对所述预设策略在预设状态下采取的第二预设动作进行采样,根据采样结果估计所述预设策略在所述预设状态下对应的正则项值,并将所述正则项值添加到对所述预设策略进行优化时采取的损失函数中;所述正则项值根据基于样本的正则化项估计得到,所述基于样本的正则化项包括所述目标智能体执行不同动作的额外奖励,且建模了所执行动作之间的相互影响。
所述目标智能体包括但不限于机器人以及视频或游戏中的控制目标等。所述目标智能体的环境交互信息是指目标智能体按照预设策略与环境交互的结果信息,具体地,目标智能体与环境进行交互的过程例如可以是:控制仿真机器人在所处环境中奔跑等。所述环境交互信息包括的目标智能体与环境交互的结果信息例如可以包括:机器人执行的动作、返回的状态以及获得的奖励等。
所述目标智能体与环境交互得到的奖励信息可通过奖励函数获得,常见的奖励函数可包括机器人行走了多元、控制机器人行走耗费了多少能量等。
在累计期望奖励的获取过程中,可通过时序差分与监督学习的方式学习目标智能体沿特定状态动作对触发执行特定策略能够获得的累计期望奖励。
步骤S102以及步骤S103均可实用多层全连接神经网络进行表示。在步骤S103中,可通过最大化所述累计期望奖励的方式不断对当前的所述预设策略进行优化和提升。
在步骤S104中,通过对预设策略在预设状态下可能采取的第二预设动作进行采样来估计出预设策略在该状态下所对应的正则项值的大小,并将该正则项值添加到执行器训练模块的损失函数中,从而增强所述预设策略的随机性,达到增强训练过程中的探索并增强预设策略鲁棒性的目的。
另外,在步骤S104中,由于在对正则项值进行估计的过程中使用的正则化项为基于样本的正则化项,在估计过程中无需计算概率密度函数,有利于提升强化学习的效率,特别是提升针对复杂策略的强化学习效率。
其中,可选的,所述基于样本的正则化项包括第一部分和第二部分之和,所述第一部分包括所述目标智能体执行不同动作的额外奖励,其定义了探索行为的可取程度,所述第二部分建模了所执行动作之间的相互影响。为了鼓励随机性,我们可以设置第二部分的取值与距离程正相关。此时第二部分的作用是鼓励采样的动作相互远离
具体地,所述第一部分包括:
Figure BDA0002844661830000071
所述第二部分包括:
Figure BDA0002844661830000072
所述基于样本的正则化项的表达式包括:
Figure BDA0002844661830000073
Figure BDA0002844661830000074
其中,π(·∣s)表示在预设状态为s时的动作执行概率,a和a′表示所述预设策略中的特定动作,
Figure BDA0002844661830000075
表示在执行特定动作a的概率满足π(·∣s)时,基于f(a)函数在预设状态为s时执行特定动作a的期望,
Figure BDA0002844661830000076
表示在执行特定动作a和a′的概率均满足π(·∣s)时,基于g(a,a′)函数在预设状态为s时先后执行特定动作a和a′的期望,
Figure BDA0002844661830000077
Figure BDA0002844661830000078
表示包含多个操作的紧凑操作空间,
Figure BDA0002844661830000079
表示实数集。
在所述基于样本的正则化项的确定过程中,我们考虑一个无限视界带折扣因子的马尔可夫决策过程。该过程由元组
Figure BDA00028446618300000710
定义,其中
Figure BDA00028446618300000711
是状态空间,
Figure BDA00028446618300000712
是一个包含多个操作的紧凑操作空间,
Figure BDA00028446618300000713
是一个转换概率函数,
Figure BDA00028446618300000714
是一个有界奖励函数,γ∈(0,1)是折扣系数,Rmin和Rmax分别表示有界奖励函数的上界和下界。让
Figure BDA00028446618300000715
表示策略,其中Δ是
Figure BDA00028446618300000716
上的一组波莱尔概率度量。即π(·∣s)∈Δ表示在状态为s时的动作执行概率。为了方便起见,我们重用了符号,并让π(·∣s)也表示相应的概率密度函数。让Π表示所有可能的策略集。函数之间的等式和不等式都是逐点的。例如,v≤v′表示v(s)≤v′(s)对
Figure BDA00028446618300000813
中的任意s成立。函数的最大值和上确界也是逐点的。给定一个(随机)向量x,[x]i表示其i个元素。在本申请中,“:”表示对某一参数或公式的说明,“→”表示映射。
正则化强化学习在标准强化学习地目标(期望折现收益)上额外增加了一个正则化项。其目标函数形式如下:
Figure BDA0002844661830000081
其中
Figure BDA0002844661830000082
是正则化项,st,at表示时刻t时对应的状态和动作,Π表示策略集,α≥0是超参数,γ为环境奖励的折扣因子,γt表示环境奖励的价值随时间t指数衰减。我们可以通过下列式子重新定义状态-动作值函数Q和状态值函数V:
Figure BDA0002844661830000083
Figure BDA0002844661830000084
这里s0,a0表示智能体在初始时刻的状态和动作,st,st+1表示智能体在时刻t,t+1的状态。我们的方法同样采用正则化强化学习路线,但不同于之前的方法,我们提出了一类全新的正则化项
Figure BDA0002844661830000085
即基于样本的正则化项。该正则项的估计可以摆脱对概率密度的依赖,从而可以适用于更复杂的策略族。具体地,其形式如下:
Figure BDA0002844661830000086
其中
Figure BDA0002844661830000087
Figure BDA0002844661830000088
均为有界的连续函数。对于这类正则项,我们同样可以使用平均值来进行估计,其具有以下形式
Figure BDA0002844661830000089
Figure BDA00028446618300000810
表示对正则化项
Figure BDA00028446618300000811
的估计值,N是样本数,
Figure BDA00028446618300000812
为从状态s下对应的策略π(·∣s)中采样得到的N个动作。从估计式中可以看出,该正则项的值估计不需要知道概率密度函数。
接下来,我们基于广义能量度量,为基于样本的正则化项提供了两个具体的示例:
在第一类示例中,
Figure BDA0002844661830000091
Figure BDA0002844661830000092
其中,|| ||2表示二范数,u表示等概率的均匀分布。
在第二类示例中,
Figure BDA0002844661830000093
Figure BDA0002844661830000094
其中,u表示等概率的均匀分布,[·]i表示向量的第i维分量。
当使用这两类正则化项时,通过调节超参数α,可以使所述预设策略趋近于等概率随机的策略,以进行充分的探索。适当地调小α可以实现探索与利用的平衡。
最后,我们介绍使用该正则化项的强化学习算法,即基于广义能量距离的执行器-评价器算法。在该方法中,我们使用神经网络来表征预设策略及其对应的Q值函数。我们用Adam优化器来更新这些网络的参数。对于Q值网络的学习,我们最小化如下损失函数:
Figure BDA0002844661830000095
其中ψ是Q值网络的参数,
Figure BDA0002844661830000096
代表一个经验回放池,V由Q值网络隐式决定。对于策略网络的学习,我们最大化以下目标函数:
Figure BDA0002844661830000097
该目标函数的优化可以使用重参数化技巧(Reparameterization Trick)实现。
在上述实施例的基础上,在本申请的一个实施例中,如图2所示,所述获取目标智能体的环境交互信息,所述环境交互信息包括所述目标智能体按照预设策略与环境交互的结果信息之后还包括:
S105:对获取的所述环境交互信息在预设样本库中进行存储和随机回放。
在本实施例中,通过步骤S105可实现旧有经验的循环利用,从而减少目标智能体探索环境的次数,提高已采集样本(环境交互信息)的利用效率。
总的来说,相较于基于熵正则化的强化学习方法,本申请实施例提供的强化学习方法具有以下优势:
(1)、可以利用动作空间的几何信息:熵正则化项主要考虑概率密度,但在一定程度上忽略了行为空间的几何信息。相比之下,我们提出的正则化项会着重考虑几何信息。因为该正则项的第二部分奖励了更大的动作间距离。我们认为几何信息在探索中很重要。例如,考虑到作用空间
Figure BDA0002844661830000101
在[0,1]上均匀分布的熵等于在
Figure BDA0002844661830000102
上均匀分布的熵,然而在实践中我们更倾向于选择后者作为探索策略。
(2)、可以与更广泛的策略结构兼容:一方面大部分策略网络的概率分布难以获知。比如使用噪声网络,或者生成式网络作为策略,其对应的动作分布不具有显式的概率密度函数。此时,该类网络结构难以与最大熵强化学习进行结合。另一方面,一些策略不具有良好定义的概率密度函数。比如,当策略由几个确定性策略的集成表示时,其动作的分布是狄拉克混合物(DiracMixture),其不具有传统意义的概率密度函数,因此无法和最大熵强化学习相结合。相比之下,我们的正则项与概率密度函数无关,对策略族并没有相应的限制。因此,我们的方法能使用与更多种类的策略网络相结合。
(3)、更高效的训练与计算:传统的基于熵正则化的强化学习方法,在训练时需要计算概率密度函数,而这个过程在使用复杂策略时往往是极其低效的。比如在使用正则化流策略时,估计熵正则化需要一个耗时的串行过程来计算概率密度,而我们的方法不需要这个额外的步骤。此外,在使用集成模型时,熵正则项需要计算所有模型对应的概率密度函数,以得到整体的概率密度函数,而我们的方法只需要采样其中的部分网络进行计算。
下面针对具体的应用场景对本申请实施例提供的强化学习方法进行验证。
在验证过程中,将仿真机器人作为所述目标智能体,参考图3,图3示出了仿真机器人的控制环境,我们在6个不同的仿真机器人控制环境下实现并测试了本申请实施例提供的强化学习方法。在这些任务环境中,可观测的状态为仿真机器人各个部位(如腿部、关节等)的不同物理量(如位置、角度、速度等),可控制的动作为特定部位(如腿部、头部)使用的力的大小。具体地,6个仿真机器人控制环境分别为:
1.Ant-v2:控制三维蚂蚁机器人向前奔跑。其中状态空间为111维,动作空间为8维。
2.HalfCheetah-v2:控制二维半豹机器人向前奔跑。其中状态空间为17维,动作空间为6维。
3.Humanoid-v2:控制三维人形机器人向前奔跑。其中状态空间为376维,动作空间为17维。
4.Walker2d-v2:控制二维人形机器人向前奔跑。其中状态空间为17维,动作空间为6维。
5.Hopper-v2:控制二维人形机器人向前跳跃。其中状态空间为11维,动作空间为3维。
6.Swimmer-v2:控制二维蛇形机器人向前游动。其中状态空间为8维,动作空间为2维。
对比试验结果:
本申请实施例提供的强化学习方法在机械控制、机器人控制领域取得了非常良好的实验效果。该算法在上述训练效果对比如图4和图5所示。
作为对比,我们比较了本申请实施例提供的强化学习方法与现有的强化学习算法在仿真机器人控制领域的性能差异。按从左到右、从上到下的顺序,每幅子图分别对应蜘蛛形、猎豹形、人形,双足形,单足形,蛇形机器人的仿真控制。任务是控制仿真机器人往特定方向前行,前行速度越快得分越高。图5中每个图片的横坐标为训练使用的样本数,纵坐标为得分。SAC代表软执行器-评价器(Soft Actor Critic)算法,TD3代表即Twin DelayedDeep Deterministic Policy Gradient算法,DDPG代表深度确定性策略梯度(DeepDeterministic Policy Gradient)算法。从图5中可以看出我们的算法在性能上至少与对比方法相当。在Ant和Walker2d环境上优于对比方法。
下面对本申请实施例提供的强化学习系统进行描述,下文描述的强化学习系统可与上文描述的强化学习方法相互对应参照。
相应的,本申请实施例提供了一种强化学习系统,包括:
数据采集模块,用于获取目标智能体的环境交互信息,所述环境交互信息包括所述目标智能体按照预设策略与环境交互的结果信息;
评价器训练模块,用于从所述环境交互信息中,获取所述目标智能体与环境交互得到的奖励信息,根据所述奖励信息预测所述目标智能体执行第一预设动作获得的累计期望奖励;
执行器训练模块,用于根据所述累计期望奖励对所述预设策略进行优化;
正则项模块,用于对所述预设策略在预设状态下采取的第二预设动作进行采样,根据采样结果估计所述预设策略在所述预设状态下对应的正则项值,并将所述正则项值添加到对所述预设策略进行优化时采取的损失函数中;所述正则项值根据基于样本的正则化项估计得到,所述基于样本的正则化项包括所述目标智能体执行不同动作的额外奖励,且建模了所执行动作之间的相互影响。
相应的,本申请实施例还提供了一种强化学习系统,包括:存储器和处理器;
所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,所述程序代码用于执行上述任一项所述的强化学习方法。
相应的,本申请实施例还提供了一种存储介质,所述存储介质上存储有程序代码,所述程序代码被执行时实现上述任一项所述的强化学习方法。
在本公开的上下文中,存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。存储介质可以是机器可读信号介质或机器可读储存介质。存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
需要说明的是,本公开上述的存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。存储介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述存储介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
本说明书中各实施例中记载的特征可以相互替换或者组合,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种强化学习方法,其特征在于,包括:
获取目标智能体的环境交互信息,所述环境交互信息包括所述目标智能体按照预设策略与环境交互的结果信息;
从所述环境交互信息中,获取所述目标智能体与环境交互得到的奖励信息,根据所述奖励信息预测所述目标智能体执行第一预设动作获得的累计期望奖励;
根据所述累计期望奖励对所述预设策略进行优化;
对所述预设策略在预设状态下采取的第二预设动作进行采样,根据采样结果估计所述预设策略在所述预设状态下对应的正则项值,并将所述正则项值添加到对所述预设策略进行优化时采取的损失函数中;所述正则项值根据基于样本的正则化项估计得到,所述基于样本的正则化项包括所述目标智能体执行不同动作的额外奖励,且建模了所执行动作之间的相互影响。
2.根据权利要求1所述的方法,其特征在于,所述基于样本的正则化项包括第一部分和第二部分之和,所述第一部分包括所述目标智能体执行不同动作的额外奖励,所述第二部分建模了所执行动作之间的相互影响。
3.根据权利要求2所述的方法,其特征在于,所述第一部分包括:
Figure FDA0002844661820000011
所述第二部分包括:
Figure FDA0002844661820000012
所述基于样本的正则化项的表达式包括:
Figure FDA0002844661820000013
Figure FDA0002844661820000014
其中,π(·∣s)表示在预设状态为s时的动作执行概率,a和a′表示所述预设策略中的特定动作,
Figure FDA0002844661820000015
表示在执行特定动作a的概率满足π(·∣s)时,基于f(a)函数在预设状态为s时执行特定动作a的期望,
Figure FDA0002844661820000016
表示在执行特定动作a和a′的概率均满足π(·∣s)时,基于g(a,a′)函数在预设状态为s时先后执行特定动作a和a′的期望,
Figure FDA0002844661820000017
Figure FDA0002844661820000018
Figure FDA0002844661820000019
表示包含多个操作的紧凑操作空间,
Figure FDA00028446618200000110
表示实数集。
4.根据权利要求3所述的方法,其特征在于,
Figure FDA00028446618200000111
Figure FDA00028446618200000112
其中,||||2表示二范数,u表示等概率的均匀分布。
5.根据权利要求3所述的方法,其特征在于,
Figure FDA0002844661820000021
Figure FDA0002844661820000022
其中,u表示等概率的均匀分布,[·]i表示向量的第i维分量。
6.根据权利要求4或5任一项所述的方法,其特征在于,所述根据所述累计期望奖励对所述预设策略进行优化过程使用的目标函数包括:
Figure FDA0002844661820000023
其中,st,at表示时刻t时对应的状态和动作,Π表示策略集,α≥0表示超参数,γ∈(0,1)为折扣系数,
Figure FDA0002844661820000024
表示预设策略,Δ是
Figure FDA0002844661820000025
上的一组波莱尔概率度量,
Figure FDA0002844661820000026
表示有界奖励函数,Rmin和Rmax分别表示有界奖励函数的上界和下界。
7.根据权利要求1所述的方法,其特征在于,所述获取目标智能体的环境交互信息,所述环境交互信息包括所述目标智能体按照预设策略与环境交互的结果信息之后还包括:
对获取的所述环境交互信息在预设样本库中进行存储和随机回放。
8.一种强化学习系统,其特征在于,包括:
数据采集模块,用于获取目标智能体的环境交互信息,所述环境交互信息包括所述目标智能体按照预设策略与环境交互的结果信息;
评价器训练模块,用于从所述环境交互信息中,获取所述目标智能体与环境交互得到的奖励信息,根据所述奖励信息预测所述目标智能体执行第一预设动作获得的累计期望奖励;
执行器训练模块,用于根据所述累计期望奖励对所述预设策略进行优化;
正则项模块,用于对所述预设策略在预设状态下采取的第二预设动作进行采样,根据采样结果估计所述预设策略在所述预设状态下对应的正则项值,并将所述正则项值添加到对所述预设策略进行优化时采取的损失函数中;所述正则项值根据基于样本的正则化项估计得到,所述基于样本的正则化项包括所述目标智能体执行不同动作的额外奖励,且建模了所执行动作之间的相互影响。
9.一种强化学习系统,其特征在于,包括:存储器和处理器;
所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,所述程序代码用于执行权利要求1-7任一项所述的强化学习方法。
10.一种存储介质,其特征在于,所述存储介质上存储有程序代码,所述程序代码被执行时实现权利要求1-7任一项所述的强化学习方法。
CN202011504906.9A 2020-12-18 2020-12-18 一种强化学习方法及相关装置 Pending CN112613608A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011504906.9A CN112613608A (zh) 2020-12-18 2020-12-18 一种强化学习方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011504906.9A CN112613608A (zh) 2020-12-18 2020-12-18 一种强化学习方法及相关装置

Publications (1)

Publication Number Publication Date
CN112613608A true CN112613608A (zh) 2021-04-06

Family

ID=75241146

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011504906.9A Pending CN112613608A (zh) 2020-12-18 2020-12-18 一种强化学习方法及相关装置

Country Status (1)

Country Link
CN (1) CN112613608A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113705777A (zh) * 2021-08-07 2021-11-26 中国航空工业集团公司沈阳飞机设计研究所 一种无人机自主寻径模型训练方法及装置
CN114492845A (zh) * 2022-04-01 2022-05-13 中国科学技术大学 资源受限条件下提高强化学习探索效率的方法
CN115660110A (zh) * 2022-12-26 2023-01-31 中国科学院自动化研究所 多智能体信用分配方法、装置、可读存储介质和智能体

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182476A (zh) * 2017-12-22 2018-06-19 天津科技大学 一种强化学习中受意愿控制的策略学习方法
US20190156197A1 (en) * 2017-11-22 2019-05-23 International Business Machines Corporation Method for adaptive exploration to accelerate deep reinforcement learning
EP3543918A1 (en) * 2018-03-20 2019-09-25 Flink AI GmbH Reinforcement learning method
CN111612126A (zh) * 2020-04-18 2020-09-01 华为技术有限公司 强化学习的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190156197A1 (en) * 2017-11-22 2019-05-23 International Business Machines Corporation Method for adaptive exploration to accelerate deep reinforcement learning
CN108182476A (zh) * 2017-12-22 2018-06-19 天津科技大学 一种强化学习中受意愿控制的策略学习方法
EP3543918A1 (en) * 2018-03-20 2019-09-25 Flink AI GmbH Reinforcement learning method
CN111612126A (zh) * 2020-04-18 2020-09-01 华为技术有限公司 强化学习的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MIRA LAB: ""NeurIPS 2020 | 一种基于动作采样的简单高效的正则化强化学习方法"", 《HTTP://ZHUANLAN.ZHIHU.COM/P/323483280》 *
刘勇 等, 北京理工大学出版社 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113705777A (zh) * 2021-08-07 2021-11-26 中国航空工业集团公司沈阳飞机设计研究所 一种无人机自主寻径模型训练方法及装置
CN113705777B (zh) * 2021-08-07 2024-04-12 中国航空工业集团公司沈阳飞机设计研究所 一种无人机自主寻径模型训练方法及装置
CN114492845A (zh) * 2022-04-01 2022-05-13 中国科学技术大学 资源受限条件下提高强化学习探索效率的方法
CN114492845B (zh) * 2022-04-01 2022-07-15 中国科学技术大学 资源受限条件下提高强化学习探索效率的方法
CN115660110A (zh) * 2022-12-26 2023-01-31 中国科学院自动化研究所 多智能体信用分配方法、装置、可读存储介质和智能体

Similar Documents

Publication Publication Date Title
Haarnoja et al. Reinforcement learning with deep energy-based policies
CN112613608A (zh) 一种强化学习方法及相关装置
CN112325897B (zh) 基于启发式深度强化学习的路径规划方法
CN113919482A (zh) 智能体训练方法、装置、计算机设备和存储介质
Knegt et al. Opponent modelling in the game of Tron using reinforcement learning
Andersen et al. Towards safe reinforcement-learning in industrial grid-warehousing
CN112734014A (zh) 基于置信上界思想的经验回放采样强化学习方法及系统
CN114742231A (zh) 基于帕累托优化的多目标强化学习方法和装置
CN116841317A (zh) 一种基于图注意力强化学习的无人机集群协同对抗方法
CN114154397B (zh) 一种基于深度强化学习的隐式对手建模方法
Liu et al. Forward-looking imaginative planning framework combined with prioritized-replay double DQN
CN115009291B (zh) 基于网络演化重放缓冲区的自动驾驶辅助决策方法及系统
CN116128028A (zh) 一种连续决策空间组合优化的高效深度强化学习算法
KR20220166716A (ko) 퓨샷 모방을 위한 시연 조건부 보강 학습
CN114840024A (zh) 基于情景记忆的无人机控制决策方法
Zhou et al. Deep reinforcement learning based intelligent decision making for two-player sequential game with uncertain irrational player
Morales Deep Reinforcement Learning
Chen et al. Modified PPO-RND method for solving sparse reward problem in ViZDoom
Lu et al. Sampling diversity driven exploration with state difference guidance
CN116718198B (zh) 基于时序知识图谱的无人机集群的路径规划方法及系统
Sugimoto et al. An Experimental Study for Tracking Ability of Deep Q-Network
Ji et al. Research on Path Planning of Mobile Robot Based on Reinforcement Learning
CN117193008B (zh) 面向高维扰动环境的小样本鲁棒模仿学习训练方法、电子设备及存储介质
Liu Comparison of Deep Q Network and Its Variations in a Banana Collecting Environment
CN117553803B (zh) 一种基于深度强化学习的多无人机智能路径规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210406

RJ01 Rejection of invention patent application after publication