CN114492845B

CN114492845B - 资源受限条件下提高强化学习探索效率的方法

Info

Publication number: CN114492845B
Application number: CN202210336685.1A
Authority: CN
Inventors: 王杰; 王治海; 潘涛星; 周祺; 李厚强
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-04-01
Filing date: 2022-04-01
Publication date: 2022-07-15
Anticipated expiration: 2042-04-01
Also published as: CN114492845A

Abstract

本发明公开了一种资源受限条件下提高强化学习探索效率的方法，包括：步骤1，智能体通过其运行的强化学习算法的策略网络的策略选择动作去探索环境；步骤2，接受环境返回执行所述智能体动作后的新状态和相应的外在奖励；步骤3，通过资源感知方式计算智能体用于探索环境的内在奖励；步骤4，按以下总体奖励计算公式计算所述智能体的总体奖励；步骤5，根据得出的智能体的总体奖励对所述智能体的强化学习算法的策略网络进行更新；步骤6，判断智能体本轮环境探索得到的所有外在奖励的累积值是否最大化，若否，则回到步骤1重复进行处理，若是，则结束本轮环境探索。该方法能在资源受限条件下，提升智能体应用的主流强化学习方法的探索效率。

Description

资源受限条件下提高强化学习探索效率的方法

技术领域

本发明涉及智能体的强化学习领域，尤其涉及一种资源受限条件下提高强化学习探索效率的方法。

背景技术

强化学习（Reinforcement Learning，RL）在自动驾驶机器人、智能机器人等智能体中有广泛的应用，强化学习方法具有学习复杂行为的强大能力，因此强化学习的应用近来引起了广泛的关注。在许多实际任务中，执行动作需要消耗某些类型的资源，如自动驾驶、智能机器人任务、军事部署、游戏AI以及商业决策等。例如，加速会在自动驾驶中消耗汽车的油量。此外，资源可能都是稀缺且不可补充的。在视频游戏中，可能会严重影响最终得分的特定动作需要消耗稀缺且不可补充的游戏物品。

在以上资源受限强化学习问题中，发明人发现现有主流强化学习算法都难以高效地探索环境，从而降低了样本效率。更糟糕的是，发明人观察到其中某些算法在某些任务中甚至无法学习到明显优于均匀随机策略的策略。一个主要原因是，这些算法会迅速消耗资源，因此导致了消耗完资源后续的探索无效。更进一步，发明人观察到现有最先进的高效探索算法依旧存在以上问题。因此，现有的技术都难以解决资源受限强化学习的问题。

有鉴于此，特提出本发明。

发明内容

本发明的目的是提供了一种资源受限条件下提高强化学习探索效率的方法，能降低样本复杂度，提升资源受限条件下强化学习的探索环境效率，进而解决现有技术中存在的上述技术问题。

本发明的目的是通过以下技术方案实现的：

本发明实施方式提供一种资源受限条件下提高强化学习探索效率的方法，用于智能体通过受限资源与环境交互完成预设的任务中，所述智能体利用受限资源探索环境，接受所述环境反馈的状态选择动作，所述环境接受所述智能体的动作决定该环境的新状态，包括：

步骤1，所述智能体通过其运行的强化学习算法的策略网络的策略选择动作去探索环境；

步骤2，接受所述环境返回执行所述智能体动作后的新状态和相应的外在奖励；

步骤3，通过资源感知方式计算所述智能体用于探索环境的内在奖励；

步骤4，按以下总体奖励计算公式计算所述智能体的总体奖励，所述总体奖励计算公式为：总体奖励 = 外在奖励＋内在奖励×行为内在奖励系数；

步骤5，根据得出的所述智能体的总体奖励对所述智能体的强化学习算法的策略网络进行更新；

步骤6，判断所述智能体本轮环境探索得到的所有外在奖励的累积值是否最大化，若否，则回到所述步骤1重复进行处理，若是，则结束本轮环境探索。

与现有技术相比，本发明所提供的资源受限条件下提高强化学习探索效率的方法，其有益效果包括：

由于智能体探索环境的能力很大程度上取决于智能体可达状态集的大小。一般来说，智能体可达状态集越大，智能体探索环境的能力越强，从而有更大概率获取高奖励。本发明所提出的方法利用可达状态集的测度与剩余资源量的正相关关系，以通过资源感知方式计算智能体用于探索环境的内在奖励，引导智能体在探索环境过程中节约资源，以探索可达状态集更大的状态，从而更大概率地获得高奖励，实验证明该方法相对主流的探索方法在资源受限问题上可以达到一个数量级的效率提升。实验证明了本发明方法与主流强化学习方法结合能够结合高维复杂的资源强化学习问题，通过严格的理论分析证明该方法至少可以取得目前最优的无模型强化学习算法的样本效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供资源受限条件下提高强化学习探索效率的方法的流程图。

图2为本发明实施例提供的资源受限条件下提高强化学习探索效率的方法应用于控制仿真山地车形机器人在二维平面内爬山的示意图。

图3为本发明实施例提供资源受限条件下提高强化学习探索效率的方法与现有的强化学习算法在控制仿真蜘蛛形机器人搬运货物任务中的性能差异对比图。

图4为本发明实施例提供资源受限条件下提高强化学习探索效率的方法与现有的强化学习算法在控制仿真半豹形机器人搬运货物任务中的性能差异对比图。

图5为本发明实施例提供资源受限条件下提高强化学习探索效率的方法与现有的强化学习算法在控制仿真山地车形机器人搬运货物任务中的性能差异对比图。

具体实施方式

下面结合本发明的具体内容，对本发明实施例中的技术方案进行清楚、完整地描述；显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，这并不构成对本发明的限制。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“和/或”是表示两者任一或两者同时均可实现，例如，X和/或Y表示既包括“X”或“Y”的情况也包括“X和Y”的三种情况。

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素（如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等），应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

术语“由……组成”表示排除任何未明确列出的技术特征要素。若将该术语用于权利要求中，则该术语将使权利要求成为封闭式，使其不包含除明确列出的技术特征要素以外的技术特征要素，但与其相关的常规杂质除外。如果该术语只是出现在权利要求的某子句中，那么其仅限定在该子句中明确列出的要素，其他子句中所记载的要素并不被排除在整体权利要求之外。

除另有明确的规定或限定外，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如：可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本文中的具体含义。

术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述和简化描述，而不是明示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本文的限制。

下面对本发明所提供的面向资源受限强化学习问题的资源感知探索奖励方法进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。本发明实施例中所用试剂或仪器未注明生产厂商者，均为可以通过市售购买获得的常规产品。

如图1所示，本发明实施方式提供一种资源受限条件下提高强化学习探索效率的方法，是一种为资源受限强化学习问题提供的简单且高效的探索方法，用于智能体通过受限资源与环境交互完成预设的任务中，所述智能体利用受限资源探索环境，接受所述环境反馈的状态选择动作，所述环境接受所述智能体的动作决定该环境的新状态，包括：

步骤4，按以下总体奖励计算公式计算所述智能体的总体奖励，所述总体奖励计算公式为：总体奖励 = 外在奖励＋内在奖励×行为内在奖励系数；行为内在奖励系数已预先初始化；

上述方法步骤3中，通过资源感知方式计算所述智能体用于探索环境的内在奖励是计算每个状态动作对应的探索奖励

，所述

的计算公式为：

；

其中，

为资源重要性函数；

为状态动作对

的新颖度，状态动作对

中，s 代表状态，a 代表动作；I(s)为当前状态s中资源的剩余量。

上述方法中，所述状态动作对

的新颖度

用智能体在对环境进行探索获得新数据后对真实环境模型的估计和真实环境模型的KL散度衡量，其中，

所述真实环境模型的KL散度的近似为：

；

；

；

其中，

和

分别为环境的真实状态转移概率密度以及真实环境模型估计的状态转移概率密度；

为分布

和

的交叉熵；

为分布

的熵；

则所述状态动作对

的新颖度

为：

。

上述的资源重要性函数

包括：针对单一资源问题的资源重要性函数

与针对多种资源问题的资源重要性函数

，其中，

所述的针对单一资源问题的资源重要性函数

为：

；

其中，

为单一资源的初始资源量；

为资源重要性系数，

设为1，若

设置大于1则会降低资源量对探索奖励的影响；

所述的针对多种资源问题的资源重要性函数

为：

；

其中，

为第i种资源的初始资源量，i取值1到d；d为资源的数量；

为第i种资源的资源重要性系数，取

=1；I _i (s)为当前状态s中第i种资源的剩余量。

综上可见，本发明实施例的方法，利用可达状态集的测度与剩余资源量的正相关关系，引导智能体探索可达状态集更大的状态，从而更大概率地获得高奖励，实验证明该方法相对主流的探索方法在资源受限问题上可以达到一个数量级的效率提升。实验证明了本发明方法与主流强化学习方法结合能够结合高维复杂的资源强化学习问题，通过严格的理论分析证明该方法至少可以取得目前最优的无模型强化学习算法的样本效率。

为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果，下面以具体实施例对本发明实施例所提供的面向资源受限强化学习问题的资源感知探索奖励方法进行详细描述。

实施例1

如图1所示，本实施例提供一种资源受限条件下提高强化学习探索效率的方法，即探索奖励(Resource-Aware Exploration Bonus, RAEB)方法，下面以本发明拟解决的任务背景和具体问题，对本发明的详细技术方案进行说明：

任务背景：

给定一个现实应用中的决策任务，可以将给定问题建模为一个马尔可夫决策问题

；用一个元组

表示该马尔可夫决策问题；其中，

是状态空间，

是动作空间，并且状态空间和动作空间都是连续的；令

为状态转移概率密度，令

为确定性的奖励函数，令

为折扣因子；将策略，即从状态空间到动作空间上的概率分布的映射记为

；记

为动作空间上的概率密度函数；将可行策略集合记为

；强化学习问题的目标是得到使累计奖励和最大的最优策略，即：

；

其中，

并且μ为初始状态分布；在此基础上定义经过一步状态转移后的状态概率密度为：

；

然后迭代式的定义经过

步状态转移后的状态概率密度为：

；

因为在现实应用中，可执行动作往往是受到剩余资源量的限制的，需要消耗超出当前状态剩余资源量的动作是不被允许的。在本发明中，给强化学习问题中的资源严格的定义，资源是与可执行动作集大小正相关的状态特征；假设给定问题涉及了

种资源，要求从特定状态获得剩余资源量得映射是已知的，即：

；

为描述资源对可达状态集和可执行动作集的影响，在本申请中定义可达状态集和动作集；给定策略

，定义状态

是状态

可达的，当存在

，使得

，在此基础上，定义可达状态集

，并且将可执行动作集记为

。

本发明的技术方案为：

高效的探索是强化学习问题的关键，现实应用往往有稀疏奖励、容易陷入局部最优等特性，这些都使得环境难以得到高效的探索。而资源受限强化学习问题也属于这样的一类的问题，因为智能体消耗完资源后，且资源是不可再生的，智能体就无法再探索到还拥有资源的状态，导致低效的探索。

为解决该问题，本发明采用资源感知的探索奖励(Resource-Aware ExplorationBonus, RAEB)方式得到智能体的内在奖励。具体地，资源感知的探索奖励为：

；

其中，

为资源重要性函数；

为状态动作对

新颖度的衡量；

为衡量状态动作对

的新颖度，采用称为新奇感（即Surprise）方法。具体地，是将计算在对环境进行探索获得新数据后对环境模型的估计和给定环境模型的KL散度（Kullback-Leibler divergence），并用此度量状态动作对

的新颖度。在假设环境模型是确定性的条件下，可以得到KL散度的近似：

；

；

；

其中，

和

为分布

和

的交叉熵；

为分布

的熵；状态动作对

的新颖度的衡量如下：

；

基于观察可达状态集的测度往往与剩余资源量正相关，则资源重要性函数

为：

；

其中，

为给定问题的初始资源量；

为在算法中指定的系数，

增大会降低资源量对探索奖励的影响，一般取

=1；

为资源重要性函数；在大多数情况下，强化学习问题涉及到资源不止一种，针对这些涉及到多个种类的问题，则资源重要性函数为：

；

与单一种类问题的资源重要性函数类似，

为第i资源的初始资源量，一般取

=1。

综上所述，可以计算出每个状态动作对应的探索奖励

。

将本发明的方法作为一个独立算法组件和主流的强化学习算法结合。

具体地，令智能体在环境中探索收集数据

，每获得一个数据

，计算该数据

的探索奖励，并保存为数据

；

主流强化学习算法使用数据

进行更新。

本发明针对资源受限的强化学习问题提出了鼓励引导探索的算法(RAEB)，即资源感知的探索奖励方法。该算法针对现实应用中常见的问题设置，智能体的决策是受到有限且不可再生的资源限制的。在这类资源受限问题下，主流的强化学习方法往往会快速消耗完资源从而导致低效的探索；而本发明的方法（可称为RAEB）利用可达状态集的测度与剩余资源量的正相关关系，引导智能体探索可达状态集更大的状态，从而更大概率地获得高奖励，实验证明本发明的方法相对主流的探索方法在资源受限问题上可以达到高一个数量级的效率提升。实验证明了本发明的方法与主流强化学习方法结合能够结合高维复杂的资源强化学习问题。通过严格的理论分析也证明本发明的方法至少可以取得目前最优的无模型强化学习算法的样本效率。

下述所示为实现本发明方法的伪代码。其中第1行为内在奖励系数的初始化；第2-8行为大循环。每个大循环执行两部分操作：采集数据（第3-6行）与网络训练（第7行）。数据采集中，第3行表示根据策略选择动作，第4行表示环境返回执行动作后的新状态和相应的奖励，第5行表示计算用于探索的额外奖励，第6行表示对奖励进行变换，对奖励加上用于探索的额外奖励。网络优化中，第7行表示使用任意主流强化学习算法对策略网络进行更新。

基于资源感知的探索算法伪代码为：

1.输入：需要输入参数

；

2.在以下步骤中循环：

a）智能体在状态s处根据策略

采取动作

；

b）智能体接收环境中的外在奖励

和下一状态

；

c）智能体计算探索奖励

和资源感知系数

；

d）计算总体奖励

；

e）基于总体奖励更新策略函数；

f）判断智能体本轮环境探索得到的所有外在奖励的累积值是否最大化，若是，则终止循环，若否，重复步骤a-e。

实施例2

本实施例通过仿真机器人搬运货物的仿真环境，验证本发明方法的效果。具体是基于OpenAI Gym中的经典控制和Mujoco中的机器人运动设计了一系列机器人搬货任务。各仿真机器人搬货环境分别为：

一种是搬运山地车形机器人（Delivery Mountain Car）Delivery Mountain Car（参见图2的示意）：控制山地车形机器人在二维平面内爬山，同时山地车形机器人可以在任意地点选择卸货或者不卸货，目标是山地车形机器人在山顶位置卸货。其中状态空间为3维，动作空间为2维。

又一种是搬运蜘蛛形机器人（Delivery Ant）Delivery Ant：控制蜘蛛形机器人在长廊内向前运动，同时蜘蛛形机器人可以在任意地点选择卸货或者不卸货，目标是蜘蛛形机器人在长廊靠近中部区域卸货。其中状态空间为32维，动作空间为9维。

另一种是搬运半豹形机器人（Delivery Half-Cheetah）Delivery Half-Cheetah：控制二维的半豹机器人在长廊内向前运动，同时半豹机器人可以在任意地点选择卸货或者不卸货，目标是半豹机器人在长廊靠近中部区域卸货。其中状态空间为18维，动作空间为7维。

对比实验结果如图3、4和5所示，作为对比，比较了本发明方法与现有的强化学习算法在三种仿真机器人搬运货物任务中的性能差异。按从左到右的顺序，每幅子图分别对应蜘蛛形机器人(图3，图3中A线代表本发明的方法在不断训练过程中智能体能够取得的累积回报，其余线为对比方法的表现，可以看出本发明的方法可以不断获取更高的累积回报，而对比方法可获取的累积回报基本接近于0)、猎豹形机器人(图4，图4中B线代表本发明的方法在不断训练过程中智能体能够取得的累积回报，其余线为对比方法的表现，可以看出本发明的方法可以不断获取更高的累积回报，而对比方法可获取的累积回报基本接近于0)、山地车形机器人(图5，图5中C线代表本发明的方法在不断训练过程中智能体能够取得的累积回报，其余线为对比方法的表现，可以看出本发明的方法可以不断获取更高的累积回报，而对比方法可获取的累积回报基本接近于0)的仿真控制。任务是控制仿真机器人在特定区域卸货，只有在特定区域卸货才能得分。图3至图5中每个图的横坐标为训练使用的样本数，纵坐标为得分。SAC表示软执行器-评价器（SoftActorCritic）算法，PPO表示近端策略优化（Proximal Policy Optimization）算法，Surprise表示本发明基于“惊奇感”的探索算法（Surprise-based Exploration Method），JDRX表示即Jensen-Renyi DivergenceReactive Exploration算法。从图3中可以看出本发明的方法在性能上远远超过了对比方法，尤其是在Delivery Ant 环境中，所有对比方法都无法学习到一个优于均匀随机策略的策略。

按以下方式应用本发明的方法，包括：

准备阶段：

选定待实现的任务，将其拆分为智能体与环境两部分；其中，智能体接受环境反馈的状态选择动作；环境接受该动作决定新的状态。然后，抽象出智能体的可执行动作，并设定好智能体接受的奖励；

最大化奖励的累积值即为本发明方法的目标；

训练阶段：

使用深度学习方法实现上述本发明方法的伪代码的处理流程，将其部署于智能体中，智能体遵循本发明方法中的相应流程与环境进行交互，并将交互信息用于策略的训练，重复进行一段时间的训练；

验证阶段：

将训练好的策略部署于智能体，让智能体与环境进行交互，计算一定次数决策中，获取的外在奖励总和，作为评价效果的指标。该外在奖励总和越大，说明训练效果越好。

综上可见，本发明实施例方法能实现在资源受限的条件下，有效提升强化学习的探索效率。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。本文背景技术部分公开的信息仅仅旨在加深对本发明的总体背景技术的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。