CN114492845A - 资源受限条件下提高强化学习探索效率的方法 - Google Patents

资源受限条件下提高强化学习探索效率的方法 Download PDF

Info

Publication number
CN114492845A
CN114492845A CN202210336685.1A CN202210336685A CN114492845A CN 114492845 A CN114492845 A CN 114492845A CN 202210336685 A CN202210336685 A CN 202210336685A CN 114492845 A CN114492845 A CN 114492845A
Authority
CN
China
Prior art keywords
resource
environment
reward
reinforcement learning
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210336685.1A
Other languages
English (en)
Other versions
CN114492845B (zh
Inventor
王杰
王治海
潘涛星
周祺
李厚强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202210336685.1A priority Critical patent/CN114492845B/zh
Publication of CN114492845A publication Critical patent/CN114492845A/zh
Application granted granted Critical
Publication of CN114492845B publication Critical patent/CN114492845B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Feedback Control In General (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种资源受限条件下提高强化学习探索效率的方法,包括:步骤1,智能体通过其运行的强化学习算法的策略网络的策略选择动作去探索环境;步骤2,接受环境返回执行所述智能体动作后的新状态和相应的外在奖励;步骤3,通过资源感知方式计算智能体用于探索环境的内在奖励;步骤4,按以下总体奖励计算公式计算所述智能体的总体奖励;步骤5,根据得出的智能体的总体奖励对所述智能体的强化学习算法的策略网络进行更新;步骤6,判断智能体本轮环境探索得到的所有外在奖励的累积值是否最大化,若否,则回到步骤1重复进行处理,若是,则结束本轮环境探索。该方法能在资源受限条件下,提升智能体应用的主流强化学习方法的探索效率。

Description

资源受限条件下提高强化学习探索效率的方法
技术领域
本发明涉及智能体的强化学习领域,尤其涉及一种资源受限条件下提高强化学习探索效率的方法。
背景技术
强化学习(Reinforcement Learning,RL)在自动驾驶机器人、智能机器人等智能体中有广泛的应用,强化学习方法具有学习复杂行为的强大能力,因此强化学习的应用近来引起了广泛的关注。在许多实际任务中,执行动作需要消耗某些类型的资源,如自动驾驶、智能机器人任务、军事部署、游戏AI以及商业决策等。例如,加速会在自动驾驶中消耗汽车的油量。此外,资源可能都是稀缺且不可补充的。在视频游戏中,可能会严重影响最终得分的特定动作需要消耗稀缺且不可补充的游戏物品。
在以上资源受限强化学习问题中,发明人发现现有主流强化学习算法都难以高效地探索环境,从而降低了样本效率。更糟糕的是,发明人观察到其中某些算法在某些任务中甚至无法学习到明显优于均匀随机策略的策略。一个主要原因是,这些算法会迅速消耗资源,因此导致了消耗完资源后续的探索无效。更进一步,发明人观察到现有最先进的高效探索算法依旧存在以上问题。因此,现有的技术都难以解决资源受限强化学习的问题。
有鉴于此,特提出本发明。
发明内容
本发明的目的是提供了一种资源受限条件下提高强化学习探索效率的方法,能降低样本复杂度,提升资源受限条件下强化学习的探索环境效率,进而解决现有技术中存在的上述技术问题。
本发明的目的是通过以下技术方案实现的:
本发明实施方式提供一种资源受限条件下提高强化学习探索效率的方法,用于智能体通过受限资源与环境交互完成预设的任务中,所述智能体利用受限资源探索环境,接受所述环境反馈的状态选择动作,所述环境接受所述智能体的动作决定该环境的新状态,包括:
步骤1,所述智能体通过其运行的强化学习算法的策略网络的策略选择动作去探索环境;
步骤2,接受所述环境返回执行所述智能体动作后的新状态和相应的外在奖励;
步骤3,通过资源感知方式计算所述智能体用于探索环境的内在奖励;
步骤4,按以下总体奖励计算公式计算所述智能体的总体奖励,所述总体奖励计算公式为:总体奖励 = 外在奖励 + 内在奖励×行为内在奖励系数;
步骤5,根据得出的所述智能体的总体奖励对所述智能体的强化学习算法的策略网络进行更新;
步骤6,判断所述智能体本轮环境探索得到的所有外在奖励的累积值是否最大化,若否,则回到所述步骤1重复进行处理,若是,则结束本轮环境探索。
与现有技术相比,本发明所提供的资源受限条件下提高强化学习探索效率的方法,其有益效果包括:
由于智能体探索环境的能力很大程度上取决于智能体可达状态集的大小。一般来说,智能体可达状态集越大,智能体探索环境的能力越强,从而有更大概率获取高奖励。本发明所提出的方法利用可达状态集的测度与剩余资源量的正相关关系,以通过资源感知方式计算智能体用于探索环境的内在奖励,引导智能体在探索环境过程中节约资源,以探索可达状态集更大的状态,从而更大概率地获得高奖励,实验证明该方法相对主流的探索方法在资源受限问题上可以达到一个数量级的效率提升。实验证明了本发明方法与主流强化学习方法结合能够结合高维复杂的资源强化学习问题,通过严格的理论分析证明该方法至少可以取得目前最优的无模型强化学习算法的样本效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供资源受限条件下提高强化学习探索效率的方法的流程图。
图2为本发明实施例提供的资源受限条件下提高强化学习探索效率的方法应用于控制仿真山地车形机器人在二维平面内爬山的示意图。
图3为本发明实施例提供资源受限条件下提高强化学习探索效率的方法与现有的强化学习算法在控制仿真蜘蛛形机器人搬运货物任务中的性能差异对比图。
图4为本发明实施例提供资源受限条件下提高强化学习探索效率的方法与现有的强化学习算法在控制仿真半豹形机器人搬运货物任务中的性能差异对比图。
图5为本发明实施例提供资源受限条件下提高强化学习探索效率的方法与现有的强化学习算法在控制仿真山地车形机器人搬运货物任务中的性能差异对比图。
具体实施方式
下面结合本发明的具体内容,对本发明实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,这并不构成对本发明的限制。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
首先对本文中可能使用的术语进行如下说明:
术语“和/或”是表示两者任一或两者同时均可实现,例如,X和/或Y表示既包括“X”或“Y”的情况也包括“X和Y”的三种情况。
术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
术语“由……组成”表示排除任何未明确列出的技术特征要素。若将该术语用于权利要求中,则该术语将使权利要求成为封闭式,使其不包含除明确列出的技术特征要素以外的技术特征要素,但与其相关的常规杂质除外。如果该术语只是出现在权利要求的某子句中,那么其仅限定在该子句中明确列出的要素,其他子句中所记载的要素并不被排除在整体权利要求之外。
除另有明确的规定或限定外,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如:可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本文中的具体含义。
术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述和简化描述,而不是明示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本文的限制。
下面对本发明所提供的面向资源受限强化学习问题的资源感知探索奖励方法进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。本发明实施例中所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。
如图1所示,本发明实施方式提供一种资源受限条件下提高强化学习探索效率的方法,是一种为资源受限强化学习问题提供的简单且高效的探索方法,用于智能体通过受限资源与环境交互完成预设的任务中,所述智能体利用受限资源探索环境,接受所述环境反馈的状态选择动作,所述环境接受所述智能体的动作决定该环境的新状态,包括:
步骤1,所述智能体通过其运行的强化学习算法的策略网络的策略选择动作去探索环境;
步骤2,接受所述环境返回执行所述智能体动作后的新状态和相应的外在奖励;
步骤3,通过资源感知方式计算所述智能体用于探索环境的内在奖励;
步骤4,按以下总体奖励计算公式计算所述智能体的总体奖励,所述总体奖励计算公式为:总体奖励 = 外在奖励 + 内在奖励×行为内在奖励系数;行为内在奖励系数已预先初始化;
步骤5,根据得出的所述智能体的总体奖励对所述智能体的强化学习算法的策略网络进行更新;
步骤6,判断所述智能体本轮环境探索得到的所有外在奖励的累积值是否最大化,若否,则回到所述步骤1重复进行处理,若是,则结束本轮环境探索。
上述方法步骤3中,通过资源感知方式计算所述智能体用于探索环境的内在奖励是计算每个状态动作对应的探索奖励
Figure 77999DEST_PATH_IMAGE001
,所述
Figure 260719DEST_PATH_IMAGE001
的计算公式为:
Figure 243718DEST_PATH_IMAGE002
其中,
Figure 29141DEST_PATH_IMAGE003
为资源重要性函数;
Figure 374671DEST_PATH_IMAGE004
为状态动作对
Figure 400396DEST_PATH_IMAGE005
的新颖度,状态动作对
Figure 57643DEST_PATH_IMAGE005
中,s 代表状态,a 代表动作;I(s)为当前状态s中资源的剩余量。
上述方法中,所述状态动作对
Figure 787701DEST_PATH_IMAGE005
的新颖度
Figure 659842DEST_PATH_IMAGE004
用智能体在对环境进行探索获得新数据后对真实环境模型的估计和真实环境模型的KL散度衡量,其中,
所述真实环境模型的KL散度的近似为:
Figure 43419DEST_PATH_IMAGE006
Figure 328907DEST_PATH_IMAGE007
Figure 472443DEST_PATH_IMAGE008
其中,
Figure 448358DEST_PATH_IMAGE009
Figure 409361DEST_PATH_IMAGE010
分别为环境的真实状态转移概率密度以及真实环境模型估计的状态转移概率密度;
Figure 791932DEST_PATH_IMAGE011
为分布
Figure 519586DEST_PATH_IMAGE009
Figure 694215DEST_PATH_IMAGE012
的交叉熵;
Figure 435906DEST_PATH_IMAGE013
为分布
Figure 430407DEST_PATH_IMAGE009
的熵;
则所述状态动作对
Figure 165014DEST_PATH_IMAGE005
的新颖度
Figure 866253DEST_PATH_IMAGE014
为:
Figure 169059DEST_PATH_IMAGE015
上述的资源重要性函数
Figure 509910DEST_PATH_IMAGE003
包括:针对单一资源问题的资源重要性函数
Figure 923574DEST_PATH_IMAGE003
与针对多种资源问题的资源重要性函数
Figure 479320DEST_PATH_IMAGE003
,其中,
所述的针对单一资源问题的资源重要性函数
Figure 77661DEST_PATH_IMAGE003
为:
Figure 781174DEST_PATH_IMAGE016
其中,
Figure 405054DEST_PATH_IMAGE017
为单一资源的初始资源量;
Figure 533416DEST_PATH_IMAGE018
为资源重要性系数,
Figure 912444DEST_PATH_IMAGE018
设为1,若
Figure 40937DEST_PATH_IMAGE018
设置大于1则会降低资源量对探索奖励的影响;
所述的针对多种资源问题的资源重要性函数
Figure 921038DEST_PATH_IMAGE003
为:
Figure 513693DEST_PATH_IMAGE019
其中,
Figure 938989DEST_PATH_IMAGE020
为第i种资源的初始资源量,i取值1到dd为资源的数量;
Figure 882675DEST_PATH_IMAGE021
为第i种资源的资源重要性系数,取
Figure 363203DEST_PATH_IMAGE021
=1;I i (s)为当前状态s中第i种资源的剩余量。
综上可见,本发明实施例的方法,利用可达状态集的测度与剩余资源量的正相关关系,引导智能体探索可达状态集更大的状态,从而更大概率地获得高奖励,实验证明该方法相对主流的探索方法在资源受限问题上可以达到一个数量级的效率提升。实验证明了本发明方法与主流强化学习方法结合能够结合高维复杂的资源强化学习问题,通过严格的理论分析证明该方法至少可以取得目前最优的无模型强化学习算法的样本效率。
为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果,下面以具体实施例对本发明实施例所提供的面向资源受限强化学习问题的资源感知探索奖励方法进行详细描述。
实施例1
如图1所示,本实施例提供一种资源受限条件下提高强化学习探索效率的方法,即探索奖励(Resource-Aware Exploration Bonus, RAEB)方法,下面以本发明拟解决的任务背景和具体问题,对本发明的详细技术方案进行说明:
任务背景:
给定一个现实应用中的决策任务,可以将给定问题建模为一个马尔可夫决策问题
Figure 951311DEST_PATH_IMAGE022
;用一个元组
Figure 406563DEST_PATH_IMAGE023
表示该马尔可夫决策问题;其中,
Figure 758915DEST_PATH_IMAGE024
是状态空间,
Figure 731551DEST_PATH_IMAGE025
是动作空间,并且状态空间和动作空间都是连续的;令
Figure 298798DEST_PATH_IMAGE026
为状态转移概率密度,令
Figure 315165DEST_PATH_IMAGE027
为确定性的奖励函数,令
Figure 905546DEST_PATH_IMAGE028
为折扣因子;将策略,即从状态空间到动作空间上的概率分布的映射记为
Figure 806506DEST_PATH_IMAGE029
;记
Figure 87315DEST_PATH_IMAGE030
为动作空间上的概率密度函数;将可行策略集合记为
Figure 415528DEST_PATH_IMAGE031
;强化学习问题的目标是得到使累计奖励和最大的最优策略,即:
Figure 430888DEST_PATH_IMAGE032
其中,
Figure 135539DEST_PATH_IMAGE033
并且μ为初始状态分布;在此基础上定义经过一步状态转移后的状态概率密度为:
Figure 622188DEST_PATH_IMAGE034
然后迭代式的定义经过
Figure 731089DEST_PATH_IMAGE035
步状态转移后的状态概率密度为:
Figure 358380DEST_PATH_IMAGE036
因为在现实应用中,可执行动作往往是受到剩余资源量的限制的,需要消耗超出当前状态剩余资源量的动作是不被允许的。在本发明中,给强化学习问题中的资源严格的定义,资源是与可执行动作集大小正相关的状态特征;假设给定问题涉及了
Figure 725776DEST_PATH_IMAGE037
种资源,要求从特定状态获得剩余资源量得映射是已知的,即:
Figure 794226DEST_PATH_IMAGE038
为描述资源对可达状态集和可执行动作集的影响,在本申请中定义可达状态集和动作集;给定策略
Figure 464242DEST_PATH_IMAGE039
,定义状态
Figure 437883DEST_PATH_IMAGE040
是状态
Figure 218757DEST_PATH_IMAGE041
可达的,当存在
Figure 407293DEST_PATH_IMAGE042
,使得
Figure 372844DEST_PATH_IMAGE043
,在此基础上,定义可达状态集
Figure 974726DEST_PATH_IMAGE044
,并且将可执行动作集记为
Figure 169079DEST_PATH_IMAGE045
本发明的技术方案为:
高效的探索是强化学习问题的关键,现实应用往往有稀疏奖励、容易陷入局部最优等特性,这些都使得环境难以得到高效的探索。而资源受限强化学习问题也属于这样的一类的问题,因为智能体消耗完资源后,且资源是不可再生的,智能体就无法再探索到还拥有资源的状态,导致低效的探索。
为解决该问题,本发明采用资源感知的探索奖励(Resource-Aware ExplorationBonus, RAEB)方式得到智能体的内在奖励。具体地,资源感知的探索奖励为:
Figure 461389DEST_PATH_IMAGE046
其中,
Figure 473207DEST_PATH_IMAGE047
为资源重要性函数;
Figure 906593DEST_PATH_IMAGE004
为状态动作对
Figure 294849DEST_PATH_IMAGE048
新颖度的衡量;
为衡量状态动作对
Figure 441666DEST_PATH_IMAGE049
的新颖度,采用称为新奇感(即Surprise)方法。具体地,是将计算在对环境进行探索获得新数据后对环境模型的估计和给定环境模型的KL散度(Kullback-Leibler divergence),并用此度量状态动作对
Figure 234172DEST_PATH_IMAGE050
的新颖度。在假设环境模型是确定性的条件下,可以得到KL散度的近似:
Figure 810647DEST_PATH_IMAGE006
Figure 658386DEST_PATH_IMAGE007
Figure 613704DEST_PATH_IMAGE008
其中,
Figure 967325DEST_PATH_IMAGE009
Figure 890151DEST_PATH_IMAGE010
分别为环境的真实状态转移概率密度以及真实环境模型估计的状态转移概率密度;
Figure 620209DEST_PATH_IMAGE011
为分布
Figure 226771DEST_PATH_IMAGE009
Figure 141506DEST_PATH_IMAGE012
的交叉熵;
Figure 426994DEST_PATH_IMAGE013
为分布
Figure 304951DEST_PATH_IMAGE009
的熵;状态动作对
Figure 359495DEST_PATH_IMAGE051
的新颖度的衡量如下:
Figure 445132DEST_PATH_IMAGE052
基于观察可达状态集的测度往往与剩余资源量正相关,则资源重要性函数
Figure 624440DEST_PATH_IMAGE003
为:
Figure 696301DEST_PATH_IMAGE053
其中,
Figure 729985DEST_PATH_IMAGE017
为给定问题的初始资源量;
Figure 596310DEST_PATH_IMAGE018
为在算法中指定的系数,
Figure 528494DEST_PATH_IMAGE018
增大会降低资源量对探索奖励的影响,一般取
Figure 997522DEST_PATH_IMAGE018
=1;
Figure 26658DEST_PATH_IMAGE054
为资源重要性函数;在大多数情况下,强化学习问题涉及到资源不止一种,针对这些涉及到多个种类的问题,则资源重要性函数为:
Figure 939250DEST_PATH_IMAGE055
与单一种类问题的资源重要性函数类似,
Figure 607997DEST_PATH_IMAGE020
为第i资源的初始资源量,一般取
Figure 756082DEST_PATH_IMAGE021
=1。
综上所述,可以计算出每个状态动作对应的探索奖励
Figure 515091DEST_PATH_IMAGE001
将本发明的方法作为一个独立算法组件和主流的强化学习算法结合。
具体地,令智能体在环境中探索收集数据
Figure 988797DEST_PATH_IMAGE056
,每获得一个数据
Figure 879262DEST_PATH_IMAGE057
,计算该数据
Figure 440824DEST_PATH_IMAGE058
的探索奖励,并保存为数据
Figure 365924DEST_PATH_IMAGE059
主流强化学习算法使用数据
Figure 479373DEST_PATH_IMAGE060
进行更新。
本发明针对资源受限的强化学习问题提出了鼓励引导探索的算法(RAEB),即资源感知的探索奖励方法。该算法针对现实应用中常见的问题设置,智能体的决策是受到有限且不可再生的资源限制的。在这类资源受限问题下,主流的强化学习方法往往会快速消耗完资源从而导致低效的探索;而本发明的方法(可称为RAEB)利用可达状态集的测度与剩余资源量的正相关关系,引导智能体探索可达状态集更大的状态,从而更大概率地获得高奖励,实验证明本发明的方法相对主流的探索方法在资源受限问题上可以达到高一个数量级的效率提升。实验证明了本发明的方法与主流强化学习方法结合能够结合高维复杂的资源强化学习问题。通过严格的理论分析也证明本发明的方法至少可以取得目前最优的无模型强化学习算法的样本效率。
下述所示为实现本发明方法的伪代码。其中第1行为内在奖励系数的初始化;第2-8行为大循环。每个大循环执行两部分操作:采集数据(第3-6行)与网络训练(第7行)。数据采集中,第3行表示根据策略选择动作,第4行表示环境返回执行动作后的新状态和相应的奖励,第5行表示计算用于探索的额外奖励,第6行表示对奖励进行变换,对奖励加上用于探索的额外奖励。网络优化中,第7行表示使用任意主流强化学习算法对策略网络进行更新。
基于资源感知的探索算法伪代码为:
1.输入:需要输入参数
Figure 811129DEST_PATH_IMAGE061
2.在以下步骤中循环:
a)智能体在状态s处根据策略
Figure 566595DEST_PATH_IMAGE062
采取动作
Figure 346201DEST_PATH_IMAGE063
b)智能体接收环境中的外在奖励
Figure 37077DEST_PATH_IMAGE064
和下一状态
Figure 715183DEST_PATH_IMAGE065
c)智能体计算探索奖励
Figure 133394DEST_PATH_IMAGE066
和资源感知系数
Figure 846136DEST_PATH_IMAGE067
d)计算总体奖励
Figure 504650DEST_PATH_IMAGE068
e)基于总体奖励更新策略函数;
f)判断智能体本轮环境探索得到的所有外在奖励的累积值是否最大化,若是,则终止循环,若否,重复步骤a-e。
实施例2
本实施例通过仿真机器人搬运货物的仿真环境,验证本发明方法的效果。具体是基于OpenAI Gym中的经典控制和Mujoco中的机器人运动设计了一系列机器人搬货任务。各仿真机器人搬货环境分别为:
一种是搬运山地车形机器人(Delivery Mountain Car)Delivery Mountain Car(参见图2的示意):控制山地车形机器人在二维平面内爬山,同时山地车形机器人可以在任意地点选择卸货或者不卸货,目标是山地车形机器人在山顶位置卸货。其中状态空间为3维,动作空间为2维。
又一种是搬运蜘蛛形机器人(Delivery Ant)Delivery Ant:控制蜘蛛形机器人在长廊内向前运动,同时蜘蛛形机器人可以在任意地点选择卸货或者不卸货,目标是蜘蛛形机器人在长廊靠近中部区域卸货。其中状态空间为32维,动作空间为9维。
另一种是搬运半豹形机器人(Delivery Half-Cheetah)Delivery Half-Cheetah:控制二维的半豹机器人在长廊内向前运动,同时半豹机器人可以在任意地点选择卸货或者不卸货,目标是半豹机器人在长廊靠近中部区域卸货。其中状态空间为18维,动作空间为7维。
对比实验结果如图3、4和5所示,作为对比,比较了本发明方法与现有的强化学习算法在三种仿真机器人搬运货物任务中的性能差异。按从左到右的顺序,每幅子图分别对应蜘蛛形机器人(图3,图3中A线代表本发明的方法在不断训练过程中智能体能够取得的累积回报,其余线为对比方法的表现,可以看出本发明的方法可以不断获取更高的累积回报,而对比方法可获取的累积回报基本接近于0)、猎豹形机器人(图4,图4中B线代表本发明的方法在不断训练过程中智能体能够取得的累积回报,其余线为对比方法的表现,可以看出本发明的方法可以不断获取更高的累积回报,而对比方法可获取的累积回报基本接近于0)、山地车形机器人(图5,图5中C线代表本发明的方法在不断训练过程中智能体能够取得的累积回报,其余线为对比方法的表现,可以看出本发明的方法可以不断获取更高的累积回报,而对比方法可获取的累积回报基本接近于0)的仿真控制。任务是控制仿真机器人在特定区域卸货,只有在特定区域卸货才能得分。图3至图5中每个图的横坐标为训练使用的样本数,纵坐标为得分。SAC表示软执行器-评价器(SoftActorCritic)算法,PPO表示近端策略优化(Proximal Policy Optimization)算法,Surprise表示本发明基于“惊奇感”的探索算法(Surprise-based Exploration Method),JDRX表示即Jensen-Renyi DivergenceReactive Exploration算法。从图3中可以看出本发明的方法在性能上远远超过了对比方法,尤其是在Delivery Ant 环境中,所有对比方法都无法学习到一个优于均匀随机策略的策略。
按以下方式应用本发明的方法,包括:
准备阶段:
选定待实现的任务,将其拆分为智能体与环境两部分;其中,智能体接受环境反馈的状态选择动作;环境接受该动作决定新的状态。然后,抽象出智能体的可执行动作,并设定好智能体接受的奖励;
最大化奖励的累积值即为本发明方法的目标;
训练阶段:
使用深度学习方法实现上述本发明方法的伪代码的处理流程,将其部署于智能体中,智能体遵循本发明方法中的相应流程与环境进行交互,并将交互信息用于策略的训练,重复进行一段时间的训练;
验证阶段:
将训练好的策略部署于智能体,让智能体与环境进行交互,计算一定次数决策中,获取的外在奖励总和,作为评价效果的指标。该外在奖励总和越大,说明训练效果越好。
综上可见,本发明实施例方法能实现在资源受限的条件下,有效提升强化学习的探索效率。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。本文背景技术部分公开的信息仅仅旨在加深对本发明的总体背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。

Claims (4)

1.一种资源受限条件下提高强化学习探索效率的方法,其特征在于,用于智能体通过受限资源与环境交互完成预设的任务中,所述智能体利用受限资源探索环境,接受所述环境反馈的状态选择动作,所述环境接受所述智能体的动作决定该环境的新状态,包括:
步骤1,所述智能体通过其运行的强化学习算法的策略网络的策略选择动作去探索环境;
步骤2,接受所述环境返回执行所述智能体动作后的新状态和相应的外在奖励;
步骤3,通过资源感知方式计算所述智能体用于探索环境的内在奖励;
步骤4,按以下总体奖励计算公式计算所述智能体的总体奖励,所述总体奖励计算公式为:总体奖励 = 外在奖励 + 内在奖励×行为内在奖励系数;
步骤5,根据得出的所述智能体的总体奖励对所述智能体的强化学习算法的策略网络进行更新;
步骤6,判断所述智能体本轮环境探索得到的所有外在奖励的累积值是否最大化,若否,则回到所述步骤1重复进行处理,若是,则结束本轮环境探索。
2.根据权利要求1所述的资源受限条件下提高强化学习探索效率的方法,其特征在于,所述步骤3中,通过资源感知方式计算所述智能体用于探索环境的内在奖励是计算每个状态动作对应的探索奖励
Figure 326912DEST_PATH_IMAGE001
,所述
Figure 830706DEST_PATH_IMAGE001
的计算公式为:
Figure 584904DEST_PATH_IMAGE002
其中,
Figure 679899DEST_PATH_IMAGE003
为资源重要性函数;
Figure 535860DEST_PATH_IMAGE004
为状态动作对
Figure 108924DEST_PATH_IMAGE005
的新颖度,状态动作对
Figure 983208DEST_PATH_IMAGE005
中,s 代表状态,a 代表动作;
Figure 249104DEST_PATH_IMAGE006
为当前状态s中资源的剩余量。
3.根据权利要求2所述的资源受限条件下提高强化学习探索效率的方法,其特征在于,所述状态动作对
Figure 592361DEST_PATH_IMAGE005
的新颖度
Figure 969115DEST_PATH_IMAGE004
用智能体在对环境进行探索获得新数据后对真实环境模型的估计和真实环境模型的KL散度衡量,其中,
所述真实环境模型的KL散度的近似为:
Figure 963485DEST_PATH_IMAGE007
Figure 400283DEST_PATH_IMAGE008
Figure 965256DEST_PATH_IMAGE009
其中,
Figure 880122DEST_PATH_IMAGE010
Figure 728999DEST_PATH_IMAGE011
分别为环境的真实状态转移概率密度以及真实环境模型估计的状态转移概率密度;
Figure 336697DEST_PATH_IMAGE012
为分布
Figure 388967DEST_PATH_IMAGE010
Figure 107524DEST_PATH_IMAGE013
的交叉熵;
Figure 810907DEST_PATH_IMAGE014
为分布
Figure 589507DEST_PATH_IMAGE010
的熵;
则所述状态动作对
Figure 129073DEST_PATH_IMAGE005
的新颖度
Figure 651321DEST_PATH_IMAGE004
为:
Figure 412473DEST_PATH_IMAGE015
4.根据权利要求2或3所述的资源受限条件下提高强化学习探索效率的方法,其特征在于,所述资源重要性函数
Figure 361974DEST_PATH_IMAGE016
包括针对单一资源问题的资源重要性函数
Figure 123257DEST_PATH_IMAGE016
与针对多种资源问题的资源重要性函数
Figure 721901DEST_PATH_IMAGE016
,其中,
所述针对单一资源问题的资源重要性函数
Figure 885029DEST_PATH_IMAGE016
为:
Figure 5432DEST_PATH_IMAGE017
其中,
Figure 519590DEST_PATH_IMAGE018
为单一资源的初始资源量;
Figure 632908DEST_PATH_IMAGE019
为资源重要性系数,取
Figure 650543DEST_PATH_IMAGE019
=1;
所述针对多种资源问题的资源重要性函数
Figure 473005DEST_PATH_IMAGE016
为:
Figure 208880DEST_PATH_IMAGE020
其中,
Figure 860310DEST_PATH_IMAGE021
为第i种资源的初始资源量,i取值1到d
Figure 998030DEST_PATH_IMAGE022
为第i种资源的资源重要性系数,取
Figure 725815DEST_PATH_IMAGE022
=1;d为资源的数量;I i (s)为当前状态s中第i种资源的剩余量。
CN202210336685.1A 2022-04-01 2022-04-01 资源受限条件下提高强化学习探索效率的方法 Active CN114492845B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210336685.1A CN114492845B (zh) 2022-04-01 2022-04-01 资源受限条件下提高强化学习探索效率的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210336685.1A CN114492845B (zh) 2022-04-01 2022-04-01 资源受限条件下提高强化学习探索效率的方法

Publications (2)

Publication Number Publication Date
CN114492845A true CN114492845A (zh) 2022-05-13
CN114492845B CN114492845B (zh) 2022-07-15

Family

ID=81488048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210336685.1A Active CN114492845B (zh) 2022-04-01 2022-04-01 资源受限条件下提高强化学习探索效率的方法

Country Status (1)

Country Link
CN (1) CN114492845B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018212918A1 (en) * 2017-05-18 2018-11-22 Microsoft Technology Licensing, Llc Hybrid reward architecture for reinforcement learning
CN109540150A (zh) * 2018-12-26 2019-03-29 北京化工大学 一种应用于危化品环境下多机器人路径规划方法
US20190354869A1 (en) * 2018-05-18 2019-11-21 Deepmind Technologies Limited Unsupervised control using learned rewards
CN111062491A (zh) * 2019-12-13 2020-04-24 周世海 一种基于强化学习的智能体探索未知环境方法
CN111260072A (zh) * 2020-01-08 2020-06-09 上海交通大学 一种基于生成对抗网络的强化学习探索方法
CN111931943A (zh) * 2020-05-20 2020-11-13 浙江大学 一种统一的基于好奇心驱动的强化学习方法
CN112613608A (zh) * 2020-12-18 2021-04-06 中国科学技术大学 一种强化学习方法及相关装置
CN113077052A (zh) * 2021-04-28 2021-07-06 平安科技(深圳)有限公司 用于稀疏奖励环境的强化学习方法、装置、设备及介质
CN113098714A (zh) * 2021-03-29 2021-07-09 南京邮电大学 一种基于深度强化学习的低时延网络切片的方法
CN113191484A (zh) * 2021-04-25 2021-07-30 清华大学 基于深度强化学习的联邦学习客户端智能选取方法及系统
WO2021156518A1 (en) * 2020-02-07 2021-08-12 Deepmind Technologies Limited Reinforcement learning with adaptive return computation schemes
CN113506086A (zh) * 2021-07-01 2021-10-15 游艺星际(北京)科技有限公司 任务发布方法、装置、计算机设备及介质
CN113589842A (zh) * 2021-07-26 2021-11-02 中国电子科技集团公司第五十四研究所 一种基于多智能体强化学习的无人集群任务协同方法
CN114169421A (zh) * 2021-12-01 2022-03-11 天津大学 基于内在动机的多智能体稀疏奖励环境协作探索方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018212918A1 (en) * 2017-05-18 2018-11-22 Microsoft Technology Licensing, Llc Hybrid reward architecture for reinforcement learning
US20190354869A1 (en) * 2018-05-18 2019-11-21 Deepmind Technologies Limited Unsupervised control using learned rewards
CN109540150A (zh) * 2018-12-26 2019-03-29 北京化工大学 一种应用于危化品环境下多机器人路径规划方法
CN111062491A (zh) * 2019-12-13 2020-04-24 周世海 一种基于强化学习的智能体探索未知环境方法
CN111260072A (zh) * 2020-01-08 2020-06-09 上海交通大学 一种基于生成对抗网络的强化学习探索方法
WO2021156518A1 (en) * 2020-02-07 2021-08-12 Deepmind Technologies Limited Reinforcement learning with adaptive return computation schemes
CN111931943A (zh) * 2020-05-20 2020-11-13 浙江大学 一种统一的基于好奇心驱动的强化学习方法
CN112613608A (zh) * 2020-12-18 2021-04-06 中国科学技术大学 一种强化学习方法及相关装置
CN113098714A (zh) * 2021-03-29 2021-07-09 南京邮电大学 一种基于深度强化学习的低时延网络切片的方法
CN113191484A (zh) * 2021-04-25 2021-07-30 清华大学 基于深度强化学习的联邦学习客户端智能选取方法及系统
CN113077052A (zh) * 2021-04-28 2021-07-06 平安科技(深圳)有限公司 用于稀疏奖励环境的强化学习方法、装置、设备及介质
CN113506086A (zh) * 2021-07-01 2021-10-15 游艺星际(北京)科技有限公司 任务发布方法、装置、计算机设备及介质
CN113589842A (zh) * 2021-07-26 2021-11-02 中国电子科技集团公司第五十四研究所 一种基于多智能体强化学习的无人集群任务协同方法
CN114169421A (zh) * 2021-12-01 2022-03-11 天津大学 基于内在动机的多智能体稀疏奖励环境协作探索方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DOYOUNG LEE ET AL: "Q-learning based Service Function Chaining using VNF Resource-aware Reward Model", 《2020 21ST ASIA-PACIFIC NETWORK OPERATIONS AND MANAGEMENT SYMPOSIUM (APNOMS)》 *
XIAOLAN LIU ET AL: "Multi-agent reinforcement learning for resource allocation in IoT networks with edge computing", 《CHINA COMMUNICATIONS》 *
方宝富等: "稀疏奖励下基于情感的异构多智能体强化学习", 《模式识别与人工智能》 *

Also Published As

Publication number Publication date
CN114492845B (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
Gronauer et al. Multi-agent deep reinforcement learning: a survey
Xia et al. A boosted decision tree approach using Bayesian hyper-parameter optimization for credit scoring
Such et al. Deep neuroevolution: Genetic algorithms are a competitive alternative for training deep neural networks for reinforcement learning
Liessner et al. Hyperparameter Optimization for Deep Reinforcement Learning in Vehicle Energy Management.
Rosenfeld et al. Combining psychological models with machine learning to better predict people’s decisions
Zhai et al. Instance selection for time series classification based on immune binary particle swarm optimization
Ali et al. A modified cultural algorithm with a balanced performance for the differential evolution frameworks
Zou et al. Dynamic multiobjective optimization driven by inverse reinforcement learning
Osa et al. Discovering diverse solutions in deep reinforcement learning by maximizing state–action-based mutual information
CN113570039A (zh) 一种基于强化学习的优化共识的区块链系统
CN112613608A (zh) 一种强化学习方法及相关装置
Meng et al. PaDE-NPC: Parameter adaptive differential evolution with novel parameter control for single-objective optimization
Wang et al. Penalty and prediction methods for dynamic constrained multi-objective optimization
Horie et al. Multi-objective safe reinforcement learning: the relationship between multi-objective reinforcement learning and safe reinforcement learning
CN114492845B (zh) 资源受限条件下提高强化学习探索效率的方法
CN114207539A (zh) 多智能体系统中的大规模策略评估
Aoun et al. Self inertia weight adaptation for the particle swarm optimization
Anwar et al. A cricket-based selection hyper-heuristic for many-objective optimization problems
Guzman et al. Adaptive model predictive control by learning classifiers
Simmons-Edler Overcoming Sampling and Exploration Challenges in Deep Reinforcement Learning
Breitenecker et al. Benchmarking of Simulation Systems--The ARGESIM Comparisons
CN112843726B (zh) 智能体处理方法及装置
Dong et al. Adaptive Evolutionary Reinforcement Learning with Policy Direction
Wang et al. APR-ES: Adaptive Penalty-Reward Based Evolution Strategy for Deep Reinforcement Learning
US20220114474A1 (en) Interactive agent

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant