CN114492845B - 资源受限条件下提高强化学习探索效率的方法 - Google Patents
资源受限条件下提高强化学习探索效率的方法 Download PDFInfo
- Publication number
- CN114492845B CN114492845B CN202210336685.1A CN202210336685A CN114492845B CN 114492845 B CN114492845 B CN 114492845B CN 202210336685 A CN202210336685 A CN 202210336685A CN 114492845 B CN114492845 B CN 114492845B
- Authority
- CN
- China
- Prior art keywords
- resource
- environment
- intelligent agent
- reward
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 230000002787 reinforcement Effects 0.000 title claims abstract description 59
- 230000009471 action Effects 0.000 claims abstract description 43
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 32
- 238000004364 calculation method Methods 0.000 claims abstract description 10
- 230000007613 environmental effect Effects 0.000 claims abstract description 9
- 230000008447 perception Effects 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 10
- 230000007704 transition Effects 0.000 claims description 8
- 230000006399 behavior Effects 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 5
- 230000003993 interaction Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 4
- 239000003795 chemical substances by application Substances 0.000 description 48
- 230000001186 cumulative effect Effects 0.000 description 11
- 238000012549 training Methods 0.000 description 9
- 230000000875 corresponding effect Effects 0.000 description 6
- 238000004088 simulation Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000001276 controlling effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 241000239290 Araneae Species 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 241000282373 Panthera pardus Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- -1 carrier Substances 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 239000000306 component Substances 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Feedback Control In General (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种资源受限条件下提高强化学习探索效率的方法,包括:步骤1,智能体通过其运行的强化学习算法的策略网络的策略选择动作去探索环境;步骤2,接受环境返回执行所述智能体动作后的新状态和相应的外在奖励;步骤3,通过资源感知方式计算智能体用于探索环境的内在奖励;步骤4,按以下总体奖励计算公式计算所述智能体的总体奖励;步骤5,根据得出的智能体的总体奖励对所述智能体的强化学习算法的策略网络进行更新;步骤6,判断智能体本轮环境探索得到的所有外在奖励的累积值是否最大化,若否,则回到步骤1重复进行处理,若是,则结束本轮环境探索。该方法能在资源受限条件下,提升智能体应用的主流强化学习方法的探索效率。
Description
技术领域
本发明涉及智能体的强化学习领域,尤其涉及一种资源受限条件下提高强化学习探索效率的方法。
背景技术
强化学习(Reinforcement Learning,RL)在自动驾驶机器人、智能机器人等智能体中有广泛的应用,强化学习方法具有学习复杂行为的强大能力,因此强化学习的应用近来引起了广泛的关注。在许多实际任务中,执行动作需要消耗某些类型的资源,如自动驾驶、智能机器人任务、军事部署、游戏AI以及商业决策等。例如,加速会在自动驾驶中消耗汽车的油量。此外,资源可能都是稀缺且不可补充的。在视频游戏中,可能会严重影响最终得分的特定动作需要消耗稀缺且不可补充的游戏物品。
在以上资源受限强化学习问题中,发明人发现现有主流强化学习算法都难以高效地探索环境,从而降低了样本效率。更糟糕的是,发明人观察到其中某些算法在某些任务中甚至无法学习到明显优于均匀随机策略的策略。一个主要原因是,这些算法会迅速消耗资源,因此导致了消耗完资源后续的探索无效。更进一步,发明人观察到现有最先进的高效探索算法依旧存在以上问题。因此,现有的技术都难以解决资源受限强化学习的问题。
有鉴于此,特提出本发明。
发明内容
本发明的目的是提供了一种资源受限条件下提高强化学习探索效率的方法,能降低样本复杂度,提升资源受限条件下强化学习的探索环境效率,进而解决现有技术中存在的上述技术问题。
本发明的目的是通过以下技术方案实现的:
本发明实施方式提供一种资源受限条件下提高强化学习探索效率的方法,用于智能体通过受限资源与环境交互完成预设的任务中,所述智能体利用受限资源探索环境,接受所述环境反馈的状态选择动作,所述环境接受所述智能体的动作决定该环境的新状态,包括:
步骤1,所述智能体通过其运行的强化学习算法的策略网络的策略选择动作去探索环境;
步骤2,接受所述环境返回执行所述智能体动作后的新状态和相应的外在奖励;
步骤3,通过资源感知方式计算所述智能体用于探索环境的内在奖励;
步骤4,按以下总体奖励计算公式计算所述智能体的总体奖励,所述总体奖励计算公式为:总体奖励 = 外在奖励 + 内在奖励×行为内在奖励系数;
步骤5,根据得出的所述智能体的总体奖励对所述智能体的强化学习算法的策略网络进行更新;
步骤6,判断所述智能体本轮环境探索得到的所有外在奖励的累积值是否最大化,若否,则回到所述步骤1重复进行处理,若是,则结束本轮环境探索。
与现有技术相比,本发明所提供的资源受限条件下提高强化学习探索效率的方法,其有益效果包括:
由于智能体探索环境的能力很大程度上取决于智能体可达状态集的大小。一般来说,智能体可达状态集越大,智能体探索环境的能力越强,从而有更大概率获取高奖励。本发明所提出的方法利用可达状态集的测度与剩余资源量的正相关关系,以通过资源感知方式计算智能体用于探索环境的内在奖励,引导智能体在探索环境过程中节约资源,以探索可达状态集更大的状态,从而更大概率地获得高奖励,实验证明该方法相对主流的探索方法在资源受限问题上可以达到一个数量级的效率提升。实验证明了本发明方法与主流强化学习方法结合能够结合高维复杂的资源强化学习问题,通过严格的理论分析证明该方法至少可以取得目前最优的无模型强化学习算法的样本效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供资源受限条件下提高强化学习探索效率的方法的流程图。
图2为本发明实施例提供的资源受限条件下提高强化学习探索效率的方法应用于控制仿真山地车形机器人在二维平面内爬山的示意图。
图3为本发明实施例提供资源受限条件下提高强化学习探索效率的方法与现有的强化学习算法在控制仿真蜘蛛形机器人搬运货物任务中的性能差异对比图。
图4为本发明实施例提供资源受限条件下提高强化学习探索效率的方法与现有的强化学习算法在控制仿真半豹形机器人搬运货物任务中的性能差异对比图。
图5为本发明实施例提供资源受限条件下提高强化学习探索效率的方法与现有的强化学习算法在控制仿真山地车形机器人搬运货物任务中的性能差异对比图。
具体实施方式
下面结合本发明的具体内容,对本发明实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,这并不构成对本发明的限制。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
首先对本文中可能使用的术语进行如下说明:
术语“和/或”是表示两者任一或两者同时均可实现,例如,X和/或Y表示既包括“X”或“Y”的情况也包括“X和Y”的三种情况。
术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
术语“由……组成”表示排除任何未明确列出的技术特征要素。若将该术语用于权利要求中,则该术语将使权利要求成为封闭式,使其不包含除明确列出的技术特征要素以外的技术特征要素,但与其相关的常规杂质除外。如果该术语只是出现在权利要求的某子句中,那么其仅限定在该子句中明确列出的要素,其他子句中所记载的要素并不被排除在整体权利要求之外。
除另有明确的规定或限定外,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如:可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本文中的具体含义。
术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述和简化描述,而不是明示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本文的限制。
下面对本发明所提供的面向资源受限强化学习问题的资源感知探索奖励方法进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。本发明实施例中所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。
如图1所示,本发明实施方式提供一种资源受限条件下提高强化学习探索效率的方法,是一种为资源受限强化学习问题提供的简单且高效的探索方法,用于智能体通过受限资源与环境交互完成预设的任务中,所述智能体利用受限资源探索环境,接受所述环境反馈的状态选择动作,所述环境接受所述智能体的动作决定该环境的新状态,包括:
步骤1,所述智能体通过其运行的强化学习算法的策略网络的策略选择动作去探索环境;
步骤2,接受所述环境返回执行所述智能体动作后的新状态和相应的外在奖励;
步骤3,通过资源感知方式计算所述智能体用于探索环境的内在奖励;
步骤4,按以下总体奖励计算公式计算所述智能体的总体奖励,所述总体奖励计算公式为:总体奖励 = 外在奖励 + 内在奖励×行为内在奖励系数;行为内在奖励系数已预先初始化;
步骤5,根据得出的所述智能体的总体奖励对所述智能体的强化学习算法的策略网络进行更新;
步骤6,判断所述智能体本轮环境探索得到的所有外在奖励的累积值是否最大化,若否,则回到所述步骤1重复进行处理,若是,则结束本轮环境探索。
所述真实环境模型的KL散度的近似为:
综上可见,本发明实施例的方法,利用可达状态集的测度与剩余资源量的正相关关系,引导智能体探索可达状态集更大的状态,从而更大概率地获得高奖励,实验证明该方法相对主流的探索方法在资源受限问题上可以达到一个数量级的效率提升。实验证明了本发明方法与主流强化学习方法结合能够结合高维复杂的资源强化学习问题,通过严格的理论分析证明该方法至少可以取得目前最优的无模型强化学习算法的样本效率。
为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果,下面以具体实施例对本发明实施例所提供的面向资源受限强化学习问题的资源感知探索奖励方法进行详细描述。
实施例1
如图1所示,本实施例提供一种资源受限条件下提高强化学习探索效率的方法,即探索奖励(Resource-Aware Exploration Bonus, RAEB)方法,下面以本发明拟解决的任务背景和具体问题,对本发明的详细技术方案进行说明:
任务背景:
给定一个现实应用中的决策任务,可以将给定问题建模为一个马尔可夫决策问题;用一个元组表示该马尔可夫决策问题;其中,是状态空间,是动作空间,并且状态空间和动作空间都是连续的;令为状态转移概率密度,令为确定性的奖励函数,令为折扣因子;将策略,即从状态空间到动作空间上的概率分布的映射记为;记为动作空间上的概率密度函数;将可行策略集合记为;强化学习问题的目标是得到使累计奖励和最大的最优策略,即:
因为在现实应用中,可执行动作往往是受到剩余资源量的限制的,需要消耗超出当前状态剩余资源量的动作是不被允许的。在本发明中,给强化学习问题中的资源严格的定义,资源是与可执行动作集大小正相关的状态特征;假设给定问题涉及了 种资源,要求从特定状态获得剩余资源量得映射是已知的,即:;
本发明的技术方案为:
高效的探索是强化学习问题的关键,现实应用往往有稀疏奖励、容易陷入局部最优等特性,这些都使得环境难以得到高效的探索。而资源受限强化学习问题也属于这样的一类的问题,因为智能体消耗完资源后,且资源是不可再生的,智能体就无法再探索到还拥有资源的状态,导致低效的探索。
为解决该问题,本发明采用资源感知的探索奖励(Resource-Aware ExplorationBonus, RAEB)方式得到智能体的内在奖励。具体地,资源感知的探索奖励为:
为衡量状态动作对的新颖度,采用称为新奇感(即Surprise)方法。具体地,是将计算在对环境进行探索获得新数据后对环境模型的估计和给定环境模型的KL散度(Kullback-Leibler divergence),并用此度量状态动作对的新颖度。在假设环境模型是确定性的条件下,可以得到KL散度的近似:
其中,为给定问题的初始资源量;为在算法中指定的系数,增大会降低资源量对探索奖励的影响,一般取=1;为资源重要性函数;在大多数情况下,强化学习问题涉及到资源不止一种,针对这些涉及到多个种类的问题,则资源重要性函数为:;
将本发明的方法作为一个独立算法组件和主流的强化学习算法结合。
本发明针对资源受限的强化学习问题提出了鼓励引导探索的算法(RAEB),即资源感知的探索奖励方法。该算法针对现实应用中常见的问题设置,智能体的决策是受到有限且不可再生的资源限制的。在这类资源受限问题下,主流的强化学习方法往往会快速消耗完资源从而导致低效的探索;而本发明的方法(可称为RAEB)利用可达状态集的测度与剩余资源量的正相关关系,引导智能体探索可达状态集更大的状态,从而更大概率地获得高奖励,实验证明本发明的方法相对主流的探索方法在资源受限问题上可以达到高一个数量级的效率提升。实验证明了本发明的方法与主流强化学习方法结合能够结合高维复杂的资源强化学习问题。通过严格的理论分析也证明本发明的方法至少可以取得目前最优的无模型强化学习算法的样本效率。
下述所示为实现本发明方法的伪代码。其中第1行为内在奖励系数的初始化;第2-8行为大循环。每个大循环执行两部分操作:采集数据(第3-6行)与网络训练(第7行)。数据采集中,第3行表示根据策略选择动作,第4行表示环境返回执行动作后的新状态和相应的奖励,第5行表示计算用于探索的额外奖励,第6行表示对奖励进行变换,对奖励加上用于探索的额外奖励。网络优化中,第7行表示使用任意主流强化学习算法对策略网络进行更新。
基于资源感知的探索算法伪代码为:
2.在以下步骤中循环:
e)基于总体奖励更新策略函数;
f)判断智能体本轮环境探索得到的所有外在奖励的累积值是否最大化,若是,则终止循环,若否,重复步骤a-e。
实施例2
本实施例通过仿真机器人搬运货物的仿真环境,验证本发明方法的效果。具体是基于OpenAI Gym中的经典控制和Mujoco中的机器人运动设计了一系列机器人搬货任务。各仿真机器人搬货环境分别为:
一种是搬运山地车形机器人(Delivery Mountain Car)Delivery Mountain Car(参见图2的示意):控制山地车形机器人在二维平面内爬山,同时山地车形机器人可以在任意地点选择卸货或者不卸货,目标是山地车形机器人在山顶位置卸货。其中状态空间为3维,动作空间为2维。
又一种是搬运蜘蛛形机器人(Delivery Ant)Delivery Ant:控制蜘蛛形机器人在长廊内向前运动,同时蜘蛛形机器人可以在任意地点选择卸货或者不卸货,目标是蜘蛛形机器人在长廊靠近中部区域卸货。其中状态空间为32维,动作空间为9维。
另一种是搬运半豹形机器人(Delivery Half-Cheetah)Delivery Half-Cheetah:控制二维的半豹机器人在长廊内向前运动,同时半豹机器人可以在任意地点选择卸货或者不卸货,目标是半豹机器人在长廊靠近中部区域卸货。其中状态空间为18维,动作空间为7维。
对比实验结果如图3、4和5所示,作为对比,比较了本发明方法与现有的强化学习算法在三种仿真机器人搬运货物任务中的性能差异。按从左到右的顺序,每幅子图分别对应蜘蛛形机器人(图3,图3中A线代表本发明的方法在不断训练过程中智能体能够取得的累积回报,其余线为对比方法的表现,可以看出本发明的方法可以不断获取更高的累积回报,而对比方法可获取的累积回报基本接近于0)、猎豹形机器人(图4,图4中B线代表本发明的方法在不断训练过程中智能体能够取得的累积回报,其余线为对比方法的表现,可以看出本发明的方法可以不断获取更高的累积回报,而对比方法可获取的累积回报基本接近于0)、山地车形机器人(图5,图5中C线代表本发明的方法在不断训练过程中智能体能够取得的累积回报,其余线为对比方法的表现,可以看出本发明的方法可以不断获取更高的累积回报,而对比方法可获取的累积回报基本接近于0)的仿真控制。任务是控制仿真机器人在特定区域卸货,只有在特定区域卸货才能得分。图3至图5中每个图的横坐标为训练使用的样本数,纵坐标为得分。SAC表示软执行器-评价器(SoftActorCritic)算法,PPO表示近端策略优化(Proximal Policy Optimization)算法,Surprise表示本发明基于“惊奇感”的探索算法(Surprise-based Exploration Method),JDRX表示即Jensen-Renyi DivergenceReactive Exploration算法。从图3中可以看出本发明的方法在性能上远远超过了对比方法,尤其是在Delivery Ant 环境中,所有对比方法都无法学习到一个优于均匀随机策略的策略。
按以下方式应用本发明的方法,包括:
准备阶段:
选定待实现的任务,将其拆分为智能体与环境两部分;其中,智能体接受环境反馈的状态选择动作;环境接受该动作决定新的状态。然后,抽象出智能体的可执行动作,并设定好智能体接受的奖励;
最大化奖励的累积值即为本发明方法的目标;
训练阶段:
使用深度学习方法实现上述本发明方法的伪代码的处理流程,将其部署于智能体中,智能体遵循本发明方法中的相应流程与环境进行交互,并将交互信息用于策略的训练,重复进行一段时间的训练;
验证阶段:
将训练好的策略部署于智能体,让智能体与环境进行交互,计算一定次数决策中,获取的外在奖励总和,作为评价效果的指标。该外在奖励总和越大,说明训练效果越好。
综上可见,本发明实施例方法能实现在资源受限的条件下,有效提升强化学习的探索效率。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。本文背景技术部分公开的信息仅仅旨在加深对本发明的总体背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。
Claims (2)
1.一种资源受限条件下提高强化学习探索效率的方法,其特征在于,用于智能体通过受限资源与环境交互完成预设的任务中,所述智能体利用受限资源探索环境,接受所述环境反馈的状态选择动作,所述环境接受所述智能体的动作决定该环境的新状态,包括:
步骤1,所述智能体通过其运行的强化学习算法的策略网络的策略选择动作去探索环境;
步骤2,接受所述环境返回执行所述智能体动作后的新状态和相应的外在奖励;
所述真实环境模型的KL散度的近似为:
步骤4,按以下总体奖励计算公式计算所述智能体的总体奖励,所述总体奖励计算公式为:总体奖励 = 外在奖励 + 内在奖励×行为内在奖励系数;
步骤5,根据得出的所述智能体的总体奖励对所述智能体的强化学习算法的策略网络进行更新;
步骤6,判断所述智能体本轮环境探索得到的所有外在奖励的累积值是否最大化,若否,则回到所述步骤1重复进行处理,若是,则结束本轮环境探索。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210336685.1A CN114492845B (zh) | 2022-04-01 | 2022-04-01 | 资源受限条件下提高强化学习探索效率的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210336685.1A CN114492845B (zh) | 2022-04-01 | 2022-04-01 | 资源受限条件下提高强化学习探索效率的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114492845A CN114492845A (zh) | 2022-05-13 |
CN114492845B true CN114492845B (zh) | 2022-07-15 |
Family
ID=81488048
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210336685.1A Active CN114492845B (zh) | 2022-04-01 | 2022-04-01 | 资源受限条件下提高强化学习探索效率的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114492845B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018212918A1 (en) * | 2017-05-18 | 2018-11-22 | Microsoft Technology Licensing, Llc | Hybrid reward architecture for reinforcement learning |
CN109540150A (zh) * | 2018-12-26 | 2019-03-29 | 北京化工大学 | 一种应用于危化品环境下多机器人路径规划方法 |
CN111062491A (zh) * | 2019-12-13 | 2020-04-24 | 周世海 | 一种基于强化学习的智能体探索未知环境方法 |
CN111260072A (zh) * | 2020-01-08 | 2020-06-09 | 上海交通大学 | 一种基于生成对抗网络的强化学习探索方法 |
CN111931943A (zh) * | 2020-05-20 | 2020-11-13 | 浙江大学 | 一种统一的基于好奇心驱动的强化学习方法 |
CN112613608A (zh) * | 2020-12-18 | 2021-04-06 | 中国科学技术大学 | 一种强化学习方法及相关装置 |
CN113077052A (zh) * | 2021-04-28 | 2021-07-06 | 平安科技(深圳)有限公司 | 用于稀疏奖励环境的强化学习方法、装置、设备及介质 |
CN113098714A (zh) * | 2021-03-29 | 2021-07-09 | 南京邮电大学 | 一种基于深度强化学习的低时延网络切片的方法 |
CN113191484A (zh) * | 2021-04-25 | 2021-07-30 | 清华大学 | 基于深度强化学习的联邦学习客户端智能选取方法及系统 |
WO2021156518A1 (en) * | 2020-02-07 | 2021-08-12 | Deepmind Technologies Limited | Reinforcement learning with adaptive return computation schemes |
CN113506086A (zh) * | 2021-07-01 | 2021-10-15 | 游艺星际(北京)科技有限公司 | 任务发布方法、装置、计算机设备及介质 |
CN113589842A (zh) * | 2021-07-26 | 2021-11-02 | 中国电子科技集团公司第五十四研究所 | 一种基于多智能体强化学习的无人集群任务协同方法 |
CN114169421A (zh) * | 2021-12-01 | 2022-03-11 | 天津大学 | 基于内在动机的多智能体稀疏奖励环境协作探索方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11263531B2 (en) * | 2018-05-18 | 2022-03-01 | Deepmind Technologies Limited | Unsupervised control using learned rewards |
-
2022
- 2022-04-01 CN CN202210336685.1A patent/CN114492845B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018212918A1 (en) * | 2017-05-18 | 2018-11-22 | Microsoft Technology Licensing, Llc | Hybrid reward architecture for reinforcement learning |
CN109540150A (zh) * | 2018-12-26 | 2019-03-29 | 北京化工大学 | 一种应用于危化品环境下多机器人路径规划方法 |
CN111062491A (zh) * | 2019-12-13 | 2020-04-24 | 周世海 | 一种基于强化学习的智能体探索未知环境方法 |
CN111260072A (zh) * | 2020-01-08 | 2020-06-09 | 上海交通大学 | 一种基于生成对抗网络的强化学习探索方法 |
WO2021156518A1 (en) * | 2020-02-07 | 2021-08-12 | Deepmind Technologies Limited | Reinforcement learning with adaptive return computation schemes |
CN111931943A (zh) * | 2020-05-20 | 2020-11-13 | 浙江大学 | 一种统一的基于好奇心驱动的强化学习方法 |
CN112613608A (zh) * | 2020-12-18 | 2021-04-06 | 中国科学技术大学 | 一种强化学习方法及相关装置 |
CN113098714A (zh) * | 2021-03-29 | 2021-07-09 | 南京邮电大学 | 一种基于深度强化学习的低时延网络切片的方法 |
CN113191484A (zh) * | 2021-04-25 | 2021-07-30 | 清华大学 | 基于深度强化学习的联邦学习客户端智能选取方法及系统 |
CN113077052A (zh) * | 2021-04-28 | 2021-07-06 | 平安科技(深圳)有限公司 | 用于稀疏奖励环境的强化学习方法、装置、设备及介质 |
CN113506086A (zh) * | 2021-07-01 | 2021-10-15 | 游艺星际(北京)科技有限公司 | 任务发布方法、装置、计算机设备及介质 |
CN113589842A (zh) * | 2021-07-26 | 2021-11-02 | 中国电子科技集团公司第五十四研究所 | 一种基于多智能体强化学习的无人集群任务协同方法 |
CN114169421A (zh) * | 2021-12-01 | 2022-03-11 | 天津大学 | 基于内在动机的多智能体稀疏奖励环境协作探索方法 |
Non-Patent Citations (3)
Title |
---|
Multi-agent reinforcement learning for resource allocation in IoT networks with edge computing;Xiaolan Liu et al;《China Communications》;20200925;全文 * |
Q-learning based Service Function Chaining using VNF Resource-aware Reward Model;Doyoung Lee et al;《2020 21st Asia-Pacific Network Operations and Management Symposium (APNOMS)》;20200925;全文 * |
稀疏奖励下基于情感的异构多智能体强化学习;方宝富等;《模式识别与人工智能》;20210315;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114492845A (zh) | 2022-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gronauer et al. | Multi-agent deep reinforcement learning: a survey | |
Kala et al. | Robotic path planning in static environment using hierarchical multi-neuron heuristic search and probability based fitness | |
Andersen et al. | Towards safe reinforcement-learning in industrial grid-warehousing | |
CN113570039B (zh) | 一种基于强化学习的优化共识的区块链系统 | |
Ali et al. | A modified cultural algorithm with a balanced performance for the differential evolution frameworks | |
CN111008685A (zh) | 基于生产者依概率反向再生机制的改进人工生态系统优化算法 | |
CN112613608A (zh) | 一种强化学习方法及相关装置 | |
Salama et al. | Data reduction for classification with ant colony algorithms | |
CN113743442A (zh) | 元学习演化策略黑盒优化分类器 | |
Meng et al. | PaDE-NPC: Parameter adaptive differential evolution with novel parameter control for single-objective optimization | |
Wang et al. | Penalty and prediction methods for dynamic constrained multi-objective optimization | |
CN114492845B (zh) | 资源受限条件下提高强化学习探索效率的方法 | |
Horie et al. | Multi-objective safe reinforcement learning: the relationship between multi-objective reinforcement learning and safe reinforcement learning | |
CN114207539A (zh) | 多智能体系统中的大规模策略评估 | |
Kabir et al. | Ant colony optimization toward feature selection | |
Luo et al. | S2rl: Do we really need to perceive all states in deep multi-agent reinforcement learning? | |
Yuan | Intrinsically-motivated reinforcement learning: A brief introduction | |
CN113487870B (zh) | 一种基于cw攻击对智能单交叉口的对抗扰动生成方法 | |
Guzman et al. | Adaptive model predictive control by learning classifiers | |
Roman et al. | Accumulating risk capital through investing in cooperation | |
Aoun et al. | Self inertia weight adaptation for the particle swarm optimization | |
Wu et al. | The forecasting model based on modified SVRM and PSO penalizing Gaussian noise | |
Anwar et al. | A cricket-based selection hyper-heuristic for many-objective optimization problems | |
CN103617206A (zh) | 基于自适应小生境的遗传聚类方法 | |
Cervone et al. | Experimental validations of the learnable evolution model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |