CN113780576A - 基于奖励自适应分配的合作多智能体强化学习方法 - Google Patents

基于奖励自适应分配的合作多智能体强化学习方法 Download PDF

Info

Publication number
CN113780576A
CN113780576A CN202111042531.3A CN202111042531A CN113780576A CN 113780576 A CN113780576 A CN 113780576A CN 202111042531 A CN202111042531 A CN 202111042531A CN 113780576 A CN113780576 A CN 113780576A
Authority
CN
China
Prior art keywords
reward
agent
sub
method based
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111042531.3A
Other languages
English (en)
Other versions
CN113780576B (zh
Inventor
王振杰
刘俊涛
黄志刚
王元斌
高子文
王军伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
709th Research Institute of CSIC
Original Assignee
709th Research Institute of CSIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 709th Research Institute of CSIC filed Critical 709th Research Institute of CSIC
Priority to CN202111042531.3A priority Critical patent/CN113780576B/zh
Publication of CN113780576A publication Critical patent/CN113780576A/zh
Application granted granted Critical
Publication of CN113780576B publication Critical patent/CN113780576B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Abstract

针对完全合作式多智能体强化学习过程中,由于每个智能体获得一个共同的全局奖励,无法确定自身动作对整体奖励的影响,导致算法模型的训练效率低下及最终性能不佳的问题,本发明提供了一种基于奖励自适应分配的合作多智能体强化学习方法,根据环境的变化能够自适应将全局奖励分配给单个智能体,使得智能体能够据此选择对全局有利的动作,从而提高算法模型的训练效率及最终的性能。

Description

基于奖励自适应分配的合作多智能体强化学习方法
技术领域
本发明属于智能体强化学习技术领域,更具体地,涉及一种基于奖励自适应分配的合作多智能体强化学习方法。
背景技术
近年来,随着单智能体深度强化学习技术广泛取得的突破性进展,也推动了多智能体强化学习的发展和研究,在实际情形中,往往存在多个独立自主决策的智能体,因此,多智能体强化学习的研究具有十分重要的应用价值。
完全合作式多智能体与环境的交互过程如附图1所示,环境中一共有n个独立自主决策的智能体,过程主要如下:(1)在时刻t,智能体i感知当前的环境状态st,得到自身的局部观测信息
Figure BDA0003249880860000011
(2)智能体根据当前的局部观测信息
Figure BDA0003249880860000012
及当前采取的策略从动作空间A中选择一个动作
Figure BDA0003249880860000013
组成联合动作
Figure BDA0003249880860000014
(3)当多智能体的联合动作作用于环境时,环境转移到新状态st+1,并给出一个全局奖励回报值rt;如此循环。
其中,奖励回报指的是智能体在与环境的交互中获得的来自环境的评价性质的反馈信号。智能体通过强化学习方法,确定如何在环境中采取一系列行为动作,使长期的累积回报最大化。由于在完全合作式多智能体强化学习中只能获得全局回报,单个智能体无法确定自身动作对整体回报的影响,单个智能体学习的方向不明确,导致算法模型训练效率低下,甚至无法收敛。
目前常用的方法是采用值分解方法隐式的解决奖励分配问题,但是这类方法需要联合训练全局值函数、每个智能体的局部值函数以及二者之间的关系参数,存在训练效率低、多智能体之间协作能力不足、无法适应大规模场境的问题。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于奖励自适应分配的合作多智能体强化学习方法,根据观测到的环境状态自适应计算单个智能体的子奖励回报权重,并据此计算分配给单个智能体的局部奖励回报,即由子奖励回报值与子奖励回报的权重相乘得到的加权和,根据环境的变化能够自适应将全局奖励分配给单个智能体,使得智能体能够据此选择对全局有利的动作,从而提高算法模型的训练效率及最终的性能。
为实现上述目的,本发明提供了一种基于奖励自适应分配的合作多智能体强化学习方法,包括如下步骤:
(1)根据先验知识将全局回报划分为m类子奖励回报,并设置对应的子奖励回报函数;
(2)初始化模型参数;
(3)对每一个智能体i,每隔K个时间步长,根据智能体i观察到的环境状态oi,计算智能体i的子奖励回报权重向量
Figure BDA0003249880860000021
Figure BDA0003249880860000022
π(oi|θ)是智能体的子奖励回报权重生成策略函数,θ是其参数;
(4)对每一个智能体i,在每个时间步长,根据智能体i观察到的环境状态oi,根据智能体的局部状态-动作值函数
Figure BDA0003249880860000023
计算状态-动作值,按照贪心策略选取智能体该时刻t将执行的动作
Figure BDA0003249880860000024
Figure BDA0003249880860000025
是其参数;
(5)将所有智能体产生的动作联合动作
Figure BDA0003249880860000026
输入到环境中执行,得到所有智能体的全局奖励r,根据子奖励回报函数得到每个智能体的子奖励回报值为
Figure BDA0003249880860000027
以及对新的环境状态的观察为o′=(o′1,……,o′n);
(6)对每一个智能体i,每个时间步长,根据步骤(5)中得到的子奖励回报值及步骤(3)中得到的子奖励回报权重向量计算每个智能体i的局部奖励值
Figure BDA0003249880860000028
(7)每个时间步长,更新每个智能体的局部状态-动作值函数
Figure BDA0003249880860000031
的参数,
Figure BDA0003249880860000032
其中oi为智能体i观察的环境状态,
Figure BDA0003249880860000033
为选择的动作,L是损失函数,
Figure BDA0003249880860000034
其中,λ是学习率,γ∈(0,1]是折扣因子,oi+1是智能体对下一时刻的环境状态的观察;
(8)每隔K个时间步长,更新子奖励回报权重评价器Qtot(o,w|θh)的参数θh
Figure BDA0003249880860000035
其中o=(o1,……,on)是所有智能体的联合观察状态,
Figure BDA0003249880860000036
是所有智能体的联合子奖励回报权重向量,Lh是损失函数,Lh对参数θh连续可导,
Figure BDA0003249880860000037
λ是学习率,γ∈(0,1]是折扣因子,RK=∑Kr为前K个时间步长的累积回报,o′=(o′1,……,o′n)是所有智能体对新的环境状态的观察;
(9)每隔K个时间步长,更新子奖励回报权重生成策略函数W(oi|θ)的参数θ,
Figure BDA0003249880860000038
其中λ是子奖励回报权重生成策略函数的学习率;
(10)学习过程收敛或者达到最大迭代次数,则结束,否则返回步骤(3)。
本发明的一个实施例中,所述多智能体是完全合作关系,即具有一个共同的目标。
本发明的一个实施例中,所述步骤(4)中计算智能体该时刻将执行的动作
Figure BDA0003249880860000039
使用基于值函数的方法。
本发明的一个实施例中,所述步骤(2)中,初始化的模型参数包括:子奖励回报权重生成策略函数π(oi|θ)的参数θ,智能体的局部状态-动作值函数
Figure BDA0003249880860000041
的参数
Figure BDA0003249880860000042
子奖励回报权重评价器Qtot(o,w|θh)的参数θh
本发明的一个实施例中,所述步骤(6)中,根据步骤(5)中得到的子奖励回报值
Figure BDA0003249880860000043
及步骤(3)中得到的子奖励回报权重向量
Figure BDA0003249880860000044
计算每个智能体i的局部奖励值为:
Figure BDA0003249880860000045
本发明的一个实施例中,间隔步长数5≤K≤20。
本发明的一个实施例中,子奖励回报权重生成策略函数π(oi|θ)、智能体的局部状态-动作值函数
Figure BDA0003249880860000046
子奖励回报权重评价器Qtot(o,w|θh)均为循环神经网络。
本发明的一个实施例中,所述智能体的可执行的动作为离散的动作,且数量≤5。
本发明的一个实施例中,所述步骤(1)中子奖励回报的种类数量为4≤m≤10。
本发明的一个实施例中,所述智能体的数量不大于10。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有如下有益效果:
(1)显式的对全局奖励回报进行分配得到单个智能体的局部奖励回报,能够引导单个智能体根据环境的变化做出有利于全局任务的行动,提高了多智能体的协作能力;
(2)通过显式的奖励分配使得单个智能体的学习具有目的性,能够提升模型算法的训练效率和最终的性能。
附图说明
图1是完全合作式多智能体强化学习中交互过程示意图;
图2是本发明提供的基于奖励自适应分配的合作多智能体强化学习方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图2所示,本发明提供了一种基于奖励自适应分配的合作多智能体强化学习方法,包括如下步骤:
(1)根据先验知识将全局回报划分为m类子奖励回报,并设置对应的子奖励回报函数;
例如,子奖励回报的种类数量为4≤m≤10;
(2)初始化模型参数;
具体地,初始化的模型参数包括:子奖励回报权重生成策略函数π(oi|θ)的参数θ,智能体的局部状态-动作值函数
Figure BDA0003249880860000051
的参数
Figure BDA0003249880860000052
子奖励回报权重评价器Qtot(o,w|θh)的参数θh
(3)对每一个智能体i,每隔K个时间步长,根据智能体i观察到的环境状态oi,计算智能体i的子奖励回报权重向量
Figure BDA0003249880860000053
Figure BDA0003249880860000054
π(oi|θ)是智能体的子奖励回报权重生成策略函数,θ是其参数;
其中,所述多智能体是完全合作关系,即具有一个共同的目标;
一般地,所述智能体的数量不大于10;
(4)对每一个智能体i,在每个时间步长,根据智能体i观察到的环境状态oi,根据智能体的局部状态-动作值函数
Figure BDA0003249880860000055
计算状态-动作值,按照贪心策略选取智能体该时刻t将执行的动作
Figure BDA0003249880860000056
Figure BDA0003249880860000057
是其参数;
其中,计算智能体该时刻将执行的动作
Figure BDA0003249880860000058
一般使用基于值函数的方法;
(5)将所有智能体产生的动作联合动作
Figure BDA0003249880860000059
输入到环境中执行,得到所有智能体的全局奖励为r,根据子奖励回报函数得到每个智能体的子奖励回报值为
Figure BDA0003249880860000061
以及对新的环境状态的观察为o′=(o′1,……,o′n);
(6)对每一个智能体i,每个时间步长,根据步骤(5)中得到的子奖励回报值及步骤(3)中得到的子奖励回报权重向量计算每个智能体i的局部奖励值
Figure BDA0003249880860000062
其中,根据步骤(5)中得到的子奖励回报值
Figure BDA0003249880860000063
及步骤(3)中得到的子奖励回报权重向量
Figure BDA0003249880860000064
计算每个智能体i的局部奖励值为:
Figure BDA0003249880860000065
(7)每个时间步长,更新每个智能体的局部状态-动作值函数
Figure BDA0003249880860000066
的参数,
Figure BDA0003249880860000067
其中oi为智能体i观察的环境状态,
Figure BDA0003249880860000068
为选择的动作,L是损失函数,
Figure BDA0003249880860000069
其中,λ是学习率,γ∈(0,1]是折扣因子,oi+1是智能体对下一时刻的环境状态的观察;
(8)每隔K个时间步长,更新子奖励回报权重评价器Qtot(o,w|θh)的参数θh
Figure BDA00032498808600000610
其中o=(o1,……,on)是所有智能体的联合观察状态,
Figure BDA00032498808600000611
是所有智能体的联合子奖励回报权重向量,Lh是损失函数,Lh对参数θh连续可导,
Figure BDA00032498808600000612
λ是学习率,γ∈(0,1]是折扣因子,RK=∑Kr为前K个时间步长的全局累积回报,o′=(o′1,……,o′n)是所有智能体对新的环境状态的观察;
(9)每隔K个时间步长,更新子奖励回报权重生成策略函数π(oi|θ)的参数θ,
Figure BDA0003249880860000071
其中λ是子奖励回报权重生成策略函数的学习率;
(10)学习过程收敛或者达到最大迭代次数,则结束,否则返回步骤(3)。
进一步地,本发明实施例中,间隔步长数5≤K≤20;
进一步地,子奖励回报权重生成策略函数π(oi|θ)、智能体的局部状态-动作值函数
Figure BDA0003249880860000072
子奖励回报权重评价器Qtot(o,w|θh)均为循环神经网络;
进一步地,所述智能体的可执行的动作为离散的动作,且数量≤5。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于奖励自适应分配的合作多智能体强化学习方法,其特征在于,包括如下步骤:
(1)根据先验知识将全局回报划分为m类子奖励回报,并设置对应的子奖励回报函数;
(2)初始化模型参数;
(3)对每一个智能体i,每隔K个时间步长,根据智能体i观察到的环境状态oi,计算智能体i的子奖励回报权重向量
Figure FDA0003249880850000011
Figure FDA0003249880850000012
π(oi|θ)是智能体的子奖励回报权重生成策略函数,θ是其参数;
(4)对每一个智能体i,在每个时间步长t,根据智能体i观察到的环境状态oi,根据智能体的局部状态-动作值函数
Figure FDA0003249880850000013
计算状态-动作值,按照贪心策略选取智能体该时刻t将执行的动作
Figure FDA0003249880850000014
Figure FDA0003249880850000015
是其参数;
(5)将所有智能体产生的动作联合动作
Figure FDA0003249880850000016
输入到环境中执行,得到所有智能体的全局奖励r,根据子奖励回报函数得到每个智能体的子奖励回报值为
Figure FDA0003249880850000017
以及对新的环境状态的观察为o′=(o′1,……,o′n);
(6)对每一个智能体i,每个时间步长,根据步骤(5)中得到的子奖励回报值及步骤(3)中得到的子奖励回报权重向量计算每个智能体i的局部奖励值
Figure FDA0003249880850000018
(7)每个时间步长,更新每个智能体的局部状态-动作值函数
Figure FDA0003249880850000019
的参数,
Figure FDA00032498808500000110
其中oi为智能体i观察的环境状态,
Figure FDA00032498808500000111
为选择的动作,L是损失函数,
Figure FDA00032498808500000112
其中,λ是学习率,γ∈(0,1]是折扣因子,oi+1是智能体对下一时刻的环境状态的观察;
(8)每隔K个时间步长,更新子奖励回报权重评价器Qtot(o,w|θh)的参数θh
Figure FDA0003249880850000021
其中o=(o1,……,on)是所有智能体的联合观察状态,
Figure FDA0003249880850000022
是所有智能体的联合子奖励回报权重向量,Lh是损失函数,Lh对参数θh连续可导,
Figure FDA0003249880850000023
λ是学习率,γ∈(0,1]是折扣因子,RK=∑Kr为前K个时间步长的全局累积回报,o′=(o′1,……,o′n)是所有智能体对新的环境状态的观察;
(9)每隔K个时间步长,更新子奖励回报权重生成策略函数π(oi|θ)的参数θ,
Figure FDA0003249880850000024
其中λ是子奖励回报权重生成策略函数的学习率;
(10)学习过程收敛或者达到最大迭代次数,则结束,否则返回步骤(3)。
2.如权利要求1或2所述的基于奖励自适应分配的合作多智能体强化学习方法,其特征在于,所述多智能体是完全合作关系,即具有一个共同的目标。
3.如权利要求1所述的基于奖励自适应分配的合作多智能体强化学习方法,其特征在于,所述步骤(4)中计算智能体该时刻将执行的动作
Figure FDA0003249880850000025
使用基于值函数的方法。
4.如权利要求1或2所述的基于奖励自适应分配的合作多智能体强化学习方法,其特征在于,所述步骤(2)中,初始化的模型参数包括:子奖励回报权重生成策略函数π(oi|θ)的参数θ,智能体的局部状态-动作值函数
Figure FDA0003249880850000026
的参数
Figure FDA0003249880850000027
子奖励回报权重评价器Qtot(o,w|θh)的参数θh
5.如权利要求1或2所述的基于奖励自适应分配的合作多智能体强化学习方法,其特征在于,所述步骤(6)中,根据步骤(5)中得到的子奖励回报值
Figure FDA0003249880850000031
及步骤(3)中得到的子奖励回报权重向量
Figure FDA0003249880850000032
计算每个智能体i的局部奖励值为:
Figure FDA0003249880850000033
6.如权利要求1或2所述的基于奖励自适应分配的合作多智能体强化学习方法,其特征在于,间隔步长数5≤K≤20。
7.如权利要求1或2所述的基于奖励自适应分配的合作多智能体强化学习方法,其特征在于,子奖励回报权重生成策略函数π(oi|θ)、智能体的局部状态-动作值函数
Figure FDA0003249880850000034
子奖励回报权重评价器Qtot(o,w|θh)均为循环神经网络。
8.如权利要求1或2所述的基于奖励自适应分配的合作多智能体强化学习方法,其特征在于,所述智能体的可执行的动作为离散的动作,且数量≤5。
9.如权利要求1或2所述的基于奖励自适应分配的合作多智能体强化学习方法,其特征在于,所述步骤(1)中子奖励回报的种类数量为4≤m≤10。
10.如权利要求1或2所述的基于奖励自适应分配的合作多智能体强化学习方法,其特征在于,所述智能体的数量不大于10。
CN202111042531.3A 2021-09-07 2021-09-07 基于奖励自适应分配的合作多智能体强化学习方法 Active CN113780576B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111042531.3A CN113780576B (zh) 2021-09-07 2021-09-07 基于奖励自适应分配的合作多智能体强化学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111042531.3A CN113780576B (zh) 2021-09-07 2021-09-07 基于奖励自适应分配的合作多智能体强化学习方法

Publications (2)

Publication Number Publication Date
CN113780576A true CN113780576A (zh) 2021-12-10
CN113780576B CN113780576B (zh) 2023-05-23

Family

ID=78841439

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111042531.3A Active CN113780576B (zh) 2021-09-07 2021-09-07 基于奖励自适应分配的合作多智能体强化学习方法

Country Status (1)

Country Link
CN (1) CN113780576B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113987963A (zh) * 2021-12-23 2022-01-28 北京理工大学 一种分布式信道汇聚策略生成方法及装置
CN114690623A (zh) * 2022-04-21 2022-07-01 中国人民解放军军事科学院战略评估咨询中心 一种值函数快速收敛的智能体高效全局探索方法及系统
CN116628520A (zh) * 2023-07-24 2023-08-22 中国船舶集团有限公司第七〇七研究所 基于平均场理论算法的多学员模拟训练方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898770A (zh) * 2020-09-29 2020-11-06 四川大学 一种多智能体强化学习方法、电子设备及存储介质
CN112364984A (zh) * 2020-11-13 2021-02-12 南京航空航天大学 一种协作多智能体强化学习方法
CN112861442A (zh) * 2021-03-10 2021-05-28 中国人民解放军国防科技大学 基于深度强化学习的多机协同空战规划方法及系统
US20210174205A1 (en) * 2019-11-28 2021-06-10 GoodAI Research s.r.o. Artificial intelligence system
US20210200163A1 (en) * 2019-12-13 2021-07-01 Tata Consultancy Services Limited Multi-agent deep reinforcement learning for dynamically controlling electrical equipment in buildings

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210174205A1 (en) * 2019-11-28 2021-06-10 GoodAI Research s.r.o. Artificial intelligence system
US20210200163A1 (en) * 2019-12-13 2021-07-01 Tata Consultancy Services Limited Multi-agent deep reinforcement learning for dynamically controlling electrical equipment in buildings
CN111898770A (zh) * 2020-09-29 2020-11-06 四川大学 一种多智能体强化学习方法、电子设备及存储介质
CN112364984A (zh) * 2020-11-13 2021-02-12 南京航空航天大学 一种协作多智能体强化学习方法
CN112861442A (zh) * 2021-03-10 2021-05-28 中国人民解放军国防科技大学 基于深度强化学习的多机协同空战规划方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113987963A (zh) * 2021-12-23 2022-01-28 北京理工大学 一种分布式信道汇聚策略生成方法及装置
CN114690623A (zh) * 2022-04-21 2022-07-01 中国人民解放军军事科学院战略评估咨询中心 一种值函数快速收敛的智能体高效全局探索方法及系统
CN114690623B (zh) * 2022-04-21 2022-10-25 中国人民解放军军事科学院战略评估咨询中心 一种值函数快速收敛的智能体高效全局探索方法及系统
CN116628520A (zh) * 2023-07-24 2023-08-22 中国船舶集团有限公司第七〇七研究所 基于平均场理论算法的多学员模拟训练方法及系统
CN116628520B (zh) * 2023-07-24 2023-09-29 中国船舶集团有限公司第七〇七研究所 基于平均场理论算法的多学员模拟训练方法及系统

Also Published As

Publication number Publication date
CN113780576B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
CN111563188B (zh) 一种移动多智能体协同目标搜索方法
CN113780576A (zh) 基于奖励自适应分配的合作多智能体强化学习方法
CN110852448A (zh) 一种基于多智能体强化学习的合作型智能体的学习方法
CN113110052B (zh) 一种基于神经网络和强化学习的混合能量管理方法
CN109325580A (zh) 一种用于服务组合全局优化的自适应布谷鸟搜索方法
CN113033072A (zh) 一种基于多头注意力指针网络的成像卫星任务规划方法
CN112613608A (zh) 一种强化学习方法及相关装置
CN113592101A (zh) 一种基于深度强化学习的多智能体协作模型
CN111768028A (zh) 一种基于深度强化学习的gwlf模型参数调节方法
CN111246438B (zh) 一种基于强化学习的m2m通信中中继节点的选择方法
CN112804103A (zh) 区块链赋能物联网中联合资源分配与控制的智能计算迁移方法
CN113313265A (zh) 基于带噪声专家示范的强化学习方法
CN111967199A (zh) 一种强化学习多代理合作任务下的代理贡献分配的方法
CN116128028A (zh) 一种连续决策空间组合优化的高效深度强化学习算法
Liu et al. Forward-looking imaginative planning framework combined with prioritized-replay double DQN
Liu et al. Her-pdqn: A reinforcement learning approach for uav navigation with hybrid action spaces and sparse rewards
CN115187056A (zh) 一种考虑公平性原则的多智能体协同资源分配方法
CN115903901A (zh) 内部状态未知的无人集群系统输出同步优化控制方法
CN115150335A (zh) 一种基于深度强化学习的最优流量分割的方法和系统
Yu et al. A novel automated guided vehicle (AGV) remote path planning based on RLACA algorithm in 5G environment
CN111950691A (zh) 一种基于潜在动作表示空间的强化学习策略学习方法
CN116755046B (zh) 一种不完美专家策略的多功能雷达干扰决策方法
CN116938732A (zh) 一种基于强化学习算法的通信拓扑优化方法
Zhai et al. Dynamic belief for decentralized multi-agent cooperative learning
CN115691110B (zh) 一种面向动态车流的基于强化学习的交叉口信号周期稳定配时方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant