CN115964898A - 面向兵力博弈对抗的bc-qmix离在线多智能体行为决策建模方法 - Google Patents

面向兵力博弈对抗的bc-qmix离在线多智能体行为决策建模方法 Download PDF

Info

Publication number
CN115964898A
CN115964898A CN202310079296.XA CN202310079296A CN115964898A CN 115964898 A CN115964898 A CN 115964898A CN 202310079296 A CN202310079296 A CN 202310079296A CN 115964898 A CN115964898 A CN 115964898A
Authority
CN
China
Prior art keywords
network
action
agent
training
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310079296.XA
Other languages
English (en)
Inventor
李妮
王泽�
龚光红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202310079296.XA priority Critical patent/CN115964898A/zh
Publication of CN115964898A publication Critical patent/CN115964898A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种面向兵力博弈对抗的BC‑QMIX离在线多智能体行为决策建模方法,包括:构建BC‑QMIX行为决策模型,包括上层的混合状态‑动作价值网络以及底层的子智能体网络,子智能体网络包括动作价值网络和行为克隆网络;设计动作选择策略,通过行为克隆网络限制训练过程中智能体的动作选择,只考虑实际出现在样本数据集中的动作,而不是考虑动作空间中所有可能的动作;进行离线和在线训练:基于已有兵力博弈对抗领域知识采集仿真样本数据集的离线预训练;在线环境下更新样本数据集,进行在线的优化训练;将训练好的BC‑QMIX行为决策模型部署在多智能体仿真环境,完成实时自主决策。该方法能够加速行为决策模型网络训练和收敛,缓解标准QMIX模型离线训练的外推误差。

Description

面向兵力博弈对抗的BC-QMIX离在线多智能体行为决策建模方法
技术领域
本发明涉及兵力博弈对抗仿真以及多智能体离线强化学习领域,更具体的说涉及一种面向兵力博弈对抗的BC-QMIX离在线多智能体行为决策建模方法。
背景技术
兵力博弈对抗仿真中如何构建兵力智能体的行为决策模型,提高兵力行为模型的智能水平、自学习能力以及博弈水平成为一个亟需解决的问题,对提高兵力博弈对抗的沉浸感,增强仿真可信度具有重要的研究价值和意义。在作战博弈游戏中通常包括单智能体对抗博弈以及多智能体博弈对抗两种类型,其中多智能体协同对抗的游戏场景居多。相对于单智能体对抗博弈场景,多智能体协同对抗的行为决策模型更加复杂,需要考虑团队内智能体行为的配合以及信息交互。
现有的自主行为决策方法可大体分为传统方法和人工智能类方法两大类,传统方法包括微分博弈法、近似动态规划、影响图法等;基于人工智能的空战决策方法大多数为数据驱动的算法,包括遗传模糊树、专家系统、深度强化学习(Deep ReinforcementLearning,DRL)等。传统基于优化理论的方法面对大规模、高维度空战决策问题时,计算时间无法满足兵力博弈对抗仿真中机动决策的实时性需求。基于人工智能技术的方法中,专家系统过分依赖领域知识,通常存在领域知识获取困难、建模工作量大等缺点。
随着深度学习、强化学习在棋牌类游戏、实时策略游戏等领域中取得的巨大成功,研究深度学习、深度强化学习在兵力博弈对抗自主决策中的应用已受到广泛的关注。多智能体深度强化学习研究起步较晚,无论是学术研究还是工程应用方面都有较多空间亟待拓展,不同类型的算法有不同的优缺点和适用的任务场景。此外,在复杂兵力博弈对抗仿真环境下,采用标准的多智能体强化学习算法进行在线行为决策网络训练时,需要实时与仿真场景进行交互,仿真样本数据采集和行为决策网络训练效率低,训练周期长。因此如果可以将强化学习行为决策网络的训练和强化学习算法与仿真环境的交互分离开,即基于静态仿真数据集采用离线方式开展预训练,再进行在线优化网络训练,最后将经过离在线结合方式训练好的行为决策网络用于仿真环境中兵力模型的实时决策,强化学习行为决策网络训练周期可以得到大大缩短,从而节省兵力博弈对抗仿真场景中兵力行为决策建模的时间成本,具有重大的工程实际意义。
发明内容
目前多智能体强化学习算法多应用于场景简单、决策变量少的游戏环境中。兵力博弈对抗仿真中的多智能体协同对抗作为典型的复杂场景,具有参战实体数量多、态势信息量大、局部可观测、决策变量多的特点。现有的典型多智能体强化学习算法应用于兵力博弈对抗仿真中的决策建模,可能会造成网络不收敛,训练周期长、训练效果差的现象。另外,由于外推误差(extrapolation error)的存在,现有标准RL算法在离线的设置下学习效果往往非常差,学到的策略无法在实际部署中取得令人满意的表现。目前离线强化学习的研究主要针对单智能体强化学习算法,缺乏针对多智能体离线强化学习算法的研究。
本发明针对现有多智能体强化学习算法在复杂兵力博弈对抗决策任务场景下仿真样本采集和行为决策网络训练效率低、训练周期长的缺点,以及目前离线强化学习研究主要针对单智能体的强化学习算法,缺少可以直接应用于多智能体的离线强化学习算法的研究现状,将基于策略约束的离线强化学习思路引入多智能体强化学习算法中,在标准QMIX网络的基础上,引入批处理约束(batch-constrained,BC)限制离线训练条件下智能体的动作选择,希望只考虑实际出现在离线数据库中的动作,而不是考虑动作空间中所有可能的动作,从而缓解标准QMIX算法在离线训练过程中外推误差带来的影响,形成基于BC-QMIX的离在线多兵力智能体行为决策建模方法,并提出了离在线结合的网络训练方式,基于静态仿真数据集先采用离线方式开展预训练,再进行在线多智能体行为决策网络优化训练,最后将经过离在线结合方式训练好的网络用于兵力博弈对抗仿真环境的实时决策,实现了加速兵力行为决策模型训练和收敛的目的。
本发明提供一种面向兵力博弈对抗的BC-QMIX离在线多智能体行为决策建模方法,包括以下步骤:
步骤一,针对兵力博弈对抗场景,构建BC-QMIX行为决策模型,包括上层的混合状态-动作价值网络以及底层的子智能体网络,每个子智能体网络包括动作价值网络和行为克隆网络;
步骤二,针对BC-QMIX行为决策模型,设计动作选择策略,通过行为克隆网络限制训练过程中智能体的动作选择,只考虑实际出现在样本数据集中的动作,而不是考虑动作空间中所有可能的动作,缩小动作价值的外推误差;
步骤三,对所述BC-QMIX行为决策模型进行离线和在线训练,包括两个阶段:基于已有兵力博弈对抗领域知识采集仿真样本数据集的离线预训练;在线环境下更新样本数据集,进行在线的优化训练;
步骤四,将训练好的BC-QMIX行为决策模型部署在兵力博弈对抗场景下多智能体仿真环境,完成实时自主决策。
进一步,所述步骤一,所述行为克隆网络Gwi采用交叉熵损失函数进行监督学习训练,在训练过程中,动作空间中选取最大化动作价值的动作时,只考虑相对可能性
Figure BDA0004066977330000031
大于阈值τ的动作;其中Gwi(ai|oi)表示第i个子智能体在输入观测量oi的条件下选择执行动作ai的概率,
Figure BDA0004066977330000032
表示第i个子智能体中使得Gwi值最大的动作。
进一步,所述步骤一,所述BC-QMIX行为决策模型的损失函数的设计考虑两部分:(1)根据目标网络和估计网络计算的Q值的差;(2)每个子智能体行为克隆网络动作估计的误差:
Figure BDA0004066977330000041
其中,θ表示当前网络参数,θ-表示目标网络参数,r表示环境奖励值,γ表示奖励折扣因子,o表示当前帧由多个智能体局部观测量组成的局部观测向量,a表示当前帧由多个智能体动作组成的动作向量,o′表示下一帧由多个智能体局部观测量组成的局部观测向量,a′表示下一帧由多个智能体动作组成的动作向量,ai表示第i个子智能体的动作,oi表示第i个子智能体的局部观测量,s表示当前帧的全局状态,s′表示下一帧的全局状态,
Figure BDA0004066977330000042
表示目标网络中的混合状态-动作价值网络,Qtot表示当前网络中的混合状态-动作价值网络;Gwi(ai|oi)表示第i个子智能体在输入观测量oi的条件下选择执行动作ai的概率,n为子智能体的数量。
进一步,所述步骤二,动作选择策略具体为:
随机生成一个(0,1)区间的概率常数ρ,若ρ<ε,则以相同的概率在动作集合中随机选择一个动作执行;否则,归一化行为克隆网络Gwi中得到的全部动作概率,将概率超过阈值τ的行为记为候选集合,在候选集合中取动作价值最大者作为决策动作;随着训练过程的进行,不断减小ε,即减小探索的比例,增加利用的比例;策略选择公式如下式所示:
Figure BDA0004066977330000043
其中,ai表示第i个子智能体的动作,
Figure BDA0004066977330000044
表示第i个子智能体中使得Gwi值最大的动作,|ai|表示可以选择的动作总数,Gwi(ai|oi)表示第i个子智能体在输入观察量oi的条件下选择执行动作ai的概率,Qi(oi,ai)表示第i个子智能体的动作价值。
进一步,所述步骤三,基于已有兵力博弈对抗领域知识采集仿真样本数据库的离线预训练,包括以下子步骤:
步骤101:初始化BC-QMIX行为决策模型的神经网络参数;
步骤102:对学习率lr、经验回放池容量B、探索程度ε、目标网络参数更新频率target_update_interval、单次训练样本量batch_size进行初始化设置;
步骤103:基于已有的领域知识设计规则采集兵力博弈对抗仿真样本数据,或从专家在回路的仿真场景中采集专家仿真样本数据,形成离线的训练仿真样本数据集,并放入经验回放池中;
步骤104:在经验回放池中随机抽取batch_size大小的仿真样本数据,用于BC-QMIX行为决策模型的网络训练:首先将各智能体观测输入到其动作价值网络中,得到仿真样本数据中动作对应的动作价值Qi(oi,ai);将全局状态s输入到超参数网络中,输出混合状态-动作价值网络的权值和偏重;将动作价值Qi(oi,ai)输入到混合状态-动作价值网络中,输出混合状态-动作价值Qtot(o,a,s;θ);其次将后继全局状态s′中的观测输入到目标网络的混合状态-动作价值函数网络中,根据如下策略选择公式:
Figure BDA0004066977330000051
其中,a′i表示第i个子智能体继动作ai之后的下一动作,o′i表示第i个子智能体继局部观测oi之后的下一局部观测;
分别得到目标网络中每个智能体的执行动作a′i并计算
Figure BDA0004066977330000052
将后续状态s′输入到目标网络的超参数网络中,输出目标网络的混合状态-动作价值网络权值和偏重;将
Figure BDA0004066977330000053
输入到目标网络的混合状态-动作价值网络中,输出目标网络的混合状态-动作价值
Figure BDA0004066977330000054
根据下式计算损失函数,再计算梯度进行反向传播并更新当前网络的参数:
Figure BDA0004066977330000061
其中,s′表示下一帧的全局状态,
Figure BDA0004066977330000062
为目标网络的第i个子智能体的动作价值网络,
Figure BDA0004066977330000063
表示目标网络的混合状态-动作价值网络,Qtot表示当前网络的混合状态-动作价值网络,o′i表示智能体i的下一帧观测;M表示训练一次网络需要的样本数量,rj表示样本j的环境奖励值;
步骤105:判断目标网络是否应该更新,如是则复制当前网络的参数,否则执行步骤106。
步骤106:判断是否满足停止训练的条件,若是则终止当前流程,否则返回步骤104。
进一步,所述步骤三,在线的优化训练包括以下子步骤:
步骤201:初始化BC-QMIX行为决策模型的神经网络,并加载离线训练后网络的参数以及超参数;
步骤202:从在线对抗态势中提取BC-QMIX网络的当前全局状态s,以及不同子智能体的观测量{o1,…,on},其中oi=s∩scopei,scopei表示第i个子智能体的局部观测范围;
步骤203:将不同子智能体的观测量{o1,…,on}输入子智能体的动作价值网络Qi以及行为克隆网络Gwi根据如下式动作选择策略选取不同智能体的执行动作{a1,…,an}:
Figure BDA0004066977330000064
步骤204:不同子智能体执行完相应动作ai后,得到下一帧的全局状态s′以及观测量{o′1,…,o′n},其中o′i=s′∩scopei,并根据奖励函数计算上一帧动作执行后取得的环境奖励值r,将{s,ai,s′,r}作为一个样本存入样本池中;
步骤205:继续执行步骤104;
步骤206:判断目标网络是否应该更新,如是则复制当前网络的参数,否则执行步骤207;
步骤207:判断是否满足停止训练的条件,若是则终止当前流程,否则返回步骤202。
进一步,所述步骤四具体为:将训练好的子智能体动作价值网络Qi以及行为克隆网络Gwi分别部署在不同兵力智能体模型中,每个兵力智能体模型接收观测信息oi,并根据下式实时决策执行动作
Figure BDA0004066977330000071
本发明与现有技术相比所具有的有益效果:
1.目前基于策略约束的离线强化学习研究主要针对单智能体强化学习算法,本发明将基于策略约束的离线强化学习思路引入多智能体QMIX强化学习算法中,形成基于BC-QMIX的离在线多兵力智能体行为决策建模方法,能够加速行为模型网络训练和收敛。
2.引入批处理约束(batch-constrained)限制离在线训练条件下兵力智能体模型的动作选择,希望只考虑实际出现在离线仿真样本数据集中的动作a,而不是考虑兵力模型动作空间中所有可能的动作,缓解了标准QMIX构建行为决策模型离线训练的外推误差,提高了训练效果。
3.基于BC-QMIX构建多智能体行为决策模型进行离线学习训练,相比模仿学习对离线仿真样本数据集的质量要求更低,不要求兵力博弈对抗仿真样本数据必须由最优或高性能的专家提供,可以由次优的策略产生,能够实现新策略的探索以及自学习自演化。
附图说明
图1为BC-QMIX多兵力智能体行为决策模型结构设计;
图2为基于BC-QMIX的兵力模型行为策略训练方法;
图3为基于BC-QMIX多兵力智能体行为决策网络训练流程;
图4为运行模式下BC-QMIX多兵力智能体决策模型结构。
具体实施方式
下面结合附图对本发明进行详细描述。
一种面向兵力博弈对抗的BC-QMIX离在线多智能体行为决策建模方法,主要包括以下几个部分:
(1)面向兵力对抗博弈的BC-QMIX行为决策模型结构设计:在这部分本发明提出一种新的强化学习行为决策网络结构BC-QMIX,可以实现离线状态下的多兵力智能体行为决策建模训练,这种网络结构是在QMIX网络的基础上对每一个子智能体行为模型网络使用标准的监督学习方式来训练一个行为克隆(behaviour cloning)网络Gwi(ai|oi)≈πbi(ai|oi)来为行为选择提供依据。
图1展示了用于兵力行为决策建模的BC-QMIX网络模型结构,整体结构与QMIX网络相似,包括上层的混合状态-动作价值网络Qtot以及底层的子智能体网络Qi,其中上层混合状态-动作价值网络的权值和偏重由超参数网络hypenetwork根据全局状态s生成。子智能体网络,即动作价值网络Qi根据局部观测得到各自的动作价值Qi(oi,ai),所有子智能体的动作价值经过上层混合状态-动作价值网络后得到混合状态-动作价值Qtot(o,a,s;θ)。
本发明在每个子智能体网络中引入行为克隆网络Gwi约束动作选择,Gwi的结构与动作价值网络Qi完全相同。Qi(oi,ai)表示第i个子智能体的动作价值,Gwi(ai|oi)表示第i个子智能体在输入观测量oi的条件下选择执行不同动作的概率。Gwi是一个高效的行为克隆网络,采用交叉熵损失函数进行监督学习训练。在网络参数学习训练时,相比QMIX算法,将动作空间中选取最大化Qi值的动作改为只考虑相对可能性
Figure BDA0004066977330000091
大于阈值τ的动作。
如图2所示在网络训练过程中,BC-QMIX网络通过目标网络和当前网络的误差值更新当前网络参数,不断优化行为决策模型。其中目标网络结构由当前网络复制得到,目标网络参数每隔固定步数复制当前网络参数得到。损失函数的设计考虑两部分:(1)根据目标网络和估计网络计算的Q值的差;(2)每个子智能体行为克隆网络动作估计的误差:
Figure BDA0004066977330000092
其中,θ表示当前网络参数,θ-表示目标网络参数,r表示环境奖励值,γ表示奖励折扣因子,o表示当前帧由多个智能体局部观测量组成的局部观测向量,a表示当前帧由多个智能体动作组成的动作向量,o′表示下一帧由多个智能体局部观测量组成的局部观测向量,a′表示下一帧由多个智能体动作组成的动作向量,ai表示第i个子智能体的动作,oi表示第i个子智能体的局部观测量,s表示当前帧的全局状态,s′表示下一帧的全局状态,
Figure BDA0004066977330000093
表示目标网络中的混合状态-动作价值网络,Qtot表示当前网络中的混合状态-动作价值网络。Gwi(ai|oi)表示第i个子智能体在输入观测量oi的条件下选择执行动作ai的概率,n为子智能体的数量。
面向兵力博弈对抗的BC-QMIX行为决策建模方法的关键是通过在标准QMIX网络结构的基础上引入动作选择约束,希望只考虑实际出现在离散兵力博弈对抗仿真数据集中的动作a,而不是考虑兵力模型可执行动作空间的所有可能动作,从而缓解标准QMIX算法在离线训练过程中外推误差带来的影响。动作约束条件的加入使得QMIX算法在离线训练条件下也能取得令人满意的结果。
(2)兵力对抗博弈行为决策模型动作选择策略设计:本发明使用基础的ε-greedy策略用来平衡探索与利用,基于监督学习训练的网络Gwi引入兵力行为决策模型动作选择策略约束,缩小动作价值的外推误差。
探索与利用之间的折中平衡一直是强化学习中很大的挑战。为了获得大量的收益,RL智能体会更倾向于选择那些在过去有效产生过收益的行为。但是为了明确哪些行为带来的收益值较大,需要对未选择过的行为进行大量的探索,智能体必须利用已有的经验来获取收益,同时也要进行试探,使得未来可以获得更好的动作选择空间。
本发明使用基础的ε-greedy策略来平衡探索与利用,随机生成一个(0,1)区间的概率常数ρ,若ρ<ε,则以相同的概率在动作集合中随机选择一个动作执行;否则,归一化行为克隆网络Gwi中可以得到的全部动作概率,将概率超过阈值τ的行为记为候选集合,最后在候选集合中取动作价值最大者作为决策动作。随着训练过程的进行,不断减小ε,即减小探索的比例,增加利用的比例。策略选择公式如下式所示:
Figure BDA0004066977330000101
其中,
Figure BDA0004066977330000102
表示第i个子智能体中使得Gwi值最大的动作,|ai|表示可以选择的动作总数。
(3)基于BC-QMIX的兵力模型行为策略训练方法;
由于复杂仿真对抗时间跨度长,仿真样本数据采集困难,使用在线学习会存在训练效率低,仿真数据采样效率低的工程问题,为了充分利用已有样本数据缩短网络训练周期,本发明提出的BC-QMIX行为决策建模方法采用离在线结合的网络训练方式,如图2所示。即先通过已有兵力博弈对抗领域知识采集仿真样本数据库离线训练BC-QMIX网络得到初步策略πk,随后在在线环境下逐渐更新样本库,增加对未知环境状态空间的探索,进行异策略的网络训练,达到进一步优化网络策略的目的,提高兵力行为决策模型价值网络对环境态势的表征能力。最终经过离在线训练优化的行为决策模型可以部署在仿真环境中完成兵力智能体的在线实时自主行为决策。
(4)基于BC-QMIX的兵力博弈对抗行为决策模型训练、运行流程设计;
基于BC-QMIX算法构建行为决策模型的完整运行流程如图3所示。下面分别介绍BC-QMIX多智能体行为决策模型离线训练、在线优化训练以及训练后部署运行的具体步骤。
1)多智能体行为决策模型离线训练具体步骤:
步骤101:初始化BC-QMIX行为决策模型的神经网络参数。
步骤102:对学习率lr、经验回放池容量B、探索程度ε、目标网络参数更新频率target_update_interval、单次训练样本量batch_size等各类超参数进行初始化设置。
步骤103:基于已有的领域知识设计规则采集较优兵力博弈对抗仿真样本数据,或直接从专家在回路的仿真场景中采集专家仿真样本数据,形成离线的训练仿真样本数据集,并放入经验回放池中。
步骤104:在经验回放池中随机抽取batch_size大小的仿真样本数据,用于兵力行为决策模型的网络训练。首先将各智能体观测输入到其动作价值网络中,得到仿真样本数据中动作对应的动作价值Qi(oi,ai);将全局状态s输入到超参数网络中,输出混合状态-动作价值网络的权值和偏重;将动作价值Qi(oi,ai)输入到混合状态-动作价值网络中,输出混合状态-动作价值Qtot(o,a,s;θ)。其次将下一帧的全局状态s′中的观测输入到目标网络的混合状态-动作价值网络中,根据如下策略选择公式:
Figure BDA0004066977330000111
其中,a′i表示第i个子智能体继动作ai之后的下一动作,o′i表示第i个子智能体继局部观测oi之后的下一局部观测。
分别得到目标网络中每个智能体的执行动作a′i并计算
Figure BDA0004066977330000121
将下一帧的全局状态s′输入到目标网络的超参数网络中,输出目标网络的混合状态-动作价值网络权值和偏重;将
Figure BDA0004066977330000122
输入到目标网络的混合状态-动作价值网络中,输出目标网络的混合状态-动作价值
Figure BDA0004066977330000123
根据下式计算损失函数,再计算梯度进行反向传播并更新当前网络的参数;
Figure BDA0004066977330000124
其中,s′表示下一帧的全局状态,
Figure BDA0004066977330000125
为目标网络的第i个子智能体的动作价值网络,
Figure BDA0004066977330000126
表示目标网络的混合状态-动作价值网络,Qtot表示当前网络的混合状态-动作价值网络,o′i表示智能体i的观测后的下一观测;M表示训练一次网络需要的样本数量,rj表示样本j的环境奖励值。
步骤105:判断目标网络是否应该更新,如是则复制当前网络的参数,否则执行步骤106。
步骤106:判断是否满足停止训练的条件,若是则终止当前流程,否则返回步骤104。
在经过离线网络训练后形成初步的动作选择策略,为了进一步减小外推误差带来的影响,提高网络决策质量,在在线环境下逐渐更新样本库,增加对未知状态空间的探索,进行异策略的网络训练。
2)多智能体行为决策模型在线优化训练具体步骤:
步骤201:初始化BC-QMIX行为决策模型的神经网络,并加载离线训练后网络的参数以及超参数。
步骤202:从在线对抗态势中提取BC-QMIX网络的当前全局状态s,以及不同子智能体的观测量{o1,…,on},其中oi=s∩scopei,scopei表示第i个子智能体的局部观测范围。
步骤203:将不同子智能体的观测量{o1,…,on}输入子智能体的动作价值网络Qi以及行为克隆网络Gwi,根据如下式动作选择策略选取不同智能体的执行动作{a1,…,an}。
Figure BDA0004066977330000131
步骤204:不同子智能体执行完相应动作ai后,得到下一帧的全局状态s′以及观测量{o′1,…,o′n},其中o′i=s′∩scopei,并根据奖励函数计算上一帧动作执行后取得的环境奖励值r。将{s,ai,s′,r}作为一个样本存入样本池中。
步骤205:继续执行步骤104。
步骤206:判断目标网络是否应该更新,如是则复制当前网络的参数,否则执行步骤207。
步骤207:判断是否满足停止训练的条件,若是则终止当前流程,否则返回步骤202。
3)多智能体行为决策模型部署运行流程:
多兵力智能体行为决策模型训练结束后,可将训练好的子智能体动作价值网络Qi以及行为克隆网络Gwi分别部署在不同兵力智能体模型中,每个兵力智能体模型接收观测信息oi,并根据下式实时决策执行动作。
Figure BDA0004066977330000132
基于BC-QMIX的多兵力智能体行为决策模型部署运行模式下整体结构如图4所示。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护。

Claims (7)

1.一种面向兵力博弈对抗的BC-QMIX离在线多智能体行为决策建模方法,其特征在于,包括以下步骤:
步骤一,针对兵力博弈对抗场景,构建BC-QMIX行为决策模型,包括上层的混合状态-动作价值网络以及底层的子智能体网络,每个子智能体网络包括动作价值网络和行为克隆网络;
步骤二,针对BC-QMIX行为决策模型,设计动作选择策略,通过行为克隆网络限制训练过程中智能体的动作选择,只考虑实际出现在样本数据集中的动作,而不是考虑动作空间中所有可能的动作,缩小动作价值的外推误差;
步骤三,对所述BC-QMIX行为决策模型进行离线和在线训练,包括两个阶段:基于已有兵力博弈对抗领域知识采集仿真样本数据集的离线预训练;在线环境下更新样本数据集,进行在线的优化训练;
步骤四,将训练好的BC-QMIX行为决策模型部署在兵力博弈对抗场景下多智能体仿真环境,完成实时自主决策。
2.根据权利要求1所述的方法,其特征在于,所述步骤一,所述行为克隆网络Gwi采用交叉熵损失函数进行监督学习训练,在训练过程中,动作空间中选取最大化动作价值的动作时,只考虑相对可能性
Figure FDA0004066977260000011
大于阈值τ的动作;其中Gwi(ai|oi)表示第i个子智能体在输入观测量oi的条件下选择执行动作ai的概率,
Figure FDA0004066977260000012
表示第i个子智能体中使得Gwi值最大的动作。
3.根据权利要求2所述的方法,其特征在于,所述步骤一,所述BC-QMIX行为决策模型的损失函数的设计考虑两部分:(1)根据目标网络和估计网络计算的Q值的差;(2)每个子智能体行为克隆网络动作估计的误差:
Figure FDA0004066977260000013
其中,θ表示当前网络参数,θ-表示目标网络参数,r表示环境奖励值,γ表示奖励折扣因子,o表示当前帧由多个智能体局部观测量组成的局部观测向量,a表示当前帧由多个智能体动作组成的动作向量,o′表示下一帧由多个智能体局部观测量组成的局部观测向量,a′表示下一帧由多个智能体动作组成的动作向量,ai表示第i个子智能体的动作,oi表示第i个子智能体的局部观测量,s表示当前帧的全局状态,s′表示下一帧的全局状态,
Figure FDA0004066977260000021
表示目标网络中的混合状态-动作价值网络,Qtot表示当前网络中的混合状态-动作价值网络;Gwi(ai|oi)表示第i个子智能体在输入观测量oi的条件下选择执行动作ai的概率,n为子智能体的数量。
4.根据权利要求3所述的方法,其特征在于,所述步骤二,动作选择策略具体为:
随机生成一个(0,1)区间的概率常数ρ,若ρ<ε,则以相同的概率在动作集合中随机选择一个动作执行;否则,归一化行为克隆网络Gwi中得到的全部动作概率,将概率超过阈值τ的行为记为候选集合,在候选集合中取动作价值最大者作为决策动作;随着训练过程的进行,不断减小ε,即减小探索的比例,增加利用的比例;策略选择公式如下式所示:
Figure FDA0004066977260000022
其中,ai表示第i个子智能体的动作,
Figure FDA0004066977260000023
表示第i个子智能体中使得Gwi值最大的动作,|ai|表示可以选择的动作总数,Gwi(ai|oi)表示第i个子智能体在输入观察量oi的条件下选择执行动作ai的概率,Qi(oi,ai)表示第i个子智能体的动作价值。
5.根据权利要求4所述的方法,其特征在于,所述步骤三,基于已有兵力博弈对抗领域知识采集仿真样本数据库的离线预训练,包括以下子步骤:
步骤101:初始化BC-QMIX行为决策模型的神经网络参数;
步骤102:对学习率lr、经验回放池容量B、探索程度ε、目标网络参数更新频率target_update_interval、单次训练样本量batch_size进行初始化设置;
步骤103:基于已有的领域知识设计规则采集兵力博弈对抗仿真样本数据,或从专家在回路的仿真场景中采集专家仿真样本数据,形成离线的训练仿真样本数据集,并放入经验回放池中;
步骤104:在经验回放池中随机抽取batch_size大小的仿真样本数据,用于BC-QMIX行为决策模型的网络训练:首先将各智能体观测输入到其动作价值网络中,得到仿真样本数据中动作对应的动作价值Qi(oi,ai);将全局状态s输入到超参数网络中,输出混合状态-动作价值网络的权值和偏重;将动作价值Qi(oi,ai)输入到混合状态-动作价值网络中,输出混合状态-动作价值Qtot(o,a,s;θ);其次将后继全局状态s′中的观测输入到目标网络的混合状态-动作价值函数网络中,根据如下策略选择公式:
Figure FDA0004066977260000031
其中,a′i表示第i个子智能体继动作ai之后的下一动作,o′i表示第i个子智能体继局部观测oi之后的下一局部观测;
分别得到目标网络中每个智能体的执行动作a′i并计算
Figure FDA0004066977260000032
将后续状态s′输入到目标网络的超参数网络中,输出目标网络的混合状态-动作价值网络权值和偏重;将
Figure FDA0004066977260000033
输入到目标网络的混合状态-动作价值网络中,输出目标网络的混合状态-动作价值
Figure FDA0004066977260000034
根据下式计算损失函数,再计算梯度进行反向传播并更新当前网络的参数:
Figure FDA0004066977260000041
其中,s′表示下一帧的全局状态,
Figure FDA0004066977260000042
为目标网络的第i个子智能体的动作价值网络,
Figure FDA0004066977260000043
表示目标网络的混合状态-动作价值网络,Qtot表示当前网络的混合状态-动作价值网络,o′i表示智能体i的下一帧观测;M表示训练一次网络需要的样本数量,rj表示样本j的环境奖励值;
步骤105:判断目标网络是否应该更新,如是则复制当前网络的参数,否则执行步骤106。
步骤106:判断是否满足停止训练的条件,若是则终止当前流程,否则返回步骤104。
6.根据权利要求5所述的方法,其特征在于,所述步骤三,在线的优化训练包括以下子步骤:
步骤201:初始化BC-QMIX行为决策模型的神经网络,并加载离线训练后网络的参数以及超参数;
步骤202:从在线对抗态势中提取BC-QMIX网络的当前全局状态s,以及不同子智能体的观测量{o1,…,on},其中oi=s∩scopei,scopei表示第i个子智能体的局部观测范围;
步骤203:将不同子智能体的观测量{o1,…,on}输入子智能体的动作价值网络Qi以及行为克隆网络Gwi根据如下式动作选择策略选取不同智能体的执行动作{a1,…,an}:
Figure FDA0004066977260000044
步骤204:不同子智能体执行完相应动作ai后,得到下一帧的全局状态s′以及观测量{o′1,…,o′n},其中o′i=s′∩scopei,并根据奖励函数计算上一帧动作执行后取得的环境奖励值r,将{s,ai,s′,r}作为一个样本存入样本池中;
步骤205:继续执行步骤104;
步骤206:判断目标网络是否应该更新,如是则复制当前网络的参数,否则执行步骤207;
步骤207:判断是否满足停止训练的条件,若是则终止当前流程,否则返回步骤202。
7.根据权利要求6所述的方法,其特征在于,所述步骤四具体为:将训练好的子智能体动作价值网络Qi以及行为克隆网络Gwi分别部署在不同兵力智能体模型中,每个兵力智能体模型接收观测信息oi,并根据下式实时决策执行动作
Figure FDA0004066977260000051
CN202310079296.XA 2023-01-18 2023-01-18 面向兵力博弈对抗的bc-qmix离在线多智能体行为决策建模方法 Pending CN115964898A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310079296.XA CN115964898A (zh) 2023-01-18 2023-01-18 面向兵力博弈对抗的bc-qmix离在线多智能体行为决策建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310079296.XA CN115964898A (zh) 2023-01-18 2023-01-18 面向兵力博弈对抗的bc-qmix离在线多智能体行为决策建模方法

Publications (1)

Publication Number Publication Date
CN115964898A true CN115964898A (zh) 2023-04-14

Family

ID=87363502

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310079296.XA Pending CN115964898A (zh) 2023-01-18 2023-01-18 面向兵力博弈对抗的bc-qmix离在线多智能体行为决策建模方法

Country Status (1)

Country Link
CN (1) CN115964898A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116736883A (zh) * 2023-05-23 2023-09-12 天津大学 一种无人飞行集群智能协同运动规划的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116736883A (zh) * 2023-05-23 2023-09-12 天津大学 一种无人飞行集群智能协同运动规划的方法
CN116736883B (zh) * 2023-05-23 2024-03-08 天津大学 一种无人飞行集群智能协同运动规划的方法

Similar Documents

Publication Publication Date Title
CN112668235B (zh) 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN111291890B (zh) 一种博弈策略优化方法、系统及存储介质
Paster et al. You can’t count on luck: Why decision transformers and rvs fail in stochastic environments
Dereszynski et al. Learning probabilistic behavior models in real-time strategy games
Van Otterlo The logic of adaptive behavior: Knowledge representation and algorithms for adaptive sequential decision making under uncertainty in first-order and relational domains
Lin et al. Multi-agent inverse reinforcement learning for certain general-sum stochastic games
CN111282267B (zh) 信息处理方法、装置、介质及电子设备
Janusz et al. Helping ai to play hearthstone: Aaia'17 data mining challenge
Knegt et al. Opponent modelling in the game of Tron using reinforcement learning
CN113688977A (zh) 面向对抗任务的人机共生强化学习方法、装置、计算设备及存储介质
CN114330651A (zh) 面向多要素联合指控的分层多智能体增强学习方法
Tang et al. A review of computational intelligence for StarCraft AI
CN116090549A (zh) 一种基于知识驱动的多智能体强化学习决策方法、系统及存储介质
CN115964898A (zh) 面向兵力博弈对抗的bc-qmix离在线多智能体行为决策建模方法
Liu et al. Efficient reinforcement learning for starcraft by abstract forward models and transfer learning
Hou et al. Behavior reasoning for opponent agents in multi-agent learning systems
CN117828286A (zh) 基于深度强化学习的多智能体对抗决策方法及装置
Tong et al. Enhancing rolling horizon evolution with policy and value networks
Dockhorn Prediction-based search for autonomous game-playing
Ha Neuroevolution for deep reinforcement learning problems
CN114861368B (zh) 一种基于近端策略的铁路纵断面设计学习模型的构建方法
Li et al. Two-level Q-learning: learning from conflict demonstrations
Sun et al. Research on action strategies and simulations of drl and mcts-based intelligent round game
Hafner Deep reinforcement learning from raw pixels in doom
CN116306947A (zh) 一种基于蒙特卡洛树探索的多智能体决策方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination