CN115291625A - 基于多智能体分层强化学习的多无人机空战决策方法 - Google Patents

基于多智能体分层强化学习的多无人机空战决策方法 Download PDF

Info

Publication number
CN115291625A
CN115291625A CN202210831674.0A CN202210831674A CN115291625A CN 115291625 A CN115291625 A CN 115291625A CN 202210831674 A CN202210831674 A CN 202210831674A CN 115291625 A CN115291625 A CN 115291625A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
strategy
agent
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210831674.0A
Other languages
English (en)
Inventor
辛斌
郑逸凡
李莉
焦科名
赵智信
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202210831674.0A priority Critical patent/CN115291625A/zh
Publication of CN115291625A publication Critical patent/CN115291625A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/107Simultaneous control of position or course in three dimensions specially adapted for missiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本申请提供了一种基于多智能体分层强化学习的多无人机空战决策方法,所述方法包括:基于实际多无人机空战场景构建的仿真环境,包括环境约束模型、无人机个体约束模型和对抗影响规则;将多无人机空战问题建模为半马尔可夫博弈模型,单个无人机的决策过程抽象为代表高层和底层策略的两个智能体,分别定义各智能体的状态空间表示、动作、奖励函数和动作终止条件;采用一种异策略同步学习与自博弈机制结合的多智能体强化学习算法分别训练无人机高层和底层策略智能体;完成训练后无人机基于底层策略智能体的策略网络和局部观测进行决策;该方法可实现空战环境下多无人机的自主无人协同决策,无需人类驾驶员介入,具有较好的即时性和鲁棒性。

Description

基于多智能体分层强化学习的多无人机空战决策方法
技术领域
本申请涉及多无人机自主协同决策与控制技术领域,具体涉及一种基于多智能体分层强化学习的多无人机空战决策方法。
背景技术
多无人机集群空战通常指携带武器的敌我双方无人机在一定空域中以协同打击对手,同时保证自身存活为目标的缠斗,具有立体化、大规模、高机动性作战等特点,对无人机自主协同决策与控制的即时性、鲁棒性和稳定性提出非常高的要求。
多智能体强化学习将个体的感知、学习与决策集成为同一框架,同时体现了个体间的相互协作,通过多个具备简单智能的个体实现复杂的集群智能,在近年来计算和存储技术飞速进步的大背景下,与深度学习相结合可实现从原始输入到策略输出的“端到端”决策,是解决多无人机集群空战自主协同决策这类高动态、非线性、强约束系统问题的一类有效方法。
然而,作为一类以数据驱动为主的方法,现有多智能体强化学习算法在解决多无人机空战协同决策这类复杂问题时往往依赖对环境大量的探索,导致样本学习效率较低,且对算力需求较高,为解决此类问题有部分方法借助人类飞行员的经验进行有监督的预训练,或结合专家规则设计动作,以加速算法收敛,但由此又带来容易使策略陷入局部最优的问题。
因此,如何较好的平衡探索与利用是采用深度多智能体强化学习方法解决此类问题面临的一大困难。此外,多智能体环境还带来了状态转移不稳定,状态部分可观导致的通信架构复杂,以及个体与团队目标难以平衡的问题。
发明内容
为了解决上述技术问题,本申请提出一种基于多智能体分层强化学习的多无人机空战决策方法,无人机的决策过程被抽象为分别代表高层和底层策略的两个智能体,其中,高层策略智能体在较高的时间维度学习目标分配策略,首先结合先验知识的态势估计先学习战术层面的策略,再进一步引导底层策略智能体在较低的时间维度优化基本控制策略,从而避免连续动作空间的过多盲目探索,提高样本的利用率;采用一种异策略同步学习与自博弈机制结合的多智能体强化学习算法进行训练,中心化训练去中心化执行的多智能体强化学习架构使无人机仅需移植底层策略智能体的策略网络,依据局部观测进行决策,无需依靠通信获取全局状态,具有较好的即时性和鲁棒性。
本申请提供了一种基于多智能体分层强化学习的多无人机空战决策方法,所述方法包括:
基于实际空战场景构建多无人机协同空战仿真对抗环境;
将所述多无人机协同空战仿真对抗环境中无人机空战协同决策问题构建为半马尔可夫博弈模型,在所述半马尔可夫博弈模型下将无人机的决策过程抽象为高层策略智能体和底层策略智能体;
采用异策略同步学习与自博弈机制结合的多智能体强化学习算法,训练所述高层策略智能体和所述底层策略智能体;其中,所述高层策略智能体在较高时间维度基于当前态势和全局状态学习目标分配策略,所述底层策略智能体在较低时间维度基于当前分配目标和局部观测学习最优控制策略;
基于所述底层策略智能体的策略网络和局部观测进行决策。
优选地,所述基于实际空战场景构建多无人机协同空战仿真对抗环境,包括:
基于实际空战场景,以计算机仿真的方式构建多无人机协同空战仿真对抗环境。
优选地,所述基于实际空战场景,以计算机仿真的方式构建多无人机协同空战仿真对抗环境,包括:
定义环境约束模型,包括对抗空间区域和物理影响因素;
定义无人机个体约束模型,包括个体无人机的运动能力、感知能力和火力打击能力;
定义对抗影响规则,包括敌我双方无人机对抗交互方式、对抗目标及胜负条件。
优选地,所述将多无人机空战协同决策问题构建为半马尔可夫博弈模型,包括:
采用多智能体分层强化学习方法,将多无人机空战协同决策问题构建为半马尔可夫博弈模型。
优选地,所述半马尔可夫博弈模型由元组
Figure BDA0003748681460000021
进行描述;
其中,
Figure BDA0003748681460000022
为所有智能体的有限集合,包括代表高层策略智能体的子集
Figure BDA0003748681460000023
和代表底层策略智能体的子集
Figure BDA0003748681460000031
Figure BDA0003748681460000032
为联合状态空间;
Figure BDA0003748681460000033
为状态转移概率;
Figure BDA0003748681460000034
为联合动作空间;
Figure BDA0003748681460000035
为奖励;
Figure BDA0003748681460000036
为上层决策的n步终止条件。
优选地,所述采用异策略同步学习与自博弈机制结合的多智能体强化学习算法,训练所述高层策略智能体和所述底层策略智能体,包括:
所述高层策略智能体Hi采用双深度Q网络算法训练,神经网络
Figure BDA0003748681460000037
和QB(s,a|θB)根据经验回放池中的样本
Figure BDA0003748681460000038
计算损失函数并反向传播梯度,交替更新网络参数θA和θB;其中,ST和ST+1为向量化的全局状态;
Figure BDA0003748681460000039
Figure BDA00037486814600000310
为Hi的奖励和动作;
所述底层策略智能体Li采用多智能体近端策略优化算法训练,Critic神经网络Vi(S,a1,a2,...,anV)根据样本
Figure BDA00037486814600000311
计算价值函数的损失并反向传播梯度更新网络参数θV;其中,St和St+1为全局状态;
Figure BDA00037486814600000312
为此时高层策略动作;
Figure BDA00037486814600000313
Figure BDA00037486814600000314
为Li的奖励和动作;Actor神经网络πi(oiπ)根据样本
Figure BDA00037486814600000315
计算策略函数的损失并反向传播梯度更新网络参数θπ;其中,
Figure BDA00037486814600000316
Figure BDA00037486814600000317
为向量化的局部观测。
优选地,所述训练所述高层策略智能体和所述底层策略智能体,包括:
第一阶段:敌方无人机采用基于专家规则的策略:确定目标后加速至最大速度;确定目标后保持和目标同一高度;采用以下优先级函数确定攻击目标:
Figure BDA00037486814600000318
其中,gij为无人机i对敌方无人机j的优先级因子,选择优先级因子最低的目标进行攻击;δij为向量
Figure BDA00037486814600000319
Figure BDA00037486814600000320
在xy平面投影的夹角;εmax为单一时间步的最大航向角变化量;hij为i和j的相对高度;ζmax为单一时间步的最大高度变化量;mj为无人机j已被作为目标分配的次数;
第二阶段:自博弈训练,敌我双方无人机第一阶段训练的策略网络进行决策,基于生成的轨迹样本进一步训练各自的决策模型,为避免出现策略循环采用虚拟自博弈机制。
优选地,所述方法还包括:
完成训练后无人机仅保留底层策略智能体的策略网络,通过输入局部观测输出控制动作,可进一步迁移至实际场景。
与现有技术相比,本申请的有益技术效果:
1)将单个无人机的决策过程抽象为分别代表战术层面和控制层面策略的智能体,设计自适应的奖励机制实现不同决策层级智能体的同步训练,底层策略解空间的搜索由高层策略引导,样本学习效率高,同时具备一定跳出局部最优的能力,能较好的平衡强化学习算法的探索与利用。
2)底层策略智能体的训练采用中心化Critic去中心化Actor架构的算法,高层策略智能体的动作作为价值网络输入的一部分对底层策略进行评价,训练完成后无人机仅保留底层策略智能体的策略网络,依据局部观测进行决策,降低数据存储、通信和计算的难度。
3)训练过程无需人类驾驶员的介入,基于高保真度固定翼无人机模型构建的仿真环境使此方法能进一步迁移至真实环境。
附图说明
图1是本申请实施例提供的基于多智能体分层强化学习的多无人机协同空战决策模型的示意图;
图2是本申请实施例提供的异策略同步学习机制算法的流程;
图3是本申请实施例提供的两阶段博弈训练示意图。
具体实施方式
请参阅图1-3,本申请提供了一种基于多智能体分层强化学习的多无人机空战决策方法,首先,基于实际空战场景构建仿真环境:携带有限导弹的同构对称能力固定翼无人机在一定三维空域进行以消灭对手为目标的空中搏斗对抗,以控制量
Figure BDA0003748681460000041
分别控制无人机的空速、航向角、高度和开火,分别定义环境约束模型、无人机个体约束模型和对抗影响规则。
然后,将多无人机空战问题建模为半马尔可夫博弈(Semi-Markov Game)问题,由元组
Figure BDA0003748681460000042
进行描述,其中,
Figure BDA0003748681460000043
为所有智能体的有限集合,包括代表高层决策智能体的子集
Figure BDA0003748681460000044
和代表底层决策智能体的子集
Figure BDA0003748681460000045
Figure BDA0003748681460000046
为联合状态空间,
Figure BDA0003748681460000047
为状态转移概率,
Figure BDA0003748681460000048
为联合动作空间,
Figure BDA0003748681460000049
为奖励,
Figure BDA00037486814600000410
为高层决策对底层动作的n步终止条件。将无人机i的决策过程分别抽象为代表高层和底层策略的智能体Hi和Li,其中Hi在较高的时间维度根据当前全局状态ST执行战略层面的动作
Figure BDA00037486814600000411
返回下一时刻的状态ST+1和奖励
Figure BDA00037486814600000412
其中状态空间表示包括以下两部分:
(1)三个二维矩阵分别表示无人机在三维空间中x-y,x-z,y-z轴的相对位置;
(2)规模为4*1的一维数组[vB,χ,γ,M]分别表示本机当前速度、航向角、飞行路径角和剩余导弹数量。
其中,高层策略智能体的动作
Figure BDA0003748681460000051
为根据当前态势选择目标,按如下式计算无人机i对j的威胁指数σij
Figure BDA0003748681460000052
其中,α1,α2和α3分别为相应距离、角度和速度威胁的权重,应满足α123=1。
在本申请实施例中,计算无人机i对所有n架敌机的威胁指数集Advi-{σi1,...,σio}和受敌方威胁指数集Thri={σ1i,...,σni},高层策略智能体有以下动作:1)、攻击Advi中具有最大威胁指数的敌机并消灭目标;2)、攻击最近友机j的集合Thrj中具有最大威胁指数的敌机并消灭目标;3)、攻击最近友机j的集合Advj中具有最大威胁指数的敌机并消灭目标;4)、规避Thri中具有最大威胁指数的敌机并降低其威胁。
在本申请实施例中,高层策略智能体的奖励
Figure BDA0003748681460000053
表示时间步T内底层策略智能体获得的累计奖励,t0和n由终止条件决定:a)、无人机i被判定死亡;b)、当前选定攻击或规避的目标发生改变。
在本申请实施例中,底层策略智能体Li在较低的时间维度根据当前局部观测
Figure BDA0003748681460000054
执行动作
Figure BDA0003748681460000055
返回下一时刻的局部观测
Figure BDA0003748681460000056
和奖励
Figure BDA0003748681460000057
其中动作
Figure BDA0003748681460000058
为单位时间步内无人机的控制变量
Figure BDA0003748681460000059
在本申请实施例中,底层策略智能体与环境交互的时间步t获得的奖励
Figure BDA00037486814600000510
与高层策略智能体当前的动作Ai有关,以此建立两层决策模型间的联系:
Figure BDA00037486814600000511
其中,
Figure BDA00037486814600000512
表示无人机i与目标无人机j的距离,
Figure BDA00037486814600000513
表示速度向量
Figure BDA00037486814600000514
和相对位姿向量
Figure BDA00037486814600000515
的夹角,
Figure BDA00037486814600000516
表示速度的标量,α和β分别为权重系数,应分别满足α123=1和β123=1,R0为基本奖励,Ra与Rd分别为攻击奖励和被击惩罚。
其次,对无人机的高层和底层策略智能体采用一种异策略同步学习与自博弈机制结合的多智能体强化学习算法进行训练,其中高层策略智能体Hi采用双深度Q网络(DoubleDeep Q Network,DDQN)算法,神经网络QA(s,a|θA)和QB(s,a|θB)根据经验回放池中的样本
Figure BDA0003748681460000061
算损失函数并反向传播梯度,交替更新网络参数θA和θB,其中ST和ST+1为向量化的全局状态,
Figure BDA0003748681460000062
Figure BDA0003748681460000063
为Hi的奖励和动作。
在本申请实施例中,底层策略智能体Li采用多智能体近端策略优化(Multi AgentProximal Policy Optimization,MAPPO)算法,Critic神经网络Vi(S,a1,a2,...,anV)根据样本
Figure BDA0003748681460000064
计算价值函数的损失并反向传播梯度更新网络参数θV,其中Si和Si+1为全局状态,
Figure BDA0003748681460000065
为此时高层策略动作,
Figure BDA0003748681460000066
Figure BDA0003748681460000067
为Li的奖励和动作;Actor神经网络πi(oiπ)根据样本
Figure BDA0003748681460000068
计算策略函数的损失并反向传播梯度更新网络参数θπ,其中
Figure BDA0003748681460000069
Figure BDA00037486814600000610
为向量化的局部观测。
在本申请实施例中,算法训练分为两阶段,第一阶段为对手方无人机采用固定规则策略:①确定目标后加速至最大速度;②确定目标后保持和目标同一高度;③采用以下优先级函数确定攻击目标:
Figure BDA00037486814600000611
其中,gij为无人机i对敌方无人机j的优先级因子,选择优先级因子最低的目标进行攻击;δij为向量
Figure BDA00037486814600000612
Figure BDA00037486814600000613
在x-y平面投影的夹角,εmax为单一时间步的最大航向角;hij为i和j的相对高度,ζmax为单一时间步的最大高度变化量;mj为无人机j已被作为目标分配的次数。
以固定策略对手训练一定回合数Nfix_pule后,使敌我双方均以第一阶段训练后保存的策略网络进行决策,进行第二阶段自博弈(self-play)训练,为避免出现策略循环采用虚拟自博弈(fictitious self-play)机制,训练一定回合数Nself_play
最后,无人机在完成训练后只保留底层策略智能体的策略网络πi(s|θπ),输入局部观测
Figure BDA00037486814600000614
通过采样输出的概率分布得到动作
Figure BDA00037486814600000615
请参阅图1-3,在本申请其他实施例中,基于多智能体分层强化学习的多无人机空战决策方法,包括以下步骤:
步骤1:基于Matlab构建多无人机空战的可视化仿真环境,分别定义环境约束模型、无人机个体约束模型和对抗影响规则。其中,环境约束模型定义对抗空间区域和物理影响因素;个体约束模型定义个体无人机的运动能力、感知能力和火力打击能力;对抗影响规则定义敌我方无人机对抗交互方式、对抗目标及胜负条件。
步骤1-1:定义环境约束模型,空战区域为单位长度1000*1000*1000的三维空间,设定重力加速度为常数g,风速为0,空间中不存在障碍或禁飞区域。
步骤1-2:定义个体约束模型,包括无人机的运动能力、感知能力和火力打击能力,其中运动能力由固定翼无人机的运动模型描述:
Figure BDA0003748681460000071
其中,无人机在x-y-z坐标系定义的三维空间内位移的速度
Figure BDA0003748681460000072
由其相对地面速度vg(无风环境下空速va=vg)、航向角χ和飞行路径角γ决定;通过控制量<uv,uφ,uh>分别控制无人机的空速va、航向角χ和飞行路径角γ,实现固定翼无人机在三维空间的飞行运动,k*为相应控制量的增益。
其中,感知能力由无人机雷达的探测范围描述:
Figure BDA0003748681460000073
其中,
Figure BDA0003748681460000074
为无人机i和j的相对位姿向量,dsen为无人机雷达的最大感知半径。
其中,火力打击能力为无人机进行有效打击需要满足的条件:
Figure BDA0003748681460000075
其中,datt为无人机导弹的最大射程,ωij为无人机i的速度向量
Figure BDA0003748681460000076
与和无人机j的相对位姿向量
Figure BDA0003748681460000077
的夹角,ωmax为无人机导弹的最大发射角,M为当前携带导弹数量。
步骤1-3:定义对抗影响规则,包括敌我方无人机对抗交互方式、对抗目标及胜负条件。其中,无人机在满足火力打击能力约束的条件下可进行一次开火,导弹将以一定概率命中目标:
Figure BDA0003748681460000078
其中,α1和α2为权重系数,满足α12=1,无人机被导弹击中即被判定为死亡并退出战场,直到回合结束不可被其他无人机感知和打击。
在一种可行的实现方式中,敌我双方无人机的对抗目标均为保证己方存活的情况下打击并摧毁敌方所有对手。当达到所设定的最大时间步tmax或判定其中一方获胜,则结束当前回合。判定红方无人机获胜的条件为满足以下任意一条:①红方存活数量nr≥1,同时蓝方存活数量nb=0;②达到最大回合时间,nr>nb;③达到最大回合时间且nr=nb,红方剩余导弹数量Mr大于蓝方剩余导弹数量Mb
若满足以下条件则判定双方平局:达到最大回合时间且nr=nb,Mr=Mb。除满足上述条件的情况以外,判定蓝方无人机获胜。
步骤2:采用多智能体分层强化学习方法,将步骤1描述的多无人机空战协同决策问题建模为半马尔科夫博弈问题,由元组
Figure BDA0003748681460000081
进行描述,其中,
Figure BDA0003748681460000082
为所有智能体的有限集合,包括代表高层决策智能体的子集
Figure BDA0003748681460000083
和代表底层决策智能体的子集
Figure BDA0003748681460000084
Figure BDA0003748681460000085
为联合状态空间,
Figure BDA0003748681460000086
为状态转移概率,
Figure BDA0003748681460000087
为联合动作空间,
Figure BDA0003748681460000088
为奖励,
Figure BDA0003748681460000089
为上层决策的n步终止条件。
使用Python的通用强化学习库gym将基于Matlab的环境封装,以提供强化学习算法的接口。
步骤2-1:执行reset()命令对环境初始化,所有底层策略智能体
Figure BDA00037486814600000810
和高层策略智能体
Figure BDA00037486814600000811
返回无人机i的初始状态,状态空间表示包括以下两部分:
(1)三个二维矩阵分别表示无人机在三维空间中x-y,x-z,y-z轴的相对位置,其中全局状态矩阵规模为1000*1000,局部观测状态矩阵规模为2dsen*2dsen,设无人机i的x-y坐标为[x0,y0],感知范围内友机j为[x1,y1],敌机k为[x2,y2],则令表示智能体Li和Hi全局状态的零矩阵
Figure BDA00037486814600000816
表示局部状态的零矩阵Bix,iy=63,Bfx,fy=127,Bkx,ky=255。
其中,ix=iy=dsen+1,jx=ix+(x1-x0),jy=iy+(y1-y0),kx=ix+(x2-x0),ky=iy+(y2-y0)。
(2)规模为4*1的一维数组[vB,χ,γ,M]表示本机其他状态。
步骤2-2:每个时间步T执行step_H()命令,高层策略智能体Hi的状态-动作价值网络Qi(s,a|θ)输入当前全局状态ST输出动作
Figure BDA00037486814600000812
与环境交互返回全局状态ST+1和奖励
Figure BDA00037486814600000813
并将
Figure BDA00037486814600000814
放入经验回放池,其中高层策略智能体的动作为根据当前态势选择目标,按如下式计算无人机i对j的威胁指数σij
Figure BDA00037486814600000815
其中,α1,α2和α3分别为相应距离、角度和速度威胁的权重,应满足α123=1。分别计算无人机i对所有n架敌机的威胁指数集Advi={σi1,...,σin}和受敌方威胁指数集Thri={σ1i,...,σni},高层策略智能体有以下动作:
Figure BDA0003748681460000091
其中,高层策略智能体Hi在时间步T的奖励
Figure BDA0003748681460000092
Figure BDA0003748681460000093
其中
Figure BDA0003748681460000094
为下层策略智能体Li在时间步t的奖励,
Figure BDA0003748681460000095
分别为终止条件指定的动作
Figure BDA0003748681460000096
在低时间维度的起止时间,其中终止条件为满足以下任一条件:a)、无人机i被判定死亡;b)、当前选定攻击或规避的目标发生改变。
步骤2-3:由上层策略终止条件定义的时间步T内,每个时间步t执行step_L()命令,底层策略智能体Li的策略网络π(s|θ)输入当前局部观测
Figure BDA0003748681460000097
通过输出的概率分布采样动作
Figure BDA0003748681460000098
返回全局状态si+1,局部观测
Figure BDA0003748681460000099
和奖励
Figure BDA00037486814600000910
Figure BDA00037486814600000911
Figure BDA00037486814600000912
放入经验回放池,其中底层策略智能体的动作
Figure BDA00037486814600000913
定义为无人机的基本控制量:<uv,ux,uh,yF>,其中uv控制当前空速,ux控制当前航向,uh控制当前高度,uF为一个0-1变量,控制当前是否开火。
与环境交互获得的奖励
Figure BDA00037486814600000914
表示如下:
Figure BDA00037486814600000915
其中,Ai为当前高层策略智能体Hi的动作,
Figure BDA00037486814600000916
表示无人机i与目标无人机j的距离,
Figure BDA00037486814600000920
表示速度向量
Figure BDA00037486814600000917
和相对位姿向量
Figure BDA00037486814600000918
的夹角,
Figure BDA00037486814600000919
表示速度的标量,α和β分别为权重系数,应分别满足α123=1和β123=1,R0为基本奖励,Ra与Rd分别为攻击奖励和被击惩罚,应互为相反数且绝对值大于R0,例如设R0-1,则Ra-100,Rd--100。
步骤2-4:当无人机i被判定为死亡,智能体Li和Hi将提前退出环境;以Li执行动作的时间步为基准,当满足达到最大时间步tmax,或判定其中一方获胜,则当前回合结束,执行reset()命令对环境初始化,回合数Nepisode=Nepisode+1。
步骤3:采用一种异策略同步学习与自博弈机制结合的多智能体强化学习算法分别训练无人机的高层和底层策略智能体,无人机的历史状态、动作、奖励以<s,a,T,s′>的形式作为样本分别训练高层策略智能体的状态-动作价值网络和底层策略智能体的策略网络与状态价值网络,训练分为两阶段进行,其中第一阶段为基于固定规则的对手,第二阶段为自博弈训练。
步骤3-1:对高层策略智能体采用DDQN算法,训练两个具有相同超参数的状态-动作价值网络QA(s,a|θA)和QB(s,a|θB),从经验回放池采样一个批次的样本,按照以下损失函数,以一定的频率交替更新θA和θB
Figure BDA0003748681460000101
其中,b为当前批次样本规模,a*为当前最高Q(s,a)值对应的动作,
Figure BDA0003748681460000102
为当前批次的第k个样本,分别对应步骤2-2的
Figure BDA0003748681460000103
步骤3-2:对底层策略智能体采用MAPPO算法,分别训练状态价值网络V(s|θV)和策略网络
Figure BDA00037486814600001012
从经验回放池采样一个批次的样本,其中状态价值网络按以下损失函数更新:
Figure BDA0003748681460000104
其中
Figure BDA0003748681460000105
为目标网络,clip为截断函数,s为截断阈值,价值网络的输入状态sk对应步骤2-3中全局状态St和步骤2-2中来自高层策略智能体Hi的动作
Figure BDA0003748681460000106
向量化后的拼接。
在一种可行的实现方式中,所述策略网络按以下损失函数进行更新:
Figure BDA0003748681460000107
其中,
Figure BDA0003748681460000108
表示重要采样下由新旧策略得到的动作概率,AGk为由状态价值网络输出和奖励获得的优势函数,
Figure BDA0003748681460000109
表示策略的熵,α为该项的权重系数,策略网络的输入状态sk对应步骤2-3中的局部观测
Figure BDA00037486814600001010
由于环境中无人机为同构,对所有无人机分别共享智能体Hi和Li对应神经网络的参数。
步骤3-3:步骤3-1和3-2的训练过程分为两阶段,第一阶段的敌方无人机采用基于专家规则的策略:①确定目标后加速至最大速度;②确定目标后保持和目标同一高度;③采用以下优先级函数确定攻击目标:
Figure BDA00037486814600001011
其中,gij为无人机i对敌方无人机j的优先级因子,选择优先级因子最低的目标进行攻击;δij为向量
Figure BDA0003748681460000111
Figure BDA0003748681460000112
在x-y平面投影的夹角,εmax为单一时间步的最大航向角变化量;hij为i和j的相对高度,ζmax为单一时间步的最大高度变化量;mj为无人机j已被作为目标分配的次数。
第二阶段为自博弈训练,敌我双方无人机第一阶段训练的策略网络进行决策,基于生成的轨迹样本进一步训练各自的决策模型,为避免出现策略循环采用虚拟自博弈机制。
步骤4:完成训练后无人机仅保留底层策略智能体的策略网络,通过输入局部观测输出控制动作,可进一步迁移至实际场景。

Claims (8)

1.一种基于多智能体分层强化学习的多无人机空战决策方法,其特征在于,所述方法包括:
基于实际空战场景构建多无人机协同空战仿真对抗环境;
将所述多无人机协同空战仿真对抗环境中无人机空战协同决策问题构建为半马尔可夫博弈模型,在所述半马尔可夫博弈模型下将无人机的决策过程抽象为高层策略智能体和底层策略智能体;
采用异策略同步学习与自博弈机制结合的多智能体强化学习算法,训练所述高层策略智能体和所述底层策略智能体;其中,所述高层策略智能体在较高时间维度基于当前态势和全局状态学习目标分配策略,所述底层策略智能体在较低时间维度基于当前分配目标和局部观测学习最优控制策略;
基于所述底层策略智能体的策略网络和局部观测进行决策。
2.根据权利要求1所述的方法,其特征在于,所述基于实际空战场景构建多无人机协同空战仿真对抗环境,包括:
基于实际空战场景,以计算机仿真的方式构建多无人机协同空战仿真对抗环境。
3.根据权利要求2所述的方法,其特征在于,所述基于实际空战场景,以计算机仿真的方式构建多无人机协同空战仿真对抗环境,包括:
定义环境约束模型,包括对抗空间区域和物理影响因素;
定义无人机个体约束模型,包括个体无人机的运动能力、感知能力和火力打击能力;
定义对抗影响规则,包括敌我双方无人机对抗交互方式、对抗目标及胜负条件。
4.根据权利要求1所述的方法,其特征在于,所述将多无人机空战协同决策问题构建为半马尔可夫博弈模型,包括:
采用多智能体分层强化学习方法,将多无人机空战协同决策问题构建为半马尔可夫博弈模型。
5.根据权利要求4所述的方法,其特征在于,所述半马尔可夫博弈模型由元组
Figure FDA0003748681450000011
进行描述;
其中,
Figure FDA0003748681450000012
为所有智能体的有限集合,包括代表高层策略智能体的子集
Figure FDA0003748681450000013
和代表底层策略智能体的子集
Figure FDA0003748681450000021
Figure FDA0003748681450000022
为联合状态空间;
Figure FDA0003748681450000023
为状态转移概率;
Figure FDA0003748681450000024
为联合动作空间;
Figure FDA0003748681450000025
为奖励;
Figure FDA0003748681450000026
为上层决策的n步终止条件。
6.根据权利要求5所述的方法,其特征在于,所述采用异策略同步学习与自博弈机制结合的多智能体强化学习算法,训练所述高层策略智能体和所述底层策略智能体,包括:
所述高层策略智能体Hi采用双深度Q网络算法训练,神经网络QA(s,a|θA)和QB(s,a|θB)根据经验回放池中的样本
Figure FDA0003748681450000027
计算损失函数并反向传播梯度,交替更新网络参数θA和θB;其中,ST和ST+1为向量化的全局状态;
Figure FDA0003748681450000028
Figure FDA0003748681450000029
为Hi的奖励和动作;
所述底层策略智能体Li采用多智能体近端策略优化算法训练,Critic神经网络Vt(S,a1,a2,...,anV)根据样本
Figure FDA00037486814500000210
计算价值函数的损失并反向传播梯度更新网络参数θV;其中,St和St+1为全局状态;
Figure FDA00037486814500000211
为此时高层策略动作;
Figure FDA00037486814500000212
Figure FDA00037486814500000213
为Li的奖励和动作;Actor神经网络πi(oiπ)根据样本
Figure FDA00037486814500000214
计算策略函数的损失并反向传播梯度更新网络参数θπ;其中,
Figure FDA00037486814500000215
Figure FDA00037486814500000216
为向量化的局部观测。
7.根据权利要求6所述的方法,其特征在于,所述训练所述高层策略智能体和所述底层策略智能体,包括:
第一阶段:敌方无人机采用基于专家规则的策略:确定目标后加速至最大速度;确定目标后保持和目标同一高度;采用以下优先级函数确定攻击目标:
Figure FDA00037486814500000217
其中,gij为无人机i对敌方无人机j的优先级因子,选择优先级因子最低的目标进行攻击;δij为向量
Figure FDA00037486814500000218
Figure FDA00037486814500000219
在x-y平面投影的夹角;εmax为单一时间步的最大航向角变化量;hij为i和j的相对高度;ζmax为单一时间步的最大高度变化量;mj为无人机j已被作为目标分配的次数;
第二阶段:自博弈训练,敌我双方无人机第一阶段训练的策略网络进行决策,基于生成的轨迹样本进一步训练各自的决策模型,为避免出现策略循环采用虚拟自博弈机制。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
完成训练后无人机仅保留底层策略智能体的策略网络,通过输入局部观测输出控制动作,可进一步迁移至实际场景。
CN202210831674.0A 2022-07-15 2022-07-15 基于多智能体分层强化学习的多无人机空战决策方法 Pending CN115291625A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210831674.0A CN115291625A (zh) 2022-07-15 2022-07-15 基于多智能体分层强化学习的多无人机空战决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210831674.0A CN115291625A (zh) 2022-07-15 2022-07-15 基于多智能体分层强化学习的多无人机空战决策方法

Publications (1)

Publication Number Publication Date
CN115291625A true CN115291625A (zh) 2022-11-04

Family

ID=83823196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210831674.0A Pending CN115291625A (zh) 2022-07-15 2022-07-15 基于多智能体分层强化学习的多无人机空战决策方法

Country Status (1)

Country Link
CN (1) CN115291625A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115544899A (zh) * 2022-11-23 2022-12-30 南京邮电大学 基于多智能体深度强化学习的水厂取水泵站节能调度方法
CN115840892A (zh) * 2022-12-09 2023-03-24 中山大学 一种复杂环境下多智能体层次化自主决策方法及系统
CN116128013A (zh) * 2023-04-07 2023-05-16 中国人民解放军国防科技大学 基于多样性种群训练的临机协同方法、装置和计算机设备
CN116484227A (zh) * 2023-05-04 2023-07-25 西北工业大学 用于机弹对抗末端机动规避指标生成的神经网络建模方法
CN116501086A (zh) * 2023-04-27 2023-07-28 天津大学 一种基于强化学习的飞行器自主规避决策方法
CN116736729A (zh) * 2023-08-14 2023-09-12 成都蓉奥科技有限公司 一种抗感知误差的视距内空战机动策略生成方法
CN116776751A (zh) * 2023-08-22 2023-09-19 北京航天晨信科技有限责任公司 一种智能决策算法模型设计开发辅助系统
CN116796505A (zh) * 2023-05-11 2023-09-22 中国人民解放军海军航空大学 一种基于示例策略约束的空战机动策略生成方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115544899A (zh) * 2022-11-23 2022-12-30 南京邮电大学 基于多智能体深度强化学习的水厂取水泵站节能调度方法
CN115840892A (zh) * 2022-12-09 2023-03-24 中山大学 一种复杂环境下多智能体层次化自主决策方法及系统
CN115840892B (zh) * 2022-12-09 2024-04-19 中山大学 一种复杂环境下多智能体层次化自主决策方法及系统
CN116128013A (zh) * 2023-04-07 2023-05-16 中国人民解放军国防科技大学 基于多样性种群训练的临机协同方法、装置和计算机设备
CN116501086B (zh) * 2023-04-27 2024-03-26 天津大学 一种基于强化学习的飞行器自主规避决策方法
CN116501086A (zh) * 2023-04-27 2023-07-28 天津大学 一种基于强化学习的飞行器自主规避决策方法
CN116484227A (zh) * 2023-05-04 2023-07-25 西北工业大学 用于机弹对抗末端机动规避指标生成的神经网络建模方法
CN116796505A (zh) * 2023-05-11 2023-09-22 中国人民解放军海军航空大学 一种基于示例策略约束的空战机动策略生成方法
CN116796505B (zh) * 2023-05-11 2024-02-20 中国人民解放军海军航空大学 一种基于示例策略约束的空战机动策略生成方法
CN116736729A (zh) * 2023-08-14 2023-09-12 成都蓉奥科技有限公司 一种抗感知误差的视距内空战机动策略生成方法
CN116736729B (zh) * 2023-08-14 2023-10-27 成都蓉奥科技有限公司 一种抗感知误差的视距内空战机动策略生成方法
CN116776751A (zh) * 2023-08-22 2023-09-19 北京航天晨信科技有限责任公司 一种智能决策算法模型设计开发辅助系统
CN116776751B (zh) * 2023-08-22 2023-11-10 北京航天晨信科技有限责任公司 一种智能决策算法模型设计开发辅助系统

Similar Documents

Publication Publication Date Title
CN115291625A (zh) 基于多智能体分层强化学习的多无人机空战决策方法
CN112861442B (zh) 基于深度强化学习的多机协同空战规划方法及系统
CN113589842B (zh) 一种基于多智能体强化学习的无人集群任务协同方法
CN111880563B (zh) 一种基于maddpg的多无人机任务决策方法
CN113791634B (zh) 一种基于多智能体强化学习的多机空战决策方法
CN113095481A (zh) 一种基于并行自我博弈的空战机动方法
CN112180967B (zh) 基于评判-执行架构的多无人机协同对抗决策方法
CN111859541B (zh) 一种基于迁移学习改进的pmaddpg多无人机任务决策方法
CN112198892B (zh) 一种多无人机智能协同突防对抗方法
CN113050686B (zh) 一种基于深度强化学习的作战策略优化方法及系统
CN105678030B (zh) 基于专家系统和战术战法分形化的空战战术团队仿真方法
CN113962012B (zh) 无人机对抗策略优化方法及装置
CN113893539B (zh) 智能体的协同对战方法及装置
CN113282061A (zh) 一种基于课程学习的无人机空中博弈对抗的解决方法
CN113282100A (zh) 基于强化学习的无人机对抗博弈训练控制方法
CN116700079A (zh) 基于ac-nfsp的无人机对抗占位机动控制方法
CN115755956A (zh) 一种知识与数据协同驱动的无人机机动决策方法与系统
Wu et al. Visual range maneuver decision of unmanned combat aerial vehicle based on fuzzy reasoning
Wang et al. Deep reinforcement learning-based air combat maneuver decision-making: literature review, implementation tutorial and future direction
Kong et al. Hierarchical multi‐agent reinforcement learning for multi‐aircraft close‐range air combat
CN113741186B (zh) 一种基于近端策略优化的双机空战决策方法
Wang et al. Autonomous maneuver decision of uav based on deep reinforcement learning: comparison of DQN and DDPG
Kong et al. Multi-ucav air combat in short-range maneuver strategy generation using reinforcement learning and curriculum learning
CN116432030A (zh) 一种基于深度强化学习的空战多意图策略自主生成方法
CN115859778A (zh) 一种基于dcl-gwo算法的空战机动决策方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination