CN116225065A - 多智能体强化学习的多自由度模型的无人机协同追捕方法 - Google Patents

多智能体强化学习的多自由度模型的无人机协同追捕方法 Download PDF

Info

Publication number
CN116225065A
CN116225065A CN202310296946.6A CN202310296946A CN116225065A CN 116225065 A CN116225065 A CN 116225065A CN 202310296946 A CN202310296946 A CN 202310296946A CN 116225065 A CN116225065 A CN 116225065A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
pursuit
agent
escape
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310296946.6A
Other languages
English (en)
Inventor
傅妍芳
雷凯麟
曹子建
杨博
孙泽龙
高领航
李秦洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Technological University
Original Assignee
Xian Technological University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Technological University filed Critical Xian Technological University
Priority to CN202310296946.6A priority Critical patent/CN116225065A/zh
Publication of CN116225065A publication Critical patent/CN116225065A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/104Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种多智能体强化学习的多自由度模型的无人机协同追捕方法,由于采用多智能体强化学习算法对多无人机追捕问题进行研究,比传统的数学模型方法或者单智能体强化学习方法体现出更智能的自主决策,同时本发明中,建立了基于强化学习的多无人机围捕策略推演方法,制定了多自由度无人机模型集群对抗策略。由于采用多自由度无人机模型,构建了更为复杂和精确的模型更新优化,弥补了现有方法在复杂场景下多智能体系统空战对抗方法的不足,提高了空战模型的精确性。

Description

多智能体强化学习的多自由度模型的无人机协同追捕方法
技术领域
本发明属于强化学习和多无人机对抗领域,涉及一种多智能体强化学习的多自由度模型的无人机协同追捕方法。具体涉及一种基于多智能体强化学习的多自由度模型的无人机协同追捕方法,主要完成了在使用多自由度无人机模型的军事作战仿真场景下,使用多智能体强化算法,研究多架低速追捕无人机对单架高速逃逸无人机的追捕方法,对于提高多无人机协同空战对抗能力具有非常重要的实践意义。
背景技术
随着现代科技的飞速发展,未来战场环境愈发复杂多变,具有较强隐蔽性,低成本,高伴随性的无人作战装备的重要性日益凸显,甚至将颠覆传统战争理念。而随着无人装备体系的日渐复杂,为提升作战效能提出的协同作战概念也得到了快速发展。然而,传统方法在设计围捕策略时,往往对逃逸目标的运动策略做出单一假定,但是在真实战场环境下己方很难获知逃逸目标的控制策略,同时当环境模型发生变化时,控制器参数难以快速适配,具有一定局限性。
近年来随着强化学习算法的不断充实,人工智能技术可解决的问题已经从简单环境下完全信息动态博弈问题转向复杂环境下不完全信息动态博弈问题。多智能体强化学习的发展为解决无人机集群追捕问题提供了新的方法,各军事强国持续发展无人机集群作战力量,期望以成体系的低成本无人机集群,袭扰相对孤立的高价值军事目标,发挥出非对称作战优势。在未来多域多维的体系化作战中克敌制胜。
在未来战争中,无人机集群必然会在战场中担任重要角色,智能体集群智能化也将越来越深入。因此,面对多自由度的无人机集群追捕问题,使用强化学习算法构造一套高效率训练算法,教会智能体在一个连续且动态变化的环境中完成协同追捕工作,提高多智能体的自适应性和协同性,对现代战场的智能体协同作战具有重要的指导意义。
现有技术的方案:
现有的基于强化学习的无人机集群追捕方法中对无人机模型的控制一般均为单自由度模型,基于这个模型在一个二维场景内选择追捕无人机去围捕逃逸无人机,同时对追捕无人机集群的控制算法采用单智能体的算法进行控制,即无人机集群内部没有单元之间的通讯。
现有技术的缺点:
1、部分基于强化学习的无人机集群问题都简化为基于单智能体的无人机问题,在多智能体无人系统中使用此类算法会出现协同性差、学习和收敛速度慢甚至难以收敛等一系列问题。
2、目前已有的作战仿真场景大多数为二维场景,即算法中受控的无人机为单自由度模型,此类方法较难以应用于实际中。
3、目前是目前围捕问题场景中大多都是设定追捕无人机速度优于逃逸无人机,而针对追捕无人机速度相对于逃逸无人机处于劣势的场景还是研究比较少。需要研究更为复杂和精确的模型,能够基于集群智能的优势,处理这种非同等运动参数条件下的追捕问题。
发明内容
要解决的技术问题
为了避免现有技术的不足之处,本发明提出一种多智能体强化学习的多自由度模型的无人机协同追捕方法,探讨使用多自由度无人机模型在军事作战场景下低速追捕无人机集群对一架高速逃逸无人机进行围捕的对抗策略,并使用多智能体深度强化学习算法来控制智能体之间进行通讯协同,对现代化无人机集群空战具有一定的现实指导意义。
技术方案
一种多智能体强化学习的多自由度模型的无人机协同追捕方法,其特征在于:作战区域中存在红方多艘同构追捕无人机和蓝方单架逃逸无人机,红方无人机通过协同合作尽快对逃逸目标实现围捕成功。步骤如下:
步骤1:对战双方智能体红方和蓝方,红方单元使用强化学习算法进行控制,蓝方单元基于传统作战规则,双方的智能体环境模型为:
以Pn(n=1,2,…,N)代表红方多个围捕无人机,E代表逃逸无人机,vE代表逃逸无人机的速度大小,
Figure BDA0004143444880000031
代表追捕无人机的速度大小,dcap代表围捕半径,ψE代表逃逸无人机的偏航角,/>
Figure BDA0004143444880000032
代表追捕无人机的偏航角,dt为追捕无人机和逃逸无人机之间的距离,di为追捕无人机和追捕无人机之间的距离;
所述红方算法智能体模型包括追捕无人机的运动学方程、智能体的状态空间、动作空间和奖赏函数;
所述蓝方规则智能体模型为逃逸无人机采用的逃逸对抗策略;
步骤2:采用多智能体深度确定性策略梯度算法(Multi-Agent DeepDeterministic Policy Gradient,MADDPG)作为红方智能体算法,其中MADDPG使用中心化训练、去中心化执行的方法;
构建价值Critic网络和策略Actor网络,其中:价值网络Critic部署在全局控制器上,策略网络Actor部署在每个智能体上,训练时,智能体agenti将观测值statei传输到全局价值网络,价值网络将TD误差传回智能体,供智能体训练策略网络,此时智能体之间不进行直接通讯,而是由训练好的策略网络做决策;
采用MADDPG算法对红方智能体进行训练并优化;
步骤3:将步骤1构建的智能体环境模型和步骤2中的多智能体强化学习算法相结合,生成最终的基于强化学习的多无人机协同围捕方法,过程为:
步骤3-1:以当前智能体为基准,计算当前智能体与其余智能体的差值,所述差值为:
经度差值
Figure BDA0004143444880000041
纬度差值
Figure BDA0004143444880000042
高度差值
Figure BDA0004143444880000043
/>
距离差值
Figure BDA0004143444880000044
获得当前智能体的偏航角
Figure BDA0004143444880000045
输入智能体的联合状态/>
Figure BDA0004143444880000046
其中
Figure BDA0004143444880000047
步骤3-2:将智能体联合状态传入多智能体强化学习算法中,得到下一步的联合动作
Figure BDA0004143444880000048
其中/>
Figure BDA0004143444880000049
并在三维仿真作战环境中执行动作;
步骤3-3:执行动作结束后获得智能体下一步的动作
Figure BDA00041434448800000410
和当前动作的奖励值Rn,将数据(Sn,An,Sn+1,Rn)存入经验缓冲池中,并抽取批大小的数据对算法进行训练;
在整个围捕过程中循环执行步骤3操作。
所述围捕成功满足以下条件:1)存在任意追捕无人机Pn(n=1,2,…,N)与逃逸目标E的距离小于围捕半径dcap;2)相邻追捕无人机之间的围捕角不大于π。
所述围捕过程中满足以下约束:1)为避免地形和温度对无人机的影响,限制无人机的飞行高度在1000米和3000米之间;2)追捕无人机需要在限定区域内追捕到逃逸无人机,逃逸无人机超出限定区域判定任务失败;3)追捕无人机之间不能发生碰撞。
所述红方算法智能体模型中无人机的运动学方程为:
Figure BDA0004143444880000051
其中(xi,yi)代表无人机的当前位置,hi代表无人机的当前高度,
Figure BDA0004143444880000052
分别表示无人机i在第n周期内的航迹偏航角和航迹俯仰角。航迹偏航角δi和航迹俯仰角ωi受到约束限制:-ωmaximax,-δmaximax
所述智能体的状态空间为:
Figure BDA0004143444880000053
式中:
Figure BDA0004143444880000054
为单个追捕无人机在仿真步长为n时的态势信息;
所述智能体的动作空间为:
Figure BDA0004143444880000055
式中:
Figure BDA0004143444880000056
为单个追捕无人机在仿真步长为n时所做的动作,其中:
Figure BDA0004143444880000057
所述奖赏函数为:奖励函数设计采用连续型奖励和稀疏奖励相结合的方式,针对无人机协同追捕问题,主要考虑两方面要素:一是追捕无人机要成功追捕到逃逸无人机,在多无人机追捕场景中,仅需有一架无人机追捕到逃逸无人机就算是任务成功;二是各追捕无人机之间不能互相碰撞。具体表达式如下:
R=rsparse+rstep
式中:包括稀疏奖励rsparse和步长奖励rstep
所述单个追捕无人机在仿真步长为n时的态势信息
Figure BDA0004143444880000058
为:
Figure BDA0004143444880000059
其中:
Figure BDA0004143444880000061
Figure BDA0004143444880000062
Figure BDA0004143444880000063
Figure BDA0004143444880000064
Figure BDA0004143444880000065
Figure BDA0004143444880000066
式中:
Figure BDA0004143444880000067
分别为追捕无人机和逃逸无人机之间的相对经度,相对纬度,相对高度。/>
Figure BDA0004143444880000068
和/>
Figure BDA0004143444880000069
分别为追捕无人机的航迹偏角和航迹倾角。/>
Figure BDA00041434448800000610
为追捕无人机和逃逸无人机之间的距离。
所述稀疏奖励rsparse和步长奖励rstep为:
追捕无人机的稀疏奖励rsparse分为以下两个模块:一是当追捕无人机集群中有一架无人机成功捕捉逃逸无人机时,给予正奖励回报;二是当逃逸无人机成功逃出区域时,算作任务失败,给予负奖励回报;
Figure BDA00041434448800000611
每个追捕无人机经过每个仿真步长都会根据执行的动作获得一次步长奖励rstep,通过这个奖励引导无人机完成既定任务。步长奖励rstep由多种子奖励加权构成:
rstep=αr1+βr2+γr3
式中:r1为追捕距离奖励、r2为追捕高度差奖励,r3为无人机碰撞奖励。α、β、γ为加权系数,并且满足α+β+γ=1。
所述追捕距离奖励r1、追捕高度差奖励r2和无人机碰撞奖励r3为:
r1=-k(dt-dmax)
式中:dt为无人机之间的相对距离,dmax为追捕无人机的最大打击范围;设置r1为负奖励函数,当追捕无人机和逃逸无人机的距离为追捕无人机的打击距离时,r1=0;
r2=-k(hi-hE)
当追捕无人机和逃逸无人机的高度之差hi-hE=0时,追捕无人机与逃逸目标的高度关系是局部最优的;
Figure BDA0004143444880000071
建立负指数形式的奖励函数r3描述追捕无人机之间的碰撞风险,dmin表示当前无人机与其他无人机最近的距离。
所述逃逸无人机采用的逃逸对抗策略为:当被追捕无人机包围的时候,逃逸无人机向着追捕无人机构成的多边形所有边长中点中最远距离的中点逃逸;当没被逃逸无人机包围时,采取人工势场法的思想,假设追捕无人机向逃逸无人机的向量方向施加斥力,两者之间的斥力分量与两者之间的距离呈反函数关系:距离增大,斥力则减小。逃逸无人机向所有追捕无人机给予的斥力矢量综合后的斥力方向逃逸。
所述MADDPG算法中Actor网络结构为:
Figure BDA0004143444880000072
所述MADDPG算法中Critic网络结构为:
Figure BDA0004143444880000073
有益效果
本发明提出的一种多智能体强化学习的多自由度模型的无人机协同追捕方法,由于采用多智能体强化学习算法对多无人机追捕问题进行研究,比传统的数学模型方法或者单智能体强化学习方法体现出更智能的自主决策,同时本发明中,建立了基于强化学习的多无人机围捕策略推演方法,制定了多自由度无人机模型集群对抗策略。由于采用多自由度无人机模型,构建了更为复杂和精确的模型更新优化,弥补了现有方法在复杂场景下多智能体系统空战对抗方法的不足,提高了空战模型的精确性。
附图说明
图1:无人机围捕态势示意图
图2:无人机坐标系示意图
图3:Actor-Critic网络框架图
图4:MADDPG算法流程图
图5:三维场景下无人机追捕算法奖励图
具体实施方式
现结合实施例、附图对本发明作进一步描述:
本发明采用的技术方案:
步骤1,采用现有系统中的神经网络模型、战场环境模型、态势判断和作战目标分配模型,假定对战双方智能体为红方和蓝方,红方单元使用强化学习算法进行控制,蓝方单元基于传统作战规则构建。首先构建红方算法智能体模型、蓝方规则智能体模型、。
本发明任务场景描述如下:作战区域中存在红方多艘同构追捕无人机和蓝方逃逸无人机,双方具有相反的战术目的:红方无人机之间需要通过协同合作尽快对逃逸目标实现围捕,而逃逸目标要躲避远离红方无人机群。现有研究通常认为当存在任意追击者与逃逸者的距离小于给定阈值时,围捕任务即成功完成。如图1所示。
图1中,Pn(n=1,2,…,N)代表红方无人机,E代表逃逸无人机,vE代表逃逸无人机的速度大小,
Figure BDA0004143444880000091
代表追捕无人机的速度大小,dcap代表围捕半径,ψE代表逃逸无人机的偏航角,/>
Figure BDA0004143444880000092
代表追捕无人机的偏航角,dt为追捕无人机和逃逸无人机之间的距离,di为追捕无人机和追捕无人机之间的距离。
规定围捕成功需满足以下条件:1)存在任意追捕无人机Pn(n=1,2,…,N)与逃逸目标E的距离小于围捕半径dcap;2)相邻追捕无人机之间的围捕角不大于π。
围捕过程中需要满足以下约束:1)为避免地形和温度对无人机的影响,限制无人机的飞行高度在1000米和3000米之间;2)追捕无人机需要在限定区域内追捕到逃逸无人机,逃逸无人机超出限定区域判定任务失败;3)追捕无人机之间不能发生碰撞。
步骤2,采用MADDPG算法作为多智能体深度强化学习算法,并构建合适的Actor网络和Critic网络。
步骤3,将步骤1构建的智能体环境模型与步骤2中的多智能体深度强化学习算法进行结合,生成最终的强化学习驱动的多域异构环境下多智能体协同优化方法。
进一步的,所述步骤1中构建红方算法智能体模型、蓝方规则智能体模型具体步骤如下:
步骤1-1:构建蓝方规则智能体模型;构建蓝方逃逸无人机单元,逃逸无人机采用如下的灵活逃逸对抗策略:即将对战态势综合简单考虑,当被追捕无人机包围的时候,逃逸无人机向着追捕无人机构成的多边形所有边长中点中最远距离的中点逃逸;当没被逃逸无人机包围时,采取人工势场法的思想,假设追捕无人机向逃逸无人机的向量方向施加斥力,两者之间的斥力分量与两者之间的距离呈反函数关系:距离增大,斥力则减小。逃逸无人机向所有追捕无人机给予的斥力矢量综合后的斥力方向逃逸。
步骤1-2:构建红方算法智能体模型;具体步骤如下:
步骤1-2-1:构建红方智能体单元,构建追捕无人机的运动学方程为:
Figure BDA0004143444880000101
其中(xi,yi)代表无人机的当前位置,hi代表无人机的当前高度,
Figure BDA0004143444880000102
分别表示无人机i在第n周期内的航迹偏航角速率和航迹俯仰角速率。航迹偏航角速率δi和航迹俯仰角速率ωi受到约束限制:-ωmaximax,-δmaximax.
步骤1-2-2:构建智能体的状态空间;在三维环境下进行协同围捕,需要考虑围捕无人机的经度纬度和高度。设定双方无人机均携带机载GPS设备和陀螺仪,可以获得自身的位置信息、高度信息和自身朝向角即(xi,yi,hii);携带机载火控雷达设备,能获得探测目标(空战目标)的位置信息、高度信息和朝向角(xE,yE,hEE)。针对多智能体围捕问题的特点,以逃逸无人机为原点构建直角坐标系,计算追捕无人机和逃逸无人机位置信息的相对值。
设计出的无人机围捕问题在仿真步长为n时的联合状态空间如下所示:
Figure BDA0004143444880000103
式中:
Figure BDA0004143444880000104
为单个追捕无人机在仿真步长为n时的态势信息,具体包括:
Figure BDA0004143444880000105
其中:
Figure BDA0004143444880000106
Figure BDA0004143444880000107
Figure BDA0004143444880000108
Figure BDA0004143444880000109
Figure BDA00041434448800001010
Figure BDA00041434448800001011
式中:
Figure BDA00041434448800001012
分别为追捕无人机和逃逸无人机之间的相对经度,相对纬度,相对高度。/>
Figure BDA0004143444880000111
和/>
Figure BDA0004143444880000112
分别为追捕无人机的航迹偏角速率和航迹倾角速率。/>
Figure BDA0004143444880000113
为追捕无人机和逃逸无人机之间的距离。
步骤1-2-3:构建智能体的动作空间;本专利设计了一种适用于多自由度无人机模型围捕问题的动作空间,在无人机的运动学模型中找到影响无人机追捕策略的最大影响因子,将动作空间解耦为无人机的当前偏航角、当前俯仰角和当前滚转角,通过无人机的朝向角控制无人机的下一步飞行方向。受最大偏航角限制,每个仿真步长下,无人机的最大偏航角不能超过15°。
设计出的无人机围捕问题的联合动作空间如下所示:
Figure BDA0004143444880000114
式中:
Figure BDA0004143444880000115
为单个追捕无人机在仿真步长为n时所做的动作,具体包括:
Figure BDA0004143444880000116
步骤1-2-4:设置环境中的奖惩机制,当智能体之间达到某种状态时环境所给予的奖惩回报。奖励函数设计采用连续型奖励和稀疏奖励相结合的方式,针对无人机协同追捕问题,主要考虑两方面要素:一是追捕无人机要成功追捕到逃逸无人机,在多无人机追捕场景中,仅需有一架无人机追捕到逃逸无人机就算是任务成功;二是各追捕无人机之间不能互相碰撞。因此奖励函数的设计中还需考虑无人机的相对距离。具体表达如下:
步骤1-2-4-1全局奖励函数设计。在任务过程中,追捕无人机的全局奖励分为以下两个模块:一是当追捕无人机集群中有一架无人机成功捕捉逃逸无人机时,给予正奖励回报;二是当逃逸无人机成功逃出区域时,算作任务失败,给予负奖励回报。
Figure BDA0004143444880000117
步骤1-2-4-2局部奖励函数设计。针对每个追捕无人机,经过每个仿真步长都会根据执行的动作获得一次步长奖励,通过这个奖励引导无人机完成既定任务。步长奖励rstep由多种子奖励加权构成,子奖励rk的定义如下:
1)追捕距离奖励r1
r1=-k(dt-dmax)
式中:dt为无人机之间的相对距离,dmax为追捕无人机的最大打击范围。为确保追捕无人机高效完成追捕任务,每个时间步长会计算追捕无人机与逃逸无人机之间的相对距离,设置r1为负奖励函数,此距离与追捕距离奖励r1呈正相关,相对距离越远,r1便越小。当追捕无人机和逃逸无人机的距离为追捕无人机的打击距离时,r1=0.
2)追捕高度差奖励r2
r2=-k(hi-hE)
当追捕无人机和逃逸无人机的高度之差hi-hE=0时,可以认为追捕无人机与逃逸目标的高度关系是局部最优的。
3)无人机碰撞奖励r3
Figure BDA0004143444880000121
建立负指数形式的奖励函数r3描述追捕无人机之间的碰撞风险,dmin表示当前无人机与其他无人机最近的距离。
综上,每个无人机的步长奖励为上述两个奖励函数的加权和:
rstep=αr1+βr2+γr3
式中:α、β、γ为加权系数,并且满足α+β+γ=1.
步长奖励rstep中的各项子奖励均设置为负值,且无人机之间形成的协同态势越接近理想状态时,Tstep的值越趋近0,从而能引导无人机更新到较优的协同策略;当围捕任务完成时,所有无人机会得到正回报,使无人机集群达到快速围捕的目的。
所述步骤2中,采用MADDPG算法作为多智能体强化学习算法,其算法架构如图所示。MADDPG使用中心化训练、去中心化执行的方法,即每个智能体根据自身策略得到当前状态执行的动作,并与环境交互得到经验存入自身的经验缓存池,待所有智能体与环境交互后,每个智能体从经验池中随机抽取经验训练各自的神经网络。在这个架构中我们需要获得环境中智能体的状态,并让智能体执行各自的动作从而获得奖励返回到强化学习算法中进行训练。价值网络(Critic)部署在全局控制器上,策略网络(Actor)部署在每个智能体上,训练时,agenti将观测值statei传输到价值网络,价值网络将TD误差传回智能体,供智能体训练策略网络,此时智能体之间不进行通讯,由训练好的策略网络做决策。具体步骤如图3:
步骤2-1:建立actor模块和critic模块的网络结构,初始化网络参数,actor模块运用于决策行动,critic模块应用于评价反馈,分为以下两个步骤:
步骤2-1-1:本发明所使用的actor模块网络结构示意图如表1所示,以各运动节点的状态s作为输入,经过三个全连接层(Inner product layer),其中前两个全连接层之后使用修正线性单元(Rectified Linear Units,ReLU)作为激活函数,将第三层的输出经过一个双曲正切函数tanh(),tanh()函数是sigmoid()函数的一种变体,它的取值范围为[-1,1],而不是sigmoid函数的[0,1],输出结果为两个值,分别是无人机的当前朝向角和无人机的当前倾向角。在每一轮的迭代过程中,由于网络的参数都是动态变化的,为了使参数的学习更加稳定,保留一个actor网络结构的副本,该副本只在一定的时间步长才进行参数的更新;
表1MADDPG算法中Actor网络结构
Figure BDA0004143444880000131
步骤2-1-2:本发明所使用的critic模块网络结构示意图如表2所示,以各运动节点的状态s为输入,经过一个全连接层和修正线性激活函数;然后将输出与动作a作为第二个全连接层的输入,输出结果经修正线性单元激活后,输入一个长短期记忆网络LSTM(LongShort-Term Memory),输出结果为状态s和动作a对应的动作-价值Q。
表2MADDPG算法中Critic网络结构
Figure BDA0004143444880000141
步骤2-2:训练并优化基于深度确定性的策略梯度算法。critic模块的参数更新需要依赖于actor模块计算出来的动作a;而actor模块的参数更新则需要依赖于critic模块计算出来的动作-价值梯度,两者互相反馈,对算法进行优化。因此重复步骤2,直至满足多智能体协同决策的优化终止条件或达到最大迭代步数。
所述步骤3中,将步骤1构建的智能体环境模型和步骤2中的多智能体强化学习算法相结合,生成最终的基于强化学习的多无人机协同围捕方法。
步骤3-1:以当前智能体为基准,计算当前智能体与其余智能体的经度差值
Figure BDA0004143444880000142
纬度差值/>
Figure BDA0004143444880000143
高度差值/>
Figure BDA0004143444880000144
距离差值/>
Figure BDA0004143444880000145
获得当前智能体的朝向角/>
Figure BDA0004143444880000146
输入智能体的联合状态/>
Figure BDA0004143444880000147
Figure BDA0004143444880000148
其中
Figure BDA0004143444880000149
步骤3-2:将智能体联合状态传入多智能体强化学习算法中,得到下一步的联合动作
Figure BDA00041434448800001410
其中/>
Figure BDA00041434448800001411
并在三维仿真作战环境中执行动作。
步骤3-3:执行动作结束后获得智能体下一步的动作
Figure BDA00041434448800001412
和当前动作的奖励值Rn,将数据(Sn,An,Sn+1,Rn)存入经验缓冲池中,并抽取批大小的数据对算法进行训练。
步骤3-4:循环执行上述操作。
算法流程图如图4所示:
本发明的效果可以通过以下仿真实验做进一步的说明。
1.仿真条件
本发明是在中央处理器为Inter(R)Core(TM)i7-10870H 2.20GHz CPU、NVIDIAGeForce GTX1660 GPU、、32GB内存、Windows 10操作系统上,运用某军棋仿真推演平台作为军事仿真环境,算法框架使用百度的飞浆框架。
2.仿真内容
本实验设计的随即探索次数是100次,从图5中可以看出在前100次的随机探索阶段,智能体获取到的奖励基本为-100,即逃逸无人机每次都能逃逸成功,在100轮之后开始使用算法训练出来的动作进行执行,可以看出追捕无人机的奖励值有了明显的提高并稳定在500分左右,即追捕无人机每次都能以最快的速度追捕到。为防止算法陷入局部最优在训练时添加了随机探索噪音,所以在100轮之后无人机也会有一个随机探索的可能性。因此在使用此模型时作战成功率达到99%,下图是此算法的Reward曲线图。

Claims (10)

1.一种多智能体强化学习的多自由度模型的无人机协同追捕方法,其特征在于:作战区域中存在红方多艘同构追捕无人机和蓝方单架逃逸无人机,红方无人机通过协同合作尽快对逃逸目标实现围捕成功;步骤如下:
步骤1:对战双方智能体红方和蓝方,红方单元使用强化学习算法进行控制,蓝方单元基于传统作战规则,双方的智能体环境模型为:
以Pn(n=1,2,…,N)代表红方多个围捕无人机,E代表逃逸无人机,vE代表逃逸无人机的速度大小,
Figure FDA0004143444850000011
代表追捕无人机的速度大小,dcap代表围捕半径,ψE代表逃逸无人机的偏航角,/>
Figure FDA0004143444850000012
代表追捕无人机的偏航角,dt为追捕无人机和逃逸无人机之间的距离,di为追捕无人机和追捕无人机之间的距离;
所述红方算法智能体模型包括追捕无人机的运动学方程、智能体的状态空间、动作空间和奖赏函数;
所述蓝方规则智能体模型为逃逸无人机采用的逃逸对抗策略;
步骤2:采用多智能体深度确定性策略梯度算法作为红方智能体算法,其中MADDPG使用中心化训练、去中心化执行的方法;
构建价值Critic网络和策略Actor网络,其中:价值网络Critic部署在全局控制器上,策略网络Actor部署在每个智能体上,训练时,智能体agenti将观测值statei传输到全局价值网络,价值网络将TD误差传回智能体,供智能体训练策略网络,此时智能体之间不进行直接通讯,而是由训练好的策略网络做决策;
采用MADDPG算法对红方智能体进行训练并优化;
步骤3:将步骤1构建的智能体环境模型和步骤2中的多智能体强化学习算法相结合,生成最终的基于强化学习的多无人机协同围捕方法,过程为:
步骤3-1:以当前智能体为基准,计算当前智能体与其余智能体的差值,所述差值为:
经度差值
Figure FDA0004143444850000021
纬度差值
Figure FDA0004143444850000022
高度差值
Figure FDA0004143444850000023
距离差值
Figure FDA0004143444850000024
获得当前智能体的偏航角
Figure FDA0004143444850000025
输入智能体的联合状态/>
Figure FDA0004143444850000026
其中
Figure FDA0004143444850000027
步骤3-2:将智能体联合状态传入多智能体强化学习算法中,得到下一步的联合动作
Figure FDA0004143444850000028
其中/>
Figure FDA0004143444850000029
并在三维仿真作战环境中执行动作;
步骤3-3:执行动作结束后获得智能体下一步的动作
Figure FDA00041434448500000210
和当前动作的奖励值Rn,将数据(Sn,An,Sn+1,Rn)存入经验缓冲池中,并抽取批大小的数据对算法进行训练;
在整个围捕过程中循环执行步骤3操作。
2.根据权利要求1所述多智能体强化学习的多自由度模型的无人机协同追捕方法,其特征在于:所述围捕成功满足以下条件:1)存在任意追捕无人机Pn(n=1,2,…,N)与逃逸目标E的距离小于围捕半径dcap;2)相邻追捕无人机之间的围捕角不大于π。
3.根据权利要求1所述多智能体强化学习的多自由度模型的无人机协同追捕方法,其特征在于:所述围捕过程中满足以下约束:1)为避免地形和温度对无人机的影响,限制无人机的飞行高度在1000米和3000米之间;2)追捕无人机需要在限定区域内追捕到逃逸无人机,逃逸无人机超出限定区域判定任务失败;3)追捕无人机之间不能发生碰撞。
4.根据权利要求1所述多智能体强化学习的多自由度模型的无人机协同追捕方法,其特征在于:所述红方算法智能体模型中无人机的运动学方程为:
Figure FDA0004143444850000031
其中(xi,yi)代表无人机的当前位置,hi代表无人机的当前高度,
Figure FDA0004143444850000032
分别表示无人机i在第n周期内的航迹偏航角和航迹俯仰角;航迹偏航角δi和航迹俯仰角ωi受到约束限制:-ωmaximax,-δmaximax
所述智能体的状态空间为:
Figure FDA0004143444850000033
式中:
Figure FDA0004143444850000034
为单个追捕无人机在仿真步长为n时的态势信息;
所述智能体的动作空间为:
Figure FDA0004143444850000035
式中:
Figure FDA0004143444850000036
为单个追捕无人机在仿真步长为n时所做的动作,其中:
Figure FDA0004143444850000037
所述奖赏函数为:奖励函数设计采用连续型奖励和稀疏奖励相结合的方式,针对无人机协同追捕问题,主要考虑两方面要素:一是追捕无人机要成功追捕到逃逸无人机,在多无人机追捕场景中,仅需有一架无人机追捕到逃逸无人机就算是任务成功;二是各追捕无人机之间不能互相碰撞,具体表达式如下:
R=rsparse+rstep
式中:包括稀疏奖励rsparse和步长奖励rstep
5.根据权利要求4所述多智能体强化学习的多自由度模型的无人机协同追捕方法,其特征在于:所述单个追捕无人机在仿真步长为n时的态势信息
Figure FDA0004143444850000038
为:
Figure FDA0004143444850000039
/>
其中:
Figure FDA0004143444850000041
Figure FDA0004143444850000042
Figure FDA0004143444850000043
Figure FDA0004143444850000044
Figure FDA0004143444850000045
Figure FDA0004143444850000046
式中:
Figure FDA0004143444850000047
分别为追捕无人机和逃逸无人机之间的相对经度,相对纬度,相对高度;/>
Figure FDA0004143444850000048
和/>
Figure FDA0004143444850000049
分别为追捕无人机的航迹偏角和航迹倾角;/>
Figure FDA00041434448500000410
为追捕无人机和逃逸无人机之间的距离。
6.根据权利要求4所述多智能体强化学习的多自由度模型的无人机协同追捕方法,其特征在于:所述稀疏奖励rsparse和步长奖励rstep为:
追捕无人机的稀疏奖励rsparse分为以下两个模块:一是当追捕无人机集群中有一架无人机成功捕捉逃逸无人机时,给予正奖励回报;二是当逃逸无人机成功逃出区域时,算作任务失败,给予负奖励回报;
Figure FDA00041434448500000411
每个追捕无人机经过每个仿真步长都会根据执行的动作获得一次步长奖励rstep,通过这个奖励引导无人机完成既定任务;步长奖励rstep由多种子奖励加权构成:
rstep=αr1+βr2+γr3
式中:r1为追捕距离奖励、r2为追捕高度差奖励,r3为无人机碰撞奖励;α、β、γ为加权系数,并且满足α+β+γ=1。
7.根据权利要求6所述多智能体强化学习的多自由度模型的无人机协同追捕方法,其特征在于:所述追捕距离奖励r1、追捕高度差奖励r2和无人机碰撞奖励r3为:
r1=-k(dt-dmax)
式中:dt为无人机之间的相对距离,dmax为追捕无人机的最大打击范围;设置r1为负奖励函数,当追捕无人机和逃逸无人机的距离为追捕无人机的打击距离时,r1=0;
r2=-k(hi-hE)
当追捕无人机和逃逸无人机的高度之差hi-hE=0时,追捕无人机与逃逸目标的高度关系是局部最优的;
Figure FDA0004143444850000051
建立负指数形式的奖励函数r3描述追捕无人机之间的碰撞风险,dmin表示当前无人机与其他无人机最近的距离。
8.根据权利要求1所述多智能体强化学习的多自由度模型的无人机协同追捕方法,其特征在于:所述逃逸无人机采用的逃逸对抗策略为:当被追捕无人机包围的时候,逃逸无人机向着追捕无人机构成的多边形所有边长中点中最远距离的中点逃逸;当没被逃逸无人机包围时,采取人工势场法的思想,假设追捕无人机向逃逸无人机的向量方向施加斥力,两者之间的斥力分量与两者之间的距离呈反函数关系:距离增大,斥力则减小;逃逸无人机向所有追捕无人机给予的斥力矢量综合后的斥力方向逃逸。
9.根据权利要求1所述多智能体强化学习的多自由度模型的无人机协同追捕方法,其特征在于:所述MADDPG算法中Actor网络结构为:
Figure FDA0004143444850000052
10.根据权利要求1所述多智能体强化学习的多自由度模型的无人机协同追捕方法,其特征在于:所述MADDPG算法中Critic网络结构:
Figure FDA0004143444850000061
/>
CN202310296946.6A 2023-03-24 2023-03-24 多智能体强化学习的多自由度模型的无人机协同追捕方法 Pending CN116225065A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310296946.6A CN116225065A (zh) 2023-03-24 2023-03-24 多智能体强化学习的多自由度模型的无人机协同追捕方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310296946.6A CN116225065A (zh) 2023-03-24 2023-03-24 多智能体强化学习的多自由度模型的无人机协同追捕方法

Publications (1)

Publication Number Publication Date
CN116225065A true CN116225065A (zh) 2023-06-06

Family

ID=86576945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310296946.6A Pending CN116225065A (zh) 2023-03-24 2023-03-24 多智能体强化学习的多自由度模型的无人机协同追捕方法

Country Status (1)

Country Link
CN (1) CN116225065A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117350326A (zh) * 2023-11-29 2024-01-05 北京航空航天大学 层次协同学习的多机围捕方法、装置、电子设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117350326A (zh) * 2023-11-29 2024-01-05 北京航空航天大学 层次协同学习的多机围捕方法、装置、电子设备及介质
CN117350326B (zh) * 2023-11-29 2024-04-09 北京航空航天大学 层次协同学习的多机围捕方法、装置、电子设备及介质

Similar Documents

Publication Publication Date Title
CN112947581B (zh) 基于多智能体强化学习的多无人机协同空战机动决策方法
CN108827312B (zh) 一种基于神经网络和人工势场的协同博弈路径规划方法
CN113093802B (zh) 一种基于深度强化学习的无人机机动决策方法
CN113791634B (zh) 一种基于多智能体强化学习的多机空战决策方法
CN112180967B (zh) 基于评判-执行架构的多无人机协同对抗决策方法
CN113900445A (zh) 基于多智能体强化学习的无人机协同控制训练方法及系统
CN113050686B (zh) 一种基于深度强化学习的作战策略优化方法及系统
CN113221444B (zh) 一种面向空中智能博弈的行为模仿训练方法
CN113962012B (zh) 无人机对抗策略优化方法及装置
CN114089776B (zh) 一种基于深度强化学习的无人机避障方法
CN112651486A (zh) 一种提高maddpg算法收敛速度的方法及其应用
CN113282061A (zh) 一种基于课程学习的无人机空中博弈对抗的解决方法
CN114063644B (zh) 基于鸽群反向对抗学习的无人作战飞机空战自主决策方法
CN113159266B (zh) 基于麻雀搜索神经网络的空战机动决策方法
CN116225065A (zh) 多智能体强化学习的多自由度模型的无人机协同追捕方法
CN115755956B (zh) 一种知识与数据协同驱动的无人机机动决策方法与系统
CN114167756B (zh) 多无人机协同空战决策自主学习及半实物仿真验证方法
CN114721424A (zh) 一种多无人机协同对抗方法、系统以及存储介质
CN116107213A (zh) 一种基于sac和lgvf的航天器追捕任务组合优化控制方法
CN116185059A (zh) 基于深度强化学习的无人机空战自主规避机动决策方法
CN116700079A (zh) 基于ac-nfsp的无人机对抗占位机动控制方法
CN113741186A (zh) 一种基于近端策略优化的双机空战决策方法
Xianyong et al. Research on maneuvering decision algorithm based on improved deep deterministic policy gradient
CN116520884A (zh) 一种基于分层强化学习的无人机集群对抗策略优化方法
CN116796844A (zh) 一种基于m2gpi的无人机一对一追逃博弈方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination