CN116520884A

CN116520884A - 一种基于分层强化学习的无人机集群对抗策略优化方法

Info

Publication number: CN116520884A
Application number: CN202310560013.3A
Authority: CN
Inventors: 傅妍芳; 孙泽龙; 雷凯麟; 曹子建; 杨博; 高领航; 李秦洁; 罗千庆; 梁洪涛
Original assignee: Xian Technological University
Current assignee: Xian Technological University
Priority date: 2023-05-17
Filing date: 2023-05-17
Publication date: 2023-08-01

Abstract

本发明涉及一种基于分层强化学习的无人机集群对抗策略优化方法，创新点在于：基于强化学习的无人机集群对抗策略推演方法和基于强化学习的时空融合的奖励设计方法。将现有的强化学习算法以分层控制的方法运用到无人机集群编队的作战模拟仿真环境中，通过对总体任务目标的分解，使得强化学习算法可以在复杂的无人机集群对抗环境中推演出合格的对抗策略。克服了传统强化学习算法在复杂环境中由于状态空间和动作空间较大而产生的无法决策的问题，同时也可以推演出相对出色的对抗策略。

Description

一种基于分层强化学习的无人机集群对抗策略优化方法

技术领域

本发明属于强化学习和无人机作战技术领域，涉及一种基于分层强化学习的无人机集群对抗策略优化方法。主要完成在现代战争中需要依靠无人机进行作战时，通过强化学习技术训练的智能体搭载在无人机作战装备上，使得无人机在真实环境时可以做出相对成熟可靠的作战动作，可用于复杂环境下无人机进行作战时多无人机系统的协同作战及任务分配，提高作战任务的高效性。

背景技术

随着近年来世界战争的不断发展，无人作战装备在近年来的世界战场上大展风采，随着国际形势以及科学技术的不断发展，无人作战模式越来越成为各个军事强国研究的主要问题。强化学习以试错机制为出发点进行智能体的训练，通过仿真模拟使智能体学习到足够的知识，可以有效的控制无人机在复杂环境下进行作战。面对复杂战场环境下的不可预知性，强化学习技术比以往的人工智能方法可以更好的控制无人机进行作战，而随着现代科学技术的不断进步，无人作战装备与强化学习技术的合作有着更为深远的意义。

现有的基于强化学习的无人机作战方式一般分为多智能体作战和单智能体作战，单智能体作战即作战单元只有一个的情况下，单元不需要配合其他的装备去进行作战，而多智能体作战即集群化作战，需要考虑作战单元之间的通讯，协同等相关因素，其根本在于通过不同的强化学习算法实现对不同数量的无人机进行控制。

以上方法在无人机集群作战的环境下，无论是集中式还是分散式，都存在着各自的优势和不足，在面对复杂环境时状态空间和动作空间的参量选择，无人机协同之间的通讯问题，任务之间的分配协作等，都需要进一步的进行考虑。当考虑因素过多时，传统的强化学习算法可能会出现空间爆炸，维数灾难等相关问题，使得训练效率低下甚至不收敛的情况。

发明内容

要解决的技术问题

为了避免现有技术的不足之处，本发明提出一种基于分层强化学习的无人机集群对抗策略优化方法，针对复杂环境下观测空间复杂，动作选择困难，以及任务分配难以协同等相关问题整合起来，使得集群对抗中对环境空间和动作空间更容易整和，集群中各个智能体之间的合作更加的协调。同时本发明的强化学习算法在算法设计上采用分层强化学习的基本思路，使得训练过程中可以处理更多的环境参量，对仿真结果的可靠性有着显著的提高。

技术方案

一种基于分层强化学习的无人机集群对抗策略优化方法，其特征在于步骤如下：

步骤1、想定场景设计：环境设计以无人机为主要作战单元，战场选择在空旷的固定区域；作战双方为敌对的红蓝双方，各方作战单元以同构兵力进行推演，或以异构兵力进行推演；

所述兵力包括武器装备的数量和型号；

所述作战单元包括挂载空空导弹的空战作战单元，一种是挂载对地导弹的轰炸作战单元，另一种是挂载电子战干扰/反干扰雷达的电子作战单元；

所述场景设计包括但不限于红蓝双方作战型号，单元数量，挂载单元，地理位置和天气状况；

步骤2：按照步骤1的场景设计，利用仿真推演平台进行仿真，得到无人机集群中每个无人机智能体的固定GUID获取单元的动作和状态(Sn,An)，其中St表示当前状态，At集表示当前动作；

所有无人机智能体的特征状态和特征动作组成状态空间和动作空间，以(St，At)作为表示；

以(x₀,y₀,z₀)表示无人机在当前三维空间中的坐标,(c₀,s₀)表示无人机当前航向和速度；通过雷达探测装置，获得敌方作战单位的坐标，高度，速度信息，通过计算敌我双方单元的相对距离来引导无人机去进行作战；

步骤3：构建智能体算法框架，实现分层结构：

所述智能体网络是以QMIX算法为核心，构建强化学习智能体模型，智能体网络结构分为三层，上下两层由MLP全连接层神经网络构成，中间是GRU隐藏层神经网络；混合网络是由一个超网络和一个非线性网络构成，超网络将全局状态St作为输入，输出为混合网络的权值和偏移量作为非线性网络的参数；上下两层智能体采用如上所述相同的结构；

所述每个智能体在环境中的状态和动作输入进智能体网络，经过三层神经网络生成单个智能体的Q_i值函数，所有的Q_i值函数输入到混合网络中，混合网络是一个前馈神经网络，经过单调混合产生整体的Q_tot值函数；

所述智能体网络参数：

所述智能体网络的奖励函数：

所述上一层智能体根据当前的状态计算出下一步的动作，调用下层的智能体，并把这个动作拼接到下层智能体的状态之中，在下一层智能体执行一段时间之后，在把这一段时间内产生的状态拼接、奖励汇总，作为上一层智能体的状态和奖励，然后上层智能体再根据当前的状态和奖励进行下一步动作的选择，如此循环往复，直至想定结束。

所述步骤1中，想定中的环境安全性限制条件有以下两点：

1、空速限制：空速大于70km/h时，导弹发射按钮锁定，导弹不能发射，当空速在安全射击范围时，且敌方单元处于可攻击范围内，即自动攻击；

2、安全时间限制：无人机起飞一定时间内不能进行导弹发射，到达安全时间后才可以发射。

所述动作方面，对战场区域进行表格划分，以智能体为中心建立运动九宫格，对于上层智能体，无人机编队每一时刻所采取的动作A_n＝(编队运动方向)，以九宫格作为方向分布，中间5代表当前阶段的点位，1代表左后方位，2代表正后方，3代表右后方位置，4代表正左方，6代表正右方，7代表左前方位置，8代表正前方，9代表右前方位置，无人机编队通过这些指令选择下一步运动的方向。

所述下层智能体，其动作空间包括高度和速度；所述动作空间action_space＝(3，3)，高度动作为：0：保持；1：升高；2：降低；速度动作为：0：保持；1：加速；2；减速。

所述智能体网络的训练流程：程序端运行程序开始进行仿真，读取智能体算法的配置和环境中想定的配置文件进行初始化；然后想定启动，智能体初始模型建立，开始在想定中进行训练；智能体获取环境中本身观测到的状态以及本身当前的状态和动作，根据智能体模型选择下一步的动作然后进行仿真，获取动作结束后的奖励情况，把当前的状态和动作以及奖励放入经验缓冲池中，同时智能体根据当前情况再选择下一步的动作，重复之前的步骤，每一步都会判断训练过程中是否达到了程序设计中的结束要求，如果达到，训练结束，如果没有达到，则继续进行训练。

有益效果

本发明提出的一种基于分层强化学习的无人机集群对抗策略优化方法，创新点在于：基于强化学习的无人机集群对抗策略推演方法和基于强化学习的时空融合的奖励设计方法。将现有的强化学习算法以分层控制的方法运用到无人机集群编队的作战模拟仿真环境中，通过对总体任务目标的分解，使得强化学习算法可以在复杂的无人机集群对抗环境中推演出合格的对抗策略。克服了传统强化学习算法在复杂环境中由于状态空间和动作空间较大而产生的无法决策的问题，同时也可以推演出相对出色的对抗策略。

附图说明

图1：本发法流程图

图2：智能体数据流图

图3：无人机编队控制图

图4：训练流程图

具体实施方式

现结合实施例、附图对本发明作进一步描述：

为了实现对无人机作战编队的有效控制以及分层协同作战，搭建基于强化学习的无人机集群作战仿真环境实验平台。在实验平台上进行想定制作、任务规划、细则条令、态势显示、推演控制等相关设置；并基于强化学习算法进行算法逻辑上的设计，包括动作空间、环境空间、奖励设计、算法参数等相关因素。

步骤1：本专利想定场景：为满足无人机编队的作战要求，通过对想定中红蓝双方无人机作战型号，单元数量，挂载单元，地理位置，天气状况等的设定，划分战场区域，不同智能体之间协作完成自己分配的任务，以全方位摧毁敌方主要作战单元为最终任务。

想定中红蓝双方作战单元可以以同构兵力进行推演，也可以异构兵力进行推演；红方作战单元以不同型号无人作战飞机为作战单元，不同型号的无人机单元搭载不同型号的作战武器，空战单元以空空导弹为主要挂载武器，轰炸单元以对地导弹为主要作战武器，电子战单元以电子战雷达，反辐射导弹等作为主要武器，无人机上搭载智能体进行空战决策，同时也可分布地面或海面等以规则为驱动的作战单元为辅助进行作战仿真推演。蓝方作为假想敌对单元，可以拥有海陆空天等各种型号的作战单位来进行作战，以此来锻炼智能体面对复杂环境下的对战博弈。

兵力：武器装备的数量和型号

作战单元：空战单元、轰炸单元、电子战单元；

想定中红蓝双方作战单元可以以同构兵力进行推演，也可以异构兵力进行推演；红方以不同型号无人作战飞机为作战单元，主要分为三种类型，一种是挂载空空导弹的(空战)作战单元，一种是挂载对地导弹的(轰炸)作战单元，另一种是挂载电子战干扰/反干扰雷达的(电子)作战单元。无人机上搭载智能体进行空战决策，同时也可分布地面或海面等以规则为驱动的作战单元为辅助进行作战仿真推演。蓝方作为假想敌对单元，可以拥有海陆空天等各种型号的作战单位来进行作战，以此来锻炼智能体面对复杂环境下的对战博弈。

在环境设计方面，考虑到推演是以无人机为主要作战单元，战场选择在较为空旷的固定区域。故此忽略地形地貌的影响，同时不论是战斗单元还是侦察或者电子干扰单元，气候环境的变化对作战的影响有着比较显著的影响，故此在不同的天气环境下，作战武器的命中率以及雷达和干扰单元的效果都会根据所面对的环境的恶劣程度进行不同系数分配，以更好地贴近真实作战。

步骤2：以QMIX算法为核心，构建强化学习智能体模型。智能体结构如图1：

如图1所示：每个智能体在环境中的状态和动作输入进智能体网络，经过三层神经网络生成单个智能体的Q_i值函数，所有的Q_i值函数输入到混合网络中，混合网络是一个前馈神经网络，经过单调混合产生整体的Q_tot值函数。

通过仿真推演平台中无人机集群中每个无人机的固定GUID获取单元的动作和状态(Sn,An),Sn表示当前状态，An表示当前动作；所有无人机的特征状态和特征动作组成状态空间和动作空间，以(St，At)作为表示；每个智能体的状态和动作输入到智能体网络中，得到单个智能体的Q值函数，所有智能体的Q值函数输入到混合网络中得到整体的Q值函数。

步骤3：整体智能体模型采用分层结构；上下两层智能体分别以步骤2中的算法结构为主体。

如图2所示，上一层智能体根据当前的状态计算出下一步的动作，调用下层的智能体，并把这个动作拼接到下层智能体的状态之中，在下一层智能体执行一段时间之后，在把这一段时间内产生的状态拼接、奖励汇总，作为上一层智能体的状态和奖励，然后上层智能体再根据当前的状态和奖励进行下一步动作的选择，如此循环往复，直至想定结束。

进一步，在所述步骤1中，想定中的环境安全性限制条件有以下两点：

1、空速限制：空速大于70km/h时，导弹发射按钮锁定，导弹不能发射。当空速在安全射击范围时，且敌方单元处于可攻击范围内，即自动攻击。

想定奖励设计方面，本想定提出一种以稀疏奖励和密集奖励联合的混合奖励来引导智能体进行学习。

表1奖励设计表

如上所示在奖励设计上以任务目标为导向，融合时间空间上的连续性奖励设计方法来进行奖励设计，引导强化学习算法在训练时尽可能的训练出更优策略，其中根据作战任务和战斗结果进行合适的奖励，以鼓励作战单元更好的完成作战目标，减少我方战损；惩罚方面同时也在引导智能体控制的作战单元尽可能的向奖励为正的动作上去靠近，同时通过对长时间不进行动作的智能体进行惩罚，防止懒惰智能体的情况发生，鼓励智能体在未知环境下进行随机探索，找到更多的可行性策略。基于时间和空间距离上的设计使得智能体奖励不单纯依赖于稀疏型奖励，时空融合的连续型奖励设计可以更好的促进智能体去不间断的选择动作，使得智能体的训练拥有更加丰富的动作选择。

步骤2中需要设计智能体的动作空间和状态空间；以(x₀,y₀,z₀)表示无人机在当前三维空间中的坐标,(c₀,s₀)表示无人机当前航向和速度。设定双方都有雷达探测装置，可以获得敌方作战单位的坐标，高度，速度等信息，通过计算敌我双方单元的相对距离来引导无人机去进行作战。

每个智能体的状态信息和动作信息输入到智能体网络中，经过第一层全连接层和激活函数，输入到第二层的GRU隐藏层神经网络，之后同理经过第三层输出层神经网络得到单个智能体的Q值函数，智能体网络参数如下：

表2QMIX算法中智能体网络结构

在动作方面，对战场区域进行表格划分，以智能体为中心建立运动九宫格，对于上层智能体，无人机编队每一时刻所采取的动作A_n＝(编队运动方向)，以九宫格作为方向分布，中间5代表当前阶段的点位，1代表左后方位，2代表正后方，3代表右后方位置，4代表正左方，6代表正右方，7代表左前方位置，8代表正前方，9代表右前方位置。无人机编队通过这些指令选择下一步运动的方向，如图3所示：

对于下层智能体，其动作空间主要由其高度和速度组成；动作空间action_space＝(3，3)，高度(0：保持；1：升高；2：降低)和速度(0：保持；1：加速；2；减速)

步骤中的训练流程图如图4所示：流程：程序端运行程序开始进行仿真，读取智能体算法的配置和环境中想定的配置文件进行初始化；然后想定启动，智能体初始模型建立，开始在想定中进行训练；智能体获取环境中自己可观测到的状态以及自己当前的状态和动作，根据智能体模型选择下一步的动作然后进行仿真，获取动作结束后的奖励情况，把当前的状态和动作以及奖励放入经验缓冲池中，同时智能体根据当前情况再选择下一步的动作，重复之前的步骤，每一步都会判断训练过程中是否达到了程序设计中的结束要求，如果达到，训练结束，如果没有达到，则继续进行训练。

本发明的效果可以通过以下仿真实验做进一步的说明。

1、实验条件

本发明主要是基于模拟仿真进行策略优化选择，运用仿真软件和人工智能客户端进行实验，通过在仿真推演平台上进行推演控制，根据奖励与损失等情况进行整理分析，择优选择推演出来的对抗策略。

2、实验内容

a.想定制作，分析初始战斗布局

b.编译代码，使智能体联系到想定作战无人机单元中

c.进行仿真控制推演实验

d.更换和修改算法，进行对比实验

e.整理结果，实验对比分析

本发明采用一种基于分层强化学习的无人机集群对抗策略优化方法，将现有的强化学习算法以分层控制的方法运用到无人机集群编队的作战模拟仿真环境中，通过对总体任务目标的分解，使得强化学习算法可以在复杂的无人机集群对抗环境中推演出合格的对抗策略。克服了传统强化学习算法在复杂环境中由于状态空间和动作空间较大而产生的无法决策的问题，同时也可以推演出相对出色的对抗策略。

Claims

1.一种基于分层强化学习的无人机集群对抗策略优化方法，其特征在于步骤如下：

所述兵力包括武器装备的数量和型号；

步骤3：构建智能体算法框架，实现分层结构：

所述智能体网络参数：

所述智能体网络的奖励函数：

奖惩奖惩值奖惩备注行为意图奖励 5 攻击敌方作战单元获得奖励鼓励攻击行为奖励 10 击落敌方作战单元获得奖励鼓励攻击成功行为奖励 5 躲避敌方攻击获得奖励鼓励躲避行为奖励 10 成功躲避敌方攻击获得奖励鼓励躲避成功行为奖励 10 探测敌方作战单元获得奖励鼓励探测敌方作战单元奖励 0.01*距离距离敌方越近奖励越高鼓励接近敌方作战目标奖励 0.1*剩余时长越早完成作战目标奖励越高鼓励快速解决战斗奖励 50 任务胜利鼓励成功完成任务奖励 0 平局不进行奖惩惩罚 -5 被敌方单元攻击给予惩罚鼓励躲避敌方单元攻击惩罚 -10 被敌方单元击落给予惩罚鼓励战场生存惩罚 -5 被敌方探测单元探测到鼓励躲避地方探测行为惩罚 -10 出界惩罚鼓励在战争区域内行为惩罚 -20 长时间没有动作惩罚鼓励随机探索惩罚 -10 多个单元作战区域重合鼓励合作行为惩罚 -50 作战失败鼓励成功作战

2.根据权利要求1所述基于分层强化学习的无人机集群对抗策略优化方法，其特征在于：所述步骤1中，想定中的环境安全性限制条件有以下两点：

3.根据权利要求1所述基于分层强化学习的无人机集群对抗策略优化方法，其特征在于：所述动作方面，对战场区域进行表格划分，以智能体为中心建立运动九宫格，对于上层智能体，无人机编队每一时刻所采取的动作A_n＝(编队运动方向)，以九宫格作为方向分布，中间5代表当前阶段的点位，1代表左后方位，2代表正后方，3代表右后方位置，4代表正左方，6代表正右方，7代表左前方位置，8代表正前方，9代表右前方位置，无人机编队通过这些指令选择下一步运动的方向。

4.根据权利要求1所述基于分层强化学习的无人机集群对抗策略优化方法，其特征在于：所述下层智能体，其动作空间包括高度和速度；所述动作空间action_space＝(3，3)，高度动作为：0：保持；1：升高；2：降低；速度动作为：0：保持；

1：加速；2；减速。

5.根据权利要求1所述基于分层强化学习的无人机集群对抗策略优化方法，其特征在于：所述智能体网络的训练流程：程序端运行程序开始进行仿真，读取智能体算法的配置和环境中想定的配置文件进行初始化；然后想定启动，智能体初始模型建立，开始在想定中进行训练；智能体获取环境中本身观测到的状态以及本身当前的状态和动作，根据智能体模型选择下一步的动作然后进行仿真，获取动作结束后的奖励情况，把当前的状态和动作以及奖励放入经验缓冲池中，同时智能体根据当前情况再选择下一步的动作，重复之前的步骤，每一步都会判断训练过程中是否达到了程序设计中的结束要求，如果达到，训练结束，如果没有达到，则继续进行训练。