CN111859816A

CN111859816A - 拟态物理法与ddqn结合的无人机集群空战决策方法

Info

Publication number: CN111859816A
Application number: CN202010769672.4A
Authority: CN
Inventors: 丁勇; 高振龙
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2020-08-03
Filing date: 2020-08-03
Publication date: 2020-10-30

Abstract

本发明公布了拟态物理法与DDQN结合的无人机集群空战决策方法，涉及空战决策技术领域。所述方法首先建立无人机的质点运动模型，无人机与邻居个体之间、无人机与目标之间的相对几何位置关系；其次，利用拟态物理法描述无人机与周围个体的作用力；然后，建立无人机集群系统的连续状态空间，描述无人机集群个体之间的复杂耦合关系；接着，综合考虑集群无人机在空战中靠近目标区域、发动进攻、联合打击效能和被击毁等因素建立奖赏函数，保证了无人机之间的相互协作；最后，利用DDQN算法训练无人机集群获得最优空战策略。本发明可使无人机集群自主实现分群搜索、合作围捕、友军支援等复杂的空战行为，具有较好的集群作战效率。

Description

拟态物理法与DDQN结合的无人机集群空战决策方法

技术领域

本发明属于无人机空战决策领域，特别是拟态物理法与DDQN结合的无人机集群空战决策方法。

背景技术

无人机集群空战机动决策是指集群系统被投放到作战区域后，通过自主决策完成目标搜索、友军支援、合作打击等作战任务。与传统的多无人机作战相比，无人机集群系统作为一个有机整体，不依赖于中央决策系统的调度，是一种更高层次的智能表现。

根据是否依赖于决策模型，决策方法可分为基于模型的解析方法和以专家系统、强化学习为代表的无模型方法。解析方法主要包括矩阵博弈、微分对策等，即首先建立空战模型，如影响图、策略评估函数、零和博弈等，然后通过自适应规划、差分进化算法、模拟退火算法等求解最优策略。然而，由于实际作战环境中的信息往往具有不确定性和不完备性等复杂特性，很难建立精确的决策模型，因此近年来无模型方法成为了研究热点。强化学习是一种不需要事先准备样本集的学习算法，比较适合应用于无样本或样本采集困难的军事领域。陈侠等通过建立无人机集群空战的马尔科夫决策过程(Markov Decision Process，MDP)模型，利用启发式强化学习对大规模无人机集群进行训练，无人机集群在空战中表现出较高的智能水平。但是该方法随着状态空间维度的增加计算量会呈指数爆炸，且对于连续状态空间问题不再适用。深度强化学习算法是借助深度神经网络较好的非线性表征能力，将强化学习模型中的值函数、策略等使用深度神经网络进行拟合，并采用梯度下降等方法对神经网络参数进行优化，已被大量应用于集群决策领域。DeepMind团队将深度Q网络(Deep Q-network，DQN)用于多智能体的矩阵博弈，并通过三个多智能体博弈案例证明通过DQN算法学习，智能体能够获得更好的决策能力。OpenAI团队将Actor-Critic算法用于合作-竞争环境下的多智能体决策问题，利用信息交流机制解决了多智能体决策问题中环境动态变化导致的算法不收敛的问题。

发明内容

本发明的目的在于提供拟态物理法与Double DQN(Artificial Physics basedDouble DQN，AP-DDQN)结合的无人机集群空战决策方法，解决了无人机集群自主实现分群搜索、合作围捕、友军支援等复杂的空战行为。

为实现上述目的，本发明采用以下技术方案：

拟态物理法与DDQN结合的无人机集群空战决策方法，包括：

步骤一，在无人机集群系统中，建立无人机的质点运动模型，建立无人机与其邻居个体之间、无人机与目标之间的相对几何位置关系。

步骤二，对于由N架无人机组成的无人机集群系统，定义无人机UAV_j的状态感知空间Ω_i为

其中

为距离UAV_i最近的N_uav架邻居个体组成的集合，

为距离UAV_i最近的N_aim个目标组成的集合。

步骤三，根据拟态物理法计算集群系统无人机UAV_j∈Ω_i对无人机UAV_i相互作用力F_i，包括无人机之间避碰作用力和速度一致作用力。

步骤四，对于任意时刻t，计算无人机UAV_i的状态

步骤五，为保证目标歼灭的成功率以及无人机之间的配合，利用目标的联合毁伤效能表示无人机之间的协作关系。根据无人机集群的集群回合平均收益，表示无人机之间相互配合具有的空战决策能力。

步骤六，各无人机在每次执行动作之后，通过对能源损耗、接近目标、对目标发动进攻后的联合打击回报、无人机被击毁的奖赏求和，得到总的奖赏。

步骤七，利用DDQN算法训练无人机集群，使空战机动策略收敛，得到最优策略，计算集群收益并统计空战时间。

本发明具有以下优点：

1.根据实际空战环境，定义了无人机的状态感知空间，提高了无人机在空战决策时的计算速度。利用拟态物理力描述无人机周围其他个体的作用，同时根据无人机与其邻居个体之间的相对几何位置，无人机与目标之间的相对几何位置，建立了无人机集群系统的连续状态空间，来描述无人机集群中个体之间的复杂耦合关系。

2.红方无人机进入目标区构成攻击条件后，利用目标的联合毁伤效能表示集群无人机之间的协作关系，保证了目标歼灭的成功率以及无人机之间的配合，

3.提出通过对能源损耗，无人机在靠近目标区的过程中获得的奖赏，对目标发动进攻后的联合打击回报，无人机被击毁的奖赏求和，得到总的奖赏，保证了无人机之间的相互协作。

附图表说明

图1为本发明方法的流程图。

图2为本发明AP-DDQN算法、经典DDQN算法、Actor-Critic算法训练过程中集群平均收益曲线。

图3为本发明AP-DDQN算法训练过程中个体回合收益曲线。

图4为DDQN算法训练过程中个体回合收益曲线。

图5为无人机集群支援情形。

图6为无人机集群合作围捕情形。

图7为本发明AP-DDQN算法、DDQN算法和Actor-Critic算法任务完成效率的对比。

具体实施方式

结合所附图表，对本发明的技术方案作具体说明。

如图1所示，本发明的拟态物理法与DDQN结合的无人机集群空战决策方法，具体包括以下步骤：

步骤1：在无人机集群系统中，建立无人机的质点运动模型，建立无人机与其邻居个体之间、无人机与目标之间的相对几何位置关系。

(1.1)将无人机个体视为质点，建立无人机的质点运动模型为

式中，v_i＝||V_i||为速度大小，满足v_min＜v_i＜v_max，v_min和v_max为无人机的最小速度与最大速度，

为速度方向角，满足

N为无人机总数。

(1.2)根据无人机集群中两无人机之间的关系，建立无人机与其邻居个体之间的相对几何位置关系，无人机与目标之间的相对几何位置关系，具体为：

假设无人机集群中无人机UAV_j为无人机UAV_i的邻居个体，则无人机UAV_i与其邻居个体UAV_j之间的相对几何位置关系为：

式中，

为无人机之间的距离向量，

为两机速度方向之间的夹角，V_ij为两机相对速度，

为UAV_i的速度矢量与两机视线之间的夹角，

为无人机间欧式距离。

无人机UAV_i与目标aim_m之间的相对几何位置关系为

式中，

为无人机UAV_i与目标aim_a之间的距离向量，P_i为无人机UAV_i的位置，P_m为目标aim_m的位置。

步骤2：对于由N架无人机组成的无人机集群系统，定义无人机IAV_i的状态感知空间

其中

为距离UAV_i最近的N_uav架邻居个体组成的集合，

为距离UAV_i最近的N_aim个目标组成的集合。

状态感知空间Ω_i满足如下条件：

(a)UAV_i的邻居个体UAV_j满足j∈N_i，如果邻居无人机数小于N_uav，则

由空缺位置使用任选邻居无人机补充，如果邻居个体数为0，则

(b)距离UAV_i最近的N_aim个目标包括集群投放前已知的目标和位于无人机感知区域内的目标，如果已知目标个数为0，则

步骤3：根据拟态物理法计算集群系统中无人机UAV_i∈Ω_i对无人机UAV_i相互作用力F_i，包括无人机之间速度一致作用力

和避碰作用力

具体过程为：

式中，

满足：

其中，

为两无人机相对位置向量，

为两无人机的平均相对速度，

r_S和r_A分别为避碰距离和对齐距离，k_p和k_v分别为聚集系数、一致运动系数，分别满足：

满足：

其中，

为两无人机相对位置向量，

r_S和r_A分别为避碰距离和对齐距离，k_r为避碰系数，满足：

这里，q为指数因子。

步骤4：对于任意时刻t，计算无人机UAV_i的状态

具体过程为：

(4.1)

为无人机UAV_i可观测的UAV_j∈Ω_i的相对几何关系信息，由式(2)求得；

(4.2)

为无人机UAV_i与目标aim_m之间的相对几何位置关系，由式(3)求得；

(4.3)F_i为集群系统中无人机UAV_j∈Ω_i对无人机UAV_i相互作用力，由式(4)求得。

步骤5：为保证目标歼灭的成功率以及无人机之间的配合，利用目标的联合毁伤效能表示无人机之间的协作关系。根据无人机集群的集群回合平均收益，表示无人机之间相互配合具有的空战决策能力。

(5.1)目标的联合毁伤效能W_des为

式中，

表示编号为i的无人机UAV_i对目标的毁伤概率，这里取

n为目标区内红方无人机的个数。当W_des＝1时表示目标被歼灭，当W_des＜1时，表示由于进攻的无人机数量较少，目标无法被歼灭，只是造成了一定程度的损毁，损毁程度为W_des。

(5.2)无人机集群的集群回合平均收益R_ave为

式中，R_i为无人机UAV_i的个体回合收益，满足：

其中，令无人机集群从投放到歼灭作战区域内所有的目标为一个空战回合，t_ent为一个空战回合完成的时刻，r_i(t)为回报。

式中，单架无人机的回合收益越高，则表示该无人机具有更好的空战决策能力。集群回合平均收益越高，表示无人机之间相互配合程度越好。

步骤6：各无人机在每次执行动作之后，通过对能源损耗、接近目标、对目标发动进攻后的联合打击回报、无人机被击毁的奖赏求和，得到总的奖赏。

(6.1)每单位时间内无人机的能源损耗奖赏设为r_a，这里取r_a＝-0.01。

(6.2)无人机接近目标奖赏为r_app，具体为：

(6.3)无人机进入目标区对目标发动进攻后，基于目标联合毁伤效能的目标打击回报为r_kill，具体为：

r_kill＝k_kill·W_des (10)式中，k_kill为目标毁伤回报增益，这里取k_kill＝10，W_des为目标的联合毁伤效能，由式(7)求得。

该式保证了无人机之间的相互配合，即单架无人机的收益不仅取决于是否完成自身任务，还与集群中个体之间是否相互配合有关，有利于提高打击任务的毁伤效能。

(6.4)如果无人机离开作战区则认为无人机被击毁，作战任务失败获得的无人机被击毁负奖赏为r_bekilled，这里取r_bekilled＝-10。

(6.5)总的奖赏r为

r＝r_a+r_app+r_kill+r_bekilled (11)

上式奖赏函数的意义在于，允许无人机根据观测到的其他无人机的状态及自身的状态来做出当前条件下更优的决策。

步骤7：利用DDQN算法训练无人机集群，使空战机动策略收敛，得到最优策略，计算集群收益并统计空战时间。

(7.1)无人机UAV_i根据步骤4计算当前状态

(7.2)按照ε-贪婪策略选择动作a_i(t)，根据式(11)得到回报r_i(t)，并计算状态

(7.3)将

储存到记忆池D中

For j＝1，..，N do

从记忆池D中采样一批规模为n_batch样本数据<s，a，r_i，s′>

计算

令目标函数为(∑[y_j-Q_t(a，s′，；ψ)]²)/n_batcb，执行梯度下降，更新网络参数ψ＝ψ+Δψ

end for

(7.4)更新目标神经网络参数，即

(7.5)将训练好的网络用于空战决策，根据步骤4计算当前无人机集群中的无人机状态

并输入网络，输出无人机可采取的动作。当剩余目标数为0后，计算集群收益。这里定义无人机可采取的动作集A为

A＝{ac，de，lat，rat，ldt，rdt，lt，rt} (12)

式中，ac表示加速飞行，de表示减速飞行，lat表示左转弯加速飞行，rat表示右转弯加速飞行，ldt表示左转弯减速飞行，rdt表示右转弯减速飞行，li表示左转弯，rt表示左转弯。

为了验证方法的可行性和有效性，下面结合实例对本发明做进一步详细的描述。

在Linux环境下搭建无人机集群空战决策仿真环境，基于Python编程语言、pygame1.9.4图形界面库和tensorflow 1.13深度学习框架。计算机配置为Intel Core i5-3210M处理器，NVIDIA GeForce GTX 750 Ti显卡，8GB内存。设置作战区域为10km×6km的二维连续空间，由N＝15架红方无人机组成的无人机集群在作战区域内对环境中的5个目标发动进攻，红方预警机已将随机两个目标的信息发送给集群系统的每一架无人机，剩余目标需要无人机去搜索发现。

单架无人机及空战环境参数如表1所示，AP-DDQN算法超参数如表2所示。

表1 单架无人机及空战环境参数设置

表2 AP-DDQN算法超参数

图2为本发明AP-DDQN算法、经典DDQN算法、Actor-Critic算法训练过程中集群平均收益曲线，图中实线表示AP-DDQN算法收敛后的集群回合平均奖赏，短虚线为经典DDQN算法收敛后的集群回合平均奖赏，长虚线为Actor-Critic算法收敛后的集群回合平均奖赏。由图中可以看出，在1000回合的训练中，AP-DDQN算法和DDQN算法都可以较好的收敛，但AP-DDQN算法收敛后的集群回合平均奖赏大于DDQN算法收敛后的集群回合平均奖赏，而Actor-Critic算法始终处于发散的状态。

图3为本发明AP-DDQN算法训练过程中个体回合收益曲线，图4为DDQN算法训练过程中个体回合收益曲线。由图中可以看出，DDQN算法的个体奖赏能够达到较高水平，但是仍然低于AP-DDQN算法训练得到的无人机个体奖赏，显然是由于DDQN算法训练过程中没有发挥集群作战的优势，而在AP-DDQN算法中，无人机能够根据临近无人机的分布及相互作用情况，更好地实现个体间合作，从而提高了集群整体收益。

图5所示为无人机集群支援情形，由图中可以看出，当无人机落单无法保证目标的毁伤效益时，会选择在目标附近做盘旋运动，直到红方援军到达并实现集群汇合，共同发起进攻，涌现出了集群协作的现象。

图6所示为无人机合作围捕情形，由图中可以看出，当大量无人机组队进攻一个目标时，随着目标的接近，无人机之间相互分离形成合作围捕，其优点一方面可以避免无人机之间的碰撞，另一方面增加了组队的探索面积，有利于搜索新的目标，更好地体现集群作战的优势。

图7所示为本发明AP-DDQN算法、经典DDQN算法和Actor-Critic算法任务完成效率的对比。由图中可以看出，由于AP-DDQN算法训练得到的集群空战机动策略在分群打击和目标搜索方面的优势，100回合中完成任务所用平均时间为132.46s；DDQN算法训练完成的无人机集群完成任务的平均时间为175.26s；Actor-Critic算法训练完成的无人机集群完成任务的平均时间为215.53s。如果认为时长超过300s即为任务失败，则Actor-Critic算法的训练结果中仍存在无法完成任务的情况，显然，AP-DDQN算法更好地发挥了集群性能，提高了无人机集群作战效率。