CN109460056B

CN109460056B - 基于量子磷虾群演化机制的无人机集群作战博弈决策方法

Info

Publication number: CN109460056B
Application number: CN201811310155.XA
Authority: CN
Inventors: 高洪元; 马雨微; 侯阳阳; 刁鸣; 杜亚男; 苏雨萌; 臧国建; 谢婉婷; 孙贺麟
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2018-11-06
Filing date: 2018-11-06
Publication date: 2021-12-24
Anticipated expiration: 2038-11-06
Also published as: CN109460056A

Abstract

本发明涉及一种基于量子磷虾群演化机制的无人机集群作战博弈决策方法，包括以下步骤：建立无人机协同作战博弈决策模型；初始化量子磷虾群；根据适应度函数计算量子磷虾群中每一只量子磷虾位置的适应度值；更新每只量子磷虾的量子旋转角和量子位置；对量子磷虾群中每只量子磷虾更新后的位置进行适应度计算，通过映射规则得到每只量子磷虾更新后的位置，计算位置的适应度；确定量子磷虾群的全局最优量子位置；循环判断；输出量子磷虾群的全局最优位置，映射为博弈的混合策略组合。本发明结合博弈论对无人机集群作战指挥决策进行分析，通过理性的决策分析使得作战双方都能得到最大的收益，更加符合无人机集群作战的战场环境，有更强的适用性。

Description

基于量子磷虾群演化机制的无人机集群作战博弈决策方法

技术领域

本发明涉及一种无人机集群作战博弈决策方法，特别是一种基于量子磷虾群演化机制的无人机集群作战博弈决策方法，结合博弈论来进行无人机作战指挥决策分析，属于无人机自主控制领域。

背景技术

无人机集群作战是由多架具备部分自主能力的无人机共同执行战斗任务的过程，是未来空战的主要作战形式，合理的无人机任务分配是提高作战效率的重要手段。面对复杂的战场环境，无人机的任务分配成为决策方首要考虑的问题。

博弈论主要是研究智能体之间相互依存的理性行为，通过理性的决策得到最大化的收益或最小化的惩罚，这与无人机战场环境十分相似，无人机集群作战是对战双方的冲突型决策行为，利用博弈理论可以较好地进行作战指挥博弈分析，攻守双方决策者均需使用自己的策略达到利益最大化或者惩罚最小化，将传统方法中仅考虑作战的某一方发展为兼顾作战双方，使得决策更加贴近现实。

根据已有的技术文献发现，傅莉等在《兵工学报》(2012，Vol.33，No.10，pp.1210-1216)上发表的“无人战机近距空战微分对策建模研究”中对无人机攻击策略的研究主要体现在个体近距格斗研究中，对集群对抗研究少。罗德林等在《控制理论与应用》(2015，Vol.32，No.11，pp.1498-1504)上发表的“基于多agent系统的大规模无人机集群对抗”中将集群中的每一架无人机都视为一个独立agent，建立无人机运动模型，为无人机设计独立的个体行为集，针对每种行为给出决策方法，建立无人机集群对抗决策方法。但是主要集中在对无人机飞行控制技术的研究上，对战术指挥研究较少。

上述方法在解决无人机作战决策问题上虽然都能得到相应结果，但在作战双方的冲突型决策行为上，并没有完善的考虑。因此需要设计一种新的作战指挥决策方法，能够兼顾作战双方，更好地进行作战决策分析。

发明内容

针对上述现有技术，本发明要解决的技术问题是提供一种基于博弈论的基于量子磷虾群演化机制的无人机集群作战博弈决策方法，同时提出了一种量子磷虾群演化机制用来求解博弈过程中的纳什均衡解。

为解决上述技术问题，本发明一种基于量子磷虾群演化机制的无人机集群作战博弈决策方法，包括以下步骤：

步骤一：建立无人机协同作战博弈决策模型，具体为：

博弈双方分别记作红方和蓝方，其中红方拥有无人机N_r架，蓝方拥有无人机N_b架，双方的无人机均分为两种类型：攻击型和干扰型，红方拥有攻击型无人机T_r架，干扰型无人机D_r架，N_r＝T_r+D_r，其中攻击型无人机分为两种：攻击对方的攻击型无人机和攻击对方的干扰型无人机，红方攻击对方的攻击型无人机有A_r1架，攻击对方的干扰型无人机有A_r2架，T_r＝A_r1+A_r2；蓝方拥有攻击型无人机T_b架，干扰型无人机D_b架，N_b＝T_b+D_b，蓝方攻击对方的攻击型无人机有A_b1架，攻击对方的干扰型无人机有A_b2架，T_b＝A_b1+A_b2；

红方的策略集合为s＝[s₁,s₂,…,s_N]，蓝方的策略集合为s′＝[s′₁,s′₂,…,s′_n]，其中N和n分别为红方和蓝方的策略总数，红方的第i个策略s_i代表以i架攻击型无人机去攻击蓝方的攻击型无人机，以T_r-i架攻击型无人机攻击蓝方干扰型无人机，其中i＝1,2,…,N，N＝T_r+1；蓝方的第j个策略s′_j代表以j架攻击型无人机去攻击红方的攻击型无人机，以T_b-j架攻击型无人机攻击红方干扰型无人机，其中j＝1,2,…,n，n＝T_b+1；

当红方采用第i个策略，蓝方采用第j个策略时红方收益表示为

当红方采用第i个策略，蓝方采用第j个策略时蓝方收益表示为

其中i＝1,2,…,N，j＝1,2,…,n；收益值利用效费比来表示，即歼敌与自损的比值，红方的歼敌表示为击落蓝方攻击型无人机给蓝方带来的损失与击落蓝方干扰型无人机给蓝方带来的损失的和，即

红方击落蓝方攻击型无人机给蓝方带来的损失

其中K为干扰衰减常数且大于1，红方击落蓝方干扰型无人机给蓝方带来的损失

其中P₀为攻击型无人机的毁伤概率，a为攻击型无人机被击落的损失，P₁为干扰型无人机的毁伤概率，b为干扰型无人机被击落的损失；蓝方的歼敌表示为击落红方攻击型无人机给红方带来的损失与击落红方干扰型无人机给红方带来的损失的和，即

蓝方击落红方攻击型无人机给红方带来的损失

蓝方击落红方干扰型无人机给红方带来的损失

红方的歼敌即是蓝方的自损，蓝方的歼敌即是红方的自损，即

红方的收益函数为

蓝方的收益函数为

根据红方和蓝方不同的策略选择，将每种策略下的收益值排列成收益矩阵，红方的策略收益矩阵为

蓝方的策略收益矩阵为

博弈中红方的策略集合为s＝[s₁,s₂,…,s_N]，设在s上的混合策略为x＝[x₁,x₂,…,x_N]，即红方以概率x_i选择策略s_i，满足x_i≥0且

蓝方的策略集合为s′＝[s′₁,s′₂,…,s′_n]，s′上的混合策略为x′＝[x′₁,x′₂,…,x′_n]，即蓝方以概率x′_j选择策略s′_j，满足x′_j≥0且

则博弈的一个混合策略组合可以记为X＝[x,x′]；红方的期望收益为μ_r＝x(U^r)_N×nx′^T，蓝方的期望收益为μ_b＝x(U^b)_N×nx′^T，无人机集群博弈纳什均衡即找到一组混合策略组合X^*＝[x^*,x′^*]满足不等式

其为无人机集群作战指挥决策博弈的纳什均衡点，

代表红方策略收益矩阵(U^r)_N×n第i行中的所有元素，

代表蓝方策略收益矩阵(U^b)_N×n第j列中的所有元素；目标函数可表示为

求解纳什均衡点即找到一组混合策略组合X^*使得目标函数J(X)达到最小值，即

惩罚函数为

其中

函数当括号中两变量相等时返回0，不相等时返回1，则适应度函数可表示为f(X)＝J(X)+p(X)；

步骤二：初始化量子磷虾群，具体为：

令量子磷虾群的种群规模为M，问题的维数D＝N+n，最大迭代次数为

将第t代第i只量子磷虾的量子位置记为

d＝1,2,…,D，其对应的位置为

其中i＝1,2,…,M，用

来对应一种潜在的混合策略，满足

其中d＝1,2,…,D，第t代第i只量子磷虾邻居的诱导运动记为

第i只量子磷虾的诱导方向

其中第i只量子磷虾邻居的诱导方向为

全局诱导方向为

第i只量子磷虾的觅食速度

觅食方向

其中食物的诱导方向为

历史最优量子个体诱导方向为

第i只量子磷虾的随机扩散速度

t为当前迭代次数，初始时令t＝0；

步骤三：根据适应度函数计算量子磷虾群中每一只量子磷虾位置的适应度值，具体为：

适应度计算过程如下：按照映射规则

将第i只量子磷虾的量子位置映射为位置

其中

利用适应度函数

计算适应度值，其值同时代表其相应量子位置和位置的适应性；适应度值最小的量子磷虾的量子位置即为至今为止整个群体所找到的全局最优量子位置

按照映射规则获得全局最优量子位置对应的全局最优位置为

步骤四：更新每只量子磷虾的量子旋转角和量子位置，具体为：

在量子磷虾群中，量子磷虾量子位置的更新是通过三种运动来进行的：诱导运动、觅食活动和随机扩散，三种行为的更新规则如下：

(1)诱导运动：每一只量子磷虾均会受到周围邻居和食物的诱导，邻居指以当前量子磷虾个体为中心，在半径r_i ^t范围内的其他量子磷虾，

其中i＝1,2,…,M，m＝1,2,…,M，且i≠m；

第i只量子磷虾的邻居对第i只量子磷虾的诱导运动表示为

其中

表示第i只量子磷虾受周围量子磷虾的诱导速度，N^max是最大诱导速度，ω^t为诱导权重，

为第i只量子磷虾的诱导方向，

为第i只量子磷虾邻居的诱导方向，α^t(g)为全局诱导方向，

为第j个邻居对第i只量子磷虾的影响力，K_i ^t为第i只量子磷虾位置的适应度值，K_j ^t为第i只量子磷虾第j个邻居的适应度值，

和

为量子磷虾群当前最差和最优适应度值，

为第j个邻居对第i只量子磷虾量子位置的影响，其中i＝1,2,…,M，j＝1,2,…,M，且i≠j，ε是防止分母为零而设置的很小的正数，

其中C^t为扰动变量，

rand是均匀分布在[0,1]之间随机数，

为全局最优量子位置的影响力，

为当前全局最优量子位置对第i只量子磷虾量子位置的影响；

(2)觅食运动：

觅食速度

v_f为最大觅食速度，

为觅食权重，

为觅食方向，

其中

为食物的诱导方向，

为历史最优量子位置的诱导方向，食物量子位置为

为动态变量，

为食物影响力，

为食物量子位置的适应度值，

表示食物量子位置对第i只量子磷虾量子位置的影响力，

其中，

表示全局最优量子位置影响力，

为当前全局最优量子位置对第i只量子磷虾量子位置的影响；

(3)随机扩散：

随机扩散速度

其中δ＝[δ₁,δ₂,…,δ_D]为随机扩散方向，V^max为最大随机扩散速度；

由以上三个运动速度分量共同更新量子磷虾的量子旋转角，第i只量子磷虾的量子旋转角第d维的更新公式为

d＝1,2,…,D，

是第i只量子磷虾邻居对第i只量子磷虾的诱导运动

的第d维，

是对第i只量子磷虾觅食速度

的第d维，

是对第i只量子磷虾随机扩散速度

的第d维，第i只量子磷虾量子位置的第d维更新公式为

是速度矢量的比例因子，其中

为步长缩放因子，U_d为变量上界，L_d为变量的下界；

执行如下交叉操作：

设交叉概率为P_c，对所有的i＝1,3,…,M-1，产生一个随机数

若

则进行交叉操作；随机选取两个交叉点τ₁,τ₂，其中τ₁,τ₂为[1,D]间的正整数且τ₁＜τ₂，则令

令

完成交叉操作；

步骤五：对量子磷虾群中每只量子磷虾更新后的位置进行适应度计算，通过映射规则得到每只量子磷虾更新后的位置，计算位置的适应度，具体为：

按照公式

将第t+1代第i只量子磷虾的量子位置根据映射规则映射为位置

其中

利用适应度函数

进行适应度计算；

步骤六：确定量子磷虾群的全局最优量子位置：

将第t+1代量子磷虾群的第i只量子磷虾的量子位置的适应度值

与第t代量子磷虾群全局最优位置的适应度值

比较，若

则

否则g^t+1＝g^t；

步骤七：判断是否达到最大迭代次数

如果达到最大迭代次数

则迭代终止，执行步骤八；否则，令t＝t+1，返回步骤四继续执行；

步骤八：输出量子磷虾群的全局最优位置，映射为博弈的混合策略组合。

本发明有益效果：

与现有技术相比，本发明具有以下优点：

(1)本发明为无人机集群作战提供了可靠的决策分析，并设计新颖的量子磷虾群演化机制作为演进策略，所设计的方法具有收敛速度快，收敛精度高的优点，提高了原有磷虾群演化机制的性能。

(2)本发明结合博弈论对无人机集群作战指挥决策进行分析，通过理性的决策分析使得作战双方都能得到最大的收益，更加符合无人机集群作战的战场环境，有更强的适用性。

(3)仿真结果表明，本发明所提出的无人机集群作战指挥决策方法能够得到比粒子群优化(Particle Swarm Optimization,PSO)方法实现更合理的决策方案，从而证明了所设计的决策方法的有效性。

附图说明

图1为基于量子磷虾群演化机制的无人机集群作战决策博弈方法流程图；

图2为利用QKH、KH与PSO时无人机集群作战决策的适应度函数收敛曲线。

具体实施方式

下面结合附图和实施方式对本发明作进一步说明。将基于量子磷虾群演化机制的无人机集群作战决策博弈方法简记为QKH，将基于磷虾群演化机制的无人机集群作战决策博弈方法简记为KH，将基于粒子群算法的无人机集群作战决策博弈方法简记为PSO。

图1是基于量子磷虾群演化机制的无人机集群作战决策博弈方法流程图。本发明结合博弈论来对无人机作战决策进行分析，同时提出了一种量子磷虾群演化机制用来求解无人机作战决策博弈的混合策略纳什均衡解。

本发明解决问题所采用的方案步骤如下：

步骤一：建立无人机协同作战博弈决策模型。

博弈双方分别记作红方和蓝方，其中红方拥有无人机N_r架，蓝方拥有无人机N_b架。双方的无人机分为两种类型：攻击型和干扰型，红方拥有攻击型无人机T_r架，干扰型无人机D_r架，N_r＝T_r+D_r，其中攻击型无人机又分为两种：攻击对方的攻击型无人机和攻击对方的干扰型无人机，红方攻击对方的攻击型无人机有A_r1架，攻击对方的干扰型无人机有A_r2架，T_r＝A_r1+A_r2。蓝方拥有攻击型无人机T_b架，干扰型无人机D_b架，N_b＝T_b+D_b，蓝方攻击对方的攻击型无人机有A_b1架，攻击对方的干扰型无人机有A_b2架，T_b＝A_b1+A_b2。

红方的策略集合为s＝[s₁,s₂,…,s_N]，蓝方的策略集合为s′＝[s′₁,s′₂,…,s′_n]，其中N和n分别为红方和蓝方的策略总数，红方的第i个策略s_i代表以i架攻击型无人机去攻击蓝方的攻击型无人机，以T_r-i架攻击型无人机攻击蓝方干扰型无人机，其中i＝1,2,…,N，N＝T_r+1。蓝方的第j个策略s′_j代表以j架攻击型无人机去攻击红方的攻击型无人机，以T_b-j架攻击型无人机攻击红方干扰型无人机，其中j＝1,2,…,n，n＝T_b+1。

当红方采用第i个决策，蓝方采用第j个决策时红方收益表示为

当红方采用第i个决策，蓝方采用第j个决策时蓝方收益表示为

其中i＝1,2,…,N，j＝1,2,…,n。收益利用效费比来表示，即歼敌与自损的比值。红方的歼敌表示为击落蓝方攻击型无人机给蓝方带来的损失与击落蓝方干扰型无人机给蓝方带来的损失的和，即

红方击落蓝方攻击型无人机给蓝方带来的损失

其中K为干扰衰减常数，通常大于1，红方击落蓝方干扰型无人机给蓝方带来的损失

其中P₀为攻击型无人机的毁伤概率，a为攻击型无人机被击落的损失，P₁为干扰型无人机的毁伤概率，b为干扰型无人机被击落的损失。蓝方的歼敌表示为击落红方攻击型无人机给红方带来的损失与击落红方干扰型无人机给红方带来的损失的和，即

蓝方击落红方攻击型无人机给红方带来的损失

蓝方击落红方干扰型无人机给红方带来的损失

红方的收益函数为

蓝方的收益函数为

蓝方的策略收益矩阵为

则博弈的一个混合策略组合可以记为X＝[x,x′]。红方的期望收益为μ_r＝x(U^r)_N×nx′^T，蓝方的期望收益为μ_b＝x(U^b)_N×nx′^T，无人机集群博弈纳什均衡即找到一组混合策略组合X^*＝[x^*,x′^*]满足不等式

其为无人机集群作战指挥决策博弈的纳什均衡点，

代表红方策略收益矩阵(U^r)_N×n第i行中的所有元素，

代表蓝方策略收益矩阵(U^b)_N×n第j列中的所有元素。目标函数可表示为

惩罚函数为

其中

函数当括号中两变量相等时返回0，不相等时返回1。则适应度函数可表示为f(X)＝J(X)+p(X)。

步骤二：初始化量子磷虾群。

将第t代第i只量子磷虾的量子位置记为

d＝1,2,…,D，其对应的位置为

其中i＝1,2,…,M。用

来对应一种潜在的混合策略，满足

其中d＝1,2,…,D，第t代第i只量子磷虾邻居的诱导运动记为

第i只量子磷虾的诱导方向

其中第i只量子磷虾邻居的诱导方向为

全局诱导方向为

第i只量子磷虾的觅食速度

觅食方向

其中食物的诱导方向为

历史最优量子个体诱导方向为

第i只量子磷虾的随机扩散速度

t为当前迭代次数，初始时令t＝0。

步骤三：根据适应度函数计算量子磷虾群中每一只量子磷虾位置的适应度值。

适应度计算过程如下：按照映射规则

将第i只量子磷虾的量子位置映射为位置

其中

利用适应度函数

计算适应度值，其值可同时代表其相应量子位置和位置的适应性。适应度值最小的量子磷虾的量子位置即为至今为止整个群体所找到的全局最优量子位置

按照映射规则获得全局最优量子位置对应的全局最优位置为

步骤四：更新每只量子磷虾的量子旋转角和量子位置。

在量子磷虾群中，量子磷虾量子位置的更新是通过三种运动来进行的：诱导运动、觅食活动和随机扩散。三种行为的更新规则如下：

(1)诱导运动。每一只量子磷虾都会受到周围邻居和食物的诱导，邻居指以当前量子磷虾个体为中心，在半径

范围内的其他量子磷虾，

其中i＝1,2,…,M，m＝1,2,…,M，且i≠m。

第i只量子磷虾的邻居对第i只量子磷虾的诱导运动表示为

其中

为第i只量子磷虾的诱导方向，

为第i只量子磷虾邻居的诱导方向，α^t(g)为全局诱导方向。

和

为量子磷虾群当前最差和最优适应度值，

为第j个邻居对第i只量子磷虾量子位置的影响，其中i＝1,2,…,M，j＝1,2,…,M，且i≠j，ε是防止分母为零而设置的很小的正数，ε∈[10^-20,10^-6]。

其中C^t为扰动变量，

rand是均匀分布在[0,1]之间随机数，

为全局最优量子位置的影响力，

为当前全局最优量子位置对第i只量子磷虾量子位置的影响。

(2)觅食运动。

觅食速度

v_f为最大觅食速度，

为觅食权重，

为觅食方向，

其中

为食物的诱导方向，

为历史最优量子位置的诱导方向。食物量子位置为

为动态变量，

为食物影响力，

为食物量子位置的适应度值，

表示食物量子位置对第i只量子磷虾量子位置的影响力，

其中，

表示全局最优量子位置影响力，

为当前全局最优量子位置对第i只量子磷虾量子位置的影响。

(3)随机扩散。

随机扩散速度

其中δ＝[δ₁,δ₂,…,δ_D]为随机扩散方向，V^max为最大随机扩散速度。

d＝1,2,…,D，

是第i只量子磷虾邻居对第i只量子磷虾的诱导运动

的第d维，

是对第i只量子磷虾觅食速度

的第d维，

是对第i只量子磷虾随机扩散速度

的第d维，第i只量子磷虾量子位置的第d维更新公式为

是速度矢量的比例因子，其中

为步长缩放因子，U_d为变量上界，L_d为变量的下界。

为增加种群的多样性，执行如下交叉操作：

设交叉概率为P_c，对所有的i＝1,3,…,M-1，产生一个随机数

若

则进行交叉操作。随机选取两个交叉点τ₁,τ₂，其中τ₁,τ₂为[1,D]间的正整数且τ₁＜τ₂，则令

令

完成交叉操作。

步骤五：对量子磷虾群中每只量子磷虾更新后的位置进行适应度计算，通过映射规则得到每只量子磷虾更新后的位置，计算位置的适应度。

适应度计算过程如下：按照公式

将第t+1代第i只量子磷虾的量子位置根据映射规则映射为位置

其中

利用适应度函数

进行适应度计算。

步骤六：确定量子磷虾群的全局最优量子位置。

将第t+1代量子磷虾群的第i只量子磷虾的量子位置的适应度值

与第t代量子磷虾群全局最优位置的适应度值

比较，若

则

否则g^t+1＝g^t。

步骤七：判断是否达到最大迭代次数

如果达到最大迭代次数

则迭代终止，执行步骤八；否则，令t＝t+1，返回步骤四继续执行。

模型具体参数设置如下：

红方无人机总数N_r＝8，其中攻击型无人机T_r＝4，干扰型无人机D_r＝4。蓝方无人机总数N_b＝7，其中攻击型无人机T_b＝3，干扰型无人机D_b＝4。攻击型无人机的毁伤概率P₀＝0.6，被击落的损失a＝1，干扰型无人机的毁伤概率P₁＝0.5，被击落的损失b＝1.5，干扰衰减常数K＝e。

基于量子磷虾群演化机制的无人机集群作战决策博弈方法的参数设置如下：种群规模M＝30，最大迭代次数

最大诱导速度N^max＝0.01，诱导权重

最大觅食速度v_f＝0.05，觅食权重

随机扩散方向δ＝[δ₁,δ₂,…,δ_D]，其中δ_d是均匀分布在[-1,1]间的随机数，d＝1,2,…,D，最大扩散速度V^max＝0.002，步长缩放因子C_t＝0.25，变量上界U_d＝10，变量下界L_d＝-10，交叉概率

基于粒子群算法的无人机集群作战决策博弈方法的参数设置：种群规模M＝30，最大迭代次数

权重因子w＝0.7，c₁＝c₂＝2，防止分母为零而设置的参数ε在仿真过程中设置为ε＝10^-10。

图2是利用QKH、KH与PSO时无人机集群作战决策的适应度函数收敛曲线。从仿真图中可以看出，利用粒子群演化机制得到的适应度函数值明显高于利用磷虾群演化机制得到的适应度函数值，利用量子磷虾群演化机制得到的适应度函数值最低，只有0.0149，收敛精度更高。红蓝双方无人机集群对抗博弈混合策略结果如表1所示。

表1红蓝双方无人机集群对抗博弈混合策略结果

本发明利用量子磷虾群演化机制求解来求解无人机作战决策博弈的混合策略纳什均衡解，为无人机集群作战提供了可靠的决策分析，以量子磷虾群演化机制作为演进策略，收敛速度更快，收敛精度更高。该方法的步骤为：建立无人机协同作战博弈模型；初始化量子磷虾群；根据适应度函数计算量子磷虾群中每一只量子磷虾位置的适应度值；更新每只量子磷虾的量子旋转角和量子位置，通过一定的映射规则得到每只量子磷虾新的位置；对量子磷虾群中每只量子磷虾更新后的位置进行适应度计算；确定量子磷虾群的全局最优位置；判断是否达到最大迭代次数；输出量子磷虾群的全局最优位置，映射为博弈的混合策略组合。本发明以量子磷虾群演化机制作为演进策略，减少了运算量和运算时间，获得了更高的收敛精度和更快的收敛速度，有效的解决了传统无人机集群作战决策方法中存在的一些问题，得到了更加可靠的决策分析。