CN116954255A

CN116954255A - 多飞行器协同智能决策与轨迹在线规划方法、系统及介质

Info

Publication number: CN116954255A
Application number: CN202310896010.7A
Authority: CN
Inventors: 张远龙; 谢愈; 程俊仁; 李颖; 刘鸿福; 张万鹏; 陈璟; 范锦秀
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2023-07-20
Filing date: 2023-07-20
Publication date: 2023-10-27
Anticipated expiration: 2043-07-20
Also published as: CN116954255B

Abstract

本发明提出一种多飞行器协同智能决策与轨迹在线规划方法、系统及介质，基于多目标动态分配实现，该方法包括：综合战场环境、目标态势以及飞行器自身信息，通过构建多维度目标优势度模型和分层规划策略，并结合强化学习方法动态获得最优打击目标，输出最优目标分配矩阵；基于多目标动态分配结果对多飞行器协同编队轨迹规划问题进行凸化处理，将非线性问题转化为线性问题；利用凸优化求解器计算线性化后的多飞行器协同编队轨迹规划问题的解，输出收敛解。本发明能够解决飞行器集群作战系统中协同轨迹规划与决策问题，促进平台、武器、传感器、通信技术的全面发展，还将对飞行器武器集群协同问题起到支撑作用。

Description

多飞行器协同智能决策与轨迹在线规划方法、系统及介质

技术领域

本发明涉及飞行器任务规划和作战运用领域，具体涉及一种多飞行器协同智能决策与轨迹在线规划方法、系统及介质。

背景技术

现有技术中，飞行器集群作战系统的任务规划与决策是一个具有复杂约束的多目标优化问题，是一类NP难题，主要研究在满足各项战术技术指标的前提下，如何为各飞行器指定所需执行的任务及具体的执行时间，在满足各类约束的同时，使得多飞行器协同系统实现尽可能高的作战效能。传统的任务规划与决策技术通常是为各飞行器指派具体的目标，而随着飞行器任务复杂性的不断增强和协同性的不断提高，任务规划与决策技术不仅包括对飞行器任务目标的指派，还要根据具体的任务协同性需求，确定各飞行器执行任务的关系。

在任务规划与决策模型优化求解算法方面，当前国内外对于单个飞行器规划比较多，而针对多个飞行器协同作战任务规划研究则比较少，且多采用启发式算法或者使用一些通用模型来解决，算法稳定性差。当前的多飞行器任务规划多使用的是集中式静态规划，考虑对突发紧急任务处理的还较少，规划结果确定后，对新加入的任务，需全部打乱结果进行重规划，造成非必要的资源浪费。

随着当前信息化作战技术的发展以及越来越多战场任务需求，当前国内外军事强国越来越开始集中关注于多飞行器协同任务规划与决策的研究，并且开始将新的其他领域的知识应用于弹群协同任务规划中。如何解决飞行器集群作战系统中协同轨迹规划与决策问题，以推动飞行器武器作战方式的精准及有效，是目前急需解决的技术问题。

发明内容

为解决多飞行器任务规划中集中式静态规划存在的问题，本发明提供一种多飞行器协同智能决策与轨迹在线规划方法、系统及介质，以牵引先进平台、武器、传感器、通信等技术的全面发展，还将对其他飞行器武器集群协同问题起到支撑作用，有效推动飞行器武器作战方式的发展。

本发明第一方面公开了一种多飞行器协同智能决策与轨迹在线规划方法，基于多目标动态分配实现，所述方法包括：

S1:综合战场环境、目标态势以及飞行器自身多种信息，构建多维度目标优势度模型和分层规划策略，结合强化学习方法动态获得最优打击目标，输出最优目标分配矩阵；

S2:根据步骤S1获得的最优目标分配矩阵对多飞行器协同编队轨迹规划问题进行建模，对所述建模中的非线性约束进行凸化处理，通过网格离散化将所述多飞行器协同轨迹规划问题转化为凸规划问题；

S3:利用凸优化求解器计算步骤S2中凸规划问题的多飞行器协同编队轨迹规划问题，通过迭代更新输出收敛解，即为所述多飞行器协同编队的轨迹。

根据本发明第一方面的方法，所述步骤S1具体包括：

S1.1利用层次分析法对多目标进行重要度评估，构建火力运用策略；

使得其中：n为目标数量，m飞行器数量，w_j为目标重要性的量化值，floor(·)和ceil(·)分别为向下取整函数和向上取整函数，h_j表示分配打击目标j的飞行器数量，所有打击目标的分配结果构成了火力运用策略；

S1.2根据相对运动信息进行攻击优势度评估，计算综合攻击优势度，进一步构建攻防综合效费比指标；

其中，为攻击性能指标，S_ij为飞行器i打击目标j的攻击优势度，X_ij为攻击分配矩阵X中的元素，飞行器i攻击目标j时X_ij标记为1，否则X_ij标记为0；为目标的毁伤性能指标，S_tj为第j个目标的价值，P_ij为飞行器i对目标j的突防概率；为飞行器成本指标，C_i为飞行器i的成本；表示攻击效费比指标，表示毁伤效费比指标，最后J₂表示获得攻防综合效费比指标，即攻击效费比与毁伤效费比之和。

S1.3综合考虑目标的重要程度和目标的打击性能，利用强化学习方法实现多目标的智能分配，输出满足约束条件下攻防综合效费比指标最优的目标分配矩阵；所涉及的约束条件为：每发飞行器最多只能攻击一个目标，每个目标至少分配的飞行器数量为步骤S1.1中所确定的火力运用策略。

根据本发明第一方面的方法，所述步骤S2中根据最优目标分配矩阵对多飞行器协同编队轨迹规划问题进行建模，对非线性约束进行凸化处理，进一步网格离散化后将协同编队轨迹规划问题转化为凸规划问题；所涉及的多飞行器协同轨迹规划问题建模为：

P1:find u_i

min J₀＝C₁(|λ_i(t_f)-λ_i ^*|+|φ_i(t_f)-φ_i ^*|)

其中，u_i为倾侧角变化率，λ_i ^*和φ_i ^*分别为飞行器i分配打击目标的经度和纬度，λ_i(t_f)和φ_i(t_f)为飞行器i终端时刻的经度和纬度；ν_i为飞行器i的倾侧角；q_i和n_i分别为飞行器i的热流率、动压和总过载；C_r，C_λ和C_φ为常数；r_i(t)、λ_i(t)、φ_i(t)分别为飞行器i在时刻t的高度、经度和纬度；t₀表示初始时间，t_f表示终端时间；Eq.(3.31)为：

其中，λ_i是飞行器经度，φ_i是飞行器纬度，r_i是飞行器高度，V_i是飞行器速度，θ_i是弹道倾角，σ_i是航迹偏航角，ω_e为地球自转角速度，υ_i为飞行器倾侧角，L_i是升力加速度，D_i是阻力加速度，g_i为重力加速度。离散化后的多飞行器协同轨迹规划问题可描述为：

P3:find X_i,l,u_i,l,κ_i,ξ_i

其中，X_i,l＝[r_i,l λ_i,l φ_i,l V_i,l θ_i,l σ_i,l ν_i,l]^T，表示飞行器i在时刻l的高度、经度、纬度、速度、倾角、偏航角和倾侧角，u_i为倾侧角变化率，κ_i为松弛系数，ξ_i为时间膨胀因子；J₀为终端位置偏差最小的目标函数，C₂和C₃为常数，A、G、C、D为系数矩阵，ν_min和ν_max表示倾侧角的最小最大值，u_min和u_max为倾侧角变化率的最小最大值，f_j,max分别表示热流、动压和总过载的允许最大值，C_r，C_λ和C_φ为常数，C_d,min为协同飞行安全距离，δ_i为信赖域半径，f_j(r_i ^(k),V_i ^(k)),j＝1,2,3分别表示线性化后的热流、动压和总过载约束；f'_j(r_i ^(k),V_i ^(k)),j＝1,2,3分别表示线性化后的热流、动压和总过载约束的偏导数。

根据本发明第一方面的方法，所述步骤S3中利用凸优化求解器计算凸化后的多飞行器协同编队轨迹规划问题，迭代更新输出收敛解，即多飞行器协同编队的轨迹，其迭代收敛条件为：

其中，为相邻两次迭代解的全局误差变化量。表示来自迭代解的终端状态矢量，k为当前迭代次数，i为第几枚弹，N为离散节点数，ε是一个充分小的常值矢量。

根据本发明第一方面的方法，所述综合攻击优势度为

其中：k_χ,k_d,k_θ,k_σ,k_V为加权系数，不同参数设置对应不同的重要程度；相对方位角攻击优势度S_χ、相对距离攻击优势度S_d、速度倾角攻击优势度S_θ、航迹偏航角攻击优势度S_σ、相对速度攻击优势度S_V。

根据本发明第一方面的方法，所述综合攻击优势度包括相对运动信息的攻击优势度，所述相对运动信息的攻击优势度包括相对方位角攻击优势度S_χ、相对距离攻击优势度S_d、速度倾角攻击优势度S_θ、航迹偏航角攻击优势度S_σ、相对速度攻击优势度S_V：

其中，χ_hyp为当前飞行器相对于编队中心的方位角，χ_t为当前目标的相对方位角；d_hyp为当前飞行器相对于编队中心的距离，d_t为相对距离，d_max为根据任务选择的距离常数；θ为实时速度倾角，θ_f为终端最优速度倾角；Δσ为航迹偏航角误差，f_σ(Δσ,σ₀)表示航迹偏航角误差Δσ偏离最佳攻击角度区域的最小角度；V为高超声速飞行器到目标的相对速度，V_o为综合考虑毁伤能力和控制代价的最优相对速度。

根据本发明第一方面的方法，离散化后的多飞行器协同轨迹规划问题可描述为：

P3:find X_i,l,u_i,l,κ_i,ξ_i

本发明第二方面公开了一种多飞行器协同智能决策与轨迹在线规划系统，包括计算机设备，该计算机设备用以执行第一方面所述的多飞行器协同智能决策与轨迹在线规划方法的步骤，

本发明第三方面公开了一种计算机设备，包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序以实现第一方面所述的多飞行器协同智能决策与轨迹在线规划方法。

本发明第四方面公开了一种计算机可读存储介质，该计算机可读存储介质上存储计算机程序，以实现第一方面所述的多飞行器协同智能决策与轨迹在线规划方法。

综上，本发明提出的方案具备如下技术效果：本发明提供了一种多飞行器协同智能决策与轨迹在线规划方法、系统及介质，首次针对多约束复杂任务条件下高超声速飞行器协同打击多目标问题，提出了一种综合考虑多维环境感知信息和任务需求的基于智能决策的多飞行器协同编队轨迹在线规划计算方法。通过构建综合考虑战场环境、目标态势以及飞行器自身等多种信息的多维度目标优势度模型和分层规划策略，基于强化学习方法动态获得最优打击目标；然后根据确定的攻击目标和攻击方向，利用凸优化方法在线重规划了满足任务需求的多飞行器协同轨迹。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例方法的基本流程示意图；

图2为本发明实施例方法的步骤S1的流程图；

图3为本发明实施例的目标综合量化评价层次模型；

图4为本发明实施例的基于序列凸优化的协同轨迹在线重规划方法流程图；

图5为本发明实施例的全程打击离线规划轨迹；

图6为本发明实施例的优化所得末段高度-时间变化曲线；

图7为本发明实施例的优化所得末段速度-时间变化曲线；

图8为本发明实施例的优化所得马赫数-时间变化曲线；

图9为本发明实施例的优化所得末段星下点轨迹；

图10为本发明实施例的优化所得末段航迹倾角-时间变化曲线；

图11为本发明实施例的优化所得航迹偏角-时间变化曲线；

图12为本发明实施例的优化所得末段攻角-时间变化曲线；

图13为本发明实施例的优化所得倾侧角-时间变化曲线；

图14为本发明实施例的优化所得末段热流密度-时间变化曲线；

图15为本发明实施例的优化所得总过载-时间变化曲线；

图16为本发明实施例的优化所得动压-时间变化曲线。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例只是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种多飞行器协同智能决策与轨迹在线规划方法，实施步骤包括：

1)综合考虑战场环境、目标态势以及飞行器自身等多种信息，通过构建多维度目标优势度模型和分层规划策略，并结合强化学习方法动态获得最优打击目标，输出最优目标分配矩阵；

2)根据最优目标分配矩阵对多飞行器协同编队轨迹规划问题进行建模，对非线性约束进行凸化处理，进一步网格离散化后将协同轨迹规划问题转化为凸规划问题；

3)利用凸优化求解器计算凸化后的多飞行器协同编队轨迹规划问题，迭代更新输出收敛解，即为多飞行器协同编队的轨迹。

优选地，步骤1)综合考虑战场环境、目标态势以及飞行器自身等多种信息，通过构建多维度目标优势度模型和分层规划策略，并结合强化学习方法动态获得最优打击目标，输出最优目标分配矩阵的详细步骤，包括：

1.1)利用层次分析法对多目标进行重要度评估，构建火力运用策略；

1.2)根据相对运动信息进行攻击优势度评估，计算综合攻击优势度，进一步构建攻防综合效费比指标；

1.3)利用强化学习方法实现多目标的智能分配，输出满足约束条件下最优的分配矩阵。

优选地，步骤1.1)中层次分析法将目标综合评价体系分成四层：目标层、准则层、指标层、方案层；进一步确定每层元素的相对重要性权重；所构建的火力运用决策优化目标为：

使得其中：n为目标数量，m飞行器数量，w_j为目标重要性的量化值，floor(·)和ceil(·)分别为向下取整函数和向上取整函数，h_j表示分配打击目标j的飞行器数量。所有打击目标的分配结果构成了火力运用策略。

优选地，步骤1.2)根据相对运动信息进行攻击优势度评估，计算综合攻击优势度，进一步构建攻防综合效费比指标。相对运动信息的攻击优势度包括相对方位角攻击优势度S_χ、相对距离攻击优势度S_d、速度倾角攻击优势度S_θ、航迹偏航角攻击优势度S_σ、相对速度攻击优势度S_V。

步骤1.2)中的综合攻击优势度为

其中：k_χ,k_d,k_θ,k_σ,k_V为加权系数，不同参数设置对应不同的重要程度。

步骤1.2)中综合攻击优势度矩阵为S，所构建攻防综合效费比指标为：

优选地，步骤1.3)综合考虑目标的重要程度和目标的打击性能，利用强化学习方法实现多目标的智能分配，输出满足约束条件下最优的分配矩阵。其值函数迭代更新算法为Q-learning，更新算法为：

Q(s,a)←Q(s,a)+α_r[R_r+γ_rmax_aQ(s′,a)-Q(s,a)]

其中，Q(s,a)为当前状态s与当前动作a所对应的值函数的具体取值，若状态集合为M维、动作集合为N维，则Q(s,a)为M×N维表格；α_r为值函数迭代的校正系数，γ_r为折扣系数，Q(s,a)为当前状态s与当前动作a所对应的值函数的具体取值，R_r与s′分别为执行当前动作获得的回报值与下一时刻的状态。

步骤1.3)中所涉及的动作空间、状态空间设计、回报函数设计

S＝[f(X_ij(k))_min,f(X_ij(k))_max],k＝1,2,…,n^m

其中，a_i表示飞行器选择目标i，X_ij(k)表示第k个分配矩阵的元素，针对m个飞行器攻击n个目标的情况，则存在n^m个分配矩阵；f(X_ij(k))为第k个分配矩阵对应的步骤1.2)攻防综合效费比指标J₂的值；R为回报函数值，X_ij为目标分配矩阵X中的元素。当某一动作即目标分配矩阵满足所有攻击约束时，回报函数值为实际攻防量化值与最大值1.2倍的差。当不满足攻击约束即某一高超声速飞行器分配了多个目标或者某一目标未分配合适数量的飞行器时给与-5的回报值。

步骤1.3)中输出的分配矩阵为使得攻防效费比性能指标J₂最大的X；所涉及的约束条件为每发飞行器最多只能攻击一个目标，每个目标至少分配的飞行器数量为步骤1.1)中所确定的火力运用策略h_j。

优选地，步骤2)中根据最优目标分配矩阵对多飞行器协同轨迹规划问题进行建模，对运动方程、过程约束进行凸化处理，进一步离散化后将得到离散化后的凸规划问题并求解；所涉及的多飞行器协同轨迹规划问题建模如式所示

P1:find u_i

min J₀＝C₁(|λ_i(t_f)-λ_i ^*|+|φ_i(t_f)-φ_i ^*|)

其中，u_i为倾侧角变化率，λ_i ^*和φ_i ^*分别为飞行器i分配打击目标的经度和纬度，λ_i(t_f)和φ_i(t_f)为飞行器i终端时刻的经度和纬度；C₁为位置误差的权重系数；ν_i为飞行器i的倾侧角；q_i和n_i分别为飞行器i的热流率、动压和总过载；C_r，C_λ和C_φ为常数；r_i(t)、λ_i(t)、φ_i(t)分别为飞行器i在时刻t的高度、经度和纬度；t₀表示初始时间，t_f表示终端时间。Eq.(3.31)为飞行器的运动方程为：

其中，λ_i是飞行器经度，φ_i是飞行器纬度，r_i是飞行器高度，V_i是飞行器速度，θ_i是弹道倾角，σ_i是航迹偏航角，ω_e为地球自转角速度，ν_i为飞行器倾侧角，L_i是升力加速度，D_i是阻力加速度，g_i为重力加速度。

步骤2)中对非线性约束凸化处理后的多飞行器协同轨迹规划问题可描述为：

P2:find u_i,κ_i,ξ_i

其中，X_i(τ)＝[r_i,τ λ_i,τ φ_i,τ V_i,τ θ_i,τ σ_i,τ ν_i,τ]^T，表示飞行器i在时刻τ的高度、经度、纬度、速度、倾角、偏航角和倾侧角，u_i为倾侧角变化率，κ_i为松弛系数，ξ_i为时间膨胀因子；J₀为终端位置偏差最小的目标函数，C₂和C₃为常数，A、G、C、D为系数矩阵，ν_min和ν_max表示倾侧角的最小最大值，u_min和u_max为倾侧角变化率的最小最大值，f_j,max分别表示热流、动压和总过载的允许最大值，C_r，C_λ和C_φ为常数，C_d,min为协同飞行安全距离，δ_i为信赖域半径，f_j(r_i ^(k),V_i ^(k)),j＝1,2,3分别表示线性化后的热流、动压和总过载约束；f'_j(r_i ^(k),V_i ^(k)),j＝1,2,3分别表示线性化后的热流、动压和总过载约束的偏导数其中，倾侧角变化率u_i，松弛系数κ_i和时间膨胀因子ξ_i；δ_i为信赖域半径，f_j(r_i ^(k),V_i ^(k)),j＝1,2,3分别表示线性化后的热流、动压和总过载约束；f'_j(r_i ^(k),V_i ^(k)),j＝1,2,3分别表示线性化后的热流、动压和总过载约束的偏导数。

步骤2)中离散化后的多飞行器协同轨迹规划问题可描述为：

P3:find X_i,l,u_i,l,κ_i,ξ_i

优选地，步骤3)中利用凸优化求解器计算凸化后的多飞行器轨迹规划问题，迭代更新输出收敛解。其收敛条件为：

其中，表示终端近似误差，为相邻两次迭代解的全局误差变化量，ε是一个充分小的常值矢量。

步骤3)中输出收敛解，即为多飞行器协同编队的轨迹。

如图1和图2所示，本实施例多飞行器协同智能决策与轨迹在线规划方法的实施步骤包括：

本实施例中编队包含5个飞行器(中心飞行器h_c0＝65000m、V_c0＝6500m/s、θ_c0＝0、ψ_c0＝90°、φ_c0＝27.5°N、λ_c0＝110°E；非中心飞行器1-4的初始参数为h₁₀＝h₂₀＝h₃₀＝h₄₀＝65000m、V₁₀＝V₂₀＝V₃₀＝V₄₀＝6500m/s、φ₁₀＝30.7335°N、φ₂₀＝29.1171°N、φ₃₀＝25.8829°N、φ₄₀＝24.2665°N、λ₁₀＝110.0772°E、λ₂₀＝110.0190°E、λ₃₀＝110.0185°E、λ₄₀＝110.0728°E、θ₁₀＝θ₂₀＝θ₃₀＝θ₄₀＝0、ψ₁₀＝92.3917°、ψ₂₀＝91.1858°、ψ₃₀＝88.8315°、ψ₄₀＝87.6777°；飞行器质量mass＝907kg、参考面积S_ref＝0.48m²)。

本实施例中待打击目标为航空母舰1艘(φ_T1＝15.7639°N、λ_T1＝167.1612°E)、飞行器巡洋舰1艘(φ_T2＝15.8639°N、λ_T2＝167.2612°E)、飞行器驱逐舰1艘(φ_T3＝15.6639°N、λ_T3＝167.0612°E)、护卫舰2艘(航空母舰的位置附近根据构型随机生成)；分别为对应的加权系数；

本实施例中飞行器飞行过程中容许的最大热流密度、最大总过载、最大动压均为n_{t_max}＝20、q_max＝2000000Pa。

本实施例中所选编对构型为通用性较高的中心飞行器为核心的编对构型，其参数设置为：

1.1)本实施例利用图3的目标综合量化评价层次模型对多目标进行重要度评估，层次分析法将目标综合评价体系分成四层：目标层、准则层、指标层、方案层，其层次结构模型如图3所示，构建决策矩阵A为

目标重要性量化矢量W为W＝[0.9151,0.3248,0.2257,0.0555,0.0555]^T，求解混合整数优化问题使得其中：n个目标，m个飞行器，w_j为目标重要性的量化值。得到火力运用决策结果为：

h＝[h₁,h₂,…,h₅]^T＝[3,1,1,0,0]^T

1.3)本实施例中利用强化学习方法实现多目标的智能分配，输出满足约束条件下最优的分配矩阵。智能决策执行时间为0.13s，其任务分配矩阵为：

表示分配中心飞行器、从飞行器2、从飞行器3攻击目标1航空母舰；分配从飞行器1攻击目标2飞行器巡洋舰；分配从飞行器4攻击目标3飞行器驱逐舰。最优攻防综合效费比指标为J＝4.3803，详见表1。

表1最优攻防综合效费比指标

2)根据最优目标分配矩阵对多飞行器协同轨迹规划问题进行建模，对非线性约束进行凸化处理，进一步网格离散化后将协同轨迹规划问题转化为凸规划问题；本实施例中转化后的凸规划问题可描述为：

P3:find X_i,l,u_i,l,κ_i,ξ_i

3)本实施例中利用凸优化求解器计算凸化后的多飞行器轨迹规划问题，迭代更新输出收敛解，所涉及的迭代过程如图4所示。

S31:初始化；

S32:求解凸优化子问题P3；

S33:计算全局误差；判断是否收敛；如果是，则输出收敛解；如果否，则判断是否达到最大迭代数，如果是，则输出收敛解，如果否，更新参考轨迹，返回步骤S32。

其收敛条件为：

其中，为相邻两次迭代解的全局误差变化量。

本实施例仿真软件为Matlab2020b，仿真计算机配置为“Intel Core i73.20GHz 8核CPU+16GB内存”。全程轨迹结果如图5所示。本实施例的在线优化时间为6.27s，各飞行器飞行时间如表2所示。

表2中心编队构型各飞行器末段飞行时间

所得的末段轨迹结果如图6-图16所示。本实施例基于多目标动态分配的协同编队轨迹在线重规划方法计算时间小，且能够基于任务分配结果实现对多目标的协同打击。图6为优化所得末段高度-时间变化曲线，可以看出满足再入段与末段交接班高度、末段高度的约束条件，并且高度曲线先比较平滑，后急速下降，间接表明飞行器先以较大速度滑翔到目标附近空域，再急速俯冲命中目标，间接反映出符合末段性能指标函数设置的预期。图7和图8分别为优化所得末段速度-时间变化曲线、马赫数-时间变化曲线，符合末段性能指标函数设置的预期，优化所得终端速度均大于1000m/s或者3Ma，对绝大多数防空拦截系统而言，拦截难度非常大，结合高度曲线和速度曲线可知，优化所得末段轨迹反映出飞行器具有很强的突防能力。图9为优化所得末段星下点轨迹，区别于离线计算结果，基于凸优化的在线轨迹规划能够使5枚飞行器以当前构型为初始条件，精确命中各自分配的目标，同时不发生碰撞。图10和图11分别为优化所得末段航迹倾角-时间变化曲线、航迹偏角-时间变化曲线，符合末段性能指标函数设置的预期。图12和图13分别为优化所得末段攻角-时间变化曲线、倾侧角-时间变化曲线，可以看出均满足攻角、倾侧角约束条件，同时为符合末段性能指标函数设置的预期。图14-图16分别为优化所得末段热流密度-时间变化曲线、总过载-时间变化曲线、动压-时间变化曲线，可以看出均满足飞行器本体的热流密度、总过载、动压的约束条件。

本实施例多飞行器协同智能决策与轨迹在线规划方法基于目标重要度评估的火力运用决策，提出了基于强化学习的多目标打击任务分配与智能决策，并针对协同编队轨迹在线重规划问题，提出了基于序列凸优化的协同编队轨迹在线重规划方法。本实施例基于目标动态分配的协同编队轨迹在线重规划计算方法采用凸优化的方法，降低了计算量，为滑翔飞行器弹道规划与制导方法提供了有效的技术支撑。

此外，本实施例还提供一种多飞行器协同智能决策与轨迹在线规划方法系统，包括计算机设备，该计算机设备被编程以执行本实施例前述多飞行器协同智能决策与轨迹在线规划方法的步骤，或者该计算机设备的存储介质上存储有被编程以执行本实施例前述多飞行器协同智能决策与轨迹在线规划方法的计算机程序。此外，本实施例还提供一种计算机可读介质，该计算机可读存储介质上存储有被编程以执行本实施例前述多飞行器协同智能决策与轨迹在线规划方法的计算机程序。

综上，本发明提出的技术方案具备如下技术效果：本发明提出了基于强化学习的多目标打击任务分配与智能决策，并针对协同编队轨迹在线重规划问题，提出了基于序列凸优化的协同编队轨迹在线重规划方法，利用层次分析法，构建火力运用策略，计算综合攻击优势，构建攻防综合效费比指标，利用强化学习方法实现多目标智能分配，利用凸优化获得规划问题解。利用该方法获得的多飞行器系统编队轨迹规划结果，平衡了战场环境、目标态势及飞行器自身属性，所述计算速度快，获得结果准确，提高飞行器集群协调问题的优化速度。

请注意，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种多飞行器协同智能决策与轨迹在线规划方法，基于多目标动态分配实现，其特征在于所述方法包括：

2.根据权利要求1所述的多飞行器协同智能决策与轨迹在线规划方法，其特征在于，所述步骤S1具体包括：

S1.1利用层次分析法对多目标进行重要度评估，构建火力运用策略：

其中：n为目标数量，m为飞行器数量，w_j为目标重要性的量化值，floor(·)和ceil(·)分别为向下取整函数和向上取整函数，h_j表示分配打击目标j的飞行器数量，所有打击目标的分配结果构成了火力运用策略，J1为目标函数，k为1至n的整数，w_k为第k个目标重要性的量化值；

其中，为攻击性能指标，S_ij为飞行器i打击目标j的攻击优势度，X_ij为攻击分配矩阵X中的元素，飞行器i攻击目标j时X_ij标记为1，否则X_ij标记为0；为目标的毁伤性能指标，S_tj为第j个目标的价值，P_ij为飞行器i对目标j的突防概率；为飞行器成本指标，C_i为飞行器i的成本；表示攻击效费比指标，表示毁伤效费比指标，最后J₂表示获得攻防综合效费比指标，即攻击效费比与毁伤效费比之和；

3.根据权利要求1所述的多飞行器协同智能决策与轨迹在线规划方法，其特征在于，所述步骤S2中所述的多飞行器协同轨迹规划问题建模为：

P1:find u_i

min J₀＝C₁(|λ_i(t_f)-λ_i ^*|+|φ_i(t_f)-φ_i ^*|)

其中，u_i为倾侧角变化率，λ_i ^*和φ_i ^*分别为飞行器i分配打击目标的经度和纬度，λ_i(t_f)和φ_i(t_f)为飞行器i终端时刻的经度和纬度；ν_i为飞行器i的倾侧角；q_i和n_i分别为飞行器i的热流率、动压和总过载，下标max代表飞行器i的热流率、动压和总过载最大值；C_r，C_λ和C_φ为常数；r_i(t)、λ_i(t)、φ_i(t)、r_j(t)、λ_j(t)、φ_j(t)分别为飞行器i、飞行器j在时刻t的高度、经度和纬度；t₀表示初始时间，t_f表示终端时间；θ_i是弹道倾角，σ_i是航迹偏航角，C_d,min为协同飞行安全距离，ν_min和ν_max表示倾侧角的最小最大值，u_min和u_max为倾侧角变化率的最小最大值，Eq.(3.31)为运动方程，设置如下：

其中，λ_i是飞行器的经度，φ_i是飞行器的纬度，r_i是飞行器的高度，V_i是飞行器速度，θ_i是弹道倾角，σ_i是航迹偏航角，ω_e为地球自转角速度，ν_i为飞行器倾侧角，L_i是升力加速度，D_i是阻力加速度，g_i为重力加速度。

4.根据权利要求1所述的多飞行器协同智能决策与轨迹在线规划方法，其特征在于，所述步骤S3中所述迭代收敛条件为：

5.根据权利要求2所述的多飞行器协同智能决策与轨迹在线规划方法，其特征在于，所述综合攻击优势度为：

其中：k_χ,k_d,k_θ,k_σ,k_V为加权系数，不同参数设置对应不同的重要程度；S_χ为相对方位角攻击优势度、S_d为相对距离攻击优势度、S_θ为速度倾角攻击优势度、S_σ为航迹偏航角攻击优势度、S_V为相对速度攻击优势度。

6.根据权利要求5所述的多飞行器协同智能决策与轨迹在线规划方法，其特征在于，所述综合攻击优势度包括相对运动信息的攻击优势度，所述相对运动信息的攻击优势度包括相对方位角攻击优势度S_χ、相对距离攻击优势度S_d、速度倾角攻击优势度S_θ、航迹偏航角攻击优势度S_σ、相对速度攻击优势度S_V：

其中，χ_hyp为当前飞行器相对于编队中心的方位角，χ_t为当前目标的相对方位角；d_hyp为当前飞行器相对于编队中心的距离，d_t为相对距离，d_max为根据任务选择的距离常数；θ为实时速度倾角，θ_f为终端最优速度倾角；Δσ为航迹偏航角误差，f_σ(Δσ,σ₀)表示航迹偏航角误差Δσ偏离最佳攻击角度区域的最小角度；V为高超声速飞行器到目标的相对速度，V_o为综合考虑毁伤能力和控制代价的最优相对速度，Ω_σ为设定的航迹偏航角误差范围。

7.根据权利要求3所述的多飞行器协同智能决策与轨迹在线规划方法，其特征在于，离散化后的多飞行器协同轨迹规划问题可描述为：

P3:find X_i,l,u_i,l,κ_i,ξ_i

其中，X_i,l＝[r_i,l λ_i,l φ_i,l V_i,l θ_i,l σ_i,l ν_i,l]^T，表示飞行器i在时刻l的高度、经度、纬度、速度、倾角、偏航角和倾侧角，u_i为倾侧角变化率，κ_i为松弛系数，ξ_i为时间膨胀因子；J₀为终端位置偏差最小的目标函数，C₂和C₃为常数，A、G、C、D为系数矩阵，f_j,max分别表示热流、动压和总过载的允许最大值，C_r、C_λ和C_φ为常数，C_d,min为协同飞行安全距离，δ_i为信赖域半径，f_j(r_i ^(k),V_i ^(k)),j＝1,2,3分别表示线性化后的热流、动压和总过载约束；f'_j(r_i ^(k),V_i ^(k)),j＝1,2,3分别表示线性化后的热流、动压和总过载约束的偏导数。

8.一种多飞行器协同智能决策与轨迹在线规划系统，包括计算机设备，其特征在于：该计算机设备用以执行权利要求1～7中任意一项所述的多飞行器协同智能决策与轨迹在线规划方法的步骤。

9.一种计算机设备，包括存储器及处理器，其特征在于：所述存储器上存储有计算机程序，所述处理器执行所述程序以实现权利要求1～7中任意一项所述的多飞行器协同智能决策与轨迹在线规划方法。

10.一种计算机可读存储介质，其特征在于：该计算机可读存储介质上存储计算机程序，以实现权利要求1～7中任意一项所述的多飞行器协同智能决策与轨迹在线规划方法。