CN112902767A

CN112902767A - 一种多弹时间协同的导弹制导方法及系统

Info

Publication number: CN112902767A
Application number: CN202110120387.4A
Authority: CN
Inventors: 蔡远利; 闫明明
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2021-06-04
Anticipated expiration: 2041-01-28
Also published as: CN112902767B

Abstract

本发明公开了一种多弹时间协同的导弹制导方法及系统，所述方法包括以下步骤：(1)建立弹群中每枚导弹的制导运动学模型；(2)针对建立的每枚导弹的制导运动学模型，分别给出针对静止目标及机动目标下的CPN制导律，基于CPN制导律完成导弹制导；其中，所述CPN制导律确定时，基于加权平均一致性方法计算弹群一致性期望剩余飞行时间；基于多智能体深度确定性策略梯度算法，使导弹学习决策CPN制导律相关系数。本发明在现有时间协同制导律CPN基础上应用多智能体DRL赋予导弹群智能感知与决策能力，能够提升制导精度，降低协同时间误差，可分别针对静止及机动目标实现有效攻击。

Description

一种多弹时间协同的导弹制导方法及系统

技术领域

本发明属于导弹制导技术领域，特别涉及一种多弹时间协同的导弹制导方法及系统。

背景技术

过去几十年，经典比例导引律(proportional navigation guidance，PNG)因其实现简单、制导效果良好，在工程中获得了广泛应用及深入研究。随着导弹防御系统尤其是突防系统的发展，导弹制导作战出现了许多新的模式；例如，多导弹齐射攻击可以有效提高单枚进攻导弹生存概率，从而完成预定作战任务。多导弹齐射攻击是指多枚导弹在同一时刻攻击同一目标，相较单枚导弹作战，可以大幅度提高对目标的毁伤效率。

实现多导弹齐射攻击的主要方法是对导弹碰撞时间进行控制，使多弹碰撞时间趋于一致，实现同时攻击。关于碰撞时间控制，Jeon等人首次基于线性化制导模型及最优控制理论推导出一种碰撞时间控制制导律(impact-time-control-guidance，ITCG)，ITCG可以导引一组导弹同时攻击一个静止目标。进一步地，Cho等人基于导弹剩余飞行时间估计信息得到非线性制导模型下制导律的解析解。Dongso等人针对静止目标，基于非奇异滑模控制实现对碰撞时间控制，且避免了制导律的奇异解，利用预测拦截点概念，所提制导律可以容易扩展到非机动目标。赵等人提出一种三维时间协同制导律(cooperative PNG,CPN)，该制导律由两部分组成，一部分用于向目标寻的制导(即PNG)，另一部分用于消除弹群剩余飞行时间之间误差，所提制导律可导引多弹齐射攻击静止目标和机动目标。

现有时间协同制导律多为在PNG基础上，应用高级控制理论，诸如反馈线性化、最优控制、滑模控制等，对碰撞时间进行控制，并未考虑智能感知、智能决策等问题。

深度强化学习(deep reinforcement learning，DRL)作为强化学习(reinforcement learning，RL)与深度学习(deep learning，DL)结合产物，既具有RL智能决策能力，又具有DL的智能感知能力。因此将DRL应用于导弹制导领域可为导弹赋予智能感知与决策能力，使导弹充分发挥自身机动能力，改善作战效果。张秦浩等人提出基于Q强化学习制导律，所提算法相较PNG有更高制导精度，且赋予导弹自主决策能力。Vitaly等人基于DRL提出一种在线估计突防弹最优发射时间方法及一种拦截弹最优制导律，应用于拦截弹与突防弹的智能攻防对抗。南英等人基于DRL，提出一种完全数据驱动的弹道导弹中段突防控制模型，实现了对中段突防最优控制模型的逼近。

综上所述，现有时间协同制导算法及DRL在制导领域中的应用主要存在以下两点不足：

(1)现有时间协同制导律多为PNG与高级控制理论结合产物，并未从智能感知、决策角度考虑，且大多针对静止目标；

(2)当前DRL在导弹制导领域中多应用于单枚导弹制导精度提升及拦截弹与突防弹攻防对抗上，还未应用于多弹时间协同制导。

发明内容

本发明的目的在于提供一种多弹时间协同的导弹制导方法及系统，以解决上述存在的一个或多个技术问题。本发明的智能多导弹时间协同制导方法，在现有时间协同制导律CPN基础上应用多智能体DRL赋予导弹群智能感知与决策能力，能够提升制导精度，降低协同时间误差，可分别针对静止及机动目标实现有效攻击。

为达到上述目的，本发明采用以下技术方案：

本发明的一种多弹时间协同的导弹制导方法，包括以下步骤：

(1)建立弹群中每枚导弹的制导运动学模型；

(2)针对建立的每枚导弹的制导运动学模型，分别给出针对静止目标及机动目标下的CPN制导律，基于CPN制导律完成导弹制导；其中，所述CPN制导律确定时，基于加权平均一致性方法计算弹群一致性期望剩余飞行时间；基于多智能体深度确定性策略梯度算法，使导弹学习决策CPN制导律相关系数。

本发明的进一步改进在于，步骤(1)中，所述制导运动学模型是指弹-目相对运动学方程，表达式为，

式中，r表示弹目距离大小，

表示弹目视线角变化率，a_x、V_x、γ_x及θ_x分别表示加速度、速度、速度航向角及速度航向角误差，x取m表示导弹相关量，取t表示目标相关量。

本发明的进一步改进在于，步骤(2)中，所述基于建立的制导运动学模型，分别给出针对静止目标及机动目标下的CPN的步骤具体包括：

假设n枚导弹参与针对静止目标的协同攻击，则CPN制导指令如下：

a_ci＝a_PNGi+a_ki i＝1,2,3,…,n，

式中，N_i为导航比例系数，k_i为比例增益系数，t_goi(t)为导弹i期望剩余飞行时间，a_ci为CPN制导加速度，a_PNGi为a_ci的第一项，用于向目标寻的制导，a_ki为a_ci的第二项，用于消除弹群剩余飞行时间之差，

为剩余飞行时间的估计，

假设n枚导弹参与针对机动目标的协同攻击，则CPN制导指令如下：

a_ci＝a_PNGi+a_ki i＝1,2,3,…,n，

式中，η_i为导弹i速度航向角与目标速度航向角之差。

本发明的进一步改进在于，步骤(2)中，所述基于加权平均一致性方法计算弹群一致性期望剩余飞行时间的具体步骤包括：

建立分布式通信网络，使用无向图G＝(V,ε)表示通信网络拓扑；其中，顶点集合V＝{1,2,3,…,n}表示通信节点，边集合ε∈V×V表示节点之间的信道；称所有能够与节点i通信的节点j为节点i邻近节点集

称经过节点i边的个数为节点i的度d_i；

在通信拓扑图完全连通下，应用加权一致性方法的t_goi(t)计算表达式为，

式中，t_goi,l(t)为计算t_goi(t)的迭代中间量，l为一致性迭代步数，u_i,j为一致性加权系数；

本发明的进一步改进在于，应用加权一致性方法计算t_goi(t)时，l取值为L，满足：

式中，

为弹群全局期望剩余飞行时间。

本发明的进一步改进在于，步骤(2)中，所述基于多智能体深度确定性策略梯度算法，使导弹学习决策CPN制导律相关系数的具体步骤包括：

(2.1)导弹i环境状态空间设计，包括：在导弹i学习决策CPN制导律相关系数k_i时，选取

为导弹i环境状态，选取弹目距离r_i及视线角λ_i为环境状态，学习任务的状态为

(2.2)导弹i动作空间设计，包括：导弹i动作值为CPN相关系数k_i，在时间协同制导律CPN基础上应用深度强化学习方法学习其相关系数k_i；

(2.3)导弹i即时奖励函数设计，包括：对于导弹i，建立如下奖励函数：

式中，

为弹目距离变化率，其由负变正时刻为导弹i本次学习回合结束时刻；

a_i及b_i分别为制导精度指标及时间协同误差指标权重系数，满足a_i+b_i＝1；导弹i飞行时，若导弹当前时刻动作使得下一时刻弹目距离减小，则获得一个正奖励，若使得下一时刻协同时间误差减小，则也获得一个正奖励；调整a_i及b_i的值，用于调整制导精度及时间协同误差指标在学习目标中的重要性；

r_hit及ξ分别为脱靶及时间协同误差阈值；导弹i飞行结束时，若制导精度及时间协同误差均满足要求，则给予足够大的正奖励；其中，所述足够大的正奖励满足奖励能够扩散到命中之前的时刻，导弹能够学习收敛；导弹飞行结束时，若制导精度及时间协同误差不满足要求，则给予0奖励。

本发明的一种多弹时间协同的导弹制导系统，包括：

模型获取模块，用于建立弹群中每枚导弹的制导运动学模型；

制导模块，用于针对建立的每枚导弹的制导运动学模型，分别给出针对静止目标及机动目标下的CPN制导律，基于CPN制导律完成导弹制导；其中，所述CPN制导律确定时，基于加权平均一致性方法计算弹群一致性期望剩余飞行时间；基于多智能体深度确定性策略梯度算法，使导弹学习决策CPN制导律相关系数。

与现有技术相比，本发明具有以下有益效果：

本发明的方法将多导弹看作多智能体，以导弹各自脱靶量小及多弹协同时间误差小为目标，应用多智能体DRL方法进行学习。为提高学习效率，导弹并不直接学习制导加速度指令，而以现有制导律CPN作为专家经验进行学习，并较之取得更好的协同攻击效果。本发明为导弹群建立分布式通信网络，应用加权平均一致性方法为弹群剩余飞行时间建立协调变量，使导弹各自剩余飞行时间趋于这一协调量，实现多弹时间协同并降低通信负荷。本发明将多智能体深度确定性策略梯度(multi-agent deep deterministic policygradient，MADDPG)算法作为此次DRL方法。MADDPG是著名DRL算法DDPG的多智能体版本，不仅具有连续状态空间及动作空间，而且也是一种通用多智能体RL算法，可以较好地应用到多种多智能体领域中。

具体地，本发明以CPN制导律作为专家经验，使导弹学习CPN的相关系数。CPN具有形式简单明晰的优点。CPN由两部分组成，第一部分为PNG，用于向目标寻的制导；第二部分为一常系数、弹目距离及剩余飞行时间误差三者乘积，用于消除剩余飞行时间误差。然而，CPN也具有一显著缺点，即其第二部分中常系数取值大小对协同攻击效果影响较大。赵在其论文实验中也证实了这一点，这严重限制CPN的应用。因此，本发明应用多智能体DRL方法，使导弹学习此系数的决策，提升协同攻击效果。本发明为导弹群建立分布式通信网络，应用加权平均一致性方法，使导弹与其邻近导弹通信剩余飞行时间以建立协调变量，并将其作为各导弹自身期望剩余飞行时间。加权一致性方法可以保证各导弹期望剩余飞行时间保持一致，这使得弹群拥有一个唯一期望剩余飞行时间，真正实现了多导弹时间协同制导；此外，建立的分布式网络相较传统集中式网络通信负荷更小，通信鲁棒性更强。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面对实施例或现有技术描述中所需要使用的附图做简单的介绍；显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种多弹时间协同的导弹制导方法的流程示意图；

图2是本发明实施例中，二维弹-目作战几何示意图；

图3是本发明实施例中，建立的分布式通信网络拓扑示意图；

图4是本发明实施例中，MADDPG算法概要示意图；

图5是本发明实施例中，应用本发明方法下针对静止目标的弹目运动轨迹曲线示意图；

图6是本发明实施例中，应用本发明方法下导弹学得的CPN制导律时变比例控制系数曲线示意图；

图7是本发明实施例中，应用本发明方法下导弹制导加速度曲线示意图；

图8是本发明实施例中，应用本发明方法下导弹剩余飞行时间曲线示意图；

图9是本发明实施例中，应用本发明方法下弹群回合期望累积奖励曲线示意图。

具体实施方式

为使本发明实施例的目的、技术效果及技术方案更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述；显然，所描述的实施例是本发明一部分实施例。基于本发明公开的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例，都应属于本发明保护的范围。

请参阅图1，图1为智能多导弹时间协同制导方法流程图，本发明实施例的一种多弹时间协同的导弹制导方法，具体包括以下步骤：

S1，建立制导运动学模型。

制导运动学模型是指弹-目相对运动学方程。二维形式弹-目相对运动关系如图2所示。图2中坐标系为惯性坐标系，OX_I轴指向导弹发射方向，OY_I轴垂直于OX_I轴指向上方。因此OX_IY_I为弹-目运动纵向平面(即射面)。在此模型中，将导弹M及目标T视为质点，忽略重力、气动及科式惯性力影响。M和T连线MT称为弹目视线，大小为弹目距离r，与OX_I轴的夹角λ称为视线角。a_x、V_x、γ_x及θ_x(x＝m、t)分别表示加速度、速度、速度航向角及速度航向角误差，x取m表示导弹相关量，取t表示目标相关量。

由图2所示几何关系可得如下基本相对运动方程

由(1)～(2)可得弹-目相对运动学方程为

S2，针对S1建立的制导模型分别给出针对静止目标及机动目标下的CPN。

a_ci＝a_PNGi+a_ki i＝1,2,3,…,n (4)

其中，

其中，N_i为导航比例系数，k_i为比例增益系数，t_goi(t)为导弹i期望剩余飞行时间，

为剩余飞行时间的估计，可表示为

a_ci＝a_PNGi+a_ki i＝1,2,3,…,n (7)

其中，

其中

计算采用基于式(6)的如下改进公式：

其中，η_i为导弹i速度航向角与目标速度航向角之差。

S3，基于加权平均一致性方法计算弹群一致性期望剩余飞行时间。

在S2步骤中，式(5)及(8)的计算均需要导弹i期望剩余飞行时间t_goi(t)。为应用加权一致性方法计算t_goi(t)，建立图3所示的分布式通信网络。使用无向图G＝(V,ε)表示通信网络拓扑。其中，顶点集合V＝{1,2,3,…,n}表示通信节点，边集合ε∈V×V表示节点之间的信道。称所有可以与节点i通信的节点j为节点i邻近节点集

此外，在无向图中称经过节点i边的个数为节点i的度d_i。

在通信拓扑图完全连通下，应用加权一致性方法，给出如下t_goi(t)计算公式：

其中，l为一致性迭代步数，u_i,j为一致性加权系数，计算如下：

对于式(10)，在实际使用中将l取为一个较大数L即可满足一致性要求，即

其中

为弹群全局期望剩余飞行时间。

S4，基于MADDPG算法，使导弹i学习决策CPN制导律相关系数k_i。

导弹i学习决策CPN制导律相关系数k_i过程可看为完成一次RL任务。RL任务是指智能体与环境交互，根据环境即时奖励不断调整自身动作策略，以获得过程的最大期望累积奖励。RL任务可由马尔科夫决策过程(S,A,π,R,P)描述。其中，

表示环境状态空间，m为状态维数，

表示实数空间。

表示智能体动作空间，n为动作维数。

表示智能体动作策略。根据策略的确定性与随机性，π分别表示S到A的函数映射及以S为条件关于A的概率分布。RL即为学习策略π，使之趋于最优策略。

表示环境奖励函数。

表示环境状态转移函数。

R及P一般未知。RL强大之处在于即使对环境模型未知，也可使智能体与环境不断交互试错，学得一个最优或次优策略。实际上现有RL算法大多为免模型RL算法，MADDPG即为免模型RL算法。在免模型RL算法中，需要人为设计S、A及R，设计好坏直接影响最终学习效果。MADDPG作为一种通用多智能体RL算法，允许每个智能体拥有独自的S、A及R。后面为每个智能体(导弹)设计一种通用形式的S、A及R。

S401，导弹i(i＝1,2,3,…,n)环境状态空间设计。

在导弹i学习决策CPN制导律相关系数k_i时，导弹作为智能体必须充分感知整个制导过程中的状态。由式(1)可知，视线变化率

可以表示导弹i制导过程中的主要状态，故可选取

为导弹i环境状态。此外，为便于导弹i学习过程中感知自身位置，选取弹目距离r_i及视线角λ_i为环境状态。因此本次学习任务的状态为

S402,导弹i(i＝1,2,3,…,n)动作空间设计。

导弹i作为智能体学习决策CPN制导律相关系数k_i，因此导弹i动作值即为CPN相关系数k_i。本发明在现有时间协同制导律CPN基础上应用DRL方法学习其相关系数k_i，相较直接学习制导加速度，提高了智能体学习效率。

S403，导弹i(i＝1,2,3,…,n)即时奖励函数设计。

奖励函数的设计与RL要优化的目标直接相关。本发明为一种智能多导弹时间协同制导方法，RL优化目标应当为导弹制导精度尽可能高，协同时间误差尽可能小。因此对于导弹i，建立如下奖励函数：

其中

为弹目距离变化率，其由负变正时刻为导弹i飞行结束时刻，即为导弹i本次学习回合结束时刻。a_i及b_i分别为制导精度指标及时间协同误差指标权重系数，满足a_i+b_i＝1。导弹i飞行时

若导弹当前时刻动作使得下一时刻弹目距离减小，则应当获得一个正奖励，若使得下一时刻协同时间误差减小，则也应当获得一个正奖励。调整a_i及b_i的值，可以调整制导精度及时间协同误差指标在学习目标中的重要性。r_hit及ξ分别为脱靶及时间协同误差阈值。导弹i飞行结束时

若制导精度及时间协同误差均满足要求，则给予一个特别大的正奖励。这是因为导弹一个学习回合中的时间步数较多，若奖励不够大将无法扩散到命中之前的时刻，导弹难以学习收敛。导弹飞行结束时，若制导精度及时间协同误差不满足要求，则给予0奖励。

按照上述步骤并结合MADDPG算法，即可完成智能多导弹时间协同制导方法。

本发明实施例方法中，CPN制导律的原理包括：由式(4)、(5)、(7)、(8)可知CPN制导律由两部分组成，第一部分为经典PNG。PNG自提出至今已数十年，其有效性已经得到国内外众学者充分验证与肯定。因此本发明主要对CPN制导律第二部分原理进行说明。第二部分为对脱靶量及协同时间误差乘积项的比例控制。比例控制响应较快，可以在有限时间内使得反馈误差项趋于零。当比例控制驱使此乘积项趋于零时，即CPN制导律第二部分趋于零，脱靶量和协同时间误差便也将趋于零。此时CPN退化为PNG，弹群保持很小时间协同误差，按照PNG导引到目标，实现齐射攻击。

t_goi(t)，i＝1,2,3,…,n一致性保证原理包括：分布式通信网络不像集中式网络具有一个信息处理中心来计算全局唯一的期望剩余飞行时间

它需要导弹节点i计算自身局部期望剩余飞行时间t_goi(t)，并要求对于任意i∈(1,2,3,…,n)t_goi(t)是一致的。这同时是时间协同制导所要求的。在网络拓扑图完全连通下，应用加权平均一致性方法，可以保证任意导弹节点i的t_goi(t)一致。加权平均一致性方法是指使用一个n×n的本原权重矩阵

对分布式网络节点信息进行融合，以逼近全局网络节点信息期望值。其中n为节点个数。一种流行的本原权重矩阵计算方法见式(11)。

本发明实施例中的MADDPG算法原理包括：MADDPG是一种基于多智能体演员-评论家架构DRL算法。在传统RL中，演员与评论家分别为动作策略函数和状态动作值函数，在DRL中两者均为深度神经网络。演员-评论家架构下，演员在学习初始阶段随意执行动作并得到环境奖励，评论家基于值函数对此动作做出评价好坏。演员根据动作评价调整自己动作策略，评论家则根据环境真实奖励调整自己评价标准。随着学习的推进，演员的动作越来越好，评论家的评价越来越准。多智能体演员-评论家架构具有多个演员及评论家。每个评论家在所有演员动作执行完后再对其负责评价的演员进行动作评价。这保证了多智能体条件下RL任务的马尔科夫特性。因此，基于多智能体演员-评论家架构，单智能体RL算法可以较方便地推广到多智能体RL任务中。MADDPG便是基于此架构，在DDPG基础上发展得出。

MADDPG概要图如图4所示。MADDPG使用集中式学习、分散式执行框架来提高学习效率。集中式学习指每个评论家在训练阶段使用所有演员观测状态进行学习，分散式执行指演员在执行阶段仅使用自身观测状态进行执行。MADDPG通过多智能体-评论家架构及这种特殊训练框架，将多智能体RL问题转换为单智能体RL问题，其本质仍为DDPG算法。应用MADDPG，智能体可以感知连续环境状态值，进行最优动作决策学习，每步输出连续动作值。

接下来将对发明方法的实现过程进行具体阐述，主要涉及相关参数整定、DL技巧、智能体动作值的输出范围。最后通过一组仿真算例进一步对发明方法实现过程进行说明。

相关参数整定包括：由技术方案可知，本发明方法实现步骤中涉及一些参数。这些参数需在方法实施前整定给出。由式(5)、(8)、(12)及(13)可知需要整定的参数包括导弹i(i＝1,2,3,…,n，n为导弹个数)PNG导航系数N_i、一致性迭代步数L、导弹i权重系数a_i及b_i、允许脱靶阈值r_hit、时间协同误差阈值ξ。此外还包括一些DL超参数，如深度神经网络隐藏层个数，以及每层神经元个数。

PNG导航系数一般取值3～5，这里统一取为N_i＝4。迭代步长L一般将其取10以上即可满足一致性要求，这里将其取为L＝50。权重系数a_i及b_i分别控制导弹i制导精度及时间协同误差在学习目标中的重要性。在时间协同制导中认为导弹制导精度及时间协同误差同等重要，因此将其取为a_i＝b_i＝0.5。允许脱靶阈值可取为r_hit＝1m。时间协同误差阈值可取为ξ＝0.1s。

在工作原理中曾提及MADDPG是一种基于多智能体演员-评价家架构的DRL算法，具有多个演员与评论家，且每个演员及评论家均使用神经网络进行表示。演员网络输入状态并输出动作，进行决策学习；评论家网络输入状态-动作对并输出值函数，进行值函数学习。演员网络学习任务复杂性不高，网络结构不宜复杂。评论家网络对值函数进行学习，学习任务复杂性较高，应当使用深度神经网络来进行学习。演员及评论家神经网络超参数如表1所示。

表1.演员及评论家神经网络超参数

超参数	隐层数	隐层1神经元数	隐层2神经元数	隐层3神经元数	激活函数
						演员网络	1	25	\	\	Relu
评论家网络	3	512	1024	512	Relu

本发明实施例中，DL技巧包括：为使神经网络学习更加高效，对输入状态

(i＝1,2,3,…,n，n为导弹个数)进行如下归一化处理

此外为避免学习陷入局部最优，使用小批量梯度下降法对网络进行训练。

本发明实施例中的演员网络输出动作值范围包括：演员网络输出动作值即为CPN制导律相关系数值。其本质为对导弹时间协同误差控制的比例控制系数，不可过大，也不过小，可将其取值范围限制在(50～500)。但这使得RL动作空间过大，学习将难以收敛。因此选取缩放因子α对输出动作值进行缩放，以降低RL动作空间，加快学习收敛速度。选取α＝100，网络输出动作范围变为(0.5～5)，动作空间大大减小。

本发明实施例的仿真算例：

为进一步说明本发明方法实施过程，给出如下仿真算例。假设有n＝3枚导弹协同攻击一个静止目标，并假设导弹制导加速度限制为20g以内。导弹与目标初始信息如表2所示。

表2.导弹与目标初始信息

参数	x/m	y/m	r/m	v/ms<sup>-1</sup>	γ/ο
						目标	5000	8660	\	0	0
导弹1	0	0	10000	600	60
						导弹2	2040	-3785	11000	600	35
导弹3	-1680	3177	10500	600	0

图5为使用本发明方法下的弹目运动轨迹。从图5可以看出导弹2飞行轨迹最为平直，导弹1飞行轨迹则最为弯曲。这是因为3枚导弹速度相等，若要实现时间协同制导，则其飞行路程应当相等。因此导弹2初始弹目距离最长应当较笔直地朝目标制导，导弹1初始弹目距离最短应当尽可能弯曲地朝目标制导。

图6为3枚导弹在协同制导过程中决策的时变比例控制系数曲线。从图6可以看出导弹1在制导回合初始几步内系数为1，后突升为5并保持到制导过程结束；导弹3则完全相反在制导回合初始几步内系数为5，后突降为1并保持到制导过程结束；导航2则决策出一条较光滑的系数曲线。

图7为3枚导弹制导加速度曲线。从图7可以看出，在制导初始3秒内3枚导弹制导加速度均较大。这主要用于消除3枚导弹的剩余飞行时间之间误差。当协同时间误差很小后，3枚导弹转入PNG制导，制导加速度迅速减小。

图8为3枚导弹剩余飞行时间曲线(标记为tgo_i，i＝1,2,3)及其各自的期望剩余飞行时间曲线(标记为etgo_i，i＝1,2,3)。从图8可以看出，3枚导弹基于加权平均一致性方法计算出的期望剩余飞行时间曲线完全重合，实现了一致性要求，各自剩余飞行时间曲线也随着制导过程重合在一起，实现了时间协同制导。

图9为3枚导弹学习回合累积奖励曲线图。前100回合内导弹累积经验不进行学习，100回合之后导弹开始进行学习CPN制导律相关系数的决策学习。在学习初始阶段，待学习的决策为一个随机决策，因此导弹回合期望奖励有高有低。约270回合时，回合奖励由1e2突增为1e6并维持数十回合后又突降为1e2，而在约360回合时回合奖励又突增为1e6并保持到整个学习过程的结束。从图9可以看出，弹群在约360回合后便学得了一个稳定的决策，该决策使得弹群以后的每一制导回合(制导过程)均具有一个约1e6的高回合累积奖励。

为验证本发明方法有效性，将本发明方法在制导精度与时间协同误差两个指标上与常比例控制系数CPN制导律进行实验对比，对比结果见表3。由表3可知本发明方法无论是在制导精度上还是在时间协同误差上，与现有方法相比均具有明显优越性。

表3.不同比例系数CPN与本发明方法实验结果对比

本发明实施例的一种多弹时间协同的导弹制导系统，包括：

其中，所述模型获取模块中，所述制导运动学模型是指弹-目相对运动学方程，表达式为，

式中，r表示弹目距离大小，

所述制导模块中，所述基于建立的制导运动学模型，分别给出针对静止目标及机动目标下的CPN的步骤具体包括：

a_ci＝a_PNGi+a_ki i＝1,2,3,…,n，

为剩余飞行时间的估计，

a_ci＝a_PNGi+a_ki i＝1,2,3,…,n，

式中，η_i为导弹i速度航向角与目标速度航向角之差。

所述制导模块中，所述基于加权平均一致性方法计算弹群一致性期望剩余飞行时间的具体步骤包括：

称经过节点i边的个数为节点i的度d_i；

所述基于多智能体深度确定性策略梯度算法，使导弹学习决策CPN制导律相关系数的具体步骤包括：

式中，

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换，这些未脱离本发明精神和范围的任何修改或者等同替换，均在申请待批的本发明的权利要求保护范围之内。