CN116432539A

CN116432539A - 一种时间一致性协同制导方法、系统、设备及介质

Info

Publication number: CN116432539A
Application number: CN202310460491.7A
Authority: CN
Inventors: 于江龙; 李旭恒; 董希旺; 化永朝; 孙超; 李晓多; 任章
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2023-04-26
Filing date: 2023-04-26
Publication date: 2023-07-14

Abstract

本发明公开一种时间一致性协同制导方法、系统、设备及介质，属于导弹制导与控制领域。本发明加入增量学习的训练方法，使得在原有预测模型的基础上，神经网络的预测精度能够进一步提升；利用增量学习神经网络预测剩余飞行时间，能够获得更高精度的剩余飞行时间；结合增量学习神经网络预测的剩余飞行时间和导弹目标相对运动方程，构建时间一致性协同制导律，进而利用时间一致性协同制导律对所有导弹进行协同制导，使得所有导弹同时击中目标，降低了对初始阵位的要求，提升了协同制导效能，降低了对弹上各硬件设施的要求，提高了系统的自主性能。

Description

一种时间一致性协同制导方法、系统、设备及介质

技术领域

本发明涉及导弹制导与控制领域，特别是涉及一种时间一致性协同制导方法、系统、设备及介质。

背景技术

在现代化的战争中，攻击敌方目标的任务较为复杂，单个导弹很难完成打击任务，或者所需成本过大。因此在上述场景中，往往需要多个导弹进行协同打击。利用多个导弹协同打击能够降低攻击所需成本，提高命中毁伤值。

现有协同制导律的传统研究方法较为成熟；关于神经网络等智能算法方面的研究中，在训练样本和训练方式选择优良的情况下，算法能够发挥出比传统方法更优秀的性能，但缺乏应用场景的普适性。

一般的机器学习模型(尤其是基于反向传播的机器学习方法)在新任务上训练时，在旧任务上的表现通常会显著下降。解决灾难性遗忘最简单粗暴的方案就是使用所有已知的数据重新训练网络参数，以适应数据分布随时间的变化。尽管从头训练模型的确完全解决了灾难性遗忘问题，但这种方法效率非常低，极大地阻碍了模型实时地学习新数据。

在进行协同的过程中，现有方法对于初始阵位的要求较高，所以需要更好的协同制导方法，来提高时间协同方法对于初始阵位的普适性，以提升协同效能。

发明内容

本发明的目的是提供一种时间一致性协同制导方法、系统、设备及介质，可提升协同制导效能，降低对弹上各硬件设施的要求，提高系统的自主性能。

为实现上述目的，本发明提供了如下方案：

一种时间一致性协同制导方法，包括：

建立多弹制导几何以及导弹目标相对运动方程；

根据多弹制导几何对各导弹和打击目标建模，经过数值仿真获得训练数据集；所述训练数据集的输入为各导弹的状态信息，标签为各导弹的剩余飞行时间；

构造BP神经网络模型，并采用所述训练数据集训练BP神经网络模型，获得训练好的BP神经网络模型；

获取新的训练数据集，同时采用增量学习方法，对训练好的BP神经网络模型进行二次训练，得到增量学习训练后的BP神经网络模型；

对增量学习训练后的BP神经网络模型进行优化，获得用于预测剩余飞行时间的增量学习神经网络；

结合所述增量学习神经网络预测的剩余飞行时间和所述导弹目标相对运动方程，构建时间一致性协同制导律；

利用所述时间一致性协同制导律对所有导弹进行协同制导，使得所有导弹同时击中目标。

可选地，所述导弹目标相对运动方程为

式中，r_i为导弹M_i到目标T的距离，

为r_i的一阶导，V_t为t时刻的目标速度，V_mi为导弹M_i的速度，η_t为目标T的前置角，η_mi为导弹M_i的前置角，q_i为导弹M_i相对于目标T的视线角，

为q_i的一阶导，η_ti为t时刻目标T相对于导弹M_i的前置角，σ_mi为导弹M_i的航向角，σ_t为t时刻目标T的航向角，K为导航比。

可选地，所述BP神经网络模型包括依次连接的1个输入层、3个隐含层和1个输出层；

输入层包括8个特征节点，8个特征节点分别为导弹M_i到目标T的距离r_i、导弹M_i的速度V_i、横向平面上的视线角q_ilat、纵向平面上的视线角q_ilon、导弹M_i的弹道偏角σ_milat、导弹M_i的弹道倾角σ_milon、目标T的弹道偏角σ_tlat和目标T的弹道倾角σ_tlon；

3个隐含层的特征节点个数依次为8、4、2；

输出层的节点个数为1。

可选地，采用反向传播梯度下降算法训练BP神经网络模型，并在第一个隐含层和第三个隐含层采用tansig激活函数，输入层、第二个隐含层和输出层采用purelin激活函数，purelin为线性函数，输入和输出相等；

训练好的BP神经网络模型预测剩余飞行时间的表达式为：

其中，

为导弹M_i的剩余飞行时间，f(·)为训练好的BP神经网络模型，v_bp为训练好的BP神经网络模型的参数，x_i为输入量，x_i＝[r_i,V_i,q_ilat,q_ilon,σ_milat,σ_milon,σ_tlat,σ_tlon]。

可选地，所述增量学习神经网络预测剩余飞行时间的表达式为

其中，f′(·)为增量学习神经网络，v_best为最优参数，v_best＝α·v_bp+(1-α)·v_incre，α为增量学习率，v_incre为增量学习神经网络的参数。

可选地，所述时间一致性协同制导律的表达式为

式中，a_i表示导弹M_i的法向过载，N_i为有效导航比，

为中间变量，/>

a_t为目标法向加速度，K_i为调节系数，/>

为所有导弹的剩余飞行时间的最大值。

一种时间一致性协同制导系统，包括：

几何建立模块，用于建立多弹制导几何以及导弹目标相对运动方程；

仿真模块，用于根据多弹制导几何对各导弹和打击目标建模，经过数值仿真获得训练数据集；所述训练数据集的输入为各导弹的状态信息，标签为各导弹的剩余飞行时间；

一次训练模块，用于构造BP神经网络模型，并采用所述训练数据集训练BP神经网络模型，获得训练好的BP神经网络模型；

二次训练模块，用于获取新的训练数据集，同时采用增量学习方法，对训练好的BP神经网络模型进行二次训练，得到增量学习训练后的BP神经网络模型；

优化模块，用于对增量学习训练后的BP神经网络模型进行优化，获得用于预测剩余飞行时间的增量学习神经网络；

制导律构建模块，用于结合所述增量学习神经网络预测的剩余飞行时间和所述导弹目标相对运动方程，构建时间一致性协同制导律；

协同制导模块，用于利用所述时间一致性协同制导律对所有导弹进行协同制导，使得所有导弹同时击中目标。

一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如前述的时间一致性协同制导方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被执行时实现如前述的时间一致性协同制导方法。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开一种时间一致性协同制导方法、系统、设备及介质，加入增量学习的训练方法，使得在原有预测模型的基础上，神经网络的预测精度能够进一步提升；利用增量学习神经网络预测剩余飞行时间，能够获得更高精度的剩余飞行时间；结合增量学习神经网络预测的剩余飞行时间和导弹目标相对运动方程，构建时间一致性协同制导律，进而利用时间一致性协同制导律对所有导弹进行协同制导，使得所有导弹同时击中目标，降低了对初始阵位的要求，提升了协同制导效能，降低了对弹上各硬件设施的要求，提高了系统的自主性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种时间一致性协同制导方法的流程图；

图2为本发明实施例提供的多弹制导几何示意图；

图3为本发明实施例提供的BP神经网络模型训练过程图；

图4为本发明实施例提供的BP神经网络模型的结构示意图；

图5为本发明实施例提供的增量学习训练过程图；

图6为本发明实施例提供的数据集的导弹弹道示意图；

图7为本发明实施例提供的增量训练神经网络的损失函数变化趋势图；

图8为本发明实施例提供的剩余飞行时间的预测结果图；

图9为本发明实施例提供的单个导弹飞行仿真过程中不同方法对于剩余飞行时间的预测结果图；

图10为本发明实施例提供的神经网络增量学习训练前得到的模型和训练后得到的模型的预测误差对比图；

图11为本发明实施例提供的各导弹剩余飞行时间仿真结果图；

图12为本发明实施例提供的5枚导弹随时间横向平面和纵向平面的过载变化过程图；

图13为本发明实施例提供的弹目距离的变化示意图；

图14为本发明实施例提供的导弹和目标的仿真弹道示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

为了更准确地描述协同制导问题，本发明建立时间一致性协同制导律，将说明多弹制导几何。其次，将剩余飞行时间的估算过程放在了神经网络中，来获得更高精度的剩余飞行时间。同时，加入了增量学习的训练方法，使得在原有预测模型的基础上，神经网络的预测精度能够进一步提升。

如图1所示，本发明实施例提供了一种时间一致性协同制导方法，包括：

步骤1：建立多弹制导几何以及导弹目标相对运动方程。

图2示出多弹制导几何，将导弹与目标视为质点，假设导弹与目标的速率大小恒定，M_i表示第i枚需要协同的导弹，T表示待打击的目标。r_i表示导弹M_i到目标T的距离，V_mi为导弹M_i的速度，a_mi为导弹M_i的法向加速度。σ_mi为导弹M_i速度矢量与基准线的夹角，称为导弹M_i的航向角，从基准线逆时针转向目标视线为正。q_i为目标视线与攻击平面内某一基准线的夹角，称为导弹M_i相对于目标T的视线角，从基准线逆时针转向目标视线为正。η_mi为导弹M_i的前置角，速度矢量逆时针转到视线时，前置角为正。V_t为目标速度，a_t为目标法向加速度，σ_t为目标速度矢量与基准线的夹角，称为目标T的航向角，η_ti为目标相对于导弹M_i的前置角，K为比例系数，称为导航比，通常取3～6。

在极坐标下，导弹M_i和目标T的相对运动方程如下：

基于上述模型和多弹制导几何，估算导弹M_i的剩余飞行时间如下：

其中，N是导引常数，取值范围为(3,6)。

步骤2：根据多弹制导几何对各导弹和打击目标建模，经过数值仿真获得训练数据集。训练数据集的输入为各导弹的状态信息，标签为各导弹的剩余飞行时间。

首先根据本发明建立的多弹制导几何建立模型，其次利用时间一致性协同制导律对各导弹进行协同制导，然后保留数值仿真的真实数据，对真实打击时间进行记录，并反向推导得到真实的剩余飞行时间。最后对各导弹状态信息和真实的剩余飞行时间进行整理，得到训练集的输入和输出，便得到了神经网络训练数据集。具体训练过程如图3所示。各导弹状态信息包括导弹M_i到目标T的距离r_i、导弹M_i的速度V_i、横向平面上的视线角q_ilat、纵向平面上的视线角q_ilon、导弹M_i的弹道偏角σ_milat、导弹M_i的弹道倾角σ_milon、目标T的弹道偏角σ_tlat和目标T的弹道倾角σ_tlon。

步骤3：构造BP神经网络模型，并采用所述训练数据集训练BP神经网络模型，获得训练好的BP神经网络模型。

神经网络反映了人脑功能的若干基本特性，但并非生物系统的逼真描述，只是某种模仿、简化和抽象。与数字计算机比较，人工神经网络在构成原理和功能特点等方面更加接近人脑，它不是按给定的程序一步一步地执行运算，而是能够自身适应环境、总结规律、完成某种运算、识别或过程控制。神经网络算法的基本单位就是人工神经元。通过相互连接形成一张神经网络。

神经网络能对训练数据中隐含的模式进行提取，其学习行为可以解释为通过不断的学习和训练，调节各节点的权重，使输出值非常接近期望输出，神经网络学习分为监督学习和非监督学习两种。

单个神经元的输入输出计算公式为：

其中Act(·)表示激活函数，激活函数可以提高神经网络对非线性模型的拟合程度，但会降低训练效率。

神经网络的训练采用反向传播(Backpropagation,BP)梯度下降算法。BP神经网络的主体通常包括三部分：输入层、隐藏层和输出层。神经网络中相邻两层神经元之间以权重传递的形式进行数据传输过程。在迭代训练过程中，网络连接参数依次更新。每个神经元的输入数据必须经过激活函数处理后才能输出。每个神经元都有一个适用于该神经元的激活函数。更新BP神经网络中任意参数v(ω和θ)的估计公式如下所示。

v_bp＝v_bp+Δv_bp

对于某个神经网络，输入训练集D总共包含m个样本。如果每个样本的输入实例包含d个属性，输出实例包含l个属性，则神经网络有d个输入神经元和l个输出神经元。输入训练集D中的第k个样本作为训练样本(x_k,y_k)，输出为

神经网络的均方误差在下式中。

其中，l为输出神经元的个数。

在迭代的过程中，想要最小化的误差不是某个训练样本，而是累加整个输入训练集D上的误差：

本发明采用的神经网络结构是全连接神经网络，如图4所示，包括一个输入层，3个隐含层，1个输出层。输入层含有8个特征节点，分别是导弹M_i和目标T的距离r_i，导弹M_i的速度V_i，横向平面上的视线角q_ilat，纵向平面上的视线角q_ilon，导弹M_i的弹道偏角σ_milat，导弹M_i的弹道倾角σ_milon，目标T的弹道偏角σ_tlat、目标T的弹道倾角σ_tlon。隐含层的特征节点个数分别为8，4，2。输出层的节点个数为1，代表预测的剩余飞行时间。

在本发明中，用于预测剩余飞行时间的网络线性程度较高，因此只在第一个和第三个隐含层采用tansig激活函数，其提供的非线性程度足以拟合模型。其他层采用purelin激活函数。purelin激活函数为线性函数，输入和输出相等，tansig函数表达式如下：

在经过训练后，可以得到能够预测导弹飞行剩余时间的神经网络模型f(·)。

其中，v_bp表示BP神经网络的各项参数，x_i＝[r_i,V_i,q_ilat,q_ilon,σ_milat,σ_milon,σ_tlat,σ_tlon]。从上公式能够得到较为精确的剩余飞行时间，方便后续的时间一致性协同制导律设计。

步骤4：获取新的训练数据集，同时采用增量学习方法，对训练好的BP神经网络模型进行二次训练，得到增量学习训练后的BP神经网络模型。

引入新的增量学习训练数据集，对训练好的神经网络进行二次训练，得到增量学习训练后的网络参数v_incre。

增量学习训练数据集和神经网络训练数据集获取方式相同。

增量学习是指一个学习系统能不断地从新样本中学习新的知识，并能保存大部分以前已经学习到的知识。增量学习非常类似于人类自身的学习模式。因为人在成长过程中，每天学习和接收新的事物，学习是逐步进行的，而且，对已经学习到的知识，人类一般是不会遗忘的。但是在对神经网络进行训练的过程中，随着训练迭代次数的增加，先前参与训练的样本对神经网络的影响会被后面的训练样本逐渐取代，该现象称为灾难性遗忘。

增量学习的主要目标就是在计算和存储资源有限的条件下，在稳定性-可塑性困境中寻找效用最大的平衡点。稳定性是指神经网络模型能够应对大多数作战场景并能够得到优秀的剩余飞行时间估计结果；可塑性是指神经网络模型在新的训练样本引入后，保持前者优秀估计结果的同时，能够对新的场景进行继续学习。新的训练样本和神经网络训练样本获取方式相同。类似于之前神经网络参数的更新方式，增量学习的训练过程亦是如此：

v_incre＝v_incre+Δv_incre

训练中的累积误差如下所示：

值得注意的是，此时的E_k是增量学习训练过程中的累积误差。

步骤5：对增量学习训练后的BP神经网络模型进行优化，获得用于预测剩余飞行时间的增量学习神经网络。

对神经网络参数进行优化，取合适的α，得到最优参数v_best，用此参数进行剩余飞行时间t_go的预测。

增量学习的训练思路为：在已经训练好神经网络的基础上，随着新样本的加入，开始进行增量训练，但训练结束时保留的参数v需要经过一定的优化，来找到稳定性和可塑性的平衡点，防止灾难性遗忘现象的发生，优化方程如下所示：

其中，i表示己方导弹的编号。

构造方式如下：

其中，α为待优化的参数，α∈(0,1)。

可以看出，经过增量训练后的神经网络参数并非直接保存，而是会经过增量学习率α的处理，从而得到最优参数，最优参数如下：

v_best＝α·v_bp+(1-α)·v_incre

最终得到能够更加准确预测出剩余飞行时间的增量学习神经网络：

整个训练过程如图5所示。

步骤6：结合所述增量学习神经网络预测的剩余飞行时间和所述导弹目标相对运动方程，构建时间一致性协同制导律。

将神经网络预测的剩余飞行时间和传统时间协同制导方法结合，设计时间一致性协同制导律。

基于上述构造的制导几何得到的导弹目标相对运动方程式，进行时间一致性协同制导律的设计。

该制导律是在经典制导方法比例导引法的基础上进行设计的，分为了比例导引项和时间协同项两个部分。导弹M_i的制导律如下所示：

a_i＝a_pi+a_ξi

其中，a_i表示导弹M_i的法向过载，a_pi为比例导引项，a_ξi为时间协同偏置项。比例导引项的目的是为了能使得导弹准确快速的导引向目标，时间协同偏置项的目的是为了调节各枚导弹的飞行时间，使得导弹同时到达目标，完成时间上的协同。

为了提高对机动目标的针对性，在末制导阶段采用比例导引法的改进形式：

其中，N_i为有效导航比，通常取N_i∈(3,6)，

时间协同偏置项的计算方式如下：

a_ξi＝K_ir_iξ_i

其中，K_i为调节系数，与弹目初始距离以及初始剩余飞行时间估计值有关；ξ_i为剩余飞行时间误差。两者的具体表达式为：

其中，

为神经网络预测得到的剩余飞行时间，

的设计使得导弹能够以最快的速度完成时间一致性协同打击。

通过分析可得，在r_i→0时有ξ_i→0，那么当r_i→0时必有a_i→a_pi。也就是说多枚导弹在接近目标过程中，如果各枚导弹相互之间的剩余飞行时间误差趋于0，那么时间一致性协同制导律将会逐渐变化到改进比例导引律形式。

综上，给出时间一致性协同制导律的表达式：

步骤7：利用所述时间一致性协同制导律对所有导弹进行协同制导，使得所有导弹同时击中目标。

下面利用数值仿真对不同方法预测的剩余飞行时间和实际飞行结果做出对比，来验证本发明所提出增量学习神经网络预测的准确性。

数据集的导弹弹道如图6所示。

神经网络的损失函数采用剩余飞行时间的均方误差(MeanSquareError,MSE)来进行表达。

增量训练神经网络的损失函数变化趋势如图7所示。能够看出，神经网络模型在训练轮次达到第57轮时收敛，训练停止。

取测试集样本，剩余飞行时间的预测结果如图8所示。可以看出，经过增量学习训练后的神经网络能够准确预测出测试数据集的剩余飞行时间，并且误差在0.5s以内。

图9为单个导弹飞行仿真过程中，不同方法对于剩余飞行时间的预测结果。从图中能够看出：利用公式计算的剩余飞行时间误差较大，预测误差在最高的时候超过了20s，只有在临近命中的时候才达到收敛；效果比较好的为神经网络预测的结果，预测误差在3s以内；经过增量训练处理后的神经网络效果最佳，预测误差在0.5s以内。

对神经网络增量学习训练前得到的模型和训练后得到的模型的预测误差进行对比，如图10所示。从图中可以看出：增量学习训练后的预测误差远远小于训练前的预测误差。预测误差降低到了原来的0.8264％。

为了验证时间一致性协同制导律的可行性，假设己方5枚导弹以迎面的方案攻击敌方的一个空中机动目标。

使用增量学习训练后的神经网络构造协同制导律，仿真结果的各导弹剩余飞行时间如图11所示。五枚导弹命中目标的时间分别为：96.87s，96.92s，96.92s，97.74s，97.76s。第一枚命中目标的时间和最后一枚命中时间间隔小于1s，因此认为导弹能够同时击中目标，满足时间一致性协同制导的要求。

图12是5枚导弹随时间横向平面和纵向平面的过载变化过程图。可以看出，各导弹的过载满足约束。

从图13所示的弹目距离的变化情况，也可以准确看出5枚导弹在靠近目标的过程中，相互之间逐渐趋向于一致。

导弹和目标的仿真弹道如图14所示。可以看出，本发明提出的增量学习训练后的神经网络能够更准确地预测出剩余飞行时间，因此协同性更好。对于导弹初始阵位较差的场景，此方法也能够使导弹完成时间一致性协同制导任务。

本发明实施例还提供了一种时间一致性协同制导系统，包括：

本发明实施例提供的时间一致性协同制导系统与上述实施例所述的时间一致性协同制导方法，其工作原理和有益效果类似，故此处不再详述，具体内容可参见上述方法实施例的介绍。

本发明还提供一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如前述的时间一致性协同制导方法。

此外，上述的存储器中的计算机程序通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

进一步地，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被执行时实现如前述的时间一致性协同制导方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。