CN115407664B

CN115407664B - 一种基于神经网络训练的非程序制导方法

Info

Publication number: CN115407664B
Application number: CN202211357268.1A
Authority: CN
Inventors: 程晓明; 禹春梅; 尚腾; 陈曦; 靳蕊溪; 李明华; 郑卓; 李瑶; 胡凤荣
Original assignee: Beijing Aerospace Automatic Control Research Institute
Current assignee: Beijing Aerospace Automatic Control Research Institute
Priority date: 2022-11-01
Filing date: 2022-11-01
Publication date: 2023-02-03
Anticipated expiration: 2042-11-01
Also published as: CN115407664A

Abstract

一种基于神经网络训练的非程序制导方法，属于飞行器制导与控制领域。首先生成包括最优制导指令和最优初始协态的样本；建立神经网络，以最优制导指令

与最优初始协态

作为神经网络输出，对神经网络进行训练；实际飞行过程中，以当前扰动状态量和拉偏状态量作为神经网络输入，实时产生初始协态

和制导指令

；基于初始协态

，进行弹道规划求解，判断求解结果在1s内是否能够收敛，如果能收敛，则采用初始协态

产生的最优制导指令进行制导；如果不能收敛，则采用制导指令

进行制导。本发明解决现有弹道规划方法实时性不足、收敛性不足、无法应对复杂非凸在线弹道规划等问题，既能实现制导指令实时生成又能满足终端约束的高精度要求，保证终端精度。

Description

一种基于神经网络训练的非程序制导方法

技术领域

本发明属于飞行器制导与控制领域，涉及一种基于神经网络训练的非程序制导方法。

背景技术

在线弹道规划方案包括直接法、间接法及基于凸优化的方法，其中直接法通过获取关于时间的主矢量函数并将其离散化，通过配点法及边界约束条件进行求解；间接法将弹道规划问题转化成对非线性规划问题的求解；基于凸优化的在线弹道规划方案需要在线弹道规划问题首先转化为凸规划问题并进行求解。现有技术方案存在以下不足：1）基于直接法的在线弹道规划问题在线求解实时性不足；2）基于间接法的在线弹道规划问题收敛性不足，依赖初始猜想，在进行弹道规划时，存在无法收敛的风险；3）基于凸优化的在线弹道规划方法，对模型的要求较高，无法应对复杂的非凸在线弹道规划问题。

发明内容

本发明解决的技术问题是：克服现有技术的不足，提出一种基于神经网络训练的非程序制导方法。

本发明解决技术的方案是：

第一方面，本发明提出一种基于神经网络训练的非程序制导方法，包括：

飞行器从初始状态空间

随机出发，随机拉偏环境参数和本体参数，重复求解得到N条最优弹道，每条最优弹道等时间间隔提出M个最优解样本，最终得到的N×M个最优解样本作为后续神经网络训练的训练集合，其中N>1000，M>100；所述最优解记为

，其中，

代表初始状态变量，

为终端约束，

为终端位置约束，

为终端速度约束，

为最优状态下最优初始协态，

代表最优制导指令；

建立神经网络，以N×M个离散点处的扰动状态量和不同的拉偏状态作为神经网络输入，以N×M个离散点处的最优制导指令

与最优初始协态

作为神经网络输出，对神经网络进行训练；

实际飞行过程中，以当前扰动状态量和拉偏状态量作为神经网络输入，实时产生初始协态

和制导指令

；

基于初始协态

进行制导。

优选的，重复求解得到最优弹道的方法如下：

为飞行器建立如下运动学模型：

其中，

为飞行器位置矢量，

为飞行器速度矢量，

为飞行器质量，

为重力加速度矢量，

代表飞行器推力矢量，

为飞行器的比冲，

为海平面的重力加速度大小，

是弹体纵轴方向的单位矢量，

是弹体法向方向的单位矢量，

和

分别为飞行器气动力中的轴向力与法向力大小；

设定弹道规划问题的性能指标J满足

其中，

分别代表弹道规划得到的终端位置矢量、终端速度矢量，

为终端时刻，

代表弹道y方向的终端位置约束，

表示弹道规划得到的终端时刻的y方向的终端位置；

分别代表弹道x,y方向的终端速度大小约束；

表示弹道规划得到的终端时刻的x方向的速度大小，

表示弹道规划得到的终端时刻的y方向的速度大小；

根据最优控制理论，定义哈密顿函数为

式中：

为标量乘子；

和

为协态变量；

以*号表示相关变量的最优值，根据极小值原理，最优解的标准必要条件为

t为时间；

最优解还必须满足终端约束条件及如下的横截条件：

根据上述公式进行求解，每次求解成功，即得到一条最优弹道。

优选的，

的计算公式为：

其中，

为飞行器的气动参考面积，

为大气密度，

为轴向力系数。

优选的，

的计算公式为：

其中，

为飞行器的气动参考面积，

为大气密度，

为法向力系数。

优选的，所述建立的神经网络为多层前向全连接层网络。

优选的，前向全连接层网络输入层第

个隐层第i个神经元节点的输入为

其中，

，

为第

个隐层的神经元节点数，

代表第

个隐层的第k个神经元节点的值，

代表第k个神经元节点输入与第i个神经元节点输出之间的神经网络训练权重。

优选的，设隐层的总层数为P，各个隐层包含的神经元节点个数相同，均为

；

前向全连接层网络输出层实现从

的线性映射，即

其中，

为输出节点总数；

代表神经网络第n个节点的输出值，

代表第k个神经元节点输入与第n个输出值之间的神经网络训练权重，

代表神经网络第P个隐层的第k 个神经元节点的值；

由

组成神经网络输出

。

优选的，根据前向全连接层网络输出值与理想值的平均方差进行指标设计；

平均方差为：

其中，

代表理论的最优输出值，由离线弹道规划给出，M×N代表总样本个数。

第二方面，本发明提出一种终端设备，包括：

存储器，用于存储至少一个处理器所执行的指令；

处理器，用于执行存储器中存储的指令执行如上述第一方面所述的方法。

第三方面，本发明提出一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如上述第一方面所述的方法。

本发明与现有技术相比的有益效果是：

（1）本发明基于制导指令训练和初始协态训练的深度学习方法，完成了针对上升段不确定环境下的弹道样本训练问题，该训练方法对样本的训练效率高，训练结果对本体和环境不确定性的适应性强；

（2）本发明提出了“初始协态”与“最优指令”两种样本复合备保的弹道在线生成方法，该方法针对深度学习后的神经网络在线实现问题，能够较好地处理上升段弹道规划的实时性和终端约束的精确性问题。

（3）本发明进行神经网络深度学习后，先基于初始协态

进行制导。克服了间接法的在线弹道规划问题收敛性不足的难题。

（4）本发明对模型的要求低，能够应对各种在线弹道规划问题。

附图说明

图1为训练样本生成方式示意图；

图2为前向全连接层网络结构示意图。

具体实施方式

下面结合实施例对本发明作进一步阐述。

本发明结合深度学习技术提出了一种基于在线弹道规划与制导指令求解的非程序制导方法，本发明所采用的方法通过离线训练、在线使用、互为备保、终端精度反馈等方式，解决了在线弹道规划问题难以实时求解问题、并解决了在线规划得到的制导指令为开环制导导致终端精度差的问题。本发明的非程序制导方法具有兼顾制导指令可实时生成与终端约束高精度满足的优点，可适应飞行过程中的本体、环境等不确定性，保证终端精度。

一种基于神经网络训练的非程序制导方法，步骤如下：

（1）生成训练样本

建立运动学模型如下所示：

（1）

其中，

为位置矢量，

为速度矢量，

为飞行器质量，

为重力加速度矢量，

代表飞行器推力矢量。

为飞行器的比冲，

为海平面的重力加速度大小。

是弹体纵轴方向的单位矢量，

是弹体法向方向的单位矢量，

和

分别为飞行器气动力中的轴向力与法向力大小，其大小的计算公式为：

（2）

其中，

为飞行器的气动参考面积，

为大气密度，

和

分别为轴向力系数和法向力系数。

设定弹道规划问题的性能指标J为

(43)

其中，

分别代表弹道规划得到的终端位置矢量、终端速度矢量，

为终端时刻，

代表弹道y方向的终端位置约束（即期望终端位置），

表示弹道规划得到的终端时刻的y方向的终端位置；

分别代表弹道x,y方向的终端速度大小约束。

表示弹道规划得到的终端时刻的x方向的速度大小，

表示弹道规划得到的终端时刻的y方向的速度大小。

为求最优解可根据最优控制理论，定义哈密顿函数为

（3）

式中：

为标量乘子；

和

为协态变量。

（4）

（5）

（6）

最优解还必须满足终端约束条件及如下的横截条件：

（7）

（8）

由此将弹道规划问题转化为一个两点边值问题，根据贝尔曼最优性原理，每次求解成功，均从弹道上提取出一定数目的最优解

，其中

为最优状态下最优初始协调，

代表最优推力方向。

飞行器从初始状态空间

随机出发，随机拉偏环境参数和本体参数，重复求解得到N（N>1000）条最优弹道，每条最优弹道等时间间隔提出M（M>100）个样本，最终得到的M×N 个包含扰动参数的样本作为后续神经网络训练的训练集合，其中样本可描述为与当前状态

和终端约束

相关联的最优解

，具体生成样本的方式如图1所示。

（2）最优制导指令样本训练

对原最优解样本

进行训练，其中神经网络的输入为

，输出为

，

为终端状态量约束。

基于当前状态（包含扰动参数），利用产生的最优指令，建立多层前向全连接层网络并形成“状态-动作”样本。

a）前向全连接层网络及深度学习算法

前向全连接层网络输入层第1个隐层的神经元值为

(9)

其中，

代表神经网络第1个隐层的第i个神经元的值，n为输入节点数，

代表神经网络输入

中的第k个节点值，

代表第k个输入与第i个神经元之间的神经网络训练权重。

前向全连接层网络输入层第

个隐层的输入为

(9)

其中，

,

代表神经网络第j个隐层的第i个神经元节点的值，m为第

个隐层的神经元节点数，

代表第

个隐层的第k个神经元节点的值，

本发明选择隐层为P层，每个隐层包含m个神经元节点，其中P=4，m=256。

输出层实现从

的线性映射，即

（10）

其中，

为输出节点数；

代表神经网络第n个节点的输出值，

代表第k个神经元输入与第n个输出值之间的神经网络训练权重。

代表神经网络第P个隐层的第k个神经元的值。

由

组成神经网络输出

。

根据网络输出值与理想值的平均方差进行优化指标设计，平均方差为：

（11）

其中，

具体见图2所示。

利用Adam（Adaptive Moment Estimation）优化算法，以M×N个离散点处的状态量和不同的拉偏状态作为网络输入，以M×N个离散点处的最优制导指令

与初始协态

作为作为网络输出。

（3）基于复合备保的制导指令生成方法

基于制导指令

训练的神经网络的控制器能够将导弹引导到目标位置周围，但是终端约束满足情况并不理想，主要是由于神经网络的输出误差导致。而在飞行器实际飞行任务中，需要考虑的扰动较大，同时对飞行器的末端高度和速度约束要求精度较大。因此，采用基于初始协态

训练的神经网络进行弹道在线规划能够满足终端高精度的要求，但是该方法需要进行Newton迭代来求解两点边值问题，导致在线求解最优制导指令时，有2s 内不能收敛的风险。

因此，本发明提出了一套组合解决方案，即将基于制导指令

训练的弹道在线规划算法作为备保方案，在该组合解决方案中，会同时基于两套样本的训练结果，实时产生初始协态

和制导指令

，然后，基于初始协态

，进行两点边值问题的求解，判断其在1s内是否能够收敛，如果能收敛，则采用收敛初始协态

产生的最优制导指令，如果不能收敛，则采用备保方案，即利用基于制导指令样本训练结果产生的制导指令

。

对于上升段任务，由于飞行末端大气的影响逐渐减弱，优化问题的表达形式较为简单，基于初始协态样本的训练网络产生的初始协态猜想，在进行Newton迭代时，其收敛性较好，1s内收敛的风险越小，最终完全能够收敛，并高精度地达到终端任务约束。

实施例：

（1）样本生成：

在进行样本生成过程中，为了获得尽量丰富的训练样本集合，对任务的初始位置、大气密度以及飞行器的气动系数进行了散布，具体如下：

初始位置散布：初始位置散布±1000m；

大气密度散布：大气密度散布±20%；

气动系数散布：气动阻力系数和升力系数分别散布±20%。

作为神经网络输入变量的样本状态主要包括：终端状态约束、高度、速度、航迹倾角、经纬度；作为输出变量的样本状态主要包括：俯仰角和六个状态量对应的协态。设定终端状态约束为：高度120km，速度7600m/s

在训练时，需要输入图2所对应的状态量以及当前的终端状态约束，通过神经网络逼近的值函数应分别与俯仰角曲线、协态曲线对应，使得其评价指标最小，最终完成训练过程。

为了进一步验证本发明提出的方法，进行了蒙特卡洛打靶实验，共从初始状态空间随机选择了100个出发点位置，并在飞行过程中，增加了大气、气动散布，得到以下的统计结果。从表1中可以看出，本发明所设计的方法能够很好的适应各种不确定性下的弹道在线规划任务，平均终端精度较高。

表 1 蒙特卡洛打靶数据表

通过以上仿真分析可知，从初始状态空间随机出发的100条弹道，对于不同的初始位置扰动与大气、气动扰动，均能够在线实时得到制导指令，并最终精确满足终端高度要求。虽然初始位置存在随机性，但是训练良好的上升段弹道规划算法能够导引飞行器到达目标点，并严格满足终端状态精度要求，验证了基于神经网络训练的在线弹道规划算法的自主性、抗干扰性和执行任务的灵活性。

本发明建立了一套不依赖于标准程序角的非程序制导利用间接法，将弹道规划问题建模为两点边值问题，并利用非线性规划方法对其进行求解，将同时得到的制导程序角序列和初始协态量作为神经网络输出，将当前状态作为神经网络输入，进行离线训练后，将训练好的网络用于飞行器的飞行中，从而使飞行器根据自身当前状态，实时得到程序角序列，可适应飞行过程需面临的复杂空气动力、热流、风载荷等环境因素及发动机动力、结构载荷等本体因素导致的不确定性，同时不需要在线进行弹道规划问题求解，避免了在线规划带来的实时性不足问题，本发明在运载火箭、可重复使用运载器等的制导任务中具有先进性与普适性，可对非程序制导的构建提供理论支撑，对解决目前在线变更飞行弹道等任务下的弹道规划问题实时求解等困难具有实际的意义。

本发明说明书中未作详细描述的内容属于本领域专业技术人员的公知技术。