CN115407664B - 一种基于神经网络训练的非程序制导方法 - Google Patents

一种基于神经网络训练的非程序制导方法 Download PDF

Info

Publication number
CN115407664B
CN115407664B CN202211357268.1A CN202211357268A CN115407664B CN 115407664 B CN115407664 B CN 115407664B CN 202211357268 A CN202211357268 A CN 202211357268A CN 115407664 B CN115407664 B CN 115407664B
Authority
CN
China
Prior art keywords
neural network
optimal
terminal
guidance
aircraft
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211357268.1A
Other languages
English (en)
Other versions
CN115407664A (zh
Inventor
程晓明
禹春梅
尚腾
陈曦
靳蕊溪
李明华
郑卓
李瑶
胡凤荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Aerospace Automatic Control Research Institute
Original Assignee
Beijing Aerospace Automatic Control Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Aerospace Automatic Control Research Institute filed Critical Beijing Aerospace Automatic Control Research Institute
Priority to CN202211357268.1A priority Critical patent/CN115407664B/zh
Publication of CN115407664A publication Critical patent/CN115407664A/zh
Application granted granted Critical
Publication of CN115407664B publication Critical patent/CN115407664B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Abstract

一种基于神经网络训练的非程序制导方法,属于飞行器制导与控制领域。首先生成包括最优制导指令和最优初始协态的样本;建立神经网络,以最优制导指令
Figure 236452DEST_PATH_IMAGE001
与最优初始协态
Figure 100004_DEST_PATH_IMAGE002
作为神经网络输出,对神经网络进行训练;实际飞行过程中,以当前扰动状态量和拉偏状态量作为神经网络输入,实时产生初始协态
Figure 480352DEST_PATH_IMAGE003
和制导指令
Figure 100004_DEST_PATH_IMAGE004
;基于初始协态
Figure 935604DEST_PATH_IMAGE003
,进行弹道规划求解,判断求解结果在1s内是否能够收敛,如果能收敛,则采用初始协态
Figure 897744DEST_PATH_IMAGE003
产生的最优制导指令进行制导;如果不能收敛,则采用制导指令
Figure 463854DEST_PATH_IMAGE004
进行制导。本发明解决现有弹道规划方法实时性不足、收敛性不足、无法应对复杂非凸在线弹道规划等问题,既能实现制导指令实时生成又能满足终端约束的高精度要求,保证终端精度。

Description

一种基于神经网络训练的非程序制导方法
技术领域
本发明属于飞行器制导与控制领域,涉及一种基于神经网络训练的非程序制导方法。
背景技术
在线弹道规划方案包括直接法、间接法及基于凸优化的方法,其中直接法通过获取关于时间的主矢量函数并将其离散化,通过配点法及边界约束条件进行求解;间接法将弹道规划问题转化成对非线性规划问题的求解;基于凸优化的在线弹道规划方案需要在线弹道规划问题首先转化为凸规划问题并进行求解。现有技术方案存在以下不足:1)基于直接法的在线弹道规划问题在线求解实时性不足;2)基于间接法的在线弹道规划问题收敛性不足,依赖初始猜想,在进行弹道规划时,存在无法收敛的风险;3)基于凸优化的在线弹道规划方法,对模型的要求较高,无法应对复杂的非凸在线弹道规划问题。
发明内容
本发明解决的技术问题是:克服现有技术的不足,提出一种基于神经网络训练的非程序制导方法。
本发明解决技术的方案是:
第一方面,本发明提出一种基于神经网络训练的非程序制导方法,包括:
飞行器从初始状态空间
Figure DEST_PATH_IMAGE001
随机出发,随机拉偏环境参数和本体参数,重复求解得 到N条最优弹道,每条最优弹道等时间间隔提出M个最优解样本,最终得到的N×M个最优解 样本作为后续神经网络训练的训练集合,其中N>1000,M>100;所述最优解记为
Figure DEST_PATH_IMAGE002
,其中,
Figure DEST_PATH_IMAGE003
代表初始状态变量,
Figure DEST_PATH_IMAGE004
为终端约束,
Figure DEST_PATH_IMAGE005
为终端位置约 束,
Figure DEST_PATH_IMAGE006
为终端速度约束,
Figure DEST_PATH_IMAGE007
为最优状态下最优初始协态,
Figure DEST_PATH_IMAGE008
代表最优制导指令;
建立神经网络,以N×M个离散点处的扰动状态量和不同的拉偏状态作为神经网络 输入,以N×M个离散点处的最优制导指令
Figure DEST_PATH_IMAGE009
与最优初始协态
Figure DEST_PATH_IMAGE010
作为神经网络输出,对神经 网络进行训练;
实际飞行过程中,以当前扰动状态量和拉偏状态量作为神经网络输入,实时产生 初始协态
Figure DEST_PATH_IMAGE011
和制导指令
Figure DEST_PATH_IMAGE012
基于初始协态
Figure 451840DEST_PATH_IMAGE011
,进行弹道规划求解,判断求解结果在1s内是否能够收敛,如果能 收敛,则采用初始协态
Figure 180762DEST_PATH_IMAGE011
产生的最优制导指令进行制导;如果不能收敛,则采用制导指令
Figure 259576DEST_PATH_IMAGE012
进行制导。
优选的,重复求解得到最优弹道的方法如下:
为飞行器建立如下运动学模型:
Figure DEST_PATH_IMAGE013
其中,
Figure DEST_PATH_IMAGE014
为飞行器位置矢量,
Figure DEST_PATH_IMAGE015
为飞行器速度矢量,
Figure DEST_PATH_IMAGE016
为飞行器质量,
Figure DEST_PATH_IMAGE017
为重力加 速度矢量,
Figure DEST_PATH_IMAGE018
代表飞行器推力矢量,
Figure DEST_PATH_IMAGE019
为飞行器的比冲,
Figure DEST_PATH_IMAGE020
为海平面的重力加速度大小,
Figure DEST_PATH_IMAGE021
是弹体纵轴方向的单位矢量,
Figure DEST_PATH_IMAGE022
是弹体法向方向的单位矢量,
Figure DEST_PATH_IMAGE023
Figure DEST_PATH_IMAGE024
分别为飞行器气动力 中的轴向力与法向力大小;
设定弹道规划问题的性能指标J满足
Figure DEST_PATH_IMAGE025
其中,
Figure DEST_PATH_IMAGE026
分别代表弹道规划得到的终端位置矢量、终端速度矢量,
Figure DEST_PATH_IMAGE027
为终 端时刻,
Figure DEST_PATH_IMAGE028
代表弹道y方向的终端位置约束,
Figure DEST_PATH_IMAGE029
表示弹道规划得到的终端时刻的y方向的 终端位置;
Figure DEST_PATH_IMAGE030
分别代表弹道x,y方向的终端速度大小约束;
Figure DEST_PATH_IMAGE031
表示弹道规划得到的 终端时刻的x方向的速度大小,
Figure DEST_PATH_IMAGE032
表示弹道规划得到的终端时刻的y方向的速度大小;
根据最优控制理论,定义哈密顿函数为
Figure DEST_PATH_IMAGE033
式中:
Figure DEST_PATH_IMAGE034
为标量乘子;
Figure DEST_PATH_IMAGE035
Figure DEST_PATH_IMAGE036
为协态变量;
以*号表示相关变量的最优值,根据极小值原理,最优解的标准必要条件为
Figure DEST_PATH_IMAGE037
Figure DEST_PATH_IMAGE038
Figure DEST_PATH_IMAGE039
t为时间;
最优解还必须满足终端约束条件及如下的横截条件:
Figure DEST_PATH_IMAGE040
Figure DEST_PATH_IMAGE041
根据上述公式进行求解,每次求解成功,即得到一条最优弹道。
优选的,
Figure DEST_PATH_IMAGE042
的计算公式为:
Figure DEST_PATH_IMAGE043
其中,
Figure DEST_PATH_IMAGE044
为飞行器的气动参考面积,
Figure DEST_PATH_IMAGE045
为大气密度,
Figure DEST_PATH_IMAGE046
为轴向力系数。
优选的,
Figure DEST_PATH_IMAGE047
的计算公式为:
Figure DEST_PATH_IMAGE048
其中,
Figure 505356DEST_PATH_IMAGE044
为飞行器的气动参考面积,
Figure 11424DEST_PATH_IMAGE045
为大气密度,
Figure DEST_PATH_IMAGE049
为法向力系数。
优选的,所述建立的神经网络为多层前向全连接层网络。
优选的,前向全连接层网络输入层第
Figure DEST_PATH_IMAGE050
个隐层第i个神经元节点的输入为
Figure DEST_PATH_IMAGE051
其中,
Figure DEST_PATH_IMAGE052
Figure DEST_PATH_IMAGE053
为第
Figure DEST_PATH_IMAGE054
个隐层的神经元节点数,
Figure DEST_PATH_IMAGE055
代表第
Figure 352275DEST_PATH_IMAGE054
个隐层的第k个 神经元节点的值,
Figure DEST_PATH_IMAGE056
代表第k个神经元节点输入与第i个神经元节点输出之间的神经网络 训练权重。
优选的,设隐层的总层数为P,各个隐层包含的神经元节点个数相同,均为
Figure 297098DEST_PATH_IMAGE053
前向全连接层网络输出层实现从
Figure DEST_PATH_IMAGE057
的线性映射,即
Figure DEST_PATH_IMAGE058
其中,
Figure DEST_PATH_IMAGE059
为输出节点总数;
Figure DEST_PATH_IMAGE060
代表神经网络第n个节点的输出值,
Figure DEST_PATH_IMAGE061
代表第k个神 经元节点输入与第n个输出值之间的神经网络训练权重,
Figure DEST_PATH_IMAGE062
代表神经网络第P个隐层的第k 个神经元节点的值;
Figure DEST_PATH_IMAGE063
组成神经网络输出
Figure DEST_PATH_IMAGE064
优选的,根据前向全连接层网络输出值与理想值的平均方差进行指标设计;
平均方差为:
Figure DEST_PATH_IMAGE065
其中,
Figure DEST_PATH_IMAGE066
代表理论的最优输出值,由离线弹道规划给出,M×N代表总样本 个数。
第二方面,本发明提出一种终端设备,包括:
存储器,用于存储至少一个处理器所执行的指令;
处理器,用于执行存储器中存储的指令执行如上述第一方面所述的方法。
第三方面,本发明提出一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如上述第一方面所述的方法。
本发明与现有技术相比的有益效果是:
(1)本发明基于制导指令训练和初始协态训练的深度学习方法,完成了针对上升段不确定环境下的弹道样本训练问题,该训练方法对样本的训练效率高,训练结果对本体和环境不确定性的适应性强;
(2)本发明提出了“初始协态”与“最优指令”两种样本复合备保的弹道在线生成方法,该方法针对深度学习后的神经网络在线实现问题,能够较好地处理上升段弹道规划的实时性和终端约束的精确性问题。
(3)本发明进行神经网络深度学习后,先基于初始协态
Figure DEST_PATH_IMAGE067
,进行弹道规划求解,判 断求解结果在1s内是否能够收敛,如果能收敛,则采用初始协态
Figure 836532DEST_PATH_IMAGE067
产生的最优制导指令进 行制导;如果不能收敛,则采用制导指令
Figure DEST_PATH_IMAGE068
进行制导。克服了间接法的在线弹道规划问题 收敛性不足的难题。
(4)本发明对模型的要求低,能够应对各种在线弹道规划问题。
附图说明
图1为训练样本生成方式示意图;
图2为前向全连接层网络结构示意图。
具体实施方式
下面结合实施例对本发明作进一步阐述。
本发明结合深度学习技术提出了一种基于在线弹道规划与制导指令求解的非程序制导方法,本发明所采用的方法通过离线训练、在线使用、互为备保、终端精度反馈等方式,解决了在线弹道规划问题难以实时求解问题、并解决了在线规划得到的制导指令为开环制导导致终端精度差的问题。本发明的非程序制导方法具有兼顾制导指令可实时生成与终端约束高精度满足的优点,可适应飞行过程中的本体、环境等不确定性,保证终端精度。
一种基于神经网络训练的非程序制导方法,步骤如下:
(1)生成训练样本
建立运动学模型如下所示:
Figure DEST_PATH_IMAGE069
(1)
其中,
Figure DEST_PATH_IMAGE070
为位置矢量,
Figure DEST_PATH_IMAGE071
为速度矢量,
Figure DEST_PATH_IMAGE072
为飞行器质量,
Figure DEST_PATH_IMAGE073
为重力加速度矢量,
Figure DEST_PATH_IMAGE074
代表飞行器推力矢量。
Figure DEST_PATH_IMAGE075
为飞行器的比 冲,
Figure DEST_PATH_IMAGE076
为海平面的重力加速度大小。
Figure DEST_PATH_IMAGE077
是弹体纵轴方向的单位矢量,
Figure DEST_PATH_IMAGE078
是弹体法向方向的 单位矢量,
Figure DEST_PATH_IMAGE079
Figure DEST_PATH_IMAGE080
分别为飞行器气动力中的轴向力与法向力大小,其大小的计算公式为:
Figure DEST_PATH_IMAGE081
(2)
其中,
Figure DEST_PATH_IMAGE082
为飞行器的气动参考面积,
Figure DEST_PATH_IMAGE083
为大气密度,
Figure DEST_PATH_IMAGE084
Figure DEST_PATH_IMAGE085
分别为轴向力系数和 法向力系数。
设定弹道规划问题的性能指标J为
Figure DEST_PATH_IMAGE086
(43)
其中,
Figure DEST_PATH_IMAGE087
分别代表弹道规划得到的终端位置矢量、终端速度矢量,
Figure DEST_PATH_IMAGE088
为终 端时刻,
Figure DEST_PATH_IMAGE089
代表弹道y方向的终端位置约束(即期望终端位置),
Figure DEST_PATH_IMAGE090
表示弹道规划得到的 终端时刻的y方向的终端位置;
Figure DEST_PATH_IMAGE091
分别代表弹道x,y方向的终端速度大小约束。
Figure DEST_PATH_IMAGE092
表示弹道规划得到的终端时刻的x方向的速度大小,
Figure DEST_PATH_IMAGE093
表示弹道规划得到的终端时刻的y方向的速度大小。
为求最优解可根据最优控制理论,定义哈密顿函数为
Figure DEST_PATH_IMAGE094
(3)
式中:
Figure DEST_PATH_IMAGE095
为标量乘子;
Figure DEST_PATH_IMAGE096
Figure DEST_PATH_IMAGE097
为协态变量。
以*号表示相关变量的最优值,根据极小值原理,最优解的标准必要条件为
Figure DEST_PATH_IMAGE098
(4)
Figure DEST_PATH_IMAGE099
(5)
Figure DEST_PATH_IMAGE100
(6)
最优解还必须满足终端约束条件及如下的横截条件:
Figure 425687DEST_PATH_IMAGE040
(7)
Figure DEST_PATH_IMAGE101
(8)
由此将弹道规划问题转化为一个两点边值问题,根据贝尔曼最优性原理,每次求 解成功,均从弹道上提取出一定数目的最优解
Figure DEST_PATH_IMAGE102
,其中
Figure DEST_PATH_IMAGE103
为最优状态下最优初始协 调,
Figure DEST_PATH_IMAGE104
代表最优推力方向。
飞行器从初始状态空间
Figure DEST_PATH_IMAGE105
随机出发,随机拉偏环境参数和本体参数,重复求解得 到N(N>1000)条最优弹道,每条最优弹道等时间间隔提出M(M>100)个样本,最终得到的M×N 个包含扰动参数的样本作为后续神经网络训练的训练集合,其中样本可描述为与当前状态
Figure DEST_PATH_IMAGE106
和终端约束
Figure DEST_PATH_IMAGE107
相关联的最优解
Figure DEST_PATH_IMAGE108
,具体生成样本的方式如图1所 示。
(2)最优制导指令样本训练
对原最优解样本
Figure 50572DEST_PATH_IMAGE108
进行训练,其中神经网络的输入为
Figure DEST_PATH_IMAGE109
,输出为
Figure DEST_PATH_IMAGE110
Figure DEST_PATH_IMAGE111
为终端状态量约束。
基于当前状态(包含扰动参数),利用产生的最优指令,建立多层前向全连接层网络并形成“状态-动作”样本。
a)前向全连接层网络及深度学习算法
前向全连接层网络输入层第1个隐层的神经元值为
Figure DEST_PATH_IMAGE112
(9)
其中,
Figure DEST_PATH_IMAGE113
代表神经网络第1个隐层的第i个神经元的值,n为输入节点数,
Figure DEST_PATH_IMAGE114
代表神 经网络输入
Figure DEST_PATH_IMAGE115
中的第k个节点值,
Figure DEST_PATH_IMAGE116
代表第k个输入与第i个神经元之间的神经网络训练权 重。
前向全连接层网络输入层第
Figure DEST_PATH_IMAGE117
个隐层的输入为
Figure 658140DEST_PATH_IMAGE118
(9)
其中,
Figure DEST_PATH_IMAGE119
,
Figure DEST_PATH_IMAGE120
代表神经网络第j个隐层的第i个神经元节点的值,m为第
Figure DEST_PATH_IMAGE121
个隐 层的神经元节点数,
Figure DEST_PATH_IMAGE122
代表第
Figure 193026DEST_PATH_IMAGE121
个隐层的第k个神经元节点的值,
Figure DEST_PATH_IMAGE123
代表第k个神经 元节点输入与第i个神经元节点输出之间的神经网络训练权重。
本发明选择隐层为P层,每个隐层包含m个神经元节点,其中P=4,m=256。
输出层实现从
Figure DEST_PATH_IMAGE124
的线性映射,即
Figure DEST_PATH_IMAGE125
(10)
其中,
Figure DEST_PATH_IMAGE126
为输出节点数;
Figure DEST_PATH_IMAGE127
代表神经网络第n个节点的输出值,
Figure DEST_PATH_IMAGE128
代表第k个 神经元输入与第n个输出值之间的神经网络训练权重。
Figure DEST_PATH_IMAGE129
代表神经网络第P个隐层的第k个 神经元的值。
Figure DEST_PATH_IMAGE130
组成神经网络输出
Figure DEST_PATH_IMAGE131
根据网络输出值与理想值的平均方差进行优化指标设计,平均方差为:
Figure DEST_PATH_IMAGE132
(11)
其中,
Figure DEST_PATH_IMAGE133
代表理论的最优输出值,由离线弹道规划给出,M×N代表总样本 个数。
具体见图2所示。
利用Adam(Adaptive Moment Estimation)优化算法,以M×N个离散点处的状态量 和不同的拉偏状态作为网络输入,以M×N个离散点处的最优制导指令
Figure DEST_PATH_IMAGE134
与初始协态
Figure DEST_PATH_IMAGE135
作 为作为网络输出。
(3)基于复合备保的制导指令生成方法
基于制导指令
Figure 290164DEST_PATH_IMAGE134
训练的神经网络的控制器能够将导弹引导到目标位置周围,但是 终端约束满足情况并不理想,主要是由于神经网络的输出误差导致。而在飞行器实际飞行 任务中,需要考虑的扰动较大,同时对飞行器的末端高度和速度约束要求精度较大。因此, 采用基于初始协态
Figure 277712DEST_PATH_IMAGE135
训练的神经网络进行弹道在线规划能够满足终端高精度的要求,但 是该方法需要进行Newton迭代来求解两点边值问题,导致在线求解最优制导指令时,有2s 内不能收敛的风险。
因此,本发明提出了一套组合解决方案,即将基于制导指令
Figure 502020DEST_PATH_IMAGE134
训练的弹道在线规 划算法作为备保方案,在该组合解决方案中,会同时基于两套样本的训练结果,实时产生初 始协态
Figure DEST_PATH_IMAGE136
和制导指令
Figure DEST_PATH_IMAGE137
,然后,基于初始协态
Figure 891413DEST_PATH_IMAGE136
,进行两点边值问题的求解,判断其在1s内 是否能够收敛,如果能收敛,则采用收敛初始协态
Figure 175764DEST_PATH_IMAGE136
产生的最优制导指令,如果不能收敛, 则采用备保方案,即利用基于制导指令样本训练结果产生的制导指令
Figure 588291DEST_PATH_IMAGE137
对于上升段任务,由于飞行末端大气的影响逐渐减弱,优化问题的表达形式较为简单,基于初始协态样本的训练网络产生的初始协态猜想,在进行Newton迭代时,其收敛性较好,1s内收敛的风险越小,最终完全能够收敛,并高精度地达到终端任务约束。
实施例:
(1)样本生成:
在进行样本生成过程中,为了获得尽量丰富的训练样本集合,对任务的初始位置、大气密度以及飞行器的气动系数进行了散布,具体如下:
初始位置散布:初始位置散布±1000m;
大气密度散布:大气密度散布±20%;
气动系数散布:气动阻力系数和升力系数分别散布±20%。
作为神经网络输入变量的样本状态主要包括:终端状态约束、高度、速度、航迹倾角、经纬度;作为输出变量的样本状态主要包括:俯仰角和六个状态量对应的协态。设定终端状态约束为:高度120km,速度7600m/s
在训练时,需要输入图2所对应的状态量以及当前的终端状态约束,通过神经网络逼近的值函数应分别与俯仰角曲线、协态曲线对应,使得其评价指标最小,最终完成训练过程。
为了进一步验证本发明提出的方法,进行了蒙特卡洛打靶实验,共从初始状态空间随机选择了100个出发点位置,并在飞行过程中,增加了大气、气动散布,得到以下的统计结果。从表1中可以看出,本发明所设计的方法能够很好的适应各种不确定性下的弹道在线规划任务,平均终端精度较高。
表 1 蒙特卡洛打靶数据表
Figure DEST_PATH_IMAGE138
通过以上仿真分析可知,从初始状态空间随机出发的100条弹道,对于不同的初始位置扰动与大气、气动扰动,均能够在线实时得到制导指令,并最终精确满足终端高度要求。虽然初始位置存在随机性,但是训练良好的上升段弹道规划算法能够导引飞行器到达目标点,并严格满足终端状态精度要求,验证了基于神经网络训练的在线弹道规划算法的自主性、抗干扰性和执行任务的灵活性。
本发明建立了一套不依赖于标准程序角的非程序制导利用间接法,将弹道规划问题建模为两点边值问题,并利用非线性规划方法对其进行求解,将同时得到的制导程序角序列和初始协态量作为神经网络输出,将当前状态作为神经网络输入,进行离线训练后,将训练好的网络用于飞行器的飞行中,从而使飞行器根据自身当前状态,实时得到程序角序列,可适应飞行过程需面临的复杂空气动力、热流、风载荷等环境因素及发动机动力、结构载荷等本体因素导致的不确定性,同时不需要在线进行弹道规划问题求解,避免了在线规划带来的实时性不足问题,本发明在运载火箭、可重复使用运载器等的制导任务中具有先进性与普适性,可对非程序制导的构建提供理论支撑,对解决目前在线变更飞行弹道等任务下的弹道规划问题实时求解等困难具有实际的意义。
本发明说明书中未作详细描述的内容属于本领域专业技术人员的公知技术。

Claims (9)

1.一种基于神经网络训练的非程序制导方法,其特征在于包括:
飞行器从初始状态空间
Figure 764412DEST_PATH_IMAGE001
随机出发,随机拉偏环境参数和本体参数,重复求解得到N条最优弹道,每条最优弹道等时间间隔提出M个最优解样本,最终得到的N×M个最优解样本作为后续神经网络训练的训练集合,其中N>1000,M>100;所述最优解记为
Figure 692310DEST_PATH_IMAGE002
,其中,
Figure 429322DEST_PATH_IMAGE003
代表初始状态变量,
Figure 155970DEST_PATH_IMAGE004
为终端约束,
Figure 585814DEST_PATH_IMAGE005
为终端位置约束,
Figure 765122DEST_PATH_IMAGE006
为终端速度约束,
Figure 40246DEST_PATH_IMAGE007
为最优状态下最优初始协态,
Figure 621400DEST_PATH_IMAGE008
代表最优制导指令;
建立神经网络,以N×M个离散点处的扰动状态量和不同的拉偏状态作为神经网络输入,以N×M个离散点处的最优制导指令
Figure 956566DEST_PATH_IMAGE008
与最优初始协态
Figure 121706DEST_PATH_IMAGE009
作为神经网络输出,对神经网络进行训练;
实际飞行过程中,以当前扰动状态量和拉偏状态量作为神经网络输入,实时产生初始协态
Figure 200521DEST_PATH_IMAGE010
和制导指令
Figure 370602DEST_PATH_IMAGE011
基于初始协态
Figure 142249DEST_PATH_IMAGE010
,进行弹道规划求解,判断求解结果在1s内是否能够收敛,如果能收敛,则采用初始协态
Figure 296150DEST_PATH_IMAGE010
产生的最优制导指令进行制导;如果不能收敛,则采用制导指令
Figure 178655DEST_PATH_IMAGE011
进行制导;
重复求解得到最优弹道的方法如下:
为飞行器建立如下运动学模型:
Figure 531139DEST_PATH_IMAGE012
其中,
Figure 411370DEST_PATH_IMAGE013
为飞行器位置矢量,
Figure 849305DEST_PATH_IMAGE014
为飞行器速度矢量,
Figure 709070DEST_PATH_IMAGE015
为飞行器质量,
Figure 181640DEST_PATH_IMAGE016
为重力加速度矢量,
Figure 232772DEST_PATH_IMAGE017
代表飞行器推力矢量,
Figure 158003DEST_PATH_IMAGE018
为飞行器的比冲,
Figure 319994DEST_PATH_IMAGE019
为海平面的重力加速度大小,
Figure 381491DEST_PATH_IMAGE020
是弹体纵轴方向的单位矢量,
Figure 603525DEST_PATH_IMAGE021
是弹体法向方向的单位矢量,
Figure 16052DEST_PATH_IMAGE022
Figure 480269DEST_PATH_IMAGE023
分别为飞行器气动力中的轴向力与法向力大小;
设定弹道规划问题的性能指标J满足
Figure 661851DEST_PATH_IMAGE024
其中,
Figure 789207DEST_PATH_IMAGE025
分别代表弹道规划得到的终端位置矢量、终端速度矢量,
Figure 689030DEST_PATH_IMAGE026
为终端时刻,
Figure 192824DEST_PATH_IMAGE027
代表弹道y方向的终端位置约束,
Figure 494492DEST_PATH_IMAGE028
表示弹道规划得到的终端时刻的y方向的终端位置;
Figure 855066DEST_PATH_IMAGE029
分别代表弹道x,y方向的终端速度大小约束;
Figure 179869DEST_PATH_IMAGE030
表示弹道规划得到的终端时刻的x方向的速度大小,
Figure 549670DEST_PATH_IMAGE031
表示弹道规划得到的终端时刻的y方向的速度大小;
根据最优控制理论,定义哈密顿函数为
Figure 879414DEST_PATH_IMAGE032
式中:
Figure 676468DEST_PATH_IMAGE033
为标量乘子;
Figure 222987DEST_PATH_IMAGE034
Figure 396480DEST_PATH_IMAGE035
为协态变量;
以*号表示相关变量的最优值,根据极小值原理,最优解的标准必要条件为
Figure 344844DEST_PATH_IMAGE036
Figure 312800DEST_PATH_IMAGE037
Figure 346615DEST_PATH_IMAGE038
t为时间;
最优解还必须满足终端约束条件及如下的横截条件:
Figure 58219DEST_PATH_IMAGE039
Figure 359625DEST_PATH_IMAGE040
根据上述公式进行求解,每次求解成功,即得到一条最优弹道。
2.根据权利要求1所述的一种基于神经网络训练的非程序制导方法,其特征在于,
Figure 498483DEST_PATH_IMAGE041
的计算公式为:
Figure 81911DEST_PATH_IMAGE042
其中,
Figure 269310DEST_PATH_IMAGE043
为飞行器的气动参考面积,
Figure 254583DEST_PATH_IMAGE044
为大气密度,
Figure 502025DEST_PATH_IMAGE045
为轴向力系数。
3.根据权利要求1所述的一种基于神经网络训练的非程序制导方法,其特征在于,
Figure 572749DEST_PATH_IMAGE023
的计算公式为:
Figure 563839DEST_PATH_IMAGE046
其中,
Figure 403619DEST_PATH_IMAGE043
为飞行器的气动参考面积,
Figure 311708DEST_PATH_IMAGE044
为大气密度,
Figure 604149DEST_PATH_IMAGE047
为法向力系数。
4.根据权利要求1所述的一种基于神经网络训练的非程序制导方法,其特征在于,所述建立的神经网络为多层前向全连接层网络。
5.根据权利要求4所述的一种基于神经网络训练的非程序制导方法,其特征在于,前向全连接层网络输入层第
Figure 398930DEST_PATH_IMAGE048
个隐层第i个神经元节点的输入为
Figure 93216DEST_PATH_IMAGE049
其中,
Figure 682460DEST_PATH_IMAGE050
Figure 727777DEST_PATH_IMAGE051
为第
Figure 122986DEST_PATH_IMAGE052
个隐层的神经元节点数,
Figure 609462DEST_PATH_IMAGE053
代表第
Figure 697504DEST_PATH_IMAGE052
个隐层的第k个神经元节点的值,
Figure 400755DEST_PATH_IMAGE054
代表第k个神经元节点输入与第i个神经元节点输出之间的神经网络训练权重。
6.根据权利要求5所述的一种基于神经网络训练的非程序制导方法,其特征在于,设隐层的总层数为P,各个隐层包含的神经元节点个数相同,均为
Figure 599656DEST_PATH_IMAGE051
前向全连接层网络输出层实现从
Figure 940638DEST_PATH_IMAGE055
的线性映射,即
Figure 199581DEST_PATH_IMAGE056
其中,
Figure 891594DEST_PATH_IMAGE057
为输出节点总数;
Figure 628606DEST_PATH_IMAGE058
代表神经网络第n个节点的输出值,
Figure 89674DEST_PATH_IMAGE059
代表第k个神经元节点输入与第n个输出值之间的神经网络训练权重,
Figure 519518DEST_PATH_IMAGE060
代表神经网络第P个隐层的第k个神经元节点的值;
Figure 934712DEST_PATH_IMAGE061
组成神经网络输出
Figure 475415DEST_PATH_IMAGE062
7.根据权利要求6所述的一种基于神经网络训练的非程序制导方法,其特征在于,根据前向全连接层网络输出值与理想值的平均方差进行指标设计;
平均方差为:
Figure 118886DEST_PATH_IMAGE063
其中,
Figure 391736DEST_PATH_IMAGE064
代表理论的最优输出值,由离线弹道规划给出,
Figure 120657DEST_PATH_IMAGE065
代表总样本个数。
8.一种终端设备,其特征在于,包括:
存储器,用于存储至少一个处理器所执行的指令;
处理器,用于执行存储器中存储的指令执行如权利要求1-7任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如权利要求1-7任一项所述的方法。
CN202211357268.1A 2022-11-01 2022-11-01 一种基于神经网络训练的非程序制导方法 Active CN115407664B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211357268.1A CN115407664B (zh) 2022-11-01 2022-11-01 一种基于神经网络训练的非程序制导方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211357268.1A CN115407664B (zh) 2022-11-01 2022-11-01 一种基于神经网络训练的非程序制导方法

Publications (2)

Publication Number Publication Date
CN115407664A CN115407664A (zh) 2022-11-29
CN115407664B true CN115407664B (zh) 2023-02-03

Family

ID=84169273

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211357268.1A Active CN115407664B (zh) 2022-11-01 2022-11-01 一种基于神经网络训练的非程序制导方法

Country Status (1)

Country Link
CN (1) CN115407664B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104589349A (zh) * 2015-01-16 2015-05-06 西北工业大学 一种混合悬浮微重力环境下带有单关节机械臂的组合体自主控制方法
CN107861517A (zh) * 2017-11-01 2018-03-30 北京航空航天大学 基于线性伪谱的跳跃式再入飞行器在线弹道规划制导方法
CN112800546A (zh) * 2021-01-29 2021-05-14 清华大学 一种火箭垂直回收状态可控性分析方法和装置
CN113031448A (zh) * 2021-03-24 2021-06-25 西安电子科技大学 基于神经网络的飞行器上升段轨迹优化方法
CN114036631A (zh) * 2021-10-22 2022-02-11 南京航空航天大学 一种基于强化学习的航天器自主交会对接制导策略生成方法
CN114237269A (zh) * 2021-11-29 2022-03-25 北京航天自动控制研究所 一种用于构建姿态控制系统极性故障模式识别模型的方法
CN114527795A (zh) * 2022-02-23 2022-05-24 哈尔滨逐宇航天科技有限责任公司 一种基于增量在线学习的飞行器智能控制方法
CN114967453A (zh) * 2022-05-25 2022-08-30 北京理工大学 一种基于神经网络的卫星东西位保协态初值估计方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108333925A (zh) * 2018-01-18 2018-07-27 上海交通大学 考虑输入和终端约束的船舶推力分配自适应优化方法
CN109683479B (zh) * 2018-12-26 2021-07-06 上海交通大学 基于人工神经网络的动力定位推力分配装置及方法
CN112455723B (zh) * 2020-11-12 2022-06-24 大连理工大学 一种火箭推力下降故障下基于rbfnn的救援轨道决策方法
CN113627471A (zh) * 2021-07-03 2021-11-09 西安电子科技大学 一种数据分类方法、系统、设备及信息数据处理终端

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104589349A (zh) * 2015-01-16 2015-05-06 西北工业大学 一种混合悬浮微重力环境下带有单关节机械臂的组合体自主控制方法
CN107861517A (zh) * 2017-11-01 2018-03-30 北京航空航天大学 基于线性伪谱的跳跃式再入飞行器在线弹道规划制导方法
CN112800546A (zh) * 2021-01-29 2021-05-14 清华大学 一种火箭垂直回收状态可控性分析方法和装置
CN113031448A (zh) * 2021-03-24 2021-06-25 西安电子科技大学 基于神经网络的飞行器上升段轨迹优化方法
CN114036631A (zh) * 2021-10-22 2022-02-11 南京航空航天大学 一种基于强化学习的航天器自主交会对接制导策略生成方法
CN114237269A (zh) * 2021-11-29 2022-03-25 北京航天自动控制研究所 一种用于构建姿态控制系统极性故障模式识别模型的方法
CN114527795A (zh) * 2022-02-23 2022-05-24 哈尔滨逐宇航天科技有限责任公司 一种基于增量在线学习的飞行器智能控制方法
CN114967453A (zh) * 2022-05-25 2022-08-30 北京理工大学 一种基于神经网络的卫星东西位保协态初值估计方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
An online generation method of ascent trajectory based on feedforward neural networks;XinWang et al.;《Aerospace Science and Technology》;20220712;107739-1-107739-15 *
基于最优制导模板的神经网络预测制导方法;曾庆华 等;《国防科技大学学报》;20140228(第01期);137-141 *
基于神经网络的飞行器再入制导研究;曾志峰 等;《飞行力学》;20110630(第03期);64-67 *
基于近似动态规划的目标追踪控制算法;李惠峰 等;《北京航空航天大学学报》;20190331;597-605 *
高超声速飞行器的神经网络 PID 控制;管萍 等;《航天控制》;20180228;8-13 *

Also Published As

Publication number Publication date
CN115407664A (zh) 2022-11-29

Similar Documents

Publication Publication Date Title
Han et al. State-constrained agile missile control with adaptive-critic-based neural networks
CN112198870B (zh) 基于ddqn的无人机自主引导机动决策方法
CN108445766A (zh) 基于rpd-smc和rise的无模型四旋翼无人机轨迹跟踪控制器及方法
Waldock et al. Learning to perform a perched landing on the ground using deep reinforcement learning
CN107024863A (zh) 一种避免微分爆炸的uuv轨迹跟踪控制方法
CN111176263B (zh) 一种基于bp神经网络的飞行器推力故障在线辨识方法
CN103995540A (zh) 一种高超声速飞行器的有限时间轨迹快速生成方法
CN111221345B (zh) 一种基于决策树的飞行器动力系统故障在线辨识方法
CN111240345A (zh) 一种基于双bp网络增强学习框架的水下机器人轨迹跟踪方法
CN111258302B (zh) 一种基于lstm神经网络的飞行器推力故障在线辨识方法
CN114355777B (zh) 一种基于分布式压力传感器与分段姿态控制的动态滑翔方法及系统
CN104197793B (zh) 一种导弹pid控制器参数自适应调节的方法
CN111813146A (zh) 基于bp神经网络预测航程的再入预测-校正制导方法
Dong et al. Trial input method and own-aircraft state prediction in autonomous air combat
CN116107213A (zh) 一种基于sac和lgvf的航天器追捕任务组合优化控制方法
CN114721266B (zh) 飞机舵面结构性缺失故障情况下的自适应重构控制方法
CN113377121A (zh) 一种基于深度强化学习的飞行器智能抗扰动控制方法
Bohn et al. Data-efficient deep reinforcement learning for attitude control of fixed-wing uavs: Field experiments
CN115407664B (zh) 一种基于神经网络训练的非程序制导方法
Cheng et al. Hover-to-cruise transition control for high-speed level flight of ducted fan UAV
GOODRICH et al. Development of a tactical guidance research and evaluation system (TGRES)
Dai et al. Integrated morphing strategy and trajectory optimization of a morphing waverider and its online implementation based on the neural network
CN114489095B (zh) 一种应用于变体飞行器的类脑脉冲神经网络控制方法
CN113778117B (zh) 一种针对飞机纵向最优路径规划的初值智能选取多阶段伪谱法
Pappalardo et al. Modeling the Longitudinal Flight Dynamics of a Fixed-Wing Aircraft by using a Multibody System Approach.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant