CN117518836B

CN117518836B - 变体飞行器鲁棒深度强化学习制导控制一体化方法

Info

Publication number: CN117518836B
Application number: CN202410011463.1A
Authority: CN
Inventors: 李繁飙; 曹承钰; 丁溶; 谢启超; 廖宇新; 魏才盛; 阳春华
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2024-01-04
Filing date: 2024-01-04
Publication date: 2024-04-09
Anticipated expiration: 2044-01-04
Also published as: CN117518836A

Abstract

本发明实施例中提供了一种变体飞行器鲁棒深度强化学习制导控制一体化方法，属于控制技术领域，具体包括：建立飞行器纵向运动模型，并基于纵向运动模型和纵向航程控制建立制导方程，得到飞行器制导控制一体化模型及其对应的制导控制一体化问题描述；基于有限时间滑模控制理论和TD3算法框架，设计滑模控制算法与TD3算法联合的鲁棒深度强化学习方法，建立飞行器制导控制一体化问题的深度强化学习模型；基于鲁棒深度强化学习方法和深度强化学习模型，离线训练鲁棒制导控制智能体；将鲁棒制导控制智能体在线部署，使其在线输出控制指令，实现观测量到控制量的端到端飞行控制。通过本发明的方案，提高了控制效率、精准度、鲁棒性和自主性。

Description

变体飞行器鲁棒深度强化学习制导控制一体化方法

技术领域

本发明实施例涉及控制技术领域，尤其涉及一种变体飞行器鲁棒深度强化学习制导控制一体化方法。

背景技术

目前，变体飞行器作为一种含有大范围、大尺度变形机构的飞行器，可根据任务需要和环境变化自主改变气动外形，以保证飞行器在任意飞行阶段均具有优良的气动特性和飞行性能。综合来看，变体飞行器制导控制方法设计面临以下突出问题：1)建模困难：跨大空域、宽速域飞行的变体飞行器受到来自环境和自身变构引起的快时变、强耦合的模型不确定性和干扰的影响，难以建立精确的数学模型；2）制导控制耦合：在高速飞行过程中，飞行器制导与姿态控制两子系统间的状态交互影响和耦合作用十分明显，且变形的存在会同时改变制导回路与控制回路的运动参数，传统制导控制分离设计方案的效果较差；3)多任务多约束：飞行器为保证飞行安全、满足制导控制精度要求存在多种复杂的过程约束和终端约束，同时还需要满足高机动能力要求和多样化任务需求，变形机构的存在提升了飞行器的气动性能，但也为多约束、强耦合的制导控制问题求解增大了难度。此外，人工智能和机器学习等领域的快速发展给飞行器飞行控制带来了很多新的思路，近年来涌现出大量基于学习的智能控制方法，其中结合深度强化学习的方法在处理上述难题时表现出巨大的优势。

可见，亟需一种能克服复杂环境、多约束、外界干扰和模型不确定性影响的快速、高精度、强鲁棒和强自主性的变体飞行器鲁棒深度强化学习制导控制一体化方法。

发明内容

有鉴于此，本发明实施例提供一种变体飞行器鲁棒深度强化学习制导控制一体化方法，至少部分解决现有技术中存在控制效率、精准度、鲁棒性和自主性较差的问题。

本发明实施例提供了一种变体飞行器鲁棒深度强化学习制导控制一体化方法，包括：

步骤1，建立飞行器纵向运动模型，并基于纵向运动模型和纵向航程控制建立制导方程，得到飞行器制导控制一体化模型及其对应的制导控制一体化问题描述；

步骤2，基于有限时间滑模控制理论和TD3算法框架，设计滑模控制算法与TD3算法联合的鲁棒深度强化学习方法，建立飞行器制导控制一体化问题的深度强化学习模型；

所述步骤2具体包括：

步骤2.1，构建以TD3算法为基础的深度强化学习算法框架，所述深度强化学习算法框架包括构建6个深度神经网络和网络的训练及更新，6个深度神经网络包括：1个策略网络用于逼近最优策略，2个价值网络用于估计动作价值函数，3个网络各自对应一个目标网络，在更新价值网络的动作价值函数时，选择两个价值网络中较小的一组动作价值函数值为时间差分目标，并进行延迟网络更新操作和目标策略平滑操作；

步骤2.2，设计一个马尔科夫决策过程，据此建立变体飞行器制导控制一体化问题的深度强化学习模型；

步骤3，基于鲁棒深度强化学习方法和深度强化学习模型，离线训练鲁棒制导控制智能体；

步骤4，将鲁棒制导控制智能体在线部署，使其在线输出控制指令，实现观测量到控制量的端到端飞行控制。

根据本发明实施例的一种具体实现方式，所述飞行器纵向运动模型的表达式为

；

其中，为地心距，分别为飞行器质量和速度，分别为经度和纬度，是引力加速度矢量，分别为航迹倾角和航迹偏角，为攻角，为俯仰角速率，为飞行器绕体轴转动惯量，分别为总阻力和总升力，为俯仰通道的合力矩；

所述制导方程即为航迹倾角期望指令的计算公式，其根据飞行器在滑翔段的准平衡滑翔飞行条件和纵向航程控制得到，航迹倾角期望指令的表达式为

；

其中，为纵向待飞航程，是由球面几何确定的飞行器与终点之间的圆弧角度；分别为终端目标点的经度和纬度，为飞行器终端目标点地心距；

所述飞行器制导控制一体化模型的表达式为

；

其中，

；

其中，为各通道总扰动，为升力系数，为俯仰舵偏角，为大气密度，为参考面积，为平均气动弦长，为气动参数矩阵，为折叠翼变形机构的折叠角；

所述飞行器制导控制一体化问题包括：根据飞行任务，即从某一初始位置按照准平衡滑翔条件飞行至由经纬高坐标唯一确定的终端目标点，设计控制量使航迹倾角快速、准确地跟踪实时计算的期望航迹倾角指令，从而使飞行器精确到达终端目标点。

根据本发明实施例的一种具体实现方式，所述步骤2.2具体包括：

步骤2.2.1，基于状态分级和数据增强策略改进传统深度强化学习算法的状态空间形式，对飞行器可观测状态量进行分级，其具体形式如下：

；

其中，为飞行器可观测状态量，,分别为策略网络和价值网络的状态空间，为航迹倾角跟踪误差，为飞行器当前位置与目标点的相对距离，，为初始待飞航程，为待设计的滑模变量，基于有限时间滑模控制理论设计滑模变量实现对状态量输入信息的数据增强，所设计滑模变量的具体形式如下：

；

其中，均为正常数，均为正整数且均为奇数，且满足，sgn为符号函数，基于的特殊收敛形式，当时，可在有限时间内收敛至原点邻域，且满足：

；

由此，将航迹倾角的航迹跟踪控制问题转化为使的深度强化学习求解问题；

步骤2.2.2，将飞行器俯仰舵偏角作为动作空间，利用策略网络实现数据增强后的特征状态变量到控制量的映射；

步骤2.2.3，设计面向变体飞行器纵向制导控制一体化设计的混合奖励函数，其由航迹倾角跟踪误差连续奖励函数、滑模变量连续奖励函数、相对距离连续奖励函数、高度连续奖励函数、航迹倾角变化率连续奖励函数、攻角约束稀疏奖励函数、攻角变化率约束稀疏奖励函数、过载约束稀疏奖励函数和位置误差终端奖励函数加权组合得到，其中所述航迹倾角跟踪误差连续奖励函数表示为，

所述滑模变量连续奖励函数表示为，

所述相对距离连续奖励函数表示为，

所述高度连续奖励函数表示为，

所述航迹倾角变化率连续奖励函数可表示为，

所述攻角约束稀疏奖励函数可表示为，

所述攻角变化率约束稀疏奖励函数可表示为，

所述过载约束稀疏奖励函数可表示为，

所述位置误差终端奖励函数可表示为，

其中，为初始地心距，和分别为攻角边界约束，为攻角变化率约束，为过载约束，为终端误差边界；

将面向变体飞行器纵向制导控制一体化设计的混合奖励函数的形式表示为，其中为待设计正常数；

步骤2.2.4，设计深度强化学习算法的神经网络结构，所述策略网络和价值网络均由包含2个隐藏层的全连接神经网络实现，每个隐藏层都由256个神经元组成，并使用Relu作为激活函数，其中策略网络输入层的1个神经元对应一维状态量，智能体的一维动作由输出层的1个神经元给出，激活函数为Tanh，价值网络五维状态量与一维动作拼接后经过两个隐藏层，最终输出动作价值函数值，激活函数为Linear。

根据本发明实施例的一种具体实现方式，所述步骤3具体包括：

步骤3.1，初始化价值网络1、价值网络2、策略网络，初始化对应网络的参数、、；

步骤3.2，初始化目标网络，复制价值网络和策略网络参数，，；

步骤3.3，初始化容量为的记忆缓存单元；

步骤3.4，设置最大回合数，在每个回合中执行预设的更新操作；

步骤3.5，直到达到最大回合数，结束本次训练，得到训练好的鲁棒制导控制智能体。

根据本发明实施例的一种具体实现方式，所述步骤3.4具体包括：

步骤3.4.1，设置每回合最大限定步数；

步骤3.4.2，根据当前状态，选取动作，其中噪声服从均值为0，标准差为的正态分布，即,得到新状态、相应的奖励值；

步骤3.4.3，将记忆样本存入记忆缓存单元；

步骤3.4.4，随机从记忆缓存单元中取出个样本进行参数更新；

步骤3.4.5，在目标策略的输出动作中加入噪声,其中噪声服从均值为0，标准差为的正态分布，即；

步骤3.4.6，计算时间差分目标；

步骤3.4.7，计算价值网络的损失函数

；

步骤3.4.8，更新价值网络参数和：，其中，为折扣因子，、和分别为策略网络和价值网络的学习率，表示策略更新的时间步，为软更新率；

步骤3.4.9，每隔j轮更新一次策略网络和3个目标网络的参数；

步骤3.4.10，直到步数达到最大限定步数，结束本回合。

根据本发明实施例的一种具体实现方式，所述步骤3.4.9具体包括：

步骤3.4.9.1，计算策略网络的损失函数：

；

步骤3.4.9.2，对策略网络参数，按照下式进行更新：

；

步骤3.4.9.3，更新目标网络参数，和：

。

根据本发明实施例的一种具体实现方式，所述步骤3.4.1之前，所述方法还包括：

在每回合训练初始时刻，在一个确定随机域中选取飞行器的初始状态量，在另一确定随机域中选择参数不确定项的和干扰项的拉偏量。

根据本发明实施例的一种具体实现方式，所述步骤4具体包括：

将训练得到的鲁棒制导控制智能体进行在线部署，然后将状态输入通过鲁棒制导控制智能体策略网络的前向传播得到动作，即俯仰舵偏角，实现对航迹倾角期望指令的精确跟踪，完成变体飞行器滑翔段纵向位置姿态一体化控制。

本发明实施例中的变体飞行器鲁棒深度强化学习制导控制一体化方案，包括：步骤1，建立飞行器纵向运动模型，并基于纵向运动模型和纵向航程控制建立制导方程，得到飞行器制导控制一体化模型及其对应的制导控制一体化问题描述；步骤2，基于有限时间滑模控制理论和TD3算法框架，设计滑模控制算法与TD3算法联合的鲁棒深度强化学习方法，建立飞行器制导控制一体化问题的深度强化学习模型；步骤3，基于鲁棒深度强化学习方法和深度强化学习模型，离线训练鲁棒制导控制智能体；步骤4，将鲁棒制导控制智能体在线部署，使其在线输出控制指令，实现观测量到控制量的端到端飞行控制。

本发明实施例的有益效果为：1）基于深度强化学习理论将变体飞行器制导控制一体化问题转化为强化学习优化问题，采用所提出的鲁棒深度强化学习方法来训练强化学习制导控制智能体，生成从观测量到行为映射的端到端确定性策略，所提出方法不仅不依赖于飞行器精确数学模型，且能适应变形及环境引入的模型不确定性和干扰，实现了良好的制导控制性能；

2）基于有限时间滑模控制理论和TD3算法框架，设计了滑模控制算法与 TD3算法联合的鲁棒深度强化学习方法，有效提升了强化学习方法的鲁棒性和抗干扰能力；

3）采用数据增强和域随机化的手段改进了传统深度强化学习的马尔科夫决策过程建模和智能体训练，有效提升了深度强化学习方法应对未知不确定环境的适应能力和泛化能力。通过本发明的方案，提高了控制效率、精准度、鲁棒性和自主性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种变体飞行器鲁棒深度强化学习制导控制一体化方法的流程示意图；

图2为本发明实施例提供的一种变体飞行器鲁棒深度强化学习制导控制一体化方法的控制框图；

图3为本发明实施例提供的一种奖励、策略网络和价值网络损失函数的曲线图；

图4为本发明实施例提供的一种航迹倾角、航迹偏角、待飞航程、折叠角和俯仰舵偏角的曲线图；

图5为本发明实施例提供的一种500次蒙特卡洛仿真的累计奖励的频率分布直方图。

图6为本发明实施例提供的一种500次蒙特卡洛仿真的终端脱靶量的频率分布直方图。

具体实施方式

下面结合附图对本发明实施例进行详细描述。

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本发明，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

还需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

另外，在以下描述中，提供具体细节是为了便于透彻理解实例。然而，所属领域的技术人员将理解，可在没有这些特定细节的情况下实践所述方面。

本发明实施例提供一种变体飞行器鲁棒深度强化学习制导控制一体化方法，所述方法可以应用于航空航天场景的变体飞行器制导控制过程中。

参见图1，为本发明实施例提供的一种变体飞行器鲁棒深度强化学习制导控制一体化方法的流程示意图。如图1所示，所述方法主要包括以下步骤：

所述步骤1建立飞行器纵向运动模型和制导控制一体化模型具体包括：

变体飞行器纵向运动模型为

；

其中，为地心距，分别为飞行器质量和速度，分别为经度和纬度，是引力加速度矢量，分别为航迹倾角和航迹偏角，为攻角，为俯仰角速率，为飞行器绕体轴转动惯量，分别为总阻力和总升力，为俯仰通道的合力矩。

基于变体飞行器在滑翔段的准平衡滑翔飞行条件，可通过待飞航程推导航迹倾角指令的表达式。在纵平面内，飞行器能滑翔飞行至目标点的期望航迹倾角为

；

其中，为由球面几何确定的飞行器与终点之间的圆弧角度，分别为飞行器当前经度和纬度；分别为终端目标点的经度和纬度，和分别为飞行器当前地心距和终端目标点地心距。此外，在纵平面内航迹偏角由飞行器当前经纬度和目标经纬度根据球面三角形解算，具体如下：

；

面向飞行器位置姿态一体化控制的模型为

；

其中，

；

其中，为各通道总扰动，为升力系数，为俯仰舵偏角，为大气密度，为参考面积，为平均气动弦长，为气动参数矩阵，为折叠翼变形机构的折叠角。所述飞行器制导控制一体化问题可描述为：设计控制量，使航迹倾角快速、精确地跟踪航迹倾角指令。

所述步骤2设计滑模控制算法与TD3算法联合的鲁棒深度强化学习方法，具体包括：

构建以TD3算法为基础的深度强化学习算法框架，其主要构建6个深度神经网络：1个策略网络用于逼近最优策略，以及2个价值网络用于估计动作价值函数。这3个网络又各自对应1个目标网络。在更新价值网络的动作价值函数时，选择2个价值网络中较小的一组动作价值函数值为时间差分目标，以减小动作值过度估计问题。此外，还采取延迟网络更新和目标策略平滑的手段来提升算法的收敛性能。

基于状态分级和数据增强策略改进传统深度强化学习算法的状态空间形式。一方面，对飞行器可观测状态量进行分级，其具体形式如下：

；

其中，为飞行器可观测状态量，,分别为策略网络和价值网络的状态空间，为航迹倾角跟踪误差，为飞行器当前位置与目标点的相对距离，，为初始待飞航程，为待设计的滑模变量。另一方面，基于有限时间滑模控制理论设计滑模变量实现对状态量输入信息的数据增强，所设计滑模变量的具体形式如下：

；

其中，均为正常数，均为正整数且均为奇数，且满足，sgn为符号函数。基于的特殊收敛形式，当时，可在有限时间内收敛至原点邻域，且满足：

；

由此，可将航迹倾角的航迹跟踪控制问题转化为使的深度强化学习求解问题，借助于滑模控制方法优良的鲁棒性可有效提升算法的抗干扰能力和泛化性能。

将飞行器俯仰舵偏角作为动作空间，利用策略网络实现数据增强后的特征状态变量到控制量的映射。

设计面向变体飞行器纵向制导控制一体化设计的混合奖励函数，其由航迹倾角跟踪误差连续奖励函数、滑模变量连续奖励函数、相对距离连续奖励函数、高度连续奖励函数、航迹倾角变化率连续奖励函数、攻角约束稀疏奖励函数、攻角变化率约束稀疏奖励函数、过载约束稀疏奖励函数和位置误差终端奖励函数加权组合得到。

所述航迹倾角跟踪误差连续奖励函数可表示为，

所述滑模变量连续奖励函数可表示为，

所述相对距离连续奖励函数可表示为，

所述高度连续奖励函数可表示为，

所述航迹倾角变化率连续奖励函数可表示为，

所述攻角约束稀疏奖励函数可表示为，

所述攻角变化率约束稀疏奖励函数可表示为，

所述过载约束稀疏奖励函数可表示为，

所述位置误差终端奖励函数可表示为，

其中，为初始地心距，和分别为攻角边界约束，为攻角变化率约束，为过载约束，为终端误差边界。

所述面向变体飞行器纵向制导控制一体化设计的混合奖励函数的形式可表示为，其中为待设计正常数。

设计深度强化学习算法的神经网络结构，所述策略网络和价值网络均由包含2个隐藏层的全连接神经网络实现，每个隐藏层都由256个神经元组成，并使用Relu作为激活函数。其中策略网络输入层的1个神经元对应1维状态量，智能体的1维动作由输出层的1个神经元给出，激活函数为Tanh。而价值网络5维状态量与1维动作拼接后经过隐藏层1和2，最终输出动作价值函数值，激活函数为Linear。

如图2所示，所述步骤3离线训练鲁棒制导控制智能体的步骤具体包括

初始化价值网络1、价值网络2、策略网络，初始化对应网络的参数、、；

初始化目标网络，复制价值网络和策略网络参数，，；

初始化容量为的记忆缓存单元，设置最大回合数，在每个回合中执行以下步骤：

设置每回合最大限定步数；

根据当前状态，选取动作，其中噪声服从均值为0，标准差为的正态分布，即,得到新状态、相应的奖励值；

将记忆样本存入记忆缓存单元；

随机从记忆缓存单元中取出个样本进行参数更新；

在目标策略的输出动作中加入噪声,其中噪声服从均值为0，标准差为的正态分布，即

计算时间差分目标；

计算价值网络的损失函数

；

更新价值网络参数和：；

每隔j轮更新一次策略网络和3个目标网络的参数，更新步骤包括；

计算策略网络的损失函数：

对策略网络参数，按照下式进行更新：

更新目标网络参数，和：

直到步数达到最大限定步数，结束本回合，直到达到最大回合数，结束本次训练。其中，为折扣因子，、和分别为策略网络和价值网络的学习率，表示策略更新的时间步，为软更新率。

所述训练鲁棒制导控制智能体还包括采取域随机化策略以提升智能体的鲁棒性和泛化能力，其具体步骤包括：在每回合训练初始时刻，在一个确定随机域中选取飞行器的初始状态量，在另一确定随机域中选择参数不确定项的和干扰项的拉偏量。

具体实施时，在得到离线训练好的鲁棒制导控制智能体后，可以将训练得到的策略网络进行在线部署以用于飞行器制导控制一体化任务，将状态输入通过策略网络的前向传播得到动作，即俯仰舵偏角，实现对航迹倾角期望指令的精确跟踪，从而实现变体飞行器滑翔段纵向位置姿态一体化控制。

本实施例提供的变体飞行器鲁棒深度强化学习制导控制一体化方法，通过基于深度强化学习理论将变体飞行器制导控制一体化问题转化为强化学习优化问题，采用所提出的鲁棒深度强化学习方法来训练强化学习制导控制智能体，生成从观测量到行为映射的端到端确定性策略，所提出方法不仅不依赖于飞行器精确数学模型，且能适应变形及环境引入的模型不确定性和干扰，实现了良好的制导控制性能；基于有限时间滑模控制理论和TD3算法框架，设计了滑模控制算法与TD3算法联合的鲁棒深度强化学习方法，有效提升了强化学习方法的鲁棒性和抗干扰能力；采用数据增强和域随机化的手段改进了传统深度强化学习的马尔科夫决策过程建模和智能体训练，有效提升了深度强化学习方法应对未知不确定环境的适应能力和泛化能力。

下面将结合一个具体实施例对本方案进行说明，

以飞行器纵向运动方程为模型基础构建强化学习训练环境，以滑翔段某一高度为起点，预设飞行器初始状态量、折叠角剖面和终端目标点，以策略网络输出动作为控制量，进行闭环制导控制一体化仿真，实现智能体与环境的交互并进行神经网络的训练。训练采用回合（Episode）制，在每一回合均进行一次完整的闭环位置姿态控制仿真。动力学模型积分步长和控制周期保持一致，均为0.01s。单回合训练时间由仿真停止条件决定，为自适应参数。训练超参数如表1所示。在训练过程中采用域随机化方式注入状态量偏差、外部扰动及模型不确定性，增强训练的完备性和训练出智能体的鲁棒性。具体来说：首先定义参数域及其上下限，如表2和表3所示；然后从所设计参数域中随机选取某一值进行迭代训练。

图3给出了智能体训练过程中的单回合总奖励及损失函数的变化曲线，其中，（a）表示单回合总奖励和移动平均奖励曲线图，（b）表示策略网络和价值网络损失函数的曲线图。综合图3可知，在500回合后，奖励和损失函数均已收敛，认为智能体已学习到最优策略，可用于在线部署。

为进一步检验智能体策略对模型不确定性的鲁棒性，基于随机组合开展500次蒙特卡洛仿真。图4为500次仿真中的一例，其中，（a）表示航迹倾角跟踪期望航迹倾角的变化曲线，（b）表示待飞航程的变化曲线，（c）表示折叠角的变化曲线，（d）表示舵偏角的变化曲线。可以看出，在智能体策略下，实现了优异的控制性能，具体体现在：1) 对期望航迹倾角指令跟踪较好；2) 舵偏角平稳、平滑、无抖振、无饱和，舵偏角幅值和变化率均满足预设约束；3) 终端脱靶量为26.18m，精度较高。图5和图6为500次蒙特卡洛仿真的单回合总奖励和终端脱靶量的频率分布直方图。可以看出，所有奖励均分布在[6300,6800]区间，500次平均奖励为6611.88，所有脱靶量均分布在[0,30m]区间，平均值为19.23m。上述结论验证了智能体训练的优异效果，充分体现了智能体策略对不同初始条件、模型不确定性和外部干扰的鲁棒性。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种变体飞行器鲁棒深度强化学习制导控制一体化方法，其特征在于，包括：

所述飞行器纵向运动模型的表达式为

；

所述飞行器制导控制一体化模型的表达式为

；

其中，

；

所述飞行器制导控制一体化问题包括：根据飞行任务，即从某一初始位置按照准平衡滑翔条件飞行至由经纬高坐标唯一确定的终端目标点，设计控制量使航迹倾角快速、准确地跟踪实时计算的期望航迹倾角指令，从而使飞行器精确到达终端目标点；

所述步骤2具体包括：

所述步骤2.2具体包括：

；

其中，为飞行器可观测状态量，分别为策略网络和价值网络的状态空间，为航迹倾角跟踪误差，为飞行器当前位置与目标点的相对距离，为初始待飞航程，为待设计的滑模变量，基于有限时间滑模控制理论设计滑模变量实现对状态量输入信息的数据增强，所设计滑模变量的具体形式如下：

；

所述滑模变量连续奖励函数表示为，

所述相对距离连续奖励函数表示为，

所述高度连续奖励函数表示为，

所述航迹倾角变化率连续奖励函数可表示为，

所述攻角约束稀疏奖励函数可表示为，

所述攻角变化率约束稀疏奖励函数可表示为，

所述过载约束稀疏奖励函数可表示为，

所述位置误差终端奖励函数可表示为，

步骤2.2.4，设计深度强化学习算法的神经网络结构，所述策略网络和价值网络均由包含2个隐藏层的全连接神经网络实现，每个隐藏层都由256个神经元组成，并使用Relu作为激活函数，其中策略网络输入层的1个神经元对应一维状态量，智能体的一维动作由输出层的1个神经元给出，激活函数为Tanh，价值网络五维状态量与一维动作拼接后经过两个隐藏层，最终输出动作价值函数值，激活函数为Linear；

2.根据权利要求1所述的方法，其特征在于,所述步骤3具体包括：

步骤3.3，初始化容量为的记忆缓存单元；

3.根据权利要求2所述的方法，其特征在于,所述步骤3.4具体包括：

步骤3.4.1，设置每回合最大限定步数；

步骤3.4.3，将记忆样本存入记忆缓存单元；

步骤3.4.6，计算时间差分目标；

步骤3.4.7，计算价值网络的损失函数

；

步骤3.4.9，每隔j轮更新一次策略网络和3个目标网络的参数；

步骤3.4.10，直到步数达到最大限定步数，结束本回合。

4.根据权利要求3所述的方法，其特征在于,所述步骤3.4.9具体包括：

步骤3.4.9.1，计算策略网络的损失函数：

；

步骤3.4.9.2，对策略网络参数，按照下式进行更新：

；

步骤3.4.9.3，更新目标网络参数，和：

。

5.根据权利要求4所述的方法，其特征在于,所述步骤3.4.1之前，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于,所述步骤4具体包括：