CN111027143A

CN111027143A - 一种基于深度强化学习的舰载机进近引导方法

Info

Publication number: CN111027143A
Application number: CN201911308198.9A
Authority: CN
Inventors: 李辉; 吴昭欣; 王壮; 陈希亮
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2020-04-17
Anticipated expiration: 2039-12-18
Also published as: CN111027143B

Abstract

本发明公开了一种基于深度强化学习的舰载机进近引导方法，包括以下步骤：首先，对舰载机和航母进行建模，构建智能体训练环境；其次，构建深度强化学习引导智能体，设计智能体的状态空间和决策动作空间；然后，根据舰载机进近成功条件设置奖励函数；之后，设置引导场景中舰载机和航母的初始姿态，并采用深度强化学习方法训练智能体；最后，使用训练完成的智能体准确引导舰载机到达最终进近点。本发明可以应用于舰载机智能引导中，利用具备指挥控制能力的智能体辅助指挥人员进行指挥，引导舰载机从任意姿态到达最终进近点，解决了进近过程中舰载机在固定航线等待进近导致的进近效率低、耗时久的问题，使进近过程更加高效、可靠。

Description

一种基于深度强化学习的舰载机进近引导方法

技术领域

本发明属于计算机应用及人工智能技术领域，特别设计一种基于深度强化学习的舰载机进近引导方法。

背景技术

舰载机是航空母舰战斗力的重要保障，而舰载机能否高效、可靠地到达进近点是保证航空母舰战斗力最主要的技术条件之一。现有进近引导技术要求舰载机在固定航线等待，依次进近，导致进近引导效率低、耗时久，无法满足进近过程高效、可靠地要求。本发明提出了一种基于深度强化学习的舰载机进近引导方法，该方法能够利用深度强化学习方法训练出引导智能体，用于辅助指挥人员指挥控制进近过程，使舰载机从任意姿态都能高效、可靠地到达进近点，同时能针对不同的舰载机类型进行自主学习，有较好的适应性。

发明内容

本发明的目的在于解决现有舰载机进近引导技术效率低、耗时久的问题，提出一种基于深度强化学习的舰载机进近引导方法，可使舰载机从任意姿态都能高效、可靠地到达进近点，提高舰载机进近引导效率。

为实现以上目的，本发明采取如下技术方案：

一种基于深度强化学习的舰载机进近引导方法，包括以下步骤：

步骤一，根据动力学方程和运动学方程，对舰载机和航母进行建模，构建智能体训练环境；

步骤二，依据舰载机引导任务特性，构建基于深度强化学习的引导智能体，设计智能体的状态空间和决策动作空间；

步骤三，根据舰载机成功引导条件，确定智能体的输出策略，设置奖励函数和训练终止条件；

步骤四，利用深度强化学习的方法，对引导智能体深度神经网络进行训练，直至引导智能体可准确生成引导指令，引导舰载机到达最终进近点，得到训练完成的引导智能体；

步骤五，利用训练好的智能体在场景中引导舰载机进近，此时引导智能体具备准确引导舰载机到达最终进近点的能力。

本发明相对于现有技术具有如下的优点和效果：

（1）本发明将深度强化学习方法应用于舰载机进近引导过程中，利用引导智能体辅助指挥人员指挥控制进近过程，实现舰载机在任意姿态下都能高效、可靠地到达进近点，不需要在固定航线等待，提高了进近引导效率；

（2）本发明可以使用多种飞机的性能参数数据进行训练，能够实现不同飞机的进近引导。

附图说明

图1为本实施例的一种基于深度强化学习的舰载机进近引导方法的步骤流程图；

图2为本实施例的一种基于深度强化学习的舰载机进近引导方法的深度强化学习原理架构图；

图3 为本实施例的基于深度强化学习的舰载机进近引导方法训练过程成功率变化图；

图4为本实施例的一种基于深度强化学习的舰载机进近引导方法的舰载机引导实例航迹图。

具体实施方式

为了使本发明的目的、技术方案以及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。

本实施方式进近场景中，为方便表述舰载机态势信息，以航母的初始位置为坐标原点，建立地面坐标系，智能体在该进近场景中进行舰载机进近引导实验；如图1所示，一种基于深度强化学习的舰载机进近引导方法，包括以下几个步骤：

所述步骤一具体包含以下步骤：

研究飞机的连续决策控制问题时，根据动力学基本定理和飞机质心动力学方程，使用过载来描述飞机的机动过程，在航迹坐标系内建立的飞机过载动力学方程如下：

其中，g为重力加速度，

是为轨迹倾角，

为轨迹偏角，

为飞机飞行速度，

为切向过载，

,

分别为法向过载在y轴、z轴系上的投影分量，

为飞机加速度大小，

为飞机轨迹倾角的变化率，

为飞机轨迹偏角的变化率；通过改变切向过载和法向过载的值，可以实现不同的机动动作，将通过飞机过载运动学方程获得的轨迹倾角、轨迹偏角、飞机速度值代入飞机质心运动学方程中即可获得飞机在地面坐标系中的位置变化；飞机质心运动学方程如下：

研究航母的运动情况时，将航母运动过程当作质点来考虑，忽略波浪对航母运动的影响，航母在水平面运动时在运动坐标系一般方程如下：

其中，X、Y为运动坐标系中的作用力，N为绕z轴的力矩，u、v为x、y轴速度的分量，

为航母的首向角，m代表航母的质量，

代表重心G在固定坐标系x轴上的值,

代表绕z轴转动产生的变化矩阵。

所述步骤二具体包含以下步骤：

依据舰载机引导任务特性，确定进近环境下舰载机和航母的态势信息；所述态势信息包含地面坐标系下位置和朝向角、速度、油量等；将进近环境下舰载机和航母的态势信息作为深度神经网络的状态输入；所述地面坐标系是以航母位置为坐标原点，正北方向为x轴正方向，以正东方向为z轴正方向，y轴的方向满足左手定则，且垂直于x、z轴方向；深度神经网络的状态输入S表达式如公式如下：

其中，S代表进近环境下舰载机和航母的态势信息，

、

、

、

分别代表舰载机的x、y、z坐标和朝向角，

、

、

、

分别代表航母的x、y、z坐标和朝向角；L代表进近场景宽度，

代表舰载机当前剩余油量，

代表舰载机总可用油量，

代表当前舰载机机动动作，

代表舰载机动作空间的大小；

在地面坐标系下，设计深度神经网络输出的决策动作空间a的集合为A，其中，集合A是根据NASA学者提出的空战最常用的基本动作库提取出7种基本动作的集合；所述的7种基本动作包含：1）最大加速，2）最大减速，3)最大过载爬升，4）最大过载俯冲，5）最大过载左转，6）最大过载右转，7）稳定飞行；本实例中舰载机的决策动作空间，即舰载机可采取的动作共有七种，分别用[0,1,2,3,4,5,6]表示。

所述步骤三具体包含以下步骤：

根据舰载机成功引导条件，进近实验动作选取策略为ε-greedy策略如下所示，动作值由深度神经网络根据当前状态S给出；

其中，action代表网络的决策输出，epsilon表示一个随机产生的0到1之间的浮点数，action_space表示决策动作空间a的集合A，random函数表示从集合A内随机取一个动作；

表示将当前状态state输入到网络Q中，

表示从网络Q的输出中取最大值，

表示网络Q输出的最大值所对应的候选动作；

在训练过程中，每一步都生成一个0到1之间随机浮点数epsilon，如果随机数epsilon的值小于ε，则深度神经网络会在动作空间中随机选取动作，否则选择使神经网络Q输出最大的对应动作；即在每一步中，深度神经网络有ε的概率随机选取动作，有1-ε的概率按策略选取动作；

每次选取动作ε都会减少，ε随时间衰减的表达式如公式(4)所示:

其中：ε初始值为1，代表完全随机选取动作；α代表每次选取动作时ε的衰减值，其值为0.00004；β代表深度神经网络至少有β概率随机选取动作，即深度神经网络的探索率为β，其值为0.1；

在本实验实例中，以航母的位置[0,0,0]为坐标原点，在场景范围内随机生成舰载机位置；采集舰载机和航母的位置、朝向角、速度、油量数据并存储；数据的存储形式为

，对这组数据进行归一化处理得到当前状态

；

以当前状态

为深度神经网络的状态输入，计算当前状态

下每一个动作a的Q值

;

根据ε-greedy策略在决策动作空间中选择动作a，并执行动作a，得到下一个状态

和回报值R；回报值R由回报值函数给出，如下所示：

本实施方式中，当舰载机成功到达进近点时，获得R=1的回报值；当舰载机在训练过程中超出进近空域时，获得R=-1的回报值；当超出指定引导时间，即时间耗尽仍未到达进近点时，获得R=0的回报值；

将状态

作为深度神经网络的输入，计算当前状态

下每一个动作a的Q值

;重复上述过程，直至训练过程中舰载机在固定时间内成功率趋于稳定时停止训练；本实施方式实例在仿真场景中对舰载机进行了训练，给出如图4所示的舰载机进近引导实验成功率图。

在本实施例中，所述舰载机着舰引导条件为：

如果舰载机到达进近点，且高度、速度、航向、飞机构型等飞行状态需达到下滑着舰要求则舰载机进近引导结束。

在本实施例中，所述舰载机到达进近点位置的判断方法为：

判断当前时刻舰载机位置和进近点位置的距离、高度、朝向角的偏差

、

、

，通过如下公式计算：

其中，

、

、

、

分别代表舰载机的x、y、z坐标和朝向角，

、

、

分别代表进近点的x、y、z坐标，

代表航母的朝向；如果

，

，

，则判断舰载机已经到达进近点位置。

在本实例中，所述引导智能体训练方法为：

在每个训练步长内，对进近场景内舰载机和航母坐标进行初始化，在进近场景范围内随机生成舰载机，引导智能体根据舰载机当前姿态和与航母的相对位置，生成引导指令，舰载机执行该指令并根据指令质量给出奖励值，最终舰载机依靠智能体引导成功到达最终进近点；本实施方式将训练成功的智能体应用于引导舰载机到达进近点中，给出了如图3所示的一种基于深度强化学习的舰载机进近引导方法的舰载机引导实例航迹图。

本发明的上述算例仅为详细地说明本发明的计算模型和计算流程，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.一种基于深度强化学习的舰载机进近引导方法，其特征在于，包括以下步骤：