CN113419548A

CN113419548A - 一种航天器深度强化学习莱维飞行控制系统

Info

Publication number: CN113419548A
Application number: CN202110593261.9A
Authority: CN
Inventors: 汤亮; 王勇; 袁利; 韩冬; 黄煌
Original assignee: Beijing Institute of Control Engineering
Current assignee: Beijing Institute of Control Engineering
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2021-09-21

Abstract

一种航天器深度强化学习莱维飞行控制系统，包括：自主规划模块，根据航天器的状态信息获取特征，利用该特征进行预测，并获得莱维飞行参数；莱维飞行模块，利用莱维飞行参数，确定下一时刻的飞行轨迹；航天器姿轨控模块，用于控制飞行器跟踪下一时刻的飞行轨迹。本发明在莱维飞行的基础上，采用深度强化学习以综合考虑各种因素，选择最佳的飞行轨迹，以保证在最优的飞行性能。

Description

一种航天器深度强化学习莱维飞行控制系统

技术领域

本发明涉及一种航天器深度强化学习莱维飞行控制系统，用于解决各类航天器在轨机动问题。

背景技术

莱维分布是法国数学家莱维(Levy)于20世纪30年代提出的一种概率分布，莱维飞行是一种非高斯随机过程,它是以发生长程跳跃为特点的一类具有马尔科夫性质的随机过程,其步长服从莱维分布，这是一种短距离搜索与偶尔长距离搜索相间的随机行走模式。科学家经过研究发现，许多鸟类、昆虫的飞行路径都遵循莱维飞行的规律。因此，航天器在受到攻击时可以采用莱维飞行，其能够减小击中概率，快速脱离危险区域。

莱维飞行可以简单地用数学描述为

其中，X_t为在t时刻的位置，

为点乘运算，Levy(λ)由莱维飞行得到的位置增量，λ为可调参数。

一般采用Mantegna算法模拟Levy(λ)，其数学表达式如下所示：

其中，u服从正态分布

v服从正态分布N(0,1)，

从上式可见，通过调整参数λ可以调整Levy(λ)飞行整体飞行步长。从而可以调节整体的飞行轨迹。

但航天器除了考虑采用何种飞行轨迹外，还要考虑燃料消耗、机动能力等各种复杂的限制因素，因此需要航天器综合选择合适的飞行策略。

现有技术中，尚无已有方案或流程可供借鉴。

发明内容

本发明要解决的技术问题是：克服现有技术的不足，提供了一种航天器深度强化学习莱维飞行控制系统，包括：自主规划模块，根据航天器的状态信息获取特征，利用该特征进行预测，并获得莱维飞行参数；莱维飞行模块，利用莱维飞行参数，确定下一时刻的飞行轨迹；航天器姿轨控模块，用于控制飞行器跟踪下一时刻的飞行轨迹。本发明在莱维飞行的基础上，采用深度强化学习以综合考虑各种因素，选择最佳的飞行轨迹，以保证在最优的飞行性能。

本发明目的通过以下技术方案予以实现：

一种航天器深度强化学习莱维飞行控制系统，包括：

基于深度学习的特征提取模块，用于根据航天器的状态信息获取特征；

基于深度强化学习自主规划模块，利用特征进行预测，并获得莱维飞行参数；

莱维飞行模块，利用莱维飞行参数，确定下一时刻的飞行轨迹；

航天器姿轨控模块，用于控制飞行器跟踪莱维飞行模块生成的飞行轨迹。

在本发明一实施例中，基于深度学习的特征提取模块利用深度神经网络，对航天器的状态信息进行提取。

在本发明一实施例中，评价网络利用所述特征进行预测，测的结果包括Q值和击中概率。

在本发明一实施例中，策略网络利用所述特征获得莱维飞行参数。

一种航天器深度强化学习莱维飞行控制方法，包括如下步骤：

从航天器的状态信息中提取特征；

基于该特征，利用评价网络进行预测，利用策略网络生成莱维飞行参数；

根据航天器的状态信息和莱维飞行参数，确定下一时刻的飞行轨迹；

控制飞行器跟踪下一时刻的飞行轨迹。

在本发明一实施例中，航天器的状态信息包括位置、姿态、速度、角速度和击中概率。

在本发明一实施例中，采用强化学习方法训练策略网络。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，实现上述航天器深度强化学习莱维飞行控制方法。

本发明相比于现有技术具有如下有益效果：

(1)本发明结合深度强化学习和莱维飞行生提出了一种飞行策略，充分利用了莱维飞行随机游走特性，保持了飞行轨迹的随机性；

(2)本发明充分挖掘了莱维飞行重要参数λ的作用，通过设置不同λ，控制飞行轨迹随机变化的增量，从而实现随机飞行轨迹一定程度的可控性；

(3)通过引入深度强化学习调节莱维飞行的参数λ，实现飞行随机化的同时考虑多种限制因素的目的；

(4)利用深度神经网络的特征提取能力，实现了对各种复杂异构信息的特征提取，使航天器能够综合各种信息做出决策。

附图说明

图1为本发明系统方案的组成示意图；

图2为特征提取网络结构；

图3为策略网络结构；

图4为评价网络结构。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的实施方式作进一步详细描述。

(1)基本组成

一种航天器深度强化学习莱维飞行控制系统及方法，基本方案如图1所示，包括基于深度学习的特征提取模块、基于深度强化学习的自主规划模块、莱维飞行模块和航天器姿轨控模块。

基于深度学习的特征提取模块由卷积网络和全连接网络组成，输入为追踪航天器状态，输出为特征，如图2所示；

基于深度强化学习的自主规划模块由策略网络和评价网络三个部分组成。策略网络由长短时记忆网络组成，输入为特征，输出为轨道和姿态的莱维飞行参数，如图3所示；评价网络由长短时记忆网络组成，输入为特征，输出为Q值和击中概率，如图4所示。

莱维飞行模块包括姿态和轨道两种飞行控制方式，其中姿态飞行控制方式包括由偏航、俯仰、滚动三个通道组成、轨道飞行控制方式由X、Y、Z三个通道组成。每个通道均采用莱维飞行轨迹计算运动增量。

其中，X表示航天器6自由度位姿。

航天器姿轨控模块包括轨道控制器和姿态控制器，分别以莱维飞行模块的输出作为期望轨迹，理论上可以采用任何轨道或姿态控制器实现对期望轨迹的跟踪控制。

(2)Reward函数设计

Reward函数要反应任务的目标及各种限制因素。因此，定义reward函数如下：

r＝k₁Hit_num+k₂Hit_part+k₃Hit_time+k₄Fuel。

其中，Hit_num为威胁数量，Hit_part为威胁部位、Hit_time为威胁持续时间、为Fuel燃料消耗。上述各物理量可根据不同对象具体设计。k₁，k₂，k₃，k₄为可调参数，表示上述各量在整个reward函数中的占比。

(3)工作流程

工作流程包括如下步骤：

1)利用基于深度神经网络的特征提取系统，将航天器1的态势图像包括航天器1位置/姿态及其速度和角速度、航天器2位置/姿态及其速度和角速度、击中概率转变为特征。

2)利用策略网络把特征转变为姿态和轨道飞行轨迹的莱维飞行参数，利用评价网络得到预测的Q值和击中概率。

3)利用莱维飞行公式，基于当前运动状态和策略网络的输出参数，计算下一时刻的速度增量，从而得到下一时刻的飞行轨迹。

4)利用姿态和轨道控制器跟踪飞行轨迹，完成机动飞行。

学习训练需要在数学仿真学习训练系统下完成，具体步骤如下：

1)采样：

基于上述步骤，设置k个模拟场景进行仿真，并收集数据；

2)训练：

基于PPO/trpo/ddpg等强化学习方法训练策略和利用监督学习方法训练评价网络。

本发明说明书中未作详细描述的内容属本领域技术人员的公知技术。

本发明虽然已以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改，因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰，均属于本发明技术方案的保护范围。

Claims

1.一种航天器深度强化学习莱维飞行控制系统，其特征在于，包括：

2.根据权利要求1所述的控制系统，其特征在于，基于深度学习的特征提取模块利用深度神经网络，对航天器的状态信息进行提取。

3.根据权利要求1或2所述的控制系统，其特征在于，评价网络利用所述特征进行预测，测的结果包括Q值和击中概率。

4.根据权利要求1或2所述的控制系统，其特征在于，策略网络利用所述特征获得莱维飞行参数。

5.一种航天器深度强化学习莱维飞行控制方法，其特征在于，包括如下步骤：

从航天器的状态信息中提取特征；

控制飞行器跟踪下一时刻的飞行轨迹。

6.根据权利要求5所述的控制方法，其特征在于，航天器的状态信息包括位置、姿态、速度、角速度和击中概率。

7.根据权利要求5或6所述的控制方法，其特征在于，采用强化学习方法训练策略网络。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时，实现权利要求5至7中任一项所述的控制方法。