CN109625333B

CN109625333B - 一种基于深度增强学习的空间非合作目标捕获方法

Info

Publication number: CN109625333B
Application number: CN201910005655.0A
Authority: CN
Inventors: 王月娇; 马钟; 杨一岱; 王竹平
Original assignee: Xian Microelectronics Technology Institute
Current assignee: Xian Microelectronics Technology Institute
Priority date: 2019-01-03
Filing date: 2019-01-03
Publication date: 2021-08-03
Anticipated expiration: 2039-01-03
Also published as: CN109625333A

Abstract

本发明公开了一种基于深度增强学习的空间非合作目标捕获方法，分两步完成并实现交互。第一步，利用三维可视化软件搭建服务飞行器和目标飞行器的三维可视化环境，可视化环境的输入是服务飞行器的控制力和控制力矩，输出是服务飞行器和目标飞行器的状态。第二步，构建卷积神经网络模型，在三维可视化环境中对服务飞行器进行智能自主空间非合作目标捕获训练。卷积神经网络模型以服务飞行器和目标飞行器的状态为输入，利用其权重参数，输出控制服务飞行器所需的控制力和控制力矩并送入可视化环境中，两个飞行器的状态继续被输入神经网络以进行持续的深度增强训练。通过可视化环境和神经网络的不断交互，捕获反馈结果得以正确输出。

Description

一种基于深度增强学习的空间非合作目标捕获方法

技术领域

本发明属于航空航天技术领域，具体涉及一种基于深度增强学习的空间非合作目标捕获方法。

背景技术

非合作目标是指不为对接或捕获设计的航天器，如己方未装置合作部件的卫星、空间碎片等以及对方航天器，其在信息层面上不沟通、机动行为上不配合，其捕获极具挑战性。许多空间军事任务如破坏敌方空间飞行器、对未成功进入预定轨道的卫星进行辅助入轨等都需要先完成非合作目标的在轨捕获。

从目前的发展情况来看，对空间合作目标的捕获技术已相对成熟，并成功应用于在轨服务中，然而，对空间非合作目标捕获仍是一个世界性难题，还没有进行过在轨演示验证。空间非合作目标捕获的一般过程为服务飞行器接收人工指令，然后进入转移轨道，向目标机动。现有系统提出的引导与控制手段基本相似，主要是通过计算机视觉系统从多个角度对目标拍照，计算相对位姿信息，实现围绕目标绕飞消旋，以及进一步的捕获。但这些手段都存在一定局限性：要么目标模型已知；要么需地面进行图像处理，再上传数据至星上，存在一定的时延，可靠性受影响；要么只能针对某一类特定目标，都存在局限性。因此，目前对空间非合作目标的捕获，迫切地需要一种高可靠、高自主的具备高度智能化程度的引导与控制技术。

发明内容

为了解决上述问题，本发明提供了一种基于深度增强学习的空间非合作目标捕获方法，针对基于视觉的空间非合作目标捕获问题，研究在多摄像头获取的视觉信息的基础上，基于卷积神经网络模型和DQN(Deep Q-Learning)的智能自主捕获方法。突破现有方法只能针对已知的特定目标的局限。使空间服务飞行器可利用视觉信息，智能自主学习，不断提升自身的智能化程度，自动地捕获目标。

为达到上述目的，本发明所述一种基于深度增强学习的空间非合作目标捕获方法包括以下步骤：第一步，搭建三维可视化环境：利用可视化软件搭建服务飞行器和目标飞行器的三维可视化环境，三维可视化环境的输入是服务飞行器的控制力和控制力矩，输出是服务飞行器和目标飞行器的状态，状态包括位置、线速度和姿态角速度；

第二步，构建卷积神经网络模型:卷积神经网络模型以服务飞行器和目标飞行器的状态作为输入，以控制服务飞行器所需的控制力和控制力矩为输出；以完成轨道近距离跟踪，绕飞消旋和姿态控制为任务，离散化卷积神经网络模型输出的控制力和控制力矩，构建分段加权奖励函数；

第三步，卷积神经网络模型训练:利用DQN算法在三维可视化环境中对服务飞行器进行空间非合作目标捕获训练，利用卷积神经网络模型输出控制力和控制力矩并将其送入可视化环境中，环境输出的两个飞行器状态又继续被输入到神经网络模型中，通过三维可视化环境和卷积神经网络模型的不断交互，通过神经网络持续的自我学习，不断更新卷积神经网络模型的权重参数，直至获得正确的捕获反馈结果；

第四步，完成非合作目标捕获任务:利用训练好的卷积神经网络模型对服务飞行器实施控制，从而对目标飞行器实现轨道近距离跟踪，绕飞消旋和组合体的姿态控制。

进一步的，在DQN算法中，建立一个卷积神经网络模型作为智能体，以服务飞行器和目标飞行器的状态作为输入，输出服务飞行器的控制力和控制力矩，卷积神经网络模型的输入层有36个节点，对应于环境传回的连续两帧三维图像中服务飞行器和目标飞行器各自的位置、线速度和姿态角速度的36维表示；输出层共有13个节点，对应于服务飞行器的控制力和控制力矩被离散化后的13类取值方式；在每个时间步骤，决策被发送回空间三维可视化环境，并从空间三维可视化环境中继续输出目标飞行器和服务飞行器的状态供给卷积神经网络模型以进行连续的深度增强训练，最终达到不断更新卷积神经网络模型的模型参数，正确输出捕获反馈结果的目的。

进一步的，第一步中，搭建三维可视化环境包括以下步骤：

Step1：初始化服务飞行器和目标飞行器的位置

线速度

姿态角速度ω₀及姿态四元数Q₀；

Step2：卷积神经网络模型给出施加于服务飞行器上的控制力F和控制力矩T，F＝[F_x,F_y,F_z]^T,T＝[T_x,T_y,T_z]^T而目标飞行器由于仅在重力作用下绕地球自由移动，F和T为零；

Step3：依次对式(1)～(3)积分，求解两类飞行器的位置r_i、线速度v_i、姿态角速度ω_i及姿态四元数Q_i，循环输出两类飞行器的位姿(r,v,ω,Q)；

公式(1)中，

为飞行器在轨道坐标系下的位置，

为飞行器的线速度，

是

的一阶导数，

F＝[F_x,F_y,F_z]^T是接受控制的飞行器发动机产生的控制力，μ为地球引力常数3.986e5km³/s²，R_E为地球赤道半径，J₂＝1.0826e-3为地球摄动带谐系数；

公式(2)中，T为作用于飞行器上的控制力矩，I为飞行器的转动惯量矩阵，ω＝[ω_x,ω_y,ω_z]^T为飞行器的姿态角速度，

是ω的一阶导数；

公式(3)中，ω＝[ω_x,ω_y,ω_z]^T为飞行器的姿态角速度，q＝[q₀ q₁ q₂ q₃]^T为飞行器的姿态四元数，

是q＝[q₀ q₁ q₂ q₃]^T的一阶导数；

Step4：以步骤3得到的服务飞行器和目标飞行器的位姿(r,v,ω,Q)作为服务飞行器和目标飞行器的初始姿态输入到可视化软件的可视化模块中，并将模拟图像输入到卷积神经网络模型，进行深度增强学习训练。

进一步的，控制力和控制力矩的离散化方法包括：

服务飞行器的控制力F＝[F_x,F_y,F_z]^T，F∈R³和控制力矩T＝[T_x,T_y,T_z]^T，T∈R³均为三维向量，设定控制力和控制力矩中每一个方向分量可取三个值，其取值范围为1.0e-02*{-1,0,1}，e表示10的幂，由此共有13种决策的值分布方式，这13种决策由0～12来定义，表示用于卷积神经网络模型的迭代更新的控制力和控制力矩。

进一步的，奖励函数的加权构建方法包括：

用于鼓励或压制决策的奖励函数reward为分段函数，当服务飞行器和目标飞行器由于距离太近而发生碰撞时，奖励设定为负值；当两个飞行器不满足捕获条件时，奖励的设计由三部分构成，服务飞行器和目标飞行器之间的相对距离d和相对姿态角速度a，以及服务飞行器成功捕获目标飞行器的时间步step，且遵循奖励随着d，a，时间步的增大而减小；除此之外，服务飞行器在固定时间步中成功捕获目标飞行器后，奖励被设置为随步数增加而增加的函数，并且其值大于其它两项的值。

进一步的，奖励函数reward如下:

上式中各项的权重系数通过实验中各项的比重确定，e为：10的幂，d为服务飞行器和目标飞行器之间的相对距离，a为服务飞行器和目标飞行器之间的相对姿态角速度。

与现有技术相比，本发明至少具有以下有益的技术效果，通过引入人工智能技术，实现了空间服务飞行器对非合作目标的近距离跟踪、绕飞消旋和组合体姿态控制。使空间服务飞行器可利用视觉信息智能自主学习，可以在仿真环境中离线学习，也可以在真实空间环境中在线学习，无需已知目标飞行器的模型，也无需地面进行图像处理，再上传数据至星上，减小了时延，增强了可靠性。突破了现有方法只能针对已知的特定目标的局限，解决了现有方法依赖被控对象质量参数准确辨识的难点，为空间飞行器在轨质量参数变化的控制问题提供了解决方案，具有很强的智能性和一定的普适性。

附图说明

图1为三维可视化环境和策略网络模型的交互过程图；

图2为基于深度增强学习的空间非合作目标捕获流程图；

图3a为近距离跟踪阶段示意图；

图3b为捕获前的绕飞消旋示意图；

图3c为服务飞行器和目标飞行器形成一个组合体意图；

图3d为控制组合体的姿态示意图；

图4a为施加控制的服务飞行器在三维可视化环境中的视图；

图4b为三维可视化环境中显示的服务飞行器和目标飞行器的相对位置和速度；

图4c为三维可视化环境中显示的服务飞行器和目标飞行器的姿态角速度；

图5为奖励函数的迭代进程图；

图6为姿态控制试验的迭代进程；

图7为姿态角速度三轴误差的迭代进程。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

目前，深度增强学习技术的突破使人工智能有了跨越式的发展。许多难以通过直接编程实现的任务都利用人工智能技术实现了突破。因此，本发明提出了结合人工智能中深度增强学习的最新进展，采用深度增强学习技术，针对基于视觉的空间非合作目标捕获问题，研究在多摄像头获取的视觉信息的基础上，基于卷积神经网络模型和DQN(Deep Q-Learning)的智能自主捕获方法。突破现有方法只能针对已知的特定目标的局限。使空间服务飞行器可利用视觉信息，智能自主学习，不断提升自身的智能化程度，自动地捕获目标。为实现对非合作空间飞行目标的捕获提供可靠保障，为空间飞行器在轨服务与维护奠定技术基础。并且，采用人工智能技术实现空间非合作目标的捕获，具有智能性与自主性。其技术在航天器在轨维修、空间碎片清理、空间攻防，以及未来无人空间飞行器深空航行等领域都具有强大的应用前景。

本发明的空间非合作目标捕获问题定义如下：

服务飞行器和目标飞行器同时在空间飞行，其中目标飞行器仅在重力作用下绕地球自由移动，而服务飞行器在发动机的作用下产生控制力和控制力矩，从而实现一系列动作，即服务飞行器对目标飞行器的轨道近距离跟踪，绕飞消旋和姿态控制，完成非合作目标捕获任务。

本发明采用深度增强学习技术进行空间非合作目标捕获，分两步骤完成并实现交互。第一步，利用三维可视化软件搭建服务飞行器和目标飞行器的三维可视化环境，可视化环境的输入是服务飞行器的控制力和控制力矩，输出是服务飞行器和目标飞行器的状态。第二步，构建卷积神经网络模型，离散化神经网络输出的控制力和控制力矩，以分段加权方式构建奖励函数，以完成轨道近距离跟踪，绕飞消旋和姿态控制等一系列动作为任务，利用DQN算法在三维可视化环境中对服务飞行器进行智能自主空间非合作目标捕获训练。卷积神经网络模型以服务飞行器和目标飞行器的状态为输入，利用其权重参数，智能输出控制服务飞行器所需的控制力和控制力矩并送入可视化环境中，由此两个飞行器的状态继续被输入神经网络以进行持续的深度增强训练。通过可视化环境和神经网络的不断交互，通过神经网络持续的自我学习和自我演化，神经网络的权重参数不断更新，捕获反馈结果(是否成功完成捕获任务)得以正确输出。三维可视化环境与卷积神经网络模型的交互过程如图1所示。

卷积神经网络模型的参数更新过程由DQN算法完成，DQN对三维可视化环境与卷积神经网络模型之间的交互过程进行深度增强训练。详细过程如图2所示。

可视化软件用于为飞行器及其相机创建空间三维可视化环境。在可视化环境中，一方面，卷积神经网络模型提供服务飞行器所需的控制力和控制力矩；轨道动力学模型使用它作为输入来给出位置和线速度输出；由姿态动力学模型得出服务飞行器的姿态角和姿态角速度；经过可视化模块模拟服务飞行器的状态并呈现在软件界面上，为智能控制器提供了所需的状态输入信息。另一方面，目标飞行器仅在重力作用下绕地球自由移动，因此，施加的控制力和控制力矩是空的；类似地，通过轨道动力学模型和姿态动力学模型连续获得目标飞行器的位置，线速度，姿态角和姿态角速度信息并可视化。

在DQN算法中，建立了一个卷积神经网络模型作为智能体，以服务飞行器和目标飞行器的状态作为输入，输出服务飞行器的控制力和控制力矩。网络的输入层有36个节点，对应于环境传回的连续两帧三维图像中服务飞行器和目标飞行器各自的位置、线速度和姿态角速度的36维(每个飞行器的位置、线速度和姿态角速度均为三维向量，位置、线速度和姿态角速度形成9维，两个飞行器是18维，两帧图像就是36维)表示。隐藏层有两层，第一层有512个节点，第二层有1024个节点。输出层共有13个节点，对应于服务飞行器的控制力和控制力矩被离散化后的13类取值方式。在每个时间步骤，决策被发送回空间三维可视化环境，并从空间三维可视化环境中继续输出目标飞行器和服务飞行器的状态(上文提到的36维表示)供给卷积神经网络模型以进行连续的深度增强训练，最终达到不断更新卷积神经网络模型的模型参数，正确输出捕获反馈结果的目的。

三维可视化环境搭建方法

空间非合作目标捕获以轨道坐标系作为参考系，首先建立轨道动力学模型，用以描述服务飞行器和目标飞行器在力的作用下的飞行状态，同时为描述飞行器姿态在力矩作用下的运动情况，又建立了姿态动力学与运动学模型。这些模型为搭建三维可视化环境奠定了理论基础，为智能自主目标捕获方法提供了必要的输入参数。

1)建立轨道动力学模型方程，求解飞行器(本文的飞行器指服务飞行器和目标飞行器)的线速度

设飞行器在轨道坐标系下的位置为

线速度为

则飞行器在轨道上的运动满足公式(1)，

其中，F＝[F_x,F_y,F_z]^T是接受控制的飞行器发动机产生的控制力，μ为地球引力常数3.986e5km³/s²，R_E为地球赤道半径6378.1363km，地球摄动带谐系数J₂＝1.0826e-3。若已知飞行器在初始时刻的位置

和线速度

则可通过数值积分，确定其在任意时刻的位置和线速度。

2)建立姿态动力学模型方程，求解服务飞行器和目标飞行器的姿态角速度

飞行器的动力学模型由单刚体的欧拉动力学方程描述如下：

其中T为作用于飞行器上的控制力矩，I为飞行器的转动惯量矩阵，ω＝[ω_x,ω_y,ω_z]^T为飞行器的姿态角速度，

是ω的一阶导数，若已知ω的初值为ω₀，给定控制力矩T，将I设为定值，则能够通过积分上式得到任意时刻飞行器的姿态角速度。

3)建立姿态运动学模型方程，求解服务飞行器和目标飞行器的姿态四元数

由于飞行器的姿态可通过姿态四元数来表征。下式为飞行器基于四元数的姿态运动学方程，ω＝[ω_x,ω_y,ω_z]^T为飞行器的姿态角速度，q＝[q₀ q₁ q₂ q₃]^T为飞行器的姿态四元数，

是q＝[q₀ q₁ q₂ q₃]^T的一阶导数，若已知飞行器在初始时刻的姿态四元数为Q＝[Q₀ Q₁ Q₂ Q₃]^T，则可通过积分表示飞行器在任意时刻的姿态。

4)搭建动力学的三维可视化环境

根据上面的动力学模型，搭建三维可视化环境的过程如下：

Step1：初始化服务飞行器和目标飞行器的位置

线速度

姿态角速度ω₀及姿态四元数Q₀；

Step2：卷积神经网络模型给出施加于服务飞行器上的控制力F和控制力矩T，F＝[F_x,F_y,F_z]^T，T＝[T_x,T_y,T_z]^T，而目标飞行器由于仅在重力作用下绕地球自由移动，F和T为零；

Step4：以步骤3得到的两类飞行器的位姿(r,v,ω,Q)作为两类飞行器的初始姿态输入到可视化软件的可视化模块中，并将模拟图像输入到卷积神经网络模型，进行后续的深度增强学习训练。

控制力和控制力矩的离散化方法

传统的DQN方法是一个面向离散控制的算法，即在深度增强训练中输出的行动决策是离散的，无法面向连续的动作，对应Atari游戏，只需几个独立的键盘或手柄按钮即可控制。DQN不能面对连续的行动，因为卷积神经网络模型的更新需要通过寻求最大的决策(Action)来实现。而在空间非合作目标捕获问题中，施加于服务飞行器上的控制力和控制力矩是连续的高维向量，因此本方法在应用DQN的过程中对服务飞行器的控制力和控制力矩进行离散化。

服务飞行器的控制力F∈R³和控制力矩T∈R³均为三维向量，设定控制力和控制力矩中每一个方向分量可取三个值，其取值范围为1.0e-02*{-1,0,1}，e表示10的幂，1.0e-02表示1.0乘10的-2次方，由此共有13种Action(决策)的值分布方式。13种Action由0～12来定义，可以表示用于卷积神经网络模型的迭代更新的控制力和控制力矩。其中，“Action＝0”表示智能体输出的控制力和控制力矩为零，即服务飞行器没有被施加外力和力矩，只依靠其原始线速度和角速度继续移动和旋转。控制力、控制力矩和Action之间的对应关系如下表所示。

表1.离散化控制力和控制力矩

离散化后的控制力F和控制力矩T	决策(Action)
		F<sub>x</sub>＝F<sub>y</sub>＝F<sub>z</sub>＝T<sub>x</sub>＝T<sub>y</sub>＝T<sub>z</sub>＝0	0
F<sub>x</sub>＝-1.0e-02,F<sub>y</sub>＝F<sub>z</sub>＝T<sub>x</sub>＝T<sub>y</sub>＝T<sub>z</sub>＝0	1
		F<sub>x</sub>＝1.0e-02,F<sub>y</sub>＝F<sub>z</sub>＝T<sub>x</sub>＝T<sub>y</sub>＝T<sub>z</sub>＝0	2
F<sub>x</sub>＝0,F<sub>y</sub>＝-1.0e-02,F<sub>z</sub>＝T<sub>x</sub>＝T<sub>y</sub>＝T<sub>z</sub>＝0	3
		F<sub>x</sub>＝0,F<sub>y</sub>＝1.0e-02,F<sub>z</sub>＝T<sub>x</sub>＝T<sub>y</sub>＝T<sub>z</sub>＝0	4
F<sub>x</sub>＝F<sub>y</sub>＝0,F<sub>z</sub>＝-1.0e-02,T<sub>x</sub>＝T<sub>y</sub>＝T<sub>z</sub>＝0	5
		F<sub>x</sub>＝F<sub>y</sub>＝0,F<sub>z</sub>＝1.0e-02,T<sub>x</sub>＝T<sub>y</sub>＝T<sub>z</sub>＝0	6
F<sub>x</sub>＝F<sub>y</sub>＝F<sub>z</sub>＝0,T<sub>x</sub>＝-1.0e-02,T<sub>y</sub>＝T<sub>z</sub>＝0	7
		F<sub>x</sub>＝F<sub>y</sub>＝F<sub>z</sub>＝0,T<sub>x</sub>＝1.0e-02,T<sub>y</sub>＝T<sub>z</sub>＝0	8
F<sub>x</sub>＝F<sub>y</sub>＝F<sub>z</sub>＝T<sub>x</sub>＝0,T<sub>y</sub>＝-1.0e-02,T<sub>z</sub>＝0	9
		F<sub>x</sub>＝F<sub>y</sub>＝F<sub>z</sub>＝T<sub>x</sub>＝0,T<sub>y</sub>＝1.0e-02,T<sub>z</sub>＝0	10
F<sub>x</sub>＝F<sub>y</sub>＝F<sub>z</sub>＝T<sub>x</sub>＝T<sub>y</sub>＝0,T<sub>z</sub>＝-1.0e-02	11
		F<sub>x</sub>＝F<sub>y</sub>＝F<sub>z</sub>＝T<sub>x</sub>＝T<sub>y</sub>＝0,T<sub>z</sub>＝1.0e-02	12

奖励函数的分段加权构建方法

深度增强学习的目标是获得最优的决策，使得智能体收到的累积奖励最大。本方法利用加权函数的思想构建奖励函数，根据空间服务飞行器同目标的相对位姿特点定义函数变量，这些变量加上各项权重共同组成了智能体执行任务的评判标准，使得导致飞行器好的输出的行动决策得到鼓励，导致坏结果的行动决策得到压制，从而不断训练服务飞行器的控制力矩输出，以得到尽可能多的奖励。

假设初始时刻服务飞行器与目标飞行器在同一轨道面内，二者相距小于2km，相对速度小于0.1m/s，捕获的定义为，服务飞行器与目标飞行器的相对距离小于某个定值S(S<2km)，同时服务飞行器的绕飞角速度等于目标飞行器的自旋角速度，并保持这样的情况一段时间。每次实验随机初始化目标的轨道参数及自旋状态，并给予智能体控制的空间服务飞行器固定的时间步来找到目标并接近(最终相对距离小于定值S)、消旋(两者相对角速度为零)最终成功停靠在目标上。经过固定的时间量后，本次实验终止。

用于鼓励或压制决策(Action)的奖励函数(reward)为分段函数。当服务飞行器和目标飞行器由于距离太近而发生碰撞(collision)时，奖励设定为负值；当两个飞行器不满足捕获条件时，奖励的设计由三部分构成，服务飞行器和目标飞行器之间的相对距离d和相对姿态角速度a，以及服务飞行器成功捕获目标飞行器的时间步step，且遵循奖励随着d，a，时间步的增大而减小的性质；除此之外，服务飞行器在固定时间步中成功捕获目标飞行器后，奖励被设置为随步数增加而增加的函数，并且其值大于其它两项的值，具体如下：

上式中各项的权重系数通过实验中各项的比重确定，e表示10的幂。

本发明定义终止状态是服务飞行器到达期望位置，期望姿态，在指定的时间步长内保持一段时间，并且在该过程期间没有发生碰撞。DQN算法中需要根据终止状态设置训练任务的终止条件，并且对每个动作执行是否完成任务作出判断，即DQN从卷积神经网络模型中得到的力和力矩是否可以在每次任务中完成目标捕获。这里设置当reward＝-10时，任务终止，否则任务继续训练。

本发明通过引入人工智能技术，提出了一种基于深度增强学习的智能自主目标捕获方法，实现了空间服务飞行器对非合作目标的近距离跟踪、绕飞消旋和组合体姿态控制。使空间服务飞行器可利用视觉信息智能自主学习，可以在仿真环境中离线学习，也可以在真实空间环境中在线学习，无需已知目标模型，也无需地面进行图像处理，再上传数据至星上，建小了时延，增强了可靠性。突破了现有方法只能针对已知的特定目标的局限，解决了现有方法依赖被控对象质量参数准确辨识的难点，为空间飞行器在轨质量参数变化的控制问题提供了解决方案，具有很强的智能性和一定的普适性。

实验验证

验证方案：为验证试验结果，空间非合作目标捕获分四阶段进行。首先仿真实现服务飞行器轨道近距离跟踪目标和绕飞消旋这一过程，然后针对服务飞行器在捕获目标时遭遇的姿态突然发生变化的问题，通过自主学习实现服务飞行器的智能姿态控制。如图3a至图3d所示，其中，图3a为阶段1：近距离跟踪；图3b为阶段2：捕获前的绕飞消旋；图3c为阶段3：服务飞行器和目标飞行器形成一个组合体，此时组合体具有未知的旋转状态和质量参数；图3d为阶段4：控制组合体的姿态使其稳定。图3a至图3d中，1为目标飞行器，2服务飞行器。

三维可视化环境

本发明利用可视化软件Unity模拟服务飞行器和目标飞行器的力学特性，并使用Python编程进行深度增强训练，建立了飞行器的三维可视化环境，三维可视化环境的输入是沿服务飞行器本体坐标系三轴的连续控制力和控制力矩，输出是下一时刻服务飞行器的位姿，并将输出可视化。三维可视化环境如图4a至图4c所示，该环境模拟飞行器在外加控制和扰动作用下的动力学状态如图4a所示，提供分析引擎用于计算数据、并可显示多种形式的二维地图，其核心能力是产生位置和姿态数据；如图4b中产生服务飞行器和目标飞行器的瞬时相对位置(8.4,12.1,44.2)km和速度(0.0,0.0,-0.1)km/s；图4c中产生服务飞行器和目标飞行器的瞬时姿态角速度分别为(0.0,0.0,0.0)rad/s和(0.0,0.0,7.0)rad/s，能将控制系统的输入、输出可视化，同时可直接人为在任意时刻对飞行器姿态进行干涉，为智能姿态控制算法提供良好的训练环境。

组合体的姿态控制试验过程如下：

当服务飞行器对目标飞行器开始实施捕获以后，服务飞行器和目标飞行器形成的组合体相当于受到了外部扰动，其姿态会发生改变。因此首先利用动力学模型模拟组合体在太空中的运动状态，然后在上述动力学模型的基础上对组合体施加一个随机突发扰动力矩模拟失控的姿态，并同时随机改变转动惯量以模拟组合体的质量参数变化。本发明提出的方法能通过卷积神经网络模型输出控制力矩并不断施加于组合体上，以控制组合体的姿态角速度稳定，使其恢复稳定的飞行姿态。

仿真试验过程中，随机给定组合体的初始姿态角和角速度信息，根据相机传回的图片对整个组合体的姿态控制过程进行观察。当姿态速度误差不再随时间增加而减小时，认为姿态控制过程结束，根据终态的姿态角速度误差评价姿态控制系统的控制精度及稳定度。

具体来说，首先随机初始化组合体的位置

、线速度

、姿态角速度ω₀及姿态四元数Q₀。然后定义正弦随机扰动力矩TS＝1.0e-03*[-1,0,1]^T*sin(r)作为恒定扰动，其中r从(-1,1)中随机取值，再定义一个随机突发扰动力矩TR＝1.0e-02*[r1,r2,r3]^T，其中r1,r2,r3均为随机数。姿态控制方法应能在此扰动后，不断输出控制力矩，使组合体的姿态角速度能够收敛到一定值，且此值与期望姿态角速度ω₀之间的误差趋于零时，说明姿态控制算法具有有效性。算法在Anaconda3软件包和TensorFlow深度学习软件框架的基础上实现。

每迭代100次计算一次奖励函数的平均值并绘图。由图5可以看出奖励函数遵循减函数的性质，从第300次迭代开始，奖励的平均值快速提升，迭代到第2000次时，奖励的平均值基本达到了高峰，后面进入平台期，没有太大提升，说明DQN获得了控制力矩的最优智能输出，增强学习取得了最优决策。

如图6所示，当DQN算法还未应用于组合体的姿态控制中，试验的迭代次数处于-10和0之间，这时组合体在恒定扰动下平稳运行，因此其姿态角速度呈正弦随机变化。加载了瞬时突发随机扰动力矩后，组合体的姿态角速度瞬间增加。然后深度增强算法DQN开始了组合体的控制力矩训练过程。随着迭代次数的增加，姿态角速度的衰减变化表明三轴方向上的角速度值逐渐减小并收敛，图7中姿态角速度与期望值的误差逐渐趋于零，由此表明组合体的姿态达到稳态，基于DQN的姿态控制方法是有效的。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于深度增强学习的空间非合作目标捕获方法，其特征在于，包括以下步骤：

第一步，搭建三维可视化环境：利用可视化软件搭建服务飞行器和目标飞行器的三维可视化环境，三维可视化环境的输入是服务飞行器的控制力和控制力矩，输出是服务飞行器和目标飞行器的状态，状态包括位置、线速度和姿态角速度；

第四步，完成非合作目标捕获任务:利用训练好的卷积神经网络模型对服务飞行器实施控制，从而对目标飞行器实现轨道近距离跟踪，绕飞消旋和组合体的姿态控制；

在DQN算法中，建立一个卷积神经网络模型作为智能体，以服务飞行器和目标飞行器的状态作为输入，输出服务飞行器的控制力和控制力矩，卷积神经网络模型的输入层有36个节点，对应于环境传回的连续两帧三维图像中服务飞行器和目标飞行器各自的位置、线速度和姿态角速度的36维表示；输出层共有13个节点，对应于服务飞行器的控制力和控制力矩被离散化后的13类取值方式；在每个时间步骤，决策被发送回空间三维可视化环境，并从空间三维可视化环境中继续输出目标飞行器和服务飞行器的状态供给卷积神经网络模型以进行连续的深度增强训练，最终达到不断更新卷积神经网络模型的模型参数，正确输出捕获反馈结果的目的。

2.根据权利要求1所述的一种基于深度增强学习的空间非合作目标捕获方法，其特征在于，第一步中，搭建三维可视化环境包括以下步骤：

Step1：初始化服务飞行器和目标飞行器的位置