CN112340063B

CN112340063B - 一种基于深度强化学习的卫星消旋方法

Info

Publication number: CN112340063B
Application number: CN202011039508.4A
Authority: CN
Inventors: 高�浩; 李芳琳; 胡海东
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2022-05-31
Anticipated expiration: 2040-09-28
Also published as: CN112340063A

Abstract

本发明公开了一种基于深度强化学习的卫星消旋方法，其特征在于，包括以下步骤：标注已知卫星的数据样本建立已知卫星的样本数据集；利用全卷积神经网络训练样本数据集，使得终端能够了解和识别图像或视频中的已知卫星，得到图像或视频中已知卫星的关键点的置信度图；跟踪视频中关键点的运动轨迹，通过PNP算法估计已知卫星的位姿；通过DDPG算法训练最优消旋，空间机械臂的消旋刷刷航天器帆板侧边完成卫星消旋。本发明方法借助深度强化学习，实现对高速自旋的失控卫星的消旋，同时结合视觉信息让计算机跟数据和模型环境接触，训练最优抓取位姿，提高了空间机械臂目标捕获的准确度。

Description

一种基于深度强化学习的卫星消旋方法

技术领域

本发明涉及一种基于深度强化学习的卫星消旋方法，属于卫星消旋方法技术领域。

背景技术

随着航天器在轨数目增加及广泛应用，现实生活越来越离不开在轨航天器提供的各种应用功能。由于空间在轨工作机构自身条件限制和空间环境的影响，在没有任何补给和维修的条件下，常由于燃料有限、设备陈旧或模块故障而被迫终止运行，不得不重新制造和发射全新系统加以取代，造成了不必要的损失和浪费。GEO即地球同步轨道，开展GEO在轨维护与服务以及相关技术的研究能够有效的延长在轨系统的使用寿命，同时为长期频繁的空间活动提供强有力的后勤保障。

对于合作目标，服务维修一般选择对接点为卫星的远地点发动机和星箭对接环。对于非合作目标，一般选取对接点为平滑表面、表面明显突出特征如分离螺栓等。由于失效很长时间或没有利用价值，待对接目标分为待维修等目标以及需要清除的目标。通常情况下，待对接目标已经失去姿控能力，机械臂无法直接抓取告诉翻转的空间目标。同时，对于待维修目标，抓取的服务机构应在保证抓捕效率的同时尽量减少对目标的损伤。因此对于待维修或清除的带有旋转动能的目标，直接抓捕具有较高的危险性。为了保证安全，在抓捕之前需要对卫星进行“消旋”。

1989年，Chris Watkins开发了Q-learning，将时序差分和最优控制线完全结合在一起。这项工作扩展并整合了强化学习研究的所有三个主线的先前工作。Q-learning使得在缺乏立即回报函数和状态转换函数的知识下依然可以求出最优动作策略，换句话说，Q-learning 使得强化学习不再依赖于问题模型，但仍然需要知道最终回报或者目标状态。此外Watkins 还证明了当系统是确定性的马尔可夫决策过程，并且回报是有限的情况下，强化学习是收敛的，也即一定可以求出最优解。至今，Q-learning已经成为最广泛使用的强化学习方法。

本发明对基于深度强化学习的机械臂控制问题做了充分调查研究，建立卫星样本数据库，作为多级架构的全卷积神经网络训练数据集，使其输出卫星关键点的置信度图；采用PNP算法估计卫星位姿，通过深度强化学习训练机械臂完成对卫星的消旋任务，实际效果证实了实验可行性。

发明内容

本发明所要解决的技术问题是克服现有技术的缺陷，提供一种基于深度强化学习的卫星消旋方法，借助深度强化学习，实现对高速自旋的失控卫星的消旋，同时结合视觉信息让计算机跟数据和模型环境接触，训练最优抓取位姿，提高了空间机器人完成目标捕获的准确度。

为达到上述目的，本发明提供一种基于深度强化学习的卫星消旋方法，包括以下步骤：

S1、标注已知卫星的数据样本建立已知卫星的样本数据集；

S2、利用全卷积神经网络训练样本数据集，使得终端能够了解和识别图像或视频中的已知卫星，得到图像或视频中已知卫星的关键点的置信度图；

S3、跟踪视频中关键点的运动轨迹，通过PNP算法估计已知卫星的位姿；

S4、通过DDPG算法训练最优消旋，使用空间机械臂配备的消旋刷刷航天器帆板侧边完成卫星消旋。

进一步地，S1中，在建立已知卫星的样本数据集时，需要从多个视角对已知卫星环形拍照以获得不同角度下已知卫星的图片，反映在不同角度下的已知卫星的外观和已知卫星的形状；在已知卫星上选择特征点，并给特征点打上对应的标签。

进一步地，S2中，在全卷积神经网络对图像进行处理后，设定阈值，在阈值以上的置信度图中搜索局部峰值，然后使用贪婪分配算法选择峰值最大的点作为特征点。

进一步地，S2中，全卷积神经网络采用多级架构来检测关键点，采用FCN全卷积神经网络，FCN全卷积神经网络的前馈网络作为输入，输入一个大小为w×h×3的RGB 图像，其中w代表图像的宽度，h代表图像的高度，3代表RGB三个颜色通道，输出结果为特征点的置信度图，每个特征点都会输出一个对应的置信度图。

进一步地，S3中，利用在全卷积神经网络的训练下得到不同帧图像对应关键点的二维坐标，使用PNP算法求解已知卫星的位姿。

进一步地，S4中，获取已知卫星的关键点以及估计与已知卫星的关键点对应的位姿，利用已知卫星的位置信息结合DDPG算法到达空间机械臂的目标位置，使用空间机械臂配备的消旋刷对航天器帆板侧边实现卫星消旋；

DDPG算法的参数设置如下：动作网络的优化学习率设置为0.0001，评论家网络的优化学习率设置为0.001，奖励的折扣率设置为0.99，Soft更新模式下的更新参数设置为0.001，从记忆库中选取记忆序列时最小的批量设置为64；

动作网络和评论家网络选取Adam优化器对网络参数进行迭代优化，动作网络中的噪声采用OU随机噪声；

动作网络的结构为输入状态维数，经过线性层使输入状态维数转化为400，随后用Tanh 激励函数激活，再经过线性层使输入状态维数转化为300，用Relu激励函数激活上一层动作网络的输出，使上一层动作网络非线性化，最后再使用线性层使输入状态维数转化为动作的维数值，并用Tanh激励函数激活使动作的维数值限制在-1到+1之间；

评论家网络的结构为输入状态维数，经过线性层使输入状态维数转化为400，随后用Relu 激励函数激活输入状态维数，再把400加上动作维数的个数输入线性层，经过线性层使输入状态维数转化为300，用Relu激励函数激活上一层评论家网络的输出，使上一层评论家网络非线性化，最后再使用线性层使输入状态维数为1；

在对全卷积神经网络进行训练时调用CUDA进行加速。

进一步地，S4中，DDPG分为Actor网络和Critic网络，Actor网络训练最优消旋，Critic网络评价Actor网络选取最优消旋的动作所获得的价值，Actor网络利用Q-learning算法函数逼近的方法估计值函数，值函数表明当前状态下策略的长期影响能力；

27维信息包括DDPG的状态集合，令空间机械臂中右侧机械臂的每个关节的位置控制集合为DDPG的状态集合，状态集合由空间机械臂的6个关节当前转角、空间机械臂的消旋刷是否触碰到卫星帆板侧边、两侧卫星帆板外角点位置、卫星转速、空间机械臂和卫星是否发生非合理碰撞以及机械臂每个关节位置控制量；

在DDPG算法训练过程中，如果空间机械臂的消旋刷触碰到卫星帆板侧边时赋予奖励值 10，当卫星速度发生变化时以二倍转速差值作为奖励值，当空间机械臂训练时发生非合理碰撞则给予惩罚-50并结束此轮训练。

进一步地，FCN全卷积神经网络分为几个阶段运行，每个阶段不仅考虑图像特征，还考虑前一阶段的输出；FCN全卷积神经网络预测出关键点连接线的向量场图作为辅助信息，来提高预测精度以及在涉及多个已知卫星的位姿估计时作为关键点归属问题的指征，向量场图与置信度图并行工作，每个阶段再合并到一起作为下一阶段的输入。

进一步地，通过全卷积神经网络获得每张图像中特征点的二维坐标，第k-1幅图片上的u_i的二维坐标以及u_i在第k幅图片上的对应点u^′ _i的二维坐标，p_i为u_i在世界坐标系下对应点的三维坐标，三维坐标通过测量得到，求解第k-1幅图片到第k幅图片的旋转矩阵和平移量即T_k-1,k，通过T_k-1,k恢复物体相对于摄像机的平移和旋转的量，达到估计已知卫星位姿的目的。

本发明所达到的有益效果：

本发明方法借助深度强化学习，实现对高速自旋的失控卫星的消旋，同时结合视觉信息让计算机跟数据和模型环境接触，训练最优抓取位姿，提高了空间机械臂目标捕获的准确度，解决了航天器高速旋转，平台GNC传感器失效，遥测遥控丢失情况下，无法直接对故障航天器抓取与操作任务的问题。

FCN全卷积神经网络可以接受任意尺寸的输入图像，FCN全卷积神经网络采用反卷积层对最后一个卷积层对特征图进行上采样，使它恢复到输入图像相同的尺寸，从而可以对每个像素都产生了一个预测，同时保留了原始输入图像中的空间信息，最后在采样的特征图上进行逐像素分类。

FCN全卷积神经网络，其前馈网络作为输入，输入一个大小为w×h×3的RGB 图像，其中w代表图像的宽度，h代表图像的高度，3代表RGB三个颜色通道，输出结果为特征点的置信度图。此外，每个特征点都会输出一个对应的置信度图。DDPG算法可以解决环境中连续状态和连续动作问题，非常适用于训练机械臂的控制。

Q-learning算法是一种基于强化学习理论的机器学习方式，该算法的自学习性、不依赖被控对象数学模型和在线更新特性等诸多优点。在本发明中，空间机械臂到达航天器帆板侧边的路径寻优问题上具有突出表现。

附图说明

图1为本发明方法的流程示意图；

图2为本发明中已知卫星的关键点及编号的示意图；

图3为本发明中FCN全卷积神经网络的结构图；

图4为本发明中PNP算法的示意图。

具体实施方式

以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

一种基于深度强化学习的卫星消旋方法，包括以下步骤：

S1、标注已知卫星的数据样本建立已知卫星的样本数据集；

优先地，S1中，在建立已知卫星的样本数据集时，需要从多个视角对已知卫星环形拍照以获得不同角度下已知卫星的图片，反映在不同角度下的已知卫星的外观和已知卫星的形状；在已知卫星上选择特征点，并给特征点打上对应的标签。

优先地，S2中，在全卷积神经网络对图像进行处理后，设定阈值，在阈值以上的置信度图中搜索局部峰值，然后使用贪婪分配算法选择峰值最大的点作为特征点。

优先地S2中，全卷积神经网络采用多级架构来检测关键点，采用FCN全卷积神经网络，FCN全卷积神经网络的前馈网络作为输入，输入一个大小为w×h×3的RGB图像，其中w代表图像的宽度，h代表图像的高度，3代表RGB三个颜色通道，输出结果为特征点的置信度图，每个特征点都会输出一个对应的置信度图。

优先地，S3中，利用在全卷积神经网络的训练下得到不同帧图像对应关键点的二维坐标，使用PNP算法求解已知卫星的位姿。

优先地，S4中，获取已知卫星的关键点以及估计与已知卫星的关键点对应的位姿，利用已知卫星的位置信息结合DDPG算法到达空间机械臂的目标位置，使用空间机械臂配备的消旋刷对航天器帆板侧边实现卫星消旋；

在对全卷积神经网络进行训练时调用CUDA进行加速。

优先地，S4中，DDPG分为Actor网络和Critic网络，Actor网络训练最优消旋，Critic网络评价Actor网络选取最优消旋的动作所获得的价值，Actor网络利用Q-learning算法函数逼近的方法估计值函数，值函数表明当前状态下策略的长期影响能力；

令空间机械臂中右侧机械臂的每个关节的位置控制集合为DDPG的状态集合，状态集合由6个关节当前转角、空间机械臂的消旋刷是否触碰到卫星帆板侧边、两侧卫星帆板外角点位置、卫星转速、是否发生非合理碰撞以及机械臂每个关节位置控制量共计27维信息组成；

优先地，FCN全卷积神经网络分为几个阶段运行，每个阶段不仅考虑图像特征，还考虑前一阶段的输出；FCN全卷积神经网络预测出关键点连接线的向量场图作为辅助信息，来提高预测精度以及在涉及多个已知卫星的位姿估计时作为关键点归属问题的指征，向量场图与置信度图并行工作，每个阶段再合并到一起作为下一阶段的输入。

优先地，通过全卷积神经网络获得每张图像中特征点的二维坐标，第k-1幅图片上的u_i的二维坐标以及u_i在第k幅图片上的对应点u^′ _i的二维坐标，p_i为u_i在世界坐标系下对应点的三维坐标，三维坐标通过测量得到，求解第k-1幅图片到第k幅图片的旋转矩阵和平移量即T_k-1,k，通过T_k-1,k恢复物体相对于摄像机的平移和旋转的量，达到估计已知卫星位姿的目的。

信息采集视频输出为一帧帧图像得到不同帧图像。27维信息包括DDPG的状态集合，令空间机械臂中右侧机械臂的每个关节的位置控制集合为DDPG的状态集合，状态集合由空间机械臂的6个关节当前转角、空间机械臂的消旋刷是否触碰到卫星帆板侧边、两侧卫星帆板外角点位置、卫星转速、空间机械臂和卫星是否发生非合理碰撞以及机械臂每个关节位置控制量。

1、建立数据集。

首先建立卫星的样本数据库，对于已知卫星，需要环形的从多个视角对目标已知卫星拍照以获得不同角度下已知卫星的图片，样本数据应该尽可能多，能够反映已知卫星在各种视角下的外观和形状。在样本标注部分，对采集到的图片数据进行标注，标注已知卫星的关键点及编号。在目标已知卫星上选择合适的特征点，并给这些特征点打上标签，对于特征点的选取有一定的要求，特征点可以是角点或颜色变化比较明显的点，不宜过于单一，例如对于规则的立方体，可以选择8个顶点作为该物体的特征点，并给这8个点分别编号为1， 2，…，8，然后在其他图中找到对应的8个顶点，根据对应位置关系给这8个点打上对应的编号，如图2所示。此外，对于特征点个数也有一定的要求，每张图中目标物体的特征点数量至少为4个。

2、通过全卷积神经网络对卫星数据集进行训练并输出目标物体关键点的置信度图。

FCN全卷积神经网络与CNN卷积神经网络的区别在于，通常CNN网络在卷积层之后会接上若干个全连接层，将卷积层产生的特征图映射成一个固定长度的特征向量；与经典的CNN卷积神经网络在卷积层之后使用全连接层得到固定长度的特征向量进行分类不同，FCN全卷积神经网络可以接受任意尺寸的输入图像，FCN全卷积神经网络采用反卷积层对最后一个卷积层对特征图进行上采样，使它恢复到输入图像相同的尺寸，从而可以对每个像素都产生了一个预测，同时保留了原始输入图像中的空间信息，最后在上采样的特征图上进行逐像素分类。

此实施例对FCN建模时，网络是分阶段运行，每个阶段不仅考虑图像特征，还考虑前一阶段的输出。由于所有阶段都是卷积的，所以当数据通过FCN全卷积神经网络时，它们利用了一个越来越大的接受野。正是由于这个特性，FCN全卷积神经网络在早期阶段解决了由于接受野较小而产生的歧义的问题，这是通过在后面阶段越来越多的考虑图像特征以及置信度图来实现的。类似的，采用FCN全卷积神经网络可以预测出关键点连接线的向量场图作为辅助信息，来提高预测精度以及在涉及多物体位姿估计时作为关键点归属问题的指征。向量场图与置信度图并行工作，每个阶段再合并到一起作为下一阶段的输入。如图3所示。网络分为几个stage运行。每个阶段都能输出各个关键点的置信度图(橙色部分)和向量场图 (蓝色部分)，使用时以最后一个阶段的响应图输出为准。

全卷积神经网络如图3所示，网络输入为彩色图像(如ori image)。网络分为几个stage运行。每个阶段都能输出各个关键点的置信度图(如score1、score2、score3、score4)，使用时以最后一个阶段的响应图输出为准。此外，center map是一个提前生成的高斯函数模板，用来把响应归拢到图像中心。

在网络对图像进行处理后，需要从置信度图中提取出目标对象。使用一个简单的后处理步骤，设定一个适当的阈值，在阈值以上的置信度图中搜索局部峰值，然后使用贪婪分配算法选择峰值最大的点作为特征点。

通过上述网络的训练，可以得到特征点在图像上的二维坐标。

3、通过PNP算法对视频中关键点的运动轨迹进行跟踪并估计目标物体的位姿。

全卷积神经网络得到不同帧图像对应关键点的二维坐标，使用PnP算法求解得到目标物体的位姿。

如图4所示，是PnP算法求解的示意图，通过卷积神经网络我们可以获得每张图中特征点的二维坐标，即第k-1幅图片上的u_i的二维坐标以及u_i在第k幅图片上的对应点u^′ _i的二维坐标，p_i为u_i在世界坐标系下对应点的三维坐标，(该坐标可以通过测量得到)，求解由第 k-1幅图到第k幅图的旋转矩阵和平移量，即T_k-1,k，恢复物体相对于摄像机的平移和旋转的量，达到物体位姿估计的目的。

4、通过DDPG算法，训练最优消旋最终使得空间机械臂消旋刷刷航天器帆板侧边完成卫星消旋。

本实例结合视觉信息与强化学习对卫星进行消旋。DDPG算法的参数设置如下，动作网络的优化学习率设置为0.0001，评论家网络的优化学习率设置为0.001，奖励的折扣率设置为0.99，Soft更新模式下的更新参数设置为0.001，从记忆库中选取记忆序列时，最小的 BATCH_SIZE设置为64，在对网络进行训练时调用CUDA进行加速。

在动作网络和评论家网络中，都选取Adam优化器对网络参数进行迭代优化，动作网络中的噪声采用OU随机噪声。动作网络的结构为输入状态维数，经过线性层使维数转化为400，随后用Tanh激励函数激活，再经过线性层使维数转化为300，用Relu激励函数激活，最后再使用线性层使维数转化为动作的维数大小并用Tanh激励函数激活使其值限制在-1到+1之间。评论家网络的结构为输入状态维数，经过线性层使维数转化为400，随后用Relu激励函数激活，再把400加上动作维数的个数输入线性层，经过线性层使维数转化为300，用Relu激励函数激活，最后再使用线性层使维数为1。

在基于强化学习的卫星消旋实验中，我们令机械臂平台中右侧机械臂的每个关节的位置控制集合为DDPG的动作集合。状态集合由6个关节当前转角、机械臂末端消旋刷是否触碰到卫星帆板外竖边、两侧卫星帆板外角点位置、卫星转速、是否发生非合理碰撞以及机械臂每个关节位置控制量这27维信息组成。在训练过程中，如果机械臂末端消旋刷触碰到卫星帆板外竖边时赋予奖励值10，当卫星速度发生变化时以二倍转速差值作为奖励值，当机械臂训练时发生非合理碰撞则给予惩罚-50并结束此轮训练。

至此，对卫星消旋的机械臂训练设计已完成。

本发明通过构建了一个完善统一的全卷积神经网络框架用于对卫星关键点的检测，以及基于深度强化学习的机械臂实现了对卫星的消旋任务。

CPM表示卷积位姿机，终端为现有技术中的电脑。全卷积神经网络采用分阶段运行，每个分阶段不仅考虑图像特征，还考虑前一阶段的输出，解决了网络在早期阶段接受野较小而产生的歧义的问题。

DDPG算法为深度确定性策略梯度算法，DQN算法为深度Q网络算法，DDPG 算法是Actor-Critic和DQN算法的结合体。其中，Actor-Critic又可分为PG和Q-learning算法，PG为策略梯度。DDPG算法可以解决环境中连续状态和连续动作问题，非常适用于训练机械臂的控制。DDPG可分为Actor和Critic两部分，Actor网络用来训练选取动作，Critic 网络用来评价Actor网络选取的动作所获得的价值，Actor部分通常利用函数逼近的方法估计值函数，其中就包含了Q-learning算法。其中，Q-learning算法是一种基于强化学习理论的机器学习方式，该算法的自学习性、不依赖被控对象数学模型和在线更新特性等诸多优点。在本发明中，空间机械臂到达航天器帆板侧边的路径寻优问题上具有突出表现。

PNP是求解3D到2D点对运动的方法，描述已知n个3D空间点以及它们的投影位置时，如何估计相机所在的位姿。PNP问题就是在已知世界坐标系下n个空间点的真实坐标以及它们的2D归一化相机坐标系下的坐标时，如何计算相机所在位姿。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于深度强化学习的卫星消旋方法，其特征在于，包括以下步骤：

S1、标注已知卫星的数据样本建立已知卫星的样本数据集；

S4、通过DDPG算法训练最优消旋，使用空间机械臂配备的消旋刷刷航天器帆板侧边完成卫星消旋；

S4中，DDPG分为Actor网络和Critic网络，Actor网络训练最优消旋，Critic网络评价Actor网络选取最优消旋的动作所获得的价值，Actor网络利用Q-learning算法函数逼近的方法估计值函数，值函数表明当前状态下策略的长期影响能力；

在DDPG算法训练过程中，如果空间机械臂的消旋刷触碰到卫星帆板侧边时赋予奖励值10，当卫星速度发生变化时以二倍转速差值作为奖励值，当空间机械臂训练时发生非合理碰撞则给予惩罚-50并结束此轮训练。

2.根据权利要求1所述的一种基于深度强化学习的卫星消旋方法，其特征在于，S1中，在建立已知卫星的样本数据集时，需要从多个视角对已知卫星环形拍照以获得不同角度下已知卫星的图片，反映在不同角度下的已知卫星的外观和已知卫星的形状；在已知卫星上选择特征点，并给特征点打上对应的标签。

3.根据权利要求1所述的一种基于深度强化学习的卫星消旋方法，其特征在于，S2中，在全卷积神经网络对图像进行处理后，设定阈值，在阈值以上的置信度图中搜索局部峰值，然后使用贪婪分配算法选择峰值最大的点作为特征点。

4.根据权利要求1所述的一种基于深度强化学习的卫星消旋方法，其特征在于，S2中，全卷积神经网络采用多级架构来检测关键点，采用FCN全卷积神经网络，FCN全卷积神经网络的前馈网络作为输入，输入一个大小为w×h×3的RGB图像，其中w代表图像的宽度，h代表图像的高度，3代表RGB三个颜色通道，输出结果为特征点的置信度图，每个特征点都会输出一个对应的置信度图。

5.根据权利要求1所述的一种基于深度强化学习的卫星消旋方法，其特征在于，S3中，利用在全卷积神经网络的训练下得到不同帧图像对应关键点的二维坐标，使用PNP算法求解已知卫星的位姿。

6.根据权利要求1所述的一种基于深度强化学习的卫星消旋方法，其特征在于，S4中，获取已知卫星的关键点以及估计与已知卫星的关键点对应的位姿，利用已知卫星的位置信息结合DDPG算法到达空间机械臂的目标位置，使用空间机械臂配备的消旋刷对航天器帆板侧边实现卫星消旋；

动作网络的结构为输入状态维数，经过线性层使输入状态维数转化为400，随后用Tanh激励函数激活，再经过线性层使输入状态维数转化为300，用Relu激励函数激活上一层动作网络的输出，使上一层动作网络非线性化，最后再使用线性层使输入状态维数转化为动作的维数值，并用Tanh激励函数激活使动作的维数值限制在-1到+1之间；

评论家网络的结构为输入状态维数，经过线性层使输入状态维数转化为400，随后用Relu激励函数激活输入状态维数，再把400加上动作维数的个数输入线性层，经过线性层使输入状态维数转化为300，用Relu激励函数激活上一层评论家网络的输出，使上一层评论家网络非线性化，最后再使用线性层使输入状态维数为1；

在对全卷积神经网络进行训练时调用CUDA进行加速。

7.根据权利要求4所述的一种基于深度强化学习的卫星消旋方法，其特征在于，FCN全卷积神经网络分为几个阶段运行，每个阶段不仅考虑图像特征，还考虑前一阶段的输出；FCN全卷积神经网络预测出关键点连接线的向量场图作为辅助信息，来提高预测精度以及在涉及多个已知卫星的位姿估计时作为关键点归属问题的指征，向量场图与置信度图并行工作，每个阶段再合并到一起作为下一阶段的输入。

8.根据权利要求2所述的一种基于深度强化学习的卫星消旋方法，其特征在于，通过全卷积神经网络获得每张图像中特征点的二维坐标，第k-1幅图片上的u_i的二维坐标以及u_i在第k幅图片上的对应点u′_i的二维坐标，p_i为u_i在世界坐标系下对应点的三维坐标，三维坐标通过测量得到，求解第k-1幅图片到第k幅图片的旋转矩阵和平移量即T_k-1,k，通过T_k-1,k恢复物体相对于摄像机的平移和旋转的量，达到估计已知卫星位姿的目的。