CN113724260A

CN113724260A - 一种基于深度强化学习的卫星抓取方法

Info

Publication number: CN113724260A
Application number: CN202110883603.0A
Authority: CN
Inventors: 高�浩; 蒋逸飞; 胡海东
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-08-03
Filing date: 2021-08-03
Publication date: 2021-11-30
Anticipated expiration: 2041-08-03
Also published as: CN113724260B

Abstract

本发明公开了一种基于深度强化学习的卫星抓取方法，包括：获取卫星对接环的RGB图片并标注卫星样本数据库；利用预先构建的卷积神经网络处理获取到的卫星对接环的RGB图片，得到对接环图像中的关键点的置信度图；利用PnP算法对关键点置信度图进行求解，得到卫星对接环的位姿参数；将卫星样本数据库数据输入特征融合网络，得到卫星对接环的识别分割结果；将卫星对接环的识别分割结果和卫星对接环的位姿参数输入预先训练好的深度强化学习算法，深度强化学习算法输出空间机械臂的最优抓取方案，响应于最优抓取方案，空间机械臂准确抓取卫星对接环。本发明能够提高了空间机器人完成卫星抓取的准确度。

Description

一种基于深度强化学习的卫星抓取方法

技术领域

本发明涉及一种基于深度强化学习的卫星抓取方法、系统及存储介质，属于卫星抓取方法技术领域。

背景技术

人造卫星以空间飞行载具如运载火箭、航天飞机等发射到空间中，像天然卫星一样环绕地球或其它行星运行。随着航天器在轨数目增加及广泛应用，现实生活越来越离不开在轨航天器提供的各种应用功能。例如，以作为地面微波与广播站间的通信媒介的通信卫星；为人类提供定位服务的导航卫星。由于空间在轨工作机构自身条件限制和空间环境的影响，在没有任何补给和维修的条件下，常由于燃料有限、设备陈旧或模块故障而被迫终止运行，不得不重新制造和发射全新系统加以取代，造成了不必要的损失和浪费。GEO即地球同步轨道，开展GEO在轨维护与服务以及相关技术的研究能够有效的延长在轨系统的使用寿命，同时为长期频繁的空间活动提供强有力的后勤保障。

卫星捕获技术是指卫星在地面辅助引导和自主引导下，运动到目标卫星所处的空间轨道，然后缓慢接近目标航天器，最终处于给定的捕获容差范围内；卫星在测距传感器、视觉传感器和数据运算处理器等控制系统的相互作用下，缓慢靠近目标飞行器并与目标星实现刚性锁紧连接，从而与目标飞行器完全整合为一体，最终使两航天器的相对速度为零的过程。

对于合作目标，服务维修一般选择对接点为卫星的远地点发动机和星箭对接环。对于非合作目标，一般选取对接点为平滑表面、表面明显突出特征如分离螺栓等。

现有的抓取方法主要存在以下层面的不足。首先，没有将强化学习的抓取训练算法和视觉端相结合，因此容易造成在抓取的过程中应对复杂的外部环境的适应能力较差。除此以外，在其他的抓取方法中并为采取域随机化的思想进行训练，因此系统的鲁棒性不强，泛化能力有待提高。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种基于深度强化学习的卫星抓取方法，借助深度强化学习，同时结合视觉信息让计算机跟数据和模型环境接触，训练最优抓取位姿，提高了空间机器人完成目标捕获的准确度。为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供了一种基于深度强化学习的卫星抓取方法，包括：

获取卫星对接环的RGB图片并标注卫星样本数据库；

利用预先构建的卷积神经网络处理获取到的卫星对接环的RGB图片，得到对接环图像中的关键点的置信度图·；

利用PnP算法对关键点置信度图进行求解，得到卫星对接环的位姿参数；将卫星样本数据库数据输入特征融合网络，得到卫星对接环的识别分割结果；

将卫星对接环的识别分割结果和卫星对接环的位姿参数输入预先训练好的深度强化学习算法，深度强化学习算法输出空间机械臂的最优抓取方案，响应于最优抓取方案，空间机械臂准确抓取卫星对接环。

结合第一方面，进一步地，所述获取卫星对接环的RGB图片，包括：

获取不同角度下卫星的RGBD图片；

使用特征融合网络识别获取到的RGB图片，采用语义分割法得到不同角度下卫星对接环的RGB图片。

结合第一方面，进一步地，还包括：根据卫星对接环的RGBD图片，重建卫星对接环的3D模型。

结合第一方面，优选地，所述卫星对接环的3D模型用于采用FPS算法获取关键点。

结合第一方面，进一步地，所述得到对接环图像中的关键点置信度图，包括：

利用预先构建的卷积神经网络对获取到的每张卫星对接环的RGB图片进行处理，得到图像的置信度图；

将大小为w×h×3的RGB图像输入预先构建的卷积神经网络，由卷积神经网络处理后得到：向量场预测的对接环图像中关键点的置信度图、以及针对卫星对接环的语义标签。

结合第一方面，优选地，RGB图像的大小为w×h×3，其中，w表示图像的宽度，h表示图像的高度，3表示RGB三个颜色通道。

结合第一方面，优选地，所述卷积神经网络由Pytorch平台构建。

结合第一方面，进一步地，所述得到卫星对接环的位姿参数，包括：

根据对接环图像中的关键点的置信度图，获取关键点u_i的二维坐标，其中二维坐标包括第k-1幅图片上的关键点u_i的二维坐标以及关键点u_i在第k幅图片上的对应点u_i ^′的二维坐标；

使用PNP算法，根据关键点u_i的二维坐标信息计算得到关键点u_i在世界坐标系下对应点的三维坐标p_i；

求解第k-1幅图片到第k幅图片的旋转矩阵和平移量T_k-1,k；

根据T_k-1,k恢复物体相对于摄像机的平移和旋转的量，使用PnP算法求解，得到卫星对接环的位姿参数。

结合第一方面，进一步地，所述深度强化学习算法包括用于训练最优抓取的Actor网络和用于评价所述Actor网络选取最优抓取的动作所获得价值的Critic网络。

结合第一方面，进一步地，所述Actor网络和Critic网络选取Adam优化器对网络参数进行迭代优化，调用CUDA架构加速迭代优化。

结合第一方面，优选地，所述Actor网络的优化学习率为0.0001；所述Critic网络的优化学习率为0.001，奖励的折扣率设置为0.99，更新参数设置为0.001，从记忆库中选取记忆序列时最小的批量设置为64。

结合第一方面，优选地，所述Actor网络中的噪声采用OU随机噪声。

结合第一方面，进一步地，所述深度强化学习算法输出空间机械臂的最优抓取方案，包括：

步骤1：初始化现实Actor网络和现实Critic网络，将现实Actor网络的参数和现实Critic网络的参数复制到目标Actor网络和目标Critic网络；

步骤2：输入状态S到现实Actor网络得到动作a，对此时机械臂施加动作a，环境返回下一时刻的状态s’和奖励r，得到四元组(S,a,r,S’)；其中四元组(S,a,r,S’)表示在状态S时，采取动作a，得到的奖励r和下一个状态S’；

步骤3：更新现实critic网络：从经验池里面取出现实Actor网络得到的四元组样本(S,a,r,S’)进行训练；把(S,a,r,S’)中的S和a输入到现实Critic网络中，得到现实Q(S,a)值，令Q＝Q(S,a)；把(S,a,r,S’)中的S’输入到目标Actor网络中，得到动作a’；把S’和a’一起输入到需要更新的Critic网络中，得到Q(S’，a’)，且目标Q值为Q’＝r+gamma×Q(S’，a’)值；

步骤4：根据现实critic网络的目标Q值，更新现实Actor网络使Q值输出最大；当每次迭代结束，现实critic网络和现实Actor网络根据当前的损失函数进行Q值的更新；

步骤5：间隔预设的时间段，使用现实critic网络和现实Actor网络的参数更新目标Actor网络和目标Critic网络；

步骤6：返回步骤2使用现实Actor网络采样，继续更新现实critic网络、现实critic网络和现实Actor网络，直到训练完所设置的epoch的次数，停止更新；

步骤7：目标Actor网络利用Q-learning算法函数逼近的方法估计值函数，依据值函数训练最优的抓取动作；目标Critic网络利用损失函数评价当前的Actor网络所选取的抓取动作，随着训练的深入损失函数的值逐渐减小直至趋近于零。

结合第一方面，优选地，状态集合S包括：空间机械臂的抓捕手臂是否抓取到对接环、卫星转速、对接环位姿、是否发生合理碰撞以及6个关节角的运动a，共计10维信息。

结合第一方面，优选地，Actor网络的结构为输入状态维数，经过线性层使输入状态维数转化为400，通过Tanh激励函数激活，经过线性层使输入状态维数转化为300，用Relu激励函数激活上一层Actor网络的输出，使上一层Actor网络非线性化，使用线性层使输入状态维数转化为动作的维数值，用Tanh激励函数激活使动作的维数值限制在-1到+1之间。

结合第一方面，优选地，Critic网络的结构为输入状态维数，经过线性层使输入状态维数转化为400，随后用Relu激励函数激活输入状态维数，将400加上动作维数的个数输入线性层，经过线性层使输入状态维数转化为300，用Relu激励函数激活上一层Critic网络的输出，使上一层Critic网络非线性化，最后再使用线性层使输入状态维数为1。

第二方面，本发明提供了一种基于深度强化学习的卫星抓取系统，包括视觉端和机械端，所述视觉端包括：

获取模块：用于获取卫星对接环的RGBD图片并标注卫星样本数据库；

第一处理模块：用于利用预先构建的卷积神经网络处理获取到的卫星对接环的RGB图片，得到对接环图像中的关键点的置信度图；

第二处理模块：用于利用PnP算法对关键点置信度图进行求解，得到卫星对接环的位姿参数；将卫星样本数据库数据输入特征融合网络，得到对接环的识别分割结果；

最优抓取模块：将对接环图像中的关键点置信度图和卫星对接环的位姿参数输入预先训练好的深度强化学习算法，深度强化学习算法输出空间机械臂的最优抓取方案，响应于最优抓取方案，空间机械臂准确抓取卫星对接环。

结合第二方面，进一步地，所述机械端包括抓取装置，所述抓取装置连接视觉端的最优抓取模块。

结合第二发明，优选地，所述抓取装置包括：6自由度UR机械臂和安装在6自由度机械臂末端的抓捕手。

结合第二发明，优选地，所述6自由度机械臂包含6个能够360°自由移动角度的关节。

结合第二发明，优选地，还设有气浮台，所述气浮台用于支撑所述抓取装置。

与现有技术相比，本发明实施例所提供的一种基于深度强化学习的卫星抓取方法所达到的有益效果包括：

本发明利用预先构建的卷积神经网络处理获取到的卫星对接环的RGB图片，得到对接环图像中的关键点的置信度图；利用PnP算法对关键点置信度图进行求解，得到卫星对接环的位姿参数；将卫星样本数据库数据输入特征融合网络，得到对接环的识别分割结果；将对接环图像中的关键点置信度图和卫星对接环的位姿参数输入预先训练好的深度强化学习算法，深度强化学习算法输出空间机械臂的最优抓取方案，响应于最优抓取方案，空间机械臂准确抓取卫星对接环；本发明将视觉端的获取的信息和机械端的抓捕进行了有效地结合，能够训练出更加有效的抓捕方案；

本发明利用深度强化学习算法，结合视觉信息让计算机跟数据和模型环境接触，训练最优抓取位姿，提高了空间机器人完成目标卫星捕获的准确度；

本发明的抓捕训练中有效运用了域随机化的方法，针对各种复杂环境可以有效进行抓捕工作，能够有效解决卫星的回收问题。

附图说明

图1是本发明实施例1提供的一种基于深度强化学习的卫星抓取方法的流程图；

图2是本发明实施例1提供的卷积神经网络的结构示意图；

图3是本发明实施例1提供的深度强化学习算法计算过程中的Critic网络的损失函数的变化情况；

图4是本发明实施例1提供的深度强化学习算法计算过程中的Actor网络的损失函数的变化情况；

图5是本发明实施例1提供的深度强化学习算法计算过程中的奖励值的变化情况；

图6是本发明实施例2提供的一种基于深度强化学习的卫星抓取系统中转区装置的模型图。

图中：1、6自由度UR机械臂。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一：

如图1所示，一种基于深度强化学习的卫星抓取方法，包括：

获取卫星对接环的RGB图片并标注卫星样本数据库；

利用预先构建的卷积神经网络处理获取到的卫星对接环的RGB图片，得到对接环图像中的关键点的置信度图；

具体步骤包括：

步骤1：获取卫星对接环的RGB图片并标注卫星样本数据库。

步骤1.1：获取不同角度下卫星的RGBD图片。

步骤1.2：根据不同角度下卫星的RGB图片，建立卫星的样本数据集。

步骤1.3：使用特征融合网络识别获取到的RGB图片，采用语义分割法得到不同角度下卫星对接环的RGBD图片。

步骤1.4：根据卫星对接环的RGB图片，在卫星样本数据库中标注卫星主体和卫星对接环。

步骤1.5：根据卫星对接环的RGBD图片，重建卫星对接环的3D模型。

卫星对接环的3D模型用于采用FPS算法获取关键点。

步骤2：利用预先构建的卷积神经网络处理获取到的卫星对接环的RGB图片，得到对接环图像中的关键点的置信度图。

构建如图2所示的卷积神经网络处理获取到的卫星对接环的RGB图片，卷积神经网络由Pytorch平台构建。

步骤2.1：利用预先构建的卷积神经网络对获取到的每张卫星对接环的RGB图片进行处理，得到图像的置信度图；

步骤2.2：将大小为w×h×3的RGB图像输入预先构建的卷积神经网络，由卷积神经网络处理后得到：向量场预测的对接环图像中关键点的置信度图、以及针对卫星对接环的语义标签。

具体的，RGB图像的大小为w×h×3，其中，w表示图像的宽度，h表示图像的高度，3表示RGB三个颜色通道。

需要说明的是，每股关键点都有一个对应的置信度图。

步骤3：利用PnP算法对关键点置信度图进行求解，得到卫星对接环的位姿参数；将卫星样本数据库数据输入特征融合网络，得到卫星对接环的识别分割结果。

步骤3.1：得到卫星对接环的位姿参数，包括：

步骤3.1.1：根据对接环图像中的关键点的置信度图，获取关键点u_i的二维坐标，其中二维坐标包括第k-1幅图片上的关键点u_i的二维坐标以及关键点u_i在第k幅图片上的对应点u_i ^′的二维坐标；

步骤3.1.2：使用PNP算法，根据关键点u_i的二维坐标信息计算得到关键点u_i在世界坐标系下对应点的三维坐标p_i；

步骤3.1.3：求解第k-1幅图片到第k幅图片的旋转矩阵和平移量T_k-1,k；

步骤3.1.4：根据T_k-1,k恢复物体相对于摄像机的平移和旋转的量，使用PnP算法求解，得到卫星对接环的位姿参数。

步骤3.2：将卫星样本数据库数据输入特征融合网络，得到卫星对接环的识别分割结果。

步骤4：将卫星对接环的识别分割结果和卫星对接环的位姿参数输入预先训练好的深度强化学习算法，深度强化学习算法输出空间机械臂的最优抓取方案，响应于最优抓取方案，空间机械臂准确抓取卫星对接环。

深度强化学习算法包括用于训练最优抓取的Actor网络和用于评价所述Actor网络选取最优抓取的动作所获得价值的Critic网络。Actor网络和Critic网络选取Adam优化器对网络参数进行迭代优化，调用CUDA架构加速迭代优化。Actor网络依据估计值函数选取最优抓取的动作，Critic网络根据损失函数给出相应的奖励值。如图3、图4所示为Critic网络和Actor网络的损失函数的变化情况，图5为奖励值的变化情况。

具体的，Actor网络的优化学习率为0.0001；Critic网络的优化学习率为0.001，奖励的折扣率设置为0.99，更新参数设置为0.001，从记忆库中选取记忆序列时最小的批量设置为64。Actor网络中的噪声采用OU随机噪声

深度强化学习算法输出空间机械臂的最优抓取方案，包括：

步骤4.1：始化现实Actor网络和现实Critic网络，将现实Actor网络的参数和现实Critic网络的参数复制到目标Actor网络和目标Critic网络；

步骤4.2：输入状态S到现实Actor网络得到动作a，对此时机械臂施加动作a，环境返回下一时刻的状态s’和奖励r，得到四元组(S,a,r,S’)；其中四元组(S,a,r,S’)表示在状态S时，采取动作a，得到的奖励r和下一个状态S’；

步骤4.3：更新现实critic网络：从经验池里面取出现实Actor网络得到的四元组样本(S,a,r,S’)进行训练；把(S,a,r,S’)中的S和a输入到现实Critic网络中，得到现实Q(S,a)值，令Q＝Q(S,a)；把(S,a,r,S’)中的S’输入到目标Actor网络中，得到动作a’；把S’和a’一起输入到需要更新的Critic网络中，得到Q(S’，a’)，且目标Q值为Q’＝r+gamma×Q(S’，a’)值；

步骤4.4：根据现实critic网络的目标Q值，更新现实Actor网络使Q值输出最大；当每次迭代结束，现实critic网络和现实Actor网络根据当前的损失函数进行Q值的更新；

步骤4.5：间隔预设的时间段，使用现实critic网络和现实Actor网络的参数更新目标Actor网络和目标Critic网络；

步骤4.6：返回步骤2使用现实Actor网络采样，继续更新现实critic网络、现实critic网络和现实Actor网络，直到训练完所设置的epoch的次数，停止更新；

步骤4.7：目标Actor网络利用Q-learning算法函数逼近的方法估计值函数，依据值函数训练最优的抓取动作；目标Critic网络利用损失函数评价当前的Actor网络所选取的抓取动作，随着训练的深入损失函数的值逐渐减小直至趋近于零。

状态集合S包括：空间机械臂的抓捕手臂是否抓取到对接环、卫星转速、对接环位姿、是否发生合理碰撞以及6个关节角的运动a，共计10维信息。

具体的，Actor网络的结构为输入状态维数，经过线性层使输入状态维数转化为400，通过Tanh激励函数激活，经过线性层使输入状态维数转化为300，用Relu激励函数激活上一层Actor网络的输出，使上一层Actor网络非线性化，使用线性层使输入状态维数转化为动作的维数值，用Tanh激励函数激活使动作的维数值限制在-1到+1之间。

具体的，Critic网络的结构为输入状态维数，经过线性层使输入状态维数转化为400，随后用Relu激励函数激活输入状态维数，将400加上动作维数的个数输入线性层，经过线性层使输入状态维数转化为300，用Relu激励函数激活上一层Critic网络的输出，使上一层Critic网络非线性化，最后再使用线性层使输入状态维数为1。

本发明中将视觉端的信息和机械端的抓捕进行了有效地结合，能够训练出更加有效的抓捕方案。

本发明的抓捕训练中有效运用了域随机化的方法，针对各种复杂环境能够有效进行抓捕工作。

实施例二：

本实施例提供了一种基于深度强化学习的卫星抓取系统，包括视觉端和机械端，所述视觉端包括：

一种基于深度强化学习的卫星抓取系统的机械端包括抓取装置，抓取装置连接最优抓取模块。如图6所示，抓取装置包括：6自由度UR机械臂1和安装在6自由度机械臂末端的抓捕手，抓捕手能够模拟人手臂去完成抓捕工作。

6自由度机械臂1包含6个能够360°自由移动角度的关节，能够让6自由度机械臂1无死角地在最大抓取距离内到达所希望达到的目标卫星的目标点，目标点为目标卫星对接环上的点。

抓取装置还设有气浮台，浮台用于支撑抓取装置。

整个的抓取系统基于视觉，通过深度强化学习的算法对复杂的空间环境中的卫星实施抓捕。能有效的解决卫星的回收问题。

实施例三：

本实施例是采用本发明实施例1提供的一种基于深度强化学习的卫星抓取方法的具体应用场景，以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

场景1：针对机械臂常规的卫星抓取任务。

在一般的使用强化学习算法进行的抓捕工作，针对一般的需要回收的卫星，其自转的转速缓慢，甚至接近于静止。本发明能够迅速的通过视觉端识别出需要抓取的卫星对接环，进而由机械端(机械臂抓取手臂)实施抓捕工作。整个过程没有随机事件(例如：外加的推力造成卫星自转速度的骤变)。本场景是在理想状态进行训练的抓捕工作，因此会出现系统的鲁棒性较差的问题。

场景2：针对卫星自转角速度随机化的抓取任务。

在实际的抓捕任务中，常常会遇到一些干扰情况出现(例如：外力作用使得卫星自转的角速度骤变；外界噪声作用使得卫星产生一定的抖动)。针对这些随机事件可能造成的影响，通过域随机化的方法进行抓捕训练，即训练的过程中随机初始化卫星的参数。

场景3：针对噪声影响机械臂的抓取任务。

在实际的抓捕任务中，除了卫星本身的自转角速度会收到随机事件的影响外，完成抓捕任务的机械臂同样也会受到外界噪声的影响产生诸如抖动之类的不确定的情况。针对这一问题，采用OU随机噪声，模拟有外界噪声影响而产生的抖动问题进行抓捕训练。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于深度强化学习的卫星抓取方法，其特征在于，包括：

获取卫星对接环的RGB图片并标注卫星样本数据库；

将卫星对接环的识别分割结果和卫星对接环的位姿参数输入预先训练好的深度强化学习算法输出空间机械臂的最优抓取方案，响应于最优抓取方案，空间机械臂准确抓取卫星对接环。

2.根据权利要求1所述的基于深度强化学习的卫星抓取方法，其特征在于，所述获取卫星对接环的RGB图片，包括：

获取不同角度下卫星的RGBD图片；

3.根据权利要求2所述的基于深度强化学习的卫星抓取方法，其特征在于，还包括：根据卫星对接环的RGBD图片，重建卫星对接环的3D模型。

4.根据权利要求1所述的基于深度强化学习的卫星抓取方法，其特征在于，所述得到对接环图像中的关键点置信度图，包括：

5.根据权利要求1所述的基于深度强化学习的卫星抓取方法，其特征在于，所述得到卫星对接环的位姿参数，包括：

根据对接环图像中的关键点的置信度图，获取关键点u_i的二维坐标，其中二维坐标包括第k-1幅图片上的关键点u_i的二维坐标以及关键点u_i在第k幅图片上的对应点u′_i的二维坐标；

求解第k-1幅图片到第k幅图片的旋转矩阵和平移量T_k-1，k；

根据T_k-1，k恢复物体相对于摄像机的平移和旋转的量，使用PnP算法求解，得到卫星对接环的位姿参数。

6.根据权利要求1所述的基于深度强化学习的卫星抓取方法，其特征在于，所述深度强化学习算法包括用于训练最优抓取的Actor网络和用于评价所述Actor网络选取最优抓取的动作所获得价值的Critic网络。

7.根据权利要求6所述的基于深度强化学习的卫星抓取方法，其特征在于，所述Actor网络和Critic网络选取Adam优化器对网络参数进行迭代优化，调用CUDA架构加速迭代优化。

8.根据权利要求6所述的基于深度强化学习的卫星抓取方法，其特征在于，所述深度强化学习算法输出空间机械臂的最优抓取方案，包括：

步骤2：输入状态S到现实Actor网络得到动作a，对此时机械臂施加动作a，环境返回下一时刻的状态s’和奖励r，得到四元组(S，a，r，S’)；其中四元组(S，a，r，S’)表示在状态S时，采取动作a，得到的奖励r和下一个状态S’；

步骤3：更新现实critic网络：从经验池里面取出现实Actor网络得到的四元组样本(S，a，r，S’)进行训练；把(S，a，r，S’)中的S和a输入到现实Critic网络中，得到现实Q(S，a)值，令Q＝Q(S，a)；把(S，a，r，S’)中的S’输入到目标Actor网络中，得到动作a’；把S’和a’一起输入到需要更新的Critic网络中，得到Q(S’，a’)，且目标Q值为Q’＝r+gamma×Q(S’，a’)值；

9.一种基于深度强化学习的卫星抓取系统，其特征在于，包括视觉端和机械端，所述视觉端包括：

获取模块：用于获取卫星对接环的RGB图片并标注卫星样本数据库；

10.根据权利要求9所述的基于深度强化学习的卫星抓取系统，其特征在于，所述机械端包括抓取装置，所述抓取装置连接视觉端的最优抓取模块。