CN117656083B

CN117656083B - 七自由度抓取姿态生成方法、装置、介质及设备

Info

Publication number: CN117656083B
Application number: CN202410128972.2A
Authority: CN
Inventors: 仲训杲; 罗家国; 龚涛; 吴昊男; 周桥; 陈毅军; 杨贵志
Original assignee: Xiamen University of Technology
Current assignee: Xiamen University of Technology
Priority date: 2024-01-31
Filing date: 2024-01-31
Publication date: 2024-04-30
Anticipated expiration: 2044-01-31
Also published as: CN117656083A

Abstract

本发明涉及一种七自由度抓取姿态生成方法、装置、介质及设备。方法包括：获取包含多个物体的RGB图像以及深度图像；将RGB图像输入至预先训练完成的无类别分割模块中，得到各个物体分别所在区域的二值化掩膜；根据深度图像和二值化掩膜，得到各个物体分别对应的单目标深度图；针对每一单目标深度图，确定单目标深度图对应的目标深度值；将目标深度值按照预设顺序进行排序，得到排序后的目标深度值集合；将目标深度值集合、各个物体分别对应的所述单目标深度图，输入到预先训练完成的抓取预测模块，得到抓取五维信息；根据抓取五维信息、待抓取物体的点云，得到针对待抓取物体的七自由度抓取姿态信息。如此，提高抓取精确度和抓取成功率。

Description

七自由度抓取姿态生成方法、装置、介质及设备

技术领域

本发明涉及机器人抓取技术领域，具体涉及一种七自由度抓取姿态生成方法、装置、介质及设备。

背景技术

抓取是机器人的基本技能，抓取技术备受研究人员关注。相关技术中，通常采用基于深度学习网络的抓取检测方法，但是相比单目标抓取任务，深度学习网络在多目标场景下的抓取推理性能下降，因此，对于多目标抓取任务，特别是在物体堆叠杂乱的情况下，给机器人自主抓取带来了新的挑战。另外，还有基于模型的抓取检测方法，但是该方法过度依赖3D模型，且对3D模型的质量要求较高，在真实环境中无法应对多目标抓取任务。

发明内容

本发明的目的是提供一种七自由度抓取姿态生成方法、装置、介质及设备，将多目标抓取转换为无类别分割和七自由度抓取姿态生成问题，实现多目标堆叠物体的准确抓取，提高抓取精度和准确性。

为了实现上述目的，第一方面，本发明提供一种七自由度抓取姿态生成方法，所述方法包括：

获取包含多个物体的RGB图像，以及所述RGB图像对应的深度图像；

将所述RGB图像输入至预先训练完成的无类别分割模块中，得到所述无类别分割模块输出的各个所述物体分别所在区域的二值化掩膜；

根据所述深度图像和各个所述物体分别所在区域的所述二值化掩膜，得到各个所述物体分别对应的单目标深度图；

针对每一所述单目标深度图，将所述单目标深度图内各个像素的深度值中不为0的最小深度值，确定为所述单目标深度图对应的目标深度值；

将所述目标深度值按照预设顺序进行排序，得到排序后的目标深度值集合；

将所述目标深度值集合、各个所述物体分别对应的所述单目标深度图，输入到预先训练完成的抓取预测模块，得到所述抓取预测模块预测的针对待抓取物体的抓取五维信息，其中，所述抓取五维信息包括抓取位置的二维坐标、抓取角度、第一抓取宽度、抓取预测质量信息；

根据所述抓取五维信息、所述待抓取物体的点云，得到针对所述待抓取物体的七自由度抓取姿态信息，其中，所述七自由度抓取姿态信息包括抓取位置的三维坐标、三维空间旋转分量的三维坐标、第二抓取宽度。

可选地，所述根据所述深度图像和各个所述物体分别所在区域的所述二值化掩膜，得到各个所述物体分别对应的单目标深度图，包括：

针对每一所述二值化掩膜，确定所述二值化掩膜的透明度；

对所述深度图像进行中值滤波处理以及多帧均值平滑处理，得到鲁棒深度图像；

根据所述鲁棒深度图像和所述二值化掩膜的透明度，得到各个物体分别对应的深度区域图像，其中，所述深度区域图像的尺寸与所述鲁棒深度图像的尺寸相同；

针对每一所述深度区域图像，将所述深度区域图像从二维图像转换为一维数组，针对所述一维数组中包括的所述深度区域图像中每个像素的深度值，若所述像素的深度值大于像素均值或者等于0，则将该像素的深度值替换为深度均值，将处理之后的一维数组转换为的二维图像作为所述深度区域图像对应的所述单目标深度图，其中，所述深度均值为所述深度区域图像中各个像素的深度值的平均值。

可选地，所述无类别分割模块包括特征提取主干网络和区域建议网络；

所述无类别分割模块用于通过如下方式得到各个所述物体分别所在区域的二值化掩膜：

所述特征提取主干网络对所述RGB图像进行特征提取，对提取到的特征进行上采样处理以及融合处理，得到尺寸不同的多张特征图；

所述区域建议网络通过滑动窗在所述RGB图像中生成锚定框，其中，所述锚定框中包含物体的概率大于预设概率阈值；

所述区域建议网络根据所述锚定框，通过感兴趣区域分别在多张特征图中截取所述锚定框的对应区域，并针对在特征图中截取的所述锚定框的对应区域，通过卷积模块标注出物体所在区域的所述二值化掩膜。

可选地，所述抓取预测模块包括残差卷积网络、通道注意力模块、空间注意力模块；

所述抓取预测模块用于通过如下方式预测所述抓取五维信息：

针对每一所述单目标深度图，将所述单目标深度图中各个像素的深度值进行归一化处理；

所述残差卷积网络对归一化处理后的单目标深度图进行特征提取，并将提取的特征进行下采样处理，得到下采样特征，将所述下采样特征发送给所述通道注意力模块；

所述通道注意力模块利用多层感知器对所述下采样特征进行最大池化处理和平均池化处理，得到中间特征，将所述中间特征发送给所述空间注意力模块；

所述空间注意力模块对所述中间特征进行最大池化处理、平均池化处理以及卷积处理，得到目标特征；

根据所述目标特征和所述目标深度值集合，预测所述抓取五维信息。

可选地，所述根据所述抓取五维信息、所述待抓取物体的点云，得到针对所述待抓取物体的七自由度抓取姿态信息，包括：

根据第一变换和所述抓取位置的二维坐标，得到所述抓取位置的三维坐标，其中，所述第一变换为将二维坐标转换为三维坐标的变换；

根据所述第一变换、第二变换、第三变换、所述抓取位置的二维坐标、所述抓取角度、所述待抓取物体的点云，得到三维空间旋转分量的三维坐标，其中，所述第二变换为从所述抓取位置的接近向量到三维空间z轴的欧拉角的变换，所述第三变换为将抓取俯仰角、抓取偏航角和抓取旋转角转换为三维空间旋转分量的三维坐标的变换；

将所述第一抓取宽度作为所述第二抓取宽度。

通过如下公式得到所述七自由度抓取姿态信息：

其中，G ₀、T _grasp7d(G _i,p _i)表示七自由度抓取姿态信息，x表示抓取位置的三维坐标中的x轴坐标，y表示抓取位置的三维坐标中的y轴坐标，z表示抓取位置的三维坐标中的z轴坐标，Rx表示三维空间旋转分量的三维坐标中的x轴坐标，Ry表示三维空间旋转分量的三维坐标中的y轴坐标，Rz表示三维空间旋转分量的三维坐标中的z轴坐标，w2表示第二抓取宽度，w1表示第一抓取宽度，T ₁表示第一变换，T ₂表示第二变换，T ₃表示第三变换，x _i表示抓取位置的二维坐标中的x轴坐标，y _i表示抓取位置的二维坐标中的y轴坐标，θ表示抓取角度，p _i表示待抓取物体的点云，G _i表示抓取五维信息，q表示抓取预测质量信息。

第二方面，提供一种七自由度抓取姿态生成装置，所述装置包括：

图像获取模块，用于获取包含多个物体的RGB图像，以及所述RGB图像对应的深度图像；

二值化掩膜确定模块，用于将所述RGB图像输入至预先训练完成的无类别分割模块中，得到所述无类别分割模块输出的各个所述物体分别所在区域的二值化掩膜；

单目标深度图确定模块，用于根据所述深度图像和各个所述物体分别所在区域的所述二值化掩膜，得到各个所述物体分别对应的单目标深度图；

目标深度值确定模块，用于针对每一所述单目标深度图，将所述单目标深度图内各个像素的深度值中不为0的最小深度值，确定为所述单目标深度图对应的目标深度值；

排序模块，用于将所述目标深度值按照预设顺序进行排序，得到排序后的目标深度值集合；

抓取五维信息预测模块，用于将所述目标深度值集合、各个所述物体分别对应的所述单目标深度图，输入到预先训练完成的抓取预测模块，得到所述抓取预测模块预测的针对待抓取物体的抓取五维信息，其中，所述抓取五维信息包括抓取位置的二维坐标、抓取角度、第一抓取宽度、抓取预测质量信息；

抓取姿态信息确定模块，用于根据所述抓取五维信息、所述待抓取物体的点云，得到针对所述待抓取物体的七自由度抓取姿态信息，其中，所述七自由度抓取姿态信息包括抓取位置的三维坐标、三维空间旋转分量的三维坐标、第二抓取宽度。

可选地，所述单目标深度图确定模块，包括：

透明度确定子模块，用于针对每一所述二值化掩膜，确定所述二值化掩膜的透明度；

处理子模块，用于对所述深度图像进行中值滤波处理以及多帧均值平滑处理，得到鲁棒深度图像；

深度区域图像确定子模块，用于根据所述鲁棒深度图像和所述二值化掩膜的透明度，得到各个物体分别对应的深度区域图像，其中，所述深度区域图像的尺寸与所述鲁棒深度图像的尺寸相同；

单目标深度图确定子模块，用于针对每一所述深度区域图像，将所述深度区域图像从二维图像转换为一维数组，针对所述一维数组中包括的所述深度区域图像中每个像素的深度值，若所述像素的深度值大于像素均值或者等于0，则将该像素的深度值替换为深度均值，将处理之后的一维数组转换为的二维图像作为所述深度区域图像对应的所述单目标深度图，其中，所述深度均值为所述深度区域图像中各个像素的深度值的平均值。

可选地，所述抓取姿态信息确定模块，包括：

第一确定子模块，用于根据第一变换和所述抓取位置的二维坐标，得到所述抓取位置的三维坐标，其中，所述第一变换为将二维坐标转换为三维坐标的变换；

第二确定子模块，用于根据所述第一变换、第二变换、第三变换、所述抓取位置的二维坐标、所述抓取角度、所述待抓取物体的点云，得到三维空间旋转分量的三维坐标，其中，所述第二变换为从所述抓取位置的接近向量到三维空间z轴的欧拉角的变换，所述第三变换为将抓取俯仰角、抓取偏航角和抓取旋转角转换为三维空间旋转分量的三维坐标的变换；

第三确定子模块，用于将所述第一抓取宽度作为所述第二抓取宽度。

可选地，所述抓取姿态信息确定模块用于通过如下公式得到所述七自由度抓取姿态信息：

第三方面，提供一种可读存储介质，其上存储有计算机程序，所述程序被处理器执行时，实现如第一方面提供的所述方法的步骤。

第四方面，提供一种电子设备，包括存储器和处理器，所述存储器用于存储程序，所述处理器用于执行所述程序，以实现如第一方面提供的所述方法的步骤。

通过上述技术方案，将RGB图像输入至无类别分割模块中，得到各个物体分别所在区域的二值化掩膜，之后根据深度图像和各个物体分别所在区域的二值化掩膜，得到各个物体分别对应的单目标深度图，深度图像中有多个物体，得到单目标深度图后，可以完成一个场景的多目标深度图向多个单目标深度图的转换。无类别分割模块可以用于对类别不可知对象进行检测，即使不识别物体的类别属性依然可以对物体进行精细分割。抓取预测模块可以通过单目标深度图实现高速度、高精度的五维抓取姿态预测。通过待抓取物体的点云和抓取五维信息进一步经过转换，可以得到七自由度抓取姿态。上述方案提升了抓取姿态预测的速度，解决了直接在点云中生成姿态信息导致的缩放问题，有效提高机器人的抓取成功率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是示例性示出的一种七自由度抓取姿态生成方法的流程图。

图2是示例性示出的无类别分割模块的示意图。

图3是示例性示出的抓取预测模块的示意图。

图4是相似物体抓取实验结果示意图。

图5是未知物体抓取实验结果示意图。

图6是示例性示出的一种七自由度抓取姿态生成装置的框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1是示例性示出的一种七自由度抓取姿态生成方法的流程图，如图1所示，该方法可包括步骤11至步骤17。

步骤11：获取包含多个物体的RGB图像，以及RGB图像对应的深度图像。

其中，RGB图像是彩色图像，例如可以采用相机拍摄环境中包含多个物体的图像，作为该RGB图像。多个物体可以是任意物体，该多个物体的摆放方式不做限制，可以堆叠摆放。RGB图像与对应的深度图像，二者的像素需要对齐，确保像素点精确重合。

步骤12：将RGB图像输入至预先训练完成的无类别分割模块中，得到无类别分割模块输出的各个物体分别所在区域的二值化掩膜。

本发明中，无类别分割模块即在不需要预先标注物体的类别属性的情况下对物体进行分割，不需要依赖物体的类别属性，即使不识别物体的类别属性依然可以对物体进行分割。

步骤13：根据深度图像和各个物体分别所在区域的二值化掩膜，得到各个物体分别对应的单目标深度图。

其中，单目标深度图的尺寸与深度图像的尺寸相同，例如RGB图像中有5个物体，那么就对应有5张单目标深度图，每个物体对应一张单目标深度图，单目标深度图中仅有对应物体的蒙版，而没有其他物体的蒙版。

步骤14：针对每一单目标深度图，将单目标深度图内各个像素的深度值中不为0的最小深度值，确定为单目标深度图对应的目标深度值。

步骤15：将目标深度值按照预设顺序进行排序，得到排序后的目标深度值集合。

其中，预设顺序例如可以使从小到大进行排序，本发明对于排序方式不做限制。

步骤16：将目标深度值集合、各个物体分别对应的单目标深度图，输入到预先训练完成的抓取预测模块，得到抓取预测模块预测的针对待抓取物体的抓取五维信息，其中，所述抓取五维信息包括抓取位置的二维坐标、抓取角度、第一抓取宽度、抓取预测质量信息。

步骤17：根据抓取五维信息、待抓取物体的点云，得到针对待抓取物体的七自由度抓取姿态信息，其中，七自由度抓取姿态信息包括抓取位置的三维坐标、三维空间旋转分量的三维坐标、第二抓取宽度。

本发明中，步骤13可包括：

针对每一所述二值化掩膜，确定所述二值化掩膜的透明度；

针对每一所述深度区域图像，将所述深度区域图像从二维图像转换为一维数组，针对所述一维数组中包括的所述深度区域图像中每个像素的深度值，若所述像素的深度值大于像素均值或者等于0，则将该像素的深度值替换为所述深度均值，将处理之后的一维数组转换为的二维图像作为所述深度区域图像对应的所述单目标深度图，其中，所述深度均值为所述深度区域图像中各个像素的深度值的平均值。

其中，确定二值化掩膜的透明度的方式可参照相关技术。鲁棒深度图像相较于原来的深度图像，经过了中值滤波处理和多帧均值平滑处理，更加的平滑，精度更高。具体地，给定大小为n×n的深度图像F _i(x,y)，i=1,2,...,n，并给定一个采样窗口S _xy，经过预处理得到鲁棒深度图像D _i(x,y)，i=1,2,...,n，计算公式如下所示：

根据鲁棒深度图像和物体的二值化掩膜，可得到物体对应的深度区域图像，每一物体对应一张深度区域图像，该深度区域图像中仅有该物体的深度区域，而没有其他物体的深度区域，深度区域图像的尺寸与鲁棒深度图像的尺寸相同，与滤波处理之前的深度图像的尺寸也相同。针对每一深度区域图像，将深度区域图像从二维图像转换为一维数组，该一维数组中存储有深度区域图像中每个像素的深度值，遍历一维数组中的每个元素，即遍历深度区域图像中每个像素的深度值，如果深度值大于像素均值或者等于0，则将一维数组中该像素的深度值替换为深度均值，其中，深度均值为深度区域图像中各个像素的深度值的平均值，一维数组遍历完成之后，即深度区域图像中每个像素的深度值处理完成后，可将处理完成之后的一维数组转换为二维图像，转换后的二维图像可作为单目标深度图。

这样，可以每个物体分别对应的单目标深度图，通过单目标深度图进行抓取姿态的预测，更加精确，避免不同物体之间的干扰，对于物体之间堆叠摆放的情况，也可以预测出准确的抓取姿态，从而精确抓取到物体。

本发明中，无类别分割模块包括特征提取主干网络和区域建议网络；

图2是示例性示出的无类别分割模块的示意图。如图2所示，将RGB图像输入至特征提取主干网络中，由特征提取主干网络对RGB图像进行特征提取，并对提取到的特征进行上采样处理以及融合处理，得到尺寸不同的多张特征图。其中，对于特征图的数量，本发明不做限制，图2所示的四张特征图仅为示例，不构成对本发明实施方式的限制，如图2所示，P1、P2、P3、P4四张特征图构成金字塔特征图，其中顶层特征图P4最小，可以用于分割体积较大的物体，底层特征图P1最大，因保留了原始图像的更多细节，能够提供丰富的纹理信息，可以用于分割体积较小的物体。区域建议网络可以采用滑动窗的方式在RGB图像中生成锚定框，其中，锚定框中包含物体的概率大于预设概率阈值，预设概率阈值可预先设置，即在RGB图像中生成可能包含物体的锚定框。区域建议网络通过感兴趣区域ROI，分别在多张特征图中截取锚定框的对应区域，并在截取的对应区域中通过卷积模块采用颜色标注出各物体的二值化掩膜，实现物体的精确分割。

相关技术中的物体分割任务，通常需要训练每个物体属于哪个类别，为每个像素分配类别标签，并在同一类别内区分不同的对象。然而本发明中的无类别分割模块，无需依赖物体的类别标签，也无需对像素进行类别标签的分类，节约时间，效率更高，可以用于对类别不可知对象进行检测，即使不识别物体的类别属性依然可以对物体进行精细分割。

示例地，无类别分割模块可以是通过如下方式训练得到的。重建数据集，得到适合训练无类别分割模块的训练数据的数据格式，其中，首先对不同场景的图像进行采样，并对图像进行顺序编号，然后通过掩码标签分离场景中二值化目标对象，最后用类别和掩码区域标记目标对象。定义平均二值交叉熵作为训练函数，实现无类别分割模块的参数训练，训练采用的公式如下所示：

其中，L _seg表示平均二值交叉熵，m表示训练数据的数量，y _i表示训练数据的标签，p(y _i)为训练数据的预测值。

本发明中，抓取预测模块包括残差卷积网络、通道注意力模块、空间注意力模块；

图3是示例性示出的抓取预测模块的示意图，其中各个卷积核的参数如图3所示。首先将单目标深度图中各个像素的深度值进行归一化处理，利用9×9卷积核提高网络特征提取能力，利用3×3卷积核进行目标特征提取，通过其他卷积核进行下采样处理，把特征图的大小下采样到八分之一，得到下采样特征。通道注意力模块利用多层感知器对下采样特征F进行最大池化处理和平均池化处理，得到中间特征Fc，计算公式如下：

空间注意力模块对所述中间特征进行最大池化处理、平均池化处理以及卷积处理，得到目标特征Fs，计算公式如下：

其中，表示矩阵乘法。

之后根据所述目标特征和所述目标深度值集合，预测所述抓取五维信息。其中，抓取预测模块在训练时的损失函数如下公式所示：

其中，Loss表示损失函数，s表示训练数据的数量，G表示训练数据的抓取位置，G _r表示抓取标签。

本发明中的抓取预测模块结合通道注意力模块和空间注意力模块，提高对于单目标深度图的数据理解能力，抓取预测模块可以通过单目标深度图实现高速度、高精度的五维抓取姿态预测。

本发明中，根据所述抓取五维信息、所述待抓取物体的点云，得到针对所述待抓取物体的七自由度抓取姿态信息，包括：

将所述第一抓取宽度作为所述第二抓取宽度。

其中，将通过相机内部参数矩阵将像素坐标抓取位置的二维坐标（x _i,y _i）转换为三维空间坐标p ₀=(x,y,z)，记为第一变换T ₁，公式如下：

其中，c _x、c _y、f _x、f _y、相机固有参数，d _z是像素点对应的深度值。

在分割的局部点云待抓取物体的点云p _i中计算目标点抓取位置p ₀的接近向量，从接近向量到三维空间z轴的欧拉角通过第二变换T ₂获得，公式如下：

其中，v ₁、v ₂、v ₃是由协方差矩阵C计算出的特征向量，s代表相机朝向向量，I=R ^3×3是单位矩阵，是z轴与接近向量之间的夹角，/>是z轴与接近向量的正交向量。

将抓取俯仰角pitch、抓取偏航角yaw、抓取旋转角θ转换为三维空间的旋转分量的三维坐标Rx、Ry、Rz，记为第三变换T ₃。公式如下所示：

示例地，通过如下公式得到所述七自由度抓取姿态信息：

本发明中，抓取预测模块整体结构由生成式残差卷积网络构成，包括13个卷积核，1个通道注意力模块，1个空间注意力模块，主要实现目标抓取位置的检测。整个抓取框架的网络模型在PyTorch平台上编写实现，采用公共抓取数据集对网络进行训练，网络学习率设置为0.001，网络训练采用RTX3090 24GB内存GPU，将数据集按照5：1划分为训练集和验证集，总计训练100个epoch，初始学习率设置为0.001，使用Adam优化器提高网络训练的收敛速度和准确度。采用交并比（Intersection of Union，IoU）作为性能评价指标，IoU描述预测区域predict与真实标签label之间的重合度。

在公共抓取数据集中对抓取预测模块进行测试，输入深度图像尺寸为240*240，评估IoU阈值为0.25。测试结果表明本发明方法的训练损失和验证损失下降平稳，相关技术中的方法与本发明抓取预测模块的性能对比如表1所示，可以看出本发明方法抓取网络参数体量更小，验证精度达到96.2%，而相关技术中的方法为90.2%，相比相关技术中的方法，本发明方法提升了6个百分点。在实际的测试中本发明方法网络速度也更快，达到17.1ms, 低于相关技术中方法的19.6ms。

表1

选取14个与数据集相似的物体和未知物体进行抓取测试，进行真实机器人抓取实验。相似物体包括家庭日常用品、水果和办公用品，未知物体包括户外运动器材和工业零件。如图4所示，从两次相似多目标抓取实验结果可以看出，本发明建立的分割模块很好地分割出抓取目标物体，预测掩模有效屏蔽背景杂波和非目标物体，即使该目标未曾出现在训练数据集中，抓取模块也能推理出合理的七自由度抓取姿态。结合点云图可视化机器人夹持器位姿，可以看出与真实环境中机器人抓取姿态完全一致，这一结果取决于本发明方法中通过T1、T2、T3三个姿态变换得到七自由度抓取姿态的方式。

如图5所示，在未知多目标场景中进行机器人抓取实验，未知目标物给分割模块带来挑战。此时分割模块不完全分割所有目标，预测得到的掩模包含多个杂波，目标形状不规则，但是抓取模块输出目标抓取位置是基于抓取最大置信度，这使得抓取模块依旧较好地输出抓取位姿。在第二次抓取实验中，分割网络预测输出的目标掩模带有少量杂波，掩模总体上表征出了物体的形状，抓取模块不交精确的推理出物体的合理抓取姿态，机器人抓取效果良好。在点云图中可视化机器人夹持器姿态，本发明通过位姿转换使机器人的抓取位姿与可预测位姿保持一致。

此外，进一步在形状奇异的对抗物体上进行机器人抓取实验。通过统计8-14个相似目标和未知物体，以及1-5个对抗物体抓取实验。结果如表2所示，5个不同的杂乱多目标抓取场景，共包括30次机器人抓取。相似物体抓取成功率91.3%，未知物体抓取成功率达到88.7%，而对抗物体的抓取成功率为76.6%。实验证明本发明提出的级联抓取方法能够应对各种形状的未知物体。

表2

基于同一发明构思，本发明还提供一种七自由度抓取姿态生成装置，图6是示例性示出的一种七自由度抓取姿态生成装置的框图，如图6所示，该装置60包括：

图像获取模块61，用于获取包含多个物体的RGB图像，以及所述RGB图像对应的深度图像；

二值化掩膜确定模块62，用于将所述RGB图像输入至预先训练完成的无类别分割模块中，得到所述无类别分割模块输出的各个所述物体分别所在区域的二值化掩膜；

单目标深度图确定模块63，用于根据所述深度图像和各个所述物体分别所在区域的所述二值化掩膜，得到各个所述物体分别对应的单目标深度图；

目标深度值确定模块64，用于针对每一所述单目标深度图，将所述单目标深度图内各个像素的深度值中不为0的最小深度值，确定为所述单目标深度图对应的目标深度值；

排序模块65，用于将所述目标深度值按照预设顺序进行排序，得到排序后的目标深度值集合；

抓取五维信息预测模块66，用于将所述目标深度值集合、各个所述物体分别对应的所述单目标深度图，输入到预先训练完成的抓取预测模块，得到所述抓取预测模块预测的针对待抓取物体的抓取五维信息，其中，所述抓取五维信息包括抓取位置的二维坐标、抓取角度、第一抓取宽度、抓取预测质量信息；

抓取姿态信息确定模块67，用于根据所述抓取五维信息、所述待抓取物体的点云，得到针对所述待抓取物体的七自由度抓取姿态信息，其中，所述七自由度抓取姿态信息包括抓取位置的三维坐标、三维空间旋转分量的三维坐标、第二抓取宽度。

可选地，所述单目标深度图确定模块63，包括：

单目标深度图确定子模块，用于针对每一所述深度区域图像，将所述深度区域图像从二维图像转换为一维数组，针对所述一维数组中包括的所述深度区域图像中每个像素的深度值，若所述像素的深度值大于像素均值或者等于0，则将该像素的深度值替换为所述深度均值，将处理之后的一维数组转换为的二维图像作为所述深度区域图像对应的所述单目标深度图，其中，所述深度均值为所述深度区域图像中各个像素的深度值的平均值。

可选地，所述抓取姿态信息确定模块，包括：

本发明还提供一种可读存储介质，其上存储有计算机程序，所述程序被处理器执行时，实现本发明任一实施例提供的七自由度抓取姿态生成方法的步骤。

第四方面，提供一种电子设备，包括存储器和处理器，所述存储器用于存储程序，所述处理器用于执行所述程序，以实现本发明任一实施例提供的七自由度抓取姿态生成方法的步骤。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种七自由度抓取姿态生成方法，其特征在于，所述方法包括：

将所述目标深度值集合、各个所述物体分别对应的所述单目标深度图，输入到预先训练完成的抓取预测模块，得到所述抓取预测模块预测的针对待抓取物体的抓取五维信息，其中，所述抓取五维信息包括抓取位置的二维坐标、抓取角度、第一抓取宽度、抓取预测质量信息，所述抓取位置的二维坐标包括所述抓取位置的x轴坐标和所述抓取位置的y轴坐标；

根据所述抓取五维信息、所述待抓取物体的点云，得到针对所述待抓取物体的七自由度抓取姿态信息，其中，所述七自由度抓取姿态信息包括抓取位置的三维坐标、三维空间旋转分量的三维坐标、第二抓取宽度，其中，所述待抓取物体的点云根据分割出的所述待抓取物体的局部点云得到。

2.根据权利要求1所述的方法，其特征在于，所述根据所述深度图像和各个所述物体分别所在区域的所述二值化掩膜，得到各个所述物体分别对应的单目标深度图，包括：

针对每一所述二值化掩膜，确定所述二值化掩膜的透明度；

3.根据权利要求1所述的方法，其特征在于，所述无类别分割模块包括特征提取主干网络和区域建议网络；

4.根据权利要求1所述的方法，其特征在于，所述抓取预测模块包括残差卷积网络、通道注意力模块、空间注意力模块；

5.根据权利要求1所述的方法，其特征在于，所述根据所述抓取五维信息、所述待抓取物体的点云，得到针对所述待抓取物体的七自由度抓取姿态信息，包括：

将所述第一抓取宽度作为所述第二抓取宽度。

6.根据权利要求1所述的方法，其特征在于，所述根据所述抓取五维信息、所述待抓取物体的点云，得到针对所述待抓取物体的七自由度抓取姿态信息，包括：

通过如下公式得到所述七自由度抓取姿态信息：

7.一种七自由度抓取姿态生成装置，其特征在于，所述装置包括：

抓取五维信息预测模块，用于将所述目标深度值集合、各个所述物体分别对应的所述单目标深度图，输入到预先训练完成的抓取预测模块，得到所述抓取预测模块预测的针对待抓取物体的抓取五维信息，其中，所述抓取五维信息包括抓取位置的二维坐标、抓取角度、第一抓取宽度、抓取预测质量信息，所述抓取位置的二维坐标包括所述抓取位置的x轴坐标和所述抓取位置的y轴坐标；

抓取姿态信息确定模块，用于根据所述抓取五维信息、所述待抓取物体的点云，得到针对所述待抓取物体的七自由度抓取姿态信息，其中，所述七自由度抓取姿态信息包括抓取位置的三维坐标、三维空间旋转分量的三维坐标、第二抓取宽度，其中，所述待抓取物体的点云根据分割出的所述待抓取物体的局部点云得到。

8.根据权利要求7所述的装置，其特征在于，所述单目标深度图确定模块，包括：

9.一种可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时，实现如权利要求1-6中任一项所述方法的步骤。

10.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储程序，所述处理器用于执行所述程序，以实现如权利要求1-6中任一项所述方法的步骤。