CN117656083B - 七自由度抓取姿态生成方法、装置、介质及设备 - Google Patents

七自由度抓取姿态生成方法、装置、介质及设备 Download PDF

Info

Publication number
CN117656083B
CN117656083B CN202410128972.2A CN202410128972A CN117656083B CN 117656083 B CN117656083 B CN 117656083B CN 202410128972 A CN202410128972 A CN 202410128972A CN 117656083 B CN117656083 B CN 117656083B
Authority
CN
China
Prior art keywords
grabbing
depth
dimensional
image
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410128972.2A
Other languages
English (en)
Other versions
CN117656083A (zh
Inventor
仲训杲
罗家国
龚涛
吴昊男
周桥
陈毅军
杨贵志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University of Technology
Original Assignee
Xiamen University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University of Technology filed Critical Xiamen University of Technology
Priority to CN202410128972.2A priority Critical patent/CN117656083B/zh
Publication of CN117656083A publication Critical patent/CN117656083A/zh
Application granted granted Critical
Publication of CN117656083B publication Critical patent/CN117656083B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

本发明涉及一种七自由度抓取姿态生成方法、装置、介质及设备。方法包括:获取包含多个物体的RGB图像以及深度图像;将RGB图像输入至预先训练完成的无类别分割模块中,得到各个物体分别所在区域的二值化掩膜;根据深度图像和二值化掩膜,得到各个物体分别对应的单目标深度图;针对每一单目标深度图,确定单目标深度图对应的目标深度值;将目标深度值按照预设顺序进行排序,得到排序后的目标深度值集合;将目标深度值集合、各个物体分别对应的所述单目标深度图,输入到预先训练完成的抓取预测模块,得到抓取五维信息;根据抓取五维信息、待抓取物体的点云,得到针对待抓取物体的七自由度抓取姿态信息。如此,提高抓取精确度和抓取成功率。

Description

七自由度抓取姿态生成方法、装置、介质及设备
技术领域
本发明涉及机器人抓取技术领域,具体涉及一种七自由度抓取姿态生成方法、装置、介质及设备。
背景技术
抓取是机器人的基本技能,抓取技术备受研究人员关注。相关技术中,通常采用基于深度学习网络的抓取检测方法,但是相比单目标抓取任务,深度学习网络在多目标场景下的抓取推理性能下降,因此,对于多目标抓取任务,特别是在物体堆叠杂乱的情况下,给机器人自主抓取带来了新的挑战。另外,还有基于模型的抓取检测方法,但是该方法过度依赖3D模型,且对3D模型的质量要求较高,在真实环境中无法应对多目标抓取任务。
发明内容
本发明的目的是提供一种七自由度抓取姿态生成方法、装置、介质及设备,将多目标抓取转换为无类别分割和七自由度抓取姿态生成问题,实现多目标堆叠物体的准确抓取,提高抓取精度和准确性。
为了实现上述目的,第一方面,本发明提供一种七自由度抓取姿态生成方法,所述方法包括:
获取包含多个物体的RGB图像,以及所述RGB图像对应的深度图像;
将所述RGB图像输入至预先训练完成的无类别分割模块中,得到所述无类别分割模块输出的各个所述物体分别所在区域的二值化掩膜;
根据所述深度图像和各个所述物体分别所在区域的所述二值化掩膜,得到各个所述物体分别对应的单目标深度图;
针对每一所述单目标深度图,将所述单目标深度图内各个像素的深度值中不为0的最小深度值,确定为所述单目标深度图对应的目标深度值;
将所述目标深度值按照预设顺序进行排序,得到排序后的目标深度值集合;
将所述目标深度值集合、各个所述物体分别对应的所述单目标深度图,输入到预先训练完成的抓取预测模块,得到所述抓取预测模块预测的针对待抓取物体的抓取五维信息,其中,所述抓取五维信息包括抓取位置的二维坐标、抓取角度、第一抓取宽度、抓取预测质量信息;
根据所述抓取五维信息、所述待抓取物体的点云,得到针对所述待抓取物体的七自由度抓取姿态信息,其中,所述七自由度抓取姿态信息包括抓取位置的三维坐标、三维空间旋转分量的三维坐标、第二抓取宽度。
可选地,所述根据所述深度图像和各个所述物体分别所在区域的所述二值化掩膜,得到各个所述物体分别对应的单目标深度图,包括:
针对每一所述二值化掩膜,确定所述二值化掩膜的透明度;
对所述深度图像进行中值滤波处理以及多帧均值平滑处理,得到鲁棒深度图像;
根据所述鲁棒深度图像和所述二值化掩膜的透明度,得到各个物体分别对应的深度区域图像,其中,所述深度区域图像的尺寸与所述鲁棒深度图像的尺寸相同;
针对每一所述深度区域图像,将所述深度区域图像从二维图像转换为一维数组,针对所述一维数组中包括的所述深度区域图像中每个像素的深度值,若所述像素的深度值大于像素均值或者等于0,则将该像素的深度值替换为深度均值,将处理之后的一维数组转换为的二维图像作为所述深度区域图像对应的所述单目标深度图,其中,所述深度均值为所述深度区域图像中各个像素的深度值的平均值。
可选地,所述无类别分割模块包括特征提取主干网络和区域建议网络;
所述无类别分割模块用于通过如下方式得到各个所述物体分别所在区域的二值化掩膜:
所述特征提取主干网络对所述RGB图像进行特征提取,对提取到的特征进行上采样处理以及融合处理,得到尺寸不同的多张特征图;
所述区域建议网络通过滑动窗在所述RGB图像中生成锚定框,其中,所述锚定框中包含物体的概率大于预设概率阈值;
所述区域建议网络根据所述锚定框,通过感兴趣区域分别在多张特征图中截取所述锚定框的对应区域,并针对在特征图中截取的所述锚定框的对应区域,通过卷积模块标注出物体所在区域的所述二值化掩膜。
可选地,所述抓取预测模块包括残差卷积网络、通道注意力模块、空间注意力模块;
所述抓取预测模块用于通过如下方式预测所述抓取五维信息:
针对每一所述单目标深度图,将所述单目标深度图中各个像素的深度值进行归一化处理;
所述残差卷积网络对归一化处理后的单目标深度图进行特征提取,并将提取的特征进行下采样处理,得到下采样特征,将所述下采样特征发送给所述通道注意力模块;
所述通道注意力模块利用多层感知器对所述下采样特征进行最大池化处理和平均池化处理,得到中间特征,将所述中间特征发送给所述空间注意力模块;
所述空间注意力模块对所述中间特征进行最大池化处理、平均池化处理以及卷积处理,得到目标特征;
根据所述目标特征和所述目标深度值集合,预测所述抓取五维信息。
可选地,所述根据所述抓取五维信息、所述待抓取物体的点云,得到针对所述待抓取物体的七自由度抓取姿态信息,包括:
根据第一变换和所述抓取位置的二维坐标,得到所述抓取位置的三维坐标,其中,所述第一变换为将二维坐标转换为三维坐标的变换;
根据所述第一变换、第二变换、第三变换、所述抓取位置的二维坐标、所述抓取角度、所述待抓取物体的点云,得到三维空间旋转分量的三维坐标,其中,所述第二变换为从所述抓取位置的接近向量到三维空间z轴的欧拉角的变换,所述第三变换为将抓取俯仰角、抓取偏航角和抓取旋转角转换为三维空间旋转分量的三维坐标的变换;
将所述第一抓取宽度作为所述第二抓取宽度。
可选地,所述根据所述抓取五维信息、所述待抓取物体的点云,得到针对所述待抓取物体的七自由度抓取姿态信息,包括:
通过如下公式得到所述七自由度抓取姿态信息:
其中,G 0T grasp7d(G i,p i)表示七自由度抓取姿态信息,x表示抓取位置的三维坐标中的x轴坐标,y表示抓取位置的三维坐标中的y轴坐标,z表示抓取位置的三维坐标中的z轴坐标,Rx表示三维空间旋转分量的三维坐标中的x轴坐标,Ry表示三维空间旋转分量的三维坐标中的y轴坐标,Rz表示三维空间旋转分量的三维坐标中的z轴坐标,w2表示第二抓取宽度,w1表示第一抓取宽度,T 1表示第一变换,T 2表示第二变换,T 3表示第三变换,x i表示抓取位置的二维坐标中的x轴坐标,y i表示抓取位置的二维坐标中的y轴坐标,θ表示抓取角度,p i表示待抓取物体的点云,G i表示抓取五维信息,q表示抓取预测质量信息。
第二方面,提供一种七自由度抓取姿态生成装置,所述装置包括:
图像获取模块,用于获取包含多个物体的RGB图像,以及所述RGB图像对应的深度图像;
二值化掩膜确定模块,用于将所述RGB图像输入至预先训练完成的无类别分割模块中,得到所述无类别分割模块输出的各个所述物体分别所在区域的二值化掩膜;
单目标深度图确定模块,用于根据所述深度图像和各个所述物体分别所在区域的所述二值化掩膜,得到各个所述物体分别对应的单目标深度图;
目标深度值确定模块,用于针对每一所述单目标深度图,将所述单目标深度图内各个像素的深度值中不为0的最小深度值,确定为所述单目标深度图对应的目标深度值;
排序模块,用于将所述目标深度值按照预设顺序进行排序,得到排序后的目标深度值集合;
抓取五维信息预测模块,用于将所述目标深度值集合、各个所述物体分别对应的所述单目标深度图,输入到预先训练完成的抓取预测模块,得到所述抓取预测模块预测的针对待抓取物体的抓取五维信息,其中,所述抓取五维信息包括抓取位置的二维坐标、抓取角度、第一抓取宽度、抓取预测质量信息;
抓取姿态信息确定模块,用于根据所述抓取五维信息、所述待抓取物体的点云,得到针对所述待抓取物体的七自由度抓取姿态信息,其中,所述七自由度抓取姿态信息包括抓取位置的三维坐标、三维空间旋转分量的三维坐标、第二抓取宽度。
可选地,所述单目标深度图确定模块,包括:
透明度确定子模块,用于针对每一所述二值化掩膜,确定所述二值化掩膜的透明度;
处理子模块,用于对所述深度图像进行中值滤波处理以及多帧均值平滑处理,得到鲁棒深度图像;
深度区域图像确定子模块,用于根据所述鲁棒深度图像和所述二值化掩膜的透明度,得到各个物体分别对应的深度区域图像,其中,所述深度区域图像的尺寸与所述鲁棒深度图像的尺寸相同;
单目标深度图确定子模块,用于针对每一所述深度区域图像,将所述深度区域图像从二维图像转换为一维数组,针对所述一维数组中包括的所述深度区域图像中每个像素的深度值,若所述像素的深度值大于像素均值或者等于0,则将该像素的深度值替换为深度均值,将处理之后的一维数组转换为的二维图像作为所述深度区域图像对应的所述单目标深度图,其中,所述深度均值为所述深度区域图像中各个像素的深度值的平均值。
可选地,所述无类别分割模块包括特征提取主干网络和区域建议网络;
所述无类别分割模块用于通过如下方式得到各个所述物体分别所在区域的二值化掩膜:
所述特征提取主干网络对所述RGB图像进行特征提取,对提取到的特征进行上采样处理以及融合处理,得到尺寸不同的多张特征图;
所述区域建议网络通过滑动窗在所述RGB图像中生成锚定框,其中,所述锚定框中包含物体的概率大于预设概率阈值;
所述区域建议网络根据所述锚定框,通过感兴趣区域分别在多张特征图中截取所述锚定框的对应区域,并针对在特征图中截取的所述锚定框的对应区域,通过卷积模块标注出物体所在区域的所述二值化掩膜。
可选地,所述抓取预测模块包括残差卷积网络、通道注意力模块、空间注意力模块;
所述抓取预测模块用于通过如下方式预测所述抓取五维信息:
针对每一所述单目标深度图,将所述单目标深度图中各个像素的深度值进行归一化处理;
所述残差卷积网络对归一化处理后的单目标深度图进行特征提取,并将提取的特征进行下采样处理,得到下采样特征,将所述下采样特征发送给所述通道注意力模块;
所述通道注意力模块利用多层感知器对所述下采样特征进行最大池化处理和平均池化处理,得到中间特征,将所述中间特征发送给所述空间注意力模块;
所述空间注意力模块对所述中间特征进行最大池化处理、平均池化处理以及卷积处理,得到目标特征;
根据所述目标特征和所述目标深度值集合,预测所述抓取五维信息。
可选地,所述抓取姿态信息确定模块,包括:
第一确定子模块,用于根据第一变换和所述抓取位置的二维坐标,得到所述抓取位置的三维坐标,其中,所述第一变换为将二维坐标转换为三维坐标的变换;
第二确定子模块,用于根据所述第一变换、第二变换、第三变换、所述抓取位置的二维坐标、所述抓取角度、所述待抓取物体的点云,得到三维空间旋转分量的三维坐标,其中,所述第二变换为从所述抓取位置的接近向量到三维空间z轴的欧拉角的变换,所述第三变换为将抓取俯仰角、抓取偏航角和抓取旋转角转换为三维空间旋转分量的三维坐标的变换;
第三确定子模块,用于将所述第一抓取宽度作为所述第二抓取宽度。
可选地,所述抓取姿态信息确定模块用于通过如下公式得到所述七自由度抓取姿态信息:
其中,G 0T grasp7d(G i,p i)表示七自由度抓取姿态信息,x表示抓取位置的三维坐标中的x轴坐标,y表示抓取位置的三维坐标中的y轴坐标,z表示抓取位置的三维坐标中的z轴坐标,Rx表示三维空间旋转分量的三维坐标中的x轴坐标,Ry表示三维空间旋转分量的三维坐标中的y轴坐标,Rz表示三维空间旋转分量的三维坐标中的z轴坐标,w2表示第二抓取宽度,w1表示第一抓取宽度,T 1表示第一变换,T 2表示第二变换,T 3表示第三变换,x i表示抓取位置的二维坐标中的x轴坐标,y i表示抓取位置的二维坐标中的y轴坐标,θ表示抓取角度,p i表示待抓取物体的点云,G i表示抓取五维信息,q表示抓取预测质量信息。
第三方面,提供一种可读存储介质,其上存储有计算机程序,所述程序被处理器执行时,实现如第一方面提供的所述方法的步骤。
第四方面,提供一种电子设备,包括存储器和处理器,所述存储器用于存储程序,所述处理器用于执行所述程序,以实现如第一方面提供的所述方法的步骤。
通过上述技术方案,将RGB图像输入至无类别分割模块中,得到各个物体分别所在区域的二值化掩膜,之后根据深度图像和各个物体分别所在区域的二值化掩膜,得到各个物体分别对应的单目标深度图,深度图像中有多个物体,得到单目标深度图后,可以完成一个场景的多目标深度图向多个单目标深度图的转换。无类别分割模块可以用于对类别不可知对象进行检测,即使不识别物体的类别属性依然可以对物体进行精细分割。抓取预测模块可以通过单目标深度图实现高速度、高精度的五维抓取姿态预测。通过待抓取物体的点云和抓取五维信息进一步经过转换,可以得到七自由度抓取姿态。上述方案提升了抓取姿态预测的速度,解决了直接在点云中生成姿态信息导致的缩放问题,有效提高机器人的抓取成功率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是示例性示出的一种七自由度抓取姿态生成方法的流程图。
图2是示例性示出的无类别分割模块的示意图。
图3是示例性示出的抓取预测模块的示意图。
图4是相似物体抓取实验结果示意图。
图5是未知物体抓取实验结果示意图。
图6是示例性示出的一种七自由度抓取姿态生成装置的框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1是示例性示出的一种七自由度抓取姿态生成方法的流程图,如图1所示,该方法可包括步骤11至步骤17。
步骤11:获取包含多个物体的RGB图像,以及RGB图像对应的深度图像。
其中,RGB图像是彩色图像,例如可以采用相机拍摄环境中包含多个物体的图像,作为该RGB图像。多个物体可以是任意物体,该多个物体的摆放方式不做限制,可以堆叠摆放。RGB图像与对应的深度图像,二者的像素需要对齐,确保像素点精确重合。
步骤12:将RGB图像输入至预先训练完成的无类别分割模块中,得到无类别分割模块输出的各个物体分别所在区域的二值化掩膜。
本发明中,无类别分割模块即在不需要预先标注物体的类别属性的情况下对物体进行分割,不需要依赖物体的类别属性,即使不识别物体的类别属性依然可以对物体进行分割。
步骤13:根据深度图像和各个物体分别所在区域的二值化掩膜,得到各个物体分别对应的单目标深度图。
其中,单目标深度图的尺寸与深度图像的尺寸相同,例如RGB图像中有5个物体,那么就对应有5张单目标深度图,每个物体对应一张单目标深度图,单目标深度图中仅有对应物体的蒙版,而没有其他物体的蒙版。
步骤14:针对每一单目标深度图,将单目标深度图内各个像素的深度值中不为0的最小深度值,确定为单目标深度图对应的目标深度值。
步骤15:将目标深度值按照预设顺序进行排序,得到排序后的目标深度值集合。
其中,预设顺序例如可以使从小到大进行排序,本发明对于排序方式不做限制。
步骤16:将目标深度值集合、各个物体分别对应的单目标深度图,输入到预先训练完成的抓取预测模块,得到抓取预测模块预测的针对待抓取物体的抓取五维信息,其中,所述抓取五维信息包括抓取位置的二维坐标、抓取角度、第一抓取宽度、抓取预测质量信息。
步骤17:根据抓取五维信息、待抓取物体的点云,得到针对待抓取物体的七自由度抓取姿态信息,其中,七自由度抓取姿态信息包括抓取位置的三维坐标、三维空间旋转分量的三维坐标、第二抓取宽度。
通过上述技术方案,将RGB图像输入至无类别分割模块中,得到各个物体分别所在区域的二值化掩膜,之后根据深度图像和各个物体分别所在区域的二值化掩膜,得到各个物体分别对应的单目标深度图,深度图像中有多个物体,得到单目标深度图后,可以完成一个场景的多目标深度图向多个单目标深度图的转换。无类别分割模块可以用于对类别不可知对象进行检测,即使不识别物体的类别属性依然可以对物体进行精细分割。抓取预测模块可以通过单目标深度图实现高速度、高精度的五维抓取姿态预测。通过待抓取物体的点云和抓取五维信息进一步经过转换,可以得到七自由度抓取姿态。上述方案提升了抓取姿态预测的速度,解决了直接在点云中生成姿态信息导致的缩放问题,有效提高机器人的抓取成功率。
本发明中,步骤13可包括:
针对每一所述二值化掩膜,确定所述二值化掩膜的透明度;
对所述深度图像进行中值滤波处理以及多帧均值平滑处理,得到鲁棒深度图像;
根据所述鲁棒深度图像和所述二值化掩膜的透明度,得到各个物体分别对应的深度区域图像,其中,所述深度区域图像的尺寸与所述鲁棒深度图像的尺寸相同;
针对每一所述深度区域图像,将所述深度区域图像从二维图像转换为一维数组,针对所述一维数组中包括的所述深度区域图像中每个像素的深度值,若所述像素的深度值大于像素均值或者等于0,则将该像素的深度值替换为所述深度均值,将处理之后的一维数组转换为的二维图像作为所述深度区域图像对应的所述单目标深度图,其中,所述深度均值为所述深度区域图像中各个像素的深度值的平均值。
其中,确定二值化掩膜的透明度的方式可参照相关技术。鲁棒深度图像相较于原来的深度图像,经过了中值滤波处理和多帧均值平滑处理,更加的平滑,精度更高。具体地,给定大小为n×n的深度图像F i(x,y),i=1,2,...,n,并给定一个采样窗口S xy,经过预处理得到鲁棒深度图像D i(x,y),i=1,2,...,n,计算公式如下所示:
根据鲁棒深度图像和物体的二值化掩膜,可得到物体对应的深度区域图像,每一物体对应一张深度区域图像,该深度区域图像中仅有该物体的深度区域,而没有其他物体的深度区域,深度区域图像的尺寸与鲁棒深度图像的尺寸相同,与滤波处理之前的深度图像的尺寸也相同。针对每一深度区域图像,将深度区域图像从二维图像转换为一维数组,该一维数组中存储有深度区域图像中每个像素的深度值,遍历一维数组中的每个元素,即遍历深度区域图像中每个像素的深度值,如果深度值大于像素均值或者等于0,则将一维数组中该像素的深度值替换为深度均值,其中,深度均值为深度区域图像中各个像素的深度值的平均值,一维数组遍历完成之后,即深度区域图像中每个像素的深度值处理完成后,可将处理完成之后的一维数组转换为二维图像,转换后的二维图像可作为单目标深度图。
这样,可以每个物体分别对应的单目标深度图,通过单目标深度图进行抓取姿态的预测,更加精确,避免不同物体之间的干扰,对于物体之间堆叠摆放的情况,也可以预测出准确的抓取姿态,从而精确抓取到物体。
本发明中,无类别分割模块包括特征提取主干网络和区域建议网络;
所述无类别分割模块用于通过如下方式得到各个所述物体分别所在区域的二值化掩膜:
所述特征提取主干网络对所述RGB图像进行特征提取,对提取到的特征进行上采样处理以及融合处理,得到尺寸不同的多张特征图;
所述区域建议网络通过滑动窗在所述RGB图像中生成锚定框,其中,所述锚定框中包含物体的概率大于预设概率阈值;
所述区域建议网络根据所述锚定框,通过感兴趣区域分别在多张特征图中截取所述锚定框的对应区域,并针对在特征图中截取的所述锚定框的对应区域,通过卷积模块标注出物体所在区域的所述二值化掩膜。
图2是示例性示出的无类别分割模块的示意图。如图2所示,将RGB图像输入至特征提取主干网络中,由特征提取主干网络对RGB图像进行特征提取,并对提取到的特征进行上采样处理以及融合处理,得到尺寸不同的多张特征图。其中,对于特征图的数量,本发明不做限制,图2所示的四张特征图仅为示例,不构成对本发明实施方式的限制,如图2所示,P1、P2、P3、P4四张特征图构成金字塔特征图,其中顶层特征图P4最小,可以用于分割体积较大的物体,底层特征图P1最大,因保留了原始图像的更多细节,能够提供丰富的纹理信息,可以用于分割体积较小的物体。区域建议网络可以采用滑动窗的方式在RGB图像中生成锚定框,其中,锚定框中包含物体的概率大于预设概率阈值,预设概率阈值可预先设置,即在RGB图像中生成可能包含物体的锚定框。区域建议网络通过感兴趣区域ROI,分别在多张特征图中截取锚定框的对应区域,并在截取的对应区域中通过卷积模块采用颜色标注出各物体的二值化掩膜,实现物体的精确分割。
相关技术中的物体分割任务,通常需要训练每个物体属于哪个类别,为每个像素分配类别标签,并在同一类别内区分不同的对象。然而本发明中的无类别分割模块,无需依赖物体的类别标签,也无需对像素进行类别标签的分类,节约时间,效率更高,可以用于对类别不可知对象进行检测,即使不识别物体的类别属性依然可以对物体进行精细分割。
示例地,无类别分割模块可以是通过如下方式训练得到的。重建数据集,得到适合训练无类别分割模块的训练数据的数据格式,其中,首先对不同场景的图像进行采样,并对图像进行顺序编号,然后通过掩码标签分离场景中二值化目标对象,最后用类别和掩码区域标记目标对象。定义平均二值交叉熵作为训练函数,实现无类别分割模块的参数训练,训练采用的公式如下所示:
其中,L seg表示平均二值交叉熵,m表示训练数据的数量,y i表示训练数据的标签,p(y i)为训练数据的预测值。
本发明中,抓取预测模块包括残差卷积网络、通道注意力模块、空间注意力模块;
所述抓取预测模块用于通过如下方式预测所述抓取五维信息:
针对每一所述单目标深度图,将所述单目标深度图中各个像素的深度值进行归一化处理;
所述残差卷积网络对归一化处理后的单目标深度图进行特征提取,并将提取的特征进行下采样处理,得到下采样特征,将所述下采样特征发送给所述通道注意力模块;
所述通道注意力模块利用多层感知器对所述下采样特征进行最大池化处理和平均池化处理,得到中间特征,将所述中间特征发送给所述空间注意力模块;
所述空间注意力模块对所述中间特征进行最大池化处理、平均池化处理以及卷积处理,得到目标特征;
根据所述目标特征和所述目标深度值集合,预测所述抓取五维信息。
图3是示例性示出的抓取预测模块的示意图,其中各个卷积核的参数如图3所示。首先将单目标深度图中各个像素的深度值进行归一化处理,利用9×9卷积核提高网络特征提取能力,利用3×3卷积核进行目标特征提取,通过其他卷积核进行下采样处理,把特征图的大小下采样到八分之一,得到下采样特征。通道注意力模块利用多层感知器对下采样特征F进行最大池化处理和平均池化处理,得到中间特征Fc,计算公式如下:
空间注意力模块对所述中间特征进行最大池化处理、平均池化处理以及卷积处理,得到目标特征Fs,计算公式如下:
其中,表示矩阵乘法。
之后根据所述目标特征和所述目标深度值集合,预测所述抓取五维信息。其中,抓取预测模块在训练时的损失函数如下公式所示:
其中,Loss表示损失函数,s表示训练数据的数量,G表示训练数据的抓取位置,G r表示抓取标签。
本发明中的抓取预测模块结合通道注意力模块和空间注意力模块,提高对于单目标深度图的数据理解能力,抓取预测模块可以通过单目标深度图实现高速度、高精度的五维抓取姿态预测。
本发明中,根据所述抓取五维信息、所述待抓取物体的点云,得到针对所述待抓取物体的七自由度抓取姿态信息,包括:
根据第一变换和所述抓取位置的二维坐标,得到所述抓取位置的三维坐标,其中,所述第一变换为将二维坐标转换为三维坐标的变换;
根据所述第一变换、第二变换、第三变换、所述抓取位置的二维坐标、所述抓取角度、所述待抓取物体的点云,得到三维空间旋转分量的三维坐标,其中,所述第二变换为从所述抓取位置的接近向量到三维空间z轴的欧拉角的变换,所述第三变换为将抓取俯仰角、抓取偏航角和抓取旋转角转换为三维空间旋转分量的三维坐标的变换;
将所述第一抓取宽度作为所述第二抓取宽度。
其中,将通过相机内部参数矩阵将像素坐标抓取位置的二维坐标(x i,y i)转换为三维空间坐标p 0=(x,y,z),记为第一变换T 1,公式如下:
其中,c xc yf xf y、相机固有参数,d z是像素点对应的深度值。
在分割的局部点云待抓取物体的点云p i中计算目标点抓取位置p 0的接近向量,从接近向量到三维空间z轴的欧拉角通过第二变换T 2获得,公式如下:
其中,v 1v 2v 3是由协方差矩阵C计算出的特征向量,s代表相机朝向向量,I=R 3×3是单位矩阵,是z轴与接近向量之间的夹角,/>是z轴与接近向量的正交向量。
将抓取俯仰角pitch、抓取偏航角yaw、抓取旋转角θ转换为三维空间的旋转分量的三维坐标RxRyRz,记为第三变换T 3。公式如下所示:
示例地,通过如下公式得到所述七自由度抓取姿态信息:
其中,G 0T grasp7d(G i,p i)表示七自由度抓取姿态信息,x表示抓取位置的三维坐标中的x轴坐标,y表示抓取位置的三维坐标中的y轴坐标,z表示抓取位置的三维坐标中的z轴坐标,Rx表示三维空间旋转分量的三维坐标中的x轴坐标,Ry表示三维空间旋转分量的三维坐标中的y轴坐标,Rz表示三维空间旋转分量的三维坐标中的z轴坐标,w2表示第二抓取宽度,w1表示第一抓取宽度,T 1表示第一变换,T 2表示第二变换,T 3表示第三变换,x i表示抓取位置的二维坐标中的x轴坐标,y i表示抓取位置的二维坐标中的y轴坐标,θ表示抓取角度,p i表示待抓取物体的点云,G i表示抓取五维信息,q表示抓取预测质量信息。
本发明中,抓取预测模块整体结构由生成式残差卷积网络构成,包括13个卷积核,1个通道注意力模块,1个空间注意力模块,主要实现目标抓取位置的检测。整个抓取框架的网络模型在PyTorch平台上编写实现,采用公共抓取数据集对网络进行训练,网络学习率设置为0.001,网络训练采用RTX3090 24GB内存GPU,将数据集按照5:1划分为训练集和验证集,总计训练100个epoch,初始学习率设置为0.001,使用Adam优化器提高网络训练的收敛速度和准确度。采用交并比(Intersection of Union,IoU)作为性能评价指标,IoU描述预测区域predict与真实标签label之间的重合度。
在公共抓取数据集中对抓取预测模块进行测试,输入深度图像尺寸为240*240,评估IoU阈值为0.25。测试结果表明本发明方法的训练损失和验证损失下降平稳,相关技术中的方法与本发明抓取预测模块的性能对比如表1所示,可以看出本发明方法抓取网络参数体量更小,验证精度达到96.2%,而相关技术中的方法为90.2%,相比相关技术中的方法,本发明方法提升了6个百分点。在实际的测试中本发明方法网络速度也更快,达到17.1ms, 低于相关技术中方法的19.6ms。
表1
选取14个与数据集相似的物体和未知物体进行抓取测试,进行真实机器人抓取实验。相似物体包括家庭日常用品、水果和办公用品,未知物体包括户外运动器材和工业零件。如图4所示,从两次相似多目标抓取实验结果可以看出,本发明建立的分割模块很好地分割出抓取目标物体,预测掩模有效屏蔽背景杂波和非目标物体,即使该目标未曾出现在训练数据集中,抓取模块也能推理出合理的七自由度抓取姿态。结合点云图可视化机器人夹持器位姿,可以看出与真实环境中机器人抓取姿态完全一致,这一结果取决于本发明方法中通过T1、T2、T3三个姿态变换得到七自由度抓取姿态的方式。
如图5所示,在未知多目标场景中进行机器人抓取实验,未知目标物给分割模块带来挑战。此时分割模块不完全分割所有目标,预测得到的掩模包含多个杂波,目标形状不规则,但是抓取模块输出目标抓取位置是基于抓取最大置信度,这使得抓取模块依旧较好地输出抓取位姿。在第二次抓取实验中,分割网络预测输出的目标掩模带有少量杂波,掩模总体上表征出了物体的形状,抓取模块不交精确的推理出物体的合理抓取姿态,机器人抓取效果良好。在点云图中可视化机器人夹持器姿态,本发明通过位姿转换使机器人的抓取位姿与可预测位姿保持一致。
此外,进一步在形状奇异的对抗物体上进行机器人抓取实验。通过统计8-14个相似目标和未知物体,以及1-5个对抗物体抓取实验。结果如表2所示,5个不同的杂乱多目标抓取场景,共包括30次机器人抓取。相似物体抓取成功率91.3%,未知物体抓取成功率达到88.7%,而对抗物体的抓取成功率为76.6%。实验证明本发明提出的级联抓取方法能够应对各种形状的未知物体。
表2
基于同一发明构思,本发明还提供一种七自由度抓取姿态生成装置,图6是示例性示出的一种七自由度抓取姿态生成装置的框图,如图6所示,该装置60包括:
图像获取模块61,用于获取包含多个物体的RGB图像,以及所述RGB图像对应的深度图像;
二值化掩膜确定模块62,用于将所述RGB图像输入至预先训练完成的无类别分割模块中,得到所述无类别分割模块输出的各个所述物体分别所在区域的二值化掩膜;
单目标深度图确定模块63,用于根据所述深度图像和各个所述物体分别所在区域的所述二值化掩膜,得到各个所述物体分别对应的单目标深度图;
目标深度值确定模块64,用于针对每一所述单目标深度图,将所述单目标深度图内各个像素的深度值中不为0的最小深度值,确定为所述单目标深度图对应的目标深度值;
排序模块65,用于将所述目标深度值按照预设顺序进行排序,得到排序后的目标深度值集合;
抓取五维信息预测模块66,用于将所述目标深度值集合、各个所述物体分别对应的所述单目标深度图,输入到预先训练完成的抓取预测模块,得到所述抓取预测模块预测的针对待抓取物体的抓取五维信息,其中,所述抓取五维信息包括抓取位置的二维坐标、抓取角度、第一抓取宽度、抓取预测质量信息;
抓取姿态信息确定模块67,用于根据所述抓取五维信息、所述待抓取物体的点云,得到针对所述待抓取物体的七自由度抓取姿态信息,其中,所述七自由度抓取姿态信息包括抓取位置的三维坐标、三维空间旋转分量的三维坐标、第二抓取宽度。
可选地,所述单目标深度图确定模块63,包括:
透明度确定子模块,用于针对每一所述二值化掩膜,确定所述二值化掩膜的透明度;
处理子模块,用于对所述深度图像进行中值滤波处理以及多帧均值平滑处理,得到鲁棒深度图像;
深度区域图像确定子模块,用于根据所述鲁棒深度图像和所述二值化掩膜的透明度,得到各个物体分别对应的深度区域图像,其中,所述深度区域图像的尺寸与所述鲁棒深度图像的尺寸相同;
单目标深度图确定子模块,用于针对每一所述深度区域图像,将所述深度区域图像从二维图像转换为一维数组,针对所述一维数组中包括的所述深度区域图像中每个像素的深度值,若所述像素的深度值大于像素均值或者等于0,则将该像素的深度值替换为所述深度均值,将处理之后的一维数组转换为的二维图像作为所述深度区域图像对应的所述单目标深度图,其中,所述深度均值为所述深度区域图像中各个像素的深度值的平均值。
可选地,所述无类别分割模块包括特征提取主干网络和区域建议网络;
所述无类别分割模块用于通过如下方式得到各个所述物体分别所在区域的二值化掩膜:
所述特征提取主干网络对所述RGB图像进行特征提取,对提取到的特征进行上采样处理以及融合处理,得到尺寸不同的多张特征图;
所述区域建议网络通过滑动窗在所述RGB图像中生成锚定框,其中,所述锚定框中包含物体的概率大于预设概率阈值;
所述区域建议网络根据所述锚定框,通过感兴趣区域分别在多张特征图中截取所述锚定框的对应区域,并针对在特征图中截取的所述锚定框的对应区域,通过卷积模块标注出物体所在区域的所述二值化掩膜。
可选地,所述抓取预测模块包括残差卷积网络、通道注意力模块、空间注意力模块;
所述抓取预测模块用于通过如下方式预测所述抓取五维信息:
针对每一所述单目标深度图,将所述单目标深度图中各个像素的深度值进行归一化处理;
所述残差卷积网络对归一化处理后的单目标深度图进行特征提取,并将提取的特征进行下采样处理,得到下采样特征,将所述下采样特征发送给所述通道注意力模块;
所述通道注意力模块利用多层感知器对所述下采样特征进行最大池化处理和平均池化处理,得到中间特征,将所述中间特征发送给所述空间注意力模块;
所述空间注意力模块对所述中间特征进行最大池化处理、平均池化处理以及卷积处理,得到目标特征;
根据所述目标特征和所述目标深度值集合,预测所述抓取五维信息。
可选地,所述抓取姿态信息确定模块,包括:
第一确定子模块,用于根据第一变换和所述抓取位置的二维坐标,得到所述抓取位置的三维坐标,其中,所述第一变换为将二维坐标转换为三维坐标的变换;
第二确定子模块,用于根据所述第一变换、第二变换、第三变换、所述抓取位置的二维坐标、所述抓取角度、所述待抓取物体的点云,得到三维空间旋转分量的三维坐标,其中,所述第二变换为从所述抓取位置的接近向量到三维空间z轴的欧拉角的变换,所述第三变换为将抓取俯仰角、抓取偏航角和抓取旋转角转换为三维空间旋转分量的三维坐标的变换;
第三确定子模块,用于将所述第一抓取宽度作为所述第二抓取宽度。
可选地,所述抓取姿态信息确定模块用于通过如下公式得到所述七自由度抓取姿态信息:
其中,G 0T grasp7d(G i,p i)表示七自由度抓取姿态信息,x表示抓取位置的三维坐标中的x轴坐标,y表示抓取位置的三维坐标中的y轴坐标,z表示抓取位置的三维坐标中的z轴坐标,Rx表示三维空间旋转分量的三维坐标中的x轴坐标,Ry表示三维空间旋转分量的三维坐标中的y轴坐标,Rz表示三维空间旋转分量的三维坐标中的z轴坐标,w2表示第二抓取宽度,w1表示第一抓取宽度,T 1表示第一变换,T 2表示第二变换,T 3表示第三变换,x i表示抓取位置的二维坐标中的x轴坐标,y i表示抓取位置的二维坐标中的y轴坐标,θ表示抓取角度,p i表示待抓取物体的点云,G i表示抓取五维信息,q表示抓取预测质量信息。
本发明还提供一种可读存储介质,其上存储有计算机程序,所述程序被处理器执行时,实现本发明任一实施例提供的七自由度抓取姿态生成方法的步骤。
第四方面,提供一种电子设备,包括存储器和处理器,所述存储器用于存储程序,所述处理器用于执行所述程序,以实现本发明任一实施例提供的七自由度抓取姿态生成方法的步骤。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种七自由度抓取姿态生成方法,其特征在于,所述方法包括:
获取包含多个物体的RGB图像,以及所述RGB图像对应的深度图像;
将所述RGB图像输入至预先训练完成的无类别分割模块中,得到所述无类别分割模块输出的各个所述物体分别所在区域的二值化掩膜;
根据所述深度图像和各个所述物体分别所在区域的所述二值化掩膜,得到各个所述物体分别对应的单目标深度图;
针对每一所述单目标深度图,将所述单目标深度图内各个像素的深度值中不为0的最小深度值,确定为所述单目标深度图对应的目标深度值;
将所述目标深度值按照预设顺序进行排序,得到排序后的目标深度值集合;
将所述目标深度值集合、各个所述物体分别对应的所述单目标深度图,输入到预先训练完成的抓取预测模块,得到所述抓取预测模块预测的针对待抓取物体的抓取五维信息,其中,所述抓取五维信息包括抓取位置的二维坐标、抓取角度、第一抓取宽度、抓取预测质量信息,所述抓取位置的二维坐标包括所述抓取位置的x轴坐标和所述抓取位置的y轴坐标;
根据所述抓取五维信息、所述待抓取物体的点云,得到针对所述待抓取物体的七自由度抓取姿态信息,其中,所述七自由度抓取姿态信息包括抓取位置的三维坐标、三维空间旋转分量的三维坐标、第二抓取宽度,其中,所述待抓取物体的点云根据分割出的所述待抓取物体的局部点云得到。
2.根据权利要求1所述的方法,其特征在于,所述根据所述深度图像和各个所述物体分别所在区域的所述二值化掩膜,得到各个所述物体分别对应的单目标深度图,包括:
针对每一所述二值化掩膜,确定所述二值化掩膜的透明度;
对所述深度图像进行中值滤波处理以及多帧均值平滑处理,得到鲁棒深度图像;
根据所述鲁棒深度图像和所述二值化掩膜的透明度,得到各个物体分别对应的深度区域图像,其中,所述深度区域图像的尺寸与所述鲁棒深度图像的尺寸相同;
针对每一所述深度区域图像,将所述深度区域图像从二维图像转换为一维数组,针对所述一维数组中包括的所述深度区域图像中每个像素的深度值,若所述像素的深度值大于像素均值或者等于0,则将该像素的深度值替换为深度均值,将处理之后的一维数组转换为的二维图像作为所述深度区域图像对应的所述单目标深度图,其中,所述深度均值为所述深度区域图像中各个像素的深度值的平均值。
3.根据权利要求1所述的方法,其特征在于,所述无类别分割模块包括特征提取主干网络和区域建议网络;
所述无类别分割模块用于通过如下方式得到各个所述物体分别所在区域的二值化掩膜:
所述特征提取主干网络对所述RGB图像进行特征提取,对提取到的特征进行上采样处理以及融合处理,得到尺寸不同的多张特征图;
所述区域建议网络通过滑动窗在所述RGB图像中生成锚定框,其中,所述锚定框中包含物体的概率大于预设概率阈值;
所述区域建议网络根据所述锚定框,通过感兴趣区域分别在多张特征图中截取所述锚定框的对应区域,并针对在特征图中截取的所述锚定框的对应区域,通过卷积模块标注出物体所在区域的所述二值化掩膜。
4.根据权利要求1所述的方法,其特征在于,所述抓取预测模块包括残差卷积网络、通道注意力模块、空间注意力模块;
所述抓取预测模块用于通过如下方式预测所述抓取五维信息:
针对每一所述单目标深度图,将所述单目标深度图中各个像素的深度值进行归一化处理;
所述残差卷积网络对归一化处理后的单目标深度图进行特征提取,并将提取的特征进行下采样处理,得到下采样特征,将所述下采样特征发送给所述通道注意力模块;
所述通道注意力模块利用多层感知器对所述下采样特征进行最大池化处理和平均池化处理,得到中间特征,将所述中间特征发送给所述空间注意力模块;
所述空间注意力模块对所述中间特征进行最大池化处理、平均池化处理以及卷积处理,得到目标特征;
根据所述目标特征和所述目标深度值集合,预测所述抓取五维信息。
5.根据权利要求1所述的方法,其特征在于,所述根据所述抓取五维信息、所述待抓取物体的点云,得到针对所述待抓取物体的七自由度抓取姿态信息,包括:
根据第一变换和所述抓取位置的二维坐标,得到所述抓取位置的三维坐标,其中,所述第一变换为将二维坐标转换为三维坐标的变换;
根据所述第一变换、第二变换、第三变换、所述抓取位置的二维坐标、所述抓取角度、所述待抓取物体的点云,得到三维空间旋转分量的三维坐标,其中,所述第二变换为从所述抓取位置的接近向量到三维空间z轴的欧拉角的变换,所述第三变换为将抓取俯仰角、抓取偏航角和抓取旋转角转换为三维空间旋转分量的三维坐标的变换;
将所述第一抓取宽度作为所述第二抓取宽度。
6.根据权利要求1所述的方法,其特征在于,所述根据所述抓取五维信息、所述待抓取物体的点云,得到针对所述待抓取物体的七自由度抓取姿态信息,包括:
通过如下公式得到所述七自由度抓取姿态信息:
其中,G 0T grasp7d(G i,p i)表示七自由度抓取姿态信息,x表示抓取位置的三维坐标中的x轴坐标,y表示抓取位置的三维坐标中的y轴坐标,z表示抓取位置的三维坐标中的z轴坐标,Rx表示三维空间旋转分量的三维坐标中的x轴坐标,Ry表示三维空间旋转分量的三维坐标中的y轴坐标,Rz表示三维空间旋转分量的三维坐标中的z轴坐标,w2表示第二抓取宽度,w1表示第一抓取宽度,T 1表示第一变换,T 2表示第二变换,T 3表示第三变换,x i表示抓取位置的二维坐标中的x轴坐标,y i表示抓取位置的二维坐标中的y轴坐标,θ表示抓取角度,p i表示待抓取物体的点云,G i表示抓取五维信息,q表示抓取预测质量信息。
7.一种七自由度抓取姿态生成装置,其特征在于,所述装置包括:
图像获取模块,用于获取包含多个物体的RGB图像,以及所述RGB图像对应的深度图像;
二值化掩膜确定模块,用于将所述RGB图像输入至预先训练完成的无类别分割模块中,得到所述无类别分割模块输出的各个所述物体分别所在区域的二值化掩膜;
单目标深度图确定模块,用于根据所述深度图像和各个所述物体分别所在区域的所述二值化掩膜,得到各个所述物体分别对应的单目标深度图;
目标深度值确定模块,用于针对每一所述单目标深度图,将所述单目标深度图内各个像素的深度值中不为0的最小深度值,确定为所述单目标深度图对应的目标深度值;
排序模块,用于将所述目标深度值按照预设顺序进行排序,得到排序后的目标深度值集合;
抓取五维信息预测模块,用于将所述目标深度值集合、各个所述物体分别对应的所述单目标深度图,输入到预先训练完成的抓取预测模块,得到所述抓取预测模块预测的针对待抓取物体的抓取五维信息,其中,所述抓取五维信息包括抓取位置的二维坐标、抓取角度、第一抓取宽度、抓取预测质量信息,所述抓取位置的二维坐标包括所述抓取位置的x轴坐标和所述抓取位置的y轴坐标;
抓取姿态信息确定模块,用于根据所述抓取五维信息、所述待抓取物体的点云,得到针对所述待抓取物体的七自由度抓取姿态信息,其中,所述七自由度抓取姿态信息包括抓取位置的三维坐标、三维空间旋转分量的三维坐标、第二抓取宽度,其中,所述待抓取物体的点云根据分割出的所述待抓取物体的局部点云得到。
8.根据权利要求7所述的装置,其特征在于,所述单目标深度图确定模块,包括:
透明度确定子模块,用于针对每一所述二值化掩膜,确定所述二值化掩膜的透明度;
处理子模块,用于对所述深度图像进行中值滤波处理以及多帧均值平滑处理,得到鲁棒深度图像;
深度区域图像确定子模块,用于根据所述鲁棒深度图像和所述二值化掩膜的透明度,得到各个物体分别对应的深度区域图像,其中,所述深度区域图像的尺寸与所述鲁棒深度图像的尺寸相同;
单目标深度图确定子模块,用于针对每一所述深度区域图像,将所述深度区域图像从二维图像转换为一维数组,针对所述一维数组中包括的所述深度区域图像中每个像素的深度值,若所述像素的深度值大于像素均值或者等于0,则将该像素的深度值替换为深度均值,将处理之后的一维数组转换为的二维图像作为所述深度区域图像对应的所述单目标深度图,其中,所述深度均值为所述深度区域图像中各个像素的深度值的平均值。
9.一种可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时,实现如权利要求1-6中任一项所述方法的步骤。
10.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储程序,所述处理器用于执行所述程序,以实现如权利要求1-6中任一项所述方法的步骤。
CN202410128972.2A 2024-01-31 2024-01-31 七自由度抓取姿态生成方法、装置、介质及设备 Active CN117656083B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410128972.2A CN117656083B (zh) 2024-01-31 2024-01-31 七自由度抓取姿态生成方法、装置、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410128972.2A CN117656083B (zh) 2024-01-31 2024-01-31 七自由度抓取姿态生成方法、装置、介质及设备

Publications (2)

Publication Number Publication Date
CN117656083A CN117656083A (zh) 2024-03-08
CN117656083B true CN117656083B (zh) 2024-04-30

Family

ID=90071602

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410128972.2A Active CN117656083B (zh) 2024-01-31 2024-01-31 七自由度抓取姿态生成方法、装置、介质及设备

Country Status (1)

Country Link
CN (1) CN117656083B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110490908A (zh) * 2019-08-26 2019-11-22 北京华捷艾米科技有限公司 一种动态场景下小物体的位姿追踪方法及装置
CN113681552A (zh) * 2021-06-30 2021-11-23 大连理工江苏研究院有限公司 一种基于级联神经网络的机器人混杂物体五维抓取方法
CN113762159A (zh) * 2021-09-08 2021-12-07 山东大学 一种基于有向箭头模型的目标抓取检测方法及系统
CN113799124A (zh) * 2021-08-30 2021-12-17 贵州大学 一种非结构化环境的机器人灵活抓取检测方法
CN114140418A (zh) * 2021-11-26 2022-03-04 上海交通大学宁波人工智能研究院 一种基于rgb图像和深度图像的七自由度抓取姿势检测方法
CN114193446A (zh) * 2021-11-22 2022-03-18 上海交通大学宁波人工智能研究院 一种基于形态学图像处理的闭环抓取检测方法
CN116416444A (zh) * 2021-12-29 2023-07-11 广东美的白色家电技术创新中心有限公司 物体抓取点估计、模型训练及数据生成方法、装置及系统
WO2023133285A1 (en) * 2022-01-07 2023-07-13 Innopeak Technology, Inc. Anti-aliasing of object borders with alpha blending of multiple segmented 3d surfaces
CN116494253A (zh) * 2023-06-27 2023-07-28 北京迁移科技有限公司 目标物体抓取位姿获取方法及机器人抓取系统
CN116664843A (zh) * 2023-06-05 2023-08-29 北京信息科技大学 一种基于rgbd图像和语义分割的残差拟合抓取检测网络
CN117464684A (zh) * 2023-11-23 2024-01-30 华南农业大学 一种基于坐标注意力高分辨率融合的机械臂抓取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230042756A1 (en) * 2021-10-09 2023-02-09 Southeast University Autonomous mobile grabbing method for mechanical arm based on visual-haptic fusion under complex illumination condition

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110490908A (zh) * 2019-08-26 2019-11-22 北京华捷艾米科技有限公司 一种动态场景下小物体的位姿追踪方法及装置
CN113681552A (zh) * 2021-06-30 2021-11-23 大连理工江苏研究院有限公司 一种基于级联神经网络的机器人混杂物体五维抓取方法
CN113799124A (zh) * 2021-08-30 2021-12-17 贵州大学 一种非结构化环境的机器人灵活抓取检测方法
CN113762159A (zh) * 2021-09-08 2021-12-07 山东大学 一种基于有向箭头模型的目标抓取检测方法及系统
CN114193446A (zh) * 2021-11-22 2022-03-18 上海交通大学宁波人工智能研究院 一种基于形态学图像处理的闭环抓取检测方法
CN114140418A (zh) * 2021-11-26 2022-03-04 上海交通大学宁波人工智能研究院 一种基于rgb图像和深度图像的七自由度抓取姿势检测方法
CN116416444A (zh) * 2021-12-29 2023-07-11 广东美的白色家电技术创新中心有限公司 物体抓取点估计、模型训练及数据生成方法、装置及系统
WO2023133285A1 (en) * 2022-01-07 2023-07-13 Innopeak Technology, Inc. Anti-aliasing of object borders with alpha blending of multiple segmented 3d surfaces
CN116664843A (zh) * 2023-06-05 2023-08-29 北京信息科技大学 一种基于rgbd图像和语义分割的残差拟合抓取检测网络
CN116494253A (zh) * 2023-06-27 2023-07-28 北京迁移科技有限公司 目标物体抓取位姿获取方法及机器人抓取系统
CN117464684A (zh) * 2023-11-23 2024-01-30 华南农业大学 一种基于坐标注意力高分辨率融合的机械臂抓取方法

Also Published As

Publication number Publication date
CN117656083A (zh) 2024-03-08

Similar Documents

Publication Publication Date Title
Yeh et al. Lightweight deep neural network for joint learning of underwater object detection and color conversion
CN111080693A (zh) 一种基于YOLOv3的机器人自主分类抓取方法
CN111161317A (zh) 一种基于多重网络的单目标跟踪方法
CN110532897A (zh) 零部件图像识别的方法和装置
CN110619638A (zh) 一种基于卷积块注意模块的多模态融合显著性检测方法
US11615612B2 (en) Systems and methods for image feature extraction
CN106709452B (zh) 一种基于智能巡检机器人的仪表位置检测方法
US20220262093A1 (en) Object detection method and system, and non-transitory computer-readable medium
CN115816460B (zh) 一种基于深度学习目标检测与图像分割的机械手抓取方法
CN106570480A (zh) 一种基于姿势识别的人体动作分类方法
CN110532959B (zh) 基于双通道三维卷积神经网络的实时暴力行为检测系统
Rao et al. Object tracking system using approximate median filter, Kalman filter and dynamic template matching
Milyaev et al. Towards reliable object detection in noisy images
CN114742888A (zh) 一种基于深度学习的6d姿态估计方法
CN108734200A (zh) 基于bing特征的人体目标视觉检测方法和装置
CN113681552B (zh) 一种基于级联神经网络的机器人混杂物体五维抓取方法
CN112288809B (zh) 一种用于多物体复杂场景的机器人抓取检测方法
CN117656083B (zh) 七自由度抓取姿态生成方法、装置、介质及设备
Tang et al. Position-free hand gesture recognition using single shot multibox detector based neural network
CN103870846B (zh) 一种图像表示方法及其在图像匹配、识别中的应用
Wang et al. A saliency detection model combined local and global features
CN112419227B (zh) 基于小目标搜索缩放技术的水下目标检测方法和系统
CN113723468B (zh) 一种三维点云的物体检测方法
CN113505806B (zh) 一种机器人抓取检测方法
CN113345100B (zh) 用于物体的目标抓取姿态的预测方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant