CN114140526A

CN114140526A - 一种基于深度学习的无序工件三维视觉位姿估计方法

Info

Publication number: CN114140526A
Application number: CN202111373613.6A
Authority: CN
Inventors: 王郑拓; 林志伟; 傅建中; 徐月同; 邵新光
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2022-03-04

Abstract

本发明提供一种基于深度学习的无序工件三维视觉位姿估计方法，采用深度学习思想实现无序工件的点云实例分割、堆叠估计以及位姿估计，将三维视觉传感器的三维重建过程与图像实例分割算法结合实现工件点云实例分割，同时采用深度学习算法估计工件的堆叠关系从而确定无序工件的抓取优先级，进一步的设计深度学习算法根据分割的工件点云估计工件抓取部位相对机器人基座坐标系的位姿信息，适用于工业流水线上无序工件的定位及上下料。本发明的位姿估计方法可广泛应用于汽车工业、电气电子工业、金属机械工业等行业的实际生产，具有广阔的市场应用前景，对提升我国制造业的数字化和智能化水平具有极其重要的现实意义。

Description

一种基于深度学习的无序工件三维视觉位姿估计方法

技术领域

本发明属于工件位姿估计技术领域，具体涉及一种基于深度学习的无序工件三维视觉位姿估计方法，是用于估计生产流水线上无序工件的位置和姿态的深度学习方法。

背景技术

无序工件的精准抓取及上下料一直都是智能工业机器人领域的重点研究课题之一。该环节普遍配备视觉传感器，通过识别视觉传感器采集的视觉信息，对工件进行位姿估计，进而实现抓取。根据工件放置的相对位置关系，无序工件的摆放方式可分为无序离散和无序堆叠。无序离散是指工件放置在水平面上，且彼此之间无接触和堆叠；无序堆叠是指工件随机无序摆放，且工件与工件之间有重叠或相互接触。多规格无序工件的精准抓取要求系统能够识别视野范围内的无序工件，同时判断工件之间的堆叠关系，估计无重叠且易抓取工件的位置和姿态，并规划机器人的运动路径。

近年来，随着计算机性能的不断提高和视觉传感器及相关算法的高速发展，基于二维视觉的工件位姿估计技术已趋于成熟，也已广泛应用于各种自动上下料系统中。但仅使用二维图像表征三维工件不可避免会造成信息缺失，从而影响无序工件位姿估计的准确性。因此，多规格产品的混线生产必然需要研究无序工件三维视觉位姿估计技术，进一步实现无序工件的精准抓取及上下料。可以说，提升系统的环境感知能力，研究无序工件的智能识别和位姿估计技术，开发适用于多规格无序工件的精准抓取及上下料的智能工业机器人系统至关重要。

发明内容

为解决现有技术中存在的问题，本发明提供一种基于深度学习的无序工件三维视觉位姿估计方法，用于估计生产流水线上无序工件相对于机器人基坐标系的位置和姿态。将本发明的估计方法配合工业机器人使用后，可实现无序工件的上下料。

一种基于深度学习的无序工件三维视觉位姿估计方法，包括以下步骤：

(1)采集无序工件的彩色图像和深度信息；

(2)利用构建的图像实例分割算法处理彩色图像，获取目标检测信息和实例分割信息；

(3)利用目标检测信息裁剪彩色图像，得到每个工件的检测图像；

(4)将检测图像输入至构建的堆叠估计算法，获取所有工件的堆叠估计信息；

(5)根据堆叠估计信息，从实例分割信息中选取堆叠程度最低的工件，形成该工件的掩膜图像；

(6)根据工件的掩膜图像从深度信息中分割出工件点云；

(7)将工件点云输入至构建的位姿估计算法，估计出该工件抓取部位相对机器人基座坐标系的位姿信息。

上述步骤(1)中，采用三维视觉传感器对视野范围内的无序工件进行彩色图像和深度信息(三维点云)的采集。

步骤(2)中，目标检测信息为彩色图像中各个工件的包围框，实例分割信息为彩色图像中各个工件的像素合集。

作为优选，所述图像实例分割算法由深度卷积网络、特征金字塔网络、结果预测网络和后处理模块组成；

所述深度卷积网络从彩色图像中提取高维特征向量，由五组卷积层+池化层的复合结构串联而成，每组复合结构都产生一组特征向量，依次为特征向量1、特征向量2、特征向量3、特征向量4和特征向量5；

所述特征金字塔网络结合卷积操作和上采样操作处理深度卷积网络生成的特征向量，其中，特征向量5经卷积操作后生成特征向量6，特征向量4经卷积操作后与经上采样操作的特征向量6相加形成特征向量7，特征向量3经卷积操作后与经上采样操作的特征向量7相加形成特征向量8，特征向量2经卷积操作后与经上采样操作的特征向量8相加形成特征向量9，特征向量6、特征向量7、特征向量8和特征向量9经卷积操作后依次生成特征向量10、特征向量11、特征向量12和特征向量13；

结果预测网络由两个网络支路组成，对特征向量10、特征向量11、特征向量12和特征向量13共享权重，第一个网络支路由多个深度卷积层和多个全连接层串联组成，回归预测彩色图像中工件的包围框，形成初步的目标检测信息；第二个网络支路由多个深度卷积层串联组成，预测彩色图像中每个像素从属于特定工件的概率(取值为0～1.0)，形成初步的实例分割信息；

后处理模块由非极大值抑制单元和阈值滤波单元组成，非极大值抑制单元处理初步的目标检测信息，消除冗余的工件包围框，形成目标检测信息，阈值滤波单元用0.5的阈值滤波初步的实例分割信息，形成实例分割信息。

作为优选，所述堆叠估计算法由多个深度卷积层和多个全连接层串联组成。

作为优选，所述堆叠估计信息为一维矩阵，矩阵中元素的数目与工件检测图像的数目相等，每个元素代表一个工件被堆叠的概率(取值为0～1.0)，被堆叠的概率数值越大(越接近于1)对应工件被堆叠的程度越低。

作为优选，所述位姿估计算法包括：

数据前处理模块，所述数据前处理模块对工件点云进行统计滤波和栅格下采样预处理；

点云分类单元，所述点云分类单元对预处理后的工件点云，根据工件的类型及摆放姿态进行分类，并输出点云类别；

类点云融合单元，所述类点云融合单元将预处理后的工件点云与点云类别融合，形成类点云向量；

位姿估计单元，所述位姿估计单元根据类点云向量估计工件抓取部位相对机器人基座坐标系的位姿信息。

作为进一步优选，所述点云分类单元包括：

采样模块，所述采样模块从预处理后的工件点云中随机采样固定数量的点云；

归一化模块，所述归一化模块将采样模块获取的点云中每个点的三维坐标值映射为[-a₁,b₁]之间的浮点数；其中，a₁∈[0.5～1.5]、b₁∈[0.5～1.5]；

点云分类网络，所述点云分类网络由共享权重的多层感知器、最大池化层和全连接层串联而成，根据归一化模块输出的浮点数预测点云类别。

作为进一步优选，形成类点云向量的具体方法为：

先将点云类别转换为独热编码，然后依次与处理后的工件点云中的坐标值结合。

作为进一步优选，位姿估计单元包括位置估计单元和姿态估计单元，所述位姿信息包括位置信息(x,y,z)和姿态信息(rx,ry,rz)。

作为更进一步优选，所述位置估计单元包括：

采样模块，所述采样模块采样类点云向量并形成固定维度的向量；

归一化模块，所述归一化模块计算采样模块采集的向量各维度的均值并将向量中各个数值映射为[-a₂,b₂]之间的浮点数；其中，a₂∈[0.5～1.5]、b₂∈[0.5～1.5]；

位置估计网络，所述位置估计网络根据归一化模块计算的向量的均值和输出的浮点数，获取获得工件抓取部位相对机器人基座坐标系的位置信息(x,y,z)。

作为优选，所述位置估计网络由两个网络支路组成，其中一个网络支路由共享权重的多层感知器、最大池化层和全连接层串联而成，根据归一化模块输出的浮点数形成第一位置估计分量(x1,y1,z1)；另一个网络支路为全连接层，根据归一化模块计算的向量均值形成第二位置估计分量(x2,y2,z2)；将第一位置估计分量与第二位置估计分量相加，得到工件抓取部位相对机器人基座坐标系的位置信息(x,y,z)。

作为更进一步优选，所述的姿态估计单元包括：

归一化模块，所述归一化模块处理采样模块获取的向量，将向量中各个数值映射为[-a₃,b₃]之间的浮点数；其中，a₃∈[0.5～1.5]、b₃∈[0.5～1.5]；

姿态估计网络，所述姿态估计网络根据归一化模块输出的浮点数获取工件抓取部位相对机器人基座坐标系的姿态信息(rx,ry,rz)。

作为优选，所述姿态估计网络由两个网络支路组成，两个网络支路均由共享权重的多层感知器、最大池化层和全连接层串联而成；

其中一个网络支路根据归一化模块输出的浮点数估计工件抓取部位相对机器人基座坐标系的绕X轴旋转的角度、绕Y轴旋转的角度以及绕Z轴旋转的角度的绝对值；另一个网络支路根据归一化模块输出的浮点数估计工件抓取部位相对机器人基座坐标系的绕Z轴旋转的方向；综合姿态估计网络的两个网络支路的输出结果，形成工件抓取部位相对机器人基座坐标系的姿态信息(rx,ry,rz)。

与现有技术相比，本发明的有益效果为：

1、本发明的基于深度学习的无序工件三维视觉位姿估计方法，采用深度学习思想实现无序工件的点云实例分割、堆叠估计以及位姿估计，适用于工业流水线上无序工件的定位及上下料。

2、本发明的位姿估计方法将三维视觉传感器的三维重建过程与图像实例分割算法结合，实现工件点云实例分割，大大降低点云实例分割难度，有效提升点云实例分割的速度与精度。

3、本发明的位姿估计方法首次提出采用深度学习算法估计工件的堆叠关系从而确定无序工件的抓取优先级，在位姿估计过程中仅需估计无堆叠易抓取工件的位姿，有效降低工件位姿估计难度，并提高机器人抓取的成功率。

4、本发明的位姿估计方法可广泛应用于汽车工业、电气电子工业、金属机械工业等行业的实际生产，具有广阔的市场应用前景，对提升我国制造业的数字化和智能化水平具有极其重要的现实意义。

附图说明

图1为本发明实施例的流程示意图；

图2为本发明实施例中图像实例分割算法的流程示意图；

图3为本发明实施例中位姿估计算法的流程示意图；

图4为本发明实施例中点云分类单元的流程示意图；

图5为本发明实施例中位置估计单元的流程示意图；

图6为本发明实施例中姿态估计单元的流程示意图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步说明。

如图1所示，一种基于深度学习的无序工件三维视觉位姿估计方法，包括以下步骤：

①将三维视觉传感器设置在工件抓取区域正上方，采集视野范围内无序工件的视觉信息，获取彩色图像和深度信息；

②将彩色图像输入至构建的图像实例分割算法，获得目标检测信息以及实例分割信息，目标检测信息为彩色图像中各个工件的包围框，实例分割信息为彩色图像中各个工件的像素集合；

③用目标检测信息裁剪彩色图像，形成与工件数目相同的每个工件的检测图像；

④将工件的检测图像输入至构建的堆叠估计算法，获取堆叠估计信息，堆叠估计信息为一维矩阵，矩阵中元素的数目与工件检测图像的数目相等，每个元素代表一个工件被堆叠的概率，概率的数值越大对应的工件被堆叠的程度越低；

⑤根据堆叠估计信息，从实例分割信息中选取堆叠程度最低的工件，形成该堆叠程度最低的工件的掩膜图像；

⑥依据工件的掩膜图像从深度信息中分割出工件点云；

⑦将工件点云输入至构建的位姿估计算法，估计出该工件抓取部位相对机器人基座坐标系的位姿信息，其中，位姿信息包括位置信息(x,y,z)和姿态信息(rx,ry,rz)。

如图2所示，图像实例分割算法由深度卷积网络、特征金字塔网络、结果预测网络和后处理模块组成；深度卷积网络从彩色图像中提取高维特征向量，由五组卷积层+池化层的复合结构串联而成，每组复合结构都产生一组特征向量，依次为特征向量1、特征向量2、特征向量3、特征向量4和特征向量5；

特征金字塔网络结合卷积操作和上采样操作处理深度卷积网络生成的特征向量，其中，特征向量5经卷积操作后生成特征向量6，特征向量4经卷积操作后与经上采样操作的特征向量6相加形成特征向量7，特征向量3经卷积操作后与经上采样操作的特征向量7相加形成特征向量8，特征向量2经卷积操作后与经上采样操作的特征向量8相加形成特征向量9，特征向量6、特征向量7、特征向量8和特征向量9经卷积操作后依次生成特征向量10、特征向量11、特征向量12和特征向量13；

结果预测网络由两个网络支路组成，对特征向量10、特征向量11、特征向量12和特征向量13共享权重，第一个网络支路由若干深度卷积层和全连接层串联组成，回归预测彩色图像中工件的包围框，形成初步的目标检测信息；第二个网络支路由若干深度卷积层串联组成，预测彩色图像中每个像素从属于特定工件的概率(取值为0～1.0)，形成初步的实例分割信息；

堆叠估计算法由多个深度卷积层和多个全连接层串联组成，预测工件被堆叠的概率(取值为0～1.0)；若输出的概率的数值越接近于1，则代表该工件被堆叠的程度越低。

如图3所示，位姿估计算法由数据前处理模块、点云分类单元、类点云融合单元以及位姿估计单元组成；数据前处理单元对工件点云进行统计滤波和栅格下采样的预处理操作，输出处理后的工件点云；点云分类单元接受预处理后的工件点云，根据工件的类型及摆放姿态进行分类，输出点云类别；

类点云融合单元将处理后的工件点云与点云类别融合形成类点云向量，具体方法为，先将点云类别转换为独热编码，然后依次与处理后的工件点云中的坐标值结合；位姿估计单元由位置估计单元和姿态估计单元组成，根据类点云向量估计工件抓取部位相对机器人基座坐标系的位姿信息。

如图4所示，点云分类单元由采样模块、归一化模块和点云分类网络组成；采样模块从处理后的工件点云中随机采样固定数量的点云；归一化模块将采样模块获取的点云中每个点的三维坐标值映射为[-1.0,1.0]之间的浮点数；点云分类网络由共享权重的多层感知器、最大池化层和全连接层串联而成，根据归一化模块输出的浮点数预测点云类别。

如图5所示，位置估计单元由采样模块、归一化模块和位置估计网络组成；采样模块采样类点云向量形成固定维度的向量；归一化模块处理采样模块获取的向量，计算向量各维度的均值并将向量中各个数值映射为[-1.0,1.0]之间的浮点数；

位置估计网络由两个网络支路组成，一个网络支路由共享权重的多层感知器、最大池化层和全连接层串联而成，根据归一化模块输出的归一化数值(浮点数)形成第一位置估计分量(x1,y1,z1)；另一个网络支路为全连接层，根据归一化模块计算的向量均值形成第二位置估计分量(x2,y2,z2)；第一位置估计分量与第二位置估计分量相加，获得工件抓取部位相对机器人基座坐标系的位置信息(x,y,z)。

如图6所示，姿态估计单元由采样模块、归一化模块和姿态估计网络组成；采样模块采样类点云向量形成固定维度的向量；归一化模块处理采样模块获取的向量，将向量中各个数值映射为[-1.0,1.0]之间的浮点数；

姿态估计网络由两个网络支路组成，一个网络支路由共享权重的多层感知器、最大池化层和全连接层串联而成，根据归一化模块输出的归一化数值(浮点数)估计工件抓取部位相对机器人基座坐标系的绕X轴旋转的角度、绕Y轴旋转的角度以及绕Z轴旋转的角度的绝对值；另一个网络支路由共享权重的多层感知器、最大池化层和全连接层串联而成，根据归一化模块输出的归一化数值(浮点数)估计工件抓取部位相对机器人基座坐标系的绕Z轴旋转的方向；综合姿态估计网络的两个网络支路的输出，形成工件抓取部位相对机器人基座坐标系的姿态信息(rx,ry,rz)。

本实施例适用于工业流水线上无序工件的定位及上下料，其具体实施过程包含训练阶段和实施阶段。

本实施例的训练阶段的训练过程如下：

1、搭建机器人三维视觉抓取系统，由机器人、三维视觉传感器、工作台、上位机以及抓手组成；工作台置于机器人的工作空间内，用于放置待抓取的无序工件；三维视觉传感器安装于工作台正上方，用于采集无序工件的视觉信息(包含彩色图像、深度信息(三维点云))；抓手安装于机器人末端，用于无序工件的抓取；上位机内设置本发明所述的各种算法，并与三维视觉传感器和机器人交互；

2、图像实例分割算法的构建：选取若干工件无序摆放至工作台上，用三维视觉传感器拍摄若干张无序工件的彩色图像；每次拍摄均需调整工件的数目及摆放方式；在彩色图像上勾勒每个工件的外轮廓(包括目标检测信息和实例分割信息)，以彩色图像为输入、目标检测信息和实例分割信息为输出，形成图像实例分割算法的训练数据集；用训练数据集训练图像实例分割算法；

3、堆叠估计算法的构建：将步骤2采集的彩色图像输入至图像实例分割算法，生成目标检测信息，然后依据目标检测信息裁剪彩色图像，形成多张工件检测图像；标注每张工件检测图像中工件的堆叠程度，若工件被堆叠则标为0，若没有堆叠则标为1，以工件检测图像为输入、工件的堆叠程度为输出，形成堆叠估计算法的训练数据集；用训练数据集训练工件的堆叠估计算法；

4、位姿估计算法的构建：选取若干工件无序摆放至工作台上，用三维视觉传感器采集工件的三维点云，示教机器人至工件的抓取位置(抓取部位)并记录机器人的位姿，然后对三维点云预处理，提取工件点云；重复多次，形成位姿估计算法的训练数据集，其中每组数据均包含一组工件点云(作为输入)及其对应的机器人的位姿(作为输出)；用训练数据集训练位姿估计算法。

本实施例实施阶段的实施过程如下：

1、选取若干工件无序摆放至工作台上，用三维视觉传感器采集工件的彩色图像和深度信息；

2、将彩色图像和深度信息输入至本实施例的基于深度学习的无序工件三维视觉位姿估计方法，获得一个工件抓取部位相对机器人基座坐标系的位姿信息(包含位置信息和姿态信息)；

3、机器人依据本实施例估计的该工件的位姿信息，实现无序工件中该工件的抓取；

4、重复步骤1～3，完成所有无序工件的抓取。

Claims

1.一种基于深度学习的无序工件三维视觉位姿估计方法，其特征在于，包括以下步骤：

(1)采集无序工件的彩色图像和深度信息；

(6)根据工件的掩膜图像从深度信息中分割出工件点云；

2.根据权利要求1所述的基于深度学习的无序工件三维视觉位姿估计方法，其特征在于，所述堆叠估计算法由多个深度卷积层和多个全连接层串联组成。

3.根据权利要求1所述的基于深度学习的无序工件三维视觉位姿估计方法，其特征在于，所述堆叠估计信息为一维矩阵，矩阵中元素的数目与工件检测图像的数目相等，每个元素代表一个工件被堆叠的概率，被堆叠的概率数值越大对应工件被堆叠的程度越低。

4.根据权利要求1所述的基于深度学习的无序工件三维视觉位姿估计方法，其特征在于，所述位姿估计算法包括：

点云分类单元，所述点云分类单元对预处理后的工件点云进行分类并输出点云类别；

5.根据权利要求4所述的基于深度学习的无序工件三维视觉位姿估计方法，其特征在于，所述点云分类单元包括：

归一化模块，所述归一化模块将采样模块获取的点云中每个点的三维坐标值映射为[-a₁,b₁]之间的浮点数；

6.根据权利要求4所述的基于深度学习的无序工件三维视觉位姿估计方法，其特征在于，位姿估计单元包括位置估计单元和姿态估计单元，所述位姿信息包括位置信息和姿态信息。

7.根据权利要求6所述的基于深度学习的无序工件三维视觉位姿估计方法，其特征在于，所述位置估计单元包括：

归一化模块，所述归一化模块计算采样模块采集的向量各维度的均值并将向量中各个数值映射为[-a₂,b₂]之间的浮点数；

位置估计网络，所述位置估计网络根据归一化模块计算的向量的均值和输出的浮点数，获取获得工件抓取部位相对机器人基座坐标系的位置信息。

8.根据权利要求7所述的基于深度学习的无序工件三维视觉位姿估计方法，其特征在于，所述位置估计网络由两个网络支路组成，其中一个网络支路由共享权重的多层感知器、最大池化层和全连接层串联而成，根据归一化模块输出的浮点数形成第一位置估计分量；另一个网络支路为全连接层，根据归一化模块计算的向量均值形成第二位置估计分量；将第一位置估计分量与第二位置估计分量相加，得到工件抓取部位相对机器人基座坐标系的位置信息。

9.根据权利要求6所述的基于深度学习的无序工件三维视觉位姿估计方法，其特征在于，所述的姿态估计单元包括：

归一化模块，所述归一化模块处理采样模块获取的向量，将向量中各个数值映射为[-a₃,b₃]之间的浮点数；

姿态估计网络，所述姿态估计网络根据归一化模块输出的浮点数获取工件抓取部位相对机器人基座坐标系的姿态信息。

10.根据权利要求9所述的基于深度学习的无序工件三维视觉位姿估计方法，其特征在于，所述姿态估计网络由两个网络支路组成，两个网络支路均由共享权重的多层感知器、最大池化层和全连接层串联而成；

其中一个网络支路根据归一化模块输出的浮点数估计工件抓取部位相对机器人基座坐标系的绕X轴旋转的角度、绕Y轴旋转的角度以及绕Z轴旋转的角度的绝对值；另一个网络支路根据归一化模块输出的浮点数估计工件抓取部位相对机器人基座坐标系的绕Z轴旋转的方向；综合姿态估计网络的两个网络支路的输出结果，形成工件抓取部位相对机器人基座坐标系的姿态信息。