CN115761407A

CN115761407A - 一种工业通用零件6d位姿数据集的构建方法

Info

Publication number: CN115761407A
Application number: CN202211472379.7A
Authority: CN
Inventors: 刘达新; 许嘉通; 刘振宇; 王祺德; 谭建荣
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-11-23
Filing date: 2022-11-23
Publication date: 2023-03-07

Abstract

本发明公开了一种工业通用零件6D位姿数据集的构建方法。首先固定深度相机，对摆放于指定工业场景的位姿跟踪板拍摄一张RGB检测图像；提取检测图像中跟踪板上AprilTag的位姿信息，使用跟踪板位姿求解算法从位姿信息中获取跟踪板位姿；根据跟踪板位姿，使用基于先验位姿指定与增强现实的虚实交互配准法来布置零件并获取摆放位姿；录制包含零件与位姿跟踪板全貌的RGB‑D视频；使用跟踪板位姿求解算法计算视频每一帧中的跟踪板位姿，并结合零件摆放位姿计算零件的标定位姿；最后进行数据集标定信息的生成。本发明实现了在工业杂乱场景下对大量图像中的多个零件的自动化6D位姿标注，在保障标注精度的前提下极大地提升了标注效率。

Description

一种工业通用零件6D位姿数据集的构建方法

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种工业通用零件6D位姿数据集的构建方法。

背景技术

从视频、图像中估计工业通用零件的6D位姿在工业4.0时代有着广泛且重要的应用价值，而物体6D位姿数据集中的标定位姿(Ground-Truth位姿)为位姿估计、跟踪算法提供了充足的验证。更重要的是，近年来基于深度学习的位姿估计与跟踪算法随着机器学习在计算机视觉领域的蓬勃发展而大量涌现。因此，除了验证作用，位姿数据集还为基于深度学习的位姿估计/跟踪算法提供了大量的训练数据。但目前，很少有以工业通用零件为目标物体构建的6D位姿数据集，这极大地限制了如机器人自动化抓取、虚拟装配等工业关键技术的发展。

传统的手工标定位姿方法无法满足工业零件种类繁多、数量庞大的需求，对上千张图像中的数十个零件进行手工标注往往耗费大量的人力物力。因此，亟需一种自动化的标注手段，能够花费极少的人力物力，在较短时间内生成大量的6D位姿数据集。

现阶段，一种较为广泛应用的6D位姿自动化标注方式是利用AprilTag等平面标志物的精确跟踪来间接获取物体的6D位姿。具体方式为，首先确定物体与AprilTag的相对位姿，然后在视频流中利用标志物检测工具包跟踪AprilTag，从而间接获取物体的6D标定位姿。但对于工业场景而言，往往存在零件或杂乱场景对AprilTag的遮挡情况：当AprilTag被大面积遮挡时，这种自动标注方式将无法进行下去；若AprilTag被小面积遮挡时，标志物检测工具包则可能会提供异常的AprilTag信息，从而严重降低了零件标定位姿的准确性。

另一方面，该自动标注方式往往通过寻找图像与物体上的对应特征点，采用PnP算法来获取零件相对于标志物的位姿。这种方式的精度非常容易受到人为标注误差、特征点对数量少的影响。同时，零件相较于其他物体而言，有着弱纹理的特殊属性，且许多如回转轴之类的零件缺乏棱角，因此在构建工业通用零件的6D位姿数据集时，往往很难为一些零件找到足够的特征点对来进行PnP算法。

发明内容

为了解决上述问题，本发明提出了一种工业通用零件6D位姿数据集的构建方法，实现了工业杂乱场景下大量图像中多零件6D位姿的自动化标注，解决了位姿数据集构建耗时耗力、精度欠佳的问题。

本发明创造的具体技术方案如下：

一、一种工业通用零件6D位姿数据集的构建方法

S1：固定深度相机与位姿跟踪板于指定工业场景，利用深度相机拍摄当前场景下的位姿跟踪板，获得初始RGB检测图像；

S2：提取并获得初始RGB检测图像中各平面标志物AprilTag的位姿信息，利用跟踪板位姿求解算法对各平面标志物AprilTag的位姿信息进行处理后，获得位姿跟踪板的初始位姿cMb⁰；

S3：根据位姿跟踪板的初始位姿cMb⁰，使用基于先验位姿指定与增强现实的虚实交互配准方法在位姿跟踪板上摆放多个工业通用零件并获得多个工业通用零件对应的摆放位姿bMo_i；

S4：使用S1中的深度相机采用RGB-D视频录制模式从多角度录制包含所有工业通用零件与位姿跟踪板全貌的RGB-D视频；

S5：重复S2，求解并获得RGB-D视频中所有帧RGB-D图像的跟踪板位姿cMb^J，再根据多个工业通用零件对应的摆放位姿bMo_i，计算获得所有帧RGB-D图像的多个工业通用零件对应的标定位姿cMo_i ^J；

S6：根据多个工业通用零件的三维模型以及所有帧RGB-D图像中多个工业通用零件对应的标定位姿cMo，获取所有帧RGB-D图像中多个工业通用零件的编号、最小包围框与分割掩码并组成当前场景的6D位姿数据集。利用获得的6D位姿数据集进行基于深度学习的6D位姿估计/跟踪算法的训练与验证，训练后的算法可应用于机器人自动化抓取和虚拟装配等工业化场景。

所述S1中，位姿跟踪板包括原始跟踪板和多个平面标志物AprilTag，多个平面标志物AprilTag等间隔地固装在原始跟踪板表面的四周边缘上，多个平面标志物AprilTag均属于同一家族。

所述S2具体为：

S21：使用AprilTag检测工具包提取初始RGB检测图像中各平面标志物AprilTag的位姿信息并记为位姿跟踪板的相机坐标系特征，每个平面标志物AprilTag的位姿信息包括每个平面标志物AprilTag的编号、自身角点序号、角点像素坐标[u_corn ^l，v_corn ^l]和6D位姿矩阵；

S22：从各平面标志物AprilTag的6D位姿矩阵中提取AprilTag中心的坐标以及其z轴方向的单位向量

组成带法向量的中心点坐标，由所有平面标志物AprilTag的带法向量的中心点坐标生成平面标志物AprilTag点云；

S23：根据平面标志物AprilTag点云，使用基于主成分分析与最小二乘的平面拟合法求解获得相机坐标系下位姿跟踪板所在的空间拟合平面

S24：根据相机坐标系下位姿跟踪板所在的空间拟合平面

计算各平面标志物AprilTag的中心与相机坐标系下位姿跟踪板所在的空间拟合平面

之间的距离d，去除距离d超过预设距离阈值的平面标志物AprilTag，获得去除异常距离后的各平面标志物AprilTag集合Γ₁；

S25：计算空间拟合平面

的单位法向量

再计算去除异常距离后的各平面标志物AprilTag集合Γ₁中各平面标志物AprilTag在相机坐标系下的z轴单位向量

与空间拟合平面

的单位法向量

之间的夹角θ，去除夹角θ超过预设夹角阈值的平面标志物AprilTag，获得去除异常夹角后的各平面标志物AprilTag集合Γ₂，进而根据去除异常夹角后的各平面标志物AprilTag集合Γ₂更新位姿跟踪板的相机坐标系特征；

S26：建立位姿跟踪板的物体坐标系，根据位姿跟踪板的物体坐标系确定位姿跟踪板中各平面标志物AprilTag的编号、角点序号以及在物体坐标系下的所有角点坐标，并将这些信息记为位姿跟踪板的物体坐标系特征；

S27：根据更新后的位姿跟踪板的相机坐标系特征与位姿跟踪板的物体坐标系特征，为各平面标志物AprilTag的所有角点建立2D-3D特征关系，获得对应2D-3D特征点对，由所有2D-3D特征点对组成位姿特征集合；

S28：根据位姿特征集合，使用RANSAC-PnP相对位姿求解算法计算并获得位姿跟踪板相对于相机坐标系的位姿，记为位姿跟踪板的初始位姿cMb⁰。

所述AprilTag检测工具包包括AprilTag 3、AprilTags C++、VISP。

所述S3具体为：

S31：生成多个工业通用零件的三维模型以及对应的三维模型点云，指定多个工业通用零件的三维模型对应的先验摆放位姿bMo_i ^p；

S32：根据多个工业通用零件的先验摆放位姿bMo_i ^p和位姿跟踪板的初始位姿cMb⁰计算获得多个工业通用零件在相机坐标系下的先验位姿cMo_i ^p；

S33：根据多个工业通用零件在相机坐标系下的先验位姿cMo_i ^p，将对应的三维模型点云进行坐标转换，获得在相机坐标系下的三维模型点云P_i ^vir；

S34：使用增强现实方法将S31中多个工业通用零件的三维模型以对应的相机坐标系下的先验位姿cMo_i ^p渲染，获得对应的渲染图像后再实时呈现至位姿跟踪板的虚实交互界面，将多个工业通用零件摆放至位姿跟踪板并根据零件的渲染图像进行相应零件的位姿调整，实现多个工业通用零件摆放位姿的虚实粗配准；

S35：使用深度相机获取位姿跟踪板上所摆放工业通用零件的深度点云，将深度点云进行坐标转换后，获得多个工业通用零件在相机坐标系下对应的三维实际点云P_i ^real；

S36：利用迭代最近点ICP算法对多个工业通用零件在相机坐标系下的三维模型点云P_i ^vir和在相机坐标系下的三维实际点云P_i ^real进行虚实精配准，分别获得多个工业通用零件对应的真实零件与先验摆放位姿bMo_i ^p下的三维模型之间的相对位姿o_i ^pMo_i，进而计算获得多个工业通用零件对应的精配准后的摆放位姿bMo_i，记为多个工业通用零件对应的摆放位姿bMo_i。

二、一种存储介质

存储有计算机程序，所述计算机程序被处理器执行时实现所述的方法。

三、一种存储介质

其中所述的计算机程序为对应所述方法的指令。

本发明的有益效果在于：

(1)本发明实现了工业零件6D标定位姿的自动化标注，解决了大部分工业应用场景下数据集中图像总量庞大、零件种类与数量繁多导致的费时费力的问题；

(2)本发明利用所设计的AprilTag位姿跟踪板，成功解决了工业杂乱场景下少数AprilTag被大面积遮挡所导致的自动化标注无法进行的问题；

(3)本发明在跟踪板位姿的求解时先使用平面拟合法对异常的AprilTag估计信息进行了剔除，避免了在后续计算跟踪板位姿时引入误差过大的角点信息，极大地减小了由工业杂乱场景下AprilTag部分遮挡所带来的误差影响；

(4)本发明在跟踪板位姿的求解过程中使用RANSAC-PnP算法来求解跟踪板位姿，降低了由图像模糊、相机与跟踪板距离过远等因素导致的AprilTag估计误差影响，间接地提高了零件标定位姿的精度；

(5)本发明使用了基于先验位姿指定与增强现实的虚实交互配准来获取零件摆放位姿，避免了工业零件弱纹理特性与某些零件没有足够明显特征所带来的零件摆放位姿标定难、标定慢、标定不精准的问题。

综合上述而言，本发明在构建工业通用零件6D位姿数据集时能够避免耗时耗力的人工标注，实现视频流中零件6D标定位姿的自动化精确标注，具有较好的工程实用价值。

附图说明

图1是本发明中工业通用零件6D位姿数据集的构建流程图。

图2是本发明实施例中所使用的8个工业通用零件。

图3是本发明实施例中所设计的一块AprilTag位姿跟踪板。

图4是本发明中AprilTag检测工具包所检测的AprilTag位姿信息示意图。

图5是本发明中检测AprilTag所遇到的极端误差示意图以及跟踪板位姿求解算法实施前后的零件标定位姿渲染图。

图6是本发明中基于先验位姿指定与增强现实的粗配准过程示意图。

图7是本发明中构建完成的数据集中的一组RGB-D图像与其标注信息。

图8是本发明实施例中所构建数据集的其他两个场景。

具体实施方式

下面通过陈述在机械臂操作台场景下对8个工业通用零件进行6D位姿数据集构建的过程，对本发明做进一步说明：

将本发明应用于以机械臂操作台为场景的工业通用零件的6D位姿数据集构建过程中，本实施例的流程图如图1所示，包括以下步骤：

S1：固定深度相机与位姿跟踪板于指定工业场景，利用深度相机拍摄当前场景下的位姿跟踪板，获得初始RGB检测图像，初始RGB检测图像中包含位姿跟踪板全貌；

如图3所示，S1中，位姿跟踪板包括原始跟踪板和多个平面标志物AprilTag，多个平面标志物AprilTag等间隔地印制在原始跟踪板表面的四周边缘上，多个平面标志物AprilTag的边长均相同，每个平面标志物AprilTag的边长取决于原始跟踪板的边长，原始跟踪板的边长由放置在原始跟踪板内的零件个数与外形尺寸决定，原始跟踪板为正方形，多个平面标志物AprilTag均属于同一家族但是每个平面标志物AprilTag唯一，并对多个平面标志物AprilTag一一编号。

具体地，本实施例使用Intel Realsense D455i深度相机来进行RGB-D图像的采集，其内参在出厂前已经进行了标定，使用Python环境下的pyrealsense2工具包获取内参。当前步骤使用最高分辨率1280*800像素进行RGB图像的拍摄，此时相机的内参矩阵为：

本实施例对8个零件进行6D位姿数据集的构建。使用SolidWorks进行零件三维模型的构建，图2展示了所构建的8个零件的三维模型，包括工装夹具、轴承端盖、轴承座、通用定位工具、车架、杆件定位器、行星齿轮架以及齿轮轴，零件编号分别为1-8。它们均为工业场景下的常见零部件，包含了工业通用零件的常见特征，如金属和3D打印材质、简单与复杂结构、对称与非对称结构，并且它们均拥有弱纹理的外表。

本实施例在Keyshot软件中导入8个零件的三维模型进行虚拟环境下的摆放布局。据此估算所需的场地大小，确定了跟踪板的边长为0.5m。为了丰富场景信息，在跟踪板中心添加边长为0.4m的纯黑色正方形背景区域。

根据S12中确定的边长，将24个边长为48mm、编号从0-23号依次排列的Tag36h11家族标志物作为本实施例所使用的AprilTag，最后设计得到的AprilTag位姿跟踪板如图3所示。

将制作的AprilTag位姿跟踪板摆放至机械臂操作台，使用三脚架固定相机，并调节相机至1280*800分辨率的RGB图像拍摄模式，拍摄一张RGB图像。

S2具体为：

S21：使用AprilTag检测工具包提取初始RGB检测图像中各平面标志物AprilTag的位姿信息并记为位姿跟踪板的相机坐标系特征，每个平面标志物AprilTag的位姿信息包括每个平面标志物AprilTag的编号、自身角点序号、角点像素坐标[u_corn ^l，v_corn ^l](l＝1，2，3，4，检测图像上每个AprilTag拥有4个角点的像素坐标)和6D位姿矩阵(每个AprilTag中心的坐标系相对于相机坐标系的位姿)；

AprilTag检测工具包包括AprilTag 3、AprilTags C++、VISP。

由于所营造的工业场景非常杂乱，所拍摄的图像中，会存在某些AprilTag部分角点被遮挡的情况。在AprilTag检测工具包估计这些AprilTag的信息时，有一定几率得到错误的角点序号与角点坐标，从而严重影响所检测的AprilTag位姿，进而影响跟踪板位姿的估计。因此采用S2中基于最小二乘的平面拟合剔除估计异常的离群信息。

(垂直于平面AprilTag向外)组成带法向量的中心点坐标，由所有平面标志物AprilTag的带法向量的中心点坐标生成平面标志物AprilTag点云；

具体地，如图4的(a)所示，使用C++环境下的VISP工具包中的vpDetectorAprilTag：：detect()函数来检测图像中AprilTag的信息。这些信息包括每个AprilTag所对应的编号、所检测的角点序号(VISP将四个角点按照规定的空间顺序编号为1至4号)以及角点的像素坐标、表达AprilTag 6D位姿的齐次变换矩阵

其中，k指当前图像中所检测到的AprilTag的编号。根据

获取每个AprilTag在相机坐标系下的坐标[x_c ^k，y_c ^k，z_c ^k]和z方向的单位法向量

然后生成.ply格式下的AprilTag点云文件。

空间拟合平面

的方程为：

Ax+By+Cz+D＝0

其中，A、B、C、D分别为拟合平面的第一-第四参数。

S24：根据相机坐标系下位姿跟踪板所在的空间拟合平面

距离d的计算公式如下：

S25：计算空间拟合平面

的单位法向量

与空间拟合平面

的单位法向量

具体地，此步骤用于剔除如图5的(a)两个圈内所示的AprilTag异常信息，这些AprilTag被检测工具包错误地估计了角点序号或角点坐标，进而导致了完全异常的AprilTag 6D位姿估计。若不对这些异常信息加以剔除，则最后的零件位姿标注将存在巨大的误差，图5的(b)展示了在不进行任何AprilTag异常信息剔除与优化操作而得到的标定位姿投影图，图中零件三维模型的投影与真实零件的成像存在较大偏差。

在本实施例中，为了消除这些极端异常信息对后续跟踪板位姿求解的影响，剔除夹角θ＞30°的AprilTag信息。

S26：建立位姿跟踪板的物体坐标系，具体实施中，以位姿跟踪板的中心为原点，垂直于跟踪板向外为Z轴，水平向右为X轴，建立右手坐标系。根据位姿跟踪板的物体坐标系确定位姿跟踪板中各平面标志物AprilTag的编号、角点序号以及在物体坐标系下的所有角点坐标[x_corn ^l，k，y_corn ^l，k，z_corn ^l，k]，l＝1，2，3，4，k指当前图像中所检测到的AprilTag的编号，将这些信息记为位姿跟踪板的物体坐标系特征；

具体地，本实施例中所建立的跟踪板物体坐标系如图4的(a)中的中心点坐标系所示，根据此坐标系获取所有AprilTag角点在跟踪板物体坐标系下的坐标，例如图4的(b)中ID：0号AprilTag的四个角点的坐标分别为(单位mm)：

[-23.4，23.4，0]

[-23.4，18.6，0]

[-18.6，18.6，0]

[-18.6，23.4，0]

S27：根据更新后的位姿跟踪板的相机坐标系特征与位姿跟踪板的物体坐标系特征，为各平面标志物AprilTag的所有角点建立2D-3D特征关系，获得对应2D-3D特征点对，即将角点像素坐标[u_corn ^l，k，v_corn ^l，k]与角点坐标[x_corn ^l，k，y_corn ^l，k，z_corn ^l，k]一一对应，由所有2D-3D特征点对组成位姿特征集合；

具体地，使用OpenCV中的cv::solvePnPRansac()函数来实现RANSAC-PnP算法，其输入参数如下：

3D角点坐标[x_corn ^l，k，y_corn ^l，k，z_corn ^l，k]数组；

2D像素点坐标u_corn ^l，k，v_corn ^l，k数组；

相机内参矩阵；

相机畸变系数矩阵，本实施例中Realsense深度相机为无畸变相机；

迭代次数，本实施例设置为50次；

RANSAC阈值，本实施例设置为5；

置信度，本实施例设置为0.99。

对图5的(a)所示的场景进行了上述优化流程后，最终得到的零件标定位姿投影图如图5的(c)所示，零件三维模型的投影与图像中零件的成像完全重合。

S3具体为：

S31：生成多个工业通用零件的三维模型以及对应的三维模型点云，指定多个工业通用零件的三维模型对应的先验摆放位姿bMo_i ^p，其中i表示所有零件中零件的序号，p表示是先验指定的。

S32：根据多个工业通用零件的先验摆放位姿bMo_i ^p和位姿跟踪板的初始位姿cMb⁰计算获得多个工业通用零件在S1中初始RGB检测图像的深度相机坐标系下的先验位姿cMo_i ^p；计算公式如下：

cMo_i ^p＝cMb⁰×bMo_i ^p

具体公式如下：

其中，p_i，j ^vir表示第i号零件三维模型点云P_i ^vir中的第j个离散点，

表示三维模型点云P_i ^vir中每个离散点p_i，j ^vir在相机坐标系中X，Y，Z轴的分量，

为每个零件的三维模型点云在自身物体坐标系下的坐标，T表示转置。

S34：使用已有的增强现实方法将S31中多个工业通用零件的三维模型以对应的相机坐标系下的先验位姿cMo_i ^p渲染，获得对应的渲染图像后再实时呈现至位姿跟踪板的高分辨率虚实交互界面，将多个工业通用零件摆放至位姿跟踪板并根据零件的渲染图像进行相应零件的位姿调整，实现多个工业通用零件摆放位姿的虚实粗配准；

具体地，本实施例采用Python环境下工具包VisPy来实现零件的渲染。图6的(a)和(b)分别展示了3号零件的手动粗配准过程与粗配准结果，当虚实交互界面中实际零件的投影与VisPy渲染的三维模型投影重合时，完成对3号零件的摆放工作。

S35：使用深度相机获取当前视角下位姿跟踪板上所摆放工业通用零件的深度点云，将深度点云进行坐标转换后，转换公式如下，获得多个工业通用零件在相机坐标系下对应的三维实际点云P_i ^real；

其中，p_i，q ^real表示第i号零件三维实际点云P_i ^real中的第q个离散点，

表示三维实际点云P_i ^real中每个点p_i，q ^real在相机坐标系中X，Y，Z轴的分量，

为每个点p_i，q ^real在像平面所对应的齐次像素坐标，

为零件深度点云中所获取的p_i，q ^real点的深度值，K^-1为相机内参矩阵的逆。

具体地，通过深度相机拍摄一张当前视角下的深度图像，利用VisPy渲染的零件投影获取当前零件在该深度图像上的ROI区域；通过上式将该ROI区域中的零件深度点云转化为相机坐标系下的三维实际点云P_i ^real。

S36：利用迭代最近点ICP算法对多个工业通用零件在相机坐标系下的三维模型点云P_i ^vir和在相机坐标系下的三维实际点云P_i ^real进行虚实精配准，分别获得P_i ^real与P_i ^vir之间的相对位姿变换关系，即多个工业通用零件对应的真实零件与虚拟投影之间的相对位姿o_i ^pMo_i，进而计算获得多个工业通用零件对应的精配准后的摆放位姿bMo_i，记为多个工业通用零件对应的摆放位姿bMo_i。

精配准后的摆放位姿bMo_i的计算公式如下：

bMo_i＝bMo_i ^p×o_i ^pMo_i

具体地，使用Python环境下的open3d工具包来实现虚实交互的精配准。将P_i ^real与P_i ^vir作为输入，通过open3d下的registration_icp函数进行o_i ^pMo_i的求解。在本实施例中，ICP算法的阈值设置为0.5mm，最大迭代次数为35次。

具体地，在视频录制阶段，将Intel Realsense D455i深度相机从固定支架上拆除，采用手持录制的方式录制RGB-D视频流。本阶段，将相机的分辨率调节为640*480像素，此时相机内参变为：

在本实施例中，为该场景录制了1174帧RGB-D图像，每幅图像均包含8个零件以及跟踪板的全貌。

S5：重复S2，求解并获得RGB-D视频中所有帧RGB-D图像的跟踪板位姿cMb^J，J表示RGB-D图像的帧号，再根据多个工业通用零件对应的摆放位姿bMo_i，计算获得所有帧RGB-D图像的多个工业通用零件对应的标定位姿cMo_i ^J；

计算公式如下：

cMo_i ^J＝cMb^J×bMo_i

S6：根据多个工业通用零件的三维模型以及所有帧RGB-D图像中多个工业通用零件对应的标定位姿cMo，获取所有帧RGB-D图像中多个工业通用零件的编号、最小包围框与分割掩码并组成当前场景的6D位姿数据集；

具体地，本实施例使用Python环境下的工具包BOP Toolkit来生成每幅图像中零件的编号、2D最小包围框以及分割掩码。

利用相机的内参、每副图像下每个零件所对应的标定位姿cMo构建.json格式文档，并将其与零件的三维模型一并作为BOP Toolkit的输入，接着BOP Toolkit将自动生成含有每幅图像中每个零件最小包围框的.json格式文件以及每个零件的分割掩码。图7的(a)和(b)展示了该场景下某个RGB-D图像对及依据此发明流程得到的标定信息，图7的(c)展示了零件6D标定位姿的渲染示意图，其中包括每个零件的投影渲染、零件物体坐标系以及三维最小包围框。图7的(d)展示了包含8个零件分割掩码的图像，8个零件的掩码分别以不同的像素值进行了区分，并且该图像还标注了每个零件的二维最小包围框。

将位姿跟踪板放置于不同场景，并改变AprilTag位姿跟踪板背景的颜色与纹理，重复S1-S6，获得不同工业场景的6D位姿数据集，由所有场景的6D位姿数据集组成最终的6D位姿数据集。

根据6D位姿数据集，利用基于深度学习的位姿估计/跟踪算法实现位姿估计/跟踪；也可以将6D位姿数据集用于实现机器人自动化抓取和虚拟装配等。

具体地，本实施例除了上述的机械臂操作台场景，还构建了其他两个不同场景下的零件6D位姿数据集，如图8的(a)和(b)所示。

本发明不局限于上述实施方式，仅用于帮助理解本发明的方法及核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种工业通用零件6D位姿数据集的构建方法，其特征在于，包括以下步骤：

S6：根据多个工业通用零件的三维模型以及所有帧RGB-D图像中多个工业通用零件对应的标定位姿cMo_i ^J，获取所有帧RGB-D图像中多个工业通用零件的编号、最小包围框与分割掩码并组成当前场景的6D位姿数据集。

2.根据权利要求1所述的一种工业通用零件6D位姿数据集的构建方法，其特征在于，所述S1中，位姿跟踪板包括原始跟踪板和多个平面标志物AprilTag，多个平面标志物AprilTag等间隔地固装在原始跟踪板表面的四周边缘上，多个平面标志物AprilTag均属于同一家族。

3.根据权利要求1所述的一种工业通用零件6D位姿数据集的构建方法，其特征在于，所述S2具体为：

S21：使用AprilTag检测工具包提取初始RGB检测图像中各平面标志物AprilTag的位姿信息并记为位姿跟踪板的相机坐标系特征，每个平面标志物AprilTag的位姿信息包括每个平面标志物AprilTag的编号、自身角点序号、角点像素坐标[u_corn ^l，v_eorn ^l]和6D位姿矩阵；