CN117237451A

CN117237451A - 一种基于轮廓重建和几何引导的工业零件6d位姿估计方法

Info

Publication number: CN117237451A
Application number: CN202311193809.6A
Authority: CN
Inventors: 魏明强; 张路涛; 谢浩然; 王富利; 王伟明
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2023-09-15
Filing date: 2023-09-15
Publication date: 2023-12-15
Anticipated expiration: 2043-09-15
Also published as: CN117237451B

Abstract

本发明涉及一种基于轮廓重建和几何引导的工业零件6D位姿估计方法，包括S1、获取零件场景的RGB图像；S2、将RGB图像输入特征提取网络，提取多尺度特征图，将相同尺寸的特征图按特征维度相拼接，得到与原始图像同尺寸的特征图；S3、从多尺度特征图中分别预测零件的轮廓信息和关键点投影分布，建立轮廓重建和关键点几何对应之间的隐式连接；S4、将得到的轮廓信息和关键点投影分布输入位姿回归网络，采用多任务学习策略，直接回归零件6D位姿。本发明通过引入轮廓重建作为隐式约束，提高关键点预测的准确性，同时利用关键点对应和轮廓几何信息引导位姿的直接回归，使网络采用端到端的方式学习，实现了准确而高效的6D位姿估计，具有较高的工程实用价值。

Description

一种基于轮廓重建和几何引导的工业零件6D位姿估计方法

技术领域

本发明涉及飞计算机视觉与人工智能领域的交叉融合技术领域，尤其涉及一种基于轮廓重建和几何引导的工业零件6D位姿估计方法。

背景技术

物体位姿估计是计算机视觉领域中的一项任务，6D位姿估计则是指估计物体坐标系到相机坐标系的刚性变换，包括三维旋转和三维平移，从而确定物体的位置和姿态，实现高效、精细的操作和控制。随着智能制造的快速发展，工业物体的6D位姿估计已成为零件抓取、单元装配和人机协作等任务的关键技术。

近年来随着深度学习技术的快速发展，基于深度学习的位姿估计技术取得了较好的结果，但这些主流算法大都依赖于物体表面的颜色、纹理等信息，对于工业上低纹理甚至无纹理、具有反光表面的金属零件位姿估计准确性较差，同时现有算法所采用的两阶段方法的速度受限于PnP算法，难以在实际工业场景中实现高效的零件位姿估计。

发明内容

针对现有技术的不足，本发明提供了一种基于轮廓重建和几何引导的工业零件6D位姿估计方法，解决了现有位姿估计技术中对于工业上低纹理甚至无纹理、具有反光表面的金属零件位姿估计准确性较差、速度受限导致位姿估计效率低的问题，该方法通过引入轮廓重建作为隐式约束，提高关键点预测的准确性，同时利用关键点对应和轮廓等几何信息引导位姿的直接回归，使网络采用端到端的方式学习，实现了准确而高效的6D位姿估计，具有较高的工程实用价值。

为解决上述技术问题，本发明提供了如下技术方案：一种基于轮廓重建和几何引导的工业零件6D位姿估计方法，包括以下步骤：

S1、获取零件场景的RGB图像；

S2、将RGB图像输入特征提取网络，提取RGB图像多尺度特征图，将相同尺寸的特征图按特征维度相拼接，得到与原始图像同尺寸的特征图M₁,M₂；

S3、从多尺度特征图中分别预测零件的轮廓信息和关键点投影分布，建立轮廓重建和关键点几何对应之间的隐式连接；

S4、将得到的轮廓信息和关键点投影分布输入位姿回归网络，采用多任务学习策略，直接回归零件6D位姿。

进一步地，在步骤S2中，具体过程包括以下步骤：

S21、输入H×W×3的场景RGB图像，使用以ResNet-34作为主干的全卷积架构对其进行处理，得到等不同尺度的特征图；

S22、将上述得到的的特征图通过扩张卷积，扩大感受野并捕获多尺度特征图的上下文信息，其中，H为图像的高，W为图像的宽；

S23、对上述步骤生成的多尺度特征图分别通过两个预测头，重复进行双线性上采样和卷积操作；

S24、采用跨层拼接方案，将相同尺寸的特征图按特征维度相拼接，结合低维具象特征和高维抽象特征，提取高表达性的图像特征，得到与原始图像同尺寸的特征图M₁,M₂。

进一步地，在步骤S3中，从多尺度特征图中分别预测零件的轮廓信息和关键点投影分布，建立轮廓重建和关键点几何对应之间的隐式连接，具体过程包括以下步骤：

S31、根据不同零件的模型定义关键点；

S32、将上述得到的特征图M₁,M₂应用1×1卷积，获得零件的轮廓信息和关键点投影分布；

S33、轮廓重建和关键点回归网络同时学习，利用共享权值的特征提取网络建立轮廓重建对关键点回归的隐式连接约束。

进一步地，在步骤S31中，不同零件的模型定义关键点，具体过程包括以下步骤：

S311、根据目标零件的模型定义候选语义点，包括圆心、角点和中点；

S312、遍历所有训练图像，根据候选语义点2D-3D对应关系，构建哈希表；

S313、应用语义点检测算法，将候选语义点按检测频率排序；

S314、利用上述步骤构建的哈希表，定位语义点2D-3D对应关系；

S315、从候选语义点中选择K个检测频率最高的点作为关键点。

进一步地，在步骤S4中，将得到的轮廓信息和关键点投影分布输入位姿回归网络，采用多任务学习策略，直接回归零件6D位姿，具体过程包括以下步骤：

S41、将上述步骤得到的轮廓信息和关键点投影分布特征维度相联接，作为几何信息引导，输入位姿回归网络；

S42、通过两个并行的全连接层分别输出三维旋转预测R_6d和零件中心投影预测c，其中，6D表示R_6d定义为旋转矩阵R的前两列：R_6d＝[R₁|R₂]；

S43、采用多任务学习策略，根据三个任务的不同需求定义各自的损失函数，对损失函数求和，指导整体网络训练。

进一步地，在步骤S42中，三维旋转预测R_6d根据以下公式转换为旋转矩阵R：

其中，R₁,R₂,R₃为旋转矩阵的三列，r₁,r₂分别为三维旋转预测R_6d的前三个参数和后三个参数，φ为向量归一化操作。

进一步地，在步骤S42中，所述零件中心投影预测c为：

其中，c_x,c_y为目标零件中心的2D投影坐标，z为目标零件中心到相机平面的距离。

进一步地，在步骤S43中，采用多任务学习策略，根据三个任务的不同需求定义各自的损失函数，对损失函数求和，指导整体网络训练包括：

S431、构建轮廓重建的损失函数：

其中，为轮廓重建的结果，p为图像中的像素，当该像素属于零件轮廓时为1，否则为0；β＝|Y^-|/|Y⁺+Y^-|定义了正样本的比例，|Y⁺|和|Y^-|为轮廓的边缘和非边缘；

S432、构建关键点回归的损失函数：

其中，K为关键点的个数，H为关键点投影分布的真实值，为关键点投影分布的预测值，这里使用/>损失进行关键点回归；

S433、对于非对称物体，构建位姿回归网络的损失函数：

其中，x_n为N个像素点中的第n个点，为三维旋转的真实值；/>为零件中心2D投影坐标的真实值，/>为零件中心到相机平面距离的真实值；/>为三维旋转的预测值，/>为零件中心2D投影坐标的预测值，/>为零件中心到相机平面距离的预测值；

S434、对于对称物体，构建对称感知的损失函数：

S435、构建基于多任务学习的损失函数：

L＝L_Ct+L_Kp+L_Pose。

借由上述技术方案，本发明提供了一种基于轮廓重建和几何引导的工业零件6D位姿估计方法，至少具备以下有益效果：

与传统的位姿估计方法相比，本发明通过将生成的多尺度特征图分别通过两个预测头，重复进行双线性上采样和卷积操作，并将相同尺寸的特征图按特征维度相拼接，结合低维具象特征和高维抽象特征，有利于提取高表达性的图像特征，提高图像特征的识别度；另外本发明将轮廓重建和关键点回归网络同时学习，利用共享权值的特征提取网络建立轮廓重建对关键点回归的隐式连接约束，通过引入轮廓重建作为隐式约束，提高关键点预测的准确性，提高了零件位姿估计识别的准确率；解决了基于深度学习的位姿估计技术对于工业上低纹理甚至无纹理、具有反光表面的金属零件位姿估计准确性较差的问题。利用关键点对应和轮廓等几何信息引导位姿的直接回归，使网络采用端到端的方式学习，提高了位姿估计的效率，克服了现有技术估计速度受限于PnP算法导致位姿估计效率低的问题，在实际工业场景中实现准确而高效的零件位姿估计，具有较高的工程实用价值。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本发明的一种基于轮廓重建和几何引导的工业零件6D位姿估计方法的流程图；

图2是本发明实施例的一种基于轮廓重建和几何引导的工业零件6D位姿估计方法的结构示意图；

图3是本发明实施例的位姿回归网络结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。借此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

请参照图1-图3，示出了本实施例的一种具体实施方式，本实施例通过引入轮廓重建作为隐式约束，提高关键点预测的准确性，同时利用关键点对应和轮廓等几何信息引导位姿的直接回归，使网络采用端到端的方式学习，实现了准确而高效的6D位姿估计，具有较高的工程实用价值。

请参照图1，本实施例提出了一种基于轮廓重建和几何引导的工业零件6D位姿估计方法，该方法包括以下步骤：

S1、获取零件场景的RGB图像；

作为步骤S2的优选实施方式，具体过程包括以下步骤：

S21、输入包含目标零件H×W×3的场景RGB图像，使用以ResNet-34作为主干的全卷积架构对其进行处理，得到等不同尺度的特征图，采用最大池化和跨步卷积层，实现对输入进行下采样并提取不同尺度的特征；

S22、将上述得到的分辨率为的特征图通过扩张卷积，扩大感受野并捕获多尺度特征图的上下文信息，其中，H为图像的高，W为图像的宽；

S23、对上述步骤生成的多尺度特征图分别通过两个预测头，重复进行双线性上采样和卷积操作，直至其大小与输入图像大小相同；

在本实施例中，通过将生成的多尺度特征图分别通过两个预测头，重复进行双线性上采样和卷积操作，并将相同尺寸的特征图按特征维度相拼接，结合低维具象特征和高维抽象特征，有利于提取高表达性的图像特征，提高图像特征的识别度。

作为步骤S3的优选实施方式，具体过程包括以下步骤：

S31、根据不同零件的模型定义关键点；

在本实施例中，本发明将轮廓重建和关键点回归网络同时学习，利用共享权值的特征提取网络建立轮廓重建对关键点回归的隐式连接约束，通过引入轮廓重建作为隐式约束，提高关键点预测的准确性，提高了零件位姿估计识别的准确率；解决了基于深度学习的位姿估计技术对于工业上低纹理甚至无纹理、具有反光表面的金属零件位姿估计准确性较差的问题。

S4、将得到的轮廓信息和关键点投影分布输入位姿回归网络，采用多任务学习策略，直接回归零件6D位姿，如图2所示，为本发明实施例的一种基于轮廓重建和几何引导的工业零件6D位姿估计方法的结构示意图。

作为步骤S4的优选实施方式，具体过程包括以下步骤：

S41、将上述步骤得到的轮廓信息和关键点投影分布特征维度相联接，作为几何信息引导，输入位姿回归网络；图3揭示了根据本发明一实施例的位姿回归网络结构图，如图3所示，位姿回归网络由3个卷积层组成，其中卷积核大小为3X3，步长为2，使用ReLU激活函数，然后应用两个全连接层对展平特征进行点对变换，并通过全局最大池化和两个并行的全连接层直接预测三维旋转R_6d和目标中心投影c。采用多任务学习策略，深度学习网络训练方式为端到端的训练，根据三个任务的不同需求定义各自的损失函数，对损失函数求和，指导整体网络训练；

S42、通过两个并行的全连接层分别输出三维旋转预测R_6d和零件中心投影预测c；

更为具体的，在步骤S42中，6D表示R_6d定义为旋转矩阵R的前两列：

R_6d＝[R₁|R₂]

三维旋转预测R_6d根据以下公式转换为旋转矩阵R：

其中，R_6d为旋转矩阵的6D表示，R₁,R₂,R₃为旋转矩阵的三列，r₁,r₂分别为三维旋转预测R_6d的前三个参数和后三个参数，φ为向量归一化操作。

更为具体的，在步骤S42中，所述零件中心投影预测c为：

更为具体的，目标中心投影预测c根据以下公式转换为三维平移t：

其中，K为相机内参。

更为具体的，在步骤S43中，采用多任务学习策略，根据三个任务的不同需求定义各自的损失函数，对损失函数求和，指导整体网络训练包括：

S431、构建轮廓重建的损失函数，在轮廓重建任务中，由于物体的轮廓占很少部分，因此在学习中存在正负类别不平衡的问题；为此，使用加权交叉熵作为损失函数，相应的损失函数定义为：

S432、构建关键点回归的损失函数：

S433、对于非对称物体，构建位姿回归网络的损失函数：

S434、对于对称物体，构建对称感知的损失函数：

S435、构建基于多任务学习的损失函数：

L＝L_Ct+L_Kp+L_Pose；

至此完成整个网络的训练，位姿计算结果可由网络直接回归位姿参数得到。

在本实施例中，利用关键点对应和轮廓等几何信息引导位姿的直接回归，使网络采用端到端的方式学习，提高了位姿估计的效率，克服了现有技术估计速度受限导致位姿估计效率低的问题，在实际工业场景中实现准确而高效的零件位姿估计，具有较高的工程实用价值。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。

以上实施方式对本发明进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于轮廓重建和几何引导的工业零件6D位姿估计方法，其特征在于，包括以下步骤：

S1、获取零件场景的RGB图像；

2.根据权利要求1所述的基于轮廓重建和几何引导的工业零件6D位姿估计方法，其特征在于：所述步骤S2的具体过程包括以下步骤：

3.根据权利要求1所述的基于轮廓重建和几何引导的工业零件6D位姿估计方法，其特征在于：所述步骤S3的具体过程包括以下步骤：

S31、根据不同零件的模型定义关键点；

4.根据权利要求3所述的基于轮廓重建和几何引导的工业零件6D位姿估计方法，其特征在于：在步骤S31中，不同零件的模型定义关键点，具体过程包括以下步骤：

S313、应用语义点检测算法，将候选语义点按检测频率排序；

5.根据权利要求1所述的基于轮廓重建和几何引导的工业零件6D位姿估计方法，其特征在于：在步骤S4中，将得到的轮廓信息和关键点投影分布输入位姿回归网络，采用多任务学习策略，直接回归零件6D位姿，具体过程包括以下步骤：

6.根据权利要求5所述的基于轮廓重建和几何引导的工业零件6D位姿估计方法，其特征在于：在步骤S42中，三维旋转预测R_6d根据以下公式转换为旋转矩阵R：

7.根据权利要求5所述的基于轮廓重建和几何引导的工业零件6D位姿估计方法，其特征在于，在步骤S42中，所述零件中心投影预测c为：

8.根据权利要求5所述的基于轮廓重建和几何引导的工业零件6D位姿估计方法，其特征在于，在步骤S43中，采用多任务学习策略，根据三个任务的不同需求定义各自的损失函数，对损失函数求和，指导整体网络训练包括：

S431、构建轮廓重建的损失函数：

β＝|Y^-|/|Y⁺+Y^-|；

S432、构建关键点回归的损失函数：

其中，K为关键点的个数，H为关键点投影分布的真实值，为关键点投影分布的预测值，这里使用l₂损失进行关键点回归；

S433、对于非对称物体，构建位姿回归网络的损失函数：

其中，x_n为N个像素点中的第n个点，R为三维旋转的真实值；为零件中心2D投影坐标的真实值，z为零件中心到相机平面距离的真实值；/>为三维旋转的预测值，/>为零件中心2D投影坐标的预测值，/>为零件中心到相机平面距离的预测值；

S434、对于对称物体，构建对称感知的损失函数：

S435、构建基于多任务学习的损失函数：

L＝L_Ct+L_Kp+L_Pose。