CN113538569A

CN113538569A - 一种弱纹理物体位姿估计方法和系统

Info

Publication number: CN113538569A
Application number: CN202110921177.5A
Authority: CN
Inventors: 程良伦; 李耀; 王涛
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2021-10-22
Anticipated expiration: 2041-08-11
Also published as: CN113538569B

Abstract

本发明公开了一种弱纹理物体位姿估计方法和系统，利用点渲染分割网络植入实例分割方法，以高效率提取出弱纹理物体的高精度掩码的同时，利用空间变换网络，防止特征图像的畸变以及缩放，来实现对复杂场景中的弱纹理物体的高精度定位，通过拟合碎片模型信息来精准定位物体，应用局部碎片信息解决前景遮挡问题，然后进行深度融合提取出弱纹理物体的高精度点云，最后应用对齐精度优化进行点云的配准并最终得到高精度位姿，解决了现有的工业场景目标物体识别技术采用基于RGB识别，容易造成信息的缺失，前景遮挡问题也不能很好地解决，从而会影响估计的精度的技术问题。

Description

一种弱纹理物体位姿估计方法和系统

技术领域

本发明涉及图像处理技术领域，尤其涉及一种弱纹理物体位姿估计方法和系统。

背景技术

目标物体的位姿估计问题就是确定某一三维目标物体的方位指向问题。不同于一般目标物体的位姿识别，工业中的目标物体识别需要识别的目标物体通常具有表面低纹理的特性，即目标物体表面颜色、明暗变化不明显，难以从中提取出鲁棒的特征点，并且工业场景往往还伴随着杂乱、堆叠等复杂操作环境，这对目标物体的识别以及位姿估计带来极大的挑战。对于这些弱纹理物体，传统上基于RGB的方法由于需处理的数据量相对来说较小，网络结构较为轻量，因此具有较强的实时性，但是反之也会造成信息的缺失，前景遮挡问题也不能很好地解决，从而会影响估计的精度。

发明内容

本发明提供了一种弱纹理物体位姿估计方法和系统，用于解决现有的工业场景目标物体识别技术采用基于RGB识别，容易造成信息的缺失，前景遮挡问题也不能很好地解决，从而会影响估计的精度的技术问题。

有鉴于此，本发明第一方面提供了一种弱纹理物体位姿估计方法，包括：

将对偶相机拍摄的包含待识别目标物体的深度图像进行融合，得到融合后的深度特征图；

基于深度特征图对待识别目标物体进行基于光照补偿的物体表面重建，得到重建后的深度特征图；

将重建后的深度特征图转化为HHA特征图后结合RGB图像送入点渲染编码-解码网络，得到表面碎片模型和掩码特征图，其中，点渲染编码-解码网络的掩码预测头网格之后加入空间变换网络，掩码特征图包括表面碎片分类和高精度掩码；

对表面碎片模型进行几何多模型拟合，得到多实例3D-2D对应的初步位姿信息；

将融合后的深度特征图和掩码特征图融合，进行点云变换，得到高精度的待识别目标物体点云信息；

将待识别目标物体点云信息进行点云配准，得到点云配准结果；

将多实例3D-2D对应的初步位姿信息结合点云配准结果进行离群点过滤和对齐精度细化，输出最终的高精度位姿结果。

可选地，将重建后的深度特征图转化为HHA特征图后结合RGB图像送入点渲染编码-解码网络，包括：

将重建后的深度特征图转化为HHA特征图；

将HHA特征图的3个通道与RGB图像的3个通道堆叠，形成新的3通道RGB图像；

将新的3通道RGB图像送入点渲染编码-解码网络。

可选地，点渲染编码-解码网络的损失函数为：

其中，点渲染编码-解码网络在训练时，以最小化所有像素的平均损失L(u)为迭代条件，E为softmax交叉熵损失，H是huber损失，u为图像中的像素，向量a(u)由所有碎片的预测概率以及对象的相对于碎片的所有预测概率组成，

为a(u)对应的真实概率，b_i(u)为物体i在像素u出现的概率，

为b_i(u)的真实标签概率，r_ij(u)为物体i的碎片j的3D空间信息，

为r_ij(u)的真实标签，I为物体实例，J为物体实例的碎片模型，λ₁和λ₂为损失权重。

可选地，对表面碎片模型进行几何多模型拟合，得到多实例3D-2D对应的初步位姿信息，包括：

定义用于度量模型实例得分的新的质量函数，对表面碎片模型的位姿生成提议，新的质量函数为：

其中，Q为质量函数，p为空间点集P的一个点，h为物体实例，φ为点p到物体实例h的距离，h_∪为复合实例，ε为手动设定的阈值；

对表面碎片模型的位姿提议进行验证，验证时提议的接收标准为：

其中，J为Jaccard得分，ε_s为预置阈值，ε_s∈[0，1]；

使用简化的PEARE算法对通过提议的表面碎片模型的位姿进行优化，得到多实例3D-2D对应的初步位姿信息，简化的PEARE算法为：

其中，E(L)为用于表示两个物体点集的空间关联度的能量函数，P和q为两个点集，L_P和L_q为标签点集，w为权重，δ为判断条件。

可选地，融合后的深度特征图的深度为：

其中，W₁，W₂为两个权重系数，D₁，D₂分别为两个相机拍摄的深度图的深度。

可选地，使用改进的Super-4PCS算法对待识别目标物体点云信息进行点云配准。

本申请第二方面提供了一种弱纹理物体位姿估计系统，包括：

图像融合单元，用于将对偶相机拍摄的包含待识别目标物体的深度图像进行融合，得到融合后的深度特征图；

表面重建单元，用于基于深度特征图对待识别目标物体进行基于光照补偿的物体表面重建，得到重建后的深度特征图；

分割单元，用于将重建后的深度特征图转化为HHA特征图后结合RGB图像送入点渲染编码-解码网络，得到表面碎片模型和掩码特征图，其中，点渲染编码-解码网络的掩码预测头网格之后加入空间变换网络，掩码特征图包括表面碎片分类和高精度掩码；

多模型拟合单元，用于对表面碎片模型进行几何多模型拟合，得到多实例3D-2D对应的初步位姿信息；

点云变换单元，用于将融合后的深度特征图和掩码特征图融合，进行点云变换，得到高精度的待识别目标物体点云信息；

点云配准单元，用于将待识别目标物体点云信息进行点云配准，得到点云配准结果；

位姿输出单元，用于将多实例3D-2D对应的初步位姿信息结合点云配准结果进行离群点过滤和对齐精度细化，输出最终的高精度位姿结果。

将重建后的深度特征图转化为HHA特征图；

将新的3通道RGB图像送入点渲染编码-解码网络。

可选地，点渲染编码-解码网络的损失函数为：

为a(u)对应的真实概率，b_i(u)为物体i在像素u出现的概率，

其中，J为Jaccard得分，ε_s为预置阈值，ε_s∈[0，1]；

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明中提供了一种弱纹理物体位姿估计方法，利用点渲染分割网络植入实例分割方法，以高效率提取出弱纹理物体的高精度掩码的同时，利用空间变换网络，防止特征图像的畸变以及缩放，来实现对复杂场景中的弱纹理物体的高精度定位，通过拟合碎片模型信息来精准定位物体，应用局部碎片信息解决前景遮挡问题，然后进行深度融合提取出弱纹理物体的高精度点云，最后应用对齐精度优化进行点云的配准并最终得到高精度位姿，解决了现有的工业场景目标物体识别技术采用基于RGB识别，容易造成信息的缺失，前景遮挡问题也不能很好地解决，从而会影响估计的精度的技术问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例中提供的一种弱纹理物体位姿估计方法的流程示意图；

图2为本发明实施例中提供的弱纹理物体位姿估计方法的原理框图；

图3为本发明实施例中的点渲染分割网络结构图；

图4为本发明实施例中提供的对齐精度优化位姿估计过程框图；

图5为本发明实施例中提供的一种弱纹理物体位姿估计系统的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了便于理解，请参阅图1和图2，本发明提供了一种弱纹理物体位姿估计方法的实施例，包括：

步骤101、将对偶相机拍摄的包含待识别目标物体的深度图像进行融合，得到融合后的深度特征图。

采用单相机多视角的深度图融合方式，在移动相机过程中产生的抖动会造成干扰，因此，本发明采用对偶相机固定拍摄，将两个相机提取出来的深度图进行融合，融合方式采用线性叠加方式，叠加后的深度图深度为：

步骤102、基于深度特征图对待识别目标物体进行基于光照补偿的物体表面重建，得到重建后的深度特征图。

在高光情况下，由于物体表面自然光分布不均匀，会产生大量的镜面反射，尤其是弱纹理物体。高光和弱纹理均可导致图像重建不完整，无法实现高精度形貌检测，因此，采用基于光照补偿的表面重建方法，利用深度图像的均匀像素特性，对弱纹理物体图像进行均光处理，将高光区域进行增强，得到光照均匀的物体图片。

步骤103、将重建后的深度特征图转化为HHA特征图后结合RGB图像送入点渲染编码-解码网络，得到表面碎片模型和掩码特征图，其中，点渲染编码-解码网络的掩码预测头网格之后加入空间变换网络，掩码特征图包括表面碎片分类和高精度掩码。

在进行位姿估计之前，需要在场景空间中定位物体，为了能够得到更好的物体点云信息，更好地处理遮挡、堆叠带来的挑战，需要得到高精度的物体实例掩码特征图，为此，本发明中将注意力放在物体的边界上，首先将深度图转化为HHA特征图，在每个像素上用三个通道编码深度图像(水平视差、离地高度、像素局部表面法向量和重力方向的夹角)，所有通道都线性缩放，得到深度图像对应的HHA特征图，然后将观测值映射到0-255的范围。由于卷积网络不能自动学习直接从深度特征图中计算以上三个属性，尤其是在可用数据集比较有限时。因此，需要HHA特征图和RGB图之间有足够的共同结构，训练RGB图的网络也可以学习HHA特征图像表示，例如，视差中的边缘和法向量与重力方向的夹角对应感兴趣物体边界(内部或外部边界)，也就是RGB中的边界，这就需要将HHA特征图与彩色图进行熔合，作为网络输入进行联合训练。由于HHA特征图与彩色图像代表的光学较为类似，为了减小网络训练难度，本发明中直接将彩色图像的3个通道与HHA特征图的3个通道堆叠，形成新的3通道RGB图像的输入。此方法相比于单纯使用RGB图像具有明显的有点：(1)HHA特征图具有更加明显的边界特征，其对神经网络进行了推广，能够从深度图数据中提取出类似于灰度图像的丰富信息；(2)更好地利用空间边界信息，能够减小RGB图像的畸变。

本发明中采用较稳定的编码-解码结构的深度卷积神经网络预测掩码，三维碎片坐标类别和三维坐标点，为了更好地提取出弱纹理物体的特征，采用depthwise separableconvolution，将原本标准的卷积操作因式分解成一个depthwise convolution和一个1*1的卷积(pointwise convolution)操作，将传统的卷积结构改造成两层卷积结构，其中前面一个卷积层的每个滤波器都只跟输入的每个通道进行卷积，然后后面一个卷积层则负责合并，即将上一层卷积的结果进行合并。这种新的结构可以在很大提升识别准确率，对于全卷积网络的提升效果比较明显。但是由于原始的主干设计有些臃肿，参数量较传统网络结构来说增加了很多，因此本发明在此基础上进行模型压缩，将Xception极端的卷积核分离思想，也就是通过1*1卷积得到的每个通道的特征图完全分开的思想，通过卷积筛选机制去除空卷积核，也就是没有参与运算的卷积核。这种情况主要是因为ReLU函数的原因，ReLU在低维空间运算中会损失很多信息。通过将ReLu损失函数替换为线性函数，保留resnet残差结构模块，接着引入基于squeeze and excitation结构的轻量级注意力模型。实验证明这种方法可以在不影响较大预测表现的同时减小参数数量，达到更加轻量化。将物体i的碎片模型定义为：

其中这里d(.)表示两个3D点的欧几里德距离，J表示碎片集合，g表示预选的碎片中心，碎片中心通过“最远点采样算法”得到。S_ij表示物体i中碎片j的点集，x代表入选该碎片的点，k为该物体其他碎片的点。

对于每个对象，每个对象由n个表面片段表示，网络具有4mn+m+1个输出通道(对象的分类和背景，用于表示表面片段概率以及3D片段坐标)。通过最小化所有像素的平均损失来训练网络：

其中，E是softmax交叉熵损失，H是huber损失，u代表图像中的像素，向量a(u)由所有碎片的预测概率以及对象的相对于碎片的所有预测概率组成，

表示对应的真实概率。地面真实标签矢量a_ij(u)和b_ij(u)表示物体i的片段j的可见概率。b_i(u)表示片段出现的真实概率。

本发明中，在主干网络结构中植入点渲染模块来提升掩码预测的精度，点渲染编码-解码网络的结构如图3所示，在主干架构中通过一个轻量化的分割头分割出物体的粗略mask预测，然后通过选点策略选出mask边界点，然后在每个选择的点上预测更高像素的分类，生成新的mask，迭代地进行这一步骤直到达到像素要求，这样便可以生成边界十分平滑的mask。将轻量化的预测头应用于每个边界框，使用双线性插值从FPN的P2层提取14×14特征映射，对每个类先生成7*7像素的掩码预测，这可以极大减小算法能耗，为达到实时性打下良好的基础。选点策略的核心思想是在图像平面中自适应地选择预测分割标签的点，选择边界点然后不断通过上采样提升像素，同时增加边界细节，使得分割更加清晰，实现高质量的分割。

本发明在掩码预测头网格之后加入了空间变换网络(STN)，对feature map进行变换后能把图像纠正到成理想的图像，具有空间变换不变性的网络能够得到更精确地分类结果，保证尺度、旋转等的不变性，减小对分割结果带来的影响。图像的仿射变换公式表示如下：

其中

表示二维仿射变换，这里的θ表示变换系数，实现图像的平移缩放等变换，

和

分别代表输入与输出特征图像素坐标。

步骤104、对表面碎片模型进行几何多模型拟合，得到多实例3D-2D对应的初步位姿信息。

多实例拟合主要由集成在Progressive-X中的PnP-RANSAC变体算法实现，首先按顺序提出姿态假设，通过利用对应关系的空间连贯性优化添加到一组维护的假设中，然后通过描述由2D和3D坐标组成的5D向量来构建邻域图。如果它们的欧几里德距离低于inlier-outlier阈值，则链接两个5D描述符，inlier-outlier阈值在重投影误差上手动设置并定义。

对表面碎片模型进行几何多模型拟合，得到多实例3D-2D对应的初步位姿信息，具体包括：

(1)位姿提议生成：

其中，Q为质量函数，p为空间点集P的一个点，h为物体实例，φ为点p到物体实例h的距离，h_∪为复合实例，ε为手动设定的阈值。

(2)位姿提议验证：

验证用于确定是否应该将实例优化。要做到这一点，必须定义一个实例到实例的距离，以衡量提议实例和复合实例的相似性。如果距离很小，则建议很可能是已经可以确定的实例，因此没有必要进行优化。一般来说，表现形式对结果有很大影响，有一个用点集表示实例的简单解决方案，模型通过偏好点集来描述，两个实例的相似度通过它们的Jaccard得分来定义。实例的偏好集为Ph∈{0，1}|P|，如果其中第j个点是实例的inlier，则其Ph值为1，否则为0。

其中，J为Jaccard得分，ε_s为预置阈值，ε_s∈[0，1]，如果两个实例的Jaccard相似性高于手动设置的阈值ε_s∈[0，1]，则J成立，否则J为FALSE。

(3)多实例优化：

其中，E(L)为用于表示两个物体点集的空间关联度的能量函数，P和q为两个点集，L_P和L_q为标签点集，w为权重，δ为判断条件，如果δ括号内的指定条件成立为1，否则为0。

步骤105、将融合后的深度特征图和掩码特征图融合，进行点云变换，得到高精度的待识别目标物体点云信息。

在经过步骤104之后，得到了目标物体的高精度掩码以及高精度深度特征图像，因此，可以将分割区域的深度特征图转换为点云信息。利用PCL点云工具，根据相机内外参数矩阵变换公式将深度信息转换为点云信息。首先得到世界坐标图像的映射过程：

其中，u，v为图像坐标系下的任意坐标点，u₀，v₀分别为图像的中心坐标，x_w，y_w表示世界坐标系下的x轴和y轴三维坐标点，zc表示相机坐标的z轴值，即目标到相机的距离，d_x表示x方向的一个像素所占长度单位，d_y表示y方向的一个像素所占长度单位。

然后从以上的变换矩阵公式，可以计算得到图像点到世界坐标点的变换公式：

其中，f代表相机焦距，，z_w为世界坐标系下的z轴三维坐标点。

这样就可以是将深度图转换为点云数据。

步骤106、将待识别目标物体点云信息进行点云配准，得到点云配准结果。

得到物体的高精度点云信息之后，还需要进行点云配准工作。对于每一张场景RGB-D图像都可以得出目标物体的图像块，本发明中主要使用改进的Super-4PCS算法实现点云配准，给定任意初始位置的两个点集P和Q，找到一个最佳变换(通常是刚性变换)，使得P、Q中距离小于δ的点数最多，其原理在于点云经过仿射变换和刚体变换后，点云中定义的共面点集的比例是恒定的。当从Q中提取出基时，4PCS算法得到的基并不是都和基础集合B近似全等，这意味着在这个步骤中，这些错误的基消耗了很多运算时间并且可能影响到最终结果的准确度。为剔除掉这些不近似全等于B的基，修改算法并增加了过滤基的步骤，寻找全等基的方法，在进行基提取过程中应用KNN搜索方法过滤那些错误的基，这样可以以更少的基进行更加精确的配准，提高对遮挡情况的鲁棒性。

步骤107、将多实例3D-2D对应的初步位姿信息结合点云配准结果进行离群点过滤和对齐精度细化，输出最终的高精度位姿结果。

在实践中要对齐的两个原始点云并不总是吻合的，因此本发明中设计了离群点过滤的对齐精度优化操作。具体而言，先输入点云P和点云Q，使用初始变换矩阵T对P进行刚体变换，然后给变换之后的点集建立一个树，目的是更快找到离P最近的点，然后在Q中找到所有对应P最近的点，最后使用ICP算法来完成整个匹配过程，如图4所示，这样的过程可以得到十分精细的位姿估计结果。

本发明实施例中提供的一种弱纹理物体位姿估计方法，利用点渲染分割网络植入实例分割方法，以高效率提取出弱纹理物体的高精度掩码的同时，利用空间变换网络，防止特征图像的畸变以及缩放，来实现对复杂场景中的弱纹理物体的高精度定位，通过拟合碎片模型信息来精准定位物体，应用局部碎片信息解决前景遮挡问题，然后进行深度融合提取出弱纹理物体的高精度点云，最后应用对齐精度优化进行点云的配准并最终得到高精度位姿，解决了现有的工业场景目标物体识别技术采用基于RGB识别，容易造成信息的缺失，前景遮挡问题也不能很好地解决，从而会影响估计的精度的技术问题。

为了便于理解，请参阅图5，本发明中提供了一种弱纹理物体位姿估计系统的实施例，包括：

图像融合单元201，用于将对偶相机拍摄的包含待识别目标物体的深度图像进行融合，得到融合后的深度特征图；

表面重建单元202，用于基于深度特征图对待识别目标物体进行基于光照补偿的物体表面重建，得到重建后的深度特征图；

分割单元203，用于将重建后的深度特征图转化为HHA特征图后结合RGB图像送入点渲染编码-解码网络，得到表面碎片模型和掩码特征图，其中，点渲染编码-解码网络的掩码预测头网格之后加入空间变换网络，掩码特征图包括表面碎片分类和高精度掩码；

多模型拟合单元204，用于对表面碎片模型进行几何多模型拟合，得到多实例3D-2D对应的初步位姿信息；

点云变换单元205，用于将融合后的深度特征图和掩码特征图融合，进行点云变换，得到高精度的待识别目标物体点云信息；

点云配准单元206，用于将待识别目标物体点云信息进行点云配准，得到点云配准结果；

位姿输出单元207，用于将多实例3D-2D对应的初步位姿信息结合点云配准结果进行离群点过滤和对齐精度细化，输出最终的高精度位姿结果。

将重建后的深度特征图转化为HHA特征图后结合RGB图像送入点渲染编码-解码网络，包括：

将重建后的深度特征图转化为HHA特征图；

将新的3通道RGB图像送入点渲染编码-解码网络。

点渲染编码-解码网络的损失函数为：

为a(u)对应的真实概率，b_i(u)为物体i在像素u出现的概率，

对表面碎片模型进行几何多模型拟合，得到多实例3D-2D对应的初步位姿信息，包括：

其中，J为Jaccard得分，ε_s为预置阈值，ε_s∈[0，1]；

其中，E(L)为用于表示两个物体点集的空间关联度的能量函数，P和q为两个点集，L_P和L_q为标签点集，w为权重，δ为判断条件

本发明实施例中的系统用于执行前述实施例中的弱纹理物体位姿估计方法，执行原理与前述实施例中的弱纹理物体位姿估计方法相同，可取得与前述实施例中的弱纹理物体位姿估计方法相同的技术效果，在此不再进行赘述。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。