CN113313810A

CN113313810A - 一种透明物体的6d姿态参数计算方法

Info

Publication number: CN113313810A
Application number: CN202110679025.9A
Authority: CN
Inventors: 程良伦; 吴勇; 王涛
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2021-08-27
Anticipated expiration: 2041-06-18
Also published as: CN113313810B

Abstract

本申请提供了一种透明物体的6D姿态参数计算方法，本申请通过提取原始RGB图像中的低层特征图和高层特征图；根据高层特征图，结合注意力机制算法，得到原始RGB图像中的透明物体分割图；通过Deeplabv3网络对原始RGB图像进行处理，得到透明物体的表面法线图；提取原始深度图像中的原始深度数据；利用透明物体分割图，对原始深度数据进行掩码计算，得到预处理深度数据；根据表面法线图，结合全局优化方程对预处理深度数据进行全局优化和重建，得到修正深度图像，利用修正深度图像作为输入，得到所述透明物体的6D姿态参数，使得获得的结果具有更好的鲁棒性和更高的准确率。

Description

一种透明物体的6D姿态参数计算方法

技术领域

本申请涉及机器视觉技术领域，尤其涉及一种透明物体的6D姿态参数计算方法。

背景技术

在机器人领域中，视觉技术也可称为机器视觉，如同人眼一样，可以为机器人提供最丰富的环境信息。其中，物体的6D姿态参数是机器视觉技术中的一大关键问题，目标是为机器人提供操作目标物体的信息，解决物体是什么以及在哪里的问题。这里获取的6D姿态是物体坐标系与视觉传感器(相机)坐标系之间的坐标变换，由3-DoF平移变换(3-DoFTranslation)与3-DoF旋转变换(3-DoF Rotation)组成。

透明物体是日常生活中常见的物体，但它们拥有独特的光学特性，使得机器人难以感知和操纵它们。特别是，透明物体的材料基本都不符合现有经典立体视觉算法中的几何光路假设，现有的3D传感器(Kinect或RealSense)只能捕获透明物体的RGB信息，无法在透明物体表面捕获可靠的深度数据，从而导致了现有的透明物体的6D姿态控存在准确度低的技术问题。

发明内容

本申请提供了一种透明物体的6D姿态参数计算方法，用于解决现有的透明物体的6D姿态控存在准确度低的技术问题。

本申请提供了一种透明物体的6D姿态参数计算方法，包括：

采集透明物体的原始RGB图像和原始深度图像；

提取所述原始RGB图像中的低层特征图和高层特征图；

根据所述高层特征图，结合注意力机制算法，得到所述原始RGB图像中的透明物体分割图；

通过Deeplabv3网络对所述原始RGB图像进行处理，得到所述透明物体的表面法线图；

提取所述原始深度图像中的原始深度数据；

利用所述透明物体分割图，对所述原始深度数据进行掩码计算，得到预处理深度数据；

根据所述表面法线图，结合全局优化方程对所述预处理深度数据进行全局优化和重建，得到修正深度图像；

将所述原始RGB图像和所述修正深度图像输入预设的像素级密集特征融合模型，通过所述像素级密集特征融合模型中的全卷积网络、PointNet网络以及DenseFusion网络对所述原始RGB图像和所述修正深度图像进行处理，得到所述透明物体的6D姿态参数。

优选地，所述将所述原始RGB图像和所述修正深度图像输入预设的像素级密集特征融合模型，通过所述像素级密集特征融合模型中的全卷积网络、PointNet网络以及DenseFusion网络对所述原始RGB图像和所述修正深度图像进行处理，得到透明物体的6D姿态参数具体包括：

通过所述像素级密集特征融合模型中的全卷积网络，将所述原始RGB图像的各个像素映射到一个颜色特征嵌入节点；

通过所述像素级密集特征融合模型中的PointNet网络，将所述修正深度图像的各个点深度数据映射到一个几何特征嵌入节点；

通过所述像素级密集特征融合模型中的DenseFusion网络，将所述颜色特征嵌入节点和所述几何特征嵌入节点进行像素置信度加权计算，以根据计算结果得到透明物体的6D姿态参数。

优选地，所述提取所述原始RGB图像中的低层特征图和高层特征图具体包括：

将所述原始RGB图像输入到预设的ResNet主干网络，通过所述ResNet主干网络提取所述原始RGB图像中的低层特征图；

将所述低层特征图分别输入到三个ASPP网络，使得每个所述ASPP网络以不同采样率的空洞卷积并行采样，再进行concat处理，以得到所述原始RGB图像中的高层特征图。

优选地，所述全局优化目标函数具体为：

式中，p、q为图像中任意两个相邻的像素点，λ_D、λ_S、λ_N均为权重系数，D为原始深度，

为预测深度，E_D为原始深度和预测深度的累计差值，E_S为相邻像素间的预测深度累计差值，E_N为像素点p处预测深度和预测表面法线的相关性误差，v(p,q)为相邻像素点p、q间的正切向量，N为表面法线图，B为加权系数，T为图像中所有像素点。

优选地，所述根据所述高层特征图，结合注意力机制算法，得到所述原始RGB图像中的透明物体分割图具体包括：

将所述高层特征图输入解码器，得到透明物体边框图；

通过所述注意力机制算法，将所述透明物体边框图与所述高层特征图进行特征融合，得到透明物体边缘图；

通过所述注意力机制算法，将所述透明物体边缘图与所述高层特征图进行特征融合，得到透明物体分割图。

优选地，所述根据计算结果得到透明物体的6D姿态参数之后还包括：

通过数据迭代方式，对所述6D姿态参数进行结果微调。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请提供了一种透明物体的6D姿态参数计算方法，包括：采集透明物体的原始RGB图像和原始深度图像；提取所述原始RGB图像中的低层特征图和高层特征图；根据所述高层特征图，结合注意力机制算法，得到所述原始RGB图像中的透明物体分割图；通过Deeplabv3网络对所述原始RGB图像进行处理，得到所述透明物体的表面法线图；提取所述原始深度图像中的原始深度数据；利用所述透明物体分割图，对所述原始深度数据进行掩码计算，得到预处理深度数据；根据所述表面法线图，结合全局优化方程对所述预处理深度数据进行全局优化和重建，得到修正深度图像；将所述原始RGB图像和所述修正深度图像输入预设的像素级密集特征融合模型，通过所述像素级密集特征融合模型中的全卷积网络、PointNet网络以及DenseFusion网络对所述原始RGB图像和所述修正深度图像进行处理，得到所述透明物体的6D姿态参数。

本申请通过提取原始RGB图像中的低层特征图和高层特征图；根据高层特征图，结合注意力机制算法，得到原始RGB图像中的透明物体分割图；通过Deeplabv3网络对原始RGB图像进行处理，得到透明物体的表面法线图；提取原始深度图像中的原始深度数据；利用透明物体分割图，对原始深度数据进行掩码计算，得到预处理深度数据；根据表面法线图，结合全局优化方程对预处理深度数据进行全局优化和重建，得到修正深度图像，利用修正深度图像作为输入，得到所述透明物体的6D姿态参数，使得获得的结果具有更好的鲁棒性和更高的准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本申请提供的一种透明物体的6D姿态参数计算方法的一个实施例的流程示意图.

图2为特征级联实例分割网络的逻辑框图。

具体实施方式

本申请实施例提供了一种透明物体的6D姿态参数计算方法，用于解决现有的透明物体的6D姿态控存在准确度低的技术问题。

为使得本申请的发明目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本申请一部分实施例，而非全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

请参阅图1与图2，本申请实施例提供了一种透明物体的6D姿态参数计算方法，包括：

本申请提供了一种透明物体的6D姿态参数计算方法，包括：

步骤101、采集透明物体的原始RGB图像和原始深度图像。

步骤102、提取原始RGB图像中的低层特征图和高层特征图。

更具体地，将原始RGB图像输入到预设的ResNet主干网络，通过ResNet主干网络提取原始RGB图像中的低层特征图；将低层特征图分别输入到三个ASPP网络，使得每个ASPP网络以不同采样率的空洞卷积并行采样，再进行concat处理，以得到原始RGB图像中的高层特征图。

步骤103、根据高层特征图，结合注意力机制算法，得到原始RGB图像中的透明物体分割图。

更具体地，根据高层特征图，结合注意力机制算法，得到原始RGB图像中的透明物体分割图具体包括：

将高层特征图输入解码器，得到透明物体边框图；

通过注意力机制算法，将透明物体边框图与高层特征图进行特征融合，得到透明物体边缘图；

通过注意力机制算法，将透明物体边缘图与高层特征图进行特征融合，得到透明物体分割图。

需要说明的是，如图2所示，解码器利用高级特征(Conv4)和低级特征(Conv1和Conv2)。首先通过上采样Conv4，增加3×3卷积操作，将Conv2和Conv4特征进行融合。将融合后的特征图上采样，以同样的方法与Conv1融合。这种方法将高级特征图和低级特征图联合融合，有利于语义分割。

该网络定义训练损失函数为：

L＝αL_s+βL_e+γL_b

其中，L_s、L_e、L_b分别表示分割流、边缘流、边框流的损失函数，α、β、γ平衡了L_s、L_e、L_b之间的权重。

边框损失函数L_b为：

其中，p_i为目标类别的预测概率，

为目标的真实类别，t_i和

分别表示预测边框的位置和真实边框的位置，L_cls、L_reg分别为Faster R-CNN中的分类损失函数和回归损失函数，N_cls、N_reg均为样本数量，λ为平衡超参数。

L_s、L_e由于涉及图像的像素级标签，本实施例使用Dice损失函数，它是一种集合相似度度量函数，通常用于计算两个样本的相似度，定义为：

其中，S_i,x,y和G_i,x,y分别为像素点i的预测结果和真实结果。

步骤104、通过Deeplabv3网络对原始RGB图像进行处理，得到透明物体的表面法线图。

步骤105、提取原始深度图像中的原始深度数据。

步骤106、利用透明物体分割图，对原始深度数据进行掩码计算，得到预处理深度数据。

步骤107、根据表面法线图，结合全局优化方程对预处理深度数据进行全局优化和重建，得到修正深度图像。

需要说明的是，根据本实施例的步骤104至107的步骤，对于一张包含透明物体的RGB图像、深度图像，首先将RGB图像作为深度卷积神经网络的输入，推断出一组信息：透明物体分割、表面法线、遮挡边界。然后，使用这些信息和初始的深度信息作为全局优化的输入，输出一张重建后的深度图像，修正场景中所有透明表面的深度。

表面法线是用来描述表面的方向的，表面的方向很重要，比如贴一张图在一个表面上，就像在玻璃上贴一个字，在反面看这个字就会是个反字，所以表面法线是有必要的。表面法线估计模块使用主干为DRN-D-54的Deeplabv3对输入的RGB图像像素预测表面法线，最后的卷积层被修改为3个输出类，表示法向量。为了确保估计的法线是单位向量，本实施例采用L2正则化输出，L2正则化定义为：

其中，y_i表示像素点i的法向量。

RGB图像中的每个像素标记为以下三类：非边界、非接触边界、接触边界。顾名思义，大部分像素如背景都属于非边界类，透明物体的轮廓属于边界类，而与桌子等物体接触属于接触边界。非接触边界和接触边界的唯一不同点就是深度值是否连续。这种分类方式有助于网络更好地区分RGB图像中观察到不同类型的边界，从而使深度不连续边界的预测更加准确。本实施例同样使用主干为DRN-D-54的Deeplabv3的模型。由于非接触边界处与背景具有较大深度差，本实施例使用加权的交叉熵损失函数，使非接触边界像素权重适当大于背景像素。加权的交叉熵损失函数定义为：

式中，y、

分别为每个像素点的真实和预测边界类型，α、β均为权重系数。

经实例分割处理后的深度图像、估计的表面法线和边界后，通过全局优化算法重建透明物体的深度。该算法利用处理后的深度图像指导重构的形状，预测的表面法线填充深度值，同时使用估计的边界对深度值进行细化。

在对RGB图像的表面法线和遮挡边界进行估计后，通过求解方程组来重建深度图像，得到修正深度图像，其全局优化的目标函数定义为四项误差的加权平方和：

步骤108、将原始RGB图像和修正深度图像输入预设的像素级密集特征融合模型，通过像素级密集特征融合模型中的全卷积网络、PointNet网络以及DenseFusion网络对原始RGB图像和修正深度图像进行处理，得到透明物体的6D姿态参数。

需要说明的是，6D姿态参数主要分为两个阶段：1)将RGB图像作为输入，通过实例分割，分割出需要进行姿态估计的目标。接下来，对于每个分割后的目标，将掩码深度像素转换为3D点云及掩码边框裁剪的图像块导入到第二阶段。2)处理分割的结果并估计目标的6D姿态。它包含四个部分：a)一个处理颜色信息的全卷积网络，该网络将图像块中的每个像素映射到一个颜色特征嵌入中；b)一个基于PointNet的网络，该网络将修正深度图像中的每个点处理为一个几何特征嵌入；c)一个像素级的DenseFusion网络，该网络将两个嵌入结合起来并基于无监督置信度得分输出目标的6D姿态参数。

在定义了整个网络结构之后，需要定义损失函数。损失函数的定义区分了对称对象和非对称对象，但总体思想是真实姿态下物体模型上的采样点与预测姿态变换后的同一模型上的对应点之间的距离。具体而言，对于非对称对象，每个密集像素预测的损失函数定义为：

式中，x_j为模型中随机采样的点，R,t分别为代表透明物体真实位姿的旋转矩阵和平移向量，

分别代表利用融合后的嵌入特征图的第i个像素点预测的透明物体位姿的旋转矩阵和平移向量，M为模型中随机采样点的数量。

由于对称对象有多个规范框架，甚至可能有无限个规范框架，这导致学习目标不明确。取而代之的是估计模型上的每个点与真实模型上最近点之间距离的最小值。对称对象损失函数定义为：

该公式是指在计算采用预测位姿和真实位姿进行转换的模型点云之间对应点的距离时，由于对称物体存在多个对应点，此时采用距离最近的点作为对应点计算两点间的距离。其中，k为模型中随机采样点的索引。

然后，求所有像素的预测结果的损失的平均值，定义如下：

其中，N为自适应逐像素融合获得特征对数量，即用于逐像素预测位姿的特征数量。

为了更好的学习到每个像素预测结果的置信度，添加了一个置信度c_i的正则化项。最后，整体的损失函数定义为：

其中，ω为平衡超参数。当置信度高时，第二项的越小，即惩罚越小，当置信度高时，第二项越大，惩罚越大。

本实施例使用置信度最高的6D姿态参数作为最终输出。最后，还可以进一步利用迭代的自微调方法，利用输出的6D姿态参数，以学习的方式对网络进行训练，并迭代地微调估计结果。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例，例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种透明物体的6D姿态参数计算方法，其特征在于，包括：

采集透明物体的原始RGB图像和原始深度图像；

提取所述原始RGB图像中的低层特征图和高层特征图；

提取所述原始深度图像中的原始深度数据；

2.根据权利要求1所述的一种透明物体的6D姿态参数计算方法，其特征在于，所述将所述原始RGB图像和所述修正深度图像输入预设的像素级密集特征融合模型，通过所述像素级密集特征融合模型中的全卷积网络、PointNet网络以及DenseFusion网络对所述原始RGB图像和所述修正深度图像进行处理，得到透明物体的6D姿态参数具体包括：

3.根据权利要求1所述的一种透明物体的6D姿态参数计算方法，其特征在于，所述提取所述原始RGB图像中的低层特征图和高层特征图具体包括：

4.根据权利要求1所述的一种透明物体的6D姿态参数计算方法，其特征在于，所述全局优化目标函数具体为：

5.根据权利要求1所述的一种透明物体的6D姿态参数计算方法，其特征在于，所述根据所述高层特征图，结合注意力机制算法，得到所述原始RGB图像中的透明物体分割图具体包括：

将所述高层特征图输入解码器，得到透明物体边框图；

6.根据权利要求2所述的一种透明物体的6D姿态参数计算方法，其特征在于，所述根据计算结果得到透明物体的6D姿态参数之后还包括：

通过数据迭代方式，对所述6D姿态参数进行结果微调。