CN115294433A

CN115294433A - 一种适用于恶劣环境的物体六维位姿估计方法和系统

Info

Publication number: CN115294433A
Application number: CN202210962731.9A
Authority: CN
Inventors: 陈路; 牛洺第; 钱宇华; 闫涛
Original assignee: Shanxi University
Current assignee: Shanxi University
Priority date: 2022-08-11
Filing date: 2022-08-11
Publication date: 2022-11-04

Abstract

本发明属于图像处理与计算机视觉领域，针对现有六维位姿估计方法在恶劣环境下运行效率和适应性上的不足，公开了一种适用于恶劣环境的物体六维位姿估计方法和系统。主要包括图像增强、图像融合和六维位姿估计3部分，所述图像增强基于传统和深度学习两种方法，所述图像融合采用自编码融合网格进行，所述六维位姿估计通过特征提取、语义分割、关键点预测和回归位姿进行。通过在位姿估计前添加图像增强模块，使得本发明能够在恶劣环境(雾天和弱光等条件)完成六维位姿估计。通过将传统图像增强方法和深度学习图像增强方法结果融合，扩大了图像所含有的时间空间信息，减少了不确定性，增加了可靠性，可用于恶劣环境下自动驾驶技术和物体抓取。

Description

一种适用于恶劣环境的物体六维位姿估计方法和系统

技术领域

本发明属于图像处理与计算机视觉领域，具体涉及一种适用于恶劣环境的物体六维位姿估计方法和系统。

背景技术

六维位姿(三自由度位移和三自由度旋转)是一个相对概念，指的是两个坐标系之间的位移和旋转变换。对于物体的六维位姿估计，通常用物体从世界坐标系到相机坐标系的旋转和平移变换。六维位姿估计在许多现实应用中都是一个重要的组成部分，例如增强现实，自动驾驶和机器人抓取等。但是，当在恶劣环境(雾天和弱光条件等)的情况下，图像细节不明显，光学成像面临能见度差和噪声多等问题，给位姿估计带来了巨大挑战。

现有的物体六维位姿估计方法通常可以分为三类：基于点云匹配的方法、基于模板匹配的方法和基于深度学习的方法。在雾天或弱光等恶劣环境下，由于图像噪声的影响会导致这些方法在关键点匹配时存在较大的误差，所以对于雾天和弱光条件等恶劣环境下的位姿估计鲁棒性较弱。因此，采用一种自适应恶劣环境的六维位姿估计方法具有十分重要的意义。

发明内容

针对现有六维位姿估计方法在恶劣环境下运行效率和适应性上的不足，本发明提供了一种能够自适应恶劣环境下的六维位姿估计方法和系统。

为了达到上述目的，本发明采用了下列技术方案：

本发明提供一种适用于恶劣环境的物体六维位姿估计方法，包括以下步骤：

步骤1，采用基于传统和深度学习两种方法对图像进行增强；

步骤2，采用自编码融合网格进行图像融合；

步骤3，通过特征提取、语义分割、关键点预测和回归位姿进行六维位姿估计。

进一步，所述步骤1中基于传统方法对图像进行增强是采用由若干个可微滤波器组成的图像增强子模块和一个用于预测滤波器超参数的小型卷积神经网络，图像增强子模块包括锐化滤波器和去雾滤波器；

在去雾滤波器，采用下述方程所描述的雾图形成模型：

I(x)＝J(x)t(x)+A(1-t(x)) (1)

式中，I(x)是输入图像，J(x)是输出的无雾图像，A是全球大气光成分，t(x)是透射率；

根据公式，可以得出t(x)的近似值：

式中，C表示RGB三通道；

引入一个参数λ来控制除雾程度：

由于上述操作是可微的，可以通过反向传播来优化λ，使去雾滤波器更有利于位姿估计；

在锐化滤波器，图像的锐化可以突出图像的细节，锐化的过程可以表示为：

F(x,η)＝I(x)+η(I(x)-Gau(I(x))) (4)

式中，I(x)是输入图像，Gau(I(x))表示高斯滤波器，η是一个正的比例因子，这个锐化操作对x和η都是可微分的，可以通过反向传播来优化x和η；

用于预测滤波器超参数的小型卷积神经网络由4个卷积块和2个全连通层组成，每个卷积块包括一个步长为2的3×3卷积层和一个leaky Relu激活函数，这四层卷积的输出通道分别为16、32、32和32；卷积神经网络的输入为恶劣环境下的图像，最后的全连接层输出为预测的各种滤波器的超参数。

进一步，所述步骤1中基于深度学习方法的图像增强是基于生成对抗网络的方法实现的，生成对抗网络包括生成网络和判别网络两部分；其中：

生成网络模型由16层组成，前半部分由6层卷积层和2层池化层组成，在每一层卷积后都添加批量标准化和leaky Relu激活函数，卷积核大小为3×3，步长为2，通道数为32、32、64、64、128和128，在第3次卷积层和第6次卷积层后分别加入池化层；后半部分由8层反卷积层组成，卷积核大小为3×3，步长为2，通道数为256、256、128、128、64、64、32和3；通过卷积和反卷积操作，调整权重参数，从而达到图像增强的效果；

判别网络模型由全卷积网络组成，一共包括5个卷积层，前4个卷积层后都添加批量标准化和leaky Relu激活函数，卷积核大小为3×3，步长为1，通道数为42、96、192、384和3，在网络末尾添加sigmoid激活函数进行特征映射，将结果归一。

更进一步，所述基于生成对抗网络实现图像增强的具体过程为：将恶劣环境条件下的图像输入生成网络中，经过生成网络卷积和反卷积操作得到增强的图像，然后将增强后的图像和正常条件下的图像输入判别网络进行判别，以区分真和假，并输出一个概率；当输出的概率值接近1时，说明的输入的是一张正常光照条件下的图像；当判别器无法判定真假的时候，此时生成网络生成的图像为最优图像；

设{m_i,i＝1,2,...,N}和{n_i,i＝1,2,...,N}分别代表恶劣环境下的图像和正常条件下的图像，对抗损失可定义为：

其中G表示生成网络，D表示判别网络；

网络模型的均方差损失可定义为：

最后将对抗损失和均方差损失结合起来并配置一定的权重α和β，得到最终生成网络的损失：

L_t＝αL_a+βL_m (7)

判别网络的损失可以定义为：

进一步，所述步骤2中采用自编码融合网格进行图像融合具体为：将要融合的图片输入编码层，通过两次卷积，卷积核大小为2×2，步长为1；编码层的输出就是融合层的输入，然后在融合层采用Addition的策略将隐藏层的特征进行融合；融合层的输出就是解码层的输入，解码层由三次卷积操作，卷积核大小为2×2，步长为1；为了保证图像细节特征提取不丢失，自编码融合网络中没有池化操作。

进一步，所述步骤3中特征提取使用Darknet53网络模型，网络的输入为已经经过滤波器增强过后的图片，输出为图片的特征，用于后续的语义分割和关键点预测。

进一步，所述步骤3中语义分割是对叠加在图像上的每个像素点分配一个标签来区分不同的对象，更准确地说，给定N个对象类，这将转化为在每个空间位置输出一个维数为N+1的向量，外加一个维数来表示背景；

损失函数为：

其中，M表示类别数量；y_c是指示变量，0或1，如果该类别和样本的类别相同就是1，否则是0；p_c代表观测样本属于c类别的预测概率。

进一步，所述步骤3中关键点预测使用SIFT算法检测纹理图像中具有特色的二维关键点，将其提升到三维；然后应用FPS算法选择其中的前N个关键点，这样，选择的关键点不仅均匀分布在物体表面，而且纹理特征鲜明，易于检测；

在关键点预测的过程中，对于每一个像素点，都预测其相对于所属物体的二维关键点的偏移量d_i(x)，设像素点的二维位置为d，二维关键点的真实位置为d_i，P为分割掩码，则训练过程中的损失为：

同时还会输出每个预测点的置信度，该置信度通过网络输出的sigmoid函数得到，对于每个三维关键点，选择20个置信度最高的二维位置作为候选点用于后续的位姿计算。

所述步骤3中回归位姿是基于RANSAC的PnP算法来计算物体的准确的六维位姿。

本发明还提供了一种适用于恶劣环境的物体六维位姿估计系统，用于实现上述的适用于恶劣环境的物体六维位姿估计方法，包括计算机内存和处理器、图像增强模块、图像融合模块和六维位姿估计模块；所述图像增强模块基于传统和深度学习两种方法对图片进行增强，所述图像融合模块采用自编码融合网络对增强后的图片进行融合，所述六维位姿估计模块通过特征提取、语义分割、关键点预测和回归位姿进行恶劣环境的物体六维位姿估计，所有模块中具体的数据处理和计算工作由所述计算机处理器完成，且所有单元都与所述计算机内存的数据交互。

与现有技术相比本发明具有以下优点：

1、通过在位姿估计前添加图像增强模块，使得本发明能够在恶劣环境(雾天和弱光等条件)完成六维位姿估计。

2、通过将传统图像增强方法和深度学习图像增强方法结果融合，扩大了图像所含有的时间空间信息，减少了不确定性，增加了可靠性。

3、本发明的方法易于实现，其应用价值主要体现在以下几个方面：

(1)能够保证在夜间和雾天等恶劣环境下自动驾驶技术的安全可靠性。

(2)能够保证机器人在夜间和雾天等恶劣环境下正常完成物体抓取任务。

附图说明

图1为本发明适用于恶劣环境的物体六维位姿估计方法的系统框架图；

图2为图像融合流程图；

图3为恶劣环境下的图片；

图4为增强后的图片；

图5为增强后的位姿估计结果；

图6为现有方法的位姿估计结果。

具体实施方式

下面结合本发明实施例和附图，对本发明的技术方案进行具体、详细的说明。应当指出，对于本领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干变型和改进，这些也应视为属于本发明的保护范围。

一种适用于恶劣环境的物体六维位姿估计方法，其主要由图像增强、图像融合和六维位姿估计3部分构成。本方法采用基于传统和深度学习两种方法对图片进行增强，然后将增强后的图片采用自编码融合网格融合，融合后输入位姿估计部分进行位姿估计。具体流程如图1所示。

1、采用基于传统和深度学习两种方法对图像进行增强；

1.1基于传统方法的图像增强：采用由若干个可微滤波器组成的图像增强子模块和一个用于预测滤波器超参数的小型卷积神经网络，图像增强子模块包括锐化滤波器和去雾滤波器；

(1)在去雾滤波器，采用下述方程所描述的雾图形成模型：

I(x)＝J(x)t(x)+A(1-t(x)) (1)

根据公式，可以得出t(x)的近似值：

式中，C表示RGB三通道；

引入一个参数λ来控制除雾程度：

(2)在锐化滤波器，图像的锐化可以突出图像的细节，锐化的过程可以表示为：

F(x,η)＝I(x)+η(I(x)-Gau(I(x))) (4)

(3)用于预测滤波器超参数的小型卷积神经网络由4个卷积块和2个全连通层组成，每个卷积块包括一个步长为2的3×3卷积层和一个leaky Relu激活函数，这四层卷积的输出通道分别为16、32、32和32；卷积神经网络的输入为恶劣环境下的图像，最后的全连接层输出为预测的各种滤波器的超参数。

1.2基于深度学习方法的图像增强是基于生成对抗网络的方法实现的，生成对抗网络包括生成网络和判别网络两部分；其中：生成网络模型由16层组成，前半部分由6层卷积层和2层池化层组成，在每一层卷积后都添加批量标准化和leaky Relu激活函数，卷积核大小为3×3，步长为2，通道数为32、32、64、64、128和128，在第3次卷积层和第6次卷积层后分别加入池化层；后半部分由8层反卷积层组成，卷积核大小为3×3，步长为2，通道数为256、256、128、128、64、64、32和3；通过卷积和反卷积操作，调整权重参数，从而达到图像增强的效果；判别网络模型由全卷积网络组成，一共包括5个卷积层，前4个卷积层后都添加批量标准化和leaky Relu激活函数，卷积核大小为3×3，步长为1，通道数为42、96、192、384和3，在网络末尾添加sigmoid激活函数进行特征映射，将结果归一。

图像增强具体过程为：将恶劣环境条件下的图像(图3)输入生成网络中，经过生成网络卷积和反卷积操作得到增强的图像，然后将增强后的图像和正常条件下的图像输入判别网络进行判别，以区分真和假，并输出一个概率；当输出的概率值接近1时，说明的输入的是一张正常光照条件下的图像；当判别器无法判定真假的时候，此时生成网络生成的图像为最优图像(图4)；

其中G表示生成网络，D表示判别网络；

网络模型的均方差损失可定义为：

L_t＝αL_a+βL_m (7)

判别网络的损失可以定义为：

2、采用自编码融合网格进行图像融合；

将要融合的图片输入编码层，通过两次卷积，卷积核大小为2×2，步长为1；编码层的输出就是融合层的输入，然后在融合层采用Addition的策略将隐藏层的特征进行融合；融合层的输出就是解码层的输入，解码层由三次卷积操作，卷积核大小为2×2，步长为1；为了保证图像细节特征提取不丢失，自编码融合网络中没有池化操作。融合过程如图2所示。

3、通过特征提取、语义分割、关键点预测和回归位姿进行六维位姿估计。

3.1特征提取：使用Darknet53网络模型，网络的输入为已经经过滤波器增强过后的图片，输出为图片的特征，用于后续的语义分割和关键点预测。

3.2语义分割：对叠加在图像上的每个像素点分配一个标签来区分不同的对象，更准确地说，给定N个对象类，这将转化为在每个空间位置输出一个维数为N+1的向量，外加一个维数来表示背景；

损失函数为：

3.3关键点预测：使用SIFT算法检测纹理图像中具有特色的二维关键点，将其提升到三维；然后应用FPS算法选择其中的前N个关键点，这样，选择的关键点不仅均匀分布在物体表面，而且纹理特征鲜明，易于检测；

3.4回归位姿是基于RANSAC的PnP算法来计算物体的准确的六维位姿。图6为现有方法在恶劣环境(雾天和弱光等条件)的位姿估计结果，图5为本发明方法增强后的位姿估计结果，与图3恶劣环境下的图片相比，说明本发明方法能够很好地在恶劣环境(雾天和弱光等条件)完成六维位姿估计。

一种用于实现上述物体六维位姿估计方法，包括计算机内存和处理器、图像增强模块、图像融合模块和六维位姿估计模块；所述图像增强模块基于传统和深度学习两种方法对图片进行增强，所述图像融合模块采用自编码融合网络对增强后的图片进行融合，所述六维位姿估计模块通过特征提取、语义分割、关键点预测和回归位姿进行恶劣环境的物体六维位姿估计，所有模块中具体的数据处理和计算工作由所述计算机处理器完成，且所有单元都与所述计算机内存的数据交互。

Claims

1.一种适用于恶劣环境的物体六维位姿估计方法，其特征在于，包括以下步骤：

步骤1，采用基于传统和深度学习两种方法对图像进行增强；

步骤2，采用自编码融合网格进行图像融合；

2.根据权利要求1所述的一种适用于恶劣环境的物体六维位姿估计方法，其特征在于，所述步骤1中基于传统方法对图像进行增强是采用由若干个可微滤波器组成的图像增强子模块和一个用于预测滤波器超参数的小型卷积神经网络，图像增强子模块包括锐化滤波器和去雾滤波器；

在去雾滤波器，采用下述方程所描述的雾图形成模型：

I(x)＝J(x)t(x)+A(1-t(x)) (1)

根据公式，可以得出t(x)的近似值：

式中，C表示RGB三通道；

引入一个参数λ来控制除雾程度：

F(x,η)＝I(x)+η(I(x)-Gau(I(x))) (4)

3.根据权利要求1所述的一种适用于恶劣环境的物体六维位姿估计方法，其特征在于，所述步骤1中基于深度学习方法的图像增强是基于生成对抗网络的方法实现的，生成对抗网络包括生成网络和判别网络两部分；其中：

4.根据权利要求3所述的一种适用于恶劣环境的物体六维位姿估计方法，其特征在于，所述基于生成对抗网络实现图像增强的具体过程为：将恶劣环境条件下的图像输入生成网络中，经过生成网络卷积和反卷积操作得到增强的图像，然后将增强后的图像和正常条件下的图像输入判别网络进行判别，以区分真和假，并输出一个概率；当输出的概率值接近1时，说明的输入的是一张正常光照条件下的图像；当判别器无法判定真假的时候，此时生成网络生成的图像为最优图像；

其中G表示生成网络，D表示判别网络；

网络模型的均方差损失可定义为：

L_t＝αL_a+βL_m (7)

判别网络的损失可以定义为：

5.根据权利要求1所述的一种适用于恶劣环境的物体六维位姿估计方法，其特征在于，所述步骤2中采用自编码融合网格进行图像融合具体为：将要融合的图片输入编码层，通过两次卷积，卷积核大小为2×2，步长为1；编码层的输出就是融合层的输入，然后在融合层采用Addition的策略将隐藏层的特征进行融合；融合层的输出就是解码层的输入，解码层由三次卷积操作，卷积核大小为2×2，步长为1；为了保证图像细节特征提取不丢失，自编码融合网络中没有池化操作。

6.根据权利要求1所述的一种适用于恶劣环境的物体六维位姿估计方法，其特征在于，所述步骤3中特征提取使用Darknet53网络模型，网络的输入为已经经过滤波器增强过后的图片，输出为图片的特征，用于后续的语义分割和关键点预测。

7.根据权利要求1所述的一种适用于恶劣环境的物体六维位姿估计方法，其特征在于，所述步骤3中语义分割是对叠加在图像上的每个像素点分配一个标签来区分不同的对象，更准确地说，给定N个对象类，这将转化为在每个空间位置输出一个维数为N+1的向量，外加一个维数来表示背景；

损失函数为：

8.根据权利要求1所述的一种适用于恶劣环境的物体六维位姿估计方法，其特征在于，所述步骤3中关键点预测使用SIFT算法检测纹理图像中具有特色的二维关键点，将其提升到三维；然后应用FPS算法选择其中的前N个关键点，这样，选择的关键点不仅均匀分布在物体表面，而且纹理特征鲜明，易于检测；在关键点预测的过程中，对于每一个像素点，都预测其相对于所属物体的二维关键点的偏移量d_i(x)，设设像素点的二维位置为d，二维关键点的真实位置为d_i，P为分割掩码，则训练过程中的损失为：

9.根据权利要求1所述的一种适用于恶劣环境的物体六维位姿估计方法，其特征在于，所述步骤3中回归位姿是基于RANSAC的PnP算法来计算物体的准确的六维位姿。

10.一种适用于恶劣环境的物体六维位姿估计系统，其特征在于：用于实现权利要求1-9任一项所述的适用于恶劣环境的物体六维位姿估计方法，包括计算机内存和处理器、图像增强模块、图像融合模块和六维位姿估计模块；所述图像增强模块基于传统和深度学习两种方法对图片进行增强，所述图像融合模块采用自编码融合网络对增强后的图片进行融合，所述六维位姿估计模块通过特征提取、语义分割、关键点预测和回归位姿进行恶劣环境的物体六维位姿估计，所有模块中具体的数据处理和计算工作由所述计算机处理器完成，且所有单元都与所述计算机内存的数据交互。