CN115294433A - 一种适用于恶劣环境的物体六维位姿估计方法和系统 - Google Patents

一种适用于恶劣环境的物体六维位姿估计方法和系统 Download PDF

Info

Publication number
CN115294433A
CN115294433A CN202210962731.9A CN202210962731A CN115294433A CN 115294433 A CN115294433 A CN 115294433A CN 202210962731 A CN202210962731 A CN 202210962731A CN 115294433 A CN115294433 A CN 115294433A
Authority
CN
China
Prior art keywords
image
network
dimensional
pose estimation
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210962731.9A
Other languages
English (en)
Inventor
陈路
牛洺第
钱宇华
闫涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi University
Original Assignee
Shanxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi University filed Critical Shanxi University
Priority to CN202210962731.9A priority Critical patent/CN115294433A/zh
Publication of CN115294433A publication Critical patent/CN115294433A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明属于图像处理与计算机视觉领域,针对现有六维位姿估计方法在恶劣环境下运行效率和适应性上的不足,公开了一种适用于恶劣环境的物体六维位姿估计方法和系统。主要包括图像增强、图像融合和六维位姿估计3部分,所述图像增强基于传统和深度学习两种方法,所述图像融合采用自编码融合网格进行,所述六维位姿估计通过特征提取、语义分割、关键点预测和回归位姿进行。通过在位姿估计前添加图像增强模块,使得本发明能够在恶劣环境(雾天和弱光等条件)完成六维位姿估计。通过将传统图像增强方法和深度学习图像增强方法结果融合,扩大了图像所含有的时间空间信息,减少了不确定性,增加了可靠性,可用于恶劣环境下自动驾驶技术和物体抓取。

Description

一种适用于恶劣环境的物体六维位姿估计方法和系统
技术领域
本发明属于图像处理与计算机视觉领域,具体涉及一种适用于恶劣环境的物体六维位姿估计方法和系统。
背景技术
六维位姿(三自由度位移和三自由度旋转)是一个相对概念,指的是两个坐标系之间的位移和旋转变换。对于物体的六维位姿估计,通常用物体从世界坐标系到相机坐标系的旋转和平移变换。六维位姿估计在许多现实应用中都是一个重要的组成部分,例如增强现实,自动驾驶和机器人抓取等。但是,当在恶劣环境(雾天和弱光条件等)的情况下,图像细节不明显,光学成像面临能见度差和噪声多等问题,给位姿估计带来了巨大挑战。
现有的物体六维位姿估计方法通常可以分为三类:基于点云匹配的方法、基于模板匹配的方法和基于深度学习的方法。在雾天或弱光等恶劣环境下,由于图像噪声的影响会导致这些方法在关键点匹配时存在较大的误差,所以对于雾天和弱光条件等恶劣环境下的位姿估计鲁棒性较弱。因此,采用一种自适应恶劣环境的六维位姿估计方法具有十分重要的意义。
发明内容
针对现有六维位姿估计方法在恶劣环境下运行效率和适应性上的不足,本发明提供了一种能够自适应恶劣环境下的六维位姿估计方法和系统。
为了达到上述目的,本发明采用了下列技术方案:
本发明提供一种适用于恶劣环境的物体六维位姿估计方法,包括以下步骤:
步骤1,采用基于传统和深度学习两种方法对图像进行增强;
步骤2,采用自编码融合网格进行图像融合;
步骤3,通过特征提取、语义分割、关键点预测和回归位姿进行六维位姿估计。
进一步,所述步骤1中基于传统方法对图像进行增强是采用由若干个可微滤波器组成的图像增强子模块和一个用于预测滤波器超参数的小型卷积神经网络,图像增强子模块包括锐化滤波器和去雾滤波器;
在去雾滤波器,采用下述方程所描述的雾图形成模型:
I(x)=J(x)t(x)+A(1-t(x)) (1)
式中,I(x)是输入图像,J(x)是输出的无雾图像,A是全球大气光成分,t(x)是透射率;
根据公式,可以得出t(x)的近似值:
Figure BDA0003793469580000021
式中,C表示RGB三通道;
引入一个参数λ来控制除雾程度:
Figure BDA0003793469580000022
由于上述操作是可微的,可以通过反向传播来优化λ,使去雾滤波器更有利于位姿估计;
在锐化滤波器,图像的锐化可以突出图像的细节,锐化的过程可以表示为:
F(x,η)=I(x)+η(I(x)-Gau(I(x))) (4)
式中,I(x)是输入图像,Gau(I(x))表示高斯滤波器,η是一个正的比例因子,这个锐化操作对x和η都是可微分的,可以通过反向传播来优化x和η;
用于预测滤波器超参数的小型卷积神经网络由4个卷积块和2个全连通层组成,每个卷积块包括一个步长为2的3×3卷积层和一个leaky Relu激活函数,这四层卷积的输出通道分别为16、32、32和32;卷积神经网络的输入为恶劣环境下的图像,最后的全连接层输出为预测的各种滤波器的超参数。
进一步,所述步骤1中基于深度学习方法的图像增强是基于生成对抗网络的方法实现的,生成对抗网络包括生成网络和判别网络两部分;其中:
生成网络模型由16层组成,前半部分由6层卷积层和2层池化层组成,在每一层卷积后都添加批量标准化和leaky Relu激活函数,卷积核大小为3×3,步长为2,通道数为32、32、64、64、128和128,在第3次卷积层和第6次卷积层后分别加入池化层;后半部分由8层反卷积层组成,卷积核大小为3×3,步长为2,通道数为256、256、128、128、64、64、32和3;通过卷积和反卷积操作,调整权重参数,从而达到图像增强的效果;
判别网络模型由全卷积网络组成,一共包括5个卷积层,前4个卷积层后都添加批量标准化和leaky Relu激活函数,卷积核大小为3×3,步长为1,通道数为42、96、192、384和3,在网络末尾添加sigmoid激活函数进行特征映射,将结果归一。
更进一步,所述基于生成对抗网络实现图像增强的具体过程为:将恶劣环境条件下的图像输入生成网络中,经过生成网络卷积和反卷积操作得到增强的图像,然后将增强后的图像和正常条件下的图像输入判别网络进行判别,以区分真和假,并输出一个概率;当输出的概率值接近1时,说明的输入的是一张正常光照条件下的图像;当判别器无法判定真假的时候,此时生成网络生成的图像为最优图像;
设{mi,i=1,2,...,N}和{ni,i=1,2,...,N}分别代表恶劣环境下的图像和正常条件下的图像,对抗损失可定义为:
Figure BDA0003793469580000041
其中G表示生成网络,D表示判别网络;
网络模型的均方差损失可定义为:
Figure BDA0003793469580000042
最后将对抗损失和均方差损失结合起来并配置一定的权重α和β,得到最终生成网络的损失:
Lt=αLa+βLm (7)
判别网络的损失可以定义为:
Figure BDA0003793469580000043
进一步,所述步骤2中采用自编码融合网格进行图像融合具体为:将要融合的图片输入编码层,通过两次卷积,卷积核大小为2×2,步长为1;编码层的输出就是融合层的输入,然后在融合层采用Addition的策略将隐藏层的特征进行融合;融合层的输出就是解码层的输入,解码层由三次卷积操作,卷积核大小为2×2,步长为1;为了保证图像细节特征提取不丢失,自编码融合网络中没有池化操作。
进一步,所述步骤3中特征提取使用Darknet53网络模型,网络的输入为已经经过滤波器增强过后的图片,输出为图片的特征,用于后续的语义分割和关键点预测。
进一步,所述步骤3中语义分割是对叠加在图像上的每个像素点分配一个标签来区分不同的对象,更准确地说,给定N个对象类,这将转化为在每个空间位置输出一个维数为N+1的向量,外加一个维数来表示背景;
损失函数为:
Figure BDA0003793469580000051
其中,M表示类别数量;yc是指示变量,0或1,如果该类别和样本的类别相同就是1,否则是0;pc代表观测样本属于c类别的预测概率。
进一步,所述步骤3中关键点预测使用SIFT算法检测纹理图像中具有特色的二维关键点,将其提升到三维;然后应用FPS算法选择其中的前N个关键点,这样,选择的关键点不仅均匀分布在物体表面,而且纹理特征鲜明,易于检测;
在关键点预测的过程中,对于每一个像素点,都预测其相对于所属物体的二维关键点的偏移量di(x),设像素点的二维位置为d,二维关键点的真实位置为di,P为分割掩码,则训练过程中的损失为:
Figure BDA0003793469580000052
同时还会输出每个预测点的置信度,该置信度通过网络输出的sigmoid函数得到,对于每个三维关键点,选择20个置信度最高的二维位置作为候选点用于后续的位姿计算。
所述步骤3中回归位姿是基于RANSAC的PnP算法来计算物体的准确的六维位姿。
本发明还提供了一种适用于恶劣环境的物体六维位姿估计系统,用于实现上述的适用于恶劣环境的物体六维位姿估计方法,包括计算机内存和处理器、图像增强模块、图像融合模块和六维位姿估计模块;所述图像增强模块基于传统和深度学习两种方法对图片进行增强,所述图像融合模块采用自编码融合网络对增强后的图片进行融合,所述六维位姿估计模块通过特征提取、语义分割、关键点预测和回归位姿进行恶劣环境的物体六维位姿估计,所有模块中具体的数据处理和计算工作由所述计算机处理器完成,且所有单元都与所述计算机内存的数据交互。
与现有技术相比本发明具有以下优点:
1、通过在位姿估计前添加图像增强模块,使得本发明能够在恶劣环境(雾天和弱光等条件)完成六维位姿估计。
2、通过将传统图像增强方法和深度学习图像增强方法结果融合,扩大了图像所含有的时间空间信息,减少了不确定性,增加了可靠性。
3、本发明的方法易于实现,其应用价值主要体现在以下几个方面:
(1)能够保证在夜间和雾天等恶劣环境下自动驾驶技术的安全可靠性。
(2)能够保证机器人在夜间和雾天等恶劣环境下正常完成物体抓取任务。
附图说明
图1为本发明适用于恶劣环境的物体六维位姿估计方法的系统框架图;
图2为图像融合流程图;
图3为恶劣环境下的图片;
图4为增强后的图片;
图5为增强后的位姿估计结果;
图6为现有方法的位姿估计结果。
具体实施方式
下面结合本发明实施例和附图,对本发明的技术方案进行具体、详细的说明。应当指出,对于本领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干变型和改进,这些也应视为属于本发明的保护范围。
一种适用于恶劣环境的物体六维位姿估计方法,其主要由图像增强、图像融合和六维位姿估计3部分构成。本方法采用基于传统和深度学习两种方法对图片进行增强,然后将增强后的图片采用自编码融合网格融合,融合后输入位姿估计部分进行位姿估计。具体流程如图1所示。
1、采用基于传统和深度学习两种方法对图像进行增强;
1.1基于传统方法的图像增强:采用由若干个可微滤波器组成的图像增强子模块和一个用于预测滤波器超参数的小型卷积神经网络,图像增强子模块包括锐化滤波器和去雾滤波器;
(1)在去雾滤波器,采用下述方程所描述的雾图形成模型:
I(x)=J(x)t(x)+A(1-t(x)) (1)
式中,I(x)是输入图像,J(x)是输出的无雾图像,A是全球大气光成分,t(x)是透射率;
根据公式,可以得出t(x)的近似值:
Figure BDA0003793469580000071
式中,C表示RGB三通道;
引入一个参数λ来控制除雾程度:
Figure BDA0003793469580000072
由于上述操作是可微的,可以通过反向传播来优化λ,使去雾滤波器更有利于位姿估计;
(2)在锐化滤波器,图像的锐化可以突出图像的细节,锐化的过程可以表示为:
F(x,η)=I(x)+η(I(x)-Gau(I(x))) (4)
式中,I(x)是输入图像,Gau(I(x))表示高斯滤波器,η是一个正的比例因子,这个锐化操作对x和η都是可微分的,可以通过反向传播来优化x和η;
(3)用于预测滤波器超参数的小型卷积神经网络由4个卷积块和2个全连通层组成,每个卷积块包括一个步长为2的3×3卷积层和一个leaky Relu激活函数,这四层卷积的输出通道分别为16、32、32和32;卷积神经网络的输入为恶劣环境下的图像,最后的全连接层输出为预测的各种滤波器的超参数。
1.2基于深度学习方法的图像增强是基于生成对抗网络的方法实现的,生成对抗网络包括生成网络和判别网络两部分;其中:生成网络模型由16层组成,前半部分由6层卷积层和2层池化层组成,在每一层卷积后都添加批量标准化和leaky Relu激活函数,卷积核大小为3×3,步长为2,通道数为32、32、64、64、128和128,在第3次卷积层和第6次卷积层后分别加入池化层;后半部分由8层反卷积层组成,卷积核大小为3×3,步长为2,通道数为256、256、128、128、64、64、32和3;通过卷积和反卷积操作,调整权重参数,从而达到图像增强的效果;判别网络模型由全卷积网络组成,一共包括5个卷积层,前4个卷积层后都添加批量标准化和leaky Relu激活函数,卷积核大小为3×3,步长为1,通道数为42、96、192、384和3,在网络末尾添加sigmoid激活函数进行特征映射,将结果归一。
图像增强具体过程为:将恶劣环境条件下的图像(图3)输入生成网络中,经过生成网络卷积和反卷积操作得到增强的图像,然后将增强后的图像和正常条件下的图像输入判别网络进行判别,以区分真和假,并输出一个概率;当输出的概率值接近1时,说明的输入的是一张正常光照条件下的图像;当判别器无法判定真假的时候,此时生成网络生成的图像为最优图像(图4);
设{mi,i=1,2,...,N}和{ni,i=1,2,...,N}分别代表恶劣环境下的图像和正常条件下的图像,对抗损失可定义为:
Figure BDA0003793469580000091
其中G表示生成网络,D表示判别网络;
网络模型的均方差损失可定义为:
Figure BDA0003793469580000092
最后将对抗损失和均方差损失结合起来并配置一定的权重α和β,得到最终生成网络的损失:
Lt=αLa+βLm (7)
判别网络的损失可以定义为:
Figure BDA0003793469580000093
2、采用自编码融合网格进行图像融合;
将要融合的图片输入编码层,通过两次卷积,卷积核大小为2×2,步长为1;编码层的输出就是融合层的输入,然后在融合层采用Addition的策略将隐藏层的特征进行融合;融合层的输出就是解码层的输入,解码层由三次卷积操作,卷积核大小为2×2,步长为1;为了保证图像细节特征提取不丢失,自编码融合网络中没有池化操作。融合过程如图2所示。
3、通过特征提取、语义分割、关键点预测和回归位姿进行六维位姿估计。
3.1特征提取:使用Darknet53网络模型,网络的输入为已经经过滤波器增强过后的图片,输出为图片的特征,用于后续的语义分割和关键点预测。
3.2语义分割:对叠加在图像上的每个像素点分配一个标签来区分不同的对象,更准确地说,给定N个对象类,这将转化为在每个空间位置输出一个维数为N+1的向量,外加一个维数来表示背景;
损失函数为:
Figure BDA0003793469580000101
其中,M表示类别数量;yc是指示变量,0或1,如果该类别和样本的类别相同就是1,否则是0;pc代表观测样本属于c类别的预测概率。
3.3关键点预测:使用SIFT算法检测纹理图像中具有特色的二维关键点,将其提升到三维;然后应用FPS算法选择其中的前N个关键点,这样,选择的关键点不仅均匀分布在物体表面,而且纹理特征鲜明,易于检测;
在关键点预测的过程中,对于每一个像素点,都预测其相对于所属物体的二维关键点的偏移量di(x),设像素点的二维位置为d,二维关键点的真实位置为di,P为分割掩码,则训练过程中的损失为:
Figure BDA0003793469580000102
同时还会输出每个预测点的置信度,该置信度通过网络输出的sigmoid函数得到,对于每个三维关键点,选择20个置信度最高的二维位置作为候选点用于后续的位姿计算。
3.4回归位姿是基于RANSAC的PnP算法来计算物体的准确的六维位姿。图6为现有方法在恶劣环境(雾天和弱光等条件)的位姿估计结果,图5为本发明方法增强后的位姿估计结果,与图3恶劣环境下的图片相比,说明本发明方法能够很好地在恶劣环境(雾天和弱光等条件)完成六维位姿估计。
一种用于实现上述物体六维位姿估计方法,包括计算机内存和处理器、图像增强模块、图像融合模块和六维位姿估计模块;所述图像增强模块基于传统和深度学习两种方法对图片进行增强,所述图像融合模块采用自编码融合网络对增强后的图片进行融合,所述六维位姿估计模块通过特征提取、语义分割、关键点预测和回归位姿进行恶劣环境的物体六维位姿估计,所有模块中具体的数据处理和计算工作由所述计算机处理器完成,且所有单元都与所述计算机内存的数据交互。

Claims (10)

1.一种适用于恶劣环境的物体六维位姿估计方法,其特征在于,包括以下步骤:
步骤1,采用基于传统和深度学习两种方法对图像进行增强;
步骤2,采用自编码融合网格进行图像融合;
步骤3,通过特征提取、语义分割、关键点预测和回归位姿进行六维位姿估计。
2.根据权利要求1所述的一种适用于恶劣环境的物体六维位姿估计方法,其特征在于,所述步骤1中基于传统方法对图像进行增强是采用由若干个可微滤波器组成的图像增强子模块和一个用于预测滤波器超参数的小型卷积神经网络,图像增强子模块包括锐化滤波器和去雾滤波器;
在去雾滤波器,采用下述方程所描述的雾图形成模型:
I(x)=J(x)t(x)+A(1-t(x)) (1)
式中,I(x)是输入图像,J(x)是输出的无雾图像,A是全球大气光成分,t(x)是透射率;
根据公式,可以得出t(x)的近似值:
Figure FDA0003793469570000011
式中,C表示RGB三通道;
引入一个参数λ来控制除雾程度:
Figure FDA0003793469570000012
由于上述操作是可微的,可以通过反向传播来优化λ,使去雾滤波器更有利于位姿估计;
在锐化滤波器,图像的锐化可以突出图像的细节,锐化的过程可以表示为:
F(x,η)=I(x)+η(I(x)-Gau(I(x))) (4)
式中,I(x)是输入图像,Gau(I(x))表示高斯滤波器,η是一个正的比例因子,这个锐化操作对x和η都是可微分的,可以通过反向传播来优化x和η;
用于预测滤波器超参数的小型卷积神经网络由4个卷积块和2个全连通层组成,每个卷积块包括一个步长为2的3×3卷积层和一个leaky Relu激活函数,这四层卷积的输出通道分别为16、32、32和32;卷积神经网络的输入为恶劣环境下的图像,最后的全连接层输出为预测的各种滤波器的超参数。
3.根据权利要求1所述的一种适用于恶劣环境的物体六维位姿估计方法,其特征在于,所述步骤1中基于深度学习方法的图像增强是基于生成对抗网络的方法实现的,生成对抗网络包括生成网络和判别网络两部分;其中:
生成网络模型由16层组成,前半部分由6层卷积层和2层池化层组成,在每一层卷积后都添加批量标准化和leaky Relu激活函数,卷积核大小为3×3,步长为2,通道数为32、32、64、64、128和128,在第3次卷积层和第6次卷积层后分别加入池化层;后半部分由8层反卷积层组成,卷积核大小为3×3,步长为2,通道数为256、256、128、128、64、64、32和3;通过卷积和反卷积操作,调整权重参数,从而达到图像增强的效果;
判别网络模型由全卷积网络组成,一共包括5个卷积层,前4个卷积层后都添加批量标准化和leaky Relu激活函数,卷积核大小为3×3,步长为1,通道数为42、96、192、384和3,在网络末尾添加sigmoid激活函数进行特征映射,将结果归一。
4.根据权利要求3所述的一种适用于恶劣环境的物体六维位姿估计方法,其特征在于,所述基于生成对抗网络实现图像增强的具体过程为:将恶劣环境条件下的图像输入生成网络中,经过生成网络卷积和反卷积操作得到增强的图像,然后将增强后的图像和正常条件下的图像输入判别网络进行判别,以区分真和假,并输出一个概率;当输出的概率值接近1时,说明的输入的是一张正常光照条件下的图像;当判别器无法判定真假的时候,此时生成网络生成的图像为最优图像;
设{mi,i=1,2,...,N}和{ni,i=1,2,...,N}分别代表恶劣环境下的图像和正常条件下的图像,对抗损失可定义为:
Figure FDA0003793469570000031
其中G表示生成网络,D表示判别网络;
网络模型的均方差损失可定义为:
Figure FDA0003793469570000032
最后将对抗损失和均方差损失结合起来并配置一定的权重α和β,得到最终生成网络的损失:
Lt=αLa+βLm (7)
判别网络的损失可以定义为:
Figure FDA0003793469570000033
5.根据权利要求1所述的一种适用于恶劣环境的物体六维位姿估计方法,其特征在于,所述步骤2中采用自编码融合网格进行图像融合具体为:将要融合的图片输入编码层,通过两次卷积,卷积核大小为2×2,步长为1;编码层的输出就是融合层的输入,然后在融合层采用Addition的策略将隐藏层的特征进行融合;融合层的输出就是解码层的输入,解码层由三次卷积操作,卷积核大小为2×2,步长为1;为了保证图像细节特征提取不丢失,自编码融合网络中没有池化操作。
6.根据权利要求1所述的一种适用于恶劣环境的物体六维位姿估计方法,其特征在于,所述步骤3中特征提取使用Darknet53网络模型,网络的输入为已经经过滤波器增强过后的图片,输出为图片的特征,用于后续的语义分割和关键点预测。
7.根据权利要求1所述的一种适用于恶劣环境的物体六维位姿估计方法,其特征在于,所述步骤3中语义分割是对叠加在图像上的每个像素点分配一个标签来区分不同的对象,更准确地说,给定N个对象类,这将转化为在每个空间位置输出一个维数为N+1的向量,外加一个维数来表示背景;
损失函数为:
Figure FDA0003793469570000041
其中,M表示类别数量;yc是指示变量,0或1,如果该类别和样本的类别相同就是1,否则是0;pc代表观测样本属于c类别的预测概率。
8.根据权利要求1所述的一种适用于恶劣环境的物体六维位姿估计方法,其特征在于,所述步骤3中关键点预测使用SIFT算法检测纹理图像中具有特色的二维关键点,将其提升到三维;然后应用FPS算法选择其中的前N个关键点,这样,选择的关键点不仅均匀分布在物体表面,而且纹理特征鲜明,易于检测;在关键点预测的过程中,对于每一个像素点,都预测其相对于所属物体的二维关键点的偏移量di(x),设设像素点的二维位置为d,二维关键点的真实位置为di,P为分割掩码,则训练过程中的损失为:
Figure FDA0003793469570000042
同时还会输出每个预测点的置信度,该置信度通过网络输出的sigmoid函数得到,对于每个三维关键点,选择20个置信度最高的二维位置作为候选点用于后续的位姿计算。
9.根据权利要求1所述的一种适用于恶劣环境的物体六维位姿估计方法,其特征在于,所述步骤3中回归位姿是基于RANSAC的PnP算法来计算物体的准确的六维位姿。
10.一种适用于恶劣环境的物体六维位姿估计系统,其特征在于:用于实现权利要求1-9任一项所述的适用于恶劣环境的物体六维位姿估计方法,包括计算机内存和处理器、图像增强模块、图像融合模块和六维位姿估计模块;所述图像增强模块基于传统和深度学习两种方法对图片进行增强,所述图像融合模块采用自编码融合网络对增强后的图片进行融合,所述六维位姿估计模块通过特征提取、语义分割、关键点预测和回归位姿进行恶劣环境的物体六维位姿估计,所有模块中具体的数据处理和计算工作由所述计算机处理器完成,且所有单元都与所述计算机内存的数据交互。
CN202210962731.9A 2022-08-11 2022-08-11 一种适用于恶劣环境的物体六维位姿估计方法和系统 Pending CN115294433A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210962731.9A CN115294433A (zh) 2022-08-11 2022-08-11 一种适用于恶劣环境的物体六维位姿估计方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210962731.9A CN115294433A (zh) 2022-08-11 2022-08-11 一种适用于恶劣环境的物体六维位姿估计方法和系统

Publications (1)

Publication Number Publication Date
CN115294433A true CN115294433A (zh) 2022-11-04

Family

ID=83829027

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210962731.9A Pending CN115294433A (zh) 2022-08-11 2022-08-11 一种适用于恶劣环境的物体六维位姿估计方法和系统

Country Status (1)

Country Link
CN (1) CN115294433A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115965959A (zh) * 2023-01-10 2023-04-14 中国人民解放军国防科技大学 单阶段单目3d目标检测网络

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115965959A (zh) * 2023-01-10 2023-04-14 中国人民解放军国防科技大学 单阶段单目3d目标检测网络
CN115965959B (zh) * 2023-01-10 2023-10-03 中国人民解放军国防科技大学 单阶段单目3d目标检测网络

Similar Documents

Publication Publication Date Title
CN108734194B (zh) 一种面向虚拟现实的基于单深度图的人体关节点识别方法
Tian et al. Depth estimation using a self-supervised network based on cross-layer feature fusion and the quadtree constraint
CN109815847B (zh) 一种基于语义约束的视觉slam方法
CN108734210B (zh) 一种基于跨模态多尺度特征融合的对象检测方法
CN111899301A (zh) 一种基于深度学习的工件6d位姿估计方法
CN114863573B (zh) 一种基于单目rgb-d图像的类别级6d姿态估计方法
CN111667535B (zh) 一种针对遮挡场景下的六自由度位姿估计方法
CN113221647B (zh) 一种融合点云局部特征的6d位姿估计方法
CN114972617B (zh) 一种基于可导渲染的场景光照与反射建模方法
CN111753698A (zh) 一种多模态三维点云分割系统和方法
CN114663502A (zh) 物体姿态估计、图像处理方法及相关设备
Liang et al. A manufacturing-oriented intelligent vision system based on deep neural network for object recognition and 6d pose estimation
JP2021163503A (ja) 2次元カメラによる3次元の姿勢推定
CN112767478B (zh) 一种基于表观指导的六自由度位姿估计方法
CN114332214A (zh) 物体姿态估计方法、装置、电子设备及存储介质
Rubio et al. Efficient monocular pose estimation for complex 3D models
CN113370217A (zh) 基于深度学习的物体姿态识别和抓取的智能机器人的方法
CN115423978A (zh) 用于建筑物重建的基于深度学习的图像激光数据融合方法
CN115294433A (zh) 一种适用于恶劣环境的物体六维位姿估计方法和系统
Sun et al. IRDCLNet: Instance segmentation of ship images based on interference reduction and dynamic contour learning in foggy scenes
CN114067273A (zh) 一种夜间机场航站楼热成像显著人体分割检测方法
CN117011380A (zh) 一种目标物体的6d位姿估计方法
CN116228850A (zh) 物体姿态估计方法、装置、电子设备及可读存储介质
CN116152334A (zh) 图像处理方法及相关设备
CN113034675A (zh) 一种场景模型构建方法、智能终端及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination