CN109063301B - 一种基于热力图的单幅图像室内物体姿态估计方法 - Google Patents

一种基于热力图的单幅图像室内物体姿态估计方法 Download PDF

Info

Publication number
CN109063301B
CN109063301B CN201810819204.6A CN201810819204A CN109063301B CN 109063301 B CN109063301 B CN 109063301B CN 201810819204 A CN201810819204 A CN 201810819204A CN 109063301 B CN109063301 B CN 109063301B
Authority
CN
China
Prior art keywords
image
dimensional
convolution
thermodynamic diagram
thermodynamic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810819204.6A
Other languages
English (en)
Other versions
CN109063301A (zh
Inventor
刘复昌
白玉
孟凡胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Normal University
Original Assignee
Hangzhou Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Normal University filed Critical Hangzhou Normal University
Priority to CN201810819204.6A priority Critical patent/CN109063301B/zh
Publication of CN109063301A publication Critical patent/CN109063301A/zh
Application granted granted Critical
Publication of CN109063301B publication Critical patent/CN109063301B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于目标姿态估计领域,公开了一种基于热力图的单幅图像室内物体姿态估计方法,所述基于热力图的物体姿态估计方法通过RPN网络提取多个目标物体的候选框;通过全卷积(FCN)网络提取每个目标物体三维包围盒八个顶点在二维图像上的热力图,然后再通过使用PnP的方法计算目标物体的6D姿态估计;通过使用ShapeNet作为CAD模型库来合成大量的训练数据。本发明采用的基于热力图的物体姿态估计检测技术,具有很强的鲁棒性,可以在背景比较杂乱的室内场景和物体有部分遮挡的情况估计不同室内物体的姿态,适用范围较广,对光照不敏感而且不要求物体具有明显的纹理外观。

Description

一种基于热力图的单幅图像室内物体姿态估计方法
技术领域
本发明涉及姿态估计技术领域,特别是涉及一种基于热力图的单幅图像室内物体姿态估计方法。
背景技术
室内场景下物体的姿态估计对于社交机器人的运动规划和虚拟现实、增强现实中的人机交互都起着重要的作用。目前在姿态估计的研究中,主要分为特征点匹配、模版匹配、稠密特征匹配和基于卷积网络端到端的方法。这些方法都存在一定的问题,在复杂的实际环境应用中表现不是十分稳定。例如基于特征点匹配的传统方法依赖于纹理来提取特征点,然后根据二维特征点计算与三维物体对应点之间的旋转与平移,因此无法处理表面光滑、纹理较少的物体;基于模版匹配的方法虽然改进了基于特征点匹配的方法,可以处理纹理较少的物体,但是对于光照和遮挡非常敏感,因此姿态估计结果时常不稳定;基于稠密特征匹配的方法直接对目标物体提取稠密特征点,再进行二维和三维对应姿态计算,由于稠密特征点的抽取需要学习样本空间的统计特性,所以比较耗时,而且通常还需要后处理(如ICP点匹配)来优化姿态估计的结果;基于卷积网络端到端的方法是最近比较流行的方法,但是该方法需要大量的训练数据,目前不管是基于分类还是直接回归的此类算法大都针对单个物体目标比较准确,对于多个目标而且在背景比较杂乱和遮挡较多的场景准确度有待提高;虽然也有学者结合端到端和传统的算法,先用CNNs预测特征点,然后用PnP方法计算姿态,但是这些方法大多是针对单个目标,因此没有考虑目标之间的遮挡情况。
综上所述,现有技术存在的问题是:传统的基于特征点匹配的方法不能处理光滑无纹理的物体;基于模板匹配的方法对光照和遮挡比较敏感;基于稠密特征匹配的方法需要通过学习样本空间来抽取特征因此耗时而且姿态一般还需要后续优化;基于卷积网络端到端的方法对多目标和复杂场景及物体间遮挡情况还解决不好,无法满足较高准确度的应用需求。
发明内容
针对现有技术存在的问题,本发明提供了一种基于热力图的单幅图像室内物体姿态估计方法。
为实现上述目的,本发明的技术方案为一种基于热力图的单幅图像室内物体姿态估计方法,首先通过conv5(VGG卷积神经网络的第五层卷积层)对输入的单幅RGB图像进行特征提取;再基于RPN网络提取室内场景下目标物体的候选框;然后通过FCN卷积得到每个目标物体的三维包围盒8个顶点在二维图像上对应的热力图;最后通过PnP方法计算每个目标物体和对应CAD模型之间的姿态变换矩阵即旋转矩阵和平移向量,获得物体的6D姿态。该方法中使用ShapeNet作为CAD模型库合成大量训练数据。
具体包括以下步骤:
(1)将单幅RGB图像输入到conv5卷积神经网络中;利用三个3*3的卷积核进行特征提取,每个卷积核使用步长3,填充为1,将得到的结果即特征图送入RPN神经网络进行目标侯选框预测;
(2)RPN神经网络使用9个锚点,大小为128*128,256*256,单位是像素,3个长宽比为1:1的锚点,3个长宽比为1:2的锚点,3个长宽比为2:1的锚点,每个图像生成200个候选框,再将得到的200个候选框和步骤(1)得到的特征图送入FCN进行目标物体8个顶点对应的热力图预测;
(3)FCN神经网络在每个图像的候选框中,随机选取16个图片块,确保每个图片块的所有部分都在候选框中,每个图片块的大小为7*7,如果候选框太小,就舍弃该候选框;预测每个图片块的热力图,叠加形成完整图像的热力图,包含物体三维包围盒的8个顶点在二维图像的投影;
(4)使用EPnP计算出物体的6D姿态。
上述技术方案中,步骤(3)中FCN神经网络预测每个图片块的热力图,是使用5个卷积层进行预测,最终得到目标物体顶点的8个热力图,具体包括:
(1)第一个卷积层为512个3*3的卷积核,步长为1,将卷积层输出的特征图送入ReLU激活函数,将第一层卷积层的填充设为100;以确保最后结果对可以对齐;
(2)第二个卷积层为512个3*3的卷积核,步长为1,填充为0,将卷积层输出的特征图送入ReLU激活函数;
(3)第三层卷积层为512个3*3的卷积核,步长为1,填充为0,将卷积层输出的特征图送入ReLU激活函数;
(4)第四层卷积层为256个1*1的卷积核,步长为1,填充为0,将卷积层输出的特征图送入ReLU激活函数;
(5)第五层卷积层为8个1*1的卷积核,步长为1,填充为0,将卷积层输出的特征图送入ReLU激活函数;获得每个图片块的热力图;根据每个图像块的热力图,叠加起来形成一个完整的图像热力图,这个热力图包含物体三维包围盒的8个顶点在二维图像的投影。
步骤(4)中EPnP预测物体的6D姿态,具体包括以下步骤:
1)对于物体三维包围盒8个顶点在二维图像中的投影坐标,选取这8个点当做三维图像的坐标,在三维空间,对于每个物体默认的三维包围盒,都有一个长、宽、高为1∶1∶1的三维包围盒,通过网络训练,回归出一个新的长、宽、高的比例;
2)然后再使用训练出来的新的长、宽、高的比例,求得物体三维包围盒顶点对应的三维坐标,获取8个三维的点,从而获得8个二维到三维的点对,使用opencv的solvePnP函数,计算出从物体坐标到相机做的旋转和平移向量,从而得到目标物体的姿态。
其中,网络训练回归出一个新的长宽高的比例,采用如下公式:
Lpose=Lproj+αLdim+βLreg 公式(1)
Figure BDA0001740992500000021
Figure BDA0001740992500000022
Figure BDA0001740992500000023
公式(1)中Lpose是网络预测的姿态和真实值的姿态之间的损失函数,Ldim用来测量三维度的真实值和网络预测值之间的损失函数,Lreg是正则项,用来防止训练时候过拟合,α、β为权重,控制不同损失的影响,公式(2)中ProjR,t(Mi)是用训练时候的真实旋转矩阵R和平移矩阵T的投影,Lproj是ProjR,t(Mi)的期望,smoothL1为损失函数,Mi为第i个三维模型的8个顶点集合,
Figure BDA0001740992500000024
为FCN的预测值,公式(4)E表示概率中的期望值,di是真实的第i个维度,/>
Figure BDA0001740992500000025
是预测的第i个维度。
因为没有足够的训练数据,所以采用对二维图像数据集进行渲染的方法生成训练数据,渲染步骤如下:
(1)ShapeNet渲染:使用Blender的Python渲染RGB图像、深度图像,生成相机到物体的旋转矩阵和平移向量;
(2)渲染RGB图像:使用Cycles引擎,随机选取一张SUN_VOC数据集图像当做背景,根据PASCAL 3D数据集每类物体的视角,用概率核密度函数估计算出对应该类物体的仰角和方位角,然后进行摄像机坐标的定位,采用的灯光类型为点光源;
(3)渲染深度图像:使用Cycles引擎,用Z缓冲区算法生成从物体到影像面距离的深度图,将Blender摄像机的裁剪距离设为0.5-4m;在这个范围内的所有距离将会被线性映射到0-255的区间内。
本发明提供的技术方案的有益效果为:
本发明首次提出采用基于热力图的物体姿态估计检测技术,首先通过Conv5对输入的单幅RGB图像进行特征提取,得到热力图,再用RPN预测出目标物体的候选框(候选区域),然后通过FCN卷积得到每个目标物体的8个顶点对应的热力图;最后通过PnP来计算每个目标物体和对应CAD模型之间的姿态变换矩阵(旋转矩阵和平移向量)。同时通过使用ShapeNet作为CAD模型库来合成大量的不同角度训练图像,从而得到在复杂环境下识别率较高的姿态估计模型。热力图的带来的优点是:直接预测关键点的坐标很难回归(因为预测范围很大,监督信息较少),网络收敛速度较慢;热力图直接回归每一类关键点的概率,每一点的监督信息较多,因此网络能够较快的收敛,同时对每一个像素位置进行预测能够提高关键点的定位精度,另外全卷积网络架构可以同时使用多个尺度处理输入的特征和响应,二者结合可以提高预测的准确度,而且对于遮挡情况更加鲁棒。
综上所述,本发明基于热力图的物体姿态估计检测技术,具有很强的鲁棒性,可以在背景比较杂乱的室内场景和物体有部分遮挡的情况估计不同室内物体的姿态,适用范围较广,对光照不敏感而且不要求物体具有明显的纹理外观。
附图说明
图1是本发明方法的流程示意图。
图2是本发明实施例提供的基于热力图的单幅图像室内物体姿态估计方法的整体流程图。
图3是热力图的可视化结果。
图4是最后预测出的目标物体姿态与真实姿态的可视化对比。
具体实施方式
为了使本发明的技术方案更加清楚明白,以下结合实施例,对发明内容做更加详细地说明,但发明的保护范围不限于下述的实例。
给定单幅RGB图像,以及ShapeNet作为CAD模型库合成的数据,完成单幅室内场景图片中目标物体的姿态估计。总体流程图如图2所示:
S10:通过CONV5卷积神经网络提取目标物体特征;
S11:然后通过利用RPN神经网络预测目标候选框(室内场景的物体);
S12:通过利用FCN根据前面获得的目标物体特征和目标候选框预测出目标物体8个顶点对应的热力图;
S13:通过利用EPnP根据FCN得到的热力图,计算出物体的6D姿态;
所述室内物体姿态估计模型可以表示为:
(R,T)=姿态_estimation(image)
=Conv5(image)+rpn(Featuremap5)+FCN(Featuremap5,region_proposal)+PnP(region_proposal)
具体描述上述步骤:
(1)利用conv5卷积神经网络提取图像特征:
下面公式中
Figure BDA0001740992500000041
表示第j个卷积层中第i个卷积核与输入图像卷积的结果,函数
Figure BDA0001740992500000042
表示输入图像I和卷积核K进行卷积:
Figure BDA0001740992500000043
其中
Figure BDA00017409925000000425
为卷积核k对应的偏置,sizek表示卷积核的大小,/>
Figure BDA0001740992500000044
表示卷积时的滑动步长;/>
Figure BDA0001740992500000045
表示第j个卷积层得到的第i个特征图,ReLu(x)为激活函数;ReLu(x)=max(0,x);/>
Figure BDA0001740992500000046
表示第j个池化层对第j个卷积层中的第i个特征图的池化结果,
Figure BDA0001740992500000047
表示利用size×size大小的滑动窗口对输入图像I进行最大化下采样;/>
Figure BDA0001740992500000048
其中/>
Figure BDA0001740992500000049
表示第j个池化层中第i个特征图对应的偏置,/>
Figure BDA00017409925000000410
表示第j个池化层中滑动窗口的滑动步长;/>
Figure BDA00017409925000000411
表示第j个池化层得到的池化特征图。
Figure BDA00017409925000000412
卷积层C1:
Figure BDA00017409925000000413
其中i=1,2,3,....,64;j=1;
Figure BDA00017409925000000414
Figure BDA00017409925000000415
卷积层C2:
Figure BDA00017409925000000416
其中i=1,2,3,....,64;j=1;
Figure BDA00017409925000000417
Figure BDA00017409925000000418
卷积层C3:
Figure BDA00017409925000000419
其中i=1,2,3,....,64;j=3;
Figure BDA00017409925000000420
(2)RPN网络进行前景候选框提取:
Figure BDA00017409925000000421
其中proposal表示通过RPN网络得到的前景候选区域的数据结构,该数据结构包括某个区域是前景的得分rpnscore、区域的位置rpn_bbox;rpn(feature,src,gt_bboxs])表示RPN,该网络输入第三个卷积层得到的64个特征图Feature3、源图像srC、源图像中所有目标物体的具体坐标gt_bboxs(训练用)。
(3)使用FCN进行热力图的生成:
根据RPN输入的包围盒,在包围盒内,随机选取16个小图像块,对每个小图像块做如下操作:
Figure BDA00017409925000000422
卷积层C1:
Figure BDA00017409925000000423
其中i=1,2,3,....,512;j=1;
Figure BDA00017409925000000424
Figure BDA0001740992500000051
卷积层C2:
Figure BDA0001740992500000052
其中i=1,2,3,....,512;j=2;
Figure BDA0001740992500000053
Figure BDA0001740992500000054
卷积层C3:
Figure BDA0001740992500000055
其中i=1,2,3,....,512;j=3;
Figure BDA0001740992500000056
Figure BDA0001740992500000057
卷积层C4:
Figure BDA0001740992500000058
其中i=1,2,3,....,256;j=3;
Figure BDA0001740992500000059
Figure BDA00017409925000000510
卷积层C5:
Figure BDA00017409925000000511
其中i=1,2,3,....,8;j=5;
Figure BDA00017409925000000512
经过上面所述,FCN使用了5个卷积层进行预测得到目标物体顶点的8个热力图;
将结果累加得到8通道的热力图,然后提取8个三维在热力图中的二维投影。
再使用EPnP计算出物体的6D姿态,通过每个热力图中的物体都对应了8个三维包围盒顶点在二维图像中的投影坐标,选取这8个点当做二维图像的坐标,对于三维空间的点,对于每个物体默认的三维包围盒,都会有一个长、宽、高为1∶1∶1的三维包围盒,通过网络训练,回归出一个长、宽、高的合适比例,可参考如下公式:
Lpose=Lproj+αLdim+βLreg
Figure BDA00017409925000000513
Figure BDA00017409925000000514
姿态的loss是一个投影损失,维度损失和正则化的线性组合,这里使用的是smoothL1损失函数。Mi为第i个三维模型的8个顶点集合,
Figure BDA00017409925000000515
为FCN的预测值,在训练的过程中,热力图的真实值为一个高斯模板生成的图像。
然后再使用训练出来的新的比例,去求得三维包围盒顶点对应的三维坐标,从而获取8个二维的点,有了8个二维到三维的点对以后,使用opencv的solvePnP函数,去计算出从物体坐标到相机做的旋转和平移向量,从而得到目标物体的姿态。
对于EPnP计算姿态的理论基础如下;
Efficient PnP(EPnP)是用来解决pnp问题中(n>=3)的情况的,总共有n个点(被称为引用点),这些引用点可以被表示为控制点的加权和,这些控制点是未知的,我们就通过解这些控制点来计算最终姿态。
Figure BDA00017409925000000516
是对于每个在世界坐标的引用点,/>
Figure BDA00017409925000000517
它们对应的图像坐标系中的点,/>
Figure BDA00017409925000000518
是控制点和的加权和,权重相加为1,公式如下:
Figure BDA00017409925000000519
Figure BDA00017409925000000520
化简后得:
Figure BDA00017409925000000521
化简后的如下两个方程:
Figure BDA0001740992500000061
其中,上面的方程中,四个控制点总共12个未知变量,M为2n×12的矩阵。因此,x属于M的右零空间,vi为矩阵M的右奇异向量,可以通过求解MTM的零空间特征值得到
Figure BDA0001740992500000062
βi求解后,可以通过高斯牛顿法去改善它;
计算R,t:选择误差最小维数对应的β,从而得到x,恢复出控制点在相机坐标系中的坐标并根据质心坐标系数得到参考点在相机坐标系的坐标。剩下的工作就是已知一组点云在两个坐标系中的坐标,求两个坐标系的位姿变换。
另外因为没有足够的训练数据,所以采用将二维图像数据集进行渲染,自己生成训练数据,二维图像数据集的渲染步骤如下:
ShapeNet渲染。使用Blender的Python脚本渲染RGB图像,深度图像,生成从相机到物体的旋转平移向量。
其中,渲染RGB:使用Cycles引擎,随机选取一张SUN_VOC数据集图像当做背景,根据PASCAL 3D数据集每类物体的视角,用核密度函数估计算出来对应该类物体的仰角和方位角,灯光类型为点光源。
在将仰角和方位角转化成欧拉角时,是将四元数参数转换成旋转矩阵,之后,再将结果写入文本文件中存储起来。
渲染depth:使用Cycles引擎,用Z缓冲区算法生成从物体到影像面的深度图,将blender摄像机的裁剪距离设为0.5-4米。在这个范围内的所有距离将会被线性映射到0-255的区间内。
本发明采用的基于热力图的物体姿态估计检测技术,热力图带来很多优点:直接预测关键点的坐标很难回归(因为预测范围很大,监督信息较少),网络收敛速度较慢;热力图直接回归每一类关键点的概率,每一点的监督信息较多,因此网络能够较快的收敛,同时对每一个像素位置进行预测能够提高关键点的定位精度,另外全卷积网络架构可以同时使用多个尺度处理输入的特征和响应,二者结合可以提高预测的准确度,而且对于遮挡情况更加鲁棒。
本发明可以在背景比较杂乱的室内场景和物体有部分遮挡的情况估计不同室内物体的姿态,适用范围较广,对光照不敏感而且不要求物体具有明显的纹理外观。
以上所述仅为本发明的较好实施例,并不用以限制本发明的条件,在不脱离本发明的基本前提下,可以做若干修改,这些改进也应视为本发明的保护范围内。

Claims (7)

1.一种基于热力图的单幅图像室内物体姿态估计方法,其特征在于,首先通过VGG卷积神经网络的第五层卷积层conv5对输入的单幅RGB图像进行特征提取;再基于RPN网络提取室内场景下目标物体的候选框;然后通过FCN卷积得到每个目标物体的三维包围盒8个顶点在二维图像上对应的热力图;最后通过EPnP方法计算每个目标物体和对应CAD模型之间的姿态变换矩阵即旋转矩阵和平移向量,获得物体的6D姿态;该方法中使用ShapeNet作为CAD模型库合成训练数据;方法具体步骤如下:
(1)将单幅RGB图像输入到conv5卷积神经网络中;利用三个3*3的卷积核进行特征提取,每个卷积核使用步长3,填充为1,将得到的结果即特征图送入RPN神经网络进行目标侯选框预测;
(2)RPN神经网络使用9个锚点,其输入图像的大小为128*128或256*256,单位是像素,3个长宽比为1:1的锚点,3个长宽比为1:2的锚点,3个长宽比为2:1的锚点,每个图像生成200个候选框,再将得到的200个候选框和步骤(1)得到的特征图送入FCN进行目标物体8个顶点对应的热力图预测;
(3)FCN神经网络在每个图像的候选框中,随机选取16个图片块,确保每个图片块的所有部分都在候选框中,每个图片块的大小为7*7,如果候选框太小,就舍弃该候选框;预测每个图片块的热力图,叠加形成完整图像的热力图,包含物体三维包围盒的8个顶点在二维图像的投影;
(4)使用EPnP计算出物体的6D姿态。
2.根据权利要求1所述的一种基于热力图的单幅图像室内物体姿态估计方法,其特征在于,所述的步骤(3)中FCN神经网络预测每个图片块的热力图,是使用5个卷积层进行预测,最终得到目标物体顶点的8个热力图,具体包括:
(1)第一个卷积层为512个3*3的卷积核,步长为1,将卷积层输出的特征图送入ReLU激活函数,将第一层卷积层的填充设为100;
(2)第二个卷积层为512个3*3的卷积核,步长为1,填充为0,将卷积层输出的特征图送入ReLU激活函数;
(3)第三层卷积层为512个3*3的卷积核,步长为1,填充为0,将卷积层输出的特征图送入ReLU激活函数;
(4)第四层卷积层为256个1*1的卷积核,步长为1,填充为0,将卷积层输出的特征图送入ReLU激活函数;
(5)第五层卷积层为8个1*1的卷积核,步长为1,填充为0,将卷积层输出的特征图送入ReLU激活函数;获得每个图片块的热力图;根据每个图像块的热力图,叠加起来形成一个完整的图像热力图,这个热力图包含物体三维包围盒的8个顶点在二维图像的投影。
3.根据权利要求1所述的一种基于热力图的单幅图像室内物体姿态估计方法,其特征在于,所述步骤(4)中EPnP预测物体的6D姿态,具体包括以下步骤:
1)对于物体三维包围盒8个顶点在二维图像中的投影坐标,选取这8个点当做三维图像的坐标,在三维空间,对于每个物体默认的三维包围盒,都有一个长、宽、高为1:1:1的三维包围盒,通过网络训练,回归出一个新的长、宽、高的比例;
2)然后再使用训练出来的新的长、宽、高的比例,求得物体三维包围盒顶点对应的三维坐标,获取8个三维的点,从而获得8个二维到三维的点对,使用opencv的solvePnP函数,计算出从物体坐标到相机做的旋转和平移向量,从而得到目标物体的姿态。
4.根据权利要求3所述的一种基于热力图的单幅图像室内物体姿态估计方法,其特征在于,所述的步骤1)中,网络训练回归出一个新的长宽高的比例,采用如下公式:
Lpose=Lproj+αLdim+βLreg 公式(1)
Figure FDA0004189129200000021
Figure FDA0004189129200000022
Figure FDA0004189129200000023
公式(1)中Lpose是网络预测的姿态和真实值的姿态之间的损失函数,Ldim用来测量三维度的真实值和网络预测值之间的损失函数,Lreg是正则项,用来防止训练时候过拟合,α、β为权重,控制不同损失的影响,公式(2)中ProjR,t(Mi)是用训练时候的真实旋转矩阵R和平移矩阵T的投影,Lproj是ProjR,t(Mi)的期望,smoothL1为损失函数,Mi为第i个三维模型的8个顶点集合,
Figure FDA0004189129200000024
为FCN的预测值,公式(4)E表示概率中的期望值,di是真实的第i个维度,/>
Figure FDA0004189129200000025
是预测的第i个维度。
5.根据权利要求1所述的一种基于热力图的单幅图像室内物体姿态估计方法,其特征在于,使用ShapeNet作为CAD模型库合成训练数据,具体是采用对二维图像数据集进行渲染的方法生成训练数据,渲染步骤如下:
(1)ShapeNet渲染:使用Blender的Python渲染RGB图像、深度图像,生成相机到物体的旋转矩阵和平移向量;
(2)渲染RGB图像:使用Cycles引擎,随机选取一张SUN_VOC数据集图像当做背景,根据PASCAL 3D数据集每类物体的视角,用概率核密度函数估算出对应该类物体的仰角和方位角,然后进行摄像机坐标的定位,采用的灯光类型为点光源;
(3)渲染深度图像:使用Cycles引擎,用Z缓冲区算法生成从物体到影像面距离的深度图,将Blender摄像机的裁剪距离设为0.5-4m;在这个范围内的所有距离将会被线性映射到0-255的区间内。
6.一种利用权利要求1~4任意一项所述基于热力图的单幅图像室内物体姿态估计方法的室内物体姿态估计方法。
7.一种利用权利要求1~4任意一项所述基于热力图的单幅图像室内物体姿态估计方法的室内物体三维恢复方法。
CN201810819204.6A 2018-07-24 2018-07-24 一种基于热力图的单幅图像室内物体姿态估计方法 Active CN109063301B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810819204.6A CN109063301B (zh) 2018-07-24 2018-07-24 一种基于热力图的单幅图像室内物体姿态估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810819204.6A CN109063301B (zh) 2018-07-24 2018-07-24 一种基于热力图的单幅图像室内物体姿态估计方法

Publications (2)

Publication Number Publication Date
CN109063301A CN109063301A (zh) 2018-12-21
CN109063301B true CN109063301B (zh) 2023-06-16

Family

ID=64836125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810819204.6A Active CN109063301B (zh) 2018-07-24 2018-07-24 一种基于热力图的单幅图像室内物体姿态估计方法

Country Status (1)

Country Link
CN (1) CN109063301B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111353349B (zh) * 2018-12-24 2023-10-17 杭州海康威视数字技术股份有限公司 人体关键点检测方法、装置、电子设备及存储介质
CN109859268B (zh) * 2019-01-30 2022-06-14 国网江苏省电力有限公司苏州供电分公司 基于生成查询网络的物体被遮挡部分成像方法
CN109876417B (zh) * 2019-04-06 2021-03-09 接楚添 基于计算机视觉检测技术的羽毛球发球助理裁判系统
CN110097599B (zh) * 2019-04-19 2021-08-13 电子科技大学 一种基于部件模型表达的工件位姿估计方法
CN110246181B (zh) * 2019-05-24 2021-02-26 华中科技大学 基于锚点的姿态估计模型训练方法、姿态估计方法和系统
CN110322510B (zh) * 2019-06-27 2021-08-27 电子科技大学 一种利用轮廓信息的6d位姿估计方法
CN112287730A (zh) * 2019-07-24 2021-01-29 鲁班嫡系机器人(深圳)有限公司 姿态识别方法、装置、系统、存储介质及设备
CN110660101B (zh) * 2019-08-19 2022-06-07 浙江理工大学 基于rgb图像和坐标系变换的物体6d姿势预测方法
CN110598675B (zh) * 2019-09-24 2022-10-11 深圳度影医疗科技有限公司 一种超声胎儿姿态的识别方法、存储介质及电子设备
CN110706291A (zh) * 2019-09-26 2020-01-17 哈尔滨工程大学 一种适用于水池实验中运动物体三维轨迹的视觉测量方法
CN111462169B (zh) * 2020-03-27 2022-07-15 杭州视在科技有限公司 一种基于背景建模的老鼠轨迹追踪方法
CN111553949B (zh) * 2020-04-30 2023-05-19 张辉 基于单帧rgb-d图像深度学习对不规则工件的定位抓取方法
CN111539377A (zh) * 2020-05-11 2020-08-14 浙江大学 基于视频的人体运动障碍检测方法、装置及设备
CN111738261B (zh) * 2020-06-30 2023-08-04 张辉 基于位姿估计和校正的单图像机器人无序目标抓取方法
CN111968235B (zh) * 2020-07-08 2024-04-12 杭州易现先进科技有限公司 一种物体姿态估计方法、装置、系统和计算机设备
CN112307940A (zh) * 2020-10-28 2021-02-02 有半岛(北京)信息科技有限公司 模型训练方法、人体姿态检测方法、装置、设备及介质
CN112381879B (zh) * 2020-11-16 2024-09-06 跨维(深圳)智能数字科技有限公司 基于图像和三维模型的物体姿态估计方法、系统及介质
CN112487979B (zh) * 2020-11-30 2023-08-04 北京百度网讯科技有限公司 目标检测方法和模型训练方法、装置、电子设备和介质
CN113256704B (zh) * 2021-03-26 2024-04-05 上海师范大学 一种谷粒长宽测量方法
CN113240750A (zh) * 2021-05-13 2021-08-10 中移智行网络科技有限公司 三维空间信息测算方法及装置
CN114241051A (zh) * 2021-12-21 2022-03-25 盈嘉互联(北京)科技有限公司 一种室内复杂场景的物体姿态估计方法
CN114863573B (zh) * 2022-07-08 2022-09-23 东南大学 一种基于单目rgb-d图像的类别级6d姿态估计方法
CN115546295B (zh) * 2022-08-26 2023-11-07 西北大学 目标6d姿态估计模型训练方法及目标6d姿态估计方法
CN117011583B (zh) * 2023-06-06 2024-04-05 邯郸市向郊网络科技有限公司 一种基于特征数据聚类分析的状态评估方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239617A (zh) * 2014-09-02 2014-12-24 百度在线网络技术(北京)有限公司 热力图的展现方法及装置
CN107578436A (zh) * 2017-08-02 2018-01-12 南京邮电大学 一种基于全卷积神经网络fcn的单目图像深度估计方法
CN108090423A (zh) * 2017-12-01 2018-05-29 上海工程技术大学 一种基于热力图和关键点回归的深度车牌检测方法
CN108228962A (zh) * 2017-11-27 2018-06-29 中建华东投资有限公司 一种基于bim的基坑周边墙体测斜热力图生成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10192129B2 (en) * 2015-11-18 2019-01-29 Adobe Systems Incorporated Utilizing interactive deep learning to select objects in digital visual media

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239617A (zh) * 2014-09-02 2014-12-24 百度在线网络技术(北京)有限公司 热力图的展现方法及装置
CN107578436A (zh) * 2017-08-02 2018-01-12 南京邮电大学 一种基于全卷积神经网络fcn的单目图像深度估计方法
CN108228962A (zh) * 2017-11-27 2018-06-29 中建华东投资有限公司 一种基于bim的基坑周边墙体测斜热力图生成方法
CN108090423A (zh) * 2017-12-01 2018-05-29 上海工程技术大学 一种基于热力图和关键点回归的深度车牌检测方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Gessert, N ; Schlu¨ter, M ; Schlaefer, A.A deep learning approach for pose estimation from volumetric OCT data.《Medical Image Analysis》.2018,第1361-8415页. *
Thanh-Toan Do ; Ming Cai ; Trung Pham ; Ian Reid.Deep-6DPose: Recovering 6D Object Pose from a Single RGB Image.《Robotics》.2018,第1-9页. *
Viewpoints and Keypoints;Shubhan Tulsiani;《IEEE》;20151231;第162-179页 *
基于卷积神经网络的深度图姿态估计算法研究;王松,刘复昌,黄骥,许威威,董洪伟;《系统仿真学报》;20171130;第2618-2623页 *
基于机器学习的场景分析与重建;王松;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180415;第57页 *
基于深度学习的超声心动图切面识别方法;陶攀,付忠良,朱锴,王莉莉;《计算机应用》;20170510;第1510-1519页 *

Also Published As

Publication number Publication date
CN109063301A (zh) 2018-12-21

Similar Documents

Publication Publication Date Title
CN109063301B (zh) 一种基于热力图的单幅图像室内物体姿态估计方法
Chen et al. A survey on 3d gaussian splatting
CN109544677B (zh) 基于深度图像关键帧的室内场景主结构重建方法及系统
CN112509151B (zh) 一种教学场景中虚拟对象的真实感生成方法
Kato et al. Neural 3d mesh renderer
CN113822993B (zh) 一种基于3d模型匹配的数字孪生方法和系统
WO2023015409A1 (zh) 物体姿态的检测方法、装置、计算机设备和存储介质
EP4107650A1 (en) Systems and methods for object detection including pose and size estimation
JP2024510230A (ja) 顔表情、身体ポーズ形状及び衣服パフォーマンスキャプチャのための暗黙的微分可能レンダラーを用いたマルチビューニューラル人間予測
CN117990088A (zh) 一种使用三维高斯后端表征的稠密视觉slam方法及系统
CN115393538A (zh) 基于深度学习的室内动态场景的视觉slam方法及系统
Luo et al. Grasp detection based on faster region cnn
CN113436251A (zh) 一种基于改进的yolo6d算法的位姿估计系统及方法
CN116091871B (zh) 一种针对目标检测模型的物理对抗样本生成方法及装置
CN116681839A (zh) 一种基于改进NeRF的实景三维目标重建与单体化方法
Hou et al. Octree-based approach for real-time 3d indoor mapping using rgb-d video data
CN113034675B (zh) 一种场景模型构建方法、智能终端及计算机可读存储介质
CN115375847A (zh) 材质恢复方法、三维模型的生成方法和模型的训练方法
Han et al. Online 3D Reconstruction Based On Lidar Point Cloud
CN114049423A (zh) 一种自动的真实感三维模型纹理映射方法
CN118521699B (zh) 一种虚拟人三维头发丝发型的生成方法及系统
Griffiths et al. Curiosity-driven 3D object detection without labels
Ji et al. 3D face reconstruction system from a single photo based on regression neural network
CN114241013B (zh) 物体锚定方法、锚定系统及存储介质
US20240265610A1 (en) Dynamic 3d scene generation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant