CN110930454A - 一种基于边界框外关键点定位的六自由度位姿估计算法 - Google Patents
一种基于边界框外关键点定位的六自由度位姿估计算法 Download PDFInfo
- Publication number
- CN110930454A CN110930454A CN201911060533.8A CN201911060533A CN110930454A CN 110930454 A CN110930454 A CN 110930454A CN 201911060533 A CN201911060533 A CN 201911060533A CN 110930454 A CN110930454 A CN 110930454A
- Authority
- CN
- China
- Prior art keywords
- dimensional
- target
- anchor
- width
- height
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
- G06T2207/10012—Stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于边界框外关键点定位的六自由度位姿估计算法,包括输入三维模型和RGB图像,得到图像中目标在三个维度上的尺寸信息,确定目标三维边界框的8个顶点坐标;通过卷积神经网络对RGB图像进行检测,得到五个不同尺度的特征图以及每个位置的目标类别、二维边界框预测结果;进行非极大抑制操作,得到去冗余后图像中目标实例的类别以及二维边界框预测结果;对关键点在图像中进行定位,得到8个关键点的位置和定位置信度;利用EPnP算法计算目标相对于相机的六自由度位姿。本发明能够有效提高边界框外的关键点的定位精度,在保证实时处理能力的同时提升了位姿估计精度。
Description
技术领域
本发明属于数字图像处理技术领域,更具体的说是涉及一种基于边界框外 关键点定位的六自由度位姿估计算法。
背景技术
六自由度相对位姿估计是计算机视觉领域的经典问题,但目前仍然吸引了 大量研究人员的关注。有效的获取感兴趣物体的相对位置和朝向是实现多种高 层视觉任务(例如增强现实、自动驾驶和机器人技术)的重要基础。尽管基于 RGB-D数据源的六自由度位姿估计方法能够取得高精度,但基于RGB图像的位 姿估计方法具有更好的效率和可用性,因此成为当前的研究热点。传统的基于 RGB图像的六自由度位姿估计算法往往只适用于具有丰富纹理的物体,并且对 遮挡和光照条件变化的鲁棒性有限。近年来以卷积神经网络(CNN)为代表的 深度学习技术的引入显著提升了位姿估计方法对弱纹理物体的适用性,以及对 复杂场景条件的鲁棒性。研究人员提出了多种应用深度网络解决六自由度位姿 估计问题的策略,其中一种流行的策略是将位姿估计问题转化为关键点定位问 题。具体地,通过在物体的三维模型上预先定义若干关键控制点,利用深度网 络预测这些关键控制点在图像上的坐标位置,由此建立图像坐标系到物体坐标 系之间的2D-3D对应关系,再使用N点透视问题解法(PnP)求解物体和相机 之间的六自由度相对位姿。
现有技术以YOLO6D算法为代表,其流程图如图1所示。YOLO6D算法以 目标检测算法YOLO的网络结构为基础,对每一个物体实例预测其三维边界框 的八个顶点以及中心点,共九个关键控制点在图像中的位置坐标。输入图像经 过一系列卷积层后,在输出层被划分为13×13的网格,然后基于每一个网格进 行预测,预测该网格中物体的类别、九个关键点相对于网格左上角点的偏移、 以及预测结果的置信度。最后根据得到的2D-3D对应关系,利用EPnP算法计 算六自由度相对位姿。
现有技术YOLO6D算法基于网格左上角点回归关键点的偏移,对于不同位 置的关键点,偏移量的长度变化较大,不利于卷积神经网络的准确预测;并且 物体的大部分三维边界框顶点位于网格外部,YOLO6D算法对于网格外部的关 键点的定位精度有限;不同关键点的定位精度有所差异,而YOLO6D算法在采 用EPnP算法计算位姿时没有考虑关键点之间的差异性,导致位姿精度可能受到 少数定位误差较大的关键点的影响而降低。
因此,如何提供一种基于边界框外关键点定位的六自由度位姿估计算法是 本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于边界框外关键点定位的六自由度位姿估 计算法,能够有效提高边界框外的关键点的定位精度;同时基于所提出的关键 点表示开发了一个端到端的卷积神经网络用于六自由度位姿估计,在保证实时 处理能力的同时提升了位姿估计精度,相比于现有技术YOLO6D算法,在位姿 估计的精度上有较大幅度的提升。
为了实现上述目的,本发明采用如下技术方案:
一种基于边界框外关键点定位的六自由度位姿估计算法,包括如下步骤:
S1:输入目标的三维模型和RGB三通道图像,根据三维模型,得到图像中 目标物体在三个维度上的尺寸信息,确定目标物体三维边界框的8个顶点的坐 标;
S2:通过卷积神经网络对RGB三通道图像进行检测,得到五个不同尺度的 特征图以及特征图上每个位置的目标类别、二维边界框预测结果;
S3:对目标类别和二维边界框预测结果进行非极大抑制操作,得到去冗余 后图像中目标实例的类别以及二维边界框预测结果;
S4:基于步骤S3得到的检测结果和步骤S2得到的特征图,对关键点在图 像中进行定位,得到每一个候选区域中的8个关键点的位置和定位置信度;
S5:每一个候选区域的8个关键点位置,利用EPnP算法计算目标相对于相 机的六自由度位姿。
优选的,所述步骤S2中得到的是五个不同尺度的特征图以及特征图上每个 位置的目标类别、二维边界框预测结果的方法为:
S21:将RGB图像的尺寸调整为512×512×3像素,输入卷积神经网络;
S22:采用基于残差50层网络的特征金字塔网络作为特征提取器,得到的 是五个具有不同尺度的特征图;
S23:在得到的五个不同尺度的特征图上进行目标检测,预设锚框,得到五 个不同尺度的特征图上每个位置的目标类别、二维边界框预测结果。
优选的,所述步骤S22中,采用基于残差50层网络的特征金字塔网络作为 特征提取器,得到的是五个具有不同尺度的特征图的方法为:
S221:构建特征金字塔,输出特征图C2、C3、C4、C5,其维度分别为 128×128×256、64×64×512、32×32×1024、16×16×2048;
S222:C5经过256个1×1×2048的卷积得到维度为16×16×256的P5特征图;
S223:C4经过256个1×1×1024的卷积后,加上上采样两倍的P5得到维度 为32×32×256的P4特征图;
S224:C3经过256个1×1×512的卷积后,加上上采样两倍的P4得到维度 为64×64×256的P3特征图;
S225:C2经过256个1×1×256的卷积后,加上上采样两倍的P3得到维度 为128×128×256的P2特征图;
S226:对P5做步长为2的3×3最大池化操作得到维度为8×8×256的P6特 征图;
S227:再对P2、P3、P4和P5分别使用256个3×3×256的卷积核进行卷积 操作,得到最终的特征图P2、P3、P4和P5,维度均保持不变。
优选的,所述步骤23中在得到的五个不同尺度的特征图上进行目标检测, 预设锚框,得到五个不同尺度的特征图上每个位置的目标类别、二维边界框预 测结果的方法为:
S231:在步骤S22得到的五个不同尺度的特征图上通过若干个维度为 3×3×256的卷积核进行目标检测,预测二维边界框;
S232:对于特征图Pi,i∈{2,3,4,5,6},其维度为wi×hi×256,经过一组卷积核 的个数为Nanchor×(4+C+1)的卷积运算后得到的预测结果的维度为 wi×hi×[Nanchor×(4+C+1)];其中Nanchor是特征图上每一点的预设锚框数,4代表二 维边界框的修正值个数,C代表目标类别数,1是背景类别;
S233:网络在特征图上每一个位置处预测出的结果向量中包含有对该位置 处4个预设锚框的预测结果;每一个预设锚框的预测结果是一个长度为4+C+1的 向;假设该锚框的中心点为(anchorcenterx,anchorcentery),宽和高分别为anchorwidth和 anchorheight,预测结果中的前4个数(predbbox_centerx,predbbox_centery,predbbox_width,predbbox_height) 是预测出的二维边界框相对于预设锚框的中心点以及宽高的修正值,根据这4 个数可以计算预测出的二维边界框的中心点以及宽高:
其中,predbbox_centerx,predbbox_centery是预测出的二维边界框中心点坐标相对于预设锚框的中心点坐标的修正值;predbbox_width,predbbox_height是预测出的二维边界框 宽高相对于预设锚框宽高的修正值;anchorcenterx,anchorcentery是预设锚框的中心点 坐标,anchorwidth和anchorheight是预设锚框的宽高;bboxcenterx,bboxcentery是预测出的二 维边界框的中心点坐标,bboxwidth,bboxheight是预测出的二维边界框的宽高;
最后的C+1个数(x0,x1,…,xC)是对当前锚框中目标所属类别的预测,其中x0代 表对背景类别的预测值,利用Softmax函数将网络输出的类别预测结果转化为归 一化的概率:
其中,C是类别数,xi是网络对目标属于第i类的预测值,pi是目标属于第 i类的概率值;锚框属于概率最高的类别,同时将该类别的概率作为类别得分。
优选的,所述步骤S3对目标类别和二维边界框预测结果进行非极大抑制操 作,得到去冗余后图像中目标实例的类别以及二维边界框预测结果的方法为: 对于网络预测出的每一个非背景的目标实例,计算与其同类别的其他预测的二 维边界框的交并比,当交并比大于0.7时,只保留类别得分较高的预测,去除类 别得分较低的预测;最后选取类别得分最高的2000个二维边界框作为候选区域 进行边界框定位,得到去冗余后图像中目标实例的类别以及二维边界框预测结 果。
优选的,所述步骤S4中得到每一个候选区域中的8个关键点的位置和定位 置信度的方法为:对每一个目标实例,在特征图上使用ROIAlign操作从二维边 界框中提取7×7区域特征并拉伸成一维向量(长度为256×7×7),经过两个含 有1024个节点的全连接层后,输出8×4维向量用于对8个关键点做最近角点分 类,同时输出两个8×4×2维向量用于回归8个关键点相对于4个角点的偏移和 定位置信度;对于每一个关键点,有4维向量用于最近角点分类,取分类得分 最高的类别所对应的边界框角点作为最近角点;假设最近角点分类得分最高的 类别为i(=1,2,3,4),则从用于回归偏移的4×2维向量offset中选出对应的2维向量 (offset2i-1,offset2i)作为关键点相对于最近角点的偏移向量,并计算出关键点在图像 上的位置:
同时从用于预测定位置信度的4×2维向量conf中选出对应的2维向量 (conf2i-1,conf2i)作为关键点定位的置信度;
closestcornerx,closestcornery是最近角点的x,y坐标,offset2i-1,offset2i是网络预 测出关键点相对于最近角点的x,y坐标偏移量,keypointx,keypointy是计算出的 关键点x,y坐标。
优选的,在步骤S4之后还包括获得基于置信度投票之后的关键点位置,采 用的方法为:
对于每一个候选区域,计算其与其他候选区域的基于关键点的交并比,计 算方式如下:
其中k1,k2分别代表任意两个候选区域的关键点集合,w和h分别代表候选 区域的宽和高;w1,h1代表第一个候选区域的宽高,w2,h2代表第二个候选区 域的宽高,k1ix,k1iy代表第一个候选区域的第i个关键点的x,y坐标,k2ix,k2iy代表第二个候选区域的第i个关键点的x,y坐标;
选取与当前候选区域的kpt_IoU大于0.55的候选区域集合Kvoting来进行关键 点位置投票;具体投票方式如下:
其中kcurrent代表当前候选区域的关键点集合,ci代表定位置信度集合,ki是 第i个候选区域的关键点集合,pi是第i个候选区域的投票权重。
优选的,得到的是五个不同尺度的特征图以及特征图上每个位置的目标类 别、二维边界框预测结果时,通过计算预设锚框与每一个目标实例的真值二维 边界框之间的交并比分配正负样本,交并比大于0.5的预设锚框认为是正样本, 交并比小于0.4的预设锚框认为是负样本;对于正样本锚框,网络的训练目标值 包括边界框类别和二维边界框偏移量;二维边界框偏移量计算按照下式:
其中gtcenterx,gtcentery,gtwidth,gtheight分别表示边界框真值的中心点的x,y坐标以及宽度、高度,anchorcenterx,anchorcentery,anchorwidth,anchorheight分别表示预设锚框 的中心点的x,y坐标以及宽度、高度;对于负样本锚框,网络的训练目标值只 有类别;训练时通过在线难样本挖掘的方法使得正负样本的比例为1:3,在线难 样本挖掘方法为:在迭代训练过程中,执行前向传播后得到网络对所有预设锚框 的类别和二维边界框的预测,对于所有非正样本的锚框,按照网络预测出的属于 背景的概率升序排序,取排序后排名靠前的一部分作为负样本;
给定一组正样本预设锚框Pos和负样本预设锚框Neg,检测模块训练网络采用 的损失函数为:
其中Lcls代表针对分类问题的分量,采用softmax cross entropy损失函数;Lbbox代表针对边界框回归的分量,采用smooth L1 norm损失函数。
优选的,在关键点定位中,网络的训练目标包括关键点最近角点分类以及关 键点相对于最近角点的偏移量;最近角点分类的概率真值计算如下:
其中di是关键点到第i个角点的像素坐标距离。投影点坐标偏移量计算方式 按照下式:
其中gtcoordinatex,gtcoordinatey分别代表关键点x,y坐标的真值。proposalwidth,proposalheight分别代表候选区域的宽和高。关键点定位模块采用的损失函数为:
Lkeypoint=Lccc+Lreg&conf (10)
其中Lccc代表最近角点分类的分量,采用softmax cross entropy损失函数;Lreg&conf代表关键点坐标回归和定位置信度预测的分量,采用smooth KL散度损失 函数:
其中var是网络预测出的坐标定位方差,targetreg是回归的目标值,predreg是 网络的预测值,相应的定位置信度为conf=e-var;总的损失函数由检测模块的损 失函数和关键点定位模块的损失函数组成:
L=Ldetection+αLkeypoint (12)
其中α是为了平衡损失函数中各个分量而使用的权重系数。
本发明的有益效果在于:
本发明提出了一种基于候选区域边界框的关键点表示方式,结合了神经网 络的分类和回归能力,显著减小了回归空间,同时适用于定位边界框内和边界 框外的关键点,并且能够预测关键点的定位置信度;
本发明提出了一种基于置信度的关键点位置投票算法,可以减少误差较大 的关键点对于位姿估计精度的影响,使得算法对于遮挡具有较强的鲁棒性;
本发明基于所提出的关键点表示方法开发了一种端到端的卷积神经网络用 于六自由度位姿估计,具备高位姿估计精度和实时处理能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施 例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述 中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创 造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为现有技术的方法流程图。
图2附图为本发明的方法流程图。
图3附图本发明单目标场景下的位姿估计算法效果图。
图4附图本发明多目标场景下的位姿估计算法效果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是 全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造 性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明首先使用检测模块定位目标的二维边界框,再基于二维检测框预测 关键点的位置偏移。在第二步中,本专利算法提出了一种新的基于边界框的关 键点定位方式,结合了卷积神经网络的分类和回归能力,适用于定位边界框外 的关键点,并且能够显著减小关键点偏移的长度变化。同时本专利算法提出的 关键点定位方式能够给出每一个关键点的定位置信度,用于指导EPnP算法计算 位姿,可以降低误差较大的关键点对位姿精度的影响。
请参阅附图2,本发明提供了一种基于边界框外关键点定位的六自由度位姿 估计算法,包括如下步骤:
S1:输入目标的三维模型和RGB三通道图像,根据三维模型,得到图像中 目标物体在三个维度上的尺寸信息,包括长宽高,确定目标物体三维边界框的8 个顶点的坐标;
S2:通过卷积神经网络对RGB三通道图像进行检测,得到五个不同尺度的 特征图以及特征图上每个位置的目标类别、二维边界框预测结果;
具体包括如下步骤:
S21:将RGB图像的尺寸调整为512×512×3像素,输入卷积神经网络;
S22:本专利算法采用基于残差50层网络的特征金字塔网络作为检测模块 的特征提取器,采用多尺度预测结构。残差50层网络包含50个卷积层,由5 个阶段构成(Stage 1~5),得到的是五个具有不同尺度的特征图;构建特征金 字塔时本算法使用Stage 2、3、4、5的输出特征图(分别记为C2、C3、C4、C5), 其维度分别为128×128×256、64×64×512、32×32×1024、16×16×2048。 构建特征金字塔的具体过程如下:C5经过256个1×1×2048的卷积得到维度为 16×16×256的P5特征图;C4经过256个1×1×1024的卷积后,加上上采样两倍 的P5得到维度为32×32×256的P4特征图;C3经过256个1×1×512的卷积后, 加上上采样两倍的P4得到维度为64×64×256的P3特征图;C2经过256个 1×1×256的卷积后,加上上采样两倍的P3得到维度为128×128×256的P2特征 图;对P5做步长为2的3×3最大池化操作得到维度为8×8×256的P6特征图; 再对P2、P3、P4和P5分别使用256个3×3×256的卷积核进行卷积操作,得到 最终的特征图P2、P3、P4和P5,维度均保持不变,得到的是五个具有不同尺 度的特征图P2~P6。
S23:在得到的五个不同尺度的特征图上进行目标检测,预设锚框,得到五 个不同尺度的特征图上每个位置的目标类别、二维边界框预测结果,具体为: 五个不同尺度的特征图上通过若干个维度为3×3×256的卷积核进行目标检测, 预测感兴趣物体的二维边界框。对于特征图Pi,i∈{2,3,4,5,6},其维度为wi×hi×256, 经过一组卷积核的个数为Nanchor×(4+C+1)的卷积运算后得到的预测结果的维度 为wi×hi×[Nanchor×(4+C+1)],即在该特征图的wi×hi中的每一个二维空间位置上, 对应一个长度为Nanchor×(4+C+1)的预测结果向量,其中Nanchor=4是特征图上每一 点的预设锚框数,括号中4代表二维边界框的修正值个数,C代表目标类别数, 最后的1是背景类别。预设锚框是以特征图上每一点为中心、按照一定的尺寸 和长宽比例设置的默认二维边界框,用于回归目标真值二维边界框。在本专利 算法实现中,五个不同尺度的特征图上的预设锚框的尺寸分别为[0.05,0.07], [0.1,0.15],[0.23,0.29],[0.36,0.42],[0.49,0.55](均为相对于特征图短边 的比例),长宽比例均为[1,2,0.5]。具体地,首先固定一个比例r1,采样2个 不同的尺寸s1和s2;然后固定尺寸s1,采样2个长宽比r2和r3,由此在每个 特征图的每个位置上生成4个预设锚框。网络在特征图上每一个位置处预测出 的结果向量中包含有对该位置处4个预设锚框的预测结果。每一个预设锚框的 预测结果是一个长度为4+C+1的向量。假设该锚框的中心点为(anchorcenterx,anchorcentery),宽和高分别为anchorwidth和anchorheight,预测结果中的前4个数(predbbox_centerx,predbbox_centery,predbbox_width,predbbox_height)是预测出的二维边界框相对于 预设锚框的中心点以及宽高的修正值,根据这4个数可以计算预测出的二维边 界框的中心点以及宽高:
其中,predbbox_centerx,predbbox_centery是预测出的二维边界框中心点坐标相对于预设锚框的中心点坐标的修正值;predbbox_width,predbbox_height是预测出的二维边界框 宽高相对于预设锚框宽高的修正值;anchorcenterx,anchorcentery是预设锚框的中心点 坐标,anchorwidth和anchorheight是预设锚框的宽高;bboxcenterx,bboxcentery是预测出的二 维边界框的中心点坐标,bboxwidth,bboxheight是预测出的二维边界框的宽高。
最后的C+1个数(x0,x1,…,xC)是对当前锚框中目标所属类别的预测,其中x0代 表对背景类别的预测值,利用Softmax函数将网络输出的类别预测结果转化为归 一化的概率:
其中,C是类别数,xi是网络对目标属于第i类的预测值,pi是目标属于第 i类的概率值。
哪一类别的概率最高,就认为该锚框属于这一类别,同时将该类别的概率 作为类别得分。步骤3得到的是五个不同尺度的特征图上每个位置的目标类别、 二维边界框预测结果。
S3:对目标类别和二维边界框预测结果进行非极大抑制操作,得到去冗余 后图像中目标实例的类别以及二维边界框预测结果。对于网络预测出的每一个 非背景的目标实例,计算与其同类别的其他预测的二维边界框的交并比,当交 并比大于0.7时,只保留类别得分较高的预测,去除类别得分较低的预测。非 极大抑制的目的是去除大量冗余的、相互重叠的预测,只保留置信度最高的一 部分预测。最后选取类别得分最高的2000个二维边界框作为候选区域输入边界 框定位模块。步骤4得到的是去冗余后检测模块对图像中目标实例的类别以及 二维边界框预测结果。
S4:基于步骤3得到的检测结果和步骤2得到的特征图P2,对关键点在图 像中进行定位。对每一个目标实例,在P2特征图上使用ROIAlign操作从二维 边界框中提取7×7区域特征并拉伸成一维向量(长度为256×7×7),经过两个 含有1024个节点的全连接层后,输出8×4维向量用于对8个关键点做最近角点 分类,同时输出两个8×4×2维向量用于回归8个关键点相对于4个角点的偏移 和定位置信度。具体地,对于每一个关键点,有4维向量用于最近角点分类, 取分类得分最高的类别所对应的边界框角点作为最近角点;假设最近角点分类 得分最高的类别为i(=1,2,3,4),则从用于回归偏移的4×2维向量offset中选出对应 的2维向量(offset2i-1,offset2i)作为关键点相对于最近角点的偏移向量,并计算出关 键点在图像上的位置:
closestcornerx,closestcornery是最近角点的x,y坐标,offset2i-1,offset2i是网络预 测出关键点相对于最近角点的x,y坐标偏移量,keypointx,keypointy是计算出的 关键点x,y坐标。
同时从用于预测定位置信度的4×2维向量conf中选出对应的2维向量 (conf2i-1,conf2i)作为关键点定位的置信度。步骤5得到的是每一个候选区域中的8 个关键点的位置和定位置信度。
S5:基于置信度的关键点位置投票。对于每一个候选区域,计算其与其他 候选区域的基于关键点的交并比,计算方式如下:
其中k1,k2分别代表任意两个候选区域的关键点集合,w和h分别代表候选 区域的宽和高;w1,h1代表第一个候选区域的宽高,w2,h2代表第二个候选区 域的宽高,k1ix,k1iy代表第一个候选区域的第i个关键点的x,y坐标,k2ix,k2iy代表第二个候选区域的第i个关键点的x,y坐标。
我们选取与当前候选区域的kpt_IoU大于0.55的候选区域集合Kvoting来进行 关键点位置投票。具体投票方式如下:
其中kcurrent代表当前候选区域的关键点集合,ci代表定位置信度集合,ki是 第i个候选区域的关键点集合,pi是第i个候选区域的投票权重。步骤6得到的 是基于置信度投票之后的关键点位置。
S6:每一个候选区域的8个关键点位置,利用EPnP算法计算目标相对于相 机的六自由度位姿。根据步骤S1中的目标物体在三个维度上的尺寸信息,可以 计算出目标物体的三维边界框的8个顶点在物体坐标系下的三维坐标,结合步 骤S4得到的8个投影点坐标回归结果,就得到了8组二维点与三维点之间的对 应关系。EPnP算法利用这8组对应关系计算每一个目标实例相对于相机的六自 由度位姿。
训练过程:在检测过程中,通过计算预设锚框与每一个目标实例的真值二 维边界框之间的交并比分配正负样本,交并比大于0.5的预设锚框认为是正样 本,交并比小于0.4的预设锚框认为是负样本。对于正样本锚框,网络的训练目 标值包括边界框类别和二维边界框偏移量。二维边界框偏移量计算按照下式:
其中gtcenterx,gtcentery,gtwidth,gtheight分别表示边界框真值的中心点的x,y坐标以及 宽高,anchorcenterx,anchorcentery,anchorwidth,anchorheight分别表示预设锚框的中心点的 x,y坐标以及宽高。对于负样本锚框,网络的训练目标值只有类别。训练时通 过在线难样本挖掘的方法使得正负样本的比例为1:3。具体地,在线难样本挖 掘方法是指在迭代训练过程中,执行前向传播(RGB图像到步骤2再到步骤3) 后得到网络对所有预设锚框的类别和二维边界框的预测,对于所有非正样本的锚 框,按照网络预测出的属于背景的概率升序排序,取排序后排名靠前的一部分作 为负样本。
给定一组正样本预设锚框Pos和负样本预设锚框Neg,检测模块训练网络采用 的损失函数为:
其中Lcls代表针对分类问题的分量,采用softmax cross entropy损失函数;Lbbox代 表针对边界框回归的分量,采用smooth L1 norm损失函数。
在关键点定位过程中,网络的训练目标包括关键点最近角点分类以及关键点 相对于最近角点的偏移量。最近角点分类的概率真值计算如下:
其中di是关键点到第i个角点的像素坐标距离。投影点坐标偏移量计算方式 按照下式:
其中gtcoordinatex,gtcoordinatey分别代表关键点x,y坐标的真值。proposalwidth,proposalheight分别代表候选区域的宽和高。关键点定位模块采用的损失函数为:
Lkeypoint=Lccc+Lreg&conf (10)
其中Lccc代表最近角点分类的分量,采用softmax cross entropy损失函数;Lreg&conf代表关键点坐标回归和定位置信度预测的分量,采用smooth KL散度损失 函数:
其中var是网络预测出的坐标定位方差,targetreg是回归的目标值,predreg是 网络的预测值,相应的定位置信度为conf=e-var。总的损失函数由检测模块的损 失函数和关键点定位模块的损失函数组成:
L=Ldetection+αLkeypoint (12)
其中α是为了平衡损失函数中各个分量而使用的权重系数,在本专利算法中 将α设置为10。
训练时采用的优化方法为带动量的随机梯度下降法,初始学习率为0.001,动 量为0.9,权重衰减为0.0005,批量大小为8,共迭代更新网络参数90000次, 并在第60000次更新和第80000次更新后将学习率降低至原来的十分之一。
具体地,训练的流程为:先执行一次前向传播(RGB图像到步骤2),得到 网络对于图像中目标实例的类别、二维边界框以及关键点坐标的预测值,然后利 用公式(5)、(8)、(10)计算网络预测值与训练目标值之间的误差,再通过 带动量的随机梯度下降法对网络中的权重参数进行更新,使得误差减小;接下来 进行下一次迭代,即使用更新后的网络参数执行前向传播,计算预测值与目标值 的误差,继续更新网络权重参数…。本算法共迭代更新90000次。
本发明提出了一种基于边界框的关键点表示方法,能够有效提高边界框外 的关键点的定位精度;同时基于所提出的关键点表示开发了一个端到端的卷积 神经网络用于六自由度位姿估计,在保证实时处理能力的同时提升了位姿估计 精度。相比于现有技术YOLO6D算法的关键点定位方式,本专利提出的基于边 界框的关键点表示方法结合了神经网络的分类和回归能力,显著减小了回归空 间,同时适用于边界框内和边界框外的关键点;并且能够预测关键点的定位置 信度,结合本专利提出的基于置信度的关键点位置投票算法能够进一步提高关 键点定位精度。本专利算法与现有技术YOLO6D的位姿估计精度对比结果见表1。本专利开发的卷积神经网络能够达到较高的推理运行速度,在GTX1080TiGPU上每秒约可处理33张640×480的RGB图像,具备实时处理能力。图3 与图4展示了本专利算法在单目标场景(LINEMOD数据集)和多目标场景 (OCCLUSION数据集)下的位姿估计结果。可以看到本专利算法对于物体之 间的遮挡情况以及场景的光照变化都具有一定的鲁棒性。
表1.
物体\方法 | 本专利算法 | YOLO6D |
Ape | 98.8 | 92.1 |
Benchvise | 94.6 | 95.1 |
Cam | 98.1 | 93.2 |
Can | 97.3 | 97.4 |
Cat | 99.2 | 97.4 |
Driller | 91.9 | 79.4 |
Duck | 98.2 | 94.7 |
Eggbox | 97.9 | 90.3 |
Glue | 97.3 | 96.5 |
Holepuncher | 99.0 | 92.9 |
iron | 92.7 | 82.9 |
Lamp | 94.1 | 76.9 |
Phone | 96.3 | 86.1 |
平均 | 96.6 | 90.4 |
表1为本专利算法与现有技术在LINEMOD数据集上的位姿估计精度对比 表。表中数值为位姿估计重投影误差小于5像素的图像数目占测试集中图像总 数的百分比。该数值越高表示位姿估计精度越高。
本发明提出了一种基于候选区域边界框的关键点表示方式,结合了神经网 络的分类和回归能力,显著减小了回归空间,同时适用于定位边界框内和边界 框外的关键点,并且能够预测关键点的定位置信度;
本发明提出了一种基于置信度的关键点位置投票算法,可以减少误差较大 的关键点对于位姿估计精度的影响,使得算法对于遮挡具有较强的鲁棒性;
本发明基于所提出的关键点表示方法开发了一种端到端的卷积神经网络用 于六自由度位姿估计,具备高位姿估计精度和实时处理能力。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是 与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于 实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较 简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本 发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的, 本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它 实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要 符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (9)
1.一种基于边界框外关键点定位的六自由度位姿估计算法,其特征在于,包括如下步骤:
S1:输入目标的三维模型和RGB三通道图像,根据三维模型,得到图像中目标物体在三个维度上的尺寸信息,确定目标物体三维边界框的8个顶点的坐标;
S2:通过卷积神经网络对RGB三通道图像进行检测,得到五个不同尺度的特征图以及特征图上每个位置的目标类别、二维边界框预测结果;
S3:对目标类别和二维边界框预测结果进行非极大抑制操作,得到去冗余后图像中目标实例的类别以及二维边界框预测结果;
S4:基于步骤S3得到的检测结果和步骤S2得到的特征图,对关键点在图像中进行定位,得到每一个候选区域中的8个关键点的位置和定位置信度;
S5:每一个候选区域的8个关键点位置,利用EPnP算法计算目标相对于相机的六自由度位姿。
2.根据权利要求1所述的一种基于边界框外关键点定位的六自由度位姿估计算法,其特征在于,所述步骤S2中得到的是五个不同尺度的特征图以及特征图上每个位置的目标类别、二维边界框预测结果的方法为:
S21:将RGB图像的尺寸调整为512×512×3像素,输入卷积神经网络;
S22:采用基于残差50层网络的特征金字塔网络作为特征提取器,得到的是五个具有不同尺度的特征图;
S23:在得到的五个不同尺度的特征图上进行目标检测,预设锚框,得到五个不同尺度的特征图上每个位置的目标类别、二维边界框预测结果。
3.根据权利要求2所述的一种基于边界框外关键点定位的六自由度位姿估计算法,其特征在于,所述步骤S22中,采用基于残差50层网络的特征金字塔网络作为特征提取器,得到的是五个具有不同尺度的特征图的方法为:
S221:构建特征金字塔,输出特征图C2、C3、C4、C5,其维度分别为128×128×256、64×64×512、32×32×1024、16×16×2048;
S222:C5经过256个1×1×2048的卷积得到维度为16×16×256的P5特征图;
S223:C4经过256个1×1×1024的卷积后,加上上采样两倍的P5得到维度为32×32×256的P4特征图;
S224:C3经过256个1×1×512的卷积后,加上上采样两倍的P4得到维度为64×64×256的P3特征图;
S225:C2经过256个1×1×256的卷积后,加上上采样两倍的P3得到维度为128×128×256的P2特征图;
S226:对P5做步长为2的3×3最大池化操作得到维度为8×8×256的P6特征图;
S227:再对P2、P3、P4和P5分别使用256个3×3×256的卷积核进行卷积操作,得到最终的特征图P2、P3、P4和P5,维度均保持不变。
4.根据权利要求3所述的一种基于边界框外关键点定位的六自由度位姿估计算法,其特征在于,所述步骤23中在得到的五个不同尺度的特征图上进行目标检测,预设锚框,得到五个不同尺度的特征图上每个位置的目标类别、二维边界框预测结果的方法为:
S231:在步骤S22得到的五个不同尺度的特征图上通过若干个维度为3×3×256的卷积核进行目标检测,预测二维边界框;
S232:对于特征图Pi,i∈{2,3,4,5,6},其维度为wi×hi×256,经过一组卷积核的个数为Nanchor×(4+C+1)的卷积运算后得到的预测结果的维度为wi×hi×[Nanchor×(4+C+1)];其中Nanchor是特征图上每一点的预设锚框数,4代表二维边界框的修正值个数,C代表目标类别数,1是背景类别;
S233:网络在特征图上每一个位置处预测出的结果向量中包含有对该位置处4个预设锚框的预测结果;每一个预设锚框的预测结果是一个长度为4+C+1的向;假设该锚框的中心点为(anchorcenterx,anchorcentery),宽和高分别为anchorwidth和anchorheight,预测结果中的前4个数(predbbox_centerx,predbbox_centery,predbbox_width,predbbox_height)是预测出的二维边界框相对于预设锚框的中心点以及宽高的修正值,根据这4个数可以计算预测出的二维边界框的中心点以及宽高:
其中,predbbox_centerx,predbbox_centery是预测出的二维边界框中心点坐标相对于预设锚框的中心点坐标的修正值;predbbox_width,predbbox_height是预测出的二维边界框宽高相对于预设锚框宽高的修正值;anchorcenterx,anchorcentery是预设锚框的中心点坐标,anchorwidth和anchorheight是预设锚框的宽高;bboxcenterx,bboxcentery是预测出的二维边界框的中心点坐标,bboxwidth,bboxheight是预测出的二维边界框的宽高;
最后的C+1个数(x0,x1,…,xC)是对当前锚框中目标所属类别的预测,其中x0代表对背景类别的预测值,利用Softmax函数将网络输出的类别预测结果转化为归一化的概率:
其中,C是类别数,xi是网络对目标属于第i类的预测值,pi是目标属于第i类的概率值;锚框属于概率最高的类别,同时将该类别的概率作为类别得分。
5.根据权利要求1或4所述的一种基于边界框外关键点定位的六自由度位姿估计算法,其特征在于,所述步骤S3对目标类别和二维边界框预测结果进行非极大抑制操作,得到去冗余后图像中目标实例的类别以及二维边界框预测结果的方法为:对于网络预测出的每一个非背景的目标实例,计算与其同类别的其他预测的二维边界框的交并比,当交并比大于0.7时,只保留类别得分较高的预测,去除类别得分较低的预测;最后选取类别得分最高的2000个二维边界框作为候选区域进行边界框定位,得到去冗余后图像中目标实例的类别以及二维边界框预测结果。
6.根据权利要求5所述的一种基于边界框外关键点定位的六自由度位姿估计算法,其特征在于,所述步骤S4中得到每一个候选区域中的8个关键点的位置和定位置信度的方法为:对每一个目标实例,在特征图上使用ROIAlign操作从二维边界框中提取7×7区域特征并拉伸成一维向量(长度为256×7×7),经过两个含有1024个节点的全连接层后,输出8×4维向量用于对8个关键点做最近角点分类,同时输出两个8×4×2维向量用于回归8个关键点相对于4个角点的偏移和定位置信度;对于每一个关键点,有4维向量用于最近角点分类,取分类得分最高的类别所对应的边界框角点作为最近角点;假设最近角点分类得分最高的类别为i(=1,2,3,4),则从用于回归偏移的4×2维向量offset中选出对应的2维向量(offset2i-1,offset2i)作为关键点相对于最近角点的偏移向量,并计算出关键点在图像上的位置:
同时从用于预测定位置信度的4×2维向量conf中选出对应的2维向量(conf2i-1,conf2i)作为关键点定位的置信度;
closestcornerx,closestcornery是最近角点的x,y坐标,offset2i-1,offset2i是网络预测出关键点相对于最近角点的x,y坐标偏移量,keypointx,keypointy是计算出的关键点x,y坐标。
7.根据权利要求6所述的一种基于边界框外关键点定位的六自由度位姿估计算法,其特征在于,在步骤S4之后还包括获得基于置信度投票之后的关键点位置,采用的方法为:
对于每一个候选区域,计算其与其他候选区域的基于关键点的交并比,计算方式如下:
其中k1,k2分别代表任意两个候选区域的关键点集合,w和h分别代表候选区域的宽和高;w1,h1代表第一个候选区域的宽高,w2,h2代表第二个候选区域的宽高,k1ix,k1iy代表第一个候选区域的第i个关键点的x,y坐标,k2ix,k2iy代表第二个候选区域的第i个关键点的x,y坐标;
选取与当前候选区域的kpt_IoU大于0.55的候选区域集合Kvoting来进行关键点位置投票;具体投票方式如下:
其中kcurrent代表当前候选区域的关键点集合,ci代表定位置信度集合,ki是第i个候选区域的关键点集合,pi是第i个候选区域的投票权重。
8.根据权利要求7所述的一种基于边界框外关键点定位的六自由度位姿估计算法,其特征在于,得到的是五个不同尺度的特征图以及特征图上每个位置的目标类别、二维边界框预测结果时,通过计算预设锚框与每一个目标实例的真值二维边界框之间的交并比分配正负样本,交并比大于0.5的预设锚框认为是正样本,交并比小于0.4的预设锚框认为是负样本;对于正样本锚框,网络的训练目标值包括边界框类别和二维边界框偏移量;二维边界框偏移量计算按照下式:
其中gtcenterx,gtcentery,gtwidth,gtheight分别表示边界框真值的中心点的x,y坐标以及宽度、高度,anchorcenterx,anchorcentery,anchorwidth,anchorheight分别表示预设锚框的中心点的x,y坐标以及宽度、高度;对于负样本锚框,网络的训练目标值只有类别;训练时通过在线难样本挖掘的方法使得正负样本的比例为1:3,在线难样本挖掘方法为:在迭代训练过程中,执行前向传播后得到网络对所有预设锚框的类别和二维边界框的预测,对于所有非正样本的锚框,按照网络预测出的属于背景的概率升序排序,取排序后排名靠前的一部分作为负样本;
给定一组正样本预设锚框Pos和负样本预设锚框Neg,检测模块训练网络采用的损失函数为:
其中Lcls代表针对分类问题的分量,采用softmax cross entropy损失函数;Lbbox代表针对边界框回归的分量,采用smooth L1 norm损失函数。
9.根据权利要求8所述的一种基于边界框外关键点定位的六自由度位姿估计算法,其特征在于,在关键点定位中,网络的训练目标包括关键点最近角点分类以及关键点相对于最近角点的偏移量;最近角点分类的概率真值计算如下:
其中di是关键点到第i个角点的像素坐标距离;投影点坐标偏移量计算方式按照下式:
其中gtcoordinatex,gtcoordinatey分别代表关键点x,y坐标的真值;proposalwidth,proposalheight分别代表候选区域的宽和高;关键点定位模块采用的损失函数为:
Lkeypoint=Lccc+Lreg&conf (10)
其中Lccc代表最近角点分类的分量,采用softmax cross entropy损失函数;Lreg&conf代表关键点坐标回归和定位置信度预测的分量,采用smooth KL散度损失函数:
其中var是网络预测出的坐标定位方差,targetreg是回归的目标值,predreg是网络的预测值,相应的定位置信度为conf=e-var;总的损失函数由检测模块的损失函数和关键点定位模块的损失函数组成:
L=Ldetection+αLkeypoint (12)
其中α是为了平衡损失函数中各个分量而使用的权重系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911060533.8A CN110930454B (zh) | 2019-11-01 | 2019-11-01 | 一种基于边界框外关键点定位的六自由度位姿估计算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911060533.8A CN110930454B (zh) | 2019-11-01 | 2019-11-01 | 一种基于边界框外关键点定位的六自由度位姿估计算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110930454A true CN110930454A (zh) | 2020-03-27 |
CN110930454B CN110930454B (zh) | 2022-11-22 |
Family
ID=69850139
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911060533.8A Active CN110930454B (zh) | 2019-11-01 | 2019-11-01 | 一种基于边界框外关键点定位的六自由度位姿估计算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110930454B (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111667535A (zh) * | 2020-06-04 | 2020-09-15 | 电子科技大学 | 一种针对遮挡场景下的六自由度位姿估计方法 |
CN111695519A (zh) * | 2020-06-12 | 2020-09-22 | 北京百度网讯科技有限公司 | 关键点定位方法、装置、设备以及存储介质 |
CN111783637A (zh) * | 2020-06-30 | 2020-10-16 | 上海木木聚枞机器人科技有限公司 | 关键点标注方法及装置、目标物空间位姿确定方法及装置 |
CN111798516A (zh) * | 2020-07-01 | 2020-10-20 | 广东省特种设备检测研究院珠海检测院 | 一种桥式起重机设备运行状态量的检测及误差分析方法 |
CN111814827A (zh) * | 2020-06-08 | 2020-10-23 | 三峡大学 | 基于yolo的关键点目标检测方法 |
CN111862201A (zh) * | 2020-07-17 | 2020-10-30 | 北京航空航天大学 | 一种基于深度学习的空间非合作目标相对位姿估计方法 |
CN111986252A (zh) * | 2020-07-16 | 2020-11-24 | 浙江工业大学 | 一种用于目标分割网络中候选边界框精准定位的方法 |
CN112068128A (zh) * | 2020-09-19 | 2020-12-11 | 重庆大学 | 一种直道场景线段型雷达数据处理及位姿获取方法 |
CN112116074A (zh) * | 2020-09-18 | 2020-12-22 | 西北工业大学 | 一种基于二维空间编码的图像描述方法 |
CN112257609A (zh) * | 2020-10-23 | 2021-01-22 | 重庆邮电大学 | 一种基于自适应关键点热图的车辆检测方法及装置 |
CN112287977A (zh) * | 2020-10-06 | 2021-01-29 | 武汉大学 | 一种基于边界框关键点距离的目标检测方法 |
CN112396655A (zh) * | 2020-11-18 | 2021-02-23 | 哈尔滨工程大学 | 一种基于点云数据的船舶目标6d位姿估计方法 |
CN112560606A (zh) * | 2020-12-02 | 2021-03-26 | 北京经纬恒润科技股份有限公司 | 挂车角度识别方法及装置 |
CN112767478A (zh) * | 2021-01-08 | 2021-05-07 | 北京航空航天大学 | 一种基于表观指导的六自由度位姿估计方法 |
CN113240736A (zh) * | 2021-02-23 | 2021-08-10 | 广东工业大学 | 基于yolo6d改进网络的位姿估计方法及装置 |
CN113436273A (zh) * | 2021-06-28 | 2021-09-24 | 南京冲浪智行科技有限公司 | 一种3d场景定标方法、定标装置及其定标应用 |
CN113947766A (zh) * | 2021-12-21 | 2022-01-18 | 之江实验室 | 一种基于卷积神经网络的实时车牌检测方法 |
CN114299129A (zh) * | 2021-12-31 | 2022-04-08 | 北京的卢深视科技有限公司 | 深度恢复方法、电子设备和计算机可读存储介质 |
CN114445716A (zh) * | 2022-04-07 | 2022-05-06 | 腾讯科技(深圳)有限公司 | 关键点检测方法、装置、计算机设备、介质及程序产品 |
CN116012422A (zh) * | 2023-03-23 | 2023-04-25 | 西湖大学 | 基于单目视觉的无人机6d位姿估计跟踪方法及其应用 |
CN116152345A (zh) * | 2023-04-19 | 2023-05-23 | 盐城数智科技有限公司 | 一种嵌入式系统实时物体6d位姿和距离估计方法 |
WO2024025134A1 (en) * | 2022-07-27 | 2024-02-01 | Samsung Electronics Co., Ltd. | A system and method for real time optical illusion photography |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130251192A1 (en) * | 2012-03-20 | 2013-09-26 | Microsoft Corporation | Estimated pose correction |
CN109003267A (zh) * | 2017-08-09 | 2018-12-14 | 深圳科亚医疗科技有限公司 | 从3d图像自动检测目标对象的计算机实现方法和系统 |
CN109064514A (zh) * | 2018-07-03 | 2018-12-21 | 北京航空航天大学 | 一种基于投影点坐标回归的六自由度位姿估计算法 |
CN109785373A (zh) * | 2019-01-22 | 2019-05-21 | 东北大学 | 一种基于散斑的六自由度位姿估计系统及方法 |
US20190304134A1 (en) * | 2018-03-27 | 2019-10-03 | J. William Mauchly | Multiview Estimation of 6D Pose |
CN110363817A (zh) * | 2019-07-10 | 2019-10-22 | 北京悉见科技有限公司 | 目标位姿估计方法、电子设备和介质 |
-
2019
- 2019-11-01 CN CN201911060533.8A patent/CN110930454B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130251192A1 (en) * | 2012-03-20 | 2013-09-26 | Microsoft Corporation | Estimated pose correction |
CN109003267A (zh) * | 2017-08-09 | 2018-12-14 | 深圳科亚医疗科技有限公司 | 从3d图像自动检测目标对象的计算机实现方法和系统 |
US20190304134A1 (en) * | 2018-03-27 | 2019-10-03 | J. William Mauchly | Multiview Estimation of 6D Pose |
CN109064514A (zh) * | 2018-07-03 | 2018-12-21 | 北京航空航天大学 | 一种基于投影点坐标回归的六自由度位姿估计算法 |
CN109785373A (zh) * | 2019-01-22 | 2019-05-21 | 东北大学 | 一种基于散斑的六自由度位姿估计系统及方法 |
CN110363817A (zh) * | 2019-07-10 | 2019-10-22 | 北京悉见科技有限公司 | 目标位姿估计方法、电子设备和介质 |
Non-Patent Citations (3)
Title |
---|
DAOYUAN JIA,ET AL.: "Deep Convolutional Neural Network for 6-DoF Image Localization", 《ARXIV》 * |
GEORGIOS PAVLAKOS,ET AL.: "6-DoF object pose from semantic keypoints", 《2017 IEEE INTERNATIONAL CONFERENCE ON ROBOTICS AND AUTOMATION》 * |
张浩鹏,姜志国: "基于姿态加权核回归的航天器姿态估计", 《北京航空航天大学学报》 * |
Cited By (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111667535A (zh) * | 2020-06-04 | 2020-09-15 | 电子科技大学 | 一种针对遮挡场景下的六自由度位姿估计方法 |
CN111814827A (zh) * | 2020-06-08 | 2020-10-23 | 三峡大学 | 基于yolo的关键点目标检测方法 |
CN111814827B (zh) * | 2020-06-08 | 2024-06-11 | 湖南腓腓动漫有限责任公司 | 基于yolo的关键点目标检测方法 |
US11610389B2 (en) | 2020-06-12 | 2023-03-21 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for positioning key point, device, and storage medium |
CN111695519B (zh) * | 2020-06-12 | 2023-08-08 | 北京百度网讯科技有限公司 | 关键点定位方法、装置、设备以及存储介质 |
CN111695519A (zh) * | 2020-06-12 | 2020-09-22 | 北京百度网讯科技有限公司 | 关键点定位方法、装置、设备以及存储介质 |
CN111783637B (zh) * | 2020-06-30 | 2023-11-14 | 上海木木聚枞机器人科技有限公司 | 关键点标注方法及装置、目标物空间位姿确定方法及装置 |
CN111783637A (zh) * | 2020-06-30 | 2020-10-16 | 上海木木聚枞机器人科技有限公司 | 关键点标注方法及装置、目标物空间位姿确定方法及装置 |
CN111798516A (zh) * | 2020-07-01 | 2020-10-20 | 广东省特种设备检测研究院珠海检测院 | 一种桥式起重机设备运行状态量的检测及误差分析方法 |
CN111798516B (zh) * | 2020-07-01 | 2023-12-22 | 广东省特种设备检测研究院珠海检测院 | 一种桥式起重机设备运行状态量的检测及误差分析方法 |
CN111986252A (zh) * | 2020-07-16 | 2020-11-24 | 浙江工业大学 | 一种用于目标分割网络中候选边界框精准定位的方法 |
CN111986252B (zh) * | 2020-07-16 | 2024-03-29 | 浙江工业大学 | 一种用于目标分割网络中候选边界框精准定位的方法 |
CN111862201A (zh) * | 2020-07-17 | 2020-10-30 | 北京航空航天大学 | 一种基于深度学习的空间非合作目标相对位姿估计方法 |
CN111862201B (zh) * | 2020-07-17 | 2023-06-23 | 北京航空航天大学 | 一种基于深度学习的空间非合作目标相对位姿估计方法 |
CN112116074A (zh) * | 2020-09-18 | 2020-12-22 | 西北工业大学 | 一种基于二维空间编码的图像描述方法 |
CN112116074B (zh) * | 2020-09-18 | 2022-04-15 | 西北工业大学 | 一种基于二维空间编码的图像描述方法 |
CN112068128A (zh) * | 2020-09-19 | 2020-12-11 | 重庆大学 | 一种直道场景线段型雷达数据处理及位姿获取方法 |
CN112287977B (zh) * | 2020-10-06 | 2024-02-09 | 武汉大学 | 一种基于边界框关键点距离的目标检测方法 |
CN112287977A (zh) * | 2020-10-06 | 2021-01-29 | 武汉大学 | 一种基于边界框关键点距离的目标检测方法 |
CN112257609A (zh) * | 2020-10-23 | 2021-01-22 | 重庆邮电大学 | 一种基于自适应关键点热图的车辆检测方法及装置 |
CN112396655B (zh) * | 2020-11-18 | 2023-01-03 | 哈尔滨工程大学 | 一种基于点云数据的船舶目标6d位姿估计方法 |
CN112396655A (zh) * | 2020-11-18 | 2021-02-23 | 哈尔滨工程大学 | 一种基于点云数据的船舶目标6d位姿估计方法 |
CN112560606B (zh) * | 2020-12-02 | 2024-04-16 | 北京经纬恒润科技股份有限公司 | 挂车角度识别方法及装置 |
CN112560606A (zh) * | 2020-12-02 | 2021-03-26 | 北京经纬恒润科技股份有限公司 | 挂车角度识别方法及装置 |
CN112767478B (zh) * | 2021-01-08 | 2022-07-19 | 北京航空航天大学 | 一种基于表观指导的六自由度位姿估计方法 |
CN112767478A (zh) * | 2021-01-08 | 2021-05-07 | 北京航空航天大学 | 一种基于表观指导的六自由度位姿估计方法 |
CN113240736A (zh) * | 2021-02-23 | 2021-08-10 | 广东工业大学 | 基于yolo6d改进网络的位姿估计方法及装置 |
CN113436273A (zh) * | 2021-06-28 | 2021-09-24 | 南京冲浪智行科技有限公司 | 一种3d场景定标方法、定标装置及其定标应用 |
CN113947766A (zh) * | 2021-12-21 | 2022-01-18 | 之江实验室 | 一种基于卷积神经网络的实时车牌检测方法 |
CN114299129A (zh) * | 2021-12-31 | 2022-04-08 | 北京的卢深视科技有限公司 | 深度恢复方法、电子设备和计算机可读存储介质 |
CN114445716B (zh) * | 2022-04-07 | 2022-07-26 | 腾讯科技(深圳)有限公司 | 关键点检测方法、装置、计算机设备、介质及程序产品 |
CN114445716A (zh) * | 2022-04-07 | 2022-05-06 | 腾讯科技(深圳)有限公司 | 关键点检测方法、装置、计算机设备、介质及程序产品 |
WO2024025134A1 (en) * | 2022-07-27 | 2024-02-01 | Samsung Electronics Co., Ltd. | A system and method for real time optical illusion photography |
CN116012422A (zh) * | 2023-03-23 | 2023-04-25 | 西湖大学 | 基于单目视觉的无人机6d位姿估计跟踪方法及其应用 |
CN116152345A (zh) * | 2023-04-19 | 2023-05-23 | 盐城数智科技有限公司 | 一种嵌入式系统实时物体6d位姿和距离估计方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110930454B (zh) | 2022-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110930454B (zh) | 一种基于边界框外关键点定位的六自由度位姿估计算法 | |
CN111489358B (zh) | 一种基于深度学习的三维点云语义分割方法 | |
CN109685152B (zh) | 一种基于dc-spp-yolo的图像目标检测方法 | |
US11429818B2 (en) | Method, system and device for multi-label object detection based on an object detection network | |
CN109064514B (zh) | 一种基于投影点坐标回归的六自由度位姿估计方法 | |
CN111640125B (zh) | 基于Mask R-CNN的航拍图建筑物检测和分割方法及装置 | |
CN112927353B (zh) | 基于二维目标检测和模型对齐的三维场景重建方法、存储介质及终端 | |
CN111242208A (zh) | 一种点云分类方法、分割方法及相关设备 | |
CN106952338B (zh) | 基于深度学习的三维重建的方法、系统及可读存储介质 | |
US20230043026A1 (en) | Learning-based active surface model for medical image segmentation | |
CN111783772A (zh) | 一种基于RP-ResNet网络的抓取检测方法 | |
CN110533022B (zh) | 一种目标检测方法、系统、装置及存储介质 | |
CN111640089A (zh) | 一种基于特征图中心点的缺陷检测方法及装置 | |
CN109033978B (zh) | 一种基于纠错策略的cnn-svm混合模型手势识别方法 | |
CN113706581B (zh) | 基于残差通道注意与多层次分类回归的目标跟踪方法 | |
CN108764244B (zh) | 基于卷积神经网络和条件随机场的潜在目标区域检测方法 | |
CN111242026B (zh) | 一种基于空间层次感知模块和度量学习的遥感图像目标检测方法 | |
CN114663502A (zh) | 物体姿态估计、图像处理方法及相关设备 | |
CN113129311B (zh) | 一种标签优化点云实例分割方法 | |
CN111768415A (zh) | 一种无量化池化的图像实例分割方法 | |
CN111523463B (zh) | 基于匹配-回归网络的目标跟踪方法及训练方法 | |
CN114757904A (zh) | 一种基于ai深度学习算法的表面缺陷检测方法 | |
CN114565842A (zh) | 基于Nvidia Jetson嵌入式硬件的无人机实时目标检测方法及系统 | |
CN112767478A (zh) | 一种基于表观指导的六自由度位姿估计方法 | |
CN115661860A (zh) | 一种狗行为动作识别技术的方法、装置、系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |