CN112712062A - 基于解耦截断物体的单目三维物体检测方法和装置 - Google Patents
基于解耦截断物体的单目三维物体检测方法和装置 Download PDFInfo
- Publication number
- CN112712062A CN112712062A CN202110061352.8A CN202110061352A CN112712062A CN 112712062 A CN112712062 A CN 112712062A CN 202110061352 A CN202110061352 A CN 202110061352A CN 112712062 A CN112712062 A CN 112712062A
- Authority
- CN
- China
- Prior art keywords
- dimensional
- depth
- input
- offset
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 115
- 238000000034 method Methods 0.000 claims abstract description 47
- 238000010586 diagram Methods 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 27
- 238000005457 optimization Methods 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 14
- 230000006870 function Effects 0.000 description 21
- 238000013135 deep learning Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本申请提出一种基于解耦截断物体的单目三维物体检测方法和装置,涉及计算机视觉技术领域,其中,方法包括:提取输入图像的输入特征图;获取输入特征图中正常物体的三维中心投影,以及截断物体的二维中心连线与图像边界的交点表示;根据三维中心投影和所述交点表示,生成输入图像对应的物体关键点热图;对输入特征图分别进行二维检测、物体朝向、物体大小和物体深度处理,获取物体二维检测框、物体朝向信息、物体大小消息和物体深度信息,从而得到物体的三维检测框。由此,对正常物体和截断物体采用了不同的关键点表示,实现了二者在空间位置上的解耦,不仅显著提升截断物体的定位精度,同时还能够避免正常物体的优化过程受到干扰,进一步提高整体的检测性能。
Description
技术领域
本申请涉及计算机视觉、深度学习技术领域,尤其涉及一种基于解耦截断物体的单目三维物体检测方法和装置。
背景技术
随着计算机性能的提升、大规模数据集的出现和深度学习的发展,基于图像的二维目标检测算法已经取得了长足的发展,并广泛应用于视频监控、工业检测、图像检索等领域。然而二维检测无法对真实的三维世界进行感知,同时在自动驾驶、无人配送等应用场景下都需要对环境中的物体进行三维定位,这也就催生了更具有挑战性的三维目标检测问题。
三维目标检测需要对物体的空间位置、朝向和大小进行估计,其中,位置表现为相机坐标系下物体的(x,y,z)坐标,朝向通常表现为物体在水平方向上的方位角,大小则为物体的长宽高尺度信息。相对于二维检测中仅需要像素位置、像素中心等四个自由度的信息,三维目标检测则需要对物体的七个自由度进行求解。目前三维目标检测方法的输入模态主要包括激光雷达点云、双目图像、单目图像等,尽管基于雷达点云或双目图像的方法能够取得更好的检测精度,它们对于硬件也具有更高的需求,极大地提升了系统的部署成本。相对而言,单目三维检测是硬件要求更低、难度更高的一种问题设置;在这种情况下,三维世界的深度信息是完全丧失的,算法仅能够依靠图像中的外观信息和真实世界先验信息来实现物体的三维检测。
由于单目三维检测低廉的部署成本,近年来出现了一系列基于深度学习的算法研究。相关技术中,比如首先将深度学习应用于单目三维检测问题,利用地面先验采样大量的三维候选框,然后基于语义分割、实例分割、形状、背景特征、位置先验等信息对这些候选框进行打分以过滤大量负样本,接下来又采用R-CNN对候选框进一步分类和校正,得到检测结果。然而该打分过程依赖多个预训练模型,增加了数据标注的成本,同时密集采样的策略也使得效率较低。
然而,目前已有的方法通常采用统一的框架对所有的物体进行检测,未能充分考虑物体之间的差异性。特别地,截断物体(即位于图像边界附近而部分可见的物体)作为一类检测难度较大而又非常重要的物体,与正常物体存在可见性上的显著差异,这导致目前方法在截断物体的检测上表现较差。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种基于解耦截断物体的单目三维物体检测方法,解决目前单目三维检测算法对于截断物体表现较差的技术问题。
本申请的第二个目的在于提出一种基于解耦截断物体的单目三维物体检测装置。
为达上述目的,本申请第一方面实施例提出了一种基于解耦截断物体的单目三维物体检测方法,包括:
获取输入图像,并提取所述输入图像的输入特征图;
获取所述输入特征图中正常物体的三维中心投影,以及截断物体的二维中心连线与图像边界的交点表示;
根据所述三维中心投影和所述交点表示,生成所述输入图像对应的物体关键点热图;
对所述输入特征图分别进行二维检测、物体朝向、物体大小和物体深度处理,获取物体二维检测框、物体朝向信息、物体大小消息和物体深度信息;
根据所述二维检测框、所述物体朝向信息、所述物体大小消息和所述物体深度信息,生成三维检测结果。
本申请实施例的基于解耦截断物体的单目三维物体检测方法,通过获取输入图像,提取输入图像的输入特征图;获取输入特征图中正常物体的三维中心投影,以及截断物体的二维中心连线与图像边界的交点表示;根据三维中心投影和所述交点表示,生成输入图像对应的物体关键点热图;对输入特征图分别进行二维检测、物体朝向、物体大小和物体深度处理,获取物体二维检测框、物体朝向信息、物体大小消息和物体深度信息生成三维检测结果。由此,对正常物体和截断物体采用了不同的关键点表示,实现了二者在空间位置上的解耦,不仅显著提升截断物体的定位精度,同时还能够避免正常物体的优化过程受到干扰,进一步提高整体的检测性能。
可选地,在本申请的一个实施例中,在生成所述输入图像对应的物体关键点热图之前,还包括:
获取所述正常物体的第一中心偏移量;
获取所述截断物体的第二中心偏移量;
采用第一范数损失函数对所述第一中心偏移量进行优化处理,以及采用对数第一范数损失函数对所述第二中心偏移量进行优化处理;
其中,损失函数为:
可选地,在本申请的一个实施例中,在生成所述输入图像对应的物体关键点热图之前,还包括:
提取所述输入特征图的边缘特征,将所述边缘特征按照逆时针顺序展平得到边缘特征向量;
利用一维卷积层对所述边缘特征向量进行处理和预测,输出的新特征图边缘;
将所述新特征图边缘与所述输入特征图的边缘特征进行相加、或替换所述输入特征图的边缘特征。
可选地,在本申请的一个实施例中,所述对所述输入特征图进行二维检测处理,获取二维检测框,包括:
基于所述输入特征图,假设每个物体的目标二维检测框的左上角和右下角坐标分别为(u1,v1)和(u2,v2),所述每个物体的关键点表示为xr=(ur,vr);
二维检测建模为回归所述xr到所述目标二维检测框上下左右四条边的距离t,b,l,r,并通过第一范数损失函数进行优化处理,获取二维检测框;其中,t=vr-v1,b=v2-vr,l=ur-u1,r=u2-ur。
可选地,在本申请的一个实施例中,对所述输入特征图进行物体大小处理,获取物体大小信息,包括:
可选地,在本申请的一个实施例中,对所述输入特征图进行物体朝向处理,获取物体朝向信息,包括:
根据所述输入特征图判断每个物体朝向θ属于的区域序号,回归从所述区域序号相应区域中心点到所述θ的偏移量δθ;
分别采用交叉熵损失和第一范数损失进行优化处理,获取所述u物体朝向信息;其中,总的损失函数表示如下:
可选地,在本申请的一个实施例中,对所述输入特征图进行物体深度处理,获取物体深度信息,包括
从所述输入特征图中获取预设数量关键点,将所述预设数量关键点划分为中心组、对角一组和对角二组;
基于所述中心组、对角一组和对角二组分别计算物体中心的深度,获取所述物体深度信息。
可选地,在本申请的一个实施例中,在计算所述物体深度信息的过程中,还包括:
预测深度值和相应的不确定性为{(zi,σi)|i=1,...,K},深度预测值zp为:
为达上述目的,本申请第二方面实施例提出了一种基于解耦截断物体的单目三维物体检测装置,包括:
获取提取模块,用于获取输入图像,并提取所述输入图像的输入特征图;
第一获取模块,用于获取所述输入特征图中正常物体的三维中心投影,以及截断物体的二维中心连线与图像边界的交点表示;
第一生成模块,用于根据所述三维中心投影和所述交点表示,生成所述输入图像对应的物体关键点热图;
第二获取模块,用于对所述输入特征图分别进行二维检测、物体朝向、物体大小和物体深度处理,获取物体二维检测框、物体朝向信息、物体大小消息和物体深度信息;
第二生成模块,用于根据所述二维检测框、所述物体朝向信息、所述物体大小消息和所述物体深度信息,生成三维检测结果。
本申请实施例的基于解耦截断物体的单目三维物体检测装置,通过获取输入图像,提取输入图像的输入特征图;获取输入特征图中正常物体的三维中心投影,以及截断物体的二维中心连线与图像边界的交点表示;根据三维中心投影和所述交点表示,生成输入图像对应的物体关键点热图;对输入特征图分别进行二维检测、物体朝向、物体大小和物体深度处理,获取物体二维检测框、物体朝向信息、物体大小消息和物体深度信息生成三维检测结果。由此,对正常物体和截断物体采用了不同的关键点表示,实现了二者在空间位置上的解耦,不仅显著提升截断物体的定位精度,同时还能够避免正常物体的优化过程受到干扰,进一步提高整体的检测性能。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例一所提供的一种基于解耦截断物体的单目三维物体检测方法的流程示意图;
图2为本申请实施例的检测结果对比示例图;
图3为本申请实施例的三维物体检测示例图;
图4为本申请实施例的截断物体表示示例图;
图5为本申请实施例的物体关键点示例图;
图6为本申请实施例的关键点深度计算示例图;
图7为本申请实施例所提供的一种基于解耦截断物体的单目三维物体检测装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的基于解耦截断物体的单目三维物体检测方法和装置。
图1为本申请实施例一所提供的一种基于解耦截断物体的单目三维物体检测方法的流程示意图。
具体地,针对单目三维检测算法对于截断物体表现较差的问题,截断物体的准确定位在自动驾驶等实际引用场景下具有重要的安全意义。本申请提出的方法通过分析截断物体与正常物体之间的本质差异,为两类物体提出了不同的关键点表示方法,并显式地在网络中将两类物体的特征学习和预测输出进行解耦,同时将物体深度的估计建模为直接回归和几何求解等多种方法的自适应集成。这种解耦的思想不仅能够显著提升截断物体的定位精度,同时还能够避免正常物体的优化过程受到干扰,进一步提高整体的检测性能。
如图1所示,该基于解耦截断物体的单目三维物体检测方法包括以下步骤:
步骤101,获取输入图像,并提取输入图像的输入特征图。
步骤102,获取输入特征图中正常物体的三维中心投影,以及截断物体的二维中心连线与图像边界的交点表示,并根据三维中心投影和交点表示,生成输入图像对应的物体关键点热图。
在本申请实施例中,对正常物体和截断物体采用了不同的关键点表示方法:前者由其三维中心在图像上的投影表示,而后者则由三维中心投影和二维中心连线与图像边界的交点表示;在这种设置下,两类物体的关键点表示分别位于图像内部和图像边缘,实现了二者在空间位置上的解耦,以及在网络预测中引入了边缘特征增强模块,使得边缘位置上的特征学习和预测受益于额外的卷积层参数,这进一步实现了截断物体检测在网络参数上的解耦,进一步地对于正常物体和截断物体的位置预测采用了不同的回归损失函数,实现了损失函数优化上的解耦,并且提升了训练过程的稳定性,最后以不确定性作为引导结合了多种物体深度估计方法来产生最终的三维位置预测,相对于单一方式更加准确和稳定。
由此,可以实现仅仅需要单张彩色图片作为输入即可输出图片内感兴趣物体的三维检测框,从而感知物体的三维位置、朝向和物理尺寸。本发明不仅在检测精度上达到了目前单目三维检测方法的先进水平,同时在现代GPU上还具有实时的运算效率。
具体地,基于对物体间差异、尤其是截断物体的特性分析,比如图2所示,是本申请与目前先进算法的检测结果对比,图3是本申请的流程示例图。
需要说明的是,由于三维物体检测可以分解为三维位置、朝向和大小,而三维位置又可以进一步由物体三维中心的投影和物体深度推导得到,因此物体检测可以分解为四个子任务;本申请主要针对物体三维中心投影和物体深度两个子任务做出优化。在估计三维中心的图像投影时,本申请考虑到截断物体的长尾分布特性,提出了解耦的关键点表示和特征学习模块;在估计物体深度时,本申请还提出了一种基于不确定性的集成学习方法,通过自适应地结合多种深度估计方式来实现准确的空间定位。
具体地,首先卷积网络从输入图像中提取多层次特征得到特征图,卷积检测头基于特征图进一步预测物体关键点热图和物体属性图。在该框架下每个物体由单个关键点表示(如物体的二维中心),并通过物体关键点热图的局部峰值进行预测;物体属性图则对物体的各个属性进行预测,如物体的大小、朝向、二维检测框、深度等信息。
因此,关键点热图是物体检测中的核心部分,其目的是基于图像纹理信息判断前景部分并进行图像层面的物体定位,采用了不同的关键点对正常物体和截断物体进行表示。对于正常物体,直接预测其三维中心在图像上的投影xc;对于截断物体,由于其三维中心投影xc超出了图像边界,选择预测xc和物体二维中心xb连线与图像边界的交点xI,如图4所示,对于一张输入图像,每个物体以自身的关键点表示(xc或xI)为中心产生二维高斯分布,从而得到目标的物体关键点热图,如图3中所示,关键点热图预测利用了范数损失作为损失函数进行优化。
在本申请的实施例中,在生成输入图像对应的物体关键点热图之前,还包括:获取正常物体的第一中心偏移量;获取截断物体的第二中心偏移量;采用第一范数损失函数对第一中心偏移量进行优化处理,以及采用对数第一范数损失函数对所述第二中心偏移量进行优化处理;
其中,损失函数为:
具体地,由于量化误差和截断物体的近似表示,关键点热图的峰值并不能完全地给出物体三维中心的投影xc,因此仍需要回归从关键点到xc的中心偏移量δc。假设网络输出的降采样比例为S,那么对于正常物体来说偏移量可以计算如下:截断物体的中心偏移量则计算如下:
由于正常物体的偏移量尺度较小而截断物体的偏移量尺度和方差均较大,两种偏移量分别采用了L1范数损失和对数L1范数损失进行优化,使用对数损失可以有效缓解尺度变化的影响,同时对离群点更加鲁棒。
在本申请实施例中,在生成输入图像对应的物体关键点热图之前,还包括:提取输入特征图的边缘特征,将边缘特征按照逆时针顺序展平得到边缘特征向量;利用一维卷积层对边缘特征向量进行处理和预测,输出的新特征图边缘;将新特征图边缘与输入特征图的边缘特征进行相加、或替换输入特征图的边缘特征。
具体地,由于关键点热图和中心偏移量的预测需要兼顾分布差异较大的正常物体和截断物体,我们采用了边缘特征增强模块以实现截断物体在特征学习和预测输出上的解耦。如图3右上角所示,该模块首先提取输入特征图的边缘——即四条边上的特征,然后将其按照逆时针顺序展平得到边缘特征向量,接下来利用一维卷积层对该边缘特征进行处理和预测,最后将输出的边缘向量重新变形成特征图的边缘,并与原来的边缘特征进行相加(关键点热图)或直接进行替代(偏移量估计)。
步骤103,对输入特征图分别进行二维检测、物体朝向、物体大小和物体深度处理,获取物体二维检测框、物体朝向信息、物体大小消息和物体深度信息。
步骤104,根据二维检测框、物体朝向信息、物体大小消息和物体深度信息,生成物体三维检测结果,即物体对应的三维检测框。
在本申请实施例中,基于输入特征图,假设每个物体的目标二维检测框的左上角和右下角坐标分别为(u1,v1)和(u2,v2),每个物体的关键点表示为xr=(ur,vr);二维检测建模为回归所述xr到目标二维检测框上下左右四条边的距离t,b,l,r,并通过第一范数损失函数进行优化处理,获取二维检测框;其中,t=vr-v1,b=v2-vr,l=ur-u1,r=u2-ur。
在本申请实施例中,基于输入特征的数据集统计了长、宽、高的类内均值对每个物体回归相对于类内均值的变化量δl,δw,δh,并利用第一范数损失函数进行优化处理,获取物体大小信息;其中,假设每个物体的真实大小表示为l*,w*,h*,作为回归目标的相对变化计算如下:
在本申请实施例中,根据输入特征图判断每个物体朝向θ属于的区域序号,回归从区域序号相应区域中心点到θ的偏移量δθ;分别采用交叉熵损失和第一范数损失进行优化处理,荻取所述u物体朝向信息;其中,总的损失函数表示如下:
具体地,由于直接回归物体的水平朝向角θ比较困难,将(-π,π]的角度范围均匀离散化为四个区域(-π,-π/2],(-π/2,0],(0,π/2],(π/2,π];对于每个物体,首先判断物体朝向θ属于的区域序号,然后再回归从相应区域中心点到θ的偏移量δθ,这种先分类再回归偏移量的方式有效地降低了搜索空间,从而提升了朝向回归的准确性。朝向分类和回归分别采用交叉熵损失和L1范数损失进行优化。
在本申请实施例中,从输入特征图中获取预设数量关键点,将预设数量关键点划分为中心组、对角一组和对角二组;基于中心组、对角一组和对角二组分别计算物体中心的深度,获取物体深度信息。
在本申请实施例中,在计算物体深度信息的过程中,还包括:
预测深度值和相应的不确定性为{(zi,σi)|i=1,...,K},深度预测值zp为:
具体地,为了提升物体深度估计的准确性,在网络中同时通过多种方式预测了物体的深度,并基于不确定性将它们结合起来得到最终的深度预测,如图3下部所示。深度估计方式主要包括两类:直接回归深度和基于投影原理从关键点和物体大小计算深度。由于物体深度是一个尺度较大的非负数,采取了如下方式将网络输出zo变换为真正的深度
具体地,对于基于关键点的深度计算方式,首先回归了如图5所示的十个关键点,包括三维检测框的八个顶k1,...,k8以及下/上两个平面的中心k9,k10。根据投影原理,在相机焦距f已知时,物体深度可以通过三维检测框的像素高度hI和实际高度h计算得到:
其中,H为网络预测的物体高度,hI则由预测的成对关键点计算得到。如图6所示,十个关键点可以分为中心组、对角一组、对角二组以分别计算物体中心的深度,其中对角组需要首先从四个关键点求得两条对角高的深度,再平均得到中心深度。综上所述,一共具有四种计算物体中心深度的方式,包括直接回归深度和从三组关键点求解深度。深度回归和关键点位置回归均通过L1范数损失进行优化,由于从关键点求解深度是一种间接的方式,还额外利用L1范数损失直接监督了从关键点求解的深度值。
具体地,该不确定性是在网络优化深度损失函数过程中自我学习的。当网络对预测缺乏信心、即认为深度误差项将会较大时,网络就会输出较大的不确定性σ来降低误差项;当网络相信预测深度的准确性时,网络倾向于输出较小的σ从而降低logσ;因此,网络预测σ的大小可以在一定程度上反映深度误差的大小,于是在结合多个深度预测结果时希望给予不确定性较小的预测值以更大的权重值,假设K=4,计算深度预测值如公式(3)所示,上述不确定性引导的加权求和方式一方面能够有机地结合多种深度估计方式,取得更加准确的物体深度估计,另一方面对于潜在的不确定性误差也更加具有鲁棒性。
本申请实施例的基于解耦截断物体的单目三维物体检测方法,通过获取输入图像,提取输入图像的输入特征图;获取输入特征图中正常物体的三维中心投影,以及截断物体的二维中心连线与图像边界的交点表示;根据三维中心投影和所述交点表示,生成输入图像对应的物体关键点热图;对输入特征图分别进行二维检测、物体朝向、物体大小和物体深度处理,获取物体二维检测框、物体朝向信息、物体大小消息和物体深度信息生成三维检测结果。由此,对正常物体和截断物体采用了不同的关键点表示,实现了二者在空间位置上的解耦,不仅显著提升截断物体的定位精度,同时还能够避免正常物体的优化过程受到干扰,进一步提高整体的检测性能。
为了实现上述实施例,本申请还提出一种基于解耦截断物体的单目三维物体检测装置。
图7为本申请实施例提供的一种基于解耦截断物体的单目三维物体检测装置的结构示意图。
如图7所示,该基于解耦截断物体的单目三维物体检测装置包括:获取提取模块710、第一获取模块720、第一生成模块730、第二获取模块740和第二生成模块750。
获取提取模块710,用于获取输入图像,并提取所述输入图像的输入特征图。
第一获取模块720,用于获取所述输入特征图中正常物体的三维中心投影,以及截断物体的二维中心连线与图像边界的交点表示。
第一生成模块730,用于根据所述三维中心投影和所述交点表示,生成所述输入图像对应的物体关键点热图。
第二获取模块740,用于对所述输入特征图分别进行二维检测、物体朝向、物体大小和物体深度处理,获取物体二维检测框、物体朝向信息、物体大小消息和物体深度信息。
第二生成模块750,用于根据所述二维检测框、所述物体朝向信息、所述物体大小消息和所述物体深度信息,生成物体三维检测结果。
本申请实施例的基于解耦截断物体的单目三维物体检测装置,通过获取输入图像,提取输入图像的输入特征图;获取输入特征图中正常物体的三维中心投影,以及截断物体的二维中心连线与图像边界的交点表示;根据三维中心投影和所述交点表示,生成输入图像对应的物体关键点热图;对输入特征图分别进行二维检测、物体朝向、物体大小和物体深度处理,获取物体二维检测框、物体朝向信息、物体大小消息和物体深度信息生成三维检测结果。由此,对正常物体和截断物体采用了不同的关键点表示,实现了二者在空间位置上的解耦,不仅显著提升截断物体的定位精度,同时还能够避免正常物体的优化过程受到干扰,进一步提高整体的检测性能。
需要说明的是,前述对基于解耦截断物体的单目三维物体检测方法实施例的解释说明也适用于该实施例的基于解耦截断物体的单目三维物体检测装置,此处不再赘述。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于解耦截断物体的单目三维物体检测方法,其特征在于,包括以下步骤:
获取输入图像,并提取所述输入图像的输入特征图;
获取所述输入特征图中正常物体的三维中心投影,以及截断物体的二维中心连线与图像边界的交点表示,并根据所述三维中心投影和所述交点表示,生成所述输入图像对应的物体关键点热图;
对所述输入特征图分别进行二维检测、物体朝向、物体大小和物体深度处理,获取物体二维检测框、物体朝向信息、物体大小消息和物体深度信息;
根据所述二维检测框、所述物体朝向信息、所述物体大小消息和所述物体深度信息,生成三维检测结果。
3.如权利要求1所述的方法,其特征在,在生成所述输入图像对应的物体关键点热图之前,还包括:
提取所述输入特征图的边缘特征,将所述边缘特征按照逆时针顺序展平得到边缘特征向量;
利用一维卷积层对所述边缘特征向量进行处理和预测,输出的新特征图边缘;
将所述新特征图边缘与所述输入特征图的边缘特征进行相加、或替换所述输入特征图的边缘特征。
4.如权利要求1所述的方法,其特征在,所述对所述输入特征图进行二维检测处理,获取二维检测框,包括:
基于所述输入特征图,假设每个物体的目标二维检测框的左上角和右下角坐标分别为(u1,v1)和(u2,v2),所述每个物体的关键点表示为xr=(ur,vr);
二维检测建模为回归所述xr到所述目标二维检测框上下左右四条边的距离t,b,l,r,并通过第一范数损失函数进行优化处理,获取二维检测框;其中,t=vr-v1,b=v2-vr,l=ur-u1,r=u2-ur。
7.如权利要求1所述的方法,其特征在,对所述输入特征图进行物体深度处理,获取物体深度信息,包括
从所述输入特征图中获取预设数量关键点,将所述预设数量关键点划分为中心组、对角一组和对角二组;
基于所述中心组、对角一组和对角二组分别计算物体中心的深度,获取所述物体深度信息。
9.一种基于解耦截断物体的单目三维物体检测装置,其特征在于,包括:
获取提取模块,用于获取输入图像,并提取所述输入图像的输入特征图;
第一获取模块,用于获取所述输入特征图中正常物体的三维中心投影,以及截断物体的二维中心连线与图像边界的交点表示;
第一生成模块,用于根据所述三维中心投影和所述交点表示,生成所述输入图像对应的物体关键点热图;
第二获取模块,用于对所述输入特征图分别进行二维检测、物体朝向、物体大小和物体深度处理,获取物体二维检测框、物体朝向信息、物体大小消息和物体深度信息;
第二生成模块,用于根据所述二维检测框、所述物体朝向信息、所述物体大小消息和所述物体深度信息,生成三维检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110061352.8A CN112712062A (zh) | 2021-01-18 | 2021-01-18 | 基于解耦截断物体的单目三维物体检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110061352.8A CN112712062A (zh) | 2021-01-18 | 2021-01-18 | 基于解耦截断物体的单目三维物体检测方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112712062A true CN112712062A (zh) | 2021-04-27 |
Family
ID=75549237
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110061352.8A Withdrawn CN112712062A (zh) | 2021-01-18 | 2021-01-18 | 基于解耦截断物体的单目三维物体检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112712062A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117315402A (zh) * | 2023-11-02 | 2023-12-29 | 北京百度网讯科技有限公司 | 三维对象检测模型的训练方法及三维对象检测方法 |
-
2021
- 2021-01-18 CN CN202110061352.8A patent/CN112712062A/zh not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117315402A (zh) * | 2023-11-02 | 2023-12-29 | 北京百度网讯科技有限公司 | 三维对象检测模型的训练方法及三维对象检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mousavian et al. | 3d bounding box estimation using deep learning and geometry | |
Guerry et al. | Snapnet-r: Consistent 3d multi-view semantic labeling for robotics | |
CN106599108B (zh) | 一种三维环境中多模态环境地图构建方法 | |
Wu et al. | 6d-vnet: End-to-end 6-dof vehicle pose estimation from monocular rgb images | |
US8199977B2 (en) | System and method for extraction of features from a 3-D point cloud | |
US8340400B2 (en) | Systems and methods for extracting planar features, matching the planar features, and estimating motion from the planar features | |
CN111612728B (zh) | 一种基于双目rgb图像的3d点云稠密化方法和装置 | |
CN110879994A (zh) | 基于形状注意力机制的三维目测检测方法、系统、装置 | |
CN113408324A (zh) | 目标检测方法、装置及系统、高级驾驶辅助系统 | |
CN111126116A (zh) | 无人船河道垃圾识别方法及系统 | |
CN108805201A (zh) | 目标图像数据集生成方法及其装置 | |
CN116310837B (zh) | 一种sar舰船目标旋转检测方法及系统 | |
Rangesh et al. | Ground plane polling for 6dof pose estimation of objects on the road | |
CN113989758A (zh) | 一种用于自动驾驶的锚引导3d目标检测方法及装置 | |
CN112562001A (zh) | 一种物体6d位姿估计方法、装置、设备及介质 | |
CN117576665B (zh) | 一种面向自动驾驶的单摄像头三维目标检测方法及系统 | |
CN113723425A (zh) | 一种飞机型号识别方法、装置、存储介质及设备 | |
CN112712062A (zh) | 基于解耦截断物体的单目三维物体检测方法和装置 | |
CN112733971A (zh) | 扫描设备的位姿确定方法、装置、设备及存储介质 | |
Cui et al. | ACLC: Automatic Calibration for non-repetitive scanning LiDAR-Camera system based on point cloud noise optimization | |
CN115668282A (zh) | 图像处理系统和方法 | |
Yoruk et al. | Efficient object localization and pose estimation with 3D wireframe models | |
CN115937520A (zh) | 基于语义信息引导的点云运动目标分割方法 | |
Guo et al. | Efficient planar surface-based 3D mapping method for mobile robots using stereo vision | |
CN116343143A (zh) | 目标检测方法、存储介质、路侧设备及自动驾驶系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210427 |
|
WW01 | Invention patent application withdrawn after publication |