CN112712062A - 基于解耦截断物体的单目三维物体检测方法和装置 - Google Patents

基于解耦截断物体的单目三维物体检测方法和装置 Download PDF

Info

Publication number
CN112712062A
CN112712062A CN202110061352.8A CN202110061352A CN112712062A CN 112712062 A CN112712062 A CN 112712062A CN 202110061352 A CN202110061352 A CN 202110061352A CN 112712062 A CN112712062 A CN 112712062A
Authority
CN
China
Prior art keywords
dimensional
depth
input
offset
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110061352.8A
Other languages
English (en)
Inventor
鲁继文
周杰
张云鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202110061352.8A priority Critical patent/CN112712062A/zh
Publication of CN112712062A publication Critical patent/CN112712062A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本申请提出一种基于解耦截断物体的单目三维物体检测方法和装置,涉及计算机视觉技术领域,其中,方法包括:提取输入图像的输入特征图;获取输入特征图中正常物体的三维中心投影,以及截断物体的二维中心连线与图像边界的交点表示;根据三维中心投影和所述交点表示,生成输入图像对应的物体关键点热图;对输入特征图分别进行二维检测、物体朝向、物体大小和物体深度处理,获取物体二维检测框、物体朝向信息、物体大小消息和物体深度信息,从而得到物体的三维检测框。由此,对正常物体和截断物体采用了不同的关键点表示,实现了二者在空间位置上的解耦,不仅显著提升截断物体的定位精度,同时还能够避免正常物体的优化过程受到干扰,进一步提高整体的检测性能。

Description

基于解耦截断物体的单目三维物体检测方法和装置
技术领域
本申请涉及计算机视觉、深度学习技术领域,尤其涉及一种基于解耦截断物体的单目三维物体检测方法和装置。
背景技术
随着计算机性能的提升、大规模数据集的出现和深度学习的发展,基于图像的二维目标检测算法已经取得了长足的发展,并广泛应用于视频监控、工业检测、图像检索等领域。然而二维检测无法对真实的三维世界进行感知,同时在自动驾驶、无人配送等应用场景下都需要对环境中的物体进行三维定位,这也就催生了更具有挑战性的三维目标检测问题。
三维目标检测需要对物体的空间位置、朝向和大小进行估计,其中,位置表现为相机坐标系下物体的(x,y,z)坐标,朝向通常表现为物体在水平方向上的方位角,大小则为物体的长宽高尺度信息。相对于二维检测中仅需要像素位置、像素中心等四个自由度的信息,三维目标检测则需要对物体的七个自由度进行求解。目前三维目标检测方法的输入模态主要包括激光雷达点云、双目图像、单目图像等,尽管基于雷达点云或双目图像的方法能够取得更好的检测精度,它们对于硬件也具有更高的需求,极大地提升了系统的部署成本。相对而言,单目三维检测是硬件要求更低、难度更高的一种问题设置;在这种情况下,三维世界的深度信息是完全丧失的,算法仅能够依靠图像中的外观信息和真实世界先验信息来实现物体的三维检测。
由于单目三维检测低廉的部署成本,近年来出现了一系列基于深度学习的算法研究。相关技术中,比如首先将深度学习应用于单目三维检测问题,利用地面先验采样大量的三维候选框,然后基于语义分割、实例分割、形状、背景特征、位置先验等信息对这些候选框进行打分以过滤大量负样本,接下来又采用R-CNN对候选框进一步分类和校正,得到检测结果。然而该打分过程依赖多个预训练模型,增加了数据标注的成本,同时密集采样的策略也使得效率较低。
然而,目前已有的方法通常采用统一的框架对所有的物体进行检测,未能充分考虑物体之间的差异性。特别地,截断物体(即位于图像边界附近而部分可见的物体)作为一类检测难度较大而又非常重要的物体,与正常物体存在可见性上的显著差异,这导致目前方法在截断物体的检测上表现较差。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种基于解耦截断物体的单目三维物体检测方法,解决目前单目三维检测算法对于截断物体表现较差的技术问题。
本申请的第二个目的在于提出一种基于解耦截断物体的单目三维物体检测装置。
为达上述目的,本申请第一方面实施例提出了一种基于解耦截断物体的单目三维物体检测方法,包括:
获取输入图像,并提取所述输入图像的输入特征图;
获取所述输入特征图中正常物体的三维中心投影,以及截断物体的二维中心连线与图像边界的交点表示;
根据所述三维中心投影和所述交点表示,生成所述输入图像对应的物体关键点热图;
对所述输入特征图分别进行二维检测、物体朝向、物体大小和物体深度处理,获取物体二维检测框、物体朝向信息、物体大小消息和物体深度信息;
根据所述二维检测框、所述物体朝向信息、所述物体大小消息和所述物体深度信息,生成三维检测结果。
本申请实施例的基于解耦截断物体的单目三维物体检测方法,通过获取输入图像,提取输入图像的输入特征图;获取输入特征图中正常物体的三维中心投影,以及截断物体的二维中心连线与图像边界的交点表示;根据三维中心投影和所述交点表示,生成输入图像对应的物体关键点热图;对输入特征图分别进行二维检测、物体朝向、物体大小和物体深度处理,获取物体二维检测框、物体朝向信息、物体大小消息和物体深度信息生成三维检测结果。由此,对正常物体和截断物体采用了不同的关键点表示,实现了二者在空间位置上的解耦,不仅显著提升截断物体的定位精度,同时还能够避免正常物体的优化过程受到干扰,进一步提高整体的检测性能。
可选地,在本申请的一个实施例中,在生成所述输入图像对应的物体关键点热图之前,还包括:
获取所述正常物体的第一中心偏移量;
获取所述截断物体的第二中心偏移量;
采用第一范数损失函数对所述第一中心偏移量进行优化处理,以及采用对数第一范数损失函数对所述第二中心偏移量进行优化处理;
其中,损失函数为:
Figure BDA0002902769970000021
其中,
Figure BDA0002902769970000036
Figure BDA0002902769970000038
分别为预测偏移量和目标偏移量。
可选地,在本申请的一个实施例中,在生成所述输入图像对应的物体关键点热图之前,还包括:
提取所述输入特征图的边缘特征,将所述边缘特征按照逆时针顺序展平得到边缘特征向量;
利用一维卷积层对所述边缘特征向量进行处理和预测,输出的新特征图边缘;
将所述新特征图边缘与所述输入特征图的边缘特征进行相加、或替换所述输入特征图的边缘特征。
可选地,在本申请的一个实施例中,所述对所述输入特征图进行二维检测处理,获取二维检测框,包括:
基于所述输入特征图,假设每个物体的目标二维检测框的左上角和右下角坐标分别为(u1,v1)和(u2,v2),所述每个物体的关键点表示为xr=(ur,vr);
二维检测建模为回归所述xr到所述目标二维检测框上下左右四条边的距离t,b,l,r,并通过第一范数损失函数进行优化处理,获取二维检测框;其中,t=vr-v1,b=v2-vr,l=ur-u1,r=u2-ur
可选地,在本申请的一个实施例中,对所述输入特征图进行物体大小处理,获取物体大小信息,包括:
基于所述输入特征的数据集统计了长、宽、高的类内均值
Figure BDA0002902769970000037
对每个物体回归相对于所述类内均值的变化量δl,δw,δh,并利用第一范数损失函数进行优化处理,获取物体大小信息;
其中,假设所述每个物体的真实大小表示为l*,w*,h*,作为回归目标的相对变化计算如下:
Figure BDA0002902769970000031
可选地,在本申请的一个实施例中,对所述输入特征图进行物体朝向处理,获取物体朝向信息,包括:
根据所述输入特征图判断每个物体朝向θ属于的区域序号,回归从所述区域序号相应区域中心点到所述θ的偏移量δθ
分别采用交叉熵损失和第一范数损失进行优化处理,获取所述u物体朝向信息;其中,总的损失函数表示如下:
Figure BDA0002902769970000032
其中,b*表示物体属于的区域序号,
Figure BDA0002902769970000033
表示对应的网络预测的概率;
Figure BDA0002902769970000034
Figure BDA0002902769970000035
分别表示预测角度偏移量和目标角度偏移量;λ为调整分类损失和回归损失的相对权重。
可选地,在本申请的一个实施例中,对所述输入特征图进行物体深度处理,获取物体深度信息,包括
从所述输入特征图中获取预设数量关键点,将所述预设数量关键点划分为中心组、对角一组和对角二组;
基于所述中心组、对角一组和对角二组分别计算物体中心的深度,获取所述物体深度信息。
可选地,在本申请的一个实施例中,在计算所述物体深度信息的过程中,还包括:
获取不确定项:
Figure BDA0002902769970000041
其中,
Figure BDA0002902769970000042
z*表示预测深度值和目标深度值,σ为衡量所述预测深度值
Figure BDA0002902769970000044
的不确定性;
预测深度值和相应的不确定性为{(zi,σi)|i=1,...,K},深度预测值zp为:
Figure BDA0002902769970000043
为达上述目的,本申请第二方面实施例提出了一种基于解耦截断物体的单目三维物体检测装置,包括:
获取提取模块,用于获取输入图像,并提取所述输入图像的输入特征图;
第一获取模块,用于获取所述输入特征图中正常物体的三维中心投影,以及截断物体的二维中心连线与图像边界的交点表示;
第一生成模块,用于根据所述三维中心投影和所述交点表示,生成所述输入图像对应的物体关键点热图;
第二获取模块,用于对所述输入特征图分别进行二维检测、物体朝向、物体大小和物体深度处理,获取物体二维检测框、物体朝向信息、物体大小消息和物体深度信息;
第二生成模块,用于根据所述二维检测框、所述物体朝向信息、所述物体大小消息和所述物体深度信息,生成三维检测结果。
本申请实施例的基于解耦截断物体的单目三维物体检测装置,通过获取输入图像,提取输入图像的输入特征图;获取输入特征图中正常物体的三维中心投影,以及截断物体的二维中心连线与图像边界的交点表示;根据三维中心投影和所述交点表示,生成输入图像对应的物体关键点热图;对输入特征图分别进行二维检测、物体朝向、物体大小和物体深度处理,获取物体二维检测框、物体朝向信息、物体大小消息和物体深度信息生成三维检测结果。由此,对正常物体和截断物体采用了不同的关键点表示,实现了二者在空间位置上的解耦,不仅显著提升截断物体的定位精度,同时还能够避免正常物体的优化过程受到干扰,进一步提高整体的检测性能。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例一所提供的一种基于解耦截断物体的单目三维物体检测方法的流程示意图;
图2为本申请实施例的检测结果对比示例图;
图3为本申请实施例的三维物体检测示例图;
图4为本申请实施例的截断物体表示示例图;
图5为本申请实施例的物体关键点示例图;
图6为本申请实施例的关键点深度计算示例图;
图7为本申请实施例所提供的一种基于解耦截断物体的单目三维物体检测装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的基于解耦截断物体的单目三维物体检测方法和装置。
图1为本申请实施例一所提供的一种基于解耦截断物体的单目三维物体检测方法的流程示意图。
具体地,针对单目三维检测算法对于截断物体表现较差的问题,截断物体的准确定位在自动驾驶等实际引用场景下具有重要的安全意义。本申请提出的方法通过分析截断物体与正常物体之间的本质差异,为两类物体提出了不同的关键点表示方法,并显式地在网络中将两类物体的特征学习和预测输出进行解耦,同时将物体深度的估计建模为直接回归和几何求解等多种方法的自适应集成。这种解耦的思想不仅能够显著提升截断物体的定位精度,同时还能够避免正常物体的优化过程受到干扰,进一步提高整体的检测性能。
如图1所示,该基于解耦截断物体的单目三维物体检测方法包括以下步骤:
步骤101,获取输入图像,并提取输入图像的输入特征图。
步骤102,获取输入特征图中正常物体的三维中心投影,以及截断物体的二维中心连线与图像边界的交点表示,并根据三维中心投影和交点表示,生成输入图像对应的物体关键点热图。
在本申请实施例中,对正常物体和截断物体采用了不同的关键点表示方法:前者由其三维中心在图像上的投影表示,而后者则由三维中心投影和二维中心连线与图像边界的交点表示;在这种设置下,两类物体的关键点表示分别位于图像内部和图像边缘,实现了二者在空间位置上的解耦,以及在网络预测中引入了边缘特征增强模块,使得边缘位置上的特征学习和预测受益于额外的卷积层参数,这进一步实现了截断物体检测在网络参数上的解耦,进一步地对于正常物体和截断物体的位置预测采用了不同的回归损失函数,实现了损失函数优化上的解耦,并且提升了训练过程的稳定性,最后以不确定性作为引导结合了多种物体深度估计方法来产生最终的三维位置预测,相对于单一方式更加准确和稳定。
由此,可以实现仅仅需要单张彩色图片作为输入即可输出图片内感兴趣物体的三维检测框,从而感知物体的三维位置、朝向和物理尺寸。本发明不仅在检测精度上达到了目前单目三维检测方法的先进水平,同时在现代GPU上还具有实时的运算效率。
具体地,基于对物体间差异、尤其是截断物体的特性分析,比如图2所示,是本申请与目前先进算法的检测结果对比,图3是本申请的流程示例图。
需要说明的是,由于三维物体检测可以分解为三维位置、朝向和大小,而三维位置又可以进一步由物体三维中心的投影和物体深度推导得到,因此物体检测可以分解为四个子任务;本申请主要针对物体三维中心投影和物体深度两个子任务做出优化。在估计三维中心的图像投影时,本申请考虑到截断物体的长尾分布特性,提出了解耦的关键点表示和特征学习模块;在估计物体深度时,本申请还提出了一种基于不确定性的集成学习方法,通过自适应地结合多种深度估计方式来实现准确的空间定位。
具体地,首先卷积网络从输入图像中提取多层次特征得到特征图,卷积检测头基于特征图进一步预测物体关键点热图和物体属性图。在该框架下每个物体由单个关键点表示(如物体的二维中心),并通过物体关键点热图的局部峰值进行预测;物体属性图则对物体的各个属性进行预测,如物体的大小、朝向、二维检测框、深度等信息。
因此,关键点热图是物体检测中的核心部分,其目的是基于图像纹理信息判断前景部分并进行图像层面的物体定位,采用了不同的关键点对正常物体和截断物体进行表示。对于正常物体,直接预测其三维中心在图像上的投影xc;对于截断物体,由于其三维中心投影xc超出了图像边界,选择预测xc和物体二维中心xb连线与图像边界的交点xI,如图4所示,对于一张输入图像,每个物体以自身的关键点表示(xc或xI)为中心产生二维高斯分布,从而得到目标的物体关键点热图,如图3中所示,关键点热图预测利用了范数损失作为损失函数进行优化。
在本申请的实施例中,在生成输入图像对应的物体关键点热图之前,还包括:获取正常物体的第一中心偏移量;获取截断物体的第二中心偏移量;采用第一范数损失函数对第一中心偏移量进行优化处理,以及采用对数第一范数损失函数对所述第二中心偏移量进行优化处理;
其中,损失函数为:
Figure BDA0002902769970000071
其中,
Figure BDA0002902769970000074
Figure BDA0002902769970000075
分别为预测偏移量和目标偏移量。
具体地,由于量化误差和截断物体的近似表示,关键点热图的峰值并不能完全地给出物体三维中心的投影xc,因此仍需要回归从关键点到xc的中心偏移量δc。假设网络输出的降采样比例为S,那么对于正常物体来说偏移量可以计算如下:
Figure BDA0002902769970000072
截断物体的中心偏移量则计算如下:
Figure BDA0002902769970000073
由于正常物体的偏移量尺度较小而截断物体的偏移量尺度和方差均较大,两种偏移量分别采用了L1范数损失和对数L1范数损失进行优化,使用对数损失可以有效缓解尺度变化的影响,同时对离群点更加鲁棒。
在本申请实施例中,在生成输入图像对应的物体关键点热图之前,还包括:提取输入特征图的边缘特征,将边缘特征按照逆时针顺序展平得到边缘特征向量;利用一维卷积层对边缘特征向量进行处理和预测,输出的新特征图边缘;将新特征图边缘与输入特征图的边缘特征进行相加、或替换输入特征图的边缘特征。
具体地,由于关键点热图和中心偏移量的预测需要兼顾分布差异较大的正常物体和截断物体,我们采用了边缘特征增强模块以实现截断物体在特征学习和预测输出上的解耦。如图3右上角所示,该模块首先提取输入特征图的边缘——即四条边上的特征,然后将其按照逆时针顺序展平得到边缘特征向量,接下来利用一维卷积层对该边缘特征进行处理和预测,最后将输出的边缘向量重新变形成特征图的边缘,并与原来的边缘特征进行相加(关键点热图)或直接进行替代(偏移量估计)。
步骤103,对输入特征图分别进行二维检测、物体朝向、物体大小和物体深度处理,获取物体二维检测框、物体朝向信息、物体大小消息和物体深度信息。
步骤104,根据二维检测框、物体朝向信息、物体大小消息和物体深度信息,生成物体三维检测结果,即物体对应的三维检测框。
在本申请实施例中,基于输入特征图,假设每个物体的目标二维检测框的左上角和右下角坐标分别为(u1,v1)和(u2,v2),每个物体的关键点表示为xr=(ur,vr);二维检测建模为回归所述xr到目标二维检测框上下左右四条边的距离t,b,l,r,并通过第一范数损失函数进行优化处理,获取二维检测框;其中,t=vr-v1,b=v2-vr,l=ur-u1,r=u2-ur
在本申请实施例中,基于输入特征的数据集统计了长、宽、高的类内均值
Figure BDA0002902769970000076
对每个物体回归相对于类内均值的变化量δl,δw,δh,并利用第一范数损失函数进行优化处理,获取物体大小信息;其中,假设每个物体的真实大小表示为l*,w*,h*,作为回归目标的相对变化计算如下:
Figure BDA0002902769970000081
在本申请实施例中,根据输入特征图判断每个物体朝向θ属于的区域序号,回归从区域序号相应区域中心点到θ的偏移量δθ;分别采用交叉熵损失和第一范数损失进行优化处理,荻取所述u物体朝向信息;其中,总的损失函数表示如下:
Figure BDA0002902769970000082
其中,b*表示物体属于的区域序号,
Figure BDA0002902769970000083
表示对应的网络预测的概率;
Figure BDA0002902769970000084
Figure BDA0002902769970000085
分别表示预测角度偏移量和目标角度偏移量;λ为调整分类损失和回归损失的相对权重。
具体地,由于直接回归物体的水平朝向角θ比较困难,将(-π,π]的角度范围均匀离散化为四个区域(-π,-π/2],(-π/2,0],(0,π/2],(π/2,π];对于每个物体,首先判断物体朝向θ属于的区域序号,然后再回归从相应区域中心点到θ的偏移量δθ,这种先分类再回归偏移量的方式有效地降低了搜索空间,从而提升了朝向回归的准确性。朝向分类和回归分别采用交叉熵损失和L1范数损失进行优化。
在本申请实施例中,从输入特征图中获取预设数量关键点,将预设数量关键点划分为中心组、对角一组和对角二组;基于中心组、对角一组和对角二组分别计算物体中心的深度,获取物体深度信息。
在本申请实施例中,在计算物体深度信息的过程中,还包括:
获取不确定项:
Figure BDA0002902769970000086
其中,
Figure BDA0002902769970000087
z*表示预测深度值和目标深度值,σ为衡量预测深度值
Figure BDA00029027699700000812
的不确定性;
预测深度值和相应的不确定性为{(zi,σi)|i=1,...,K},深度预测值zp为:
Figure BDA0002902769970000088
具体地,为了提升物体深度估计的准确性,在网络中同时通过多种方式预测了物体的深度,并基于不确定性将它们结合起来得到最终的深度预测,如图3下部所示。深度估计方式主要包括两类:直接回归深度和基于投影原理从关键点和物体大小计算深度。由于物体深度是一个尺度较大的非负数,采取了如下方式将网络输出zo变换为真正的深度
Figure BDA0002902769970000089
Figure BDA00029027699700000810
具体地,对于基于关键点的深度计算方式,首先回归了如图5所示的十个关键点,包括三维检测框的八个顶k1,...,k8以及下/上两个平面的中心k9,k10。根据投影原理,在相机焦距f已知时,物体深度可以通过三维检测框的像素高度hI和实际高度h计算得到:
Figure BDA00029027699700000811
其中,H为网络预测的物体高度,hI则由预测的成对关键点计算得到。如图6所示,十个关键点可以分为中心组、对角一组、对角二组以分别计算物体中心的深度,其中对角组需要首先从四个关键点求得两条对角高的深度,再平均得到中心深度。综上所述,一共具有四种计算物体中心深度的方式,包括直接回归深度和从三组关键点求解深度。深度回归和关键点位置回归均通过L1范数损失进行优化,由于从关键点求解深度是一种间接的方式,还额外利用L1范数损失直接监督了从关键点求解的深度值。
具体地,该不确定性是在网络优化深度损失函数过程中自我学习的。当网络对预测缺乏信心、即认为深度误差项
Figure BDA0002902769970000091
将会较大时,网络就会输出较大的不确定性σ来降低误差项;当网络相信预测深度的准确性时,网络倾向于输出较小的σ从而降低logσ;因此,网络预测σ的大小可以在一定程度上反映深度误差的大小,于是在结合多个深度预测结果时希望给予不确定性较小的预测值以更大的权重值,假设K=4,计算深度预测值如公式(3)所示,上述不确定性引导的加权求和方式一方面能够有机地结合多种深度估计方式,取得更加准确的物体深度估计,另一方面对于潜在的不确定性误差也更加具有鲁棒性。
本申请实施例的基于解耦截断物体的单目三维物体检测方法,通过获取输入图像,提取输入图像的输入特征图;获取输入特征图中正常物体的三维中心投影,以及截断物体的二维中心连线与图像边界的交点表示;根据三维中心投影和所述交点表示,生成输入图像对应的物体关键点热图;对输入特征图分别进行二维检测、物体朝向、物体大小和物体深度处理,获取物体二维检测框、物体朝向信息、物体大小消息和物体深度信息生成三维检测结果。由此,对正常物体和截断物体采用了不同的关键点表示,实现了二者在空间位置上的解耦,不仅显著提升截断物体的定位精度,同时还能够避免正常物体的优化过程受到干扰,进一步提高整体的检测性能。
为了实现上述实施例,本申请还提出一种基于解耦截断物体的单目三维物体检测装置。
图7为本申请实施例提供的一种基于解耦截断物体的单目三维物体检测装置的结构示意图。
如图7所示,该基于解耦截断物体的单目三维物体检测装置包括:获取提取模块710、第一获取模块720、第一生成模块730、第二获取模块740和第二生成模块750。
获取提取模块710,用于获取输入图像,并提取所述输入图像的输入特征图。
第一获取模块720,用于获取所述输入特征图中正常物体的三维中心投影,以及截断物体的二维中心连线与图像边界的交点表示。
第一生成模块730,用于根据所述三维中心投影和所述交点表示,生成所述输入图像对应的物体关键点热图。
第二获取模块740,用于对所述输入特征图分别进行二维检测、物体朝向、物体大小和物体深度处理,获取物体二维检测框、物体朝向信息、物体大小消息和物体深度信息。
第二生成模块750,用于根据所述二维检测框、所述物体朝向信息、所述物体大小消息和所述物体深度信息,生成物体三维检测结果。
本申请实施例的基于解耦截断物体的单目三维物体检测装置,通过获取输入图像,提取输入图像的输入特征图;获取输入特征图中正常物体的三维中心投影,以及截断物体的二维中心连线与图像边界的交点表示;根据三维中心投影和所述交点表示,生成输入图像对应的物体关键点热图;对输入特征图分别进行二维检测、物体朝向、物体大小和物体深度处理,获取物体二维检测框、物体朝向信息、物体大小消息和物体深度信息生成三维检测结果。由此,对正常物体和截断物体采用了不同的关键点表示,实现了二者在空间位置上的解耦,不仅显著提升截断物体的定位精度,同时还能够避免正常物体的优化过程受到干扰,进一步提高整体的检测性能。
需要说明的是,前述对基于解耦截断物体的单目三维物体检测方法实施例的解释说明也适用于该实施例的基于解耦截断物体的单目三维物体检测装置,此处不再赘述。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于解耦截断物体的单目三维物体检测方法,其特征在于,包括以下步骤:
获取输入图像,并提取所述输入图像的输入特征图;
获取所述输入特征图中正常物体的三维中心投影,以及截断物体的二维中心连线与图像边界的交点表示,并根据所述三维中心投影和所述交点表示,生成所述输入图像对应的物体关键点热图;
对所述输入特征图分别进行二维检测、物体朝向、物体大小和物体深度处理,获取物体二维检测框、物体朝向信息、物体大小消息和物体深度信息;
根据所述二维检测框、所述物体朝向信息、所述物体大小消息和所述物体深度信息,生成三维检测结果。
2.如权利要求1所述的方法,其特征在,在生成所述输入图像对应的物体关键点热图之前,还包括:
获取所述正常物体的第一中心偏移量;
获取所述截断物体的第二中心偏移量;
采用第一范数损失函数对所述第一中心偏移量进行优化处理,以及采用对数第一范数损失函数对所述第二中心偏移量进行优化处理;
其中,损失函数为:
Figure FDA0002902769960000011
其中,
Figure FDA0002902769960000012
Figure FDA0002902769960000013
分别为预测偏移量和目标偏移量。
3.如权利要求1所述的方法,其特征在,在生成所述输入图像对应的物体关键点热图之前,还包括:
提取所述输入特征图的边缘特征,将所述边缘特征按照逆时针顺序展平得到边缘特征向量;
利用一维卷积层对所述边缘特征向量进行处理和预测,输出的新特征图边缘;
将所述新特征图边缘与所述输入特征图的边缘特征进行相加、或替换所述输入特征图的边缘特征。
4.如权利要求1所述的方法,其特征在,所述对所述输入特征图进行二维检测处理,获取二维检测框,包括:
基于所述输入特征图,假设每个物体的目标二维检测框的左上角和右下角坐标分别为(u1,v1)和(u2,v2),所述每个物体的关键点表示为xr=(ur,vr);
二维检测建模为回归所述xr到所述目标二维检测框上下左右四条边的距离t,b,l,r,并通过第一范数损失函数进行优化处理,获取二维检测框;其中,t=vr-v1,b=v2-vr,l=ur-u1,r=u2-ur
5.如权利要求1所述的方法,其特征在,对所述输入特征图进行物体大小处理,获取物体大小信息,包括:
基于所述输入特征的数据集统计了长、宽、高的类内均值
Figure FDA0002902769960000021
对每个物体回归相对于所述类内均值的变化量δl,δw,δh,并利用第一范数损失函数进行优化处理,获取物体大小信息;
其中,假设所述每个物体的真实大小表示为l*,w*,h*,作为回归目标的相对变化计算如下:
Figure FDA0002902769960000022
6.如权利要求1所述的方法,其特征在,对所述输入特征图进行物体朝向处理,获取物体朝向信息,包括:
根据所述输入特征图判断每个物体朝向θ属于的区域序号,回归从所述区域序号相应区域中心点到所述θ的偏移量δθ
分别采用交叉熵损失和第一范数损失进行优化处理,获取所述u物体朝向信息;其中,总的损失函数表示如下:
Figure FDA0002902769960000023
其中,b*表示物体属于的区域序号,
Figure FDA0002902769960000024
表示对应的网络预测的概率;
Figure FDA0002902769960000025
Figure FDA0002902769960000026
分别表示预测角度偏移量和目标角度偏移量;λ为调整分类损失和回归损失的相对权重。
7.如权利要求1所述的方法,其特征在,对所述输入特征图进行物体深度处理,获取物体深度信息,包括
从所述输入特征图中获取预设数量关键点,将所述预设数量关键点划分为中心组、对角一组和对角二组;
基于所述中心组、对角一组和对角二组分别计算物体中心的深度,获取所述物体深度信息。
8.如权利要求7所述的方法,其特征在,在计算所述物体深度信息的过程中,还包括:
获取不确定项:
Figure FDA0002902769960000031
其中,
Figure FDA0002902769960000032
z*表示预测深度值和目标深度值,σ为衡量所述预测深度值
Figure FDA0002902769960000037
的不确定性;
预测深度值和相应的不确定性为{(zi,σi)|i=1,...,K},深度预测值zp为:
Figure FDA0002902769960000033
9.一种基于解耦截断物体的单目三维物体检测装置,其特征在于,包括:
获取提取模块,用于获取输入图像,并提取所述输入图像的输入特征图;
第一获取模块,用于获取所述输入特征图中正常物体的三维中心投影,以及截断物体的二维中心连线与图像边界的交点表示;
第一生成模块,用于根据所述三维中心投影和所述交点表示,生成所述输入图像对应的物体关键点热图;
第二获取模块,用于对所述输入特征图分别进行二维检测、物体朝向、物体大小和物体深度处理,获取物体二维检测框、物体朝向信息、物体大小消息和物体深度信息;
第二生成模块,用于根据所述二维检测框、所述物体朝向信息、所述物体大小消息和所述物体深度信息,生成三维检测结果。
10.如权利要求9所述的装置,其特征在,还包括:
第三获取模块,用于获取所述正常物体的第一中心偏移量和所述截断物体的第二中心偏移量;
处理模块,用于采用第一范数损失函数对所述第一中心偏移量进行优化处理,以及采用对数第一范数损失函数对所述第二中心偏移量进行优化处理;
其中,损失函数为:
Figure FDA0002902769960000034
其中,
Figure FDA0002902769960000035
Figure FDA0002902769960000036
分别为预测偏移量和目标偏移量。
CN202110061352.8A 2021-01-18 2021-01-18 基于解耦截断物体的单目三维物体检测方法和装置 Withdrawn CN112712062A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110061352.8A CN112712062A (zh) 2021-01-18 2021-01-18 基于解耦截断物体的单目三维物体检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110061352.8A CN112712062A (zh) 2021-01-18 2021-01-18 基于解耦截断物体的单目三维物体检测方法和装置

Publications (1)

Publication Number Publication Date
CN112712062A true CN112712062A (zh) 2021-04-27

Family

ID=75549237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110061352.8A Withdrawn CN112712062A (zh) 2021-01-18 2021-01-18 基于解耦截断物体的单目三维物体检测方法和装置

Country Status (1)

Country Link
CN (1) CN112712062A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117315402A (zh) * 2023-11-02 2023-12-29 北京百度网讯科技有限公司 三维对象检测模型的训练方法及三维对象检测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117315402A (zh) * 2023-11-02 2023-12-29 北京百度网讯科技有限公司 三维对象检测模型的训练方法及三维对象检测方法

Similar Documents

Publication Publication Date Title
Mousavian et al. 3d bounding box estimation using deep learning and geometry
Guerry et al. Snapnet-r: Consistent 3d multi-view semantic labeling for robotics
CN106599108B (zh) 一种三维环境中多模态环境地图构建方法
Wu et al. 6d-vnet: End-to-end 6-dof vehicle pose estimation from monocular rgb images
US8199977B2 (en) System and method for extraction of features from a 3-D point cloud
US8340400B2 (en) Systems and methods for extracting planar features, matching the planar features, and estimating motion from the planar features
CN111612728B (zh) 一种基于双目rgb图像的3d点云稠密化方法和装置
CN110879994A (zh) 基于形状注意力机制的三维目测检测方法、系统、装置
CN113408324A (zh) 目标检测方法、装置及系统、高级驾驶辅助系统
CN111126116A (zh) 无人船河道垃圾识别方法及系统
CN108805201A (zh) 目标图像数据集生成方法及其装置
CN116310837B (zh) 一种sar舰船目标旋转检测方法及系统
Rangesh et al. Ground plane polling for 6dof pose estimation of objects on the road
CN113989758A (zh) 一种用于自动驾驶的锚引导3d目标检测方法及装置
CN112562001A (zh) 一种物体6d位姿估计方法、装置、设备及介质
CN117576665B (zh) 一种面向自动驾驶的单摄像头三维目标检测方法及系统
CN113723425A (zh) 一种飞机型号识别方法、装置、存储介质及设备
CN112712062A (zh) 基于解耦截断物体的单目三维物体检测方法和装置
CN112733971A (zh) 扫描设备的位姿确定方法、装置、设备及存储介质
Cui et al. ACLC: Automatic Calibration for non-repetitive scanning LiDAR-Camera system based on point cloud noise optimization
CN115668282A (zh) 图像处理系统和方法
Yoruk et al. Efficient object localization and pose estimation with 3D wireframe models
CN115937520A (zh) 基于语义信息引导的点云运动目标分割方法
Guo et al. Efficient planar surface-based 3D mapping method for mobile robots using stereo vision
CN116343143A (zh) 目标检测方法、存储介质、路侧设备及自动驾驶系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210427

WW01 Invention patent application withdrawn after publication