CN116362318A - 基于自适应深度修正的纯视觉三维目标检测方法和系统 - Google Patents
基于自适应深度修正的纯视觉三维目标检测方法和系统 Download PDFInfo
- Publication number
- CN116362318A CN116362318A CN202310323545.5A CN202310323545A CN116362318A CN 116362318 A CN116362318 A CN 116362318A CN 202310323545 A CN202310323545 A CN 202310323545A CN 116362318 A CN116362318 A CN 116362318A
- Authority
- CN
- China
- Prior art keywords
- depth
- layer
- image
- size
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 88
- 238000012937 correction Methods 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 claims abstract description 45
- 238000006243 chemical reaction Methods 0.000 claims abstract description 40
- 230000000007 visual effect Effects 0.000 claims abstract description 40
- 230000003044 adaptive effect Effects 0.000 claims description 45
- 230000004927 fusion Effects 0.000 claims description 36
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 claims description 21
- 240000004050 Pentaglottis sempervirens Species 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 12
- 238000002372 labelling Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 5
- 206010026749 Mania Diseases 0.000 claims description 3
- 230000007423 decrease Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 241000764238 Isis Species 0.000 abstract 1
- 230000006870 function Effects 0.000 description 29
- 230000008569 process Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
Description
技术领域
本发明属于计算机视觉和自动驾驶技术领域,更具体地,涉及一种基于自适应深度修正的纯视觉三维目标检测方法和系统。
背景技术
三维目标检测在自动驾驶感知层上的具体实现主要分为单模态和多模态。单模态指只利用相机或者激光雷达的数据进行检测,虽然单一数据可以使模型建模简单,但是两种单模态的感知算法都存在一定的固有缺陷。目前基于激光点云和基于多模态融合的三维目标检测算法经过不断地发展,已经达到了很高的准确度,而基于纯视觉的方法的效果与前者的对比依然存在比较大的差距,但是由于很多现实原因寻找能够替代激光雷达进行准确的三维目标检测的方法依然是非常必要的。第一,目前激光雷达的造价非常昂贵,市面上供汽车使用的激光雷达传感器基本都在万元以上,无论是对车企的成本,还是用户后期的维修代价都非常大,这必然会影响自动驾驶技术在现实生活中的普及;第二,激光雷达一般要放置在车身顶部,这也会影响自动驾驶车辆本身设计的美观性,从而影响其销量。而对于相机来说,目前供汽车使用的相机传感器只需几百元,更容易替换,这便可大大地降低车辆的制造成本与用户的后期维修费用,更利于自动驾驶技术的普及,并且相机可以嵌入在车身内部,不会对车的美观造成影响。所以,研究利用相机替代激光雷达来进行三维目标检测,具有非常大的现实价值和应用前景,将更有利于推动自动驾驶技术在现实生活中的普及。
以往基于纯视觉的三维目标检测方案通过拓展先进的二维目标检测方法来实现对三维目标的检测,这种方法是利用相机视角的二维特征去预测三维空间中的目标,视角的不统一会导致性能的受限。因此,最近很多方法开始尝试将RGB图像特征先转成鸟瞰特征,再在鸟瞰特征的基础上对三维目标进行检测,如CaDDN,BEVDet等模型,这种方案达到了相比以往方案更为优秀的检测性能,成为目前的主流方案。
然而,上述现有的三维目标检测方法均存在一些不可忽略的缺陷。第一,以往进行特征视角转换的模型(如CaDDN、BEVDet)在同一个网络内部同时实现深度预测任务和三位目标检测任务,会加重网络学习的负担,对深度信息学习的不准确,从而影响最终的三维目标检测性能;第二,特征的视角转换需要准确的深度信息,但目前的方法在网络的内部为低分辨率的图像特征预测深度信息,直接通过预测出来的深度分布去实现特征的视角转换,这种方法其实将深度预测与三维目标检测这两个不同的任务集成在同一个网络中去实现,会加重网络学习的负担,对深度的预测准确性较低,从而会影响最终的三维目标检测器的性能;第三,以往模型中对于深度分布的预测并没有先验分布的指引,未知的分布形式可能会导致RGB图像特征在转换到鸟瞰视角后产生大量的噪音特征,从而会对最终的三维目标检测产生影响。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于自适应深度修正的纯视觉三维目标检测方法。其目的在于,解决现有特征视角转换的模型在同一个网络内部同时实现深度预测任务和三位目标检测任务,会加重网络学习的负担,对深度信息学习的不准确,从而影响最终的三维目标检测性能的技术问题,以及现有特征的视角转换需要准确的深度信息,但目前的方法在网络的内部为低分辨率的图像特征预测深度信息,直接通过预测出来的深度分布去实现特征的视角转换,导致这种方法会加重网络学习的负担,对深度的预测准确性较低,从而会影响最终的三维目标检测器的性能的技术问题,以及现有模型中对于深度分布的预测并没有先验分布的指引,未知的分布形式可能会导致RGB图像特征在转换到鸟瞰视角后产生大量的噪音特征,从而会对最终的三维目标检测产生影响的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于自适应深度修正的纯视觉三维目标检测方法,包括以下步骤:
优选地,三维目标检测模型包括依次相连的图像特征编码网络、自适应深度修正网络、自适应视角转换网络、以及鸟瞰特征解码网络四个部分。
优选地,对于图像特征编码网络而言,其具体结构为:
第一层是特征抽取层,其从骨干网络提取下采样4倍的图像特征;具体而言,是从ResNet-101的block1阶段获取下采样四倍的图像特征大小为W×H×C,其中(W,H)代表图像特征的分辨率,C代表通道数。
优选地,自适应深度修正网络的具体结构为:
第一层是Sigmoid层,其输入为深度图,利用Sigmoid函数对深度图进行归一化,以得到归一化后的深度图,大小为W×H。
第二层是BroadcastAdd层,其输入是第一层得到的大小为W×H的归一化后的深度图和大小为W×H×C的图像特征F,对深度图和图像特征F进行广播式相加,以得到初步的深度融合特征,大小为W×H×C。
第三层为卷积层,其对第二层得到的初步的融合特征进行3×3的卷积操作,之后接上BatchNorm层进行归一化,然后再经过ReLU激活函数,得到图像与深度图最终的融合特征,大小为W×H×C。
第四层为深度偏差感知层,其利用1×1的卷积操作对第三层得到的融合特征进行卷积,以得到大小为W×H的深度偏差∈。
优选地,自适应视角转换网络的具体结构为:
第一层为深度分布参数图生成网络,其输入是自适应深度修正网络中第三层得到的融合特征,大小为W×H×C,利用1×1的卷积操作对其进行卷积,得到大小为W×H深度分布参数图,深度分布参数图中的每一个像素值代表这个像素对应的高斯分布标准差;
第二层为高斯深度分布生成网络,输入是自适应深度修正网络中的第五层得到的修正后的深度图,以及第一层得到的大小为W×H的深度分布参数图,输出是W×H×D的高斯深度分布。
第三层为特征视角转换层,输入是大小为W×H×C的图像特征和第二层得到的大小为W×H×D的高斯深度分布,经过相机转换矩阵与求和池化操作得到鸟瞰特征,大小为X×Y×C,通道数C=256。
优选地,鸟瞰特征解码网络的具体结构为:
第一层为鸟瞰特征抽取网络,输入是大小为X×Y×C的图像特征,经过三层卷积进行特征抽取得到最终的鸟瞰特征,形状为X×Y×C。
第二层为检测网络,输入是第一层得到的鸟瞰特征,形状为X×Y×C,将鸟瞰特征输入PointPillar的检测头,输出最终的三维目标的类别、长、宽、高、旋转角等结果。
优选地,三维目标检测模型是通过以下步骤训练得到的:
(3-4)将步骤(3-1)得到的深度图输入到自适应深度修正网络的第一层Sigmoid层进行归一化,并后将归一化后的深度图与步骤(3-3)中得到的图像特征F的每个通道进行逐像素的相加,以得到初步的深度图与图像的融合特征Finit。
(3-5)将步骤(3-4)得到初步的融合特征Finit输入到自适应深度修正网络的第三层进行3×3的卷积操作,之后接上BatchNorm层进行归一化,然后再经过ReLU激活函数,得到最终的图像与深度图的融合特征Ffus,大小为W×H×C。
(3-6)将步骤(3-5)中得到的融合特征Ffus输入到自适应深度修正网络的第四层进行1×1的卷积操作,以获取深度偏差∈,其大小为W×H;
(3-8)将步骤(3-5)中得到的融合特征Ffus输入到自适应视角转换网络的第一层进行1×1的卷积操作,以获取分布参数图σ,其大小为W×H;
(3-10)将步骤(3-3)中得到的图像特征F和步骤(3-9)得到的高斯深度分布τ作为输入,对两者进行外积,以获取加权后的像素特征;
(3-11)将步骤(3-10)得到的加权后的像素特征投射到三维空间,利用PointPillar的方法生成柱状体素网格,利用生成的柱状体素网格对投射后的像素特征进行划分,并对划分结果进行求和池化操作,以获取鸟瞰特征其大小为X×Y×C,通道数C=256。
(3-13)将(3-12)得到的最终的鸟瞰特征B输入输入鸟瞰特征解码网络的第二层,输出最终的三维目标的类别、长、宽、高和旋转角结果。
(3-14)根据步骤(3-13)得到的三维目标的类别、长、宽、高和旋转角计算损失函数,并利用该损失函数对三维目标检测模型进行迭代训练,直到该三维目标检测模型收敛为止,从而得到训练好的三维目标检测模型。
优选地,步骤(3-9)中Dist转换操作的计算公式如下:
其中代表像素坐标(u,v)深度为li的概率,duv代表像素位置为(u,v)的深度值,σuv代表像素位置为(u,v)的高斯分布标准差,li代表固定的离散深度,exp代表e为底的指数函数,ε代表最小数用来避免分母为0的情况,exp(x)为指数函数,公式表示如下:
exp(x)=ex
步骤(3-10)中的操作是按照如下公式:
优选地,损失函数是由三部分组成:第一个为三维目标框回归损失,第二个为目标类别预测损失,第三个为目标框朝向预测损失;
三维目标框回归损失采用Fast R-CNN中提出的smooth-L1损失函数,损失函数公式如下:
其中回归模型预测得到的三维目标预测框的参数值为(xp,yp,zp,wp,lp,hp,θp),三维标注框的参数值为(xg,yg,zg,wg,lg,hg,θg),x,y,z,w,l,h,θ分别代表三维框的中心点、长宽高以及方向角,p代表预测框的参数,g代表标注狂的参数,那么三维预测框和标注框之间的中心点回归残差可以表示为:
角度的回归残差可以表示为:
Δθ=sin(θg-θP),
则三维目标框回归损失可以表示为:
目标类别预测损失采用Focal Loss作为损失函数,具体的损失函数公式如下:
Lclass=-αt(1-pt)γlogpt,
其中系数αt为权重因子,用来控制正样本和负样本的权重,(1-pt)γ为调制系数,用来控制易分类样本和难分类样本的权重,pt为预测框类别的概率。
目标框朝向预测损失沿用PointPillars提出的方法回归两个维度值对方向进行预测,并用交叉熵损失进行约束得到损失函数为Ldirection,最终的损失函数可表示为:
其中Npos代表正样本框的数量,λ1,λ2,λ3分表代表各类损失的权重。
按照本发明的另一方面,提供了一种基于自适应深度修正的纯视觉三维目标检测系统,包括:
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明由于采用了步骤(1),利用专门的深度预测模型去预测深度,可以将深度预测任务与主体检测网络解耦,使主体网络专注于三维目标检测任务的学习,减轻网络的学习负担,因此能够解决现有方法(如CaDDN、BEVDet)中存在的网络学习负担过重的问题;
(2)本发明由于采用了步骤(3-4)到(3-7),其通过一个新颖的自适应深度修正模块,在主体网络的内部对图像特征与深度图进行融合,去自适应的感知一阶段深度与真实深度之间的偏差来对一阶段深度进行修正,更准确的深度信息可以显著提升三维目标检测器性能,因此能够解决现有方法由于深度预测不准而影响最终三维目标检测效果的技术问题;
(3)本发明由于采用了步骤(3-8)到(3-11),其设计了一个自适应视角转换模块,可以实现图像的相机视角特征到鸟瞰视角特征的有效转换。该模块的思想是以高斯分布作为先验分布指导的深度分布的生成,因此能够解决现有方法由于未知分布导致产生大量噪音特征的技术问题,可以有效地减少特征视角转换过程中噪音特征的生成;
(4)本发明具有非常好的通用性和有效性,在单目场景和多相机环视场景这两个场景下的实验都取得了比基准模型更优秀的检测效果,且可以无缝嵌入进许多具有视角转换过程的方法中。
附图说明
图1是本发明基于自适应深度修正的纯视觉三维目标检测方法的流程图;
图2是深度预测模型生成的深度图示例;
图3是本发明基于自适应深度修正的纯视觉三维目标检测方法的整体框架示意图;
图4是本发明自适应深度修正网络的框架示意图;
图5是本发明自适应视角转换网络的框架示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明的基本思路在于,从三个方面提升纯视觉场景下三维目标检测的效果。第一,考虑到目前主流方法将深度预测任务与三维目标检测任务统一在一个网络里实现,会加重网络学习的负担,本发明提出将深度预测任务与三维目标检测任务解耦,利用专门的深度预测模型去预测深度,让主体网络专注于对三维目标检测任务的学习,减轻主体网络的学习负担。第二,考虑到不准确的预测深度会对模型的性能产生影响,本发明设计了一个自适应深度修正模块对深度偏差进行感知,以获取更为准确的深度信息。第三,考虑到以往模型在进行特征视角转换的过程中会产生不确定的噪音特征,本发明提出了一个自适应视角转换模块来实现相机视角特征到鸟瞰视角特征的有效转换,以高斯分布作为先验分布指导深度分布的生成,减小噪音特征对模型性能的影响。最后在鸟瞰特征的基础上对三维物体的最终检测结果进行预测。
本发明目的在于,将深度预测任务与三维目标检测任务解耦,利用专门的深度预测模型去预测深度,减轻网络的学习负担,同时考虑到不准确的预测深度会影响模型的性能,设计了一个自适应深度修正模块对深度偏差进行感知,以获得更为准确的深度信息,考虑到以往模型的特征视角转换过程会产生不确定的噪音特征,提出了一个自适应视角转换模块来实现相机视角特征到鸟瞰视角特征的有效转换,以高斯分布作为先验分布指导深度分布的生成,减小噪音特征对模型性能的影响。
本发明分别在单目场景和多相机环视场景下进行了实验,都得到了不错的性能表现。在KITTI数据集上与基准模型相比,本发明在AP3D指标下的三种模式分别提升10.0%,3.02%和2.18%,在APBEV指标下的三种模式分别提升15.84%,7.58%和5.36%,在更大规模的NuScenes数据集上与基准模型相比,本方案在mAP和NDS指标上分别提升0.22%和0.06%,实验结果验证了本发明的有效性和通用性。
如图1所示,本发明提供了一种基于自适应深度修正的纯视觉三维目标检测方法,包括以下步骤:
本发明需要获得数据集每一张图像的深度图作为模型的一阶段深度。对于KITTI数据集,本发明利用提前训练好的单目深度预测模型DORN来对每张图像的深度进行实时预测,图2展示了KITTI数据集生成的深度图示例。
如图3所示,本发明的三维目标检测模型包括依次相连的图像特征编码网络、自适应深度修正网络、自适应视角转换网络、以及鸟瞰特征解码网络四个部分。
对于图像特征编码网络而言,其具体结构为:
第一层是特征抽取层,其从骨干网络(具体为ResNet-101)提取下采样4倍的图像特征。
图4展示了自适应深度修正网络,其具体结构为:
第一层是Sigmoid层,其输入为深度图(其和步骤(2)下采样后的深度图完全相同),利用Sigmoid函数对深度图进行归一化,以得到归一化后的深度图,大小为W×H。
第二层是BroadcastAdd层,其输入是第一层得到的大小为W×H的归一化后的深度图和大小为W×H×C的图像特征F,对深度图和图像特征F进行广播式相加(具体而言,深度图会与图像特征F的每一个通道进行逐像素相加),以得到初步的深度融合特征,大小为W×H×C。
第三层为卷积层,其对第二层得到的初步的融合特征进行3×3的卷积操作,之后接上BatchNorm层进行归一化,然后再经过ReLU激活函数,得到图像与深度图最终的融合特征,大小为W×H×C。
第四层为深度偏差感知层,其利用1×1的卷积操作对第三层得到的融合特征进行卷积,以得到大小为W×H的深度偏差∈。
经过自适应深度修正网络后,会得到更为准确的深度信息,减少预测深度与真实深度之间的偏差。
图5展示了自适应视角转换网络的基本框架,其具体结构为:
第一层为深度分布参数图生成网络,其输入是自适应深度修正网络中第三层得到的融合特征,大小为W×H×C,利用1×1的卷积操作对其进行卷积,得到大小为W×H深度分布参数图,对于深度分布参数图中的每一个像素值代表这个像素对应的高斯分布标准差。
第二层为高斯深度分布生成网络,输入是自适应深度修正网络中的第五层得到的修正后的深度图,以及第一层得到的大小为W×H的深度分布参数图,输出是W×H×D的高斯深度分布。
本层通过将高斯分布作为先验分布,指导深度分布的生成,可以减少噪音特征的产生。
第三层为特征视角转换层,输入是大小为W×H×C的图像特征和第二层得到的大小为W×H×D的高斯深度分布,经过相机转换矩阵与求和池化操作得到鸟瞰特征,大小为X×Y×C,通道数C=256。
对于鸟瞰特征解码网络而言,其具体结构为:
第一层为鸟瞰特征抽取网络,输入是大小为X×Y×C的图像特征,经过三层卷积进行特征抽取得到最终的鸟瞰特征,形状为X×Y×C。
第二层为检测网络,输入是第一层得到的鸟瞰特征,形状为X×Y×C,将鸟瞰特征输入PointPillar的检测头,输出最终的三维目标的类别、长、宽、高、旋转角等结果。
具体而言,本发明的三维目标检测模型是通过以下步骤训练得到的:
本步骤中为图像数据集生成深度图的过程和上述步骤(1)完全相同,深度图降采样过程和上述步骤(2)完全相同,在此不再赘述;
步骤(3-2)的优点在于,可以保持较高的图像特征分辨率,在之后步骤(3-11)的视角转换过程后,鸟瞰特征会有更丰富的特征信息。
(3-4)将步骤(3-1)得到的深度图D输入到自适应深度修正网络的第一层Sigmoid层进行归一化,并后将归一化后的深度图与步骤(3-3)中得到的图像特征F的每个通道进行逐像素的相加,以得到初步的深度图与图像的融合特征Finit。
(3-5)将步骤(3-4)得到初步的融合特征Finit输入到自适应深度修正网络的第三层进行3×3的卷积操作,之后接上BatchNorm层进行归一化,然后再经过ReLU激活函数,得到最终的图像与深度图的融合特征Ffus,大小为W×H×C。
步骤(3-5)的优点在于,经过以上深度信息融合步骤,就可以得到深度与图像抽象的融合特征。
(3-6)将步骤(3-5)中得到的融合特征Ffus输入到自适应深度修正网络的第四层进行1×1的卷积操作,以获取深度偏差∈,其大小为W×H;
本步骤中得到的深度偏差与深度图的大小相同。
步骤(3-6)的优点在于,没有任何先验条件和额外的损失对深度偏差的预测进行约束,可以让网络自适应的去学习预测深度与真实深度之间的偏差。
上述步骤(3-4)到步骤(3-7)的优点在于,可以让网络自适应的去感知预测深度和真实深度之间的偏差情况,对深度进一步修正,得到更准确的深度信息。
(3-8)将步骤(3-5)中得到的融合特征Ffus输入到自适应视角转换网络的第一层进行1×1的卷积操作,以获取分布参数图σ,其大小为W×H;
具体而言,本步骤中Dist转换操作的计算公式如下:
其中代表像素坐标(u,v)深度为li的概率,duv代表像素位置为(u,v)的深度值,σuv代表像素位置为(u,v)的高斯分布标准差,li代表固定的离散深度,exp代表e为底的指数函数,ε代表最小数用来避免分母为0的情况,exp(x)为指数函数,公式表示如下:
exp(x)=ex.
步骤(3-9)的优点在于,以高斯分布作为先验分布,指导深度分布的生成,可以有效减少噪音特征的产生,减少噪音特征对检测性能的影响。
(3-10)将步骤(3-3)中得到的图像特征F和步骤(3-9)得到的高斯深度分布τ作为输入,对两者进行外积,以获取加权后的像素特征;
具体而言,本步骤的操作是按照如下公式:
(3-11)将步骤(3-10)得到的加权后的像素特征投射到三维空间,利用PointPillar的方法生成柱状体素网格,利用生成的柱状体素网格对投射后的像素特征进行划分,并对划分结果进行求和池化操作,以获取鸟瞰特征其大小为X×Y×C,通道数C=256。
上述步骤(3-8)到步骤(3-11)的优点在于,利用高斯分布来指导深度分布的生产,可以有效减少特征的视角转换过程中噪音特征的产生。(3-12)将(3-11)得到的鸟瞰特征输入鸟瞰特征解码网络的第一层,经过三层卷积进行特征抽取,以获取最终的鸟瞰特征B,其形状为X×Y×C。
(3-13)将(3-12)得到的最终的鸟瞰特征B输入输入鸟瞰特征解码网络的第二层,输出最终的三维目标的类别、长、宽、高和旋转角结果。
(3-14)根据步骤(3-13)得到的三维目标的类别、长、宽、高和旋转角计算损失函数,并利用该损失函数对三维目标检测模型进行迭代训练,直到该三维目标检测模型收敛为止,从而得到训练好的三维目标检测模型。
本步骤使用的损失函数由三部分组成:第一个为三维目标框回归损失,第二个为目标类别预测损失,第三个为目标框朝向预测损失。
对于三维目标框回归损失采用Fast R-CNN中提出的smooth-L1损失函数,损失函数公式如下:
设回归模型预测得到的三维目标预测框的参数值为(xp,yp,zp,wp,lp,hp,θp),三维标注框的参数值为(xg,yg,zg,wg,lg,hg,θg),其中x,y,z,w,l,h,θ分别代表三维框的中心点、长宽高以及方向角,p代表预测框的参数,g代表标注狂的参数,那么三维预测框和标注框之间的中心点回归残差可以表示为:
角度的回归残差可以表示为:
Δθ=sin(θg-θP),
则三维目标框回归损失可以表示为:
对于目标类别预测损失,采用Focal Loss作为损失函数,具体的损失函数公式如下:
Lclass=-αt(1-pt)γlogpt,
其中系数αt为权重因子,用来控制正样本和负样本的权重,(1-pt)γ为调制系数,用来控制易分类样本和难分类样本的权重,pt为预测框类别的概率。
对于目标框朝向预测损失,本发明沿用PointPillars提出的方法回归两个维度值对方向进行预测,并用交叉熵损失进行约束得到损失函数为Ldirection,则最终的损失函数可表示为
其中Npos代表正样本框的数量,λ1,λ2,λ3分表代表各类损失的权重。
实验结果
表1展示了本发明中的模型ADCNet与CaDDN在KITTI数据集下的实验结果对比,设定IoU阈值为0.7。可以发现在骨干网络、回归头,超参数设置和训练策略对齐的情况下,ADCNet的预测性能比CaDDN有了大幅的提升。在AP3D指标下,“简单easy”,“适中moderate”,“困难hard”三种困难模式分别提升10%、3.02%和2.18%,特别是在APBEV指标下,“简单easy”,“适中moderate”,“困难hard”三种模式分别提升15.84%、7.58%和5.36%,这充分展示了本方法的有效性,更准确的深度信息使得物体的定位更为的准确。
表1
表2展示了本发明中的模型ADCNet与BEVDet在NuScenes数据集下的实验结果对比,其中Size代表输入模型的图像分辨率,Param代表模型参数量。可以发现在骨干网络、回归头、损失函数、超参数设置、训练策略以及输入分辨率对齐的情况下,与BEVDet模型相比ADCNet获得了更好的性能,模型参数量只略微增加2.03M。
表2
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
2.根据权利要求1所述的基于自适应深度修正的纯视觉三维目标检测方法,其特征在于,三维目标检测模型包括依次相连的图像特征编码网络、自适应深度修正网络、自适应视角转换网络、以及鸟瞰特征解码网络四个部分。
4.根据权利要求1至3中任意一项所述的基于自适应深度修正的纯视觉三维目标检测方法,其特征在于,自适应深度修正网络的具体结构为:
第一层是Sigmoid层,其输入为深度图,利用Sigmoid函数对深度图进行归一化,以得到归一化后的深度图,大小为W×H。
第二层是BroadcastAdd层,其输入是第一层得到的大小为W×H的归一化后的深度图和大小为W×H×C的图像特征F,对深度图和图像特征F进行广播式相加,以得到初步的深度融合特征,大小为W×H×C。
第三层为卷积层,其对第二层得到的初步的融合特征进行3×3的卷积操作,之后接上BatchNorm层进行归一化,然后再经过ReLU激活函数,得到图像与深度图最终的融合特征,大小为W×H×C。
第四层为深度偏差感知层,其利用1×1的卷积操作对第三层得到的融合特征进行卷积,以得到大小为W×H的深度偏差∈。
5.根据权利要求4所述的基于自适应深度修正的纯视觉三维目标检测方法,其特征在于,自适应视角转换网络的具体结构为:
第一层为深度分布参数图生成网络,其输入是自适应深度修正网络中第三层得到的融合特征,大小为W×H×C,利用1×1的卷积操作对其进行卷积,得到大小为W×H深度分布参数图,深度分布参数图中的每一个像素值代表这个像素对应的高斯分布标准差;
第二层为高斯深度分布生成网络,输入是自适应深度修正网络中的第五层得到的修正后的深度图,以及第一层得到的大小为W×H的深度分布参数图,输出是W×H×D的高斯深度分布。
第三层为特征视角转换层,输入是大小为W×H×C的图像特征和第二层得到的大小为W×H×D的高斯深度分布,经过相机转换矩阵与求和池化操作得到鸟瞰特征,大小为X×Y×C,通道数C=256。
6.根据权利要求5所述的基于自适应深度修正的纯视觉三维目标检测方法,其特征在于,鸟瞰特征解码网络的具体结构为:
第一层为鸟瞰特征抽取网络,输入是大小为X×Y×C的图像特征,经过三层卷积进行特征抽取得到最终的鸟瞰特征,形状为X×Y×C。
第二层为检测网络,输入是第一层得到的鸟瞰特征,形状为Y×Y×C,将鸟瞰特征输入PointPillar的检测头,输出最终的三维目标的类别、长、宽、高、旋转角等结果。
7.根据权利要求6所述的基于自适应深度修正的纯视觉三维目标检测方法,其特征在于,三维目标检测模型是通过以下步骤训练得到的:
(3-1)获取图像将图像/>输入训练好的深度预测模型,以得到该图像对应的深度图并对该深度图进行下采样,以得到下采样后的深度图/>(3-2)将步骤(3-1)得到的图像输入图像特征编码网络的第一层,提取抽象的图像特征/>大小为W×H×C,(W×H)代表图像特征的分辨率,C代表通道数;
(3-4)将步骤(3-1)得到的深度图D输入到自适应深度修正网络的第一层Sigmoid层进行归一化,并后将归一化后的深度图与步骤(3-3)中得到的图像特征F的每个通道进行逐像素的相加,以得到初步的深度图与图像的融合特征Finit。
(3-5)将步骤(3-4)得到初步的融合特征Finit输入到自适应深度修正网络的第三层进行3×3的卷积操作,之后接上BatchNorm层进行归一化,然后再经过ReLU激活函数,得到最终的图像与深度图的融合特征Ffus,大小为W×H×C。
(3-6)将步骤(3-5)中得到的融合特征Ffus输入到自适应深度修正网络的第四层进行1×1的卷积操作,以获取深度偏差∈,其大小为W×H;
(3-8)将步骤(3-5)中得到的融合特征Ffus输入到自适应视角转换网络的第一层进行1×1的卷积操作,以获取分布参数图σ,其大小为W×H;
(3-10)将步骤(3-3)中得到的图像特征F和步骤(3-9)得到的高斯深度分布τ作为输入,对两者进行外积,以获取加权后的像素特征;
(3-11)将步骤(3-10)得到的加权后的像素特征投射到三维空间,利用PointPillar的方法生成柱状体素网格,利用生成的柱状体素网格对投射后的像素特征进行划分,并对划分结果进行求和池化操作,以获取鸟瞰特征其大小为X×Y×C,通道数C=256。
(3-13)将(3-12)得到的最终的鸟瞰特征B输入输入鸟瞰特征解码网络的第二层,输出最终的三维目标的类别、长、宽、高和旋转角结果。
(3-14)根据步骤(3-13)得到的三维目标的类别、长、宽、高和旋转角计算损失函数,并利用该损失函数对三维目标检测模型进行迭代训练,直到该三维目标检测模型收敛为止,从而得到训练好的三维目标检测模型。
9.根据权利要求8所述的基于自适应深度修正的纯视觉三维目标检测方法,其特征在于,
损失函数是由三部分组成:第一个为三维目标框回归损失,第二个为目标类别预测损失,第三个为目标框朝向预测损失;
三维目标框回归损失采用Fast R-CNN中提出的smooth-L1损失函数,损失函数公式如下:
其中回归模型预测得到的三维目标预测框的参数值为(xp,yp,zp,wp,lp,hp,θp),三维标注框的参数值为(xg,yg,zg,wg,lg,hg,θg),x,y,z,w,l,h,θ分别代表三维框的中心点、长宽高以及方向角,p代表预测框的参数,g代表标注狂的参数,那么三维预测框和标注框之间的中心点回归残差可以表示为:
角度的回归残差可以表示为:
Δθ=sin(θg-θP),
则三维目标框回归损失可以表示为:
目标类别预测损失采用Focal Loss作为损失函数,具体的损失函数公式如下:
Lclass=-αt(1-pt)γlogpt,
其中系数αt为权重因子,用来控制正样本和负样本的权重,(1-pt)γ为调制系数,用来控制易分类样本和难分类样本的权重,pt为预测框类别的概率。
目标框朝向预测损失沿用PointPillars提出的方法回归两个维度值对方向进行预测,并用交叉熵损失进行约束得到损失函数为Ldirection,最终的损失函数可表示为:
其中Npos代表正样本框的数量,λ1,λ2,λ3分表代表各类损失的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310323545.5A CN116362318B (zh) | 2023-03-30 | 2023-03-30 | 基于自适应深度修正的纯视觉三维目标检测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310323545.5A CN116362318B (zh) | 2023-03-30 | 2023-03-30 | 基于自适应深度修正的纯视觉三维目标检测方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116362318A true CN116362318A (zh) | 2023-06-30 |
CN116362318B CN116362318B (zh) | 2024-02-06 |
Family
ID=86907030
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310323545.5A Active CN116362318B (zh) | 2023-03-30 | 2023-03-30 | 基于自适应深度修正的纯视觉三维目标检测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116362318B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117315402A (zh) * | 2023-11-02 | 2023-12-29 | 北京百度网讯科技有限公司 | 三维对象检测模型的训练方法及三维对象检测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120293624A1 (en) * | 2011-05-19 | 2012-11-22 | Himax Technologies Limited | System and method of revising depth of a 3d image pair |
CN113344998A (zh) * | 2021-06-25 | 2021-09-03 | 北京市商汤科技开发有限公司 | 深度检测方法、装置、计算机设备及存储介质 |
CN113936139A (zh) * | 2021-10-29 | 2022-01-14 | 江苏大学 | 一种视觉深度信息与语义分割相结合的场景鸟瞰图重构方法及系统 |
CN115249269A (zh) * | 2022-07-08 | 2022-10-28 | 北京迈格威科技有限公司 | 目标检测方法、计算机程序产品、存储介质及电子设备 |
CN115861632A (zh) * | 2022-12-20 | 2023-03-28 | 清华大学 | 一种基于图卷积的视觉激光融合的三维目标检测方法 |
US20230099113A1 (en) * | 2021-09-29 | 2023-03-30 | Beijing Baidu Netcom Science Technology Co., Ltd. | Training method and apparatus for a target detection model, target detection method and apparatus, and medium |
-
2023
- 2023-03-30 CN CN202310323545.5A patent/CN116362318B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120293624A1 (en) * | 2011-05-19 | 2012-11-22 | Himax Technologies Limited | System and method of revising depth of a 3d image pair |
CN113344998A (zh) * | 2021-06-25 | 2021-09-03 | 北京市商汤科技开发有限公司 | 深度检测方法、装置、计算机设备及存储介质 |
US20230099113A1 (en) * | 2021-09-29 | 2023-03-30 | Beijing Baidu Netcom Science Technology Co., Ltd. | Training method and apparatus for a target detection model, target detection method and apparatus, and medium |
CN113936139A (zh) * | 2021-10-29 | 2022-01-14 | 江苏大学 | 一种视觉深度信息与语义分割相结合的场景鸟瞰图重构方法及系统 |
CN115249269A (zh) * | 2022-07-08 | 2022-10-28 | 北京迈格威科技有限公司 | 目标检测方法、计算机程序产品、存储介质及电子设备 |
CN115861632A (zh) * | 2022-12-20 | 2023-03-28 | 清华大学 | 一种基于图卷积的视觉激光融合的三维目标检测方法 |
Non-Patent Citations (1)
Title |
---|
ASRA ASLAM 等: "Depth-Map Generation using Pixel Matching in Stereoscopic Pair of Images", Retrieved from the Internet <URL:https://arxiv.org/pdf/1902.03471.pdf> * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117315402A (zh) * | 2023-11-02 | 2023-12-29 | 北京百度网讯科技有限公司 | 三维对象检测模型的训练方法及三维对象检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116362318B (zh) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113159151B (zh) | 面向自动驾驶的多传感器深度融合3d目标检测方法 | |
US10353271B2 (en) | Depth estimation method for monocular image based on multi-scale CNN and continuous CRF | |
CN110689008A (zh) | 一种面向单目图像的基于三维重建的三维物体检测方法 | |
Biasutti et al. | Lu-net: An efficient network for 3d lidar point cloud semantic segmentation based on end-to-end-learned 3d features and u-net | |
CN116385761A (zh) | 一种融合rgb与红外信息的3d目标检测方法 | |
CN115205633A (zh) | 基于鸟瞰图对比学习的自动驾驶多模态自监督预训练方法 | |
CN116612468A (zh) | 基于多模态融合与深度注意力机制的三维目标检测方法 | |
CN116362318B (zh) | 基于自适应深度修正的纯视觉三维目标检测方法和系统 | |
EP3992909A1 (en) | Two-stage depth estimation machine learning algorithm and spherical warping layer for equi-rectangular projection stereo matching | |
Liu et al. | Uniseg: A unified multi-modal lidar segmentation network and the openpcseg codebase | |
CN115330935A (zh) | 一种基于深度学习的三维重建方法及系统 | |
CN115578416A (zh) | 一种无人机目标跟踪方法、系统、介质及电子设备 | |
US12079970B2 (en) | Methods and systems for semantic scene completion for sparse 3D data | |
CN113327271B (zh) | 基于双光孪生网络决策级目标跟踪方法、系统及存储介质 | |
CN112529011B (zh) | 目标检测方法及相关装置 | |
US20220164595A1 (en) | Method, electronic device and storage medium for vehicle localization | |
CN115082902B (zh) | 一种基于激光雷达点云的车辆目标检测方法 | |
Zhang et al. | Depth Monocular Estimation with Attention-based Encoder-Decoder Network from Single Image | |
CN115909255B (zh) | 图像生成、图像分割方法、装置、设备、车载终端及介质 | |
CN116704307A (zh) | 基于图像虚拟点云与激光点云融合的目标检测方法及系统 | |
Ai et al. | MVTr: multi-feature voxel transformer for 3D object detection | |
CN116466320A (zh) | 目标检测方法及装置 | |
CN114372944B (zh) | 一种多模态和多尺度融合的候选区域生成方法及相关装置 | |
Li et al. | Study on semantic image segmentation based on convolutional neural network | |
Ran et al. | Few-shot depth completion using denoising diffusion probabilistic model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |