CN117437512A - 一种目标检测方法、装置、设备及可读存储介质 - Google Patents

一种目标检测方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN117437512A
CN117437512A CN202311434947.9A CN202311434947A CN117437512A CN 117437512 A CN117437512 A CN 117437512A CN 202311434947 A CN202311434947 A CN 202311434947A CN 117437512 A CN117437512 A CN 117437512A
Authority
CN
China
Prior art keywords
features
image
spherical
depth
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311434947.9A
Other languages
English (en)
Inventor
龚湛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN202311434947.9A priority Critical patent/CN117437512A/zh
Publication of CN117437512A publication Critical patent/CN117437512A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Image Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种目标检测方法、装置、设备及可读存储介质,该方法包括:获取若干个机位的图像采集设备所采集的图像序列;利用神经网络提取图像序列的图像特征,并对图像特征进行增强和深度预测,得到图像增强特征和深度图;利用球形编解码器提取图像序列的球形特征后,对球形特征进行辐射场采样,得到体密度和语义特征;融合图像增强特征、深度图、体密度和语义特征,得到鸟瞰图特征;利用检测头对鸟瞰图特征进行立体目标检测,得到立体目标检测结果。技术效果:在本申请中,检测头进行检测,会因该鸟瞰图特征融合的多种特征,能够关注多种不同特征维度的信息,能够有效提高立体目标检测结果的精度。

Description

一种目标检测方法、装置、设备及可读存储介质
技术领域
本申请涉及智能交通技术领域,特别是涉及一种目标检测方法、装置、设备及可读存储介质。
背景技术
自动驾驶系统包括感知、规划、控制三个部分。自动驾驶系统感知部分为自动驾驶汽车提供大量信息输入。感知系统是指自动驾驶车辆通过摄像头、雷达等各类传感器对周围环境进行感知,其不仅需要准确地识别出周围环境中的车辆、行人、障碍物、交通标识等,还需要对其进行准确的定位、速度预测等。由于摄像头成本较低,所以基于纯相机的自动驾驶3D(3-dimension,三维/立体)目标检测算法一直被学术界和工业界的广泛关注。
基于纯相机的自动驾驶3D目标检测是指通过输入图像数据,预测3D目标的属性信息的任务。感知系统通过读取相机图像信息,输出检测目标在3维空间中的信息,以便驾驶车辆后续进一步的进行决策规划。3D目标检测在现实世界坐标中预测的几何信息可以直接用于测量本车与关键目标之间的距离,并进一步帮助规划行驶路线和避免碰撞。
现有的基于纯视觉数据的3D目标检测技术基本上通过常规的图像特征提取,然后多相机映射到BEV(Bird-eye’s-view,鸟瞰图视角)特征,解码后接上3D检测头进行目标预测。这类方法总体上可以完成3D目标检测,但是在实际应用中仍然有许多的问题,其难点主要在于:遮挡,如目标物体相互遮挡和目标物体被背景遮挡;截断,部分物体被图片截断,在图片中只能显示部分物体;小目标,相对输入图片大小,目标物体所占像素点极少;缺失深度信息,2维图片相对于激光数据存在信息稠密、成本低的优势,但是也存在缺失深度信息的缺点等。所以在部分场景精度依然不理想。
综上所述,如何有效地解决多机位图像中的目标检测问题,是目前本领域技术人员急需解决的技术问题。
发明内容
本申请的目的是提供一种目标检测方法、装置、设备及可读存储介质,能够针对多机位采集而得的图像序列,检测出精准的立体目标检测结果。
为解决上述技术问题,本申请提供如下技术方案:
一种目标检测方法,包括:
获取若干个机位的图像采集设备所采集的图像序列;
利用神经网络提取所述图像序列的图像特征,并对所述图像特征进行增强和深度预测,得到图像增强特征和深度图;
利用球形编解码器提取所述图像序列的球形特征后,对所述球形特征进行辐射场采样,得到体密度和语义特征;
融合所述图像增强特征、所述深度图、所述体密度和所述语义特征,得到鸟瞰图特征;
利用检测头对所述鸟瞰图特征进行立体目标检测,得到立体目标检测结果。
优选地,所述球形编解码器包括编码器和解码器,所述利用球形编解码器提取所述图像序列的球形特征,包括:
利用所述编码器对所述图像序列的图像特征点进行编码,得到编码结果;
根据所述图像采集设备的水平角和垂直角,进行球形坐标映射,得到对应球形点坐标特征;
利用所述解码器,并结合所述球形点坐标特征对所述编码结果进行解码,得到所述球形特征。
优选地,对所述球形特征进行辐射场采样,得到体密度和语义特征,包括:
利用辐射场采样算法模块,将所述球形特征的每个特征点发射预设条数的光线,且每一条所述光线上具有预设数量的高斯深度分布点,每个所述高斯深度分布点上具有预设数量的深度分布点;
利用多层感知器,对投射后的所述球形特征进行预测,得到所述体密度和所述语义特征。
优选地,所述利用多层感知器,对投射后的所述球形特征进行预测,得到所述体密度和所述语义特征,包括:
将所述深度分布点与所述图像序列的深度进行比较,得到深度差值;
基于所述深度差值,对所述多层感知器进行迭代优化;
在预测点的真与真值的实际差值达到最小的情况下,得到能够预测所述高斯深度分布点的最佳权重值;
利用所述多层感知器,结合所述最佳权重值对投射后的所述球形特征进行预测,得到所述体密度和所述语义特征。
优选地,对所述球形特征进行辐射场采样,得到体密度和语义特征,包括:
利用辐射场采样算法模块,将所述球形特征的每个特征点发射预设条数的光线,且每一条所述光线上具有预设数量的高斯深度分布点,每个所述高斯深度分布点上具有预设数量的深度分布点;
利用多层感知器,对投射后的所述球形特征进行预测,得到初始体密度和初始语义特征;
将初始体密度输入至第一层神经网络进行深度估计,得到第一深度预测图;
将所述第一深度预测图与所述第一层神经网络输出的特征,在特征通道进行级联连,输入到第二层级联的审计网络中,得到第二深度预测图;
利用所述第二深度预测图,预测新深度分布点;
利用所述辐射场采样算法模块,将所述球形特征的每个特征点发射预设条数的光线,且每一条所述光线上具有预设数量的高斯深度分布点,每个所述高斯深度分布点上具有预设数量的所述新深度分布点;
利用所述多层感知器,对重新投射后的所述球形特征进行预测,得到所述体密度和所述语义特征。
优选地,所述融合所述图像增强特征、所述深度图、所述体密度和所述语义特征,得到鸟瞰图特征,包括:
获取鸟瞰图位置特征和所述图像采集设备的相机参数;
结合所述鸟瞰图位置特征和所述相机参数,对所述图像增强特征和所述深度图进行乘积处理,得到第一特征;
结合所述鸟瞰图位置特征,对所述体密度和所述语义特征进行乘积处理,得到第二特征;
叠加所述第一特征和所述第二特征,并将叠加结果输入至鸟瞰图编码器中进行解码处理,得到所述鸟瞰图特征。
优选地,所述获取若干个机位的图像采集设备所采集的图像序列,包括:
从自动驾驶车辆上的感知系统中,获取所述图像序列;
相应地,得到所述立体目标检测结果之后,还包括:
利用所述立体目标检测结果确定所述自动驾驶车辆与检测目标之间的位置关系;
基于所述位置关系,规划所述自动驾驶车辆的行驶路线和碰撞规避。
一种目标检测装置,包括:
图像采集模块,用于获取若干个机位的图像采集设备所采集的图像序列;
常规图像处理模块,用于利用神经网络提取所述图像序列的图像特征,并对所述图像特征进行增强和深度预测,得到图像增强特征和深度图;
神经辐射场处理模块,用于利用球形编解码器提取所述图像序列的球形特征后,对所述球形特征进行辐射场采样,得到体密度和语义特征;
特征融合模块,用于融合所述图像增强特征、所述深度图、所述体密度和所述语义特征,得到鸟瞰图特征;
检测模块,用于利用检测头对所述鸟瞰图特征进行立体目标检测,得到立体目标检测结果。
一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述目标检测方法的步骤。
一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述目标检测方法的步骤。
应用本申请实施例所提供的方法,获取若干个机位的图像采集设备所采集的图像序列;利用神经网络提取图像序列的图像特征,并对图像特征进行增强和深度预测,得到图像增强特征和深度图;利用球形编解码器提取图像序列的球形特征后,对球形特征进行辐射场采样,得到体密度和语义特征;融合图像增强特征、深度图、体密度和语义特征,得到鸟瞰图特征;利用检测头对鸟瞰图特征进行立体目标检测,得到立体目标检测结果。
在本申请中,当获取到若干个机位的图像采集设备所采集的图像序列之后,对该图像序列进行处理,分为两个分支,其一为普通图像处理分支,其二为神经辐射场处理分支。在普通图像处理分支中,首先利用神经网络提取图像序列的图像特征,然后对图像特征进行增强和深度预测,得到图像增强特征和深度图。对于神经辐射场处理分支,利用球形编解码器提取图像序列的球形特征后,对球形特征进行辐射场采样,得到体密度和语义特征。两个分支通过融合后,可以得到鸟瞰图特征。最终,检测头对该鸟瞰图特征进行检测处理,则可获得立体目标检测结果。由于,在本申请中,该鸟瞰图特征是结合了普通图像处理分支和神经辐射场处理分支输出特征,因而,该检测头进行检测,会因该鸟瞰图特征融合的多种特征,能够关注多种不同特征维度的信息,能够有效提高立体目标检测结果的精度。
相应地,本申请实施例还提供了与上述目标检测方法相对应的目标检测装置、设备和可读存储介质,具有上述技术效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中一种目标检测方法的实施流程图;
图2为本申请实施例中一种目标检测方法的实施示意图;
图3为本申请实施例中一种辐射场采样示意图;
图4为本申请实施例中一种深度优化示意图;
图5为本申请实施例中一种目标检测装置的结构示意图;
图6为本申请实施例中一种电子设备的结构示意图;
图7为本申请实施例中一种电子设备的具体结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参考图1,图1为本申请实施例中一种目标检测方法的流程图,该方法包括以下步骤:
S101、获取若干个机位的图像采集设备所采集的图像序列。
其中,这若干个机位的图像采集设备可以具体为自动驾驶车辆的感知系统中的摄像设备,如相机、摄影机等。
具体的,图像采集设备可以分别为位于不同的机位的多个相机,例如,图像采集设备可以具体为6个不同机位的相机。当然,在实际应用中,图像采集设备的数量以及机位的具体位置可以根据实际需求进行设置和调整,在此不做限定。下面将图像采集设备具体为相机为例,进行详细说明。
在获取图像序列时,可以直接利用图像采集设备进行拍照,也可以与连接了这若干个图像采集设备的一个设备进行通信,从而获得该图像序列,也可以直接读取存储了图像序列的存储器。下面将以I表征图像序列。
S102、利用神经网络提取图像序列的图像特征,并对图像特征进行增强和深度预测,得到图像增强特征和深度图。
步骤S102即对应图2中的常规图像分支。即,可以利用图像特征提取模块获取多个相机的图像序列I,分别通过深度神经网络进行图像特征提取,获得图像特征其中n代表相机数量,HF,WF代表图像特征的尺度,C代表图像特征的通道数,R代表实数空间,表明Fm是n*H*W*C的4维实数数组,n是相机数量(一般6或8);H和W分别是图片宽高像素点,640*1600。
提取到图像特征Fm后,可由图像特征增强模块和特征图深度预测模块分别进行特征增强处理和深度预测处理,从而得到图像增强特征和深度图。
其中,图像特征增强模块通过多层神经网络,进一步提升图像特征表达能力,得到增强图像特征图特征图深度预测模块为多层神经网络,通过图像特征Fm,获得图像特征图对应的深度图/>其中,D为将深度量化个数,即为将指定深度[depthmin,depthmax]分为D个单元,在第i个单元上的值表示当前特征点深度值在第i个单元深度范围内的概率。最后通过图像特征映射将增强的图像特征图F和预测的深度图Depth,生成图像坐标系下的3D特征/>具体地讲,FI中的每个点特征FI(u,v,i)=Depth(u,v,i)×F(u,v),其中,u,v分别对应H,W上点的坐标,例如分别从0-80和0-200(假设此处640*1600已经降采样到80*200),i表示深度列表上的序号,如0至64。
S103、利用球形编解码器提取图像序列的球形特征后,对球形特征进行辐射场采样,得到体密度和语义特征。
需要注意的是,在实际应用中,步骤S102与步骤S103可以并行执行,也可以串行执行,二者的执行顺序不影响最终结果,即仅需要要求在执行步骤S104之前,完成步骤S102与步骤S103的执行即可。
其中,神经辐射场(Neural Radiance Fields,NeRF)是一种计算机图形学技术,能够生成高度逼真的3D场景。它通过深度学习的方法从2D(2维)图片中学习,并生成连续的3D场景模型。相比使用离散化的网格或体素表示场景,NeRF的连续函数表示具有优势,并能够从任意角度渲染,产生令人惊叹的高质量渲染效果。在光学中,辐射一词通常用于描述光(或更一般地,电磁波)的传播。具体来说,给定空间中的一个点和一个方向,辐射描述的是从这个点沿这个方向传播的光的强度或能量。在许多情况下,更关心的是光度,即人眼对光的感知,这包括光的颜色和亮度。辐射场则是一个更高级别的概念。一个辐射场实际上是一个定义在空间中的函数,它给出了在每一个空间点、每一个方向上的辐射(或光度)。这就是3D辐射场的定义。具体到计算机图形学和计算机视觉中,3D辐射场被用来表示和渲染3D场景。3D辐射场描述了3D空间中光的分布和行为的方式。具体来说,它为3D空间中的每一个点分配了一个颜色和一个透明度(或者说体密度)值。颜色描述了从该点射出的光的颜色,而透明度描述了光线穿过该点时被吸收或散射的程度。
如图2所示,步骤S103即对应神经辐射场处理分支,即通过引入神经辐射场技术,进一步提取图像特征。此分支包括特殊的球形编解码模块和辐射场采样模块。
球形编解码器的输入可以为图像序列本身,也可以为该图像序列的图像特征,输出即为图像序列的球形特征。
得到球形特征之后,可对球形特征进行辐射场采样,从而得到体密度和语义特征
在本申请中的一种具体实施方式中,球形编解码器包括编码器和解码器,利用球形编解码器提取图像序列的球形特征,包括:
利用编码器对图像序列的图像特征点进行编码,得到编码结果;
根据图像采集设备的水平角和垂直角,进行球形坐标映射,得到对应球形点坐标特征;
利用解码器,并结合球形点坐标特征对编码结果进行解码,得到球形特征。
为便于描述,下面将上述三个步骤结合起来进行说明。
球形编解码模块,首先对图像特征点通过编码器(Encoder)进行特征编码,其中Encoder网络可采用EfficientNet-b1(一种卷积网络扩展方法)作为backbone(支柱);然后设计球形解码器,即在解码器(Decoder)解码前,先根据相机的水平角和垂直角,进行球形坐标映射,得到对应球形点坐标特征,然后再进行Decoder解码,得到球形特征/> 其中编解码模块设计可从1、1/2、1/4、1/8、1/16、1/32等多尺度特征融合,其网络采样可是要上采样(upsample)融合。
在本申请中的一种具体实施方式中,对球形特征进行辐射场采样,得到体密度和语义特征,包括:
利用辐射场采样算法模块,将球形特征的每个特征点发射预设条数的光线,且每一条光线上具有预设数量的高斯深度分布点,每个高斯深度分布点上具有预设数量的深度分布点;
利用多层感知器,对投射后的球形特征进行预测,得到体密度和语义特征。
为便于描述,下面将上述两个步骤结合起来进行说明。
具体的,可设计采样算法模型,图像每个特征点发射32条光线,每条光线上初步选定8个高斯深度分布点,每个高斯深度分布点指定4个深度分布,即每条光线一共32个深度分布点。图像特征投射到32条光线及其32个深度点后,经过MLP(Multilayer Perceptron,多层感知器)模块预测获取图像特征最终的体密度和语义特征。
其中,体密度即最终的深度预测,语义特征用于后续的目标分类与检测。
需要注意的是,其中,32条光线,一条光线上8个高斯深度分布点,每个高斯深度分布点指定4个深度分布,仅仅是预设数量的其中一种模式,在实际应用中,预设数量还可以为其他数值。
S104、融合图像增强特征、深度图、体密度和语义特征,得到鸟瞰图特征。
在得到多种不同提取方式所得到的特征之后,需要将这些特征进行融合。融合过程可以采用相乘、叠加等方式进行融合。
在本申请中的一种具体实施方式中,融合图像增强特征、深度图、体密度和语义特征,得到鸟瞰图特征,包括:
获取鸟瞰图位置特征和图像采集设备的相机参数;
结合鸟瞰图位置特征和相机参数,对图像增强特征和深度图进行乘积处理,得到第一特征;
结合鸟瞰图位置特征,对体密度和语义特征进行乘积处理,得到第二特征;
叠加第一特征和第二特征,并将叠加结果输入至鸟瞰图编码器中进行解码处理,得到鸟瞰图特征。
为便于描述,下面将上述四个步骤结合起来进行说明。
如图2所示,具体结合相机参数、鸟瞰图位置特征,对图像增强特征和深度图进行乘积处理,得到第一特征。
举例说明:对于普通图像处理分支,可将图像坐标系下的3D特征F中每个点的特征通过相机内参、相机与自动驾驶车辆之间的旋转平移关系转换到自动驾驶车辆坐标系下。转换到自动驾驶车辆坐标系下的点通过体素化,形成自动驾驶车辆坐标系下的3D特征表示,其中,落入同一个体素格内的特征进行累加,没有特征点落入的体素格的特征设置为全0。最后,沿着高度维度,将所有高度上的体素格对应的特征进行累加操作,获得最终的BEV特征图FB∈RX×Y×C(即第一特征),其中,X、Y代表BEV特征图的维度。
对于神经辐射场处理分支,其融合方式也与普通图像处理分支类似,结合鸟瞰图位置特征,对对体密度和语义特征进行乘积处理,得到第二特征。
然后,将第一特征和第二特征进行叠加处理,并将叠加结果FF1输入至鸟瞰图编码器中进行解码处理,得到鸟瞰图特征FF2
也就是说,对于两个分支的输出,即最终融合图像和神经辐射场的BEV特征,经过BEV特征解码模块,通过多层神经卷积网络对融合后的BEV特征进行解码,得到最终的特征输出FF2∈RX×Y×C
S105、利用检测头对鸟瞰图特征进行立体目标检测,得到立体目标检测结果。
在BEV特征编解码模块后接检测头(可具体为3D目标检测检测头),利用最后的BEV解码特征FF2,进行目标检测,输出立体目标检测结果。
该立体目标检测结果可包括目标的3D位置、长宽高、速度与分类得分。
应用本申请实施例所提供的方法,获取若干个机位的图像采集设备所采集的图像序列;利用神经网络提取图像序列的图像特征,并对图像特征进行增强和深度预测,得到图像增强特征和深度图;利用球形编解码器提取图像序列的球形特征后,对球形特征进行辐射场采样,得到体密度和语义特征;融合图像增强特征、深度图、体密度和语义特征,得到鸟瞰图特征;利用检测头对鸟瞰图特征进行立体目标检测,得到立体目标检测结果。
在本申请中,当获取到若干个机位的图像采集设备所采集的图像序列之后,对该图像序列进行处理,分为两个分支,其一为普通图像处理分支,其二为神经辐射场处理分支。在普通图像处理分支中,首先利用神经网络提取图像序列的图像特征,然后对图像特征进行增强和深度预测,得到图像增强特征和深度图。对于神经辐射场处理分支,利用球形编解码器提取图像序列的球形特征后,对球形特征进行辐射场采样,得到体密度和语义特征。两个分支通过融合后,可以得到鸟瞰图特征。最终,检测头对该鸟瞰图特征进行检测处理,则可获得立体目标检测结果。由于,在本申请中,该鸟瞰图特征是结合了普通图像处理分支和神经辐射场处理分支输出特征,因而,该检测头进行检测,会因该鸟瞰图特征融合的多种特征,能够关注多种不同特征维度的信息,能够有效提高立体目标检测结果的精度。
需要说明的是,基于上述实施例,本申请实施例还提供了相应的改进方案。在优选/改进实施例中涉及与上述实施例中相同步骤或相应步骤之间可相互参考,相应的有益效果也可相互参照,在本文的优选/改进实施例中不再一一赘述。
在本申请中的一种具体实施方式中,还可以对深度高斯预测进行优化,即利用多层感知器,对投射后的球形特征进行预测,得到体密度和语义特征,包括:
将深度分布点与图像序列的深度进行比较,得到深度差值;
基于深度差值,对多层感知器进行迭代优化;
在预测点的真与真值的实际差值达到最小的情况下,得到能够预测高斯深度分布点的最佳权重值;
利用多层感知器,结合最佳权重值对投射后的球形特征进行预测,得到体密度和语义特征。
为便于描述,下面将上述四个步骤结合起来进行说明。
具体的,可将图像特征点设计多层MLP输出,预测8个高斯深度分布点,然后基于该8个点,获取32个深度分布,与真实图片深度进行比较。通过迭代优化,使预测点的真与真值的实际差值最小,从而优化出能够预测8个高斯深度分布点的最佳权重值。
基于优化出能够预测8个高斯深度分布点的最佳权重值如图3所示,进行重新处理,可得到更为准确的体密度和语义特征。
在本申请中的一种具体实施方式中,还可以对深度进行优化,即对球形特征进行辐射场采样,得到体密度和语义特征,包括:
利用辐射场采样算法模块,将球形特征的每个特征点发射预设条数的光线,且每一条光线上具有预设数量的高斯深度分布点,每个高斯深度分布点上具有预设数量的深度分布点;
利用多层感知器,对投射后的球形特征进行预测,得到初始体密度和初始语义特征;
将初始体密度输入至第一层神经网络进行深度估计,得到第一深度预测图;
将第一深度预测图与第一层神经网络输出的特征,在特征通道进行级联连,输入到第二层级联的审计网络中,得到第二深度预测图;
利用第二深度预测图,预测新深度分布点;
利用辐射场采样算法模块,将球形特征的每个特征点发射预设条数的光线,且每一条光线上具有预设数量的高斯深度分布点,每个高斯深度分布点上具有预设数量的新深度分布点;
利用多层感知器,对重新投射后的球形特征进行预测,得到体密度和语义特征。
为便于描述,下面将上述若干步骤结合起来进行说明。
获取初始体密度后,将其与深度真值进行loss(损失)计算优化深度分布,训练优化获取更真实的体密度。为进一步提升深度估计的精确性,可设计多级的深度估计loss计算来提升深度估计的准确性。如图4所示,第一层神经网络估计的第一深度预测图(图示深度预测图1)作为特征,与第一层神经网络输出的特征在特征通道进行级联,输入到第二层级联的神经网络(如图示的3D卷积网络)中,最后输出后续模块使用的第二深度预测图(图示深度预测图2)。通过这种方式,大幅提升深度估计的准确性。
在本申请中的一种具体实施方式中,获取若干个机位的图像采集设备所采集的图像序列,包括:
从自动驾驶车辆上的感知系统中,获取图像序列;
相应地,得到立体目标检测结果之后,还包括:
利用立体目标检测结果确定自动驾驶车辆与检测目标之间的位置关系;
基于位置关系,规划自动驾驶车辆的行驶路线和碰撞规避。
也就是说,可以从自动驾驶车辆上的感知系统中得到图像序列。在得到立体目标检查结果之后,便可基于立体目标检测结果确定自动驾驶车辆与检测目标之间的位置关系,从而基于该位置关系规划自动驾驶车辆的行驶路线和碰撞规避。
即,本实施例为结合多相机数据基于神经辐射场辅助的自动驾驶3D目标检测,通过更有效的神经辐射场辅助网络架构设计,引入球形编解码器、语义特征与体密度特征融合等创新,并进一步的设计优化了高效的动态深度高斯分布预测,实现基于多相机的高效特征提取与融合优化。大幅地提升了3D目标检测精度。
其中,如何表示3D目标的属性信息是关键,因为这些信息对后续的预测和规划非常关键。通常,3D目标被定义为一个长方体,(x,y,z)是长方体的中心坐标,(l,w,h)是长宽高信息,yaw是航向角,比如长方体在地平面的偏航角,class是3D目标的类别。vx、vy描述3D目标在地面上沿x轴和y轴方向的速度。与仅在图像上生成2D边界框的2D目标检测相比,3D目标检测侧重于对真实世界3D坐标系中目标的定位和识别。
相应于上面的方法实施例,本申请实施例还提供了一种目标检测装置,下文描述的目标检测装置与上文描述的目标检测方法可相互对应参照。
参见图5所示,该装置包括以下模块:
图像采集模块101,用于获取若干个机位的图像采集设备所采集的图像序列;
常规图像处理模块102,用于利用神经网络提取图像序列的图像特征,并对图像特征进行增强和深度预测,得到图像增强特征和深度图;
神经辐射场处理模块103,用于利用球形编解码器提取图像序列的球形特征后,对球形特征进行辐射场采样,得到体密度和语义特征;
特征融合模块104,用于融合图像增强特征、深度图、体密度和语义特征,得到鸟瞰图特征;
检测模块105,用于利用检测头对鸟瞰图特征进行立体目标检测,得到立体目标检测结果。
应用本申请实施例所提供的装置,获取若干个机位的图像采集设备所采集的图像序列;利用神经网络提取图像序列的图像特征,并对图像特征进行增强和深度预测,得到图像增强特征和深度图;利用球形编解码器提取图像序列的球形特征后,对球形特征进行辐射场采样,得到体密度和语义特征;融合图像增强特征、深度图、体密度和语义特征,得到鸟瞰图特征;利用检测头对鸟瞰图特征进行立体目标检测,得到立体目标检测结果。
在本申请中,当获取到若干个机位的图像采集设备所采集的图像序列之后,对该图像序列进行处理,分为两个分支,其一为普通图像处理分支,其二为神经辐射场处理分支。在普通图像处理分支中,首先利用神经网络提取图像序列的图像特征,然后对图像特征进行增强和深度预测,得到图像增强特征和深度图。对于神经辐射场处理分支,利用球形编解码器提取图像序列的球形特征后,对球形特征进行辐射场采样,得到体密度和语义特征。两个分支通过融合后,可以得到鸟瞰图特征。最终,检测头对该鸟瞰图特征进行检测处理,则可获得立体目标检测结果。由于,在本申请中,该鸟瞰图特征是结合了普通图像处理分支和神经辐射场处理分支输出特征,因而,该检测头进行检测,会因该鸟瞰图特征融合的多种特征,能够关注多种不同特征维度的信息,能够有效提高立体目标检测结果的精度。
在本申请的一种具体实施方式中,神经辐射场处理模块,具体用于利用编码器对图像序列的图像特征点进行编码,得到编码结果;
根据图像采集设备的水平角和垂直角,进行球形坐标映射,得到对应球形点坐标特征;
利用解码器,并结合球形点坐标特征对编码结果进行解码,得到球形特征。
在本申请的一种具体实施方式中,神经辐射场处理模块,具体用于利用辐射场采样算法模块,将球形特征的每个特征点发射预设条数的光线,且每一条光线上具有预设数量的高斯深度分布点,每个高斯深度分布点上具有预设数量的深度分布点;
利用多层感知器,对投射后的球形特征进行预测,得到体密度和语义特征。
在本申请的一种具体实施方式中,神经辐射场处理模块,具体用于将深度分布点与图像序列的深度进行比较,得到深度差值;
基于深度差值,对多层感知器进行迭代优化;
在预测点的真与真值的实际差值达到最小的情况下,得到能够预测高斯深度分布点的最佳权重值;
利用多层感知器,结合最佳权重值对投射后的球形特征进行预测,得到体密度和语义特征。
在本申请的一种具体实施方式中,神经辐射场处理模块,具体用于利用辐射场采样算法模块,将球形特征的每个特征点发射预设条数的光线,且每一条光线上具有预设数量的高斯深度分布点,每个高斯深度分布点上具有预设数量的深度分布点;
利用多层感知器,对投射后的球形特征进行预测,得到初始体密度和初始语义特征;
将初始体密度输入至第一层神经网络进行深度估计,得到第一深度预测图;
将第一深度预测图与第一层神经网络输出的特征,在特征通道进行级联连,输入到第二层级联的审计网络中,得到第二深度预测图;
利用第二深度预测图,预测新深度分布点;
利用辐射场采样算法模块,将球形特征的每个特征点发射预设条数的光线,且每一条光线上具有预设数量的高斯深度分布点,每个高斯深度分布点上具有预设数量的新深度分布点;
利用多层感知器,对重新投射后的球形特征进行预测,得到体密度和语义特征。
在本申请的一种具体实施方式中,特征融合模块,具体用于获取鸟瞰图位置特征和图像采集设备的相机参数;
结合鸟瞰图位置特征和相机参数,对图像增强特征和深度图进行乘积处理,得到第一特征;
结合鸟瞰图位置特征,对体密度和语义特征进行乘积处理,得到第二特征;
叠加第一特征和第二特征,并将叠加结果输入至鸟瞰图编码器中进行解码处理,得到鸟瞰图特征。
在本申请的一种具体实施方式中,图像采集模块,具体用于从自动驾驶车辆上的感知系统中,获取图像序列;
相应地,自动驾驶控制模块,用于得到立体目标检测结果之后,利用立体目标检测结果确定自动驾驶车辆与检测目标之间的位置关系;
基于位置关系,规划自动驾驶车辆的行驶路线和碰撞规避。
相应于上面的方法实施例,本申请实施例还提供了一种电子设备,下文描述的一种电子设备与上文描述的一种目标检测方法可相互对应参照。
参见图6所示,该电子设备包括:
存储器332,用于存储计算机程序;
处理器322,用于执行计算机程序时实现上述方法实施例的目标检测方法的步骤。
具体的,请参考图7,图7为本实施例提供的一种电子设备的具体结构示意图,该电子设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)322(例如,一个或一个以上处理器)和存储器332,存储器332存储有一个或一个以上的计算机程序342或数据344。其中,存储器332可以是短暂存储或持久存储。存储在存储器332的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地,处理器322可以设置为与存储器332通信,在电子设备301上执行存储器332中的一系列指令操作。
电子设备301还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341。
上文所描述的目标检测方法中的步骤可以由电子设备的结构实现。
相应于上面的方法实施例,本申请实施例还提供了一种可读存储介质,下文描述的一种可读存储介质与上文描述的一种目标检测方法可相互对应参照。
一种可读存储介质,可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例的目标检测方法的步骤。
该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本领域技术人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应该认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系属于仅仅用来将一个实体或者操作与另一个实体或者操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语包括、包含或者其他任何变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种目标检测方法,其特征在于,包括:
获取若干个机位的图像采集设备所采集的图像序列;
利用神经网络提取所述图像序列的图像特征,并对所述图像特征进行增强和深度预测,得到图像增强特征和深度图;
利用球形编解码器提取所述图像序列的球形特征后,对所述球形特征进行辐射场采样,得到体密度和语义特征;
融合所述图像增强特征、所述深度图、所述体密度和所述语义特征,得到鸟瞰图特征;
利用检测头对所述鸟瞰图特征进行立体目标检测,得到立体目标检测结果。
2.根据权利要求1所述的方法,其特征在于,所述球形编解码器包括编码器和解码器,所述利用球形编解码器提取所述图像序列的球形特征,包括:
利用所述编码器对所述图像序列的图像特征点进行编码,得到编码结果;
根据所述图像采集设备的水平角和垂直角,进行球形坐标映射,得到对应球形点坐标特征;
利用所述解码器,并结合所述球形点坐标特征对所述编码结果进行解码,得到所述球形特征。
3.根据权利要求1所述的方法,其特征在于,对所述球形特征进行辐射场采样,得到体密度和语义特征,包括:
利用辐射场采样算法模块,将所述球形特征的每个特征点发射预设条数的光线,且每一条所述光线上具有预设数量的高斯深度分布点,每个所述高斯深度分布点上具有预设数量的深度分布点;
利用多层感知器,对投射后的所述球形特征进行预测,得到所述体密度和所述语义特征。
4.根据权利要求3所述的方法,其特征在于,所述利用多层感知器,对投射后的所述球形特征进行预测,得到所述体密度和所述语义特征,包括:
将所述深度分布点与所述图像序列的深度进行比较,得到深度差值;
基于所述深度差值,对所述多层感知器进行迭代优化;
在预测点的真与真值的实际差值达到最小的情况下,得到能够预测所述高斯深度分布点的最佳权重值;
利用所述多层感知器,结合所述最佳权重值对投射后的所述球形特征进行预测,得到所述体密度和所述语义特征。
5.根据权利要求1所述的方法,其特征在于,对所述球形特征进行辐射场采样,得到体密度和语义特征,包括:
利用辐射场采样算法模块,将所述球形特征的每个特征点发射预设条数的光线,且每一条所述光线上具有预设数量的高斯深度分布点,每个所述高斯深度分布点上具有预设数量的深度分布点;
利用多层感知器,对投射后的所述球形特征进行预测,得到初始体密度和初始语义特征;
将初始体密度输入至第一层神经网络进行深度估计,得到第一深度预测图;
将所述第一深度预测图与所述第一层神经网络输出的特征,在特征通道进行级联连,输入到第二层级联的审计网络中,得到第二深度预测图;
利用所述第二深度预测图,预测新深度分布点;
利用所述辐射场采样算法模块,将所述球形特征的每个特征点发射预设条数的光线,且每一条所述光线上具有预设数量的高斯深度分布点,每个所述高斯深度分布点上具有预设数量的所述新深度分布点;
利用所述多层感知器,对重新投射后的所述球形特征进行预测,得到所述体密度和所述语义特征。
6.根据权利要求1所述的方法,其特征在于,所述融合所述图像增强特征、所述深度图、所述体密度和所述语义特征,得到鸟瞰图特征,包括:
获取鸟瞰图位置特征和所述图像采集设备的相机参数;
结合所述鸟瞰图位置特征和所述相机参数,对所述图像增强特征和所述深度图进行乘积处理,得到第一特征;
结合所述鸟瞰图位置特征,对所述体密度和所述语义特征进行乘积处理,得到第二特征;
叠加所述第一特征和所述第二特征,并将叠加结果输入至鸟瞰图编码器中进行解码处理,得到所述鸟瞰图特征。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述获取若干个机位的图像采集设备所采集的图像序列,包括:
从自动驾驶车辆上的感知系统中,获取所述图像序列;
相应地,得到所述立体目标检测结果之后,还包括:
利用所述立体目标检测结果确定所述自动驾驶车辆与检测目标之间的位置关系;
基于所述位置关系,规划所述自动驾驶车辆的行驶路线和碰撞规避。
8.一种目标检测装置,其特征在于,包括:
图像采集模块,用于获取若干个机位的图像采集设备所采集的图像序列;
常规图像处理模块,用于利用神经网络提取所述图像序列的图像特征,并对所述图像特征进行增强和深度预测,得到图像增强特征和深度图;
神经辐射场处理模块,用于利用球形编解码器提取所述图像序列的球形特征后,对所述球形特征进行辐射场采样,得到体密度和语义特征;
特征融合模块,用于融合所述图像增强特征、所述深度图、所述体密度和所述语义特征,得到鸟瞰图特征;
检测模块,用于利用检测头对所述鸟瞰图特征进行立体目标检测,得到立体目标检测结果。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述目标检测方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述目标检测方法的步骤。
CN202311434947.9A 2023-10-31 2023-10-31 一种目标检测方法、装置、设备及可读存储介质 Pending CN117437512A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311434947.9A CN117437512A (zh) 2023-10-31 2023-10-31 一种目标检测方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311434947.9A CN117437512A (zh) 2023-10-31 2023-10-31 一种目标检测方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN117437512A true CN117437512A (zh) 2024-01-23

Family

ID=89558014

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311434947.9A Pending CN117437512A (zh) 2023-10-31 2023-10-31 一种目标检测方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN117437512A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118071999A (zh) * 2024-04-17 2024-05-24 厦门大学 一种基于采样自适应的连续NeRF的多视角3D目标检测方法
CN118379459A (zh) * 2024-06-21 2024-07-23 南京工业大学 基于神经辐射场三维重建的桥梁病害可视化方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118071999A (zh) * 2024-04-17 2024-05-24 厦门大学 一种基于采样自适应的连续NeRF的多视角3D目标检测方法
CN118379459A (zh) * 2024-06-21 2024-07-23 南京工业大学 基于神经辐射场三维重建的桥梁病害可视化方法

Similar Documents

Publication Publication Date Title
El Madawi et al. Rgb and lidar fusion based 3d semantic segmentation for autonomous driving
Zhe et al. Inter-vehicle distance estimation method based on monocular vision using 3D detection
US11003920B2 (en) Detection and planar representation of three dimensional lanes in a road scene
JP2021089724A (ja) 構造的制約及び物理的制約を伴う3d自動ラベル付け
CN117437512A (zh) 一种目标检测方法、装置、设备及可读存储介质
US20220300681A1 (en) Devices, systems, methods, and media for point cloud data augmentation using model injection
CN111257882B (zh) 数据融合方法、装置、无人驾驶设备和可读存储介质
CN115861601A (zh) 一种多传感器融合感知方法及装置
Ouyang et al. A cgans-based scene reconstruction model using lidar point cloud
CN115147328A (zh) 三维目标检测方法及装置
CN112154448A (zh) 目标检测方法、设备及可移动平台
Chen et al. Multitarget vehicle tracking and motion state estimation using a novel driving environment perception system of intelligent vehicles
CN116052124A (zh) 多相机生成局部地图模板理解加强目标检测方法及系统
CN116229247A (zh) 室内场景语义分割方法、装置、设备和介质
CN117315424A (zh) 多源融合的鸟瞰图感知目标检测方法、装置、设备及介质
CN113421217A (zh) 可行驶区域检测方法和装置
CN116778262B (zh) 一种基于虚拟点云的三维目标检测方法和系统
Ahmed et al. Lane marking detection using LiDAR sensor
CN116883972A (zh) 确定障碍物空间位置的方法、模型的训练方法和装置
Li et al. 6DoF-3D: Efficient and accurate 3D object detection using six degrees-of-freedom for autonomous driving
Ai et al. MVTr: multi-feature voxel transformer for 3D object detection
CN116246033A (zh) 一种面向非结构化道路的快速语义地图构建方法
CN117710931A (zh) 环境信息感知方法、装置、系统、计算机设备及存储介质
CN112651405B (zh) 目标检测方法及装置
Wang et al. H2gformer: Horizontal-to-global voxel transformer for 3d semantic scene completion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination