CN114998856B - 一种多相机图像的3d目标检测方法、装置、设备及介质 - Google Patents
一种多相机图像的3d目标检测方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN114998856B CN114998856B CN202210688796.9A CN202210688796A CN114998856B CN 114998856 B CN114998856 B CN 114998856B CN 202210688796 A CN202210688796 A CN 202210688796A CN 114998856 B CN114998856 B CN 114998856B
- Authority
- CN
- China
- Prior art keywords
- trained
- feature
- neural network
- camera
- depth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 81
- 238000013528 artificial neural network Methods 0.000 claims abstract description 68
- 238000000605 extraction Methods 0.000 claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 27
- 238000010586 diagram Methods 0.000 claims abstract description 14
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 claims abstract description 12
- 238000004458 analytical method Methods 0.000 claims abstract description 12
- 230000004927 fusion Effects 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 9
- 238000012937 correction Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 abstract description 10
- 230000008447 perception Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及图像处理领域,尤其涉及一种多相机图像的3D目标检测方法、装置、设备及介质。所述方法包括:获取自动驾驶车辆多相机输入的多个图像并利用预先训练的第一神经网络得到每个图像对应的第一特征图;将每个第一特征图分别输入到多个预先训练的第二神经网络以得到多个尺度的第二特征图;将每个第一特征图分别输入到预先训练的第三神经网络以得到与每个第二特征图对应的深度特征;将每个尺度的第二特征图和深度特征进行融合以得到多个尺度的鸟瞰图;将多个尺度的鸟瞰图进行融合后输入到预先训练的第四神经网络进行特征提取,并利用3D目标检测算法对所提取的特征进行回归和分析。本发明的方案显著提升不同尺度目标的检测精度。
Description
技术领域
本发明涉及图像处理领域,尤其涉及一种多相机图像的3D目标检测方法、装置、设备及介质。
背景技术
为了理解周边的驾驶环境,自动驾驶汽车配备了一套传感器来进行强大而准确的环境感知。该套传感器装置及其配套的处理算法,称为感知系统。感知系统通过将来自一组传感器的数据作为输入,经过一系列的处理步骤后,输出关于环境、其他物体(如汽车)以及自动驾驶汽车本身的知识。感知系统有三个基本要求:首先,它需要是准确的,并给出了驾驶环境的准确描述。其次,具有鲁棒性,能在恶劣天气下、甚至当一些传感器退化甚至失效时保证系统的稳定与安全。为了满足上述需求,感知系统同时执行多个重要任务,如3D目标检测、跟踪、同步定位与映射等。3D目标检测是感知系统的一项重要任务,其目的是在传感器数据中识别出所有感兴趣的物体,并确定它们的位置和类别(如车辆、自行车、行人等)。在3D目标检测任务中,需要输出参数来指定物体周围的面向3d的边界框。
随着计算机视觉技术尤其是深度学习在其上应用技术的飞速发展,自动驾驶感知技术也快速迭代。然而,交通驾驶环境过于复杂,要想实现完全自动驾驶仍然是一项艰巨的任务。在实际的自动驾驶情况下,通过单一的传感器进行3D目标检测是远远不够的。首先,单一的传感器容易遭受物体遮挡的影响,导致检测不完整或不准确。其次,要实现真正的自动驾驶,我们需要考虑广泛的天气、道路和交通条件,单一传感器很难适应各种不同的环境。所以,随着传感器的数量不断增加,将它们融合来更好地感知环境正在成为一种趋势。目前基于多相机融合的3D检测网络,主要是通过简单的把多相机特征投影到BEV(Birds-Eye View,鸟瞰图)下进行特征融合,例如目前主要算法是通过对单一图片数据进行模型训练;或多相机模型简单融合,然后用于3D目标检测等任务。然而目前现有算法在3D检测准确率较低亟需改进。
发明内容
有鉴于此,有必要针对以上技术问题,提供一种多相机图像的3D目标检测方法、装置、设备及介质。
根据本发明的第一方面,提供了一种多相机图像的3D目标检测方法,所述方法包括:
获取自动驾驶车辆多相机输入的多个图像,并利用预先训练的第一神经网络对每个图像进行特征提取以得到对应的第一特征图;
将每个第一特征图分别输入到多个预先训练的第二神经网络进行尺度变换,以得到多个尺度的第二特征图;
将每个第一特征图分别输入到与每个预先训练的第二神经网络对应的预先训练的第三神经网络进行深度信息提取,以得到与每个第二特征图对应的深度特征;
将每个尺度的第二特征图和对应的深度特征进行融合以得到多个尺度的鸟瞰图;
将多个尺度的鸟瞰图进行融合后输入到预先训练的第四神经网络进行特征提取,并利用3D目标检测算法对所提取的特征进行回归和分析。
在一些实施例中,所述方法还包括:
在训练过程中引入激光雷达点云数据,提取所述激光雷达点云数据的特征并与每个第二特征图对应的深度特征进行比较,并基于比较结果对第三神经网络进行参数矫正。
在一些实施例中,多个预先训练的第二神经网络包括三种,三种预先训练的第二神经网络所输出的第二特征图的尺寸分别等于原始多相机输入图像尺寸的1/8、1/16、1/32。
在一些实施例中,在执行所述利用3D目标检测算法对所提取的特征进行回归和分析的步骤之前还包括:
预先对所提取的特征进行翻转、旋转和缩放中的至少一种处理。
根据本发明的第二方面,提供了一种多相机图像的3D目标检测装置,所述装置包括:
第一提取模块,配置用于获取自动驾驶车辆多相机输入的多个图像,并利用预先训练的第一神经网络每个对图像进行特征提取以得到对应的第一特征图;
尺度变换模块,配置用于将每个第一特征图分别输入到多个预先训练的第二神经网络进行尺度变换,以得到多个尺度的第二特征图;
深度信息提取,配置用于将每个第一特征图分别输入到与每个预先训练的第二神经网络对应的预先训练的第三神经网络进行深度信息提取,以得到与每个第二特征图对应的深度特征;
融合模块,配置用于将每个尺度的第二特征图和对应的深度特征进行融合以得到多个尺度的鸟瞰图;
检测模块,配置用于将多个尺度的鸟瞰图进行融合后输入到预先训练的第四神经网络进行特征提取,并利用3D目标检测算法对所提取的特征进行回归和分析。
在一些实施例中,所述装置还包括:
矫正模块,配置用于在训练过程中引入激光雷达点云数据,提取所述激光雷达点云数据的特征并与每个第二特征图对应的深度特征进行比较,并基于比较结果对第三神经网络进行参数矫正。
在一些实施例中,多个预先训练的第二神经网络包括三种,三种预先训练的第二神经网络所输出的第二特征图的尺寸分别等于原始多相机输入图像尺寸的1/8、1/16、1/32。
在一些实施例中,所述检测模块进一步配置用于:
在所述利用3D目标检测算法对所提取的特征进行回归和分析的之前预先对所提取的特征进行翻转、旋转和缩放中的至少一种处理。
根据本发明的第三方面,还提供了一种计算机设备,该计算机设备包括:
至少一个处理器;以及
存储器,存储器存储有可在处理器上运行的计算机程序,处理器执行程序时执行前述的多相机图像的3D目标检测方法。
根据本发明的第四方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时执行前述的多相机图像的3D目标检测方法。
上述一种多相机图像的3D目标检测方法,主要对自动驾驶多相机3D目标检测算法进行创新,对图像特征提取,设计了多相机多尺度特征融合架构,不仅提升图片边缘部分的截断物体检测精度,更能扩大感受视野,提升不同尺度目标的检测精度,尤其是小目标,此外还通过BEV特征提取,完成对3D目标进行较好的定位、检测和分类,显著提升不同尺度目标的检测精度。
此外,本发明还提供了一种多相机图像的3D目标检测装置、一种计算机设备和一种计算机可读存储介质,同样能实现上述技术效果,这里不再赘述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本发明一个实施例提供的一种多相机图像的3D目标检测方法的流程示意图;
图2为本发明一个实施例提供的多相机图像的3D目标检测架构整体示意图;
图3为本发明另一个实施例提供的点云深度辅助原理示意图;
图4为本发明另一个实施例提供的BEV数据增强方式示意图;
图5为本发明一个实施例提供的一种多相机图像的3D目标检测装置的结构示意图;
图6为本发明另一个实施例中计算机设备的内部结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
在一个实施例中,请参照图1和图2所示,本发明提供了一种多相机图像的3D目标检测方法100,具体来说该方法包括以下步骤:
步骤101,获取自动驾驶车辆多相机输入的多个图像,并利用预先训练的第一神经网络对每个图像进行特征提取以得到对应的第一特征图;其中,多个图像即为图2中的Image,第一特征图即为“encoder”对应的特征图。
步骤102,将每个第一特征图分别输入到多个预先训练的第二神经网络进行尺度变换,以得到多个尺度的第二特征图;其中,第二特征图即为图2中的“.feature”对应的特征图。
步骤103,将每个第一特征图分别输入到与每个预先训练的第二神经网络对应的预先训练的第三神经网络进行深度信息提取,以得到与每个第二特征图对应的深度特征;其中,深度特征即为图2中“depth”对应的特征图。
步骤104,将每个尺度的第二特征图和对应的深度特征进行融合以得到多个尺度的鸟瞰图;其中,鸟瞰图即为图2中“Bev.feature”.
步骤105,将多个尺度的鸟瞰图进行融合后输入到预先训练的第四神经网络进行特征提取,并利用3D目标检测算法对所提取的特征进行回归和分析。其中,所鸟瞰图融合得到的即为图2中的“feature”,所提取的特征即为图2中的“Bev.decoder”。
上述一种多相机图像的3D目标检测方法,主要对自动驾驶多相机3D目标检测算法进行创新,对图像特征提取,设计了多相机多尺度特征融合架构,不仅提升图片边缘部分的截断物体检测精度,更能扩大感受视野,提升不同尺度目标的检测精度,尤其是小目标,此外还通过BEV特征提取,完成对3D目标进行较好的定位、检测和分类,显著提升不同尺度目标的检测精度。
在一些实施例中,所述方法还包括:
在训练过程中引入激光雷达点云数据,提取所述激光雷达点云数据的特征并与每个第二特征图对应的深度特征进行比较,并基于比较结果对第三神经网络进行参数矫正。
在一些实施例中,多个预先训练的第二神经网络包括三种,三种预先训练的第二神经网络所输出的第二特征图的尺寸分别等于原始多相机输入图像尺寸的1/8、1/16、1/32。
在一些实施例中,在执行所述利用3D目标检测算法对所提取的特征进行回归和分析的步骤之前还包括:
预先对所提取的特征进行翻转、旋转和缩放中的至少一种处理。
在一些实施例中,为了便于理解本发明的方案,下面以自动驾驶车辆多相机输入图像的处理为应用场景,本实施例提供了又一种多相机图像的3D目标检测方法,请参照图2所示,图像处理的主要原理如下:首先设计了基于多相机图像多尺度融合的自动驾驶3D目标检测算法的整体架构,具体包括:原始多相机输入,进行特征编码,然后设计多尺度支路,分别进行特征提取和深度估计两条支路,获取图像特征和深度预测信息,然后再合并生成BEV特征图,并同时合并多个尺度的BEV特征;另一辅助支路,则由点云数据输入,先进行目标深度获取,然后生成多尺度目标深度掩码,接着对图像的深度分支进行矫正。最后融合的多尺度BEV特征,特征解码后通过3D检测头进行box IoU(交并比Intersection overUnion,是指“预测的边框”和“真实的边框”的交集和并集的比值)回归和分类计算。
下面将详细对图2示出的图像处理整体架构的各部分进行详细说明:
第一,整体架构的相机处理分支:首先设计多相机多尺度融合网络模型架构,替代原始的单张图片特征提取或单尺度多相机特征提取。特征编码部分主要采用ResNet-50作为主干网络(backbone),进行特征提取,提取完特征后进行多尺度设计,更具体的是获取相对于原始图输入尺寸的1/8、1/16、1/32的特征图,然后分别进行特征提取和深度估计。例如原始尺寸输入256*256,则多尺度特征分别为32*32、16*16、8*8。特征提取和深度估计通道均采取简单的卷积,然后通过深度估计与特征提取相乘进行特征融合。一方面,通过对多尺度特征融合,有利于特征表达更准确;另一方面,通过深度估计网络,能获取图像深度信息,然后获得特征更丰富的BEV特征。
第二,整体架构的点云处理部分:请参照图3所示,通过编码获取3D目标的真实信息并反馈到图像坐标得到图像目标的深度信息,并进行多尺度掩码特征获取,其作为标签信息进行深度预测模型矫正。
第三,最后设计BEV数据增强算法以及编码网络,并通过3D框回归、分类等loss计算。传统的数据增强算法主要是基于图像输入,进行翻转、旋转、缩放等;本实施例的数据增强是在特征图上进行翻转、旋转、缩放等变换请参照图4所示。通常特征图尺寸一般为128*128,翻转比较好处理,翻转完后特征图还是128*128,平移、旋转后需要根据实际重合的部分进行掩码处理,其中车、人等目标也需要做同等变换。
上述一种多相机图像的3D目标检测方法至少具备以下有益技术效果:主要对自动驾驶多相机3D目标检测算法进行创新,大幅提高3D目标检测精度。首先,对图片特征编码,设计了多相机多尺度特征融合架构,不仅提升图片边缘部分的截断物体检测精度,更能扩大感受视野,提升不同尺度目标的检测精度,尤其是小目标;进一步的,还设计辅助支路引入点云数据目标深度信息进行深度优化,对图像3D深度估计不准的特性进行修正;其次,通过对鸟瞰图特征进行数据增强设计,解决了模型过拟合的问题,精度更高,鲁棒性更好;最后,通过BEV特征解码完成对3D目标进行较好的定位、检测和分类。
在又一个实施例中,本发明还提供了一种多相机图像的3D目标检测装置200,如图5所示,具体来说所述装置包括:
第一提取模块201,配置用于获取自动驾驶车辆多相机输入的多个图像,并利用预先训练的第一神经网络每个对图像进行特征提取以得到对应的第一特征图;
尺度变换模块202,配置用于将每个第一特征图分别输入到多个预先训练的第二神经网络进行尺度变换,以得到多个尺度的第二特征图;
深度信息提取模块203,配置用于将每个第一特征图分别输入到与每个预先训练的第二神经网络对应的预先训练的第三神经网络进行深度信息提取,以得到与每个第二特征图对应的深度特征;
融合模块204,配置用于将每个尺度的第二特征图和对应的深度特征进行融合以得到多个尺度的鸟瞰图;
检测模块205,配置用于将多个尺度的鸟瞰图进行融合后输入到预先训练的第四神经网络进行特征提取,并利用3D目标检测算法对所提取的特征进行回归和分析。
上述一种多相机图像的3D目标检测装置,主要对自动驾驶多相机3D目标检测算法进行创新,对图像特征提取,设计了多相机多尺度特征融合架构,不仅提升图片边缘部分的截断物体检测精度,更能扩大感受视野,提升不同尺度目标的检测精度,尤其是小目标,此外还通过BEV特征提取,完成对3D目标进行较好的定位、检测和分类,显著提升不同尺度目标的检测精度。
在一些实施例中,所述装置还包括:
矫正模块,配置用于在训练过程中引入激光雷达点云数据,提取所述激光雷达点云数据的特征并与每个第二特征图对应的深度特征进行比较,并基于比较结果对第三神经网络进行参数矫正。
在一些实施例中,多个预先训练的第二神经网络包括三种,三种预先训练的第二神经网络所输出的第二特征图的尺寸分别等于原始多相机输入图像尺寸的1/8、1/16、1/32。
在一些实施例中,所述检测模块205进一步配置用于:
在所述利用3D目标检测算法对所提取的特征进行回归和分析的之前预先对所提取的特征进行翻转、旋转和缩放中的至少一种处理。
需要说明的是,关于多相机图像的3D目标检测装置的具体限定可以参见上文中对多相机图像的3D目标检测方法的限定,在此不再赘述。上述多相机图像的3D目标检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
根据本发明的另一方面,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图请参照图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时实现以上所述的多相机图像的3D目标检测方法,具体来说,所述方法包括以下步骤:
获取自动驾驶车辆多相机输入的多个图像,并利用预先训练的第一神经网络对每个图像进行特征提取以得到对应的第一特征图;
将每个第一特征图分别输入到多个预先训练的第二神经网络进行尺度变换,以得到多个尺度的第二特征图;
将每个第一特征图分别输入到与每个预先训练的第二神经网络对应的预先训练的第三神经网络进行深度信息提取,以得到与每个第二特征图对应的深度特征;
将每个尺度的第二特征图和对应的深度特征进行融合以得到多个尺度的鸟瞰图;
将多个尺度的鸟瞰图进行融合后输入到预先训练的第四神经网络进行特征提取,并利用3D目标检测算法对所提取的特征进行回归和分析。
在一些实施例中,所述方法还包括:
在训练过程中引入激光雷达点云数据,提取所述激光雷达点云数据的特征并与每个第二特征图对应的深度特征进行比较,并基于比较结果对第三神经网络进行参数矫正。
在一些实施例中,多个预先训练的第二神经网络包括三种,三种预先训练的第二神经网络所输出的第二特征图的尺寸分别等于原始多相机输入图像尺寸的1/8、1/16、1/32。
在一些实施例中,在执行所述利用3D目标检测算法对所提取的特征进行回归和分析的步骤之前还包括:
预先对所提取的特征进行翻转、旋转和缩放中的至少一种处理。
根据本发明的又一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以上所述的多相机图像的3D目标检测方法,具体来说,包括执行以下步骤:
获取自动驾驶车辆多相机输入的多个图像,并利用预先训练的第一神经网络对每个图像进行特征提取以得到对应的第一特征图;
将每个第一特征图分别输入到多个预先训练的第二神经网络进行尺度变换,以得到多个尺度的第二特征图;
将每个第一特征图分别输入到与每个预先训练的第二神经网络对应的预先训练的第三神经网络进行深度信息提取,以得到与每个第二特征图对应的深度特征;
将每个尺度的第二特征图和对应的深度特征进行融合以得到多个尺度的鸟瞰图;
将多个尺度的鸟瞰图进行融合后输入到预先训练的第四神经网络进行特征提取,并利用3D目标检测算法对所提取的特征进行回归和分析。
在一些实施例中,所述方法还包括:
在训练过程中引入激光雷达点云数据,提取所述激光雷达点云数据的特征并与每个第二特征图对应的深度特征进行比较,并基于比较结果对第三神经网络进行参数矫正。
在一些实施例中,多个预先训练的第二神经网络包括三种,三种预先训练的第二神经网络所输出的第二特征图的尺寸分别等于原始多相机输入图像尺寸的1/8、1/16、1/32。
在一些实施例中,在执行所述利用3D目标检测算法对所提取的特征进行回归和分析的步骤之前还包括:
预先对所提取的特征进行翻转、旋转和缩放中的至少一种处理。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种多相机图像的3D目标检测方法,其特征在于,所述方法包括:
获取自动驾驶车辆多相机输入的多个图像,并利用预先训练的第一神经网络对每个图像进行特征提取以得到对应的第一特征图;
将每个第一特征图分别输入到多个预先训练的第二神经网络进行尺度变换,以得到多个尺度的第二特征图;
将每个第一特征图分别输入到与每个预先训练的第二神经网络对应的预先训练的第三神经网络进行深度信息提取,以得到与每个第二特征图对应的深度特征;
将每个尺度的第二特征图和对应的深度特征进行融合以得到多个尺度的鸟瞰图;
将多个尺度的鸟瞰图进行融合后输入到预先训练的第四神经网络进行特征提取,并利用3D目标检测算法对所提取的特征进行回归和分析。
2.根据权利要求1所述的多相机图像的3D目标检测方法,其特征在于,所述方法还包括:
在训练过程中引入激光雷达点云数据,提取所述激光雷达点云数据的特征并与每个第二特征图对应的深度特征进行比较,并基于比较结果对第三神经网络进行参数矫正。
3.根据权利要求1所述的多相机图像的3D目标检测方法,其特征在于,多个预先训练的第二神经网络包括三种,三种预先训练的第二神经网络所输出的第二特征图的尺寸分别等于原始多相机输入图像尺寸的1/8、1/16、1/32。
4.根据权利要求1所述的多相机图像的3D目标检测方法,其特征在于,在执行所述利用3D目标检测算法对所提取的特征进行回归和分析的步骤之前还包括:
预先对所提取的特征进行翻转、旋转和缩放中的至少一种处理。
5.一种多相机图像的3D目标检测装置,其特征在于,所述装置包括:
第一提取模块,配置用于获取自动驾驶车辆多相机输入的多个图像,并利用预先训练的第一神经网络每个对图像进行特征提取以得到对应的第一特征图;
尺度变换模块,配置用于将每个第一特征图分别输入到多个预先训练的第二神经网络进行尺度变换,以得到多个尺度的第二特征图;
深度信息提取,配置用于将每个第一特征图分别输入到与每个预先训练的第二神经网络对应的预先训练的第三神经网络进行深度信息提取,以得到与每个第二特征图对应的深度特征;
融合模块,配置用于将每个尺度的第二特征图和对应的深度特征进行融合以得到多个尺度的鸟瞰图;
检测模块,配置用于将多个尺度的鸟瞰图进行融合后输入到预先训练的第四神经网络进行特征提取,并利用3D目标检测算法对所提取的特征进行回归和分析。
6.根据权利要求5所述的多相机图像的3D目标检测装置,其特征在于,所述装置还包括:
矫正模块,配置用于在训练过程中引入激光雷达点云数据,提取所述激光雷达点云数据的特征并与每个第二特征图对应的深度特征进行比较,并基于比较结果对第三神经网络进行参数矫正。
7.根据权利要求5所述的多相机图像的3D目标检测装置,其特征在于,多个预先训练的第二神经网络包括三种,三种预先训练的第二神经网络所输出的第二特征图的尺寸分别等于原始多相机输入图像尺寸的1/8、1/16、1/32。
8.根据权利要求5所述的多相机图像的3D目标检测装置,其特征在于,所述检测模块进一步配置用于:
在所述利用3D目标检测算法对所提取的特征进行回归和分析的之前预先对所提取的特征进行翻转、旋转和缩放中的至少一种处理。
9.一种计算机设备,其特征在于,包括:
至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器中运行的计算机程序,所述处理器执行所述程序时执行权利要求1-4任意一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时执行权利要求1-4任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210688796.9A CN114998856B (zh) | 2022-06-17 | 2022-06-17 | 一种多相机图像的3d目标检测方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210688796.9A CN114998856B (zh) | 2022-06-17 | 2022-06-17 | 一种多相机图像的3d目标检测方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114998856A CN114998856A (zh) | 2022-09-02 |
CN114998856B true CN114998856B (zh) | 2023-08-08 |
Family
ID=83034584
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210688796.9A Active CN114998856B (zh) | 2022-06-17 | 2022-06-17 | 一种多相机图像的3d目标检测方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114998856B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116246235B (zh) * | 2023-01-06 | 2024-06-11 | 吉咖智能机器人有限公司 | 基于行泊一体的目标检测方法、装置、电子设备和介质 |
CN116012806B (zh) * | 2023-03-29 | 2023-06-13 | 苏州浪潮智能科技有限公司 | 一种车辆检测方法、装置、检测器、系统和模型训练方法 |
CN116704472B (zh) * | 2023-05-15 | 2024-04-02 | 小米汽车科技有限公司 | 图像处理方法、装置、设备、介质及程序产品 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929692A (zh) * | 2019-12-11 | 2020-03-27 | 中国科学院长春光学精密机械与物理研究所 | 一种基于多传感器信息融合的三维目标检测方法及装置 |
CN111079685A (zh) * | 2019-12-25 | 2020-04-28 | 电子科技大学 | 一种3d目标检测方法 |
CN111523600A (zh) * | 2020-04-26 | 2020-08-11 | 上海商汤临港智能科技有限公司 | 神经网络训练、目标检测、及智能设备控制的方法及装置 |
CN112528979A (zh) * | 2021-02-10 | 2021-03-19 | 成都信息工程大学 | 变电站巡检机器人障碍物判别方法及系统 |
CN113052109A (zh) * | 2021-04-01 | 2021-06-29 | 西安建筑科技大学 | 一种3d目标检测系统及其3d目标检测方法 |
CN114218999A (zh) * | 2021-11-02 | 2022-03-22 | 上海交通大学 | 一种基于融合图像特征的毫米波雷达目标检测方法及系统 |
CN114445310A (zh) * | 2021-12-23 | 2022-05-06 | 苏州浪潮智能科技有限公司 | 一种3d目标检测方法、装置、电子设备和介质 |
-
2022
- 2022-06-17 CN CN202210688796.9A patent/CN114998856B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929692A (zh) * | 2019-12-11 | 2020-03-27 | 中国科学院长春光学精密机械与物理研究所 | 一种基于多传感器信息融合的三维目标检测方法及装置 |
CN111079685A (zh) * | 2019-12-25 | 2020-04-28 | 电子科技大学 | 一种3d目标检测方法 |
CN111523600A (zh) * | 2020-04-26 | 2020-08-11 | 上海商汤临港智能科技有限公司 | 神经网络训练、目标检测、及智能设备控制的方法及装置 |
CN112528979A (zh) * | 2021-02-10 | 2021-03-19 | 成都信息工程大学 | 变电站巡检机器人障碍物判别方法及系统 |
CN113052109A (zh) * | 2021-04-01 | 2021-06-29 | 西安建筑科技大学 | 一种3d目标检测系统及其3d目标检测方法 |
CN114218999A (zh) * | 2021-11-02 | 2022-03-22 | 上海交通大学 | 一种基于融合图像特征的毫米波雷达目标检测方法及系统 |
CN114445310A (zh) * | 2021-12-23 | 2022-05-06 | 苏州浪潮智能科技有限公司 | 一种3d目标检测方法、装置、电子设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114998856A (zh) | 2022-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7033373B2 (ja) | ターゲット検出方法及び装置、スマート運転方法、装置並びに記憶媒体 | |
CN114998856B (zh) | 一种多相机图像的3d目标检测方法、装置、设备及介质 | |
CN108921925B (zh) | 基于激光雷达和视觉融合的语义点云生成方法和装置 | |
CN112132156A (zh) | 多深度特征融合的图像显著性目标检测方法及系统 | |
US20180107901A1 (en) | Image processing device, object detection device, image processing method | |
CN110516541B (zh) | 文本定位方法、装置、计算机可读存储介质和计算机设备 | |
CN113591872A (zh) | 一种数据处理系统、物体检测方法及其装置 | |
CN110751040B (zh) | 一种三维物体的检测方法和装置、电子设备、存储介质 | |
CN112528974B (zh) | 测距方法、装置、电子设备及可读存储介质 | |
CN112733672B (zh) | 基于单目相机的三维目标检测方法、装置和计算机设备 | |
CN111191482B (zh) | 一种刹车灯识别方法、装置及电子设备 | |
CN114119992B (zh) | 基于图像与点云融合的多模态三维目标检测方法及装置 | |
CN112597918A (zh) | 文本检测方法及装置、电子设备、存储介质 | |
CN115372990A (zh) | 一种高精度语义地图的建图方法、装置和无人车 | |
CN114782785A (zh) | 多传感器信息融合方法及装置 | |
CN115147328A (zh) | 三维目标检测方法及装置 | |
CN111898539A (zh) | 一种多目标检测方法、装置、系统、设备及可读存储介质 | |
CN116543143A (zh) | 一种目标检测模型的训练方法、目标检测方法及装置 | |
CN112348116A (zh) | 利用空间上下文的目标检测方法、装置和计算机设备 | |
CN115240168A (zh) | 感知结果获取方法、装置、计算机设备、存储介质 | |
CN114005110B (zh) | 3d检测模型训练方法与装置、3d检测方法与装置 | |
CN111353429A (zh) | 基于眼球转向的感兴趣度方法与系统 | |
CN116778262B (zh) | 一种基于虚拟点云的三维目标检测方法和系统 | |
CN112529011B (zh) | 目标检测方法及相关装置 | |
CN117693768A (zh) | 语义分割模型的优化方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |