CN114998856B

CN114998856B - 一种多相机图像的3d目标检测方法、装置、设备及介质

Info

Publication number: CN114998856B
Application number: CN202210688796.9A
Authority: CN
Inventors: 龚湛
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2022-06-17
Filing date: 2022-06-17
Publication date: 2023-08-08
Anticipated expiration: 2042-06-17
Also published as: CN114998856A

Abstract

本发明涉及图像处理领域，尤其涉及一种多相机图像的3D目标检测方法、装置、设备及介质。所述方法包括：获取自动驾驶车辆多相机输入的多个图像并利用预先训练的第一神经网络得到每个图像对应的第一特征图；将每个第一特征图分别输入到多个预先训练的第二神经网络以得到多个尺度的第二特征图；将每个第一特征图分别输入到预先训练的第三神经网络以得到与每个第二特征图对应的深度特征；将每个尺度的第二特征图和深度特征进行融合以得到多个尺度的鸟瞰图；将多个尺度的鸟瞰图进行融合后输入到预先训练的第四神经网络进行特征提取，并利用3D目标检测算法对所提取的特征进行回归和分析。本发明的方案显著提升不同尺度目标的检测精度。

Description

一种多相机图像的3D目标检测方法、装置、设备及介质

技术领域

本发明涉及图像处理领域，尤其涉及一种多相机图像的3D目标检测方法、装置、设备及介质。

背景技术

为了理解周边的驾驶环境，自动驾驶汽车配备了一套传感器来进行强大而准确的环境感知。该套传感器装置及其配套的处理算法，称为感知系统。感知系统通过将来自一组传感器的数据作为输入，经过一系列的处理步骤后，输出关于环境、其他物体(如汽车)以及自动驾驶汽车本身的知识。感知系统有三个基本要求：首先，它需要是准确的，并给出了驾驶环境的准确描述。其次，具有鲁棒性，能在恶劣天气下、甚至当一些传感器退化甚至失效时保证系统的稳定与安全。为了满足上述需求，感知系统同时执行多个重要任务，如3D目标检测、跟踪、同步定位与映射等。3D目标检测是感知系统的一项重要任务，其目的是在传感器数据中识别出所有感兴趣的物体，并确定它们的位置和类别(如车辆、自行车、行人等)。在3D目标检测任务中，需要输出参数来指定物体周围的面向3d的边界框。

随着计算机视觉技术尤其是深度学习在其上应用技术的飞速发展，自动驾驶感知技术也快速迭代。然而，交通驾驶环境过于复杂，要想实现完全自动驾驶仍然是一项艰巨的任务。在实际的自动驾驶情况下，通过单一的传感器进行3D目标检测是远远不够的。首先，单一的传感器容易遭受物体遮挡的影响，导致检测不完整或不准确。其次，要实现真正的自动驾驶，我们需要考虑广泛的天气、道路和交通条件，单一传感器很难适应各种不同的环境。所以，随着传感器的数量不断增加，将它们融合来更好地感知环境正在成为一种趋势。目前基于多相机融合的3D检测网络，主要是通过简单的把多相机特征投影到BEV(Birds-Eye View，鸟瞰图)下进行特征融合，例如目前主要算法是通过对单一图片数据进行模型训练；或多相机模型简单融合，然后用于3D目标检测等任务。然而目前现有算法在3D检测准确率较低亟需改进。

发明内容

有鉴于此，有必要针对以上技术问题，提供一种多相机图像的3D目标检测方法、装置、设备及介质。

根据本发明的第一方面，提供了一种多相机图像的3D目标检测方法，所述方法包括：

获取自动驾驶车辆多相机输入的多个图像，并利用预先训练的第一神经网络对每个图像进行特征提取以得到对应的第一特征图；

将每个第一特征图分别输入到多个预先训练的第二神经网络进行尺度变换，以得到多个尺度的第二特征图；

将每个第一特征图分别输入到与每个预先训练的第二神经网络对应的预先训练的第三神经网络进行深度信息提取，以得到与每个第二特征图对应的深度特征；

将每个尺度的第二特征图和对应的深度特征进行融合以得到多个尺度的鸟瞰图；

将多个尺度的鸟瞰图进行融合后输入到预先训练的第四神经网络进行特征提取，并利用3D目标检测算法对所提取的特征进行回归和分析。

在一些实施例中，所述方法还包括：

在训练过程中引入激光雷达点云数据，提取所述激光雷达点云数据的特征并与每个第二特征图对应的深度特征进行比较，并基于比较结果对第三神经网络进行参数矫正。

在一些实施例中，多个预先训练的第二神经网络包括三种，三种预先训练的第二神经网络所输出的第二特征图的尺寸分别等于原始多相机输入图像尺寸的1/8、1/16、1/32。

在一些实施例中，在执行所述利用3D目标检测算法对所提取的特征进行回归和分析的步骤之前还包括：

预先对所提取的特征进行翻转、旋转和缩放中的至少一种处理。

根据本发明的第二方面，提供了一种多相机图像的3D目标检测装置，所述装置包括：

第一提取模块，配置用于获取自动驾驶车辆多相机输入的多个图像，并利用预先训练的第一神经网络每个对图像进行特征提取以得到对应的第一特征图；

尺度变换模块，配置用于将每个第一特征图分别输入到多个预先训练的第二神经网络进行尺度变换，以得到多个尺度的第二特征图；

深度信息提取，配置用于将每个第一特征图分别输入到与每个预先训练的第二神经网络对应的预先训练的第三神经网络进行深度信息提取，以得到与每个第二特征图对应的深度特征；

融合模块，配置用于将每个尺度的第二特征图和对应的深度特征进行融合以得到多个尺度的鸟瞰图；

检测模块，配置用于将多个尺度的鸟瞰图进行融合后输入到预先训练的第四神经网络进行特征提取，并利用3D目标检测算法对所提取的特征进行回归和分析。

在一些实施例中，所述装置还包括：

矫正模块，配置用于在训练过程中引入激光雷达点云数据，提取所述激光雷达点云数据的特征并与每个第二特征图对应的深度特征进行比较，并基于比较结果对第三神经网络进行参数矫正。

在一些实施例中，所述检测模块进一步配置用于：

在所述利用3D目标检测算法对所提取的特征进行回归和分析的之前预先对所提取的特征进行翻转、旋转和缩放中的至少一种处理。

根据本发明的第三方面，还提供了一种计算机设备，该计算机设备包括：

至少一个处理器；以及

存储器，存储器存储有可在处理器上运行的计算机程序，处理器执行程序时执行前述的多相机图像的3D目标检测方法。

根据本发明的第四方面，还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时执行前述的多相机图像的3D目标检测方法。

上述一种多相机图像的3D目标检测方法，主要对自动驾驶多相机3D目标检测算法进行创新，对图像特征提取，设计了多相机多尺度特征融合架构，不仅提升图片边缘部分的截断物体检测精度，更能扩大感受视野，提升不同尺度目标的检测精度，尤其是小目标，此外还通过BEV特征提取，完成对3D目标进行较好的定位、检测和分类，显著提升不同尺度目标的检测精度。

此外，本发明还提供了一种多相机图像的3D目标检测装置、一种计算机设备和一种计算机可读存储介质，同样能实现上述技术效果，这里不再赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为本发明一个实施例提供的一种多相机图像的3D目标检测方法的流程示意图；

图2为本发明一个实施例提供的多相机图像的3D目标检测架构整体示意图；

图3为本发明另一个实施例提供的点云深度辅助原理示意图；

图4为本发明另一个实施例提供的BEV数据增强方式示意图；

图5为本发明一个实施例提供的一种多相机图像的3D目标检测装置的结构示意图；

图6为本发明另一个实施例中计算机设备的内部结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

在一个实施例中，请参照图1和图2所示，本发明提供了一种多相机图像的3D目标检测方法100，具体来说该方法包括以下步骤：

步骤101，获取自动驾驶车辆多相机输入的多个图像，并利用预先训练的第一神经网络对每个图像进行特征提取以得到对应的第一特征图；其中，多个图像即为图2中的Image，第一特征图即为“encoder”对应的特征图。

步骤102，将每个第一特征图分别输入到多个预先训练的第二神经网络进行尺度变换，以得到多个尺度的第二特征图；其中，第二特征图即为图2中的“.feature”对应的特征图。

步骤103，将每个第一特征图分别输入到与每个预先训练的第二神经网络对应的预先训练的第三神经网络进行深度信息提取，以得到与每个第二特征图对应的深度特征；其中，深度特征即为图2中“depth”对应的特征图。

步骤104，将每个尺度的第二特征图和对应的深度特征进行融合以得到多个尺度的鸟瞰图；其中，鸟瞰图即为图2中“Bev.feature”.

步骤105，将多个尺度的鸟瞰图进行融合后输入到预先训练的第四神经网络进行特征提取，并利用3D目标检测算法对所提取的特征进行回归和分析。其中，所鸟瞰图融合得到的即为图2中的“feature”，所提取的特征即为图2中的“Bev.decoder”。

在一些实施例中，所述方法还包括：

在一些实施例中，为了便于理解本发明的方案，下面以自动驾驶车辆多相机输入图像的处理为应用场景，本实施例提供了又一种多相机图像的3D目标检测方法，请参照图2所示，图像处理的主要原理如下：首先设计了基于多相机图像多尺度融合的自动驾驶3D目标检测算法的整体架构，具体包括：原始多相机输入，进行特征编码，然后设计多尺度支路，分别进行特征提取和深度估计两条支路，获取图像特征和深度预测信息，然后再合并生成BEV特征图，并同时合并多个尺度的BEV特征；另一辅助支路，则由点云数据输入，先进行目标深度获取，然后生成多尺度目标深度掩码，接着对图像的深度分支进行矫正。最后融合的多尺度BEV特征，特征解码后通过3D检测头进行box IoU(交并比Intersection overUnion，是指“预测的边框”和“真实的边框”的交集和并集的比值)回归和分类计算。

下面将详细对图2示出的图像处理整体架构的各部分进行详细说明：

第一，整体架构的相机处理分支：首先设计多相机多尺度融合网络模型架构，替代原始的单张图片特征提取或单尺度多相机特征提取。特征编码部分主要采用ResNet-50作为主干网络(backbone)，进行特征提取，提取完特征后进行多尺度设计，更具体的是获取相对于原始图输入尺寸的1/8、1/16、1/32的特征图，然后分别进行特征提取和深度估计。例如原始尺寸输入256*256，则多尺度特征分别为32*32、16*16、8*8。特征提取和深度估计通道均采取简单的卷积，然后通过深度估计与特征提取相乘进行特征融合。一方面，通过对多尺度特征融合，有利于特征表达更准确；另一方面，通过深度估计网络，能获取图像深度信息，然后获得特征更丰富的BEV特征。

第二，整体架构的点云处理部分：请参照图3所示，通过编码获取3D目标的真实信息并反馈到图像坐标得到图像目标的深度信息，并进行多尺度掩码特征获取，其作为标签信息进行深度预测模型矫正。

第三，最后设计BEV数据增强算法以及编码网络，并通过3D框回归、分类等loss计算。传统的数据增强算法主要是基于图像输入，进行翻转、旋转、缩放等；本实施例的数据增强是在特征图上进行翻转、旋转、缩放等变换请参照图4所示。通常特征图尺寸一般为128*128，翻转比较好处理，翻转完后特征图还是128*128，平移、旋转后需要根据实际重合的部分进行掩码处理，其中车、人等目标也需要做同等变换。

上述一种多相机图像的3D目标检测方法至少具备以下有益技术效果：主要对自动驾驶多相机3D目标检测算法进行创新，大幅提高3D目标检测精度。首先，对图片特征编码，设计了多相机多尺度特征融合架构，不仅提升图片边缘部分的截断物体检测精度，更能扩大感受视野，提升不同尺度目标的检测精度，尤其是小目标；进一步的，还设计辅助支路引入点云数据目标深度信息进行深度优化，对图像3D深度估计不准的特性进行修正；其次，通过对鸟瞰图特征进行数据增强设计，解决了模型过拟合的问题，精度更高，鲁棒性更好；最后，通过BEV特征解码完成对3D目标进行较好的定位、检测和分类。

在又一个实施例中，本发明还提供了一种多相机图像的3D目标检测装置200，如图5所示，具体来说所述装置包括：

第一提取模块201，配置用于获取自动驾驶车辆多相机输入的多个图像，并利用预先训练的第一神经网络每个对图像进行特征提取以得到对应的第一特征图；

尺度变换模块202，配置用于将每个第一特征图分别输入到多个预先训练的第二神经网络进行尺度变换，以得到多个尺度的第二特征图；

深度信息提取模块203，配置用于将每个第一特征图分别输入到与每个预先训练的第二神经网络对应的预先训练的第三神经网络进行深度信息提取，以得到与每个第二特征图对应的深度特征；

融合模块204，配置用于将每个尺度的第二特征图和对应的深度特征进行融合以得到多个尺度的鸟瞰图；

检测模块205，配置用于将多个尺度的鸟瞰图进行融合后输入到预先训练的第四神经网络进行特征提取，并利用3D目标检测算法对所提取的特征进行回归和分析。

上述一种多相机图像的3D目标检测装置，主要对自动驾驶多相机3D目标检测算法进行创新，对图像特征提取，设计了多相机多尺度特征融合架构，不仅提升图片边缘部分的截断物体检测精度，更能扩大感受视野，提升不同尺度目标的检测精度，尤其是小目标，此外还通过BEV特征提取，完成对3D目标进行较好的定位、检测和分类，显著提升不同尺度目标的检测精度。

在一些实施例中，所述装置还包括：

在一些实施例中，所述检测模块205进一步配置用于：

需要说明的是，关于多相机图像的3D目标检测装置的具体限定可以参见上文中对多相机图像的3D目标检测方法的限定，在此不再赘述。上述多相机图像的3D目标检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

根据本发明的另一方面，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图请参照图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时实现以上所述的多相机图像的3D目标检测方法，具体来说，所述方法包括以下步骤：

在一些实施例中，所述方法还包括：

根据本发明的又一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以上所述的多相机图像的3D目标检测方法，具体来说，包括执行以下步骤：

在一些实施例中，所述方法还包括：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种多相机图像的3D目标检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的多相机图像的3D目标检测方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的多相机图像的3D目标检测方法，其特征在于，多个预先训练的第二神经网络包括三种，三种预先训练的第二神经网络所输出的第二特征图的尺寸分别等于原始多相机输入图像尺寸的1/8、1/16、1/32。

4.根据权利要求1所述的多相机图像的3D目标检测方法，其特征在于，在执行所述利用3D目标检测算法对所提取的特征进行回归和分析的步骤之前还包括：

5.一种多相机图像的3D目标检测装置，其特征在于，所述装置包括：

6.根据权利要求5所述的多相机图像的3D目标检测装置，其特征在于，所述装置还包括：

7.根据权利要求5所述的多相机图像的3D目标检测装置，其特征在于，多个预先训练的第二神经网络包括三种，三种预先训练的第二神经网络所输出的第二特征图的尺寸分别等于原始多相机输入图像尺寸的1/8、1/16、1/32。

8.根据权利要求5所述的多相机图像的3D目标检测装置，其特征在于，所述检测模块进一步配置用于：

9.一种计算机设备，其特征在于，包括：

至少一个处理器；以及

存储器，所述存储器存储有可在所述处理器中运行的计算机程序，所述处理器执行所述程序时执行权利要求1-4任意一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时执行权利要求1-4任意一项所述的方法。