CN116229394A

CN116229394A - 一种自动驾驶图像识别方法、装置及识别设备

Info

Publication number: CN116229394A
Application number: CN202310000878.4A
Authority: CN
Inventors: 管恒
Original assignee: Chongqing Changan Automobile Co Ltd
Current assignee: Chongqing Changan Automobile Co Ltd
Priority date: 2023-01-03
Filing date: 2023-01-03
Publication date: 2023-06-06

Abstract

本发明涉及图像数据处理技术领域，具体提供一种自动驾驶图像识别方法、装置及识别设备，方法包括以下步骤：基于提取模块对车身周视多视图的多尺度特征进行提取；基于多头注意力模块对多尺度特征识别后输出鸟瞰图特征；基于上采样编码器和分割头对鸟瞰图特征进行上采样和语义分割。本发明先由一个深度卷积网络对车身周视多视图进行多尺度特征提取，然后利用多头注意力网络提取周视图像之间的特征关联和深度信息从而生成鸟瞰图特征，最后对鸟瞰图特征进行上采样并接分割头进行语义分割，实现了实时高效地进行端到端多视图到鸟瞰图的转换并识别。

Description

一种自动驾驶图像识别方法、装置及识别设备

技术领域

本发明属于图像数据处理技术领域，具体涉及一种自动驾驶图像识别方法、装置及识别设备。

背景技术

目前在自动驾驶中的3D目标识别领域，实时高性能的多摄融合识别方法一直是一个具有挑战的话题。近年来随着深度学习的发展，注意力机制也被应用到自动驾驶中的3D目标识别，目前类似的方法存在两种方向：

一、(CN202210501805.9基于鸟瞰图的多视角3D目标检测方法、存储器及系统)是利用相机内外参数手动将2D图像特征图转到鸟瞰图(bird-eye view,BEV)空间，然后在利用注意力机制进行BEV特征的优化，这种方法由于内外参的标定存在误差导致方法先天存在精度的问题。

二、(CN202110043727.8一种基于注意力机制和关系网络的自动驾驶图像识别方法)是利用注意力机制获取2D图像特征图潜在的特征，然后手动构造关系网络，最后使用感知机(multi-layer perceptron,MLP)获取BEV关系的特征，这种方法由于手动构造关系对带来了大量的人力工作降低了方法的高效。同时这两种方式都没有在多视图间使用注意力，缺失了多视图带来的几何和纹理信息。

发明内容

本发明的目的是：旨在提供一种自动驾驶图像识别方法、装置及识别设备，用来解决现有识别机制没有在多视图间使用注意力，缺失了多视图带来的几何和纹理信息的问题。

为实现上述技术目的，本发明采用的技术方案如下：

第一方面，本申请提供一种自动驾驶图像识别方法，应用于识别设备，所述设备包括依次通讯连接的提取模块、多头注意力模块、上采样编码器和分割头，所述提取模块内耦合有卷积网络和多层感知机，所述方法包括以下步骤：

S1，基于所述提取模块对车身周视多视图的多尺度特征进行提取；

S2，基于所述多头注意力模块对所述多尺度特征识别后输出鸟瞰图特征；

S3，基于所述上采样编码器和所述分割头对所述鸟瞰图特征进行上采样和语义分割。

结合第一方面，在一些可选的实施方式中，所述多尺度特征包括key、value和query，其中，所述key和所述value基于所述卷积网络生成，所述query基于深度卷积网络和多层感知机生成。

结合第一方面，在一些可选的实施方式中，所述key和所述query的位置编码分别基于所述多视图的世界坐标点、像素坐标、比例因子、相机内参、外参旋转矩阵和位移向量生成。

结合第一方面，在一些可选的实施方式中，所述多层感知机包括正则模块、全连接层和激活层。

第二方面，本申请提供一种识别设备，所述识别设备还包括储存模块，所述储存模块内储存有计算机程序，当所述计算机程序被所述识别设备执行时，使得所述识别设备执行如上所述的方法。

第三方面，本申请提供一种自动驾驶图像识别装置，应用于如上所述的识别设备，装置包括依次通信连接的：

获取单元，基于所述提取模块对车身周视多视图的多尺度特征进行提取；

处理单元，基于所述多头注意力模块对所述多尺度特征识别后输出鸟瞰图特征；

编码单元，基于所述上采样编码器对所述鸟瞰图特征进行上采样；

分割单元，基于所述分割头对所述鸟瞰图特征进行语义分割。

结合第三方面，在一些可选的实施方式中，所述获取模块耦合至所述提取模块，所述处理单元耦合至所述多头注意力模块，所述编码单元耦合至上采样编码器，所述分割单元耦合至所述分割头。

采用上述技术方案的发明，具有如下优点：

1)利用交叉注意力机制提取多视图之间的纹理和几何特征关系，同时关注单视图内部的纹理和几何特征。

2)利用多摄内外参生成注意力网络的位置编码PE，而不是直接使用内外参手动转换特征，这样网络对内外参更加鲁棒。

3)没有手动设置2D视图到BEV特征的关系对，让注意力网络自己学习转换关系，减少人力成本和误差。

4)方法端到端的设置，使提出的方法的可用性大大增加。

附图说明

本发明可以通过附图给出的非限定性实施例进一步说明；

图1为本申请实施例图像识别方法的整体架构图；

图2为本申请实施例的MLP结构图；

图3为本申请实施例的Q、K和V的生成原理图；

图4为本申请实施例的交叉注意力模块原理图；

图5为本申请实施例的图像识别设备的电子元件示意图；

图6为本申请实施例的图像识别装置的电子元件示意图。

主要元件符号说明如下：

10：提取模块；11：卷积网络；12：多层感知机；20：多头注意力模块；30：上采样编辑器；40：分割头；50：获取单元；60：处理单元；70：编码单元；80：分割单元。

具体实施方式

以下将结合附图和具体实施例对本发明进行详细说明，需要说明的是，在附图或说明书描述中，相似或相同的部分都使用相同的图号，附图中未绘示或描述的实现方式，为所属技术领域中普通技术人员所知的形式。另外，实施例中提到的方向用语，例如“上”、“下”、“顶”、“底”、“左”、“右”、“前”、“后”等，仅是参考附图的方向，并非用来限制本发明的保护范围。

参考附图5，本申请实施例提供一种识别设备，设备包括依次电连接的提取模块10、多头注意力模块20、上采样模块30、分割头40和储存模块。

提取模块10包括卷积网络11和多层感知机12。卷积网络11也叫卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习(deep learning)的代表算法之一。卷积网络11具有表征学习(representation learning)能力，能够按其阶层结构对输入信息进行平移不变分类(shift-invariant classification)，因此也被称为“平移不变人工神经网络(Shift-Invariant Artificial Neural Networks,SIANN)。多层感知机12是一种前馈人工神经网络模型，其将输入的多个数据集映射到单一的输出的数据集上。相关内容为成熟技术，此处不再解释。

多头注意力模块20用于执行多头注意力机制。能够将提取模块10输入的多尺度特征转化为鸟瞰图特征。相关内容见后文详细描述。

上采样编码器30，用于将多头注意力模块20输出的鸟瞰图特征编码到尺度更大、细节更加丰富的特征图。本发明中上设置三个连续的上采样编码器30对niaokant特征进行处理。

分割头，本方法采用Focal loss最为静态目标(可行驶区域、分割线)分割、动态目标(车辆)分割和动态目标高斯中心的损失函数，L1 loss作为动态目标中心偏置(offset)的损失函数。

储存模块内存储计算机程序，当计算机程序被识别设备执行时，使得识别设备能够执行下述自动驾驶图像识别方法中的相应步骤。

本申请实施例提供一种自动驾驶图像识别方法，参考附图1，方法包括以下步骤：

S1，基于所述提取模块10对车身周视多视图的多尺度特征进行提取；

S2，基于所述多头注意力模块20对所述多尺度特征识别后输出鸟瞰图特征；

S3，基于所述上采样编码器30和所述分割头40对所述鸟瞰图特征进行上采样和语义分割。

在步骤S1中，基于所述提取模块10对车身周视多视图的多尺度特征进行提取。基于卷积网络和多层感知机(multi-layer perceptron，MLP)对车身周向的多视图进行识别和处理，获取多尺度特征。本申请使用的是efficientnet-b3进行多视图的多尺度特征提取。其中，图像输入尺寸固定设置为384x800(高x宽)，经过特征提取后输入特征尺度分别为24x50和12x25。多尺度特征至少包括K(key)、V(value)和Q(query)。其中所述key和所述value基于卷积网络11生成，所述query基于卷积网络11和多层感知机12生成。请参照附图3，参数K(key)、V(value)和Q(query)，以及Q(query)的特征点位置信息编码(positionembedding)获取过程如下：

相机的成像原理为:

s*p＝K·[R，t]·p (1)

其中P，p分别为世界坐标点和像素坐标,s为比例因子，也叫深度，K为相机内参，R和t分别为外参旋转矩阵和位移向量。当知道像素点对应的深度参数，即可反推出世界坐标：

[R，t]^-1·K^-1·(s*p)＝P (2)

但是本发明不会去显示估计深度信息，因为显示深度估计会存在误差，而该误差会带来变换的误差导致模型鲁棒性下降。由上式推出：

其中式3的约等号左边是相机射线(camera rays)，右边是相机中心到世界各坐标点的射线。本方法将约等号左边和右边参数归一化和1x1卷积扩展维度后作为输入多头注意力模块20的key和query的位置编码(position embedding,PE)π和τ。

经过深度卷积网络提取的多尺度特征F和key的位置编码的和F+π作为多头注意力模块20的K(Key)，F为V(Value)。本方法提出使用多层感知机12(multi-layer perceptron，称为MLP)来建模多视图到BEV的变换函数，其中多层感知机12的输入是多尺度特征F和π拼接(这里用[F,π]表示)后展开的向量，多层感知机12的输出特征M和τ的和M+τ作为注意力模块的Q(Query)。通过这样的处理，多头注意力模块20的输入特征即包含了表面纹理信息，也包含了位置信息。如图2为多层感知机12的结构图，包括LayerNorm-正则模块、Linear-全连接层和ReLU-激活层等。其中，考虑过拟合和欠拟合MLP的隐藏层维度设为256。注意力Query的尺寸为25*25，该尺寸也是MLP的输出维度。由于多层感知机12为当前领域较为成熟的工具，此处不再过多赘述。

在步骤S2中，基于所述多头注意力模块20对所述多尺度特征识别后输出鸟瞰图特征。如图4，基于多头注意力模块20对K(key)、V(value)和Q(query)进行处理，提取多视图之间的位置和纹理关系并生成BEV试图下的特征图(鸟瞰图特征)。多视图交叉注意力机制数学原理：

其中T表示矩阵的转置，d_k表示Key的维度。

K(key)、V(value)和Q(query)在多头注意力模块20内的运算过程可参见附图4中的各算法步骤，相关内容为本领域技术人员的常规设置，此处不再解释。值得注意的是，多头注意力模块20的头的数量为4，维度为128，多头注意力模块20的FNN隐藏层的维度为256。

在步骤S3中，基于所述上采样编码器30和所述分割头40对所述鸟瞰图特征进行上采样和语义分割。基于上采样编辑器30和分割头40(seg head)对多头注意力模块20(CA)输出的鸟瞰图特征进行上采样和进行语义分割以使得输出的特征图编码为尺度更大、细节更加丰富的特征图。本方法采用Focal loss最为静态目标(可行驶区域、分割线)分割、动态目标(车辆)分割和动态目标高斯中心的损失函数，L1 loss作为动态目标中心偏置(offset)的损失函数。多任务损失函数的权重设置为分割1.0、中心为0.5和偏置为0.5。

本申请实施例还提供一种自动驾驶图像识别装置，装置包括至少一个以软件或固件(Firmware)的形式储存于储存模块中或固化在控制设备中的操作系统(OperatingSystem，OS)中的软件功能模块。各功能模块用于执行储存模块中储存的可执行模块，例如自动驾驶图像识别装置所包括的软件功能模块及计算机程序模块等。

如图6，装置包括依次通信连接的获取单元50、处理单元60、编码单元70和分割单元80。各模块具有的功能可以如下：

获取单元50，基于所述提取模块10对车身周视多视图的多尺度特征进行提取；

处理单元60，基于所述多头注意力模块20对所述多尺度特征识别后输出鸟瞰图特征；

编码单元70，基于所述上采样编码器30对所述鸟瞰图特征进行上采样；

分割单元80，基于所述分割头40对所述鸟瞰图特征进行语义分割。

获取单元50耦合至提取模块10，处理单元60耦合至多头注意力模块20，编码单元70耦合至上采样编码器30，分割单元80耦合至分割头。

提取模块10包括卷积网络11和多层感知机12。卷积网络11和多层感知机12对于多尺度特征的提取方式、多头注意力模块20的多尺度特征识别方式、处理方式、编码方式和分割方式参见上文的自动驾驶图像识别方法，此处不再过多赘述。

在本实施例中，存储模块可以是，但不限于，随机存取存储器，只读存储器，可编程只读存储器，可擦除可编程只读存储器，电可擦除可编程只读存储器等。在本实施例中，存储模块可以用于储存各模块中的预设参数(例如多头注意力模块中的FNN隐藏层的维度)等。当然，存储模块还可以用于存储程序，处理模块在接收到执行指令后，执行该程序。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现，基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备，或者网络设备等)执行本申请各个实施场景所述的方法。

综上所述，本申请提供一种自动驾驶图像识别方法、装置及识别设备，首先由一个深度卷积网络对车身周视多视图进行多尺度特征提取，然后利用多头注意力网络提取周视图像之间的特征关联和深度信息从而生成鸟瞰图特征，最后对鸟瞰图特征进行上采样并接分割头进行语义分割。本方法能够实时高效地进行端到端多视图到鸟瞰图的转换并识别。

在本申请所提供的实施例中，应该理解到，所揭露的装置、系统和方法，也可以通过其它的方式实现。以上所描述的装置、系统和方法实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

以上对本发明提供的一种自动驾驶图像识别方法、装置及识别设备进行了详细介绍。具体实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种自动驾驶图像识别方法，其特征在于，应用于识别设备，所述设备包括依次通讯连接的提取模块(10)、多头注意力模块(20)、上采样编码器(30)和分割头(40)，所述提取模块(10)内耦合有卷积网络(11)和多层感知机(12)，所述方法包括以下步骤：

S1，基于所述提取模块(10)对车身周视多视图的多尺度特征进行提取；

S2，基于所述多头注意力模块(20)对所述多尺度特征识别后输出鸟瞰图特征；

S3，基于所述上采样编码器(30)和所述分割头(40)对所述鸟瞰图特征进行上采样和语义分割。

2.根据权利要求1所述的自动驾驶图像识别方法，其特征在于，所述多尺度特征包括key、value和query，其中，所述key和所述value基于所述卷积网络(11)生成，所述query基于深度卷积网络和多层感知机(12)生成。

3.根据权利要求2所述的自动驾驶图像识别方法，其特征在于，所述key和所述query的位置编码分别基于所述多视图的世界坐标点、像素坐标、比例因子、相机内参、外参旋转矩阵和位移向量生成。

4.根据权利要求3所述的自动驾驶图像识别方法，其特征在于，所述多层感知机(12)包括正则模块、全连接层和激活层。

5.一种如权利要求1所述的识别设备，其特征在于，所述识别设备还包括储存模块，所述储存模块内储存有计算机程序，当所述计算机程序被所述识别设备执行时，使得所述识别设备执行如权利要求1-4中任一项所述的方法。

6.一种自动驾驶图像识别装置，其特征在于，应用于如权利要求1所述的识别设备，装置包括获取单元50、处理单元60、编码单元70和分割单元80，各单元具有的功能如下：

获取单元(50)，基于所述提取模块(10)对车身周视多视图的多尺度特征进行提取；

处理单元(60)，基于所述多头注意力模块(20)对所述多尺度特征识别后输出鸟瞰图特征；

编码单元(70)，基于所述上采样编码器(30)对所述鸟瞰图特征进行上采样；

分割单元(80)，基于所述分割头(40)对所述鸟瞰图特征进行语义分割。

7.根据权利要求6所述的自动驾驶图像识别装置，其特征在于，所述获取模块(50)耦合至所述提取模块(10)，所述处理单元(60)耦合至所述多头注意力模块(20)，所述编码单元(70)耦合至上采样编码器(30)，所述分割单元(80)耦合至所述分割头(40)。