CN115115713A

CN115115713A - 一种统一时空融合的环视鸟瞰图感知方法

Info

Publication number: CN115115713A
Application number: CN202210843438.0A
Authority: CN
Inventors: 李玺; 秦泽群
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-07-18
Filing date: 2022-07-18
Publication date: 2022-09-27
Anticipated expiration: 2042-07-18
Also published as: CN115115713B

Abstract

本发明公开了一种统一时空融合的环视鸟瞰图感知方法，用于自动驾驶系统中的视觉感知。具体包括如下步骤：获取用于训练神经网络的图像数据集，定义算法目标；建立虚拟视角模型；基础骨干网络环视图像特征提取；建立时序特征队列；统一的时空融合建模融合特征；头部网络输出预测结果。本发明相比于现有技术中的其他感知模型，能够有效地同时融合环视图像的空间关系，同时能够融合不同时刻环视图像的时序关系，通过更好地融合不同时序步取得了更好的感知效果和更快的感知速度。

Description

一种统一时空融合的环视鸟瞰图感知方法

技术领域

本发明属于图像处理领域，具体涉及一种统一时空融合的环视鸟瞰图感知方法。

背景技术

近些年来，基于鸟瞰图(bird’s-eye-view,BEV)的自动驾驶环视感知系统逐渐成为主流的感知范式。基于鸟瞰图的感知表达其核心意涵为将采集到的环视图像映射到基于当前自身车辆位置的鸟瞰图BEV空间中。这种空间融合方式能够组成一个统一的鸟瞰图BEV空间，并且能够极大地减少环视多摄像头融合时的难度。除此之外，这种鸟瞰图BEV空间融合天然地与其他感知模态，如激光雷达等，具有一致的3D空间位置，从而简便了视觉系统与激光雷达系统的融合。因此，基于鸟瞰图的自动驾驶环视感知系统具有统一的，便于其他模态处理的表达能力。然而，面对自动驾驶过程中长时间、长时序下的环视图像，如何实现环视鸟瞰图感知，是目前亟待解决的技术问题之一。

发明内容

本发明的目的在于解决现有技术中自动驾驶过程中长时间、长时序下的环视图像难以高效融合进而导致感知效果不佳的问题，并提供一种统一时空融合的环视鸟瞰图感知方法。

为实现上述目的，本发明所采用的具体技术方案如下：

一种统一时空融合的环视鸟瞰图感知方法，其包括以下步骤：

S1、建立用于将摄像头空间变换到BEV空间的虚拟视角模型；

S2、构建用于从环视图像组内的单张环视图像中提取多层次特征的基础骨干网络；

S3、基于S2构建的骨干网络特征对输入的不同时刻的环视图像进行逐帧特征提取，并按照时刻对提取的特征进行排序，建立时序特征队列；

S4、基于S1中构建的虚拟视角模型与S3中建立的时序特征队列，通过统一时空融合特征融合器建模得到融合特征；

S5、基于S4得到的融合特征使用头部网络输出预测结果，得到用于自动驾驶的周围环境感知。

作为优选，所述基础骨干网络、统一时空融合特征融合器和头部网络组成的环视鸟瞰图感知网络框架，预先经过用于环视鸟瞰图感知的图像数据集进行训练，图像数据集中的环视图像样本由多方向摄像头采集的环视图像、各摄像头对应的相机内外参信息和各图像对应的标注信息组成。

作为优选，所述用于环视鸟瞰图感知的图像数据集包括图像组

其中I_i为第i组环视图像，每组环视图像包含N张分别由不同方向摄像头拍摄的图像，N为车辆上朝向不同方向的摄像头总数；Info_i为第i组环视图像所对应的相机内外参信息，包含旋转矩阵和平移矩阵；T_i为第i组环视图像整组对应的真实3D世界标注信息，包括以该组环视图像为中心的地图信息，和/或以该组环视图像为中心的周围世界3D车辆的标注信息；M为图像数据集中的环视图像组数。

作为优选，步骤S1中，建立虚拟视角模型的方法如下：

S11、对于每组环视图像I_i所对应的相机内外参信息Info_i，定义其包含的旋转矩阵为

平移矩阵为

对于旋转矩阵R，定义R_c为当前时刻的旋转矩阵，R_p为过去时刻的旋转矩阵，R_i,j为第i组环视图像中第j张图像对应的摄像头采用的旋转矩阵，i∈{1,…,M}，j∈{1,…,N}；对于平移矩阵t，定义t_c为当前时刻的平移矩阵，t_p为过去时刻的平移矩阵，t_i,j为第i组环视图像中第j张图像对应的摄像头采用的平移矩阵；

S12、定义如下虚拟视角模型变换：

其中

为第i组环视图像中第j张图像对应的摄像头的虚拟旋转矩阵，

为第i组环视图像中第j张图像对应的摄像头的虚拟平移矩阵；

S13、对于S12中得到的虚拟视角模型变换，按照如下公式建立用于将摄像头空间变换到BEV空间的虚拟视角模型：

其中P_bev为BEV空间中的坐标点，P_img为图像空间中的坐标点，K_i,j为第i组环视图像中第j张图像对应的摄像头的相机内参。

作为优选，所述步骤S2中，构建的基础骨干网络如下：

选择ResNet、Swin-Tiny、VoVNet中的一种作为骨干网络，对于所有输入的环视图像均使用同一个选定的骨干网络进行特征提取，使不同摄像头拍摄的图像之间共享骨干网络；对于层次数目为L的骨干网络，在提取多层次特征时，需对骨干网络每一个层(stage)提取的特征均进行保留，最终得到L个层次的多层次特征。

作为优选，所述步骤S3中，建立时序特征队列方法如下：

将不同时刻的环视图像组输入所述骨干网络中，由骨干网络逐帧提取单帧多层次特征，并按照图像采集的时间顺序将多层次特征保存在时序特征队列中。

作为优选，所述步骤S4中，得到融合特征的方法如下：

S41、基于S3中得到的时序特征队列，获取最新的长度为P个时刻的时序特征组；

S42、建立BEV空间表达，以

表达整个BEV空间；其中，Q_x,y为BEV的查询(Query)，表示在BEV空间位置(x,y)处的特征信息；C为特征维度，X和Y为BEV空间的长和宽；对于每个BEV空间位置(x,y)，在高度z上从-3m到5m进行均匀采样获取Z个高度点，从而得到一组对应BEV空间位置(x,y)的3D坐标{(x,y,z)|z∈[-3,5]}；对于每个BEV空间位置(x,y)，进一步通过S23中建立的虚拟视角模型对采样得到的3D坐标{(x,y,z)|z∈[-3,5进行变换，将BEV空间下的3D坐标{(x,y,z)|z∈[-3,5转换至摄像头空间，得到其在图像空间中的位置P_img，从而建立了BEV空间中位置点与图像空间中位置点的映射关系；根据所述映射关系，将时序特征组中图像空间下的多层次特征映射至BEV空间中；

S43、建立统一时空融合特征融合器，其包含由浅到深级联的自注意力层、第一归一化层、互注意力层、第二归一化层、前馈网络层和第三归一化层；其中自注意力层使用可变形注意力方法，所述第一归一化层、第二归一化层和第三归一化层均使用层归一化方法(LayerNorm)，所述前馈网络由一个全连接网络组成，所述互注意力层则由以下公式定义：

其中

为所述时序特征组中第p个时刻第l个层次的特征被虚拟视角模型映射至BEV空间后在BEV空间位置(x,y,z)处所对应的特征；

为

叠加位置编码(positional embedding，PE)后的结果；

为互注意力权重，其计算式中的Q_x,y是原始BEV空间表达中的Q_x,y经过了自注意力层和第一归一化层后的输出结果；

S44、将S41中的时序特征组输入S43中建立的统一时空融合特征融合器中，获得统一时空融合特征融合器的输出特征。

作为优选，所述步骤S5中，过程如下：

S51、使用ERFNet作为头部网络，对S44中得到的输出特征，经过ERFNet头部网络后得到自动驾驶环视地图感知输出；

S52、使用CenterPoint作为头部网络，对S44中得到的输出特征，经过CenterPoint头部网络后得到自动驾驶3D目标检测感知输出。

S53、整合S51与S52得到的感知输出结果，最终得到自动驾驶周围环境感知。

本发明提供了一种统一时空融合的环视鸟瞰图感知方法，相比于现有的环视鸟瞰图感知方法，具有以下有益效果：

首先，本发明的时空融合方案能够有效地同时融合环视图像的空间关系，同时能够融合不同时刻环视图像的时序关系。

其次，本发明的融合方法能够实现长时间、长时序下的融合，并且融合性能随着视角增加单调递增。

最后，本发明的能够动态地融合不同时序步，并且具有效果更好，速度更快的特点。

附图说明

图1为一种统一时空融合的环视鸟瞰图感知方法的步骤流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施例的限制。本发明各个实施例中的技术特征在没有相互冲突的前提下，均可进行相应组合。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于区分描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。

在本发明的一个较佳实施例中，提供了一种统一时空融合的环视鸟瞰图感知方法，该方法用于基于自动驾驶车辆上不同方向的摄像头采集的环视图像，感知该组环视图像所对应的真实3D世界，如地图感知、3D物体感知等，其包括以下步骤：

S1、建立用于将摄像头空间变换到鸟瞰图空间(BE空间)的虚拟视角模型。

在本实施例中，上述步骤S1中建立虚拟视角模型的具体方法如下：

平移矩阵为

对于旋转矩阵R，定义R_c为当前时刻的旋转矩阵，R_p为过去时刻的旋转矩阵，R_i,j为第i组环视图像中第j张图像对应的摄像头采用的旋转矩阵，i∈{1,…,M}，j∈{1,…,N}；对于平移矩阵t，定义t_c为当前时刻的平移矩阵，t_p为过去时刻的平移矩阵，t_i,j为第i组环视图像中第j张图像对应的摄像头采用的平移矩阵。

在本实施例中，在本实施例中N＝6，即每组环视图像包含6张不同方向的图片，分别由6个不同方向的摄像头采集得到。

S12、定义如下虚拟视角模型变换：

其中

为第i组环视图像中第j张图像对应的摄像头的虚拟平移矩阵。

S13、对于S12中得到的虚拟视角模型变换，按照如下公式建立用于将摄像头空间变换到鸟瞰图空间的虚拟视角模型：

其中P_bev为鸟瞰图空间中的坐标点，P_img为图像空间中的坐标点，K_i,j为第i组环视图像中第j张图像对应的摄像头的相机内参。

S2、构建用于从环视图像组内的单张环视图像中提取多层次特征的基础骨干网络。

在本实施例中，上述步骤S2中，构建的基础骨干网络如下：

选择ResNet、Swin-Tiny、VoVNet中的一种作为骨干网络，对于所有输入的环视图像均使用同一个选定的骨干网络进行特征提取，使不同摄像头拍摄的图像之间共享骨干网络；对于层次数目为L的骨干网络，在提取多层次特征时，需对骨干网络每一个层(stage)提取的特征均进行保留，即保留所有中间特征和最终的特征，最终得到L个层次的多层次特征。

S3、基于S2构建的骨干网络特征对输入的不同时刻的环视图像进行逐帧特征提取，并按照时刻对提取的特征进行排序，建立时序特征队列。

在本实施例中，上述步骤S3中，建立时序特征队列方法如下：

S4、基于S1中构建的虚拟视角模型与S3中建立的时序特征队列，通过统一时空融合特征融合器建模得到融合特征。

在本实施例中，上述步骤S4中，得到融合特征的方法如下：

S41、基于S3中得到的时序特征队列，获取最新的长度为P个时刻的时序特征组。

需要注意的是，P是一个需要进行优化调整的超参数。在获取融合特征时，需利用时序特征队列中保存的从最新的P个时刻的环视图像组中提取的时序特征组成时序特征组，从而实现对外部世界的实时感知。因此，该时序特征队列相当于一个长度为P的先进先出序列，通过该序列即可保持最新的时序特征组。

S42、建立鸟瞰图空间表达，以

表达整个鸟瞰图空间；其中，Q_x,y为鸟瞰图的查询(Query)，表示在鸟瞰图空间位置(x,y)处的特征信息；C为特征维度，X和Y为鸟瞰图空间的长和宽；对于每个鸟瞰图空间位置(x,y)，在高度z上从-3m到5m进行均匀采样获取Z个高度点，从而得到一组对应鸟瞰图空间位置(x,y)的3D坐标{(x,y,z)|z∈[-3,5]}；对于每个鸟瞰图空间位置(x,y)，进一步通过S23中建立的虚拟视角模型对采样得到的3D坐标{(x,y,z)|z∈[-3,5]}进行变换，将鸟瞰图空间下的3D坐标{(x,y,z)|z∈[-3,5]}转换至摄像头空间，得到其在图像空间中的位置P_img，从而建立了鸟瞰图空间中位置点与图像空间中位置点的映射关系；根据所述映射关系，将时序特征组中图像空间下的多层次特征映射至鸟瞰图空间中。

其中

为所述时序特征组中第p个时刻第l个层次的特征被虚拟视角模型映射至鸟瞰图空间后在鸟瞰图空间位置(x,y,z)处所对应的特征，p＝1,2,…,P；l＝1,2,…,L；z一共有Z个，具体根据均匀采样获取的Z个高度点确定；

为

叠加位置编码(positional embedding，PE)后的结果；

为互注意力权重，其计算式中的Q_x,y是原始鸟瞰图空间表达中的Q_x,y经过了自注意力层和第一归一化层后的输出结果。

需要注意的是，上述自注意力层、第一归一化层、互注意力层、第二归一化层、前馈网络层和第三归一化层是逐层级联的，上一层的输出作为下一层的输入，第三归一化层的输出作为整个融合器的输出。在该网络结构中，Q_x,y可以视为是一个不断迭代更新的参数，自注意力层的输入为原始鸟瞰图空间表达中的Q_x,y，输出为更新后的Q_x,y，更新后的Q_x,y经过第一归一化层中的层归一化操作后，在输入互注意力层，依次类推。

需要说明的是，自注意力层使用可变形注意力方法即Deformable DETR，属于现有技术，具体原理可参见现有技术文献：Zhu,Xizhou,Weijie Su,Lewei Lu,Bin Li,XiaogangWang,and Jifeng Dai."Deformable detr:Deformable transformers for end-to-endobject detection."arXiv preprint arXiv:2010.04159(2020).

在本实施例中，上述步骤S5中，过程如下：

S51、使用ERFNet作为头部网络，对S44中得到的输出特征，经过ERFNet头部网络后得到自动驾驶环视地图感知输出，即得到以该组环视图像为中心的地图信息；

S52、使用CenterPoint作为头部网络，对S44中得到的输出特征，经过CenterPoint头部网络后得到自动驾驶3D目标检测感知输出，即得到以该组环视图像为中心的周围世界3D目标(如车辆)信息。

需要说明的是，在上述S1～S5的步骤框架中，基础骨干网络、统一时空融合特征融合器和头部网络组成了环视鸟瞰图感知网络框架。但是该环视鸟瞰图感知网络框架在用于实际预测感知之前，需要预先经过用于环视鸟瞰图感知的图像数据集进行训练，图像数据集中的环视图像样本由多方向摄像头采集的环视图像、各摄像头对应的相机内外参信息和各图像对应的标注信息组成。

在本实施例中，用于环视鸟瞰图感知的图像数据集包括图像组

其中I_i为第i组环视图像，每组环视图像包含N张分别由不同方向摄像头拍摄的图像，N为车辆上朝向不同方向的摄像头总数；Info_i为第i组环视图像所对应的相机内外参信息，包含旋转矩阵和平移矩阵；T_i为第i组环视图像整组对应的真实3D世界标注信息，包括两类标注，第一类是以该组环视图像为中心的地图信息，第二类是以该组环视图像为中心的周围世界3D车辆的标注信息；M为图像数据集中的环视图像组数。

利用图像数据集对环视鸟瞰图感知网络框架进行训练的具体做法，属于现有技术，对此不再赘述。

下面将上述S1～S5所描述的统一时空融合的环视鸟瞰图感知方法应用于一个具体实例中，以展示其技术效果。

实施例

本实施例的实现方法如前所述，不再详细阐述具体的步骤，下面仅针对案例数据展示其效果。本发明在具有真值标注的数据集上实施，详细信息如下：

NuScenes数据集[1]：该数据集包含28130组环视训练图片组与6019组环视测试图片组，每组图片均包含BEV空间标注、相机内外参。

本实施例主要在NuScenes数据集上进行BEV地图分割任务评估。

表1本实施例在NuScenes数据集上各评价指标对比(100m x 100m范围)

Method	Road mIoU	Lane mIoU
			LSS[2]	72.9	20.0
VPN[3]	76.9	19.4
			M2BEV[4]	77.2	-
BEVFormer[5]	80.1	25.7
			本发明方法	85.4	31.0

表1本实施例在NuScenes数据集上各评价指标对比(60m x 30m范围)

Method	Divider	Ped crossing	Boundary	All
					LSS[2]	38.3	14.9	39.3	30.8
VPN[3]	36.5	15.8	35.6	29.3
					BEVSegFormer[6]	51.1	32.6	50.0	44.6
BEVerse[7]	56.1	44.9	58.7	53.2
					本发明方法	60.6	49.0	62.5	57.4

上述NuScenes数据集的来源以及各对比方法可参见如下现有技术文献：

[1]Caesar,Holger,Varun Bankiti,Alex H.Lang,Sourabh Vora,Venice ErinLiong,Qiang Xu,Anush Krishnan,Yu Pan,Giancarlo Baldan,and Oscar Beijbom."nuscenes:A multimodal dataset for autonomous driving."In Proceedings of theIEEE/CVF conference on computer vision and pattern recognition,pp.11621-11631.2020.

[2]Philion,Jonah,and Sanja Fidler."Lift,splat,shoot:Encoding imagesfrom arbitrary camera rigs by implicitly unprojecting to 3d."In EuropeanConference on Computer Vision,pp.194-210.Springer,Cham,2020.

[3]Pan,Bowen,Jiankai Sun,Ho Yin Tiga Leung,Alex Andonian,and BoleiZhou."Cross-view semantic segmentation for sensing surroundings."IEEERobotics and Automation Letters 5,no.3(2020):4867-4873.

[4]Xie,Enze,Zhiding Yu,Daquan Zhou,Jonah Philion,Anima Anandkumar,Sanja Fidler,Ping Luo,and Jose M.Alvarez."M^2BEV:Multi-Camera Joint 3DDetection and Segmentation with Unified Birds-Eye View Representation."arXivpreprint arXiv:2204.05088(2022).

[5]Li,Zhiqi,Wenhai Wang,Hongyang Li,Enze Xie,Chonghao Sima,Tong Lu,Qiao Yu,and Jifeng Dai."BEVFormer:Learning Bird's-Eye-View Representationfrom Multi-Camera Images via Spatiotemporal Transformers."arXiv preprintarXiv:2203.17270(2022).

[6]Peng,Lang,Zhirong Chen,Zhangjie Fu,Pengpeng Liang,and ErkangCheng."BEVSegFormer:Bird's Eye View Semantic Segmentation From ArbitraryCamera Rigs."arXiv preprint arXiv:2203.04050(2022).

[7]Zhang,Yunpeng,Zheng Zhu,Wenzhao Zheng,Junjie Huang,Guan Huang,JieZhou,and Jiwen Lu."BEVerse:Unified Perception and Prediction in Birds-Eye-View for Vision-Centric Autonomous Driving."arXiv preprint arXiv:2205.09743(2022).

上述结果表明，本发明相比于现有技术中的其他感知模型，能够有效地同时融合环视图像的空间关系，同时能够融合不同时刻环视图像的时序关系，通过更好地融合不同时序步取得了更好的感知效果和更快的感知速度。

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种统一时空融合的环视鸟瞰图感知方法，其特征在于，包括以下步骤：

S1、建立用于将摄像头空间变换到鸟瞰图空间的虚拟视角模型；

2.如权利要求1所述的统一时空融合的环视鸟瞰图感知方法，其特征在于，所述基础骨干网络、统一时空融合特征融合器和头部网络组成的环视鸟瞰图感知网络框架，预先经过用于环视鸟瞰图感知的图像数据集进行训练，图像数据集中的环视图像样本由多方向摄像头采集的环视图像、各摄像头对应的相机内外参信息和各图像对应的标注信息组成。

3.如权利要求2所述的统一时空融合的环视鸟瞰图感知方法，其特征在于，所述用于环视鸟瞰图感知的图像数据集包括图像组

4.如权利要求1所述的统一时空融合的环视鸟瞰图感知方法，其特征在于，步骤S1中，建立虚拟视角模型的方法如下：

平移矩阵为

S12、定义如下虚拟视角模型变换：

其中

5.如权利要求4所述的统一时空融合的环视鸟瞰图感知方法，其特征在于，所述步骤S2中，构建的基础骨干网络如下：

6.如权利要求5所述的统一时空融合的环视鸟瞰图感知方法，其特征在于，所述步骤S3中，建立时序特征队列方法如下：

7.如权利要求6所述的统一时空融合的环视鸟瞰图感知方法，其特征在于，所述步骤S4中，得到融合特征的方法如下：

S42、建立鸟瞰图空间表达，以

表达整个鸟瞰图空间；其中，Q_x,y为鸟瞰图的查询(Query)，表示在鸟瞰图空间位置(x,y)处的特征信息；C为特征维度，X和Y为鸟瞰图空间的长和宽；对于每个鸟瞰图空间位置(x,y)，在高度z上从-3m到5m进行均匀采样获取Z个高度点，从而得到一组对应鸟瞰图空间位置(x,y)的3D坐标{(x,y,z)|z∈[-3,5]}；对于每个鸟瞰图空间位置(x,y)，进一步通过S23中建立的虚拟视角模型对采样得到的3D坐标{(x,y,z)|z∈[-3,5]}进行变换，将鸟瞰图空间下的3D坐标{(x,y,z)|z∈[-3,5]}转换至摄像头空间，得到其在图像空间中的位置P_img，从而建立了鸟瞰图空间中位置点与图像空间中位置点的映射关系；根据所述映射关系，将时序特征组中图像空间下的多层次特征映射至鸟瞰图空间中；

其中

为所述时序特征组中第p个时刻第l个层次的特征被虚拟视角模型映射至鸟瞰图空间后在鸟瞰图空间位置(x,y,z)处所对应的特征；

为

叠加位置编码(positional embedding，PE)后的结果；

为互注意力权重，其计算式中的Q_x,y是原始鸟瞰图空间表达中的Q_x,y经过了自注意力层和第一归一化层后的输出结果；

8.如权利要求7所述的统一时空融合的环视鸟瞰图感知方法，其特征在于，所述步骤S5中，过程如下：