CN115115713A - 一种统一时空融合的环视鸟瞰图感知方法 - Google Patents

一种统一时空融合的环视鸟瞰图感知方法 Download PDF

Info

Publication number
CN115115713A
CN115115713A CN202210843438.0A CN202210843438A CN115115713A CN 115115713 A CN115115713 A CN 115115713A CN 202210843438 A CN202210843438 A CN 202210843438A CN 115115713 A CN115115713 A CN 115115713A
Authority
CN
China
Prior art keywords
space
images
fusion
perception
view
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210843438.0A
Other languages
English (en)
Inventor
李玺
秦泽群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202210843438.0A priority Critical patent/CN115115713A/zh
Publication of CN115115713A publication Critical patent/CN115115713A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4038Scaling the whole image or part thereof for image mosaicing, i.e. plane images composed of plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种统一时空融合的环视鸟瞰图感知方法,用于自动驾驶系统中的视觉感知。具体包括如下步骤:获取用于训练神经网络的图像数据集,定义算法目标;建立虚拟视角模型;基础骨干网络环视图像特征提取;建立时序特征队列;统一的时空融合建模融合特征;头部网络输出预测结果。本发明相比于现有技术中的其他感知模型,能够有效地同时融合环视图像的空间关系,同时能够融合不同时刻环视图像的时序关系,通过更好地融合不同时序步取得了更好的感知效果和更快的感知速度。

Description

一种统一时空融合的环视鸟瞰图感知方法
技术领域
本发明属于图像处理领域,具体涉及一种统一时空融合的环视鸟瞰图感知方法。
背景技术
近些年来,基于鸟瞰图(bird’s-eye-view,BEV)的自动驾驶环视感知系统逐渐成为主流的感知范式。基于鸟瞰图的感知表达其核心意涵为将采集到的环视图像映射到基于当前自身车辆位置的鸟瞰图BEV空间中。这种空间融合方式能够组成一个统一的鸟瞰图BEV空间,并且能够极大地减少环视多摄像头融合时的难度。除此之外,这种鸟瞰图BEV空间融合天然地与其他感知模态,如激光雷达等,具有一致的3D空间位置,从而简便了视觉系统与激光雷达系统的融合。因此,基于鸟瞰图的自动驾驶环视感知系统具有统一的,便于其他模态处理的表达能力。然而,面对自动驾驶过程中长时间、长时序下的环视图像,如何实现环视鸟瞰图感知,是目前亟待解决的技术问题之一。
发明内容
本发明的目的在于解决现有技术中自动驾驶过程中长时间、长时序下的环视图像难以高效融合进而导致感知效果不佳的问题,并提供一种统一时空融合的环视鸟瞰图感知方法。
为实现上述目的,本发明所采用的具体技术方案如下:
一种统一时空融合的环视鸟瞰图感知方法,其包括以下步骤:
S1、建立用于将摄像头空间变换到BEV空间的虚拟视角模型;
S2、构建用于从环视图像组内的单张环视图像中提取多层次特征的基础骨干网络;
S3、基于S2构建的骨干网络特征对输入的不同时刻的环视图像进行逐帧特征提取,并按照时刻对提取的特征进行排序,建立时序特征队列;
S4、基于S1中构建的虚拟视角模型与S3中建立的时序特征队列,通过统一时空融合特征融合器建模得到融合特征;
S5、基于S4得到的融合特征使用头部网络输出预测结果,得到用于自动驾驶的周围环境感知。
作为优选,所述基础骨干网络、统一时空融合特征融合器和头部网络组成的环视鸟瞰图感知网络框架,预先经过用于环视鸟瞰图感知的图像数据集进行训练,图像数据集中的环视图像样本由多方向摄像头采集的环视图像、各摄像头对应的相机内外参信息和各图像对应的标注信息组成。
作为优选,所述用于环视鸟瞰图感知的图像数据集包括图像组
Figure BDA0003751255430000021
Figure BDA0003751255430000022
其中Ii为第i组环视图像,每组环视图像包含N张分别由不同方向摄像头拍摄的图像,N为车辆上朝向不同方向的摄像头总数;Infoi为第i组环视图像所对应的相机内外参信息,包含旋转矩阵和平移矩阵;Ti为第i组环视图像整组对应的真实3D世界标注信息,包括以该组环视图像为中心的地图信息,和/或以该组环视图像为中心的周围世界3D车辆的标注信息;M为图像数据集中的环视图像组数。
作为优选,步骤S1中,建立虚拟视角模型的方法如下:
S11、对于每组环视图像Ii所对应的相机内外参信息Infoi,定义其包含的旋转矩阵为
Figure BDA0003751255430000023
平移矩阵为
Figure BDA0003751255430000024
对于旋转矩阵R,定义Rc为当前时刻的旋转矩阵,Rp为过去时刻的旋转矩阵,Ri,j为第i组环视图像中第j张图像对应的摄像头采用的旋转矩阵,i∈{1,…,M},j∈{1,…,N};对于平移矩阵t,定义tc为当前时刻的平移矩阵,tp为过去时刻的平移矩阵,ti,j为第i组环视图像中第j张图像对应的摄像头采用的平移矩阵;
S12、定义如下虚拟视角模型变换:
Figure BDA0003751255430000025
Figure BDA0003751255430000026
其中
Figure BDA0003751255430000027
为第i组环视图像中第j张图像对应的摄像头的虚拟旋转矩阵,
Figure BDA0003751255430000028
为第i组环视图像中第j张图像对应的摄像头的虚拟平移矩阵;
S13、对于S12中得到的虚拟视角模型变换,按照如下公式建立用于将摄像头空间变换到BEV空间的虚拟视角模型:
Figure BDA0003751255430000031
其中Pbev为BEV空间中的坐标点,Pimg为图像空间中的坐标点,Ki,j为第i组环视图像中第j张图像对应的摄像头的相机内参。
作为优选,所述步骤S2中,构建的基础骨干网络如下:
选择ResNet、Swin-Tiny、VoVNet中的一种作为骨干网络,对于所有输入的环视图像均使用同一个选定的骨干网络进行特征提取,使不同摄像头拍摄的图像之间共享骨干网络;对于层次数目为L的骨干网络,在提取多层次特征时,需对骨干网络每一个层(stage)提取的特征均进行保留,最终得到L个层次的多层次特征。
作为优选,所述步骤S3中,建立时序特征队列方法如下:
将不同时刻的环视图像组输入所述骨干网络中,由骨干网络逐帧提取单帧多层次特征,并按照图像采集的时间顺序将多层次特征保存在时序特征队列中。
作为优选,所述步骤S4中,得到融合特征的方法如下:
S41、基于S3中得到的时序特征队列,获取最新的长度为P个时刻的时序特征组;
S42、建立BEV空间表达,以
Figure BDA0003751255430000032
表达整个BEV空间;其中,Qx,y为BEV的查询(Query),表示在BEV空间位置(x,y)处的特征信息;C为特征维度,X和Y为BEV空间的长和宽;对于每个BEV空间位置(x,y),在高度z上从-3m到5m进行均匀采样获取Z个高度点,从而得到一组对应BEV空间位置(x,y)的3D坐标{(x,y,z)|z∈[-3,5]};对于每个BEV空间位置(x,y),进一步通过S23中建立的虚拟视角模型对采样得到的3D坐标{(x,y,z)|z∈[-3,5进行变换,将BEV空间下的3D坐标{(x,y,z)|z∈[-3,5转换至摄像头空间,得到其在图像空间中的位置Pimg,从而建立了BEV空间中位置点与图像空间中位置点的映射关系;根据所述映射关系,将时序特征组中图像空间下的多层次特征映射至BEV空间中;
S43、建立统一时空融合特征融合器,其包含由浅到深级联的自注意力层、第一归一化层、互注意力层、第二归一化层、前馈网络层和第三归一化层;其中自注意力层使用可变形注意力方法,所述第一归一化层、第二归一化层和第三归一化层均使用层归一化方法(LayerNorm),所述前馈网络由一个全连接网络组成,所述互注意力层则由以下公式定义:
Figure BDA0003751255430000041
Figure BDA0003751255430000042
其中
Figure BDA0003751255430000043
为所述时序特征组中第p个时刻第l个层次的特征被虚拟视角模型映射至BEV空间后在BEV空间位置(x,y,z)处所对应的特征;
Figure BDA0003751255430000044
Figure BDA0003751255430000045
叠加位置编码(positional embedding,PE)后的结果;
Figure BDA0003751255430000046
为互注意力权重,其计算式中的Qx,y是原始BEV空间表达中的Qx,y经过了自注意力层和第一归一化层后的输出结果;
S44、将S41中的时序特征组输入S43中建立的统一时空融合特征融合器中,获得统一时空融合特征融合器的输出特征。
作为优选,所述步骤S5中,过程如下:
S51、使用ERFNet作为头部网络,对S44中得到的输出特征,经过ERFNet头部网络后得到自动驾驶环视地图感知输出;
S52、使用CenterPoint作为头部网络,对S44中得到的输出特征,经过CenterPoint头部网络后得到自动驾驶3D目标检测感知输出。
S53、整合S51与S52得到的感知输出结果,最终得到自动驾驶周围环境感知。
本发明提供了一种统一时空融合的环视鸟瞰图感知方法,相比于现有的环视鸟瞰图感知方法,具有以下有益效果:
首先,本发明的时空融合方案能够有效地同时融合环视图像的空间关系,同时能够融合不同时刻环视图像的时序关系。
其次,本发明的融合方法能够实现长时间、长时序下的融合,并且融合性能随着视角增加单调递增。
最后,本发明的能够动态地融合不同时序步,并且具有效果更好,速度更快的特点。
附图说明
图1为一种统一时空融合的环视鸟瞰图感知方法的步骤流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施例的限制。本发明各个实施例中的技术特征在没有相互冲突的前提下,均可进行相应组合。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于区分描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。
在本发明的一个较佳实施例中,提供了一种统一时空融合的环视鸟瞰图感知方法,该方法用于基于自动驾驶车辆上不同方向的摄像头采集的环视图像,感知该组环视图像所对应的真实3D世界,如地图感知、3D物体感知等,其包括以下步骤:
S1、建立用于将摄像头空间变换到鸟瞰图空间(BE空间)的虚拟视角模型。
在本实施例中,上述步骤S1中建立虚拟视角模型的具体方法如下:
S11、对于每组环视图像Ii所对应的相机内外参信息Infoi,定义其包含的旋转矩阵为
Figure BDA0003751255430000051
平移矩阵为
Figure BDA0003751255430000052
对于旋转矩阵R,定义Rc为当前时刻的旋转矩阵,Rp为过去时刻的旋转矩阵,Ri,j为第i组环视图像中第j张图像对应的摄像头采用的旋转矩阵,i∈{1,…,M},j∈{1,…,N};对于平移矩阵t,定义tc为当前时刻的平移矩阵,tp为过去时刻的平移矩阵,ti,j为第i组环视图像中第j张图像对应的摄像头采用的平移矩阵。
在本实施例中,在本实施例中N=6,即每组环视图像包含6张不同方向的图片,分别由6个不同方向的摄像头采集得到。
S12、定义如下虚拟视角模型变换:
Figure BDA0003751255430000053
Figure BDA0003751255430000054
其中
Figure BDA0003751255430000061
为第i组环视图像中第j张图像对应的摄像头的虚拟旋转矩阵,
Figure BDA0003751255430000062
为第i组环视图像中第j张图像对应的摄像头的虚拟平移矩阵。
S13、对于S12中得到的虚拟视角模型变换,按照如下公式建立用于将摄像头空间变换到鸟瞰图空间的虚拟视角模型:
Figure BDA0003751255430000063
其中Pbev为鸟瞰图空间中的坐标点,Pimg为图像空间中的坐标点,Ki,j为第i组环视图像中第j张图像对应的摄像头的相机内参。
S2、构建用于从环视图像组内的单张环视图像中提取多层次特征的基础骨干网络。
在本实施例中,上述步骤S2中,构建的基础骨干网络如下:
选择ResNet、Swin-Tiny、VoVNet中的一种作为骨干网络,对于所有输入的环视图像均使用同一个选定的骨干网络进行特征提取,使不同摄像头拍摄的图像之间共享骨干网络;对于层次数目为L的骨干网络,在提取多层次特征时,需对骨干网络每一个层(stage)提取的特征均进行保留,即保留所有中间特征和最终的特征,最终得到L个层次的多层次特征。
S3、基于S2构建的骨干网络特征对输入的不同时刻的环视图像进行逐帧特征提取,并按照时刻对提取的特征进行排序,建立时序特征队列。
在本实施例中,上述步骤S3中,建立时序特征队列方法如下:
将不同时刻的环视图像组输入所述骨干网络中,由骨干网络逐帧提取单帧多层次特征,并按照图像采集的时间顺序将多层次特征保存在时序特征队列中。
S4、基于S1中构建的虚拟视角模型与S3中建立的时序特征队列,通过统一时空融合特征融合器建模得到融合特征。
在本实施例中,上述步骤S4中,得到融合特征的方法如下:
S41、基于S3中得到的时序特征队列,获取最新的长度为P个时刻的时序特征组。
需要注意的是,P是一个需要进行优化调整的超参数。在获取融合特征时,需利用时序特征队列中保存的从最新的P个时刻的环视图像组中提取的时序特征组成时序特征组,从而实现对外部世界的实时感知。因此,该时序特征队列相当于一个长度为P的先进先出序列,通过该序列即可保持最新的时序特征组。
S42、建立鸟瞰图空间表达,以
Figure BDA0003751255430000071
表达整个鸟瞰图空间;其中,Qx,y为鸟瞰图的查询(Query),表示在鸟瞰图空间位置(x,y)处的特征信息;C为特征维度,X和Y为鸟瞰图空间的长和宽;对于每个鸟瞰图空间位置(x,y),在高度z上从-3m到5m进行均匀采样获取Z个高度点,从而得到一组对应鸟瞰图空间位置(x,y)的3D坐标{(x,y,z)|z∈[-3,5]};对于每个鸟瞰图空间位置(x,y),进一步通过S23中建立的虚拟视角模型对采样得到的3D坐标{(x,y,z)|z∈[-3,5]}进行变换,将鸟瞰图空间下的3D坐标{(x,y,z)|z∈[-3,5]}转换至摄像头空间,得到其在图像空间中的位置Pimg,从而建立了鸟瞰图空间中位置点与图像空间中位置点的映射关系;根据所述映射关系,将时序特征组中图像空间下的多层次特征映射至鸟瞰图空间中。
S43、建立统一时空融合特征融合器,其包含由浅到深级联的自注意力层、第一归一化层、互注意力层、第二归一化层、前馈网络层和第三归一化层;其中自注意力层使用可变形注意力方法,所述第一归一化层、第二归一化层和第三归一化层均使用层归一化方法(LayerNorm),所述前馈网络由一个全连接网络组成,所述互注意力层则由以下公式定义:
Figure BDA0003751255430000072
Figure BDA0003751255430000073
其中
Figure BDA0003751255430000074
为所述时序特征组中第p个时刻第l个层次的特征被虚拟视角模型映射至鸟瞰图空间后在鸟瞰图空间位置(x,y,z)处所对应的特征,p=1,2,…,P;l=1,2,…,L;z一共有Z个,具体根据均匀采样获取的Z个高度点确定;
Figure BDA0003751255430000075
Figure BDA0003751255430000076
叠加位置编码(positional embedding,PE)后的结果;
Figure BDA0003751255430000077
为互注意力权重,其计算式中的Qx,y是原始鸟瞰图空间表达中的Qx,y经过了自注意力层和第一归一化层后的输出结果。
需要注意的是,上述自注意力层、第一归一化层、互注意力层、第二归一化层、前馈网络层和第三归一化层是逐层级联的,上一层的输出作为下一层的输入,第三归一化层的输出作为整个融合器的输出。在该网络结构中,Qx,y可以视为是一个不断迭代更新的参数,自注意力层的输入为原始鸟瞰图空间表达中的Qx,y,输出为更新后的Qx,y,更新后的Qx,y经过第一归一化层中的层归一化操作后,在输入互注意力层,依次类推。
需要说明的是,自注意力层使用可变形注意力方法即Deformable DETR,属于现有技术,具体原理可参见现有技术文献:Zhu,Xizhou,Weijie Su,Lewei Lu,Bin Li,XiaogangWang,and Jifeng Dai."Deformable detr:Deformable transformers for end-to-endobject detection."arXiv preprint arXiv:2010.04159(2020).
S44、将S41中的时序特征组输入S43中建立的统一时空融合特征融合器中,获得统一时空融合特征融合器的输出特征。
S5、基于S4得到的融合特征使用头部网络输出预测结果,得到用于自动驾驶的周围环境感知。
在本实施例中,上述步骤S5中,过程如下:
S51、使用ERFNet作为头部网络,对S44中得到的输出特征,经过ERFNet头部网络后得到自动驾驶环视地图感知输出,即得到以该组环视图像为中心的地图信息;
S52、使用CenterPoint作为头部网络,对S44中得到的输出特征,经过CenterPoint头部网络后得到自动驾驶3D目标检测感知输出,即得到以该组环视图像为中心的周围世界3D目标(如车辆)信息。
S53、整合S51与S52得到的感知输出结果,最终得到自动驾驶周围环境感知。
需要说明的是,在上述S1~S5的步骤框架中,基础骨干网络、统一时空融合特征融合器和头部网络组成了环视鸟瞰图感知网络框架。但是该环视鸟瞰图感知网络框架在用于实际预测感知之前,需要预先经过用于环视鸟瞰图感知的图像数据集进行训练,图像数据集中的环视图像样本由多方向摄像头采集的环视图像、各摄像头对应的相机内外参信息和各图像对应的标注信息组成。
在本实施例中,用于环视鸟瞰图感知的图像数据集包括图像组
Figure BDA0003751255430000081
Figure BDA0003751255430000082
其中Ii为第i组环视图像,每组环视图像包含N张分别由不同方向摄像头拍摄的图像,N为车辆上朝向不同方向的摄像头总数;Infoi为第i组环视图像所对应的相机内外参信息,包含旋转矩阵和平移矩阵;Ti为第i组环视图像整组对应的真实3D世界标注信息,包括两类标注,第一类是以该组环视图像为中心的地图信息,第二类是以该组环视图像为中心的周围世界3D车辆的标注信息;M为图像数据集中的环视图像组数。
利用图像数据集对环视鸟瞰图感知网络框架进行训练的具体做法,属于现有技术,对此不再赘述。
下面将上述S1~S5所描述的统一时空融合的环视鸟瞰图感知方法应用于一个具体实例中,以展示其技术效果。
实施例
本实施例的实现方法如前所述,不再详细阐述具体的步骤,下面仅针对案例数据展示其效果。本发明在具有真值标注的数据集上实施,详细信息如下:
NuScenes数据集[1]:该数据集包含28130组环视训练图片组与6019组环视测试图片组,每组图片均包含BEV空间标注、相机内外参。
本实施例主要在NuScenes数据集上进行BEV地图分割任务评估。
表1本实施例在NuScenes数据集上各评价指标对比(100m x 100m范围)
Method Road mIoU Lane mIoU
LSS[2] 72.9 20.0
VPN[3] 76.9 19.4
M2BEV[4] 77.2 -
BEVFormer[5] 80.1 25.7
本发明方法 85.4 31.0
表1本实施例在NuScenes数据集上各评价指标对比(60m x 30m范围)
Method Divider Ped crossing Boundary All
LSS[2] 38.3 14.9 39.3 30.8
VPN[3] 36.5 15.8 35.6 29.3
BEVSegFormer[6] 51.1 32.6 50.0 44.6
BEVerse[7] 56.1 44.9 58.7 53.2
本发明方法 60.6 49.0 62.5 57.4
上述NuScenes数据集的来源以及各对比方法可参见如下现有技术文献:
[1]Caesar,Holger,Varun Bankiti,Alex H.Lang,Sourabh Vora,Venice ErinLiong,Qiang Xu,Anush Krishnan,Yu Pan,Giancarlo Baldan,and Oscar Beijbom."nuscenes:A multimodal dataset for autonomous driving."In Proceedings of theIEEE/CVF conference on computer vision and pattern recognition,pp.11621-11631.2020.
[2]Philion,Jonah,and Sanja Fidler."Lift,splat,shoot:Encoding imagesfrom arbitrary camera rigs by implicitly unprojecting to 3d."In EuropeanConference on Computer Vision,pp.194-210.Springer,Cham,2020.
[3]Pan,Bowen,Jiankai Sun,Ho Yin Tiga Leung,Alex Andonian,and BoleiZhou."Cross-view semantic segmentation for sensing surroundings."IEEERobotics and Automation Letters 5,no.3(2020):4867-4873.
[4]Xie,Enze,Zhiding Yu,Daquan Zhou,Jonah Philion,Anima Anandkumar,Sanja Fidler,Ping Luo,and Jose M.Alvarez."M^2BEV:Multi-Camera Joint 3DDetection and Segmentation with Unified Birds-Eye View Representation."arXivpreprint arXiv:2204.05088(2022).
[5]Li,Zhiqi,Wenhai Wang,Hongyang Li,Enze Xie,Chonghao Sima,Tong Lu,Qiao Yu,and Jifeng Dai."BEVFormer:Learning Bird's-Eye-View Representationfrom Multi-Camera Images via Spatiotemporal Transformers."arXiv preprintarXiv:2203.17270(2022).
[6]Peng,Lang,Zhirong Chen,Zhangjie Fu,Pengpeng Liang,and ErkangCheng."BEVSegFormer:Bird's Eye View Semantic Segmentation From ArbitraryCamera Rigs."arXiv preprint arXiv:2203.04050(2022).
[7]Zhang,Yunpeng,Zheng Zhu,Wenzhao Zheng,Junjie Huang,Guan Huang,JieZhou,and Jiwen Lu."BEVerse:Unified Perception and Prediction in Birds-Eye-View for Vision-Centric Autonomous Driving."arXiv preprint arXiv:2205.09743(2022).
上述结果表明,本发明相比于现有技术中的其他感知模型,能够有效地同时融合环视图像的空间关系,同时能够融合不同时刻环视图像的时序关系,通过更好地融合不同时序步取得了更好的感知效果和更快的感知速度。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (8)

1.一种统一时空融合的环视鸟瞰图感知方法,其特征在于,包括以下步骤:
S1、建立用于将摄像头空间变换到鸟瞰图空间的虚拟视角模型;
S2、构建用于从环视图像组内的单张环视图像中提取多层次特征的基础骨干网络;
S3、基于S2构建的骨干网络特征对输入的不同时刻的环视图像进行逐帧特征提取,并按照时刻对提取的特征进行排序,建立时序特征队列;
S4、基于S1中构建的虚拟视角模型与S3中建立的时序特征队列,通过统一时空融合特征融合器建模得到融合特征;
S5、基于S4得到的融合特征使用头部网络输出预测结果,得到用于自动驾驶的周围环境感知。
2.如权利要求1所述的统一时空融合的环视鸟瞰图感知方法,其特征在于,所述基础骨干网络、统一时空融合特征融合器和头部网络组成的环视鸟瞰图感知网络框架,预先经过用于环视鸟瞰图感知的图像数据集进行训练,图像数据集中的环视图像样本由多方向摄像头采集的环视图像、各摄像头对应的相机内外参信息和各图像对应的标注信息组成。
3.如权利要求2所述的统一时空融合的环视鸟瞰图感知方法,其特征在于,所述用于环视鸟瞰图感知的图像数据集包括图像组
Figure FDA0003751255420000011
其中Ii为第i组环视图像,每组环视图像包含N张分别由不同方向摄像头拍摄的图像,N为车辆上朝向不同方向的摄像头总数;Infoi为第i组环视图像所对应的相机内外参信息,包含旋转矩阵和平移矩阵;Ti为第i组环视图像整组对应的真实3D世界标注信息,包括以该组环视图像为中心的地图信息,和/或以该组环视图像为中心的周围世界3D车辆的标注信息;M为图像数据集中的环视图像组数。
4.如权利要求1所述的统一时空融合的环视鸟瞰图感知方法,其特征在于,步骤S1中,建立虚拟视角模型的方法如下:
S11、对于每组环视图像Ii所对应的相机内外参信息Infoi,定义其包含的旋转矩阵为
Figure FDA0003751255420000012
平移矩阵为
Figure FDA0003751255420000013
对于旋转矩阵R,定义Rc为当前时刻的旋转矩阵,Rp为过去时刻的旋转矩阵,Ri,j为第i组环视图像中第j张图像对应的摄像头采用的旋转矩阵,i∈{1,…,M},j∈{1,…,N};对于平移矩阵t,定义tc为当前时刻的平移矩阵,tp为过去时刻的平移矩阵,ti,j为第i组环视图像中第j张图像对应的摄像头采用的平移矩阵;
S12、定义如下虚拟视角模型变换:
Figure FDA0003751255420000021
Figure FDA0003751255420000022
其中
Figure FDA0003751255420000023
为第i组环视图像中第j张图像对应的摄像头的虚拟旋转矩阵,
Figure FDA0003751255420000024
为第i组环视图像中第j张图像对应的摄像头的虚拟平移矩阵;
S13、对于S12中得到的虚拟视角模型变换,按照如下公式建立用于将摄像头空间变换到鸟瞰图空间的虚拟视角模型:
Figure FDA0003751255420000025
其中Pbev为鸟瞰图空间中的坐标点,Pimg为图像空间中的坐标点,Ki,j为第i组环视图像中第j张图像对应的摄像头的相机内参。
5.如权利要求4所述的统一时空融合的环视鸟瞰图感知方法,其特征在于,所述步骤S2中,构建的基础骨干网络如下:
选择ResNet、Swin-Tiny、VoVNet中的一种作为骨干网络,对于所有输入的环视图像均使用同一个选定的骨干网络进行特征提取,使不同摄像头拍摄的图像之间共享骨干网络;对于层次数目为L的骨干网络,在提取多层次特征时,需对骨干网络每一个层(stage)提取的特征均进行保留,最终得到L个层次的多层次特征。
6.如权利要求5所述的统一时空融合的环视鸟瞰图感知方法,其特征在于,所述步骤S3中,建立时序特征队列方法如下:
将不同时刻的环视图像组输入所述骨干网络中,由骨干网络逐帧提取单帧多层次特征,并按照图像采集的时间顺序将多层次特征保存在时序特征队列中。
7.如权利要求6所述的统一时空融合的环视鸟瞰图感知方法,其特征在于,所述步骤S4中,得到融合特征的方法如下:
S41、基于S3中得到的时序特征队列,获取最新的长度为P个时刻的时序特征组;
S42、建立鸟瞰图空间表达,以
Figure FDA0003751255420000026
表达整个鸟瞰图空间;其中,Qx,y为鸟瞰图的查询(Query),表示在鸟瞰图空间位置(x,y)处的特征信息;C为特征维度,X和Y为鸟瞰图空间的长和宽;对于每个鸟瞰图空间位置(x,y),在高度z上从-3m到5m进行均匀采样获取Z个高度点,从而得到一组对应鸟瞰图空间位置(x,y)的3D坐标{(x,y,z)|z∈[-3,5]};对于每个鸟瞰图空间位置(x,y),进一步通过S23中建立的虚拟视角模型对采样得到的3D坐标{(x,y,z)|z∈[-3,5]}进行变换,将鸟瞰图空间下的3D坐标{(x,y,z)|z∈[-3,5]}转换至摄像头空间,得到其在图像空间中的位置Pimg,从而建立了鸟瞰图空间中位置点与图像空间中位置点的映射关系;根据所述映射关系,将时序特征组中图像空间下的多层次特征映射至鸟瞰图空间中;
S43、建立统一时空融合特征融合器,其包含由浅到深级联的自注意力层、第一归一化层、互注意力层、第二归一化层、前馈网络层和第三归一化层;其中自注意力层使用可变形注意力方法,所述第一归一化层、第二归一化层和第三归一化层均使用层归一化方法(LayerNorm),所述前馈网络由一个全连接网络组成,所述互注意力层则由以下公式定义:
Figure FDA0003751255420000031
Figure FDA0003751255420000032
其中
Figure FDA0003751255420000033
为所述时序特征组中第p个时刻第l个层次的特征被虚拟视角模型映射至鸟瞰图空间后在鸟瞰图空间位置(x,y,z)处所对应的特征;
Figure FDA0003751255420000034
Figure FDA0003751255420000035
叠加位置编码(positional embedding,PE)后的结果;
Figure FDA0003751255420000036
为互注意力权重,其计算式中的Qx,y是原始鸟瞰图空间表达中的Qx,y经过了自注意力层和第一归一化层后的输出结果;
S44、将S41中的时序特征组输入S43中建立的统一时空融合特征融合器中,获得统一时空融合特征融合器的输出特征。
8.如权利要求7所述的统一时空融合的环视鸟瞰图感知方法,其特征在于,所述步骤S5中,过程如下:
S51、使用ERFNet作为头部网络,对S44中得到的输出特征,经过ERFNet头部网络后得到自动驾驶环视地图感知输出;
S52、使用CenterPoint作为头部网络,对S44中得到的输出特征,经过CenterPoint头部网络后得到自动驾驶3D目标检测感知输出。
S53、整合S51与S52得到的感知输出结果,最终得到自动驾驶周围环境感知。
CN202210843438.0A 2022-07-18 2022-07-18 一种统一时空融合的环视鸟瞰图感知方法 Pending CN115115713A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210843438.0A CN115115713A (zh) 2022-07-18 2022-07-18 一种统一时空融合的环视鸟瞰图感知方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210843438.0A CN115115713A (zh) 2022-07-18 2022-07-18 一种统一时空融合的环视鸟瞰图感知方法

Publications (1)

Publication Number Publication Date
CN115115713A true CN115115713A (zh) 2022-09-27

Family

ID=83331674

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210843438.0A Pending CN115115713A (zh) 2022-07-18 2022-07-18 一种统一时空融合的环视鸟瞰图感知方法

Country Status (1)

Country Link
CN (1) CN115115713A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116246235A (zh) * 2023-01-06 2023-06-09 吉咖智能机器人有限公司 基于行泊一体的目标检测方法、装置、电子设备和介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116246235A (zh) * 2023-01-06 2023-06-09 吉咖智能机器人有限公司 基于行泊一体的目标检测方法、装置、电子设备和介质

Similar Documents

Publication Publication Date Title
Wang et al. SFNet-N: An improved SFNet algorithm for semantic segmentation of low-light autonomous driving road scenes
EP3605394B1 (en) Method and apparatus for recognizing body movement
CN108803617B (zh) 轨迹预测方法及装置
CN110555420B (zh) 一种基于行人区域特征提取和重识别融合模型网络及方法
CN108665484B (zh) 一种基于深度学习的危险源识别方法与系统
CN111507275B (zh) 一种基于深度学习的视频数据时序信息提取方法及装置
CN112967341A (zh) 基于实景图像的室内视觉定位方法、系统、设备及存储介质
WO2022052782A1 (zh) 图像的处理方法及相关设备
CN115082254A (zh) 一种变电站精益管控数字孪生系统
CN114219855A (zh) 点云法向量的估计方法、装置、计算机设备和存储介质
CN117197388A (zh) 一种基于生成对抗神经网络和倾斜摄影的实景三维虚拟现实场景构建方法及系统
CN116194951A (zh) 用于基于立体视觉的3d对象检测与分割的方法和装置
CN116092178A (zh) 一种面向移动端的手势识别和跟踪方法及系统
CN113065506B (zh) 一种人体姿态识别方法及系统
CN115115713A (zh) 一种统一时空融合的环视鸟瞰图感知方法
CN115008454A (zh) 一种基于多帧伪标签数据增强的机器人在线手眼标定方法
CN114299230A (zh) 一种数据生成方法、装置、电子设备及存储介质
CN111222459A (zh) 一种视角无关的视频三维人体姿态识别方法
CN104463962A (zh) 基于gps信息视频的三维场景重建方法
WO2022205329A1 (zh) 对象检测方法、对象检测装置及对象检测系统
WO2023217138A1 (zh) 一种参数配置方法、装置、设备、存储介质及产品
CN113222961A (zh) 智能船体检测系统及方法
CN116433822B (zh) 一种神经辐射场训练方法、装置、设备及介质
CN116258756B (zh) 一种自监督单目深度估计方法及系统
CN115861883A (zh) 一种多目标检测追踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination