CN116071721A - 一种基于Transformer的高精地图实时预测方法和系统 - Google Patents

一种基于Transformer的高精地图实时预测方法和系统 Download PDF

Info

Publication number
CN116071721A
CN116071721A CN202310166744.XA CN202310166744A CN116071721A CN 116071721 A CN116071721 A CN 116071721A CN 202310166744 A CN202310166744 A CN 202310166744A CN 116071721 A CN116071721 A CN 116071721A
Authority
CN
China
Prior art keywords
feature
map
query
image data
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310166744.XA
Other languages
English (en)
Inventor
张力
徐升华
聂铭
蔡信岳
徐航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202310166744.XA priority Critical patent/CN116071721A/zh
Publication of CN116071721A publication Critical patent/CN116071721A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/16Image acquisition using multiple overlapping images; Image stitching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于Transformer的高精地图实时预测方法,包括:从多个视角相机中获取多个包含道路类别的图像数据、以及每个图像数据所对应的相机内外参数以及自车的标定参数,利用矩阵乘法获取每个图像数据对应的投影矩阵,并对所有图像数据进行预处理,以得到预处理后的多个图像数据;将预处理后的所有图像数据、以及每个图像数据所对应的投影矩阵输入预先训练好的高精地图实时预测模型中,以得到每个道路类别对应的预测结果;使用点非极大值抑制方法对每个道路类别对应的分割图进行处理,以得到所有道路类别对应的关键点集合,对每个道路类别对应的关键点集合、以及该道路类别对应的偏移图和距离图进行解码处理,以得到解码后的检测结果。

Description

一种基于Transformer的高精地图实时预测方法和系统
技术领域
本发明属于深度学习和视觉感知技术领域,更具体地,涉及一种基于Transformer的高精地图实时预测方法和系统。
背景技术
高精地图实时预测在自动驾驶研究领域里起着至关重要的作用,对于道路的准确感知往往是路线规划、车辆转向以及车道保持等下游任务的第一步。因此高精地图实时预测研究是目前深度学习的重要组成部分,体现出巨大的研究潜力和应用价值。此外,高精地图通常包含车道线,人行道和路沿等多种道路类别信息。
目前高精地图实时预测算法主要划分为三种方法。第一种方法是对于2D图像特征不进行投影,直接在鸟瞰图(Bird’s Eye View,简称为BEV)空间中将高精地图相关的道路结构信息检测出来,然后利用相机的内外参数和位姿信息,将检测结果直接转换到鸟瞰图空间。第二种方法是通过逆透视变换(Inverse Perspective Mapping,简称为IPM),根据相机的内外参数和位姿信息将2D图像特征信息映射到鸟瞰图空间下,得到鸟瞰图特征图,然后通过鸟瞰图特征图检测出高精地图的道路结构信息。第三种方法是基于深度估计的方法,其通过加入像素级的深度信息,将每个像素的位置信息提升到三维,然后借助相机内参投影到相机坐标系,投影到鸟瞰图空间,以此获得鸟瞰图特征图,最后通过鸟瞰图特征图检测出高精地图的道路结构信息。
然而,上述几种现有的高精地图预测方法均存在一些不可忽略的技术问题,第一,将图像坐标系中的检测结果直接转换到鸟瞰图空间没有很好地利用图像特征的高层语义信息,使得模型缺乏鲁棒性,并且对于多个相机对应的检测结果进行简单地拼接,使得多个相机对应的图像特征之间没有进行高效的信息融合。第二,逆透视变换作为一种简化相机模型的操作,在转换过程中会引入位置误差,并且在面临复杂的场景和不准确的相机参数时,会出现检测不佳的情况;第三,由于目前的深度估计模型仍然存在预测不准确的技术问题,而微小的深度估计偏差可能会引入较大的空间转换位置误差,这都会进一步影响高精地图检测的准确度。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于Transformer的高精地图实时预测方法和系统,其目的在于,解决现有直接将图像空间中的道路检测结果转换到鸟瞰图空间中,容易导致模型缺乏鲁棒性,使得多个相机视角之间的特征信息交互不足,最终降低高精地图预测精度的技术问题,以及基于逆透视变化的方法简化相机模型,无法处理复杂驾驶场景的技术问题,以及基于深度估计的方法过于依赖深度信息的准确性,容易导致深度估计不准确,降低图像特征向鸟瞰图空间转换的准确度的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于Transformer的高精地图实时预测方法,包括以下步骤:
(1)从多个视角相机中获取多个包含道路类别的图像数据、以及每个图像数据所对应的相机内外参数以及自车的标定参数,根据预先建立的鸟瞰图空间坐标系、每个图像数据对应的相机内外参数和自车的标定参数,并利用矩阵乘法获取每个图像数据对应的投影矩阵,并对所有图像数据进行预处理,以得到预处理后的多个图像数据。
(2)将步骤(1)预处理后的所有图像数据、以及每个图像数据所对应的投影矩阵输入预先训练好的高精地图实时预测模型中,以得到每个道路类别对应的预测结果,该预测结果包括分割图、偏移图和距离图。
(3)使用点非极大值抑制方法对步骤(2)得到的每个道路类别对应的分割图进行处理,以得到所有道路类别对应的关键点集合,对每个道路类别对应的关键点集合、以及步骤(2)得到的该道路类别对应的偏移图和距离图进行解码处理,以得到解码后的检测结果,将所有道路类别对应的检测结果进行拼接,以得到最终的高精地图预测结果。
优选地,相机内外参数包括相机坐标系向图像坐标系投影所需的相机内参和相机坐标系向自车坐标系所需的外参,自车标定数据主要包括但不局限于自车位置以及朝向。
道路类别包括三种,即车道线、人行道、以及路沿。
优选地,步骤(1)中根据预先建立的鸟瞰图空间坐标系、每个图像数据对应的相机内外参数和自车的标定参数,并利用矩阵乘法计算每个图像数据对应的投影矩阵这一过程具体为,首先将相机内参和相机外参相乘,得到图像坐标系向自车坐标系转换的投影矩阵,然后根据预先建立的鸟瞰图空间坐标系,将自车标定参数转换成相机坐标系向鸟瞰图空间坐标系转换的投影矩阵,最后将得到的两个投影矩阵相乘,得到图像坐标系向鸟瞰图空间坐标系转换的投影矩阵;
步骤(1)中对输入的多个图像数据进行预处理操作,包括缩放和归一化操作,缩放操作是利用双线性插值法将图像数据从原尺寸缩放到448×800×3,归一化操作是将图像数据中的平均亮度值进行移除。
优选地,高精地图实时检测模型包含依次连接的特征提取主干网络、鸟瞰图地面构建网络,和预测头网络三个部分;
特征提取主干网络包括一个标准的ResNet网络和一个轴向特征金字塔模块,其具体结构为:
ResNet网络,其输入为所有视角的多个图像数据,对其进行标准的特征提取操作,输出为维度为
Figure BDA0004096138130000031
以及
Figure BDA0004096138130000032
大小的特征张量,其中W表示每个图像数据的宽度,其取值为800,H表示每个图像数据的高度,其取值为448,每个图像数据的通道数为3;
轴向特征金字塔模块,其输入为ResNet网络输出的
Figure BDA0004096138130000041
Figure BDA0004096138130000042
以及
Figure BDA0004096138130000043
大小的特征张量,将其按照尺寸从大到小依次排列,得到层特征张量。将每一层特征张量进行轴向自注意力计算,再和上一层更新后的特征张量进行轴向交叉注意力计算,最终输出为
Figure BDA0004096138130000044
以及
Figure BDA0004096138130000045
大小的特征张量;
鸟瞰图地面构建网络由N个解码层串联组成,其中N的取值范围是1到3,每个解码层的输入是100×50×256大小的查询特征和特征金字塔模块输出得到的
Figure BDA0004096138130000046
大小的特征张量,首先,对所有查询特征进行轴向自注意力计算,以得到更新后的100×50×256大小的查询特征,然后,遍历更新后的100×50×256大小的特征张量的每一个查询特征,根据查询特征投影到相机视角是否可见的结果,将其划分为可见查询特征或者为不可见查询特征,随后,对可见查询特征和特征金字塔模块输出得到的
Figure BDA0004096138130000047
以及
Figure BDA0004096138130000048
大小的特征张量进行多视角采样注意力计算,得到更新后的可见查询特征,大小为N1×256,然后,对不可见查询特征和特征金字塔模块输出得到的
Figure BDA0004096138130000049
大小的特征张量进行全局交叉注意力计算,以得到更新后的不可见查询特征,大小为N2×256,其中N1+N2=5000,最后,将所有查询特征输入全连接层网络,以得到100×50×256大小的特征张量,作为下一个解码层的输入,由此,鸟瞰图地面构建网络最终输出为100×50×256大小的特征张量;
预测头网络包括并行的车道线预测头、人行道预测头和路沿预测头三部分,所有预测头的结构完全相同,每个预测头由三个相同的并行的网络分支构成,每个网络分支由M个卷积层顺序连接而成,将100×50×256大小的特征张量输入三个预测头中,并进行上采样操作,以得到三个预测结果,每个预测结果包括400×200×2大小的分割图、400×200×4大小的偏移图、以及400×200×2大小的距离图,其中M的取值范围是2到4。
优选地,高精地图实时预测模型是通过以下步骤训练得到的:
(2-1)获取高精地图自动驾驶数据集、每个图像数据所对应的相机内外参数以及自车的标定参数,对该高精地图自动驾驶数据集进行预处理,以得到预处理后的高精地图自动驾驶数据集,并将其按比例划分为训练集和验证集,根据预先建立的鸟瞰图空间坐标系、每个图像数据对应的相机内外参数和自车的标定参数,并利用矩阵乘法获取每个图像数据对应的投影矩阵。
(2-2)将步骤(2-1)获取的训练集输入预训练好的ResNet模型中,以得到每个视角v对应的第l个尺度的图像特征
Figure BDA0004096138130000051
对每个视角v对应的多尺度图像特征进行轴向注意力计算,以得到该视角对应的多尺度图像特征
Figure BDA0004096138130000052
并对该视角对应的多尺度图像特征进行跨尺度融合,以得到更新后的多尺度图像特征
Figure BDA0004096138130000053
其中v∈{1,...,V},V表示相机视角的数量,l∈{1,...,L},L表示图像特征的尺度数量;
(2-3)初始化一组栅格化、且可学习的查询特征Q,尺寸为HB×WB×C,其中HB代表鸟瞰图平面的长,WB代表鸟瞰图平面的宽,C代表每个查询特征Qi的通道数,i代表查询特征索引,并且i∈{1,...,HBWB},即Qi的尺寸为1×C,对每个查询特征对应的3D坐标
Figure BDA0004096138130000054
和步骤(2-1)得到的每个图像对应的投影矩阵进行计算,以得到每个查询特征投影之后在图像坐标系的2D坐标,根据得到的所有查询特征对应的2D投影坐标和图像数据的尺寸之间的关系,将所有的查询特征划分成可见查询特征和不可见查询特征,对每个可见查询特征以及对应的2D坐标和步骤(2-2)得到的多视角多尺度图像特征进行多视角采样注意力计算MSA,以得到更新后的可见查询特征;
(2-4)对步骤(2-2)更新后的多个相机视角对应的多尺度图像特征进行位置嵌入层计算,以得到3D图像特征,将每个不可见查询特征和3D图像特征进行空洞查询补全DQC计算,以得到更新后的不可见查询特征,将步骤(2-3)得到的可见查询特征和更新后的不可见查询特征按照预定义对应的3D位置坐标进行拼接,以得到鸟瞰图特征图。
(2-5)将步骤(2-4)得到的鸟瞰图特征图输入预测头网络中,以分别得到各个道路类别对应的预测结果,每个预测结果都包含分割图、偏移图和距离图。
(2-6)根据步骤(2-5)得到的所有道路类别的分割预测结果,偏移预测结果和距离预测结果计算损失函数,并利用该损失函数对高精地图实时检测模型进行迭代训练,直到该高精地图实时检测模型收敛为止,从而得到训练好的高精地图实时检测模型。
优选地,步骤(2-2)中在每个尺度的图像特征上进行轴向注意力操作CA,并且每个查询特征只和同一行或者同一列的键进行注意力计算;
步骤(2-2)中跨尺度特征融合操作也是进行轴向注意力计算,将第v个视角对应的第l个尺度的图像特征
Figure BDA0004096138130000061
当成查询特征,将更新后的第v个视角对应的第l+1个尺度的图像特征
Figure BDA0004096138130000062
当成键和值,利用双线性插值对
Figure BDA0004096138130000063
进行上采样操作,并且尺寸和
Figure BDA0004096138130000064
相同,具体操作如下公式所示:
Figure BDA0004096138130000065
Figure BDA0004096138130000066
其中CA表示轴向注意力操作,UP表示上采样操作。
优选地,在步骤(2-3)中,每个查询特征Qi表示鸟瞰图空间坐标平面中中坐落于pi=(xi,yi)的网格单元的特征信息。并且在整个坐标系转换的信息处理过程中,每个Qi对应的位置参考点都是固定不变的,因此对于每一个Qi,其对应的3D位置坐标
Figure BDA0004096138130000067
为(xi*s,yi*s,h),其中s为鸟瞰图空间的分辨率,h为鸟瞰图空间中的地面高度;
步骤(2-3)中将每个查询特征Qi对应的3D坐标
Figure BDA0004096138130000071
和步骤(2-1)得到的每个图像对应的投影矩阵进行计算,以得到每个查询特征投影之后在图像坐标系的2D坐标这一过程具体为,将步骤(2-1)得到的第v个视角相机对应的投影矩阵和
Figure BDA0004096138130000072
进行计算,以得到第v个相机对应图像平面的投影点
Figure BDA0004096138130000073
具体操作如以下公式所示,
Figure BDA0004096138130000074
其中pv代表第v个相机从3D空间转换到图像平面所需的投影矩阵;
步骤(2-3)中将所有的查询特征划分成可见查询特征和不可见查询特征这一过程具体为,根据所有投影点Ii,v在对应视角内是否可见,将Qi分类成可见查询特征或者不可见查询特征,可见查询特征是至少在一个相机视角内是可见的,而不可见查询特征是在所有相机视角内不可见的。令
Figure BDA0004096138130000075
用于表示Qi在哪些相机视角是可见的,则可见查询特征为Qx={Qi||Ui|>0},不可见查询特征为Qy={Qi||Ui|=0},Q=Qx+Qy
步骤(2-3)中将可见查询特征和步骤(2-2)得到的多视角多尺度图像特征进行多视角采样注意力计算这一过程具体为,
Figure BDA0004096138130000076
其中,Qi∈Qx
Figure BDA0004096138130000077
代表Ii,v的归一化坐标,Fv代表第v个视角的多尺度图像特征,l代表图像特征尺度的索引值,k代表采样点的索引值。L代表特征尺度的个数,K代表采样点的个数。
Figure BDA0004096138130000078
Figure BDA0004096138130000079
分别代表第k个采样点在
Figure BDA00040961381300000710
特征图上的注意力权重和采样点偏移量,W代表可学习的网络参数,
Figure BDA00040961381300000711
代表将归一化坐标
Figure BDA00040961381300000712
映射到
Figure BDA00040961381300000713
特征图上。
优选地,步骤(2-4)中将步骤(2-2)得到的多视角多尺度图像特征进行对应的位置嵌入层计算,以得到3D图像特征这一过程具体为:首先,将所有视角的第L层尺寸为HL×WL×C的图像特征
Figure BDA0004096138130000081
拼接成一个理想的圆柱体,以圆柱体中心点O为原点建立3D空间坐标系中,以得到所有图像像素点p对应的3D位置坐标
Figure BDA0004096138130000082
然后,令
Figure BDA0004096138130000083
Figure BDA0004096138130000084
分别是p在正视视角和俯视视角的投影点。α是pB和点O在俯视视角下的投影点之间的夹角,而β是pR和点O在正视视角下的投影点的夹角。通过计算sinα,cosα,tanβ来近似
Figure BDA0004096138130000085
并且
Figure BDA0004096138130000086
Figure BDA0004096138130000087
则pO=(sinα,cosα,tanβ),具体公式如下所示,
Figure BDA0004096138130000088
随后,将得到的所有像素点对应的3D位置坐标pO送入全连接层,以得到环式位置嵌入层
Figure BDA0004096138130000089
尺寸为HL×WL×C,其中C为通道数,和图像特征通道数保持一致;
最后,将得到的环式位置嵌入层
Figure BDA00040961381300000810
和图像特征
Figure BDA00040961381300000811
相加,以得到对视角敏感的3D特征图
Figure BDA00040961381300000812
具体公式如下所示,
Figure BDA00040961381300000813
步骤(2-4)中将不可见查询特征和对视角敏感的3D特征图进行空洞查询补全计算这一过程具体如以下公式所示:
Figure BDA00040961381300000814
其中Qi∈Qy,k代表图像数据像素点的索引值,W、Av和Ak都是可学习的网络参数,DQC表示空洞查询补全操作。
优选地,步骤(2-5)中,将步骤(2-4)得到的鸟瞰图特征图分别送入三个预测头网络中,以得到三组预测结果,每组预测结果都包含尺寸为400×200×2的分割图S,尺寸为400×200×4的偏移图T,和尺寸为400×200×2距离图D,其中,分割图用来记录车道线前景点的区域,偏移图用来记录每个前景点和相邻结点之间的偏移矢量,而距离图则保存每个前景点与所在车道线端点的距离标量;
总损失函数Loss为:
Loss=Lossped+Losslane+Lossboundary
其中车道线损失函数Losslane为:
Losslane=Lossseg+Lossreg
Figure BDA0004096138130000091
Figure BDA0004096138130000092
其中,
Figure BDA0004096138130000093
为由车道线真值标注生成的分割图监督信号,尺寸为400×200×2,
Figure BDA0004096138130000094
为由车道线真值标注生成的距离图监督信号,尺寸为400×200×2,
Figure BDA0004096138130000095
为为由车道线真值标注生成的距离图监督信号,尺寸为400×200×4。分割图使用OHEM损失函数,正负样本比例为15:1,而偏移图和距离图使用SMOOTH-L1损失函数;
人行道损失函数Lossped和路沿损失函数Lossboundary和车道线损失函数Losslane相同。
按照本发明的另一方面,提供了一种基于Transformer的高精地图实时预测系统,包括:
第一模块,用于从多个视角相机中获取多个包含道路类别的图像数据、以及每个图像数据所对应的相机内外参数以及自车的标定参数,根据预先建立的鸟瞰图空间坐标系、每个图像数据对应的相机内外参数和自车的标定参数,并利用矩阵乘法获取每个图像数据对应的投影矩阵,并对所有图像数据进行预处理,以得到预处理后的多个图像数据。
第二模块,用于将第一模块预处理后的所有图像数据、以及每个图像数据所对应的投影矩阵输入预先训练好的高精地图实时预测模型中,以得到每个道路类别对应的预测结果,该预测结果包括分割图、偏移图和距离图。
第三模块,用于使用点非极大值抑制方法对第二模块得到的每个道路类别对应的分割图进行处理,以得到所有道路类别对应的关键点集合,对每个道路类别对应的关键点集合、以及第二模块得到的该道路类别对应的偏移图和距离图进行解码处理,以得到解码后的检测结果,将所有道路类别对应的检测结果进行拼接,以得到最终的高精地图预测结果。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明由于在高精地图实时预测模型训练过程中采用了步骤(2-3),其通过预定义栅格化的查询特征实现了一种新的鸟瞰图投影方法,获得更准确的鸟瞰图特征,因此能够解决现有的直接将图像空间中的道路检测结果转换到鸟瞰图空间的方法导致模型缺乏鲁棒性,以及多个视角相机间无法进行信息交互的技术问题。
(2)本发明由于在高精地图实时预测模型训练过程中采用了步骤(2-3),其通过查询特征实现了鸟瞰图空间向图像空间逆投影的方式,更好地利用预定义的三维空间信息,从而获取鸟瞰图空间特征信息,解决了现有的基于逆透视变换的方法简化相机模型,假设目标投影平面是光滑平坦的,导致无法处理复杂驾驶场景的技术问题。
(3)本发明由于在高精地图实时预测模型训练过程中采用了步骤(2-3),其通过多视角采样注意力操作,利用网络模型动态地预测采样点的位置偏移量,从而适应鸟瞰图空间地面高度的变化所带来的深度信息的变化,因此解决了现有基于深度估计的方法受深度信息的影响,导致深度估计不准确,降低图像特征向鸟瞰图空间转换的准确度的技术问题。
(4)本发明由于在高精地图实时预测模型训练过程中采用了步骤(2-4),其将查询特征划分为可见查询特征和不可见查询特征,进而对不可见查询特征进行空洞查询补全计算,其在鸟瞰图空间利用全局交叉注意力计算获取驾驶场景的道路结构信息,因此能够增强模型对于以自车为中心的不可见区域的泛化能力,从而提高道路检测的准确性。
(5)本发明由于在高精地图实时预测模型训练过程中采用了步骤(2-2),其对多个相机视角对应的多尺度图像特征进行轴向注意力计算,并且在进行跨尺度特征融合时,利用轴向特注意力计算取代传统的特征相加操作,因此能够使得获得的图像特征具有全局信息,以此契合道路细长的拓扑结构特点,并且避免了传统相加操作中由于上采样引入的特征位置不对齐的技术问题。
附图说明
图1是本发明基于Transformer的高精地图实时预测方法的流程图;
图2是本发明高精地图实时检测模型的结构示意图。
图3是本发明高精地图实时检测模型中轴向特征金字塔的结构示意图。
图4是本发明高精地图实时检测模型中空洞查询补全的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
针对高精地图实时预测领域中存在的鸟瞰图(Bird’s eye view,简称BEV)特征投影不准确的技术问题,本发明提出了一种基于Transformer的高精地图实时预测方法。通过提出的多视角采样注意力机制,对预定义的网格化可学习查询特征(Query)和图像特征进行高效交互,生成空间位置信息更加准确的鸟瞰图特征图,并且进一步提高模型对于鸟瞰图空间中以自车为中心的不可见区域的泛化能力,进而提高网络对于鸟瞰图空间中多个道路类别信息的学习能力和的检测性能,以此将检测出的多个道路类别信息组合成最终所需的高精地图。
如图1所示,本发明提供了一种基于Transformer的高精地图实时预测方法,包括以下步骤:
(1)从多个视角相机中获取多个包含道路类别的图像数据、以及每个图像数据所对应的相机内外参数以及自车的标定参数,根据预先建立的鸟瞰图空间坐标系、每个图像数据对应的相机内外参数和自车的标定参数,并利用矩阵乘法获取每个图像数据对应的投影矩阵(其用于实现图像坐标系与鸟瞰图空间坐标系之间的转换),并对所有图像数据进行预处理,以得到预处理后的多个图像数据。
具体而言,相机内外参数包括相机坐标系向图像坐标系投影所需的相机内参和相机坐标系向自车坐标系所需的外参,自车标定数据主要包括但不局限于自车位置以及朝向。道路类别包括三种,即车道线、人行道、以及路沿。
本步骤中根据预先建立的鸟瞰图空间坐标系、每个图像数据对应的相机内外参数和自车的标定参数,并利用矩阵乘法计算每个图像数据对应的投影矩阵这一过程具体为,首先将相机内参和相机外参相乘,得到图像坐标系向自车坐标系转换的投影矩阵,然后根据预先建立的鸟瞰图空间坐标系,将自车标定参数转换成相机坐标系向鸟瞰图空间坐标系转换的投影矩阵,最后将得到的两个投影矩阵相乘,得到图像坐标系向鸟瞰图空间坐标系转换的投影矩阵。
本步骤中对输入的多个图像数据进行预处理操作,包括缩放和归一化操作,缩放操作是利用双线性插值法将图像数据从原尺寸缩放到448×800×3,该操作能减少网络模型的计算量,而归一化操作的目的是将图像数据中的平均亮度值进行移除,所有样本除去共有的部分后,能更加凸显样本间的个体差异性。
(2)将步骤(1)预处理后的所有图像数据、以及每个图像数据所对应的投影矩阵输入预先训练好的高精地图实时预测模型中,以得到每个道路类别对应的预测结果,该预测结果包括分割图、偏移图和距离图。
如图2所示,本发明的高精地图实时检测模型包含依次连接的特征提取主干网络、鸟瞰图地面构建网络,和预测头网络三个部分。
特征提取主干网络包括一个标准的ResNet网络和一个轴向特征金字塔模块,其具体结构为:
ResNet网络,其输入为所有视角的多个图像数据(其为RGB图像),对其进行标准的特征提取操作,输出为维度为
Figure BDA0004096138130000131
Figure BDA0004096138130000132
以及
Figure BDA0004096138130000133
大小的特征张量,其中W表示每个图像数据的宽度,其取值为800,H表示每个图像数据的高度,其取值为448,每个图像数据的通道数为3。
轴向特征金字塔模块,如图3所示,其输入为ResNet网络输出的
Figure BDA0004096138130000134
以及
Figure BDA0004096138130000135
大小的特征张量,将其按照尺寸从大到小依次排列,得到层特征张量。将每一层特征张量进行轴向自注意力计算,再和上一层更新后的特征张量进行轴向交叉注意力计算,最终输出为
Figure BDA0004096138130000136
以及
Figure BDA0004096138130000137
大小的特征张量。
鸟瞰图地面构建网络由N个(其中N的取值范围是1到3,优选为2)解码层串联组成。每个解码层的输入是100×50×256大小的查询(Query)特征和特征金字塔模块输出得到的
Figure BDA0004096138130000138
大小的特征张量,首先,对所有查询特征进行轴向自注意力计算,以得到更新后的100×50×256大小的查询特征,然后,遍历更新后的100×50×256大小的特征张量的每一个查询特征,根据查询特征投影到相机视角是否可见的结果,将其划分为可见查询(visible query)特征或者为不可见查询(dilated query)特征,随后,对可见查询特征和特征金字塔模块输出得到的
Figure BDA0004096138130000141
以及
Figure BDA0004096138130000142
大小的特征张量进行多视角采样注意力计算,得到更新后的可见查询特征,大小为N1×256,然后,对不可见查询特征和特征金字塔模块输出得到的
Figure BDA0004096138130000143
大小的特征张量进行全局交叉注意力计算,以得到更新后的不可见查询特征,大小为N2×256,其中N1+N2=5000,最后,将所有查询特征输入全连接层网络,以得到100×50×256大小的特征张量,作为下一个解码层的输入,由此,鸟瞰图地面构建网络最终输出为100×50×256大小的特征张量。
预测头网络包括并行的车道线预测头、人行道预测头和路沿预测头三部分,所有预测头的结构完全相同,每个预测头由三个相同的并行的网络分支构成,每个网络分支由M个(其中M的取值范围是2到4,优选为3)卷积层顺序连接而成,将100×50×256大小的特征张量输入三个预测头中,并进行上采样操作,以得到三个预测结果,每个预测结果包括400×200×2大小的分割图、400×200×4大小的偏移图、以及400×200×2大小的距离图。
具体而言,本发明的高精地图实时预测模型是通过以下步骤训练得到的:
(2-1)获取高精地图自动驾驶数据集、每个图像数据所对应的相机内外参数以及自车的标定参数,对该高精地图自动驾驶数据集进行预处理,以得到预处理后的高精地图自动驾驶数据集,并将其按比例划分为训练集和验证集,根据预先建立的鸟瞰图空间坐标系、每个图像数据对应的相机内外参数和自车的标定参数,并利用矩阵乘法获取每个图像数据对应的投影矩阵。
具体而言,本步骤中采用的高精地图自动驾驶数据集是nuScenes数据集,该nuScenes数据集是在波士顿海港地区、新加坡的皇后镇、一北和荷兰村地区总共四个地区进行采集,一共包含1000个自动驾驶场景,包括雨天、黑夜和起雾等等,训练和测试时,采用的是来自官方数据集的划分方式,按照4.7:1的比例划分为训练集和测试集,即训练集共有28130个时间戳样本,验证集共有6019个时间戳样本,每一个时间戳包括6个相机的图像数据,对相机内外参数和预定义的鸟瞰图空间坐标系计算,以得到每个图像数据对应的投影矩阵。此外,本步骤只关注车道线、人行道和路沿三种道路信息。
注意,本步骤所使用的图像预处理方法、投影矩阵计算方法和上述步骤(1)完全相同,因此不再赘述。
(2-2)将步骤(2-1)获取的训练集输入预训练好的ResNet模型中,以得到每个视角v对应的第l个尺度的图像特征
Figure BDA0004096138130000151
对每个视角v对应的多尺度图像特征进行轴向注意力计算,以得到该视角对应的多尺度图像特征
Figure BDA0004096138130000152
并对该视角对应的多尺度图像特征进行跨尺度融合,以得到更新后的多尺度图像特征
Figure BDA0004096138130000153
其中v∈{1,...,V},V表示相机视角的数量,l∈{1,...,L},L表示图像特征的尺度数量;
具体而言,本步骤中在每个尺度的图像特征上进行轴向注意力操作(ColumnarAttention,简称CA),即进行自注意计算,并且每个查询特征(Query)只和同一行或者同一列的键(Key)进行注意力计算。
本步骤中跨尺度特征融合操作,也是进行同样的轴向注意力计算,区别在于该操作进行交叉注意力计算,将第v个视角对应的第l个尺度的图像特征
Figure BDA0004096138130000154
当成查询特征,将更新后的第v个视角对应的第l+1个尺度的图像特征
Figure BDA0004096138130000155
当成键和值(Value),利用双线性插值对
Figure BDA0004096138130000156
进行上采样操作(Upsampling,简称UP),并且尺寸和
Figure BDA0004096138130000157
相同,以此避免传统的上采样操作引入的位置不对齐的技术问题,具体操作如下公式所示:
Figure BDA0004096138130000161
Figure BDA0004096138130000162
其中CA表示轴向注意力操作,UP表示上采样操作。
(2-3)初始化一组栅格化、且可学习的查询特征Q,尺寸为HB×WB×C,其中HB代表鸟瞰图平面的长,WB代表鸟瞰图平面的宽,C代表每个查询特征Qi的通道数,i代表查询特征索引,并且i∈{1,...,HBWB},即Qi的尺寸为1×C,对每个查询特征对应的3D坐标
Figure BDA0004096138130000163
和步骤(2-1)得到的每个图像对应的投影矩阵进行计算,以得到每个查询特征投影之后在图像坐标系的2D坐标,根据得到的所有查询特征对应的2D投影坐标和图像数据的尺寸之间的关系,将所有的查询特征划分成可见查询特征和不可见查询特征(其中可见查询特征是至少在一个相机视角内是可见的,而不可见查询特征是在所有相机视角内不可见的),对每个可见查询特征以及对应的2D坐标和步骤(2-2)得到的多视角多尺度图像特征进行多视角采样注意力计算(Multi-view Sampling Attention,简称MSA),以得到更新后的可见查询特征;
具体而言,每个查询特征Qi表示鸟瞰图空间坐标平面中中坐落于pi=(xi,yi)的网格单元的特征信息。并且在整个坐标系转换的信息处理过程中,每个Qi对应的位置参考点都是固定不变的,因此对于每一个Qi,其对应的3D位置坐标
Figure BDA0004096138130000164
为(xi*s,yi*s,h),其中s为鸟瞰图空间的分辨率,h为鸟瞰图空间中的地面高度。
本步骤(2-3)中将每个查询特征Qi对应的3D坐标
Figure BDA0004096138130000165
和步骤(2-1)得到的每个图像对应的投影矩阵进行计算,以得到每个查询特征投影之后在图像坐标系的2D坐标这一过程具体为,将步骤(2-1)得到的第v个视角相机对应的投影矩阵和
Figure BDA0004096138130000166
进行计算,以得到第v个相机对应图像平面的投影点
Figure BDA0004096138130000167
具体操作如以下公式所示,
Figure BDA0004096138130000171
其中pv代表第v个相机从3D空间转换到图像平面所需的投影矩阵。
本步骤(2-3)中将所有的查询特征划分成可见查询特征和不可见查询特征这一过程具体为,根据所有投影点Ii,v在对应视角内是否可见,将Qi分类成可见查询特征或者不可见查询特征,可见查询特征是至少在一个相机视角内是可见的,而不可见查询特征是在所有相机视角内不可见的。令
Figure BDA0004096138130000172
用于表示Qi在哪些相机视角是可见的,则可见查询特征为Qx={Qi||Ui|>0},不可见查询特征为Qy={Qi||Ui|=0},Q=Qx+Qy
本步骤(2-3)中将可见查询特征和步骤(2-2)得到的多视角多尺度图像特征进行多视角采样注意力计算这一过程具体为,
Figure BDA0004096138130000173
其中,Qi∈Qx
Figure BDA0004096138130000174
代表Ii,v的归一化坐标,Fv代表第v个视角的多尺度图像特征,l代表图像特征尺度的索引值,k代表采样点的索引值。L代表特征尺度的个数,K代表采样点的个数。
Figure BDA0004096138130000175
Figure BDA0004096138130000176
分别代表第k个采样点在
Figure BDA0004096138130000177
特征图上的注意力权重和采样点偏移量,W代表可学习的网络参数,
Figure BDA0004096138130000178
代表将归一化坐标
Figure BDA0004096138130000179
映射到
Figure BDA00040961381300001710
特征图上,MSA代表多视角采样注意力计算。
本子步骤的优点在于,重新审视了查询特征的投影过程,并且将所有查询特征按照投影结果划分成两大类。这是因为本子步骤发现由于多相机的固定安装方式,以自车为中心的一小块区域在所有图像中是不可见的,位于该区域的查询特征也无法通过相机内外参数投影到图像上。注意,该区域在大多数情况下不存在车辆,因此对于3D目标检测任务影响很小。但是该区域的特征学习能力对于车道线检测任务有很大影响,因为自车周围存在着大量的车道线结构化信息,对于最终的检测性能十分关键。
(2-4)对步骤(2-2)更新后的多个相机视角对应的多尺度图像特征进行位置嵌入层(Position Embedding)计算,以得到3D图像特征(其为对视角敏感的3D图像特征),将每个不可见查询特征和3D图像特征进行空洞查询补全(Dilate Query Completion,简称DQC)计算,以得到更新后的不可见查询特征,将步骤(2-3)得到的可见查询特征和更新后的不可见查询特征按照预定义对应的3D位置坐标进行拼接,以得到鸟瞰图特征图,具体流程如图4所示。
本步骤(2-4)中将步骤(2-2)得到的多视角多尺度图像特征进行对应的位置嵌入层计算,以得到3D图像特征这一过程具体为,首先,将所有视角的第L层尺寸为HL×WL×C的图像特征
Figure BDA0004096138130000181
拼接成一个理想的圆柱体,以圆柱体中心点O为原点建立3D空间坐标系中,以得到所有图像像素点p对应的3D位置坐标
Figure BDA0004096138130000182
然后,令
Figure BDA0004096138130000183
分别是p在正视视角和俯视视角的投影点。α是pB和点O在俯视视角下的投影点之间的夹角,而β是pR和点O在正视视角下的投影点的夹角。通过计算sinα,cosα,tanβ来近似
Figure BDA0004096138130000184
并且
Figure BDA0004096138130000185
Figure BDA0004096138130000186
则pO=(sinα,cosα,tanβ),具体公式如下所示,
Figure BDA0004096138130000187
随后,将得到的所有像素点对应的3D位置坐标pO送入全连接层,以得到环式位置嵌入层
Figure BDA0004096138130000188
尺寸为HL×Wl×C,其中C为通道数,和图像特征通道数保持一致。最后,将得到的环式位置嵌入层
Figure BDA0004096138130000189
和图像特征
Figure BDA00040961381300001810
相加,以得到对视角敏感的3D特征图
Figure BDA00040961381300001811
具体公式如下所示,
Figure BDA0004096138130000191
本步骤(2-4)中将不可见查询特征和对视角敏感的3D特征图进行空洞查询补全计算这一过程具体如以下公式所示:
Figure BDA0004096138130000192
其中Qi∈Qy,k代表图像数据像素点的索引值,W、Av和Ak都是可学习的网络参数,DQC表示空洞查询补全操作。
(2-5)将步骤(2-4)得到的鸟瞰图特征图输入预测头网络(即车道线预测头、人行道预测头和路沿预测头)中,以分别得到各个道路类别对应的预测结果,每个预测结果都包含分割图、偏移图和距离图。
具体而言,针对车道线,人行道和路沿三种道路类别,本步骤分别设计了三个完全相同的预测头,分别关注不同类别的道路信息。参考RCLane算法框架,本步骤将步骤(2-4)得到的鸟瞰图特征图分别送入三个预测头网络中,以得到三组预测结果,每组预测结果都包含尺寸为400×200×2的分割图S,尺寸为400×200×4的偏移图T,和尺寸为400×200×2距离图D,其中,分割图用来记录车道线前景点的区域,偏移图用来记录每个前景点和相邻结点之间的偏移矢量,而距离图则保存每个前景点与所在车道线端点的距离标量。
(2-6)根据步骤(2-5)得到的所有道路类别的分割预测结果,偏移预测结果和距离预测结果计算损失函数,并利用该损失函数对高精地图实时检测模型进行迭代训练,直到该高精地图实时检测模型收敛为止,从而得到训练好的高精地图实时检测模型。
其中,车道线损失函数Losslane为:
Losslane=Lossseg+Lossreg
Figure BDA0004096138130000193
Figure BDA0004096138130000201
其中,
Figure BDA0004096138130000202
为由车道线真值标注生成的分割图监督信号,尺寸为400×200×2,
Figure BDA0004096138130000203
为由车道线真值标注生成的距离图监督信号,尺寸为400×200×2,
Figure BDA0004096138130000204
为为由车道线真值标注生成的距离图监督信号,尺寸为400×200×4。分割图使用OHEM损失函数,正负样本比例为15:1,而偏移图和距离图使用SMOOTH-L1损失函数。人行道损失函数Lossped和路沿损失函数Lossboundary和车道线损失函数Losslane相同,因此,总损失函数Loss为:
Loss=Lossped+Losslane+Lossboundary
(3)使用点非极大值抑制(Point Non Maximum Suppression,简称Point NMS)方法对步骤(2)得到的每个道路类别对应的分割图进行处理,以得到所有道路类别对应的关键点集合,对每个道路类别对应的关键点集合、以及步骤(2)得到的该道路类别对应的偏移图和距离图进行解码处理,以得到解码后的检测结果,将所有道路类别(即车道线、人行道和路沿)对应的检测结果进行拼接,以得到最终的高精地图预测结果。
具体而言,本步骤中使用的解码算法是Xu等人于2022年发表在《RCLane:RelayChain Prediction for Lane Detection》一文中提出的解码算法,其出处具体为Xu S,CaiX,Zhao B,et al.RCLane:Relay Chain Prediction for Lane Detection[C]//ComputerVision–ECCV 2022:17th European Conference,,Proceedings,Part XXXVIII.Cham:Springer Nature Switzerland,2022:461-477。
测试结果
为了说明本发明方法的有效性以及对于高精地图检测准确度的提升,在nuScenes自动驾驶数据集上与几个主流的网络模型展开了对比实验。本方法在测试过程中涉及到的评测指标包括:(1)平均交并比(mean Intersection over Union):该值评估的是在最终高精地图生成的结果中,每一个类别的道路结构在语义信息层面和真值的重合度,所有道路类别预测出的区域和真值区域越重合则该值越大,方法效果越好;(2)平均精度均值(meanaverage precision,简称mAP):该值衡量的是模型在所有类别上的实例检测的好坏,它评估的是与目标真值道路相匹配的预测道路两者之间的重合程度,所有预测出的道路实例信息和真值越重合则该值越大,方法效果越好。
下表1和表2示出在nuScenes数据集上本发明与其他方法的比较:
表1
Figure BDA0004096138130000211
表2
Figure BDA0004096138130000212
Figure BDA0004096138130000221
通过上表1和表2可以看出,经过鸟瞰图空间向图像坐标系转换的全新鸟瞰图特征生成方式之后,本方法在mIoU和mAP值分别达到了42.0%和27.8%。这说明相较于其他模型的方法,本方法从鸟瞰图特征投影的角度出发,通过查询特征的预定义方式充分利用了鸟瞰图空间的三维位置先验知识,实现了一种准确度更高的投影方法,并且通过多视角采样注意力动态关注多个视角相机间的重合区域,高效地进行多个相机对应的图像特征之间的信息融合,将不可见查询特征和图像特征之间进行全局交叉注意力计算,提升了模型对驾驶场景中以自车为中心不可见区域的泛化能力,进而提升了高精地图实时预测别的准确率。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于Transformer的高精地图实时预测方法,其特征在于,包括以下步骤:
(1)从多个视角相机中获取多个包含道路类别的图像数据、以及每个图像数据所对应的相机内外参数以及自车的标定参数,根据预先建立的鸟瞰图空间坐标系、每个图像数据对应的相机内外参数和自车的标定参数,并利用矩阵乘法获取每个图像数据对应的投影矩阵,并对所有图像数据进行预处理,以得到预处理后的多个图像数据。
(2)将步骤(1)预处理后的所有图像数据、以及每个图像数据所对应的投影矩阵输入预先训练好的高精地图实时预测模型中,以得到每个道路类别对应的预测结果,该预测结果包括分割图、偏移图和距离图。
(3)使用点非极大值抑制方法对步骤(2)得到的每个道路类别对应的分割图进行处理,以得到所有道路类别对应的关键点集合,对每个道路类别对应的关键点集合、以及步骤(2)得到的该道路类别对应的偏移图和距离图进行解码处理,以得到解码后的检测结果,将所有道路类别对应的检测结果进行拼接,以得到最终的高精地图预测结果。
2.根据权利要求1所述的基于Transformer的高精地图实时预测方法,其特征在于,
相机内外参数包括相机坐标系向图像坐标系投影所需的相机内参和相机坐标系向自车坐标系所需的外参,自车标定数据主要包括但不局限于自车位置以及朝向。
道路类别包括三种,即车道线、人行道、以及路沿。
3.根据权利要求1或2所述的基于Transformer的高精地图实时预测方法,其特征在于,
步骤(1)中根据预先建立的鸟瞰图空间坐标系、每个图像数据对应的相机内外参数和自车的标定参数,并利用矩阵乘法计算每个图像数据对应的投影矩阵这一过程具体为,首先将相机内参和相机外参相乘,得到图像坐标系向自车坐标系转换的投影矩阵,然后根据预先建立的鸟瞰图空间坐标系,将自车标定参数转换成相机坐标系向鸟瞰图空间坐标系转换的投影矩阵,最后将得到的两个投影矩阵相乘,得到图像坐标系向鸟瞰图空间坐标系转换的投影矩阵;
步骤(1)中对输入的多个图像数据进行预处理操作,包括缩放和归一化操作,缩放操作是利用双线性插值法将图像数据从原尺寸缩放到448×800×3,归一化操作是将图像数据中的平均亮度值进行移除。
4.根据权利要求1至3中任意一项所述的基于Transformer的高精地图实时预测方法,其特征在于,
高精地图实时检测模型包含依次连接的特征提取主干网络、鸟瞰图地面构建网络,和预测头网络三个部分;
特征提取主干网络包括一个标准的ResNet网络和一个轴向特征金字塔模块,其具体结构为:
ResNet网络,其输入为所有视角的多个图像数据,对其进行标准的特征提取操作,输出为维度为
Figure FDA0004096138120000021
以及
Figure FDA0004096138120000022
大小的特征张量,其中W表示每个图像数据的宽度,其取值为800,H表示每个图像数据的高度,其取值为448,每个图像数据的通道数为3;
轴向特征金字塔模块,其输入为ResNet网络输出的
Figure FDA0004096138120000023
Figure FDA0004096138120000024
以及
Figure FDA0004096138120000025
大小的特征张量,将其按照尺寸从大到小依次排列,得到层特征张量。将每一层特征张量进行轴向自注意力计算,再和上一层更新后的特征张量进行轴向交叉注意力计算,最终输出为
Figure FDA0004096138120000026
以及
Figure FDA0004096138120000027
大小的特征张量;
鸟瞰图地面构建网络由N个解码层串联组成,其中N的取值范围是1到3,每个解码层的输入是100×50×256大小的查询特征和特征金字塔模块输出得到的
Figure FDA0004096138120000031
大小的特征张量,首先,对所有查询特征进行轴向自注意力计算,以得到更新后的100×50×256大小的查询特征,然后,遍历更新后的100×50×256大小的特征张量的每一个查询特征,根据查询特征投影到相机视角是否可见的结果,将其划分为可见查询特征或者为不可见查询特征,随后,对可见查询特征和特征金字塔模块输出得到的
Figure FDA0004096138120000032
以及
Figure FDA0004096138120000033
大小的特征张量进行多视角采样注意力计算,得到更新后的可见查询特征,大小为N1×256,然后,对不可见查询特征和特征金字塔模块输出得到的
Figure FDA0004096138120000034
大小的特征张量进行全局交叉注意力计算,以得到更新后的不可见查询特征,大小为N2×256,其中N1+N2=5000,最后,将所有查询特征输入全连接层网络,以得到100×50×256大小的特征张量,作为下一个解码层的输入,由此,鸟瞰图地面构建网络最终输出为100×50×256大小的特征张量;
预测头网络包括并行的车道线预测头、人行道预测头和路沿预测头三部分,所有预测头的结构完全相同,每个预测头由三个相同的并行的网络分支构成,每个网络分支由M个卷积层顺序连接而成,将100×50×256大小的特征张量输入三个预测头中,并进行上采样操作,以得到三个预测结果,每个预测结果包括400×200×2大小的分割图、400×200×4大小的偏移图、以及400×200×2大小的距离图,其中M的取值范围是2到4。
5.根据权利要求4所述的基于Transformer的高精地图实时预测方法,其特征在于,高精地图实时预测模型是通过以下步骤训练得到的:
(2-1)获取高精地图自动驾驶数据集、每个图像数据所对应的相机内外参数以及自车的标定参数,对该高精地图自动驾驶数据集进行预处理,以得到预处理后的高精地图自动驾驶数据集,并将其按比例划分为训练集和验证集,根据预先建立的鸟瞰图空间坐标系、每个图像数据对应的相机内外参数和自车的标定参数,并利用矩阵乘法获取每个图像数据对应的投影矩阵。
(2-2)将步骤(2-1)获取的训练集输入预训练好的ResNet模型中,以得到每个视角v对应的第l个尺度的图像特征
Figure FDA0004096138120000041
对每个视角v对应的多尺度图像特征进行轴向注意力计算,以得到该视角对应的多尺度图像特征
Figure FDA0004096138120000042
并对该视角对应的多尺度图像特征进行跨尺度融合,以得到更新后的多尺度图像特征
Figure FDA0004096138120000043
其中v∈{1,...,V},V表示相机视角的数量,l∈{1,...,L},L表示图像特征的尺度数量;
(2-3)初始化一组栅格化、且可学习的查询特征Q,尺寸为HB×WB×C,其中HB代表鸟瞰图平面的长,WB代表鸟瞰图平面的宽,C代表每个查询特征Qi的通道数,i代表查询特征的索引值,并且i∈{1,...,HBWB},即Qi的尺寸为1×C,对每个查询特征对应的3D坐标
Figure FDA0004096138120000044
和步骤(2-1)得到的每个图像对应的投影矩阵进行计算,以得到每个查询特征投影之后在图像坐标系的2D坐标,根据得到的所有查询特征对应的2D投影坐标和图像数据的尺寸之间的关系,将所有的查询特征划分成可见查询特征和不可见查询特征,对每个可见查询特征以及对应的2D坐标和步骤(2-2)得到的多视角多尺度图像特征进行多视角采样注意力计算MSA,以得到更新后的可见查询特征;
(2-4)对步骤(2-2)更新后的多个相机视角对应的多尺度图像特征进行位置嵌入层计算,以得到3D图像特征,将每个不可见查询特征和3D图像特征进行空洞查询补全DQC计算,以得到更新后的不可见查询特征,将步骤(2-3)得到的可见查询特征和更新后的不可见查询特征按照预定义对应的3D位置坐标进行拼接,以得到鸟瞰图特征图。
(2-5)将步骤(2-4)得到的鸟瞰图特征图输入预测头网络中,以分别得到各个道路类别对应的预测结果,每个预测结果都包含分割图、偏移图和距离图。
(2-6)根据步骤(2-5)得到的所有道路类别的分割预测结果,偏移预测结果和距离预测结果计算损失函数,并利用该损失函数对高精地图实时检测模型进行迭代训练,直到该高精地图实时检测模型收敛为止,从而得到训练好的高精地图实时检测模型。
6.根据权利要求5所述的基于Transformer的高精地图实时预测方法,其特征在于,
步骤(2-2)中在每个尺度的图像特征上进行轴向注意力操作CA,并且每个查询特征只和同一行或者同一列的键进行注意力计算;
步骤(2-2)中跨尺度特征融合操作也是进行轴向注意力计算,将第v个视角对应的第l个尺度的图像特征
Figure FDA0004096138120000051
当成查询特征,将更新后的第v个视角对应的第l+1个尺度的图像特征
Figure FDA0004096138120000052
当成键和值,利用双线性插值对
Figure FDA0004096138120000053
进行上采样操作,并且尺寸和
Figure FDA0004096138120000054
相同,具体操作如下公式所示:
Figure FDA0004096138120000055
Figure FDA0004096138120000056
其中CA表示轴向注意力操作,UP表示上采样操作。
7.根据权利要求6所述的基于Transformer的高精地图实时预测方法,其特征在于,
在步骤(2-3)中,每个查询特征Qi表示鸟瞰图空间坐标平面中中坐落于pi=(xi,yi)的网格单元的特征信息。并且在整个坐标系转换的信息处理过程中,每个Qi对应的位置参考点都是固定不变的,因此对于每一个Qi,其对应的3D位置坐标
Figure FDA0004096138120000057
为(xi*s,yi*s,h),其中s为鸟瞰图空间的分辨率,h为鸟瞰图空间中的地面高度;
步骤(2-3)中将每个查询特征Qi对应的3D坐标
Figure FDA0004096138120000058
和步骤(2-1)得到的每个图像对应的投影矩阵进行计算,以得到每个查询特征投影之后在图像坐标系的2D坐标这一过程具体为,将步骤(2-1)得到的第v个视角相机对应的投影矩阵和
Figure FDA0004096138120000061
进行计算,以得到第v个相机对应图像平面的投影点
Figure FDA0004096138120000062
具体操作如以下公式所示,
Figure FDA0004096138120000063
其中pv代表第v个相机从3D空间转换到图像平面所需的投影矩阵;
步骤(2-3)中将所有的查询特征划分成可见查询特征和不可见查询特征这一过程具体为,根据所有投影点Ii,v在对应视角内是否可见,将Qi分类成可见查询特征或者不可见查询特征,可见查询特征是至少在一个相机视角内是可见的,而不可见查询特征是在所有相机视角内不可见的。令
Figure FDA0004096138120000064
用于表示Qi在哪些相机视角是可见的,则可见查询特征为Qx={Qi||Ui|>0},不可见查询特征为Qy={Qi||Ui|=0},Q=Qx+Qy
步骤(2-3)中将可见查询特征和步骤(2-2)得到的多视角多尺度图像特征进行多视角采样注意力计算这一过程具体为,
Figure FDA0004096138120000065
其中,Qi∈Qx
Figure FDA0004096138120000066
代表Ii,v的归一化坐标,Fv代表第v个视角的多尺度图像特征,l代表图像特征尺度的索引值,k代表采样点的索引值。L代表特征尺度的个数,K代表采样点的个数。
Figure FDA0004096138120000067
Figure FDA0004096138120000068
分别代表第k个采样点在
Figure FDA0004096138120000069
特征图上的注意力权重和采样点偏移量,W代表可学习的网络参数,
Figure FDA00040961381200000610
代表将归一化坐标
Figure FDA00040961381200000611
映射到
Figure FDA00040961381200000612
特征图上。
8.根据权利要求7所述的基于Transformer的高精地图实时预测方法,其特征在于,
步骤(2-4)中将步骤(2-2)得到的多视角多尺度图像特征进行对应的位置嵌入层计算,以得到3D图像特征这一过程具体为:首先,将所有视角的第L层尺寸为HL×WL×C的图像特征
Figure FDA00040961381200000613
拼接成一个理想的圆柱体,以圆柱体中心点O为原点建立3D空间坐标系中,以得到所有图像像素点p对应的3D位置坐标
Figure FDA0004096138120000071
然后,令
Figure FDA0004096138120000072
分别是p在正视视角和俯视视角的投影点。α是pB和点O在俯视视角下的投影点之间的夹角,而β是pR和点O在正视视角下的投影点的夹角。通过计算sinα,cosα,tanβ来近倒
Figure FDA0004096138120000073
并且
Figure FDA0004096138120000074
Figure FDA0004096138120000075
则pO=(sinα,cosα,tanβ),具体公式如下所示,
Figure FDA0004096138120000076
随后,将得到的所有像素点对应的3D位置坐标pO送入全连接层,以得到环式位置嵌入层
Figure FDA0004096138120000077
尺寸为HL×WL×C,其中C为通道数,和图像特征通道数保持一致;
最后,将得到的环式位置嵌入层
Figure FDA0004096138120000078
和图像特征
Figure FDA0004096138120000079
相加,以得到对视角敏感的3D特征图
Figure FDA00040961381200000710
具体公式如下所示,
Figure FDA00040961381200000711
步骤(2-4)中将不可见查询特征和对视角敏感的3D特征图进行空洞查询补全计算这一过程具体如以下公式所示:
Figure FDA00040961381200000712
其中Qi∈Qy,k代表图像数据像素点的索引值,W、Av和Ak都是可学习的网络参数,DQC表示空洞查询补全操作。
9.根据权利要求8所述的基于Transformer的高精地图实时预测方法,其特征在于,
步骤(2-5)中,将步骤(2-4)得到的鸟瞰图特征图分别送入三个预测头网络中,以得到三组预测结果,每组预测结果都包含尺寸为400×200×2的分割图S,尺寸为400×200×4的偏移图T,和尺寸为400×200×2距离图D,其中,分割图用来记录车道线前景点的区域,偏移图用来记录每个前景点和相邻结点之间的偏移矢量,而距离图则保存每个前景点与所在车道线端点的距离标量;
总损失函数Loss为:
Loss=Lossped+Losslane+Lossboundary
其中车道线损失函数Losslane为:
Losslane=Lossseg+Lossreg
Figure FDA0004096138120000081
Figure FDA0004096138120000082
其中,
Figure FDA0004096138120000083
为由车道线真值标注生成的分割图监督信号,尺寸为400×200×2,
Figure FDA0004096138120000084
为由车道线真值标注生成的距离图监督信号,尺寸为400×200×2,
Figure FDA0004096138120000085
为为由车道线真值标注生成的距离图监督信号,尺寸为400×200×4。分割图使用OHEM损失函数,正负样本比例为15∶1,而偏移图和距离图使用SMOOTH-L1损失函数;
人行道损失函数Lossped和路沿损失函数Lossboundary和车道线损失函数Losslane相同。
10.一种基于Transformer的高精地图实时预测系统,其特征在于,包括:
第一模块,用于从多个视角相机中获取多个包含道路类别的图像数据、以及每个图像数据所对应的相机内外参数以及自车的标定参数,根据预先建立的鸟瞰图空间坐标系、每个图像数据对应的相机内外参数和自车的标定参数,并利用矩阵乘法获取每个图像数据对应的投影矩阵,并对所有图像数据进行预处理,以得到预处理后的多个图像数据。
第二模块,用于将第一模块预处理后的所有图像数据、以及每个图像数据所对应的投影矩阵输入预先训练好的高精地图实时预测模型中,以得到每个道路类别对应的预测结果,该预测结果包括分割图、偏移图和距离图。
第三模块,用于使用点非极大值抑制方法对第二模块得到的每个道路类别对应的分割图进行处理,以得到所有道路类别对应的关键点集合,对每个道路类别对应的关键点集合、以及第二模块得到的该道路类别对应的偏移图和距离图进行解码处理,以得到解码后的检测结果,将所有道路类别对应的检测结果进行拼接,以得到最终的高精地图预测结果。
CN202310166744.XA 2023-02-27 2023-02-27 一种基于Transformer的高精地图实时预测方法和系统 Pending CN116071721A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310166744.XA CN116071721A (zh) 2023-02-27 2023-02-27 一种基于Transformer的高精地图实时预测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310166744.XA CN116071721A (zh) 2023-02-27 2023-02-27 一种基于Transformer的高精地图实时预测方法和系统

Publications (1)

Publication Number Publication Date
CN116071721A true CN116071721A (zh) 2023-05-05

Family

ID=86171491

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310166744.XA Pending CN116071721A (zh) 2023-02-27 2023-02-27 一种基于Transformer的高精地图实时预测方法和系统

Country Status (1)

Country Link
CN (1) CN116071721A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117115571A (zh) * 2023-10-25 2023-11-24 成都阿加犀智能科技有限公司 一种细粒度智能商品识别方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117115571A (zh) * 2023-10-25 2023-11-24 成都阿加犀智能科技有限公司 一种细粒度智能商品识别方法、装置、设备及介质
CN117115571B (zh) * 2023-10-25 2024-01-26 成都阿加犀智能科技有限公司 一种细粒度智能商品识别方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN109685842B (zh) 一种基于多尺度网络的稀疏深度稠密化方法
CN108802785B (zh) 基于高精度矢量地图和单目视觉传感器的车辆自定位方法
CN108846328B (zh) 基于几何正则化约束的车道检测方法
CN111144388A (zh) 一种基于单目影像的道路标志标线的更新方法
CN114724120B (zh) 基于雷视语义分割自适应融合的车辆目标检测方法及系统
CN110197505B (zh) 基于深度网络及语义信息的遥感图像双目立体匹配方法
CN104077760A (zh) 一种航空摄影测量的快速拼接系统及其实现方法
CN111008660A (zh) 语义地图的生成方法、装置、系统、存储介质及电子设备
WO2021017211A1 (zh) 一种基于视觉的车辆定位方法、装置及车载终端
US20240077331A1 (en) Method of predicting road attributers, data processing system and computer executable code
CN116071721A (zh) 一种基于Transformer的高精地图实时预测方法和系统
CN116612468A (zh) 基于多模态融合与深度注意力机制的三维目标检测方法
CN116844129A (zh) 多模态特征对齐融合的路侧目标检测方法、系统及装置
CN115861601A (zh) 一种多传感器融合感知方法及装置
CN114550117A (zh) 一种图像检测方法和装置
CN117173399A (zh) 一种跨模态交叉注意力机制的交通目标检测方法及系统
CN116189140A (zh) 一种基于双目视觉的车辆三维目标检测算法
CN113514053B (zh) 生成样本图像对的方法、装置和更新高精地图的方法
CN113034555B (zh) 一种基于最小生成树的特征精匹配方法及应用
CN111435086B (zh) 基于拼接图的导航方法和装置
CN111435537B (zh) 模型训练方法、装置及基于拼接图的位姿优化方法、装置
EP4078087A1 (en) Method and mobile entity for detecting feature points in an image
Tang et al. NDPC-Net: A dehazing network in nighttime hazy traffic environments
CN113076811B (zh) 一种航空图像道路提取方法及设备
Pothineni et al. Automatic Road Segmentation from High Resolution Satellite Images Using Encoder-Decoder Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination