CN116863241A

CN116863241A - 一种道路场景下基于计算机视觉的端到端语义鸟瞰图生成方法、模型及设备

Info

Publication number: CN116863241A
Application number: CN202310915325.1A
Authority: CN
Inventors: 饶中钰; 蔡英凤; 王海; 李祎承; 刘擎超; 陈龙; 廉玉波; 董钊志
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2023-07-25
Filing date: 2023-07-25
Publication date: 2023-10-10

Abstract

本发明公开了一种道路场景下基于计算机视觉的端到端语义鸟瞰图生成方法、模型及设备，采用基于大核卷积的编码方式，提高模型的长距离建模能力。同时，为有效提升视角转换的准确度，本发明提出了一种结合维度转换以及空间转换的视角转换模块，并采用双注意力机制结合转换前的视角进行优化，有效提升模型预测的准确度，改善预测细节。采用维度与空间结合的鸟瞰图特征转换模块，将前置图像的特征图通过维度转换以及空间转换两个模块将其投影到俯视图空间，保留了特征在空间以及维度上的完整性。采用一种交叉注意力机制，通过结合前置特征图优化转换得到的俯视特征图，加强俯视特征图对于重点区域的特征表达，提高整体模型的准确性。

Description

一种道路场景下基于计算机视觉的端到端语义鸟瞰图生成方法、模型及设备

技术领域

本发明属于智能车自动驾驶领域，涉及一种道路场景下基于计算机视觉的语义鸟瞰图端到端生成方法、模型及设备。

背景技术

环境感知系统作为自动驾驶系统的重要组成部分，通过对周边环境的感知理解，整合其重要信息传输给其他下游任务，是其他自动驾驶模块的重要保障。环境感知系统不仅需要对周边环境进行准确检测，同时需要将所感知得到的信息进行表征。一种高效准确的环境表征方式，能够更好的整合周边环境信息，极大的降低下游任务的难度。目前，高精度地图作为一种准确详细的表征方式被广泛用于许多自动驾驶解决方案，然而高精度地图具有构造成本高，耗费时间长等缺点。近年来，为克服高精度地图的上述缺点，一种基于视觉的语义鸟瞰图表征方式凭借着低成本，能够实时构建的特点引起相关学者的注意。

语义鸟瞰图其基本组成是俯视视角下的语义类别图，能够详细反应出周边环境内道路以及障碍物等距离，位置以及类别信息。目前现有的基于视觉的鸟瞰图生成方法，常常需要针对前置视角下的图像进行深度估计得到深度图，然后结合深度图将前置视角图像映射到三维空间上，最后从自上而下的视角对其进行投影，得到最终的鸟瞰图。然而这种方法过度依赖于前置摄像头的深度估计准确性，其多模型相结合的方法容易造成误差传递，从而影响最终鸟瞰图构建的准确性，同时这种多模型结合的方式往往无法满足实时性的要求。

鉴于此，本发明提出了一种道路场景下的基于前置摄像头结合深度学习模型的端到端语义鸟瞰图生成方法，通过构建端到端的模型克服了误差传递，本发明采用基于大核卷积的编码方式，提高模型的长距离建模能力。同时，为有效提升视角转换的准确度，本发明提出了一种结合维度转换以及空间转换的视角转换模块，并采用双注意力机制结合转换前的视角进行优化，有效提升模型预测的准确度，改善预测细节，实现了实时在线的语义鸟瞰图构建方法。

发明内容

本发明提出的一种基于道路场景下的视觉语义鸟瞰图端到端生成方法、模型及设备，模型主要采用编码-解码形式的网络模型结构，其主要构成部分包括五部分：1、用于提取前置摄像头图像特征的编码器模块。2、用于将前置视角特征图投影到俯视视角特征图的视角转换模块。3、结合前置特征图用于加强俯视视角特征的双层交叉注意力模块；4、基于多帧图像的时序调整模型；5、用于构造完整鸟瞰图输出的解码器模块。

生成方法的具体步骤如下：

步骤一，准备基于视觉的语义鸟瞰图数据集，其主要包括连续三个时刻t-1，t，t+1的前置摄像头图像I_t-1，I_t，I_t+1，每个时刻间隔为0.2s，其每个时刻采集的图像尺寸大小为(1024，1024，3)，以及t+1时刻前置摄像头对应的鸟瞰图语义分割图像，其标签图像大小为(256，256，3)，标签内容主要包括前方道路以及车辆具体鸟瞰图信息，其分类类别为三类，道路，车辆以及其他物体。

步骤二，搭建端到端鸟瞰图生成模型的编码器模块，不同于传统视觉任务，鸟瞰图生成其关注的重点在于图像的整体信息。基于此，本发明结合大卷积核以及ResNet模型构造特征提取器，通过采用部分大核卷积提高特征提取模块的感受野，从而加强模型对于前视图的整体理解以及加强模型的远距离特征提取能力，然而传统的大核卷积计算复杂度大，计算成本高。基于此，本发明同时采用深度卷积与逐点卷积相结合的方式来降低大卷积核卷积层所带来的计算负担，具体而言编码器结构主要包括三个部分，第一部分为Stem模块，由三层3×3的卷积层以及一层最大池化层构成，第二部分则是为克服过拟合，采用与ResNet模块所采取的相同的短连接网络结构，主要包括主干网络分支以及短连接部分，第三部分是为了增大模型感受野所采用的大卷积核模块，其主干网络包括两层3×3卷积层以及一层13×13的大核卷积层。其中为了降低模型计算量，针对13×13的卷积层采用深度卷积的方式，同时采用两层1×1卷积结合一层13×13的深层卷积短连接部分构成特征前向传递模块。将步骤一采集到的三帧图像I_t-1，I_t，I_t+1经过相同的特征提取模块之后，得到的特征图F_t-1，F_t，F_t+1，特征图大小为(32，32，512)，为简化计算，三个图像模块共享特征提取模块权重。

步骤三，搭建前置视角特征图投影到俯视视角特征图的视角转换模块，为有效将前置特征图转换到俯视视角下，本发明采用一种结合空间与维度的视角转换模型。其网络结构主要包括两个模块，维度层面的视角转换以及空间层面的视角转换。具体计算方法如下：以t时刻的特征图F_t为例。首先利用维度特征注意力机制，对特征图F_t针对不同维度的特征图上进行平均池化操作得到各个维度上的平均向量c_a∈(32,32,1)，并经过一层全连接层，随后将得到的特征输入到激活函数上，得到不同维度上的权重向量M_c∈(1,1,512)，计算公式如下：

c_a＝Avergepool_c(F_t) (1)

M_c＝σ(Mlp(c_a)) (2)

其中Mlp代表全连接操作，Avergepool_c代表在维度上进行平均池化，c_a表示平均池化后的结果，σ代表softmax激活函数。

然后将其与特征图F_t进行相乘得到突出不同维度后的特征图，随后采用逐点卷积对其进行维度层面的变换，得到维度上变换后的特征图X_c1，进一步为抑制过拟合情况出现，同样在此处添加了短连接部分，具体计算公式如下：

X_c＝X_c1+F_t (3)

其中FDW代表深度卷积操作。

接着利用空间注意力机制，对空间上的不同像素点进行平均池化操作得到平均向量s_a∈(1,1,512)，然后权重将其进行维度展开，并通过一次全连接层其计算公式如下：

s_a＝Avergepool_s(X_c) (4)

M_s＝σ(Mlp(Reshape(s_a))) (5)

其中Reshape代表展平操作。随后将得到的注意力特征图M_s∈(32*32，1)与输入特征图X_c进行相乘，得到加权调整后的特征图，随后利用维度调整操作，将得到特征图维度调整为原始X”∈(32,32,1),最后利用13×13尺寸的大核深度卷积模块进行处理，同样为抑制过拟合，添加了短连接模块，从而得到最终转换后的特征图X_bev，具体计算过程可由下列公式表示：

X_bev＝X_c+X” (7)

其中FDW代表深度卷积，Reshape_b代表复原为原始尺寸操作。

步骤四，搭建多视角结合的双层交叉注意力模块，在得到转换为俯视视角后的特征图后，为加强其特征表达方式，选取其对应的前置特征图，结合俯视视角下的特征图构造双层交叉注意力机制模块。首先利用转换后的俯视特征图生成Key(K)，Value(V)，利用前置特征图生成Query(Q)。其具体计算方式如下：

Q＝w_qx,K＝w_kx_bev,V＝w_vx_bev (8)

其中w_q，w_k，w_v代表对Query，Key，Value进行线性处理的权重矩阵，均为可学习的参数值，其中Q，K的尺寸大小与原始输入特征大小相同，为减少计算量均为(32，32，128)，V特征与原始特征尺寸相同为(32，32，512)。为了结合原始图像特征，从而进一步为加强鸟瞰图下的特征表达，结合Query，Key，Value进行交叉注意力机制处理得到中间特征图，计算公式如下：

X_m＝A₁V+V (10)

其中h_d代表采用多头注意力机制中多头的数量大小，softmax代表对其进行SOFTMAX激活函数处理，A₁代表经过交叉注意力处理后得到的注意力矩阵，X_m代表经过交叉注意力后得到的特征图,C₁代表特征的维度大小。

在经过一层交叉注意力后，为进一步优化特征图，丰富特征图的内部信息。本发明利用得到的特征图X_m进行进一步的自注意力机制处理，首先利用X_m得到自注意力机制对应的Query，Key，Value。其计算公式如下：

Q′＝w_q′X_m,K'＝w_q′X_m,V'＝w_v′X_m (11)

其中w_q′w_k'w_v'同样为可学习的权重参数，其中Q′，K'的尺寸大小与原始输入特征大小相同，为减少计算量，特征尺寸均为(32，32，128)，V'特征与原始特征尺寸相同为(32，32，512)。进一步为加强鸟瞰图下的特征表达，结合Q′，K'，V'进行交叉注意力机制处理得到最终的特征图，计算公式如下：

其中A₂代表自注意力机制的注意力权重，C代表特征维度，代表最终得到的特征图。

步骤五、搭建基于多帧图像的时序调整模块，根据上述步骤得到的基于t时刻的鸟瞰图特征采用相同的方式得到t-1以及t+1时刻的鸟瞰图特征/>为融合三个时刻的关键帧，本发明将其先进行拼接，随后输入到3D神经网络中，进行时序的融合，具体计算公式如下：

其中contact表示拼接操作，F_3D代表3D卷积。其中3D卷积核大小为(3，512，128，3，3)，其中输入维度512，输出维度为128，时间步长维度为3，为减少3D卷积神经网络的计算复杂度。将3D卷积操作采用3D深度卷积结合两个3D逐点卷积进行替代。具体计算步骤如下：

其中公式代表首先利用3D逐点卷积将512的特征维度降到32维，随后采用深度卷积/>对其空间时间特征进行卷积操作，最后再利用逐点卷积/>将维度升到128维。通过上述操作可有效降低模型计算复杂度，加快模型计算效率。

步骤六、搭建端到端鸟瞰图生成模型的解码器模块，解码器模块主要将优化后的鸟瞰图视角下特征图经过解码还原到原始标签大小并输出其分类结果，其网络结构主要包括主干解码以及为加速模型收敛的模糊解码分支，主干网络包括3层上采样模块以及一层卷积层输出最终的分类结果，其中每个上采样模块包括两层3×3卷积以及一层上采样层，模糊解码分支是直接将特征图通过线性插值上采样到(256,256)的尺寸大小，再经过一层卷积层得到最终的分类结果。

步骤七，根据搭建的模型进行训练，本发明采用的损失函数为交叉熵损失函数，其具体计算方式如下

其中代表主干解码器的输出与标签之间的损失函数，/>表示模糊解码器的输出与标签之间的损失函数，λ表示两个损失函数之间的比例系数，本发明选择为0.5，其中/>和/>均采用交叉熵损失函数，其具体计算公式如下：

其中y代表真实的标签值，代表预测的概率值。

步骤八，针对上述模型训练过程，其训练过程的基本设置为，优化器选取为adam优化器，学习率初始大小设置为0.0001，且每训练25轮，学习率乘以0.5，训练的批次数量设为6，训练总轮数为100轮。

步骤九，利用训练好的端到端语义鸟瞰图生成模型实时生成鸟瞰图。

本发明提出的一种视觉语义鸟瞰图端到端生成网络模型，该模型为上述步骤二至六搭建的模型。本发明提出的一种车用设备，该设备能够执行上述方法。

本发明的有益效果为：

(1)本发明通过采用基于计算机视觉的端到端深度学习模型对前方道路进行语义鸟瞰图生成，实现智能车对于周边环境的准确理解以及高效表征，对于指导其他下游自动驾驶任务提供信息保障。

(2)本发明在基于计算机视觉的端到端深度学习模型的语义鸟瞰图生成模型中，设计了大卷积核与ResNet相结合的特征提取模块，增大了模型的感受野，提高了模型对于图像的整体理解能力，加强了模型的长距离特征提取能力。

(3)本发明采用维度与空间结合的鸟瞰图特征转换模块，将前置图像的特征图通过维度转换以及空间转换两个模块将其投影到俯视图空间，保留了特征在空间以及维度上的完整性。

(4)本发明采用一种交叉注意力机制，通过结合前置特征图优化转换得到的俯视特征图，加强俯视特征图对于重点区域的特征表达，提高整体模型的准确性。

附图说明

图1为整体语义鸟瞰图生成网络结构；

图2为编码器结构；

图3为前置特征图转换到鸟瞰图视角的特征转换模块；

图4为解码器结构；

具体实施方式

下面将结合附图说明及具体实施方式对本发明作进一步的说明，但本发明的保护范围并不仅限于此。

本发明具体实施方式如下：

(1)数据准备：本发明所采用的数据集为Argoverse数据集，该数据集是由ArgoAI、卡内基梅隆大学、佐治亚理工学院联合发布的。本发明所采用的数据主要包括前置摄像头图像I_F,其尺寸大小为(1024，1024，3)，以及前置摄像头对应的语义鸟瞰图标签M_BEV，其标签图像大小为(256，256，3)，数据集主要包括6723张图像以及测试集2418张图像。

(2)搭建整体模型流程：图1为整体基于视觉的语义鸟瞰图生成模型，其主要构成部分包括四部分：1、用于提取前置摄像头图像特征的编码器模块。2、用于将前置视角特征图投影到俯视视角特征图的视角转换模块。3、结合前置特征图用于加强俯视视角特征的双层交叉注意力模块。4、用于构造完整鸟瞰图输出的解码器模块。

(3)搭建特征提取编码器模型，具体网络结构如附图2所示，主要包括三个部分，第一部分是由三层3×3的卷积层以及一层最大池化层构成，第二部分则是采用与ResNet模块所采取的相同的短连接网络结构，主要包括主干网络分支以及短连接部分，第三部分是为了增大模型感受野所采用的大卷积核模块，其主干网络包括两层1×1卷积层以及一层13×13的大核卷积层，其中为了降低模型计算量，针对13×13的卷积层采用深度卷积的方式，同时采用两层1×1卷积结合短连接部分构成特征前向传递模块。在经过特征提取模块之后，得到的特征图尺寸为(32，32，512)。

(4)搭建前置特征图转换到鸟瞰图视角的特征转换模块，假设特征提取模块后的特征图为X，为有效将前置特征图转换到俯视视角下，本发明采用一种空间与维度分离的视角转换模型，其网络结构如附图3所示。其主要包括两个模块，维度层面的视角转换以及空间层面的视角转换。

具体计算过程如下：首先利用维度特征注意力机制，对特征图F_I针对不同维度的特征图上进行平均池化操作得到各个维度上的平均向量c_a∈(32,32,1)，并经过一层全连接层，随后将得到的特征输入到激活函数上，得到不同维度上的权重向量M_c∈(1,1,512)，计算公式如下：

c_a＝Avergepool_c(F_t) (1)

M_c＝σ(Mlp(c_a)) (2)

其中Mlp代表全连接操作，Avergepool_c代表在维度上进行平均池化，σ代表softmax激活函数。

然后将其与特征图F_t进行相乘得到突出不同维度后的特征图，然后采用逐点卷积对其进行维度层面的变换，得到维度上变换后的特征图X_c1，进一步为抑制过拟合情况出现，同样在此处添加了短连接部分，具体计算公式如下：

X_c＝X_c1+F_t

其中FDW代表深度卷积操作。

s_a＝Avergepool_s(X_c) (4)

M_s＝σ(Mlp(Reshape(s_a))) (5)

其中Reshape代表展平操作。随后将得到的注意力特征图M_s∈(32*32,1)与输入特征图X_c进行相乘，得到加权调整后的特征图，随后利用维度调整操作，将得到特征图维度调整为原始X”∈(32,32,1),最后利用13×13尺寸的大核深度卷积模块进行处理，同样为抑制过拟合，添加了短连接模块，从而得到最终转换后的特征图X_bev，具体计算过程可由下列公式表示

X_bev＝X_c+X” (7)

其中FDW代表深度卷积，Reshape_b代表复原为原始尺寸操作。

(5)搭建多视角结合的双层交叉注意力模块，在得到转换为俯视视角后的特征图后，为加强其特征表达方式，选取其对应的前置特征图，结合俯视视角下的特征图构造双层交叉注意力机制模块。首先利用转换后的俯视特征图生成Key，Value，利用的前置特征图生成Query。其具体计算方式如下

Q＝w_qx,K＝w_kx_bev,V＝w_vx_bev (8)

其中w_q，w_k，w_v代表对Query，Key，Value进行线性处理的权重矩阵，均为可学习的参数值，其中Q,K的尺寸大小与原始输入特征大小相同，为减少计算量均为(32,32,128)，V特征与原始特征尺寸相同为(32,32,512)。为结合原始图像特征，从而进一步为加强鸟瞰图下的特征表达，结合Query，Key，Value进行交叉注意力机制处理得到中间特征图，计算公式如下：

X_m＝A₁V+V (10)

Q′＝w_q′X_m,K'＝w_q′X_m,V'＝w_v′X_m (11)

其中w_q′w_k'w_v'同样为可学习的权重参数，其中Q′,K'的尺寸大小与原始输入特征大小相同，为减少计算量，特征尺寸均为(32，32，128)，V'特征与原始特征尺寸相同为(32，32，512)。为进一步加强鸟瞰图下的特征表达，结合Q′,K',V'进行交叉注意力机制处理得到最终的特征图，计算公式如下：

X_o＝A₂V′+V′ (13)

其中A₂代表自注意力机制的注意力权重，X_o代表最终得到的特征图。

(6)搭建基于多帧图像的时序调整模型，根据上述步骤搭建基于t时刻的鸟瞰图特征参考相同的方式搭建t-1以及t+1时刻的鸟瞰图特征/>为融合三个时刻的关键帧，本发明将其先进行拼接，随后输入到3D神经网络中，进行时序的融合，具体计算公式如下：

(7)搭建端到端鸟瞰图生成模型的解码器模块，解码器模块主要将优化后的鸟瞰图视角下的特征图经过解码还原到原始标签大小并输出其分类结果，其网络结构如附图4所示，主要包括主干解码以及为加速模型收敛的模糊解码分支，主干网络包括3层上采样模块以及一层卷积层输出最终的分类结果，其中每个上采样模块包括两层3×3卷积以及一层上采样层，模糊解码分支是直接将特征图通过线性插值上采样到(256,256)的尺寸大小，再经过一层卷积层得到最终的分类结果。

(8)针对上述模型训练过程，采用的损失函数计算方式如下

其中代表主干解码器的输出与标签之间的损失函数，/>表示模糊解码器的输出与标签之间的损失函数，λ表示两个损失函数之间的比例系数，本发明为0.5，同时两个损失的计算方式均交叉熵损失函数，具体计算方式如下：

其中y代表真实的标签值，代表预测的概率值。

(9)针对上述模型训练过程，其训练过程的基本设置为，优化器选取为adam优化器，学习率初始大小设置为0.0001，且每训练25轮，学习率乘以0.5，训练的批次数量设为6，训练总轮数为100轮。

(10)本发明实施例还提出一种自动驾驶感知设备，利用训练完成的模型结合车载摄像头等设备，实现所述的鸟瞰图预测方法。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技术所创的等效方式或变更均应包含在本发明的保护范围之内。

Claims

1.一种道路场景下基于计算机视觉的端到端语义鸟瞰图生成方法，其特征在于，包括如下：

S1，制作基于视觉的语义鸟瞰图数据集；

S2，搭建视觉语义鸟瞰图端到端生成网络模型；包括五部分：1、用于提取图像特征的编码器模块；2、用于将前置视角特征图投影到俯视视角特征图的视角转换模块；3、结合前置特征图用于加强俯视视角特征的双层交叉注意力模块；4、基于多帧图像的时序调整模块；5、用于构造完整鸟瞰图输出的解码器模块；

S3，对搭建的模型进行训练；

S4，利用训练好的端到端语义鸟瞰图生成模型实时生成鸟瞰图。

2.根据权利要求1所述的一种道路场景下基于计算机视觉的端到端语义鸟瞰图生成方法，其特征在于，所述S1具体包括：包括连续三个时刻t-1，t，t+1的前置摄像头图像I_t-1，I_t，I_t+1，每个时刻间隔为0.2s，其每个时刻采集的图像尺寸大小为(1024，1024，3)，以及t+1时刻前置摄像头对应的鸟瞰图语义分割图像，其标签图像大小为(256，256，3)，标签内容主要包括前方道路以及车辆具体鸟瞰图信息，其分类类别为三类，道路，车辆以及其他物体。

3.根据权利要求1所述的一种道路场景下基于计算机视觉的端到端语义鸟瞰图生成方法，其特征在于，所述S2中用于提取图像特征的编码器模块：采用大卷积核以及ResNet模型构造特征提取器，通过采用部分大核卷积提高特征提取模块的感受野，从而加强模型对于前视图的整体理解以及加强模型的远距离特征提取能力，同时采用深度卷积与逐点卷积相结合的方式来降低大卷积核卷积层所带来的计算负担，具体而言编码器模块结构包括三个部分：

第一部分为Stem模块，由三层3×3的卷积层以及一层最大池化层构成，第二部分则是为克服过拟合，采用与ResNet模块所采取的相同的短连接网络结构，主要包括主干网络分支以及短连接部分，第三部分是为了增大模型感受野所采用的大卷积核模块，其主干网络包括两层3×3卷积层以及一层13×13的大核卷积层；

其中为降低计算量，针对13×13的卷积层采用深度卷积的方式，同时采用两层1×1卷积结合一层13×13的深层卷积短连接部分构成特征前向传递模块，将步骤S1采集到的三帧图像I_t-1，I_t，I_t+1经过相同的特征提取之后，得到特征图F_t-1，F_t，F_t+1，特征图大小为(32，32，512)。

4.根据权利要求1所述的一种道路场景下基于计算机视觉的端到端语义鸟瞰图生成方法，其特征在于，所述S2中前置视角特征图投影到俯视视角特征图的视角转换模块，包括两部分：维度层面的视角转换以及空间层面的视角转换；具体计算方法如下：

针对t时刻的特征图F_t，首先利用维度特征注意力机制，对特征图F_t针对不同维度的特征图上进行平均池化操作得到各个维度上的平均向量c_a∈(32,32,1)，并经过一层全连接层，随后将得到的特征输入到激活函数上，得到不同维度上的权重向量M_c∈(1,1,512)，计算公式如下：

c_a＝Avergepool_c(F_t) (1)

M_c＝σ(Mlp(c_a)) (2)

其中Mlp代表全连接操作，Avergepool_c代表在维度上进行平均池化，σ代表softmax激活函数；

然后将其与特征图X进行相乘得到突出不同维度后的特征图，随后采用逐点卷积对其进行维度层面的变换，得到维度上变换后的特征图X_c1，为抑制过拟合情况出现，在此处添加了短连接部分，具体计算公式如下：

X_c＝X_c1+X (3)

其中FDW代表深度卷积操作；

s_a＝Avergepool_s(X_c) (4)

M_s＝σ(Mlp(Reshape(s_a))) (5)

X_bev＝X_c+X” (7)

其中FDW代表深度卷积，Reshape_b代表复原为原始尺寸操作。

5.根据权利要求1所述的一种道路场景下基于计算机视觉的端到端语义鸟瞰图生成方法，其特征在于，所述S2中双层交叉注意力模块：在得到转换为俯视视角后的特征图后，为加强其特征表达方式，选取其对应的前置特征图，结合俯视视角下的特征图构造双层交叉注意力机制模块；具体地：

首先利用转换后的俯视特征图生成Key()，Value，利用前置特征图生成Query，其具体计算方式如下：

Q＝w_qx,K＝w_kx_bev,V＝w_vx_bev (8)

其中Q，K，V分别代表Query，Key，Value，w_q，w_k，w_v代表对Query，Key，Value进行线性处理的权重矩阵，均为可学习的参数值，其中Q，K的尺寸大小与原始输入特征大小相同，为减少计算量均为(32，32，128)，V特征与原始特征尺寸相同为(32，32，512)，，结合Query，Key，Value进行交叉注意力机制处理得到中间特征图，计算公式如下：

X_m＝A₁V+V (10)

其中h_d代表采用多头注意力机制中多头的数量大小，softmax代表对其进行SOFTMAX激活函数处理，A₁代表经过交叉注意力处理后得到的注意力矩阵，X_m代表经过交叉注意力后得到的特征图,C₁代表特征的维度大小；

在经过一层交叉注意力后，为进一步优化特征图，丰富特征图的内部信息，本发明利用得到的特征图X_m进行进一步的自注意力机制处理，首先利用X_m得到自注意力机制对应的Q′，K'，V'，其计算公式如下：

Q′＝w_q′X_m,K'＝w_q′X_m,V'＝w_v′X_m (11)

其中w_q′w_k'w_v'同样为可学习的权重参数其中Q′，K'的尺寸大小与原始输入特征大小相同，为减少计算量，特征尺寸均为(32，32，128)，V'特征与原始特征尺寸相同为(32，32，512)，进一步为加强鸟瞰图下的特征表达，结合Q′，K'，V'进行交叉注意力机制处理得到最终的特征图，计算公式如下：

6.根据权利要求5所述的一种道路场景下基于计算机视觉的端到端语义鸟瞰图生成方法，其特征在于，所述S2中时序调整模块：

根据双层交叉注意力模块得到的基于t时刻的鸟瞰图特征采用相同的方式得到t-1以及t+1时刻的鸟瞰图特征/>为融合三个时刻的关键帧，本发明将其先进行拼接，随后输入到3D神经网络中，进行时序的融合，具体计算公式如下：

其中contact表示拼接操作，F_3D代表3D卷积，其中3D卷积核大小为(3，512，128，3，3)，其中输入维度512，输出维度为128，时间步长维度为3，为减少3D卷积神经网络的计算复杂度，将3D卷积操作采用3D深度卷积结合两个3D逐点卷积进行替代，具体计算步骤如下：

其中公式代表首先利用3D逐点卷积将512的特征维度降到32维，随后采用深度卷积/>对其空间时间特征进行卷积操作，最后再利用逐点卷积/>将维度升到128维。

7.根据权利要求1所述的一种道路场景下基于计算机视觉的端到端语义鸟瞰图生成方法，其特征在于，所述S2中解码器模块，将优化后的鸟瞰图视角下的特征图经过解码还原到原始标签大小并输出其分类结果，其网络结构主要包括主干解码以及为加速模型收敛的模糊解码分支，主干网络包括3层上采样模块以及一层卷积层输出最终的分类结果，其中每个上采样模块包括两层3×3卷积以及一层上采样层，模糊解码分支是直接将特征图通过线性插值上采样到(256,256)的尺寸大小，再经过一层卷积层得到最终的分类结果。

8.根据权利要求1所述的一种道路场景下基于计算机视觉的端到端语义鸟瞰图生成方法，其特征在于，针对S3的模型训练，采用的损失函数为交叉熵损失函数，其具体计算方式如下

其中代表主干解码器的输出与标签之间的损失函数，/>表示模糊解码器的输出与标签之间的损失函数，λ表示两个损失函数之间的比例系数，其中/>和/>均采用交叉熵损失函数，其具体计算公式如下：

其中y代表真实的标签值，代表预测的概率值；

其训练过程的基本设置为：优化器选取为adam优化器，学习率初始大小设置为0.0001，且每训练25轮，学习率乘以0.5，训练的批次数量设为6，训练总轮数为100轮。

9.一种视觉语义鸟瞰图端到端生成网络模型，其特征在于，该模型为权利要求1-8任一项所述S2中搭建的模型。

10.一种车用设备，其特征在于，该设备能够执行权利要求1-8任一项所述的方法。