CN116645508A

CN116645508A - 基于局部窗口交叉注意力的轻量型语义目标分割方法

Info

Publication number: CN116645508A
Application number: CN202310585256.2A
Authority: CN
Inventors: 隗寒冰; 金组亮; 姚智浩; 邓召学; 郑国峰; 詹森
Original assignee: Chongqing Jiaotong University
Current assignee: Chongqing Jiaotong University
Priority date: 2023-05-23
Filing date: 2023-05-23
Publication date: 2023-08-25

Abstract

本发明提供的一种基于局部窗口交叉注意力的轻量型语义目标分割方法，包括以下步骤：S1.构建轻量型语义分割网络，轻量型语义分割网络包含改进型EdgeNeXt网络、交叉视图转换编码器和BEV特征解码器；S2.将样本图像输入至轻量型语义分割网络中进行训练；S3.判断轻量型语义分割网络是否训练完成，如是，则进入步骤S4，如否，则返回步骤S2，直至达到训练完成目标；S4.实时采集环境图像，将环境图像输入至训练完成的轻量型语义分割网络中进行语义分割，输出语义分割结果。通过上述方法，能够实现跨相机透视图之间的特征查询，指导BEV查询关注正确的局部区域，减少查询计算量，提高了查询准确度和语义分割效率。

Description

基于局部窗口交叉注意力的轻量型语义目标分割方法

技术领域

本发明涉及一种语义分割领域，尤其涉及一种基于局部窗口交叉注意力的轻量型语义目标分割方法。

背景技术

自动驾驶汽车高度依赖于自车对场景的理解，例如交通标志检测和障碍物检测等。在环视多相机语义分割任务中，前期研究多基于单目相机分割得到2D目标，然后采用跨相机后处理方式将分割结果投影至统一车身坐标系下获得3D输出。这类方法不能跨视图处理特征，分割结果容易受到环境影响而出现歧义，严重影响语义分割准确度。在自动驾驶汽车环境感知任务中，采用环视相机在统一鸟瞰图(Bird's Eye View，BEV)坐标系下对车道线、车辆等目标进行语义分割受到广泛关注，相机个数增加致使任务推理延迟线性上升，实时性难以完成语义分割任务。

为解决上述技术问题，亟需提出一种新的技术手段。

发明内容

本发明提供的一种基于局部窗口交叉注意力的轻量型语义目标分割方法，包括以下步骤：

S1.构建轻量型语义分割网络，轻量型语义分割网络包含改进型EdgeNeXt网络、交叉视图转换编码器和BEV特征解码器；

改进型EdgeNeXt网络作为骨干网络，改进型EdgeNeXt网络的特征金字塔以添加残差块的方式构建，改进型EdgeNeXt网络用于捕获图像的全局信息和局部信息；

交叉视图转换编码器包含BEV局部窗口查询模块和交叉注意力模块，交叉视图转换编码器用于跨相机透视图查询图像特征；

BEV特征解码器由上采样残差块和分割头组成，用于完成语义分割；

S2.将样本图像输入至轻量型语义分割网络中进行训练；

S3.判断轻量型语义分割网络是否训练完成，如是，则进入步骤S4，如否，则返回步骤S2，直至达到训练完成目标；

S4.实时采集环境图像，将环境图像输入至训练完成的轻量型语义分割网络中进行语义分割，输出语义分割结果。

进一步，步骤S1中，通过如下方法构建EdgeNeXt网络：

EdgeNeXt网络包含Stage1模块、Stage2模块、Stage3模块、Stage4模块和特征金字塔模块；

其中，Stage1的输出端连接Stage2的输入端，Stage2的输出端连接Stage3的输入端，Stage3的输出端连接Stage4的输入端，Stage2的输出端、Stage3的输出端和Stage4的输出端连接特征金字塔模块的输入端；

S111.构建Stage1模块，Stage1模块包含4×4卷积层和3×3卷积编码器，其中，卷积层的输出端连接卷积编码器的输入端；

S112.构建Stage2模块，Stage2模块包含下采样模块、5×5卷积编码器、位置编码器和深度转置注意编码器，其中，下采样模块的输出端连接卷积编码器的输入端，卷积编码器的输出和位置编码器的输出进行特征融合，得到融合后的特征图，将融合后的特征图输入深度转置注意编码器中；

S113.构建Stage3模块，Stage3模块包含下采样模块、7×7卷积编码器和深度转置注意编码器，其中，下采样的输出端连接卷积编码器的输入端，卷积编码器的输出端连接深度转置注意编码器的输入端；

S114.构建Stage4模块，Stage4模块包含下采样模块、7×7卷积编码器和深度转置注意编码器；

S115.构建特征金字塔模块，特征金字塔模块包含上采样模块、下采样模块和残差块，其中，对Stage2的输出进行下采样，对Stage4的输出进行上采样，再将下采样后的Stage2输出、上采样后的Stage4输出和Stage3输出进行拼接，将拼接结果输入残差块中。

进一步，步骤S1中，交叉视图转换编码器根据传感器的感知距离和相机的分辨率确定BEV网格的大小，将BEV网格划分为4个窗口，窗口内的BEV查询和BEV查询对应的透视图完成交叉注意力计算，输出融合透视图特征的BEV特征图Z。

进一步，透视特征图和BEV特征图的交叉注意力通过如下方法完成：

首先，将透视图特征T∈R^N×H×W×C转换为BEV特征B∈R^X×Y×C，其中，表示传感器个数，H表示像素高度，W表示像素宽度，C表示通道数，X表示网格的长度，Y表示网格的宽度；

其次，将BEV坐标B^J转化为透视图坐标T^J，转化过程如下：

其中，u和v表示图像的BEV坐标，d表示深度，B^J＝(u,v,d)，u′和v′表示B^J坐标输入resize函数后得到的BEV坐标，I表示相机内参矩阵，E表示相机外参矩阵，E^-1表示相机外参矩阵的逆矩阵；

然后，通过计算透视图像反投影的BEV坐标和BEV网格坐标之间的余弦相似度完成交叉注意力，具体过程如下：

根据透视特征图大小构建透视特征图反投影索引，并通过线性投射层得到K和V，K和V公式如下：

K＝M(EI^-1T^J′)

V＝M(T^J)

其中，K表示反投影索引矩阵，K∈R^N×HW×d，V表示BEV图像特征，V∈R^NHW×d，N表示传感器个数，T^J′表示透视图坐标转置，H表示像素高度，W表示像素宽度，d表示深度，E表示相机外参矩阵，I^-1表示相机内参矩阵的逆矩阵，M表示线性投射层，T^J表示透视图坐标；

计算余弦相似度：

其中，sim表示余弦相似度，表示透视图坐标，B^J表示BEV坐标，E表示相机外参矩阵，K^-1表示反投影索引矩阵的逆矩阵，n表示视图数量；

最后，输出特征图Z，特征图Z是通过融合BEV查询和BEV查询对应透视图的特征得到：

Z＝CrossAttention(Q,K,V)

其中，Z表示特征图，Q表示查询的窗口，K表示反投影索引矩阵，V表示BEV图像特征。

进一步，步骤S2中，轻量型语义分割网络初始学习率设置为1e-4，权重衰减为0.01，设置单次传递用于训练的样本数batch_size为8，损失函数采用交叉熵损失函数，优化器采用Adam优化器，交叉熵损失函数的公式如下：

其中，A表示样本总数量，b表示目标检测类别数量，P_ic表示样本i为c的预测概率，y_ic表示样本i类别是否为c，如是，则c取1，如否，则c取0。

进一步，步骤S3中，当样本数据集完成20轮训练时，轻量型语义分割网络训练完成。

本发明的有益效果：本发明通过构建BEV查询和图像特征之间的局部窗口交叉注意力，完成对跨相机透视图之间的特征查询，减少了查询计算量，提高了查询准确度和语义分割效率。

附图说明

下面结合附图和实施例对本发明作进一步描述：

图1为本发明流程图；

图2为本发明网络整体结构；

图3为本发明骨干网络结构；

图4为本发明局部窗口交叉注意力过程图。

具体实施方式

以下结合说明书附图对本发明作出进一步描述：

S2.将样本图像输入至轻量型语义分割网络中进行训练；

S4.实时采集环境图像，将环境图像输入至训练完成的轻量型语义分割网络中进行语义分割，输出语义分割结果。通过上述方法，能够实现跨相机透视图之间的特征查询，指导BEV查询关注正确的局部区域，减少查询计算量，提高了查询准确度和语义分割效率。

本实施例中，步骤S1中，构建轻量型语义分割网络，轻量型语义分割网络包含改进型EdgeNeXt网络、交叉视图转换编码器和BEV特征解码器，如图1所示；

S11.构建改进型EdgeNeXt网络包含Stage1模块、Stage2模块、Stage3模块、Stage4模块和特征金字塔模块，如图3所示；

S111.构建Stage1模块，Stage1模块包含1个4×4卷积层和3个3×3卷积编码器，其中，卷积层的输出端连接卷积编码器的输入端；

S112.构建Stage2模块，Stage2模块包含1个下采样模块、2个5×5卷积编码器、1个位置编码器和1个深度转置注意编码器，其中，下采样模块的输出端连接卷积编码器的输入端，卷积编码器的输出和位置编码器的输出进行特征融合，得到融合后的特征图，将融合后的特征图输入深度转置注意编码器中；

卷积编码器、位置编码器和深度转置注意编码器为现有技术，在此不加以赘述；

S113.构建Stage3模块，Stage3模块包含1个下采样模块、8个7×7卷积编码器和1个深度转置注意编码器，其中，下采样模块的输出端连接卷积编码器的输入端，卷积编码器的输出端连接深度转置注意编码器的输入端；

S114.构建Stage4模块，Stage4模块包含1个下采样模块、2个7×7卷积编码器和1个深度转置注意编码器，其中，下采样模块的输出端连接卷积编码器的输入端，卷积编码器的输出端连接深度转置注意编码器的输入端；

S115.构建特征金字塔模块，特征金字塔模块包含上采样模块、下采样模块和残差块，其中，对Stage2的输出进行下采样，对Stage4的输出进行上采样，再将下采样后的Stage2输出、上采样后的Stage4输出和Stage3输出进行拼接，将拼接结果输入残差块中；

S12.构建交叉视图转换编码器，交叉视图转换编码器为在交叉注意视图模块的基础上，将BEV网格划分为4个窗口，其中，交叉注意视图模块为CVT网络中的现有技术，在此不加以赘述；交叉视图转换编码器根据传感器的感知距离和相机的分辨率确定BEV网格的大小，例如,传感器检测范围为50m，相机分辨率为1024×1024，则可X方向[-51.2m,51.2m]，Y方向[-51.2m,51.2m]，Z方向[-5m,3m]，并在X、Y方向上将检测范围等分成1024×1024个大小为0.1m×0.1m的窗口；BEV网格尺寸先经过下采样降低网格尺度，当透视图坐标转换为BEV坐标之后，将降低后的网格尺寸通过上采样残差块还原；

局部窗口交叉注意力的BEV查询窗口不会与所有透视图进行关联，窗口内的BEV查询仅和关联视图完成交叉注意力计算，输出融合透视图特征的BEV特征图Z，其中，关联视图为BEV查询对应的透视图，BEV查询对应的透视图根据传感器FOV视场角确定，例如，BEV查询对应的透视图出现在传感器的3个FOV视场角中，则每个窗口与三个关联视图进行交叉注意力计算，如图4所示；

透视特征图和BEV特征图的交叉注意力通过如下方法完成：

首先，将透视图特征T∈R^N×H×W×C转换为BEV特征B∈R^X×Y×C，其中，N表示传感器个数，H表示像素高度，W表示像素宽度，C表示通道数，X表示网格的长度，Y表示网格的宽度；

其次，将BEV坐标B^J转化为透视图坐标T^J，转化过程如下：

其中，u和v表示图像的BEV坐标，d表示深度，V^J＝(u,v,d)，u′和v′表示B^J坐标输入resize函数后得到的BEV坐标，I表示相机内参矩阵，E表示相机外参矩阵，E^-1表示相机外参矩阵的逆矩阵；

K＝M(EI^-1T^J′)

V＝M(T^J)

计算余弦相似度：

Z＝CrossAttention(Q,K,V)

其中，Z表示特征图，Q表示查询的窗口，K表示反投影索引矩阵，V表示BEV图像特征；

S13.构建BEV特征解码器，BEV特征解码器由上采样残差块和分割头组成。通过上述方法，能够有效减少计算量，指导BEV查询关注正确的局部区域，并提高BEV分辨率。

本实施例中，步骤S2中，将采集的相机环视透视图输入轻量型语义分割网络中进行训练，轻量型语义分割网络初始学习率设置为1e-4，权重衰减为0.01，设置单次传递用于训练的样本数batch_size为8，损失函数采用交叉熵损失函数，优化器采用Adam优化器，交叉熵损失函数的公式如下：

其中，A表示样本总数量，b表示目标检测类别数量，P_ic表示样本i为c的预测概率，y_ic表示样本i类别是否为c，如是，则c取1，如否，则c取0。通过上述方法，能够有效提高预测精度，使误差尽可能减小。

本实施例中，步骤S3中，判断所有样本数据集是否输入至轻量型语义分割网络中完成20轮训练，如是，则进入步骤S4，如否，则返回步骤S2，将所有样本数据集输入轻量型语义分割网络中继续训练，直到所有样本数据集完成20轮训练，每次训练轻量型语义分割网络中的Adam优化器均会对权重参数进行更新。通过上述方法，能够保证轻量型语义分割网络预测结果达到预测精度。

本实施例中，步骤S4中，使用环视六相机实时采集自车环境图像，将环境图像输入至训练完成的轻量型语义分割骨干网络中,如图3所示，图像进入Stage1模块，通过1个4×4卷积层，再通过3个3×3卷积编码器，输出特征图T1，将特征图T1输入至Stage2模块，对特征图T1进行8倍下采样，并将通道数改为96，通过2个5×5卷积编码器和1个位置编码器，再经过1个深度转置注意编码器输出特征图T2，将特征图T2输入至Stage3模块，对特征图T2进行16倍下采样，并将通道数改为160，通过8个7×7卷积编码器和1个深度转置注意编码器输出特征图T3，将特征图T3输入至Stage4模块，对特征图T3进行32倍下采样，并将通道数改为304，通过2个7×7卷积编码器和1个深度转置注意编码器输出特征图T4，对特征图T2进行2倍下采样得到特征图T5，对特征图T4进行2倍上采样得到特征图T6，将特征图T5、特征图T3和特征图T6进行拼接，并将拼接后的特征图输入1个残差块中进行聚合特征，输出宽高下采样16倍的特征图T7，骨干网络EdgeNeXt输出宽高下采样32倍的特征图T4和宽高下采样16倍的特征图T7；

将特征图T4和特征图T7输入至交叉视图转换编码器中，如图2所示，特征图T4和BEV查询完成局部窗口交叉注意力，输出BEV特征图B1，BEV特征图B1经过正则化得到BEV特征图B1′，BEV特征图B1′经过前馈神经网络得到BEV特征图B1″，将BEV特征图B1′和BEV特征图B1″相加，再将相加后的BEV特征图进行正则化，输出BEV特征图B1″′；特征图T7和BEV查询完成局部窗口交叉注意力，输出BEV特征图B2，将BEV特征图B2和BEV特征图B1″′相加，再将相加后的BEV特征图进行正则化，输出BEV特征图B2′，BEV特征图B2′经过前馈神经网络得到BEV特征图B2″，将BEV特征图B2′和BEV特征图B2″相加，将相加后的BEV特征图进行正则化，输出BEV特征图B2″′；

将BEV特征图B1″′和BEV特征图B2″′输入BEV特征解码器中，经过3个上采样残差块和1个分割头，输出语义分割结果。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于局部窗口交叉注意力的轻量型语义目标分割方法，其特征在于：包括以下步骤：

S2.将样本图像输入至轻量型语义分割网络中进行训练；

2.根据权利要求1所述一种基于局部窗口交叉注意力的轻量型语义目标分割方法，其特征在于：步骤S1中，通过如下方法构建EdgeNeXt网络：

3.根据权利要求1所述一种基于局部窗口交叉注意力的轻量型语义目标分割方法，其特征在于：步骤S1中，交叉视图转换编码器根据传感器的感知距离和相机的分辨率确定BEV网格的大小，将BEV网格划分为4个窗口，窗口内的BEV查询和BEV查询对应的透视图完成交叉注意力计算，输出融合透视图特征的BEV特征图Z。

4.根据权利要求3所述一种基于局部窗口交叉注意力的轻量型语义目标分割方法，其特征在于：透视特征图和BEV特征图的交叉注意力通过如下方法完成：

其次，将BEV坐标B^J转化为透视图坐标T^J，转化过程如下：

其中，u和v表示图像的BEV坐标，d表示深度，B^J＝(u，v，d)，u′和v′表示B^J坐标输入resize函数后得到的BEV坐标，I表示相机内参矩阵，E表示相机外参矩阵，E^-1表示相机外参矩阵的逆矩阵；

K＝M(EI^-1T^J′)

V＝M(T^J)

计算余弦相似度：

Z＝CrossAttention(Q，K，V)

5.根据权利要求1所述一种基于局部窗口交叉注意力的轻量型语义目标分割方法，其特征在于：步骤S2中，轻量型语义分割网络初始学习率设置为1e-4，权重衰减为0.01，设置单次传递用于训练的样本数batch_size为8，损失函数采用交叉熵损失函数，优化器采用Adam优化器，交叉熵损失函数的公式如下：

6.根据权利要求1所述一种基于局部窗口交叉注意力的轻量型语义目标分割方法，其特征在于：步骤S3中，当样本数据集完成20轮训练时，轻量型语义分割网络训练完成。