CN113033411A

CN113033411A - 基于分割与注意力机制的地面语义认知方法

Info

Publication number: CN113033411A
Application number: CN202110325719.2A
Authority: CN
Inventors: 刘彤; 陈钊苇; 杨毅; 蒋斯坦
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2021-06-25

Abstract

本发明公开了一种基于分割与注意力机制的地面语义认知方法，可以在保证实时性的同时实现较高精度地检测车道线与路面标志等地面语义信息。本发明采用轻量级的语义分割模型ERFNet作为骨干网络，并采用注意力机制，通过引入包括局部注意力和全局注意力注意力，帮助模型在不同尺度下提取局部特征和全局特征，从而缓解目标尺度差异较大的问题。本发明还对不同尺度的注意力信息进行蒸馏学习，在不增加推理代价的条件下提高模型的准确性。此外，针对只需要进行车道线检测的场景，本发明在ERFNet的基础上添加车道线存在预测分支，帮助模型在复杂的车道线检测场景下同样可以保持较高的精度。

Description

基于分割与注意力机制的地面语义认知方法

技术领域

本发明涉及自动驾驶领域，具体涉及一种基于分割与注意力机制的地面语义认知方法。

背景技术

随着经济的发展与社会的进步，机动车数量不断增加。据不完全统计，我国平均每年发生交通事故大约20万起，造成死伤人数高达30万左右。通过研究发现，百分之七十以上的交通事故是因为驾驶员的操作不当引起的。由于人类受到心理与生理的天然制约，交通事故难以避免。随着无人驾驶技术的日益成熟，人们希望可以通过无人驾驶来改变这一现状。无人驾驶包含感知、决策、控制等技术环节，其中包含车道线与路面标志在内的地面语义认知是感知中的一个重要环节。在交通事故中，50％的事故与驾驶员偏离正常行驶有关，而90％以上的车辆翻车事故都与车辆主动偏离车道有关。因此在无人驾驶技术中，对车道线进行检测识别是关键环节。通过对车道线的检测与识别，无人车可以保持在原有车道内安全行驶，或者合理变道。同时，路面标志也是目前无人驾驶研究的重要课题。路面标志包含限速、箭头、人行横道等众多信息，对安全行车有重要的指导作用。

地面语义认知可以分为车道线检测与路面标记检测两部分内容。

在车道线检测中，可以分为传统方法和深度学习方法两种。传统方法通过提取手工特征的方法来检测车道线，利用包括颜色、边缘、宽度等信息在内的图像特征信息，对路面进行分割并提取车道线，适用于路况简单且车道线清晰的环境，但是在实际环境中容易出现障碍物遮挡、车道线破损等情况。深度学习方法通过卷积神经网络提取车道线的特征，并进行分类与回归。SCNN将传统的卷积层接层的连接形式转为特征图中的片连片卷积的形式，使得图中像素行和列之间能够传递信息，在车道线检测中具有较好的延伸性。但是，SCNN模型较复杂，计算代价较高，在算力受限的设备上无法满足实时性的需求。

路面标志检测同样可以分为传统方法和深度学习方法两种。传统方法一般基于特征或者模板匹配，且计算代价较小，可以满足实时性需求。但是，路面标志处于自然环境下，在雨天、雾天等极端天气下进行路面标志的检测具有一定难度。深度学习方法则可以适用于不同场合，具有较高的鲁棒性。VPGNet是一个端到端的多任务网络，利用灭点信息进行特征补充，能够在极端天气的情况下同时进行道路和路面标志的检测和识别。但是，VPGNet需要额外的灭点信息标注，会增加人工标注成本，同时无法解决地面语义目标尺度差异较大带来的检测难题。

发明内容

有鉴于此，本发明提供了一种基于分割与注意力机制的地面语义认知方法，能够保证地面语义认知过程中的实时性与准确性的平衡。

为实现上述目的，本发明的一种基于分割与注意力机制的地面语义认知方法，包括如下步骤：

步骤一：采用语义分割模型ERFNet作为骨干网络进行语义分割工作；

其中，ERFNet沿用编码-反编码的网络结构，ERFNet设有non-bottleneck-1d模块；

步骤二：在non-bottleneck-1d模块中加入注意力机制模块，新得到的模块为non-bottleneck-1d-att模块；

其中，所述注意力机制模块包括局部注意力与全局注意力；

所述局部注意力包括特征图的局部特征信息，从通道维度对特征图进行局部通道压缩；

全局注意力包括特征图的全局特征信息，从空间维度进行特征压缩，得到具有全局性感受野的特征向量，并且输出的通道数和输入的特征通道数相匹配；

步骤三：采用注意力蒸馏的方法对non-bottleneck-1d-att模块中不同尺度的注意力信息进行蒸馏学习；

步骤四：采用车道线数据集CULane或路面标志数据集ApolloScape集对蒸馏学习的ERFNet进行训练；对模型输出的概率图进行激活，并染色处理，完成地面语义认知。

其中，所述non-bottleneck-1d模块采用1×3卷积核与3×1卷积核代替了3×3卷积核，所述non-bottleneck-1d模块交错使用dilated convolution，来获取上下文信息进入下一层。

其中，所述步骤三中，将解码器中的注意力信息作为编码器中注意力信息的软目标，引导模型提取注意力信息。

其中，当进行地面语义分割时，所述步骤一中，所述语义分割模型ERFNet的损失函数采用权重交叉熵；

所述步骤三中，加入注意力蒸馏学习后，整个模型的损失函数为：

Loss＝λ₁Loss_seg+λ₂Loss_dis

其中，Loss_seg为分割部分的损失函数，为权重交叉熵函数，Loss_dis为注意力蒸馏的损失函数，为MAE函数，λ₁和λ₂为超参数；

所述步骤四中，采用路面标志数据集ApolloScape集对蒸馏学习的ERFNet进行训练。

其中，训练batch大小为8，训练40epoch；训练采用由Cityscapes数据集训练得到的预训练模型；优化器采用随机梯度下降，同时采用随机裁剪、随机翻转以及随机平移的数据增强方法；训练初始学习率大小为0.015，并采用学习率线性下降的训练策略。

其中，当只需要进行车道线检测的场景下，所述步骤一中，将每条车道线实例化进行车道线检测，使自动驾驶车辆辨别不同车道线；其中，在语义分割模型ERFNet的基础上增加车道线存在预测分支，预测各个预定位置上的车道线是否存在；所述语义分割模型ERFNet的损失函数采用权重交叉熵；

Loss＝λ₁Loss_seg+λ₂Loss_dis+λ₃Loss_exit

其中，Loss_seg为分割部分的损失函数，为权重交叉熵函数，Loss_dis为注意力蒸馏的损失函数，为MAE函数，Loss_exit为车道线存在预测的损失函数，为二值化交叉熵函数，λ₁、λ₂和λ₃超参数；

所述步骤四中，采用车道线数据集CULane数据集对蒸馏学习的ERFNet进行训练。

其中，所述步骤四中，根据分割模型输出的概率图按照设定规则提取点，在每条车道线对应的概率图每20行取响应值最高的一个点，并通过线性插值方法将每条车道线上提取出来的点进行拟合，得到对应的车道线曲线。

其中，所述步骤四中，训练bacth大小为12，训练30epoch，训练采用由CityScape数据集训练得到的预训练模型，优化器采用随机梯度下降，同时采用随机裁剪、随机翻转、随机平移和光照条件风格转换的数据增强方法，训练初始学习率大小为0.015，并采用学习率线性下降的训练策略。

其中，所述步骤四中，将模型进行量化，将浮点运算转换为int8运算，将量化后的模型部署在无人驾驶车辆的计算平台上，并将识别结果通过ROS通讯平台传输给规划控制端后处理部分，后处理部分完成对模型输出的概率图进行激活，并染色处理。

有益效果：

本发明首先选用了一个轻量级模型ERFNet，在确保实时性的前提下完成分割部分的工作。其次，本发明在轻量级的语义分割模型中引入了注意力机制，在不严重增加计算代价的前提下帮助轻量级模型更好地进行学习与收敛。同时，由于地面语义信息包含车道线与路面标记等尺度信息差异较大的目标，注意力机制模块包括局部注意力和全局注意力，帮助模型在不同尺度下提取局部特征和全局特征，从而缓解目标尺度差异较大的问题。本发明还对不同尺度的注意力信息进行蒸馏学习，在不增加推理代价的条件下提高模型准确性。

针对只需要进行车道线检测的场景，本发明在ERFNet的基础上添加车道线存在预测分支，帮助模型在复杂的车道线检测场景下同样可以保持较高的精度。因此，本发明可以较为准确地检测与识别车道线与路面标志，并通过引入注意力机制与注意力蒸馏学习的方法，从不同尺度下提取特征信息，缓解目标尺度差异大的问题。该发明可以保证地面语义认知过程中的实时性与准确性的平衡，具有极高的研究意义与价值。

附图说明

图1为本发明实施例1地面语义认知模型示意图；

图2为本发明车道线检测模型示意图；

图3为本发明注意力机制模块示意图；

图4为本发明系统算法流程图。

具体实施方式

下面结合附图并举实施实施例，对本发明内容进行详细描述。

实施例1

本发明提供了一种基于分割与注意力机制的地面语义认知方法，将地面语义认知看成分割问题，并在分割模型的基础上加入了注意力机制与注意力蒸馏学习，帮助模型缓解目标尺度差异较大带来的难题，在不过多提高计算代价的同时保持较高的识别准确率，本实施例在2080Ti显卡上识别速率可达100FPS。地面语义认知模型示意图如图1所示。

具体地，基于分割与注意力机制的地面语义认知方法的算法流程图如图4所示，具体包括如下步骤：

其中，ERFNet采用编码-解码的形式，通过下采样的编码形式提取特征信息，并通过反卷积的形式反编码得到语义分割的结果。

ERFNet设有non-bottleneck-1d模块，可以减少大约30％的参数量的同时不影响精度。

本实施例中，所述non-bottleneck-1d模块采用1×3卷积核与3×1卷积核代替了3×3卷积核，所述non-bottleneck-1d模块交错使用dilated convolution，来获取上下文信息进入下一层。

步骤二：在语义分割网络模型non-bottleneck-1d模块的基础上引入注意力机制模块，得到non-bottleneck-1d-att模块。

其中，注意力机制本质上是为了模仿人类观察物品的方式，帮助模型更有针对性地在特定区域提取有效的信息。

本发明的注意力机制模块包含了局部注意力机制模块和全局注意力机制模块，具体设计细节如图3所示。

局部注意力机制模块通过卷积操作对特征图进行局部通道压缩，从通道维度将H×W×C的特征图压缩成H×W×(C/r)的特征图，融合通道局部特征信息，使得模型可以更好的提取局部特征信息。同时，为了满足输出的通道数和输入的特征通道数相匹配的条件，会通过卷积操作将特征图大小还原为H×W×C。

全局注意力机制模块通过全局平均池化操作，从空间维度进行特征压缩，将H×W×C的特征图压缩成1×1×C的特征，得到具有全局性感受野的特征向量，从全局感受野融合与提取特征信息。

通过提取不同尺度下的注意力信息，可以缓解车道线、路面标志目标多尺度大小差距较大带来的检测难题，在不严重增加计算代价的前提下帮助轻量级模型更好地进行学习与收敛。

步骤三：采用注意力蒸馏的方法对non-bottleneck-1d-att模块中不同尺度的注意力信息进行蒸馏学习。

如图1所示，将解码器中的注意力信息de_att_1与de_att_2作为编码器中注意力信息en_att_1和en_att_1的软目标，引导模型编码器更好地编码信息，提取特征。因此，加入注意力蒸馏学习后，整个模型的损失函数为：

Loss＝λ₁Loss_seg+λ₂Loss_dis

其中，Loss_seg为分割部分的损失函数，为权重交叉熵函数，Loss_dis为注意力蒸馏的损失函数，为MAE函数。λ₁和λ₂为超参数。

步骤四：采用路面标志数据集ApolloScape集对蒸馏学习的ERFNet进行训练；

在ApolloScape数据集下，训练batch大小为8，epoch为40。

对模型输出率图进行激活，并染色处理，完成地面语义认知。

其中，本实施例采用Apollo Scape数据集对模型进行训练，Apollo Scape数据集为城市道路环境的路面标志数据集，训练集为103653张图片，分辨率为3384×2710。训练batch大小为8，训练40epoch；训练采用由Cityscapes数据集训练得到的预训练模型；优化器采用随机梯度下降，同时采用随机裁剪、随机翻转以及随机平移等数据增强方法；训练初始学习率大小为0.015，并采用学习率线性下降的训练策略。

将训练好的模型用测试集进行测试，在Apollo Scape数据集测试集下测试得到本实施例结果为mIOU＝44.69％。

本实施例还可以将模型进行量化，将浮点运算转换为int8运算，在不降低模型识别准确率的情况下进一步压缩模型的计算代价。将量化后的模型部署在无人驾驶车辆的计算平台上，并将识别结果通过ROS通讯平台传输给规划控制端后处理部分，后处理部分完成对模型输出的概率图进行激活，并染色处理。

可见，本实施例实现原理和效果为：

(1)采用轻量级的语义分割网络，可以在保证实时性的条件下实现地面语义认知。深度学习方法往往因为模型复杂度过大、计算量较高而导致模型推理过程无法满足实时性的需求。ERFNet设计了non-bottleneck-1d模块，可以减少大约30％的参数量的同时不影响精度。

(2)在轻量级的语义分割模型中引入了注意力机制，non-bottleneck-1d-att模块的注意力机制部分包括了局部注意力信息与全局注意力信息。局部注意力信息包括了特征图的局部特征信息，全局注意力信息包括了特征图的全局特征信息。注意力机制的引入可以帮助模型更好地提取不同尺度的全局信息和局部信息，缓解目标尺度差异较大的问题，在不严重增加计算代价的前提下帮助轻量级模型更好地进行学习与收敛。

(3)对注意力信息进行蒸馏学习。将解码器中的注意力信息作为编码器中注意力信息的软目标，引导模型更好地提取注意力信息。注意力蒸馏学习的引入只会小幅增加训练过程的计算量，但对模型推理过程的计算代价不会影响，所以可以使得模型在不增加推理代价的同时提高准确率。

实施例2

本实施例提供一种基于分割与注意力机制的车道线检测方法，在仅需要进行车道线检测的场景下使用。由于自动驾驶车辆在交通场景下会同时检测出多条车道线，该车道线检测模型将车道线实例化，用以帮助自动驾驶车辆区分不同车道线。同时，为了引导模型更好地进行车道线检测，本实施例会在分割模型的基础上增加车道线存在预测分支，预测各个预定位置上的车道线是否存在。模型如图2所示。

车道线检测模型的损失函数如下：

Loss＝λ₁Loss_seg+λ₂Loss_dis+λ₃Loss_exit

其中，Loss_seg为分割部分的损失函数，为权重交叉熵函数，Loss_dis为注意力蒸馏的损失函数，为MAE函数，Loss_exit为车道线存在预测的损失函数，为二值化交叉熵函数。λ₁、λ₂和λ₃超参数。

进一步地，车道线检测模型训练集采用CULane数据集，其中，CULane数据集为城市道路环境的车道线数据集，训练集为88880张图片，分辨率为1640×590；在CULane数据集下，训练batch大小为12，epoch为30。训练初始学习率大小为0.015，并采用学习率线性下降的训练策略。

进一步地，本发明会在模型输出的概率图上做后处理，输出车道线的最终检测结果。车道线的后处理部分的具体步骤为：根据分割模型输出的概率图按照一定规则提取点，在每条车道线对应的概率图每20行取响应值最高的一个点，并通过线性插值方法将每条车道线上提取出来的点进行拟合，得到对应的车道线曲线。在CULane数据集测试集下测试得到结果为F₁＝74.8％。

综上所述，本发明设计一种基于分割与注意力机制的地面语义认知方法，可以保证地面语义认知过程中的实时性与准确性的平衡。本发明采用轻量级的语义分割模型作为骨干网络，并通过引入注意力机制与注意力蒸馏学习的方法，引导模型从不同尺度的特征图在特定区域下提取更加有效的特征信息，从而缓解目标尺度差异大的问题。其中，注意力蒸馏学习不会增加模型推理过程中的计算代价，可以使得模型在不增加推理代价的同时提高准确率。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于分割与注意力机制的地面语义认知方法，其特征在于，包括如下步骤：

其中，所述注意力机制模块包括局部注意力与全局注意力；

2.如权利要求1所述的基于分割与注意力机制的地面语义认知方法，其特征在于，所述non-bottleneck-1d模块采用1×3卷积核与3×1卷积核代替了3×3卷积核，所述non-bottleneck-1d模块交错使用dilated convolution，来获取上下文信息进入下一层。

3.如权利要求1所述的基于分割与注意力机制的地面语义认知方法，其特征在于，所述步骤三中，将解码器中的注意力信息作为编码器中注意力信息的软目标，引导模型提取注意力信息。

4.如权利要求1-3任意一项所述的基于分割与注意力机制的地面语义认知方法，其特征在于，当进行地面语义分割时，所述步骤一中，所述语义分割模型ERFNet的损失函数采用权重交叉熵；

Loss＝λ₁Loss_seg+λ₂Loss_dis

5.如权利要求4所述的基于分割与注意力机制的地面语义认知方法，其特征在于，训练batch大小为8，训练40epoch；训练采用由Cityscapes数据集训练得到的预训练模型；优化器采用随机梯度下降，同时采用随机裁剪、随机翻转以及随机平移的数据增强方法；训练初始学习率大小为0.015，并采用学习率线性下降的训练策略。

6.如权利要求1-3任意一项所述的基于分割与注意力机制的地面语义认知方法，其特征在于，当只需要进行车道线检测的场景下，所述步骤一中，将每条车道线实例化进行车道线检测，使自动驾驶车辆辨别不同车道线；其中，在语义分割模型ERFNet的基础上增加车道线存在预测分支，预测各个预定位置上的车道线是否存在；所述语义分割模型ERFNet的损失函数采用权重交叉熵；

Loss＝λ₁Loss_seg+λ₂Loss_dis+λ₃Loss_exit

7.如权利要求6所述的基于分割与注意力机制的地面语义认知方法，其特征在于，所述步骤四中，根据分割模型输出的概率图按照设定规则提取点，在每条车道线对应的概率图每20行取响应值最高的一个点，并通过线性插值方法将每条车道线上提取出来的点进行拟合，得到对应的车道线曲线。

8.如权利要求6或7所述的基于分割与注意力机制的地面语义认知方法，其特征在于，所述步骤四中，训练bacth大小为12，训练30epoch，训练采用由CityScape数据集训练得到的预训练模型，优化器采用随机梯度下降，同时采用随机裁剪、随机翻转、随机平移和光照条件风格转换的数据增强方法，训练初始学习率大小为0.015，并采用学习率线性下降的训练策略。

9.如权利要求1所述的基于分割与注意力机制的地面语义认知方法，其特征在于，所述步骤四中，将模型进行量化，将浮点运算转换为int8运算，将量化后的模型部署在无人驾驶车辆的计算平台上，并将识别结果通过ROS通讯平台传输给规划控制端后处理部分，后处理部分完成对模型输出的概率图进行激活，并染色处理。