CN112418227A

CN112418227A - 基于双自注意力机制的监控视频卡车分割方法

Info

Publication number: CN112418227A
Application number: CN202011169502.9A
Authority: CN
Inventors: 隋凯华; 同磊; 段娟; 肖创柏
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2021-02-26
Anticipated expiration: 2040-10-28
Also published as: CN112418227B

Abstract

本发明公开了基于双自注意力机制的监控视频卡车分割方法，本方法充分利用特征图的空间信息与通道信息，采用EM算法减少计算量，同时在分割效果上提升性能，实现目标的像素级别分割。将本方法运用于重型卡车数据集上，对比其他方法，平均分割准确率提高了2.07％；将本方法运用于公开数据集Pascal VOC 2012上，平均分割准确率也高于其他方法，体现了本方法的优越性。本方法提出的空间注意力模块中融合了全局上下文信息，减少了空间维度的信息损失；通道注意力模块采用低秩重建的方式重构特征图，减少重复无用特征图的干扰。实验证明，双自注意力机制在卡车分割上精度上有一定提升。

Description

基于双自注意力机制的监控视频卡车分割方法

技术领域

本发明涉及一种基于双自注意力机制的监控视频卡车分割方法，属于监控视频领域，具体涉及卡车目标识别与分割方法。

背景技术

智能监控相关技术发展日新月异，智能视频监控系统普遍应用，催化了图像语义分割的发展，使其成为计算机视觉领域的研究热点，语义分割可以实现交通场景的像素级别标注。

早期的传统机器学习算法如随机决策森林等方法。Shotton等人使用了基于纹理特征的随机决策森林算法。另一种用于解决语义分割问题的方法是使用概率图模型。该方法首先利用参数统计方法根据几个简单的特征对图像进行过度分割，再利用马尔可夫随机场(MRF)方法，通过提取复杂的手工特征，把这些超像素分为不同的几何类。Gonfaus等人使用基于概率图模型的条件随机场构建系统。

随着计算机技术的发展，GPU算力显著提升，深度学习的方法在图像处理方面相较于传统方法效果的明显提升，越来越多的卷积神经网络框架涌现出来。基于全卷积网络(FCN)的方法利用了在大尺度数据上预先训练的分类网络的强大的反容量特征。提出了几种模型变体，以增强多尺度的上下文扩展。例如DeeplabV2利用atrous spatialpyramidpooling(ASPP)嵌入上下文信息，该信息由不同扩展率的并行扩展卷积组成。DeeplabV3使用图像级别特性扩展了ASPP，以进一步捕获全局上下文。Pspnet提出了一个金字塔池模型来收集不同尺度的上下文信息，GCN采用大核卷积解耦的方法，获得大的特征图接受域，捕获远距离信息。另一类采用通过FCN改进的U-Net为基础，结合了高级特性和中级特性的优点。RefineNet利用拉普拉斯图像金字塔，明确地捕捉下采样过程中可用的信息，并从粗到细输出预测。DeeplabV3+在DeeplabV3上增加了一个解码器，以细化分割结果，特别是沿着对象边界。

注意力机制广泛应用于各种任务，如机器翻译、视觉回答问题和视频分类。Non-local首先采用自注意力机制作为计算机视觉任务的模板，如视频分类、目标检测和实例分割。PSANet通过一个预测的注意力图来为每个位置聚集上下文信息。A2net提出了双注意力块来从图像的整个时空空间中分布和收集信息全局特征。DANet同时应用了空间和通道的方法来收集特征图的周围信息，这比非局部方法花费更多的计算和内存。

尽管深度学习的方法使得语义分割效果得到巨大提，随着网络深度加深，分辨率降低，空间信息损失，上下文信息缺失。本发明提出的空间注意力模块中融合了全局上下文信息，减少了空间维度的信息损失；通道注意力模块采用低秩重建的方式重构特征图，减少重复无用特征图的干扰。实验证明，双自注意力机制在卡车分割上精度上有一定提升。

发明内容

本发明旨在解决以上问题，提出了一种基于双自注意力网络和期望最大化算法(Expectation-maximization algorithm，简称EM算法)监控视频卡车分割方法。本发明可以充分利用空间与通道信息，在分类效果上提升性能。

为了达到上述目的，本发明实现步骤如下：

一种基于双自注意力网络和EM算法的监控视频卡车分割方法，本方法充分利用特征图的空间信息与通道信息，采用EM算法减少计算量，同时在分割效果上提升性能，实现目标的像素级别分割。具体实现步骤如下：

(1)图像数据获取及标注处理；

(1a)利用监控摄像头SDK，获取采集到的待分割的原始道路场景图像；

(1b)从监控视频中获取原始的道路场景图，采用手工标注方式标注出卡车的位置。

(1c)根据待分割的原始道路场景图像和预设的场景语义分割模型获得对应的预测语义分割图像。

(2)模型构建与训练

训练模型由三部分组成。第一部分采用Resnet101为骨干网络(backbone)实现特征提取。第二部分是通道自注意力模块，该模块将第一部分得到的特征图reshape成N×C(其中N＝65×65)后，与预设的通道基相乘，之后通过softmax层获得通道自注意力图Z1，将Z1与通道基相乘更新特征图。第三部分是空间自注意力模块，该模块分为两个分支，上分支用于计算全局上下文信息，下分支用于计算空间注意力信息；将第一部分得到的特征图输入两个分支，上分支将经由自适应全局平均池化层获得特征图的全局上下文信息，下分支将特征图reshape成N×C(其中N＝65×65)后，与预设的空间基相乘，之后通过softmax层获得空间自注意力图Z2，将Z2、通道基和全局上下文信息相乘更新特征图。通道自注意力图与通道基、空间自注意力图与空间基的更新过程中借鉴EM算法的思想，加速自注意力网络的收敛。最后将第一、二、三部分的特征图融合成，输入全连接网络获得最终的分割结果。

训练过程中，将步骤(1)获得的原始图像和语义分割图像输入到网络训练即可。

(3)图像分割结果展示与分割图像显示

运用预测值与真实值进行比对，从而得到分割结果，计算出分割准确率，并将分割图像实时显示。

实验表明，将本方法运用于重型卡车数据集上，对比其他方法，平均分割准确率提高了2.07％；将本方法运用于公开数据集Pascal VOC 2012上，平均分割准确率也高于其他方法，体现了本方法的优越性。

本方法与现有算法相比，其显著优点在于：

1、采用双线性插值方法对图像进行处理，避免过多使用池化操作降低图像维度，减少了图像的信息缺失；

2、采用EM算法迭代更新自注意力图与解集合，将注意力图逐像素的全图计算转成注意力图与解集合的映射运算，解集合的低维度会大大降低运算量；

3、采用双自注意力机制，有效解决单注意力机制(EMAnet)在空间或通道维度上的信息丢失，提高分割准确率；

4、在空间注意力模块中采用全局上下信息与空间自注意力信息融合，保证提取更多的空间信息，提高分割精度。

附图说明

图1是本发明的流程图；

图2是本发明的总体训练模型结构；

图3是通道自注意力模型结构；

图4是空间自注意力模型结构；

图5a是原始道路场景图像；

图5b是原始道路场景图像进行预测，得到的预测语义分割图像。

图6a是PASCALVOC 2012数据集图像；

图6b是PASCAL VOC 2012数据集图像进行预测，得到的预测语义分割图像；

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述。

下面结合附图对本发明做进一步的描述。参照附图1，本发明的实现步骤如下：

步骤1，数据采集、处理

1a)原始视频通过监控摄像头的JDK采集

监控数据有两种用途，一种是对数据进行筛选、标注等处理，制作数据集；另一种是将采集的数据输入神经网络，获得语义分割图像。

1b)数据处理

将两个数据集中的数据首先标准化，

其次，随机尺寸缩放，缩放比例是0.5,0.75,1.0,1.25,1.5,1.75,2.0中随机任选一个，缩放方式是双线性插值；

再次，填充，数据填充至尺寸大小为513×513，原图用0填充，标签用255填充；

最后，裁剪，将数据尺寸裁剪尺寸为513×513。

步骤2，模型构建、训练

2a)如图2所示，将数据集原始数据(Data)和标签(Label)输入Resnet101骨干网络进行特征提取，使用预训练的模型(Resnet101)提取图像信息。

2b)特征图输入通道注意力模块(EM-Channel-Attention)与空间注意力模块(EM-Space-Attention)，获得通道与空间注意力图。

通道注意力模块，如图3所示。Resnet101骨干网络提取的特征图尺寸为2048×65×65，2048种通道中存在大量重复的特征图。因此首先将特征图image输入卷积层，其卷积核为1，步长为1，输出通道数为512，经过卷积层后，image尺寸为512×65×65。其次将image特征图reshape成N×C(其中N＝65×65)，预设通道基mup尺寸为(1，512，64)，mup初始化方式为随机赋值。Z是矩阵mup与image相乘得来的，Z经过一个Softmax层获取各层的概率值，

Z＝softmax(μX(α^t-1)^T)，

其中μ为神经网络的超参数，用于控制网络对Z的贡献程度。mup与注意力图Z^～迭代更新过程引入EM算法。EM算法中的E步，即利用对隐藏变量的现有估计值，计算其最大似然估计值；M步，即最大化在E步上求得的最大似然值来计算参数的值。E步更新注意力图，即

M步更新通道基，即mup＝image×Z^～，迭代次数为3。最后特征图image更新，

image＝mup×Z^～，

image尺寸恢复至512×65×65，image输入卷积正则化层，卷积核为1，步长为1，输出通道数为512，之后输入Relu激活层。

空间注意力模块分为两个分支，如图4所示，上分支作用是计算全局上下文信息，右分支作用是计算空间注意力信息。上分支中image输入卷积层，其卷积核为1，步长为1，输出通道数为512，输入自适应全局平均池化层，池化尺寸为1×1，获得全局的上下文信息image^～，更新image_global＝image+image～，image_global输入卷积层，其卷积核为1，步长为1，通道数为21×21(即s×s)。右分支中image输入自适应全局平均池化层，池化尺寸为21×21，其次将image特征图reshape成N×C(其中N＝21×21)，预设通道基mus尺寸为(1，21×21，21)，mus初始化方式为随机赋值。F是矩阵mus与image相乘得来的，F经过一个Softmax层获取各层的概率值，

其中β为神经网络的超参数，用于控制网络对F的贡献程度。mus与注意力图F^～迭代更新过程引入EM算法。E步更新注意力图，即

M步更新通道基，即mus＝image×F^～，迭代次数为3。最后特征图image更新，

image＝mus×F^～×image_global，

最后将特征图与空间注意力模块、通道注意力模块的输出按通道维度拼接成新的image_合，image_合输入3卷积层，第一层卷积核为1，步长为1，输出通道数为512；第二层卷积核为3，步长为1，输出通道数为256，Dropout为0.1；第三层卷积核为1，步长为1，输出通道数为Nclass(Nclass是分割类别数，Pascal VOC 2012数据集数据集上Nclass为21，人工标注的卡车数据集上Nclass为2)。

训练网络。使用批量大小为16，随机梯度下降优化算法(SGD)，迭代次数为30000。冲量momentum设置为0.9，权值衰减delay设置为0.0001，最初设定一个基地学习速率L为0.001，并且会不断减少，

是更新的学习速率，I是当前迭代器的个数。使用标准偏差为

的零均值高斯随机变量初始化所有卷积层，其中为fan_in输入单元数，fan_out为权重张量中的输出单元数。所有卷积层的偏差初始化为零。

空间基mus与通道基mup更新公式如下

其中，size1、size2表示空间基、通道基的个数。mus、mup不进行反向梯度传播。

通道注意力模块的损失函数为Loss₁，空间注意力模块的损失为Loss₂，Loss₁跟Loss₂均为SoftMax CrossEntropy损失函数所定义，公式如下：

其中，i∈{1,2,3…,21}，

为标签图像中属于第i类的概率值，即真实分布值，y_i为语义分割模型输出预测属于第i类的概率值，即预测分布值，y由SoftMax函数定义，如下图所示

其中，j∈{1,2,3…,21}。最终训练网络的损失函数为Loss_合，如下公式

步骤3，图像分割结果

运用预测值与真实值进行比对，从而得到分割结果，计算出准确率。

步骤4，输出语义分割图像

将网络预测出来的图像结果全屏显示。

实验以及分析

1.实验条件

本发明的硬件测试平台是：处理器Intel(R)Xeon(R)Gold i7-8700k CPU，主频为3.70GHz，内存16GB，显卡为GeForce RTX 2070；软件平台为Windows 10操作系统和PyCharm2018。编程语言是python，使用pytorch深度学习框架来实现网络结构。

2.实验数据

本发明的性能评价主要用到两个数据集。一个是Pascal VOC 2012数据集，另一个是人工标注的卡车监控视频照片。

在人工标注的数据集中包含了重装卡车、马路背景两类的物体像素标注。整个数据集被划分为两个子集：500条训练集、100条验证集。

在Pascal VOC数据集中包含了汽车、建筑、动物、飞机、火车、等21种类别的物体像素标注，其中背景也被标注于数据集中，但其不属于这先前提及的21种类别。整个数据集被划分为两个子集：1464条训练集、1449条验证集。

3.性能比较

本发明用到的三个现有技术对比的方法：

PSPNet来自文献Zhao H,Shi J,Qi X,et al.Pyramid Scene Parsing Network[J].2016.

FCN来自文献Evan Shelhamer,Jonathan Long,Trevor Darrell.FullyConvolutional Networks for Semantic Segmentation[M].IEEE Computer Society,2017.

EMAnet来自文献Li X,Zhong Z,Wu J,et al.Expectation-MaximizationAttention Networks for Semantic Segmentation[J].2019.

表1

从表1可以看出，在人工标注的重型卡车数据集上，本发明提出的方法，其效果要优于其他方法。其中，相比于仅使用通道注意力的EMAnet，平均分割准确率提高了2.07％，图5b为人工标注卡车数据集的分割效果图。

表2

为了验证模型的可拓展性，在数据集Pascal VOC 2012上重新训练模型。从表2中可以看出，本发明提出的方法，其效果要优于其他方法。另图6b为数据集Pascal VOC 2012的分割效果图。

综上所述，本发明提出的一种基于双自注意力机制的卡车检测分割方法，通过引入通道注意力信息、空间自注意力信息和全局上下文信息改进单一的全连接层，有效的处理分割边界不明确的问题。引入双注意力机制，减少特征图重建过程的数据丢失。实验结果表明，本发明技术具有较高的分割精度。

Claims

1.基于双自注意力机制的监控视频卡车分割方法，其特征在于：本方法充分利用特征图的空间信息与通道信息，采用EM算法减少计算量，同时在分割效果上提升性能，实现目标的像素级别分割；具体实现步骤如下：

(1)图像数据获取及标注处理；

(1b)从监控视频中获取原始的道路场景图，采用手工标注方式标注出卡车的位置；

(1c)根据待分割的原始道路场景图像和预设的场景语义分割模型获得对应的预测语义分割图像；

(2)模型构建与训练

训练模型由三部分组成；第一部分采用Resnet101为骨干网络实现特征提取；第二部分是通道自注意力模块，该模块将第一部分得到的特征图reshape成N×C后，与预设的通道基相乘，之后通过softmax层获得通道自注意力图Z1，将Z1与通道基相乘更新特征图；第三部分是空间自注意力模块，该模块分为两个分支，上分支用于计算全局上下文信息，下分支用于计算空间注意力信息；将第一部分得到的特征图输入两个分支，上分支将经由自适应全局平均池化层获得特征图的全局上下文信息，下分支将特征图reshape成N×C后，与预设的空间基相乘，之后通过softmax层获得空间自注意力图Z2，将Z2、通道基和全局上下文信息相乘更新特征图；通道自注意力图与通道基、空间自注意力图与空间基的更新过程中借鉴EM算法的思想，加速自注意力网络的收敛；最后将第一、二、三部分的特征图融合成，输入全连接网络获得最终的分割结果；

训练过程中，将步骤(1)获得的原始图像和语义分割图像输入到网络训练即可；

(3)图像分割结果展示与分割图像显示

2.根据权利要求1所述的基于双自注意力机制的监控视频卡车分割方法，其特征在于：原始视频通过监控摄像头的JDK采集，监控数据有两种用途，一种是对数据进行筛选、标注等处理，制作数据集；另一种是将采集的数据输入神经网络，获得语义分割图像。

3.根据权利要求1所述的基于双自注意力机制的监控视频卡车分割方法，其特征在于：数据处理中，将两个数据集中的数据首先标准化，

最后，裁剪，将数据尺寸裁剪尺寸为513×513。

4.根据权利要求1所述的基于双自注意力机制的监控视频卡车分割方法，其特征在于：将数据集原始数据和标签输入Resnet101骨干网络进行特征提取，使用预训练的模型提取图像信息；特征图输入通道注意力模块与空间注意力模块，获得通道与空间注意力图。