CN111639692A

CN111639692A - 一种基于注意力机制的阴影检测方法

Info

Publication number: CN111639692A
Application number: CN202010446473.XA
Authority: CN
Inventors: 陈啟超; 黄刚; 张敏
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-05-25
Filing date: 2020-05-25
Publication date: 2020-09-08
Anticipated expiration: 2040-05-25
Also published as: CN111639692B

Abstract

本发明公开了一种基于注意力机制的阴影检测方法，包括：获取用于训练系统的待处理公用阴影数据集；从摄像头设备或本地硬盘上获取待检测阴影图像；公用阴影数据集的预处理并获得对应的训练集与测试集；待检测阴影图像的预处理；系统核心神经网络各模块的搭建与融合，组成基于注意力机制的卷积神经网络；计算网络预测与标签损失，根据损失调整网络参数；深度卷积神经网络的完全训练并向其输入预处理的待检测阴影图像；输出阴影检测结果,对各像素进行阴影属性分类，完成自定义数据的阴影检测流程。本发明增加了阴影特征的提取能力，降低了语义间的关联性，提升了检测系统的泛化性与高效性，使得阴影检测结果更加精确。

Description

一种基于注意力机制的阴影检测方法

技术领域

本发明通过研究阴影模型与注意力模型，结合残差卷积神经网络，提出了一种检测阴影的有效方法。增加了阴影特征的提取能力，提升了检测系统的泛化性与高效性，使得阴影检测结果更加精确，属于阴影检测领域。

背景技术

在图像识别或语义分割等计算机视觉分类任务中，算法需要首先提取图像或视频中的特征，深度学习中通常使用卷积神经网络进行卷积操作，逐像素处理特征语义信息，寻找与标签的似然性。因此，图像的语义构成与各像素间的关联性决定着卷积操作的效率与复杂度。

文件：Hoeim D.Single-image shadow detection and removal using pairedregions[C]//Computer Vision and Pattern Recognition.Colorado Springs:IEEE,2011:2033–2040指出，阴影作为无关背景语义，其中包含的可用关键信息较少，对于分类任务起不到相关作用，但由于其具备与目标前景像素紧密相连且形状近似的特点，通常会对计算机视觉任务的顺利进行产生影响。同时在灰度空间中，阴影对于目标像素语义具备更高的混淆性，导致卷积神经网络不易发掘出两者间的显著区别，从而降低算法训练与预测的准确性与鲁棒性。因此，在常见计算机视觉任务，如智慧驾驶、人脸检测、目标跟踪与识别、姿态估计中，图像的阴影检测工作显得格外重要，一个高效、全面、可泛化的阴影检测模型会提升整个任务的工作效率与能力上限。

目前已有部分学者提出了阴影检测算法，但其中大部分算法没有考虑到注意力机制在此类任务中的适用性以及其本身的高效性，因此最终检测效果往往达不到预期效果。

Vicente等人在Vicente T F Y,Yu C P,Samaras D.Single image shadowdetection using multiple cues in a supermodular MRF[C]//British MachineVision Conference.Bristol:British Machine Vision Association,2013:1–12中提出支持向量机检测算法，构建SVM分类器对阴影进行有效分类；Maryam等发表文件Maryam G,Fatimah K,Abdullah L N.Shadow detection using color and edge information[J].Journal of Computer Science,2013,9(11):1575-1588，提出边缘信息检测算法，使用算子提炼图像中的低阶边缘信息，获取前景与阴影的边缘，从而达到分类效果；Hosseinzadeh等在文章Hosseinzadeh S,Shakeri M,Zhang H.Fast shadow detection from a singleimage using a patched convolutional neural network[C]//2018IEEE/RSJInternational Conference on Intelligent Robots and Systems(IROS).IEEE,2018:3124-3129中提出神经网络检测算法，利用卷积神经网络对图像进行卷积处理，获取高阶特征，大大提升准确度；Nguyen等提出Nguyen V,Vicente Y,Tomas F,et al.Shadowdetection with conditional generative adversarial networks[C]//Proceedings ofthe IEEE International Conference on Computer Vision.2017:4510-4518，使用生成对抗网络检测算法，使用生成器和判别器处理图像，准确度提升的同时却大大增加了模型的复杂程度。

文件：Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Advances in neural information processing systems.2017:5998-6008使用注意力机制，通过对像素级别的语义进行权值分配，提取目标前景最为显著的特征，引导算法集中处理这些首要目标特征，降低前景与背景的关联性，达到提高模型的迭代速度与准确性的目的。因此，注意力机制适用于阴影检测任务，其独有特性，对于图像中阴影的发掘具备较高的识别灵敏度。

发明内容

发明目的：为了克服阴影作为无关背景语义，对于分类任务起不到相关作用，通常会对计算机视觉任务的顺利进行产生影响的问题，本发明提供一种基于注意力机制的阴影检测方法，使用预训练的残差网络，结合并行连接与密集连接卷积神经网络的设计思路，通过注意力机制提升系统对于阴影的识别能力，将系统的感受野从局部扩大到全局，实现阴影检测的高效性、可靠性。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于注意力机制的阴影检测方法，包括以下步骤：

步骤1)，获取用于训练系统的待处理公用阴影数据集。

步骤2)，从摄像头或本地硬盘获取待检测图像。

步骤3)，预处理用于训练系统的公用阴影数据集并获得对应的训练集与测试集。

步骤4)，预处理待检测图像。

步骤5)，核心神经网络各模块的搭建与融合，组成基于注意力机制的卷积神经网络。

所述步骤5核心神经网络各模块的搭建，包括预训练卷积神经网络Resnet50的搭建与微调、并行卷积模块的搭建、注意力模块CBAM的改进与搭建、上采样与输出模块的搭建：

所述预训练卷积神经网络Resnet50包括：1个7×7卷积层，通道数为64，步数为2。1个3×3最大池化层，步数为2。3个重复的残差卷积块，每个卷积块包括1个通道数为64的1×1卷积层、1个通道数为64的3×3卷积层、1个通道数为256的1×1卷积层。4个重复的残差卷积块，每个卷积块包括1个通道数为128的1×1卷积层、1个通道数为128的3×3卷积层、1个通道数为512的1×1卷积层。6个重复的残差卷积块，每个卷积块包括1个通道数为256的1×1卷积层、1个通道数为256的3×3卷积层、1个通道数为1024的1×1卷积层。3个重复的残差卷积块，每个卷积块包括1个通道数为512的1×1卷积层、1个通道数为512的3×3卷积层、1个通道数为2048的1×1卷积层以及各残差卷积块间用于下采样的卷积层。

所述并行卷积模块包括两类残差卷积模块，记为第一类残差卷积模块、第二类残差卷积模块。

所述第一类残差卷积模块将形状为(n,c,x,y)的特征图顺序输入5个卷积层，其中n为批量大小，c为特征图通道数，x和y表示特征图尺寸，再将输出结果与原始特征图相加，5个卷积层分别为通道数为c的3×3卷积层、通道数为c的5×5卷积层、通道数为2c的5×5卷积层、通道数为4c的5×5卷积层、通道数为c的1×1卷积层，使用激活函数Relu优化，所述Relu激活函数为Relu(q)＝max(0,q)，其中q为单个神经元的加权求和值。

所述第二类残差卷积模块将形状为(n,c,x,y)的特征图顺序输入5个卷积层，其中n为批量大小，c为特征图通道数，x和y表示特征图尺寸，再将输出结果与原始特征图相加。5个卷积层分别为通道数为4c的1×1卷积层、通道数为4c的3×3卷积层、通道数为2c的3×3卷积层、通道数为c的3×3卷积层、通道数为c的3×3卷积层，使用激活函数Relu优化。

所述注意力模块CBAM包括空间域注意力生成模块SAM、空间域注意力生成模块CAM和注意力融合模块。

空间域生成模块的计算流程：

其中，M_s(F)为空间域注意力矩阵，

为空间域平局池化生成矩阵，

为空间域最大池化生成矩阵，AvgPool、MaxPool和Sigmoid分别代表平均池化操作、最大池化操作和Sigmoid转化，f^7×7为卷积核尺寸为7×7的卷积操作。

通道域生成模块的计算流程：

其中，M_c(F)为通道域注意力矩阵，

为通道域平局池化生成矩阵，

为通道域最大池化生成矩阵，AvgPool、MaxPool和Sigmoid分别代表平均池化操作、最大池化操作和Sigmoid转化，MLP为一种多层感知机。

注意力融合模块的计算流程：

F_Attention＝F×M_s(F)M_c(F×M_s(F)) (3)

其中，F_Attention为融合注意力的新特征图，M_s(F)为空间域注意力矩阵，M_c(F)为通道域注意力矩阵。

所述注意力模块CBAM的改进包括改进空间域生成模块和改进注意力融合模块，

其中所述改进空间域生成模块，具体为在CBAM空间域生成模块添加通道数为1的卷积层，与原有平均池化、最大池化结果连接再输入7×7降维卷积层，输出空间域注意力矩阵：

改进后的空间域生成模块的计算流程：

其中，M_s(F)为空间域注意力矩阵，

为空间域平局池化生成矩阵，

为空间域最大池化生成矩阵，

为空间域卷积生成矩阵，AvgPool、MaxPool和Sigmoid分别代表平均池化操作、最大池化操作和Sigmoid转化，f^7×7为卷积核尺寸为7×7的卷积操作，Conv为一种目标通道数为1的卷积操作。

所述改进注意力融合模块，具体为在原有注意力融合模块开始处添加降维卷积模块，降维卷积模块由3×3卷积层、批量归一化层组合而成。

改进后的注意力融合模块的计算流程：

其中，F_Attention为融合注意力的新特征图，M_s(F)为空间域注意力矩阵，M_c(F)为通道域注意力矩阵，f^3×3为卷积核为3的卷积操作。

所述上采样与输出模块，包括1个3×3的通道数为64的卷积层、一个4倍上采样双线性插值转置卷积层、一个Sigmoid激活函数。

步骤6)，计算网络预测与标签的损失，根据损失调整网络参数，损失使用FocalLoss损失函数进行计算，

FocalLoss损失函数：

其中，α取0.25，γ取2，L_fl为损失值，y为标签，y′为预测值。

根据损失调整网络参数，其中网络优化方法使用随机梯度下降，初始学习率为0.01，学习率衰减周期为100步，训练迭代步数为2000步。

步骤7)，深度卷积神经网络的完全训练并向其输入步骤4)得到的预处理待检测阴影图像。

步骤8)，输出阴影检测结果,对各像素进行阴影属性分类。

优选的：所述步骤1)获取用于训练系统的待处理公用阴影数据集，公用阴影数据集中每例数据包含彩色原图与黑白标注图两张图像。。

优选的：公用阴影数据集包括SBU、UCF两个公用阴影数据集，其中SBU数据集包含4089例训练数据与638例测试数据，UCF数据集包含245例测试数据。

优选的：所述步骤3预处理用于训练系统的公用阴影数据集，其具体过程包括如下步骤：

步骤31)，对步骤1获得的数据集训练数据与测试数据进行随机裁剪。

步骤32)，对步骤31获得的数据集训练数据进行图像增广，增广模式为图像的水平或垂直镜像翻转。

优选的：步骤31)中的裁剪大小为320×320。

优选的：针对数据集的裁剪与增广操作，为数据集中每例数据彩色原图与黑白标注图的同步操作。

优选的：所述步骤4预处理待检测图像，其预处理过程具体为针对图像的采样过程，采样阈值为320×320，采样方法为双线性插值法。

若图像长、宽皆大于320像素，下采样图像至320×320。

若图像长、宽皆小于320像素，上采样图像至320×320。

若图像320介于图像长、宽数值，采样图像至320×320。

若图像长、宽皆为320像素，不对图像进行采样操作。

本发明相比现有技术，具有以下有益效果：

本发明增加了阴影特征的提取能力，降低了语义间的关联性，提升了检测系统的泛化性与高效性，使得阴影检测结果更加精确。

附图说明

图1为并行卷积模块结构图。

图2为本发明的流程图。

图3为阴影检测网络的结构图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种基于注意力机制的阴影检测方法，如图1所示，包括以下步骤：

步骤1)，获取用于训练系统的待处理公用阴影数据集。其数据集包括SBU、UCF两个公用阴影数据集，其中SBU数据集包含4089例训练数据与638例测试数据，UCF数据集包含245例测试数据，每例数据包含彩色原图与黑白标注图两张图像。

步骤2)，从摄像头或本地硬盘获取待检测图像。

步骤3)，预处理用于训练系统的阴影数据集并获得对应的训练集与测试集。

其具体过程包括如下步骤：

步骤31)，对步骤1获得的数据集训练数据与测试数据进行随机裁剪，裁剪大小为320×320。

步骤32)，对步骤32获得的数据集训练数据进行图像增广，增广模式为图像的水平或垂直镜像翻转，增广规模为2倍。

在上述预处理阶段中，所有针对数据集的裁剪与增广操作，为数据集中每例数据彩色原图与黑白标注图的同步操作。

步骤4)，预处理待检测图像。

其预处理过程具体为针对图像的采样过程。采样阈值为320×320，采样方法为双线性插值法。

若图像长、宽皆大于320像素，下采样图像至320×320。

若图像长、宽皆小于320像素，上采样图像至320×320。

若图像320介于图像长、宽数值，采样图像至320×320。

若图像长、宽皆为320像素，不对图像进行采样操作。

核心神经网络各模块的搭建，包括预训练卷积神经网络Resnet50的搭建与微调、并行卷积模块的搭建、注意力模块CBAM的改进与搭建、上采样与输出模块的搭建。

预训练卷积神经网络Resnet50的优化与调整：

对于原有Resnet50网络，去除最后的全连接层和全局池化层，并使用已在Imagenet数据集上训练完成的Resnet50网络已有参数，优化后的网络包括：1个7×7卷积层，通道数为64，步数为2。1个3×3最大池化层，步数为2。3个重复的残差卷积块，每个卷积块包括1个通道数为64的1×1卷积层、1个通道数为64的3×3卷积层、1个通道数为256的1×1卷积层。4个重复的残差卷积块，每个卷积块包括1个通道数为128的1×1卷积层、1个通道数为128的3×3卷积层、1个通道数为512的1×1卷积层。6个重复的残差卷积块，每个卷积块包括1个通道数为256的1×1卷积层、1个通道数为256的3×3卷积层、1个通道数为1024的1×1卷积层。3个重复的残差卷积块，每个卷积块包括1个通道数为512的1×1卷积层、1个通道数为512的3×3卷积层、1个通道数为2048的1×1卷积层以及各残差卷积块间用于下采样的卷积层。

并行卷积模块的搭建与定义：

Resnet50网络具备高效的特征提取能力，随着网络深度的增加，特征图通道数增加，但特征图尺寸随之减小，有利于高层次特征的提取。考虑到语义分割任务中图像尺寸的变化会导致像素级别特征的提取精度降低，结合并行网络的设计思路，根据Resnet50各残差块形状设计两类对应的残差卷积模块，从不同的尺度维度和感受野获取图像更多特征，这两类残差卷积模块与Resnet50残差块并行工作，组成并行卷积模块Parallel Block。

第一类残差卷积模块将形状为(n,c,x,y)的特征图顺序输入5个卷积层，其中n为批量大小，c为特征图通道数，x和y表示特征图尺寸，再将输出结果与原始特征图相加。5个卷积层分别为通道数为c的3×3卷积层、通道数为c的5×5卷积层、通道数为2c的5×5卷积层、通道数为4c的5×5卷积层、通道数为c的1×1卷积层，各模块间使用激活函数Relu优化，所述Relu激活函数为Relu(q)＝max(0,q)，其中q为单个神经元的加权求和值。首先将特征图拓展至更高的维度进行特征提取，再逐步通过卷积层降维，压缩高维特征，精炼图像信息，最后利用残差连接，避免网络退化。本模块的作用在于提取并行的Resnet50残差块在这一层次无法提取到的高维特征，达到提前获取更多层次信息的作用。

第二类残差卷积模块发挥尺度放大作用，将形状为(n,c,x,y)的特征图顺序输入5个卷积层，其中n为批量大小，c为特征图通道数，x和y表示特征图尺寸，再将输出结果与原始特征图相加。5个卷积层分别为通道数为4c的1×1卷积层、通道数为4c的3×3卷积层、通道数为2c的3×3卷积层、通道数为c的3×3卷积层、通道数为c的3×3卷积层，各模块间使用激活函数Relu优化。利用更大的5×5卷积核，为模型提供更大的感受野，降低了卷积核大小固定带来的视野局限性，有利于获取更多的全局信息。放大感受野同时会为注意力模块提供更多非局部信息，使得注意力的生成更加准确。

上述两类残差卷积模块与原始残差卷积网络Rsenet50的残差块并行独立工作，组成并行卷积模块Parallel Block。

注意力模块CBAM的改进与搭建：

注意力模块CBAM是一种在计算机视觉任务中可靠的注意力机制算法，具备简单的算法结构与可观的实际效果。CBAM结合了卷积神经网络的空间和通道，为不同注意域的图像与特征图生成各自的注意力，引导模型更高效地区分语义信息，注意力模块CBAM包括空间域注意力生成模块SAM、空间域注意力生成模块CAM和注意力融合模块。

空间域生成模块的计算流程：

其中，M_s(F)为空间域注意力矩阵，

为空间域平局池化生成矩阵，

通道域生成模块的计算流程：

其中，M_c(F)为通道域注意力矩阵，

为通道域平局池化生成矩阵，

注意力融合模块的计算流程：

F_Attention＝F×M_s(F)×M_c(F×M_s(F)) (3)

结合本文设计模型实际情况与模块间连接需求，需要在CBAM原本基础上做出一些改进。

所述注意力模块CBAM的改进包括改进空间域生成模块和改进注意力融合模块。其中所述改进空间域生成模块，结合并行卷积模块Parallel Block的并行连接思想与压缩特征的能性，具体为在CBAM空间域生成模块添加通道数为1的卷积层，与原有平均池化、最大池化结果连接再输入7×7降维卷积层，输出空间域注意力矩阵。

改进后的空间域生成模块的计算流程：

其中，M_s(F)为空间域注意力矩阵，

为空间域平局池化生成矩阵，

为空间域最大池化生成矩阵，

所述改进注意力融合模块，由于并行卷积模块Parallel Block的输出由三个残差卷积模块输出的特征图基于通道连接而成，之后再输入注意力生成模块CBAM，而基于通道连接后的特征图往往具备更高的通道数，具体为在原有注意力融合模块开始处添加降维卷积模块，降维卷积模块由3×3卷积层、批量归一化层组合而成。

改进后的注意力融合模块的计算流程：

改进后的注意力生成模块conv-CBAM由降维卷积模块、原始的通道域生成模块和改进的空间域生成模块组成。

上采样与输出模块，包括1个3×3的通道数为64的卷积层、一个4倍上采样双线性插值转置卷积层、一个Sigmoid激活函数，此模块搭建在模型的最后，用于输出模型的预测结果。

考虑到Resnet50具有四个不同维度的残差卷积模块Residual Block，本模型基于各Residual Block组成四个并行卷积模块Parallel Block。在每个Parallel Block中会获得三种形状一样的特征图输出，基于通道连接后，输入改进的conv-CBAM注意力模块，获得这一层次的加权注意力特征图并与其它层次得到的特征图进行密集连接，再输入下一层次的并行卷积模块。考虑到模型在经过四个并行卷积模块后，最终会将图像尺寸缩小四倍，故添加上采样转置卷积层，还原输出图像尺寸。

由于模型使用并行连接网络，在模型宽度维度上提取了更多可用特征，故相较于原始Resnet50，去除核心注意力模块conv-CBAM后，并未额外增加模型深度。通过密集连接各加权注意力特征图，充分重用特征，获得额外输入并相互映射传递，避免模型退化，提高了模型的工作效率。

系统在ubuntu16.04、Python3.6、mxnet-cu100环境下搭建，在一张Tesla P100显卡上训练并测试，处理一张图片平均耗时0.031秒，预计检测速度达到每秒32.2帧，具备一定的高效实时检测能力。

步骤6)，计算网络预测与标签的损失，根据损失调整网络参数。

训练中，使用FocalLoss损失函数计算预测与标签间的损失。

FocalLoss计算公式：

系统网络的优化方法使用随机梯度下降，初始学习率为0.01，学习率衰减周期为100步，训练迭代步数为2000步。

步骤7)，深度卷积神经网络的完全训练并向其输入预处理的待检测阴影图像。

步骤8)，输出阴影检测结果,对各像素进行阴影属性分类。

本发明考虑到计算机视觉任务中阴影模型对于图像前景的干扰，分析注意力机制的易用性与加权求和工作机制，结合可避免网络退化的残差神经网络，本发明所提出模型在融合了注意力机制与残差网络的基础上，还参考了密集连接与并行连接设计思想，因此具备高效的阴影识别能力与阴影语义提取能力。经过验证，系统对于阴影的预测表现优秀，具备高效的阴影检测能力，且通过跨模型验证，证明了模型的泛化能力。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于注意力机制的阴影检测方法，其特征在于，包括以下步骤：

步骤1)，获取用于训练系统的待处理公用阴影数据集；

步骤2)，从摄像头或本地硬盘获取待检测图像；

步骤3)，预处理用于训练系统的公用阴影数据集并获得对应的训练集与测试集；

步骤4)，预处理待检测图像；

步骤5)，核心神经网络各模块的搭建与融合，组成基于注意力机制的卷积神经网络；

所述预训练卷积神经网络Resnet50包括：1个7×7卷积层，通道数为64，步数为2；1个3×3最大池化层，步数为2；3个重复的残差卷积块，每个卷积块包括1个通道数为64的1×1卷积层、1个通道数为64的3×3卷积层、1个通道数为256的1×1卷积层；4个重复的残差卷积块，每个卷积块包括1个通道数为128的1×1卷积层、1个通道数为128的3×3卷积层、1个通道数为512的1×1卷积层；6个重复的残差卷积块，每个卷积块包括1个通道数为256的1×1卷积层、1个通道数为256的3×3卷积层、1个通道数为1024的1×1卷积层；3个重复的残差卷积块，每个卷积块包括1个通道数为512的1×1卷积层、1个通道数为512的3×3卷积层、1个通道数为2048的1×1卷积层以及各残差卷积块间用于下采样的卷积层；

所述并行卷积模块包括两类残差卷积模块，记为第一类残差卷积模块、第二类残差卷积模块；

所述第一类残差卷积模块将形状为(n,c,x,y)的特征图顺序输入5个卷积层，其中n为批量大小，c为特征图通道数，x和y表示特征图尺寸，再将输出结果与原始特征图相加，5个卷积层分别为通道数为c的3×3卷积层、通道数为c的5×5卷积层、通道数为2c的5×5卷积层、通道数为4c的5×5卷积层、通道数为c的1×1卷积层，使用激活函数Relu优化，所述Relu激活函数为Relu(q)＝max(0,q)，其中q为单个神经元的加权求和值；

所述第二类残差卷积模块将形状为(n,c,x,y)的特征图顺序输入5个卷积层，其中n为批量大小，c为特征图通道数，x和y表示特征图尺寸，再将输出结果与原始特征图相加；5个卷积层分别为通道数为4c的1×1卷积层、通道数为4c的3×3卷积层、通道数为2c的3×3卷积层、通道数为c的3×3卷积层、通道数为c的3×3卷积层，使用激活函数Relu优化；

空间域生成模块的计算流程：