CN113642634A

CN113642634A - 一种基于混合注意力的阴影检测方法

Info

Publication number: CN113642634A
Application number: CN202110922894.XA
Authority: CN
Inventors: 戴晓峰; 黄刚; 刘帅
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-08-12
Filing date: 2021-08-12
Publication date: 2021-11-12

Abstract

一种基于混合注意力的阴影检测方法，包括如下步骤，步骤S1.获取用于训练系统的待处理公用阴影数据集;步骤S2.获取待检测图像；步骤S3.对数据集进行预处理获取对应的训练集与测试集；步骤S4.对待测图像进行预处理；步骤S5.搭建核心神经网络的各模块并进行融合，构建基于混合注意力机制的卷积神经网络；步骤S6.计算卷积神经网络预测与标签的损失，根据损失调整卷积神经网络的参数；步骤S7.将预处理后的待测图像输入到完全训练的卷积神经网络；步骤S8.输出阴影检测结果,对各像素进行阴影属性分类。该方法增加了跨通道维度间和全局阴影特征的提取能力，降低了语义间的关联性，提升了检测系统的泛化性与高效性，使得阴影检测结果更加精确。

Description

一种基于混合注意力的阴影检测方法

技术领域

本发明属于阴影检测技术领域，具体涉及一种基于混合注意力的阴影检测方法。

背景技术

在图像识别或语义分割等计算机视觉分类任务中，算法需要首先提取图像或视频中的特征，深度学习中通常使用卷积神经网络进行卷积操作，逐像素处理特征语义信息，寻找与标签的似然性。因此，图像的语义构成与各像素间的关联性决定着卷积操作的效率与复杂度。

文件：Hoeim D.Single-image shadow detectionandremovalusingpairedregions[C]//ComputerVisionandPatternRecognition.ColoradoSprings：IEEE，2011：2033-2040指出，阴影作为无关背景语义，其中包含的可用关键信息较少，对于分类任务起不到相关作用，但由于其具备与目标前景像素紧密相连且形状近似的特点，通常会对计算机视觉任务的顺利进行产生影响。同时在灰度空间中，阴影对于目标像素语义具备更高的混淆性，导致卷积神经网络不易发掘出两者间的显著区别，从而降低算法训练与预测的准确性与鲁棒性。因此，在常见计算机视觉任务，如智慧驾驶、人脸检测、目标跟踪与识别、姿态估计中，图像的阴影检测工作显得格外重要，一个高效、全面、可泛化的阴影检测模型会提升整个任务的工作效率与能力上限。

目前已有部分学者提出了阴影检测算法，但其中大部分算法没有考虑到注意力机制在此类任务中的适用性以及跨通道维度和全局像素间的关联性，因此最终检测效果往往达不到预期效果。

Vicente等人在Vicente T F Y，Yu CP，Samaras D.Single image shadowdetection using multiple cues in a supermodular MRF[C]//BritishMachine VisionConference.Bristol：British Machine Vision Association，2013：1-12中提出支持向量机检测算法，构建SVM分类器对阴影进行有效分类；Maryam等发表文件MaryamG，Fatimah K，Abdullah L N.Shadow detection using color and edgeinformation[J].Journal ofComputer Science，2013，9(11)：1575-1588，提出边缘信息检测算法，使用算子提炼图像中的低阶边缘信息，获取前景与阴影的边缘，从而达到分类效果；Hosseinzadeh等在文章Hosseinzadeh S，Shakeri M，Zhang H.Fast shadowdetection from a single imageusing a patched convolutional neural network[C]//2018 IEEE/RSJ InternationalConference on Intelligent Robots and Systems(IROS).IEEE，2018：3124-3129中提出神经网络检测算法，利用卷积神经网络对图像进行卷积处理，获取高阶特征，大大提升准确度；Nguyen等提出Nguyen V，Vicente Y，Tomas F，et al.Shadow detection withconditional generative adversarial networks[C]//Proceedings of the IEEEInternational Conference on Computer Vision.2017：4510-4518，使用生成对抗网络检测算法，使用生成器和判别器处理图像，准确度提升的同时却大大增加了模型的复杂程度。

文件：Vaswani A，Shazeer N，Parmar N，et al.Attention is all you need[C]//Advances in neural information processing systems.2017：5998-6008使用注意力机制，通过对像素级别的语义进行权值分配，提取目标前景最为显著的特征，引导算法集中处理这些首要目标特征，降低前景与背景的关联性，达到提高模型的迭代速度与准确性的目的。因此，注意力机制适用于阴影检测任务，其独有特性，对于图像中阴影的发掘具备较高的识别灵敏度。

发明内容

本发明所要解决的技术问题是克服现有技术的不足，提供一种基于混合注意力的阴影检测方法，通过研究阴影模型与混合注意力模型，结合混合注意力机制的设计思路，搭建融合通道注意力和空间注意力的网络，并使用密集连接和特征融合重用被忽略特征。增加了阴影特征的提取能力，提升了检测系统的泛化性与高效性，使得阴影检测结果更加精确。

本发明提供一种基于混合注意力的阴影检测方法，包括如下步骤，

步骤S1.获取用于训练系统的待处理公用阴影数据集；

步骤S2.获取待检测图像；

步骤S3.对数据集进行预处理获取对应的训练集与测试集；

步骤S4.对待测图像进行预处理；

步骤S5.搭建核心神经网络的各模块并进行融合，构建基于混合注意力机制的卷积神经网络；

步骤S6.计算卷积神经网络预测与标签的损失，根据损失调整卷积神经网络的参数；

步骤S7.将预处理后的待测图像输入到完全训练的卷积神经网络；

步骤S8.输出阴影检测结果，对各像素进行阴影属性分类。

作为本发明的进一步技术方案，步骤S5中的核心神经网络的各模块的搭建包括预训练卷积神经网络ResNeSt50的搭建、重复十字交叉注意力模块的搭建、注意力模块CBAM的改进与搭建和上采样与特征融合输出模块的搭建；

预训练卷积神经网络ResNeSt50包括3个3×3卷积层，通道数为64，步数为2；1个3×3最大池化层，步数为2；3个重复的第一残差卷积块，每个重复的第一残差卷积块包括1个通道数为64的1×1卷积层、1个通道数为128的3×3卷积层、1个通道数为32的1×1卷积层、1个通道数为128的1×1卷积层、1个通道数为256的1×1卷积层；4个重复的第二残差卷积块，每个重复的第二残差卷积块包括1个通道数为128的1×1卷积层、1个通道数为256的3×3卷积层、1个通道数为64的1×1卷积层、1个通道数为256的1×1卷积层、1个通道数为512的1×1卷积层；6个重复的第三残差卷积块，每个重复的第三残差卷积块包括1个通道数为256的1×1卷积层、1个通道数为512的3×3卷积层、1个通道数为128的1×1卷积层、1个通道数为512的1×1卷积层、1个通道数为1024的1×1卷积层；3个重复的第四残差卷积块，每个重复的第四残差卷积块包括1个通道数为512的1×1卷积层、1个通道数为1024的3×3卷积层、1个通道数为256的1×1卷积层、1个通道数为1024的1×1卷积层、1个通道数为2048的1×1卷积层以及各残差卷积块间用于下采样的卷积层；

重复十字交叉注意力模块由两个CCA模块串联而成，其输入和输出特征图尺寸一致，CCA模块将形状为(n，c，x，y)的特征图分别输入三个1×1卷积层，其中n为批量大小，c为特征图通道数，x和y为特征图尺寸，获取通道数为c/2的特征图Q、K、V；将Q和K进行关联操作，再通过softmax函数获取加权特征图，再把加权结果与V进行聚合操作后与原始特征图相加获取最终的特征图；

关联操作的公式为

其中，Q_u、Ω_u分别为在特征图Q、K上位置为u的向量，

为Ω_u的第i个元素的转置，d_i，u为Q_u和Ω_i，u的相关程度；

聚合操作的公式为

其中，φ_i，u、A_i，u分别为在特征图V、A中在第i个通道和位置u上在同一行或同一列特征向量的标量值；H_u为原始特征图H在位置u上的特征向量，H′_u为最后生成的注意力特征图在位置u上的特征向量；

softmax函数的公式为

其中，z_i为第i个节点的输出值，C为输出节点的个数，即分类的类别个数；通过Softmax函数将多分类的输出值转换为范围在[0，1]和为1的概率分布；

注意力模块CBAM包括空间域注意力生成模块SAM、空间域注意力生成模块CAM和注意力融合模块；

空间域生成模块的生成公式为

其中，Ms(F)为空间域注意力矩阵，

为空间域平均池化生成矩阵，

为空间域最大池化生成矩阵，AvgPool、MaxPool和Sigmoid分别为平均池化操作、最大池化操作和Sigmoid转化，f^7×7为卷积核尺寸为7×7的卷积操作；

通道域生成模块的生成公式为

其中，M_c(F)为通道域注意力矩阵，

为通道域平局池化生成矩阵，

为通道域最大池化生成矩阵，AvgPool、MaxPool和Sigmoid分别为平均池化操作、最大池化操作和Sigmoid转化，MLP为一种多层感知机；

注意力融合模块的融合公式为F_Attention＝F×M_s(F)×M_c(F×M_s(F))，其中，F_Attention为融合注意力的新特征图，M_s(F)为空间域注意力矩阵，M_c(F)为通道域注意力矩阵；

注意力模块CBAM的改进包括替换通道域生成模块、改进空间域生成模块和改进注意力融合模块，

替换通道域生成模块为将ResNeSt50中4个不同数量的重复残差卷积块替换原来的通道域模块；

改进空间域生成模块为在CBAM空间域生成模块添加经过重复十字交叉注意模块得到的通道数为1的特征图，与原有平均池化、最大池化结果连接后再输入3个3×3降维卷积层，输出空间域注意力矩阵；

改进空间域生成模块的公式为

其中，M_s(F)为空间域注意力矩阵，

为空间域平均池化生成矩阵，

为空间域最大池化生成矩阵，

为空间域卷积生成矩阵，AvgPool、MaxPool和Sigmoid分别为平均池化操作、最大池化操作和Sigmoid转化，f^3*3×3为卷积核尺寸为3个3×3的卷积操作，CCA(CCA)为经过两次CCA模块操作，RCCA表示重复十字交叉注意模块；

改进空间域生成模块为在原有注意力融合模块开始处添加降维卷积模块，降维卷积模块由3×3卷积层、批量归一化层组合而成；

改进注意力融合模块的公式为

其中，F_Attention为融合注意力的新特征图，M_s(F)为空间域注意力矩阵，M_c(F)为通道域注意力矩阵，f^3*3×3为3个卷积核为3的卷积操作；

特征融合操作包括由改进空间域生成后的多通道特征图进行上采样：从最底层向上图像尺寸全都上采样为80×80，通道数依次为256、128、64、64，然后依次按通道维度进行拼接。

进一步的，步骤S6中，FocalLoss损失函数的公式为

其中，α为0.25，γ为2，L_fl为损失值，y为标签，y′为预测值。

根据损失调整卷积神经网络的参数，网络优化方法为随机梯度下降，初始学习率为0.01，学习率衰减周期为100步，训练迭代步数为2000步。

进一步的，步骤S1中获取用于训练系统的待处理公用阴影数据集，待处理公用阴影数据集中每例数据包括彩色原图与黑白标注图。

进一步的，待处理公用阴影数据集包括SBU、UCF两个公用阴影数据集，其中SBU数据集包含4089例训练数据与638例测试数据，UCF数据集包含245例测试数据。

进一步的，S3中预处理用于训练系统的公用阴影数据集的具体步骤如下，

步骤S31.对数据集训练数据与测试数据进行随机裁剪；

步骤S32.对数据集训练数据进行图像增广，图像增广为图像的水平或垂直镜像翻转，对数据集中每例数据彩色原图与黑白标注图进行同步操作。

进一步的，步骤S4中预处理待检测图像的具体方法为针对图像进行采样，采样阈值为320×320，采样方法为双线性插值法；

若图像长、宽皆大于320像素，下采样图像至320×320；

若图像长、宽皆小于320像素，上采样图像至320×320；

若图像320介于图像长、宽数值，采样图像至320×320；

若图像长、宽皆为320像素，不对图像进行采样操作。

本发明的优点在于，使用预训练的ResNeSt50网络，结合CBAM设计思想改进空间域特征提取形成混和域注意力机制。在充分利用混合注意力机制的基础上，参考密集连接思想保留和重用被忽略特征。通过混合注意力机制提升系统对于阴影的识别能力，提高系统对跨通道维度信息的提取，将系统的感受野从局部扩大到全局，实现阴影检测的高效性、可靠性，该方法增加了阴影特征的提取能力，降低了语义间的关联性，提升了检测系统的泛化性与高效性，使得阴影检测结果更加精确。

附图说明

图1为本发明的Resnet50基本模块结构图；

图2为本发明的CCA模块结构图；

图3为本发明的方法流程示意图；

图4为本发明的阴影检测网络的结构图。

具体实施方式

请参阅图1-图4，本实施例提供一种基于混合注意力的阴影检测方法，包括以下步骤，

步骤S1，获取用于训练系统的待处理公用阴影数据集。其数据集包括SBU、UCF两个公用阴影数据集，其中SBU数据集包含4089例训练数据与638例测试数据，UCF数据集包含245例测试数据，每例数据包含彩色原图与黑白标注图两张图像。

步骤S2，从摄像头或本地硬盘获取待检测图像。

步骤S3，预处理用于训练系统的阴影数据集并获得对应的训练集与测试集。

其具体过程包括如下步骤：

步骤S31，对步骤1获得的数据集训练数据与测试数据进行随机裁剪，裁剪大小为320×320。

步骤S32，对步骤32获得的数据集训练数据进行图像增广，增广模式为图像的水平或垂直镜像翻转，增广规模为2倍。

在上述预处理阶段中，所有针对数据集的裁剪与增广操作，为数据集中每例数据彩色原图与黑白标注图的同步操作。

步骤S4，预处理待检测图像。

其预处理过程具体为针对图像的采样过程。采样阈值为320×320，采样方法为双线性插值法。

若图像长、宽皆大于320像素，下采样图像至320×320。

若图像长、宽皆小于320像素，上采样图像至320×320。

若图像320介于图像长、宽数值，采样图像至320×320。

若图像长、宽皆为320像素，不对图像进行采样操作。

步骤S5，核心神经网络各模块的搭建与融合，组成基于注意力机制的卷积神经网络。

核心神经网络各模块的搭建，包括预训练卷积神经网络ResNeSt50的搭建、重复十字交叉注意力模块的搭建、注意力模块CBAM的改进与搭建、上采样与特征融合输出模块的搭建：

预训练卷积神经网络Resnet50的优化与调整：

对于原有ResNeSt50网络，去除最后的全连接层和全局池化层，并使用已在Imagenet数据集上训练完成的Resnet50网络已有参数，优化后的网络包括：3个3×3卷积层，通道数为64，步数为2；1个3×3最大池化层，步数为2；3个重复的第一残差卷积块，每个第一残差卷积块包括1个通道数为64的1×1卷积层、1个通道数为128的3×3卷积层、1个通道数为32的1×1卷积层、1个通道数为128的1×1卷积层、1个通道数为256的1×1卷积层；4个重复的第二残差卷积块，每个第二残差卷积块包括1个通道数为128的1×1卷积层、1个通道数为256的3×3卷积层、1个通道数为64的1×1卷积层、1个通道数为256的1×1卷积层、1个通道数为512的1×1卷积层；6个重复的第三残差卷积块，每个第三残差卷积块包括1个通道数为256的1×1卷积层、1个通道数为512的3×3卷积层、1个通道数为128的1×1卷积层、1个通道数为512的1×1卷积层、1个通道数为1024的1×1卷积层；3个重复的第四残差卷积块，每个第四残差卷积块包括1个通道数为512的1×1卷积层、1个通道数为1024的3×3卷积层、1个通道数为256的1×1卷积层、1个通道数为1024的1×1卷积层、1个通道数为2048的1×1卷积层以及各残差卷积块间用于下采样的卷积层；

重复十字交叉注意力模块的搭建与定义：

重复十字交叉注意力模块由两个CCA模块串联而成，其输入和输出特征图尺寸一致。CCA模块将形状为(n，c，x，y)的特征图分别输入三个1×1卷积层，其中n为批量大小，c为特征图通道数，x和y表示特征图尺寸，得到通道数为c/2的特征图Q、K、V。将Q和K进行关联操作，再使用softmax函数得到加权特征图，再把结果与V进行聚合操作后与原始特征图相加得到最终的特征图；

关联操作计算公式：

其中，Q_u、Ω_u分别表示在特征图Q、K上位置为u的向量，

表示Ω_u的第i个元素的转置。d_i，u则表示Q_u和Ω_i，u的相关程度；

聚合操作计算公式：

其中，φ_i，u、A_i，u分别表示在特征图V、A中在第i个通道和位置u上在同一行或同一列特征向量的标量值。H_u表示原始特征图H在位置u上的特征向量，H′_u表示最后生成的注意力特征图在位置u上的特征向量；

softmax函数计算公式：

其中，z_i为第i个节点的输出值，C为输出节点的个数，即分类的类别个数。通过Softmax函数就可以将多分类的输出值转换为范围在[0，1]和为1的概率分布；

注意力模块CBAM包括空间域注意力生成模块SAM、空间域注意力生成模块CAM和注意力融合模块。

空间域生成模块的计算流程：

其中，M_s(F)为空间域注意力矩阵，

为空间域平局池化生成矩阵，

为空间域最大池化生成矩阵，AvgPool、MaxPool和Sigmoid分别代表平均池化操作、最大池化操作和Sigmoid转化，f^7×7为卷积核尺寸为7×7的卷积操作；

通道域生成模块的计算流程：

其中，M_c(F)为通道域注意力矩阵，

为通道域平局池化生成矩阵，

为通道域最大池化生成矩阵，AvgPool、MaxPool和Sigmoid分别代表平均池化操作、最大池化操作和Sigmoid转化，MLP为一种多层感知机；

注意力融合模块的计算流程：

F_Attention＝F×M_s(F)×M_c(F×M_s(F))

其中，F_Attention为融合注意力的新特征图，M_s(F)为空间域注意力矩阵，M_c(F)为通道域注意力矩阵；

注意力模块CBAM的改进包括替换通道域生成模块、改进空间域生成模块和改进注意力融合模块；

替换通道域生成模块，具体为将ResNeSt50中4个不同数量的重复残差卷积块替换原来的通道域模块；

改进空间域生成模块，具体为在CBAM空间域生成模块添加经过重复十字交叉注意模块得到的通道数为1的特征图，与原有平均池化、最大池化结果连接再输入3个3×3降维卷积层，输出空间域注意力矩阵：

改进后的空间域生成模块的计算流程：

其中，M_s(F)为空间域注意力矩阵，

为空间域平局池化生成矩阵，

为空间域最大池化生成矩阵，

为空间域卷积生成矩阵，AvgPool、MaxPool和Sigmoid分别代表平均池化操作、最大池化操作和Sigmoid转化，f^3*3×3为卷积核尺寸为3个3×3的卷积操作，CCA(CCA)表示经过两次CCA模块操作，RCCA表示重复十字交叉注意模块；

改进注意力融合模块，具体为在原有注意力融合模块开始处添加降维卷积模块，降维卷积模块由3×3卷积层、批量归一化层组合而成；

改进后的注意力融合模块的计算流程：

F′＝f^3*3×3(F)

F_Attention＝F′×M_s(F′)×M_c(F′×M_s(F))

特征融合操作包括将由改进空间域生成后的多通道特征图进行上采样：从最底层向上图像尺寸全都上采样为80×80，通道数依次为256、128、64、64，然后依次按通道维度进行拼接；

上采样与输出模块，包括1个3×3的通道数为64的卷积层、一个上采样双线性插值转置卷积层、一个Sigmoid激活函数，此模块搭建在模型的最后，用于输出模型的预测结果。

由于模型在通道维度上采用并行结构，提取更多跨通道特征，并在原始空间域模块中添加全局上下文空间信息提取。相较于原始ResNeSt50网络，除改进空间域模块和多尺度特征融合操作外，未额外增加模型深度。模型各处加权注意力特征图通过密集连接，相较于相加操作，拓展输入特征宽度以充分重用特征，在避免模型退化同时，充分提取各维度注意力，提高模型准确率和工作效率。

系统在ubuntu16.04、Python3.6、mxnet-cu100环境下搭建，在一张Tesla P100显卡上训练并测试，处理一张图片平均耗时0.034秒，预计检测速度达到每秒29.4帧，具备一定的高效实时检测能力。

步骤S6，计算网络预测与标签的损失，根据损失调整网络参数。

训练中，使用FocalLoss损失函数计算预测与标签间的损失。

FocalLoss计算公式：

其中，α取0.25，γ取2，L_fl为损失值，y为标签，y′为预测值。

系统网络的优化方法使用随机梯度下降，初始学习率为0.01，学习率衰减周期为100步，训练迭代步数为2000步。

步骤S7，深度卷积神经网络的完全训练并向其输入预处理的待检测阴影图像。

步骤S8，输出阴影检测结果，对各像素进行阴影属性分类。

本实施例考虑到计算机视觉任务中阴影模型对于图像前景的干扰，分析注意力机制的易用性与加权求和工作机制，结合cBAM设计思想改进空间域特征提取形成混和域注意力机制，本发明所提出模型在充分利用混合注意力机制的基础上，参考密集连接思想保留和重用被忽略特征。另外，针对深层特征图和浅层语义和位置信息不平衡情况，采用多尺度特征融合进一步提升模型检测效果。因此具备高效的阴影识别能力与阴影语义提取能力。经过验证，系统对于阴影的预测表现优秀，具备高效的阴影检测能力，且通过跨模型验证，证明了模型的泛化能力。

以上显示和描述了本发明的基本原理、主要特征和优点。本领域的技术人员应该了解，本发明不受上述具体实施例的限制，上述具体实施例和说明书中的描述只是为了进一步说明本发明的原理，在不脱离本发明精神范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由权利要求书及其等效物界定。

Claims

1.一种基于混合注意力的阴影检测方法，其特征在于，包括如下步骤，

步骤S1.获取用于训练系统的待处理公用阴影数据集；

步骤S2.获取待检测图像；

步骤S3.对数据集进行预处理获取对应的训练集与测试集；

步骤S4.对待测图像进行预处理；

步骤S8.输出阴影检测结果，对各像素进行阴影属性分类。

2.根据权利要求1所述的一种基于混合注意力的阴影检测方法，其特征在于，所述步骤S5中的核心神经网络的各模块的搭建包括预训练卷积神经网络ResNeSt50的搭建、重复十字交叉注意力模块的搭建、注意力模块CBAM的改进与搭建和上采样与特征融合输出模块的搭建；

所述预训练卷积神经网络ResNeSt50包括3个3×3卷积层，通道数为64，步数为2；1个3×3最大池化层，步数为2；3个重复的第一残差卷积块，每个重复的第一残差卷积块包括1个通道数为64的1×1卷积层、1个通道数为128的3×3卷积层、1个通道数为32的1×1卷积层、1个通道数为128的1×1卷积层、1个通道数为256的1×1卷积层；4个重复的第二残差卷积块，每个重复的第二残差卷积块包括1个通道数为128的1×1卷积层、1个通道数为256的3×3卷积层、1个通道数为64的1×1卷积层、1个通道数为256的1×1卷积层、1个通道数为512的1×1卷积层；6个重复的第三残差卷积块，每个重复的第三残差卷积块包括1个通道数为256的1×1卷积层、1个通道数为512的3×3卷积层、1个通道数为128的1×1卷积层、1个通道数为512的1×1卷积层、1个通道数为1024的1×1卷积层；3个重复的第四残差卷积块，每个重复的第四残差卷积块包括1个通道数为512的1×1卷积层、1个通道数为1024的3×3卷积层、1个通道数为256的1×1卷积层、1个通道数为1024的1×1卷积层、1个通道数为2048的1×1卷积层以及各残差卷积块间用于下采样的卷积层；

所述重复十字交叉注意力模块由两个CCA模块串联而成，其输入和输出特征图尺寸一致，CCA模块将形状为(n，c，x，y)的特征图分别输入三个1×1卷积层，其中n为批量大小，c为特征图通道数，x和y为特征图尺寸，获取通道数为c/2的特征图Q、K、V；将Q和K进行关联操作，再通过softmax函数获取加权特征图，再把加权结果与V进行聚合操作后与原始特征图相加获取最终的特征图；所述关联操作的公式为