CN113642634A - 一种基于混合注意力的阴影检测方法 - Google Patents

一种基于混合注意力的阴影检测方法 Download PDF

Info

Publication number
CN113642634A
CN113642634A CN202110922894.XA CN202110922894A CN113642634A CN 113642634 A CN113642634 A CN 113642634A CN 202110922894 A CN202110922894 A CN 202110922894A CN 113642634 A CN113642634 A CN 113642634A
Authority
CN
China
Prior art keywords
attention
image
module
convolutional
convolutional layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110922894.XA
Other languages
English (en)
Inventor
戴晓峰
黄刚
刘帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110922894.XA priority Critical patent/CN113642634A/zh
Publication of CN113642634A publication Critical patent/CN113642634A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

一种基于混合注意力的阴影检测方法,包括如下步骤,步骤S1.获取用于训练系统的待处理公用阴影数据集;步骤S2.获取待检测图像;步骤S3.对数据集进行预处理获取对应的训练集与测试集;步骤S4.对待测图像进行预处理;步骤S5.搭建核心神经网络的各模块并进行融合,构建基于混合注意力机制的卷积神经网络;步骤S6.计算卷积神经网络预测与标签的损失,根据损失调整卷积神经网络的参数;步骤S7.将预处理后的待测图像输入到完全训练的卷积神经网络;步骤S8.输出阴影检测结果,对各像素进行阴影属性分类。该方法增加了跨通道维度间和全局阴影特征的提取能力,降低了语义间的关联性,提升了检测系统的泛化性与高效性,使得阴影检测结果更加精确。

Description

一种基于混合注意力的阴影检测方法
技术领域
本发明属于阴影检测技术领域,具体涉及一种基于混合注意力的阴影检测方法。
背景技术
在图像识别或语义分割等计算机视觉分类任务中,算法需要首先提取图像或视频中的特征,深度学习中通常使用卷积神经网络进行卷积操作,逐像素处理特征语义信息,寻找与标签的似然性。因此,图像的语义构成与各像素间的关联性决定着卷积操作的效率与复杂度。
文件:Hoeim D.Single-image shadow detectionandremovalusingpairedregions[C]//ComputerVisionandPatternRecognition.ColoradoSprings:IEEE,2011:2033-2040指出,阴影作为无关背景语义,其中包含的可用关键信息较少,对于分类任务起不到相关作用,但由于其具备与目标前景像素紧密相连且形状近似的特点,通常会对计算机视觉任务的顺利进行产生影响。同时在灰度空间中,阴影对于目标像素语义具备更高的混淆性,导致卷积神经网络不易发掘出两者间的显著区别,从而降低算法训练与预测的准确性与鲁棒性。因此,在常见计算机视觉任务,如智慧驾驶、人脸检测、目标跟踪与识别、姿态估计中,图像的阴影检测工作显得格外重要,一个高效、全面、可泛化的阴影检测模型会提升整个任务的工作效率与能力上限。
目前已有部分学者提出了阴影检测算法,但其中大部分算法没有考虑到注意力机制在此类任务中的适用性以及跨通道维度和全局像素间的关联性,因此最终检测效果往往达不到预期效果。
Vicente等人在Vicente T F Y,Yu CP,Samaras D.Single image shadowdetection using multiple cues in a supermodular MRF[C]//BritishMachine VisionConference.Bristol:British Machine Vision Association,2013:1-12中提出支持向量机检测算法,构建SVM分类器对阴影进行有效分类;Maryam等发表文件MaryamG,Fatimah K,Abdullah L N.Shadow detection using color and edgeinformation[J].Journal ofComputer Science,2013,9(11):1575-1588,提出边缘信息检测算法,使用算子提炼图像中的低阶边缘信息,获取前景与阴影的边缘,从而达到分类效果;Hosseinzadeh等在文章Hosseinzadeh S,Shakeri M,Zhang H.Fast shadowdetection from a single imageusing a patched convolutional neural network[C]//2018 IEEE/RSJ InternationalConference on Intelligent Robots and Systems(IROS).IEEE,2018:3124-3129中提出神经网络检测算法,利用卷积神经网络对图像进行卷积处理,获取高阶特征,大大提升准确度;Nguyen等提出Nguyen V,Vicente Y,Tomas F,et al.Shadow detection withconditional generative adversarial networks[C]//Proceedings of the IEEEInternational Conference on Computer Vision.2017:4510-4518,使用生成对抗网络检测算法,使用生成器和判别器处理图像,准确度提升的同时却大大增加了模型的复杂程度。
文件:Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Advances in neural information processing systems.2017:5998-6008使用注意力机制,通过对像素级别的语义进行权值分配,提取目标前景最为显著的特征,引导算法集中处理这些首要目标特征,降低前景与背景的关联性,达到提高模型的迭代速度与准确性的目的。因此,注意力机制适用于阴影检测任务,其独有特性,对于图像中阴影的发掘具备较高的识别灵敏度。
发明内容
本发明所要解决的技术问题是克服现有技术的不足,提供一种基于混合注意力的阴影检测方法,通过研究阴影模型与混合注意力模型,结合混合注意力机制的设计思路,搭建融合通道注意力和空间注意力的网络,并使用密集连接和特征融合重用被忽略特征。增加了阴影特征的提取能力,提升了检测系统的泛化性与高效性,使得阴影检测结果更加精确。
本发明提供一种基于混合注意力的阴影检测方法,包括如下步骤,
步骤S1.获取用于训练系统的待处理公用阴影数据集;
步骤S2.获取待检测图像;
步骤S3.对数据集进行预处理获取对应的训练集与测试集;
步骤S4.对待测图像进行预处理;
步骤S5.搭建核心神经网络的各模块并进行融合,构建基于混合注意力机制的卷积神经网络;
步骤S6.计算卷积神经网络预测与标签的损失,根据损失调整卷积神经网络的参数;
步骤S7.将预处理后的待测图像输入到完全训练的卷积神经网络;
步骤S8.输出阴影检测结果,对各像素进行阴影属性分类。
作为本发明的进一步技术方案,步骤S5中的核心神经网络的各模块的搭建包括预训练卷积神经网络ResNeSt50的搭建、重复十字交叉注意力模块的搭建、注意力模块CBAM的改进与搭建和上采样与特征融合输出模块的搭建;
预训练卷积神经网络ResNeSt50包括3个3×3卷积层,通道数为64,步数为2;1个3×3最大池化层,步数为2;3个重复的第一残差卷积块,每个重复的第一残差卷积块包括1个通道数为64的1×1卷积层、1个通道数为128的3×3卷积层、1个通道数为32的1×1卷积层、1个通道数为128的1×1卷积层、1个通道数为256的1×1卷积层;4个重复的第二残差卷积块,每个重复的第二残差卷积块包括1个通道数为128的1×1卷积层、1个通道数为256的3×3卷积层、1个通道数为64的1×1卷积层、1个通道数为256的1×1卷积层、1个通道数为512的1×1卷积层;6个重复的第三残差卷积块,每个重复的第三残差卷积块包括1个通道数为256的1×1卷积层、1个通道数为512的3×3卷积层、1个通道数为128的1×1卷积层、1个通道数为512的1×1卷积层、1个通道数为1024的1×1卷积层;3个重复的第四残差卷积块,每个重复的第四残差卷积块包括1个通道数为512的1×1卷积层、1个通道数为1024的3×3卷积层、1个通道数为256的1×1卷积层、1个通道数为1024的1×1卷积层、1个通道数为2048的1×1卷积层以及各残差卷积块间用于下采样的卷积层;
重复十字交叉注意力模块由两个CCA模块串联而成,其输入和输出特征图尺寸一致,CCA模块将形状为(n,c,x,y)的特征图分别输入三个1×1卷积层,其中n为批量大小,c为特征图通道数,x和y为特征图尺寸,获取通道数为c/2的特征图Q、K、V;将Q和K进行关联操作,再通过softmax函数获取加权特征图,再把加权结果与V进行聚合操作后与原始特征图相加获取最终的特征图;
关联操作的公式为
Figure BDA0003208092040000041
其中,Qu、Ωu分别为在特征图Q、K上位置为u的向量,
Figure BDA0003208092040000042
为Ωu的第i个元素的转置,di,u为Qu和Ωi,u的相关程度;
聚合操作的公式为
Figure BDA0003208092040000043
其中,φi,u、Ai,u分别为在特征图V、A中在第i个通道和位置u上在同一行或同一列特征向量的标量值;Hu为原始特征图H在位置u上的特征向量,H′u为最后生成的注意力特征图在位置u上的特征向量;
softmax函数的公式为
Figure BDA0003208092040000044
其中,zi为第i个节点的输出值,C为输出节点的个数,即分类的类别个数;通过Softmax函数将多分类的输出值转换为范围在[0,1]和为1的概率分布;
注意力模块CBAM包括空间域注意力生成模块SAM、空间域注意力生成模块CAM和注意力融合模块;
空间域生成模块的生成公式为
Figure BDA0003208092040000045
其中,Ms(F)为空间域注意力矩阵,
Figure BDA0003208092040000046
为空间域平均池化生成矩阵,
Figure BDA0003208092040000047
为空间域最大池化生成矩阵,AvgPool、MaxPool和Sigmoid分别为平均池化操作、最大池化操作和Sigmoid转化,f7×7为卷积核尺寸为7×7的卷积操作;
通道域生成模块的生成公式为
Figure BDA0003208092040000051
其中,Mc(F)为通道域注意力矩阵,
Figure BDA0003208092040000052
为通道域平局池化生成矩阵,
Figure BDA0003208092040000053
为通道域最大池化生成矩阵,AvgPool、MaxPool和Sigmoid分别为平均池化操作、最大池化操作和Sigmoid转化,MLP为一种多层感知机;
注意力融合模块的融合公式为FAttention=F×Ms(F)×Mc(F×Ms(F)),其中,FAttention为融合注意力的新特征图,Ms(F)为空间域注意力矩阵,Mc(F)为通道域注意力矩阵;
注意力模块CBAM的改进包括替换通道域生成模块、改进空间域生成模块和改进注意力融合模块,
替换通道域生成模块为将ResNeSt50中4个不同数量的重复残差卷积块替换原来的通道域模块;
改进空间域生成模块为在CBAM空间域生成模块添加经过重复十字交叉注意模块得到的通道数为1的特征图,与原有平均池化、最大池化结果连接后再输入3个3×3降维卷积层,输出空间域注意力矩阵;
改进空间域生成模块的公式为
Figure BDA0003208092040000054
其中,Ms(F)为空间域注意力矩阵,
Figure BDA0003208092040000055
为空间域平均池化生成矩阵,
Figure BDA0003208092040000056
为空间域最大池化生成矩阵,
Figure BDA0003208092040000057
为空间域卷积生成矩阵,AvgPool、MaxPool和Sigmoid分别为平均池化操作、最大池化操作和Sigmoid转化,f3*3×3为卷积核尺寸为3个3×3的卷积操作,CCA(CCA)为经过两次CCA模块操作,RCCA表示重复十字交叉注意模块;
改进空间域生成模块为在原有注意力融合模块开始处添加降维卷积模块,降维卷积模块由3×3卷积层、批量归一化层组合而成;
改进注意力融合模块的公式为
Figure BDA0003208092040000061
其中,FAttention为融合注意力的新特征图,Ms(F)为空间域注意力矩阵,Mc(F)为通道域注意力矩阵,f3*3×3为3个卷积核为3的卷积操作;
特征融合操作包括由改进空间域生成后的多通道特征图进行上采样:从最底层向上图像尺寸全都上采样为80×80,通道数依次为256、128、64、64,然后依次按通道维度进行拼接。
进一步的,步骤S6中,FocalLoss损失函数的公式为
Figure BDA0003208092040000062
其中,α为0.25,γ为2,Lfl为损失值,y为标签,y′为预测值。
根据损失调整卷积神经网络的参数,网络优化方法为随机梯度下降,初始学习率为0.01,学习率衰减周期为100步,训练迭代步数为2000步。
进一步的,步骤S1中获取用于训练系统的待处理公用阴影数据集,待处理公用阴影数据集中每例数据包括彩色原图与黑白标注图。
进一步的,待处理公用阴影数据集包括SBU、UCF两个公用阴影数据集,其中SBU数据集包含4089例训练数据与638例测试数据,UCF数据集包含245例测试数据。
进一步的,S3中预处理用于训练系统的公用阴影数据集的具体步骤如下,
步骤S31.对数据集训练数据与测试数据进行随机裁剪;
步骤S32.对数据集训练数据进行图像增广,图像增广为图像的水平或垂直镜像翻转,对数据集中每例数据彩色原图与黑白标注图进行同步操作。
进一步的,步骤S4中预处理待检测图像的具体方法为针对图像进行采样,采样阈值为320×320,采样方法为双线性插值法;
若图像长、宽皆大于320像素,下采样图像至320×320;
若图像长、宽皆小于320像素,上采样图像至320×320;
若图像320介于图像长、宽数值,采样图像至320×320;
若图像长、宽皆为320像素,不对图像进行采样操作。
本发明的优点在于,使用预训练的ResNeSt50网络,结合CBAM设计思想改进空间域特征提取形成混和域注意力机制。在充分利用混合注意力机制的基础上,参考密集连接思想保留和重用被忽略特征。通过混合注意力机制提升系统对于阴影的识别能力,提高系统对跨通道维度信息的提取,将系统的感受野从局部扩大到全局,实现阴影检测的高效性、可靠性,该方法增加了阴影特征的提取能力,降低了语义间的关联性,提升了检测系统的泛化性与高效性,使得阴影检测结果更加精确。
附图说明
图1为本发明的Resnet50基本模块结构图;
图2为本发明的CCA模块结构图;
图3为本发明的方法流程示意图;
图4为本发明的阴影检测网络的结构图。
具体实施方式
请参阅图1-图4,本实施例提供一种基于混合注意力的阴影检测方法,包括以下步骤,
步骤S1,获取用于训练系统的待处理公用阴影数据集。其数据集包括SBU、UCF两个公用阴影数据集,其中SBU数据集包含4089例训练数据与638例测试数据,UCF数据集包含245例测试数据,每例数据包含彩色原图与黑白标注图两张图像。
步骤S2,从摄像头或本地硬盘获取待检测图像。
步骤S3,预处理用于训练系统的阴影数据集并获得对应的训练集与测试集。
其具体过程包括如下步骤:
步骤S31,对步骤1获得的数据集训练数据与测试数据进行随机裁剪,裁剪大小为320×320。
步骤S32,对步骤32获得的数据集训练数据进行图像增广,增广模式为图像的水平或垂直镜像翻转,增广规模为2倍。
在上述预处理阶段中,所有针对数据集的裁剪与增广操作,为数据集中每例数据彩色原图与黑白标注图的同步操作。
步骤S4,预处理待检测图像。
其预处理过程具体为针对图像的采样过程。采样阈值为320×320,采样方法为双线性插值法。
若图像长、宽皆大于320像素,下采样图像至320×320。
若图像长、宽皆小于320像素,上采样图像至320×320。
若图像320介于图像长、宽数值,采样图像至320×320。
若图像长、宽皆为320像素,不对图像进行采样操作。
步骤S5,核心神经网络各模块的搭建与融合,组成基于注意力机制的卷积神经网络。
核心神经网络各模块的搭建,包括预训练卷积神经网络ResNeSt50的搭建、重复十字交叉注意力模块的搭建、注意力模块CBAM的改进与搭建、上采样与特征融合输出模块的搭建:
预训练卷积神经网络Resnet50的优化与调整:
对于原有ResNeSt50网络,去除最后的全连接层和全局池化层,并使用已在Imagenet数据集上训练完成的Resnet50网络已有参数,优化后的网络包括:3个3×3卷积层,通道数为64,步数为2;1个3×3最大池化层,步数为2;3个重复的第一残差卷积块,每个第一残差卷积块包括1个通道数为64的1×1卷积层、1个通道数为128的3×3卷积层、1个通道数为32的1×1卷积层、1个通道数为128的1×1卷积层、1个通道数为256的1×1卷积层;4个重复的第二残差卷积块,每个第二残差卷积块包括1个通道数为128的1×1卷积层、1个通道数为256的3×3卷积层、1个通道数为64的1×1卷积层、1个通道数为256的1×1卷积层、1个通道数为512的1×1卷积层;6个重复的第三残差卷积块,每个第三残差卷积块包括1个通道数为256的1×1卷积层、1个通道数为512的3×3卷积层、1个通道数为128的1×1卷积层、1个通道数为512的1×1卷积层、1个通道数为1024的1×1卷积层;3个重复的第四残差卷积块,每个第四残差卷积块包括1个通道数为512的1×1卷积层、1个通道数为1024的3×3卷积层、1个通道数为256的1×1卷积层、1个通道数为1024的1×1卷积层、1个通道数为2048的1×1卷积层以及各残差卷积块间用于下采样的卷积层;
重复十字交叉注意力模块的搭建与定义:
重复十字交叉注意力模块由两个CCA模块串联而成,其输入和输出特征图尺寸一致。CCA模块将形状为(n,c,x,y)的特征图分别输入三个1×1卷积层,其中n为批量大小,c为特征图通道数,x和y表示特征图尺寸,得到通道数为c/2的特征图Q、K、V。将Q和K进行关联操作,再使用softmax函数得到加权特征图,再把结果与V进行聚合操作后与原始特征图相加得到最终的特征图;
关联操作计算公式:
Figure BDA0003208092040000091
其中,Qu、Ωu分别表示在特征图Q、K上位置为u的向量,
Figure BDA0003208092040000092
表示Ωu的第i个元素的转置。di,u则表示Qu和Ωi,u的相关程度;
聚合操作计算公式:
Figure BDA0003208092040000093
其中,φi,u、Ai,u分别表示在特征图V、A中在第i个通道和位置u上在同一行或同一列特征向量的标量值。Hu表示原始特征图H在位置u上的特征向量,H′u表示最后生成的注意力特征图在位置u上的特征向量;
softmax函数计算公式:
Figure BDA0003208092040000101
其中,zi为第i个节点的输出值,C为输出节点的个数,即分类的类别个数。通过Softmax函数就可以将多分类的输出值转换为范围在[0,1]和为1的概率分布;
注意力模块CBAM包括空间域注意力生成模块SAM、空间域注意力生成模块CAM和注意力融合模块。
空间域生成模块的计算流程:
Figure BDA0003208092040000102
Figure BDA0003208092040000103
Figure BDA0003208092040000104
其中,Ms(F)为空间域注意力矩阵,
Figure BDA0003208092040000105
为空间域平局池化生成矩阵,
Figure BDA0003208092040000106
为空间域最大池化生成矩阵,AvgPool、MaxPool和Sigmoid分别代表平均池化操作、最大池化操作和Sigmoid转化,f7×7为卷积核尺寸为7×7的卷积操作;
通道域生成模块的计算流程:
Figure BDA0003208092040000107
Figure BDA0003208092040000108
Figure BDA0003208092040000109
其中,Mc(F)为通道域注意力矩阵,
Figure BDA00032080920400001010
为通道域平局池化生成矩阵,
Figure BDA00032080920400001011
为通道域最大池化生成矩阵,AvgPool、MaxPool和Sigmoid分别代表平均池化操作、最大池化操作和Sigmoid转化,MLP为一种多层感知机;
注意力融合模块的计算流程:
FAttention=F×Ms(F)×Mc(F×Ms(F))
其中,FAttention为融合注意力的新特征图,Ms(F)为空间域注意力矩阵,Mc(F)为通道域注意力矩阵;
注意力模块CBAM的改进包括替换通道域生成模块、改进空间域生成模块和改进注意力融合模块;
替换通道域生成模块,具体为将ResNeSt50中4个不同数量的重复残差卷积块替换原来的通道域模块;
改进空间域生成模块,具体为在CBAM空间域生成模块添加经过重复十字交叉注意模块得到的通道数为1的特征图,与原有平均池化、最大池化结果连接再输入3个3×3降维卷积层,输出空间域注意力矩阵:
改进后的空间域生成模块的计算流程:
Figure BDA0003208092040000111
Figure BDA0003208092040000112
Figure BDA0003208092040000113
Figure BDA0003208092040000114
其中,Ms(F)为空间域注意力矩阵,
Figure BDA0003208092040000115
为空间域平局池化生成矩阵,
Figure BDA0003208092040000116
为空间域最大池化生成矩阵,
Figure BDA0003208092040000117
为空间域卷积生成矩阵,AvgPool、MaxPool和Sigmoid分别代表平均池化操作、最大池化操作和Sigmoid转化,f3*3×3为卷积核尺寸为3个3×3的卷积操作,CCA(CCA)表示经过两次CCA模块操作,RCCA表示重复十字交叉注意模块;
改进注意力融合模块,具体为在原有注意力融合模块开始处添加降维卷积模块,降维卷积模块由3×3卷积层、批量归一化层组合而成;
改进后的注意力融合模块的计算流程:
F′=f3*3×3(F)
FAttention=F′×Ms(F′)×Mc(F′×Ms(F))
其中,FAttention为融合注意力的新特征图,Ms(F)为空间域注意力矩阵,Mc(F)为通道域注意力矩阵,f3*3×3为3个卷积核为3的卷积操作;
特征融合操作包括将由改进空间域生成后的多通道特征图进行上采样:从最底层向上图像尺寸全都上采样为80×80,通道数依次为256、128、64、64,然后依次按通道维度进行拼接;
上采样与输出模块,包括1个3×3的通道数为64的卷积层、一个上采样双线性插值转置卷积层、一个Sigmoid激活函数,此模块搭建在模型的最后,用于输出模型的预测结果。
由于模型在通道维度上采用并行结构,提取更多跨通道特征,并在原始空间域模块中添加全局上下文空间信息提取。相较于原始ResNeSt50网络,除改进空间域模块和多尺度特征融合操作外,未额外增加模型深度。模型各处加权注意力特征图通过密集连接,相较于相加操作,拓展输入特征宽度以充分重用特征,在避免模型退化同时,充分提取各维度注意力,提高模型准确率和工作效率。
系统在ubuntu16.04、Python3.6、mxnet-cu100环境下搭建,在一张Tesla P100显卡上训练并测试,处理一张图片平均耗时0.034秒,预计检测速度达到每秒29.4帧,具备一定的高效实时检测能力。
步骤S6,计算网络预测与标签的损失,根据损失调整网络参数。
训练中,使用FocalLoss损失函数计算预测与标签间的损失。
FocalLoss计算公式:
Figure BDA0003208092040000121
其中,α取0.25,γ取2,Lfl为损失值,y为标签,y′为预测值。
系统网络的优化方法使用随机梯度下降,初始学习率为0.01,学习率衰减周期为100步,训练迭代步数为2000步。
步骤S7,深度卷积神经网络的完全训练并向其输入预处理的待检测阴影图像。
步骤S8,输出阴影检测结果,对各像素进行阴影属性分类。
本实施例考虑到计算机视觉任务中阴影模型对于图像前景的干扰,分析注意力机制的易用性与加权求和工作机制,结合cBAM设计思想改进空间域特征提取形成混和域注意力机制,本发明所提出模型在充分利用混合注意力机制的基础上,参考密集连接思想保留和重用被忽略特征。另外,针对深层特征图和浅层语义和位置信息不平衡情况,采用多尺度特征融合进一步提升模型检测效果。因此具备高效的阴影识别能力与阴影语义提取能力。经过验证,系统对于阴影的预测表现优秀,具备高效的阴影检测能力,且通过跨模型验证,证明了模型的泛化能力。
以上显示和描述了本发明的基本原理、主要特征和优点。本领域的技术人员应该了解,本发明不受上述具体实施例的限制,上述具体实施例和说明书中的描述只是为了进一步说明本发明的原理,在不脱离本发明精神范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由权利要求书及其等效物界定。

Claims (7)

1.一种基于混合注意力的阴影检测方法,其特征在于,包括如下步骤,
步骤S1.获取用于训练系统的待处理公用阴影数据集;
步骤S2.获取待检测图像;
步骤S3.对数据集进行预处理获取对应的训练集与测试集;
步骤S4.对待测图像进行预处理;
步骤S5.搭建核心神经网络的各模块并进行融合,构建基于混合注意力机制的卷积神经网络;
步骤S6.计算卷积神经网络预测与标签的损失,根据损失调整卷积神经网络的参数;
步骤S7.将预处理后的待测图像输入到完全训练的卷积神经网络;
步骤S8.输出阴影检测结果,对各像素进行阴影属性分类。
2.根据权利要求1所述的一种基于混合注意力的阴影检测方法,其特征在于,所述步骤S5中的核心神经网络的各模块的搭建包括预训练卷积神经网络ResNeSt50的搭建、重复十字交叉注意力模块的搭建、注意力模块CBAM的改进与搭建和上采样与特征融合输出模块的搭建;
所述预训练卷积神经网络ResNeSt50包括3个3×3卷积层,通道数为64,步数为2;1个3×3最大池化层,步数为2;3个重复的第一残差卷积块,每个重复的第一残差卷积块包括1个通道数为64的1×1卷积层、1个通道数为128的3×3卷积层、1个通道数为32的1×1卷积层、1个通道数为128的1×1卷积层、1个通道数为256的1×1卷积层;4个重复的第二残差卷积块,每个重复的第二残差卷积块包括1个通道数为128的1×1卷积层、1个通道数为256的3×3卷积层、1个通道数为64的1×1卷积层、1个通道数为256的1×1卷积层、1个通道数为512的1×1卷积层;6个重复的第三残差卷积块,每个重复的第三残差卷积块包括1个通道数为256的1×1卷积层、1个通道数为512的3×3卷积层、1个通道数为128的1×1卷积层、1个通道数为512的1×1卷积层、1个通道数为1024的1×1卷积层;3个重复的第四残差卷积块,每个重复的第四残差卷积块包括1个通道数为512的1×1卷积层、1个通道数为1024的3×3卷积层、1个通道数为256的1×1卷积层、1个通道数为1024的1×1卷积层、1个通道数为2048的1×1卷积层以及各残差卷积块间用于下采样的卷积层;
所述重复十字交叉注意力模块由两个CCA模块串联而成,其输入和输出特征图尺寸一致,CCA模块将形状为(n,c,x,y)的特征图分别输入三个1×1卷积层,其中n为批量大小,c为特征图通道数,x和y为特征图尺寸,获取通道数为c/2的特征图Q、K、V;将Q和K进行关联操作,再通过softmax函数获取加权特征图,再把加权结果与V进行聚合操作后与原始特征图相加获取最终的特征图;所述关联操作的公式为
Figure FDA0003208092030000021
其中,Qu、Ωu分别为在特征图Q、K上位置为u的向量,
Figure FDA0003208092030000022
为Ωu的第i个元素的转置,di,u为Qu和Ωi,u的相关程度;所述聚合操作的公式为
Figure FDA0003208092030000023
其中,φi,u、Ai,u分别为在特征图V、A中在第i个通道和位置u上在同一行或同一列特征向量的标量值;Hu为原始特征图H在位置u上的特征向量,H′u为最后生成的注意力特征图在位置u上的特征向量;
所述softmax函数的公式为
Figure FDA0003208092030000024
其中,Zi为第i个节点的输出值,C为输出节点的个数,即分类的类别个数;通过Softmax函数将多分类的输出值转换为范围在[0,1]和为1的概率分布;
所述注意力模块CBAM包括空间域注意力生成模块SAM、空间域注意力生成模块CAM和注意力融合模块;
所述空间域生成模块的生成公式为
Figure FDA0003208092030000031
其中,Ms(F)为空间域注意力矩阵,
Figure FDA0003208092030000032
为空间域平均池化生成矩阵,
Figure FDA0003208092030000033
为空间域最大池化生成矩阵,AvgPool、MaxPool和Sigmoid分别为平均池化操作、最大池化操作和Sigmoid转化,f7×7为卷积核尺寸为7×7的卷积操作;
所述通道域生成模块的生成公式为
Figure FDA0003208092030000034
其中,Mc(F)为通道域注意力矩阵,
Figure FDA0003208092030000035
为通道域平局池化生成矩阵,
Figure FDA0003208092030000036
为通道域最大池化生成矩阵,AvgPool、MaxPool和Sigmoid分别为平均池化操作、最大池化操作和Sigmoid转化,MLP为一种多层感知机;
所述注意力融合模块的融合公式为FAttention=F×Ms(F)×Mc(F×Ms(F)),其中,FAttention为融合注意力的新特征图,Ms(F)为空间域注意力矩阵,Mc(F)为通道域注意力矩阵;
所述所述注意力模块CBAM的改进包括替换通道域生成模块、改进空间域生成模块和改进注意力融合模块,
所述替换通道域生成模块为将ResNeSt50中4个不同数量的重复残差卷积块替换原来的通道域模块;
所述改进空间域生成模块为在CBAM空间域生成模块添加经过重复十字交叉注意模块得到的通道数为1的特征图,与原有平均池化、最大池化结果连接后再输入3个3×3降维卷积层,输出空间域注意力矩阵;
所述改进空间域生成模块的公式为
Figure FDA0003208092030000041
其中,Ms(F)为空间域注意力矩阵,
Figure FDA0003208092030000042
为空间域平均池化生成矩阵,
Figure FDA0003208092030000043
为空间域最大池化生成矩阵,
Figure FDA0003208092030000044
为空间域卷积生成矩阵,AvgPool、MaxPool和Sigmoid分别为平均池化操作、最大池化操作和Sigmoid转化,f3*3×3为卷积核尺寸为3个3×3的卷积操作,CCA(CCA)为经过两次CCA模块操作,RCCA表示重复十字交叉注意模块;
所述改进空间域生成模块为在原有注意力融合模块开始处添加降维卷积模块,降维卷积模块由3×3卷积层、批量归一化层组合而成;
所述改进注意力融合模块的公式为
Figure FDA0003208092030000045
其中,FAttention为融合注意力的新特征图,Ms(F)为空间域注意力矩阵,Mc(F)为通道域注意力矩阵,f3*3×3为3个卷积核为3的卷积操作;
所述特征融合操作包括由改进空间域生成后的多通道特征图进行上采样:从最底层向上图像尺寸全都上采样为80×80,通道数依次为256、128、64、64,然后依次按通道维度进行拼接。
3.根据权利要求1所述的一种基于混合注意力的阴影检测方法,其特征在于,所述步骤S6中,FocalLoss损失函数的公式为
Figure FDA0003208092030000046
其中,α为0.25,γ为2,Lfl为损失值,y为标签,y′为预测值。
根据损失调整卷积神经网络的参数,网络优化方法为随机梯度下降,初始学习率为0.01,学习率衰减周期为100步,训练迭代步数为2000步。
4.根据权利要求1所述的一种基于混合注意力的阴影检测方法,其特征在于,所述步骤S1中获取用于训练系统的待处理公用阴影数据集,待处理公用阴影数据集中每例数据包括彩色原图与黑白标注图。
5.根据权利要求1或4所述的一种基于混合注意力的阴影检测方法,其特征在于,所述待处理公用阴影数据集包括SBU、UCF两个公用阴影数据集,其中SBU数据集包含4089例训练数据与638例测试数据,UCF数据集包含245例测试数据。
6.根据权利要求1所述的一种基于混合注意力的阴影检测方法,其特征在于,所述S3中预处理用于训练系统的公用阴影数据集的具体步骤如下,
步骤S31.对数据集训练数据与测试数据进行随机裁剪;
步骤S32.对数据集训练数据进行图像增广,图像增广为图像的水平或垂直镜像翻转,对数据集中每例数据彩色原图与黑白标注图进行同步操作。
7.根据权利要1所述的一种基于混合注意力的阴影检测方法,其特征在于,所述步骤S4中预处理待检测图像的具体方法为针对图像进行采样,采样阈值为320×320,采样方法为双线性插值法;
若图像长、宽皆大于320像素,下采样图像至320×320;
若图像长、宽皆小于320像素,上采样图像至320×320;
若图像320介于图像长、宽数值,采样图像至320×320;
若图像长、宽皆为320像素,不对图像进行采样操作。
CN202110922894.XA 2021-08-12 2021-08-12 一种基于混合注意力的阴影检测方法 Pending CN113642634A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110922894.XA CN113642634A (zh) 2021-08-12 2021-08-12 一种基于混合注意力的阴影检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110922894.XA CN113642634A (zh) 2021-08-12 2021-08-12 一种基于混合注意力的阴影检测方法

Publications (1)

Publication Number Publication Date
CN113642634A true CN113642634A (zh) 2021-11-12

Family

ID=78421011

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110922894.XA Pending CN113642634A (zh) 2021-08-12 2021-08-12 一种基于混合注意力的阴影检测方法

Country Status (1)

Country Link
CN (1) CN113642634A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114550014A (zh) * 2022-02-24 2022-05-27 中国电建集团中南勘测设计研究院有限公司 道路分割方法及计算机装置
CN114581560A (zh) * 2022-03-01 2022-06-03 西安交通大学 基于注意力机制的多尺度神经网络红外图像彩色化方法
CN114863097A (zh) * 2022-04-06 2022-08-05 北京航空航天大学 一种基于注意力机制卷积神经网络的红外弱小目标检测方法
CN114998138A (zh) * 2022-06-01 2022-09-02 北京理工大学 一种基于注意力机制的高动态范围图像去伪影方法
CN114998195A (zh) * 2022-04-21 2022-09-02 重庆理工大学 基于深度回归网络的猪b超图像脂肪含量检测方法
CN115115610A (zh) * 2022-07-20 2022-09-27 南京航空航天大学 基于改进卷积神经网络的工业ct识别复材内部缺陷方法
CN115272776A (zh) * 2022-09-26 2022-11-01 山东锋士信息技术有限公司 基于双路卷积与双注意的高光谱图像分类方法及存储介质
CN115375589A (zh) * 2022-10-25 2022-11-22 城云科技(中国)有限公司 一种去除图像阴影模型及其构建方法、装置及应用
CN115511882A (zh) * 2022-11-09 2022-12-23 南京信息工程大学 一种基于病变权重特征图的黑色素瘤识别方法
CN115604061A (zh) * 2022-08-30 2023-01-13 电子科技大学(Cn) 一种基于外部注意力机制的射频信号调制方式识别方法
CN115690522A (zh) * 2022-12-29 2023-02-03 湖北工业大学 一种基于多池化融合通道注意力的目标检测方法及其应用
CN116664918A (zh) * 2023-05-12 2023-08-29 杭州像素元科技有限公司 一种基于深度学习的收费站各车道通行状态检测的方法
CN116703928A (zh) * 2023-08-08 2023-09-05 宁德市天铭新能源汽车配件有限公司 一种基于机器学习的汽车零部件生产检测方法及系统
CN114863097B (zh) * 2022-04-06 2024-05-31 北京航空航天大学 一种基于注意力机制卷积神经网络的红外弱小目标检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180143966A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. Spatial Attention Model for Image Captioning
CN110059582A (zh) * 2019-03-28 2019-07-26 东南大学 基于多尺度注意力卷积神经网络的驾驶员行为识别方法
CN111639692A (zh) * 2020-05-25 2020-09-08 南京邮电大学 一种基于注意力机制的阴影检测方法
CN112818862A (zh) * 2021-02-02 2021-05-18 南京邮电大学 基于多源线索与混合注意力的人脸篡改检测方法与系统
CN112819762A (zh) * 2021-01-22 2021-05-18 南京邮电大学 一种基于伪孪生密集连接注意力机制的路面裂缝检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180143966A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. Spatial Attention Model for Image Captioning
CN110059582A (zh) * 2019-03-28 2019-07-26 东南大学 基于多尺度注意力卷积神经网络的驾驶员行为识别方法
CN111639692A (zh) * 2020-05-25 2020-09-08 南京邮电大学 一种基于注意力机制的阴影检测方法
CN112819762A (zh) * 2021-01-22 2021-05-18 南京邮电大学 一种基于伪孪生密集连接注意力机制的路面裂缝检测方法
CN112818862A (zh) * 2021-02-02 2021-05-18 南京邮电大学 基于多源线索与混合注意力的人脸篡改检测方法与系统

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114550014A (zh) * 2022-02-24 2022-05-27 中国电建集团中南勘测设计研究院有限公司 道路分割方法及计算机装置
CN114581560A (zh) * 2022-03-01 2022-06-03 西安交通大学 基于注意力机制的多尺度神经网络红外图像彩色化方法
CN114581560B (zh) * 2022-03-01 2024-04-16 西安交通大学 基于注意力机制的多尺度神经网络红外图像彩色化方法
CN114863097A (zh) * 2022-04-06 2022-08-05 北京航空航天大学 一种基于注意力机制卷积神经网络的红外弱小目标检测方法
CN114863097B (zh) * 2022-04-06 2024-05-31 北京航空航天大学 一种基于注意力机制卷积神经网络的红外弱小目标检测方法
CN114998195B (zh) * 2022-04-21 2023-06-16 重庆理工大学 基于深度回归网络的猪b超图像脂肪含量检测方法
CN114998195A (zh) * 2022-04-21 2022-09-02 重庆理工大学 基于深度回归网络的猪b超图像脂肪含量检测方法
CN114998138A (zh) * 2022-06-01 2022-09-02 北京理工大学 一种基于注意力机制的高动态范围图像去伪影方法
CN114998138B (zh) * 2022-06-01 2024-05-28 北京理工大学 一种基于注意力机制的高动态范围图像去伪影方法
CN115115610B (zh) * 2022-07-20 2023-08-22 南京航空航天大学 基于改进卷积神经网络的工业ct识别复材内部缺陷方法
CN115115610A (zh) * 2022-07-20 2022-09-27 南京航空航天大学 基于改进卷积神经网络的工业ct识别复材内部缺陷方法
CN115604061B (zh) * 2022-08-30 2024-04-09 电子科技大学 一种基于外部注意力机制的射频信号调制方式识别方法
CN115604061A (zh) * 2022-08-30 2023-01-13 电子科技大学(Cn) 一种基于外部注意力机制的射频信号调制方式识别方法
CN115272776B (zh) * 2022-09-26 2023-01-20 山东锋士信息技术有限公司 基于双路卷积与双注意的高光谱图像分类方法及存储介质
CN115272776A (zh) * 2022-09-26 2022-11-01 山东锋士信息技术有限公司 基于双路卷积与双注意的高光谱图像分类方法及存储介质
CN115375589B (zh) * 2022-10-25 2023-02-10 城云科技(中国)有限公司 一种去除图像阴影模型及其构建方法、装置及应用
CN115375589A (zh) * 2022-10-25 2022-11-22 城云科技(中国)有限公司 一种去除图像阴影模型及其构建方法、装置及应用
CN115511882B (zh) * 2022-11-09 2023-03-21 南京信息工程大学 一种基于病变权重特征图的黑色素瘤识别方法
CN115511882A (zh) * 2022-11-09 2022-12-23 南京信息工程大学 一种基于病变权重特征图的黑色素瘤识别方法
CN115690522A (zh) * 2022-12-29 2023-02-03 湖北工业大学 一种基于多池化融合通道注意力的目标检测方法及其应用
CN116664918A (zh) * 2023-05-12 2023-08-29 杭州像素元科技有限公司 一种基于深度学习的收费站各车道通行状态检测的方法
CN116703928B (zh) * 2023-08-08 2023-10-27 宁德市天铭新能源汽车配件有限公司 一种基于机器学习的汽车零部件生产检测方法及系统
CN116703928A (zh) * 2023-08-08 2023-09-05 宁德市天铭新能源汽车配件有限公司 一种基于机器学习的汽车零部件生产检测方法及系统

Similar Documents

Publication Publication Date Title
CN111639692B (zh) 一种基于注意力机制的阴影检测方法
CN113642634A (zh) 一种基于混合注意力的阴影检测方法
CN112560831B (zh) 一种基于多尺度空间校正的行人属性识别方法
CN113673590B (zh) 基于多尺度沙漏密集连接网络的去雨方法、系统和介质
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN112396607A (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN110929593A (zh) 一种基于细节辨别区别的实时显著性行人检测方法
CN113221641A (zh) 基于生成对抗网络和注意力机制的视频行人重识别方法
CN110532959B (zh) 基于双通道三维卷积神经网络的实时暴力行为检测系统
CN112801015A (zh) 一种基于注意力机制的多模态人脸识别方法
Haque et al. Two-handed bangla sign language recognition using principal component analysis (PCA) and KNN algorithm
CN110647820B (zh) 基于特征空间超分辨映射的低分辨率人脸识别方法
CN114898284B (zh) 一种基于特征金字塔局部差异注意力机制的人群计数方法
CN112580521B (zh) 一种基于maml元学习算法的多特征真假视频检测方法
CN111274987A (zh) 人脸表情识别方法及人脸表情识别装置
CN111738054A (zh) 一种基于时空自编码器网络和时空cnn的行为异常检测方法
CN112580480A (zh) 一种高光谱遥感影像分类方法及装置
CN111160356A (zh) 一种图像分割分类方法和装置
CN112257741A (zh) 一种基于复数神经网络的生成性对抗虚假图片的检测方法
Zhang et al. Spatial–temporal gray-level co-occurrence aware CNN for SAR image change detection
CN111274964A (zh) 一种基于无人机视觉显著性分析水面污染物的检测方法
CN114780767A (zh) 一种基于深度卷积神经网络的大规模图像检索方法及系统
CN111539434B (zh) 基于相似度的红外弱小目标检测方法
CN110503157B (zh) 基于细粒度图像的多任务卷积神经网络的图像隐写分析方法
Birajdar et al. Subsampling-based blind image forgery detection using support vector machine and artificial neural network classifiers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination