CN111639692A - 一种基于注意力机制的阴影检测方法 - Google Patents
一种基于注意力机制的阴影检测方法 Download PDFInfo
- Publication number
- CN111639692A CN111639692A CN202010446473.XA CN202010446473A CN111639692A CN 111639692 A CN111639692 A CN 111639692A CN 202010446473 A CN202010446473 A CN 202010446473A CN 111639692 A CN111639692 A CN 111639692A
- Authority
- CN
- China
- Prior art keywords
- attention
- convolution
- channels
- image
- convolutional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于注意力机制的阴影检测方法,包括:获取用于训练系统的待处理公用阴影数据集;从摄像头设备或本地硬盘上获取待检测阴影图像;公用阴影数据集的预处理并获得对应的训练集与测试集;待检测阴影图像的预处理;系统核心神经网络各模块的搭建与融合,组成基于注意力机制的卷积神经网络;计算网络预测与标签损失,根据损失调整网络参数;深度卷积神经网络的完全训练并向其输入预处理的待检测阴影图像;输出阴影检测结果,对各像素进行阴影属性分类,完成自定义数据的阴影检测流程。本发明增加了阴影特征的提取能力,降低了语义间的关联性,提升了检测系统的泛化性与高效性,使得阴影检测结果更加精确。
Description
技术领域
本发明通过研究阴影模型与注意力模型,结合残差卷积神经网络,提出了一种检测阴影的有效方法。增加了阴影特征的提取能力,提升了检测系统的泛化性与高效性,使得阴影检测结果更加精确,属于阴影检测领域。
背景技术
在图像识别或语义分割等计算机视觉分类任务中,算法需要首先提取图像或视频中的特征,深度学习中通常使用卷积神经网络进行卷积操作,逐像素处理特征语义信息,寻找与标签的似然性。因此,图像的语义构成与各像素间的关联性决定着卷积操作的效率与复杂度。
文件:Hoeim D.Single-image shadow detection and removal using pairedregions[C]//Computer Vision and Pattern Recognition.Colorado Springs:IEEE,2011:2033–2040指出,阴影作为无关背景语义,其中包含的可用关键信息较少,对于分类任务起不到相关作用,但由于其具备与目标前景像素紧密相连且形状近似的特点,通常会对计算机视觉任务的顺利进行产生影响。同时在灰度空间中,阴影对于目标像素语义具备更高的混淆性,导致卷积神经网络不易发掘出两者间的显著区别,从而降低算法训练与预测的准确性与鲁棒性。因此,在常见计算机视觉任务,如智慧驾驶、人脸检测、目标跟踪与识别、姿态估计中,图像的阴影检测工作显得格外重要,一个高效、全面、可泛化的阴影检测模型会提升整个任务的工作效率与能力上限。
目前已有部分学者提出了阴影检测算法,但其中大部分算法没有考虑到注意力机制在此类任务中的适用性以及其本身的高效性,因此最终检测效果往往达不到预期效果。
Vicente等人在Vicente T F Y,Yu C P,Samaras D.Single image shadowdetection using multiple cues in a supermodular MRF[C]//British MachineVision Conference.Bristol:British Machine Vision Association,2013:1–12中提出支持向量机检测算法,构建SVM分类器对阴影进行有效分类;Maryam等发表文件Maryam G,Fatimah K,Abdullah L N.Shadow detection using color and edge information[J].Journal of Computer Science,2013,9(11):1575-1588,提出边缘信息检测算法,使用算子提炼图像中的低阶边缘信息,获取前景与阴影的边缘,从而达到分类效果;Hosseinzadeh等在文章Hosseinzadeh S,Shakeri M,Zhang H.Fast shadow detection from a singleimage using a patched convolutional neural network[C]//2018IEEE/RSJInternational Conference on Intelligent Robots and Systems(IROS).IEEE,2018:3124-3129中提出神经网络检测算法,利用卷积神经网络对图像进行卷积处理,获取高阶特征,大大提升准确度;Nguyen等提出Nguyen V,Vicente Y,Tomas F,et al.Shadowdetection with conditional generative adversarial networks[C]//Proceedings ofthe IEEE International Conference on Computer Vision.2017:4510-4518,使用生成对抗网络检测算法,使用生成器和判别器处理图像,准确度提升的同时却大大增加了模型的复杂程度。
文件:Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Advances in neural information processing systems.2017:5998-6008使用注意力机制,通过对像素级别的语义进行权值分配,提取目标前景最为显著的特征,引导算法集中处理这些首要目标特征,降低前景与背景的关联性,达到提高模型的迭代速度与准确性的目的。因此,注意力机制适用于阴影检测任务,其独有特性,对于图像中阴影的发掘具备较高的识别灵敏度。
发明内容
发明目的:为了克服阴影作为无关背景语义,对于分类任务起不到相关作用,通常会对计算机视觉任务的顺利进行产生影响的问题,本发明提供一种基于注意力机制的阴影检测方法,使用预训练的残差网络,结合并行连接与密集连接卷积神经网络的设计思路,通过注意力机制提升系统对于阴影的识别能力,将系统的感受野从局部扩大到全局,实现阴影检测的高效性、可靠性。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于注意力机制的阴影检测方法,包括以下步骤:
步骤1),获取用于训练系统的待处理公用阴影数据集。
步骤2),从摄像头或本地硬盘获取待检测图像。
步骤3),预处理用于训练系统的公用阴影数据集并获得对应的训练集与测试集。
步骤4),预处理待检测图像。
步骤5),核心神经网络各模块的搭建与融合,组成基于注意力机制的卷积神经网络。
所述步骤5核心神经网络各模块的搭建,包括预训练卷积神经网络Resnet50的搭建与微调、并行卷积模块的搭建、注意力模块CBAM的改进与搭建、上采样与输出模块的搭建:
所述预训练卷积神经网络Resnet50包括:1个7×7卷积层,通道数为64,步数为2。1个3×3最大池化层,步数为2。3个重复的残差卷积块,每个卷积块包括1个通道数为64的1×1卷积层、1个通道数为64的3×3卷积层、1个通道数为256的1×1卷积层。4个重复的残差卷积块,每个卷积块包括1个通道数为128的1×1卷积层、1个通道数为128的3×3卷积层、1个通道数为512的1×1卷积层。6个重复的残差卷积块,每个卷积块包括1个通道数为256的1×1卷积层、1个通道数为256的3×3卷积层、1个通道数为1024的1×1卷积层。3个重复的残差卷积块,每个卷积块包括1个通道数为512的1×1卷积层、1个通道数为512的3×3卷积层、1个通道数为2048的1×1卷积层以及各残差卷积块间用于下采样的卷积层。
所述并行卷积模块包括两类残差卷积模块,记为第一类残差卷积模块、第二类残差卷积模块。
所述第一类残差卷积模块将形状为(n,c,x,y)的特征图顺序输入5个卷积层,其中n为批量大小,c为特征图通道数,x和y表示特征图尺寸,再将输出结果与原始特征图相加,5个卷积层分别为通道数为c的3×3卷积层、通道数为c的5×5卷积层、通道数为2c的5×5卷积层、通道数为4c的5×5卷积层、通道数为c的1×1卷积层,使用激活函数Relu优化,所述Relu激活函数为Relu(q)=max(0,q),其中q为单个神经元的加权求和值。
所述第二类残差卷积模块将形状为(n,c,x,y)的特征图顺序输入5个卷积层,其中n为批量大小,c为特征图通道数,x和y表示特征图尺寸,再将输出结果与原始特征图相加。5个卷积层分别为通道数为4c的1×1卷积层、通道数为4c的3×3卷积层、通道数为2c的3×3卷积层、通道数为c的3×3卷积层、通道数为c的3×3卷积层,使用激活函数Relu优化。
所述注意力模块CBAM包括空间域注意力生成模块SAM、空间域注意力生成模块CAM和注意力融合模块。
空间域生成模块的计算流程:
其中,Ms(F)为空间域注意力矩阵,为空间域平局池化生成矩阵,为空间域最大池化生成矩阵,AvgPool、MaxPool和Sigmoid分别代表平均池化操作、最大池化操作和Sigmoid转化,f7×7为卷积核尺寸为7×7的卷积操作。
通道域生成模块的计算流程:
其中,Mc(F)为通道域注意力矩阵,为通道域平局池化生成矩阵,为通道域最大池化生成矩阵,AvgPool、MaxPool和Sigmoid分别代表平均池化操作、最大池化操作和Sigmoid转化,MLP为一种多层感知机。
注意力融合模块的计算流程:
FAttention=F×Ms(F)Mc(F×Ms(F)) (3)
其中,FAttention为融合注意力的新特征图,Ms(F)为空间域注意力矩阵,Mc(F)为通道域注意力矩阵。
所述注意力模块CBAM的改进包括改进空间域生成模块和改进注意力融合模块,
其中所述改进空间域生成模块,具体为在CBAM空间域生成模块添加通道数为1的卷积层,与原有平均池化、最大池化结果连接再输入7×7降维卷积层,输出空间域注意力矩阵:
改进后的空间域生成模块的计算流程:
其中,Ms(F)为空间域注意力矩阵,为空间域平局池化生成矩阵,为空间域最大池化生成矩阵,为空间域卷积生成矩阵,AvgPool、MaxPool和Sigmoid分别代表平均池化操作、最大池化操作和Sigmoid转化,f7×7为卷积核尺寸为7×7的卷积操作,Conv为一种目标通道数为1的卷积操作。
所述改进注意力融合模块,具体为在原有注意力融合模块开始处添加降维卷积模块,降维卷积模块由3×3卷积层、批量归一化层组合而成。
改进后的注意力融合模块的计算流程:
其中,FAttention为融合注意力的新特征图,Ms(F)为空间域注意力矩阵,Mc(F)为通道域注意力矩阵,f3×3为卷积核为3的卷积操作。
所述上采样与输出模块,包括1个3×3的通道数为64的卷积层、一个4倍上采样双线性插值转置卷积层、一个Sigmoid激活函数。
步骤6),计算网络预测与标签的损失,根据损失调整网络参数,损失使用FocalLoss损失函数进行计算,
FocalLoss损失函数:
其中,α取0.25,γ取2,Lfl为损失值,y为标签,y′为预测值。
根据损失调整网络参数,其中网络优化方法使用随机梯度下降,初始学习率为0.01,学习率衰减周期为100步,训练迭代步数为2000步。
步骤7),深度卷积神经网络的完全训练并向其输入步骤4)得到的预处理待检测阴影图像。
步骤8),输出阴影检测结果,对各像素进行阴影属性分类。
优选的:所述步骤1)获取用于训练系统的待处理公用阴影数据集,公用阴影数据集中每例数据包含彩色原图与黑白标注图两张图像。。
优选的:公用阴影数据集包括SBU、UCF两个公用阴影数据集,其中SBU数据集包含4089例训练数据与638例测试数据,UCF数据集包含245例测试数据。
优选的:所述步骤3预处理用于训练系统的公用阴影数据集,其具体过程包括如下步骤:
步骤31),对步骤1获得的数据集训练数据与测试数据进行随机裁剪。
步骤32),对步骤31获得的数据集训练数据进行图像增广,增广模式为图像的水平或垂直镜像翻转。
优选的:步骤31)中的裁剪大小为320×320。
优选的:针对数据集的裁剪与增广操作,为数据集中每例数据彩色原图与黑白标注图的同步操作。
优选的:所述步骤4预处理待检测图像,其预处理过程具体为针对图像的采样过程,采样阈值为320×320,采样方法为双线性插值法。
若图像长、宽皆大于320像素,下采样图像至320×320。
若图像长、宽皆小于320像素,上采样图像至320×320。
若图像320介于图像长、宽数值,采样图像至320×320。
若图像长、宽皆为320像素,不对图像进行采样操作。
本发明相比现有技术,具有以下有益效果:
本发明增加了阴影特征的提取能力,降低了语义间的关联性,提升了检测系统的泛化性与高效性,使得阴影检测结果更加精确。
附图说明
图1为并行卷积模块结构图。
图2为本发明的流程图。
图3为阴影检测网络的结构图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种基于注意力机制的阴影检测方法,如图1所示,包括以下步骤:
步骤1),获取用于训练系统的待处理公用阴影数据集。其数据集包括SBU、UCF两个公用阴影数据集,其中SBU数据集包含4089例训练数据与638例测试数据,UCF数据集包含245例测试数据,每例数据包含彩色原图与黑白标注图两张图像。
步骤2),从摄像头或本地硬盘获取待检测图像。
步骤3),预处理用于训练系统的阴影数据集并获得对应的训练集与测试集。
其具体过程包括如下步骤:
步骤31),对步骤1获得的数据集训练数据与测试数据进行随机裁剪,裁剪大小为320×320。
步骤32),对步骤32获得的数据集训练数据进行图像增广,增广模式为图像的水平或垂直镜像翻转,增广规模为2倍。
在上述预处理阶段中,所有针对数据集的裁剪与增广操作,为数据集中每例数据彩色原图与黑白标注图的同步操作。
步骤4),预处理待检测图像。
其预处理过程具体为针对图像的采样过程。采样阈值为320×320,采样方法为双线性插值法。
若图像长、宽皆大于320像素,下采样图像至320×320。
若图像长、宽皆小于320像素,上采样图像至320×320。
若图像320介于图像长、宽数值,采样图像至320×320。
若图像长、宽皆为320像素,不对图像进行采样操作。
步骤5),核心神经网络各模块的搭建与融合,组成基于注意力机制的卷积神经网络。
核心神经网络各模块的搭建,包括预训练卷积神经网络Resnet50的搭建与微调、并行卷积模块的搭建、注意力模块CBAM的改进与搭建、上采样与输出模块的搭建。
预训练卷积神经网络Resnet50的优化与调整:
对于原有Resnet50网络,去除最后的全连接层和全局池化层,并使用已在Imagenet数据集上训练完成的Resnet50网络已有参数,优化后的网络包括:1个7×7卷积层,通道数为64,步数为2。1个3×3最大池化层,步数为2。3个重复的残差卷积块,每个卷积块包括1个通道数为64的1×1卷积层、1个通道数为64的3×3卷积层、1个通道数为256的1×1卷积层。4个重复的残差卷积块,每个卷积块包括1个通道数为128的1×1卷积层、1个通道数为128的3×3卷积层、1个通道数为512的1×1卷积层。6个重复的残差卷积块,每个卷积块包括1个通道数为256的1×1卷积层、1个通道数为256的3×3卷积层、1个通道数为1024的1×1卷积层。3个重复的残差卷积块,每个卷积块包括1个通道数为512的1×1卷积层、1个通道数为512的3×3卷积层、1个通道数为2048的1×1卷积层以及各残差卷积块间用于下采样的卷积层。
并行卷积模块的搭建与定义:
Resnet50网络具备高效的特征提取能力,随着网络深度的增加,特征图通道数增加,但特征图尺寸随之减小,有利于高层次特征的提取。考虑到语义分割任务中图像尺寸的变化会导致像素级别特征的提取精度降低,结合并行网络的设计思路,根据Resnet50各残差块形状设计两类对应的残差卷积模块,从不同的尺度维度和感受野获取图像更多特征,这两类残差卷积模块与Resnet50残差块并行工作,组成并行卷积模块Parallel Block。
第一类残差卷积模块将形状为(n,c,x,y)的特征图顺序输入5个卷积层,其中n为批量大小,c为特征图通道数,x和y表示特征图尺寸,再将输出结果与原始特征图相加。5个卷积层分别为通道数为c的3×3卷积层、通道数为c的5×5卷积层、通道数为2c的5×5卷积层、通道数为4c的5×5卷积层、通道数为c的1×1卷积层,各模块间使用激活函数Relu优化,所述Relu激活函数为Relu(q)=max(0,q),其中q为单个神经元的加权求和值。首先将特征图拓展至更高的维度进行特征提取,再逐步通过卷积层降维,压缩高维特征,精炼图像信息,最后利用残差连接,避免网络退化。本模块的作用在于提取并行的Resnet50残差块在这一层次无法提取到的高维特征,达到提前获取更多层次信息的作用。
第二类残差卷积模块发挥尺度放大作用,将形状为(n,c,x,y)的特征图顺序输入5个卷积层,其中n为批量大小,c为特征图通道数,x和y表示特征图尺寸,再将输出结果与原始特征图相加。5个卷积层分别为通道数为4c的1×1卷积层、通道数为4c的3×3卷积层、通道数为2c的3×3卷积层、通道数为c的3×3卷积层、通道数为c的3×3卷积层,各模块间使用激活函数Relu优化。利用更大的5×5卷积核,为模型提供更大的感受野,降低了卷积核大小固定带来的视野局限性,有利于获取更多的全局信息。放大感受野同时会为注意力模块提供更多非局部信息,使得注意力的生成更加准确。
上述两类残差卷积模块与原始残差卷积网络Rsenet50的残差块并行独立工作,组成并行卷积模块Parallel Block。
注意力模块CBAM的改进与搭建:
注意力模块CBAM是一种在计算机视觉任务中可靠的注意力机制算法,具备简单的算法结构与可观的实际效果。CBAM结合了卷积神经网络的空间和通道,为不同注意域的图像与特征图生成各自的注意力,引导模型更高效地区分语义信息,注意力模块CBAM包括空间域注意力生成模块SAM、空间域注意力生成模块CAM和注意力融合模块。
空间域生成模块的计算流程:
其中,Ms(F)为空间域注意力矩阵,为空间域平局池化生成矩阵,为空间域最大池化生成矩阵,AvgPool、MaxPool和Sigmoid分别代表平均池化操作、最大池化操作和Sigmoid转化,f7×7为卷积核尺寸为7×7的卷积操作。
通道域生成模块的计算流程:
其中,Mc(F)为通道域注意力矩阵,为通道域平局池化生成矩阵,为通道域最大池化生成矩阵,AvgPool、MaxPool和Sigmoid分别代表平均池化操作、最大池化操作和Sigmoid转化,MLP为一种多层感知机。
注意力融合模块的计算流程:
FAttention=F×Ms(F)×Mc(F×Ms(F)) (3)
其中,FAttention为融合注意力的新特征图,Ms(F)为空间域注意力矩阵,Mc(F)为通道域注意力矩阵。
结合本文设计模型实际情况与模块间连接需求,需要在CBAM原本基础上做出一些改进。
所述注意力模块CBAM的改进包括改进空间域生成模块和改进注意力融合模块。其中所述改进空间域生成模块,结合并行卷积模块Parallel Block的并行连接思想与压缩特征的能性,具体为在CBAM空间域生成模块添加通道数为1的卷积层,与原有平均池化、最大池化结果连接再输入7×7降维卷积层,输出空间域注意力矩阵。
改进后的空间域生成模块的计算流程:
其中,Ms(F)为空间域注意力矩阵,为空间域平局池化生成矩阵,为空间域最大池化生成矩阵,为空间域卷积生成矩阵,AvgPool、MaxPool和Sigmoid分别代表平均池化操作、最大池化操作和Sigmoid转化,f7×7为卷积核尺寸为7×7的卷积操作,Conv为一种目标通道数为1的卷积操作。
所述改进注意力融合模块,由于并行卷积模块Parallel Block的输出由三个残差卷积模块输出的特征图基于通道连接而成,之后再输入注意力生成模块CBAM,而基于通道连接后的特征图往往具备更高的通道数,具体为在原有注意力融合模块开始处添加降维卷积模块,降维卷积模块由3×3卷积层、批量归一化层组合而成。
改进后的注意力融合模块的计算流程:
其中,FAttention为融合注意力的新特征图,Ms(F)为空间域注意力矩阵,Mc(F)为通道域注意力矩阵,f3×3为卷积核为3的卷积操作。
改进后的注意力生成模块conv-CBAM由降维卷积模块、原始的通道域生成模块和改进的空间域生成模块组成。
上采样与输出模块,包括1个3×3的通道数为64的卷积层、一个4倍上采样双线性插值转置卷积层、一个Sigmoid激活函数,此模块搭建在模型的最后,用于输出模型的预测结果。
考虑到Resnet50具有四个不同维度的残差卷积模块Residual Block,本模型基于各Residual Block组成四个并行卷积模块Parallel Block。在每个Parallel Block中会获得三种形状一样的特征图输出,基于通道连接后,输入改进的conv-CBAM注意力模块,获得这一层次的加权注意力特征图并与其它层次得到的特征图进行密集连接,再输入下一层次的并行卷积模块。考虑到模型在经过四个并行卷积模块后,最终会将图像尺寸缩小四倍,故添加上采样转置卷积层,还原输出图像尺寸。
由于模型使用并行连接网络,在模型宽度维度上提取了更多可用特征,故相较于原始Resnet50,去除核心注意力模块conv-CBAM后,并未额外增加模型深度。通过密集连接各加权注意力特征图,充分重用特征,获得额外输入并相互映射传递,避免模型退化,提高了模型的工作效率。
系统在ubuntu16.04、Python3.6、mxnet-cu100环境下搭建,在一张Tesla P100显卡上训练并测试,处理一张图片平均耗时0.031秒,预计检测速度达到每秒32.2帧,具备一定的高效实时检测能力。
步骤6),计算网络预测与标签的损失,根据损失调整网络参数。
训练中,使用FocalLoss损失函数计算预测与标签间的损失。
FocalLoss计算公式:
其中,α取0.25,γ取2,Lfl为损失值,y为标签,y′为预测值。
系统网络的优化方法使用随机梯度下降,初始学习率为0.01,学习率衰减周期为100步,训练迭代步数为2000步。
步骤7),深度卷积神经网络的完全训练并向其输入预处理的待检测阴影图像。
步骤8),输出阴影检测结果,对各像素进行阴影属性分类。
本发明考虑到计算机视觉任务中阴影模型对于图像前景的干扰,分析注意力机制的易用性与加权求和工作机制,结合可避免网络退化的残差神经网络,本发明所提出模型在融合了注意力机制与残差网络的基础上,还参考了密集连接与并行连接设计思想,因此具备高效的阴影识别能力与阴影语义提取能力。经过验证,系统对于阴影的预测表现优秀,具备高效的阴影检测能力,且通过跨模型验证,证明了模型的泛化能力。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (7)
1.一种基于注意力机制的阴影检测方法,其特征在于,包括以下步骤:
步骤1),获取用于训练系统的待处理公用阴影数据集;
步骤2),从摄像头或本地硬盘获取待检测图像;
步骤3),预处理用于训练系统的公用阴影数据集并获得对应的训练集与测试集;
步骤4),预处理待检测图像;
步骤5),核心神经网络各模块的搭建与融合,组成基于注意力机制的卷积神经网络;
所述步骤5核心神经网络各模块的搭建,包括预训练卷积神经网络Resnet50的搭建与微调、并行卷积模块的搭建、注意力模块CBAM的改进与搭建、上采样与输出模块的搭建:
所述预训练卷积神经网络Resnet50包括:1个7×7卷积层,通道数为64,步数为2;1个3×3最大池化层,步数为2;3个重复的残差卷积块,每个卷积块包括1个通道数为64的1×1卷积层、1个通道数为64的3×3卷积层、1个通道数为256的1×1卷积层;4个重复的残差卷积块,每个卷积块包括1个通道数为128的1×1卷积层、1个通道数为128的3×3卷积层、1个通道数为512的1×1卷积层;6个重复的残差卷积块,每个卷积块包括1个通道数为256的1×1卷积层、1个通道数为256的3×3卷积层、1个通道数为1024的1×1卷积层;3个重复的残差卷积块,每个卷积块包括1个通道数为512的1×1卷积层、1个通道数为512的3×3卷积层、1个通道数为2048的1×1卷积层以及各残差卷积块间用于下采样的卷积层;
所述并行卷积模块包括两类残差卷积模块,记为第一类残差卷积模块、第二类残差卷积模块;
所述第一类残差卷积模块将形状为(n,c,x,y)的特征图顺序输入5个卷积层,其中n为批量大小,c为特征图通道数,x和y表示特征图尺寸,再将输出结果与原始特征图相加,5个卷积层分别为通道数为c的3×3卷积层、通道数为c的5×5卷积层、通道数为2c的5×5卷积层、通道数为4c的5×5卷积层、通道数为c的1×1卷积层,使用激活函数Relu优化,所述Relu激活函数为Relu(q)=max(0,q),其中q为单个神经元的加权求和值;
所述第二类残差卷积模块将形状为(n,c,x,y)的特征图顺序输入5个卷积层,其中n为批量大小,c为特征图通道数,x和y表示特征图尺寸,再将输出结果与原始特征图相加;5个卷积层分别为通道数为4c的1×1卷积层、通道数为4c的3×3卷积层、通道数为2c的3×3卷积层、通道数为c的3×3卷积层、通道数为c的3×3卷积层,使用激活函数Relu优化;
所述注意力模块CBAM包括空间域注意力生成模块SAM、空间域注意力生成模块CAM和注意力融合模块。
空间域生成模块的计算流程:
其中,Ms(F)为空间域注意力矩阵,为空间域平局池化生成矩阵,为空间域最大池化生成矩阵,AvgPool、MaxPool和Sigmoid分别代表平均池化操作、最大池化操作和Sigmoid转化,f7×7为卷积核尺寸为7×7的卷积操作;
通道域生成模块的计算流程:
其中,Mc(F)为通道域注意力矩阵,为通道域平局池化生成矩阵,为通道域最大池化生成矩阵,AvgPool、MaxPool和Sigmoid分别代表平均池化操作、最大池化操作和Sigmoid转化,MLP为一种多层感知机;
注意力融合模块的计算流程:
FAttention=F×Ms(F)×Mc(F×Ms(F)) (3)
其中,FAttention为融合注意力的新特征图,Ms(F)为空间域注意力矩阵,Mc(F)为通道域注意力矩阵;
所述注意力模块CBAM的改进包括改进空间域生成模块和改进注意力融合模块,
其中所述改进空间域生成模块,具体为在CBAM空间域生成模块添加通道数为1的卷积层,与原有平均池化、最大池化结果连接再输入7×7降维卷积层,输出空间域注意力矩阵:
改进后的空间域生成模块的计算流程:
其中,Ms(F)为空间域注意力矩阵,为空间域平局池化生成矩阵,为空间域最大池化生成矩阵,为空间域卷积生成矩阵,AvgPool、MaxPool和Sigmoid分别代表平均池化操作、最大池化操作和Sigmoid转化,f7×7为卷积核尺寸为7×7的卷积操作,Conv为一种目标通道数为1的卷积操作;
所述改进注意力融合模块,具体为在原有注意力融合模块开始处添加降维卷积模块,降维卷积模块由3×3卷积层、批量归一化层组合而成;
改进后的注意力融合模块的计算流程:
其中,FAttention为融合注意力的新特征图,Ms(F)为空间域注意力矩阵,Mc(F)为通道域注意力矩阵,f3×3为卷积核为3的卷积操作;
所述上采样与输出模块,包括1个3×3的通道数为64的卷积层、一个4倍上采样双线性插值转置卷积层、一个Sigmoid激活函数;
步骤6),计算网络预测与标签的损失,根据损失调整网络参数,损失使用FocalLoss损失函数进行计算,
FocalLoss损失函数:
其中,α取0.25,γ取2,Lfl为损失值,y为标签,y′为预测值。
根据损失调整网络参数,其中网络优化方法使用随机梯度下降,初始学习率为0.01,学习率衰减周期为100步,训练迭代步数为2000步;
步骤7),深度卷积神经网络的完全训练并向其输入步骤4)得到的预处理待检测阴影图像;
步骤8),输出阴影检测结果,对各像素进行阴影属性分类。
2.根据权利要求1所述基于注意力机制的阴影检测方法,其特征在于:所述步骤1)获取用于训练系统的待处理公用阴影数据集,公用阴影数据集中每例数据包含彩色原图与黑白标注图两张图像;。
3.根据权利要求2所述基于注意力机制的阴影检测方法,其特征在于:公用阴影数据集包括SBU、UCF两个公用阴影数据集,其中SBU数据集包含4089例训练数据与638例测试数据,UCF数据集包含245例测试数据。
4.根据权利要求1所述基于注意力机制的阴影检测方法,其特征在于:所述步骤3预处理用于训练系统的公用阴影数据集,其具体过程包括如下步骤:
步骤31),对步骤1获得的数据集训练数据与测试数据进行随机裁剪;
步骤32),对步骤31获得的数据集训练数据进行图像增广,增广模式为图像的水平或垂直镜像翻转。
5.根据权利要求4所述基于注意力机制的阴影检测方法,其特征在于:步骤31)中的裁剪大小为320×320。
6.根据权利要求5所述基于注意力机制的阴影检测方法,其特征在于:针对数据集的裁剪与增广操作,为数据集中每例数据彩色原图与黑白标注图的同步操作。
7.根据权利要求6所述基于注意力机制的阴影检测方法,其特征在于:所述步骤4预处理待检测图像,其预处理过程具体为针对图像的采样过程,采样阈值为320×320,采样方法为双线性插值法;
若图像长、宽皆大于320像素,下采样图像至320×320;
若图像长、宽皆小于320像素,上采样图像至320×320;
若图像320介于图像长、宽数值,采样图像至320×320;
若图像长、宽皆为320像素,不对图像进行采样操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010446473.XA CN111639692B (zh) | 2020-05-25 | 2020-05-25 | 一种基于注意力机制的阴影检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010446473.XA CN111639692B (zh) | 2020-05-25 | 2020-05-25 | 一种基于注意力机制的阴影检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111639692A true CN111639692A (zh) | 2020-09-08 |
CN111639692B CN111639692B (zh) | 2022-07-22 |
Family
ID=72330490
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010446473.XA Active CN111639692B (zh) | 2020-05-25 | 2020-05-25 | 一种基于注意力机制的阴影检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111639692B (zh) |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112200161A (zh) * | 2020-12-03 | 2021-01-08 | 北京电信易通信息技术股份有限公司 | 一种基于混合注意力机制的人脸识别检测方法 |
CN112215100A (zh) * | 2020-09-27 | 2021-01-12 | 浙江工业大学 | 一种不平衡训练样本下针对退化图像的目标检测方法 |
CN112257766A (zh) * | 2020-10-16 | 2021-01-22 | 中国科学院信息工程研究所 | 一种基于频域滤波处理的自然场景下阴影识别检测方法 |
CN112364783A (zh) * | 2020-11-13 | 2021-02-12 | 诸暨思看科技有限公司 | 一种零件检测方法、装置及计算机可读存储介质 |
CN112581465A (zh) * | 2020-12-28 | 2021-03-30 | 西安邮电大学 | 一种焊缝缺陷检测方法、系统、终端及存储介质 |
CN112801275A (zh) * | 2021-02-08 | 2021-05-14 | 华南理工大学 | 一种加强通道重排和融合的卷积神经网络模块的实现方法 |
CN112818904A (zh) * | 2021-02-22 | 2021-05-18 | 复旦大学 | 一种基于注意力机制的人群密度估计方法及装置 |
CN112884073A (zh) * | 2021-03-22 | 2021-06-01 | 上海大学 | 图像去雨方法、系统、终端及存储介质 |
CN112926655A (zh) * | 2021-02-25 | 2021-06-08 | 电子科技大学 | 一种图像内容理解与视觉问答vqa方法、存储介质和终端 |
CN112949841A (zh) * | 2021-05-13 | 2021-06-11 | 德鲁动力科技(成都)有限公司 | 一种基于Attention的CNN神经网络的训练方法 |
CN113240050A (zh) * | 2021-06-08 | 2021-08-10 | 南京师范大学 | 一种特征融合权重可调的金属打印熔池检测方法 |
CN113362320A (zh) * | 2021-07-07 | 2021-09-07 | 北京工业大学 | 基于深度注意力网络的晶圆表面缺陷模式检测方法 |
CN113436115A (zh) * | 2021-07-30 | 2021-09-24 | 西安热工研究院有限公司 | 一种基于深度无监督学习的图像阴影检测方法 |
CN113642634A (zh) * | 2021-08-12 | 2021-11-12 | 南京邮电大学 | 一种基于混合注意力的阴影检测方法 |
CN113743505A (zh) * | 2021-09-06 | 2021-12-03 | 辽宁工程技术大学 | 基于自注意力和特征融合的改进ssd目标检测方法 |
CN113762251A (zh) * | 2021-08-17 | 2021-12-07 | 慧影医疗科技(北京)有限公司 | 一种基于注意力机制的目标分类方法及系统 |
CN113762357A (zh) * | 2021-08-18 | 2021-12-07 | 江苏大学 | 基于深度学习的智能药房处方检查方法 |
CN113808613A (zh) * | 2021-08-02 | 2021-12-17 | 中山大学 | 一种轻量化的语音去噪方法、系统、设备及存储介质 |
CN113808143A (zh) * | 2021-09-06 | 2021-12-17 | 沈阳东软智能医疗科技研究院有限公司 | 图像分割方法、装置、可读存储介质及电子设备 |
CN113838067A (zh) * | 2021-09-26 | 2021-12-24 | 中南民族大学 | 肺结节的分割方法和装置、计算设备、可存储介质 |
CN114511504A (zh) * | 2022-01-04 | 2022-05-17 | 电子科技大学 | 一种视频sar动目标阴影检测方法 |
CN114550109A (zh) * | 2022-04-28 | 2022-05-27 | 中国科学院微电子研究所 | 一种行人流量检测方法和系统 |
CN114998138A (zh) * | 2022-06-01 | 2022-09-02 | 北京理工大学 | 一种基于注意力机制的高动态范围图像去伪影方法 |
CN115511882A (zh) * | 2022-11-09 | 2022-12-23 | 南京信息工程大学 | 一种基于病变权重特征图的黑色素瘤识别方法 |
CN116703928A (zh) * | 2023-08-08 | 2023-09-05 | 宁德市天铭新能源汽车配件有限公司 | 一种基于机器学习的汽车零部件生产检测方法及系统 |
CN117173103A (zh) * | 2023-08-04 | 2023-12-05 | 山东大学 | 一种图像阴影检测方法及系统 |
CN113362320B (zh) * | 2021-07-07 | 2024-05-28 | 北京工业大学 | 基于深度注意力网络的晶圆表面缺陷模式检测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110705457A (zh) * | 2019-09-29 | 2020-01-17 | 核工业北京地质研究院 | 一种遥感影像建筑物变化检测方法 |
CN111127493A (zh) * | 2019-11-12 | 2020-05-08 | 中国矿业大学 | 基于注意力多尺度特征融合的遥感图像语义分割方法 |
-
2020
- 2020-05-25 CN CN202010446473.XA patent/CN111639692B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110705457A (zh) * | 2019-09-29 | 2020-01-17 | 核工业北京地质研究院 | 一种遥感影像建筑物变化检测方法 |
CN111127493A (zh) * | 2019-11-12 | 2020-05-08 | 中国矿业大学 | 基于注意力多尺度特征融合的遥感图像语义分割方法 |
Cited By (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112215100B (zh) * | 2020-09-27 | 2024-02-09 | 浙江工业大学 | 一种不平衡训练样本下针对退化图像的目标检测方法 |
CN112215100A (zh) * | 2020-09-27 | 2021-01-12 | 浙江工业大学 | 一种不平衡训练样本下针对退化图像的目标检测方法 |
CN112257766A (zh) * | 2020-10-16 | 2021-01-22 | 中国科学院信息工程研究所 | 一种基于频域滤波处理的自然场景下阴影识别检测方法 |
CN112257766B (zh) * | 2020-10-16 | 2023-09-29 | 中国科学院信息工程研究所 | 一种基于频域滤波处理的自然场景下阴影识别检测方法 |
CN112364783A (zh) * | 2020-11-13 | 2021-02-12 | 诸暨思看科技有限公司 | 一种零件检测方法、装置及计算机可读存储介质 |
CN112200161A (zh) * | 2020-12-03 | 2021-01-08 | 北京电信易通信息技术股份有限公司 | 一种基于混合注意力机制的人脸识别检测方法 |
CN112581465A (zh) * | 2020-12-28 | 2021-03-30 | 西安邮电大学 | 一种焊缝缺陷检测方法、系统、终端及存储介质 |
CN112581465B (zh) * | 2020-12-28 | 2023-04-07 | 西安邮电大学 | 一种焊缝缺陷检测方法、系统、终端及存储介质 |
CN112801275A (zh) * | 2021-02-08 | 2021-05-14 | 华南理工大学 | 一种加强通道重排和融合的卷积神经网络模块的实现方法 |
CN112801275B (zh) * | 2021-02-08 | 2024-02-13 | 华南理工大学 | 一种加强通道重排和融合的卷积神经网络模块的实现方法 |
CN112818904A (zh) * | 2021-02-22 | 2021-05-18 | 复旦大学 | 一种基于注意力机制的人群密度估计方法及装置 |
CN112926655A (zh) * | 2021-02-25 | 2021-06-08 | 电子科技大学 | 一种图像内容理解与视觉问答vqa方法、存储介质和终端 |
CN112926655B (zh) * | 2021-02-25 | 2022-05-17 | 电子科技大学 | 一种图像内容理解与视觉问答vqa方法、存储介质和终端 |
CN112884073A (zh) * | 2021-03-22 | 2021-06-01 | 上海大学 | 图像去雨方法、系统、终端及存储介质 |
CN112949841A (zh) * | 2021-05-13 | 2021-06-11 | 德鲁动力科技(成都)有限公司 | 一种基于Attention的CNN神经网络的训练方法 |
CN113240050A (zh) * | 2021-06-08 | 2021-08-10 | 南京师范大学 | 一种特征融合权重可调的金属打印熔池检测方法 |
CN113240050B (zh) * | 2021-06-08 | 2024-05-03 | 南京师范大学 | 一种特征融合权重可调的金属打印熔池检测方法 |
CN113362320A (zh) * | 2021-07-07 | 2021-09-07 | 北京工业大学 | 基于深度注意力网络的晶圆表面缺陷模式检测方法 |
CN113362320B (zh) * | 2021-07-07 | 2024-05-28 | 北京工业大学 | 基于深度注意力网络的晶圆表面缺陷模式检测方法 |
CN113436115A (zh) * | 2021-07-30 | 2021-09-24 | 西安热工研究院有限公司 | 一种基于深度无监督学习的图像阴影检测方法 |
CN113436115B (zh) * | 2021-07-30 | 2023-09-19 | 西安热工研究院有限公司 | 一种基于深度无监督学习的图像阴影检测方法 |
CN113808613B (zh) * | 2021-08-02 | 2023-12-12 | 中山大学 | 一种轻量化的语音去噪方法、系统、设备及存储介质 |
CN113808613A (zh) * | 2021-08-02 | 2021-12-17 | 中山大学 | 一种轻量化的语音去噪方法、系统、设备及存储介质 |
CN113642634A (zh) * | 2021-08-12 | 2021-11-12 | 南京邮电大学 | 一种基于混合注意力的阴影检测方法 |
CN113762251A (zh) * | 2021-08-17 | 2021-12-07 | 慧影医疗科技(北京)有限公司 | 一种基于注意力机制的目标分类方法及系统 |
CN113762251B (zh) * | 2021-08-17 | 2024-05-10 | 慧影医疗科技(北京)股份有限公司 | 一种基于注意力机制的目标分类方法及系统 |
CN113762357A (zh) * | 2021-08-18 | 2021-12-07 | 江苏大学 | 基于深度学习的智能药房处方检查方法 |
CN113762357B (zh) * | 2021-08-18 | 2024-05-14 | 江苏大学 | 基于深度学习的智能药房处方检查方法 |
CN113808143B (zh) * | 2021-09-06 | 2024-05-17 | 沈阳东软智能医疗科技研究院有限公司 | 图像分割方法、装置、可读存储介质及电子设备 |
CN113808143A (zh) * | 2021-09-06 | 2021-12-17 | 沈阳东软智能医疗科技研究院有限公司 | 图像分割方法、装置、可读存储介质及电子设备 |
CN113743505A (zh) * | 2021-09-06 | 2021-12-03 | 辽宁工程技术大学 | 基于自注意力和特征融合的改进ssd目标检测方法 |
CN113838067B (zh) * | 2021-09-26 | 2023-10-20 | 中南民族大学 | 肺结节的分割方法和装置、计算设备、可存储介质 |
CN113838067A (zh) * | 2021-09-26 | 2021-12-24 | 中南民族大学 | 肺结节的分割方法和装置、计算设备、可存储介质 |
CN114511504A (zh) * | 2022-01-04 | 2022-05-17 | 电子科技大学 | 一种视频sar动目标阴影检测方法 |
CN114511504B (zh) * | 2022-01-04 | 2023-11-10 | 电子科技大学 | 一种视频sar动目标阴影检测方法 |
CN114550109A (zh) * | 2022-04-28 | 2022-05-27 | 中国科学院微电子研究所 | 一种行人流量检测方法和系统 |
CN114998138A (zh) * | 2022-06-01 | 2022-09-02 | 北京理工大学 | 一种基于注意力机制的高动态范围图像去伪影方法 |
CN114998138B (zh) * | 2022-06-01 | 2024-05-28 | 北京理工大学 | 一种基于注意力机制的高动态范围图像去伪影方法 |
CN115511882B (zh) * | 2022-11-09 | 2023-03-21 | 南京信息工程大学 | 一种基于病变权重特征图的黑色素瘤识别方法 |
CN115511882A (zh) * | 2022-11-09 | 2022-12-23 | 南京信息工程大学 | 一种基于病变权重特征图的黑色素瘤识别方法 |
CN117173103A (zh) * | 2023-08-04 | 2023-12-05 | 山东大学 | 一种图像阴影检测方法及系统 |
CN117173103B (zh) * | 2023-08-04 | 2024-04-12 | 山东大学 | 一种图像阴影检测方法及系统 |
CN116703928B (zh) * | 2023-08-08 | 2023-10-27 | 宁德市天铭新能源汽车配件有限公司 | 一种基于机器学习的汽车零部件生产检测方法及系统 |
CN116703928A (zh) * | 2023-08-08 | 2023-09-05 | 宁德市天铭新能源汽车配件有限公司 | 一种基于机器学习的汽车零部件生产检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111639692B (zh) | 2022-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111639692B (zh) | 一种基于注意力机制的阴影检测方法 | |
Yeh et al. | Lightweight deep neural network for joint learning of underwater object detection and color conversion | |
CN110111366B (zh) | 一种基于多级损失量的端到端光流估计方法 | |
CN113642634A (zh) | 一种基于混合注意力的阴影检测方法 | |
CN113052210B (zh) | 一种基于卷积神经网络的快速低光照目标检测方法 | |
CN111274987B (zh) | 人脸表情识别方法及人脸表情识别装置 | |
CN112150493A (zh) | 一种基于语义指导的自然场景下屏幕区域检测方法 | |
CN110097028B (zh) | 基于三维金字塔图像生成网络的人群异常事件检测方法 | |
CN111582044A (zh) | 基于卷积神经网络和注意力模型的人脸识别方法 | |
CN110532959B (zh) | 基于双通道三维卷积神经网络的实时暴力行为检测系统 | |
CN113011329A (zh) | 一种基于多尺度特征金字塔网络及密集人群计数方法 | |
CN114898284B (zh) | 一种基于特征金字塔局部差异注意力机制的人群计数方法 | |
CN111696038A (zh) | 图像超分辨率方法、装置、设备及计算机可读存储介质 | |
CN112329784A (zh) | 一种基于时空感知及多峰响应的相关滤波跟踪方法 | |
CN112785636A (zh) | 一种多尺度增强式的单目深度估计方法 | |
Zhang et al. | Spatial–temporal gray-level co-occurrence aware CNN for SAR image change detection | |
CN111259792A (zh) | 基于dwt-lbp-dct特征的人脸活体检测方法 | |
Aldhaheri et al. | MACC Net: Multi-task attention crowd counting network | |
CN114519383A (zh) | 一种图像目标检测方法及系统 | |
CN111539434B (zh) | 基于相似度的红外弱小目标检测方法 | |
CN113361493A (zh) | 一种对不同图像分辨率鲁棒的人脸表情识别方法 | |
CN110503157B (zh) | 基于细粒度图像的多任务卷积神经网络的图像隐写分析方法 | |
CN116863293A (zh) | 一种基于改进YOLOv7算法的可见光下海上目标检测方法 | |
CN116758340A (zh) | 基于超分辨率特征金字塔和注意力机制的小目标检测方法 | |
CN116363535A (zh) | 基于卷积神经网络的无人机航拍影像中的船舶检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |