CN113436115B - 一种基于深度无监督学习的图像阴影检测方法 - Google Patents
一种基于深度无监督学习的图像阴影检测方法 Download PDFInfo
- Publication number
- CN113436115B CN113436115B CN202110874144.XA CN202110874144A CN113436115B CN 113436115 B CN113436115 B CN 113436115B CN 202110874144 A CN202110874144 A CN 202110874144A CN 113436115 B CN113436115 B CN 113436115B
- Authority
- CN
- China
- Prior art keywords
- shadow
- training
- module
- pseudo tag
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 96
- 238000012549 training Methods 0.000 claims abstract description 133
- 238000011156 evaluation Methods 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 47
- 230000004927 fusion Effects 0.000 claims description 39
- 230000004913 activation Effects 0.000 claims description 37
- 238000011176 pooling Methods 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 30
- 230000008447 perception Effects 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 24
- 238000005070 sampling Methods 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 12
- 241000282326 Felis catus Species 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 230000002776 aggregation Effects 0.000 claims description 6
- 238000004220 aggregation Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 4
- 230000001965 increasing effect Effects 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000007670 refining Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 13
- 238000013135 deep learning Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 238000004088 simulation Methods 0.000 description 7
- 230000001419 dependent effect Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
- G06T5/94—Dynamic range modification of images or parts thereof based on local image properties, e.g. for local contrast enhancement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度无监督学习的图像阴影检测方法,包括:(1)使用多种不同的传统无监督阴影检测模型对无标签的训练样本集进行预测,生成相应的预测阴影图:(2)构建初始伪标签生成模块,利用多个预测阴影图生成初始伪标签;(3)构建课程学习模块,利用多个阴影图设计由简单到复杂的学习课程;(4)构建伪标签更新模块,利用伪标签阴影强度作为评估标准,来评估已训练模型的预测阴影图和初始伪标签阴影图的可靠性,进而将可靠性高的阴影图作为新的伪标签;(5)构建基于轻量级网络结构的阴影检测模型;(6)利用课程学习和伪标签更新模块对网络模型进行多阶段训练,获得最后一阶段的网络模型参数;(7)预测图像的阴影结果图。
Description
技术领域
本发明属于图像处理领域,具体涉及一种基于深度无监督学习的图像阴影检测方法,适用于计算机视觉任务中图像的预处理过程。
背景技术
阴影检测旨在利用模型或算法检测和分割出图像中的阴影区域。作为图像的预处理步骤,阴影检测在目标检测、语义分割、视频跟踪等视觉任务中起着至关重要的作用。
现有的阴影检测方法可以分为两大类:一类是基于传统的阴影检测方法,另一类是基于深度学习的阴影检测方法。基于传统的阴影检测算法主要是通过人工提取的颜色、纹理、亮度、方向等特征完成图像阴影的检测,过度的依赖于人工选取的特征,对场景适应性不强,不具有鲁棒性,在复杂场景下的数据集表现不加。随着深度学习技术的广泛应用,基于深度学习的阴影检测研究取得了突破性进展,相较于传统的阴影检测算法,检测性能显著提高,有相对较强的鲁棒性。
到目前为止,基于深度学习技术的图像阴影检测方法取得了突出的效果。例如“ZHU L,DENG Z,HU X,et al.Bidirectional feature pyramid network with recurrentattention residual modules for shadow detection[C]//Proceedings of theEuropean Conference on Computer Vision,2018:121-136.”提出了双向特征金字塔网络模型,该模型主要由一个递归注意力模块分别在由高向低、由低向高两个方向进行结合相邻层级间的特征。对于得到的两个最终的特征使用了特征融合注意力机制更进一步地精炼阴影结果。该网络共使用了9个监督以确保网络不会出现过拟合。“ZHENG Q,QIAO X,CAO Y,et al.Distraction-aware shadow detection[C]//Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2019:5167-5176.”提出了一种混淆感知阴影模块来预测假阳性和假阴性像素,并将获得的混淆特征融合到各个卷积神经网络层级进行阴影检测。这种做法显著性地提高了阴影的检测能力,并且对于黑色物体、阴影不明显等复杂样本有很好的效果。
以上这些基于深度学习的阴影检测方法可以从数据驱动的训练过程中学习所需阴影知识,与传统阴影检测方法相比取得了比较优越的性能。但是,这些方法往往需要大量的具有像素级标签的训练数据。在实际中,像素级的阴影标签需要专业人员手工标注,耗时耗力,通常难以获取大规模的图像数据;而训练数据的稀缺,又限制了基于深度学习的阴影检测方法进一步发展。
发明内容
针对上述现有技术的不足,本发明目的在于提供一种基于深度无监督学习的图像阴影检测方法,主要解决现有深度阴影检测方法训练效果过度依赖于大规模具有像素级标签的训练数据且人工标注困难问题。
实现本发明的关键是在不使用人工标注数据的情况下训练出高性能的深度阴影检测模型:对于初始伪标签获取,首先通过不同的传统无监督方法来快速获取多个相对不准确的阴影图,然后通过一定的融合策略将生成的多个阴影图进行融合,采用全连接条件随机场进一步增强初始伪标签;设计基于自训练方法的伪标签更新机制在训练过程中逐步更新伪标签;设计课程学习策略引导模型由简单样本到复杂样本进行学习,改善模型的学习过程;构建基于轻量级网络结构的阴影检测模型;采用噪声鲁棒的对称交叉熵损失对网络模型进行训练,得到模型参数;预测图像的阴影检测图。
本发明采用如下技术方案来实现的:
一种基于深度无监督学习的图像阴影检测方法,包括以下步骤:
(1)使用Z=4种不同的传统无监督阴影检测模型对无标签的训练样本集D={xn,n=0,...,N-1}进行预测,生成相应的预测阴影图其中N表示训练样本的数量;
(2)构建初始伪标签生成模块,通过初始伪标签生成模块对所述步骤(1)得到的多个阴影图进行平均融合,得到融合阴影图,并利用全连接条件随机场进一步增强融合阴影图,得到初始伪标签;
(3)构建课程学习模块,利用步骤(1)得到的多个阴影图构建由简单到复杂的学习课程DC={Dc,c=0,...,C-1}:
通过计算多个阴影图之间的一致性程度来衡量训练样本场景的复杂度,根据不同复杂度将训练样本集平均划分为R个不同样本复杂度等级的样本子集,利用R=5个样本子集构建由简单到复杂且样本数量逐渐递增的多阶段课程训练集DC={Dc,c=0,...,C-1},其中Dc表示用于第c轮课程训练的样本集合,C=23表示课程的数量;将课程训练的伪标签定义其中/>表示第n个样本在第c轮课程训练的伪标签,Nc表示第c轮课程的训练样本量;当c=0时,Y0则表示初始伪标签生成模型产生的初始伪标签;
(4)构建伪标签更新模块,利用伪标签阴影强度作为评估标准,来评估已训练模型的预测阴影图和初始伪标签阴影图的可靠性,进而将可靠性高的阴影图作为新的伪标签;
(5)构建基于轻量级网络结构的阴影检测模型M:
首先,采用小规模的网络模型对输入图像进行特征提取;然后,通过空间感知模块在浅层网络捕获低层级的空间细节信息,有效地精炼阴影预测图的边缘;通过语义感知模块挖掘深层特征中多尺度多感受野的语义上下文信息;通过特征引导融合模块有效地融合空间细节特征和语义上下文特征,将融合输出经过一个预测模块作为模型的预测输出特征;
(6)训练算法模型:
在步骤(3)构建的多阶段课程训练集上,用步骤(2)得到的初始伪标签对步骤(5)的阴影预测图进行监督学习,通过噪声鲁棒的对称交叉熵损失,对模型进行多阶段训练,在多阶段训练过程中,利用步骤(4)的伪标签更新模块对噪声伪标签进行更新,完成多阶段模型训练,得到最后一阶段的网络模型参数;
(7)预测图像的阴影结果图:
在测试数据集上,利用步骤(6)得到的网络模型参数,对步骤(5)中得到的预测输出特征图,通过sigmoid进行分类计算,进行阴影图像的像素级预测。
本发明进一步的改进在于,步骤(2)中所述的初始伪标签生成过程表示为:
(21)多个阴影图进行平均融合,得到融合阴影图:
其中:
asmn表示第n张图像样本的融合阴影图;
表示第z种传统阴影检测模型对第n张图像样本的预测阴影图;
Z表示传统阴影检测模型的数量;
(22)使用全连接条件随机场对融合阴影图进一步增强,得到初始伪标签:
其中:
∈初始伪标签集合Y0,表示第n张图像样本的初始伪标签;
xn表示第n张图像样本;
asmn表示第n张图像样本的融合阴影图;
CRF(*)表示全连接条件随机场操作。
本发明进一步的改进在于,步骤(3)的具体实现方法如下:
(31)利用多个阴影图之间的一致性评估样本场景的复杂度:
其中:
τn表示第n张图像样本场景的复杂度;
BER(*)表示平衡误差率,其最初用于衡量阴影检测算法的性能,通过度量预测结果与真值标签的一致性来衡量算法性能,这里将其用于衡量阴影图之间的一致性;
usmn表示第n张图像样本的预测阴影图;
Z表示传统阴影检测模型的数量;
更进一步地,上述公式(3)平衡误差率BER由以下公式表示:
其中:
TP表示正确地检测到的阴影像素数量,即真阳性;
TN表示正确地检测到的非阴影像素数量,即真阴性;
Np和Nn分别表示阴影区域和非阴影区域的像素数量;
(32)构建递增式多阶段学习课程包括:
(321)将训练样本按照步骤(31)得到的复杂度τ降序排序后,根据不同复杂度将训练样本集平均划分为R个不同复杂度等级的样本子集,即其中每个子集互不包含且含有的样本数量为N/R,N为所有训练样本总量;将由简单到复杂的多阶段课程训练集定义为{Dc,c=0,...,C-1},其中Dc表示用于第c轮课程训练的样本集合;
(322)构建递增式多阶段课程训练集,在模型的训练过程中将较为复杂的样本逐渐添加到当前的训练数据集中,以此来增加训练样本复杂度;当c<R时,将R个不同复杂度的样本子集以递增的方式逐渐加入到课程训练集Dc中,这样Dc中训练样本数量随着课程的进行逐渐增加,即当R≤c<C时,Dc的样本数量保持不变,即Dc=DR-1;递增方式的多阶段课程训练集Dc表示为:
其中:
∪表示样本集合的并集操作。
本发明进一步的改进在于,步骤(4)伪标签更新模块:
对于给定训练图像集合{xn},及其对应的初始伪标签集合和当前课程迭代训练生成的深度阴影图集合/>首先计算每一幅图像对应初始标签的阴影图像强度/>和对应深度伪标签的图像强度/>
其中:
Mean(*)表示均值操作;
表示逐元素相乘;
第c+1轮课程训练的伪标签表示为:
本发明进一步的改进在于,步骤(5)中所述的基于轻量级网络结构的阴影检测模型M包含特征提取网络、空间感知模块、语义感知模块和特征引导融合模块:
(51)对于输入图像采用ResNet-18网络进行特征提取,得到5个不同分辨率的层级特征F1,F2,F3,F4,F5;
(52)步骤(5)中所述的空间感知模块由两个结构相同的空间注意力模块和卷积融合模块构成,空间感知模块以步骤(1)得到的输入图像的浅层特征F2和F3作为输入,分别通过空间注意力模块获得两个不同层级增强后的空间细节特征和/>然后将其进行上采样级联,经过卷积块进行特征聚合以加强二者的联系,最后输出含有丰富空间细节信息的特征Fs,空间细节特征Fs表示为:
其中:
Convbr(*)表示有批量归一化和ReLu激活函数的卷积操作;
Cat(*)表示跨通道级联操作;
Up(*)表示上采样操作;
SA(*)表示空间注意力模块;
(53)步骤(5)中所述的语义感知模块由两个结构相同的语义上下文模块和一个卷积块构成,语义感知模块以步骤(1)得到的输入图像的浅层特征F4和F5作为输入,分别通过语义上下文模块获得两个不同层级的语义上下文特征和/>然后将其进行上采样级联,经过卷积块进行特征聚合以加强二者的联系,最后输出含有丰富语义上下文信息的特征Fc,语义上下文特征Fc表示为:
其中:
Convbr(*)表示有批量归一化和ReLu激活函数的卷积操作;
Cat(*)表示跨通道级联操作;
Up(*)表示上采样操作;
GSC(*)表示全局语义上下文模块;
(54)步骤(5)中所述的特征引导融合模块由一个空间注意力模块和一个通道注意力模块构成,特征引导融合模块以空间细节特征Fs和语义上下文特征Fc为输入,Fs经过空间注意力激活后与Fc相加得到细节信息补充的语义特征Fsc,Fc上采样之后经过通道注意力激活与Fs相加得到语义信息指导的细节特征Fcs,更进一步,将Fsc和Fcs级联并使用一个卷积核为3×3,步长为1,参数为的卷积操作/>降维后得到融合特征Fp,特征引导融合模块计算过程表示为:
Fcs=Fs+CA(Up(Fc)) (10)
Fsc=Up(Fc)+SA(Fs) (11)
Fp=Conv(Cat(Fsc,Fcs)) (12)
其中:
Cat(*)表示跨通道级联操作;
CA(*)表示通道注意力;
SA(*)表示空间注意力;
Conv(*)表示卷积操作;
Up(*)表示上采样操作;
(54)步骤(5)中所述的预测模块包括一个卷积核为3×3,步长为1,参数为卷积操作/>和一个卷积核为1×1,步长为1,参数为/>卷积操作/>
更进一步地,步骤(52)包括两个结构相同的空间注意力模块和一个卷积块,下面以输入特征F2描述空间注意力模块的具体操作,并对卷积块进行描述:
(521)空间注意力模块以F2为输入,首先,通过两个池化操作分别从通道维度上求取平均池化特征和最大池化特征/>然后将其级联并通过一个卷积核为3×3,步长为1,参数为/>卷积操作/>和Sigmoid激活函数生成空间注意力权重图W∈R1×H×W,接着对输入特征进行重加权,从而得到增强后的空间细节特征F2,s,其计算过程表示为:
其中:
Conv(*)表示卷积操作;
Cat(*)表示跨通道级联操作;
Sigmoid(*)表示Sigmoid激活函数操作;
AvgPool(*)表示平均池化操作;
MaxPool(*)表示最大池化操作;
表示逐元素相乘操作;
(522)卷积块包含了两个卷积操作和/>两个批量归一化操作和两个ReLu激活函数操作,其中:一个卷积核为3×3,步长为1,参数为/>卷积操作/>一个卷积核为3×3,步长为1,参数为/>卷积操作/>
更进一步地,步骤(53)所述的语义上下文模块由四个并行的洞卷积操作和四个结构相同的通道注意力模块组成:
(531)四个洞卷积操作分别为:
一个卷积核为1×1,步长为1,洞率为1,参数为的洞卷积操作/>
一个卷积核为3×3,步长为1,洞率为3,参数为的洞卷积操作/>
一个卷积核为3×3,步长为1,洞率为6,参数为的洞卷积操作/>
一个卷积核为3×3,步长为1,洞率为9,参数为的洞卷积操作/>
(532)全局语义上下文模块具有4个结构相同的通道注意力模块,假设通道注意力模块的输入为F5,i∈RC×H×W;当i=1时,其输入为当i∈{2,3,4}时,其输入为/>首先通过使用全局平均池化和全局最大池化沿着通道维度聚合特征图的空间信息,生成两个不同的空间上下文特征向量/>和/>分别表示平均池化特征和最大池化特征,然后将这两个空间上下文特征向量输入到一个共享权重的卷积块中生成通道注意力图Mm,c∈RC×1×1和Ma,c∈RC×1×1,在卷积块处理每个特征向量后,使用元素求和的方式来合并输出特征向量,经过Sigmoid激活函数生成通道注意力权重,接着以逐通道相乘的方式对输入特征进行重加权,即可得到增强后的语义上下文特征/>通道注意力模块计算过程表示为:
其中:
Sigmoid(*)表示Sigmoid激活函数;
AvgPool(*)表示平均池化操作;
MaxPool(*)表示最大池化操作;
ConvW(*)表示共享权重的卷积操作;
表示元素相加;
表示逐元素相乘。
本发明进一步的改进在于,步骤(6)所述的多阶段模型训练包含以下步骤:
(61)在多阶段课程训练集上对深度阴影检测模型进行训练,将步骤(5)中深度阴影检测模型的预测输出特征图,通过sigmoid激活函数后得到预测图p,与相应的伪标签/>进行比较,求取网络模型的二元对称交叉熵损失LSCE:
LBSCE=αLBCE+LBRCE (14)
其中:
LBCE和LBRCE分别表示二元交叉熵损失和二元反向交叉熵损失,α表示两项损失之间的平衡参数;
更进一步,二元交叉熵LBCE和二元反向交叉熵的定义如下:
其中:表示第c轮课程训练的模型对图像样本xn的预测;/>表示第c轮课程训练图像样本xn的伪标签;Nc表示第c轮课程训练的样本数量;
在多阶段课程训练集上对深度阴影检测模型M使用对称交叉熵损失进行多阶段训练得到多个阶段的深度阴影检测模型Mc;
(62)当c<C-1时,采用模型Mc对样本集合Dc+1进行标注,获取深度阴影图Y'c+1;利用步骤(4)的伪标签更新模块对伪标签进行更新,即根据初始伪标签阴影图Y0和深度阴影图Y'c+1在原图像的阴影强度,选择阴影强度低的阴影图作为第c+1轮课程训练的伪标签Yc+1;
(63)重复步骤(61)-(62),直至达到模型训练停止条件,即完成所有学习课程,将最后一阶段的模型作为最终模型。
本发明进一步的改进在于,α=0.5。
本发明进一步的改进在于,步骤(7)预测阴影图像的阴影结果图:
在测试数据集上,利用步骤(6)得到的最终网络模型参数,对步骤(5)中得到的预测输出特征图P,通过进一步sigmoid激活函数操作进行分类计算,用S表示网络所有层级输出阴影掩膜图,S可表示如下:
S=Sigmoid(P) (17)
其中,Sigmoid)*)表示Sigmoid激活函数;
最后,将S作为最终的阴影预测图。
本发明至少具有如下有益的技术效果:
本发明无需任何带有人工标注的图像数据即可通过算法训练出性能强大的深度阴影检测模型,进而缓解了现有深度阴影检测技术严重依赖大规模具有人工标注图像数据的问题。本发明通过步骤(1)多种现有传统阴影检测技术为训练集的阴影图像生成多个阴影图,并通过步骤(2)初始伪标签生成模块生成训练样本伪标签,该伪标签能够替代人工标注数据对模型进行监督训练,从而缓解了现有深度阴影检测技术对人工标注数据的依赖。
进一步,所述的步骤(2)初始伪标签生成模块通过平均融合和全连接条件随机场技术增强了伪标签作为监督信息的可靠性。
进一步,所述的步骤(3)课程学习模块,课程学习将简单样本和复杂样本进行差异化处理,将训练样本集划分为由简单到复杂的学习课程。利用学习课程对深度阴影检测模型进行训练,能够确保模型不会受到样本无序学习和伪标签的噪声的影响而无法收敛,从简单样本中开始学习,为模型学习提供一个优化收敛方向,并通过逐渐增加复杂样本来指导模型搜索到较好的局部最优点,进而提高模型的鲁棒性和泛化能力。
进一步,所述的步骤(4)伪标签更新模块,在深度阴影检测模型课程训练过程中,利用模型预测的阴影图有选择地逐步更新作为监督信息的伪标签,以消除伪标签中的噪声信息,提高伪标签的准确性,进而保证模型学习到更准确的阴影知识,提高模型的泛化能力。
进一步,所述的步骤(5)基于轻量级网络结构的阴影检测模型,利用小规模的特征提取网络能够有效地缓解模型的过拟合问题。其中所构建的空间感知模块通过捕获低层空间细节信息,能够精炼阴影预测图的细节边缘区域;语义感知模块通过挖掘深层特征的多尺度语义上下文信息,使模型更好地感知阴影区域;特征引导融合模块将低层空间细节特征和深层语义特征相互融合,用空间细节特征对语义上下文特征进行补充,以语义上下文特征抑制空间细节特征中的背景细节,使模型预测的阴影图更具完整性及精准性。
附图说明
图1为本发明公开的一种基于深度无监督学习的图像阴影检测方法的流程图;
图2为本发明提出的一种基于深度无监督学习的图像阴影检测方法的算法整体框图;
图3为本发明提出的多阶段课程训练集构建示意图;
图4为本发明提出的伪标签更新示意图;
图5为本发明提出的深度阴影检测模型网络结构图;
图6为本发明的空间感知模块结构图;
图7为本发明的语义上下文模块结构图;
图8为本发明的特征引导融合模块结构图;
图9为本发明的空间注意力模块结构图;
图10为本发明的通道注意力模块结构图;
图11本发明与现有技术在公开阴影图像数据库SBU下的实验结果仿真对比图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
本发明提供的一种基于深度无监督学习的图像阴影检测方法,包括如下步骤:
(1)使用Z=4种不同的传统无监督阴影检测模型对无标签的训练样本集D={xn,n=0,...,N-1}进行预测,生成相应的预测阴影图其中N表示训练样本的数量;
(2)构建初始伪标签生成模块,通过初始伪标签生成模块对所述步骤(1)得到的多个阴影图进行平均融合,得到融合阴影图,并利用全连接条件随机场进一步增强融合阴影图,得到初始伪标签;
(3)构建课程学习模块,利用步骤(1)得到的多个阴影图构建由简单到复杂的学习课程DC={Dc,c=0,...,C-1}:
如图3所示,通过计算多个阴影图之间的一致性程度来衡量训练样本场景的复杂度,根据不同复杂度将训练样本集平均划分为R个不同样本复杂度等级的样本子集,利用R=5个样本子集构建由简单到复杂且样本数量逐渐递增的多阶段课程训练集DC={Dc,c=0,...,C-1},其中Dc表示用于第c轮课程训练的样本集合,C=23表示课程的数量。将课程训练的伪标签定义其中/>表示第n个样本在第c轮课程训练的伪标签,Nc表示第c轮课程的训练样本量;当c=0时,Y0则表示初始伪标签生成模型产生的初始伪标签。
(4)构建伪标签更新模块,利用伪标签阴影强度作为评估标准,来评估已训练模型的预测阴影图和初始伪标签阴影图的可靠性,进而将可靠性高的阴影图作为新的伪标签,如图4所示;
(5)构建基于轻量级网络结构的阴影检测模型M:
如图5所示,首先,采用小规模的网络模型对输入图像进行特征提取。然后,通过空间感知模块在浅层网络捕获低层级的空间细节信息,有效地精炼阴影预测图的边缘;通过语义感知模块挖掘深层特征中多尺度多感受野的语义上下文信息;通过特征引导融合模块有效地融合空间细节特征和语义上下文特征,将融合输出经过一个预测模块作为模型的预测输出特征;
(6)训练算法模型:
在步骤(3)构建的多阶段课程训练集上,用步骤(2)得到的初始伪标签对步骤(5)的阴影预测图进行监督学习,通过噪声鲁棒的对称交叉熵损失,对模型进行多阶段训练。在多阶段训练过程中,利用步骤(4)的伪标签更新模块对噪声伪标签进行更新,完成多阶段模型训练,得到最后一阶段的网络模型参数;
(7)预测图像的阴影结果图:
在测试数据集上,利用步骤(6)得到的网络模型参数,对步骤(5)中得到的预测输出特征图,通过sigmoid进行分类计算,进行阴影图像的像素级预测。
进一步地,步骤(2)中所述的初始伪标签生成过程表示为:
(21)多个阴影图进行平均融合,得到融合阴影图:
其中:
asmn表示第n张图像样本的融合阴影图;
表示第z种传统阴影检测模型对第n张图像样本的预测阴影图;
Z表示传统阴影检测模型的数量。
(22)使用全连接条件随机场对融合阴影图进一步增强,得到初始伪标签:
其中:
∈初始伪标签集合Y0,表示第n张图像样本的初始伪标签;
xn表示第n张图像样本;
asmn表示第n张图像样本的融合阴影图;
CRF(*)表示全连接条件随机场操作;
进一步地,步骤(3)包括步骤(31)和步骤(32):
(31)利用多个阴影图之间的一致性评估样本场景的复杂度:
其中:
τn表示第n张图像样本场景的复杂度;
BER(*)表示平衡误差率,其最初用于衡量阴影检测算法的性能,通过度量预测结果与真值标签的一致性来衡量算法性能,这里将其用于衡量阴影图之间的一致性;
usmn表示第n张图像样本的预测阴影图;
Z表示传统阴影检测模型的数量。
更进一步地,上述公式(3)平衡误差率BER可以由以下公式表示:
其中:
TP表示正确地检测到的阴影像素数量,即真阳性(True Positive);
TN表示正确地检测到的非阴影像素数量,即真阴性(True Negative);
Np和Nn分别表示阴影区域和非阴影区域的像素数量。
(32)构建递增式多阶段学习课程包括:
(321)将训练样本按照步骤(31)得到的复杂度τ降序排序后,根据不同复杂度将训练样本集平均划分为R个不同复杂度等级的样本子集,即其中每个子集互不包含且含有的样本数量为N/R,N为所有训练样本总量。将由简单到复杂的多阶段课程训练集定义为{Dc,c=0,...,C-1},其中Dc表示用于第c轮课程训练的样本集合。
(322)构建递增式多阶段课程训练集,在模型的训练过程中将较为复杂的样本逐渐添加到当前的训练数据集中,以此来增加训练样本复杂度。当c<R时,将R个不同复杂度的样本子集以递增的方式逐渐加入到课程训练集Dc中,这样Dc中训练样本数量随着课程的进行逐渐增加,即当R≤c<C时,Dc的样本数量保持不变,即Dc=DR-1。递增方式的多阶段课程训练集Dc可以表示为:
其中:
∪表示样本集合的并集操作。
进一步地,步骤(4)伪标签更新模块:
对于给定训练图像集合{xn},及其对应的初始伪标签集合和当前课程迭代训练(第c轮)生成的深度阴影图集合/>首先计算每一幅图像对应初始标签的阴影图像强度/>和对应深度伪标签的图像强度/>
其中:
Mean(*)表示均值操作;
表示逐元素相乘。
第c+1轮课程训练的伪标签可以表示为:
进一步地,步骤(5)中所述的基于轻量级网络结构的阴影检测模型M包含特征提取网络、空间感知模块、语义感知模块和特征引导融合模块:
(51)对于输入图像采用ResNet-18网络进行特征提取,得到5个不同分辨率的层级特征F1,F2,F3,F4,F5;
(52)步骤(5)中所述的空间感知模块由两个结构相同的空间注意力模块和卷积融合模块构成,如图6所示。空间感知模块以步骤(1)得到的输入图像的浅层特征F2和F3作为输入,分别通过空间注意力模块获得两个不同层级增强后的空间细节特征和/>然后将其进行上采样级联,经过卷积块(Conv Block,包含两个具有批量归一化和ReLu激活函数的卷积操作Convbr)进行特征聚合以加强二者的联系,最后输出含有丰富空间细节信息的特征Fs。空间细节特征Fs可以表示为:
Fs=Convbr(Convbr(Cat(SA(F2),Up(SA(F3))))) (9)
其中:
Convbr(*)表示有批量归一化和ReLu激活函数的卷积操作;
Cat(*)表示跨通道级联操作;
Up(*)表示上采样操作;
SA(*)表示空间注意力模块。
(53)步骤(5)中所述的语义感知模块由两个结构相同的语义上下文模块和一个卷积块构成,如图7所示。语义感知模块以步骤(1)得到的输入图像的浅层特征F4和F5作为输入,分别通过语义上下文模块获得两个不同层级的语义上下文特征和/>然后将其进行上采样级联,经过卷积块(Conv Block,与步骤(52)所述的卷积块的结构相同)进行特征聚合以加强二者的联系,最后输出含有丰富语义上下文信息的特征Fc。语义上下文特征Fc可以表示为:
Fc=Convbr(Convbr(Cat(GSC(F4),Up(GSC(F5))))) (9)
其中:
Convbr)*)表示有批量归一化和ReLu激活函数的卷积操作;
Cat(*)表示跨通道级联操作;
Up(*)表示上采样操作;
GSC(*)表示全局语义上下文模块。
(54)步骤(5)中所述的特征引导融合模块由一个空间注意力模块和一个通道注意力模块构成(这两个模块分别在步骤(521)和步骤(532)中描述),如图8所示。特征引导融合模块以空间细节特征Fs和语义上下文特征Fc为输入。Fs经过空间注意力激活后与Fc相加得到细节信息补充的语义特征Fsc。Fc上采样之后经过通道注意力激活与Fs相加得到语义信息指导的细节特征Fcs。更进一步,将Fsc和Fcs级联并使用一个卷积核为3×3,步长为1,参数为的卷积操作/>降维后得到融合特征Fp。特征引导融合模块计算过程可以表示为:
Fcs=Fs+CA(Up(Fc)) (10)
Fsc=Up(Fc)+SA(Fs) (11)
Fp=Conv(Cat(Fsc,Fcs)) (12)
其中:
Cat(*)表示跨通道级联操作;
CA(*)表示通道注意力;
SA(*)表示空间注意力;
Conv(*)表示卷积操作;
Up(*)表示上采样操作。
(54)步骤(5)中所述的预测模块包括一个卷积核为3×3,步长为1,参数为卷积操作/>和一个卷积核为1×1,步长为1,参数为/>卷积操作/>
更进一步地,步骤(52)包括两个结构相同的空间注意力模块和一个卷积块,下面以输入特征F2为例描述空间注意力模块的具体操作,并对卷积块进行描述:
(521)如图9所示,空间注意力模块以F2为输入,首先,通过两个池化操作分别从通道维度上求取平均池化特征和最大池化特征/>然后将其级联并通过一个卷积核为3×3,步长为1,参数为/>卷积操作/>和Sigmoid激活函数生成空间注意力权重图W∈R1×H×W,接着对输入特征进行重加权,从而得到增强后的空间细节特征F2,s,其计算过程可以表示为:
其中:
Conv(*)表示卷积操作;
Cat(*)表示跨通道级联操作;
Sigmoid(*)表示Sigmoid激活函数操作;
AvgPool(*)表示平均池化操作;
MaxPool(*)表示最大池化操作;
表示逐元素相乘操作。
(522)卷积块包含了两个卷积操作和/>两个批量归一化操作和两个ReLu激活函数操作,其中:一个卷积核为3×3,步长为1,参数为/>卷积操作/>一个卷积核为3×3,步长为1,参数为/>卷积操作/>
更进一步地,步骤(53)所述的语义上下文模块由四个并行的洞卷积操作和四个结构相同的通道注意力模块组成:
(531)四个洞卷积操作分别为:
一个卷积核为1×1,步长为1,洞率为1,参数为的洞卷积操作/>
一个卷积核为3×3,步长为1,洞率为3,参数为的洞卷积操作/>
一个卷积核为3×3,步长为1,洞率为6,参数为的洞卷积操作/>
一个卷积核为3×3,步长为1,洞率为9,参数为的洞卷积操作/>
(532)全局语义上下文模块具有4个结构相同的通道注意力模块。下面以其中一个为例详细介绍通道注意力模块,如图10所示。假设通道注意力模块的输入为F5,i∈RC×H×W。特别地,当i=1时,其输入为当i∈{2,3,4}时,其输入为/>首先通过使用全局平均池化和全局最大池化沿着通道维度聚合特征图的空间信息,生成两个不同的空间上下文特征向量/>和/>分别表示平均池化特征和最大池化特征。然后将这两个空间上下文特征向量输入到一个共享权重的卷积块中生成通道注意力图Mm,c∈RC ×1×1和Ma,c∈RC×1×1,在卷积块处理每个特征向量后,使用元素求和的方式来合并输出特征向量,经过Sigmoid激活函数生成通道注意力权重,接着以逐通道相乘的方式对输入特征进行重加权,即可得到增强后的语义上下文特征/>通道注意力模块计算过程可以表示为:
其中:
Sigmoid(*)表示Sigmoid激活函数;
AvgPool(*)表示平均池化操作;
MaxPool)*)表示最大池化操作;
ConvW)*)表示共享权重的卷积操作;
表示元素相加;
表示逐元素相乘。
进一步地,步骤(6)所述的多阶段模型训练包含以下步骤:
(61)在多阶段课程训练集上对深度阴影检测模型进行训练,将步骤(5)中深度阴影检测模型的预测输出特征图,通过sigmoid激活函数后得到预测图p,与相应的伪标签/>进行比较,求取网络模型的二元对称交叉熵损失LSCE:
LBSCE=αLBCE+LBRCE (14)
其中:
LBCE和LBRCE分别表示二元交叉熵损失和二元反向交叉熵损失,α=0.5表示两项损失之间的平衡参数;
更进一步,二元交叉熵LBCE和二元反向交叉熵的定义如下:
其中:表示第c轮课程训练的模型对图像样本xn的预测;/>表示第c轮课程训练图像样本xn的伪标签;Nc表示第c轮课程训练的样本数量。
本发明在多阶段课程训练集上对深度阴影检测模型M使用对称交叉熵损失进行多阶段训练得到多个阶段的深度阴影检测模型Mc;
(62)当c<C-1时,采用模型Mc对样本集合Dc+1进行标注,获取深度阴影图Y'c+1;利用步骤(4)的伪标签更新模块对伪标签进行更新,即根据初始伪标签阴影图Y0和深度阴影图Y'c+1在原图像的阴影强度,选择阴影强度低的阴影图作为第c+1轮课程训练的伪标签Yc+1;
(63)重复步骤(61)-(62),直至达到模型训练停止条件,即完成所有学习课程。将最后一阶段的模型作为最终模型。
进一步地,步骤(7)预测阴影图像的阴影结果图:
在测试数据集上,利用步骤(6)得到的最终网络模型参数,对步骤(5)中得到的预测输出特征图P,通过进一步sigmoid激活函数操作进行分类计算,用S表示网络所有层级输出阴影掩膜图,S可表示如下:
S=Sigmoid(P) (17)
其中,Sigmoid(*)表示Sigmoid激活函数;
最后,将S作为最终的阴影预测图。
以下结合仿真实验,对本发明的技术效果作进一步说明:
1、仿真条件:所有仿真实验均在操作系统为Ubuntu 18.04.5,硬件环境为GPUNvidia GeForce GTX 1080Ti,采用PyTorch深度学习框架实现;
2、仿真内容及结果分析:
仿真1
将本发明与现有的阴影检测方法在公共图像数据库SBU上进行阴影检测实验,部分实验结果进行直观的比较,如图11所示,其中,Image图像表示数据库中用于实验的输入图像,GT表示人工标定的真值图;
从图11可以看出,相较于现有的无监督阴影检测技术,本发明对阴影检测难点问题效果更好,在简单场景、阴影区域与非阴影区域相似场景以及背景复杂的阴影场景下具有更准确的检测效果,且更接近于人工标定的真值图;相较于现有的基于监督学习的深度阴影检测技术,本发明获得的检测效果与之相近。
仿真2
将本发明与现有的基于深度学习的阴影检测方法在公共图像数据库SBU上进行阴影检测实验得到的结果,采用公认的评价指标进行客观评价,评价仿真结果如表1和表2所示,其中:
BER表示平衡误差率;
SER表示阴影检错率;
NER表示非阴影检错率。
表1与现有无监督阴影检测技术在SBU数据集下的指标对比
表2与现有基于监督学习的深度阴影检测技术在SBU数据集下的指标对比
以上三个指标同时越低越好,从表中可以看出在无监督条件下,本发明对阴影检测具有更准确的检测能力,优于现有的无监督阴影检测技术;同时在监督学习条件下,本发明可以在3%~4%的性能差距内接近相应的监督学习模型的上限,与其它一些现有的基于监督学习的深度阴影检测模方法相比,本发明仍然具有竞争力,能够获取与之相差不大的实验性能。更重要的是,本发明甚至优于部分基于监督学习的深度阴影检测方法。这充分表明了本发明方法的有效性和优越性。
上面对本发明的实施方式做了详细说明。但是本发明并不限于上述实施方式,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
Claims (4)
1.一种基于深度无监督学习的图像阴影检测方法,其特征在于,包括以下步骤:
(1)使用Z=4种不同的传统无监督阴影检测模型对无标签的训练样本集D={xn,n=0,...,N-1}进行预测,生成相应的预测阴影图其中N表示训练样本的数量;
(2)构建初始伪标签生成模块,通过初始伪标签生成模块对所述步骤(1)得到的多个阴影图进行平均融合,得到融合阴影图,并利用全连接条件随机场进一步增强融合阴影图,得到初始伪标签;所述的初始伪标签生成过程表示为:
(21)多个阴影图进行平均融合,得到融合阴影图:
其中:
asmn表示第n张图像样本的融合阴影图;
表示第z种传统阴影检测模型对第n张图像样本的预测阴影图;
Z表示传统阴影检测模型的数量;
(22)使用全连接条件随机场对融合阴影图进一步增强,得到初始伪标签:
其中:
∈初始伪标签集合Y0,表示第n张图像样本的初始伪标签;
xn表示第n张图像样本;
asmn表示第n张图像样本的融合阴影图;
CRF(*)表示全连接条件随机场操作;
(3)构建课程学习模块,利用步骤(1)得到的多个阴影图构建由简单到复杂的学习课程DC={Dc,c=0,...,C-1}:
通过计算多个阴影图之间的一致性程度来衡量训练样本场景的复杂度,根据不同复杂度将训练样本集平均划分为R个不同样本复杂度等级的样本子集,利用R=5个样本子集构建由简单到复杂且样本数量逐渐递增的多阶段课程训练集DC={Dc,c=0,...,C-1},其中Dc表示用于第c轮课程训练的样本集合,C=23表示课程的数量;将课程训练的伪标签定义其中/>表示第n个样本在第c轮课程训练的伪标签,Nc表示第c轮课程的训练样本量;当c=0时,Y0则表示初始伪标签生成模型产生的初始伪标签;具体实现方法如下:
(31)利用多个阴影图之间的一致性评估样本场景的复杂度:
其中:
τn表示第n张图像样本场景的复杂度;
BER(*)表示平衡误差率,其最初用于衡量阴影检测算法的性能,通过度量预测结果与真值标签的一致性来衡量算法性能,这里将其用于衡量阴影图之间的一致性;
usmn表示第n张图像样本的预测阴影图;
Z表示传统阴影检测模型的数量;
更进一步地,公式(3)平衡误差率BER由以下公式表示:
其中:
TP表示正确地检测到的阴影像素数量,即真阳性;
TN表示正确地检测到的非阴影像素数量,即真阴性;
Np和Nn分别表示阴影区域和非阴影区域的像素数量;
(32)构建递增式多阶段学习课程包括:
(321)将训练样本按照步骤(31)得到的复杂度τ降序排序后,根据不同复杂度将训练样本集平均划分为R个不同复杂度等级的样本子集,即其中每个子集互不包含且含有的样本数量为N/R,N为所有训练样本总量;将由简单到复杂的多阶段课程训练集定义为{Dc,c=0,...,C-1},其中Dc表示用于第c轮课程训练的样本集合;
(322)构建递增式多阶段课程训练集,在模型的训练过程中将较为复杂的样本逐渐添加到当前的训练数据集中,以此来增加训练样本复杂度;当c<R时,将R个不同复杂度的样本子集以递增的方式逐渐加入到课程训练集Dc中,这样Dc中训练样本数量随着课程的进行逐渐增加,即当R≤c<C时,Dc的样本数量保持不变,即Dc=DR-1;递增方式的多阶段课程训练集Dc表示为:
其中:
∪表示样本集合的并集操作;
(4)构建伪标签更新模块,利用伪标签阴影强度作为评估标准,来评估已训练模型的预测阴影图和初始伪标签阴影图的可靠性,进而将可靠性高的阴影图作为新的伪标签;伪标签更新模块:
对于给定训练图像集合{xn},及其对应的初始伪标签集合和当前课程迭代训练生成的深度阴影图集合/>首先计算每一幅图像对应初始标签的阴影图像强度和对应深度伪标签的图像强度/>
其中:
Mean(*)表示均值操作;
表示逐元素相乘;
第c+1轮课程训练的伪标签表示为:
(5)构建基于轻量级网络结构的阴影检测模型M:
首先,采用小规模的网络模型对输入图像进行特征提取;然后,通过空间感知模块在浅层网络捕获低层级的空间细节信息,有效地精炼阴影预测图的边缘;通过语义感知模块挖掘深层特征中多尺度多感受野的语义上下文信息;通过特征引导融合模块有效地融合空间细节特征和语义上下文特征,将融合输出经过一个预测模块作为模型的预测输出特征;所述的基于轻量级网络结构的阴影检测模型M包含特征提取网络、空间感知模块、语义感知模块和特征引导融合模块:
(51)对于输入图像采用ResNet-18网络进行特征提取,得到5个不同分辨率的层级特征F1,F2,F3,F4,F5;
(52)步骤(5)中所述的空间感知模块由两个结构相同的空间注意力模块和卷积融合模块构成,空间感知模块以步骤(1)得到的输入图像的浅层特征F2和F3作为输入,分别通过空间注意力模块获得两个不同层级增强后的空间细节特征和/>然后将其进行上采样级联,经过卷积块进行特征聚合以加强二者的联系,最后输出含有丰富空间细节信息的特征Fs,空间细节特征Fs表示为:
Fs=Convbr(Convbr(Cat(S(F2),Up(SA(F3))))) (9)
其中:
Convbr(*)表示有批量归一化和ReLu激活函数的卷积操作;
Cat(*)表示跨通道级联操作;
Up(*)表示上采样操作;
SA(*)表示空间注意力模块;
(53)步骤(5)中所述的语义感知模块由两个结构相同的语义上下文模块和一个卷积块构成,语义感知模块以步骤(1)得到的输入图像的浅层特征F4和F5作为输入,分别通过语义上下文模块获得两个不同层级的语义上下文特征和/>然后将其进行上采样级联,经过卷积块进行特征聚合以加强二者的联系,最后输出含有丰富语义上下文信息的特征Fc,语义上下文特征Fc表示为:
Fc=Convbr(Convbr(Cat(GSC(F4),Up(GSC(F5)))))
其中:
Convbr(*)表示有批量归一化和ReLu激活函数的卷积操作;
Cat(*)表示跨通道级联操作;
Up(*)表示上采样操作;
GSC(*)表示全局语义上下文模块;
(54)步骤(5)中所述的特征引导融合模块由一个空间注意力模块和一个通道注意力模块构成,特征引导融合模块以空间细节特征Fs和语义上下文特征Fc为输入,Fs经过空间注意力激活后与Fc相加得到细节信息补充的语义特征Fsc,Fc上采样之后经过通道注意力激活与Fs相加得到语义信息指导的细节特征Fcs,更进一步,将Fsc和Fcs级联并使用一个卷积核为3×3,步长为1,参数为θFG的卷积操作C(*,θFG)降维后得到融合特征Fp,特征引导融合模块计算过程表示为:
Fcs=Fs+CA(Up(Fc)) (10)
Fsc=Up(Fc)+SA(Fs) (11)
Fp=Conv(Cat(Fsc,Fcs)) (12)
其中:
Cat(*)表示跨通道级联操作;
CA(*)表示通道注意力;
SA(*)表示空间注意力;
Conv(*)表示卷积操作;
Up(*)表示上采样操作;
(54)步骤(5)中所述的预测模块包括一个卷积核为3×3,步长为1,参数为卷积操作和一个卷积核为1×1,步长为1,参数为/>卷积操作/>
更进一步地,步骤(52)包括两个结构相同的空间注意力模块和一个卷积块,下面以输入特征F2描述空间注意力模块的具体操作,并对卷积块进行描述:
(521)空间注意力模块以F2为输入,首先,通过两个池化操作分别从通道维度上求取平均池化特征和最大池化特征/>然后将其级联并通过一个卷积核为3×3,步长为1,参数为/>卷积操作/>和Sigmoid激活函数生成空间注意力权重图W∈R1×H×W,接着对输入特征进行重加权,从而得到增强后的空间细节特征F2,s,其计算过程表示为:
其中:
Conv(*)表示卷积操作;
Cat(*)表示跨通道级联操作;
Sigmoid(*)表示Sigmoid激活函数操作;
AvgPool(*)表示平均池化操作;
MaxPool(*)表示最大池化操作;
表示逐元素相乘操作;
(522)卷积块包含了两个卷积操作和/>两个批量归一化操作和两个ReLu激活函数操作,其中:一个卷积核为3×3,步长为1,参数为/>卷积操作/>一个卷积核为3×3,步长为1,参数为/>卷积操作/>
更进一步地,步骤(53)所述的语义上下文模块由四个并行的洞卷积操作和四个结构相同的通道注意力模块组成:
(531)四个洞卷积操作分别为:
一个卷积核为1×1,步长为1,洞率为1,参数为的洞卷积操作/>
一个卷积核为3×3,步长为1,洞率为3,参数为的洞卷积操作/>
一个卷积核为3×3,步长为1,洞率为6,参数为的洞卷积操作/>
一个卷积核为3×3,步长为1,洞率为9,参数为的洞卷积操作/>
(532)全局语义上下文模块具有4个结构相同的通道注意力模块,假设通道注意力模块的输入为F5,i∈RC×H×W;当i=1时,其输入为当i∈{2,3,4}时,其输入为/>首先通过使用全局平均池化和全局最大池化沿着通道维度聚合特征图的空间信息,生成两个不同的空间上下文特征向量/>和/>分别表示平均池化特征和最大池化特征,然后将这两个空间上下文特征向量输入到一个共享权重的卷积块中生成通道注意力图Mm,c∈RC×1×1和Ma,c∈RC×1×1,在卷积块处理每个特征向量后,使用元素求和的方式来合并输出特征向量,经过Sigmoid激活函数生成通道注意力权重,接着以逐通道相乘的方式对输入特征进行重加权,即可得到增强后的语义上下文特征/>通道注意力模块计算过程表示为:
其中:
Sigmoid(*)表示Sigmoid激活函数;
AvgPool(*)表示平均池化操作;
MaxPool(*)表示最大池化操作;
ConvW(*)表示共享权重的卷积操作;
表示元素相加;
表示逐元素相乘;
(6)训练算法模型:
在步骤(3)构建的多阶段课程训练集上,用步骤(2)得到的初始伪标签对步骤(5)的阴影预测图进行监督学习,通过噪声鲁棒的对称交叉熵损失,对模型进行多阶段训练,在多阶段训练过程中,利用步骤(4)的伪标签更新模块对噪声伪标签进行更新,完成多阶段模型训练,得到最后一阶段的网络模型参数;
(7)预测图像的阴影结果图:
在测试数据集上,利用步骤(6)得到的网络模型参数,对步骤(5)中得到的预测输出特征图,通过sigmoid进行分类计算,进行阴影图像的像素级预测。
2.根据权利要求1所述的一种基于深度无监督学习的图像阴影检测方法,其特征在于,步骤(6)所述的多阶段模型训练包含以下步骤:
(61)在多阶段课程训练集上对深度阴影检测模型进行训练,将步骤(5)中深度阴影检测模型的预测输出特征图,通过sigmoid激活函数后得到预测图p,与相应的伪标签/>进行比较,求取网络模型的二元对称交叉熵损失LSCE:
LBSCE=αLBCE+LBRCE (14)
其中:
LBCE和LBRCE分别表示二元交叉熵损失和二元反向交叉熵损失,α表示两项损失之间的平衡参数;
更进一步,二元交叉熵LBCE和二元反向交叉熵的定义如下:
其中:表示第c轮课程训练的模型对图像样本xn的预测;/>表示第c轮课程训练图像样本xn的伪标签;Nc表示第c轮课程训练的样本数量;
在多阶段课程训练集上对深度阴影检测模型M使用对称交叉熵损失进行多阶段训练得到多个阶段的深度阴影检测模型Mc;
(62)当c<C-1时,采用模型Mc对样本集合Dc+1进行标注,获取深度阴影图Y'c+1;利用步骤(4)的伪标签更新模块对伪标签进行更新,即根据初始伪标签阴影图Y0和深度阴影图Y'c+1在原图像的阴影强度,选择阴影强度低的阴影图作为第c+1轮课程训练的伪标签Yc+1;
(63)重复步骤(61)-(62),直至达到模型训练停止条件,即完成所有学习课程,将最后一阶段的模型作为最终模型。
3.根据权利要求2所述的一种基于深度无监督学习的图像阴影检测方法,其特征在于,α=0.5。
4.根据权利要求2所述的一种基于深度无监督学习的图像阴影检测方法,其特征在于,步骤(7)预测阴影图像的阴影结果图:
在测试数据集上,利用步骤(6)得到的最终网络模型参数,对步骤(5)中得到的预测输出特征图P,通过进一步sigmoid激活函数操作进行分类计算,用S表示网络所有层级输出阴影掩膜图,S可表示如下:
S=Sigmoid(P) (17)
其中,Sigmoid(*)表示Sigmoid激活函数;
最后,将S作为最终的阴影预测图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110874144.XA CN113436115B (zh) | 2021-07-30 | 2021-07-30 | 一种基于深度无监督学习的图像阴影检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110874144.XA CN113436115B (zh) | 2021-07-30 | 2021-07-30 | 一种基于深度无监督学习的图像阴影检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113436115A CN113436115A (zh) | 2021-09-24 |
CN113436115B true CN113436115B (zh) | 2023-09-19 |
Family
ID=77762537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110874144.XA Active CN113436115B (zh) | 2021-07-30 | 2021-07-30 | 一种基于深度无监督学习的图像阴影检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113436115B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114093435A (zh) * | 2021-10-21 | 2022-02-25 | 深圳阿尔法分子科技有限责任公司 | 一种基于深度学习的化学分子相关水溶性预测方法 |
CN115147412B (zh) * | 2022-08-31 | 2022-12-16 | 武汉大学 | 一种内存传递的长时序网络及视频阴影检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111639692A (zh) * | 2020-05-25 | 2020-09-08 | 南京邮电大学 | 一种基于注意力机制的阴影检测方法 |
CN111797712A (zh) * | 2020-06-16 | 2020-10-20 | 南京信息工程大学 | 基于多尺度特征融合网络的遥感影像云与云阴影检测方法 |
CN112529789A (zh) * | 2020-11-13 | 2021-03-19 | 北京航空航天大学 | 一种城市可见光遥感图像阴影去除的弱监督方法 |
CN112861880A (zh) * | 2021-03-05 | 2021-05-28 | 江苏实达迪美数据处理有限公司 | 基于图像分类的弱监督rgbd图像显著性检测方法及系统 |
CN113052775A (zh) * | 2021-03-31 | 2021-06-29 | 华南理工大学 | 一种图像去阴影方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9978013B2 (en) * | 2014-07-16 | 2018-05-22 | Deep Learning Analytics, LLC | Systems and methods for recognizing objects in radar imagery |
WO2019049324A1 (en) * | 2017-09-08 | 2019-03-14 | Nec Corporation | IMAGE PROCESSING DEVICE, IMAGE PROCESSING METHOD, AND STORAGE MEDIUM |
-
2021
- 2021-07-30 CN CN202110874144.XA patent/CN113436115B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111639692A (zh) * | 2020-05-25 | 2020-09-08 | 南京邮电大学 | 一种基于注意力机制的阴影检测方法 |
CN111797712A (zh) * | 2020-06-16 | 2020-10-20 | 南京信息工程大学 | 基于多尺度特征融合网络的遥感影像云与云阴影检测方法 |
CN112529789A (zh) * | 2020-11-13 | 2021-03-19 | 北京航空航天大学 | 一种城市可见光遥感图像阴影去除的弱监督方法 |
CN112861880A (zh) * | 2021-03-05 | 2021-05-28 | 江苏实达迪美数据处理有限公司 | 基于图像分类的弱监督rgbd图像显著性检测方法及系统 |
CN113052775A (zh) * | 2021-03-31 | 2021-06-29 | 华南理工大学 | 一种图像去阴影方法及装置 |
Non-Patent Citations (5)
Title |
---|
Curriculum learning;Yoshua Bengio et al.;《ICML "09: Proceedings of the 26th Annual International Conference on Machine Learning》;20090614;第1-8页 * |
Semi-supervised Extreme Learning Machinebased Method for Moving Cast Shadow Detection;Guanglei Kan et al.;《2021 IEEE 4th Advanced Information Management, Communicates, Electronic and Automation Control Conference (IMCEC)》;20210719;第1083-1089页 * |
Semi-supervised self-training for decision tree classifiers;Jafar Tanha et al.;《open access at Springerlink.com》;20150124;第1-16页 * |
基于混合注意力模型的阴影检测方法;谭道强 等;《计算机应用》;20210710;第41卷(第7期);第2076-2081页 * |
无人工标注数据的Landsat影像云检测深度学习方法;仇一帆 等;《国土资源遥感》;20210312;第33卷(第1期);第102-107页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113436115A (zh) | 2021-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110910391B (zh) | 一种双模块神经网络结构视频对象分割方法 | |
CN111275688A (zh) | 基于注意力机制的上下文特征融合筛选的小目标检测方法 | |
CN113436115B (zh) | 一种基于深度无监督学习的图像阴影检测方法 | |
CN110633708A (zh) | 一种基于全局模型和局部优化的深度网络显著性检测方法 | |
CN113159120A (zh) | 一种基于多尺度跨图像弱监督学习的违禁物检测方法 | |
CN112434618B (zh) | 基于稀疏前景先验的视频目标检测方法、存储介质及设备 | |
CN112801047B (zh) | 缺陷检测方法、装置、电子设备及可读存储介质 | |
Li et al. | Robust deep neural networks for road extraction from remote sensing images | |
CN113221787A (zh) | 基于多元差异性融合的行人多目标跟踪方法 | |
CN110706793A (zh) | 一种基于注意力机制的甲状腺结节半监督分割方法 | |
CN116342894B (zh) | 基于改进YOLOv5的GIS红外特征识别系统及方法 | |
CN115375737B (zh) | 基于自适应时间与序列化时空特征的目标跟踪方法与系统 | |
Li et al. | A review of deep learning methods for pixel-level crack detection | |
CN111968124B (zh) | 基于半监督语义分割的肩部肌骨超声结构分割方法 | |
CN114445620A (zh) | 一种改进Mask R-CNN的目标分割方法 | |
Wang et al. | Self-supervised learning for high-resolution remote sensing images change detection with variational information bottleneck | |
CN115880660A (zh) | 一种基于结构表征和全局注意力机制的轨道线检测方法和系统 | |
CN115511798A (zh) | 一种基于人工智能技术的肺炎分类方法及装置 | |
CN114863232A (zh) | 一种基于双向多级特征金字塔的阴影检测方法 | |
Xie et al. | A high-effective multitask surface defect detection method based on CBAM and atrous convolution | |
CN112598056A (zh) | 一种基于屏幕监控的软件识别方法 | |
Liu et al. | Text detection based on bidirectional feature fusion and sa attention mechanism | |
Liu et al. | Weakly-supervised salient object detection with label decoupling siamese network | |
Zeng et al. | Study of YOLOX target detection method based on stand-alone self-attention | |
CN117456191B (zh) | 一种基于三分支网络结构的复杂环境下语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |