CN113436115A - 一种基于深度无监督学习的图像阴影检测方法 - Google Patents

一种基于深度无监督学习的图像阴影检测方法 Download PDF

Info

Publication number
CN113436115A
CN113436115A CN202110874144.XA CN202110874144A CN113436115A CN 113436115 A CN113436115 A CN 113436115A CN 202110874144 A CN202110874144 A CN 202110874144A CN 113436115 A CN113436115 A CN 113436115A
Authority
CN
China
Prior art keywords
shadow
training
module
pseudo label
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110874144.XA
Other languages
English (en)
Other versions
CN113436115B (zh
Inventor
张强
李军
李广和
金国强
王林
张振伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Xian Thermal Power Research Institute Co Ltd
Original Assignee
Xidian University
Xian Thermal Power Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University, Xian Thermal Power Research Institute Co Ltd filed Critical Xidian University
Priority to CN202110874144.XA priority Critical patent/CN113436115B/zh
Publication of CN113436115A publication Critical patent/CN113436115A/zh
Application granted granted Critical
Publication of CN113436115B publication Critical patent/CN113436115B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • G06T5/94Dynamic range modification of images or parts thereof based on local image properties, e.g. for local contrast enhancement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度无监督学习的图像阴影检测方法,包括:(1)使用多种不同的传统无监督阴影检测模型对无标签的训练样本集进行预测,生成相应的预测阴影图:(2)构建初始伪标签生成模块,利用多个预测阴影图生成初始伪标签;(3)构建课程学习模块,利用多个阴影图设计由简单到复杂的学习课程;(4)构建伪标签更新模块,利用伪标签阴影强度作为评估标准,来评估已训练模型的预测阴影图和初始伪标签阴影图的可靠性,进而将可靠性高的阴影图作为新的伪标签;(5)构建基于轻量级网络结构的阴影检测模型;(6)利用课程学习和伪标签更新模块对网络模型进行多阶段训练,获得最后一阶段的网络模型参数;(7)预测图像的阴影结果图。

Description

一种基于深度无监督学习的图像阴影检测方法
技术领域
本发明属于图像处理领域,具体涉及一种基于深度无监督学习的图像阴影检测方法,适用于计算机视觉任务中图像的预处理过程。
背景技术
阴影检测旨在利用模型或算法检测和分割出图像中的阴影区域。作为图像的预处理步骤,阴影检测在目标检测、语义分割、视频跟踪等视觉任务中起着至关重要的作用。
现有的阴影检测方法可以分为两大类:一类是基于传统的阴影检测方法,另一类是基于深度学习的阴影检测方法。基于传统的阴影检测算法主要是通过人工提取的颜色、纹理、亮度、方向等特征完成图像阴影的检测,过度的依赖于人工选取的特征,对场景适应性不强,不具有鲁棒性,在复杂场景下的数据集表现不加。随着深度学习技术的广泛应用,基于深度学习的阴影检测研究取得了突破性进展,相较于传统的阴影检测算法,检测性能显著提高,有相对较强的鲁棒性。
到目前为止,基于深度学习技术的图像阴影检测方法取得了突出的效果。例如“ZHU L,DENG Z,HU X,et al.Bidirectional feature pyramid network with recurrentattention residual modules for shadow detection[C]//Proceedings of theEuropean Conference on Computer Vision,2018:121-136.”提出了双向特征金字塔网络模型,该模型主要由一个递归注意力模块分别在由高向低、由低向高两个方向进行结合相邻层级间的特征。对于得到的两个最终的特征使用了特征融合注意力机制更进一步地精炼阴影结果。该网络共使用了9个监督以确保网络不会出现过拟合。“ZHENG Q,QIAO X,CAO Y,et al.Distraction-aware shadow detection[C]//Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2019:5167-5176.”提出了一种混淆感知阴影模块来预测假阳性和假阴性像素,并将获得的混淆特征融合到各个卷积神经网络层级进行阴影检测。这种做法显著性地提高了阴影的检测能力,并且对于黑色物体、阴影不明显等复杂样本有很好的效果。
以上这些基于深度学习的阴影检测方法可以从数据驱动的训练过程中学习所需阴影知识,与传统阴影检测方法相比取得了比较优越的性能。但是,这些方法往往需要大量的具有像素级标签的训练数据。在实际中,像素级的阴影标签需要专业人员手工标注,耗时耗力,通常难以获取大规模的图像数据;而训练数据的稀缺,又限制了基于深度学习的阴影检测方法进一步发展。
发明内容
针对上述现有技术的不足,本发明目的在于提供一种基于深度无监督学习的图像阴影检测方法,主要解决现有深度阴影检测方法训练效果过度依赖于大规模具有像素级标签的训练数据且人工标注困难问题。
实现本发明的关键是在不使用人工标注数据的情况下训练出高性能的深度阴影检测模型:对于初始伪标签获取,首先通过不同的传统无监督方法来快速获取多个相对不准确的阴影图,然后通过一定的融合策略将生成的多个阴影图进行融合,采用全连接条件随机场进一步增强初始伪标签;设计基于自训练方法的伪标签更新机制在训练过程中逐步更新伪标签;设计课程学习策略引导模型由简单样本到复杂样本进行学习,改善模型的学习过程;构建基于轻量级网络结构的阴影检测模型;采用噪声鲁棒的对称交叉熵损失对网络模型进行训练,得到模型参数;预测图像的阴影检测图。
本发明采用如下技术方案来实现的:
一种基于深度无监督学习的图像阴影检测方法,包括以下步骤:
(1)使用Z=4种不同的传统无监督阴影检测模型对无标签的训练样本集D={xn,n=0,...,N-1}进行预测,生成相应的预测阴影图
Figure BDA0003189730960000031
其中N表示训练样本的数量;
(2)构建初始伪标签生成模块,通过初始伪标签生成模块对所述步骤(1)得到的多个阴影图进行平均融合,得到融合阴影图,并利用全连接条件随机场进一步增强融合阴影图,得到初始伪标签;
(3)构建课程学习模块,利用步骤(1)得到的多个阴影图构建由简单到复杂的学习课程DC={Dc,c=0,...,C-1}:
通过计算多个阴影图之间的一致性程度来衡量训练样本场景的复杂度,根据不同复杂度将训练样本集平均划分为R个不同样本复杂度等级的样本子集,利用R=5个样本子集构建由简单到复杂且样本数量逐渐递增的多阶段课程训练集DC={Dc,c=0,...,C-1},其中Dc表示用于第c轮课程训练的样本集合,C=23表示课程的数量;将课程训练的伪标签定义
Figure BDA0003189730960000032
其中
Figure BDA0003189730960000033
表示第n个样本在第c轮课程训练的伪标签,Nc表示第c轮课程的训练样本量;当c=0时,Y0则表示初始伪标签生成模型产生的初始伪标签;
(4)构建伪标签更新模块,利用伪标签阴影强度作为评估标准,来评估已训练模型的预测阴影图和初始伪标签阴影图的可靠性,进而将可靠性高的阴影图作为新的伪标签;
(5)构建基于轻量级网络结构的阴影检测模型M:
首先,采用小规模的网络模型对输入图像进行特征提取;然后,通过空间感知模块在浅层网络捕获低层级的空间细节信息,有效地精炼阴影预测图的边缘;通过语义感知模块挖掘深层特征中多尺度多感受野的语义上下文信息;通过特征引导融合模块有效地融合空间细节特征和语义上下文特征,将融合输出经过一个预测模块作为模型的预测输出特征;
(6)训练算法模型:
在步骤(3)构建的多阶段课程训练集上,用步骤(2)得到的初始伪标签对步骤(5)的阴影预测图进行监督学习,通过噪声鲁棒的对称交叉熵损失,对模型进行多阶段训练,在多阶段训练过程中,利用步骤(4)的伪标签更新模块对噪声伪标签进行更新,完成多阶段模型训练,得到最后一阶段的网络模型参数;
(7)预测图像的阴影结果图:
在测试数据集上,利用步骤(6)得到的网络模型参数,对步骤(5)中得到的预测输出特征图,通过sigmoid进行分类计算,进行阴影图像的像素级预测。
本发明进一步的改进在于,步骤(2)中所述的初始伪标签生成过程表示为:
(21)多个阴影图进行平均融合,得到融合阴影图:
Figure BDA0003189730960000041
其中:
asmn表示第n张图像样本的融合阴影图;
Figure BDA0003189730960000042
表示第z种传统阴影检测模型对第n张图像样本的预测阴影图;
Z表示传统阴影检测模型的数量;
(22)使用全连接条件随机场对融合阴影图进一步增强,得到初始伪标签:
Figure BDA0003189730960000043
其中:
Figure BDA0003189730960000044
表示第n张图像样本的初始伪标签;
xn表示第n张图像样本;
asmn表示第n张图像样本的融合阴影图;
CRF(*)表示全连接条件随机场操作。
本发明进一步的改进在于,步骤(3)的具体实现方法如下:
(31)利用多个阴影图之间的一致性评估样本场景的复杂度:
Figure BDA0003189730960000051
其中:
τn表示第n张图像样本场景的复杂度;
BER(*)表示平衡误差率,其最初用于衡量阴影检测算法的性能,通过度量预测结果与真值标签的一致性来衡量算法性能,这里将其用于衡量阴影图之间的一致性;
usmn表示第n张图像样本的预测阴影图;
Z表示传统阴影检测模型的数量;
更进一步地,上述公式(3)平衡误差率BER由以下公式表示:
Figure BDA0003189730960000052
其中:
TP表示正确地检测到的阴影像素数量,即真阳性;
TN表示正确地检测到的非阴影像素数量,即真阴性;
Np和Nn分别表示阴影区域和非阴影区域的像素数量;
(32)构建递增式多阶段学习课程包括:
(321)将训练样本按照步骤(31)得到的复杂度τ降序排序后,根据不同复杂度将训练样本集平均划分为R个不同复杂度等级的样本子集,即
Figure BDA0003189730960000053
其中每个子集互不包含且含有的样本数量为N/R,N为所有训练样本总量;将由简单到复杂的多阶段课程训练集定义为{Dc,c=0,...,C-1},其中Dc表示用于第c轮课程训练的样本集合;
(322)构建递增式多阶段课程训练集,在模型的训练过程中将较为复杂的样本逐渐添加到当前的训练数据集中,以此来增加训练样本复杂度;当c<R时,将R个不同复杂度的样本子集以递增的方式逐渐加入到课程训练集Dc中,这样Dc中训练样本数量随着课程的进行逐渐增加,即
Figure BDA0003189730960000054
当R≤c<C时,Dc的样本数量保持不变,即Dc=DR-1;递增方式的多阶段课程训练集Dc表示为:
Figure BDA0003189730960000061
其中:
∪表示样本集合的并集操作。
本发明进一步的改进在于,步骤(4)伪标签更新模块:
对于给定训练图像集合{xn},及其对应的初始伪标签集合
Figure BDA0003189730960000062
和当前课程迭代训练生成的深度阴影图集合
Figure BDA0003189730960000063
首先计算每一幅图像对应初始标签的阴影图像强度
Figure BDA0003189730960000064
和对应深度伪标签的图像强度
Figure BDA0003189730960000065
Figure BDA0003189730960000066
Figure BDA0003189730960000067
其中:
Mean(*)表示均值操作;
Figure BDA0003189730960000068
表示逐元素相乘;
第c+1轮课程训练的伪标签
Figure BDA0003189730960000069
表示为:
Figure BDA00031897309600000610
本发明进一步的改进在于,步骤(5)中所述的基于轻量级网络结构的阴影检测模型M包含特征提取网络、空间感知模块、语义感知模块和特征引导融合模块:
(51)对于输入图像采用ResNet-18网络进行特征提取,得到5个不同分辨率的层级特征F1,F2,F3,F4,F5
(52)步骤(5)中所述的空间感知模块由两个结构相同的空间注意力模块和卷积融合模块构成,空间感知模块以步骤(1)得到的输入图像的浅层特征F2和F3作为输入,分别通过空间注意力模块获得两个不同层级增强后的空间细节特征
Figure BDA00031897309600000611
Figure BDA00031897309600000612
然后将其进行上采样级联,经过卷积块进行特征聚合以加强二者的联系,最后输出含有丰富空间细节信息的特征Fs,空间细节特征Fs表示为:
Fs=Convbr(Convbr(Cat(SA(F2),Up(SA(F3))))) (9)
其中:
Convbr(*)表示有批量归一化和ReLu激活函数的卷积操作;
Cat(*)表示跨通道级联操作;
Up(*)表示上采样操作;
SA(*)表示空间注意力模块;
(53)步骤(5)中所述的语义感知模块由两个结构相同的语义上下文模块和一个卷积块构成,语义感知模块以步骤(1)得到的输入图像的浅层特征F4和F5作为输入,分别通过语义上下文模块获得两个不同层级的语义上下文特征
Figure BDA0003189730960000071
Figure BDA0003189730960000072
然后将其进行上采样级联,经过卷积块进行特征聚合以加强二者的联系,最后输出含有丰富语义上下文信息的特征Fc,语义上下文特征Fc表示为:
Fc=Convbr(Convbr(Cat(GSC(F4),Up(GSC(F5))))) (9)
其中:
Convbr(*)表示有批量归一化和ReLu激活函数的卷积操作;
Cat(*)表示跨通道级联操作;
Up(*)表示上采样操作;
GSC(*)表示全局语义上下文模块;
(54)步骤(5)中所述的特征引导融合模块由一个空间注意力模块和一个通道注意力模块构成,特征引导融合模块以空间细节特征Fs和语义上下文特征Fc为输入,Fs经过空间注意力激活后与Fc相加得到细节信息补充的语义特征Fsc,Fc上采样之后经过通道注意力激活与Fs相加得到语义信息指导的细节特征Fcs,更进一步,将Fsc和Fcs级联并使用一个卷积核为3×3,步长为1,参数为θFG的卷积操作C(*,θFG)降维后得到融合特征Fp,特征引导融合模块计算过程表示为:
Fcs=Fs+CA(Up(Fc)) (10)
Fsc=Up(Fc)+SA(Fs) (11)
Fp=Conv(Cat(Fsc,Fcs)) (12)
其中:
Cat(*)表示跨通道级联操作;
CA(*)表示通道注意力;
SA(*)表示空间注意力;
Conv(*)表示卷积操作;
Up(*)表示上采样操作;
(54)步骤(5)中所述的预测模块包括一个卷积核为3×3,步长为1,参数为
Figure BDA0003189730960000081
卷积操作
Figure BDA0003189730960000082
和一个卷积核为1×1,步长为1,参数为
Figure BDA0003189730960000083
卷积操作
Figure BDA0003189730960000084
更进一步地,步骤(52)包括两个结构相同的空间注意力模块和一个卷积块,下面以输入特征F2描述空间注意力模块的具体操作,并对卷积块进行描述:
(521)空间注意力模块以F2为输入,首先,通过两个池化操作分别从通道维度上求取平均池化特征
Figure BDA0003189730960000085
和最大池化特征
Figure BDA0003189730960000086
然后将其级联并通过一个卷积核为3×3,步长为1,参数为
Figure BDA0003189730960000087
卷积操作
Figure BDA0003189730960000088
和Sigmoid激活函数生成空间注意力权重图W∈R1×H×W,接着对输入特征进行重加权,从而得到增强后的空间细节特征F2,s,其计算过程表示为:
Figure BDA0003189730960000089
其中:
Conv(*)表示卷积操作;
Cat(*)表示跨通道级联操作;
Sigmoid(*)表示Sigmoid激活函数操作;
AvgPool(*)表示平均池化操作;
MaxPool(*)表示最大池化操作;
Figure BDA0003189730960000091
表示逐元素相乘操作;
(522)卷积块包含了两个卷积操作
Figure BDA0003189730960000092
Figure BDA0003189730960000093
两个批量归一化操作和两个ReLu激活函数操作,其中:一个卷积核为3×3,步长为1,参数为
Figure BDA0003189730960000094
卷积操作
Figure BDA0003189730960000095
一个卷积核为3×3,步长为1,参数为
Figure BDA0003189730960000096
卷积操作
Figure BDA0003189730960000097
更进一步地,步骤(53)所述的语义上下文模块由四个并行的洞卷积操作和四个结构相同的通道注意力模块组成:
(531)四个洞卷积操作分别为:
一个卷积核为1×1,步长为1,洞率为1,参数为
Figure BDA0003189730960000098
的洞卷积操作
Figure BDA0003189730960000099
一个卷积核为3×3,步长为1,洞率为3,参数为
Figure BDA00031897309600000910
的洞卷积操作
Figure BDA00031897309600000911
一个卷积核为3×3,步长为1,洞率为6,参数为
Figure BDA00031897309600000912
的洞卷积操作
Figure BDA00031897309600000913
一个卷积核为3×3,步长为1,洞率为9,参数为
Figure BDA00031897309600000914
的洞卷积操作
Figure BDA00031897309600000915
(532)全局语义上下文模块具有4个结构相同的通道注意力模块,假设通道注意力模块的输入为F5,i∈RC×H×W;当i=1时,其输入为
Figure BDA00031897309600000916
当i∈{2,3,4}时,其输入为
Figure BDA00031897309600000917
首先通过使用全局平均池化和全局最大池化沿着通道维度聚合特征图的空间信息,生成两个不同的空间上下文特征向量
Figure BDA00031897309600000918
Figure BDA00031897309600000919
分别表示平均池化特征和最大池化特征,然后将这两个空间上下文特征向量输入到一个共享权重的卷积块中生成通道注意力图Mm,c∈RC×1×1和Ma,c∈RC×1×1,在卷积块处理每个特征向量后,使用元素求和的方式来合并输出特征向量,经过Sigmoid激活函数生成通道注意力权重,接着以逐通道相乘的方式对输入特征进行重加权,即可得到增强后的语义上下文特征
Figure BDA0003189730960000101
通道注意力模块计算过程表示为:
Figure BDA0003189730960000102
其中:
Sigmoid(*)表示Sigmoid激活函数;
AvgPool(*)表示平均池化操作;
MaxPool(*)表示最大池化操作;
ConvW(*)表示共享权重的卷积操作;
Figure BDA0003189730960000103
表示元素相加;
Figure BDA0003189730960000104
表示逐元素相乘。
本发明进一步的改进在于,步骤(6)所述的多阶段模型训练包含以下步骤:
(61)在多阶段课程训练集
Figure BDA0003189730960000105
上对深度阴影检测模型进行训练,将步骤(5)中深度阴影检测模型的预测输出特征图,通过sigmoid激活函数后得到预测图p,与相应的伪标签
Figure BDA0003189730960000106
进行比较,求取网络模型的二元对称交叉熵损失LSCE
LBSCE=αLBCE+LBRCE (14)
其中:
LBCE和LBRCE分别表示二元交叉熵损失和二元反向交叉熵损失,α表示两项损失之间的平衡参数;
更进一步,二元交叉熵LBCE和二元反向交叉熵的定义如下:
Figure BDA0003189730960000107
Figure BDA0003189730960000111
其中:
Figure BDA0003189730960000112
表示第c轮课程训练的模型对图像样本xn的预测;
Figure BDA0003189730960000113
表示第c轮课程训练图像样本xn的伪标签;Nc表示第c轮课程训练的样本数量;
在多阶段课程训练集上对深度阴影检测模型M使用对称交叉熵损失进行多阶段训练得到多个阶段的深度阴影检测模型Mc
(62)当c<C-1时,采用模型Mc对样本集合Dc+1进行标注,获取深度阴影图Y'c+1;利用步骤(4)的伪标签更新模块对伪标签进行更新,即根据初始伪标签阴影图Y0和深度阴影图Y'c+1在原图像的阴影强度,选择阴影强度低的阴影图作为第c+1轮课程训练的伪标签Yc+1
(63)重复步骤(61)-(62),直至达到模型训练停止条件,即完成所有学习课程,将最后一阶段的模型作为最终模型。
本发明进一步的改进在于,α=0.5。
本发明进一步的改进在于,步骤(7)预测阴影图像的阴影结果图:
在测试数据集上,利用步骤(6)得到的最终网络模型参数,对步骤(5)中得到的预测输出特征图P,通过进一步sigmoid激活函数操作进行分类计算,用S表示网络所有层级输出阴影掩膜图,S可表示如下:
S=Sigmoid(P) (17)
其中,Sigmoid(*)表示Sigmoid激活函数;
最后,将S作为最终的阴影预测图。
本发明至少具有如下有益的技术效果:
本发明无需任何带有人工标注的图像数据即可通过算法训练出性能强大的深度阴影检测模型,进而缓解了现有深度阴影检测技术严重依赖大规模具有人工标注图像数据的问题。本发明通过权利要求1所述的步骤(1)多种现有传统阴影检测技术为训练集的阴影图像生成多个阴影图,并通过步骤(2)初始伪标签生成模块生成训练样本伪标签,该伪标签能够替代人工标注数据对模型进行监督训练,从而缓解了现有深度阴影检测技术对人工标注数据的依赖。
进一步,所述的步骤(2)初始伪标签生成模块通过平均融合和全连接条件随机场技术增强了伪标签作为监督信息的可靠性。
进一步,所述的步骤(3)课程学习模块,课程学习将简单样本和复杂样本进行差异化处理,将训练样本集划分为由简单到复杂的学习课程。利用学习课程对深度阴影检测模型进行训练,能够确保模型不会受到样本无序学习和伪标签的噪声的影响而无法收敛,从简单样本中开始学习,为模型学习提供一个优化收敛方向,并通过逐渐增加复杂样本来指导模型搜索到较好的局部最优点,进而提高模型的鲁棒性和泛化能力。
进一步,所述的步骤(4)伪标签更新模块,在深度阴影检测模型课程训练过程中,利用模型预测的阴影图有选择地逐步更新作为监督信息的伪标签,以消除伪标签中的噪声信息,提高伪标签的准确性,进而保证模型学习到更准确的阴影知识,提高模型的泛化能力。
进一步,所述的步骤(5)基于轻量级网络结构的阴影检测模型,利用小规模的特征提取网络能够有效地缓解模型的过拟合问题。其中所构建的空间感知模块通过捕获低层空间细节信息,能够精炼阴影预测图的细节边缘区域;语义感知模块通过挖掘深层特征的多尺度语义上下文信息,使模型更好地感知阴影区域;特征引导融合模块将低层空间细节特征和深层语义特征相互融合,用空间细节特征对语义上下文特征进行补充,以语义上下文特征抑制空间细节特征中的背景细节,使模型预测的阴影图更具完整性及精准性。
附图说明
图1为本发明公开的一种基于深度无监督学习的图像阴影检测方法的流程图;
图2为本发明提出的一种基于深度无监督学习的图像阴影检测方法的算法整体框图;
图3为本发明提出的多阶段课程训练集构建示意图;
图4为本发明提出的伪标签更新示意图;
图5为本发明提出的深度阴影检测模型网络结构图;
图6为本发明的空间感知模块结构图;
图7为本发明的语义上下文模块结构图;
图8为本发明的特征引导融合模块结构图;
图9为本发明的空间注意力模块结构图;
图10为本发明的通道注意力模块结构图;
图11本发明与现有技术在公开阴影图像数据库SBU下的实验结果仿真对比图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
本发明提供的一种基于深度无监督学习的图像阴影检测方法,包括如下步骤:
(1)使用Z=4种不同的传统无监督阴影检测模型对无标签的训练样本集D={xn,n=0,...,N-1}进行预测,生成相应的预测阴影图
Figure BDA0003189730960000131
其中N表示训练样本的数量;
(2)构建初始伪标签生成模块,通过初始伪标签生成模块对所述步骤(1)得到的多个阴影图进行平均融合,得到融合阴影图,并利用全连接条件随机场进一步增强融合阴影图,得到初始伪标签;
(3)构建课程学习模块,利用步骤(1)得到的多个阴影图构建由简单到复杂的学习课程DC={Dc,c=0,...,C-1}:
如图3所示,通过计算多个阴影图之间的一致性程度来衡量训练样本场景的复杂度,根据不同复杂度将训练样本集平均划分为R个不同样本复杂度等级的样本子集,利用R=5个样本子集构建由简单到复杂且样本数量逐渐递增的多阶段课程训练集DC={Dc,c=0,...,C-1},其中Dc表示用于第c轮课程训练的样本集合,C=23表示课程的数量。将课程训练的伪标签定义
Figure BDA0003189730960000141
其中
Figure BDA0003189730960000142
表示第n个样本在第c轮课程训练的伪标签,Nc表示第c轮课程的训练样本量;当c=0时,Y0则表示初始伪标签生成模型产生的初始伪标签。
(4)构建伪标签更新模块,利用伪标签阴影强度作为评估标准,来评估已训练模型的预测阴影图和初始伪标签阴影图的可靠性,进而将可靠性高的阴影图作为新的伪标签,如图4所示;
(5)构建基于轻量级网络结构的阴影检测模型M:
如图5所示,首先,采用小规模的网络模型对输入图像进行特征提取。然后,通过空间感知模块在浅层网络捕获低层级的空间细节信息,有效地精炼阴影预测图的边缘;通过语义感知模块挖掘深层特征中多尺度多感受野的语义上下文信息;通过特征引导融合模块有效地融合空间细节特征和语义上下文特征,将融合输出经过一个预测模块作为模型的预测输出特征;
(6)训练算法模型:
在步骤(3)构建的多阶段课程训练集上,用步骤(2)得到的初始伪标签对步骤(5)的阴影预测图进行监督学习,通过噪声鲁棒的对称交叉熵损失,对模型进行多阶段训练。在多阶段训练过程中,利用步骤(4)的伪标签更新模块对噪声伪标签进行更新,完成多阶段模型训练,得到最后一阶段的网络模型参数;
(7)预测图像的阴影结果图:
在测试数据集上,利用步骤(6)得到的网络模型参数,对步骤(5)中得到的预测输出特征图,通过sigmoid进行分类计算,进行阴影图像的像素级预测。
进一步地,步骤(2)中所述的初始伪标签生成过程表示为:
(21)多个阴影图进行平均融合,得到融合阴影图:
Figure BDA0003189730960000151
其中:
asmn表示第n张图像样本的融合阴影图;
Figure BDA0003189730960000152
表示第z种传统阴影检测模型对第n张图像样本的预测阴影图;
Z表示传统阴影检测模型的数量。
(22)使用全连接条件随机场对融合阴影图进一步增强,得到初始伪标签:
Figure BDA0003189730960000153
其中:
Figure BDA0003189730960000154
表示第n张图像样本的初始伪标签;
xn表示第n张图像样本;
asmn表示第n张图像样本的融合阴影图;
CRF(*)表示全连接条件随机场操作;
进一步地,步骤(3)包括步骤(31)和步骤(32):
(31)利用多个阴影图之间的一致性评估样本场景的复杂度:
Figure BDA0003189730960000155
其中:
τn表示第n张图像样本场景的复杂度;
BER(*)表示平衡误差率,其最初用于衡量阴影检测算法的性能,通过度量预测结果与真值标签的一致性来衡量算法性能,这里将其用于衡量阴影图之间的一致性;
usmn表示第n张图像样本的预测阴影图;
Z表示传统阴影检测模型的数量。
更进一步地,上述公式(3)平衡误差率BER可以由以下公式表示:
Figure BDA0003189730960000161
其中:
TP表示正确地检测到的阴影像素数量,即真阳性(True Positive);
TN表示正确地检测到的非阴影像素数量,即真阴性(True Negative);
Np和Nn分别表示阴影区域和非阴影区域的像素数量。
(32)构建递增式多阶段学习课程包括:
(321)将训练样本按照步骤(31)得到的复杂度τ降序排序后,根据不同复杂度将训练样本集平均划分为R个不同复杂度等级的样本子集,即
Figure BDA0003189730960000162
其中每个子集互不包含且含有的样本数量为N/R,N为所有训练样本总量。将由简单到复杂的多阶段课程训练集定义为{Dc,c=0,...,C-1},其中Dc表示用于第c轮课程训练的样本集合。
(322)构建递增式多阶段课程训练集,在模型的训练过程中将较为复杂的样本逐渐添加到当前的训练数据集中,以此来增加训练样本复杂度。当c<R时,将R个不同复杂度的样本子集以递增的方式逐渐加入到课程训练集Dc中,这样Dc中训练样本数量随着课程的进行逐渐增加,即
Figure BDA0003189730960000163
当R≤c<C时,Dc的样本数量保持不变,即Dc=DR-1。递增方式的多阶段课程训练集Dc可以表示为:
Figure BDA0003189730960000164
其中:
∪表示样本集合的并集操作。
进一步地,步骤(4)伪标签更新模块:
对于给定训练图像集合{xn},及其对应的初始伪标签集合
Figure BDA0003189730960000171
和当前课程迭代训练(第c轮)生成的深度阴影图集合
Figure BDA0003189730960000172
首先计算每一幅图像对应初始标签的阴影图像强度
Figure BDA0003189730960000173
和对应深度伪标签的图像强度
Figure BDA0003189730960000174
Figure BDA0003189730960000175
Figure BDA0003189730960000176
其中:
Mean(*)表示均值操作;
Figure BDA0003189730960000177
表示逐元素相乘。
第c+1轮课程训练的伪标签
Figure BDA0003189730960000178
可以表示为:
Figure BDA0003189730960000179
进一步地,步骤(5)中所述的基于轻量级网络结构的阴影检测模型M包含特征提取网络、空间感知模块、语义感知模块和特征引导融合模块:
(51)对于输入图像采用ResNet-18网络进行特征提取,得到5个不同分辨率的层级特征F1,F2,F3,F4,F5
(52)步骤(5)中所述的空间感知模块由两个结构相同的空间注意力模块和卷积融合模块构成,如图6所示。空间感知模块以步骤(1)得到的输入图像的浅层特征F2和F3作为输入,分别通过空间注意力模块获得两个不同层级增强后的空间细节特征
Figure BDA00031897309600001710
Figure BDA00031897309600001711
然后将其进行上采样级联,经过卷积块(Conv Block,包含两个具有批量归一化和ReLu激活函数的卷积操作Convbr)进行特征聚合以加强二者的联系,最后输出含有丰富空间细节信息的特征Fs。空间细节特征Fs可以表示为:
Fs=Convbr(Convbr(Cat(SA(F2),Up(SA(F3))))) (9)
其中:
Convbr(*)表示有批量归一化和ReLu激活函数的卷积操作;
Cat(*)表示跨通道级联操作;
Up(*)表示上采样操作;
SA(*)表示空间注意力模块。
(53)步骤(5)中所述的语义感知模块由两个结构相同的语义上下文模块和一个卷积块构成,如图7所示。语义感知模块以步骤(1)得到的输入图像的浅层特征F4和F5作为输入,分别通过语义上下文模块获得两个不同层级的语义上下文特征
Figure BDA0003189730960000181
Figure BDA0003189730960000182
然后将其进行上采样级联,经过卷积块(Conv Block,与步骤(52)所述的卷积块的结构相同)进行特征聚合以加强二者的联系,最后输出含有丰富语义上下文信息的特征Fc。语义上下文特征Fc可以表示为:
Fc=Convbr(Convbr(Cat(GSC(F4),Up(GSC(F5))))) (9)
其中:
Convbr(*)表示有批量归一化和ReLu激活函数的卷积操作;
Cat(*)表示跨通道级联操作;
Up(*)表示上采样操作;
GSC(*)表示全局语义上下文模块。
(54)步骤(5)中所述的特征引导融合模块由一个空间注意力模块和一个通道注意力模块构成(这两个模块分别在步骤(521)和步骤(532)中描述),如图8所示。特征引导融合模块以空间细节特征Fs和语义上下文特征Fc为输入。Fs经过空间注意力激活后与Fc相加得到细节信息补充的语义特征Fsc。Fc上采样之后经过通道注意力激活与Fs相加得到语义信息指导的细节特征Fcs。更进一步,将Fsc和Fcs级联并使用一个卷积核为3×3,步长为1,参数为θFG的卷积操作C(*,θFG)降维后得到融合特征Fp。特征引导融合模块计算过程可以表示为:
Fcs=Fs+CA(Up(Fc)) (10)
Fsc=Up(Fc)+SA(Fs) (11)
Fp=Conv(Cat(Fsc,Fcs)) (12)
其中:
Cat(*)表示跨通道级联操作;
CA(*)表示通道注意力;
SA(*)表示空间注意力;
Conv(*)表示卷积操作;
Up(*)表示上采样操作。
(54)步骤(5)中所述的预测模块包括一个卷积核为3×3,步长为1,参数为
Figure BDA0003189730960000191
卷积操作
Figure BDA0003189730960000192
和一个卷积核为1×1,步长为1,参数为
Figure BDA0003189730960000193
卷积操作
Figure BDA0003189730960000194
更进一步地,步骤(52)包括两个结构相同的空间注意力模块和一个卷积块,下面以输入特征F2为例描述空间注意力模块的具体操作,并对卷积块进行描述:
(521)如图9所示,空间注意力模块以F2为输入,首先,通过两个池化操作分别从通道维度上求取平均池化特征
Figure BDA0003189730960000195
和最大池化特征
Figure BDA0003189730960000196
然后将其级联并通过一个卷积核为3×3,步长为1,参数为
Figure BDA0003189730960000197
卷积操作
Figure BDA0003189730960000198
和Sigmoid激活函数生成空间注意力权重图W∈R1×H×W,接着对输入特征进行重加权,从而得到增强后的空间细节特征F2,s,其计算过程可以表示为:
Figure BDA0003189730960000199
其中:
Conv(*)表示卷积操作;
Cat(*)表示跨通道级联操作;
Sigmoid(*)表示Sigmoid激活函数操作;
AvgPool(*)表示平均池化操作;
MaxPool(*)表示最大池化操作;
Figure BDA0003189730960000201
表示逐元素相乘操作。
(522)卷积块包含了两个卷积操作
Figure BDA0003189730960000202
Figure BDA0003189730960000203
两个批量归一化操作和两个ReLu激活函数操作,其中:一个卷积核为3×3,步长为1,参数为
Figure BDA0003189730960000204
卷积操作
Figure BDA0003189730960000205
一个卷积核为3×3,步长为1,参数为
Figure BDA0003189730960000206
卷积操作
Figure BDA0003189730960000207
更进一步地,步骤(53)所述的语义上下文模块由四个并行的洞卷积操作和四个结构相同的通道注意力模块组成:
(531)四个洞卷积操作分别为:
一个卷积核为1×1,步长为1,洞率为1,参数为
Figure BDA0003189730960000208
的洞卷积操作
Figure BDA0003189730960000209
一个卷积核为3×3,步长为1,洞率为3,参数为
Figure BDA00031897309600002010
的洞卷积操作
Figure BDA00031897309600002011
一个卷积核为3×3,步长为1,洞率为6,参数为
Figure BDA00031897309600002012
的洞卷积操作
Figure BDA00031897309600002013
一个卷积核为3×3,步长为1,洞率为9,参数为
Figure BDA00031897309600002014
的洞卷积操作
Figure BDA00031897309600002015
(532)全局语义上下文模块具有4个结构相同的通道注意力模块。下面以其中一个为例详细介绍通道注意力模块,如图10所示。假设通道注意力模块的输入为F5,i∈RC×H×W。特别地,当i=1时,其输入为
Figure BDA00031897309600002016
当i∈{2,3,4}时,其输入为
Figure BDA00031897309600002017
首先通过使用全局平均池化和全局最大池化沿着通道维度聚合特征图的空间信息,生成两个不同的空间上下文特征向量
Figure BDA00031897309600002018
Figure BDA00031897309600002019
分别表示平均池化特征和最大池化特征。然后将这两个空间上下文特征向量输入到一个共享权重的卷积块中生成通道注意力图Mm,c∈RC ×1×1和Ma,c∈RC×1×1,在卷积块处理每个特征向量后,使用元素求和的方式来合并输出特征向量,经过Sigmoid激活函数生成通道注意力权重,接着以逐通道相乘的方式对输入特征进行重加权,即可得到增强后的语义上下文特征
Figure BDA0003189730960000211
通道注意力模块计算过程可以表示为:
Figure BDA0003189730960000212
其中:
Sigmoid(*)表示Sigmoid激活函数;
AvgPool(*)表示平均池化操作;
MaxPool(*)表示最大池化操作;
ConvW(*)表示共享权重的卷积操作;
Figure BDA0003189730960000213
表示元素相加;
Figure BDA0003189730960000214
表示逐元素相乘。
进一步地,步骤(6)所述的多阶段模型训练包含以下步骤:
(61)在多阶段课程训练集
Figure BDA0003189730960000215
上对深度阴影检测模型进行训练,将步骤(5)中深度阴影检测模型的预测输出特征图,通过sigmoid激活函数后得到预测图p,与相应的伪标签
Figure BDA0003189730960000216
进行比较,求取网络模型的二元对称交叉熵损失LSCE
LBSCE=αLBCE+LBRCE (14)
其中:
LBCE和LBRCE分别表示二元交叉熵损失和二元反向交叉熵损失,α=0.5表示两项损失之间的平衡参数;
更进一步,二元交叉熵LBCE和二元反向交叉熵的定义如下:
Figure BDA0003189730960000217
Figure BDA0003189730960000218
其中:
Figure BDA0003189730960000219
表示第c轮课程训练的模型对图像样本xn的预测;
Figure BDA00031897309600002110
表示第c轮课程训练图像样本xn的伪标签;Nc表示第c轮课程训练的样本数量。
本发明在多阶段课程训练集上对深度阴影检测模型M使用对称交叉熵损失进行多阶段训练得到多个阶段的深度阴影检测模型Mc
(62)当c<C-1时,采用模型Mc对样本集合Dc+1进行标注,获取深度阴影图Y'c+1;利用步骤(4)的伪标签更新模块对伪标签进行更新,即根据初始伪标签阴影图Y0和深度阴影图Y'c+1在原图像的阴影强度,选择阴影强度低的阴影图作为第c+1轮课程训练的伪标签Yc+1
(63)重复步骤(61)-(62),直至达到模型训练停止条件,即完成所有学习课程。将最后一阶段的模型作为最终模型。
进一步地,步骤(7)预测阴影图像的阴影结果图:
在测试数据集上,利用步骤(6)得到的最终网络模型参数,对步骤(5)中得到的预测输出特征图P,通过进一步sigmoid激活函数操作进行分类计算,用S表示网络所有层级输出阴影掩膜图,S可表示如下:
S=Sigmoid(P) (17)
其中,Sigmoid(*)表示Sigmoid激活函数;
最后,将S作为最终的阴影预测图。
以下结合仿真实验,对本发明的技术效果作进一步说明:
1、仿真条件:所有仿真实验均在操作系统为Ubuntu 18.04.5,硬件环境为GPUNvidia GeForce GTX 1080Ti,采用PyTorch深度学习框架实现;
2、仿真内容及结果分析:
仿真1
将本发明与现有的阴影检测方法在公共图像数据库SBU上进行阴影检测实验,部分实验结果进行直观的比较,如图11所示,其中,Image图像表示数据库中用于实验的输入图像,GT表示人工标定的真值图;
从图11可以看出,相较于现有的无监督阴影检测技术,本发明对阴影检测难点问题效果更好,在简单场景、阴影区域与非阴影区域相似场景以及背景复杂的阴影场景下具有更准确的检测效果,且更接近于人工标定的真值图;相较于现有的基于监督学习的深度阴影检测技术,本发明获得的检测效果与之相近。
仿真2
将本发明与现有的基于深度学习的阴影检测方法在公共图像数据库SBU上进行阴影检测实验得到的结果,采用公认的评价指标进行客观评价,评价仿真结果如表1和表2所示,其中:
BER表示平衡误差率;
SER表示阴影检错率;
NER表示非阴影检错率。
表1与现有无监督阴影检测技术在SBU数据集下的指标对比
Figure BDA0003189730960000231
Figure BDA0003189730960000241
表2与现有基于监督学习的深度阴影检测技术在SBU数据集下的指标对比
Figure BDA0003189730960000242
以上三个指标同时越低越好,从表中可以看出在无监督条件下,本发明对阴影检测具有更准确的检测能力,优于现有的无监督阴影检测技术;同时在监督学习条件下,本发明可以在3%~4%的性能差距内接近相应的监督学习模型的上限,与其它一些现有的基于监督学习的深度阴影检测模方法相比,本发明仍然具有竞争力,能够获取与之相差不大的实验性能。更重要的是,本发明甚至优于部分基于监督学习的深度阴影检测方法。这充分表明了本发明方法的有效性和优越性。
上面对本发明的实施方式做了详细说明。但是本发明并不限于上述实施方式,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (8)

1.一种基于深度无监督学习的图像阴影检测方法,其特征在于,包括以下步骤:
(1)使用Z=4种不同的传统无监督阴影检测模型对无标签的训练样本集D={xn,n=0,...,N-1}进行预测,生成相应的预测阴影图
Figure FDA0003189730950000011
其中N表示训练样本的数量;
(2)构建初始伪标签生成模块,通过初始伪标签生成模块对所述步骤(1)得到的多个阴影图进行平均融合,得到融合阴影图,并利用全连接条件随机场进一步增强融合阴影图,得到初始伪标签;
(3)构建课程学习模块,利用步骤(1)得到的多个阴影图构建由简单到复杂的学习课程DC={Dc,c=0,...,C-1}:
通过计算多个阴影图之间的一致性程度来衡量训练样本场景的复杂度,根据不同复杂度将训练样本集平均划分为R个不同样本复杂度等级的样本子集,利用R=5个样本子集构建由简单到复杂且样本数量逐渐递增的多阶段课程训练集DC={Dc,c=0,...,C-1},其中Dc表示用于第c轮课程训练的样本集合,C=23表示课程的数量;将课程训练的伪标签定义
Figure FDA0003189730950000012
其中
Figure FDA0003189730950000013
表示第n个样本在第c轮课程训练的伪标签,Nc表示第c轮课程的训练样本量;当c=0时,Y0则表示初始伪标签生成模型产生的初始伪标签;
(4)构建伪标签更新模块,利用伪标签阴影强度作为评估标准,来评估已训练模型的预测阴影图和初始伪标签阴影图的可靠性,进而将可靠性高的阴影图作为新的伪标签;
(5)构建基于轻量级网络结构的阴影检测模型M:
首先,采用小规模的网络模型对输入图像进行特征提取;然后,通过空间感知模块在浅层网络捕获低层级的空间细节信息,有效地精炼阴影预测图的边缘;通过语义感知模块挖掘深层特征中多尺度多感受野的语义上下文信息;通过特征引导融合模块有效地融合空间细节特征和语义上下文特征,将融合输出经过一个预测模块作为模型的预测输出特征;
(6)训练算法模型:
在步骤(3)构建的多阶段课程训练集上,用步骤(2)得到的初始伪标签对步骤(5)的阴影预测图进行监督学习,通过噪声鲁棒的对称交叉熵损失,对模型进行多阶段训练,在多阶段训练过程中,利用步骤(4)的伪标签更新模块对噪声伪标签进行更新,完成多阶段模型训练,得到最后一阶段的网络模型参数;
(7)预测图像的阴影结果图:
在测试数据集上,利用步骤(6)得到的网络模型参数,对步骤(5)中得到的预测输出特征图,通过sigmoid进行分类计算,进行阴影图像的像素级预测。
2.根据权利要求1所述的一种基于深度无监督学习的图像阴影检测方法,其特征在于,步骤(2)中所述的初始伪标签生成过程表示为:
(21)多个阴影图进行平均融合,得到融合阴影图:
Figure FDA0003189730950000021
其中:
asmn表示第n张图像样本的融合阴影图;
Figure FDA0003189730950000024
表示第z种传统阴影检测模型对第n张图像样本的预测阴影图;
Z表示传统阴影检测模型的数量;
(22)使用全连接条件随机场对融合阴影图进一步增强,得到初始伪标签:
Figure FDA0003189730950000022
其中:
Figure FDA0003189730950000023
初始伪标签集合Y0,表示第n张图像样本的初始伪标签;
xn表示第n张图像样本;
asmn表示第n张图像样本的融合阴影图;
CRF(*)表示全连接条件随机场操作。
3.根据权利要求2所述的一种基于深度无监督学习的图像阴影检测方法,其特征在于,步骤(3)的具体实现方法如下:
(31)利用多个阴影图之间的一致性评估样本场景的复杂度:
Figure FDA0003189730950000031
其中:
τn表示第n张图像样本场景的复杂度;
BER(*)表示平衡误差率,其最初用于衡量阴影检测算法的性能,通过度量预测结果与真值标签的一致性来衡量算法性能,这里将其用于衡量阴影图之间的一致性;
usmn表示第n张图像样本的预测阴影图;
Z表示传统阴影检测模型的数量;
更进一步地,上述公式(3)平衡误差率BER由以下公式表示:
Figure FDA0003189730950000032
其中:
TP表示正确地检测到的阴影像素数量,即真阳性;
TN表示正确地检测到的非阴影像素数量,即真阴性;
Np和Nn分别表示阴影区域和非阴影区域的像素数量;
(32)构建递增式多阶段学习课程包括:
(321)将训练样本按照步骤(31)得到的复杂度τ降序排序后,根据不同复杂度将训练样本集平均划分为R个不同复杂度等级的样本子集,即
Figure FDA0003189730950000033
其中每个子集互不包含且含有的样本数量为N/R,N为所有训练样本总量;将由简单到复杂的多阶段课程训练集定义为{Dc,c=0,...,C-1},其中Dc表示用于第c轮课程训练的样本集合;
(322)构建递增式多阶段课程训练集,在模型的训练过程中将较为复杂的样本逐渐添加到当前的训练数据集中,以此来增加训练样本复杂度;当c<R时,将R个不同复杂度的样本子集以递增的方式逐渐加入到课程训练集Dc中,这样Dc中训练样本数量随着课程的进行逐渐增加,即
Figure FDA0003189730950000041
当R≤c<C时,Dc的样本数量保持不变,即Dc=DR-1;递增方式的多阶段课程训练集Dc表示为:
Figure FDA0003189730950000042
其中:
∪表示样本集合的并集操作。
4.根据权利要求3所述的一种基于深度无监督学习的图像阴影检测方法,其特征在于,步骤(4)伪标签更新模块:
对于给定训练图像集合{xn},及其对应的初始伪标签集合
Figure FDA0003189730950000043
和当前课程迭代训练生成的深度阴影图集合
Figure FDA0003189730950000044
首先计算每一幅图像对应初始标签的阴影图像强度
Figure FDA0003189730950000045
和对应深度伪标签的图像强度
Figure FDA0003189730950000046
Figure FDA0003189730950000047
Figure FDA0003189730950000048
其中:
Mean(*)表示均值操作;
Figure FDA0003189730950000049
表示逐元素相乘;
第c+1轮课程训练的伪标签
Figure FDA00031897309500000410
表示为:
Figure FDA00031897309500000411
5.根据权利要求4所述的一种基于深度无监督学习的图像阴影检测方法,其特征在于,步骤(5)中所述的基于轻量级网络结构的阴影检测模型M包含特征提取网络、空间感知模块、语义感知模块和特征引导融合模块:
(51)对于输入图像采用ResNet-18网络进行特征提取,得到5个不同分辨率的层级特征F1,F2,F3,F4,F5
(52)步骤(5)中所述的空间感知模块由两个结构相同的空间注意力模块和卷积融合模块构成,空间感知模块以步骤(1)得到的输入图像的浅层特征F2和F3作为输入,分别通过空间注意力模块获得两个不同层级增强后的空间细节特征
Figure FDA0003189730950000051
Figure FDA0003189730950000052
然后将其进行上采样级联,经过卷积块进行特征聚合以加强二者的联系,最后输出含有丰富空间细节信息的特征Fs,空间细节特征Fs表示为:
Fs=Convbr(Convbr(Cat(SA(F2),Up(SA(F3))))) (9)
其中:
Convbr(*)表示有批量归一化和ReLu激活函数的卷积操作;
Cat(*)表示跨通道级联操作;
Up(*)表示上采样操作;
SA(*)表示空间注意力模块;
(53)步骤(5)中所述的语义感知模块由两个结构相同的语义上下文模块和一个卷积块构成,语义感知模块以步骤(1)得到的输入图像的浅层特征F4和F5作为输入,分别通过语义上下文模块获得两个不同层级的语义上下文特征
Figure FDA0003189730950000053
Figure FDA0003189730950000054
然后将其进行上采样级联,经过卷积块进行特征聚合以加强二者的联系,最后输出含有丰富语义上下文信息的特征Fc,语义上下文特征Fc表示为:
Fc=Convbr(Convbr(Cat(GSC(F4),Up(GSC(F5))))) (9)
其中:
Convbr(*)表示有批量归一化和ReLu激活函数的卷积操作;
Cat(*)表示跨通道级联操作;
Up(*)表示上采样操作;
GSC(*)表示全局语义上下文模块;
(54)步骤(5)中所述的特征引导融合模块由一个空间注意力模块和一个通道注意力模块构成,特征引导融合模块以空间细节特征Fs和语义上下文特征Fc为输入,Fs经过空间注意力激活后与Fc相加得到细节信息补充的语义特征Fsc,Fc上采样之后经过通道注意力激活与Fs相加得到语义信息指导的细节特征Fcs,更进一步,将Fsc和Fcs级联并使用一个卷积核为3×3,步长为1,参数为θFG的卷积操作C(*,θFG)降维后得到融合特征Fp,特征引导融合模块计算过程表示为:
Fcs=Fs+CA(Up(Fc)) (10)
Fsc=Up(Fc)+SA(Fs) (11)
Fp=Conv(Cat(Fsc,Fcs)) (12)
其中:
Cat(*)表示跨通道级联操作;
CA(*)表示通道注意力;
SA(*)表示空间注意力;
Conv(*)表示卷积操作;
Up(*)表示上采样操作;
(54)步骤(5)中所述的预测模块包括一个卷积核为3×3,步长为1,参数为
Figure FDA0003189730950000061
卷积操作
Figure FDA0003189730950000062
和一个卷积核为1×1,步长为1,参数为
Figure FDA0003189730950000063
卷积操作
Figure FDA0003189730950000064
更进一步地,步骤(52)包括两个结构相同的空间注意力模块和一个卷积块,下面以输入特征F2描述空间注意力模块的具体操作,并对卷积块进行描述:
(521)空间注意力模块以F2为输入,首先,通过两个池化操作分别从通道维度上求取平均池化特征
Figure FDA0003189730950000071
和最大池化特征
Figure FDA0003189730950000072
然后将其级联并通过一个卷积核为3×3,步长为1,参数为
Figure FDA0003189730950000073
卷积操作
Figure FDA0003189730950000074
和Sigmoid激活函数生成空间注意力权重图W∈R1×H×W,接着对输入特征进行重加权,从而得到增强后的空间细节特征F2,s,其计算过程表示为:
Figure FDA0003189730950000075
其中:
Conv(*)表示卷积操作;
Cat(*)表示跨通道级联操作;
Sigmoid(*)表示Sigmoid激活函数操作;
AvgPool(*)表示平均池化操作;
MaxPool(*)表示最大池化操作;
Figure FDA00031897309500000720
表示逐元素相乘操作;
(522)卷积块包含了两个卷积操作
Figure FDA0003189730950000076
Figure FDA0003189730950000077
两个批量归一化操作和两个ReLu激活函数操作,其中:一个卷积核为3×3,步长为1,参数为
Figure FDA0003189730950000078
卷积操作
Figure FDA0003189730950000079
一个卷积核为3×3,步长为1,参数为
Figure FDA00031897309500000710
卷积操作
Figure FDA00031897309500000711
更进一步地,步骤(53)所述的语义上下文模块由四个并行的洞卷积操作和四个结构相同的通道注意力模块组成:
(531)四个洞卷积操作分别为:
一个卷积核为1×1,步长为1,洞率为1,参数为
Figure FDA00031897309500000712
的洞卷积操作
Figure FDA00031897309500000713
一个卷积核为3×3,步长为1,洞率为3,参数为
Figure FDA00031897309500000714
的洞卷积操作
Figure FDA00031897309500000715
一个卷积核为3×3,步长为1,洞率为6,参数为
Figure FDA00031897309500000716
的洞卷积操作
Figure FDA00031897309500000717
一个卷积核为3×3,步长为1,洞率为9,参数为
Figure FDA00031897309500000718
的洞卷积操作
Figure FDA00031897309500000719
(532)全局语义上下文模块具有4个结构相同的通道注意力模块,假设通道注意力模块的输入为F5,i∈RC×H×W;当i=1时,其输入为
Figure FDA0003189730950000081
当i∈{2,3,4}时,其输入为
Figure FDA0003189730950000082
首先通过使用全局平均池化和全局最大池化沿着通道维度聚合特征图的空间信息,生成两个不同的空间上下文特征向量
Figure FDA0003189730950000083
Figure FDA0003189730950000084
分别表示平均池化特征和最大池化特征,然后将这两个空间上下文特征向量输入到一个共享权重的卷积块中生成通道注意力图Mm,c∈RC×1×1和Ma,c∈RC×1×1,在卷积块处理每个特征向量后,使用元素求和的方式来合并输出特征向量,经过Sigmoid激活函数生成通道注意力权重,接着以逐通道相乘的方式对输入特征进行重加权,即可得到增强后的语义上下文特征
Figure FDA0003189730950000085
通道注意力模块计算过程表示为:
Figure FDA0003189730950000086
其中:
Sigmoid(*)表示Sigmoid激活函数;
AvgPool(*)表示平均池化操作;
MaxPool(*)表示最大池化操作;
ConvW(*)表示共享权重的卷积操作;
Figure FDA0003189730950000087
表示元素相加;
Figure FDA0003189730950000088
表示逐元素相乘。
6.根据权利要求5所述的一种基于深度无监督学习的图像阴影检测方法,其特征在于,步骤(6)所述的多阶段模型训练包含以下步骤:
(61)在多阶段课程训练集
Figure FDA0003189730950000089
上对深度阴影检测模型进行训练,将步骤(5)中深度阴影检测模型的预测输出特征图,通过sigmoid激活函数后得到预测图p,与相应的伪标签
Figure FDA00031897309500000810
进行比较,求取网络模型的二元对称交叉熵损失LSCE
LBSCE=αLBCE+LBRCE (14)
其中:
LBCE和LBRCE分别表示二元交叉熵损失和二元反向交叉熵损失,α表示两项损失之间的平衡参数;
更进一步,二元交叉熵LBCE和二元反向交叉熵的定义如下:
Figure FDA0003189730950000091
Figure FDA0003189730950000092
其中:
Figure FDA0003189730950000093
表示第c轮课程训练的模型对图像样本xn的预测;
Figure FDA0003189730950000094
表示第c轮课程训练图像样本xn的伪标签;Nc表示第c轮课程训练的样本数量;
在多阶段课程训练集上对深度阴影检测模型M使用对称交叉熵损失进行多阶段训练得到多个阶段的深度阴影检测模型Mc
(62)当c<C-1时,采用模型Mc对样本集合Dc+1进行标注,获取深度阴影图Y′c+1;利用步骤(4)的伪标签更新模块对伪标签进行更新,即根据初始伪标签阴影图Y0和深度阴影图Y′c+1在原图像的阴影强度,选择阴影强度低的阴影图作为第c+1轮课程训练的伪标签Yc+1
(63)重复步骤(61)-(62),直至达到模型训练停止条件,即完成所有学习课程,将最后一阶段的模型作为最终模型。
7.根据权利要求6所述的一种基于深度无监督学习的图像阴影检测方法,其特征在于,α=0.5。
8.根据权利要求6所述的一种基于深度无监督学习的图像阴影检测方法,其特征在于,步骤(7)预测阴影图像的阴影结果图:
在测试数据集上,利用步骤(6)得到的最终网络模型参数,对步骤(5)中得到的预测输出特征图P,通过进一步sigmoid激活函数操作进行分类计算,用S表示网络所有层级输出阴影掩膜图,S可表示如下:
S=Sigmoid(P) (17)
其中,Sigmoid(*)表示Sigmoid激活函数;
最后,将S作为最终的阴影预测图。
CN202110874144.XA 2021-07-30 2021-07-30 一种基于深度无监督学习的图像阴影检测方法 Active CN113436115B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110874144.XA CN113436115B (zh) 2021-07-30 2021-07-30 一种基于深度无监督学习的图像阴影检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110874144.XA CN113436115B (zh) 2021-07-30 2021-07-30 一种基于深度无监督学习的图像阴影检测方法

Publications (2)

Publication Number Publication Date
CN113436115A true CN113436115A (zh) 2021-09-24
CN113436115B CN113436115B (zh) 2023-09-19

Family

ID=77762537

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110874144.XA Active CN113436115B (zh) 2021-07-30 2021-07-30 一种基于深度无监督学习的图像阴影检测方法

Country Status (1)

Country Link
CN (1) CN113436115B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114093435A (zh) * 2021-10-21 2022-02-25 深圳阿尔法分子科技有限责任公司 一种基于深度学习的化学分子相关水溶性预测方法
CN115147412A (zh) * 2022-08-31 2022-10-04 武汉大学 一种内存传递的长时序网络及视频阴影检测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160019458A1 (en) * 2014-07-16 2016-01-21 Deep Learning Analytics, LLC Systems and methods for recognizing objects in radar imagery
US20200265562A1 (en) * 2017-09-08 2020-08-20 Nec Corporation Image processing device, image processing method and storage medium
CN111639692A (zh) * 2020-05-25 2020-09-08 南京邮电大学 一种基于注意力机制的阴影检测方法
CN111797712A (zh) * 2020-06-16 2020-10-20 南京信息工程大学 基于多尺度特征融合网络的遥感影像云与云阴影检测方法
CN112529789A (zh) * 2020-11-13 2021-03-19 北京航空航天大学 一种城市可见光遥感图像阴影去除的弱监督方法
CN112861880A (zh) * 2021-03-05 2021-05-28 江苏实达迪美数据处理有限公司 基于图像分类的弱监督rgbd图像显著性检测方法及系统
CN113052775A (zh) * 2021-03-31 2021-06-29 华南理工大学 一种图像去阴影方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160019458A1 (en) * 2014-07-16 2016-01-21 Deep Learning Analytics, LLC Systems and methods for recognizing objects in radar imagery
US20200265562A1 (en) * 2017-09-08 2020-08-20 Nec Corporation Image processing device, image processing method and storage medium
CN111639692A (zh) * 2020-05-25 2020-09-08 南京邮电大学 一种基于注意力机制的阴影检测方法
CN111797712A (zh) * 2020-06-16 2020-10-20 南京信息工程大学 基于多尺度特征融合网络的遥感影像云与云阴影检测方法
CN112529789A (zh) * 2020-11-13 2021-03-19 北京航空航天大学 一种城市可见光遥感图像阴影去除的弱监督方法
CN112861880A (zh) * 2021-03-05 2021-05-28 江苏实达迪美数据处理有限公司 基于图像分类的弱监督rgbd图像显著性检测方法及系统
CN113052775A (zh) * 2021-03-31 2021-06-29 华南理工大学 一种图像去阴影方法及装置

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
GUANGLEI KAN ET AL.: "Semi-supervised Extreme Learning Machinebased Method for Moving Cast Shadow Detection", 《2021 IEEE 4TH ADVANCED INFORMATION MANAGEMENT, COMMUNICATES, ELECTRONIC AND AUTOMATION CONTROL CONFERENCE (IMCEC)》 *
GUANGLEI KAN ET AL.: "Semi-supervised Extreme Learning Machinebased Method for Moving Cast Shadow Detection", 《2021 IEEE 4TH ADVANCED INFORMATION MANAGEMENT, COMMUNICATES, ELECTRONIC AND AUTOMATION CONTROL CONFERENCE (IMCEC)》, 19 July 2021 (2021-07-19), pages 1083 - 1089 *
JAFAR TANHA ET AL.: "Semi-supervised self-training for decision tree classifiers", 《OPEN ACCESS AT SPRINGERLINK.COM》 *
JAFAR TANHA ET AL.: "Semi-supervised self-training for decision tree classifiers", 《OPEN ACCESS AT SPRINGERLINK.COM》, 24 January 2015 (2015-01-24), pages 1 - 16 *
YOSHUA BENGIO ET AL.: "Curriculum learning", 《ICML "09: PROCEEDINGS OF THE 26TH ANNUAL INTERNATIONAL CONFERENCE ON MACHINE LEARNING》 *
YOSHUA BENGIO ET AL.: "Curriculum learning", 《ICML "09: PROCEEDINGS OF THE 26TH ANNUAL INTERNATIONAL CONFERENCE ON MACHINE LEARNING》, 14 June 2009 (2009-06-14), pages 1 - 8, XP055239022, DOI: 10.1145/1553374.1553380 *
仇一帆 等: "无人工标注数据的Landsat影像云检测深度学习方法", 《国土资源遥感》 *
仇一帆 等: "无人工标注数据的Landsat影像云检测深度学习方法", 《国土资源遥感》, vol. 33, no. 1, 12 March 2021 (2021-03-12), pages 102 - 107 *
谭道强 等: "基于混合注意力模型的阴影检测方法", 《计算机应用》 *
谭道强 等: "基于混合注意力模型的阴影检测方法", 《计算机应用》, vol. 41, no. 7, 10 July 2021 (2021-07-10), pages 2076 - 2081 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114093435A (zh) * 2021-10-21 2022-02-25 深圳阿尔法分子科技有限责任公司 一种基于深度学习的化学分子相关水溶性预测方法
CN115147412A (zh) * 2022-08-31 2022-10-04 武汉大学 一种内存传递的长时序网络及视频阴影检测方法
CN115147412B (zh) * 2022-08-31 2022-12-16 武汉大学 一种内存传递的长时序网络及视频阴影检测方法

Also Published As

Publication number Publication date
CN113436115B (zh) 2023-09-19

Similar Documents

Publication Publication Date Title
CN112966684B (zh) 一种注意力机制下的协同学习文字识别方法
CN110910391B (zh) 一种双模块神经网络结构视频对象分割方法
CN111476219A (zh) 智能家居环境中图像目标检测方法
CN111275688A (zh) 基于注意力机制的上下文特征融合筛选的小目标检测方法
CN113487629B (zh) 一种基于结构化场景和文本描述的图像属性编辑方法
Li et al. Robust deep neural networks for road extraction from remote sensing images
CN113436115A (zh) 一种基于深度无监督学习的图像阴影检测方法
CN114998603A (zh) 一种基于深度多尺度特征因子融合的水下目标检测方法
CN114897782B (zh) 基于生成式对抗网络的胃癌病理切片图像分割预测方法
CN114842238A (zh) 一种嵌入式乳腺超声影像的识别方法
CN113408524A (zh) 一种基于mask rcnn的农作物图像分割提取算法
CN116433909A (zh) 基于相似度加权多教师网络模型的半监督图像语义分割方法
CN113344005B (zh) 一种基于优化小尺度特征的图像边缘检测方法
CN112257787B (zh) 基于生成式双重条件对抗网络结构的图像半监督分类方法
CN113988154A (zh) 一种基于不变信息蒸馏的无监督解耦图像生成方法
Liu et al. Text detection based on bidirectional feature fusion and sa attention mechanism
CN116343104B (zh) 视觉特征与向量语义空间耦合的地图场景识别方法及系统
Zhou et al. Weakly perceived object detection based on an improved CenterNet
Lyu et al. A new frog leaping algorithm-oriented fully convolutional neural network for dance motion object saliency detection
Yi A road crack detection method based on improved U-Net
Ma et al. Fuzzy C-Mean Clustering Image Segmentation Algorithm Research for MRI Sport Graphics Based on Genetic Algorithm
Liu et al. A Semantic Segmentation Algorithm for Intelligent Sweeper Vehicle Garbage Recognition Based on Improved U-net
Kaushik et al. Comparative Analysis of Object Detection Algorithms
Wu et al. SRFFNet: Self-refine, Fusion and Feedback for Salient Object Detection
Kaur et al. Deep learning based hybrid ghost-net for metaspread chromosome image segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant