CN113436115B

CN113436115B - 一种基于深度无监督学习的图像阴影检测方法

Info

Publication number: CN113436115B
Application number: CN202110874144.XA
Authority: CN
Inventors: 张强; 李军; 李广和; 金国强; 王林; 张振伟
Original assignee: Xidian University; Xian Thermal Power Research Institute Co Ltd
Current assignee: Xidian University; Xian Thermal Power Research Institute Co Ltd
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2023-09-19
Anticipated expiration: 2041-07-30
Also published as: CN113436115A

Abstract

本发明公开了一种基于深度无监督学习的图像阴影检测方法，包括：(1)使用多种不同的传统无监督阴影检测模型对无标签的训练样本集进行预测，生成相应的预测阴影图：(2)构建初始伪标签生成模块，利用多个预测阴影图生成初始伪标签；(3)构建课程学习模块，利用多个阴影图设计由简单到复杂的学习课程；(4)构建伪标签更新模块，利用伪标签阴影强度作为评估标准，来评估已训练模型的预测阴影图和初始伪标签阴影图的可靠性，进而将可靠性高的阴影图作为新的伪标签；(5)构建基于轻量级网络结构的阴影检测模型；(6)利用课程学习和伪标签更新模块对网络模型进行多阶段训练，获得最后一阶段的网络模型参数；(7)预测图像的阴影结果图。

Description

一种基于深度无监督学习的图像阴影检测方法

技术领域

本发明属于图像处理领域，具体涉及一种基于深度无监督学习的图像阴影检测方法，适用于计算机视觉任务中图像的预处理过程。

背景技术

阴影检测旨在利用模型或算法检测和分割出图像中的阴影区域。作为图像的预处理步骤，阴影检测在目标检测、语义分割、视频跟踪等视觉任务中起着至关重要的作用。

现有的阴影检测方法可以分为两大类：一类是基于传统的阴影检测方法，另一类是基于深度学习的阴影检测方法。基于传统的阴影检测算法主要是通过人工提取的颜色、纹理、亮度、方向等特征完成图像阴影的检测，过度的依赖于人工选取的特征，对场景适应性不强，不具有鲁棒性，在复杂场景下的数据集表现不加。随着深度学习技术的广泛应用，基于深度学习的阴影检测研究取得了突破性进展，相较于传统的阴影检测算法，检测性能显著提高，有相对较强的鲁棒性。

到目前为止，基于深度学习技术的图像阴影检测方法取得了突出的效果。例如“ZHU L,DENG Z,HU X,et al.Bidirectional feature pyramid network with recurrentattention residual modules for shadow detection[C]//Proceedings of theEuropean Conference on Computer Vision,2018:121-136.”提出了双向特征金字塔网络模型，该模型主要由一个递归注意力模块分别在由高向低、由低向高两个方向进行结合相邻层级间的特征。对于得到的两个最终的特征使用了特征融合注意力机制更进一步地精炼阴影结果。该网络共使用了9个监督以确保网络不会出现过拟合。“ZHENG Q,QIAO X,CAO Y,et al.Distraction-aware shadow detection[C]//Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2019:5167-5176.”提出了一种混淆感知阴影模块来预测假阳性和假阴性像素，并将获得的混淆特征融合到各个卷积神经网络层级进行阴影检测。这种做法显著性地提高了阴影的检测能力，并且对于黑色物体、阴影不明显等复杂样本有很好的效果。

以上这些基于深度学习的阴影检测方法可以从数据驱动的训练过程中学习所需阴影知识，与传统阴影检测方法相比取得了比较优越的性能。但是，这些方法往往需要大量的具有像素级标签的训练数据。在实际中，像素级的阴影标签需要专业人员手工标注，耗时耗力，通常难以获取大规模的图像数据；而训练数据的稀缺，又限制了基于深度学习的阴影检测方法进一步发展。

发明内容

针对上述现有技术的不足，本发明目的在于提供一种基于深度无监督学习的图像阴影检测方法，主要解决现有深度阴影检测方法训练效果过度依赖于大规模具有像素级标签的训练数据且人工标注困难问题。

实现本发明的关键是在不使用人工标注数据的情况下训练出高性能的深度阴影检测模型：对于初始伪标签获取，首先通过不同的传统无监督方法来快速获取多个相对不准确的阴影图，然后通过一定的融合策略将生成的多个阴影图进行融合，采用全连接条件随机场进一步增强初始伪标签；设计基于自训练方法的伪标签更新机制在训练过程中逐步更新伪标签；设计课程学习策略引导模型由简单样本到复杂样本进行学习，改善模型的学习过程；构建基于轻量级网络结构的阴影检测模型；采用噪声鲁棒的对称交叉熵损失对网络模型进行训练，得到模型参数；预测图像的阴影检测图。

本发明采用如下技术方案来实现的：

一种基于深度无监督学习的图像阴影检测方法，包括以下步骤：

(1)使用Z＝4种不同的传统无监督阴影检测模型对无标签的训练样本集D＝{x_n,n＝0,...,N-1}进行预测，生成相应的预测阴影图其中N表示训练样本的数量；

(2)构建初始伪标签生成模块，通过初始伪标签生成模块对所述步骤(1)得到的多个阴影图进行平均融合，得到融合阴影图，并利用全连接条件随机场进一步增强融合阴影图，得到初始伪标签；

(3)构建课程学习模块，利用步骤(1)得到的多个阴影图构建由简单到复杂的学习课程D_C＝{D_c,c＝0,...,C-1}：

通过计算多个阴影图之间的一致性程度来衡量训练样本场景的复杂度，根据不同复杂度将训练样本集平均划分为R个不同样本复杂度等级的样本子集，利用R＝5个样本子集构建由简单到复杂且样本数量逐渐递增的多阶段课程训练集D_C＝{D_c,c＝0,...,C-1}，其中D_c表示用于第c轮课程训练的样本集合，C＝23表示课程的数量；将课程训练的伪标签定义其中/>表示第n个样本在第c轮课程训练的伪标签，N_c表示第c轮课程的训练样本量；当c＝0时，Y₀则表示初始伪标签生成模型产生的初始伪标签；

(4)构建伪标签更新模块，利用伪标签阴影强度作为评估标准，来评估已训练模型的预测阴影图和初始伪标签阴影图的可靠性，进而将可靠性高的阴影图作为新的伪标签；

(5)构建基于轻量级网络结构的阴影检测模型M：

首先，采用小规模的网络模型对输入图像进行特征提取；然后，通过空间感知模块在浅层网络捕获低层级的空间细节信息，有效地精炼阴影预测图的边缘；通过语义感知模块挖掘深层特征中多尺度多感受野的语义上下文信息；通过特征引导融合模块有效地融合空间细节特征和语义上下文特征，将融合输出经过一个预测模块作为模型的预测输出特征；

(6)训练算法模型：

在步骤(3)构建的多阶段课程训练集上，用步骤(2)得到的初始伪标签对步骤(5)的阴影预测图进行监督学习，通过噪声鲁棒的对称交叉熵损失，对模型进行多阶段训练，在多阶段训练过程中，利用步骤(4)的伪标签更新模块对噪声伪标签进行更新，完成多阶段模型训练，得到最后一阶段的网络模型参数；

(7)预测图像的阴影结果图：

在测试数据集上，利用步骤(6)得到的网络模型参数，对步骤(5)中得到的预测输出特征图，通过sigmoid进行分类计算，进行阴影图像的像素级预测。

本发明进一步的改进在于，步骤(2)中所述的初始伪标签生成过程表示为：

(21)多个阴影图进行平均融合，得到融合阴影图：

其中：

asm_n表示第n张图像样本的融合阴影图；

表示第z种传统阴影检测模型对第n张图像样本的预测阴影图；

Z表示传统阴影检测模型的数量；

(22)使用全连接条件随机场对融合阴影图进一步增强，得到初始伪标签：

其中：

∈初始伪标签集合Y₀，表示第n张图像样本的初始伪标签；

x_n表示第n张图像样本；

asm_n表示第n张图像样本的融合阴影图；

CRF(*)表示全连接条件随机场操作。

本发明进一步的改进在于，步骤(3)的具体实现方法如下：

(31)利用多个阴影图之间的一致性评估样本场景的复杂度：

其中：

τ_n表示第n张图像样本场景的复杂度；

BER(*)表示平衡误差率，其最初用于衡量阴影检测算法的性能，通过度量预测结果与真值标签的一致性来衡量算法性能，这里将其用于衡量阴影图之间的一致性；

usm_n表示第n张图像样本的预测阴影图；

Z表示传统阴影检测模型的数量；

更进一步地，上述公式(3)平衡误差率BER由以下公式表示：

其中：

TP表示正确地检测到的阴影像素数量，即真阳性；

TN表示正确地检测到的非阴影像素数量，即真阴性；

N_p和N_n分别表示阴影区域和非阴影区域的像素数量；

(32)构建递增式多阶段学习课程包括：

(321)将训练样本按照步骤(31)得到的复杂度τ降序排序后，根据不同复杂度将训练样本集平均划分为R个不同复杂度等级的样本子集，即其中每个子集互不包含且含有的样本数量为N/R，N为所有训练样本总量；将由简单到复杂的多阶段课程训练集定义为{D_c,c＝0,...,C-1}，其中D_c表示用于第c轮课程训练的样本集合；

(322)构建递增式多阶段课程训练集，在模型的训练过程中将较为复杂的样本逐渐添加到当前的训练数据集中，以此来增加训练样本复杂度；当c＜R时，将R个不同复杂度的样本子集以递增的方式逐渐加入到课程训练集D_c中，这样D_c中训练样本数量随着课程的进行逐渐增加，即当R≤c＜C时，D_c的样本数量保持不变，即D_c＝D_R-1；递增方式的多阶段课程训练集D_c表示为：

其中：

∪表示样本集合的并集操作。

本发明进一步的改进在于，步骤(4)伪标签更新模块：

对于给定训练图像集合{x_n}，及其对应的初始伪标签集合和当前课程迭代训练生成的深度阴影图集合/>首先计算每一幅图像对应初始标签的阴影图像强度/>和对应深度伪标签的图像强度/>

其中：

Mean(*)表示均值操作；

表示逐元素相乘；

第c+1轮课程训练的伪标签表示为：

本发明进一步的改进在于，步骤(5)中所述的基于轻量级网络结构的阴影检测模型M包含特征提取网络、空间感知模块、语义感知模块和特征引导融合模块：

(51)对于输入图像采用ResNet-18网络进行特征提取，得到5个不同分辨率的层级特征F¹，F²，F³，F⁴，F⁵；

(52)步骤(5)中所述的空间感知模块由两个结构相同的空间注意力模块和卷积融合模块构成，空间感知模块以步骤(1)得到的输入图像的浅层特征F²和F³作为输入，分别通过空间注意力模块获得两个不同层级增强后的空间细节特征和/>然后将其进行上采样级联，经过卷积块进行特征聚合以加强二者的联系，最后输出含有丰富空间细节信息的特征F_s，空间细节特征F_s表示为：

其中：

Conv_br(*)表示有批量归一化和ReLu激活函数的卷积操作；

Cat(*)表示跨通道级联操作；

Up(*)表示上采样操作；

SA(*)表示空间注意力模块；

(53)步骤(5)中所述的语义感知模块由两个结构相同的语义上下文模块和一个卷积块构成，语义感知模块以步骤(1)得到的输入图像的浅层特征F⁴和F⁵作为输入，分别通过语义上下文模块获得两个不同层级的语义上下文特征和/>然后将其进行上采样级联，经过卷积块进行特征聚合以加强二者的联系，最后输出含有丰富语义上下文信息的特征F_c，语义上下文特征F_c表示为：

其中：

Conv_br(*)表示有批量归一化和ReLu激活函数的卷积操作；

Cat(*)表示跨通道级联操作；

Up(*)表示上采样操作；

GSC(*)表示全局语义上下文模块；

(54)步骤(5)中所述的特征引导融合模块由一个空间注意力模块和一个通道注意力模块构成，特征引导融合模块以空间细节特征F_s和语义上下文特征F_c为输入，F_s经过空间注意力激活后与F_c相加得到细节信息补充的语义特征F_sc，F_c上采样之后经过通道注意力激活与F_s相加得到语义信息指导的细节特征F_cs，更进一步，将F_sc和F_cs级联并使用一个卷积核为3×3，步长为1，参数为的卷积操作/>降维后得到融合特征F_p，特征引导融合模块计算过程表示为：

F_cs＝F_s+CA(Up(F_c)) (10)

F_sc＝Up(F_c)+SA(F_s) (11)

F_p＝Conv(Cat(F_sc,F_cs)) (12)

其中：

Cat(*)表示跨通道级联操作；

CA(*)表示通道注意力；

SA(*)表示空间注意力；

Conv(*)表示卷积操作；

Up(*)表示上采样操作；

(54)步骤(5)中所述的预测模块包括一个卷积核为3×3，步长为1，参数为卷积操作/>和一个卷积核为1×1，步长为1，参数为/>卷积操作/>

更进一步地，步骤(52)包括两个结构相同的空间注意力模块和一个卷积块，下面以输入特征F²描述空间注意力模块的具体操作，并对卷积块进行描述：

(521)空间注意力模块以F²为输入，首先，通过两个池化操作分别从通道维度上求取平均池化特征和最大池化特征/>然后将其级联并通过一个卷积核为3×3，步长为1，参数为/>卷积操作/>和Sigmoid激活函数生成空间注意力权重图W∈R^1×H×W，接着对输入特征进行重加权，从而得到增强后的空间细节特征F^2,s，其计算过程表示为：

其中：

Conv(*)表示卷积操作；

Cat(*)表示跨通道级联操作；

Sigmoid(*)表示Sigmoid激活函数操作；

AvgPool(*)表示平均池化操作；

MaxPool(*)表示最大池化操作；

表示逐元素相乘操作；

(522)卷积块包含了两个卷积操作和/>两个批量归一化操作和两个ReLu激活函数操作，其中：一个卷积核为3×3，步长为1，参数为/>卷积操作/>一个卷积核为3×3，步长为1，参数为/>卷积操作/>

更进一步地，步骤(53)所述的语义上下文模块由四个并行的洞卷积操作和四个结构相同的通道注意力模块组成：

(531)四个洞卷积操作分别为：

一个卷积核为1×1，步长为1，洞率为1，参数为的洞卷积操作/>

一个卷积核为3×3，步长为1，洞率为3，参数为的洞卷积操作/>

一个卷积核为3×3，步长为1，洞率为6，参数为的洞卷积操作/>

一个卷积核为3×3，步长为1，洞率为9，参数为的洞卷积操作/>

(532)全局语义上下文模块具有4个结构相同的通道注意力模块，假设通道注意力模块的输入为F^5,i∈R^C×H×W；当i＝1时，其输入为当i∈{2,3,4}时，其输入为/>首先通过使用全局平均池化和全局最大池化沿着通道维度聚合特征图的空间信息，生成两个不同的空间上下文特征向量/>和/>分别表示平均池化特征和最大池化特征，然后将这两个空间上下文特征向量输入到一个共享权重的卷积块中生成通道注意力图M^m,c∈R^C×1×1和M^a,c∈R^C×1×1，在卷积块处理每个特征向量后，使用元素求和的方式来合并输出特征向量，经过Sigmoid激活函数生成通道注意力权重，接着以逐通道相乘的方式对输入特征进行重加权，即可得到增强后的语义上下文特征/>通道注意力模块计算过程表示为：

其中：

Sigmoid(*)表示Sigmoid激活函数；

AvgPool(*)表示平均池化操作；

MaxPool(*)表示最大池化操作；

Conv_W(*)表示共享权重的卷积操作；

表示元素相加；

表示逐元素相乘。

本发明进一步的改进在于，步骤(6)所述的多阶段模型训练包含以下步骤：

(61)在多阶段课程训练集上对深度阴影检测模型进行训练，将步骤(5)中深度阴影检测模型的预测输出特征图，通过sigmoid激活函数后得到预测图p，与相应的伪标签/>进行比较，求取网络模型的二元对称交叉熵损失L_SCE：

L_BSCE＝αL_BCE+L_BRCE (14)

其中：

L_BCE和L_BRCE分别表示二元交叉熵损失和二元反向交叉熵损失，α表示两项损失之间的平衡参数；

更进一步，二元交叉熵L_BCE和二元反向交叉熵的定义如下：

其中：表示第c轮课程训练的模型对图像样本x_n的预测；/>表示第c轮课程训练图像样本x_n的伪标签；N_c表示第c轮课程训练的样本数量；

在多阶段课程训练集上对深度阴影检测模型M使用对称交叉熵损失进行多阶段训练得到多个阶段的深度阴影检测模型M_c；

(62)当c＜C-1时，采用模型M_c对样本集合D_c+1进行标注，获取深度阴影图Y'_c+1；利用步骤(4)的伪标签更新模块对伪标签进行更新，即根据初始伪标签阴影图Y₀和深度阴影图Y'_c+1在原图像的阴影强度，选择阴影强度低的阴影图作为第c+1轮课程训练的伪标签Y_c+1；

(63)重复步骤(61)-(62)，直至达到模型训练停止条件，即完成所有学习课程，将最后一阶段的模型作为最终模型。

本发明进一步的改进在于，α＝0.5。

本发明进一步的改进在于，步骤(7)预测阴影图像的阴影结果图：

在测试数据集上，利用步骤(6)得到的最终网络模型参数，对步骤(5)中得到的预测输出特征图P，通过进一步sigmoid激活函数操作进行分类计算，用S表示网络所有层级输出阴影掩膜图，S可表示如下：

S＝Sigmoid(P) (17)

其中，Sigmoid)*)表示Sigmoid激活函数；

最后，将S作为最终的阴影预测图。

本发明至少具有如下有益的技术效果：

本发明无需任何带有人工标注的图像数据即可通过算法训练出性能强大的深度阴影检测模型，进而缓解了现有深度阴影检测技术严重依赖大规模具有人工标注图像数据的问题。本发明通过步骤(1)多种现有传统阴影检测技术为训练集的阴影图像生成多个阴影图，并通过步骤(2)初始伪标签生成模块生成训练样本伪标签，该伪标签能够替代人工标注数据对模型进行监督训练，从而缓解了现有深度阴影检测技术对人工标注数据的依赖。

进一步，所述的步骤(2)初始伪标签生成模块通过平均融合和全连接条件随机场技术增强了伪标签作为监督信息的可靠性。

进一步，所述的步骤(3)课程学习模块，课程学习将简单样本和复杂样本进行差异化处理，将训练样本集划分为由简单到复杂的学习课程。利用学习课程对深度阴影检测模型进行训练，能够确保模型不会受到样本无序学习和伪标签的噪声的影响而无法收敛，从简单样本中开始学习，为模型学习提供一个优化收敛方向，并通过逐渐增加复杂样本来指导模型搜索到较好的局部最优点，进而提高模型的鲁棒性和泛化能力。

进一步，所述的步骤(4)伪标签更新模块，在深度阴影检测模型课程训练过程中，利用模型预测的阴影图有选择地逐步更新作为监督信息的伪标签，以消除伪标签中的噪声信息，提高伪标签的准确性，进而保证模型学习到更准确的阴影知识，提高模型的泛化能力。

进一步，所述的步骤(5)基于轻量级网络结构的阴影检测模型，利用小规模的特征提取网络能够有效地缓解模型的过拟合问题。其中所构建的空间感知模块通过捕获低层空间细节信息，能够精炼阴影预测图的细节边缘区域；语义感知模块通过挖掘深层特征的多尺度语义上下文信息，使模型更好地感知阴影区域；特征引导融合模块将低层空间细节特征和深层语义特征相互融合，用空间细节特征对语义上下文特征进行补充，以语义上下文特征抑制空间细节特征中的背景细节，使模型预测的阴影图更具完整性及精准性。

附图说明

图1为本发明公开的一种基于深度无监督学习的图像阴影检测方法的流程图；

图2为本发明提出的一种基于深度无监督学习的图像阴影检测方法的算法整体框图；

图3为本发明提出的多阶段课程训练集构建示意图；

图4为本发明提出的伪标签更新示意图；

图5为本发明提出的深度阴影检测模型网络结构图；

图6为本发明的空间感知模块结构图；

图7为本发明的语义上下文模块结构图；

图8为本发明的特征引导融合模块结构图；

图9为本发明的空间注意力模块结构图；

图10为本发明的通道注意力模块结构图；

图11本发明与现有技术在公开阴影图像数据库SBU下的实验结果仿真对比图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

本发明提供的一种基于深度无监督学习的图像阴影检测方法，包括如下步骤：

如图3所示，通过计算多个阴影图之间的一致性程度来衡量训练样本场景的复杂度，根据不同复杂度将训练样本集平均划分为R个不同样本复杂度等级的样本子集，利用R＝5个样本子集构建由简单到复杂且样本数量逐渐递增的多阶段课程训练集D_C＝{D_c,c＝0,...,C-1}，其中D_c表示用于第c轮课程训练的样本集合，C＝23表示课程的数量。将课程训练的伪标签定义其中/>表示第n个样本在第c轮课程训练的伪标签，N_c表示第c轮课程的训练样本量；当c＝0时，Y₀则表示初始伪标签生成模型产生的初始伪标签。

(4)构建伪标签更新模块，利用伪标签阴影强度作为评估标准，来评估已训练模型的预测阴影图和初始伪标签阴影图的可靠性，进而将可靠性高的阴影图作为新的伪标签，如图4所示；

(5)构建基于轻量级网络结构的阴影检测模型M：

如图5所示，首先，采用小规模的网络模型对输入图像进行特征提取。然后，通过空间感知模块在浅层网络捕获低层级的空间细节信息，有效地精炼阴影预测图的边缘；通过语义感知模块挖掘深层特征中多尺度多感受野的语义上下文信息；通过特征引导融合模块有效地融合空间细节特征和语义上下文特征，将融合输出经过一个预测模块作为模型的预测输出特征；

(6)训练算法模型：

在步骤(3)构建的多阶段课程训练集上，用步骤(2)得到的初始伪标签对步骤(5)的阴影预测图进行监督学习，通过噪声鲁棒的对称交叉熵损失，对模型进行多阶段训练。在多阶段训练过程中，利用步骤(4)的伪标签更新模块对噪声伪标签进行更新，完成多阶段模型训练，得到最后一阶段的网络模型参数；

(7)预测图像的阴影结果图：

进一步地，步骤(2)中所述的初始伪标签生成过程表示为：

(21)多个阴影图进行平均融合，得到融合阴影图：

其中：

asm_n表示第n张图像样本的融合阴影图；

Z表示传统阴影检测模型的数量。

其中：

∈初始伪标签集合Y₀，表示第n张图像样本的初始伪标签；

x_n表示第n张图像样本；

asm_n表示第n张图像样本的融合阴影图；

CRF(*)表示全连接条件随机场操作；

进一步地，步骤(3)包括步骤(31)和步骤(32)：

(31)利用多个阴影图之间的一致性评估样本场景的复杂度：

其中：

τ_n表示第n张图像样本场景的复杂度；

usm_n表示第n张图像样本的预测阴影图；

Z表示传统阴影检测模型的数量。

更进一步地，上述公式(3)平衡误差率BER可以由以下公式表示：

其中：

TP表示正确地检测到的阴影像素数量，即真阳性(True Positive)；

TN表示正确地检测到的非阴影像素数量，即真阴性(True Negative)；

N_p和N_n分别表示阴影区域和非阴影区域的像素数量。

(32)构建递增式多阶段学习课程包括：

(321)将训练样本按照步骤(31)得到的复杂度τ降序排序后，根据不同复杂度将训练样本集平均划分为R个不同复杂度等级的样本子集，即其中每个子集互不包含且含有的样本数量为N/R，N为所有训练样本总量。将由简单到复杂的多阶段课程训练集定义为{D_c,c＝0,...,C-1}，其中D_c表示用于第c轮课程训练的样本集合。

(322)构建递增式多阶段课程训练集，在模型的训练过程中将较为复杂的样本逐渐添加到当前的训练数据集中，以此来增加训练样本复杂度。当c＜R时，将R个不同复杂度的样本子集以递增的方式逐渐加入到课程训练集D_c中，这样D_c中训练样本数量随着课程的进行逐渐增加，即当R≤c＜C时，D_c的样本数量保持不变，即D_c＝D_R-1。递增方式的多阶段课程训练集D_c可以表示为：

其中：

∪表示样本集合的并集操作。

进一步地，步骤(4)伪标签更新模块：

对于给定训练图像集合{x_n}，及其对应的初始伪标签集合和当前课程迭代训练(第c轮)生成的深度阴影图集合/>首先计算每一幅图像对应初始标签的阴影图像强度/>和对应深度伪标签的图像强度/>

其中：

Mean(*)表示均值操作；

表示逐元素相乘。

第c+1轮课程训练的伪标签可以表示为：

进一步地，步骤(5)中所述的基于轻量级网络结构的阴影检测模型M包含特征提取网络、空间感知模块、语义感知模块和特征引导融合模块：

(52)步骤(5)中所述的空间感知模块由两个结构相同的空间注意力模块和卷积融合模块构成，如图6所示。空间感知模块以步骤(1)得到的输入图像的浅层特征F²和F³作为输入，分别通过空间注意力模块获得两个不同层级增强后的空间细节特征和/>然后将其进行上采样级联，经过卷积块(Conv Block，包含两个具有批量归一化和ReLu激活函数的卷积操作Conv_br)进行特征聚合以加强二者的联系，最后输出含有丰富空间细节信息的特征F_s。空间细节特征F_s可以表示为：

F_s＝Conv_br(Conv_br(Cat(SA(F²),Up(SA(F³))))) (9)

其中：

Conv_br(*)表示有批量归一化和ReLu激活函数的卷积操作；

Cat(*)表示跨通道级联操作；

Up(*)表示上采样操作；

SA(*)表示空间注意力模块。

(53)步骤(5)中所述的语义感知模块由两个结构相同的语义上下文模块和一个卷积块构成，如图7所示。语义感知模块以步骤(1)得到的输入图像的浅层特征F⁴和F⁵作为输入，分别通过语义上下文模块获得两个不同层级的语义上下文特征和/>然后将其进行上采样级联，经过卷积块(Conv Block，与步骤(52)所述的卷积块的结构相同)进行特征聚合以加强二者的联系，最后输出含有丰富语义上下文信息的特征F_c。语义上下文特征F_c可以表示为：

F_c＝Conv_br(Conv_br(Cat(GSC(F⁴),Up(GSC(F⁵))))) (9)

其中：

Conv_br)*)表示有批量归一化和ReLu激活函数的卷积操作；

Cat(*)表示跨通道级联操作；

Up(*)表示上采样操作；

GSC(*)表示全局语义上下文模块。

(54)步骤(5)中所述的特征引导融合模块由一个空间注意力模块和一个通道注意力模块构成(这两个模块分别在步骤(521)和步骤(532)中描述)，如图8所示。特征引导融合模块以空间细节特征F_s和语义上下文特征F_c为输入。F_s经过空间注意力激活后与F_c相加得到细节信息补充的语义特征F_sc。F_c上采样之后经过通道注意力激活与F_s相加得到语义信息指导的细节特征F_cs。更进一步，将F_sc和F_cs级联并使用一个卷积核为3×3，步长为1，参数为的卷积操作/>降维后得到融合特征F_p。特征引导融合模块计算过程可以表示为：

F_cs＝F_s+CA(Up(F_c)) (10)

F_sc＝Up(F_c)+SA(F_s) (11)

F_p＝Conv(Cat(F_sc,F_cs)) (12)

其中：

Cat(*)表示跨通道级联操作；

CA(*)表示通道注意力；

SA(*)表示空间注意力；

Conv(*)表示卷积操作；

Up(*)表示上采样操作。

更进一步地，步骤(52)包括两个结构相同的空间注意力模块和一个卷积块，下面以输入特征F²为例描述空间注意力模块的具体操作，并对卷积块进行描述：

(521)如图9所示，空间注意力模块以F²为输入，首先，通过两个池化操作分别从通道维度上求取平均池化特征和最大池化特征/>然后将其级联并通过一个卷积核为3×3，步长为1，参数为/>卷积操作/>和Sigmoid激活函数生成空间注意力权重图W∈R^1×H×W，接着对输入特征进行重加权，从而得到增强后的空间细节特征F^2,s，其计算过程可以表示为：

其中：

Conv(*)表示卷积操作；

Cat(*)表示跨通道级联操作；

Sigmoid(*)表示Sigmoid激活函数操作；

AvgPool(*)表示平均池化操作；

MaxPool(*)表示最大池化操作；

表示逐元素相乘操作。

(531)四个洞卷积操作分别为：

(532)全局语义上下文模块具有4个结构相同的通道注意力模块。下面以其中一个为例详细介绍通道注意力模块，如图10所示。假设通道注意力模块的输入为F^5,i∈R^C×H×W。特别地，当i＝1时，其输入为当i∈{2,3,4}时，其输入为/>首先通过使用全局平均池化和全局最大池化沿着通道维度聚合特征图的空间信息，生成两个不同的空间上下文特征向量/>和/>分别表示平均池化特征和最大池化特征。然后将这两个空间上下文特征向量输入到一个共享权重的卷积块中生成通道注意力图M^m,c∈R^C ^×1×1和M^a,c∈R^C×1×1，在卷积块处理每个特征向量后，使用元素求和的方式来合并输出特征向量，经过Sigmoid激活函数生成通道注意力权重，接着以逐通道相乘的方式对输入特征进行重加权，即可得到增强后的语义上下文特征/>通道注意力模块计算过程可以表示为：

其中：

Sigmoid(*)表示Sigmoid激活函数；

AvgPool(*)表示平均池化操作；

MaxPool)*)表示最大池化操作；

Conv_W)*)表示共享权重的卷积操作；

表示元素相加；

表示逐元素相乘。

进一步地，步骤(6)所述的多阶段模型训练包含以下步骤：

L_BSCE＝αL_BCE+L_BRCE (14)

其中：

L_BCE和L_BRCE分别表示二元交叉熵损失和二元反向交叉熵损失，α＝0.5表示两项损失之间的平衡参数；

更进一步，二元交叉熵L_BCE和二元反向交叉熵的定义如下：

其中：表示第c轮课程训练的模型对图像样本x_n的预测；/>表示第c轮课程训练图像样本x_n的伪标签；N_c表示第c轮课程训练的样本数量。

本发明在多阶段课程训练集上对深度阴影检测模型M使用对称交叉熵损失进行多阶段训练得到多个阶段的深度阴影检测模型M_c；

(63)重复步骤(61)-(62)，直至达到模型训练停止条件，即完成所有学习课程。将最后一阶段的模型作为最终模型。

进一步地，步骤(7)预测阴影图像的阴影结果图：

S＝Sigmoid(P) (17)

其中，Sigmoid(*)表示Sigmoid激活函数；

最后，将S作为最终的阴影预测图。

以下结合仿真实验，对本发明的技术效果作进一步说明：

1、仿真条件：所有仿真实验均在操作系统为Ubuntu 18.04.5，硬件环境为GPUNvidia GeForce GTX 1080Ti，采用PyTorch深度学习框架实现；

2、仿真内容及结果分析：

仿真1

将本发明与现有的阴影检测方法在公共图像数据库SBU上进行阴影检测实验，部分实验结果进行直观的比较，如图11所示，其中，Image图像表示数据库中用于实验的输入图像，GT表示人工标定的真值图；

从图11可以看出，相较于现有的无监督阴影检测技术，本发明对阴影检测难点问题效果更好，在简单场景、阴影区域与非阴影区域相似场景以及背景复杂的阴影场景下具有更准确的检测效果，且更接近于人工标定的真值图；相较于现有的基于监督学习的深度阴影检测技术，本发明获得的检测效果与之相近。

仿真2

将本发明与现有的基于深度学习的阴影检测方法在公共图像数据库SBU上进行阴影检测实验得到的结果，采用公认的评价指标进行客观评价，评价仿真结果如表1和表2所示，其中：

BER表示平衡误差率；

SER表示阴影检错率；

NER表示非阴影检错率。

表1与现有无监督阴影检测技术在SBU数据集下的指标对比

表2与现有基于监督学习的深度阴影检测技术在SBU数据集下的指标对比

以上三个指标同时越低越好，从表中可以看出在无监督条件下，本发明对阴影检测具有更准确的检测能力，优于现有的无监督阴影检测技术；同时在监督学习条件下，本发明可以在3％～4％的性能差距内接近相应的监督学习模型的上限，与其它一些现有的基于监督学习的深度阴影检测模方法相比，本发明仍然具有竞争力，能够获取与之相差不大的实验性能。更重要的是，本发明甚至优于部分基于监督学习的深度阴影检测方法。这充分表明了本发明方法的有效性和优越性。

上面对本发明的实施方式做了详细说明。但是本发明并不限于上述实施方式，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于深度无监督学习的图像阴影检测方法，其特征在于，包括以下步骤：

(2)构建初始伪标签生成模块，通过初始伪标签生成模块对所述步骤(1)得到的多个阴影图进行平均融合，得到融合阴影图，并利用全连接条件随机场进一步增强融合阴影图，得到初始伪标签；所述的初始伪标签生成过程表示为：

(21)多个阴影图进行平均融合，得到融合阴影图：

其中：

asm_n表示第n张图像样本的融合阴影图；

Z表示传统阴影检测模型的数量；

其中：

∈初始伪标签集合Y₀，表示第n张图像样本的初始伪标签；

x_n表示第n张图像样本；

asm_n表示第n张图像样本的融合阴影图；

CRF(*)表示全连接条件随机场操作；

通过计算多个阴影图之间的一致性程度来衡量训练样本场景的复杂度，根据不同复杂度将训练样本集平均划分为R个不同样本复杂度等级的样本子集，利用R＝5个样本子集构建由简单到复杂且样本数量逐渐递增的多阶段课程训练集D_C＝{D_c,c＝0,...,C-1}，其中D_c表示用于第c轮课程训练的样本集合，C＝23表示课程的数量；将课程训练的伪标签定义其中/>表示第n个样本在第c轮课程训练的伪标签，N_c表示第c轮课程的训练样本量；当c＝0时，Y₀则表示初始伪标签生成模型产生的初始伪标签；具体实现方法如下：

(31)利用多个阴影图之间的一致性评估样本场景的复杂度：

其中：

τ_n表示第n张图像样本场景的复杂度；

usm_n表示第n张图像样本的预测阴影图；

Z表示传统阴影检测模型的数量；

更进一步地，公式(3)平衡误差率BER由以下公式表示：

其中：

TP表示正确地检测到的阴影像素数量，即真阳性；

TN表示正确地检测到的非阴影像素数量，即真阴性；

N_p和N_n分别表示阴影区域和非阴影区域的像素数量；

(32)构建递增式多阶段学习课程包括：

其中：

∪表示样本集合的并集操作；

(4)构建伪标签更新模块，利用伪标签阴影强度作为评估标准，来评估已训练模型的预测阴影图和初始伪标签阴影图的可靠性，进而将可靠性高的阴影图作为新的伪标签；伪标签更新模块：

对于给定训练图像集合{x_n}，及其对应的初始伪标签集合和当前课程迭代训练生成的深度阴影图集合/>首先计算每一幅图像对应初始标签的阴影图像强度和对应深度伪标签的图像强度/>

其中：

Mean(*)表示均值操作；

表示逐元素相乘；

第c+1轮课程训练的伪标签表示为：

(5)构建基于轻量级网络结构的阴影检测模型M：

首先，采用小规模的网络模型对输入图像进行特征提取；然后，通过空间感知模块在浅层网络捕获低层级的空间细节信息，有效地精炼阴影预测图的边缘；通过语义感知模块挖掘深层特征中多尺度多感受野的语义上下文信息；通过特征引导融合模块有效地融合空间细节特征和语义上下文特征，将融合输出经过一个预测模块作为模型的预测输出特征；所述的基于轻量级网络结构的阴影检测模型M包含特征提取网络、空间感知模块、语义感知模块和特征引导融合模块：

F_s＝Conv_br(Conv_br(Cat(S(F²)，Up(SA(F³))))) (9)

其中：

Conv_br(*)表示有批量归一化和ReLu激活函数的卷积操作；

Cat(*)表示跨通道级联操作；

Up(*)表示上采样操作；

SA(*)表示空间注意力模块；

F_c＝Conv_br(Conv_br(Cat(GSC(F⁴)，Up(GSC(F⁵)))))

其中：

Conv_br(*)表示有批量归一化和ReLu激活函数的卷积操作；

Cat(*)表示跨通道级联操作；

Up(*)表示上采样操作；

GSC(*)表示全局语义上下文模块；

(54)步骤(5)中所述的特征引导融合模块由一个空间注意力模块和一个通道注意力模块构成，特征引导融合模块以空间细节特征F_s和语义上下文特征F_c为输入，F_s经过空间注意力激活后与F_c相加得到细节信息补充的语义特征F_sc，F_c上采样之后经过通道注意力激活与F_s相加得到语义信息指导的细节特征F_cs，更进一步，将F_sc和F_cs级联并使用一个卷积核为3×3，步长为1，参数为θ_FG的卷积操作C(*，θ_FG)降维后得到融合特征F_p，特征引导融合模块计算过程表示为：

F_cs＝F_s+CA(Up(F_c)) (10)

F_sc＝Up(F_c)+SA(F_s) (11)

F_p＝Conv(Cat(F_sc，F_cs)) (12)

其中：

Cat(*)表示跨通道级联操作；

CA(*)表示通道注意力；

SA(*)表示空间注意力；

Conv(*)表示卷积操作；

Up(*)表示上采样操作；

(54)步骤(5)中所述的预测模块包括一个卷积核为3×3，步长为1，参数为卷积操作和一个卷积核为1×1，步长为1，参数为/>卷积操作/>

其中：

Conv(*)表示卷积操作；

Cat(*)表示跨通道级联操作；

Sigmoid(*)表示Sigmoid激活函数操作；

AvgPool(*)表示平均池化操作；

MaxPool(*)表示最大池化操作；

表示逐元素相乘操作；

(531)四个洞卷积操作分别为：

其中：

Sigmoid(*)表示Sigmoid激活函数；

AvgPool(*)表示平均池化操作；

MaxPool(*)表示最大池化操作；

Conv_W(*)表示共享权重的卷积操作；

表示元素相加；

表示逐元素相乘；

(6)训练算法模型：

(7)预测图像的阴影结果图：

2.根据权利要求1所述的一种基于深度无监督学习的图像阴影检测方法，其特征在于，步骤(6)所述的多阶段模型训练包含以下步骤：

L_BSCE＝αL_BCE+L_BRCE (14)

其中：

更进一步，二元交叉熵L_BCE和二元反向交叉熵的定义如下：

3.根据权利要求2所述的一种基于深度无监督学习的图像阴影检测方法，其特征在于，α＝0.5。

4.根据权利要求2所述的一种基于深度无监督学习的图像阴影检测方法，其特征在于，步骤(7)预测阴影图像的阴影结果图：

S＝Sigmoid(P) (17)

其中，Sigmoid(*)表示Sigmoid激活函数；

最后，将S作为最终的阴影预测图。