CN115661505A

CN115661505A - 一种语义感知的图像阴影检测方法

Info

Publication number: CN115661505A
Application number: CN202211089904.7A
Authority: CN
Inventors: 周凯; 邵艳利; 方景龙; 魏丹; 王兴起
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-09-07
Filing date: 2022-09-07
Publication date: 2023-01-31

Abstract

本发明公开了一种语义感知的图像阴影检测方法，以阴影图像为输入，进行端到端的阴影掩膜预测。包括构建阴影检测网络、制作语义标注集和实现多任务学习三部分。具体是通过构建一个基于Swin Transformer的阴影检测网络，用于学习全局和长程信息交互，融合了阴影多尺度预测图，保证检测结果的完整度和细粒度。然后利用公开数据集对阴影图像GT进行了语义标注以获得语义标签。最后设计了一个结合阴影监督和语义监督的多任务学习框架，巧妙的利用了图像多尺度特征信息，进行鲁棒的阴影知识学习。经过训练后得到了一个参数大小为24.37M的高效阴影检测网络，可以有效地避免歧义区域的干扰，克服了现有阴影检测方法存在的局限性。

Description

一种语义感知的图像阴影检测方法

技术领域

本发明属于目标检测技术领域，具体涉及一种语义感知的图像阴影检测方法。

背景技术

阴影常见于现实场景中，它是由遮挡物(如人、动物、建筑等)遮挡光源产生的。在一些视觉场景中，阴影可以为场景理解提供有价值的线索，如光源方向、物体几何和相机参数。在一些视觉任务中，阴影的存在会降低模型的性能，需要提前检测并去除阴影，例如，对文本图像和遥感图像进行阴影检测和去除，可以增强图像的可读性和可识别性。此外，在图像分割、目标检测和视觉跟踪等其他任务中，阴影的存在容易造成歧义，有可能被错误识别成目标。因此，准确的检测阴影对保证下游的视觉任务准确率至关重要。

传统的阴影检测方法主要是基于手工特征，如光照、颜色、纹理等，建立物理模型或机器学习模型来检测阴影，这些方法在现实场景中通常会遭受性能下降，因为手工制作的特性没有足够的分辨力。近年来，卷积神经网络(Convolutional Neural Networks,CNNs)凭借其强大的特征表示能力被成功的应用在各种视觉任务中。目前，基于CNN的阴影检测方法已经成为该领域的主流，取得了巨大的性能提升，它们通常采用两种策略，即结合上下文信息或扩大训练数据。针对这些方法在公开数据集ISTD和SBU的检测结果进行分析发现：被误检的样本大多为歧义案例：(1)类阴影区域与阴影颜色相似，经常被误判为阴影；(2)阴影区域存在一些异质背景，形成相对较亮的区域，削弱了阴影的颜色，使得阴影检测结果不完整。

近期出现的一些方法如MTMT-Net和FSDNet，尝试使用额外的训练数据来提高模型的性能，然而，这些方法仍然受上述歧义案例的影响，因为它们的模型平等地对待所有的检测案例。产生歧义的可能有两个原因：(1)阴影检测的本质是对像素进行二值分类，而阴影标签(Ground Truth,GT)仅以阴影掩膜的形式呈现，缺乏更多的阴影先验知识，例如遮挡物形状类别，因此无法适应歧义场景；(2)由于卷积操作提取的空间信息缺乏语义交互，基于CNN的阴影检测方法在长程依赖关系建模方面存在较大的局限性，因此当阴影区域的形状、大小或纹理发生显著变化时，这些方法通常表现出较弱的性能。

发明内容

针对现有技术的不足，本发明提出了一种语义感知的图像阴影检测方法，结合阴影形状语义，以克服歧义区域的影响，提高图像阴影检测的准确性和高效性。

一种语义感知的图像阴影检测方法，具体包括以下步骤：

步骤1、构建基于Swin Transformer的阴影检测网络。

所述阴影检测网络的架构为端到端，包括编码器和解码器。

步骤1.1、构建编码器

采用Swin Transformer作为骨干，构建4层网络，每层使用2个连续的SwinTransformer Block，用于构建输入图像的层次化特征图谱，然后通过调整参数在各层产生分辨率依次为

的特征，得到编码器。

步骤1.2、构建解码器

在编码器的每层侧端后面分别通过两个连续的Res-conv和一个1×1卷积，将侧端得到的多尺度预测图进行共享连接，得到解码器。

步骤2、对阴影图像的GT进行语义标注。

首先根据数据集中的遮挡物形状将图像中的阴影分为不同的类别，然后使用不同的颜色来表示这些阴影类别，并在GT上添加相应的颜色掩膜，得到语义标签集。

步骤3、深监督学习

在解码器中构建一个多任务学习框架，对通过编码器获得的不同尺度的阴影特征图进行多任务监督，以得到多尺度阴影预测图，包括阴影图和语义阴影图。

步骤3.1、阴影监督。

低级特征包含图像细节，有助于检测细小阴影和阴影边界，因此，利用GT对编码器的前三层网络生成的特征图进行阴影区域监督，通过单通道的1×1卷积来生成细节丰富的多尺度阴影图。

步骤3.2、语义监督

高级特征包含图像语义信息，有助于区分阴影和背景，并进一步区分阴影类别，因此，利用语义标签对编码器的第四层网络生成的语义阴影图进行语义监督，通过K通道的1×1卷积来生成语义阴影图。

步骤3.3、融合检测

将步骤3.1得到的多尺度阴影图和步骤3.2得到的语义阴影图压缩和上采样恢复到相同的分辨率后进行共享连接，利用语义标签进行监督，得到融合的语义阴影图，进行二值化处理，输出最终的阴影检测结果。

本发明具有以下有益效果：

1、基于Swin Transformer设计的阴影检测网络克服了CNN存在的局限性，能够很好地学习全局和长程语义信息交互。在检测过程中，融合了阴影多尺度预测图，使最终的检测结果更加完整和细粒。因此，当阴影区域的形状、大小和纹理发生显著变化时，本方法依然表现出较好的性能。此外，受益于Swin Transformer较小的计算复杂度，使得本方法能够实现高效的阴影检测。

2、结合阴影形状语义设计的多任务学习策略克服了传统基于GT训练的的局限性，使得阴影检测具有语义感知能力，对于现有技术难以准确检测的歧义案例，本方法具有明显的优势，在检测中能够有效克服“类阴影的非阴影区域”和“非阴影模式的阴影区域”两种歧义影响，从而显著提高了检测性能。

3、基于深监督设计的多任务学习框架，其顶层学习类别相关的语义信息能够克服歧义干扰，底层学习类别无关的阴影信息能够为顶层补充细节。共享连接底层和顶层的预测图能够得到一个更为完整细粒的检测结果。为了协调不同学习任务，该框架还嵌入了四个信息缓冲单元，解决了因不同监督任务带来的网络梯度信号冲突问题。

附图说明

图1为语义感知的图像阴影检测方法流程图；

图2为实施例中基于Swin Transformer的阴影检测网络示意图；

图3为实施例中阴影GT的语义标注示意图；

图4为实施例中语义标签集分析结果，其中a、b分别为两个标签集的阴影类别及其比例分布统计，c、d为两个标签集中不同类别之间的相互依赖关系。

图5为实施例中多任务学习框架的共享连接示意图；

图6为实施例中的阴影检测结果示意图。

具体实施方式

以下结合附图对本发明作进一步的解释说明；

如图1所示，一种语义感知的图像阴影检测方法，以阴影图像为输入，进行端到端的预测阴影检测结果。具体包括以下步骤：

步骤1、构建基于Swin Transformer的阴影检测网络。

如图2所示，所述阴影检测网络的架构为端到端，包括编码器和解码器。

步骤1.1、构建编码器

采用Swin Transformer作为骨干，构建4层网络，每层使用2个连续的SwinTransformer Block，构建层次化的特征图谱，然后调整各层特征的分辨率依次为

得到编码器。

在编码器中，输入的阴影图像I∈R^256×256×3首先被图块分割层(Patch Partition)分割为多个不重叠的图块，本设施例设置分割后的图块尺寸为2×2，则对应的特征维数为2×2×3＝12，图像I经过图块分割层后被转换成嵌入的序列，然后通过编码器的4层网络进行4个阶段的层次化特征图构建。在第一个阶段，首先通过线性嵌入层(Linear Embedding)进行特征维数的变换，然后通过两个连续的Swin Transformer模块(two successive SwinTransformer Block,STB×2)进行表示学习。在第二～第四个阶段，首先通过图块合并层(Patch Merging)进行下采样，然后再通过STB×2进行特征变换。在STB×2中，第一个SwinTransformer模块采用基于窗口的多头自注意力模块(Window-based Multi-head SelfAttention,W-MSA)，通过将图块划分成不重叠的区域后，进行区域内自注意力计算；第二个Swin Transformer模块采用基于移动窗口的多头自注意力模块(Shifted Window-basedMulti-head Self Attention,SW-MSA)，实现窗口之间的信息交互。

步骤1.2、构建解码器

为了提高检测效率，本申请抛弃了Swin-Unet的解码器结构，而是利用了编码器每个阶段输出的预测结果。具体是在编码器的每个侧端后面连接一个包括两个Res-conv的信息缓冲单元(Information Buffer,IB)，然后通过1×1卷积得到阴影多尺度预测图。

步骤2、对阴影图像的GT进行语义标注。

本实施例使用公开数据集ISTD和SBU制作语义标签集，如图3所示，首先根据ISTD和SBU数据集的遮挡物类型将阴影分为不同类别，例如人(Person)、动物(Animal)、伞(Umbrella)、遮挡板(Board)、建筑(Building)等，然后使用不同颜色的掩膜作为语义掩模来区分阴影类别，也就是将语义掩膜添加到的所有的GT上，分别得到得到语义标签集Sem-ISTD和Sem-SBU。

在本实施例中，标注GT的规则为：

①若一副图像中包含多个阴影类别，且存在不同类型的阴影掩模相连时，根据遮挡物先验来划分掩膜的边界。

②对于形状相同、尺寸不同的阴影类别，例如ISTD数据集中不同尺寸大小的矩形遮挡板，由于其阴影形状类似，因此归为同一个类别。

③将外形相似的遮挡物的阴影归为同一个类别，例如SBU数据集中的摩托车(motorcycle)和自行车(bicycle)，统一归类为“cycle”。

最终得到的Sem-ISTD和Sem-SBU中，分别有5种和9种阴影类别。对Sem-ISTD和Sem-SBU进行进一步分析，如图4所示，其中a、b分别列出了Sem-ISTD和Sem-SBU中每一个阴影类别的比率分布，比率(Ratio)表示包含同一类别的图像数量占整个数据集数量的比例。图c、d分别表示Sem-ISTD和Sem-SBU中的阴影类别之间的相互依赖关系。由图4可得，Sem-SBU中的阴影类别多于Sem-ISTD；Sem-SBU相较于Sem-ISTD具有更复杂的类别依赖关系。

步骤3、深监督学习

在解码器中基于深监督构建一个多任务学习框架，对编码器输出的不同尺度的阴影特征图进行多任务监督，将阴影监督和语义监督相结合，充分利用网络提取的图像低级、高级特征。

步骤3.1、阴影监督。

对编码器第一～第三层的输出通过信息缓冲单元得到的阴影预测图使用单通道的1×1卷积来生成不同尺度的阴影图{S¹,S²,S³}＝S。利用阴影标签GT Y＝{y_i:i＝1,2,…,|I|}对编码器的前三层网络生成的特征图进行阴影区域监督，基于交叉熵设计的阴影监督损失为：

其中，W表示所有网络参数，m＝1、2、3，表示编码器侧端序号，

表示在像素i处的激活函数值，P(·)表示激活函数Sigmoid。

步骤3.2、语义监督

对编码器第四层的输出通过信息缓冲单元得到的阴影预测图使用K通道的1×1卷积来生成语义阴影图

其中，K表示阴影类别的数量。利用语义标签{C¹,C²,…,C^K}对编码器的第四层网络生成的语义阴影图进行语义监督，其中，

表示第k类阴影图。对应的语义监督损失为：

其中，

表示在像素i处并且属于第k类的激活函数值。

步骤3.3、如图5所示，将步骤3.1得到的多尺度阴影图S分别与步骤3.2中得到的语义阴影图A⁴的每个通道进行共享连接(Shared Concatenation,SC)，获得堆叠的阴影激活图S^f：

然后使用K个1×1卷积将S^f融合成具有K通道的语义阴影图，对于融合后的语义阴影图，设置语义监督损失为：

其中，S^f是式(3)中堆叠的阴影激活图。

将语义阴影图进行二值化得到阴影掩膜，即得到最终的检测结果，联合阴影监督损失和语义监督损失，最终设置监督损失为：

在ISTD和SBU数据集上分别进行40次和60次的训练迭代，通过随机水平翻转、颜色抖动和模糊进行数据增广，以增加数据多样性，并使用随机梯度下降算法(StochasticGradient Descent,SGD)来优化网络的所有参数，批大小设置为16，学习率设置为0.001，动量衰减和权值衰减分别设置为0.9和1e-4，最后网络的参数大小为24.37M。

如图6所示，本方法能够有效检测背景技术中提到的两种歧义案例。

为了验证本方法的有效性以及比较本方法的性能，本实施例通过PyTorch 1.7.0和Python3.6实现网络模型，在具有24GB内存的GeForce RTX 3090GPU上训练网络模型。使用ISTD、SBU和UCF三个公开的数据集，与ScGAN、DSC、A+D Net、BDRAR、DSDNet、MTMT-Net和FSDNet 7种阴影检测方法进行对比，并采用平衡误差率(Balance Error Rate,BER)作为评价指标：

其中，TP、TN、P、N分别表示正例分对、负例分对、阴影和非阴影的像素个数。在实验中，BER值越低，表示阴影检测的性能越好。

所述ISTD数据集包含1870幅阴影图像，其中1330幅作为训练集，540幅作为测试集，包括阴影GT和无阴影图像两种对应的标签数据，本实施例中仅使用阴影GT。所述SBU数据集包含4727对阴影图像/阴影GT，其中4089对作为训练集，638对作为测试集。所述UCF中包含110张与SBU风格相似的图像，本实施例将其用作测试集。实验过程中，首先在SBU训练集上训练模型，然后分别在SBU和UCF测试集上测试模型。对于语义监督任务，使用步骤2中构建的语义标签集Sem-ISTD和Sem-SBU。

阴影检测实验结果如表1所示，其中“FPS”表示每秒检测帧数、“Para”表示模型的参数大小、“S”和“NS”分别表示阴影和非阴影区域的像素错误率。“本方法-”表示不使用语义监督，但使用深监督：

表1

可以观察出，本方法在三个数据集上都获得了最好的检测性能。其中，DSDNet是一种专为歧义案例设计的基于CNN的网络模型。但是，在实际检测中，当阴影颜色与背景相似，特别是这两个相似区域相连时，这种方法表现很差，因为CNN很难捕捉到全局和长程语义信息交互。相较于DSDNet，本方法基于Swin Transformer设计的检测网络，有效地解决了这一问题。MTMT-Net和本方法都是通过多任务学习来提高检测性能的，相较于MTMT-Net，本方法结合语义监督任务，在ISTD、SBU和UCF数据集上的BER值分别降低了11.05％、4.13％和3.88％。本方法-通过深监督Swin Transformer和融合多尺度预测实现了与MTMT-Net相当的性能。在所有方法中，FSDNet的模型参数最小，但是牺牲了推理精度，虽然本方法的参数量多于FSDNet，但也能以76.23FPS的速度实现高效的阴影检测。此外，本方法在UCF数据集上的表现表明，利用鲁棒的阴影检测网络和多任务学习策略可以很好地推广到新的阴影场景。

Claims

1.一种语义感知的图像阴影检测方法，其特征在于：具体包括以下步骤：

步骤1、构建基于Swin Transformer的阴影检测网络；

步骤1.1、构建编码器

采用Swin Transformer作为骨干，构建4层网络，每层使用2个连续的SwinTransformer Block，调整各层特征的分辨率依次为

得到编码器；

步骤1.2、构建解码器

在编码器的每个侧端后面分别连接两个连续的Res-conv和一个1×1卷积，将侧端得到的多尺度预测图进行共享连接，得到解码器；

步骤2、对阴影图像的GT进行语义标注；

首先根据数据集中的遮挡物形状将图像中的阴影分为不同的类别，然后使用不同的颜色来表示这些阴影类别，并在GT上添加相应的颜色掩膜，得到语义标签集；

步骤3、深监督学习

步骤3.1、阴影监督

利用GT对解码器的前三层网络生成的特征图进行阴影区域监督，通过单通道的1×1卷积生成多尺度阴影图；

步骤3.2、语义监督

利用语义标签对解码器的第四层网络生成的语义阴影图进行语义监督，通过K通道的1×1卷积来生成语义阴影图；

步骤3.3、融合检测

2.如权利要求1所述一种语义感知的图像阴影检测方法，其特征在于：在编码器中，输入的阴影图像首先被图块分割层分割为多个不重叠的图块，然后通过编码器的4层网络进行4个阶段的层次化特征图构建；在第一个阶段，首先通过线性嵌入层进行特征维数的变换，然后通过两个连续的Swin Transformer模块进行表示学习；在第二～第四个阶段，首先通过图块合并层进行下采样，然后再通过两个连续的Swin Transformer模块进行特征变化；在每一层网络的两个连续的Swin Transformer模块中，第一个Swin Transformer模块采用基于窗口的多头自注意力模块，通过将图块划分成不重叠的区域后，进行区域内的自注意力计算；第二个Swin Transformer模块采用基于移动窗口的多头自注意力模块，实现窗口之间的信息交互。

3.如权利要求1所述一种语义感知的图像阴影检测方法，其特征在于：步骤2中使用公开数据集ISTD和SBU制作语义标签集，并设定如下标注规则：

①若一副图像中包含多个阴影类别，且存在不同类型的阴影掩模相连时，根据遮挡物先验来划分掩膜的边界；

②将形状相同、尺寸不同的阴影归为同一个类别；

③将由外形相似的遮挡物产生的阴影归为同一个类别。

4.如权利要求1所述一种语义感知的图像阴影检测方法，其特征在于：使用随机梯度下降算法来优化网络的所有参数，批大小设置为16，学习率设置为0.001，动量衰减和权值衰减分别设置为0.9和1e-4。

5.如权利要求1所述一种语义感知的图像阴影检测方法，其特征在于：步骤3中阴影监督损失为：