CN111666977A

CN111666977A - 一种单色图像的阴影检测方法

Info

Publication number: CN111666977A
Application number: CN202010388164.1A
Authority: CN
Inventors: 张强; 强晓鹏; 李磊; 任君; 齐航; 张鼎文; 梁杰
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-05-09
Filing date: 2020-05-09
Publication date: 2020-09-15
Anticipated expiration: 2040-05-09
Also published as: CN111666977B

Abstract

本发明公开的单色图像的阴影检测方法，涉及图像处理技术领域，通过对输入的图像，提取其具有多级远程依赖性的上下文信息特征，通过双重注意力机制模块，提取最高层级的全局上下文特征，通过残差密集融合模块，融合提取到的全局上下文特征，构建改进的全局上下文模块，有效结合各层级的特征，得到各个层级输出的特征图并根据各个层级输出的特征图，预测单色图像的阴影，解决了在复杂场景中不能准确地检测出图像场景中阴影的问题。

Description

一种单色图像的阴影检测方法

技术领域

本发明属于图像处理领域，涉及一种单色图像的阴影检测方法，可用于计算机视觉中图像的预处理过程。

背景技术

阴影检测旨在利用模型或算法检测和分割出图像中的阴影区域。作为图像的预处理步骤，阴影检测在目标检测、语义分割、视频跟踪等视觉任务中起着至关重要的作用。

现有的阴影检测方法可以分为两大类：一类是基于传统的阴影检测方法，另一类是基于深度学习的阴影检测方法。基于传统的阴影检测算法主要是通过人工提取的颜色、纹理、亮度、方向等特征完成图像阴影的检测，过度的依赖于人工选取的特征，对场景适应性不强，不具有鲁棒性，在复杂场景下的数据集表现不加。随着深度学习技术的广泛应用，基于深度学习的阴影检测研究取得了突破性进展，相较于传统的阴影检测算法，检测性能显著提高，有相对较强的鲁棒性。

大多数的阴影检测方法如“Qu L,Tian J,He S,et al.DeshadowNet:A Multi-context Embedding Deep Network for Shadow Removal[C].IEEE Conference onComputer Vision and Pattern Recognition(CVPR),2017.”中公开的仅通过训练三个子网络分别提取其全局特征，外观特征以及语义特征，并且将这些提取到的特征进行简单的融合。这种算法仅适合简单的场景，复杂场景下阴影检测的错检率很高，难以准确地检测出阴影。

为解决上述问题，一些基于GAN模型的阴影检测方法被提出，如“Le H,Vicente TF Y,Nguyen V,et al.A+D-Net:Shadow Detection with Adversarial ShadowAttenuation[J].IEEE International Conference on Computer Vision,2017.”，提出了一种包括阴影衰减子网络shadow attenuation network，A-Net)和阴影检测子网络(D-Net)的GAN网络模型。这种方法利用衰减子网络来衰减阴影区域，以增强减弱阴影的能力进而在网络中增加样本的难度，以便欺骗阴影检测子网络。这样两个子网络互相博弈，可以提高最终的阴影检测结果。

这种基于GAN网络模型的方法虽然以数据增强的方式有效地提高了复杂场景下个例的检测效果，但是仍然无法解决针对低对比度(阴影不明显)和阴影与目标很难区分(黑色物体)等的复杂场景。而且，由于GAN网络模型存在不稳定性，故不是一个很有效地解决复杂场景的阴影检测方法。

发明内容

针对上述现有技术的不足，本发明目的在于提出一种单色图像的阴影检测方法，以解决现有技术存在的在复杂场景中不能准确地检测出图像场景中阴影的问题。

本发明实施例提供的单色图像的阴影检测方法总体方案如下：

在神经网络模型编码阶段充分提取具远程依赖性的全局上下文信息特征：对单色图像输入到主干网络中，使用全局上下文模块改进基础网路以对不同分辨率的层级特征进行具远程依赖性上下文信息的充分提取；构建密集融合上下文信息模块，对提取到的上下文信息特征进行精炼密集融合；使用双重注意力模块进行丰富的语义特征提取；构建高层级指导低层级的全局上下文模块，在解码块用高层级特征去指导低层级特征，依次逐级指导；采取多级监督机制，训练网络得到模型参数；预测单色图像的阴影检测图。

本发明实施例提供的单色图像的阴影检测方法包括如下步骤：

(1)对输入的单色图像，提取其具有多层级特征的全局上下文信息；

(2)利用双重注意力模块，提取最高层级的全局上下文信息；

(3)利用残差密集融合模块，对最高层级的上下文信息进行融合；

(4)利用改进的全局上下文模块，结合步骤(1)得到的全局上下文信息：

利用步骤(3)得到的上下文信息指导其下一层级的上下文信息，以此类推，直至上下文信息分辨率的大小与主干网络的第一个子块的大小相同；

(5)将步骤(4)得到的各个层级的全局上下文信息作为其下一层级的输入并将各个层级的全局上下文信息作为其相应层级的输出，得到多个特征图；

(6)将步骤(5)得到的多个特征图输入训练过的神经网络模型，得到单色图像的阴影检测结果。

优选地，步骤(1)中提取的具有多层级特征的全局上下文信息，使用相同比率的全局上下文模块加到基础网络的每一个层级上以改进为新的基础网络，得到5个不同层级的特征F₀、F₁、F₂、F₃及F₄，其中，每个特征的通道数分别为64、256、512、1024、2048，其中，全局上下文模块利用相同的比率进行通道降维。

优选地，步骤(2)中的双重注意力模块分别包括空间注意力模块和位置注意力模块，将步骤(1)得到的5个层级特征的最高层特征

输入到双重注意力模块中，得到高层级语义特征

优选地，步骤(3)中残差密集融合模块是针对同一特征级别下的特征进行的密集融合，其特征在于：

残差密集融合模块包括3个洞卷积操作

及1个卷积操作

1个卷积跳连接操作

优选地，3个洞卷积操作

为一个卷积核为3×3、步长为1、洞率为3、参数为

的洞卷积操作

一个卷积核为3×3、步长为1、洞率为6、参数为

的洞卷积操作

一个卷积核为3×3、步长为1、洞率为9、参数为

的洞卷积操作

1个卷积跳连接操作为一个卷积核为1×1、步长为1、参数为

的卷积操作

分别得到

以及一个跳连接层，其上加入一个卷积核为1×1、步长为1、参数为

的卷积操作

得到特征

将特征

和输入特征F_i级联，初始输入该模块的特征有32个通道，得到的

的通道数均为32，级联后通过参数为

的1×1卷积操作

得到局部密集融合的特征

将其和跳连接参数为

的卷积操作

得到的特征

进行残差连接，得到最终的第i级残差密集融合特征D_i，第i级残差密集融合特征表示如下：

其中：D_i表示第i个残差密集融合模块操作，Cat(*,1)表示跨通道级联操作，RDAB_i表示第i层级的残差密集融合模块的操作，上述公式中后者级联部分每个特征是32个通道，将F_i、

和

级联之后可组成128个通道，通过参数为

的1×1卷积，整合通道为32个通道。

优选地，所述全局上下文模块包括1×1卷积、softmax激活函数、Relu激活函数及LayerNorm层，表示如下：

其中：

φ(*)是一个ReLU激活函数操作；

Cat(*,1)表示跨通道级联操作；

LN(*)表示层归一化操作。

优选地，将

输入所述残差密集融合模块，得到多层级输出侧特征图

表示如下：

其中：

Cat(*,1)表示跨通道级联操作；

RDAB_i表示第i层级的残差密集融合模块的操作。

优选地，所述改进的神经网络模型的创建过程包括：

在训练数据集上，对步骤(5)中得到的多个特征图进行降维，采用深度监督学习机制并通过加权交叉熵损失函数，完成对神经网络模型的训练，得到训练过的神经网络模型。

本发明公开的单色图像的阴影检测方法与现有技术相比，具有如下有益效果：

(1)不需要人工设计并提取特征，能够实现单色阴影图像的端到端的像素级预测，仿真结果表明本发明在复杂的场景下检测图像的阴影时更具有完整一致性效果。

(2)将从主干网络中提取5个具有远程依赖性的上下文信息的特征，通过残差密集融合模块进行对这些具有远程依赖性的上下文信息的特征进行密集融合优化，得到5级精密的特征，能够有效捕捉特征图中特征点与远距离特征点间建立的关系；

(3)通过构建改进的全局上下文模块(高层特征指导低层特征)指导两个相邻层级模态间的特征结合，由于层级间的特征存在一定的差异性，直接将两层级的特征进行级联使用会使得特征信息存在太多的冗余性，同时，不能很好抑制特征图中的噪声。高层特征指导低层特征模块可以有效结合两层级的特征，建立一个平衡关系，减少了冗余特征信息的存在，在一定程度上很好地抑制噪声，有助于特征间建立类内一致性。

附图说明

图1为本发明公开的单色图像的阴影检测方法流程示意图；

图2为本发明公开的单色图像的阴影检测方法采用的神经网络模型框图，其中，GCB为全局上下文模块，RDA为残差密集洞率模块，HLGA为高层指导低层级的引导模块；

图3为本发明公开的全局上下文模块(GCB)框架图；

图4为本发明公开的使用全局上下文模块改进的基础网络框架图；

图5为本发明公开的双重注意力模块框架图；

图6为本发明公开的残差密集融合模块框架图；

图7为本发明公开的高层指导低层级注意力引导模块框架图；

图8a为本发明提供的单色图像示意图；

图8b为本发明提供的对图8a中的图像进行人工标定得到的真值图像；

图8c为本发明提供的采用本发明提供的单色图像的阴影检测方法对图8a中的图像检测得到的图像；

图8d为本发明提供的采用本发明提供的单色图像的阴影检测方法对图8a中的图像检测得到的图像。

具体实施方式

下面结合附图和具体实施例对本发明作具体的介绍。

参照图1，本发明实施例提供的单色图像的阴影检测方法，包括如下步骤：

S101，对输入的图像，提取其具有多层级特征的全局上下文信息。

作为一个具体的实施例，对已有的ResNeXt-101网络中5个级别深度上的特征加入全局上下文模块即可。分别为：

Conv1(用符号F₀表示，表示64个尺寸为208×208的特征图)；

Conv2_x(用符号F₁表示，包含256个尺寸为104×104的特征图)；

Conv3_x(用符号F₂表示，包含512个尺寸为52×52的特征图)；

Conv4_x(用符号F₃表示，包含1024个尺寸为26×26的特征图)；

Conv5_x(用符号F₄表示，包含2048个尺寸为13×13的特征图)；

常规的卷积只是针对近邻域的局部感受野提取特征，要得到具有全局上下文信息，需要更多层的卷积，这样的操作会导致网络参数量巨大，网络训练难度加大，本发明可在不加过多的参数量的情况下，提取到具有远程依赖性上下文信息的特征。

S102，通过双重注意力机制模块，提取最高层级的全局上下文特征。

使用双重注意力模块，旨在神经网络模型的最高层级在空间和通道维度上捕获远程依赖性的上下文信息。

S103，通过残差密集融合模块，融合步骤S102提取到的上下文特征。

如图6所示，一般地，在神经网络模型编码阶段提取到的特征都存在冗余性特征，而且通道间的相关联程度不高。本发明将编码阶段提取到的具有上下文信息的特征进行进一步优化，即将层级的特征采用不同的洞率卷积操作得到的特征级联起来，通过重新整合优化这些特征，并且建立残差连接，即可起到局部特征密集融合的作用，得到优化的上下文信息的特征。

每一个密集融合模块是针对同一特征级别下的特征进行的密集融合，密集融合模块包括3个洞卷积操作

1个卷积操作

和1个卷积跳连接操作

首先，一个卷积核为3×3，步长为1，洞率为3，参数为θ_di^,1的洞卷积操作

一个卷积核为3×3，步长为1，洞率为6，参数为

的洞卷积操作

一个卷积核为3×3，步长为1，洞率为9，参数为

的洞卷积操作

一个卷积核为1×1，步长为1，参数为

的卷积操作

分别得到

以及一个跳连接层，其上加入一个卷积核为1×1，步长为1，参数为

的卷积操作

得到特征

这里，对于每一个不同洞率的卷积操作，将通道分16个为一组进行分组操作。其卷积操作如下：

其中，Cat(*,1)表示跨通道级联操作；BN(·)表示批归一化操作；φ(·)表示ReLU激活函数；

正如上式所述，将几个洞卷积操作得到的特征

和输入特征F_i(i＝0,1,2,3,4)级联，初始输入该模块的特征有32个通道，得到的

的通道数均为32，级联后通过参数为

的1×1卷积操作

得到局部密集融合的特征

(公式7)，将其和跳连接参数为

的卷积操作

得到的特征

进行残差连接得到最终的第i级残差密集融合特征D_i,该残差密集融合特征可表示如下：

其中，D_i表示第i个残差密集融合模块操作；Cat(*,1)表示跨通道级联操作；RDAB_i表示第i层级的残差密集融合模块的操作。

进一步地，上述公式(7)中后者级联部分每个特征是32个通道，将F_i，

和

级联之后可组成128个通道，通过参数为

的1×1卷积，整合通道为32个通道，前者是参数为

的1×1卷积操作

通道数依然不变。这样，对编码块提取到的远程依赖性上下文信息特征进行残差密集融合，可以得到一个对上下文信息优化的特征，优化后的特征很大程度上减少了冗余信息。

S104，构建改进的全局上下文模块，有效结合各层级的特征。

如图7所示，对于不同层级的特征，以往的做法是直接对其特征进行级联操作结合，这样的操作，一方面，由于层级间的特征存在差异性，直接进行结合不易突出作用大的特征，另一方面，直接结合特征会造成特征的大量冗余，而且存在大量的噪声。本发明构建改进的全局上下文模块(高层特征指导低层特征)指导两个相邻层级模态间的特征结合。该模块可以有效地在不同层级特征间建立一个平衡关系，减少了冗余特征信息，在一定程度上很好地抑制噪声，有助于在特征间建立类内一致性。

高层级指导低层级的特征模块应用在设计神经网络模型的解码阶段，用来结合高层特征和它的下一层特征。这里将主干网络最高层级的特征记为

其余层级(由下往上)得到的高层级特征记为

相对于高层的低层级特征为记为D_i；首先将

和D_i进行级联，得到具有64个通道的特征，经过由1×1卷积，softmax激活函数，Relu激活函数，LayerNorm层等一系列操作后，起作用为高层特征指导低层级特征建立类内一致性，得到的结果再和高层级特征F_hi相加，可表示如下：

其中，φ(*)是一个ReLU激活函数操作；Cat(*,1)表示跨通道级联操作；LN(*)表示层归一化操作；

对各个层级结合后的特征需要在经过一次残差密集融合模块后可作为输出侧特征输出，同时也可通过上述公式，经过一步上采样操作之后，可以得到和相对低一层级一样的分辨率大小，之后可继续采用公式(9)继续结合相邻层级的特征。

S105，得到各个层级输出的特征图。

将

输入至残差密集融合模块，得到多层级输出的特征图

表示如下：

其中，Cat(*,1)表示跨通道级联操作；RDAB_i表示第i层级的残差密集融合模块的操作。

本发明主要采取多级监督形式，故输出每一层级特征通过卷积、ReLU，Sigmoid等一系列操作将其与真值图像做损失，这样有助于算法网络的收敛。可表示如下：

其中，P_o表示416×416大小的单通道特征图，UP(·)表示将特征恢复到与输入图像的尺寸一样大小，

表示参数为

卷积核大小为1×1的卷积操作，φ(·)表示ReLU激活函数；BN表示批归一化；

表示参数为

卷积核大小为3×3，通道数减半为16的卷积操作。

S106，根据各个层级输出的特征图，预测单色图像的阴影。

在测试数据集上，利用训练过的神经网络模型，对步骤(5)中得到的多个特征图，通过进一步卷积等操作进行分类计算，用{S_o|o＝0,1,2,3}表示网络所有层级输出阴影掩膜图，S_o可表示如下：

S_o＝σ(P_o) (13)

其中，σ(·)是一个sigmoid激活函数，将S₀作为最终的单色图阴影预测图。

可选地，神经网络模型的训练过程包括：

在训练数据集上，采用深度多层级监督学习机制，将层级输出测5)中得到各层级输出侧的特征图，通过简单地降维、卷积及sigmoid激活函数运算后得到P_o(o＝0,1,2,3)，与真值图像G进行比较，求取神经网络模型的交叉熵损失函数L_all:

其中，i＝0,1,,4表示对于5个层级的输出特征图，P_o分别与真值G做损失，指G(x,y)∈{0,1}是真值图像G中位于(x,y)位置的值，P_o(x,y)是特征图P_o经过σ(·)操作后得到的概率图中位于(x,y)位置的概率值，σ(·)是一个sigmoid激活函数。在不同图像中，阴影所占区域大小于目标和背景区域大小是不同的，为了平衡正负样本，增加算法对不同尺寸物体阴影的检测准确性，使用了一个类平衡参数β，β是真值图像中非阴影像素的数量和整个真值图像像素数量的比值，可以表示为：

其中，N_b表示非阴影像素点数量，N_f表示阴影像素点数量。

本发明通过加权的交叉熵损失函数来训练图像灰度化之后的数据集。利用神经网络模型得提取远程依赖性的全局上下文信息特征，到残差密集融合模块对提取的特征优化，再到最后解码块的高层级特征指导低层级特征。通过训练整体的单色阴影网络后，得到神经网络模型参数。

在训练单色阴影网络参数时，用于单色阴影图像阴影检测的数据集(SBU数据集)不足，为了能够顺利训练神经网络模型，避免训练数据集出现过拟合现象，对数据集中的阴影图像进行数据集增广操作，即对每幅图像分别旋转90°、180°、270°以及水平、上下翻转操作，将原有的数据集总量扩大为8倍的数量。

以下结合仿真实验，对本发明的技术效果作进一步说明：

(1)仿真条件

所有仿真实验均在操作系统为Ubuntu 16.04.5，硬件环境为GPU Nvidia GeForceGTX1080Ti，采用PyTorch深度学习框架实现。

(2)仿真内容及结果分析

仿真1

将本发明与现有的基于可将光图像灰度化的阴影检测方法在公共图像数据库SBU上进行阴影检测实验，部分实验结果进行直观的比较，如图8所示，其中，Image表示数据库中用于实验输入的灰度化图像，GT表示人工标定的真值图像。

从图8可以看出，相较于现有技术，本发明公开的单色图像的阴影检测方法对阴影检测难点问题效果更好，在对比度低(阴影不明显)物体与阴影检测中具有更好的区分效果，以及黑色物体场景下具有准确的检测效果，且更接近于人工标定的真值图像。

仿真2

将本发明公开的单色图像的阴影检测方法与现有的基于图像灰度化的阴影检测方法在公共图像数据库SBU数据集及UCF数据集上进行阴影检测实验得到的结果，采用公认的评价指标进行客观评价，评价仿真结果如表1及表2所示。

表1

算法	SER	NER	BER
				现有技术	4.71	3.89	4.3
本发明的方案	4.05	3.03	3.54

表2

算法	SER	NER	BER
				现有技术	10.91	7.05	8.98
本发明的方案	8.66	7.35	8

其中，BER表示平衡误差率，SER表示阴影检错率，NER表示非阴影检错率。

以上三个指标同时越低越好，从表中可以看出本发明公开的对阴影检测具有更准确的检测能力，充分表明了本发明方法的有效性和优越性。

本发明实施例提供的单色图像的阴影检测方法，通过对输入的图像，提取其具有多级远程依赖性的上下文信息特征，通过双重注意力机制模块，提取最高层级的全局上下文特征，通过残差密集融合模块，融合提取到的全局上下文特征，构建改进的全局上下文模块，有效结合各层级的特征，得到各个层级输出的特征图并根据各个层级输出的特征图，预测单色图像的阴影，解决了在复杂场景中不能准确地检测出图像场景中阴影的问题。

上面对本发明的实施方式做了详细说明。但是本发明并不限于上述实施方式，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种单色图像的阴影检测方法，其特征在于，包括如下步骤：

(2)利用双重注意力模块，提取最高层级的上下文信息；

(4)利用改进的全局上下文模块，结合步骤(1)得到的全局上下文信息；

2.如权利要求1所述的单色图像的阴影检测方法，其特征在于，步骤(1)中提取的具有多层级特征的全局上下文信息，使用相同比率的全局上下文模块加到基础网络的每一个层级上以改进为新的基础网络，得到5个不同层级的特征F₀、F₁、F₂、F₃及F₄，其中，F₀、F₁、F₂、F₃及F₄的通道数分别为64、256、512、1024、2048，全局上下文模块利用相同的比率进行通道降维。

3.如权利要求1所述的单色图像的阴影检测方法，其特征在于，步骤(2)中的双重注意力模块分别包括空间注意力模块和位置注意力模块，将步骤(1)得到的5个层级特征的最高层特征