CN111666977A - 一种单色图像的阴影检测方法 - Google Patents

一种单色图像的阴影检测方法 Download PDF

Info

Publication number
CN111666977A
CN111666977A CN202010388164.1A CN202010388164A CN111666977A CN 111666977 A CN111666977 A CN 111666977A CN 202010388164 A CN202010388164 A CN 202010388164A CN 111666977 A CN111666977 A CN 111666977A
Authority
CN
China
Prior art keywords
module
level
convolution
features
global context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010388164.1A
Other languages
English (en)
Other versions
CN111666977B (zh
Inventor
张强
强晓鹏
李磊
任君
齐航
张鼎文
梁杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202010388164.1A priority Critical patent/CN111666977B/zh
Publication of CN111666977A publication Critical patent/CN111666977A/zh
Application granted granted Critical
Publication of CN111666977B publication Critical patent/CN111666977B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开的单色图像的阴影检测方法,涉及图像处理技术领域,通过对输入的图像,提取其具有多级远程依赖性的上下文信息特征,通过双重注意力机制模块,提取最高层级的全局上下文特征,通过残差密集融合模块,融合提取到的全局上下文特征,构建改进的全局上下文模块,有效结合各层级的特征,得到各个层级输出的特征图并根据各个层级输出的特征图,预测单色图像的阴影,解决了在复杂场景中不能准确地检测出图像场景中阴影的问题。

Description

一种单色图像的阴影检测方法
技术领域
本发明属于图像处理领域,涉及一种单色图像的阴影检测方法,可用于计算机视觉中图像的预处理过程。
背景技术
阴影检测旨在利用模型或算法检测和分割出图像中的阴影区域。作为图像的预处理步骤,阴影检测在目标检测、语义分割、视频跟踪等视觉任务中起着至关重要的作用。
现有的阴影检测方法可以分为两大类:一类是基于传统的阴影检测方法,另一类是基于深度学习的阴影检测方法。基于传统的阴影检测算法主要是通过人工提取的颜色、纹理、亮度、方向等特征完成图像阴影的检测,过度的依赖于人工选取的特征,对场景适应性不强,不具有鲁棒性,在复杂场景下的数据集表现不加。随着深度学习技术的广泛应用,基于深度学习的阴影检测研究取得了突破性进展,相较于传统的阴影检测算法,检测性能显著提高,有相对较强的鲁棒性。
大多数的阴影检测方法如“Qu L,Tian J,He S,et al.DeshadowNet:A Multi-context Embedding Deep Network for Shadow Removal[C].IEEE Conference onComputer Vision and Pattern Recognition(CVPR),2017.”中公开的仅通过训练三个子网络分别提取其全局特征,外观特征以及语义特征,并且将这些提取到的特征进行简单的融合。这种算法仅适合简单的场景,复杂场景下阴影检测的错检率很高,难以准确地检测出阴影。
为解决上述问题,一些基于GAN模型的阴影检测方法被提出,如“Le H,Vicente TF Y,Nguyen V,et al.A+D-Net:Shadow Detection with Adversarial ShadowAttenuation[J].IEEE International Conference on Computer Vision,2017.”,提出了一种包括阴影衰减子网络shadow attenuation network,A-Net)和阴影检测子网络(D-Net)的GAN网络模型。这种方法利用衰减子网络来衰减阴影区域,以增强减弱阴影的能力进而在网络中增加样本的难度,以便欺骗阴影检测子网络。这样两个子网络互相博弈,可以提高最终的阴影检测结果。
这种基于GAN网络模型的方法虽然以数据增强的方式有效地提高了复杂场景下个例的检测效果,但是仍然无法解决针对低对比度(阴影不明显)和阴影与目标很难区分(黑色物体)等的复杂场景。而且,由于GAN网络模型存在不稳定性,故不是一个很有效地解决复杂场景的阴影检测方法。
发明内容
针对上述现有技术的不足,本发明目的在于提出一种单色图像的阴影检测方法,以解决现有技术存在的在复杂场景中不能准确地检测出图像场景中阴影的问题。
本发明实施例提供的单色图像的阴影检测方法总体方案如下:
在神经网络模型编码阶段充分提取具远程依赖性的全局上下文信息特征:对单色图像输入到主干网络中,使用全局上下文模块改进基础网路以对不同分辨率的层级特征进行具远程依赖性上下文信息的充分提取;构建密集融合上下文信息模块,对提取到的上下文信息特征进行精炼密集融合;使用双重注意力模块进行丰富的语义特征提取;构建高层级指导低层级的全局上下文模块,在解码块用高层级特征去指导低层级特征,依次逐级指导;采取多级监督机制,训练网络得到模型参数;预测单色图像的阴影检测图。
本发明实施例提供的单色图像的阴影检测方法包括如下步骤:
(1)对输入的单色图像,提取其具有多层级特征的全局上下文信息;
(2)利用双重注意力模块,提取最高层级的全局上下文信息;
(3)利用残差密集融合模块,对最高层级的上下文信息进行融合;
(4)利用改进的全局上下文模块,结合步骤(1)得到的全局上下文信息:
利用步骤(3)得到的上下文信息指导其下一层级的上下文信息,以此类推,直至上下文信息分辨率的大小与主干网络的第一个子块的大小相同;
(5)将步骤(4)得到的各个层级的全局上下文信息作为其下一层级的输入并将各个层级的全局上下文信息作为其相应层级的输出,得到多个特征图;
(6)将步骤(5)得到的多个特征图输入训练过的神经网络模型,得到单色图像的阴影检测结果。
优选地,步骤(1)中提取的具有多层级特征的全局上下文信息,使用相同比率的全局上下文模块加到基础网络的每一个层级上以改进为新的基础网络,得到5个不同层级的特征F0、F1、F2、F3及F4,其中,每个特征的通道数分别为64、256、512、1024、2048,其中,全局上下文模块利用相同的比率进行通道降维。
优选地,步骤(2)中的双重注意力模块分别包括空间注意力模块和位置注意力模块,将步骤(1)得到的5个层级特征的最高层特征
Figure BDA0002484861060000041
输入到双重注意力模块中,得到高层级语义特征
Figure BDA0002484861060000042
优选地,步骤(3)中残差密集融合模块是针对同一特征级别下的特征进行的密集融合,其特征在于:
残差密集融合模块包括3个洞卷积操作
Figure BDA0002484861060000043
及1个卷积操作
Figure BDA0002484861060000044
1个卷积跳连接操作
Figure BDA0002484861060000045
优选地,3个洞卷积操作
Figure BDA0002484861060000046
为一个卷积核为3×3、步长为1、洞率为3、参数为
Figure BDA0002484861060000047
的洞卷积操作
Figure BDA0002484861060000048
一个卷积核为3×3、步长为1、洞率为6、参数为
Figure BDA0002484861060000049
的洞卷积操作
Figure BDA00024848610600000410
一个卷积核为3×3、步长为1、洞率为9、参数为
Figure BDA00024848610600000411
的洞卷积操作
Figure BDA00024848610600000412
1个卷积跳连接操作为一个卷积核为1×1、步长为1、参数为
Figure BDA00024848610600000413
的卷积操作
Figure BDA00024848610600000414
分别得到
Figure BDA00024848610600000415
以及一个跳连接层,其上加入一个卷积核为1×1、步长为1、参数为
Figure BDA00024848610600000416
的卷积操作
Figure BDA00024848610600000417
得到特征
Figure BDA00024848610600000418
将特征
Figure BDA00024848610600000419
和输入特征Fi级联,初始输入该模块的特征有32个通道,得到的
Figure BDA00024848610600000420
的通道数均为32,级联后通过参数为
Figure BDA00024848610600000421
的1×1卷积操作
Figure BDA00024848610600000422
得到局部密集融合的特征
Figure BDA00024848610600000423
将其和跳连接参数为
Figure BDA00024848610600000424
的卷积操作
Figure BDA00024848610600000425
得到的特征
Figure BDA00024848610600000426
进行残差连接,得到最终的第i级残差密集融合特征Di,第i级残差密集融合特征表示如下:
Figure BDA0002484861060000051
其中:Di表示第i个残差密集融合模块操作,Cat(*,1)表示跨通道级联操作,RDABi表示第i层级的残差密集融合模块的操作,上述公式中后者级联部分每个特征是32个通道,将Fi
Figure BDA0002484861060000052
Figure BDA0002484861060000053
级联之后可组成128个通道,通过参数为
Figure BDA0002484861060000054
的1×1卷积,整合通道为32个通道。
优选地,所述全局上下文模块包括1×1卷积、softmax激活函数、Relu激活函数及LayerNorm层,表示如下:
Figure BDA0002484861060000055
其中:
φ(*)是一个ReLU激活函数操作;
Cat(*,1)表示跨通道级联操作;
LN(*)表示层归一化操作。
优选地,将
Figure BDA0002484861060000056
输入所述残差密集融合模块,得到多层级输出侧特征图
Figure BDA0002484861060000057
表示如下:
Figure BDA0002484861060000058
其中:
Cat(*,1)表示跨通道级联操作;
RDABi表示第i层级的残差密集融合模块的操作。
优选地,所述改进的神经网络模型的创建过程包括:
在训练数据集上,对步骤(5)中得到的多个特征图进行降维,采用深度监督学习机制并通过加权交叉熵损失函数,完成对神经网络模型的训练,得到训练过的神经网络模型。
本发明公开的单色图像的阴影检测方法与现有技术相比,具有如下有益效果:
(1)不需要人工设计并提取特征,能够实现单色阴影图像的端到端的像素级预测,仿真结果表明本发明在复杂的场景下检测图像的阴影时更具有完整一致性效果。
(2)将从主干网络中提取5个具有远程依赖性的上下文信息的特征,通过残差密集融合模块进行对这些具有远程依赖性的上下文信息的特征进行密集融合优化,得到5级精密的特征,能够有效捕捉特征图中特征点与远距离特征点间建立的关系;
(3)通过构建改进的全局上下文模块(高层特征指导低层特征)指导两个相邻层级模态间的特征结合,由于层级间的特征存在一定的差异性,直接将两层级的特征进行级联使用会使得特征信息存在太多的冗余性,同时,不能很好抑制特征图中的噪声。高层特征指导低层特征模块可以有效结合两层级的特征,建立一个平衡关系,减少了冗余特征信息的存在,在一定程度上很好地抑制噪声,有助于特征间建立类内一致性。
附图说明
图1为本发明公开的单色图像的阴影检测方法流程示意图;
图2为本发明公开的单色图像的阴影检测方法采用的神经网络模型框图,其中,GCB为全局上下文模块,RDA为残差密集洞率模块,HLGA为高层指导低层级的引导模块;
图3为本发明公开的全局上下文模块(GCB)框架图;
图4为本发明公开的使用全局上下文模块改进的基础网络框架图;
图5为本发明公开的双重注意力模块框架图;
图6为本发明公开的残差密集融合模块框架图;
图7为本发明公开的高层指导低层级注意力引导模块框架图;
图8a为本发明提供的单色图像示意图;
图8b为本发明提供的对图8a中的图像进行人工标定得到的真值图像;
图8c为本发明提供的采用本发明提供的单色图像的阴影检测方法对图8a中的图像检测得到的图像;
图8d为本发明提供的采用本发明提供的单色图像的阴影检测方法对图8a中的图像检测得到的图像。
具体实施方式
下面结合附图和具体实施例对本发明作具体的介绍。
参照图1,本发明实施例提供的单色图像的阴影检测方法,包括如下步骤:
S101,对输入的图像,提取其具有多层级特征的全局上下文信息。
作为一个具体的实施例,对已有的ResNeXt-101网络中5个级别深度上的特征加入全局上下文模块即可。分别为:
Conv1(用符号F0表示,表示64个尺寸为208×208的特征图);
Conv2_x(用符号F1表示,包含256个尺寸为104×104的特征图);
Conv3_x(用符号F2表示,包含512个尺寸为52×52的特征图);
Conv4_x(用符号F3表示,包含1024个尺寸为26×26的特征图);
Conv5_x(用符号F4表示,包含2048个尺寸为13×13的特征图);
常规的卷积只是针对近邻域的局部感受野提取特征,要得到具有全局上下文信息,需要更多层的卷积,这样的操作会导致网络参数量巨大,网络训练难度加大,本发明可在不加过多的参数量的情况下,提取到具有远程依赖性上下文信息的特征。
S102,通过双重注意力机制模块,提取最高层级的全局上下文特征。
使用双重注意力模块,旨在神经网络模型的最高层级在空间和通道维度上捕获远程依赖性的上下文信息。
S103,通过残差密集融合模块,融合步骤S102提取到的上下文特征。
如图6所示,一般地,在神经网络模型编码阶段提取到的特征都存在冗余性特征,而且通道间的相关联程度不高。本发明将编码阶段提取到的具有上下文信息的特征进行进一步优化,即将层级的特征采用不同的洞率卷积操作得到的特征级联起来,通过重新整合优化这些特征,并且建立残差连接,即可起到局部特征密集融合的作用,得到优化的上下文信息的特征。
每一个密集融合模块是针对同一特征级别下的特征进行的密集融合,密集融合模块包括3个洞卷积操作
Figure BDA0002484861060000091
1个卷积操作
Figure BDA0002484861060000092
和1个卷积跳连接操作
Figure BDA0002484861060000093
首先,一个卷积核为3×3,步长为1,洞率为3,参数为θdi,1的洞卷积操作
Figure BDA0002484861060000094
一个卷积核为3×3,步长为1,洞率为6,参数为
Figure BDA0002484861060000095
的洞卷积操作
Figure BDA0002484861060000096
一个卷积核为3×3,步长为1,洞率为9,参数为
Figure BDA0002484861060000097
的洞卷积操作
Figure BDA0002484861060000098
一个卷积核为1×1,步长为1,参数为
Figure BDA0002484861060000099
的卷积操作
Figure BDA00024848610600000910
分别得到
Figure BDA00024848610600000911
以及一个跳连接层,其上加入一个卷积核为1×1,步长为1,参数为
Figure BDA00024848610600000912
的卷积操作
Figure BDA00024848610600000913
得到特征
Figure BDA00024848610600000914
这里,对于每一个不同洞率的卷积操作,将通道分16个为一组进行分组操作。其卷积操作如下:
Figure BDA00024848610600000915
Figure BDA00024848610600000916
Figure BDA00024848610600000917
Figure BDA00024848610600000918
其中,Cat(*,1)表示跨通道级联操作;BN(·)表示批归一化操作;φ(·)表示ReLU激活函数;
正如上式所述,将几个洞卷积操作得到的特征
Figure BDA00024848610600000919
和输入特征Fi(i=0,1,2,3,4)级联,初始输入该模块的特征有32个通道,得到的
Figure BDA00024848610600000920
的通道数均为32,级联后通过参数为
Figure BDA00024848610600000921
的1×1卷积操作
Figure BDA00024848610600000922
得到局部密集融合的特征
Figure BDA00024848610600000923
(公式7),将其和跳连接参数为
Figure BDA00024848610600000924
的卷积操作
Figure BDA00024848610600000925
得到的特征
Figure BDA00024848610600000926
进行残差连接得到最终的第i级残差密集融合特征Di,该残差密集融合特征可表示如下:
Figure BDA0002484861060000101
其中,Di表示第i个残差密集融合模块操作;Cat(*,1)表示跨通道级联操作;RDABi表示第i层级的残差密集融合模块的操作。
进一步地,上述公式(7)中后者级联部分每个特征是32个通道,将Fi
Figure BDA0002484861060000102
Figure BDA0002484861060000103
级联之后可组成128个通道,通过参数为
Figure BDA0002484861060000104
的1×1卷积,整合通道为32个通道,前者是参数为
Figure BDA0002484861060000105
的1×1卷积操作
Figure BDA0002484861060000106
通道数依然不变。这样,对编码块提取到的远程依赖性上下文信息特征进行残差密集融合,可以得到一个对上下文信息优化的特征,优化后的特征很大程度上减少了冗余信息。
S104,构建改进的全局上下文模块,有效结合各层级的特征。
如图7所示,对于不同层级的特征,以往的做法是直接对其特征进行级联操作结合,这样的操作,一方面,由于层级间的特征存在差异性,直接进行结合不易突出作用大的特征,另一方面,直接结合特征会造成特征的大量冗余,而且存在大量的噪声。本发明构建改进的全局上下文模块(高层特征指导低层特征)指导两个相邻层级模态间的特征结合。该模块可以有效地在不同层级特征间建立一个平衡关系,减少了冗余特征信息,在一定程度上很好地抑制噪声,有助于在特征间建立类内一致性。
高层级指导低层级的特征模块应用在设计神经网络模型的解码阶段,用来结合高层特征和它的下一层特征。这里将主干网络最高层级的特征记为
Figure BDA0002484861060000107
其余层级(由下往上)得到的高层级特征记为
Figure BDA0002484861060000108
相对于高层的低层级特征为记为Di;首先将
Figure BDA0002484861060000109
和Di进行级联,得到具有64个通道的特征,经过由1×1卷积,softmax激活函数,Relu激活函数,LayerNorm层等一系列操作后,起作用为高层特征指导低层级特征建立类内一致性,得到的结果再和高层级特征Fhi相加,可表示如下:
Figure BDA0002484861060000111
其中,φ(*)是一个ReLU激活函数操作;Cat(*,1)表示跨通道级联操作;LN(*)表示层归一化操作;
Figure BDA0002484861060000112
对各个层级结合后的特征需要在经过一次残差密集融合模块后可作为输出侧特征输出,同时也可通过上述公式,经过一步上采样操作之后,可以得到和相对低一层级一样的分辨率大小,之后可继续采用公式(9)继续结合相邻层级的特征。
S105,得到各个层级输出的特征图。
Figure BDA0002484861060000113
输入至残差密集融合模块,得到多层级输出的特征图
Figure BDA0002484861060000114
表示如下:
Figure BDA0002484861060000115
其中,Cat(*,1)表示跨通道级联操作;RDABi表示第i层级的残差密集融合模块的操作。
本发明主要采取多级监督形式,故输出每一层级特征通过卷积、ReLU,Sigmoid等一系列操作将其与真值图像做损失,这样有助于算法网络的收敛。可表示如下:
Figure BDA0002484861060000121
其中,Po表示416×416大小的单通道特征图,UP(·)表示将特征恢复到与输入图像的尺寸一样大小,
Figure BDA0002484861060000122
表示参数为
Figure BDA0002484861060000123
卷积核大小为1×1的卷积操作,φ(·)表示ReLU激活函数;BN表示批归一化;
Figure BDA0002484861060000124
表示参数为
Figure BDA0002484861060000125
卷积核大小为3×3,通道数减半为16的卷积操作。
S106,根据各个层级输出的特征图,预测单色图像的阴影。
在测试数据集上,利用训练过的神经网络模型,对步骤(5)中得到的多个特征图,通过进一步卷积等操作进行分类计算,用{So|o=0,1,2,3}表示网络所有层级输出阴影掩膜图,So可表示如下:
So=σ(Po) (13)
其中,σ(·)是一个sigmoid激活函数,将S0作为最终的单色图阴影预测图。
可选地,神经网络模型的训练过程包括:
在训练数据集上,采用深度多层级监督学习机制,将层级输出测5)中得到各层级输出侧的特征图,通过简单地降维、卷积及sigmoid激活函数运算后得到Po(o=0,1,2,3),与真值图像G进行比较,求取神经网络模型的交叉熵损失函数Lall:
Figure BDA0002484861060000126
其中,i=0,1,,4表示对于5个层级的输出特征图,Po分别与真值G做损失,指G(x,y)∈{0,1}是真值图像G中位于(x,y)位置的值,Po(x,y)是特征图Po经过σ(·)操作后得到的概率图中位于(x,y)位置的概率值,σ(·)是一个sigmoid激活函数。在不同图像中,阴影所占区域大小于目标和背景区域大小是不同的,为了平衡正负样本,增加算法对不同尺寸物体阴影的检测准确性,使用了一个类平衡参数β,β是真值图像中非阴影像素的数量和整个真值图像像素数量的比值,可以表示为:
Figure BDA0002484861060000131
其中,Nb表示非阴影像素点数量,Nf表示阴影像素点数量。
本发明通过加权的交叉熵损失函数来训练图像灰度化之后的数据集。利用神经网络模型得提取远程依赖性的全局上下文信息特征,到残差密集融合模块对提取的特征优化,再到最后解码块的高层级特征指导低层级特征。通过训练整体的单色阴影网络后,得到神经网络模型参数。
在训练单色阴影网络参数时,用于单色阴影图像阴影检测的数据集(SBU数据集)不足,为了能够顺利训练神经网络模型,避免训练数据集出现过拟合现象,对数据集中的阴影图像进行数据集增广操作,即对每幅图像分别旋转90°、180°、270°以及水平、上下翻转操作,将原有的数据集总量扩大为8倍的数量。
以下结合仿真实验,对本发明的技术效果作进一步说明:
(1)仿真条件
所有仿真实验均在操作系统为Ubuntu 16.04.5,硬件环境为GPU Nvidia GeForceGTX1080Ti,采用PyTorch深度学习框架实现。
(2)仿真内容及结果分析
仿真1
将本发明与现有的基于可将光图像灰度化的阴影检测方法在公共图像数据库SBU上进行阴影检测实验,部分实验结果进行直观的比较,如图8所示,其中,Image表示数据库中用于实验输入的灰度化图像,GT表示人工标定的真值图像。
从图8可以看出,相较于现有技术,本发明公开的单色图像的阴影检测方法对阴影检测难点问题效果更好,在对比度低(阴影不明显)物体与阴影检测中具有更好的区分效果,以及黑色物体场景下具有准确的检测效果,且更接近于人工标定的真值图像。
仿真2
将本发明公开的单色图像的阴影检测方法与现有的基于图像灰度化的阴影检测方法在公共图像数据库SBU数据集及UCF数据集上进行阴影检测实验得到的结果,采用公认的评价指标进行客观评价,评价仿真结果如表1及表2所示。
表1
算法 SER NER BER
现有技术 4.71 3.89 4.3
本发明的方案 4.05 3.03 3.54
表2
算法 SER NER BER
现有技术 10.91 7.05 8.98
本发明的方案 8.66 7.35 8
其中,BER表示平衡误差率,SER表示阴影检错率,NER表示非阴影检错率。
以上三个指标同时越低越好,从表中可以看出本发明公开的对阴影检测具有更准确的检测能力,充分表明了本发明方法的有效性和优越性。
本发明实施例提供的单色图像的阴影检测方法,通过对输入的图像,提取其具有多级远程依赖性的上下文信息特征,通过双重注意力机制模块,提取最高层级的全局上下文特征,通过残差密集融合模块,融合提取到的全局上下文特征,构建改进的全局上下文模块,有效结合各层级的特征,得到各个层级输出的特征图并根据各个层级输出的特征图,预测单色图像的阴影,解决了在复杂场景中不能准确地检测出图像场景中阴影的问题。
上面对本发明的实施方式做了详细说明。但是本发明并不限于上述实施方式,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (8)

1.一种单色图像的阴影检测方法,其特征在于,包括如下步骤:
(1)对输入的单色图像,提取其具有多层级特征的全局上下文信息;
(2)利用双重注意力模块,提取最高层级的上下文信息;
(3)利用残差密集融合模块,对最高层级的上下文信息进行融合;
(4)利用改进的全局上下文模块,结合步骤(1)得到的全局上下文信息;
(5)将步骤(4)得到的各个层级的全局上下文信息作为其下一层级的输入并将各个层级的全局上下文信息作为其相应层级的输出,得到多个特征图;
(6)将步骤(5)得到的多个特征图输入训练过的神经网络模型,得到单色图像的阴影检测结果。
2.如权利要求1所述的单色图像的阴影检测方法,其特征在于,步骤(1)中提取的具有多层级特征的全局上下文信息,使用相同比率的全局上下文模块加到基础网络的每一个层级上以改进为新的基础网络,得到5个不同层级的特征F0、F1、F2、F3及F4,其中,F0、F1、F2、F3及F4的通道数分别为64、256、512、1024、2048,全局上下文模块利用相同的比率进行通道降维。
3.如权利要求1所述的单色图像的阴影检测方法,其特征在于,步骤(2)中的双重注意力模块分别包括空间注意力模块和位置注意力模块,将步骤(1)得到的5个层级特征的最高层特征
Figure FDA0002484861050000011
输入到双重注意力模块中,得到高层级语义特征
Figure FDA0002484861050000021
4.如权利要求1所述的单色图像的阴影检测方法,其特征在于,步骤(3)中残差密集融合模块是针对同一特征级别下的特征进行的密集融合,其特征在于:
残差密集融合模块包括3个洞卷积操作
Figure FDA0002484861050000022
及1个卷积操作
Figure FDA0002484861050000023
1个卷积跳连接操作
Figure FDA0002484861050000024
5.如权利要求4所述的单色图像的阴影检测方法,其特征在于:
3个洞卷积操作
Figure FDA0002484861050000025
为一个卷积核为3×3、步长为1、洞率为3、参数为
Figure FDA0002484861050000026
的洞卷积操作
Figure FDA0002484861050000027
一个卷积核为3×3、步长为1、洞率为6、参数为
Figure FDA0002484861050000028
的洞卷积操作
Figure FDA0002484861050000029
一个卷积核为3×3、步长为1、洞率为9、参数为
Figure FDA00024848610500000210
的洞卷积操作
Figure FDA00024848610500000211
1个卷积跳连接操作为一个卷积核为1×1、步长为1、参数为
Figure FDA00024848610500000212
的卷积操作
Figure FDA00024848610500000213
分别得到
Figure FDA00024848610500000214
以及一个跳连接层,其上加入一个卷积核为1×1、步长为1、参数为
Figure FDA00024848610500000215
的卷积操作
Figure FDA00024848610500000216
得到特征
Figure FDA00024848610500000217
将特征
Figure FDA00024848610500000218
和输入特征Fi级联,初始输入该模块的特征有32个通道,得到的
Figure FDA00024848610500000219
的通道数均为32,级联后通过参数为
Figure FDA00024848610500000220
的1×1卷积操作
Figure FDA00024848610500000221
得到局部密集融合的特征
Figure FDA00024848610500000222
将其和跳连接参数为
Figure FDA00024848610500000223
的卷积操作
Figure FDA00024848610500000224
得到的特征
Figure FDA00024848610500000225
进行残差连接,得到最终的第i级残差密集融合特征Di,第i级残差密集融合特征表示如下:
Figure FDA00024848610500000226
其中:Di表示第i个残差密集融合模块操作,Cat(*,1)表示跨通道级联操作,RDABi表示第i层级的残差密集融合模块的操作,上述公式中后者级联部分每个特征是32个通道,将Fi
Figure FDA0002484861050000031
Figure FDA0002484861050000032
级联之后组成128个通道,通过参数为
Figure FDA0002484861050000033
的1×1卷积,整合通道为32个通道。
6.如权利要求1所述的方法,其特征在于,所述全局上下文模块包括1×1卷积、softmax激活函数、Relu激活函数及LayerNorm层,表示如下:
Figure FDA0002484861050000034
其中:
φ(*)是一个ReLU激活函数操作;
Cat(*,1)表示跨通道级联操作;
LN(*)表示层归一化操作。
7.如权利要求6所述的单色图像的阴影检测方法,其特征在于,将
Figure FDA0002484861050000035
输入所述残差密集融合模块,得到多层级输出侧特征图
Figure FDA0002484861050000036
Figure FDA0002484861050000037
表示如下:
Figure FDA0002484861050000038
其中:
Cat(*,1)表示跨通道级联操作;
RDABi表示第i层级的残差密集融合模块的操作。
8.如权利要求1所述的方法,其特征在于,所述改进的神经网络模型的创建过程包括:
在训练数据集上,对步骤(5)中得到的多个特征图进行降维,采用深度监督学习机制并通过加权交叉熵损失函数,完成对神经网络模型的训练,得到训练过的神经网络模型。
CN202010388164.1A 2020-05-09 2020-05-09 一种单色图像的阴影检测方法 Active CN111666977B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010388164.1A CN111666977B (zh) 2020-05-09 2020-05-09 一种单色图像的阴影检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010388164.1A CN111666977B (zh) 2020-05-09 2020-05-09 一种单色图像的阴影检测方法

Publications (2)

Publication Number Publication Date
CN111666977A true CN111666977A (zh) 2020-09-15
CN111666977B CN111666977B (zh) 2023-02-28

Family

ID=72383196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010388164.1A Active CN111666977B (zh) 2020-05-09 2020-05-09 一种单色图像的阴影检测方法

Country Status (1)

Country Link
CN (1) CN111666977B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112991350A (zh) * 2021-02-18 2021-06-18 西安电子科技大学 一种基于模态差异缩减的rgb-t图像语义分割方法
CN113870124A (zh) * 2021-08-25 2021-12-31 西北工业大学 基于弱监督的双网络互激励学习阴影去除方法
CN114037666A (zh) * 2021-10-28 2022-02-11 重庆邮电大学 一种数据集扩充和阴影图像分类辅助的阴影检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019025601A1 (en) * 2017-08-03 2019-02-07 Koninklijke Philips N.V. HIERARCHICAL NEURAL NETWORKS WITH ATTENTION GRANULARIZED
CN110210539A (zh) * 2019-05-22 2019-09-06 西安电子科技大学 多级深度特征融合的rgb-t图像显著性目标检测方法
AU2020100274A4 (en) * 2020-02-25 2020-03-26 Huang, Shuying DR A Multi-Scale Feature Fusion Network based on GANs for Haze Removal

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019025601A1 (en) * 2017-08-03 2019-02-07 Koninklijke Philips N.V. HIERARCHICAL NEURAL NETWORKS WITH ATTENTION GRANULARIZED
CN110210539A (zh) * 2019-05-22 2019-09-06 西安电子科技大学 多级深度特征融合的rgb-t图像显著性目标检测方法
AU2020100274A4 (en) * 2020-02-25 2020-03-26 Huang, Shuying DR A Multi-Scale Feature Fusion Network based on GANs for Haze Removal

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
汪明章等: "基于深度学习的阴影检测算法", 《现代计算机》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112991350A (zh) * 2021-02-18 2021-06-18 西安电子科技大学 一种基于模态差异缩减的rgb-t图像语义分割方法
CN112991350B (zh) * 2021-02-18 2023-06-27 西安电子科技大学 一种基于模态差异缩减的rgb-t图像语义分割方法
CN113870124A (zh) * 2021-08-25 2021-12-31 西北工业大学 基于弱监督的双网络互激励学习阴影去除方法
CN113870124B (zh) * 2021-08-25 2023-06-06 西北工业大学 基于弱监督的双网络互激励学习阴影去除方法
CN114037666A (zh) * 2021-10-28 2022-02-11 重庆邮电大学 一种数据集扩充和阴影图像分类辅助的阴影检测方法

Also Published As

Publication number Publication date
CN111666977B (zh) 2023-02-28

Similar Documents

Publication Publication Date Title
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN109934200B (zh) 一种基于改进M-Net的RGB彩色遥感图像云检测方法及系统
CN111666977B (zh) 一种单色图像的阴影检测方法
CN112396607B (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN110889449A (zh) 一种增强边缘的、多尺度的遥感影像建筑物语义特征提取方法
CN113449594A (zh) 一种多层网络组合的遥感影像地类语义分割与面积计算方法
CN112884758B (zh) 一种基于风格迁移方法的缺陷绝缘子样本生成方法及系统
CN112489054A (zh) 一种基于深度学习的遥感图像语义分割方法
Yang et al. Spatiotemporal trident networks: detection and localization of object removal tampering in video passive forensics
CN114943876A (zh) 一种多级语义融合的云和云影检测方法、设备及存储介质
CN113344933B (zh) 一种基于多层次特征融合网络的腺体细胞分割方法
CN114821069A (zh) 融合富尺度特征的双分支网络遥感图像建筑语义分割方法
CN116740439A (zh) 一种基于跨尺度金字塔Transformer的人群计数方法
CN111696021A (zh) 一种基于显著性检测的图像自适应隐写分析系统及方法
CN113920468A (zh) 一种基于跨尺度特征增强的多分支行人检测方法
CN115019039A (zh) 一种结合自监督和全局信息增强的实例分割方法及系统
CN116740121A (zh) 一种基于专用神经网络和图像预处理的秸秆图像分割方法
CN115439493A (zh) 一种乳腺组织切片癌变区域分割方法及装置
Yang et al. Research on improved u-net based remote sensing image segmentation algorithm
CN114445665A (zh) 基于Transformer增强的非局部U形网络的高光谱影像分类方法
Hu et al. HyCloudX: A multi-branch hybrid segmentation network with band fusion for cloud/shadow
Zhao et al. Squnet: An high-performance network for crater detection with dem data
CN117877068A (zh) 一种基于掩码自监督遮挡像素重建的遮挡行人重识别方法
CN117746130A (zh) 一种基于遥感影像点状语义标签的弱监督深度学习分类方法
CN117315543A (zh) 一种基于置信度门控时空记忆网络的半监督视频目标分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant