CN115496675A - 一种基于Neighborhood注意力机制的阴影去除方法 - Google Patents
一种基于Neighborhood注意力机制的阴影去除方法 Download PDFInfo
- Publication number
- CN115496675A CN115496675A CN202210864932.5A CN202210864932A CN115496675A CN 115496675 A CN115496675 A CN 115496675A CN 202210864932 A CN202210864932 A CN 202210864932A CN 115496675 A CN115496675 A CN 115496675A
- Authority
- CN
- China
- Prior art keywords
- image
- shadow
- attention
- network
- discrimination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 230000007246 mechanism Effects 0.000 title claims abstract description 33
- 230000008569 process Effects 0.000 claims abstract description 22
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000010276 construction Methods 0.000 claims abstract description 8
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 39
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 claims description 26
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 claims description 26
- 239000011159 matrix material Substances 0.000 claims description 21
- XEYLAWVXYZUVDD-UHFFFAOYSA-N 2-hydroxy-5-(2-methylprop-2-enoylamino)benzoic acid Chemical compound CC(=C)C(=O)NC1=CC=C(O)C(C(O)=O)=C1 XEYLAWVXYZUVDD-UHFFFAOYSA-N 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 15
- 238000010586 diagram Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 230000009977 dual effect Effects 0.000 claims 1
- 230000001419 dependent effect Effects 0.000 abstract 1
- 230000009466 transformation Effects 0.000 abstract 1
- 238000004364 calculation method Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003703 image analysis method Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
- G06T5/94—Dynamic range modification of images or parts thereof based on local image properties, e.g. for local contrast enhancement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于Neighborhood注意力机制的阴影去除方法,包括,构建生成器:输入带有阴影的图像,经过图像的底层特征提取、高层语义特征提取和图像重构三个步骤能够生成一张不带阴影图像,生成网络构建过程中没有改变图像尺寸。构建判别器:构建8层全卷积网络,最后一层采用AveragePooling,使得判别网络能够对不同尺度的图像进行处理,该网络输出结果为生成图像是真实图像的概率值。设计损失函数,利用SRD数据集进行模型训练,利用循环GAN有效克服方法对三元组阴影数据集的依赖,利用neighborhood注意力机制构建生成网络,对不同尺度的图像特征进行感知,该方法能够有效去除阴影,保留更多的场景细节信息。
Description
技术领域
本发明涉及一种图像分析方法,尤其是涉及一种基于Neighborhood注意力机制的阴影去除方法,属于图像识别技术领域。
背景技术
随着我国智慧城市建设不断深入,对智慧交通、智能安防的需求越来越强,从而对图像的质量要求也越来越高。在复杂光照下,如黄昏太阳光会使图像中存在大量的物体阴影(如图1左所示),由于阴影的存在,图像分割、目标跟踪性能会有所下降。在图像分割任务中,阴影的“假边”会混淆物体的边缘,影响分割的效果,使其分割精度大大降低;在目标检测与识别任务中,目标物体与其阴影“融为一体”,导致识别精度大大降低。
图像阴影去除是计算机视觉领域中既基本又重要的任务之一,其处理结果的好坏决定着后续任务的性能(如图1右所示),是计算机视觉领域重要预处理阶段,具有重要的研究意义。但目前专门为此问题而构建的数据集还很少,如应用最广的数据集仅包含76对阴影/无阴影图像对(LRSS)和37对阴影/无阴影图像对(UIUC)。标记无阴影数据集是通常使用专业知识(如图形学渲染技术),这是昂贵的,耗时且容易出错。此外,大多数监督方法需要训练不同的场景的图像,才能提高算法的泛化能力。这给构建数据集带来了更大的挑战。
循环GAN是当前图像风格迁移领域最为经典的模型之一,它结合判别损失以及一致性损失对两个生成器及两个判别器组成的循环模型进行训练,能够对两个不同风格图像数据进行相互转换。本专利以循环GAN为基础实现阴影域图像转换为无阴影域图像,能够有效降低对训练数据的要求。在该框架中,由于生成网络的构建是影响整个模型性能的关键因素,本专利提出一种新的基于Neighborhood自注意力机制构建网络方法,同时采用一种结合全局判别和局部判别方式对生成图像质量好坏的判别策略,能够有效去除阴影,并保留更多的图像细节信息。
目前,大多数基于生成对抗网络的阴影去除模型在训练过程中均需要使用阴影掩模先验信息,阴影掩模的标注难度较高。除此之外,现有的阴影去除算法在训练过程中需要计算生成的无阴影图像与真实阴影图像之间的重构损失,因此必须为模型提供包含阴影图像及其同时刻同场景无阴影图像在内的匹配数据。然而,目前可用的包含阴影图像和无阴影图像匹配数据以及阴影掩模在内的三元组数据集数量较少,但现有阴影去除研究方法对数据集的严苛要求极大地增加了构造新数据集的难度,也严重制约了阴影去除研究的发展。传统基于循环GAN的图像生成方法不能很好地处理图像细节信息,导致图像整体与局部无法保持较高的一致性,在颜色、纹理等特征的处理和恢复中出现较大的偏差,进而会影响最终的阴影去除效果。
发明内容
本发明的技术目的在于减少对标记图像的依赖,利用自注意力机制构建生成网络,有效提升阴影去除后的图像质量。循环GAN中生成网络结构和判别网络结构设计是影响生成图像质量的重要因素。深度卷积神经网络可以通过数据驱动的方式挖掘更深层次的高频特征,获得更丰富的图像细节,生成出更准确的融合结果图像。虽然,深度卷积神经网络使图像的恢复质量得到进一步提升,但其仍然存在很多问题。其一,通过大量基于深度卷积神经网络的阴影去除算法的研究,领域内得到一种较为普遍的共识:通过扩展网络的宽度(滤波器的个数)以及加深网络的深度(卷积层数),可以增强融合结果图像的视觉质量。然而,更深更复杂的网络结构会降低网络的收敛速度,增加模型的训练难度,容易产生梯度消失/梯度爆炸问题。其二,通常更宽更深的网络结构代表具有更多的滤波器个数及更深的网络层数,从而导致参数数量急剧上升。相较于简洁紧凑型网络,复杂庞大的网络模型需要更多的存储空间。为解决深度卷积神经网络带来的各种问题,本方法提出一种基于Neighborhood自注意力机制来构建循环GAN中的生成网络。此外,采用一种双判别策略,结合全局判别和局部判别进行生成图像质量好坏的判别,全局判别对图像整体进行评估,局部判别是将图像进行N采样,得到一系列子图像组(意味更大感受野),然后对这些子图像组进行进一步判别。该方法能够有效去除阴影,并保留更多的图像细节信息,最终使得生成的图像从全局到细节更加逼真。
本发明采用的技术方案为一种基于Neighborhood注意力机制的阴影去除方法,利用循环GAN有效克服方法对三元组阴影数据集的依赖,利用neighborhood注意力机制构建生成网络,对不同尺度的图像特征进行感知,该方法能够有效去除阴影,保留更多的场景细节信息。包括以下步骤:
步骤1:构建生成器:(1):提取输入图像底层特征:采用块嵌入(Patch Embedding)来实现,采用3×3卷积、步长为1的卷积操作获得图像底层特征图。(2)提取图像的高层语义特征:把获取的底层特征图作为输入,利用neighborhood注意力机制实现高层语义信息提取。根据固定尺寸且带有重叠的窗口划分计算注意力分数,每个q都是和一个局部的窗口内的k和v来计算注意力值。窗口滑动的过程类似于卷积操作的过程,对输入图像的尺寸没有约束。(3)图像重构,利用3×3卷积,步长为1,通道数为3,重构彩色图像。
步骤1是完成生成器的构建,输入带有阴影的图像,经过图像的底层特征提取、高层语义特征提取和图像重构三个步骤能够生成一张不带阴影图像,生成网络构建过程中没有改变图像尺寸。
步骤2:构建判别器:构建8层全卷积网络,最后一层采用Average Pooling,使得判别网络能够对不同尺度的图像进行处理,该网络输出结果为生成图像是真实图像的概率值。提出一种结合全局判别和局部判别方式进行生成图像好坏的判别策略,使得生成图像能够很好保持图像的颜色和纹理信息。
步骤3:设计损失函数,利用SRD数据集进行模型训练,该SRD数据集的数据包括2680个阴影图像对。
在循环GAN中,采用上面所述的基于neighborhood自注意力机制构建生成网络,能够利用更多的上下文信息获得注意力信息,从而获取更多的图像高层语义特征。针对循环GAN中判别网络的设计,本专利采用一种双判别策略,结合全局判别和局部判别进行生成图像质量好坏的判别,全局判别对图像整体进行评估,局部判别是将图像进行N采样,得到一系列子图像组(意味更大感受野),然后对这些子图像组进行进一步判别。该方法能够有效去除阴影,最终使得生成的图像从全局到细节更加逼真。
循环GAN采用两个对称的生成对抗网络组成的一个环状模型,它的图像生成是双向的。阴影去除方法框架包括两个GAN共享两个生成器GX2Y和GY2X,对于要进行转换的图像域X带阴影和图像域Y不带阴影,有对应的判别器DX和DY来判断所在域的图像是否真实。生成器GX2Y接收图像域X带阴影的图像x,将其转换成图像域Y不带阴影风格的图像,紧接着GX2Y的结果被送入到另一个生成器GY2X中再次进行转换,使其转换回X带阴影图像域,其目标是使输出图像GY2X(GX2Y(x))与输入图像x尽可能接近。对于图像域Y不带阴影中的图像y,将其送入生成器GY2X中,再将输出结果送入生成器GX2Y中,生成的图像GX2Y(GY2X(y))也应与输入图像y相近。对于判别器DX,它接收真实的以及生成器GY2X生成的X带阴影域图像,并对其进行真假判别;实施判别器DY对真实的以及生成器GX2Y生成的Y不带阴影域图像进行判断。
生成网络结构设计是影响整个方法性能的关键因素。经典的基于窗口的注意力的机制,通常是把图像分割为不重叠的窗口,注意力的计算在每个窗口内部独立完成,边界像素不能利用块之外的相邻像素进行注意力信息获取,并且要求输入图像的尺寸要能被窗口大小整除。为了避免图像大小对窗口划分的影响、并能够利用更多的上下文信息获得注意力信息,采用一种基于neighborhood自注意力机制构建生成网络,利用固定尺寸且带有重叠的窗口划分计算注意力分数,每个q都是和一个局部的窗口内的k和v来计算Attention。窗口滑动的过程类似于卷积操作的过程,对于边缘位置,选择其最近的邻域进行交互。该方法对输入图像的尺寸没有约束,符合图像阴影去除任务应对图像大小无限定的要求。
在每个邻域内进行多头自注意力计算(Neighborhood Multi-head SelfAttention,NMSA)。NMSA模块将输入特征映射到不同的子空间中,再分别在所有子空间上做点乘运算计算注意力向量,最后把所有子空间计算得到的注意力向量拼接起来,并利用W0做进一步映射得到最终的注意力向量作为输出,NMSA模块的表达式如公式(1)所示:
其中,Q,K,V分别为NMSA子模块的查询向量、键向量、值向量,为第i子空间中Q的映射矩阵,为第j子空间中K的映射矩阵,为第j子空间中V的映射矩阵。在一个单独子空间上的注意力向量的计算方式依次为:先将查询向量Q和键向量K点乘,再除以键向量K的维度的平方根得到查询向量Q的分数矩阵,然后通过softmax函数将分数矩阵归一化得到权重矩阵,最后乘以值向量V即得到一个子空间的注意力向量,具体形式如公式(2)所示:
NMSA子模块通过将输入特征映射到不同的子空间,利用获得的注意力分数捕获特征在不同子空间上的依赖关系。
判别模型的构建,采用一种结合全局判别和局部判别进行生成图像好坏的判别策略,使得生成图像能够恢复和保留更多的图像细节信息。
1)全局判别器接收完整的图像输入,对图像整体进行评估;
2)局部判别器是将图像进行N×N下采样,得到N2组子图像序列进行判别。
多尺度判别器具有不同的感受野范围,感受野范围越大意味着它能反映的原始输入图像的范围越大,包含的信息相应就越多,能提取到的特征就越丰富。考虑到不用尺度的图像要作为判别器的输入,为了满足该要求,本专利采用全卷积网络来构建判别器网络,其结构如图5所示。输入图像对是生成网络生成的图像和真实图像,利用8个卷积层使得网络输出结果是生成图像属于真实样本的概率值。8个卷积层之后为Average Pooling层,这样就能够满足不同尺度的输入图像作为输入的要求,每个卷积层操作过程包括Conv+BN+Swish,即进行批归一化处理,Swish激活函数为x·sigmoid(x)。
本方法中对抗损失由两部分组成,公式(3)定义了由图像域X带阴影转换为图像域Y不带阴影的对抗损失LGAN(GX2Y,DY,X,Y):
得出由图像域Y不带阴影转换为图像域X带阴影的对抗损失,表示为:LGAN(GY2X,DX,Y,X)。
除了生成对抗网络的对抗损失,还采用一致性损失,使模型在训练时保留图像原有的特征,加快模型的收敛。一致性损失计算如公式(4)所示:
最终目标函数如公式(5)所示:
传统基于循环GAN的图像生成方法不能很好地处理图像细节信息,导致图像整体与局部无法保持较高的一致性,在颜色、纹理等特征的处理和恢复中出现较大的偏差,进而会影响最终的阴影去除效果。为了避免图像大小对窗口划分的影响、并能够利用更多的上下文信息获得注意力信息,本专利采用一种基于neighborhood自注意力机制构建循环GAN中生成网络结构。另外,采用一种双判别策略,结合全局判别和局部判别进行生成图像质量好坏的判别,该方法能够保留更多的图像细节信息。
附图说明
图1是阴影去除示例图。
图2是本方法的框架图。
图3是生成模型结构图。
图4是子图分解示意图。
图5是判别模型结构图。
具体实施方式
以下结合附图和实施例对本发明进行详细说明。
本方法提出一种基于Neighborhood注意力机制的阴影去除方法。该方法利用循环GAN训练机制,可以有效克服方法对三元组阴影数据集的依赖。关键点如下:
1)提出一种基于Neighborhood注意力机制来构建生成网络的方式,每个像素和其最近的邻域进行交互来捕获上下文信息,能够有效去除阴影,保留更多的场景细节信息。
2)提出一种结合全局判别和局部判别进行生成图像好坏的判别策略,能够对不同尺度的图像特征进行感知,能够保留更多的细节细节信息,使生成图像从全局到细节更加自然逼真。
传统GAN是由一个生成器和一个判别器组成的,判别器接收真实图像和生成器输出的伪图像并进行真假判别,而生成器则要尽可能地生成接近真实的图像来混淆判别器使其判断失误。传统生成对抗网络的图像生成是单向的,生成器输出图像后即可送入判别器中进行判断。与此不同,循环GAN采用两个对称的生成对抗网络组成的一个环状模型,它的图像生成是双向的。本方法提出的阴影去除方法框架图如图2所示,两个GAN共享两个生成器GX2Y和GY2X,对于要进行转换的图像域X(带阴影)和图像域Y(不带阴影),有对应的判别器DX和DY来判断所在域的图像是否真实。生成器GX2Y接收图像域X(带阴影)的图像x,将其转换成图像域Y(不带阴影)风格的图像,紧接着GX2Y的结果被送入到另一个生成器GY2X中再次进行转换,使其转换回X(带阴影)图像域,其目标是使输出图像GY2X(GX2Y(x))与输入图像x尽可能接近。同样,对于图像域Y(不带阴影)中的图像y,将其送入生成器GY2X中,再将输出结果送入生成器GX2Y中,生成的图像GX2Y(GY2X(y))也应与输入图像y相近。对于判别器DX,它接收真实的以及生成器GY2X生成的X(带阴影)域图像,并对其进行真假判别,同理,判别器DY对真实的以及生成器GX2Y生成的Y(不带阴影)域图像进行判断。
图2中,生成网络结构设计是影响整个方法性能的关键因素。经典的基于窗口的注意力的机制,通常是把图像分割为不重叠的窗口,注意力的计算在每个窗口内部独立完成,边界像素不能利用块之外的相邻像素进行注意力信息获取,并且要求输入图像的尺寸要能被窗口大小整除。为了避免图像大小对窗口划分的影响、并能够利用更多的上下文信息获得注意力信息,本专利采用一种基于neighborhood自注意力机制构建生成网络,如图3所示,主要包括三个步骤:
第一步骤:块嵌入,利用3×3卷积,步长为1,提取原始图像底层图像特征,本生成网络构建过程中没有改变图像尺寸。
第二步骤:利用neighborhood注意力机制,获取图像的高层语义特征。采用固定尺寸且带有重叠的窗口划分计算注意力分数,每个q都是和一个局部的窗口内的k和v来计算Attention。窗口滑动的过程类似于卷积操作的过程,对于边缘位置,选择其最近的邻域进行交互。该方法对输入图像的尺寸没有约束,符合图像阴影去除任务应对图像大小无限定的要求。
在每个邻域内进行多头自注意力计算(Neighborhood Multi-head SelfAttention,NMSA)。NMSA模块将输入特征映射到不同的子空间中,再分别在所有子空间上做点乘运算计算注意力向量,最后把所有子空间计算得到的注意力向量拼接起来,并利用W0做进一步映射得到最终的注意力向量作为输出,NMSA模块的表达式如公式(1)所示:
其中,Q,K,V分别为NMSA子模块的查询向量、键向量、值向量,为第i子空间中Q的映射矩阵,为第j子空间中K的映射矩阵,为第j子空间中V的映射矩阵。在一个单独子空间上的注意力向量的计算方式依次为:先将查询向量Q和键向量K点乘,再除以键向量K的维度的平方根得到查询向量Q的分数矩阵,然后通过softmax函数将分数矩阵归一化得到权重矩阵,最后乘以值向量V即得到一个子空间的注意力向量,具体形式如公式(2)所示:
NMSA子模块通过将输入特征映射到不同的子空间,利用获得的注意力分数捕获特征在不同子空间上的依赖关系。
第三步骤:图像重构,利用利用3×3卷积,步长为1,通道数为3,重构彩色图像。
判别模型的构建,本专利采用一种结合全局判别和局部判别进行生成图像好坏的判别策略,使得生成图像能够恢复和保留更多的图像细节信息。
1)全局判别器接收完整的图像输入,对图像整体进行评估;
2)局部判别器是将图像进行N×N下采样,得到N2组子图像序列进行判别。为了简化描述,以N=2为例,如图4所示,对16×16图像进行2下采样,得到4个子图像,如图4下半部分所示。针对同一个像素(红框所示),在黄色子图中,用3×3卷积操作时,对应原始图像中1-8号像素,相对原始图中最里侧的黑色框中的邻域像素,这种方式可以增加全局像素的影响(外侧黑色框所示)。
多尺度判别器具有不同的感受野范围,感受野范围越大意味着它能反映的原始输入图像的范围越大,包含的信息相应就越多,能提取到的特征就越丰富。考虑到不用尺度的图像要作为判别器的输入,为了满足该要求,本专利采用全卷积网络来构建判别器网络,其结构如图5所示。输入图像对是生成网络生成的图像和真实图像,利用8个卷积层使得网络输出结果是生成图像属于真实样本的概率值。8个卷积层之后为Average Pooling层,这样就能够满足不同尺度的输入图像作为输入的要求,每个卷积层操作过程包括Conv+BN+Swish,即进行批归一化处理,Swish激活函数为x·sigmoid(x)。
本专利提出的方法中对抗损失由两部分组成,公式(3)定义了由图像域X(带阴影)转换为图像域Y(不带阴影)的对抗损失LGAN(GX2Y,DY,X,Y):
同理可以得出由图像域Y(不带阴影)转换为图像域X(带阴影)的对抗损失,表示为:LGAN(GY2X,DX,Y,X)。
除了生成对抗网络的对抗损失,本专利还采用一致性损失,可以使模型在训练时保留图像原有的特征,加快模型的收敛。一致性损失计算如公式(4)所示:
最终目标函数如公式(5)所示:
本专利提出一种基于Neighborhood注意力机制的阴影去除方法。该方法利用循环GAN可以有效克服方法对三元组阴影数据集的依赖,利用neighborhood注意力机制构建生成网络,对不同尺度的图像特征进行感知,该方法能够有效去除阴影,保留更多的场景细节信息。主要包括以下步骤:
步骤1:构建生成器:1):块嵌入,利用3×3卷积,步长为1,提取原始图像底层图像特征。生成网络构建过程中没有改变图像尺寸。2)利用neighborhood注意力机制,获取图像的高层语义特征。采用固定尺寸且带有重叠的窗口划分计算注意力分数,每个q都是和一个局部的窗口内的k和v来计算注意力值。窗口滑动的过程类似于卷积操作的过程,对输入图像的尺寸没有约束。3)图像重构,利用利用3×3卷积,步长为1,通道数为3,重构彩色图像。
步骤2:构建判别器:构建8层全卷积网络,最后一层采用Average Pooling,使得判别网络能够对不同尺度的图像进行处理,该网络输出结果为生成图像是真实图像的概率值。另外,本专利提出一种结合全局判别和局部判别方式进行生成图像好坏的判别策略,使得生成图像能够很好保持图像的颜色和纹理信息。
步骤3:设计损失函数,利用SRD数据集进行模型训练,该数据包括2680个阴影图像对。
Claims (5)
1.一种基于Neighborhood注意力机制的阴影去除方法,其特征在于:利用循环GAN有效克服方法对三元组阴影数据集的依赖,利用neighborhood注意力机制构建生成网络,对不同尺度的图像特征进行感知,该方法能够有效去除阴影,保留更多的场景细节信息;包括以下步骤:
步骤1:构建生成器:(1):提取输入图像底层特征:采用块嵌入Patch Embedding来实现,采用3×3卷积、步长为1的卷积操作获得图像底层特征图;(2)提取图像的高层语义特征:把获取的底层特征图作为输入,利用neighborhood注意力机制实现高层语义信息提取;根据固定尺寸且带有重叠的窗口划分计算注意力分数,每个q都是和一个局部的窗口内的k和v来计算注意力值;窗口滑动的过程类似于卷积操作的过程,对输入图像的尺寸没有约束;(3)图像重构,利用3×3卷积,步长为1,通道数为3,重构彩色图像;
步骤1是完成生成器的构建,输入带有阴影的图像,经过图像的底层特征提取、高层语义特征提取和图像重构三个步骤能够生成一张不带阴影图像,生成网络构建过程中没有改变图像尺寸;
步骤2:构建判别器:构建8层全卷积网络,最后一层采用Average Pooling,使得判别网络能够对不同尺度的图像进行处理,该网络输出结果为生成图像是真实图像的概率值;提出一种结合全局判别和局部判别方式进行生成图像好坏的判别策略,使得生成图像能够很好保持图像的颜色和纹理信息;
步骤3:设计损失函数,利用SRD数据集进行模型训练,该SRD数据集的数据包括2680个阴影图像对;
在循环GAN中,采用基于neighborhood自注意力机制构建生成网络,能够利用更多的上下文信息获得注意力信息,从而获取更多的图像高层语义特征;针对循环GAN中判别网络的设计,采用一种双判别策略,结合全局判别和局部判别进行生成图像质量好坏的判别,全局判别对图像整体进行评估,局部判别是将图像进行N采样,得到一系列子图像组,然后对这些子图像组进行进一步判别;该方法能够有效去除阴影,最终使得生成的图像从全局到细节更加逼真。
2.根据权利要求1所述的一种基于Neighborhood注意力机制的阴影去除方法,其特征在于:循环GAN采用两个对称的生成对抗网络组成的一个环状模型,图像生成是双向的;阴影去除方法框架包括两个GAN共享两个生成器GX2Y和GY2X,对于要进行转换的图像域X带阴影和图像域Y不带阴影,有对应的判别器DX和DY来判断所在域的图像是否真实;生成器GX2Y接收图像域X带阴影的图像x,将其转换成图像域Y不带阴影风格的图像,紧接着GX2Y的结果被送入到另一个生成器GY2X中再次进行转换,使其转换回X带阴影图像域,其目标是使输出图像GY2X(GX2Y(x))与输入图像x尽可能接近;对于图像域Y不带阴影中的图像y,将其送入生成器GY2X中,再将输出结果送入生成器GX2Y中,生成的图像GX2Y(GY2X(y))也应与输入图像y相近;对于判别器DX,它接收真实的以及生成器GY2X生成的X带阴影域图像,并对其进行真假判别;实施判别器DY对真实的以及生成器GX2Y生成的Y不带阴影域图像进行判断。
3.根据权利要求2所述的一种基于Neighborhood注意力机制的阴影去除方法,其特征在于:采用一种基于neighborhood自注意力机制构建生成网络,利用固定尺寸且带有重叠的窗口划分计算注意力分数,每个q都是和一个局部的窗口内的k和v来计算Attention;窗口滑动的过程类似于卷积操作的过程,对于边缘位置,选择其最近的邻域进行交互。
4.根据权利要求2所述的一种基于Neighborhood注意力机制的阴影去除方法,其特征在于:在每个邻域内进行多头自注意力计算NMSA;NMSA将输入特征映射到不同的子空间中,再分别在所有子空间上做点乘运算计算注意力向量,最后把所有子空间计算得到的注意力向量拼接起来,并利用W0做进一步映射得到最终的注意力向量作为输出,NMSA的表达式如公式(1)所示:
其中,Q,K,V分别为NMSA子模块的查询向量、键向量、值向量,为第i子空间中Q的映射矩阵,为第j子空间中K的映射矩阵,为第j子空间中V的映射矩阵;在一个单独子空间上的注意力向量的计算方式依次为:先将查询向量Q和键向量K点乘,再除以键向量K的维度的平方根得到查询向量Q的分数矩阵,然后通过softmax函数将分数矩阵归一化得到权重矩阵,最后乘以值向量V即得到一个子空间的注意力向量,具体形式如公式(2)所示:
NMSA的子模块通过将输入特征映射到不同的子空间,利用获得的注意力分数捕获特征在不同子空间上的依赖关系。
5.根据权利要求4所述的一种基于Neighborhood注意力机制的阴影去除方法,其特征在于:判别模型的构建,采用一种结合全局判别和局部判别进行生成图像好坏的判别策略,使得生成图像能够恢复和保留更多的图像细节信息;
1)全局判别器接收完整的图像输入,对图像整体进行评估;
2)局部判别器是将图像进行N×N下采样,得到N2组子图像序列进行判别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210864932.5A CN115496675A (zh) | 2022-07-21 | 2022-07-21 | 一种基于Neighborhood注意力机制的阴影去除方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210864932.5A CN115496675A (zh) | 2022-07-21 | 2022-07-21 | 一种基于Neighborhood注意力机制的阴影去除方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115496675A true CN115496675A (zh) | 2022-12-20 |
Family
ID=84467030
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210864932.5A Pending CN115496675A (zh) | 2022-07-21 | 2022-07-21 | 一种基于Neighborhood注意力机制的阴影去除方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115496675A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117575976A (zh) * | 2024-01-12 | 2024-02-20 | 腾讯科技(深圳)有限公司 | 图像阴影的处理方法、装置、设备及存储介质 |
-
2022
- 2022-07-21 CN CN202210864932.5A patent/CN115496675A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117575976A (zh) * | 2024-01-12 | 2024-02-20 | 腾讯科技(深圳)有限公司 | 图像阴影的处理方法、装置、设备及存储介质 |
CN117575976B (zh) * | 2024-01-12 | 2024-04-19 | 腾讯科技(深圳)有限公司 | 图像阴影的处理方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110853026B (zh) | 一种融合深度学习与区域分割的遥感影像变化检测方法 | |
CN110472676A (zh) | 基于深度神经网络的胃早癌组织学图像分类系统 | |
CN112395442B (zh) | 移动互联网上的低俗图片自动识别与内容过滤方法 | |
CN107463954B (zh) | 一种模糊异谱图像的模板匹配识别方法 | |
CN109543632A (zh) | 一种基于浅层特征融合引导的深层网络行人检测方法 | |
CN110472495B (zh) | 一种基于图形推理全局特征的深度学习人脸识别方法 | |
CN113792641B (zh) | 一种结合多谱注意力机制的高分辨率轻量级的人体姿态估计方法 | |
Xu et al. | Robust self-ensembling network for hyperspectral image classification | |
Wang et al. | Study on the method of transmission line foreign body detection based on deep learning | |
CN111401380A (zh) | 一种基于深度特征增强和边缘优化的rgb-d图像语义分割方法 | |
Xia et al. | Cervical cancer cell detection based on deep convolutional neural network | |
Zhu et al. | Change detection based on the combination of improved SegNet neural network and morphology | |
CN114898407A (zh) | 一种基于深度学习牙齿目标实例分割及其智能预览的方法 | |
CN109671055A (zh) | 肺结节检测方法及装置 | |
CN115496675A (zh) | 一种基于Neighborhood注意力机制的阴影去除方法 | |
CN113888505B (zh) | 一种基于语义分割的自然场景文本检测方法 | |
CN114495170A (zh) | 一种基于局部抑制自注意力的行人重识别方法及系统 | |
CN106504219A (zh) | 有约束的路径形态学高分辨率遥感影像道路增强方法 | |
CN114066844A (zh) | 一种基于注意力叠加与特征融合的肺炎x光片图像分析模型及分析方法 | |
Li et al. | Incremental learning of infrared vehicle detection method based on SSD | |
CN115661754B (zh) | 一种基于维度融合注意力的行人重识别方法 | |
Schuegraf et al. | Deep learning for the automatic division of building constructions into sections on remote sensing images | |
CN114332601A (zh) | 一种基于语义分割的采摘机器人非结构化道路识别方法 | |
CN113781372A (zh) | 一种基于深度学习的戏曲脸谱生成方法及系统 | |
Fan et al. | Attention-modulated triplet network for face sketch recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |