CN115496675A

CN115496675A - 一种基于Neighborhood注意力机制的阴影去除方法

Info

Publication number: CN115496675A
Application number: CN202210864932.5A
Authority: CN
Inventors: 王金华; 徐光美; 张敬尊; 胡新
Original assignee: Beijing Union University
Current assignee: Beijing Union University
Priority date: 2022-07-21
Filing date: 2022-07-21
Publication date: 2022-12-20

Abstract

本发明公开了一种基于Neighborhood注意力机制的阴影去除方法，包括，构建生成器：输入带有阴影的图像，经过图像的底层特征提取、高层语义特征提取和图像重构三个步骤能够生成一张不带阴影图像，生成网络构建过程中没有改变图像尺寸。构建判别器：构建8层全卷积网络，最后一层采用AveragePooling，使得判别网络能够对不同尺度的图像进行处理，该网络输出结果为生成图像是真实图像的概率值。设计损失函数，利用SRD数据集进行模型训练，利用循环GAN有效克服方法对三元组阴影数据集的依赖，利用neighborhood注意力机制构建生成网络，对不同尺度的图像特征进行感知，该方法能够有效去除阴影，保留更多的场景细节信息。

Description

一种基于Neighborhood注意力机制的阴影去除方法

技术领域

本发明涉及一种图像分析方法，尤其是涉及一种基于Neighborhood注意力机制的阴影去除方法，属于图像识别技术领域。

背景技术

随着我国智慧城市建设不断深入，对智慧交通、智能安防的需求越来越强，从而对图像的质量要求也越来越高。在复杂光照下，如黄昏太阳光会使图像中存在大量的物体阴影(如图1左所示)，由于阴影的存在，图像分割、目标跟踪性能会有所下降。在图像分割任务中，阴影的“假边”会混淆物体的边缘，影响分割的效果，使其分割精度大大降低；在目标检测与识别任务中，目标物体与其阴影“融为一体”，导致识别精度大大降低。

图像阴影去除是计算机视觉领域中既基本又重要的任务之一，其处理结果的好坏决定着后续任务的性能(如图1右所示)，是计算机视觉领域重要预处理阶段，具有重要的研究意义。但目前专门为此问题而构建的数据集还很少，如应用最广的数据集仅包含76对阴影/无阴影图像对(LRSS)和37对阴影/无阴影图像对(UIUC)。标记无阴影数据集是通常使用专业知识(如图形学渲染技术)，这是昂贵的，耗时且容易出错。此外，大多数监督方法需要训练不同的场景的图像，才能提高算法的泛化能力。这给构建数据集带来了更大的挑战。

循环GAN是当前图像风格迁移领域最为经典的模型之一，它结合判别损失以及一致性损失对两个生成器及两个判别器组成的循环模型进行训练，能够对两个不同风格图像数据进行相互转换。本专利以循环GAN为基础实现阴影域图像转换为无阴影域图像，能够有效降低对训练数据的要求。在该框架中，由于生成网络的构建是影响整个模型性能的关键因素，本专利提出一种新的基于Neighborhood自注意力机制构建网络方法，同时采用一种结合全局判别和局部判别方式对生成图像质量好坏的判别策略，能够有效去除阴影，并保留更多的图像细节信息。

目前，大多数基于生成对抗网络的阴影去除模型在训练过程中均需要使用阴影掩模先验信息，阴影掩模的标注难度较高。除此之外，现有的阴影去除算法在训练过程中需要计算生成的无阴影图像与真实阴影图像之间的重构损失，因此必须为模型提供包含阴影图像及其同时刻同场景无阴影图像在内的匹配数据。然而，目前可用的包含阴影图像和无阴影图像匹配数据以及阴影掩模在内的三元组数据集数量较少，但现有阴影去除研究方法对数据集的严苛要求极大地增加了构造新数据集的难度，也严重制约了阴影去除研究的发展。传统基于循环GAN的图像生成方法不能很好地处理图像细节信息，导致图像整体与局部无法保持较高的一致性，在颜色、纹理等特征的处理和恢复中出现较大的偏差，进而会影响最终的阴影去除效果。

发明内容

本发明的技术目的在于减少对标记图像的依赖，利用自注意力机制构建生成网络，有效提升阴影去除后的图像质量。循环GAN中生成网络结构和判别网络结构设计是影响生成图像质量的重要因素。深度卷积神经网络可以通过数据驱动的方式挖掘更深层次的高频特征，获得更丰富的图像细节，生成出更准确的融合结果图像。虽然，深度卷积神经网络使图像的恢复质量得到进一步提升，但其仍然存在很多问题。其一，通过大量基于深度卷积神经网络的阴影去除算法的研究，领域内得到一种较为普遍的共识：通过扩展网络的宽度(滤波器的个数)以及加深网络的深度(卷积层数)，可以增强融合结果图像的视觉质量。然而，更深更复杂的网络结构会降低网络的收敛速度，增加模型的训练难度，容易产生梯度消失/梯度爆炸问题。其二，通常更宽更深的网络结构代表具有更多的滤波器个数及更深的网络层数，从而导致参数数量急剧上升。相较于简洁紧凑型网络，复杂庞大的网络模型需要更多的存储空间。为解决深度卷积神经网络带来的各种问题，本方法提出一种基于Neighborhood自注意力机制来构建循环GAN中的生成网络。此外，采用一种双判别策略，结合全局判别和局部判别进行生成图像质量好坏的判别，全局判别对图像整体进行评估，局部判别是将图像进行N采样，得到一系列子图像组(意味更大感受野)，然后对这些子图像组进行进一步判别。该方法能够有效去除阴影，并保留更多的图像细节信息，最终使得生成的图像从全局到细节更加逼真。

本发明采用的技术方案为一种基于Neighborhood注意力机制的阴影去除方法，利用循环GAN有效克服方法对三元组阴影数据集的依赖，利用neighborhood注意力机制构建生成网络，对不同尺度的图像特征进行感知，该方法能够有效去除阴影，保留更多的场景细节信息。包括以下步骤：

步骤1：构建生成器：(1)：提取输入图像底层特征：采用块嵌入(Patch Embedding)来实现，采用3×3卷积、步长为1的卷积操作获得图像底层特征图。(2)提取图像的高层语义特征：把获取的底层特征图作为输入，利用neighborhood注意力机制实现高层语义信息提取。根据固定尺寸且带有重叠的窗口划分计算注意力分数，每个q都是和一个局部的窗口内的k和v来计算注意力值。窗口滑动的过程类似于卷积操作的过程，对输入图像的尺寸没有约束。(3)图像重构，利用3×3卷积，步长为1，通道数为3，重构彩色图像。

步骤1是完成生成器的构建，输入带有阴影的图像，经过图像的底层特征提取、高层语义特征提取和图像重构三个步骤能够生成一张不带阴影图像，生成网络构建过程中没有改变图像尺寸。

步骤2：构建判别器：构建8层全卷积网络，最后一层采用Average Pooling，使得判别网络能够对不同尺度的图像进行处理，该网络输出结果为生成图像是真实图像的概率值。提出一种结合全局判别和局部判别方式进行生成图像好坏的判别策略，使得生成图像能够很好保持图像的颜色和纹理信息。

步骤3：设计损失函数，利用SRD数据集进行模型训练，该SRD数据集的数据包括2680个阴影图像对。

在循环GAN中，采用上面所述的基于neighborhood自注意力机制构建生成网络，能够利用更多的上下文信息获得注意力信息，从而获取更多的图像高层语义特征。针对循环GAN中判别网络的设计，本专利采用一种双判别策略，结合全局判别和局部判别进行生成图像质量好坏的判别，全局判别对图像整体进行评估，局部判别是将图像进行N采样，得到一系列子图像组(意味更大感受野)，然后对这些子图像组进行进一步判别。该方法能够有效去除阴影，最终使得生成的图像从全局到细节更加逼真。

循环GAN采用两个对称的生成对抗网络组成的一个环状模型，它的图像生成是双向的。阴影去除方法框架包括两个GAN共享两个生成器G_X2Y和G_Y2X，对于要进行转换的图像域X带阴影和图像域Y不带阴影，有对应的判别器D_X和D_Y来判断所在域的图像是否真实。生成器G_X2Y接收图像域X带阴影的图像x，将其转换成图像域Y不带阴影风格的图像，紧接着G_X2Y的结果被送入到另一个生成器G_Y2X中再次进行转换，使其转换回X带阴影图像域，其目标是使输出图像G_Y2X(G_X2Y(x))与输入图像x尽可能接近。对于图像域Y不带阴影中的图像y，将其送入生成器G_Y2X中，再将输出结果送入生成器G_X2Y中，生成的图像G_X2Y(G_Y2X(y))也应与输入图像y相近。对于判别器D_X，它接收真实的以及生成器G_Y2X生成的X带阴影域图像，并对其进行真假判别；实施判别器D_Y对真实的以及生成器G_X2Y生成的Y不带阴影域图像进行判断。

生成网络结构设计是影响整个方法性能的关键因素。经典的基于窗口的注意力的机制，通常是把图像分割为不重叠的窗口，注意力的计算在每个窗口内部独立完成，边界像素不能利用块之外的相邻像素进行注意力信息获取，并且要求输入图像的尺寸要能被窗口大小整除。为了避免图像大小对窗口划分的影响、并能够利用更多的上下文信息获得注意力信息，采用一种基于neighborhood自注意力机制构建生成网络，利用固定尺寸且带有重叠的窗口划分计算注意力分数，每个q都是和一个局部的窗口内的k和v来计算Attention。窗口滑动的过程类似于卷积操作的过程，对于边缘位置，选择其最近的邻域进行交互。该方法对输入图像的尺寸没有约束，符合图像阴影去除任务应对图像大小无限定的要求。

在每个邻域内进行多头自注意力计算(Neighborhood Multi-head SelfAttention,NMSA)。NMSA模块将输入特征映射到不同的子空间中，再分别在所有子空间上做点乘运算计算注意力向量，最后把所有子空间计算得到的注意力向量拼接起来，并利用W⁰做进一步映射得到最终的注意力向量作为输出，NMSA模块的表达式如公式(1)所示：

其中，Q,K,V分别为NMSA子模块的查询向量、键向量、值向量，

为第i子空间中Q的映射矩阵，

为第j子空间中K的映射矩阵，

为第j子空间中V的映射矩阵。在一个单独子空间上的注意力向量的计算方式依次为：先将查询向量Q和键向量K点乘，再除以键向量K的维度的平方根

得到查询向量Q的分数矩阵，然后通过softmax函数将分数矩阵归一化得到权重矩阵，最后乘以值向量V即得到一个子空间的注意力向量，具体形式如公式(2)所示：

NMSA子模块通过将输入特征映射到不同的子空间，利用获得的注意力分数捕获特征在不同子空间上的依赖关系。

判别模型的构建，采用一种结合全局判别和局部判别进行生成图像好坏的判别策略，使得生成图像能够恢复和保留更多的图像细节信息。

1)全局判别器接收完整的图像输入，对图像整体进行评估；

2)局部判别器是将图像进行N×N下采样，得到N²组子图像序列进行判别。

多尺度判别器具有不同的感受野范围，感受野范围越大意味着它能反映的原始输入图像的范围越大，包含的信息相应就越多，能提取到的特征就越丰富。考虑到不用尺度的图像要作为判别器的输入，为了满足该要求，本专利采用全卷积网络来构建判别器网络，其结构如图5所示。输入图像对是生成网络生成的图像和真实图像，利用8个卷积层使得网络输出结果是生成图像属于真实样本的概率值。8个卷积层之后为Average Pooling层，这样就能够满足不同尺度的输入图像作为输入的要求，每个卷积层操作过程包括Conv+BN+Swish，即进行批归一化处理，Swish激活函数为x·sigmoid(x)。

本方法中对抗损失由两部分组成，公式(3)定义了由图像域X带阴影转换为图像域Y不带阴影的对抗损失L_GAN(G_X2Y,D_Y,X,Y)：

得出由图像域Y不带阴影转换为图像域X带阴影的对抗损失，表示为：L_GAN(G_Y2X,D_X,Y,X)。

除了生成对抗网络的对抗损失，还采用一致性损失，使模型在训练时保留图像原有的特征，加快模型的收敛。一致性损失计算如公式(4)所示：

最终目标函数如公式(5)所示：

传统基于循环GAN的图像生成方法不能很好地处理图像细节信息，导致图像整体与局部无法保持较高的一致性，在颜色、纹理等特征的处理和恢复中出现较大的偏差，进而会影响最终的阴影去除效果。为了避免图像大小对窗口划分的影响、并能够利用更多的上下文信息获得注意力信息，本专利采用一种基于neighborhood自注意力机制构建循环GAN中生成网络结构。另外，采用一种双判别策略，结合全局判别和局部判别进行生成图像质量好坏的判别，该方法能够保留更多的图像细节信息。

附图说明

图1是阴影去除示例图。

图2是本方法的框架图。

图3是生成模型结构图。

图4是子图分解示意图。

图5是判别模型结构图。

具体实施方式

以下结合附图和实施例对本发明进行详细说明。

本方法提出一种基于Neighborhood注意力机制的阴影去除方法。该方法利用循环GAN训练机制，可以有效克服方法对三元组阴影数据集的依赖。关键点如下：

1)提出一种基于Neighborhood注意力机制来构建生成网络的方式，每个像素和其最近的邻域进行交互来捕获上下文信息，能够有效去除阴影，保留更多的场景细节信息。

2)提出一种结合全局判别和局部判别进行生成图像好坏的判别策略，能够对不同尺度的图像特征进行感知，能够保留更多的细节细节信息，使生成图像从全局到细节更加自然逼真。

传统GAN是由一个生成器和一个判别器组成的，判别器接收真实图像和生成器输出的伪图像并进行真假判别，而生成器则要尽可能地生成接近真实的图像来混淆判别器使其判断失误。传统生成对抗网络的图像生成是单向的，生成器输出图像后即可送入判别器中进行判断。与此不同，循环GAN采用两个对称的生成对抗网络组成的一个环状模型，它的图像生成是双向的。本方法提出的阴影去除方法框架图如图2所示，两个GAN共享两个生成器G_X2Y和G_Y2X，对于要进行转换的图像域X(带阴影)和图像域Y(不带阴影)，有对应的判别器D_X和D_Y来判断所在域的图像是否真实。生成器G_X2Y接收图像域X(带阴影)的图像x，将其转换成图像域Y(不带阴影)风格的图像，紧接着G_X2Y的结果被送入到另一个生成器G_Y2X中再次进行转换，使其转换回X(带阴影)图像域，其目标是使输出图像G_Y2X(G_X2Y(x))与输入图像x尽可能接近。同样，对于图像域Y(不带阴影)中的图像y，将其送入生成器G_Y2X中，再将输出结果送入生成器G_X2Y中，生成的图像G_X2Y(G_Y2X(y))也应与输入图像y相近。对于判别器D_X，它接收真实的以及生成器G_Y2X生成的X(带阴影)域图像，并对其进行真假判别，同理，判别器D_Y对真实的以及生成器G_X2Y生成的Y(不带阴影)域图像进行判断。

图2中，生成网络结构设计是影响整个方法性能的关键因素。经典的基于窗口的注意力的机制，通常是把图像分割为不重叠的窗口，注意力的计算在每个窗口内部独立完成，边界像素不能利用块之外的相邻像素进行注意力信息获取，并且要求输入图像的尺寸要能被窗口大小整除。为了避免图像大小对窗口划分的影响、并能够利用更多的上下文信息获得注意力信息，本专利采用一种基于neighborhood自注意力机制构建生成网络，如图3所示，主要包括三个步骤：

第一步骤：块嵌入，利用3×3卷积，步长为1，提取原始图像底层图像特征，本生成网络构建过程中没有改变图像尺寸。

第二步骤：利用neighborhood注意力机制，获取图像的高层语义特征。采用固定尺寸且带有重叠的窗口划分计算注意力分数，每个q都是和一个局部的窗口内的k和v来计算Attention。窗口滑动的过程类似于卷积操作的过程，对于边缘位置，选择其最近的邻域进行交互。该方法对输入图像的尺寸没有约束，符合图像阴影去除任务应对图像大小无限定的要求。

其中，Q,K,V分别为NMSA子模块的查询向量、键向量、值向量，

为第i子空间中Q的映射矩阵，

为第j子空间中K的映射矩阵，

第三步骤：图像重构，利用利用3×3卷积，步长为1，通道数为3，重构彩色图像。

判别模型的构建，本专利采用一种结合全局判别和局部判别进行生成图像好坏的判别策略，使得生成图像能够恢复和保留更多的图像细节信息。

1)全局判别器接收完整的图像输入，对图像整体进行评估；

2)局部判别器是将图像进行N×N下采样，得到N²组子图像序列进行判别。为了简化描述，以N＝2为例，如图4所示，对16×16图像进行2下采样，得到4个子图像，如图4下半部分所示。针对同一个像素(红框所示)，在黄色子图中，用3×3卷积操作时，对应原始图像中1-8号像素，相对原始图中最里侧的黑色框中的邻域像素，这种方式可以增加全局像素的影响(外侧黑色框所示)。

本专利提出的方法中对抗损失由两部分组成，公式(3)定义了由图像域X(带阴影)转换为图像域Y(不带阴影)的对抗损失L_GAN(G_X2Y,D_Y,X,Y)：

同理可以得出由图像域Y(不带阴影)转换为图像域X(带阴影)的对抗损失，表示为：L_GAN(G_Y2X,D_X,Y,X)。

除了生成对抗网络的对抗损失，本专利还采用一致性损失，可以使模型在训练时保留图像原有的特征，加快模型的收敛。一致性损失计算如公式(4)所示：

最终目标函数如公式(5)所示：

本专利提出一种基于Neighborhood注意力机制的阴影去除方法。该方法利用循环GAN可以有效克服方法对三元组阴影数据集的依赖，利用neighborhood注意力机制构建生成网络，对不同尺度的图像特征进行感知，该方法能够有效去除阴影，保留更多的场景细节信息。主要包括以下步骤：

步骤1：构建生成器：1)：块嵌入，利用3×3卷积，步长为1，提取原始图像底层图像特征。生成网络构建过程中没有改变图像尺寸。2)利用neighborhood注意力机制，获取图像的高层语义特征。采用固定尺寸且带有重叠的窗口划分计算注意力分数，每个q都是和一个局部的窗口内的k和v来计算注意力值。窗口滑动的过程类似于卷积操作的过程，对输入图像的尺寸没有约束。3)图像重构，利用利用3×3卷积，步长为1，通道数为3，重构彩色图像。

步骤2：构建判别器：构建8层全卷积网络，最后一层采用Average Pooling，使得判别网络能够对不同尺度的图像进行处理，该网络输出结果为生成图像是真实图像的概率值。另外，本专利提出一种结合全局判别和局部判别方式进行生成图像好坏的判别策略，使得生成图像能够很好保持图像的颜色和纹理信息。

步骤3：设计损失函数，利用SRD数据集进行模型训练，该数据包括2680个阴影图像对。

Claims

1.一种基于Neighborhood注意力机制的阴影去除方法，其特征在于：利用循环GAN有效克服方法对三元组阴影数据集的依赖，利用neighborhood注意力机制构建生成网络，对不同尺度的图像特征进行感知，该方法能够有效去除阴影，保留更多的场景细节信息；包括以下步骤：

步骤1：构建生成器：(1)：提取输入图像底层特征：采用块嵌入Patch Embedding来实现，采用3×3卷积、步长为1的卷积操作获得图像底层特征图；(2)提取图像的高层语义特征：把获取的底层特征图作为输入，利用neighborhood注意力机制实现高层语义信息提取；根据固定尺寸且带有重叠的窗口划分计算注意力分数，每个q都是和一个局部的窗口内的k和v来计算注意力值；窗口滑动的过程类似于卷积操作的过程，对输入图像的尺寸没有约束；(3)图像重构，利用3×3卷积，步长为1，通道数为3，重构彩色图像；

步骤1是完成生成器的构建，输入带有阴影的图像，经过图像的底层特征提取、高层语义特征提取和图像重构三个步骤能够生成一张不带阴影图像，生成网络构建过程中没有改变图像尺寸；

步骤2：构建判别器：构建8层全卷积网络，最后一层采用Average Pooling，使得判别网络能够对不同尺度的图像进行处理，该网络输出结果为生成图像是真实图像的概率值；提出一种结合全局判别和局部判别方式进行生成图像好坏的判别策略，使得生成图像能够很好保持图像的颜色和纹理信息；

步骤3：设计损失函数，利用SRD数据集进行模型训练，该SRD数据集的数据包括2680个阴影图像对；

在循环GAN中，采用基于neighborhood自注意力机制构建生成网络，能够利用更多的上下文信息获得注意力信息，从而获取更多的图像高层语义特征；针对循环GAN中判别网络的设计，采用一种双判别策略，结合全局判别和局部判别进行生成图像质量好坏的判别，全局判别对图像整体进行评估，局部判别是将图像进行N采样，得到一系列子图像组，然后对这些子图像组进行进一步判别；该方法能够有效去除阴影，最终使得生成的图像从全局到细节更加逼真。

2.根据权利要求1所述的一种基于Neighborhood注意力机制的阴影去除方法，其特征在于：循环GAN采用两个对称的生成对抗网络组成的一个环状模型，图像生成是双向的；阴影去除方法框架包括两个GAN共享两个生成器G_X2Y和G_Y2X，对于要进行转换的图像域X带阴影和图像域Y不带阴影，有对应的判别器D_X和D_Y来判断所在域的图像是否真实；生成器G_X2Y接收图像域X带阴影的图像x，将其转换成图像域Y不带阴影风格的图像，紧接着G_X2Y的结果被送入到另一个生成器G_Y2X中再次进行转换，使其转换回X带阴影图像域，其目标是使输出图像G_Y2X(G_X2Y(x))与输入图像x尽可能接近；对于图像域Y不带阴影中的图像y，将其送入生成器G_Y2X中，再将输出结果送入生成器G_X2Y中，生成的图像G_X2Y(G_Y2X(y))也应与输入图像y相近；对于判别器D_X，它接收真实的以及生成器G_Y2X生成的X带阴影域图像，并对其进行真假判别；实施判别器D_Y对真实的以及生成器G_X2Y生成的Y不带阴影域图像进行判断。

3.根据权利要求2所述的一种基于Neighborhood注意力机制的阴影去除方法，其特征在于：采用一种基于neighborhood自注意力机制构建生成网络，利用固定尺寸且带有重叠的窗口划分计算注意力分数，每个q都是和一个局部的窗口内的k和v来计算Attention；窗口滑动的过程类似于卷积操作的过程，对于边缘位置，选择其最近的邻域进行交互。

4.根据权利要求2所述的一种基于Neighborhood注意力机制的阴影去除方法，其特征在于：在每个邻域内进行多头自注意力计算NMSA；NMSA将输入特征映射到不同的子空间中，再分别在所有子空间上做点乘运算计算注意力向量，最后把所有子空间计算得到的注意力向量拼接起来，并利用W⁰做进一步映射得到最终的注意力向量作为输出，NMSA的表达式如公式(1)所示：

其中，Q,K,V分别为NMSA子模块的查询向量、键向量、值向量，

为第i子空间中Q的映射矩阵，

为第j子空间中K的映射矩阵，

为第j子空间中V的映射矩阵；在一个单独子空间上的注意力向量的计算方式依次为：先将查询向量Q和键向量K点乘，再除以键向量K的维度的平方根

NMSA的子模块通过将输入特征映射到不同的子空间，利用获得的注意力分数捕获特征在不同子空间上的依赖关系。

5.根据权利要求4所述的一种基于Neighborhood注意力机制的阴影去除方法，其特征在于：判别模型的构建，采用一种结合全局判别和局部判别进行生成图像好坏的判别策略，使得生成图像能够恢复和保留更多的图像细节信息；

1)全局判别器接收完整的图像输入，对图像整体进行评估；