CN111429436A

CN111429436A - 一种基于多尺度注意力和标签损失的本质图像分析方法

Info

Publication number: CN111429436A
Application number: CN202010233201.1A
Authority: CN
Inventors: 蒋晓悦; 李�浩; 方阳; 王小健; 王鼎; 李煜祥
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-03-29
Filing date: 2020-03-29
Publication date: 2020-07-17
Anticipated expiration: 2040-03-29
Also published as: CN111429436B

Abstract

本发明提出了一种基于多尺度注意力和标签损失的本质图像分析方法，将循环卷积注意力机制与对抗思想引入本质分解问题，构造了一个用于本质图像分析的多尺度注意力MSA‑Net网络，网络结构遵循生成对抗网络(GAN)的基本框架，包括生成器和判别器两部分。生成器由注意力子网络和编解码器子网络两部分组成，用于将图像分解为反射图和光照图。判别器的作用是对于任意一张输入图像给出该图为正确本质图像的概率。同时本发明还给出一种新的用于提升反射图分解效果的标签损失函数，该损失函数基于数据集中的标签图像(ground truth)构建，能使网络分解得到的反射图具有更优的局部纹理一致性效果和量化评价指标。

Description

一种基于多尺度注意力和标签损失的本质图像分析方法

技术领域

本发明属于图像处理领域，具体涉及一种本质图像分析方法。

背景技术

图像的理解与分析是计算机视觉领域重要的基础研究之一。在复杂的自然场景中，同一目标物可能会由于光照强度、阴影遮挡、姿态变化等诸多因素造成图像表面颜色断续、灰度突变等差异，从而导致同一场景中的同一物体观测效果差异巨大。若对图像进行直接处理，将大大增加图像分析与理解的难度，使算法的性能受到影响。解决这一问题，最好的处理方法是挖掘出图像中目标物的固有模式——本质特征，然后将物体本质特征送入后续算法进行处理。本质特征是指独立于周边环境的目标物固有特征，对目标物而言，其固有特征包括反射特性(颜色、纹理、材质等)和形状特性，这些固有特征不会随着周围环境的变化而发生改变。如果我们能将原始图像中目标物的形状、颜色、纹理等本质信息与环境信息分离，过滤掉外在环境对图像的影响，就可以对目标物进行更加精确的特征描述。本质图像分析作为本质特征提取的重要方法，是指将一幅原始图像分解为反射图和光照图两部分，其中反射图描述场景反射特性，光照图描述形状特性与光照情况。本质图像分析是计算机图形学的重要组成部分，对于提升图像翻译、图像分割、图像编辑、图像光照渲染等高级图像应用的鲁棒性作用显著。本质图像分析是由单幅图像重构得到两幅图像的过程，数学关系描述为原始图像I中每个像素点的灰度值都等于分解得到的反射图R和光照图S对应点灰度值的乘积，即I(x,y)＝R(x,y)·S(x,y)。在无约束的情况下，理论上存在无穷组解满足该数学关系。因此在分解过程中得到精确的本质图像分析结果，就必须添加相关约束来避免反射图和光照图可能出现的二义性情况。

在传统本质图像分析方法中，Retinex相关理论是最为广泛应用的先验知识，它定性地给出原始图像中反射图信息与光照图信息的差别与联系。在Retinex理论的基础上，一类算法将图像深度、纹理一致性等其他辅助信息加入优化函数中，用以提升本质图像分析效果。同时基于本质特征的不变性，另有一类使用特征空间学习的方法，该类方法直接对不同光照下同一场景的一组图像进行分析，以实现本质特征的空间分布学习。然而上述两类方法的定性约束往往过于粗糙，分析结果中图像的高频细节往往不能令人满意，且传统特征约束在使用过程中也存在诸多的限制，往往只能对指定场景表现出较好的效果，模型泛化能力较差。

随着深度学习技术的发展，当前性能优良的本质图像分析方法均是基于卷积神经网络构建。相较于传统方法中对人为构造特征的粗糙硬分类，卷积神经网络可实现更加精细的特征分离。现有的本质图像分析网络遵循端到端的单流、双流编解码结构设计，试图直接实现从原始图像到本质图的空间映射。然而，由于反射图和光照图中的特征并不满足完全互斥的特性，网络往往不能达到理想的分离效果，出现反射图和光照图分离不彻底的情况，因而需要更加巧妙的网络结构和损失函数设计来进一步提升本质图像分析质量。

发明内容

为了克服现有技术的不足，本发明提出了一种基于多尺度注意力和标签损失的本质图像分析方法，将循环卷积注意力机制与对抗思想引入本质分解问题，构造了一个基于生成对抗网络的MSA-Net卷积神经网络。网络的输入为单幅待处理图像，目标输出为单幅本质图像(反射图或光照图)。该网络结构遵循生成对抗网络(GAN)的基本框架，包括生成器和判别器两部分。生成器由注意力子网络和编解码器子网络两部分组成，用于将图像分解为反射图和光照图。判别器的作用是对于任意一张输入图像给出该图为正确本质图像的概率。本发明构造的MSA-Net网络是一种单输入单输出的卷积神经网络，单个MSA-Net网络只能从待处理的原始图像得到其中一种本质图像(反射图或光照图)，因此，要得到完整的本质图像分析结果，需要使用MSA-Net网络分别训练得到反射图分解器和光照图分解器。同时本发明还给出一种新的用于提升反射图分解效果的标签损失函数，该损失函数基于本质图像分析基本原理，利用标签本质图像进行构建，能使MSA-Net网络分解得到的反射图具有更优的量化评价指标和局部纹理一致性效果。

为达到上述目的，本发明提出了一种基于多尺度注意力和标签损失的本质图像分析方法，包括以下步骤：

步骤1：构造多尺度注意力MSA-Net网络

多尺度注意力MSA-Net网络包括生成器和判别器；

生成器包括注意力子网络和编解码器子网络，将图像分解为指定类型的本质图像，指定类型的本质图像为反射图或光照图；判别器为多级下采样子网络，在训练过程中给出判别器当前输入图像为指定类型的正确本质图像的概率，即当前输入图像与标签本质图像的近似程度；当概率值为1时，表明判别器认为当前输入图像是正确的本质分析结果，与标签本质图像完全相同；进行网络训练时，生成器的输出作为判别器的输入；

注意力子网络包括三级卷积LSTM网络，在三级卷积LSTM网络的输入层引入多尺度特征，使用三种设定的不同感受野大小的卷积核对原始图像做卷积运算，分别得到原始图像的低频、中频、高频特征；第一级LSTM的输入为原始图像低频特征和初始注意力图的组合，初始注意力图是与原始图像相同大小的全零矩阵，输出为初级注意力图；第二级LSTM的输入为原始图像中频特征和初级注意力图的组合，输出为中级注意力图；第三级LSTM的输入为原始图像高频特征和中级注意力图的组合，输出为最终得到的注意力图；编解码器子网络包括两级上下采样结构，输入为最终得到的注意力图、原始图像和原始图像的Sobel横纵向梯度图的组合，输出为指定类型的本质图像；

步骤2：训练针对反射图分解的多尺度注意力MSA-Net网络，得到反射图分解器；

步骤2-1：定义反射图注意力引导模板

式中x,y表示图像的像素点坐标，c表示通道，I(x,y,c)和R(x,y,c)分别为原始图像和标签反射图对应像素点灰度值，t₀为阈值参数；

步骤2-2：定义反射图标签损失函数

标签损失函数L_gt包含标签均方差损失L_{gt_mse}、标签一致性损失函数L_{gt_consistency}和标签感知损失函数L_{gt_perc}，数学计算式为：

L_{gt_mse}＝L_MSE(G(I),R)

L_{gt_consistency}＝L_MSE(G(I),G(R))

L_gt＝L_{gt_mse}+L_{gt_consistency}+10L_{gt_perc} (2)

式中I为原始图像，R为标签反射图，X,Y为任意两输入图像，H为图像高度，W为图像宽度，C为通道数，L_MSE(X,Y)为输入变量X,Y间的均方误差，G(.)表示生成器的输出，Ψ_i(.)表示生成器中编解码器子网络第i尺度重构图像所对应的卷积层的特征图输入，Q为特征图个数；

步骤2-3：定义反射图分解损失函数

训练针对反射图分解的多尺度注意力MSA-Net网络所需的损失函数定义如下：

a)生成对抗损失函数

其中

为预测反射图，

表示对

进行横纵向N等分切割后得到的N²个子图中的任一样本，r表示对R进行横纵向N等分切割后得到的N²个子图中的任一样本，

为任一相同切割位置的两个子图组成的子图对，Ω_R为所有

子图对的集合，D(·)为判别器网络对应的函数关系，L_disc为生成对抗意义下的判别器损失函数，L_gene为生成对抗意义下的生成器损失函数；

b)多尺度均方误差损失

其中

表示生成器中编解码器子网络生成的第i个尺度下的预测图像，R⁽ⁱ⁾表示第i个尺度下与预测结果

相同尺度大小的标签反射图，λ_i表示第i个尺度下的权重；

c)局部余弦相似度损失函数

其中，

为余弦距离计算式，

为局部余弦相似度损失函数；

d)注意力图均方差损失函数：

其中μ_t为权重系数，A_t为第t步LSTM重构的注意力图，M_ref为反射图注意力引导模板；

e)梯度均方差损失函数

综合上述所有损失函数，训练针对反射图分解的多尺度注意力MSA-Net网络所需的总损失函数如下式所示

式中G代表生成器，D代表判别器，L_{g_ref}(.)和L_{d_ref}(.)分别对应反射图在网络训练时的生成器总损失函数和判别器总损失函数，A为注意力图；

步骤2-4：采用具有像素级标签的本质图像数据集作为训练数据集，将待处理的原始图像I输入注意力子网络输出得到注意力图A，然后计算原始图像I的Sobel横纵向梯度图像

并将原始图像、梯度图像

和

注意力图A作为输入送入生成器的编解码器子网络，输出得到预测反射图，表达式如下：

A＝F_ATT(I)

式中F_ATT(·)表示注意力子网络运算操作，F_{ms_code}(·)表示编解码器子网络运算，

为预测反射图；

步骤2-5：将步骤2-4得到的预测反射图分别在横、纵向N等分为N²个相同大小的子图，将子图输入判别器，判别器的输出为各个子图是正确反射图的概率值，然后对所有子图是正确反射图的概率值加权平均，将加权平均计算结果作为当前输入图像是正确反射图的概率预估值；

步骤2-6：根据得到的概率预估值，按式(3)计算损失函数值，使用Adam最优化方法调整生成器和判别器参数；

步骤2-7：将训练数据集的样本输入多尺度注意力MSA-Net网络，重复步骤2-4、2-5、2-6进行迭代训练，当迭代次数达到设定次数或均方误差(MSE)小于设定阈值时停止训练，此时生成器即是最终求解得到的反射图分解器；

步骤2-8：将待处理的原始图像输入反射图分解器中，输出图像就是原始图像分解得到的反射图；

步骤3：训练针对光照图分解的多尺度注意力MSA-Net网络，得到光照图分解器；

步骤3-1：定义光照图注意力引导模板

其中

和

分别为原始图像和标签光照图中(x,y)位置的RGB向量，t₁为色度一致性阈值参数；

步骤3-2：定义光照图分解损失函数

训练针对光照图分解的多尺度注意力MSA-Net网络所需的损失函数定义如下：

a)生成对抗损失函数

其中

为预测光照图，S为标签光照图，

表示对

进行横纵向N等分切割后得到的N²个子图中的任一样本，s表示对S进行横纵向N等分切割后得到的N²个子图中的任一样本，

为任一相同切割位置的两个子图组成的子图对，Ω_S为所有

b)多尺度均方误差损失

其中

表示生成器中编解码器子网络生成的第i个尺度下的预测光照图，S⁽ⁱ⁾表示第i个尺度下与预测结果

相同尺度大小的标签光照图，λ_i表示第i个尺度下的权重；

c)局部余弦相似度损失函数

其中，

为余弦距离计算式，

为局部余弦相似度损失函数；

d)注意力图均方差损失函数：

其中M_sha为光照图分解任务对应的注意力引导模板；

e)梯度均方差损失函数

综合上述损失函数，训练针对光照图分解的多尺度注意力MSA-Net网络总损失函数如下式所示

式中L_{g_sha}(.)和L_{d_sha}(.)分别对应光照图在网络训练时的生成器总损失函数和判别器总损失函数；

步骤3-3：采用具有像素级标签的本质图像数据集作为训练数据集，将待处理的原始图像I输入注意力子网络，输出得到注意力图A，然后计算原始图像I的Sobel横纵向梯度图像

并将原始图像、梯度图像

和

注意力图A作为输入送入生成器的编解码器子网络，输出得到预测光照图，表达式如下：

A＝F_ATT(I)

式中

为预测光照图；

步骤3-4：将步骤3-3得到的预测光照图分别在横、纵向N等分为N²个相同大小的子图，将子图输入判别器，判别器的输出为各个子图是正确光照图的概率值，然后对所有子图是正确光照图的概率值加权平均，将加权平均计算结果作为当前输入图像是正确光照图的概率预估值；

步骤3-5：根据步骤3-4得到的概率预估值，按式(5)计算损失函数值，使用Adam最优化方法调整生成器和判别器参数；

步骤3-6：将训练数据集的样本输入多尺度注意力MSA-Net网络，重复步骤3-3、3-4、3-5进行迭代训练，当迭代次数达到设定次数或均方误差(MSE)小于设定阈值时停止训练，此时生成器就是最终求解得到的光照图分解器；

步骤3-7：将待处理的原始图像输入光照图分解器中，输出图像就是原始图像分解得到的光照图。

本发明的有益效果是：由于采用了本发明的一种基于多尺度注意力和标签损失的本质图像分析方法，首次将注意力机制引入到本质图像分析问题中，减少了参数数量,强化了注意力图的逐级细化过程，使得网络的生成结果细节更加清晰；并使反射图分析结果具有更好的局部颜色纹理一致性的效果，提升了重构图像的均方误差(MSE)与局部均方误差(LMSE)指标，有效改善本质分析困难区域的反射图像分解质量；在现有数据库的测试中，本发明所提算法的本质分解图像局部纹理一致性更好，量化评价指标更优。

附图说明

图1本发明基于多尺度注意力网络与标签损失的本质图像分析方法的框架图。

图2本发明生成器网络结构示意图。

图3本发明判别器网络结构示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明提出了一种基于多尺度注意力和标签损失的本质图像分析方法，包括以下步骤：

步骤1：构造多尺度注意力MSA-Net网络

多尺度注意力MSA-Net网络包括生成器和判别器；

步骤2-1：定义反射图注意力引导模板

步骤2-2：定义反射图标签损失函数

L_{gt_mse}＝L_MSE(G(I),R)

L_{gt_consistency}＝L_MSE(G(I),G(R))

L_gt＝L_{gt_mse}+L_{gt_consistency}+10L_{gt_perc} (2)

步骤2-3：定义反射图分解损失函数

f)生成对抗损失函数

其中

为预测反射图，

表示对

为任一相同切割位置的两个子图组成的子图对，Ω_R为所有

g)多尺度均方误差损失

其中

相同尺度大小的标签反射图，λ_i表示第i个尺度下的权重；

h)局部余弦相似度损失函数

其中，

为余弦距离计算式，

为局部余弦相似度损失函数；

i)注意力图均方差损失函数：

j)梯度均方差损失函数

并将原始图像、梯度图像

和

A＝F_ATT(I)

为预测反射图；

步骤3-1：定义光照图注意力引导模板

其中

和

步骤3-2：定义光照图分解损失函数

f)生成对抗损失函数

其中

为预测光照图，S为标签光照图，

表示对

为任一相同切割位置的两个子图组成的子图对，Ω_S为所有

g)多尺度均方误差损失

其中

相同尺度大小的标签光照图，λ_i表示第i个尺度下的权重；

h)局部余弦相似度损失函数

其中，

为余弦距离计算式，

为局部余弦相似度损失函数；

i)注意力图均方差损失函数：

其中M_sha为光照图分解任务对应的注意力引导模板；

j)梯度均方差损失函数

并将原始图像、梯度图像

和

A＝F_ATT(I)

式中

为预测光照图；

实施例：

如图1所示，本发明中的多尺度注意力MSA-Net网络结构基于生成对抗思想构建，分为生成器与判别器两个主要组成部分。

如图2所示，生成器部分由注意力子网络和编解码器子网络构成。注意力子网络基于LSTM组件构建，并采用3级LSTM级联的方式将注意力图逐步细化。相比于传统LSTM结构，卷积LSTM结构在传统LSTM内部的每个激活函数之前都添加了一个卷积操作，使LSTM更适用于二维图像数据的处理。由于图像多尺度信息能很好地反映图像不同频段上的特征，因此本发明注意力子网络基于图像的多尺度信息构建，在LSTM的输入层引入多尺度特征，使用不同感受野大小的卷积核分别提取图像的低频、中频、高频特征，按照从前往后的顺序依次将低中高频特征与上一级LSTM输出组合作为下一级LSTM的输入。在编解码器子网络部分，本发明基于基本Encode-decode网络框架设计，采用了两级上下采样结构，在每个卷积激活层间加入组归一化(Group Normalization)方法，有效解决了网络小批量训练时性能下降的问题。

如图3所示，判别器的作用是对于任意一张输入图像给出该图为对应类型正确本质图像的概率值。本发明判别器采用多子图判别(Patch-Discrimination)策略，将初始输入图像等分为多个大小相同的局部子图，然后对这组子图得到的所有判别概率的加权求和作为输入图像的判别结果，强化生成对抗网络重构图像高频信息的能力。

对于反射图注意力引导模板式(1)，先计算标签反射图与原始输入图像每个像素点灰度差值的均方差作为中间图像，然后取指定阈值将此中间图像二值化，并作为反射图注意力需要学习的引导图像，二值图像中的非0像素点表示的是网络在本质分析过程中原始图像里需要关注的核心区域像素点的位置。

对于光照图注意力引导模板式(4)，本发明以标签光照图与原始输入图像对应位置RGB向量的余弦相似度来进行光照图引导模板的定义。

对于两个模板阈值定义参数t₀、t₁的选取，其选取规则为针对不同场景类型的图像，取t₀∈[0,0.01]，t₁∈[0,cos5°]中能使是当前算法达到最佳本质分析性能的值，值越小表明对引导模板中有效点的要求越高。本实施例中取t₀＝0.01，t₁＝cos3°。

本发明中多尺度均方误差损失计算中网络共生成3个尺度图像，按尺度从小到大的顺序，其权重分别为{λ}＝(0.6,0.8,1.0)。

本发明注意力图均方差损失函数中的权重系数取{μ}＝(0.6,0.7,0.8)。

本实施例采用MPI-Sintel数据集进行实验，将整个数据集按照场景划分的方式，一半作为训练集，另一半作为测试集，分别训练MSA-Net网络得到反射图分解器和光照图分解器。然后便可将待处理的原始图像分别输入这两个分解器中得到预测反射图和预测光照图。对于MSA-Net网络的训练过程，首先输入训练集中的原始图像前向推导获得生成器的预测图像，接着将预测图像与标签本质图像按照多子图判别的方式分别送入判别器中进行概率估计。而后带入对应类型本质图像分解器的损失函数中计算损失值并分别对生成器和判别器进行优化。将训练数据集的样本连续输入MSA-Net网络进行迭代训练，终止条件设置为当迭代次数达到200000次或均方误差(MSE)小于1×10^-3时停止训练。网络经过多轮迭代优化后便能得到可分解指定类型本质图像的算法模型。

本方法与先前其他本质图像分析方法在MPI-Sintel场景划分方式下的量化指标对比结果如表1所示。

表1 MPI-Sintel场景划分方式下各方法量化指标对比结果