CN111429436A - 一种基于多尺度注意力和标签损失的本质图像分析方法 - Google Patents
一种基于多尺度注意力和标签损失的本质图像分析方法 Download PDFInfo
- Publication number
- CN111429436A CN111429436A CN202010233201.1A CN202010233201A CN111429436A CN 111429436 A CN111429436 A CN 111429436A CN 202010233201 A CN202010233201 A CN 202010233201A CN 111429436 A CN111429436 A CN 111429436A
- Authority
- CN
- China
- Prior art keywords
- image
- map
- attention
- loss function
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于多尺度注意力和标签损失的本质图像分析方法,将循环卷积注意力机制与对抗思想引入本质分解问题,构造了一个用于本质图像分析的多尺度注意力MSA‑Net网络,网络结构遵循生成对抗网络(GAN)的基本框架,包括生成器和判别器两部分。生成器由注意力子网络和编解码器子网络两部分组成,用于将图像分解为反射图和光照图。判别器的作用是对于任意一张输入图像给出该图为正确本质图像的概率。同时本发明还给出一种新的用于提升反射图分解效果的标签损失函数,该损失函数基于数据集中的标签图像(ground truth)构建,能使网络分解得到的反射图具有更优的局部纹理一致性效果和量化评价指标。
Description
技术领域
本发明属于图像处理领域,具体涉及一种本质图像分析方法。
背景技术
图像的理解与分析是计算机视觉领域重要的基础研究之一。在复杂的自然场景中,同一目标物可能会由于光照强度、阴影遮挡、姿态变化等诸多因素造成图像表面颜色断续、灰度突变等差异,从而导致同一场景中的同一物体观测效果差异巨大。若对图像进行直接处理,将大大增加图像分析与理解的难度,使算法的性能受到影响。解决这一问题,最好的处理方法是挖掘出图像中目标物的固有模式——本质特征,然后将物体本质特征送入后续算法进行处理。本质特征是指独立于周边环境的目标物固有特征,对目标物而言,其固有特征包括反射特性(颜色、纹理、材质等)和形状特性,这些固有特征不会随着周围环境的变化而发生改变。如果我们能将原始图像中目标物的形状、颜色、纹理等本质信息与环境信息分离,过滤掉外在环境对图像的影响,就可以对目标物进行更加精确的特征描述。本质图像分析作为本质特征提取的重要方法,是指将一幅原始图像分解为反射图和光照图两部分,其中反射图描述场景反射特性,光照图描述形状特性与光照情况。本质图像分析是计算机图形学的重要组成部分,对于提升图像翻译、图像分割、图像编辑、图像光照渲染等高级图像应用的鲁棒性作用显著。本质图像分析是由单幅图像重构得到两幅图像的过程,数学关系描述为原始图像I中每个像素点的灰度值都等于分解得到的反射图R和光照图S对应点灰度值的乘积,即I(x,y)=R(x,y)·S(x,y)。在无约束的情况下,理论上存在无穷组解满足该数学关系。因此在分解过程中得到精确的本质图像分析结果,就必须添加相关约束来避免反射图和光照图可能出现的二义性情况。
在传统本质图像分析方法中,Retinex相关理论是最为广泛应用的先验知识,它定性地给出原始图像中反射图信息与光照图信息的差别与联系。在Retinex理论的基础上,一类算法将图像深度、纹理一致性等其他辅助信息加入优化函数中,用以提升本质图像分析效果。同时基于本质特征的不变性,另有一类使用特征空间学习的方法,该类方法直接对不同光照下同一场景的一组图像进行分析,以实现本质特征的空间分布学习。然而上述两类方法的定性约束往往过于粗糙,分析结果中图像的高频细节往往不能令人满意,且传统特征约束在使用过程中也存在诸多的限制,往往只能对指定场景表现出较好的效果,模型泛化能力较差。
随着深度学习技术的发展,当前性能优良的本质图像分析方法均是基于卷积神经网络构建。相较于传统方法中对人为构造特征的粗糙硬分类,卷积神经网络可实现更加精细的特征分离。现有的本质图像分析网络遵循端到端的单流、双流编解码结构设计,试图直接实现从原始图像到本质图的空间映射。然而,由于反射图和光照图中的特征并不满足完全互斥的特性,网络往往不能达到理想的分离效果,出现反射图和光照图分离不彻底的情况,因而需要更加巧妙的网络结构和损失函数设计来进一步提升本质图像分析质量。
发明内容
为了克服现有技术的不足,本发明提出了一种基于多尺度注意力和标签损失的本质图像分析方法,将循环卷积注意力机制与对抗思想引入本质分解问题,构造了一个基于生成对抗网络的MSA-Net卷积神经网络。网络的输入为单幅待处理图像,目标输出为单幅本质图像(反射图或光照图)。该网络结构遵循生成对抗网络(GAN)的基本框架,包括生成器和判别器两部分。生成器由注意力子网络和编解码器子网络两部分组成,用于将图像分解为反射图和光照图。判别器的作用是对于任意一张输入图像给出该图为正确本质图像的概率。本发明构造的MSA-Net网络是一种单输入单输出的卷积神经网络,单个MSA-Net网络只能从待处理的原始图像得到其中一种本质图像(反射图或光照图),因此,要得到完整的本质图像分析结果,需要使用MSA-Net网络分别训练得到反射图分解器和光照图分解器。同时本发明还给出一种新的用于提升反射图分解效果的标签损失函数,该损失函数基于本质图像分析基本原理,利用标签本质图像进行构建,能使MSA-Net网络分解得到的反射图具有更优的量化评价指标和局部纹理一致性效果。
为达到上述目的,本发明提出了一种基于多尺度注意力和标签损失的本质图像分析方法,包括以下步骤:
步骤1:构造多尺度注意力MSA-Net网络
多尺度注意力MSA-Net网络包括生成器和判别器;
生成器包括注意力子网络和编解码器子网络,将图像分解为指定类型的本质图像,指定类型的本质图像为反射图或光照图;判别器为多级下采样子网络,在训练过程中给出判别器当前输入图像为指定类型的正确本质图像的概率,即当前输入图像与标签本质图像的近似程度;当概率值为1时,表明判别器认为当前输入图像是正确的本质分析结果,与标签本质图像完全相同;进行网络训练时,生成器的输出作为判别器的输入;
注意力子网络包括三级卷积LSTM网络,在三级卷积LSTM网络的输入层引入多尺度特征,使用三种设定的不同感受野大小的卷积核对原始图像做卷积运算,分别得到原始图像的低频、中频、高频特征;第一级LSTM的输入为原始图像低频特征和初始注意力图的组合,初始注意力图是与原始图像相同大小的全零矩阵,输出为初级注意力图;第二级LSTM的输入为原始图像中频特征和初级注意力图的组合,输出为中级注意力图;第三级LSTM的输入为原始图像高频特征和中级注意力图的组合,输出为最终得到的注意力图;编解码器子网络包括两级上下采样结构,输入为最终得到的注意力图、原始图像和原始图像的Sobel横纵向梯度图的组合,输出为指定类型的本质图像;
步骤2:训练针对反射图分解的多尺度注意力MSA-Net网络,得到反射图分解器;
步骤2-1:定义反射图注意力引导模板
式中x,y表示图像的像素点坐标,c表示通道,I(x,y,c)和R(x,y,c)分别为原始图像和标签反射图对应像素点灰度值,t0为阈值参数;
步骤2-2:定义反射图标签损失函数
标签损失函数Lgt包含标签均方差损失Lgt_mse、标签一致性损失函数Lgt_consistency和标签感知损失函数Lgt_perc,数学计算式为:
Lgt_mse=LMSE(G(I),R)
Lgt_consistency=LMSE(G(I),G(R))
Lgt=Lgt_mse+Lgt_consistency+10Lgt_perc (2)
式中I为原始图像,R为标签反射图,X,Y为任意两输入图像,H为图像高度,W为图像宽度,C为通道数,LMSE(X,Y)为输入变量X,Y间的均方误差,G(.)表示生成器的输出,Ψi(.)表示生成器中编解码器子网络第i尺度重构图像所对应的卷积层的特征图输入,Q为特征图个数;
步骤2-3:定义反射图分解损失函数
训练针对反射图分解的多尺度注意力MSA-Net网络所需的损失函数定义如下:
a)生成对抗损失函数
其中为预测反射图,表示对进行横纵向N等分切割后得到的N2个子图中的任一样本,r表示对R进行横纵向N等分切割后得到的N2个子图中的任一样本,为任一相同切割位置的两个子图组成的子图对,ΩR为所有子图对的集合,D(·)为判别器网络对应的函数关系,Ldisc为生成对抗意义下的判别器损失函数,Lgene为生成对抗意义下的生成器损失函数;
b)多尺度均方误差损失
c)局部余弦相似度损失函数
d)注意力图均方差损失函数:
其中μt为权重系数,At为第t步LSTM重构的注意力图,Mref为反射图注意力引导模板;
e)梯度均方差损失函数
综合上述所有损失函数,训练针对反射图分解的多尺度注意力MSA-Net网络所需的总损失函数如下式所示
式中G代表生成器,D代表判别器,Lg_ref(.)和Ld_ref(.)分别对应反射图在网络训练时的生成器总损失函数和判别器总损失函数,A为注意力图;
步骤2-4:采用具有像素级标签的本质图像数据集作为训练数据集,将待处理的原始图像I输入注意力子网络输出得到注意力图A,然后计算原始图像I的Sobel横纵向梯度图像并将原始图像、梯度图像和注意力图A作为输入送入生成器的编解码器子网络,输出得到预测反射图,表达式如下:
A=FATT(I)
步骤2-5:将步骤2-4得到的预测反射图分别在横、纵向N等分为N2个相同大小的子图,将子图输入判别器,判别器的输出为各个子图是正确反射图的概率值,然后对所有子图是正确反射图的概率值加权平均,将加权平均计算结果作为当前输入图像是正确反射图的概率预估值;
步骤2-6:根据得到的概率预估值,按式(3)计算损失函数值,使用Adam最优化方法调整生成器和判别器参数;
步骤2-7:将训练数据集的样本输入多尺度注意力MSA-Net网络,重复步骤2-4、2-5、2-6进行迭代训练,当迭代次数达到设定次数或均方误差(MSE)小于设定阈值时停止训练,此时生成器即是最终求解得到的反射图分解器;
步骤2-8:将待处理的原始图像输入反射图分解器中,输出图像就是原始图像分解得到的反射图;
步骤3:训练针对光照图分解的多尺度注意力MSA-Net网络,得到光照图分解器;
步骤3-1:定义光照图注意力引导模板
步骤3-2:定义光照图分解损失函数
训练针对光照图分解的多尺度注意力MSA-Net网络所需的损失函数定义如下:
a)生成对抗损失函数
其中为预测光照图,S为标签光照图,表示对进行横纵向N等分切割后得到的N2个子图中的任一样本,s表示对S进行横纵向N等分切割后得到的N2个子图中的任一样本,为任一相同切割位置的两个子图组成的子图对,ΩS为所有子图对的集合,D(·)为判别器网络对应的函数关系,Ldisc为生成对抗意义下的判别器损失函数,Lgene为生成对抗意义下的生成器损失函数;
b)多尺度均方误差损失
c)局部余弦相似度损失函数
d)注意力图均方差损失函数:
其中Msha为光照图分解任务对应的注意力引导模板;
e)梯度均方差损失函数
综合上述损失函数,训练针对光照图分解的多尺度注意力MSA-Net网络总损失函数如下式所示
式中Lg_sha(.)和Ld_sha(.)分别对应光照图在网络训练时的生成器总损失函数和判别器总损失函数;
步骤3-3:采用具有像素级标签的本质图像数据集作为训练数据集,将待处理的原始图像I输入注意力子网络,输出得到注意力图A,然后计算原始图像I的Sobel横纵向梯度图像并将原始图像、梯度图像和注意力图A作为输入送入生成器的编解码器子网络,输出得到预测光照图,表达式如下:
A=FATT(I)
步骤3-4:将步骤3-3得到的预测光照图分别在横、纵向N等分为N2个相同大小的子图,将子图输入判别器,判别器的输出为各个子图是正确光照图的概率值,然后对所有子图是正确光照图的概率值加权平均,将加权平均计算结果作为当前输入图像是正确光照图的概率预估值;
步骤3-5:根据步骤3-4得到的概率预估值,按式(5)计算损失函数值,使用Adam最优化方法调整生成器和判别器参数;
步骤3-6:将训练数据集的样本输入多尺度注意力MSA-Net网络,重复步骤3-3、3-4、3-5进行迭代训练,当迭代次数达到设定次数或均方误差(MSE)小于设定阈值时停止训练,此时生成器就是最终求解得到的光照图分解器;
步骤3-7:将待处理的原始图像输入光照图分解器中,输出图像就是原始图像分解得到的光照图。
本发明的有益效果是:由于采用了本发明的一种基于多尺度注意力和标签损失的本质图像分析方法,首次将注意力机制引入到本质图像分析问题中,减少了参数数量,强化了注意力图的逐级细化过程,使得网络的生成结果细节更加清晰;并使反射图分析结果具有更好的局部颜色纹理一致性的效果,提升了重构图像的均方误差(MSE)与局部均方误差(LMSE)指标,有效改善本质分析困难区域的反射图像分解质量;在现有数据库的测试中,本发明所提算法的本质分解图像局部纹理一致性更好,量化评价指标更优。
附图说明
图1本发明基于多尺度注意力网络与标签损失的本质图像分析方法的框架图。
图2本发明生成器网络结构示意图。
图3本发明判别器网络结构示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明提出了一种基于多尺度注意力和标签损失的本质图像分析方法,包括以下步骤:
步骤1:构造多尺度注意力MSA-Net网络
多尺度注意力MSA-Net网络包括生成器和判别器;
生成器包括注意力子网络和编解码器子网络,将图像分解为指定类型的本质图像,指定类型的本质图像为反射图或光照图;判别器为多级下采样子网络,在训练过程中给出判别器当前输入图像为指定类型的正确本质图像的概率,即当前输入图像与标签本质图像的近似程度;当概率值为1时,表明判别器认为当前输入图像是正确的本质分析结果,与标签本质图像完全相同;进行网络训练时,生成器的输出作为判别器的输入;
注意力子网络包括三级卷积LSTM网络,在三级卷积LSTM网络的输入层引入多尺度特征,使用三种设定的不同感受野大小的卷积核对原始图像做卷积运算,分别得到原始图像的低频、中频、高频特征;第一级LSTM的输入为原始图像低频特征和初始注意力图的组合,初始注意力图是与原始图像相同大小的全零矩阵,输出为初级注意力图;第二级LSTM的输入为原始图像中频特征和初级注意力图的组合,输出为中级注意力图;第三级LSTM的输入为原始图像高频特征和中级注意力图的组合,输出为最终得到的注意力图;编解码器子网络包括两级上下采样结构,输入为最终得到的注意力图、原始图像和原始图像的Sobel横纵向梯度图的组合,输出为指定类型的本质图像;
步骤2:训练针对反射图分解的多尺度注意力MSA-Net网络,得到反射图分解器;
步骤2-1:定义反射图注意力引导模板
式中x,y表示图像的像素点坐标,c表示通道,I(x,y,c)和R(x,y,c)分别为原始图像和标签反射图对应像素点灰度值,t0为阈值参数;
步骤2-2:定义反射图标签损失函数
标签损失函数Lgt包含标签均方差损失Lgt_mse、标签一致性损失函数Lgt_consistency和标签感知损失函数Lgt_perc,数学计算式为:
Lgt_mse=LMSE(G(I),R)
Lgt_consistency=LMSE(G(I),G(R))
Lgt=Lgt_mse+Lgt_consistency+10Lgt_perc (2)
式中I为原始图像,R为标签反射图,X,Y为任意两输入图像,H为图像高度,W为图像宽度,C为通道数,LMSE(X,Y)为输入变量X,Y间的均方误差,G(.)表示生成器的输出,Ψi(.)表示生成器中编解码器子网络第i尺度重构图像所对应的卷积层的特征图输入,Q为特征图个数;
步骤2-3:定义反射图分解损失函数
训练针对反射图分解的多尺度注意力MSA-Net网络所需的损失函数定义如下:
f)生成对抗损失函数
其中为预测反射图,表示对进行横纵向N等分切割后得到的N2个子图中的任一样本,r表示对R进行横纵向N等分切割后得到的N2个子图中的任一样本,为任一相同切割位置的两个子图组成的子图对,ΩR为所有子图对的集合,D(·)为判别器网络对应的函数关系,Ldisc为生成对抗意义下的判别器损失函数,Lgene为生成对抗意义下的生成器损失函数;
g)多尺度均方误差损失
h)局部余弦相似度损失函数
i)注意力图均方差损失函数:
其中μt为权重系数,At为第t步LSTM重构的注意力图,Mref为反射图注意力引导模板;
j)梯度均方差损失函数
综合上述所有损失函数,训练针对反射图分解的多尺度注意力MSA-Net网络所需的总损失函数如下式所示
式中G代表生成器,D代表判别器,Lg_ref(.)和Ld_ref(.)分别对应反射图在网络训练时的生成器总损失函数和判别器总损失函数,A为注意力图;
步骤2-4:采用具有像素级标签的本质图像数据集作为训练数据集,将待处理的原始图像I输入注意力子网络输出得到注意力图A,然后计算原始图像I的Sobel横纵向梯度图像并将原始图像、梯度图像和注意力图A作为输入送入生成器的编解码器子网络,输出得到预测反射图,表达式如下:
A=FATT(I)
步骤2-5:将步骤2-4得到的预测反射图分别在横、纵向N等分为N2个相同大小的子图,将子图输入判别器,判别器的输出为各个子图是正确反射图的概率值,然后对所有子图是正确反射图的概率值加权平均,将加权平均计算结果作为当前输入图像是正确反射图的概率预估值;
步骤2-6:根据得到的概率预估值,按式(3)计算损失函数值,使用Adam最优化方法调整生成器和判别器参数;
步骤2-7:将训练数据集的样本输入多尺度注意力MSA-Net网络,重复步骤2-4、2-5、2-6进行迭代训练,当迭代次数达到设定次数或均方误差(MSE)小于设定阈值时停止训练,此时生成器即是最终求解得到的反射图分解器;
步骤2-8:将待处理的原始图像输入反射图分解器中,输出图像就是原始图像分解得到的反射图;
步骤3:训练针对光照图分解的多尺度注意力MSA-Net网络,得到光照图分解器;
步骤3-1:定义光照图注意力引导模板
步骤3-2:定义光照图分解损失函数
训练针对光照图分解的多尺度注意力MSA-Net网络所需的损失函数定义如下:
f)生成对抗损失函数
其中为预测光照图,S为标签光照图,表示对进行横纵向N等分切割后得到的N2个子图中的任一样本,s表示对S进行横纵向N等分切割后得到的N2个子图中的任一样本,为任一相同切割位置的两个子图组成的子图对,ΩS为所有子图对的集合,D(·)为判别器网络对应的函数关系,Ldisc为生成对抗意义下的判别器损失函数,Lgene为生成对抗意义下的生成器损失函数;
g)多尺度均方误差损失
h)局部余弦相似度损失函数
i)注意力图均方差损失函数:
其中Msha为光照图分解任务对应的注意力引导模板;
j)梯度均方差损失函数
综合上述损失函数,训练针对光照图分解的多尺度注意力MSA-Net网络总损失函数如下式所示
式中Lg_sha(.)和Ld_sha(.)分别对应光照图在网络训练时的生成器总损失函数和判别器总损失函数;
步骤3-3:采用具有像素级标签的本质图像数据集作为训练数据集,将待处理的原始图像I输入注意力子网络,输出得到注意力图A,然后计算原始图像I的Sobel横纵向梯度图像并将原始图像、梯度图像和注意力图A作为输入送入生成器的编解码器子网络,输出得到预测光照图,表达式如下:
A=FATT(I)
步骤3-4:将步骤3-3得到的预测光照图分别在横、纵向N等分为N2个相同大小的子图,将子图输入判别器,判别器的输出为各个子图是正确光照图的概率值,然后对所有子图是正确光照图的概率值加权平均,将加权平均计算结果作为当前输入图像是正确光照图的概率预估值;
步骤3-5:根据步骤3-4得到的概率预估值,按式(5)计算损失函数值,使用Adam最优化方法调整生成器和判别器参数;
步骤3-6:将训练数据集的样本输入多尺度注意力MSA-Net网络,重复步骤3-3、3-4、3-5进行迭代训练,当迭代次数达到设定次数或均方误差(MSE)小于设定阈值时停止训练,此时生成器就是最终求解得到的光照图分解器;
步骤3-7:将待处理的原始图像输入光照图分解器中,输出图像就是原始图像分解得到的光照图。
实施例:
如图1所示,本发明中的多尺度注意力MSA-Net网络结构基于生成对抗思想构建,分为生成器与判别器两个主要组成部分。
如图2所示,生成器部分由注意力子网络和编解码器子网络构成。注意力子网络基于LSTM组件构建,并采用3级LSTM级联的方式将注意力图逐步细化。相比于传统LSTM结构,卷积LSTM结构在传统LSTM内部的每个激活函数之前都添加了一个卷积操作,使LSTM更适用于二维图像数据的处理。由于图像多尺度信息能很好地反映图像不同频段上的特征,因此本发明注意力子网络基于图像的多尺度信息构建,在LSTM的输入层引入多尺度特征,使用不同感受野大小的卷积核分别提取图像的低频、中频、高频特征,按照从前往后的顺序依次将低中高频特征与上一级LSTM输出组合作为下一级LSTM的输入。在编解码器子网络部分,本发明基于基本Encode-decode网络框架设计,采用了两级上下采样结构,在每个卷积激活层间加入组归一化(Group Normalization)方法,有效解决了网络小批量训练时性能下降的问题。
如图3所示,判别器的作用是对于任意一张输入图像给出该图为对应类型正确本质图像的概率值。本发明判别器采用多子图判别(Patch-Discrimination)策略,将初始输入图像等分为多个大小相同的局部子图,然后对这组子图得到的所有判别概率的加权求和作为输入图像的判别结果,强化生成对抗网络重构图像高频信息的能力。
对于反射图注意力引导模板式(1),先计算标签反射图与原始输入图像每个像素点灰度差值的均方差作为中间图像,然后取指定阈值将此中间图像二值化,并作为反射图注意力需要学习的引导图像,二值图像中的非0像素点表示的是网络在本质分析过程中原始图像里需要关注的核心区域像素点的位置。
对于光照图注意力引导模板式(4),本发明以标签光照图与原始输入图像对应位置RGB向量的余弦相似度来进行光照图引导模板的定义。
对于两个模板阈值定义参数t0、t1的选取,其选取规则为针对不同场景类型的图像,取t0∈[0,0.01],t1∈[0,cos5°]中能使是当前算法达到最佳本质分析性能的值,值越小表明对引导模板中有效点的要求越高。本实施例中取t0=0.01,t1=cos3°。
本发明中多尺度均方误差损失计算中网络共生成3个尺度图像,按尺度从小到大的顺序,其权重分别为{λ}=(0.6,0.8,1.0)。
本发明注意力图均方差损失函数中的权重系数取{μ}=(0.6,0.7,0.8)。
本实施例采用MPI-Sintel数据集进行实验,将整个数据集按照场景划分的方式,一半作为训练集,另一半作为测试集,分别训练MSA-Net网络得到反射图分解器和光照图分解器。然后便可将待处理的原始图像分别输入这两个分解器中得到预测反射图和预测光照图。对于MSA-Net网络的训练过程,首先输入训练集中的原始图像前向推导获得生成器的预测图像,接着将预测图像与标签本质图像按照多子图判别的方式分别送入判别器中进行概率估计。而后带入对应类型本质图像分解器的损失函数中计算损失值并分别对生成器和判别器进行优化。将训练数据集的样本连续输入MSA-Net网络进行迭代训练,终止条件设置为当迭代次数达到200000次或均方误差(MSE)小于1×10-3时停止训练。网络经过多轮迭代优化后便能得到可分解指定类型本质图像的算法模型。
本方法与先前其他本质图像分析方法在MPI-Sintel场景划分方式下的量化指标对比结果如表1所示。
表1 MPI-Sintel场景划分方式下各方法量化指标对比结果
Claims (1)
1.一种基于多尺度注意力和标签损失的本质图像分析方法,其特征在于,包括以下步骤:
步骤1:构造多尺度注意力MSA-Net网络
多尺度注意力MSA-Net网络包括生成器和判别器;
生成器包括注意力子网络和编解码器子网络,将图像分解为指定类型的本质图像,指定类型的本质图像为反射图或光照图;判别器为多级下采样子网络,在训练过程中给出判别器当前输入图像为指定类型的正确本质图像的概率,即当前输入图像与标签本质图像的近似程度;当概率值为1时,表明判别器认为当前输入图像是正确的本质分析结果,与标签本质图像完全相同;进行网络训练时,生成器的输出作为判别器的输入;
注意力子网络包括三级卷积LSTM网络,在三级卷积LSTM网络的输入层引入多尺度特征,使用三种设定的不同感受野大小的卷积核对原始图像做卷积运算,分别得到原始图像的低频、中频、高频特征;第一级LSTM的输入为原始图像低频特征和初始注意力图的组合,初始注意力图是与原始图像相同大小的全零矩阵,输出为初级注意力图;第二级LSTM的输入为原始图像中频特征和初级注意力图的组合,输出为中级注意力图;第三级LSTM的输入为原始图像高频特征和中级注意力图的组合,输出为最终得到的注意力图;编解码器子网络包括两级上下采样结构,输入为最终得到的注意力图、原始图像和原始图像的Sobel横纵向梯度图的组合,输出为指定类型的本质图像;
步骤2:训练针对反射图分解的多尺度注意力MSA-Net网络,得到反射图分解器;
步骤2-1:定义反射图注意力引导模板
式中x,y表示图像的像素点坐标,c表示通道,I(x,y,c)和R(x,y,c)分别为原始图像和标签反射图对应像素点灰度值,t0为阈值参数;
步骤2-2:定义反射图标签损失函数
标签损失函数Lgt包含标签均方差损失Lgt_mse、标签一致性损失函数Lgt_consistency和标签感知损失函数Lgt_perc,数学计算式为:
Lgt_mse=LMSE(G(I),R)
Lgt_consistency=LMSE(G(I),G(R))
Lgt=Lgt_mse+Lgt_consistency+10Lgt_perc (2)
式中I为原始图像,R为标签反射图,X,Y为任意两输入图像,H为图像高度,W为图像宽度,C为通道数,LMSE(X,Y)为输入变量X,Y间的均方误差,G(.)表示生成器的输出,Ψi(.)表示生成器中编解码器子网络第i尺度重构图像所对应的卷积层的特征图输入,Q为特征图个数;
步骤2-3:定义反射图分解损失函数
训练针对反射图分解的多尺度注意力MSA-Net网络所需的损失函数定义如下:
a)生成对抗损失函数
其中为预测反射图,表示对进行横纵向N等分切割后得到的N2个子图中的任一样本,r表示对R进行横纵向N等分切割后得到的N2个子图中的任一样本,为任一相同切割位置的两个子图组成的子图对,ΩR为所有子图对的集合,D(·)为判别器网络对应的函数关系,Ldisc为生成对抗意义下的判别器损失函数,Lgene为生成对抗意义下的生成器损失函数;
b)多尺度均方误差损失
c)局部余弦相似度损失函数
d)注意力图均方差损失函数:
其中μt为权重系数,At为第t步LSTM重构的注意力图,Mref为反射图注意力引导模板;
e)梯度均方差损失函数
综合上述所有损失函数,训练针对反射图分解的多尺度注意力MSA-Net网络所需的总损失函数如下式所示
式中G代表生成器,D代表判别器,Lg_ref(.)和Ld_ref(.)分别对应反射图在网络训练时的生成器总损失函数和判别器总损失函数,A为注意力图;
步骤2-4:采用具有像素级标签的本质图像数据集作为训练数据集,将待处理的原始图像I输入注意力子网络输出得到注意力图A,然后计算原始图像I的Sobel横纵向梯度图像并将原始图像、梯度图像和注意力图A作为输入送入生成器的编解码器子网络,输出得到预测反射图,表达如下式:
A=FATT(I)
步骤2-5:将步骤2-4得到的预测反射图分别在横、纵向N等分为N2个相同大小的子图,将子图输入判别器,判别器的输出为各个子图是正确反射图的概率值,然后对所有子图是正确反射图的概率值加权平均,将加权平均计算结果作为当前输入图像是正确反射图的概率预估值;
步骤2-6:根据得到的概率预估值,按式(3)计算损失函数值,使用Adam最优化方法调整生成器和判别器参数;
步骤2-7:将训练数据集的样本输入多尺度注意力MSA-Net网络,重复步骤2-4、2-5、2-6进行迭代训练,当迭代次数达到设定次数或均方误差(MSE)小于设定阈值时停止训练,此时生成器即是最终求解得到的反射图分解器;
步骤2-8:将待处理的原始图像输入反射图分解器中,输出图像就是原始图像分解得到的反射图;
步骤3:训练针对光照图分解的多尺度注意力MSA-Net网络,得到光照图分解器;
步骤3-1:定义光照图注意力引导模板
步骤3-2:定义光照图分解损失函数
训练针对光照图分解的多尺度注意力MSA-Net网络所需的损失函数定义如下:
a)生成对抗损失函数
其中为预测光照图,S为标签光照图,表示对进行横纵向N等分切割后得到的N2个子图中的任一样本,s表示对S进行横纵向N等分切割后得到的N2个子图中的任一样本,为任一相同切割位置的两个子图组成的子图对,ΩS为所有子图对的集合,D(·)为判别器网络对应的函数关系,Ldisc为生成对抗意义下的判别器损失函数,Lgene为生成对抗意义下的生成器损失函数;
b)多尺度均方误差损失
c)局部余弦相似度损失函数
d)注意力图均方差损失函数:
其中Msha为光照图分解任务对应的注意力引导模板;
e)梯度均方差损失函数
综合上述损失函数,训练针对光照图分解的多尺度注意力MSA-Net网络总损失函数如下式所示
式中Lg_sha(.)和Ld_sha(.)分别对应光照图在网络训练时的生成器总损失函数和判别器总损失函数;
步骤3-3:采用具有像素级标签的本质图像数据集作为训练数据集,将待处理的原始图像I输入注意力子网络,输出得到注意力图A,然后计算原始图像I的Sobel横纵向梯度图像并将原始图像、梯度图像和注意力图A作为输入送入生成器的编解码器子网络,输出得到预测光照图,表达式如下:
A=FATT(I)
步骤3-4:将步骤3-3得到的预测光照图分别在横、纵向N等分为N2个相同大小的子图,将子图输入判别器,判别器的输出为各个子图是标签光照图的概率值,然后对所有子图是标签光照图的概率值加权平均,将加权平均计算结果作为当前输入图像是标签光照图的概率预估值;
步骤3-5:根据步骤3-4得到的概率预估值,按式(5)计算损失函数值,使用Adam最优化方法调整生成器和判别器参数;
步骤3-6:将训练数据集的样本输入多尺度注意力MSA-Net网络,重复步骤3-3、3-4、3-5进行迭代训练,当迭代次数达到设定次数或均方误差(MSE)小于设定阈值时停止训练,此时生成器就是最终求解得到的光照图分解器;
步骤3-7:将待处理的原始图像输入光照图分解器中,输出图像就是原始图像分解得到的光照图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010233201.1A CN111429436B (zh) | 2020-03-29 | 2020-03-29 | 一种基于多尺度注意力和标签损失的本质图像分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010233201.1A CN111429436B (zh) | 2020-03-29 | 2020-03-29 | 一种基于多尺度注意力和标签损失的本质图像分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111429436A true CN111429436A (zh) | 2020-07-17 |
CN111429436B CN111429436B (zh) | 2022-03-15 |
Family
ID=71549182
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010233201.1A Active CN111429436B (zh) | 2020-03-29 | 2020-03-29 | 一种基于多尺度注意力和标签损失的本质图像分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111429436B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112215803A (zh) * | 2020-09-15 | 2021-01-12 | 昆明理工大学 | 一种基于改进生成对抗网络的铝板电涡流检测图像缺陷分割方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109360155A (zh) * | 2018-08-17 | 2019-02-19 | 上海交通大学 | 基于多尺度特征融合的单帧图像去雨方法 |
CN109522857A (zh) * | 2018-11-26 | 2019-03-26 | 山东大学 | 一种基于生成式对抗网络模型的人数估计方法 |
CN109815893A (zh) * | 2019-01-23 | 2019-05-28 | 中山大学 | 基于循环生成对抗网络的彩色人脸图像光照域归一化的方法 |
CN110414377A (zh) * | 2019-07-09 | 2019-11-05 | 武汉科技大学 | 一种基于尺度注意力网络的遥感图像场景分类方法 |
CN110706152A (zh) * | 2019-09-25 | 2020-01-17 | 中山大学 | 基于生成对抗网络的人脸光照迁移方法 |
CN110728633A (zh) * | 2019-09-06 | 2020-01-24 | 上海交通大学 | 多曝光度高动态范围反色调映射模型构建方法及装置 |
CN110807749A (zh) * | 2019-11-06 | 2020-02-18 | 广西师范大学 | 基于密集多尺度生成对抗网络的单幅图像去雨滴方法 |
CN110889813A (zh) * | 2019-11-15 | 2020-03-17 | 安徽大学 | 基于红外信息的低光图像增强方法 |
CN110929080A (zh) * | 2019-11-26 | 2020-03-27 | 西安电子科技大学 | 基于注意力和生成对抗网络的光学遥感图像检索方法 |
-
2020
- 2020-03-29 CN CN202010233201.1A patent/CN111429436B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109360155A (zh) * | 2018-08-17 | 2019-02-19 | 上海交通大学 | 基于多尺度特征融合的单帧图像去雨方法 |
CN109522857A (zh) * | 2018-11-26 | 2019-03-26 | 山东大学 | 一种基于生成式对抗网络模型的人数估计方法 |
CN109815893A (zh) * | 2019-01-23 | 2019-05-28 | 中山大学 | 基于循环生成对抗网络的彩色人脸图像光照域归一化的方法 |
CN110414377A (zh) * | 2019-07-09 | 2019-11-05 | 武汉科技大学 | 一种基于尺度注意力网络的遥感图像场景分类方法 |
CN110728633A (zh) * | 2019-09-06 | 2020-01-24 | 上海交通大学 | 多曝光度高动态范围反色调映射模型构建方法及装置 |
CN110706152A (zh) * | 2019-09-25 | 2020-01-17 | 中山大学 | 基于生成对抗网络的人脸光照迁移方法 |
CN110807749A (zh) * | 2019-11-06 | 2020-02-18 | 广西师范大学 | 基于密集多尺度生成对抗网络的单幅图像去雨滴方法 |
CN110889813A (zh) * | 2019-11-15 | 2020-03-17 | 安徽大学 | 基于红外信息的低光图像增强方法 |
CN110929080A (zh) * | 2019-11-26 | 2020-03-27 | 西安电子科技大学 | 基于注意力和生成对抗网络的光学遥感图像检索方法 |
Non-Patent Citations (8)
Title |
---|
RUI QIAN等: "Attentive Generative Adversarial Network for Raindrop Removal from A Single Image", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
WEI-CHIU MA等: "Single Image Intrinsic Decomposition Without a Single Intrinsic Image", 《ECCV2018》 * |
YINGLONG WANG等: "Deep Image Deraining Via Intrinsic Rainy Image Priors and Multi-scale Auxiliary Decoding", 《ARXIV》 * |
YUPENG MA等: "Intrinsic Image Decomposition: A Comprehensive Review", 《IMAGE AND GRAPHICS》 * |
丁守鸿: "基于结构分析的可视媒体智能处理技术研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
刘卓: "基于生成对抗网络的红外图像白天色彩化算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
孟莹莹: "基于GAN的低质视频增强与目标检测算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
许强: "基于视觉注意机制的穿墙成像雷达目标检测方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112215803A (zh) * | 2020-09-15 | 2021-01-12 | 昆明理工大学 | 一种基于改进生成对抗网络的铝板电涡流检测图像缺陷分割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111429436B (zh) | 2022-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Hf-neus: Improved surface reconstruction using high-frequency details | |
Gopalakrishnan et al. | Deep convolutional neural networks with transfer learning for computer vision-based data-driven pavement distress detection | |
Borsoi et al. | A fast multiscale spatial regularization for sparse hyperspectral unmixing | |
CN111612807B (zh) | 一种基于尺度和边缘信息的小目标图像分割方法 | |
CN116258719B (zh) | 基于多模态数据融合的浮选泡沫图像分割方法和装置 | |
CN106778821B (zh) | 基于slic和改进的cnn的极化sar图像分类方法 | |
Lei et al. | Multiscale superpixel segmentation with deep features for change detection | |
CN113449594B (zh) | 一种多层网络组合的遥感影像地类语义分割与面积计算方法 | |
CN109712150A (zh) | 基于稀疏表示的光学微波图像融合重建方法和装置 | |
CN113838064B (zh) | 一种基于分支gan使用多时相遥感数据的云去除方法 | |
Maryan et al. | Machine learning applications in detecting rip channels from images | |
CN107403434A (zh) | 基于两阶段聚类的sar图像语义分割方法 | |
CN114694038A (zh) | 基于深度学习的高分辨率遥感影像分类方法及系统 | |
CN114332473A (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
Bounsaythip et al. | Genetic algorithms in image processing-a review | |
CN115565043A (zh) | 结合多表征特征以及目标预测法进行目标检测的方法 | |
Tangsakul et al. | Single image haze removal using deep cellular automata learning | |
Love et al. | Topological deep learning | |
Ju et al. | A novel fully convolutional network based on marker-controlled watershed segmentation algorithm for industrial soot robot target segmentation | |
CN111429436B (zh) | 一种基于多尺度注意力和标签损失的本质图像分析方法 | |
CN116109656A (zh) | 一种基于无监督学习的交互式图像分割方法 | |
Jewsbury et al. | A quadtree image representation for computational pathology | |
CN115205624A (zh) | 一种跨维度注意力聚合的云雪辩识方法、设备及存储介质 | |
CN114898464A (zh) | 一种基于机器视觉的轻量化精准手指语智能算法识别方法 | |
CN114764746A (zh) | 激光雷达的超分辨率方法和装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |