CN108875935B

CN108875935B - 基于生成对抗网络的自然图像目标材质视觉特征映射方法

Info

Publication number: CN108875935B
Application number: CN201810596146.5A
Authority: CN
Inventors: 李策; 贾盛泽; 万玉奇; 张栋; 刘昊; 张亚超; 蓝天
Original assignee: Lanzhou University of Technology
Current assignee: Lanzhou University of Technology
Priority date: 2018-06-11
Filing date: 2018-06-11
Publication date: 2020-08-11
Anticipated expiration: 2038-06-11
Also published as: CN108875935A

Abstract

本发明提出了基于生成对抗网络的自然图像目标材质视觉特征映射方法，使用深度无监督的学习方式，对无标注自然图像目标的材质视觉特征进行学习，得到对图像目标材质视觉特征空间的高阶表达，并学习建立源域图像与目标域图像间关于材质视觉特征空间的映射网络，将源域图像的材质视觉特征映射到目标域的材质视觉特征上，使得目标域图像具有源域图像的材质视觉特征信息，最终获得材质视觉特征映射后的图像。本发明提出了从无标注自然图像中学习得到材质视觉特征信息，进行不同图像间材质视觉特征映射的任务目标，并针对任务目标提出了相应的解决方案，获得了良好的结果，具有重要的理论意义和实践价值。

Description

基于生成对抗网络的自然图像目标材质视觉特征映射方法

技术领域

本发明涉及图像处理和深度学习技术、计算机视觉与人工智能领域，具体涉及基于生成对抗网络的自然图像目标材质视觉特征映射方法。

背景技术

随着计算机技术的不断发展，基于特征的映射变化方法已成为了热门的研究方向，这类方法通过映射将一个空间中的一些特征变换到其他的空间特征中去，但其中对于材质视觉特征的学习以及其映射方法的研究较少。材质视觉特征是一种基于视觉机制的高阶综合特征，描述了图像或图像区域对应目标的材质特征信息，从材质视觉特征中可以获取表征图像目标材质特征的信息，并能从中获取目标的材质属性及其性质。基于以上分析，本发明提出了基于生成对抗网络的自然图像目标材质视觉特征映射方法，采用深度无监督的学习方式，对无标注自然图像目标的材质视觉特征进行学习，得到对图像目标材质视觉特征空间的高阶表达，建立源域图像与目标域图像间关于材质视觉特征空间的映射网络，将源域图像的材质视觉特征映射到目标域的材质视觉特征上，使得目标域图像具有源域图像的材质视觉特征信息，获得材质视觉特征映射后的图像，具有重要的理论意义和实践价值。

发明内容

本发明提出了基于生成对抗网络的自然图像目标材质视觉特征映射方法，使用深度无监督的学习方式，对无标注自然图像目标的材质视觉特征进行学习，得到对图像目标材质视觉特征空间的高阶表达，建立源域图像与目标域图像间关于材质视觉特征空间的映射网络，将源域图像的材质视觉特征映射到目标域的材质视觉特征上，使得目标域图像具有源域图像的材质视觉特征信息，获得材质视觉特征映射后的图像。

本发明的目的是通过下述技术方案来实现的。

基于生成对抗网络的自然图像目标材质视觉特征映射方法，主要包括以下步骤：

步骤1，数据样本集的建立：

采集具有不同材质视觉特征信息的自然图像，建立数据样本集，划分为训练集与测试集；

步骤2，反射层图像的获取：

根据Retinex理论，建立光照——反射模型，将人眼观测到的原始图像认为是光照层图像和反射层图像的乘积，进行光照层信息估计，从原始图像中获取更能表征材质视觉本质特征的反射层图像；

步骤3，目标图像的获取：对反射层图像进行前景背景分割，获取目标图像；

步骤4，建立关于材质视觉特征空间的映射网络：利用深度多层卷积的方式对材质特征进行无监督学习，得到对图像目标材质视觉特征空间的高阶表达，建立源域图像与目标域图像间关于材质视觉特征空间的映射网络；

步骤5，采用上述材质视觉特征空间映射网络对自然图像目标进行材质视觉特征映射，获得图像目标材质视觉特征映射后的图像。

优选地，步骤1进一步包括，提出使用自然场景中无标注图像作为原始数据，从网络中采集自然场景中，具有不同材质视觉特征的图像，建立数据样本集，划分为训练集与测试集。

优选地，步骤2进一步包括，建立光照——反射模型，从原始图像中获取反射层图像，避免光照层信息在材质视觉特征映射变化过程中的干扰。

具体通过下述步骤实现：

(2a)建立光照——反射模型：

I(x,y)＝L(x,y)R(x,y) (1)

转换为对数域描述：

log(I(x,y))＝log(L(x,y))+log(R(x,y)) (2)

式中，I(x,y)为在位置(x,y)的图像像素值，L(x,y)表示光照层信息，R(x,y)表示图像中表征材质视觉本质特征的反射层图像信息；

(2b)用双边滤波模型对原图像的光照层信息进行计算：

式中，BF_p(g)为双边滤波模型，I为滤波图像，σ_s和σ_r为决定滤波尺寸大小的参数，I_p为p点像素值，I_q为q点像素值，Ω表示整幅图像的范围，G_σ(x)为高斯核函数且σ表示高斯函数的方差，W是归一化权重：

参数

和

定义了双边滤波的尺寸大小，

确定了与图像像素点位置相关的权重，

确定了与图像像素值大小相关的权重；

(2c)对数据样本集中的图像，完成从RGB到HSV的颜色空间变换，得到色度、亮度以及饱和度特征分量，在亮度特征分量中依据上述过程计算光照层信息，获取反射层图像。

优选地，步骤3进一步包括：

(3a)对步骤2中获取的反射层图像进行前景背景分割，获取目标图像，用于所构建的深度学习网络结构进行训练学习；

(3b)将获取到的目标图像进行随机裁剪和缩放，对训练集进行有效地扩充。

优选地，步骤4进一步包括下述步骤：

(4a)构造深度判别网络，包括1个输入层，4个卷积层、1个全连接层和1个输出层，连接方式为：输入层→卷积层1→卷积层2→卷积层3→卷积层4→全连接层→输出层；所有卷积层除第一层外，均采用批正则化处理，并进行LeakyReLU激活函数操作，最后将全连接层连接到输出层，通过激活函数Sigmoid进行分类判别；

其中，LeakyReLU函数的表现形式如式(5)所示：

f(x)＝max(0,x)+negative_slope×min(0,x) (5)

Sigmoid函数的表现形式如式(6)所示：

(4b)构造深度生成网络，整体结构可分为编码部分、映射部分、解码部分三个组成结构，具体包括1个输入层，4个卷积层、2个反卷积层、9个残差网络块；

连接方式为：输入层→卷积层1→卷积层2→卷积层3→残差网络块1→残差网络块2→残差网络块3→残差网络块4→残差网络块5→残差网络块6→残差网络块7→残差网络块8→残差网络块9→反卷积层1→反卷积层2→卷积层4→输出层；其中，输入层为样本集中经处理后的反射图像，所有的卷积层和反卷积层均采用BatchNorm处理，并进行LeakyReLU激活函数操作；

输入层将获取的反射图像送入生成网络中，经过编码，映射操作获得材质视觉特征的高阶表达并完成特征信息的映射，解码后输出层获得材质视觉特征映射后的图像；

(4c)在训练循环生成对抗网络时，为指导网络的学习，结合网络结构的特殊性以及图像目标材质视觉特征的独特性，保障网络输入量与输出量的映射关系，需要加入先验约束条件，设定目标的损失函数：

L(G,F,D_x,D_Y)＝α·(L_GAN(G,D_Y,X,Y)+L′_GAN(F,D_X,Y,X))+β·L_cyc(G,F)+γ·L_perceptual (7)

式中，L_GAN(G,D_Y,X,Y)和L′_GAN(F,D_X,Y,X)分别表示生成网络G:X→Y及其判别网络D_Y和生成网络F:Y→X及其判别网络D_X，在传统生成对抗网络下的损失函数：

和

分别表示源域图像x和目标域图像y损失的正态分布,G(x)和F(y)分别表示生成网络G和F所生成的图像；

L_cyc(G,F)表示循环生成对抗网络结构中前向循环过程x→G(x)→F(G(x))≈x的损失和后向循环y→F(y)→G(F(y))≈y的损失：

α、β、γ分别表示三项损失所占的权重，L_perceptual(·)为感知损失。

优选地，步骤(4a)中，输入层为生成网络生成图像和真实图像，第一层卷积选用4×4×64的卷积核，第二层卷积选用4×4×128的卷积核，第三层卷积选用4×4×256的卷积核，第四层卷积选用4×4×512的卷积核。

优选地，步骤(4b)中，第一层卷积选用7×7×32的卷积核，第二层卷积选用3×3×64的卷积核，第三层卷积选用3×3×128的卷积核，映射部分所使用的残差网络块，均为包含两个3×3卷积层的残差网络块，第一层反卷积选用3×3×64的卷积核，第二层反卷积选用3×3×32的卷积核，第四层卷积选用7×7×3的卷积核。

本发明的有益效果在于：

通过采用深度无监督学习方式，对无标注自然图像目标的材质视觉特征进行学习，得到对图像目标材质视觉特征空间的高阶表达，建立源域图像与目标域图像间关于材质视觉特征空间的映射网络，将源域图像的材质视觉特征映射到目标域的材质视觉特征上，使得目标域图像具有源域图像的材质视觉特征信息。本发明方法在个性化视觉设计，辅助文物修复等领域中拥有广泛的应用前景。

附图说明

图1为本发明的整体框架；

图2为本发明深度判别神经网络结构图；

图3为本发明深度生成神经网络结构图；

图4(a)、4(b)分别为本发明前向和后向循环生成损失结构示意图；

图5(a)、5(b)分别为本发明不同最终材质视觉特征映射效果图。

具体实施方式

下面结合附图及具体实施方式进一步说明本发明，但此种通过附图描述的实施例是示例性的，仅用于解释本发明，不能限制本发明权力范围。

图1给出了基于生成对抗网络的自然图像目标材质视觉特征映射方法的整体框架，其中实线表示前向循环生成过程:X→Y,虚线表示后向循环生成过程:Y→X,点状线表示参数更新。

本文发明了基于生成对抗网络的自然图像目标材质视觉特征映射方法，其主要步骤介绍如下：

1、数据样本集的建立

从网络中采集自然场景中，具有不同材质视觉特征信息的图像，建立数据样本集，划分为训练集与测试集。如图1中①所示，在训练集中，将进行材质视觉特征映射的两类图像样本集划分为源域X与目标域Y，在训练过程中，X域与Y域图像在进行步骤4前均进行步骤2和步骤3的操作。在测试集中同样将测试样本图像划分为X域与Y域图像，分别进行测试。

使用材质视觉特征的概念来表征图像中目标材质的视觉特征信息。材质视觉特征是基于视觉机制的高阶综合特征，描述了图像或图像区域对应目标的材质信息，从材质视觉特征中可以获取表征图像目标材质特征的信息，并能从中获取目标的材质属性及其性质。

2、反射层图像的获取

根据Retinex理论，建立光照——反射模型，将人眼观测到的原始图像认为是光照层图像和反射层图像的乘积，进行光照层信息估计，从原始图像中获取更能表征材质视觉本质特征的反射层图像，具体包括下述步骤：

(2a)建立光照——反射模型，进行光照层信息估计，从原始图像中获取更能表征材质视觉本质特征的反射层图像。将人眼观测到的原始图像认为是光照层图像和反射层图像的乘积：描述为图像像素值、光照层信息和反射层图像三者间的关系：

I(x,y)＝L(x,y)R(x,y) (1)

转换为对数域描述：

log(I(x,y))＝log(L(x,y))+log(R(x,y)) (2)

式中，I(x,y)为在位置(x,y)的图像像素值；L(x,y)表示光照层信息；R(x,y)表示图像中表征材质视觉本质特征的反射层图像信息；

(2b)用双边滤波模型对原图像的光照层信息进行计算：

参数

和

定义了双边滤波的尺寸大小，

确定了与图像像素点位置相关的权重，

确定了与图像像素值大小相关的权重；

(2c)对数据样本集中的图像，完成从RGB到HSV的颜色空间变换，得到色度、亮度以及饱和度特征分量，在亮度特征分量中依据上述过程计算光照层信息，如图1中②所示，获取反射层图像。

3、目标图像的获取

对反射层图像进行前景背景分割，获取目标图像，作为整个深度学习网络的训练输入样本，避免背景信息相似性在材质视觉特征映射变化过程中的干扰。具体包括下述步骤：

(3a)对步骤2中获取的反射层图像进行前景背景分割，如图1中③所示，获取目标图像，用于所构建的深度学习网络结构进行训练学习；

(3b)将获取到的目标图像进行随机裁剪和缩放，来对训练集进行有效地扩充。

4、建立关于材质视觉特征空间的映射网络

如图1中④所示，使用自然场景中无标注图像作为原始数据，利用循环生成对抗网络的深度学习网络结构进行无监督学习，其结构基础是构造循环生成对抗网络进行训练，使用两个生成对抗网络G:X→Y和F：Y→X构成了循环结构，两个生成网络G(X→Y)和F(Y→X)拥有相同的网络结构，两个判别网络D_X和D_Y也具有相同的网络结构。使用从训练样本集中获取的反射层目标图像作为训练数据，得到对图像目标材质视觉特征空间的高阶表达，建立源域图像与目标域图像间关于材质视觉特征空间的映射网络，将源域图像的材质视觉特征映射到目标域的材质视觉特征上，使得目标域图像具有源域图像的材质视觉特征信息。所使用的无监督学习方式是指，采用自然场景下的无标注图像作为训练数据，以生成对抗网络为基础，使用两个生成对抗网络构成循环生成结构，形成循环生成对抗网络进行训练，在训练过程中，不使用有标注图像进行监督指导学习。

具体包括下述步骤：

(4a)构造深度判别网络，各层间连接方式如图2所示，包括1个输入层，4个卷积层、1个全连接层和1个输出层，连接方式为：输入层→卷积层1→卷积层2→卷积层3→卷积层4→全连接层→输出层。其中，输入层为生成网络生成图像和真实图像，第一层卷积选用4×4×64的卷积核，第二层卷积选用4×4×128的卷积核，第三层卷积选用4×4×256的卷积核，第四层卷积选用4×4×512的卷积核，所有卷积层除第一层外，均采用BatchNorm(批正则化)处理，并进行LeakyReLU激活函数操作。输入层将生成网络生成图像和真实图像分别送入判别网络中，经过多层卷积处理后，得到表征输入信息属性的高阶特征，最后将全连接层连接到输出层，通过激活函数Sigmoid进行分类判别。其中LeakyReLU函数的表现形式如式(5)所示，其中参数negative_slope是一个很小的非零数，能够修正数据分布，同时又保留了部分负轴信息，使得负轴信息不会全部丢失，在本实施例中将negative_slope设置为0.1，Sigmoid函数的表现形式如式(6)所示：

f(x)＝max(0,x)+negative_slope×min(0,x) (5)

Sigmoid函数的表现形式如式(6)所示：

(4b)构造深度生成网络，在深度生成网络的构造过程中，从视觉感知的角度出发，考虑图像目标材质视觉特征空间的学习和映射过程，将深度生成网络的整体结构可分为编码部分、映射部分、解码部分三大主要组成结构，其中编码部分和解码部分用来完成对图像目标材质视觉特征空间的学习，映射部分使用残差网络块建立特征空间的映射网络，能够加强网络层间的联系，避免特征信息在映射过程中丢失。

具体包括1个输入层，4个卷积层、2个反卷积层、9个残差网络块。各层间连接方式如图3所示，连接方式为：输入层→编码部分(卷积层1→卷积层2→卷积层3)→映射部分(残差网络块1→残差网络块2→残差网络块3→残差网络块4→残差网络块5→残差网络块6→残差网络块7→残差网络块8→残差网络块9)→解码部分(反卷积层1→反卷积层2→卷积层4)→输出层。其中，输入层为样本集中经处理后的反射图像，第一层卷积选用7×7×32的卷积核，第二层卷积选用3×3×64的卷积核，第三层卷积选用3×3×128的卷积核，映射部分所使用的残差网络块，均为包含两个3×3卷积层的残差网络块，第一层反卷积选用3×3×64的卷积核，第二层反卷积选用3×3×32的卷积核，第四层卷积选用7×7×3的卷积核，所有的卷积层和反卷积层均采用BatchNorm处理，并进行LeakyReLU激活函数操作。输入层将获取的反射图像送入生成网络中，经过编码，映射操作获得材质视觉特征的高阶表达并完成特征信息的映射，在解码的操作之后，最终输出层获得材质视觉特征映射后的图像。

和

α、β、γ分别表示三项损失所占的权重，L_perceptual(·)为感知损失。前向和后向循环生成损失结构如图4(a)、4(b)所示。

5、对自然图像目标进行材质视觉特征映射计算

采用上述过程中训练好的生成网络G(X→Y)和F(Y→X)对自然图像目标进行材质视觉特征映射，如图1中⑤所示，获得图像目标材质视觉特征映射后的图像。

图5(a)、5(b)给出了本发明中一些自然图像目标的材质视觉特征映射效果。其中，第一行为原始图像，第二行为材质视觉特征映射后的图像，图5(a)青白瓷器映射变换为青铜器，图5(b)为陶俑映射变换为玉器。可以直观地看出本发明能够有效完成自然图像目标的材质视觉特征映射变换任务，具有良好的效果。

上述实施例为本发明的具体实施例，所要明确的是，本发明的实施方式并不仅限于上述实施例，后续在实施例上进行的任何修改、等同替换、改进等均应包含在本发明的保护范围。

Claims

1.基于生成对抗网络的自然图像目标材质视觉特征映射方法，其特征在于，包括下述步骤：

步骤1，数据样本集的建立：

步骤2，反射层图像的获取：

步骤5，采用上述材质视觉特征空间映射网络对自然图像目标进行材质视觉特征映射，获得图像目标材质视觉特征映射后的图像；

所述步骤2，具体包括下述步骤：

(2a)建立光照——反射模型：

I(x,y)＝L(x,y)R(x,y) (1)

转换为对数域描述：

log(I(x,y))＝log(L(x,y))+log(R(x,y)) (2)

(2b)用双边滤波模型对原图像的光照层信息进行计算：

式中，BF_p(I；σ_s,σ_r)为双边滤波模型，I为滤波图像，σ_s和σ_r为决定滤波尺寸大小的参数，I_p为p点像素值，I_q为q点像素值，Ω表示整幅图像的范围，G_σ(x)为高斯核函数且σ表示高斯函数的方差，W是归一化权重：

参数

和

定义了双边滤波的尺寸大小，

确定了与图像像素点位置相关的权重，

确定了与图像像素值大小相关的权重；

2.根据权利要求1所述的方法，其特征在于，所述步骤3，具体包括下述步骤：

3.根据权利要求1所述的方法，其特征在于，所述步骤4，具体包括下述步骤：

(4a)构造深度判别网络，包括1个输入层，4个卷积层、1个全连接层和1个输出层，连接方式为：输入层→卷积层1→卷积层2→卷积层3→卷积层4→全连接层→输出层，所有卷积层除第一层外，均采用批正则化处理，并进行LeakyReLU激活函数操作，最后将全连接层连接到输出层，通过激活函数Sigmoid进行分类判别；

其中，LeakyReLU函数的表现形式如式(5)所示：

f(x)＝max(0,x)+negative_slope×min(0,x) (5)

Sigmoid函数的表现形式如式(6)所示：

L(G,F,D_x,D_Y)＝α·(L_GAN(G,D_Y,X,Y)+L′_GAN(F,D_X,Y,X))+β·L_cyc(G,F)+γ·L_perceptual(7)

和

4.根据权利要求3所述的方法，其特征在于，所述步骤(4a)中，输入层为生成网络生成图像和真实图像，第一层卷积选用4×4×64的卷积核，第二层卷积选用4×4×128的卷积核，第三层卷积选用4×4×256的卷积核，第四层卷积选用4×4×512的卷积核。

5.根据权利要求3所述的方法，其特征在于，所述步骤(4b)中，第一层卷积选用7×7×32的卷积核，第二层卷积选用3×3×64的卷积核，第三层卷积选用3×3×128的卷积核，映射部分所使用的残差网络块，均为包含两个3×3卷积层的残差网络块，第一层反卷积选用3×3×64的卷积核，第二层反卷积选用3×3×32的卷积核，第四层卷积选用7×7×3的卷积核。