CN110163796B

CN110163796B - 一种无监督多模态对抗自编码的图像生成方法及框架

Info

Publication number: CN110163796B
Application number: CN201910454914.8A
Authority: CN
Inventors: 白静; 陈冉; 姬卉; 李赛赛
Original assignee: North Minzu University
Current assignee: North Minzu University
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2023-03-24
Anticipated expiration: 2039-05-29
Also published as: CN110163796A

Abstract

本发明公开了一种无监督多模态对抗自编码的图像生成方法及框架，包括步骤：S1、输入一组共n个同域的图像数据，它们来自于相同的数据分布，彼此共享部分公有属性，且各自拥有一些差异属性；S2、将输入的图像数据分别传入到可变属性编码器和固有属性编码器中，解耦出数据的固有属性编码和可变属性编码；S3、在无监督条件下，将可变属性编码及其相应的对抗网络进行对抗学习，以求解出可变属性编码的先验分布空间；S4、在无监督条件下，随机从可变属性编码的先验分布空间中采样，并联合固有属性编码通过解码器，完成单一域数据的多模态翻译，实现多属性的变换并生成对应的图像。本发明可有效解耦域内数据的公共属性和可变属性，并生成其多模态变换。

Description

一种无监督多模态对抗自编码的图像生成方法及框架

技术领域

本发明涉及计算机视觉、计算机图形学与机器学习的技术领域，尤其是指一种无监督多模态对抗自编码的图像生成方法及框架。

背景技术

随着深度学习技术和图像生成技术的不断发展，图像翻译领域涌现出大量优秀工作，应用于图像着色、超分辨率生成、风格转换等各个方面。当前来看，现有的图像翻译工作都建立在跨域数据的基础之上，需要明确给定两个或多个不同的图像域，而在工业设计领域，可能需要根据一个已有设计自动变换其色彩、光照等属性；在虚拟家居等领域也可能需要依据一定角度摆放不同类型的椅子、沙发等。在这些应用中，并无明显可定义的跨域数据，变换数据间具有既定的公共属性，又同时具备需要变换的差异性属性，现有的跨域数据翻译无法满足这些需求。

发明内容

本发明的目的在于克服现有技术的缺点与不足，针对单一域数据的一对多图像翻译需求，提出了一种无监督多模态对抗自编码的图像生成方法及框架，可有效解耦域内数据的公共属性和可变属性，并生成其多模态变换。在无监督数据的前提下，解码这些数据的共有属性，并识别差异性属性，实现输入图像的多模态生成，即保留共有属性的同时完成差异性属性的多样化变换。

为实现上述目的，本发明所提供的技术方案如下：

一种无监督多模态对抗自编码的图像生成方法，包括以下步骤：

S1、输入一组共n个同域的图像数据，它们来自于相同的数据分布，彼此共享部分公有属性，且各自拥有一些差异属性；

S2、将输入的图像数据分别传入到可变属性编码器和固有属性编码器中，解耦出数据的固有属性编码和可变属性编码；

S3、在无监督条件下，将可变属性编码及其相应的对抗网络进行对抗学习，以求解出可变属性编码的先验分布空间；

S4、在无监督条件下，随机从可变属性编码的先验分布空间中采样，并联合固有属性编码通过解码器，完成单一域数据的多模态翻译，实现多属性的变换并生成对应的图像。

在步骤S1中，相同的数据分布指的是数据的来源具有一致性；差异属性指的是在图像中，同一个物体在不同季节、不同光照、不同时间和不同角度下产生的变化。

在步骤S2中，可变属性编码器将数据间的差异属性作为可变属性，采用卷积、全局池化、再卷积的设计模式，提取图像特征并编码，记为可变属性编码E_V；其中，所述卷积共包含五个卷积层，第一个为7*7卷积层，旨在进行浅层特征的初步提取，第二至第五个是4个连续的4*4卷积层，旨在同时实现图像的下采样和特征的进一步抽象；紧随其后的是全局池化层和1*1再卷积层，都旨在提取图像的高度抽象特征。

在步骤S2中，固有属性编码器将数据间的公有属性作为固有属性，采用卷积、下采样、残差块的设计模式，提取图像特征并编码，记为固有属性编码E_I；其中，所述卷积共包含五个卷积层，第一个为7*7卷积层，旨在进行浅层特征的初步提取，第二至第五个是4个连续的4*4卷积层，旨在同时实现图像的下采样和特征的进一步抽象；所述下采样的作用是降低特征维度，减少冗余信息；而最后的残差块设计为一种实例正则化密集残差块，目的是确保语义特征不变的前提下保留更加丰富的细节特征。

在步骤S3中，对抗网络由(256,64,16,1)连续四个全连接层组成，将来自可变属性编码器中解耦出的可变属性编码所对应的分布作为先验分布，从正态分布中随机采样的噪声数据所对应的分布为后验分布，从先验分布和后验分布中随机采样相同维度的数据送入对抗网络中，最后输出为0或1的二分类结果；后验分布是已经知道的正态分布，通过对抗网络，当先验分布和后验分布的对抗学习达到平衡后，先验分布能够近似等价为后验分布。

在步骤S4中，解码器以可变属性编码器提取的可变属性编码E_V为输入，先后通过1*1*8、1*1*256和1*1*256的3个多层感知机MLP，将可变属性编码映射为256维特征，并连同固有属性编码共同输入自适应正则化AdaIn层；设可变属性特征为x_v，固有属性特征为x_I，通过MLP得到的参数为δ(*)和μ(*)，则AdaIn层通过下面公式完成两种属性的融合：

然后，利用最近邻插值算法实现融合特征的上采样，并送入5*5卷积层完成最终解码，输出生成图像。

一种无监督多模态对抗自编码的图像生成框架，包括固有属性编码器、可变属性编码器、解码器和对抗网络，其中：

所述固有属性编码器用于在无监督多模态对抗自编码中，以同域内的一组数据为输入，将数据间的公有属性作为固有属性，提取图像特征并编码，记为固有属性编码E_I；所述固有属性编码器采用卷积、下采样、残差块的设计模式，所述卷积共包含五个卷积层，第一个为7*7卷积层，旨在进行浅层特征的初步提取，第二至第五个是4个连续的4*4卷积层，旨在同时实现图像的下采样和特征的进一步抽象；所述下采样的作用是降低特征维度，减少冗余信息；而最后的残差块设计为一种实例正则化密集残差块，目的是确保语义特征不变的前提下保留更加丰富的细节特征；

所述可变属性编码器以同域内的一组数据为输入，将数据间的差异属性作为可变属性，提取图像特征并编码，记为可变属性编码E_V；所述可变属性编码器采用卷积、全局池化、卷积的设计模式，卷积共包含五个卷积层，第一个为7*7卷积层，旨在进行浅层特征的初步提取，第二至第五个是4个连续的4*4卷积层，旨在同时实现图像的下采样和特征的进一步抽象；紧随其后的是全局池化层和1*1再卷积层，都旨在提取图像的高度抽象特征；

所述对抗网络由(256,64,16,1)连续四个全连接层组成，将来自可变属性编码器中解耦出的可变属性编码所对应的分布作为先验分布，从正态分布中随机采样的噪声数据所对应的分布为后验分布，从先验分布和后验分布中均随机采样相同维度的数据送入对抗网络中，最后输出为0或1的二分类结果，后验分布是已经知道的正态分布，通过对抗网络，当先验分布和后验分布的对抗学习达到平衡后，先验分布能够近似等价为后验分布；

所述解码器以可变属性编码E_V为输入，先后通过1*1*8、1*1*256和1*1*256的3个多层感知机MLP，将可变属性编码映射为256维特征，并连同固有属性编码共同输入自适应正则化AdaIn层；设可变属性特征为x_v，固有属性特征为x_I，通过MLP得到的参数为δ(*)和μ(*)，则AdaIn层通过下面公式完成两种属性的融合：

本发明与现有技术相比，具有如下优点与有益效果：

1、提出了一种无监督多模态对抗自编码的图像生成方法及框架，实现了单一域数据的多模态图像翻译。

2、提出了可变属性编码器和固有属性编码器，通过提供不同类型的单域数据，可自动捕捉其公共属性和差异性属性，灵活支持色彩、光照、图像内容等各种属性的多模态变换。

3、提出了一种实例正则化密集残差块，在确保语义特征不变的前提下，可使生成图像保留更加丰富的细节特征。

4、同样支持有监督数据的多模态变换，且可生成语义标签一致、固有属性和可变属性联合变换的多样化图像。

附图说明

图1为本发明的整体架构图；图中，Variable Attribute Encoder为可变属性编码器，Inherent Attribute Encoder为固有属性编码器。

图2为本发明的固有属性编码器、可变属性编码器架构图；图中，Conv为卷积，Relu为非线性激活函数，Pooling为池化，IN-RDB为实例正则化密集残差块。

图3为实例正则化密集残差块架构图。

图4为本发明的解码器架构图。

图5为实施例中对抗网络(Adversarial Network)架构图。

图6为无监督数据下可变属性多模态变换图。

图7为handbag数据集多模态变换结果。

图8为winter数据集多模态变换结果。

图9为horse数据集多模态变换结果。

图10为chair数据集多模态变换结果。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

本实施例所提供的无监督多模态对抗自编码的图像生成方法，实现了单一域数据的多模态图像翻译。如图1所示，展示了我们的整体网络框架，编码器将样本分解成可变属性编码E_V和固有属性编码E_I。将可变属性编码进行对抗训练。随机从可变属性编码的先验分布空间中采样，并联合固有属性编码通过解码器，完成单一域数据的多模态翻译，实现多属性的变换并生成对应的图像。其包括以下步骤：

1)输入一组共n个同域的图像数据，它们来自于相同的数据分布，彼此共享部分公有属性，且各自拥有一些差异属性；

2)将输入的图像数据分别传入到可变属性编码器和固有属性编码器中，解耦出数据的固有属性编码和可变属性编码；

对输入数据的差异性属性编码，引入可变属性编码器(VAE)，产生可变属性编码E_V以及可变属性空间分布p(v)。对输入数据的固有属性编码，引入固有属性编码器(IAE)，产生固有属性编码E_I以及固有属性空间分布q(i)。

固有属性编码器架构和可变属性编码器架构如图2所示。固有属性编码器数据间的公有属性作为固有属性，采用卷积、下采样、残差块的设计模式，提取图像特征并编码，记为固有属性编码E_I；其中，所述卷积共包含五个卷积层，第一个为7*7卷积层，第二至第五个是4个连续的4*4卷积层；而最后的残差块设计为一种实例正则化密集残差块，其结构如图3所示。可变属性编码器将数据间的差异属性作为可变属性，采用卷积、全局池化、再卷积的设计模式，提取图像特征并编码，记为可变属性编码E_V；其中，所述卷积共包含五个卷积层，第一个为7*7卷积层，第二至第五个是4个连续的4*4卷积层；紧随其后的是全局池化层和1*1再卷积层。可变属性编码器与固有属性编码器不同的是，为充分捕捉数据的可变属性，可变属性编码器的每个卷积之后不再保留实例正则层。

3)在无监督条件下，将可变属性编码及其相应的对抗网络进行对抗学习，以求解出可变属性编码的先验分布空间；

将可变属性编码器产生的编码送入至对抗网络进行对抗学习。如图5所示，对抗网络由(256,64,16,1)连续四个全连接层组成，将来自可变属性编码器中解耦出的可变属性编码所对应的分布作为先验分布，从正态分布中随机采样的噪声数据所对应的分布为后验分布，从先验分布和后验分布中均随机采样相同维度的数据送入对抗网络中，最后输出为0或1的二分类结果。后验分布是已经知道的正态分布，通过对抗网络，当先验分布和后验分布的对抗学习达到平衡后，先验分布可近似等价为后验分布。

4)在无监督条件下，随机从可变属性编码的先验分布空间中采样，并联合固有属性编码通过解码器，完成单一域数据的多模态翻译，实现多属性的变换并生成对应的图像；

可变属性编码通过对抗网络产生的先验分布和固有属性编码通过解码器产生多模态的变换，多模态变换过程如图6所示。解码器架构如图4所示，解码器由以可变属性编码E_V为输入，先后通过1*1*8、1*1*256和1*1*256的3个多层感知机(MLP，MultilayerPerceptron)，将可变属性编码映射为256维特征，并连同固有属性编码共同输入自适应正则化AdaIn层(Adaptive Instance Normalization)；AdaIn层完成两种属性的融合。然后，利用最近邻插值算法实现融合特征的上采样，并送入5*5卷积层完成最终解码，输出生成图像。

在步骤2)中，通过由固有属性编码器和可变属性编码器构成的自动编码器，将输入图像解耦出固有属性编码和可变属性编码。输入域X内的一幅图像x，将其解耦并编码为固有属性编码E_I和可变属性E_V，由于要求重构图像和输入图像一致，故其重构损失

通过如下公式求解。

/>

式中D(*1,*2)表示对固有属性和可变属性二元组(*1,*2)解码后的输出图像，||*||₁表示L1正则化范数。

步骤3)中，将可变属性编码器产生的可变属性编码传入对抗网络中，对抗网络需要做到能够区分输入编码来自于真实数据分布q(v)还是空间采样p(v)，则针对可变属性编码对抗损失

和可变属性的重构损失/>

可由如下公式求解。

式中式中D(*1,*2)表示对固有属性和可变属性二元组(*1,*2)解码后的输出图像，||*||₁表示L1正则化范数。

步骤4)中，随机从可变属性编码经过对抗网络得到的先验分布空间中采样，并联合固有属性编码通过解码器进行解码，完成单一域数据的多模态翻译，综合图像重构损失

可变属性对抗损失/>

可变属性的重构损失/>

可得到无监督多属性变换的整体网络损失/>

可由如下公式求解。

式中，λ₁，λ₂和λ₃为超参数,表示各个损失在整体损失中所占比重。

实验配置：本文实验的硬件环境为Intel Core i7 2600k+GTX 1070 8G+8G RAM，软件环境为windows 7 x64+CUDA 8.0+cuDNN 5.1+TensorFlow+Python。

数据集：本文选择了4种不同类型、不同分辨率的数据集作为测试数据。

handbag数据集:来自于Isola等人提供的数据集，共包含17个不同款式的包，本文选用9款包型作为训练集，8款包型作为测试集。数据集内所有图像为256*256的彩色图像。实验结果如图7所示，包的整体变换结果自然真实，第一行中所输入的包具有镂空设计,而输出结果在凹凸特征间的颜色过渡非常自然；对于第二行和第三行输入的包,输出结果在不同的纹理特征和细节图案上做到了颜色的合理变换；针对最后一行输入的包,输出结果在颜色变换中充分保留了包的褶皱效果。

winter数据集:来自于Yosemite summer&winter数据集中的winter数据，共包含1200张图像，本文选用962张作为训练集，238张作为测试集。数据集内所有图像为256*256的彩色图像。实验结果如图8所示，针对第一行的树林景色,输出结果在冬天背景和树叶颜色上均实现了良好的过渡；对于第二行的山水景色,输出结果中不仅天空有了很明显的变化,高山和湖面也发生了相应的改变；对于第三行的房屋,墙面和光照有很明显的变化；对于第四行的山景,云雾以及山上的灯光都有相应的自然变化。

horse数据集:来自于horse-zebra数据集中的horse部分，共包含1187张图像，本文选用1067张作为训练集，120张作为测试集。数据集内所有图像为256*256的彩色图像。实验结果如图9所示，除了马本身的颜色有所变化,其所处的环境,包括天空、白云、草地、树木、山体均发生了相适应的变化,整体效果自然真实。

chair数据集:来自于三维模型数据集ModelNet中的chair类，共包含29个三维模型。针对每个三维模型，本文采用冯氏光照模型和高洛德着色方案进行视图渲染，每隔30°构建一张视图，共得到348张64*64的彩色图像。实验中，选用264张图像作为训练集，84张图像作为测试集。实验结果如图10所示，非监督的情况下，可生成旋转角度完全一致不同类型的椅子视图。这一实验也再次说明了本文算法在非监督的情况下，可灵活定义固有属性和可变属性，生成一系列所需图像。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种无监督多模态对抗自编码的图像生成方法，其特征在于，包括以下步骤：

S1、输入一组共n个同域的图像数据，它们来自于相同的数据分布，彼此共享部分公有属性，且各自拥有一些差异属性；相同的数据分布指的是数据的来源具有一致性；差异属性指的是在图像中，同一个物体在不同季节、不同光照、不同时间和不同角度下产生的变化；

可变属性编码器将数据间的差异属性作为可变属性，采用卷积、全局池化、再卷积的设计模式，提取图像特征并编码，记为可变属性编码E_V；其中，所述卷积共包含五个卷积层，第一个为7*7卷积层，旨在进行浅层特征的初步提取，第二至第五个是4个连续的4*4卷积层，旨在同时实现图像的下采样和特征的进一步抽象；紧随其后的是全局池化层和1*1再卷积层，都旨在提取图像的高度抽象特征；

固有属性编码器将数据间的公有属性作为固有属性，采用卷积、下采样、残差块的设计模式，提取图像特征并编码，记为固有属性编码E_I；其中，所述卷积共包含五个卷积层，第一个为7*7卷积层，旨在进行浅层特征的初步提取，第二至第五个是4个连续的4*4卷积层，旨在同时实现图像的下采样和特征的进一步抽象；所述下采样的作用是降低特征维度，减少冗余信息；而最后的残差块设计为一种实例正则化密集残差块，目的是确保语义特征不变的前提下保留更加丰富的细节特征；

对抗网络由(256,64,16,1)连续四个全连接层组成，将来自可变属性编码器中解耦出的可变属性编码所对应的分布作为先验分布，从正态分布中随机采样的噪声数据所对应的分布为后验分布，从先验分布和后验分布中随机采样相同维度的数据送入对抗网络中，最后输出为0或1的二分类结果；后验分布是已经知道的正态分布，通过对抗网络，当先验分布和后验分布的对抗学习达到平衡后，先验分布能够近似等价为后验分布；

S4、在无监督条件下，随机从可变属性编码的先验分布空间中采样，并联合固有属性编码通过解码器，完成单一域数据的多模态翻译，实现多属性的变换并生成对应的图像；

解码器以可变属性编码器提取的可变属性编码E_V为输入，先后通过1*1*8、1*1*256和1*1*256的3个多层感知机MLP，将可变属性编码映射为256维特征，并连同固有属性编码共同输入自适应正则化AdaIn层；设可变属性特征为x_v，固有属性特征为x_I，通过MLP得到的参数为δ(*)和μ(*)，则AdaIn层通过下面公式完成两种属性的融合：

2.一种无监督多模态对抗自编码的图像生成框架，其特征在于：包括固有属性编码器、可变属性编码器、解码器和对抗网络，其中：