CN110210549B

CN110210549B - 一种跨域变分对抗自编码方法

Info

Publication number: CN110210549B
Application number: CN201910449092.4A
Authority: CN
Inventors: 白静; 田栋文; 张霖; 杨宁
Original assignee: North Minzu University
Current assignee: Chongqing Boshi Intellectual Property Service Co ltd
Priority date: 2019-05-28
Filing date: 2019-05-28
Publication date: 2022-03-29
Anticipated expiration: 2039-05-28
Also published as: CN110210549A

Abstract

本发明公开了一种跨域变分对抗自编码方法，包括步骤：1)利用编码器解耦跨域数据的内容编码和风格编码；2)利用对抗操作和变分操作分别去拟合图像的内容编码和风格编码；3)通过拼接内容编码和风格编码实现图像重构，通过交叉拼接不同域的内容编码和风格编码得到跨域图像的一对多连续变换。本发明方法在不提供任何成对数据的前提下，实现了跨域图像的一对多连续变换。

Description

一种跨域变分对抗自编码方法

技术领域

本发明涉及计算机视觉的技术领域，尤其是指一种跨域变分对抗自编码方法。

背景技术

在计算机视觉领域，目前利用单一域数据进行图像生成、图像翻译已经取得了非常好的效果。但是，在实际生活和应用中，这些数据通常来自不同的域。比如一个物体可以有草图和视图两种表示，同样的文本内容可以是不同的字体等等。如何对跨域数据进行处理是一个重要的研究方向。现有的跨域工作主要以生成对抗网GAN为主。这类方法通过对不同域的数据进行对抗学习来自发拟合后验分布实现图像生成。在学习过程中总是需要成对的数据样本，这对数据集的要求比较高，况且在现实中并不存在“马和斑马一一对应的照片”；而且生成能力比较有限，往往只能生成一对一的跨域数据。在工业设计与虚拟现实等领域，设计者总是希望提供一张图片生成目标域的一系列连续变换的图片，现有方法无法满足这种需求。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种跨域变分对抗自编码方法，在不提供任何成对数据的前提下，实现了跨域图像的一对多连续变换。

为实现上述目的，本发明所提供的技术方案为：一种跨域变分对抗自编码方法，包括以下步骤：

1)利用编码器解耦跨域数据的内容编码和风格编码

通过编码器分解出图像的内容编码和风格编码，求出对应的后验分布；对于内容编码，引入对抗自编码器(AAE)；对于风格编码，引入变分自编码器(VAE)；

2)利用对抗操作和变分操作分别去拟合图像的内容编码和风格编码

对于图像的内容编码，引入对抗自编码器(AAE)，并通过域标签和类别标签的对抗来拟合内容编码的后验分布；对于图像的风格编码，引入变分自编码器(VAE)，通过KL散度使风格编码的后验分布与先验分布趋于一致；

3)通过拼接内容编码和风格编码实现图像重构，通过交叉拼接不同域的内容编码和风格编码得到跨域图像的一对多连续变换。

在步骤1)中，首先，通过编码器分解出图像的内容编码和风格编码，求出对应的后验分布，对于A域的输入X_A能够将其表示为内容编码C_A和风格编码S_A，它们所对应的后验分布

和

分别通过如下公式求解：

式中，P_A为A域的数据分布；

对于B域，其内容编码C_B和风格编码S_B的后验分布

和

分别由如下公式求解：

式中，P_B为B域的数据分布，X_B为B域的输入。

在步骤2)中，对于风格编码，引入变分自编码器(VAE)，通过KL散度使A域风格编码的后验分布

与先验分布

趋于一致，并以L(θ,φ,X_A)作为下界约束进一步保证后验分布对先验分布的拟合，其中θ和φ分别代表生成参数和变分参数，X_A为A域的输入，同理，B域风格编码的后验分布

与先验分布

趋于一致，并以L(θ,φ,X_B)作为下界约束进一步保证后验分布对先验分布的拟合，X_B为B域的输入；则针对A域和B域风格编码的VAE损失

和

由如下公式求解：

式中，D_kl(*)为KL散度；

内容编码作为跨域数据的公共属性，包含了信息丰富的语义特征，编码相对复杂，因此，选用对抗自编码器(AAE)并通过域标签和类别标签的对抗来拟合内容编码的后验分布；对于A域的内容编码C_A，构建对抗损失让内容编码的先验分布

和后验分布

通过对抗进行拟合，同理，对于B域的内容编码C_B，构建对抗损失让内容编码的先验分布

和后验分布

通过对抗进行拟合；则A域和B域内容编码的对抗损失

和

由如下公式求解：

在步骤3)中，输入A域图像X_A，基于对其拟合的内容编码后验分布

和风格编码后验分布

解码能够生成重构图像X'_A，则X'_A应能真实还原X_A，同理，输入B域图像X_B，基于对其拟合的内容编码后验分布

和风格编码后验分布

解码能够生成重构图像X'_B，则X'_B应能真实还原；于是构建了如下公式重构损失L_rec：

本发明与现有技术相比，具有如下优点与有益效果：

1、提出了一种新的跨域变分对抗自编码方法，实现了跨域图像一对多的连续变换。

2、在不提供成对数据的情况下，利用变分自编码器和对抗自编码器解耦跨域数据的风格编码和内容编码，捕捉了跨域数据的公共属性和差异性属性，为跨域数据生成提供了基础。

3、在标准数据集MNIST和SVHN上进行的有监督实验表明本发明方法可自动生成语义标签一致风格属性多样的跨域图片；在标准数据集VIS和NIR上的实验表明本发明方法同样可以在无监督情况下实现一对一图像生成，效果较好。

附图说明

图1为本发明的整体框架图。

图2为本发明的编码器框架图。

图3为本发明的解码器框架图。

图4为本发明的编码器网络结构。

图5为本发明的解码器网络结构。

图6为有监督跨域图像生成实验结果。

图7为无监督实验结果。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

本实施例所提供的跨域变分对抗自编码方法，在不提供任何成对数据的前提下，实现了跨域图像的一对多连续变换，如图1所示，展示了我们的整体网络框架，编码器将样本分解成内容编码

和风格编码

内容编码进行对抗，风格编码进行变分。解码器拼接内容编码和风格编码生成图像。其包括以下步骤：

1)利用编码器解耦跨域数据的内容编码和风格编码。

首先通过编码器分解出图像的内容编码和风格编码，求出对应的后验分布。对于内容编码，引入对抗自编码器(AAE)；对于风格编码，引入变分自编码器(VAE)。

2)利用对抗操作和变分操作分别去拟合图像的内容编码和风格编码。

对于图像的内容编码，引入对抗自编码器(AAE)，并通过域标签和类别标签的对抗来拟合内容编码的后验分布。对于图像的风格编码，引入变分自编码器(VAE)，通过KL散度使风格编码的后验分布与先验分布趋于一致。编码器框架如图2所示，首先通过编码器分解出图像的内容编码和风格编码,求出对应的后验分布。编码器网络结构如图4所示，内容编码器由4个卷积层构成，前三层卷积核为3*3，第四层卷积核为4*4，最终输出2维的内容编码。风格编码器也由4个卷积层构成，前两层卷积核为3*3，第三层卷积核为1*1，第四层卷积核为3*3，最终输出8维的风格编码。由于风格编码和内容编码的浅层特征具有一致性，因此本文令风格编码器和内容编码器共享第一和第二两个卷积层。为有效防止训练过程中产生的梯度消失和梯度爆炸，在每一个卷积层内部均加入了批量归一化BN层。

解码器框架如图3所示，得到A域和B域的编码器输出

和

可通过编码器重构原域样本或生成跨域样本。解码器网络结构如图5所示，先将潜在编码扩维成n*1*1*8，通过一个4*4和三个3*3的反卷积最终得到3通道的输出图片。

在步骤1)中，首先通过编码器分解出图像的内容编码和风格编码，求出对应的后验分布，对于A域的输入X_A可将其表示为内容编码C_A和风格编码S_A，它们所对应的后验分布

和

可分别通过如下公式求解。

式中，P_A为A域的数据分布。

类似的，对于B域，其内容编码C_B和风格编码S_B的后验分布

和

可分别由如下公式求解。

式中，P_B为B域的数据分布。

在步骤2)中，对于风格编码，引入变分自编码器(VAE)，通过KL散度使风格编码的后验分布

与先验分布

趋于一致(以A域为例)，并以L(θ,φ,X_A)作为下界约束进一步保证后验分布对先验分布的拟合。其中θ和φ分别代表生成参数和变分参数。则针对A域和B域风格编码的VAE损失

和

可由如下公式求解。

式中，D_kl(*)为KL散度。

内容编码作为跨域数据的公共属性，包含了信息丰富的语义特征，编码相对复杂。因此选用对抗自编码器(AAE)并通过域标签和类别标签的对抗来拟合内容编码的后验分布。对于A域的内容编码C_A(B域同理)，构建对抗损失让内容编码的先验分布

和后验分布

通过对抗进行拟合。A域和B域内容编码的对抗损失

和

可由如下公式求解。

在步骤3)中，输入A域图像X_A，基于对其拟合的内容编码

和风格编码

解码可生成重构图像X'_A，则X'_A应能真实还原X_A(B域同理)。于是构建了如下公式重构损失L_rec:

实验配置：本文实验的硬件环境为Intel Core i7 2600k+GTX 1070 8G+8G RAM，软件环境为windows 7x64+CUDA 8.0+cuDNN 5.1+Caffe+Python.本文使用AlexNet提取图像特征，使用python处理数据，使用MATLAB完成检索指标评价及部分可视化效果，使用python存储图像特征完成检索实验。

数据集：本文实验所用数据集为标准的mnist数据集，svhn数据集和CASIAVIS-NIR数据集。mnist数据集分为60000张训练图片和10000张测试图片，每张图片都是28*28大小，为不同人手写的0到9的数字。svhn数据集分为531131张训练图片和26032张测试图片，每张图片都是32*32大小，为真实世界中街道门牌号码，本文将以上两个数据集的图片统一转化为32*32大小，作为本发明方法的输入进行有监督跨域图像生成实验，实验结果如图6所示，无监督实验结果如图7所示。CASIA VIS-NIR数据集由近红外人脸图像(NIR)和可见光人脸图像(VIS)两个子数据集构成，包含725个类，每个类包含5张人脸图像。实验中，针对每个类选择3张作为训练数据，选择2张作为测试数据。

表1给出了本文选用数据集的基本信息。

表1本文选用数据集的基本信息

数据集	训练图片数目	测试图片数目	类的数目
				mnist	60000	10000	10
svhn	531131	26032	10
				CASIA VIS-NIR	2175	1450	725

表2有监督分类准确率

Method	p2t	t2t	s2t	p2s	s2s	t2s
							AAE	97.24	92.03	78.81	94.28	78.05	90.34
Ours	99.49	95.18	80.83	92.15	76.89	88.93

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。