CN110210549B - 一种跨域变分对抗自编码方法 - Google Patents

一种跨域变分对抗自编码方法 Download PDF

Info

Publication number
CN110210549B
CN110210549B CN201910449092.4A CN201910449092A CN110210549B CN 110210549 B CN110210549 B CN 110210549B CN 201910449092 A CN201910449092 A CN 201910449092A CN 110210549 B CN110210549 B CN 110210549B
Authority
CN
China
Prior art keywords
coding
domain
content
style
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910449092.4A
Other languages
English (en)
Other versions
CN110210549A (zh
Inventor
白静
田栋文
张霖
杨宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North Minzu University
Original Assignee
North Minzu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North Minzu University filed Critical North Minzu University
Priority to CN201910449092.4A priority Critical patent/CN110210549B/zh
Publication of CN110210549A publication Critical patent/CN110210549A/zh
Application granted granted Critical
Publication of CN110210549B publication Critical patent/CN110210549B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种跨域变分对抗自编码方法,包括步骤:1)利用编码器解耦跨域数据的内容编码和风格编码;2)利用对抗操作和变分操作分别去拟合图像的内容编码和风格编码;3)通过拼接内容编码和风格编码实现图像重构,通过交叉拼接不同域的内容编码和风格编码得到跨域图像的一对多连续变换。本发明方法在不提供任何成对数据的前提下,实现了跨域图像的一对多连续变换。

Description

一种跨域变分对抗自编码方法
技术领域
本发明涉及计算机视觉的技术领域,尤其是指一种跨域变分对抗自编码方法。
背景技术
在计算机视觉领域,目前利用单一域数据进行图像生成、图像翻译已经取得了非常好的效果。但是,在实际生活和应用中,这些数据通常来自不同的域。比如一个物体可以有草图和视图两种表示,同样的文本内容可以是不同的字体等等。如何对跨域数据进行处理是一个重要的研究方向。现有的跨域工作主要以生成对抗网GAN为主。这类方法通过对不同域的数据进行对抗学习来自发拟合后验分布实现图像生成。在学习过程中总是需要成对的数据样本,这对数据集的要求比较高,况且在现实中并不存在“马和斑马一一对应的照片”;而且生成能力比较有限,往往只能生成一对一的跨域数据。在工业设计与虚拟现实等领域,设计者总是希望提供一张图片生成目标域的一系列连续变换的图片,现有方法无法满足这种需求。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种跨域变分对抗自编码方法,在不提供任何成对数据的前提下,实现了跨域图像的一对多连续变换。
为实现上述目的,本发明所提供的技术方案为:一种跨域变分对抗自编码方法,包括以下步骤:
1)利用编码器解耦跨域数据的内容编码和风格编码
通过编码器分解出图像的内容编码和风格编码,求出对应的后验分布;对于内容编码,引入对抗自编码器(AAE);对于风格编码,引入变分自编码器(VAE);
2)利用对抗操作和变分操作分别去拟合图像的内容编码和风格编码
对于图像的内容编码,引入对抗自编码器(AAE),并通过域标签和类别标签的对抗来拟合内容编码的后验分布;对于图像的风格编码,引入变分自编码器(VAE),通过KL散度使风格编码的后验分布与先验分布趋于一致;
3)通过拼接内容编码和风格编码实现图像重构,通过交叉拼接不同域的内容编码和风格编码得到跨域图像的一对多连续变换。
在步骤1)中,首先,通过编码器分解出图像的内容编码和风格编码,求出对应的后验分布,对于A域的输入XA能够将其表示为内容编码CA和风格编码SA,它们所对应的后验分布
Figure BDA0002074546300000021
Figure BDA0002074546300000022
分别通过如下公式求解:
Figure BDA0002074546300000023
Figure BDA0002074546300000024
式中,PA为A域的数据分布;
对于B域,其内容编码CB和风格编码SB的后验分布
Figure BDA00020745463000000211
Figure BDA00020745463000000212
分别由如下公式求解:
Figure BDA0002074546300000025
Figure BDA0002074546300000026
式中,PB为B域的数据分布,XB为B域的输入。
在步骤2)中,对于风格编码,引入变分自编码器(VAE),通过KL散度使A域风格编码的后验分布
Figure BDA0002074546300000027
与先验分布
Figure BDA00020745463000000210
趋于一致,并以L(θ,φ,XA)作为下界约束进一步保证后验分布对先验分布的拟合,其中θ和φ分别代表生成参数和变分参数,XA为A域的输入,同理,B域风格编码的后验分布
Figure BDA0002074546300000028
与先验分布
Figure BDA0002074546300000029
趋于一致,并以L(θ,φ,XB)作为下界约束进一步保证后验分布对先验分布的拟合,XB为B域的输入;则针对A域和B域风格编码的VAE损失
Figure BDA0002074546300000031
Figure BDA0002074546300000032
由如下公式求解:
Figure BDA0002074546300000033
Figure BDA0002074546300000034
式中,Dkl(*)为KL散度;
内容编码作为跨域数据的公共属性,包含了信息丰富的语义特征,编码相对复杂,因此,选用对抗自编码器(AAE)并通过域标签和类别标签的对抗来拟合内容编码的后验分布;对于A域的内容编码CA,构建对抗损失让内容编码的先验分布
Figure BDA00020745463000000316
和后验分布
Figure BDA00020745463000000317
通过对抗进行拟合,同理,对于B域的内容编码CB,构建对抗损失让内容编码的先验分布
Figure BDA0002074546300000035
和后验分布
Figure BDA0002074546300000036
通过对抗进行拟合;则A域和B域内容编码的对抗损失
Figure BDA0002074546300000037
Figure BDA0002074546300000038
由如下公式求解:
Figure BDA0002074546300000039
Figure BDA00020745463000000310
在步骤3)中,输入A域图像XA,基于对其拟合的内容编码后验分布
Figure BDA00020745463000000311
和风格编码后验分布
Figure BDA00020745463000000312
解码能够生成重构图像X'A,则X'A应能真实还原XA,同理,输入B域图像XB,基于对其拟合的内容编码后验分布
Figure BDA00020745463000000313
和风格编码后验分布
Figure BDA00020745463000000314
解码能够生成重构图像X'B,则X'B应能真实还原;于是构建了如下公式重构损失Lrec
Figure BDA00020745463000000315
本发明与现有技术相比,具有如下优点与有益效果:
1、提出了一种新的跨域变分对抗自编码方法,实现了跨域图像一对多的连续变换。
2、在不提供成对数据的情况下,利用变分自编码器和对抗自编码器解耦跨域数据的风格编码和内容编码,捕捉了跨域数据的公共属性和差异性属性,为跨域数据生成提供了基础。
3、在标准数据集MNIST和SVHN上进行的有监督实验表明本发明方法可自动生成语义标签一致风格属性多样的跨域图片;在标准数据集VIS和NIR上的实验表明本发明方法同样可以在无监督情况下实现一对一图像生成,效果较好。
附图说明
图1为本发明的整体框架图。
图2为本发明的编码器框架图。
图3为本发明的解码器框架图。
图4为本发明的编码器网络结构。
图5为本发明的解码器网络结构。
图6为有监督跨域图像生成实验结果。
图7为无监督实验结果。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本实施例所提供的跨域变分对抗自编码方法,在不提供任何成对数据的前提下,实现了跨域图像的一对多连续变换,如图1所示,展示了我们的整体网络框架,编码器将样本分解成内容编码
Figure BDA0002074546300000041
和风格编码
Figure BDA0002074546300000042
内容编码进行对抗,风格编码进行变分。解码器拼接内容编码和风格编码生成图像。其包括以下步骤:
1)利用编码器解耦跨域数据的内容编码和风格编码。
首先通过编码器分解出图像的内容编码和风格编码,求出对应的后验分布。对于内容编码,引入对抗自编码器(AAE);对于风格编码,引入变分自编码器(VAE)。
2)利用对抗操作和变分操作分别去拟合图像的内容编码和风格编码。
对于图像的内容编码,引入对抗自编码器(AAE),并通过域标签和类别标签的对抗来拟合内容编码的后验分布。对于图像的风格编码,引入变分自编码器(VAE),通过KL散度使风格编码的后验分布与先验分布趋于一致。编码器框架如图2所示,首先通过编码器分解出图像的内容编码和风格编码,求出对应的后验分布。编码器网络结构如图4所示,内容编码器由4个卷积层构成,前三层卷积核为3*3,第四层卷积核为4*4,最终输出2维的内容编码。风格编码器也由4个卷积层构成,前两层卷积核为3*3,第三层卷积核为1*1,第四层卷积核为3*3,最终输出8维的风格编码。由于风格编码和内容编码的浅层特征具有一致性,因此本文令风格编码器和内容编码器共享第一和第二两个卷积层。为有效防止训练过程中产生的梯度消失和梯度爆炸,在每一个卷积层内部均加入了批量归一化BN层。
3)通过拼接内容编码和风格编码实现图像重构,通过交叉拼接不同域的内容编码和风格编码得到跨域图像的一对多连续变换。
解码器框架如图3所示,得到A域和B域的编码器输出
Figure BDA0002074546300000053
Figure BDA0002074546300000054
可通过编码器重构原域样本或生成跨域样本。解码器网络结构如图5所示,先将潜在编码扩维成n*1*1*8,通过一个4*4和三个3*3的反卷积最终得到3通道的输出图片。
在步骤1)中,首先通过编码器分解出图像的内容编码和风格编码,求出对应的后验分布,对于A域的输入XA可将其表示为内容编码CA和风格编码SA,它们所对应的后验分布
Figure BDA0002074546300000051
Figure BDA0002074546300000052
可分别通过如下公式求解。
Figure BDA0002074546300000061
Figure BDA0002074546300000062
式中,PA为A域的数据分布。
类似的,对于B域,其内容编码CB和风格编码SB的后验分布
Figure BDA0002074546300000063
Figure BDA0002074546300000064
可分别由如下公式求解。
Figure BDA0002074546300000065
Figure BDA0002074546300000066
式中,PB为B域的数据分布。
在步骤2)中,对于风格编码,引入变分自编码器(VAE),通过KL散度使风格编码的后验分布
Figure BDA0002074546300000067
与先验分布
Figure BDA00020745463000000618
趋于一致(以A域为例),并以L(θ,φ,XA)作为下界约束进一步保证后验分布对先验分布的拟合。其中θ和φ分别代表生成参数和变分参数。则针对A域和B域风格编码的VAE损失
Figure BDA0002074546300000068
Figure BDA0002074546300000069
可由如下公式求解。
Figure BDA00020745463000000610
Figure BDA00020745463000000611
式中,Dkl(*)为KL散度。
内容编码作为跨域数据的公共属性,包含了信息丰富的语义特征,编码相对复杂。因此选用对抗自编码器(AAE)并通过域标签和类别标签的对抗来拟合内容编码的后验分布。对于A域的内容编码CA(B域同理),构建对抗损失让内容编码的先验分布
Figure BDA00020745463000000612
和后验分布
Figure BDA00020745463000000613
通过对抗进行拟合。A域和B域内容编码的对抗损失
Figure BDA00020745463000000614
Figure BDA00020745463000000615
可由如下公式求解。
Figure BDA00020745463000000616
Figure BDA00020745463000000617
在步骤3)中,输入A域图像XA,基于对其拟合的内容编码
Figure BDA0002074546300000071
和风格编码
Figure BDA0002074546300000072
解码可生成重构图像X'A,则X'A应能真实还原XA(B域同理)。于是构建了如下公式重构损失Lrec:
Figure BDA0002074546300000073
实验配置:本文实验的硬件环境为Intel Core i7 2600k+GTX 1070 8G+8G RAM,软件环境为windows 7x64+CUDA 8.0+cuDNN 5.1+Caffe+Python.本文使用AlexNet提取图像特征,使用python处理数据,使用MATLAB完成检索指标评价及部分可视化效果,使用python存储图像特征完成检索实验。
数据集:本文实验所用数据集为标准的mnist数据集,svhn数据集和CASIAVIS-NIR数据集。mnist数据集分为60000张训练图片和10000张测试图片,每张图片都是28*28大小,为不同人手写的0到9的数字。svhn数据集分为531131张训练图片和26032张测试图片,每张图片都是32*32大小,为真实世界中街道门牌号码,本文将以上两个数据集的图片统一转化为32*32大小,作为本发明方法的输入进行有监督跨域图像生成实验,实验结果如图6所示,无监督实验结果如图7所示。CASIA VIS-NIR数据集由近红外人脸图像(NIR)和可见光人脸图像(VIS)两个子数据集构成,包含725个类,每个类包含5张人脸图像。实验中,针对每个类选择3张作为训练数据,选择2张作为测试数据。
表1给出了本文选用数据集的基本信息。
表1本文选用数据集的基本信息
数据集 训练图片数目 测试图片数目 类的数目
mnist 60000 10000 10
svhn 531131 26032 10
CASIA VIS-NIR 2175 1450 725
表2有监督分类准确率
Method p2t t2t s2t p2s s2s t2s
AAE 97.24 92.03 78.81 94.28 78.05 90.34
Ours 99.49 95.18 80.83 92.15 76.89 88.93
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (2)

1.一种跨域变分对抗自编码方法,其特征在于,包括以下步骤:
1)利用编码器解耦跨域数据的内容编码和风格编码
通过编码器分解出图像的内容编码和风格编码,求出对应的后验分布;对于内容编码,引入对抗自编码器AAE;对于风格编码,引入变分自编码器VAE;具体如下:
首先,通过编码器分解出图像的内容编码和风格编码,求出对应的后验分布,对于A域的输入XA能够将其表示为内容编码CA和风格编码SA,它们所对应的后验分布
Figure FDA0002978974500000011
Figure FDA0002978974500000012
分别通过如下公式求解:
Figure FDA0002978974500000013
Figure FDA0002978974500000014
式中,PA为A域的数据分布;
对于B域,其内容编码CB和风格编码SB的后验分布
Figure FDA0002978974500000015
Figure FDA0002978974500000016
分别由如下公式求解:
Figure FDA0002978974500000017
Figure FDA0002978974500000018
式中,PB为B域的数据分布,XB为B域的输入;
2)利用对抗操作和变分操作分别去拟合图像的内容编码和风格编码
对于图像的内容编码,引入对抗自编码器AAE,并通过域标签和类别标签的对抗来拟合内容编码的后验分布;对于图像的风格编码,引入变分自编码器VAE,通过KL散度使风格编码的后验分布与先验分布趋于一致;其中,对于风格编码,引入变分自编码器VAE,通过KL散度使A域风格编码的后验分布
Figure FDA0002978974500000019
与先验分布
Figure FDA00029789745000000110
趋于一致,并以L(θ,φ,XA)作为下界约束进一步保证后验分布对先验分布的拟合,其中θ和φ分别代表生成参数和变分参数,XA为A域的输入,同理,B域风格编码的后验分布
Figure FDA0002978974500000021
与先验分布
Figure FDA0002978974500000022
趋于一致,并以L(θ,φ,XB)作为下界约束进一步保证后验分布对先验分布的拟合,XB为B域的输入;则针对A域和B域风格编码的VAE损失
Figure FDA0002978974500000023
Figure FDA0002978974500000024
由如下公式求解:
Figure FDA0002978974500000025
Figure FDA0002978974500000026
式中,Dkl(*)为KL散度;
内容编码作为跨域数据的公共属性,包含了信息丰富的语义特征,编码相对复杂,因此,选用对抗自编码器AAE并通过域标签和类别标签的对抗来拟合内容编码的后验分布;对于A域的内容编码CA,构建对抗损失让内容编码的先验分布
Figure FDA0002978974500000027
和后验分布
Figure FDA0002978974500000028
通过对抗进行拟合,同理,对于B域的内容编码CB,构建对抗损失让内容编码的先验分布
Figure FDA0002978974500000029
和后验分布
Figure FDA00029789745000000210
通过对抗进行拟合;则A域和B域内容编码的对抗损失
Figure FDA00029789745000000211
Figure FDA00029789745000000212
由如下公式求解:
Figure FDA00029789745000000213
Figure FDA00029789745000000214
3)通过拼接内容编码和风格编码实现图像重构,通过交叉拼接不同域的内容编码和风格编码得到跨域图像的一对多连续变换。
2.根据权利要求1所述的一种跨域变分对抗自编码方法,其特征在于:在步骤3)中,输入A域图像XA,基于对其拟合的内容编码后验分布
Figure FDA00029789745000000215
和风格编码后验分布
Figure FDA00029789745000000216
解码能够生成重构图像X'A,则X'A应能真实还原XA,同理,输入B域图像XB,基于对其拟合的内容编码后验分布
Figure FDA00029789745000000217
和风格编码后验分布
Figure FDA00029789745000000218
解码能够生成重构图像X'B,则X'B应能真实还原;于是构建了如下公式重构损失Lrec
Figure FDA0002978974500000031
CN201910449092.4A 2019-05-28 2019-05-28 一种跨域变分对抗自编码方法 Active CN110210549B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910449092.4A CN110210549B (zh) 2019-05-28 2019-05-28 一种跨域变分对抗自编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910449092.4A CN110210549B (zh) 2019-05-28 2019-05-28 一种跨域变分对抗自编码方法

Publications (2)

Publication Number Publication Date
CN110210549A CN110210549A (zh) 2019-09-06
CN110210549B true CN110210549B (zh) 2022-03-29

Family

ID=67788992

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910449092.4A Active CN110210549B (zh) 2019-05-28 2019-05-28 一种跨域变分对抗自编码方法

Country Status (1)

Country Link
CN (1) CN110210549B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766217B (zh) * 2021-01-30 2022-08-26 上海工程技术大学 基于解纠缠和特征级差异学习的跨模态行人重识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106651766A (zh) * 2016-12-30 2017-05-10 深圳市唯特视科技有限公司 一种基于深度卷积神经网络的图像风格迁移方法
CN106952224A (zh) * 2017-03-30 2017-07-14 电子科技大学 一种基于卷积神经网络的图像风格转移方法
CN107123151A (zh) * 2017-04-28 2017-09-01 深圳市唯特视科技有限公司 一种基于变分自动编码器和生成对抗网络的图像转化方法
CN107464210A (zh) * 2017-07-06 2017-12-12 浙江工业大学 一种基于生成式对抗网络的图像风格迁移方法
CN108984524A (zh) * 2018-07-05 2018-12-11 北京理工大学 一种基于变分神经网络主题模型的标题生成方法
CN109544442A (zh) * 2018-11-12 2019-03-29 南京邮电大学 基于双重对抗的生成式对抗网络的图像局部风格迁移方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106651766A (zh) * 2016-12-30 2017-05-10 深圳市唯特视科技有限公司 一种基于深度卷积神经网络的图像风格迁移方法
CN106952224A (zh) * 2017-03-30 2017-07-14 电子科技大学 一种基于卷积神经网络的图像风格转移方法
CN107123151A (zh) * 2017-04-28 2017-09-01 深圳市唯特视科技有限公司 一种基于变分自动编码器和生成对抗网络的图像转化方法
CN107464210A (zh) * 2017-07-06 2017-12-12 浙江工业大学 一种基于生成式对抗网络的图像风格迁移方法
CN108984524A (zh) * 2018-07-05 2018-12-11 北京理工大学 一种基于变分神经网络主题模型的标题生成方法
CN109544442A (zh) * 2018-11-12 2019-03-29 南京邮电大学 基于双重对抗的生成式对抗网络的图像局部风格迁移方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Cross-Domain Adversarial Auto-Encoder;Haodi Hou et al.;《https://arxiv.org/abs/1804.06078 》;20180417;1-9 *
Learning to Write Stylized Chinese Characters by Reading a Handful of Examples;Danyang Sun et al.;《https://arxiv.org/abs/1712.06424》;20180618;1-8 *

Also Published As

Publication number Publication date
CN110210549A (zh) 2019-09-06

Similar Documents

Publication Publication Date Title
Jeong et al. Deep joint spatiotemporal network (DJSTN) for efficient facial expression recognition
Dang et al. Deep learning based computer generated face identification using convolutional neural network
Huang et al. Simultaneous tensor subspace selection and clustering: the equivalence of high order svd and k-means clustering
CN104517274B (zh) 基于贪婪搜索的人脸画像合成方法
Duan et al. SteganoCNN: Image steganography with generalization ability based on convolutional neural network
CN111368734B (zh) 一种基于正常表情辅助的微表情识别方法
Qiu et al. A novel generative model for face privacy protection in video surveillance with utility maintenance
Shen et al. Sparse representation classification beyond ℓ1 minimization and the subspace assumption
Hua et al. Military object real-time detection technology combined with visual salience and psychology
CN110210549B (zh) 一种跨域变分对抗自编码方法
Atito et al. GMML is all you need
Curtidor et al. Analysis of random local descriptors in face recognition
Baia et al. Lie to me: shield your emotions from prying software
Ali et al. Image Denoising with Color Scheme by Using Autoencoders
Liu et al. Color visual secret sharing for QR code with perfect module reconstruction
Song et al. Learning structural similarity with evolutionary-GAN: A new face de-identification method
Tian et al. Colorization of logo sketch based on conditional generative adversarial networks
Zhang et al. Single image super-resolution reconstruction with preservation of structure and texture details
Pan et al. Towards a Controllable and Reversible Privacy Protection System for Facial Images through Enhanced Multi-Factor Modifier Networks
Reddy et al. Soft Computing and Signal Processing
CN113128624B (zh) 一种基于多尺度字典的图网络人脸恢复方法
Dias Da Cruz et al. Autoencoder and partially impossible reconstruction losses
Xu et al. Face Completion Based on Symmetry Awareness with Conditional GAN
Walczyna et al. Quick Overview of Face Swap Deep Fakes
Bai et al. Fast frequency domain screen-shooting watermarking algorithm based on ORB feature points

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant