CN110210549B - 一种跨域变分对抗自编码方法 - Google Patents
一种跨域变分对抗自编码方法 Download PDFInfo
- Publication number
- CN110210549B CN110210549B CN201910449092.4A CN201910449092A CN110210549B CN 110210549 B CN110210549 B CN 110210549B CN 201910449092 A CN201910449092 A CN 201910449092A CN 110210549 B CN110210549 B CN 110210549B
- Authority
- CN
- China
- Prior art keywords
- coding
- domain
- content
- style
- distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 230000009466 transformation Effects 0.000 claims abstract description 8
- 238000009826 distribution Methods 0.000 claims description 69
- 230000008485 antagonism Effects 0.000 claims description 2
- 238000002474 experimental method Methods 0.000 description 9
- 238000012549 training Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 241000283086 Equidae Species 0.000 description 2
- 230000003042 antagnostic effect Effects 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种跨域变分对抗自编码方法,包括步骤:1)利用编码器解耦跨域数据的内容编码和风格编码;2)利用对抗操作和变分操作分别去拟合图像的内容编码和风格编码;3)通过拼接内容编码和风格编码实现图像重构,通过交叉拼接不同域的内容编码和风格编码得到跨域图像的一对多连续变换。本发明方法在不提供任何成对数据的前提下,实现了跨域图像的一对多连续变换。
Description
技术领域
本发明涉及计算机视觉的技术领域,尤其是指一种跨域变分对抗自编码方法。
背景技术
在计算机视觉领域,目前利用单一域数据进行图像生成、图像翻译已经取得了非常好的效果。但是,在实际生活和应用中,这些数据通常来自不同的域。比如一个物体可以有草图和视图两种表示,同样的文本内容可以是不同的字体等等。如何对跨域数据进行处理是一个重要的研究方向。现有的跨域工作主要以生成对抗网GAN为主。这类方法通过对不同域的数据进行对抗学习来自发拟合后验分布实现图像生成。在学习过程中总是需要成对的数据样本,这对数据集的要求比较高,况且在现实中并不存在“马和斑马一一对应的照片”;而且生成能力比较有限,往往只能生成一对一的跨域数据。在工业设计与虚拟现实等领域,设计者总是希望提供一张图片生成目标域的一系列连续变换的图片,现有方法无法满足这种需求。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种跨域变分对抗自编码方法,在不提供任何成对数据的前提下,实现了跨域图像的一对多连续变换。
为实现上述目的,本发明所提供的技术方案为:一种跨域变分对抗自编码方法,包括以下步骤:
1)利用编码器解耦跨域数据的内容编码和风格编码
通过编码器分解出图像的内容编码和风格编码,求出对应的后验分布;对于内容编码,引入对抗自编码器(AAE);对于风格编码,引入变分自编码器(VAE);
2)利用对抗操作和变分操作分别去拟合图像的内容编码和风格编码
对于图像的内容编码,引入对抗自编码器(AAE),并通过域标签和类别标签的对抗来拟合内容编码的后验分布;对于图像的风格编码,引入变分自编码器(VAE),通过KL散度使风格编码的后验分布与先验分布趋于一致;
3)通过拼接内容编码和风格编码实现图像重构,通过交叉拼接不同域的内容编码和风格编码得到跨域图像的一对多连续变换。
式中,PA为A域的数据分布;
式中,PB为B域的数据分布,XB为B域的输入。
在步骤2)中,对于风格编码,引入变分自编码器(VAE),通过KL散度使A域风格编码的后验分布与先验分布趋于一致,并以L(θ,φ,XA)作为下界约束进一步保证后验分布对先验分布的拟合,其中θ和φ分别代表生成参数和变分参数,XA为A域的输入,同理,B域风格编码的后验分布与先验分布趋于一致,并以L(θ,φ,XB)作为下界约束进一步保证后验分布对先验分布的拟合,XB为B域的输入;则针对A域和B域风格编码的VAE损失和由如下公式求解:
式中,Dkl(*)为KL散度;
内容编码作为跨域数据的公共属性,包含了信息丰富的语义特征,编码相对复杂,因此,选用对抗自编码器(AAE)并通过域标签和类别标签的对抗来拟合内容编码的后验分布;对于A域的内容编码CA,构建对抗损失让内容编码的先验分布和后验分布通过对抗进行拟合,同理,对于B域的内容编码CB,构建对抗损失让内容编码的先验分布和后验分布通过对抗进行拟合;则A域和B域内容编码的对抗损失和由如下公式求解:
在步骤3)中,输入A域图像XA,基于对其拟合的内容编码后验分布和风格编码后验分布解码能够生成重构图像X'A,则X'A应能真实还原XA,同理,输入B域图像XB,基于对其拟合的内容编码后验分布和风格编码后验分布解码能够生成重构图像X'B,则X'B应能真实还原;于是构建了如下公式重构损失Lrec:
本发明与现有技术相比,具有如下优点与有益效果:
1、提出了一种新的跨域变分对抗自编码方法,实现了跨域图像一对多的连续变换。
2、在不提供成对数据的情况下,利用变分自编码器和对抗自编码器解耦跨域数据的风格编码和内容编码,捕捉了跨域数据的公共属性和差异性属性,为跨域数据生成提供了基础。
3、在标准数据集MNIST和SVHN上进行的有监督实验表明本发明方法可自动生成语义标签一致风格属性多样的跨域图片;在标准数据集VIS和NIR上的实验表明本发明方法同样可以在无监督情况下实现一对一图像生成,效果较好。
附图说明
图1为本发明的整体框架图。
图2为本发明的编码器框架图。
图3为本发明的解码器框架图。
图4为本发明的编码器网络结构。
图5为本发明的解码器网络结构。
图6为有监督跨域图像生成实验结果。
图7为无监督实验结果。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本实施例所提供的跨域变分对抗自编码方法,在不提供任何成对数据的前提下,实现了跨域图像的一对多连续变换,如图1所示,展示了我们的整体网络框架,编码器将样本分解成内容编码和风格编码内容编码进行对抗,风格编码进行变分。解码器拼接内容编码和风格编码生成图像。其包括以下步骤:
1)利用编码器解耦跨域数据的内容编码和风格编码。
首先通过编码器分解出图像的内容编码和风格编码,求出对应的后验分布。对于内容编码,引入对抗自编码器(AAE);对于风格编码,引入变分自编码器(VAE)。
2)利用对抗操作和变分操作分别去拟合图像的内容编码和风格编码。
对于图像的内容编码,引入对抗自编码器(AAE),并通过域标签和类别标签的对抗来拟合内容编码的后验分布。对于图像的风格编码,引入变分自编码器(VAE),通过KL散度使风格编码的后验分布与先验分布趋于一致。编码器框架如图2所示,首先通过编码器分解出图像的内容编码和风格编码,求出对应的后验分布。编码器网络结构如图4所示,内容编码器由4个卷积层构成,前三层卷积核为3*3,第四层卷积核为4*4,最终输出2维的内容编码。风格编码器也由4个卷积层构成,前两层卷积核为3*3,第三层卷积核为1*1,第四层卷积核为3*3,最终输出8维的风格编码。由于风格编码和内容编码的浅层特征具有一致性,因此本文令风格编码器和内容编码器共享第一和第二两个卷积层。为有效防止训练过程中产生的梯度消失和梯度爆炸,在每一个卷积层内部均加入了批量归一化BN层。
3)通过拼接内容编码和风格编码实现图像重构,通过交叉拼接不同域的内容编码和风格编码得到跨域图像的一对多连续变换。
解码器框架如图3所示,得到A域和B域的编码器输出和可通过编码器重构原域样本或生成跨域样本。解码器网络结构如图5所示,先将潜在编码扩维成n*1*1*8,通过一个4*4和三个3*3的反卷积最终得到3通道的输出图片。
式中,PA为A域的数据分布。
式中,PB为B域的数据分布。
在步骤2)中,对于风格编码,引入变分自编码器(VAE),通过KL散度使风格编码的后验分布与先验分布趋于一致(以A域为例),并以L(θ,φ,XA)作为下界约束进一步保证后验分布对先验分布的拟合。其中θ和φ分别代表生成参数和变分参数。则针对A域和B域风格编码的VAE损失和可由如下公式求解。
式中,Dkl(*)为KL散度。
内容编码作为跨域数据的公共属性,包含了信息丰富的语义特征,编码相对复杂。因此选用对抗自编码器(AAE)并通过域标签和类别标签的对抗来拟合内容编码的后验分布。对于A域的内容编码CA(B域同理),构建对抗损失让内容编码的先验分布和后验分布通过对抗进行拟合。A域和B域内容编码的对抗损失和可由如下公式求解。
实验配置:本文实验的硬件环境为Intel Core i7 2600k+GTX 1070 8G+8G RAM,软件环境为windows 7x64+CUDA 8.0+cuDNN 5.1+Caffe+Python.本文使用AlexNet提取图像特征,使用python处理数据,使用MATLAB完成检索指标评价及部分可视化效果,使用python存储图像特征完成检索实验。
数据集:本文实验所用数据集为标准的mnist数据集,svhn数据集和CASIAVIS-NIR数据集。mnist数据集分为60000张训练图片和10000张测试图片,每张图片都是28*28大小,为不同人手写的0到9的数字。svhn数据集分为531131张训练图片和26032张测试图片,每张图片都是32*32大小,为真实世界中街道门牌号码,本文将以上两个数据集的图片统一转化为32*32大小,作为本发明方法的输入进行有监督跨域图像生成实验,实验结果如图6所示,无监督实验结果如图7所示。CASIA VIS-NIR数据集由近红外人脸图像(NIR)和可见光人脸图像(VIS)两个子数据集构成,包含725个类,每个类包含5张人脸图像。实验中,针对每个类选择3张作为训练数据,选择2张作为测试数据。
表1给出了本文选用数据集的基本信息。
表1本文选用数据集的基本信息
数据集 | 训练图片数目 | 测试图片数目 | 类的数目 |
mnist | 60000 | 10000 | 10 |
svhn | 531131 | 26032 | 10 |
CASIA VIS-NIR | 2175 | 1450 | 725 |
表2有监督分类准确率
Method | p2t | t2t | s2t | p2s | s2s | t2s |
AAE | 97.24 | 92.03 | 78.81 | 94.28 | 78.05 | 90.34 |
Ours | 99.49 | 95.18 | 80.83 | 92.15 | 76.89 | 88.93 |
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
Claims (2)
1.一种跨域变分对抗自编码方法,其特征在于,包括以下步骤:
1)利用编码器解耦跨域数据的内容编码和风格编码
通过编码器分解出图像的内容编码和风格编码,求出对应的后验分布;对于内容编码,引入对抗自编码器AAE;对于风格编码,引入变分自编码器VAE;具体如下:
式中,PA为A域的数据分布;
式中,PB为B域的数据分布,XB为B域的输入;
2)利用对抗操作和变分操作分别去拟合图像的内容编码和风格编码
对于图像的内容编码,引入对抗自编码器AAE,并通过域标签和类别标签的对抗来拟合内容编码的后验分布;对于图像的风格编码,引入变分自编码器VAE,通过KL散度使风格编码的后验分布与先验分布趋于一致;其中,对于风格编码,引入变分自编码器VAE,通过KL散度使A域风格编码的后验分布与先验分布趋于一致,并以L(θ,φ,XA)作为下界约束进一步保证后验分布对先验分布的拟合,其中θ和φ分别代表生成参数和变分参数,XA为A域的输入,同理,B域风格编码的后验分布与先验分布趋于一致,并以L(θ,φ,XB)作为下界约束进一步保证后验分布对先验分布的拟合,XB为B域的输入;则针对A域和B域风格编码的VAE损失和由如下公式求解:
式中,Dkl(*)为KL散度;
内容编码作为跨域数据的公共属性,包含了信息丰富的语义特征,编码相对复杂,因此,选用对抗自编码器AAE并通过域标签和类别标签的对抗来拟合内容编码的后验分布;对于A域的内容编码CA,构建对抗损失让内容编码的先验分布和后验分布通过对抗进行拟合,同理,对于B域的内容编码CB,构建对抗损失让内容编码的先验分布和后验分布通过对抗进行拟合;则A域和B域内容编码的对抗损失和由如下公式求解:
3)通过拼接内容编码和风格编码实现图像重构,通过交叉拼接不同域的内容编码和风格编码得到跨域图像的一对多连续变换。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910449092.4A CN110210549B (zh) | 2019-05-28 | 2019-05-28 | 一种跨域变分对抗自编码方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910449092.4A CN110210549B (zh) | 2019-05-28 | 2019-05-28 | 一种跨域变分对抗自编码方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110210549A CN110210549A (zh) | 2019-09-06 |
CN110210549B true CN110210549B (zh) | 2022-03-29 |
Family
ID=67788992
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910449092.4A Active CN110210549B (zh) | 2019-05-28 | 2019-05-28 | 一种跨域变分对抗自编码方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110210549B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112766217B (zh) * | 2021-01-30 | 2022-08-26 | 上海工程技术大学 | 基于解纠缠和特征级差异学习的跨模态行人重识别方法 |
CN114239744B (zh) * | 2021-12-21 | 2024-07-02 | 南京邮电大学 | 一种基于变分生成对抗网络的个体处理效应评估方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106651766A (zh) * | 2016-12-30 | 2017-05-10 | 深圳市唯特视科技有限公司 | 一种基于深度卷积神经网络的图像风格迁移方法 |
CN106952224A (zh) * | 2017-03-30 | 2017-07-14 | 电子科技大学 | 一种基于卷积神经网络的图像风格转移方法 |
CN107123151A (zh) * | 2017-04-28 | 2017-09-01 | 深圳市唯特视科技有限公司 | 一种基于变分自动编码器和生成对抗网络的图像转化方法 |
CN107464210A (zh) * | 2017-07-06 | 2017-12-12 | 浙江工业大学 | 一种基于生成式对抗网络的图像风格迁移方法 |
CN108984524A (zh) * | 2018-07-05 | 2018-12-11 | 北京理工大学 | 一种基于变分神经网络主题模型的标题生成方法 |
CN109544442A (zh) * | 2018-11-12 | 2019-03-29 | 南京邮电大学 | 基于双重对抗的生成式对抗网络的图像局部风格迁移方法 |
-
2019
- 2019-05-28 CN CN201910449092.4A patent/CN110210549B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106651766A (zh) * | 2016-12-30 | 2017-05-10 | 深圳市唯特视科技有限公司 | 一种基于深度卷积神经网络的图像风格迁移方法 |
CN106952224A (zh) * | 2017-03-30 | 2017-07-14 | 电子科技大学 | 一种基于卷积神经网络的图像风格转移方法 |
CN107123151A (zh) * | 2017-04-28 | 2017-09-01 | 深圳市唯特视科技有限公司 | 一种基于变分自动编码器和生成对抗网络的图像转化方法 |
CN107464210A (zh) * | 2017-07-06 | 2017-12-12 | 浙江工业大学 | 一种基于生成式对抗网络的图像风格迁移方法 |
CN108984524A (zh) * | 2018-07-05 | 2018-12-11 | 北京理工大学 | 一种基于变分神经网络主题模型的标题生成方法 |
CN109544442A (zh) * | 2018-11-12 | 2019-03-29 | 南京邮电大学 | 基于双重对抗的生成式对抗网络的图像局部风格迁移方法 |
Non-Patent Citations (2)
Title |
---|
Cross-Domain Adversarial Auto-Encoder;Haodi Hou et al.;《https://arxiv.org/abs/1804.06078 》;20180417;1-9 * |
Learning to Write Stylized Chinese Characters by Reading a Handful of Examples;Danyang Sun et al.;《https://arxiv.org/abs/1712.06424》;20180618;1-8 * |
Also Published As
Publication number | Publication date |
---|---|
CN110210549A (zh) | 2019-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jeong et al. | Deep joint spatiotemporal network (DJSTN) for efficient facial expression recognition | |
Dang et al. | Deep learning based computer generated face identification using convolutional neural network | |
Huang et al. | Simultaneous tensor subspace selection and clustering: the equivalence of high order svd and k-means clustering | |
Duan et al. | SteganoCNN: Image steganography with generalization ability based on convolutional neural network | |
CN110210549B (zh) | 一种跨域变分对抗自编码方法 | |
Atito et al. | GMML is all you need | |
Qiu et al. | A novel generative model for face privacy protection in video surveillance with utility maintenance | |
CN111368734B (zh) | 一种基于正常表情辅助的微表情识别方法 | |
Shen et al. | Sparse representation classification beyond ℓ1 minimization and the subspace assumption | |
Curtidor et al. | Analysis of random local descriptors in face recognition | |
CN116630183A (zh) | 一种基于生成式对抗网络的文字图像修复方法 | |
Baia et al. | Lie to me: shield your emotions from prying software | |
Gu et al. | Anti-screenshot watermarking algorithm for archival image based on deep learning model | |
Liu et al. | Color visual secret sharing for QR code with perfect module reconstruction | |
Song et al. | Learning structural similarity with evolutionary-GAN: A new face de-identification method | |
Zhang et al. | Single image super-resolution reconstruction with preservation of structure and texture details | |
Ali et al. | Image Denoising with Color Scheme by Using Autoencoders | |
Tian et al. | Colorization of logo sketch based on conditional generative adversarial networks | |
Pan et al. | Towards a Controllable and Reversible Privacy Protection System for Facial Images through Enhanced Multi-Factor Modifier Networks | |
Walczyna et al. | Quick Overview of Face Swap Deep Fakes | |
CN109815929A (zh) | 基于卷积神经网络的人脸识别方法 | |
Xue et al. | A transformer-based DeepFake-detection method for facial organs | |
CN113128624B (zh) | 一种基于多尺度字典的图网络人脸恢复方法 | |
Ding et al. | Single-sample face recognition based on shared generative adversarial network | |
Xu et al. | Face Completion Based on Symmetry Awareness with Conditional GAN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240617 Address after: 401320 Banan District, Banan District, Chongqing, No. 8-29, Yu Nan Road, No. 8-29 Patentee after: Chongqing Boshi Intellectual Property Service Co.,Ltd. Country or region after: China Address before: 750021 No. 204, Wenchang North Street, Xixia District, the Ningxia Hui Autonomous Region, Yinchuan Patentee before: BEIFANG MINZU University Country or region before: China |