CN110210549A - 一种跨域变分对抗自编码方法 - Google Patents

一种跨域变分对抗自编码方法 Download PDF

Info

Publication number
CN110210549A
CN110210549A CN201910449092.4A CN201910449092A CN110210549A CN 110210549 A CN110210549 A CN 110210549A CN 201910449092 A CN201910449092 A CN 201910449092A CN 110210549 A CN110210549 A CN 110210549A
Authority
CN
China
Prior art keywords
domain
style
research content
confrontation
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910449092.4A
Other languages
English (en)
Other versions
CN110210549B (zh
Inventor
白静
田栋文
张霖
杨宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North Minzu University
Original Assignee
North Minzu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North Minzu University filed Critical North Minzu University
Priority to CN201910449092.4A priority Critical patent/CN110210549B/zh
Publication of CN110210549A publication Critical patent/CN110210549A/zh
Application granted granted Critical
Publication of CN110210549B publication Critical patent/CN110210549B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种跨域变分对抗自编码方法,包括步骤:1)利用编码器解耦跨域数据的内容编码和风格编码;2)利用对抗操作和变分操作分别去拟合图像的内容编码和风格编码;3)通过拼接内容编码和风格编码实现图像重构,通过交叉拼接不同域的内容编码和风格编码得到跨域图像的一对多连续变换。本发明方法在不提供任何成对数据的前提下,实现了跨域图像的一对多连续变换。

Description

一种跨域变分对抗自编码方法
技术领域
本发明涉及计算机视觉的技术领域,尤其是指一种跨域变分对抗自编码方法。
背景技术
在计算机视觉领域,目前利用单一域数据进行图像生成、图像翻译已经取得了非常好的效果。但是,在实际生活和应用中,这些数据通常来自不同的域。比如一个物体可以有草图和视图两种表示,同样的文本内容可以是不同的字体等等。如何对跨域数据进行处理是一个重要的研究方向。现有的跨域工作主要以生成对抗网GAN为主。这类方法通过对不同域的数据进行对抗学习来自发拟合后验分布实现图像生成。在学习过程中总是需要成对的数据样本,这对数据集的要求比较高,况且在现实中并不存在“马和斑马一一对应的照片”;而且生成能力比较有限,往往只能生成一对一的跨域数据。在工业设计与虚拟现实等领域,设计者总是希望提供一张图片生成目标域的一系列连续变换的图片,现有方法无法满足这种需求。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种跨域变分对抗自编码方法,在不提供任何成对数据的前提下,实现了跨域图像的一对多连续变换。
为实现上述目的,本发明所提供的技术方案为:一种跨域变分对抗自编码方法,包括以下步骤:
1)利用编码器解耦跨域数据的内容编码和风格编码
通过编码器分解出图像的内容编码和风格编码,求出对应的后验分布;对于内容编码,引入对抗自编码器(AAE);对于风格编码,引入变分自编码器(VAE);
2)利用对抗操作和变分操作分别去拟合图像的内容编码和风格编码
对于图像的内容编码,引入对抗自编码器(AAE),并通过域标签和类别标签的对抗来拟合内容编码的后验分布;对于图像的风格编码,引入变分自编码器(VAE),通过KL散度使风格编码的后验分布与先验分布趋于一致;
3)通过拼接内容编码和风格编码实现图像重构,通过交叉拼接不同域的内容编码和风格编码得到跨域图像的一对多连续变换。
在步骤1)中,首先,通过编码器分解出图像的内容编码和风格编码,求出对应的后验分布,对于A域的输入XA能够将其表示为内容编码CA和风格编码SA,它们所对应的后验分布分别通过如下公式求解:
式中,PA为A域的数据分布;
对于B域,其内容编码CB和风格编码SB的后验分布分别由如下公式求解:
式中,PB为B域的数据分布,XB为B域的输入。
在步骤2)中,对于风格编码,引入变分自编码器(VAE),通过KL散度使A域风格编码的后验分布与先验分布趋于一致,并以L(θ,φ,XA)作为下界约束进一步保证后验分布对先验分布的拟合,其中θ和φ分别代表生成参数和变分参数,XA为A域的输入,同理,B域风格编码的后验分布与先验分布趋于一致,并以L(θ,φ,XB)作为下界约束进一步保证后验分布对先验分布的拟合,XB为B域的输入;则针对A域和B域风格编码的VAE损失由如下公式求解:
式中,Dkl(*)为KL散度;
内容编码作为跨域数据的公共属性,包含了信息丰富的语义特征,编码相对复杂,因此,选用对抗自编码器(AAE)并通过域标签和类别标签的对抗来拟合内容编码的后验分布;对于A域的内容编码CA,构建对抗损失让内容编码的先验分布和后验分布通过对抗进行拟合,同理,对于B域的内容编码CB,构建对抗损失让内容编码的先验分布和后验分布通过对抗进行拟合;则A域和B域内容编码的对抗损失由如下公式求解:
在步骤3)中,输入A域图像XA,基于对其拟合的内容编码后验分布和风格编码后验分布解码能够生成重构图像X'A,则X'A应能真实还原XA,同理,输入B域图像XB,基于对其拟合的内容编码后验分布和风格编码后验分布解码能够生成重构图像X'B,则X'B应能真实还原;于是构建了如下公式重构损失Lrec
本发明与现有技术相比,具有如下优点与有益效果:
1、提出了一种新的跨域变分对抗自编码方法,实现了跨域图像一对多的连续变换。
2、在不提供成对数据的情况下,利用变分自编码器和对抗自编码器解耦跨域数据的风格编码和内容编码,捕捉了跨域数据的公共属性和差异性属性,为跨域数据生成提供了基础。
3、在标准数据集MNIST和SVHN上进行的有监督实验表明本发明方法可自动生成语义标签一致风格属性多样的跨域图片;在标准数据集VIS和NIR上的实验表明本发明方法同样可以在无监督情况下实现一对一图像生成,效果较好。
附图说明
图1为本发明的整体框架图。
图2为本发明的编码器框架图。
图3为本发明的解码器框架图。
图4为本发明的编码器网络结构。
图5为本发明的解码器网络结构。
图6为有监督跨域图像生成实验结果。
图7为无监督实验结果。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本实施例所提供的跨域变分对抗自编码方法,在不提供任何成对数据的前提下,实现了跨域图像的一对多连续变换,如图1所示,展示了我们的整体网络框架,编码器将样本分解成内容编码和风格编码内容编码进行对抗,风格编码进行变分。解码器拼接内容编码和风格编码生成图像。其包括以下步骤:
1)利用编码器解耦跨域数据的内容编码和风格编码。
首先通过编码器分解出图像的内容编码和风格编码,求出对应的后验分布。对于内容编码,引入对抗自编码器(AAE);对于风格编码,引入变分自编码器(VAE)。
2)利用对抗操作和变分操作分别去拟合图像的内容编码和风格编码。
对于图像的内容编码,引入对抗自编码器(AAE),并通过域标签和类别标签的对抗来拟合内容编码的后验分布。对于图像的风格编码,引入变分自编码器(VAE),通过KL散度使风格编码的后验分布与先验分布趋于一致。编码器框架如图2所示,首先通过编码器分解出图像的内容编码和风格编码,求出对应的后验分布。编码器网络结构如图4所示,内容编码器由4个卷积层构成,前三层卷积核为3*3,第四层卷积核为4*4,最终输出2维的内容编码。风格编码器也由4个卷积层构成,前两层卷积核为3*3,第三层卷积核为1*1,第四层卷积核为3*3,最终输出8维的风格编码。由于风格编码和内容编码的浅层特征具有一致性,因此本文令风格编码器和内容编码器共享第一和第二两个卷积层。为有效防止训练过程中产生的梯度消失和梯度爆炸,在每一个卷积层内部均加入了批量归一化BN层。
3)通过拼接内容编码和风格编码实现图像重构,通过交叉拼接不同域的内容编码和风格编码得到跨域图像的一对多连续变换。
解码器框架如图3所示,得到A域和B域的编码器输出可通过编码器重构原域样本或生成跨域样本。解码器网络结构如图5所示,先将潜在编码扩维成n*1*1*8,通过一个4*4和三个3*3的反卷积最终得到3通道的输出图片。
在步骤1)中,首先通过编码器分解出图像的内容编码和风格编码,求出对应的后验分布,对于A域的输入XA可将其表示为内容编码CA和风格编码SA,它们所对应的后验分布可分别通过如下公式求解。
式中,PA为A域的数据分布。
类似的,对于B域,其内容编码CB和风格编码SB的后验分布可分别由如下公式求解。
式中,PB为B域的数据分布。
在步骤2)中,对于风格编码,引入变分自编码器(VAE),通过KL散度使风格编码的后验分布与先验分布趋于一致(以A域为例),并以L(θ,φ,XA)作为下界约束进一步保证后验分布对先验分布的拟合。其中θ和φ分别代表生成参数和变分参数。则针对A域和B域风格编码的VAE损失可由如下公式求解。
式中,Dkl(*)为KL散度。
内容编码作为跨域数据的公共属性,包含了信息丰富的语义特征,编码相对复杂。因此选用对抗自编码器(AAE)并通过域标签和类别标签的对抗来拟合内容编码的后验分布。对于A域的内容编码CA(B域同理),构建对抗损失让内容编码的先验分布和后验分布通过对抗进行拟合。A域和B域内容编码的对抗损失可由如下公式求解。
在步骤3)中,输入A域图像XA,基于对其拟合的内容编码和风格编码解码可生成重构图像X'A,则X'A应能真实还原XA(B域同理)。于是构建了如下公式重构损失Lrec:
实验配置:本文实验的硬件环境为Intel Core i7 2600k+GTX 1070 8G+8G RAM,软件环境为windows 7x64+CUDA 8.0+cuDNN 5.1+Caffe+Python.本文使用AlexNet提取图像特征,使用python处理数据,使用MATLAB完成检索指标评价及部分可视化效果,使用python存储图像特征完成检索实验。
数据集:本文实验所用数据集为标准的mnist数据集,svhn数据集和CASIAVIS-NIR数据集。mnist数据集分为60000张训练图片和10000张测试图片,每张图片都是28*28大小,为不同人手写的0到9的数字。svhn数据集分为531131张训练图片和26032张测试图片,每张图片都是32*32大小,为真实世界中街道门牌号码,本文将以上两个数据集的图片统一转化为32*32大小,作为本发明方法的输入进行有监督跨域图像生成实验,实验结果如图6所示,无监督实验结果如图7所示。CASIA VIS-NIR数据集由近红外人脸图像(NIR)和可见光人脸图像(VIS)两个子数据集构成,包含725个类,每个类包含5张人脸图像。实验中,针对每个类选择3张作为训练数据,选择2张作为测试数据。
表1给出了本文选用数据集的基本信息。
表1本文选用数据集的基本信息
数据集 训练图片数目 测试图片数目 类的数目
mnist 60000 10000 10
svhn 531131 26032 10
CASIA VIS-NIR 2175 1450 725
表2有监督分类准确率
Method p2t t2t s2t p2s s2s t2s
AAE 97.24 92.03 78.81 94.28 78.05 90.34
Ours 99.49 95.18 80.83 92.15 76.89 88.93
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (4)

1.一种跨域变分对抗自编码方法,其特征在于,包括以下步骤:
1)利用编码器解耦跨域数据的内容编码和风格编码
通过编码器分解出图像的内容编码和风格编码,求出对应的后验分布;对于内容编码,引入对抗自编码器AAE;对于风格编码,引入变分自编码器VAE;
2)利用对抗操作和变分操作分别去拟合图像的内容编码和风格编码
对于图像的内容编码,引入对抗自编码器AAE,并通过域标签和类别标签的对抗来拟合内容编码的后验分布;对于图像的风格编码,引入变分自编码器VAE,通过KL散度使风格编码的后验分布与先验分布趋于一致;
3)通过拼接内容编码和风格编码实现图像重构,通过交叉拼接不同域的内容编码和风格编码得到跨域图像的一对多连续变换。
2.根据权利要求1所述的一种跨域变分对抗自编码方法,其特征在于:在步骤1)中,首先,通过编码器分解出图像的内容编码和风格编码,求出对应的后验分布,对于A域的输入XA能够将其表示为内容编码CA和风格编码SA,它们所对应的后验分布分别通过如下公式求解:
式中,PA为A域的数据分布;
对于B域,其内容编码CB和风格编码SB的后验分布分别由如下公式求解:
式中,PB为B域的数据分布,XB为B域的输入。
3.根据权利要求1所述的一种跨域变分对抗自编码方法,其特征在于:在步骤2)中,对于风格编码,引入变分自编码器VAE,通过KL散度使A域风格编码的后验分布与先验分布趋于一致,并以L(θ,φ,XA)作为下界约束进一步保证后验分布对先验分布的拟合,其中θ和φ分别代表生成参数和变分参数,XA为A域的输入,同理,B域风格编码的后验分布与先验分布趋于一致,并以L(θ,φ,XB)作为下界约束进一步保证后验分布对先验分布的拟合,XB为B域的输入;则针对A域和B域风格编码的VAE损失由如下公式求解:
式中,Dkl(*)为KL散度;
内容编码作为跨域数据的公共属性,包含了信息丰富的语义特征,编码相对复杂,因此,选用对抗自编码器AAE并通过域标签和类别标签的对抗来拟合内容编码的后验分布;对于A域的内容编码CA,构建对抗损失让内容编码的先验分布和后验分布通过对抗进行拟合,同理,对于B域的内容编码CB,构建对抗损失让内容编码的先验分布和后验分布通过对抗进行拟合;则A域和B域内容编码的对抗损失由如下公式求解:
4.根据权利要求1所述的一种跨域变分对抗自编码方法,其特征在于:在步骤3)中,输入A域图像XA,基于对其拟合的内容编码后验分布和风格编码后验分布解码能够生成重构图像X'A,则X'A应能真实还原XA,同理,输入B域图像XB,基于对其拟合的内容编码后验分布和风格编码后验分布解码能够生成重构图像X'B,则X'B应能真实还原;于是构建了如下公式重构损失Lrec
CN201910449092.4A 2019-05-28 2019-05-28 一种跨域变分对抗自编码方法 Active CN110210549B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910449092.4A CN110210549B (zh) 2019-05-28 2019-05-28 一种跨域变分对抗自编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910449092.4A CN110210549B (zh) 2019-05-28 2019-05-28 一种跨域变分对抗自编码方法

Publications (2)

Publication Number Publication Date
CN110210549A true CN110210549A (zh) 2019-09-06
CN110210549B CN110210549B (zh) 2022-03-29

Family

ID=67788992

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910449092.4A Active CN110210549B (zh) 2019-05-28 2019-05-28 一种跨域变分对抗自编码方法

Country Status (1)

Country Link
CN (1) CN110210549B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766217A (zh) * 2021-01-30 2021-05-07 上海工程技术大学 基于解纠缠和特征级差异学习的跨模态行人重识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106651766A (zh) * 2016-12-30 2017-05-10 深圳市唯特视科技有限公司 一种基于深度卷积神经网络的图像风格迁移方法
CN106952224A (zh) * 2017-03-30 2017-07-14 电子科技大学 一种基于卷积神经网络的图像风格转移方法
CN107123151A (zh) * 2017-04-28 2017-09-01 深圳市唯特视科技有限公司 一种基于变分自动编码器和生成对抗网络的图像转化方法
CN107464210A (zh) * 2017-07-06 2017-12-12 浙江工业大学 一种基于生成式对抗网络的图像风格迁移方法
CN108984524A (zh) * 2018-07-05 2018-12-11 北京理工大学 一种基于变分神经网络主题模型的标题生成方法
CN109544442A (zh) * 2018-11-12 2019-03-29 南京邮电大学 基于双重对抗的生成式对抗网络的图像局部风格迁移方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106651766A (zh) * 2016-12-30 2017-05-10 深圳市唯特视科技有限公司 一种基于深度卷积神经网络的图像风格迁移方法
CN106952224A (zh) * 2017-03-30 2017-07-14 电子科技大学 一种基于卷积神经网络的图像风格转移方法
CN107123151A (zh) * 2017-04-28 2017-09-01 深圳市唯特视科技有限公司 一种基于变分自动编码器和生成对抗网络的图像转化方法
CN107464210A (zh) * 2017-07-06 2017-12-12 浙江工业大学 一种基于生成式对抗网络的图像风格迁移方法
CN108984524A (zh) * 2018-07-05 2018-12-11 北京理工大学 一种基于变分神经网络主题模型的标题生成方法
CN109544442A (zh) * 2018-11-12 2019-03-29 南京邮电大学 基于双重对抗的生成式对抗网络的图像局部风格迁移方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DANYANG SUN ET AL.: "Learning to Write Stylized Chinese Characters by Reading a Handful of Examples", 《HTTPS://ARXIV.ORG/ABS/1712.06424》 *
HAODI HOU ET AL.: "Cross-Domain Adversarial Auto-Encoder", 《HTTPS://ARXIV.ORG/ABS/1804.06078 》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766217A (zh) * 2021-01-30 2021-05-07 上海工程技术大学 基于解纠缠和特征级差异学习的跨模态行人重识别方法
CN112766217B (zh) * 2021-01-30 2022-08-26 上海工程技术大学 基于解纠缠和特征级差异学习的跨模态行人重识别方法

Also Published As

Publication number Publication date
CN110210549B (zh) 2022-03-29

Similar Documents

Publication Publication Date Title
US20210374474A1 (en) Method, apparatus, and electronic device for training neural network model
Yu et al. Revisiting pixel-wise supervision for face anti-spoofing
WO2020258668A1 (zh) 基于对抗网络模型的人脸图像生成方法及装置、非易失性可读存储介质、计算机设备
CN110334742B (zh) 一种用于文档分类的基于强化学习的通过添加虚假节点的图对抗样本生成方法
CN111133453B (zh) 人工神经网络
CN107239801A (zh) 视频属性表示学习方法及视频文字描述自动生成方法
CN107515855B (zh) 一种结合表情符的微博情感分析方法和系统
CN104679863A (zh) 一种基于深度学习的以图搜图方法和系统
CN111581966A (zh) 一种融合上下文特征方面级情感分类方法和装置
WO2022105117A1 (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN113486190B (zh) 一种融合实体图像信息和实体类别信息的多模态知识表示方法
CN112395979B (zh) 基于图像的健康状态识别方法、装置、设备及存储介质
CN108763191A (zh) 一种文本摘要生成方法及系统
Bai et al. Boosting convolutional image captioning with semantic content and visual relationship
CN113064968B (zh) 一种基于张量融合网络的社交媒体情感分析方法及系统
US20220101144A1 (en) Training a latent-variable generative model with a noise contrastive prior
CN110321761A (zh) 一种行为识别方法、终端设备及计算机可读存储介质
CN109978139A (zh) 图片自动生成描述的方法、系统、电子装置及存储介质
CN113657272B (zh) 一种基于缺失数据补全的微视频分类方法及系统
CN110210549A (zh) 一种跨域变分对抗自编码方法
CN110222839A (zh) 一种网络表示学习的方法、装置及存储介质
CN116860221A (zh) 一种低代码数据模型智能推荐方法及系统
CN111723186A (zh) 用于对话系统的基于人工智能的知识图谱生成方法、电子设备
CN116311455A (zh) 一种基于改进Mobile-former的表情识别方法
Su et al. Cleaning adversarial perturbations via residual generative network for face verification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant