CN110263865B - 一种半监督多模态多类别的图像翻译方法 - Google Patents

一种半监督多模态多类别的图像翻译方法 Download PDF

Info

Publication number
CN110263865B
CN110263865B CN201910548961.9A CN201910548961A CN110263865B CN 110263865 B CN110263865 B CN 110263865B CN 201910548961 A CN201910548961 A CN 201910548961A CN 110263865 B CN110263865 B CN 110263865B
Authority
CN
China
Prior art keywords
image
content
encoder
style
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910548961.9A
Other languages
English (en)
Other versions
CN110263865A (zh
Inventor
白静
陈冉
李赛赛
姬卉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Boshi Intellectual Property Service Co ltd
Original Assignee
North Minzu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North Minzu University filed Critical North Minzu University
Priority to CN201910548961.9A priority Critical patent/CN110263865B/zh
Publication of CN110263865A publication Critical patent/CN110263865A/zh
Application granted granted Critical
Publication of CN110263865B publication Critical patent/CN110263865B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种半监督多模态多类别的图像翻译方法,包括步骤:S1、输入两个来自不同域的图像以及少量标签;S2、将输入的图像和标签都送入编码器,编码器分为内容编码器和风格编码器,利用解耦表示学习从风格编码器和内容编码器中,将图像分别解耦出风格编码和内容编码;S3、把风格编码输入至对抗自编码器中,以完成图像多类别训练;把内容编码输入至内容对抗学习网络中,以完成图像多模态变换训练;S4、通过拼接风格编码和内容编码实现图像的重构和多模态的变换。本发明解决了由于图像翻译多样性的要求所带来的困境,通过对潜在内容编码和风格编码的联合解码,可以生成多模态和多类别的跨域图像。

Description

一种半监督多模态多类别的图像翻译方法
技术领域
本发明涉及计算机视觉、计算机图形学与机器学习的技术领域,尤其是指一种半监督多模态多类别的图像翻译方法。
背景技术
随着深度学习技术和图像生成技术的不断发展,图像翻译领域涌现出大量优秀工作,半监督多模态多类别的图像翻译是计算机视觉领域重要且具有挑战性的研究问题,其中半监督多模态多类别的图像翻译在工业设计等领域具有明显的应用价值,可应用于图像着色、超分辨率生成、风格转换等各个方面。当前来看,现有的图像翻译是将问题转化为一对一的图像映射,需要明确给定两个不同的图像域,而在很多场景下,跨域的图像翻译是多模态的,因此,现有的跨域数据翻译无法满足这些需求。
发明内容
本发明的目的在于克服现有技术的缺点与不足,针对多模态多类别的图像翻译需求,提出了一种半监督多模态多类别的图像翻译方法,可有效解决由于图像翻译多样性带来的困境,并生成其多模态变换。在半监督数据的前提下,将输入的图像和标签都送入编码器,将图像分别解耦出风格编码和内容编码,通过拼接风格编码和内容编码实现图像的重构和多模态的变换。
为实现上述目的,本发明所提供的技术方案为:一种半监督多模态多类别的图像翻译方法,包括以下步骤:
S1、输入两个来自不同域的图像1、2以及少量标签;
S2、将输入的图像和标签都送入编码器,编码器分为内容编码器和风格编码器,利用解耦表示学习从风格编码器和内容编码器中,将图像分别解耦出风格编码和内容编码;
S3、把风格编码输入至对抗自编码器中,以完成图像多类别训练;把内容编码输入至内容对抗学习网络中,以完成图像多模态变换训练;
S4、通过拼接风格编码和内容编码实现图像的重构和多模态的变换。
在步骤S1中,两个来自不同域的图像指的是该两个图像在内容和风格上存在差异性;另外,图像分为有标记标签样本和未标记标签样本,通过对样本输入少量标签,能够使得准确度有所提升。
在步骤S2中,编码器将输入的两个图像分别进行编码,通过解耦表示学习解耦出两个图像的风格编码和内容编码,以达到图像变换的目的;风格编码器通过解耦表示学习中的5个卷积层和批量归一化(BN)产生,最终解耦出8维的风格编码;内容编码器通过解耦表示学习中的4个卷积层和批量归一化(BN)产生,最终解耦出128维的初始内容编码;由于图像的风格编码和内容编码在浅层上具有相同的特征,因此,在解耦表示学习中,风格编码和内容编码前两层的卷积和批量归一化(BN)是共享的,目标在于提取浅层特征。
在步骤S3中,将编码器通过解耦表示学习产生的两组风格编码送入到对抗自编码器(AAE)中,最终输出为0和1的二分类结果;其中,对抗自编码器(AAE)由(256,64,16,1)四个多层感知器(MLP)组成,对抗自编码器(AAE)设计的目的是使得风格编码满足给定的数据分布,因此,对抗损失
Figure BDA0002104929890000021
能够通过如下公式求解:
Figure BDA0002104929890000022
式中,
Figure BDA0002104929890000023
为图像的风格编码,
Figure BDA0002104929890000024
为给定的图像数据分布,
Figure BDA0002104929890000025
为图像对应的数据分布。
在步骤S3中,将编码器通过解耦表示学习产生的两组内容编码送入到内容对抗学习网络,进行跨域和类别的分类,进而产生所需要的编码,以达到输入图像的多类别变换;所述内容对抗学习网络包括两个子网络:域标签分类器和类标签分类器,所述域标签分类器由一系列多层感知器MLP(256、128、64、64、2)组成,所述类标签分类器由一个多层感知器MLP(k)和一个softmax层组成,k为类别数目;为了判定域标签分类器接收的内容编码来自于哪个域,以及判定类标签分类器接收的图像是哪一个类别,因此,定义了域标签分类器损失LDomain和类标签分类器损失Llabel,分别通过如下公式求解:
Figure BDA0002104929890000031
Figure BDA0002104929890000032
式中,
Figure BDA0002104929890000033
为图像1的内容编码,
Figure BDA0002104929890000034
为图像1对应的数据分布,
Figure BDA0002104929890000035
为图像2的内容编码,
Figure BDA0002104929890000036
为图像2对应的数据分布,FCE为交叉熵损失函数,L1为图像1的标签,L2为图像2的标签,x1为输入图像1,x2为输入图像2;
为了保证在训练的过程中良好的域平滑效果,定义了少量标签数据损失
Figure BDA0002104929890000037
和无标签数据损失
Figure BDA0002104929890000038
分别通过如下公式求解:
Figure BDA0002104929890000039
Figure BDA00021049298900000310
式中,L1为图像1的标签,
Figure BDA00021049298900000311
为图像1的内容编码,x1→2为图像1到图像2的转换,
Figure BDA00021049298900000312
为图像1到图像2的内容转换编码,FCE为交叉熵损失,L2为图像2的标签,
Figure BDA00021049298900000313
为图像2的内容编码,x2→1为图像2到图像1的转换,
Figure BDA00021049298900000314
为图像2到图像1的内容转换编码,x1为输入图像1,x2为输入图像2。
在步骤S4中,通过解码器将图像1的内容编码和图像1的风格编码生成原始图像,将图像1的内容编码和图像2的风格编码或者图像1的风格编码和图像2的内容编码生成跨域转换的图像;其中,解码器的结构是将一个4*4反卷积层与三个连续的3*3反卷积层重新组合,在每个反卷积层之后,还添加了一个批量归一化(BN)层,通过从输入编码中解码,构建输入图像的重构损失
Figure BDA0002104929890000041
少量标签的重构损失Lsemi-su和无标签的重构损失Lun,最终实现对图像多模态多类别的转换,分别通过如下公式求解:
Figure BDA0002104929890000042
式中,
Figure BDA0002104929890000043
为图像i的内容编码,
Figure BDA0002104929890000044
为图像i的风格编码,xi为某个图像,
Figure BDA0002104929890000045
为对内容编码和风格编码二元组(*1,*2)解码后的输出图像,||*||2为L2正则化范数;
Figure BDA0002104929890000046
式中,
Figure BDA0002104929890000047
为输入图像1的对抗损失,
Figure BDA0002104929890000048
为输入图像2的对抗损失,LDomain为域标签分类器损失,LLabel为类标签分类器损失,
Figure BDA0002104929890000049
为少量标签数据损失,
Figure BDA00021049298900000410
为输入图像1的重构损失,
Figure BDA00021049298900000411
为输入图像2的重构损失;
Figure BDA00021049298900000412
式中,
Figure BDA00021049298900000413
为输入图像1的对抗损失,
Figure BDA00021049298900000414
为输入图像2的对抗损失,LDomain为域标签分类器损失,Llabel为类标签分类器损失,
Figure BDA00021049298900000415
为无标签数据损失,
Figure BDA00021049298900000416
为输入图像1的重构损失,
Figure BDA00021049298900000417
为输入图像2的重构损失。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明方法实现了半监督下多模态多类别的图像翻译。
2、提出了跨域对抗性自编码,构造了一种新的跨域联合数据分布,不仅可以提取图像域不变的内容属性,而且还捕获了语义属性,使相同类别的内容编码成为一个簇。
3、本发明方法可以在较少标签样本的情况下,从源域到目标域生成多类别的连续图像。
4、在不同数据集上的实验表明,与最先进的方法相比,本发明方法具有多样性,而且可以生成质量更好的图像。
附图说明
图1为实施例中的整体架构图,其中Encoder为编码器,Decoder为解码器,x’1和x’2为重构的原始图像。
图2为实施例中的编码器示意图,其中Disentangled representation learning为解耦表示学习,Adversarial learning为对抗学习,AAE为对抗自编码器,Domainclassifier为域标签分类器,Category classifier为类标签分类器。
图3为实施例中的解耦表示学习示意图,其中Conv为卷积,BN为批归一化。
图4为实施例中的对抗自编码器示意图,其中MLP为多层感知器。
图5为实施例中的内容对抗学习网络示意图,其中MLP为多层感知器。Softmax为分类函数,Domain classifier为域标签分类器,Category classifier为类标签分类器。
图6为实施例中的解码器示意图,其中Decoder为解码器,D1和D2分别为解码器1和解码器2。
图7为实施例中的解码器D1和D2模块示意图,其中DeConv为反卷积,BN为批归一化。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本实施例所提供的半监督多模态多类别的图像翻译方法,实现了多模态多类别的图像翻译。如图1所示,展示了我们的整体网络框架,首先,将样本图像x1和x2以及少量标签都送入编码器。然后,利用解耦表示学习从风格编码器和内容编码器中,将图像分别解耦出风格编码和内容编码,最后,通过拼接风格编码和内容编码实现图像的重构和多模态的变换。其包括以下步骤:
1)输入两个来自不同域的图像x1和x2以及使用少量标签,来自不同域的图像x1和x2,指的是输入的两个图像在内容和风格上存在差异性。半监督学习在训练过程中使用大量的未标记样本,以及同时使用标记样本,来进行模式识别工作,因此,通过输入少量标签,可以使得方法准确度有所提升。
2)将输入的图像和标签都送入编码器,如图2所示,编码器分为内容编码器和风格编码器,如图3所示,利用解耦表示学习从风格编码器和内容编码器中,将图像分别解耦出风格编码和内容编码;编码器将输入的两个图像分别进行编码,通过解耦表示学习解耦出两个图像的风格编码和内容编码,以达到图像变换的目的;风格编码器通过解耦表示学习中的5个卷积层和批量归一化(BN)产生,最终解耦出8维的风格编码;内容编码器通过解耦表示学习中的4个卷积层和批量归一化(BN)产生,最终解耦出128维的初始内容编码;由于图像的风格编码和内容编码在浅层上具有相同的特征,因此,在解耦表示学习中,风格编码和内容编码前两层的卷积和批量归一化(BN)是共享的,目标在于提取浅层特征。
3)把风格编码输入至对抗自编码器中,以完成图像多类别训练;把内容编码输入至内容对抗学习网络中,以完成图像多模态变换训练,具体如下:
将编码器通过解耦表示学习产生的两组风格编码送入到对抗自编码器(AAE)中,最终输出为0和1的二分类结果;如图4所示,对抗自编码器(AAE)由(256,64,16,1)四个多层感知器(MLP)组成,对抗自编码器(AAE)设计的目的是使得风格编码满足给定的数据分布,因此,对抗损失
Figure BDA0002104929890000071
能够通过如下公式求解:
Figure BDA0002104929890000072
式中,
Figure BDA0002104929890000073
为图像的风格编码,
Figure BDA0002104929890000074
为给定的图像数据分布,
Figure BDA0002104929890000075
为图像对应的数据分布。
将编码器通过解耦表示学习产生的两组内容编码送入到内容对抗学习网络,进行跨域和类别的分类,进而产生所需要的编码,以达到输入图像的多类别变换;如图5所示,所述内容对抗学习网络包括两个子网络:域标签分类器和类标签分类器,所述域标签分类器由一系列多层感知器MLP(256、128、64、64、2)组成,所述类标签分类器由一个多层感知器MLP(k)和一个softmax层组成,k为类别数目;为了判定域标签分类器接收的内容编码来自于哪个域,以及判定类标签分类器接收的图像是哪一个类别,因此,定义了域标签分类器损失LDomain和类标签分类器损失Llabel,分别通过如下公式求解:
Figure BDA0002104929890000076
Figure BDA0002104929890000077
式中,
Figure BDA0002104929890000078
为图像1的内容编码,
Figure BDA0002104929890000079
为图像1对应的数据分布,
Figure BDA00021049298900000710
为图像2的内容编码,
Figure BDA00021049298900000711
为图像2对应的数据分布,FCE为交叉熵损失函数,L1为图像1的标签,L2为图像2的标签,x1为输入图像1,x2为输入图像2;
为了保证在训练的过程中良好的域平滑效果,定义了少量标签数据损失
Figure BDA00021049298900000712
和无标签数据损失
Figure BDA00021049298900000713
分别通过如下公式求解:
Figure BDA00021049298900000714
Figure BDA00021049298900000715
式中,L1为图像1的标签,
Figure BDA0002104929890000081
为图像1的内容编码,x1→2为图像1到图像2的转换,
Figure BDA0002104929890000082
为图像1到图像2的内容转换编码,FCE为交叉熵损失,L2为图像2的标签,
Figure BDA0002104929890000083
为图像2的内容编码,x2→1为图像2到图像1的转换,
Figure BDA0002104929890000084
为图像2到图像1的内容转换编码,x1为输入图像1,x2为输入图像2。
4)解码器将编码器产生的两组风格编码和内容编码,相互结合,可生成原始图像和跨域转换的图像,如图6所示,其中解码器的子模块D1和D2的具体组成结构如图7所示。解码器的结构是将一个4*4反卷积层与三个连续的3*3反卷积层重新组合,在每个反卷积层之后,还添加了一个批量归一化(BN)层,从输入的编码中解码,最终生成的图像可实现多类别多模态的转换。因此,构建输入图像的重构损失
Figure BDA0002104929890000085
少量标签的重构损失Lsemi-su和无标签的重构损失Lun,可分别通过如下公式求解:
Figure BDA0002104929890000086
式中,
Figure BDA0002104929890000087
为图像i的内容编码,
Figure BDA0002104929890000088
为图像i的风格编码,xi为某个图像,
Figure BDA0002104929890000089
为对内容编码和风格编码二元组(*1,*2)解码后的输出图像,||*||2为L2正则化范数;
Figure BDA00021049298900000810
式中,
Figure BDA00021049298900000811
为输入图像1的对抗损失,
Figure BDA00021049298900000812
为输入图像2的对抗损失,LDomain为域标签分类器损失,LLabel为类标签分类器损失,
Figure BDA00021049298900000813
为少量标签数据损失,
Figure BDA00021049298900000814
为输入图像1的重构损失,
Figure BDA00021049298900000815
为输入图像2的重构损失。
Figure BDA00021049298900000816
式中,
Figure BDA00021049298900000817
为输入图像1的对抗损失,
Figure BDA00021049298900000818
为输入图像2的对抗损失,LDomain为域标签分类器损失,Llabel为类标签分类器损失,
Figure BDA00021049298900000819
为无标签数据损失,
Figure BDA00021049298900000820
为输入图像1的重构损失,
Figure BDA00021049298900000821
为输入图像2的重构损失。
实验配置:本文实验的硬件环境为Intel Core i7 2600k+GTX 1070 8G+8G RAM,软件环境为windows 7 x64+CUDA 8.0+cuDNN 5.1+TensorFlow+Python。
数据集:本文实验所用的数据集为标准的mnist数据集和svhn数据集。mnist由60000张手写体数字图像组成,svhn由99289张图像组成,是真实世界中的街道门牌号码,它们都被分为0~9个类别。mnist中的数字图像为1*28*28的灰度图像,svhn中的街道编号图像为3*32*32的彩色图像,因此,我们在训练前通过数据补全和通道扩展将数字图像调整为3*32*32的三通道图像。实验中,随机从mnist数据集中选取50000张、svhn图像中选取73257张训练,其它的作为测试数据。表1给出了本文选用数据集的基本信息。
表1本文选用数据集的基本信息
数据集 训练图片数目 测试图片数目 类的数目
mnist 50000 10000 10
svhn 73257 26032 10
表2半监督分类准确率
Method s2s t2t t2s s2t
CDAAE 83.77 72.83 31.06 34.87
Ours 91.47 76.39 38.23 40.37
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (3)

1.一种半监督多模态多类别的图像翻译方法,其特征在于,包括以下步骤:
S1、输入两个来自不同域的图像1、2以及少量标签;
S2、将输入的图像和标签都送入编码器,编码器分为内容编码器和风格编码器,利用解耦表示学习从风格编码器和内容编码器中,将图像分别解耦出风格编码和内容编码;
S3、把风格编码输入至对抗自编码器中,以完成图像多类别训练;把内容编码输入至内容对抗学习网络中,以完成图像多模态变换训练;
将编码器通过解耦表示学习产生的两组内容编码送入到内容对抗学习网络,进行跨域和类别的分类,进而产生所需要的编码,以达到输入图像的多类别变换;所述内容对抗学习网络包括两个子网络:域标签分类器和类标签分类器,所述域标签分类器由一系列多层感知器MLP(256、128、64、64、2)组成,所述类标签分类器由一个多层感知器MLP(k)和一个softmax层组成,k为类别数目;为了判定域标签分类器接收的内容编码来自于哪个域,以及判定类标签分类器接收的图像是哪一个类别,因此,定义了域标签分类器损失LDomain和类标签分类器损失Llabel,分别通过如下公式求解:
Figure FDA0003255822150000011
Figure FDA0003255822150000012
式中,
Figure FDA0003255822150000013
为图像1的内容编码,
Figure FDA0003255822150000014
为图像1对应的数据分布,
Figure FDA0003255822150000015
为图像2的内容编码,
Figure FDA0003255822150000016
为图像2对应的数据分布,FCE为交叉熵损失函数,L1为图像1的标签,L2为图像2的标签,x1为输入图像1,x2为输入图像2;
为了保证在训练的过程中良好的域平滑效果,定义了少量标签数据损失
Figure FDA0003255822150000017
和无标签数据损失
Figure FDA0003255822150000018
分别通过如下公式求解:
Figure FDA0003255822150000021
Figure FDA0003255822150000022
式中,L1为图像1的标签,
Figure FDA0003255822150000023
为图像1的内容编码,x1→2为图像1到图像2的转换,
Figure FDA0003255822150000024
为图像1到图像2的内容转换编码,FCE为交叉熵损失,L2为图像2的标签,
Figure FDA0003255822150000025
为图像2的内容编码,x2→1为图像2到图像1的转换,
Figure FDA0003255822150000026
为图像2到图像1的内容转换编码,x1为输入图像1,x2为输入图像2;
将编码器通过解耦表示学习产生的两组风格编码送入到对抗自编码器AAE中,最终输出为0和1的二分类结果;其中,对抗自编码器AAE由(256,64,16,1)四个多层感知器MLP组成,对抗自编码器AAE设计的目的是使得风格编码满足给定的数据分布,因此,对抗损失
Figure FDA0003255822150000027
能够通过如下公式求解:
Figure FDA0003255822150000028
式中,
Figure FDA0003255822150000029
为图像的风格编码,
Figure FDA00032558221500000210
为给定的图像数据分布,
Figure FDA00032558221500000211
为图像对应的数据分布;
S4、通过拼接风格编码和内容编码实现图像的重构和多模态的变换;
通过解码器将图像1的内容编码和图像1的风格编码生成原始图像,将图像1的内容编码和图像2的风格编码或者图像1的风格编码和图像2的内容编码生成跨域转换的图像;其中,解码器的结构是将一个4*4反卷积层与三个连续的3*3反卷积层重新组合,在每个反卷积层之后,还添加了一个批量归一化BN层,通过从输入编码中解码,构建输入图像的重构损失
Figure FDA00032558221500000212
少量标签的重构损失Lsemi-su和无标签的重构损失Lun,最终实现对图像多模态多类别的转换,分别通过如下公式求解:
Figure FDA00032558221500000213
式中,
Figure FDA0003255822150000031
为图像i的内容编码,
Figure FDA0003255822150000032
为图像i的风格编码,xi为某个图像,
Figure FDA0003255822150000033
为对内容编码和风格编码二元组(*1,*2)解码后的输出图像,||*||2为L2正则化范数;
Figure FDA0003255822150000034
式中,
Figure FDA0003255822150000035
为输入图像1的对抗损失,
Figure FDA0003255822150000036
为输入图像2的对抗损失,LDomain为域标签分类器损失,LLabel为类标签分类器损失,
Figure FDA0003255822150000037
为少量标签数据损失,
Figure FDA0003255822150000038
为输入图像1的重构损失,
Figure FDA0003255822150000039
为输入图像2的重构损失;
Figure FDA00032558221500000310
式中,
Figure FDA00032558221500000311
为输入图像1的对抗损失,
Figure FDA00032558221500000312
为输入图像2的对抗损失,LDomain为域标签分类器损失,Llabel为类标签分类器损失,
Figure FDA00032558221500000313
为无标签数据损失,
Figure FDA00032558221500000314
为输入图像1的重构损失,
Figure FDA00032558221500000315
为输入图像2的重构损失。
2.根据权利要求1所述的一种半监督多模态多类别的图像翻译方法,其特征在于:在步骤S1中,两个来自不同域的图像指的是该两个图像在内容和风格上存在差异性;另外,图像分为有标记标签样本和未标记标签样本,通过对样本输入少量标签,能够使得准确度有所提升。
3.根据权利要求1所述的一种半监督多模态多类别的图像翻译方法,其特征在于:在步骤S2中,编码器将输入的两个图像分别进行编码,通过解耦表示学习解耦出两个图像的风格编码和内容编码,以达到图像变换的目的;风格编码器通过解耦表示学习中的5个卷积层和批量归一化BN产生,最终解耦出8维的风格编码;内容编码器通过解耦表示学习中的4个卷积层和批量归一化BN产生,最终解耦出128维的初始内容编码;由于图像的风格编码和内容编码在浅层上具有相同的特征,因此,在解耦表示学习中,风格编码和内容编码前两层的卷积和批量归一化BN是共享的,目标在于提取浅层特征。
CN201910548961.9A 2019-06-24 2019-06-24 一种半监督多模态多类别的图像翻译方法 Active CN110263865B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910548961.9A CN110263865B (zh) 2019-06-24 2019-06-24 一种半监督多模态多类别的图像翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910548961.9A CN110263865B (zh) 2019-06-24 2019-06-24 一种半监督多模态多类别的图像翻译方法

Publications (2)

Publication Number Publication Date
CN110263865A CN110263865A (zh) 2019-09-20
CN110263865B true CN110263865B (zh) 2021-11-02

Family

ID=67920753

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910548961.9A Active CN110263865B (zh) 2019-06-24 2019-06-24 一种半监督多模态多类别的图像翻译方法

Country Status (1)

Country Link
CN (1) CN110263865B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852937B (zh) * 2019-10-16 2023-06-02 天津大学 基于内容与样式解耦的形变物品图像生成方法
CN111666831B (zh) * 2020-05-18 2023-06-20 武汉理工大学 一种基于解耦表示学习的说话人脸视频生成方法
CN111815509B (zh) * 2020-09-02 2021-01-01 北京邮电大学 一种图像风格转换及模型训练的方法及装置
CN112766217B (zh) * 2021-01-30 2022-08-26 上海工程技术大学 基于解纠缠和特征级差异学习的跨模态行人重识别方法
CN113160042B (zh) * 2021-05-21 2023-02-17 北京邮电大学 一种图像风格迁移模型训练方法、装置及电子设备
CN113449810B (zh) * 2021-07-15 2022-11-18 东南大学 一种基于自监督和语义风格解耦的图像聚类方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108133173B (zh) * 2017-11-24 2019-07-23 西安电子科技大学 基于半监督梯形网络的极化sar图像分类方法
CN108062753B (zh) * 2017-12-29 2020-04-17 重庆理工大学 基于深度对抗学习的无监督域自适应脑肿瘤语义分割方法
CN108549895A (zh) * 2018-04-17 2018-09-18 深圳市唯特视科技有限公司 一种基于对抗网络的半监督语义分割方法
CN108664999B (zh) * 2018-05-03 2021-02-12 北京图森智途科技有限公司 一种分类模型的训练方法及其装置、计算机服务器
CN108805188B (zh) * 2018-05-29 2020-08-21 徐州工程学院 一种基于特征重标定生成对抗网络的图像分类方法
CN108711138B (zh) * 2018-06-06 2022-02-11 北京印刷学院 一种基于生成对抗网络的灰度图片彩色化方法
CN108875818B (zh) * 2018-06-06 2020-08-18 西安交通大学 基于变分自编码机与对抗网络结合的零样本图像分类方法
CN109190722B (zh) * 2018-08-06 2021-05-04 大连民族大学 基于满文字符图片的字体风格迁移变换方法
CN109447137B (zh) * 2018-10-15 2022-06-14 聚时科技(上海)有限公司 一种基于分解因子的图像局部风格迁移方法

Also Published As

Publication number Publication date
CN110263865A (zh) 2019-09-20

Similar Documents

Publication Publication Date Title
CN110263865B (zh) 一种半监督多模态多类别的图像翻译方法
Li et al. Multilabel SVM active learning for image classification
CN111914797B (zh) 基于多尺度轻量级卷积神经网络的交通标志识别方法
CN115471851A (zh) 融合双重注意力机制的缅甸语图像文本识别方法及装置
CN112233012B (zh) 一种人脸生成系统及方法
CN113378949A (zh) 一种基于胶囊网络和混合注意力的双重生成对抗学习方法
CN115497107B (zh) 一种基于笔画和部首分解的零样本汉字识别方法
CN114581992A (zh) 一种基于预训练StyleGAN的人脸表情合成方法及系统
CN114201605B (zh) 一种基于联合属性建模的图像情感分析方法
CN115393396B (zh) 一种基于掩码预训练的无人机目标跟踪方法
CN110175248A (zh) 一种基于深度学习和哈希编码的人脸图像检索方法和装置
CN112507800A (zh) 一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法
Zhao et al. Multilayer unmixing for hyperspectral imagery with fast kernel archetypal analysis
CN117635935A (zh) 轻量化无监督自适应图像语义分割方法及系统
CN112990340A (zh) 一种基于特征共享的自学习迁移方法
CN117422978A (zh) 基于动态双级视觉信息融合的接地视觉问答方法
CN116682180A (zh) 基于人体骨骼序列时空信息的动作识别方法
Liu et al. GhostNetV3: Exploring the Training Strategies for Compact Models
CN110210549B (zh) 一种跨域变分对抗自编码方法
CN107967472A (zh) 一种使用动态形状编码的搜索词语方法
Lin et al. Progressive Domain Adaptive Object Detection Based on Self‐Attention in Foggy Weather
Li et al. Using cnn to improve the performance of the light-weight vit
Ling et al. Face illumination processing via dense feature maps and multiple receptive fields
Pei et al. Visual relational reasoning for image caption
Liang et al. Grayscale Image Colorization with GAN and CycleGAN in Different Image Domain

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240703

Address after: 401320 Banan District, Banan District, Chongqing, No. 8-29, Yu Nan Road, No. 8-29

Patentee after: Chongqing Boshi Intellectual Property Service Co.,Ltd.

Country or region after: China

Address before: 750021 No. 204, Wenchang North Street, Xixia District, the Ningxia Hui Autonomous Region, Yinchuan

Patentee before: BEIFANG MINZU University

Country or region before: China