CN110263865B

CN110263865B - 一种半监督多模态多类别的图像翻译方法

Info

Publication number: CN110263865B
Application number: CN201910548961.9A
Authority: CN
Inventors: 白静; 陈冉; 李赛赛; 姬卉
Original assignee: North Minzu University
Current assignee: Chongqing Boshi Intellectual Property Service Co ltd
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2021-11-02
Anticipated expiration: 2039-06-24
Also published as: CN110263865A

Abstract

本发明公开了一种半监督多模态多类别的图像翻译方法，包括步骤：S1、输入两个来自不同域的图像以及少量标签；S2、将输入的图像和标签都送入编码器，编码器分为内容编码器和风格编码器，利用解耦表示学习从风格编码器和内容编码器中，将图像分别解耦出风格编码和内容编码；S3、把风格编码输入至对抗自编码器中，以完成图像多类别训练；把内容编码输入至内容对抗学习网络中，以完成图像多模态变换训练；S4、通过拼接风格编码和内容编码实现图像的重构和多模态的变换。本发明解决了由于图像翻译多样性的要求所带来的困境，通过对潜在内容编码和风格编码的联合解码，可以生成多模态和多类别的跨域图像。

Description

一种半监督多模态多类别的图像翻译方法

技术领域

本发明涉及计算机视觉、计算机图形学与机器学习的技术领域，尤其是指一种半监督多模态多类别的图像翻译方法。

背景技术

随着深度学习技术和图像生成技术的不断发展，图像翻译领域涌现出大量优秀工作，半监督多模态多类别的图像翻译是计算机视觉领域重要且具有挑战性的研究问题，其中半监督多模态多类别的图像翻译在工业设计等领域具有明显的应用价值，可应用于图像着色、超分辨率生成、风格转换等各个方面。当前来看，现有的图像翻译是将问题转化为一对一的图像映射，需要明确给定两个不同的图像域，而在很多场景下，跨域的图像翻译是多模态的，因此，现有的跨域数据翻译无法满足这些需求。

发明内容

本发明的目的在于克服现有技术的缺点与不足，针对多模态多类别的图像翻译需求，提出了一种半监督多模态多类别的图像翻译方法，可有效解决由于图像翻译多样性带来的困境，并生成其多模态变换。在半监督数据的前提下，将输入的图像和标签都送入编码器，将图像分别解耦出风格编码和内容编码，通过拼接风格编码和内容编码实现图像的重构和多模态的变换。

为实现上述目的，本发明所提供的技术方案为：一种半监督多模态多类别的图像翻译方法，包括以下步骤：

S1、输入两个来自不同域的图像1、2以及少量标签；

S2、将输入的图像和标签都送入编码器，编码器分为内容编码器和风格编码器，利用解耦表示学习从风格编码器和内容编码器中，将图像分别解耦出风格编码和内容编码；

S3、把风格编码输入至对抗自编码器中，以完成图像多类别训练；把内容编码输入至内容对抗学习网络中，以完成图像多模态变换训练；

S4、通过拼接风格编码和内容编码实现图像的重构和多模态的变换。

在步骤S1中，两个来自不同域的图像指的是该两个图像在内容和风格上存在差异性；另外，图像分为有标记标签样本和未标记标签样本，通过对样本输入少量标签，能够使得准确度有所提升。

在步骤S2中，编码器将输入的两个图像分别进行编码，通过解耦表示学习解耦出两个图像的风格编码和内容编码，以达到图像变换的目的；风格编码器通过解耦表示学习中的5个卷积层和批量归一化(BN)产生，最终解耦出8维的风格编码；内容编码器通过解耦表示学习中的4个卷积层和批量归一化(BN)产生，最终解耦出128维的初始内容编码；由于图像的风格编码和内容编码在浅层上具有相同的特征，因此，在解耦表示学习中，风格编码和内容编码前两层的卷积和批量归一化(BN)是共享的，目标在于提取浅层特征。

在步骤S3中，将编码器通过解耦表示学习产生的两组风格编码送入到对抗自编码器(AAE)中，最终输出为0和1的二分类结果；其中，对抗自编码器(AAE)由(256,64,16,1)四个多层感知器(MLP)组成，对抗自编码器(AAE)设计的目的是使得风格编码满足给定的数据分布，因此，对抗损失

能够通过如下公式求解：

式中，

为图像的风格编码，

为给定的图像数据分布，

为图像对应的数据分布。

在步骤S3中，将编码器通过解耦表示学习产生的两组内容编码送入到内容对抗学习网络，进行跨域和类别的分类，进而产生所需要的编码，以达到输入图像的多类别变换；所述内容对抗学习网络包括两个子网络：域标签分类器和类标签分类器，所述域标签分类器由一系列多层感知器MLP(256、128、64、64、2)组成，所述类标签分类器由一个多层感知器MLP(k)和一个softmax层组成，k为类别数目；为了判定域标签分类器接收的内容编码来自于哪个域，以及判定类标签分类器接收的图像是哪一个类别，因此，定义了域标签分类器损失L_Domain和类标签分类器损失L_label，分别通过如下公式求解：

式中，

为图像1的内容编码，

为图像1对应的数据分布，

为图像2的内容编码，

为图像2对应的数据分布，F_CE为交叉熵损失函数，L₁为图像1的标签，L₂为图像2的标签，x₁为输入图像1，x₂为输入图像2；

为了保证在训练的过程中良好的域平滑效果，定义了少量标签数据损失

和无标签数据损失

分别通过如下公式求解：

式中，L₁为图像1的标签，

为图像1的内容编码，x_1→2为图像1到图像2的转换，

为图像1到图像2的内容转换编码，F_CE为交叉熵损失，L₂为图像2的标签，

为图像2的内容编码，x_2→1为图像2到图像1的转换，

为图像2到图像1的内容转换编码，x₁为输入图像1，x₂为输入图像2。

在步骤S4中，通过解码器将图像1的内容编码和图像1的风格编码生成原始图像，将图像1的内容编码和图像2的风格编码或者图像1的风格编码和图像2的内容编码生成跨域转换的图像；其中，解码器的结构是将一个4*4反卷积层与三个连续的3*3反卷积层重新组合，在每个反卷积层之后，还添加了一个批量归一化(BN)层，通过从输入编码中解码，构建输入图像的重构损失

少量标签的重构损失L^semi-su和无标签的重构损失L^un，最终实现对图像多模态多类别的转换，分别通过如下公式求解：

式中，

为图像i的内容编码，

为图像i的风格编码，x_i为某个图像，

为对内容编码和风格编码二元组(*1,*2)解码后的输出图像，||*||₂为L₂正则化范数；

式中，

为输入图像1的对抗损失，

为输入图像2的对抗损失，L_Domain为域标签分类器损失，L_Label为类标签分类器损失，

为少量标签数据损失，

为输入图像1的重构损失，

为输入图像2的重构损失；

式中，

为输入图像1的对抗损失，

为无标签数据损失，

为输入图像1的重构损失，

为输入图像2的重构损失。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明方法实现了半监督下多模态多类别的图像翻译。

2、提出了跨域对抗性自编码，构造了一种新的跨域联合数据分布，不仅可以提取图像域不变的内容属性，而且还捕获了语义属性，使相同类别的内容编码成为一个簇。

3、本发明方法可以在较少标签样本的情况下，从源域到目标域生成多类别的连续图像。

4、在不同数据集上的实验表明，与最先进的方法相比，本发明方法具有多样性，而且可以生成质量更好的图像。

附图说明

图1为实施例中的整体架构图，其中Encoder为编码器，Decoder为解码器，x’₁和x’₂为重构的原始图像。

图2为实施例中的编码器示意图，其中Disentangled representation learning为解耦表示学习，Adversarial learning为对抗学习，AAE为对抗自编码器，Domainclassifier为域标签分类器，Category classifier为类标签分类器。

图3为实施例中的解耦表示学习示意图，其中Conv为卷积，BN为批归一化。

图4为实施例中的对抗自编码器示意图，其中MLP为多层感知器。

图5为实施例中的内容对抗学习网络示意图，其中MLP为多层感知器。Softmax为分类函数，Domain classifier为域标签分类器，Category classifier为类标签分类器。

图6为实施例中的解码器示意图，其中Decoder为解码器，D₁和D₂分别为解码器1和解码器2。

图7为实施例中的解码器D₁和D₂模块示意图，其中DeConv为反卷积，BN为批归一化。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

本实施例所提供的半监督多模态多类别的图像翻译方法，实现了多模态多类别的图像翻译。如图1所示，展示了我们的整体网络框架，首先，将样本图像x₁和x₂以及少量标签都送入编码器。然后，利用解耦表示学习从风格编码器和内容编码器中，将图像分别解耦出风格编码和内容编码，最后，通过拼接风格编码和内容编码实现图像的重构和多模态的变换。其包括以下步骤：

1)输入两个来自不同域的图像x₁和x₂以及使用少量标签，来自不同域的图像x₁和x₂，指的是输入的两个图像在内容和风格上存在差异性。半监督学习在训练过程中使用大量的未标记样本，以及同时使用标记样本，来进行模式识别工作，因此，通过输入少量标签，可以使得方法准确度有所提升。

2)将输入的图像和标签都送入编码器，如图2所示，编码器分为内容编码器和风格编码器，如图3所示，利用解耦表示学习从风格编码器和内容编码器中，将图像分别解耦出风格编码和内容编码；编码器将输入的两个图像分别进行编码，通过解耦表示学习解耦出两个图像的风格编码和内容编码，以达到图像变换的目的；风格编码器通过解耦表示学习中的5个卷积层和批量归一化(BN)产生，最终解耦出8维的风格编码；内容编码器通过解耦表示学习中的4个卷积层和批量归一化(BN)产生，最终解耦出128维的初始内容编码；由于图像的风格编码和内容编码在浅层上具有相同的特征，因此，在解耦表示学习中，风格编码和内容编码前两层的卷积和批量归一化(BN)是共享的，目标在于提取浅层特征。

3)把风格编码输入至对抗自编码器中，以完成图像多类别训练；把内容编码输入至内容对抗学习网络中，以完成图像多模态变换训练，具体如下：

将编码器通过解耦表示学习产生的两组风格编码送入到对抗自编码器(AAE)中，最终输出为0和1的二分类结果；如图4所示，对抗自编码器(AAE)由(256,64,16,1)四个多层感知器(MLP)组成，对抗自编码器(AAE)设计的目的是使得风格编码满足给定的数据分布，因此，对抗损失

能够通过如下公式求解：

式中，

为图像的风格编码，

为给定的图像数据分布，

为图像对应的数据分布。

将编码器通过解耦表示学习产生的两组内容编码送入到内容对抗学习网络，进行跨域和类别的分类，进而产生所需要的编码，以达到输入图像的多类别变换；如图5所示，所述内容对抗学习网络包括两个子网络：域标签分类器和类标签分类器，所述域标签分类器由一系列多层感知器MLP(256、128、64、64、2)组成，所述类标签分类器由一个多层感知器MLP(k)和一个softmax层组成，k为类别数目；为了判定域标签分类器接收的内容编码来自于哪个域，以及判定类标签分类器接收的图像是哪一个类别，因此，定义了域标签分类器损失L_Domain和类标签分类器损失L_label，分别通过如下公式求解：

式中，

为图像1的内容编码，

为图像1对应的数据分布，

为图像2的内容编码，

和无标签数据损失

分别通过如下公式求解：

式中，L₁为图像1的标签，

为图像1的内容编码，x_1→2为图像1到图像2的转换，

为图像2的内容编码，x_2→1为图像2到图像1的转换，

4)解码器将编码器产生的两组风格编码和内容编码，相互结合，可生成原始图像和跨域转换的图像，如图6所示，其中解码器的子模块D₁和D₂的具体组成结构如图7所示。解码器的结构是将一个4*4反卷积层与三个连续的3*3反卷积层重新组合，在每个反卷积层之后，还添加了一个批量归一化(BN)层，从输入的编码中解码，最终生成的图像可实现多类别多模态的转换。因此，构建输入图像的重构损失

少量标签的重构损失L^semi-su和无标签的重构损失L^un，可分别通过如下公式求解：

式中，

为图像i的内容编码，

为图像i的风格编码，x_i为某个图像，

式中，

为输入图像1的对抗损失，

为少量标签数据损失，

为输入图像1的重构损失，

为输入图像2的重构损失。

式中，

为输入图像1的对抗损失，

为无标签数据损失，

为输入图像1的重构损失，

为输入图像2的重构损失。

实验配置：本文实验的硬件环境为Intel Core i7 2600k+GTX 1070 8G+8G RAM，软件环境为windows 7 x64+CUDA 8.0+cuDNN 5.1+TensorFlow+Python。

数据集：本文实验所用的数据集为标准的mnist数据集和svhn数据集。mnist由60000张手写体数字图像组成，svhn由99289张图像组成，是真实世界中的街道门牌号码，它们都被分为0～9个类别。mnist中的数字图像为1*28*28的灰度图像，svhn中的街道编号图像为3*32*32的彩色图像，因此，我们在训练前通过数据补全和通道扩展将数字图像调整为3*32*32的三通道图像。实验中，随机从mnist数据集中选取50000张、svhn图像中选取73257张训练，其它的作为测试数据。表1给出了本文选用数据集的基本信息。

表1本文选用数据集的基本信息

数据集	训练图片数目	测试图片数目	类的数目
				mnist	50000	10000	10
svhn	73257	26032	10

表2半监督分类准确率

Method	s2s	t2t	t2s	s2t
					CDAAE	83.77	72.83	31.06	34.87
Ours	91.47	76.39	38.23	40.37

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种半监督多模态多类别的图像翻译方法，其特征在于，包括以下步骤：

S1、输入两个来自不同域的图像1、2以及少量标签；

将编码器通过解耦表示学习产生的两组内容编码送入到内容对抗学习网络，进行跨域和类别的分类，进而产生所需要的编码，以达到输入图像的多类别变换；所述内容对抗学习网络包括两个子网络：域标签分类器和类标签分类器，所述域标签分类器由一系列多层感知器MLP(256、128、64、64、2)组成，所述类标签分类器由一个多层感知器MLP(k)和一个softmax层组成，k为类别数目；为了判定域标签分类器接收的内容编码来自于哪个域，以及判定类标签分类器接收的图像是哪一个类别，因此，定义了域标签分类器损失L_Domain和类标签分类器损失L_label，分别通过如下公式求解：

式中，

为图像1的内容编码，

为图像1对应的数据分布，

为图像2的内容编码，

和无标签数据损失

分别通过如下公式求解：

式中，L₁为图像1的标签，

为图像1的内容编码，x_1→2为图像1到图像2的转换，

为图像2的内容编码，x_2→1为图像2到图像1的转换，

为图像2到图像1的内容转换编码，x₁为输入图像1，x₂为输入图像2；

将编码器通过解耦表示学习产生的两组风格编码送入到对抗自编码器AAE中，最终输出为0和1的二分类结果；其中，对抗自编码器AAE由(256,64,16,1)四个多层感知器MLP组成，对抗自编码器AAE设计的目的是使得风格编码满足给定的数据分布，因此，对抗损失

能够通过如下公式求解：

式中，

为图像的风格编码，

为给定的图像数据分布，

为图像对应的数据分布；

S4、通过拼接风格编码和内容编码实现图像的重构和多模态的变换；

通过解码器将图像1的内容编码和图像1的风格编码生成原始图像，将图像1的内容编码和图像2的风格编码或者图像1的风格编码和图像2的内容编码生成跨域转换的图像；其中，解码器的结构是将一个4*4反卷积层与三个连续的3*3反卷积层重新组合，在每个反卷积层之后，还添加了一个批量归一化BN层，通过从输入编码中解码，构建输入图像的重构损失

式中，

为图像i的内容编码，

为图像i的风格编码，x_i为某个图像，

式中，

为输入图像1的对抗损失，

为少量标签数据损失，

为输入图像1的重构损失，

为输入图像2的重构损失；

式中，

为输入图像1的对抗损失，

为无标签数据损失，

为输入图像1的重构损失，

为输入图像2的重构损失。

2.根据权利要求1所述的一种半监督多模态多类别的图像翻译方法，其特征在于：在步骤S1中，两个来自不同域的图像指的是该两个图像在内容和风格上存在差异性；另外，图像分为有标记标签样本和未标记标签样本，通过对样本输入少量标签，能够使得准确度有所提升。

3.根据权利要求1所述的一种半监督多模态多类别的图像翻译方法，其特征在于：在步骤S2中，编码器将输入的两个图像分别进行编码，通过解耦表示学习解耦出两个图像的风格编码和内容编码，以达到图像变换的目的；风格编码器通过解耦表示学习中的5个卷积层和批量归一化BN产生，最终解耦出8维的风格编码；内容编码器通过解耦表示学习中的4个卷积层和批量归一化BN产生，最终解耦出128维的初始内容编码；由于图像的风格编码和内容编码在浅层上具有相同的特征，因此，在解耦表示学习中，风格编码和内容编码前两层的卷积和批量归一化BN是共享的，目标在于提取浅层特征。