CN112766079B

CN112766079B - 一种基于内容风格分离的无监督图像到图像翻译方法

Info

Publication number: CN112766079B
Application number: CN202011640875.XA
Authority: CN
Inventors: 陆峰; 刘云飞
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2023-05-26
Anticipated expiration: 2040-12-31
Also published as: US20220207649A1; CN112766079A

Abstract

本公开的实施例公开了无监督图像到图像的翻译方法。该方法的一具体实施方式包括：获取初始图像，将初始图像缩放到特定尺寸；通过编码器对初始图像进行空间特征提取，得到特征信息；将特征信息输入至内容风格分离模块，得到内容特征信息和风格特征信息；响应于获取到参考图像，生成参考图像的参考风格特征信息，响应于未获取到参考图像，则将参考风格特征信息设置为与风格特征信息形状一致的高斯噪声；将内容特征信息与参考风格特征信息，输入至生成器，得到将初始图像翻译成参考图像风格的目标图像；将目标图像缩放到与初始图像相匹配的尺寸，得到最终目标图像。该实施方式可以应用于多种不同的高级视觉任务，提升了整个系统的可扩展性。

Description

一种基于内容风格分离的无监督图像到图像翻译方法

技术领域

本公开的实施例涉及计算机视觉和图像处理技术领域，具体涉及无监督图像到图像的翻译方法。

背景技术

图像到图像的翻译由于可以学习不同视觉域之间的映射而受到广泛关注。在现在社交媒体或聊天软件中，许多将聊天的对象转换成可爱的动物，并且聊天的过程中转换之后的动物表情与原对象保持一致。或者更换聊天背景的风格，同时保持背景的空间结构信息。或者在增强现实应用的虚实结合的场景中需要将虚拟场景与真实场景进行互换等，都是图像到图像的典型应用。Pix2pix(pixels to pixels，像素点到像素点转换工具)是第一个使用条件生成对抗网络来进行图像到图像的翻译。并在此基础上，一系列的探索应用图像到图像转换技术处理其他计算机视觉任务。如图像超分辨率、图像着色、风格迁移和其他低层级的图像任务。

为了减少实际应用中成对训练数据的缺乏，Zhu等人使用一致性约束并提出了循环生成对抗网络(简称：CycleGAN)，其中引入额外的生成器将目标域的图像映射到源域的图像，完成无监督的图像到图像的翻译任务。通过架设源域的图像与目标域的图像共享一个共同的内容空间，Liu等人在UNIT(UNsupervised Image-to-image Translationnetworks，无监督图像到图像翻译网络)中提出了一种基于对抗生成网络与变分自编码器的无监督图像到图像翻译的方法。基于这两个方法，许多工作将注意力机制应用到了该任务上。

一些工作将图像到图像翻译的任务由一对一扩展到一对多。通过假设一个图像可以分解为领域无关的内容编码和领域相关的风格编码，CIIT(Conditional Iage-to-ImageTranslation，条件语言与图像翻译)，EG-UNIT(Exemplar Guided Unsupervised Image-to-image Translation with semantic consistency，语义一致性的范例引导无监督图像到图像的翻译)，MUNIT(Multimodal UNsupervised Image-to-image Translationnetworks，多模态无监督图像到图像翻译网络)以及DRIT(DiveRse Image-to-imageTranslation via disentangled representations，基于非纠缠表示的图像到图像的多样性翻译)等方法在两个图像域之间学习一对多的映射。其他方法在图像翻译的过程中加入额外的约束来提高图像中风格和内容解耦的效果。然而，上述方法通过两个独立的编码器来分别提取图像的内容特征信息和风格特征信息，而不是利用一个统一的框架。因此，这一类方法的缺点在于：1、不能保证内容的特征有效地关注到图像中有意义的物体上。2、风格特征往往关注于整张图像的外观，无法有效提取出不同物体的不同风格。

针对上述的这两个缺点，一些研究通过引入高级视觉任务来作为额外的约束。例如Wu等人提出使用物体关键点检测来约束图像的内容特征。Shen等人在图像到图像翻译的方法中加入图像中物体的检测技术，来分别提取一张图像中不同物体的内容信息和风格信息。Roy等人在方法中加入图像场景的语义解析，来确保内容特征学习到与图像语义相关的特征。这一类方法的缺点在于需要针对特定的高级视觉任务来设计不同的网络架构，如果新的数据上不能提供对应的高级视觉信息，同一个方法难以扩展到多个图像到图像翻译的任务中去。

发明内容

本公开的内容部分用于以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

本公开的一些实施例提出了无监督图像到图像的翻译方法，来解决以上背景技术部分提到的技术问题中的一项或多项。

根据上述实际需求和技术难题，本发明的目的在于：提出一个统一框架来实现不同场景下的图像到图像翻译的方法，通过在特征空间中衡量特征信息与高级视觉任务的相关性来分离图像的内容特征信息与风格特征信息。通过组合初始图像的内容特征信息与参考图像的参考风格特征信息来生成翻译之后的目标图像。本方法的训练数据不需要成对的数据，仅使用两个不同类别的图像集合即可完成训练。同时，本方法通过提出一种特征融合方法，有效降低水滴现象对生成图像的影响，得到更好的图像生成质量。

本公开的上述各个实施例具有如下有益效果：发明了一种统一架构来提取图像的内容特征信息与风格特征信息，并且能应用于多种不同的高级视觉任务，十分灵活，提升了整个系统的可扩展性。发明了一种新型的图像内容特征与风格特征的分离模块。通过计算在特征空间中衡量提取的图像空间特征与高级视觉任务的相关性。其中提取相关度大于等于预定阈值的部分作为内容特征信息，提取相关度小于预定阈值的部分为风格特征信息。有利于保证内容特征信息稳定关注在图像中有效的物体上。同时使得风格特征信息包含图像中的不同物体。通过在生成器中使用归一化的特征融合方法，对现有方法修改幅度小。可以方便快速地扩展到其他方法中去。有效降低水滴现象对生成图像的影响，能够使得方法更加稳健地生成结果，得到更好质量的目标图像。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，元件和元素不一定按照比例绘制。

图1是根据本公开的一些实施例的无监督图像到图像的翻译方法的一些实施例的流程图；

图2是根据本公开的无监督图像到图像的翻译方法的一些实施例的流程图；

图3是根据本公开的一些实施例的无监督图像到图像的翻译方法的一个应用场景的示意图；

图4是根据本公开的一些实施例的无监督图像到图像的翻译方法的另一个应用场景的示意图；

图5是根据本公开的一些实施例的无监督图像到图像的翻译方法的再一个应用场景的示意图；

图6是根据本公开的一些实施例的无监督图像到图像的翻译方法的另一个应用场景的示意图；

图7是根据本公开的一些实施例的无监督图像到图像的翻译方法的再一个应用场景的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例。相反，提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

下面将参考附图并结合实施例来详细说明本公开。

图1是根据本公开的一些实施例的无监督图像到图像的翻译方法的一些实施例的流程图。

参阅图1本发明的基于内容风格分离的无监督图像到图像翻译方法的基本操作是输入一张初始图像。如图3所示，以视频聊天中将人像转换成猫的头像为例，如果需要指定风格的图片，需要再输入一张参考图像(指定毛色、品种的猫)，如图6所示，输出与参考图像风格一致的目标图像，如图7所示。

继续参考图2，示出了根据本公开的无监督图像到图像的翻译方法的一些实施例的流程200。该无监督图像到图像的翻译方法，包括以下步骤：

步骤201，在测试过程中，获取初始图像，将初始图像缩放到特定尺寸。

在一些实施例中，无监督图像到图像的翻译方法的执行主体可以获取初始图像，将初始图像缩放到特定尺寸。其中，初始图像可以是来自预定类别的图像。

作为示例，预定类别的图像可以是图的前景是同一种物体(猫，男人等)，或者图像内容都是同一种画风(夏季，仿真场景等)的图像。

步骤202，通过编码器对初始图像进行空间特征提取，得到特征信息。

在一些实施例中，执行主体可以通过编码器对初始图像进行空间特征提取，得到特征信息。其中，特征信息的表现形式为四维张量。其中，编码器是用于分离内容特征信息和风格特征信息的编码器。其中，编码器提取的初始图像的空间特征信息被用于高层的视觉任务。

作为示例，高层的视觉任务可以是图像分类，目标关键点检测，或图像语义分割等。四维张量中不同维度的信息分别代表着：批量、通道、高度和宽度。该四维张量可以进一步完成初始图像对应的高级视觉任务，如图5所示。

首先，对于输入图像，该统一结构的编码器可以完成图像内容特征信息与风格特征信息的分离，同时完成对应的高级视觉任务。编码器的计算方式如下：

c，s，H＝E(F(x))。

其中，C表示内容特征信息。S表示风格特征信息。H表示高级视觉任务。E表示特征分离模块。F( )表示特征提取器。F(x)表示特征提取器对初始图像进行提取得到的特征信息。X表示初始图像。

该编码器的重要意义在于，首先，可以只通过一个特征提取器来进行高级视觉任务的特征提取，提取得到的特征信息如图4所示。该特征信息能够应用于多种不同的高级视觉任务，十分灵活，提升了整个系统在不同数据上的可扩展性。其次，可以将内容特征信息与风格特征信息的分类和高级视觉任务通过多任务学习的方式来自适应地优化内容特征学习与风格特征学习。确保内容特征有效关注在图像中于高级视觉相关的物体上，提升目标图像的准确性。风格特征信息也会包含更多图像中不同物体的风格，而不是局限于图片的整体风格，提升目标图像的丰富度。

步骤203，将特征信息输入至内容风格分离模块，得到内容特征信息和风格特征信息。

在一些实施例中，执行主体可以将特征信息输入至内容风格分离模块，得到内容特征信息和风格特征信息。其中，内容特征信息表现形式为四维张量，风格特征信息表现形式为二维张量。内容风格分离模块用于分离内容特征信息与风格特征信息。内容风格分离模块是具有选择、压缩和提取功能的模块。

作为示例，将提取的特征输入到具有选择、压缩、提取功能的模块，进行内容风格的分离。在通道维度上进行特征与高级视觉任务的相关性计算，将相关性大于等于预定阈值的部分分离得到内容特征信息，将相关性小于预定阈值的部分分离得到图像对应的风格特征信息。

在一些实施例的一些可选的实现方式中，内容风格分离模块包括内容特征提取模块和风格特征提取模块，其中：

内容特征提取模块，用于提取初始图像的空间特征中的不同通道中的信息与高级视觉任务的相关性，将对应相关度大于等于预定阈值的部分提取出来作为内容特征信息。

风格特征提取模块，用于提取初始图像的空间特征中的不同通道中的信息与高级视觉任务的相关性，将对应相关度低于预定阈值的部分提取出来，并通过池化层处理，作为风格特征信息。

作为示例，通过特征提取器对输入图像进行高级视觉任务的特征提取，在人脸图像转换成猫脸图像的任务中，高级视觉任务的示意如图5所示，脸部不同种类的语义可以辅助图像内容特征信息与风格特征信息的生成。具体地，基于高级视觉特征，首先通过自适应的平均池化来对提取的特征的不同通道之间的特征信息。为了更加准确地描述不同通道的特征信息与高级视觉任务之间的相关性。将上一步得到的通道间的特征信息通过一个多层感知机进行非线性映射，得到特征中每个通道与高级视觉任务的相关性列表，列表中每个元素代表对应通道与高级视觉任务的相关性系数。进一步，对该列表进行降序排序，排好序的列表中越靠前的元素对应的特征，有着与高级任务更好的相关性。因此，内容特征信息与风格特征信息的分离计算方式如下：

其中，I表示内容特征信息与风格特征信息的分离计算方式中的索引信息。index_of_descent_sort( )表示降序排列的元素索引。Φ₁表示多层感知机。X表示初始图像。F(x)表示特征提取器对初始图像进行提取得到的特征信息。Ψ( )表示自适应平均池化。I_c表示内容特征信息的索引信息。c表示内容特征信息。a表示特征信息的通道维度的数目。r表示提取比例。r的取值范围为r∈(0，1)。c表示内容特征信息。S表示风格特征信息。

表示以I_c为索引的特征信息。Φ₂表示由三个卷积层与平均池化层组成的卷积神经网络。

表示以I\I_C为索引的特征信息。I\I_C表示将I中排除I_C后的索引信息。

步骤204，响应于获取到参考图像，基于参考图像、编码器和内容风格分离模块，生成参考图像的参考风格特征信息，响应于未获取到参考图像，则将参考风格特征信息设置为与风格特征信息形状一致的高斯噪声。

在一些实施例中，执行主体可以响应于获取到参考图像，基于参考图像、编码器和内容风格分离模块，生成参考图像的参考风格特征信息。响应于未获取到参考图像，则将参考风格特征信息设置为与风格特征信息形状一致的高斯噪声。

在一些实施例的一些可选的实现方式中，参考图像是与初始图片的类别不同的图像；以及响应于未获取到参考图像，则将参考风格特征信息设置为与风格特征信息形状一致的高斯噪声，可以包括以下步骤：

响应于未获取到参考图像，对应的参考图像的参考风格信息被设置为与初始图像的风格特征信息相匹配形状的张量，其中，张量中的每个元素为来自均值为0，方差为1的高斯噪声。

作为示例，响应于未获取到参考图像的情况下，风格特征信息设置为：

其中，S表示风格特征信息。m表示特征元素。m_ij表示第i行，第j列的特征元素。b表示批量的大小。c表示超参数。c的取值可以为8。N(0，1)表示均值为0方差为1的高斯分布。具体而言，对于未获取到参考图像的应用场景，本发明会随机产生一种风格特征信息，进而产生出一种随机的目标图像。

步骤205，将内容特征信息与参考风格特征信息，输入至生成器，得到将初始图像翻译成参考图像风格的目标图像。

在一些实施例中，执行主体可以将内容特征信息与参考风格特征信息，输入至生成器，得到将初始图像翻译成参考图像风格的目标图像。

在一些实施例的一些可选的实现方式中，生成器包括特征融合模块和带有特征融合功能的图像生成器，其中，特征融合模块是利用风格特征信息指导内容特征信息生成的模块，其中：

特征融合模块，用于对风格特征信息进行非线性映射，并进行特征融合，得到特征融合后的风格特征信息，其中，特征融合后的风格特征信息用于调整内容特征信息的均值和方差，融合风格特征信息与内容特征信息。

特征融合模块包括的计算方式如下：

其中，σ()表示Sigmoid归一化函数。z表示特征信息对应的特征值。σ(z)表示对z归一化后的特征信息对应的特征值。exp()表示以自然常数为底的指数函数。-z表示特征信息对应的特征值的负数。exp(-z)表示以自然常数为底的-Z的指数函数。NAIN表示特征融合处理得到的特征信息对应的特征值。γ表示在多层感知机中习得的特征尺度信息对应的特征值。β表示在多层感知机中习得的特征偏移信息对应的特征值。NAIN(z，γ，β)表示z、γ、β经过特征融合处理得到的特征信息对应的特征值。σ(γ)表示对γ归一化后的特征信息对应的特征值。σ(z)表示对z归一化后的特征信息对应的特征值。μ(z)表示z的均值。σ(β)表示对β进行归一化后的特征信息对应的特征值。

带有特征融合功能的图像生成器，用于与特征融合模块相结合，融合内容特征信息与风格特征信息，并进一步经过多次卷积和上采样，生成翻译后的目标图像。

作为示例，在具体实施中，水滴现象经常发生在生成的图像中，影响图像的生成质量。本发明中提出使用归一化的特征融合方法来解决水滴现象，提高生成的图像质量。水滴现象可以很好地被特征融合模块所解决，图像的风格特征信息可以很好地指导生成器来重建高质量的图片。

步骤206，将目标图像缩放到与初始图像相匹配的尺寸，得到最终目标图像。

在一些实施例中，执行主体可以将目标图像缩放到与初始图像相匹配的尺寸，得到最终目标图像。

以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开的实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种无监督图像到图像的翻译方法，包括：

在测试过程中，获取初始图像，将初始图像缩放到特定尺寸；

通过编码器对初始图像进行空间特征提取，得到特征信息，其中，特征信息的表现形式为四维张量；

将特征信息输入至内容风格分离模块，得到内容特征信息和风格特征信息，其中，内容特征信息表现形式为四维张量，风格特征信息表现形式为二维张量；

响应于获取到参考图像，基于参考图像、编码器和内容风格分离模块，生成参考图像的参考风格特征信息，响应于未获取到参考图像，则将参考风格特征信息设置为与风格特征信息形状一致的高斯噪声；

将内容特征信息与参考风格特征信息，输入至生成器，得到将初始图像翻译成参考图像风格的目标图像；

将目标图像缩放到与初始图像相匹配的尺寸，得到最终目标图像；

其中，所述编码器是用于分离内容特征信息和风格特征信息的编码器，编码器的计算方式如下：

c，s，H＝E(F(x))

其中，c表示内容特征信息，S表示风格特征信息，H表示高级视觉任务，E表示特征分离模块，F( )表示特征提取器，F(x)表示特征提取器对初始图像进行提取得到的特征信息，X表示初始图像。

2.根据权利要求1所述的方法，其中，初始图像是来自预定类别的图像。

3.根据权利要求2所述的方法，其中，编码器提取的初始图像的空间特征信息被用于高级视觉任务。

4.根据权利要求3所述的方法，其中，内容风格分离模块用于分离内容特征信息与风格特征信息，其中，内容风格分离模块是具有选择、压缩和提取功能的模块，内容风格分离模块包括内容特征提取模块和风格特征提取模块，其中：

内容特征提取模块，用于提取初始图像的空间特征中的不同通道中的信息与高级视觉任务的相关性，将对应相关度大于等于预定阈值的部分提取出来作为内容特征信息；

5.根据权利要求4所述的方法，其中，参考图像是与初始图片的类别不同的图像；以及

响应于未获取到参考图像，则将参考风格特征信息设置为与风格特征信息形状一致的高斯噪声，包括：

6.根据权利要求5所述的方法，其中，生成器包括特征融合模块和带有特征融合功能的图像生成器，其中，特征融合模块是利用风格特征信息指导内容特征信息生成的模块，其中：

特征融合模块，用于对风格特征信息进行非线性映射，并进行归一化，得到归一化后的风格特征信息，其中，归一化后的风格特征信息用于调整内容特征信息的均值和方差，融合风格特征信息与内容特征信息；

特征融合模块包括的计算方式如下：

其中，σ( )表示Sigmoid归一化函数，Z表示特征信息对应的特征值，σ(z)表示对z归一化后的特征信息对应的特征值，exp( )表示以自然常数为底的指数函数，-z表示特征信息对应的特征值的负数，exp(-z)表示以自然常数为底的-Z的指数函数，NAIN表示特征融合处理得到的特征信息对应的特征值，γ表示在多层感知机中习得的特征尺度信息对应的特征值，β表示在多层感知机中习得的特征偏移信息对应的特征值，NAIN(z，γ，β)表示z、γ、β经过特征融合处理得到的特征信息对应的特征值，σ(γ)表示对γ归一化后的特征信息对应的特征值，σ(z)表示对z归一化后的特征信息对应的特征值，μ(z)表示Z的均值，σ(β)表示对β进行归一化后的特征信息对应的特征值；