CN111275057B

CN111275057B - 图像处理方法、装置及设备

Info

Publication number: CN111275057B
Application number: CN202010090066.XA
Authority: CN
Inventors: 王浩; 李志锋; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-02-13
Filing date: 2020-02-13
Publication date: 2023-06-20
Anticipated expiration: 2040-02-13
Also published as: WO2021159781A1; US20220172462A1; CN111275057A

Abstract

本发明提供了一种图像处理方法、装置及设备，该方法包括：获取第一输入图像和第二输入图像；提取所述第一输入图像的内容特征；提取所述第二输入图像的属性特征；对提取出的所述第一输入图像的内容特征和所述第二输入图像的属性特征进行特征映射，以得到目标图像特征；以及基于所述目标图像特征生成输出图像。本发明引入特征转换网络，并对整个图像处理系统进行分阶段训练，使得图像处理系统训练高效快捷、适用性广、在保持内容信息的同时生成与期望属性更相似的输出图像。

Description

图像处理方法、装置及设备

技术领域

本发明涉及图像处理技术，更具体地，涉及一种图像处理方法、装置及设备。

背景技术

人脸图像合成在现实世界中有许多应用，例如人脸的超分辨率、正面化、人脸图像编辑等等，其广泛应用于图像视频的处理与生成等领域，具有非常重要的工业价值。随着深度学习技术的发展以及深度生成网络的出现，现有技术利用深度生成模型，例如生成对抗网络(Generative Adversarial Network，GAN)和变分自编码器(Variational Auto-encoder，VAE)等等，在实现高真实度的人脸合成方面取得了巨大进展。现实应用场景中，在保持身份不变的条件下合成特定场景的人脸图像是具有较高挑战性的一个课题。然而，目前的人脸图像合成方法仅通过对身份人脸图像的身份特征和属性人脸图像的属性特征进行简单的组合拼接，在生成的人脸图像中无法充分地表达身份人脸图像的身份信息和属性人脸图像的属性信息，并且在训练过程中，所有网络参数都一同受到身份和属性的共同约束，在图像的编解码过程中可能会造成不真实的合成瑕疵。所以，需要一种训练高效快捷、适用性广、在保持人脸身份信息的同时生成与期望属性更相似的人脸图像的图像合成方法。

发明内容

本发明的实施例提供了一种图像处理方法，包括：获取第一输入图像和第二输入图像；提取所述第一输入图像的内容特征；提取所述第二输入图像的属性特征；对提取出的所述第一输入图像的内容特征和所述第二输入图像的属性特征进行特征映射，以得到目标图像特征；以及基于所述目标图像特征生成输出图像。

根据本发明的实施例，其中，利用特征转换网络来对提取出的所述第一输入图像的内容特征和所述第二输入图像的属性特征进行特征映射，以得到所述目标图像特征，其中，所述目标图像特征具有所述第一输入图像的内容特征和所述第二输入图像的属性特征。

根据本发明的实施例，其中，利用内容编码器网络来提取所述第一输入图像的内容特征；利用属性编码器网络来提取所述第二输入图像的属性特征；以及利用解码器网络来基于所述目标图像特征生成输出图像。

根据本发明的实施例，其中，所述内容编码器网络和所述属性编码器网络为卷积神经网络，所述解码器网络为反卷积神经网络，并且所述特征转换网络为多个全连接层构成的多层感知器。

根据本发明的实施例，其中，基于图像重建损失函数来对待训练的内容编码器网络、待训练的属性编码器网络、待训练的特征转换网络和待训练的解码器网络进行预训练；以及基于联合损失函数来对所述待训练的特征转换网络进行联合训练。

根据本发明的实施例，其中，所述联合损失函数包括图像重建损失函数、内容损失函数以及生成对抗损失函数中的至少两项。

根据本发明的实施例，其中，所述图像重建损失函数为所述待训练的属性编码器网络的训练输入图像与所述待训练的解码器网络的训练输出图像之间的L2距离或L1距离。

根据本发明的实施例，其中，所述内容损失函数为所述待训练的内容编码器网络的训练输入图像的内容特征和所述待训练的解码器网络的训练输出图像的内容特征之间的L2距离或L1距离或余弦相似度。

根据本发明的实施例，其中，利用内容识别网络来提取所述待训练的内容编码器网络的训练输入图像的内容特征和所述待训练的解码器网络的训练输出图像的内容特征。

根据本发明的实施例，其中，所述生成对抗损失函数为所述待训练的属性编码器的训练输入图像的属性特征和所述待训练的解码器的训练输出图像的属性特征之间的L2距离或L1距离。

根据本发明的实施例，其中，利用判别网络来提取所述待训练的属性编码器的训练输入图像的属性特征和所述待训练的解码器的训练输出图像的属性特征。

本发明的实施例提供了一种图像处理装置，包括：输入模块，用于获取第一输入图像和第二输入图像；内容提取模块，用于提取所述第一输入图像的内容特征；属性提取模块，用于提取所述第二输入图像的属性特征；特征转换模块，用于对提取出的所述第一输入图像的内容特征和所述第二输入图像的属性特征进行特征映射，以得到目标图像特征；以及输出模块，用于基于所述目标图像特征生成输出图像。

根据本发明的实施例，其中，所述特征转换模块包括特征转换网络，其中，利用所述特征转换网络来对提取出的所述第一输入图像的内容特征和所述第二输入图像的属性特征进行特征映射，以得到所述目标图像特征，其中，所述目标图像特征具有所述第一输入图像的内容特征和所述第二输入图像的属性特征。

本发明的实施例提供了一种图像处理设备，包括：输入单元，用于获取输入图像；输出单元，用于输出输出图像；处理器；和存储器，其上存储有计算机可执行指令，所述指令在被处理器执行时用于实现如上所述的任一方法。

本发明的实施例提供了一种计算机可读存储介质，其上存储有计算机可执行指令，所述指令在被处理器执行时用于实现如上所述的任一方法。

本发明的实施例提供了一种图像处理方法、装置及设备，其引入特征转换网络，并对整个图像处理系统进行分阶段训练，使得图像处理系统训练高效快捷、适用性广、在保持内容信息的同时生成与期望属性更相似的输出图像。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例的描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本发明的一些示例性实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本发明实施例的图像处理设备的应用场景的示意图。

图2示出了根据本发明实施例的图像处理方法的流程图。

图3示出了根据本发明实施例的图像处理系统的示意性结构图。

图4示出了根据本发明实施例的图像处理系统的示例训练方法的流程图。

图5示出了根据本发明实施例的图像处理装置的示意图。

图6示出了根据本发明实施例的图像处理设备的示意图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。

在本说明书和附图中，具有基本上相同或相似步骤和元素用相同或相似的附图标记来表示，且对这些步骤和元素的重复描述将被省略。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性或排序。

本发明的实施例涉及人工智能的机器学习等技术，以下介绍与本发明有关的概念。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

下面，将结合附图对根据本发明的示例实施例进行描述。

图1示出了根据本发明实施例的图像处理设备的应用场景100的示意图。

如图1所示，在场景100中，用户期望对内容图像101和属性图像102进行图像合成。用户将第一输入图像101(或称为，内容图像101)和第二输入图像102(或称为，属性图像102)输入智能设备103，经过智能设备的合成转换处理，最终输出具有内容图像101的内容特征(例如，身份特征等)和属性图像102的属性特征(例如，姿态、光照、发型头饰、背景、风格等)的输出图像104。

智能设备103可以是具有图像处理功能的任何类型的智能设备，例如智能手机、智能电视、平板计算机、游戏控制台以及电子计算机等，或者可以是构成这些智能设备的一部分的软件或硬件模块。智能设备103可以具有内置或外接的摄像头(未示出)，用于获取输入的内容图像101和属性图像102。智能设备103可以具有内置或外接的显示界面或者其他类型的输出接口(未示出)，用于输出经过图像合成处理过后的输出图像104。智能设备103还可以具有远程或本地连接的存储器(未示出)，用于存储输入的内容图像101和属性图像102、输出图像104以及系统运行所需的任何数据或指令。

内容图像101可以是具有内容特征的任何图像，例如，其可以是具有特定身份信息的人脸图像，也可以是卡通人物图像或者动物面部图像等。类似地，属性图像102可以是具有任何属性特征的图像，例如，其可以是具有微笑面容特征的图像、可以是具有明亮图像背景的图像、可以是具有皇冠或眼镜饰品的图像、或者可以是具有素描风格等特定风格的图像，等等。

内容图像101和属性图像102可以通过智能设备103内置或外接的摄像头实时获取，也可以经由局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)、内联网、互联网、存储区域网(Storage Area Network，SAN)、个人区域网(Personal AreaNetwork，PAN)、城域网(Metropolitan Area Network，MAN)、无线局域网(Wireless LocalArea Network，WLAN)、虚拟专用网(Virtual Private Network，VPN)、蜂窝或其它移动通信网络、蓝牙、近场通信(Near-Field Communication，NFC)、超声波通信等各种通信网络实时获取。在另一实施例中，内容图像101和属性图像102也可以是预先存储在智能设备103可访问的存储器中的特定图像。

接下来，结合图2和图3来描述根据本发明实施例的一种示例性图像处理方法。

图2示出了根据本发明实施例的一种图像处理方法200的流程图。图3示出了根据本发明实施例的图像处理系统300的示意性结构图。

根据如图3所示的实施例，图像处理系统300可以包括内容编码器网络I、属性编码器网络A、特征转换网络T和解码器网络G，如图3中虚线框所示。内容编码器网络I、属性编码器网络A、特征转换网络T和解码器网络G可以经过特定的神经网络训练算法进行预先训练。

在图2中，首先，在步骤S201中，获取第一输入图像和第二输入图像。

例如，在如图3所示的实施例中，第一输入图像可以是内容图像x^s，并且第二输入图像可以是属性图像x^a。应当理解，这里使用的术语“第一”、“第二”仅用于区分描述，而不用于指示或暗示相对重要性或排序。如上所述，第一输入图像和第二输入图像可以经由智能设备103的摄像头实时获取、经由各种网络实时获取、从智能设备103可访问的存储器中获取、或者采用任何其它图像获取方式来获取。

在步骤S202中，提取第一输入图像的内容特征。

在一个实施例中，可以利用预先训练的内容编码器网络来提取第一输入图像的内容特征。例如，如图3所示，可以利用预先训练的内容编码器网络I来提取内容图像x^s的特定维度(例如，1×512)的内容特征向量f_I(x^s)。内容特征向量f_I(x^s)可以包括内容图像x^s的特定内容特征信息，例如，可以表征内容图像x^s的身份信息。在一个实施例中，内容编码器网络I可以是一个卷积神经网络。在其他实施例中，内容编码器网络I还可以是任何其他类型的神经网络。内容编码器网络I的训练过程将在下文中详细描述。

在步骤S203中，提取第二输入图像的属性特征。

在一个实施例中，可以利用预先训练的属性编码器网络来提取第二输入图像的属性特征。例如，如图3所示，可以利用预先训练的属性编码器网络A来提取属性图像x^a的特定维度(例如，1×512)的属性特征向量f_A(x^a)。属性特征向量f_A(x^a)可以包括属性图像x^a的特定属性特征信息，例如，可以表征属性图像x^a的姿态、光照、发型头饰、背景或风格等信息。在一个实施例中，属性编码器网络A可以是一个卷积神经网络。在其他实施例中，属性编码器网络A还可以是任何其他类型的神经网络。属性编码器网络A的训练过程将在下文中详细描述。

在步骤S204中，对提取出的第一输入图像的内容特征和第二输入图像的属性特征进行特征映射，以得到目标图像特征。

在一个实施例中，可以利用预先训练的特征转换网络来对提取出的第一输入图像的内容特征和第二输入图像的属性特征进行特征映射，以得到目标图像特征。例如，如图3所示，可以利用预先训练的特征转换网络T来对提取出的第一输入图像x^s的内容特征向量f_I(x^s)和第二输入图像x^a的属性特征向量f_A(x^a)进行特征映射，以得到目标图像特征向量f_T。可以采用任何图像特征融合算法来对内容特征向量f_I(x^s)和属性特征向量f_A(x^a)进行特征融合和映射处理。应了解，根据本发明实施例的特征融合和映射处理与对内容特征向量f_I(x^s)和属性特征向量f_A(x^a)进行简单的特征拼接不同，根据本发明实施例的特征融合和映射能够充分地理解第一输入图像x^s的内容特征和第二输入图像x^a的属性特征，并充分表达目标图像特征。在一个实施例中，可以采用由多个全连接层构成的多层感知器来实现特征转换网络T。可以基于多个训练样本对特征转换网络T的参数进行训练，以使得经过特征转换网络T的特征融合和映射处理而得到的目标图像特征向量f_T可以具有第一输入图像的内容特征信息和第二输入图像的属性特征信息。在下文中，将进一步对特征转换网络T的训练过程进行详细描述。在其他实施例中，特征转换网络T还可以是任何其他类型的神经网络。

最后，在步骤S205中，基于目标图像特征生成输出图像。

在一个实施例中，可以利用预先训练的解码器网络来基于目标图像特征生成输出图像。例如，如图3所示，可以利用预先训练的解码器网络G来基于目标图像特征向量f_T生成输出图像x’。在一个实施例中，与内容编码器网络I和属性编码器网络A相对应地，解码器网络G可以是一个反卷积神经网络。在其他实施例中，解码器网络G还可以是任何其他类型的神经网络。解码器网络G的训练过程将在下文中详细描述。

下面，将结合图4对图3所示的内容编码器网络I、属性编码器网络A、特征转换网络T和解码器网络G的训练过程进行示例性描述。

图4示出了根据本发明实施例的图像处理系统300的示例训练方法400的流程图。

如图4所示，图像处理系统300的训练过程可以分为两个阶段进行。

在第一阶段，即，在步骤S401中，基于图像重建损失函数来对待训练的内容编码器网络、待训练的属性编码器网络、待训练的特征转换网络和待训练的解码器网络进行预训练。

在下文中，分别用I₀、A₀、T₀和G₀来表示上述待训练的内容编码器网络、待训练的属性编码器网络、待训练的特征转换网络和待训练的解码器网络，并且用S₀来表示待训练的图像处理系统300。

具体地，在预训练阶段(即，第一阶段)，可以利用包括多个内容图像样本的第一内容图像样本集S1和包括多个属性图像样本的第一属性图像样本集S2来对待训练的内容编码器网络I₀、待训练的属性编码器网络A₀、待训练的特征转换网络T₀和待训练的解码器网络G₀的参数进行预训练。例如，在每一次训练迭代中，可以分别从第一内容图像样本集S1选取内容图像样本X^s以及从第一属性图像样本集S2中选取属性图像样本X^a，分别将其输入到待训练的内容编码器网络I₀和待训练的属性编码器网络A₀中，然后，经过T₀的特征转换以及G₀的解码处理，生成训练输出图像X’。

在一个实施例中，可以使用图像重建损失函数来约束待训练的图像处理系统S₀的预训练过程。具体地，图像重建损失函数可以是待训练的属性编码器网络A₀的训练输入图像(即，属性图像样本)与待训练的解码器网络G₀的训练输出图像之间的L2距离或L1距离。例如，当使用L2距离的形式时，图像重建损失函数L_GR可以定义如下：

其中X^a为待训练的属性编码器网络A₀的训练输入图像，X’为待训练的解码器网络G₀的训练输出图像。

通过最小化图像重建损失函数L_GR来预训练待训练的图像处理系统S₀，可以使得经训练后得到的图像处理系统300生成的图像与属性图像在低层次像素级别尽可能接近，并具有与其一致的轮廓边缘、背景、光照等属性信息。

接下来，在第二阶段，即在步骤S402中，基于联合损失函数来对待训练的特征转换网络进行联合训练。

在联合训练阶段(即，第二阶段)，可以首先固定经过预训练后的内容编码器网络I₀、属性编码器网络A₀和解码器网络G₀的参数，然后利用包括多个内容图像样本的第二内容图像样本集S3和包括多个属性图像样本的第二属性图像样本集S4，基于联合损失函数来对待训练的特征转换网络T₀进行联合训练。第二内容图像样本集S3可以与第一内容图像样本集S1相同或不同，并且第二属性图像样本集S4可以与第一属性图像样本集S2相同或不同。在一个实施例中，联合损失函数可以包括内容损失函数、生成对抗损失函数以及如上所述的图像重建损失函数中的至少两项。

在一个实施例中，如图3所示，在联合训练阶段，可以利用一个预先训练好的内容识别网络C来获取内容损失函数L_GC。内容识别网络C可以是任何类型的内容识别网络，例如，其可以是任何人脸识别网络模型，诸如VGGFace模型、CosFace模型等。在一个实施例中，内容识别网络C可以基于大量带有参考识别结果的内容图像样本，并且使用交叉熵损失函数L_C来进行预先训练。

可以利用预先训练好的内容识别网络C来分别提取待训练的内容编码器网络I₀(在联合训练阶段，其参数已被固定)的训练输入图像Y^s的内容特征f_C(Y^s)以及待训练的解码器网络G₀的训练输出图像Y’的内容特征f_C(Y’)，并在联合训练过程中调整待训练的特征转换网络T₀的参数，以使得二者的L2距离或L1距离最小或者余弦相似度最大。例如，当使用L2距离的形式时，内容损失函数L_GC可以定义如下：

通过最小化内容损失函数L_GC来对待训练的图像处理系统S₀进行联合训练，可以使得经训练后得到的图像处理系统300生成的图像与内容图像在高层次内容语义上具有相似的内容特征(例如，身份特征)。

在一个实施例中，如图3所示，在联合训练阶段，可以利用一个待训练的判别网络D来与待训练的图像处理系统S₀构成生成对抗网络(GAN)并进行联合的对抗训练。例如，在每次交替迭代训练中，可以使用包括待训练的图像处理系统S₀或经预训练后的图像处理系统S₀预先生成的多个输出图像的输出图像样本集S5(其中每个输出图像样本带有样本标注0，以表示其为“假”图像)和包括多个属性图像样本的第三属性图像样本集S6(其中每个属性图像样本带有样本标注1，以表示其为“真实”图像)对待训练的判别网络D进行训练。例如，可以首先固定待训练的图像处理系统S₀的所有参数，而只更新判别网络D的参数，以使得“真实”图像和“假”图像能够尽可能地被正确区分，在此步骤中，可以使用如下所述的损失函数作为训练待训练的判别网络D的损失函数：

其中，D(z^a)为判别网络D对“真实”图像样本z^a的判别输出，D(z′)表示判别网络D对“假”图像样本z′的判别输出，

表示z^a服从概率分布/>

表示在概率分布/>

上的期望，z′～P_z′表示z′服从概率分布P_z′，并且/>

表示在概率分布P_z′上的期望。

在更新了待训练的判别网络D的参数之后，可以在此基础上固定待训练的判别网络D的参数，并只更新待训练的图像处理系统S₀的参数，以使得“真实”图像和“假”图像尽可能地不能够被正确区分。在上述实施例中，由于在预训练阶段后内容编码器网络I₀、属性编码器网络A₀和解码器网络G₀的参数已经固定，所以在此步骤中，可以只更新待训练的特征转换网络T₀的参数。由此，两个步骤交替迭代进行，以实现对待训练的图像处理系统S₀和待训练的判别网络D的对抗训练。可以使用任意一种可行的GAN训练损失函数来对待训练的图像处理系统S₀进行训练。例如，在一个实施例中，可以使用判别网络D来提取待训练的属性编码器A₀的训练输入图像k^a的属性特征f_D(k^a)和待训练的解码器G₀的训练输出图像k′的属性特征f_D(k’)，然后将二者之间的L2距离或L1距离作为训练图像处理系统S₀的生成对抗损失函数。例如，当使用L2距离的形式时，生成对抗损失函数L_GD可以定义如下：

其中f_D(k)可以表示判别网络D的中间层特征。例如，在判别网络D包括一个或多个全连接层时，f_D(k)可以是其最后一层全连接层的输入。

除上述定义的函数形式之外，生成对抗损失函数L_GD还可以是已有的被证明有效的其他类型的生成对抗损失函数及策略，例如LSGAN、PatchGAN等。

由此，在一个实施例中，在上述的第二训练阶段中，可以使用包括如上所述的图像重建损失函数L_GR、内容损失函数L_GC、生成对抗损失函数L_GD的联合损失函数来对对待训练的特征转换网络T₀进行联合训练。即，联合损失函数L可以定义如下：

L＝L_GR+λ_GCL_GC+λ_GDL_GD (5)

其中，λ_GC和λ_GD是用于平衡对应损失项的超参数。

经过如图4所示的两个阶段的训练，系统在第一阶段使得生成的输出图像与输入的属性图像具有尽可能相同的背景纹理、轮廓边缘等细节，在第二阶段使得生成的输出图像能够保留与输入的内容图像相似的内容信息(例如，身份信息)。

图5示出了根据本发明实施例的图像处理装置500的示意图。

如图5所示，根据本发明实施例的图像处理装置500可以包括：输入模块501、内容提取模块502、属性提取模块503、特征转换模块504以及输出模块505。其中，输入模块501可以用于获取第一输入图像和第二输入图像；内容提取模块502可以用于提取所述第一输入图像的内容特征；属性提取模块503可以用于提取所述第二输入图像的属性特征；特征转换模块504可以用于对提取出的所述第一输入图像的内容特征和所述第二输入图像的属性特征进行特征映射，以得到目标图像特征；并且输出模块505可以用于基于所述目标图像特征生成输出图像。

在一个实施例中，特征转换模块504包括特征转换网络，其中，利用特征转换网络来对提取出的第一输入图像的内容特征和第二输入图像的属性特征进行特征映射，以得到所述目标图像特征，其中，目标图像特征具有第一输入图像的内容特征和第二输入图像的属性特征。

图6示出了根据本发明实施例的图像处理设备600的示意图。

如图6所示，根据本发明实施例的图像处理设备600可以包括：输入单元601、输出单元602、处理器603以及存储器604。其可以通过总线605进行互联。

输入单元601可以是能够接收各种形式的输入图像的任何图像输入单元，例如图像采集单元或网络输入单元，其可以用于获取输入图像。

输出单元602可以是能够显示输出图像的任何类型的显示界面或者能够以其他方式输出输出图像的其他类型的输出接口。

处理器603可以根据存储在存储器604中的程序或代码执行各种动作和处理。具体地，处理器603可以是一种集成电路芯片，具有信号的处理能力。上述处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中公开的各种方法、步骤、流程及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，可以是X86架构或者是ARM架构等。

存储器604存储有可执行指令代码，该指令代码在被处理器603执行时用于实现根据本发明实施例的资源转移方法。存储器604可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(SDRAM)、双倍数据速率同步动态随机存取存储器(DDRSDRAM)、增强型同步动态随机存取存储器(ESDRAM)、同步连接动态随机存取存储器(SLDRAM)和直接内存总线随机存取存储器(DR RAM)。应注意，本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本发明还提供了一种计算机可读存储介质，其上存储有计算机可执行指令，该计算机指令被处理器执行时实现根据本发明实施例的图像处理方法。类似地，本发明实施例中的计算机可读存储介质可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。应注意，本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

需要说明的是，附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含至少一个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

一般而言，本发明的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑，或其任何组合中实施。某些方面可以在硬件中实施，而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本发明的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时，将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备，或其某些组合中实施。

在上面详细描述的本发明的示例实施例仅仅是说明性的，而不是限制性的。本领域技术人员应该理解，在不脱离本发明的原理和精神的情况下，可对这些实施例或其特征进行各种修改和组合，这样的修改应落入本发明的范围内。

Claims

1.一种图像处理方法，包括：

获取第一输入图像和第二输入图像；

利用内容编码器网络提取所述第一输入图像的内容特征；

利用属性编码器网络提取所述第二输入图像的属性特征；

利用特征转换网络对提取出的所述第一输入图像的内容特征和所述第二输入图像的属性特征进行特征映射，以得到目标图像特征；以及

利用解码器网络基于所述目标图像特征生成输出图像；

其中，对内容编码器网络、属性编码器网络、特征转换网络和解码器网络的训练过程包括以下两个阶段：

在预训练阶段，通过最小化图像重建损失函数来对待训练的图像处理系统进行预训练；其中，所述图像重建损失函数为所述待训练的属性编码器网络的训练输入图像与所述待训练的解码器网络的训练输出图像之间的L2距离或L1距离；所述待训练的图像处理系统包括待训练的内容编码器网络、待训练的属性编码器网络、待训练的特征转换网络和待训练的解码器网络；以及

在联合训练阶段，固定经过预训练后的内容编码器网络、属性编码器网络和解码器网络的参数，并基于联合损失函数对由待训练的判别网络和经预训练的图像处理系统构成的生成对抗网络进行联合的对抗训练，以实现对经预训练的图形处理系统中的所述特征转换网络的联合训练；

其中，所述联合的对抗训练采用以下两个步骤交替迭代进行：

固定经预训练的图像处理系统的所有参数，对待训练的判别网络进行训练和参数更新；

固定待训练的判别网络的参数，对经预训练的图像处理系统进行训练并更新经预训练的图像处理系统中的所述特征转换网络的参数。

2.如权利要求1所述的方法，其中，所述目标图像特征具有所述第一输入图像的内容特征和所述第二输入图像的属性特征。

3.如权利要求2所述的方法，其中，

所述内容编码器网络和所述属性编码器网络为卷积神经网络，所述解码器网络为反卷积神经网络，并且所述特征转换网络为多个全连接层构成的多层感知器。

4.如权利要求2所述的方法，其中，所述联合损失函数包括图像重建损失函数、内容损失函数以及生成对抗损失函数中的至少两项。

5.如权利要求4所述的方法，其中，所述内容损失函数为所述待训练的内容编码器网络的训练输入图像的内容特征和所述待训练的解码器网络的训练输出图像的内容特征之间的L2距离或L1距离或余弦相似度。

6.如权利要求5所述的方法，其中，利用内容识别网络来提取所述待训练的内容编码器网络的训练输入图像的内容特征和所述待训练的解码器网络的训练输出图像的内容特征。

7.如权利要求4所述的方法，其中，所述生成对抗损失函数为所述待训练的属性编码器的训练输入图像的属性特征和所述待训练的解码器的训练输出图像的属性特征之间的L2距离或L1距离。

8.如权利要求7所述的方法，其中，利用判别网络来提取所述待训练的属性编码器的训练输入图像的属性特征和所述待训练的解码器的训练输出图像的属性特征。

9.一种图像处理装置，包括：

输入模块，用于获取第一输入图像和第二输入图像；

内容提取模块，用于利用内容编码器网络提取所述第一输入图像的内容特征；

属性提取模块，用于利用属性编码器网络提取所述第二输入图像的属性特征；

特征转换模块，用于利用特征转换网络对提取出的所述第一输入图像的内容特征和所述第二输入图像的属性特征进行特征映射，以得到目标图像特征；以及

输出模块，用于利用解码器网络基于所述目标图像特征生成输出图像；

10.如权利要求9所述的装置，其中，所述特征转换模块包括特征转换网络，其中，

所述目标图像特征具有所述第一输入图像的内容特征和所述第二输入图像的属性特征。

11.一种图像处理设备，包括：

输入单元，用于获取输入图像；

输出单元，用于输出所生成的输出图像；

处理器；和

存储器，其上存储有计算机可执行指令，所述指令在被处理器执行时用于实现如权利要求1-8中任一项所述的方法。

12.一种计算机可读存储介质，其上存储有计算机可执行指令，所述指令在被处理器执行时用于实现如权利要求1-8中的任一项所述的方法。