CN111325252A

CN111325252A - 图像处理方法、装置、设备、介质

Info

Publication number: CN111325252A
Application number: CN202010088175.8A
Authority: CN
Inventors: 储文青; 邰颖; 汪铖杰; 李季檩; 葛彦昊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-02-12
Filing date: 2020-02-12
Publication date: 2020-06-23
Anticipated expiration: 2040-02-12
Also published as: CN111325252B

Abstract

公开了一种图像方法、装置、设备、介质。所述方法包括：获取第一图像和属性特征，其中所述属性特征用于指示所述第一图像的内容属性；对所述第一图像进行编码，以得到编码图像特征；基于所述编码图像特征确定所述第一图像的全局图像特征；基于所述全局图像特征和所述属性特征确定所述第一图像的风格特征；基于所述风格特征对所述编码图像特征进行解码，以得到第二图像，其中所述第二图像中包括所述第一图像中的至少部分图像信息和所述内容属性。

Description

图像处理方法、装置、设备、介质

技术领域

本申请涉及图像处理领域，更具体地涉及一种图像处理方法、装置、设备、介质。

背景技术

可以基于目标属性对图像进行编辑以获得包含目标属性的编辑后的图像。例如，可以基于目标属性给图像中的人脸增加例如眼镜、帽子等配饰，也可以基于目标属性改变图像中人物的妆容、服装等。当图像中包括不戴眼镜的人物脸部信息，目标属性包括指示人物佩戴眼镜的情况下，所生成的新的图像中可以包括佩戴眼镜的人物脸部信息。利用上述图像处理的内容，可以在例如照相、短视频、直播等影像化的应用程序中为用户提供更多的交互内容。

发明内容

根据本申请的一方面，提出了一种图像处理方法，包括：获取第一图像和属性特征，其中所述属性特征用于指示所述第一图像的内容属性；对所述第一图像进行编码，以得到编码图像特征；基于所述编码图像特征确定所述第一图像的全局图像特征；基于所述全局图像特征和所述属性特征确定所述第一图像的风格特征；基于所述风格特征对所述编码图像特征进行解码，以得到第二图像，其中所述第二图像中包括所述第一图像中的至少部分图像信息和所述内容属性。

在一些实施例中，基于所述全局图像特征和所述属性特征确定所述第一图像的风格特征包括：利用所述属性特征调整所述全局图像特征，以得到调整后的全局图像特征；叠加所述全局图像特征和所述调整后的全局图像特征，以得到所述风格特征。

在一些实施例中，基于所述风格特征对所述编码图像特征进行解码，以得到第二图像包括：对所述编码图像特征进行卷积以得到所述解码图像特征，其中，所述解码图像特征包括至少两个通道的解码特征图；调整所述解码图像特征中各通道的解码特征图中的元素以得到生成特征图，其中所述生成特征图的全局图像特征匹配所述风格特征；对所述生成特征图进行卷积以得到所述第二图像。

在一些实施例中，对所述编码图像特征进行卷积以得到所述解码图像特征包括：确定所述编码图像特征的空间特征；拼接所述编码图像特征和所述空间特征，以得到具有空间信息的编码图像特征；对所述具有空间信息的编码图像特征进行卷积以得到所述解码图像特征。

在一些实施例中，对所述第一图像进行编码，以得到编码图像特征包括：对所述第一图像进行卷积以得到所述编码图像特征。

在一些实施例中，所述编码图像特征包括至少两个通道的编码特征图，基于所述编码图像特征确定所述第一图像的全局图像特征包括：针对每个通道的编码特征图，确定该编码特征图的编码均值和编码方差；拼接每个编码特征图的编码均值和编码方差，以得到所述第一图像的全局图像特征。

在一些实施例中，所述第一图像包括人脸信息。

在一些实施例中，所述图像处理方法还包括：确定包括第一训练图像和训练属性特征的训练集，其中所述第一训练图像包括训练人脸信息，所述训练属性特征用于指示所述第一训练图像的训练内容属性；利用编码卷积神经网络对所述第一训练图像进行编码，以得到训练编码图像特征；基于所述训练编码图像特征确定所述第一训练图像的训练全局图像特征；利用风格特征确定网络，基于所述训练全局图像特征和所述训练属性特征确定所述第一训练图像的训练风格特征；利用解码卷积神经网络，基于所述训练风格特征对所述训练编码图像特征进行解码，以得到第一生成图像，其中所述第一生成图像包括所述训练属性；对所述第一生成图像进行特征点识别，以得到生成特征点信息；对所述第一训练图像进行特征点识别，以得到训练特征点信息；确定所述生成特征点信息和所述训练特征点信息之间的第一差别；以及至少部分基于所述第一差别调整所述编码卷积神经网络、所述风格特征确定网络以及所述解码卷积神经网络的参数。

在一些实施例中，确定所述生成脸部识别特征和所述训练脸部识别特征之间的第一差别包括：确定所述生成脸部识别特征和所述训练脸部识别特征的欧氏距离作为所述第一差别。

在一些实施例中，至少部分基于所述第一差别调整所述编码卷积神经网络、所述风格特征确定网络以及所述解码卷积神经网络的参数包括：对具有第一标记的所述第一生成图像进行图像分类，以得到指示第一生成图像是否属于真实图像的分类结果，其中第一标记指示所述第一生成图像不属于真实图像；基于所述分类结果与所述第一标记确定标记差别；以及对所述第一生成图像进行属性分类，以得到第一生成图像中包括的真实属性；确定所述真实属性和所述训练属性特征之间的第二差别；基于所述标记差别、所述第一差别、所述第二差别调整所述编码卷积神经网络、所述风格特征确定网络以及所述解码卷积神经网络的参数。

根据本申请的另一方面，还提供了一种图像处理装置，包括：获取单元，配置成获取第一图像和属性特征，其中所述属性特征用于指示所述第一图像的内容属性；编码单元，配置成对所述第一图像进行编码，以得到编码图像特征；全局图像特征确定单元，配置成基于所述编码图像特征确定所述第一图像的全局图像特征；风格特征确定单元，配置成基于所述全局图像特征和所述属性特征确定所述第一图像的风格特征；解码单元，配置成基于所述风格特征对所述编码图像特征进行解码，以得到第二图像，其中所述第二图像中包括所述第一图像中的至少部分图像信息和所述内容属性。

在一些实施例中，所述风格特征确定单元配置成：利用所述属性特征调整所述全局图像特征，以得到调整后的全局图像特征；叠加所述全局图像特征和所述调整后的全局图像特征，以得到所述风格特征。

在一些实施例中，所述解码单元配置成：对所述编码图像特征进行卷积以得到所述解码图像特征，其中，所述解码图像特征包括至少两个通道的解码特征图；调整所述解码图像特征中各通道的解码特征图中的元素以得到生成特征图，其中所述生成特征图的全局图像特征匹配所述风格特征；对所述生成特征图进行卷积以得到所述第二图像。

在一些实施例中，所述编码单元配置成：对所述第一图像进行卷积以得到所述编码图像特征。

在一些实施例中，所述全局图像特征确定单元配置成：针对每个通道的编码特征图，确定该编码特征图的编码均值和编码方差；拼接每个编码特征图的编码均值和编码方差，以得到所述第一图像的全局图像特征。

在一些实施例中，所述第一图像包括人脸信息。

在一些实施例中，所述编码单元、所述全局图像特征确定单元、所述风格特征确定单元以及所述解码单元是通过以下方式训练的：确定包括第一训练图像和训练属性特征的训练集，其中所述第一训练图像包括训练人脸信息，所述训练属性特征用于指示所述第一训练图像的训练内容属性；利用编码单元对所述第一训练图像进行编码，以得到训练编码图像特征；基于所述训练编码图像特征确定所述第一训练图像的训练全局图像特征；利用风格特征确定单元，基于所述训练全局图像特征和所述训练属性特征确定所述第一训练图像的训练风格特征；利用解码单元，基于所述训练风格特征对所述训练编码图像特征进行解码，以得到第一生成图像，其中所述第一生成图像包括所述训练属性；对所述第一生成图像进行特征点识别，以得到生成特征点信息；对所述第一训练图像进行特征点识别，以得到训练特征点信息；确定所述生成特征点信息和所述训练特征点信息之间的第一差别；以及至少部分基于所述第一差别调整所述编码单元、所述全局图像特征确定单元、所述风格特征确定单元以及所述解码单元的参数。

在一些实施例中，至少部分基于所述第一差别调整所述编码单元、所述全局图像特征确定单元、所述风格特征确定单元以及所述解码单元的参数包括：对具有第一标记的所述第一生成图像进行图像分类，以得到指示第一生成图像是否属于真实图像的分类结果，其中第一标记指示所述第一生成图像不属于真实图像；基于所述分类结果与所述第一标记确定标记差别；以及对所述第一生成图像进行属性分类，以得到第一生成图像中包括的真实属性；确定所述真实属性和所述训练属性特征之间的第二差别；基于所述标记差别、所述第一差别、所述第二差别调整所述编码单元、所述全局图像特征确定单元、所述风格特征确定单元以及所述解码单元的参数。

根据本申请的又一方面，还提供了一种基于人工智能的图像处理设备，包括：处理器；以及存储器，其中存储计算机可读程序指令，其中，在所述计算机可读程序指令被所述处理器运行时执行如前所述的图像处理方法。

根据本申请的又一方面，还提供了一种计算机可读存储介质，其上存储计算机可读指令，当所述计算机可读指令由计算机执行时，所述计算机执行如前所述的图像处理方法。

利用本申请提供的基于人工智能的图像处理方法、装置、设备、介质，可以根据输入图像的编码图像特征的全局信息和预定的属性特征确定期望的解码器的风格特征。基于通过上述方法生成的风格特征对编码图像特征进行解码能够得到根据预定属性对输入图像进行调整后的生成图像。由于上述方法获得的风格特征中保留了必要的编码图像特征的全局信息，因此在解码过程中，图像中与属性无关的部分可以保留，并且能够从全局的视角进行图像生成，保证整体特征的一致性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员而言，在没有做出创造性劳动的前提下，还可以根据这些附图获得其他的附图。以下附图并未刻意按实际尺寸等比例缩放绘制，重点在于示出本申请的主旨。

图1示出了根据本申请的图像处理系统的示例性的场景图；

图2示出了根据本申请的实施例的基于人工智能的图像处理方法的示意性的流程图；

图3示出了根据本申请的实施例的基于人工智能的图像处理装置的示意性的框图；

图4示出了根据本申请的实施例的用于训练本申请涉及的神经网络的训练装置的示意性的框图；

图5A示出了根据本申请的实施例的基于人工智能的图像处理过程的示意图；

图5B示出了风格特征确定模块的示意图；

图6示出了根据本申请的实施例的图像处理终端的示意性的框图；

图7A～7D示出了根据本申请的实施例的图像处理过程的用户交互界面的示例；以及

图8示出了根据本申请的实施例的计算设备的架构。

具体实施方式

下面将结合附图对本申请实施例中的技术方案进行清楚、完整地描述，显而易见地，所描述的实施例仅仅是本申请的部分实施例，而不是全部的实施例。基于本申请实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，也属于本申请保护的范围。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

虽然本申请对根据本申请的实施例的系统中的某些模块做出了各种引用，然而，任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的，并且所述系统和方法的不同方面可以使用不同模块。

本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，根据需要，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

可以通过将目标属性和待处理图像相结合，并利用生成对抗网络生成结合有目标属性和待处理图像的新的图像。然而，通过直接将待处理图像的信息和目标属性的信息相结合来确定新的图像的现有技术存在会引入不必要的冗余信息、整体特征的一致性得不到保证以及新生成的图像和原始图像的差别较大等缺点。

为了改进生成地包含目标属性的图像的准确性，本申请提供了一种新的基于人工智能的处理方法。下文中将结合附图描述本申请的原理。

图1示出了根据本申请的图像处理系统的示例性的场景图。如图1所示，该文本处理系统100可以包括用户终端110、网络120、服务器130以及数据库140。

用户终端110可以是例如图1中示出的电脑110-1、手机110-2。可以理解的是，事实上，用户终端可以是能够执行数据处理的任何其他类型的电子设备，其可以包括但不限于台式电脑、笔记本电脑、平板电脑、智能手机、智能家居设备、可穿戴设备等。

根据本申请提供的用户终端可以用于接收待处理的第一图像。例如，用户终端可以通过用户终端上设置的图像采集设备(例如照相机、摄像机等)采集待处理的第一图像。又例如，用户终端也可以从独立设置的图像采集设备(例如照相机、摄像机、扫描仪等)获取待处理的第一图像。再例如，用户终端也可以经由网络从服务器接收待处理的第一图像。这里所说的待处理的第一图像可以是单独的一张图像，也可以是视频中的一个图像帧。

在一些实施例中，可以利用用户终端的处理单元执行本申请提供的图像处理方法。在一些实现方式中，用户终端可以利用用户终端内置的应用程序执行图像处理。在另一些实现方式中，用户终端可以通过调用用户终端外部存储的应用程序执行本申请提供的图像处理方法。

在另一些实施例中，用户终端将接收的待处理的第一图像经由网络120发送至服务器130，并由服务器130执行图像处理方法。在一些实现方式中，服务器130可以利用服务器内置的应用程序执行图像处理方法。在另一些实现方式中，服务器130可以通过调用服务器外部存储的应用程序执行图像处理方法。

网络120可以是单个网络，或至少两个不同网络的组合。例如，网络120可以包括但不限于局域网、广域网、公用网络、专用网络等中的一种或几种的组合。

服务器130可以是一个单独的服务器，或一个服务器群组，群组内的各个服务器通过有线的或无线的网络进行连接。一个服务器群组可以是集中式的，例如数据中心，也可以是分布式的。服务器130可以是本地的或远程的。

数据库140可以泛指具有存储功能的设备。数据库130主要用于存储从用户终端110和服务器130工作中所利用、产生和输出的各种数据。数据库140可以是本地的，或远程的。数据库140可以包括各种存储器、例如随机存取存储器(Random Access Memory(RAM))、只读存储器(Read Only Memory(ROM))等。以上提及的存储设备只是列举了一些例子，该系统可以使用的存储设备并不局限于此。

数据库140可以经由网络120与服务器130或其一部分相互连接或通信，或直接与服务器130相互连接或通信，或是上述两种方式的结合。

在一些实施例中，数据库150可以是独立的设备。在另一些实施例中，数据库150也可以集成在用户终端110和服务器140中的至少一个中。例如，数据库150可以设置在用户终端110上，也可以设置在服务器140上。又例如，数据库150也可以是分布式的，其一部分设置在用户终端110上，另一部分设置在服务器140上。

下文中将详细阐述本申请提供的图像处理方法的流程。

图2示出了根据本申请的实施例的基于人工智能的图像处理方法的示意性的流程图。

在步骤S202中，可以获取第一图像和属性特征，其中属性特征用于指示第一图像的内容属性。

在一些实施例中，第一图像可以包括人脸信息和/或人体信息。例如，第一图像可以是用户的自拍照或自拍视频。第一图像中可以仅包括用户的脸部图像，也可以还包括用户的身体图像。在另一些实施例中，第一图像也可以包括动物、植物、静物等任何其他对象的图像信息。

属性可以包括用于第一图像的预先指定的至少一个属性。例如，在第一图像包括人脸图像的情况下，属性可以包括头发颜色、头发长度、配饰、表情、性别、年龄等。进一步地，在第一图像还包括人体图像的情况下，属性还可以包括身体动作、服装颜色等等。又例如，在第一图像包括动物、植物、静物等任何其他对象的图像信息的情况下，属性可以包括可以用于这些对象的任何附加信息，例如动物的毛发长度、眼睛大小、表情、动作、植物的尺寸等等。只要能够与第一图像的图像信息相结合以生成新的图像，在此不限制属性的具体内容。

属性特征可以实现为向量的形式，其中向量中的每个元素对应于预先指定的一个属性，并且该元素的值表示预先指定的该属性的信息。在一些示例中，属性特征中的元素的值可以是0或1，或者0到1之间的一个值。例如，以预先指定的至少一个属性包括黑色头发、金色头发、眼镜、微笑、性别、年龄为例，可以利用值为1的元素表示头发是黑色的、头发是金色的、戴眼镜、微笑、男性以及年老，可以利用值为0的元素表示头发不是黑色的、头发不是金色的、不戴眼镜、不微笑、女性以及年轻。进一步地，针对具有连续变化的特性的属性，例如黑色头发、金色头发以及年龄，可以利用0到1之间的元素值表示该属性的程度。例如，可以利用0到1之间的元素值表示头发颜色的深浅，其中元素值为1时头发颜色最深，元素值为0时头发颜色最浅。还可以利用0到1之间的元素值表示年纪的大小，其中元素值为1时年纪最大，元素值为0时年纪最小。

在步骤S204中，可以利用编码单元对第一图像进行编码，以得到编码图像特征。

在一些实施例中，可以利用编码卷积神经网络实现上述编码单元。例如，可以利用包括至少一个卷积层的编码卷积神经网络对第一图像进行卷积处理。在下文中，以编码卷积神经网络输出的编码图像特征的尺寸为C*W*H为例描述本申请的原理。其中C表示编码图像特征的通道数，W*H表示编码图像特征中每个通道的编码特征图的尺寸，W表示编码特征图的宽度，H表示编码特征图的高度。其中W和H可以是以像素个数为单位的尺寸，即，编码图像特征的编码特征图在宽度和高度方向上的像素个数。C表示每个像素位置能存放多少数。以彩色图像为例，彩色图像可以包括三个通道，每个通道分别表示R、G、B三个颜色的信息。

在编码卷积神经网络包括至少两个卷积层的情况下，编码卷积神经网络中的每个卷积层可以输出不同尺寸的编码图像特征。其中编码卷积神经网络中的第i个卷积层输出的第i个编码图像特征的尺寸可以表示为C_i*W_i*H_i，其中C_i表示第i个编码图像特征的通道数，W_i表示第i个编码图像特征的编码特征图的宽度，H_i表示第i个编码图像特征的编码特征图的高度，i是大于0的整数。

在步骤S206中，可以利用全局图像特征确定单元，基于编码图像特征确定第一图像的全局图像特征。

在一些实施例中，全局图像特征可以实现为向量的形式，其中全局图像特征中的各个元素分别用于表示编码图像特征中各通道的编码特征图的全局信息。

在一些实现方式中，编码特征图的全局信息可以包括编码特征图中所有点的平均值和标准差中的至少一项。

可以基于下式计算编码特征图中所有点的平均值和标准差：

其中，(f_enc)_j表示编码特征图中的第j个元素，M_t表示编码特征图中的元素的总数量，j是整数，并且1≤j≤M_t，μ^t表示编码特征图中所有元素的平均值，σ^t表示编码特征图中所有元素的标准差。

在另一些实现方式中，编码特征图的全局信息还可以包括编码特征图中所有点的方差或其他任何形式的统计结果。本申请中以编码特征图的全局信息是编码特征图中所有点的平均值和标准差为例描述本申请的原理，然而可以理解的是，本申请的范围不限于此。

在一些示例中，针对尺寸为C*W*H的编码图像特征中每个通道的编码特征图，可以将该编码特征图中的所有点的平均值确定为该编码特征图的编码均值，将该编码特征图中的所有点的标准差确定为该编码特征图的编码标准差。可以基于每个编码特征图的编码均值和编码标准差确定全局图像特征。

例如，可以基于每个通道的编码特征图的编码均值确定编码图像特征的编码均值向量μ＝[μ₁,μ₂,μ₃,……μ_C]，其中编码均值向量中的第j个元素μ_j可以是编码图像特征中第j个编码特征图的编码均值。类似地，可以基于每个通道的编码特征图的编码标准差确定编码图像特征的编码标准差向量σ＝[σ₁,σ₂,σ₃,……σ_C]，其中编码均值向量中的第j个元素σ_j可以是编码图像特征中第j个编码特征图的编码标准差。

可以通过拼接编码图像特征的编码均值向量μ和编码图像特征的编码标准差向量σ来确定用于第一图像的全局图像特征。如前所述，编码图像特征的编码均值向量μ和编码标准差向量σ都可以是维度为C的向量，拼接编码均值向量μ和编码标准差向量σ可以得到一个维度为2C的向量作为全局图像特征。可以以任何可能的方式对编码均值向量μ和编码标准差向量σ进行拼接。

例如，可以以编码均值向量μ在前，编码标准差向量σ在后的方式拼接两个向量，也可以以编码标准差向量σ在前，编码均值向量μ在后的方式拼接两个向量，还可以以任何其他变形的方式拼接编码均值向量μ和编码标准差向量σ，只要拼接得到的全局图像特征中包含编码均值向量μ和编码标准差向量σ的信息即可。

在步骤S204中使用的编码单元包括至少两个卷积层的情况下，可以基于第i个卷积层输出的第i个编码图像特征确定第一图像的第i个全局图像特征。

在一些实现方式中，针对尺寸为C_i*W_i*H_i的第i个编码图像特征中每个通道的编码特征图，可以将该编码特征图中的所有像素点的平均值确定为该编码特征图的编码均值，将该编码特征图中的所有像素点的标准差确定为该编码特征图的编码标准差。可以基于每个编码特征图的编码均值和编码标准差确定第一图像的第i个全局图像特征。

在一些示例中，可以基于每个通道的编码特征图的编码均值确定第i个编码图像特征的编码均值向量μ_i＝[μ₁,μ₂,μ₃,……μ_Ci]，其中编码均值向量中的第j个元素μ_j可以是编码图像特征中第j个编码特征图的编码均值，C_i表示第i个编码图像特征的通道数。类似地，可以基于每个通道的编码特征图的编码标准差确定第i个编码图像特征的编码标准差向量σ_i＝[σ₁,σ₂,σ₃,……σ_Ci]，其中编码均值向量中的第j个元素σ_j可以是编码图像特征中第j个编码特征图的编码标准差，C_i表示第i个编码图像特征的通道数。

可以通过拼接第i个编码图像特征的编码均值向量μ_i和第i个编码图像特征的编码标准差向量σ_i来确定第一图像的第i个全局图像特征。

在步骤S208中，可以利用风格特征确定单元，基于全局图像特征和属性特征确定第一图像的风格特征。

可以利用属性特征调整步骤S206确定的全局图像特征(或第i个全局图像特征)，以得到调整后的全局图像特征。

如前所述，属性特征和全局图像特征都实现为向量的形式。可以通过拼接属性特征和全局图像特征的方式得到组合有属性特征的信息和全局图像特征的信息的组合图像特征。然后，可以利用至少一个全连接层对组合图像特征进行处理来实现属性特征对全局图像特征的调整。上述至少一个全连接层输出的结果是调整后的全局图像特征。

可以组合调整后的全局图像特征和步骤S206中确定的全局图像特征以得到第一图像的风格特征。当涉及的是第一图像的第i个全局图像特征时，可以得到第一图像的第i个风格特征。

例如，可以通过调整全连接层的参数使得调整后的全局图像特征和全局图像特征具有相同的尺寸，如都是维度为2C的向量。然后，可以通过对全局图像特征和调整后的全局图像特征进行叠加以得到第一图像的风格特征。风格特征也可以实现为维度为2C的向量。可以将对全局图像特征和调整后的全局图像特征对应位置的元素的值进行求和，以得到风格特征中对应位置的元素的值。

利用上述方法得到的风格特征可以用表示一个尺寸与编码图像特征相同的特征，即尺寸为C*W*H的特征中每个通道特征图的全局信息。针对任意一个尺寸与编码图像特征相同的特征，可以通过调整该特征中各元素的值，使得调整后的特征中每个通道的特征图的全局信息与根据编码图像特征得到的上述风格特征中的信息相匹配。这样，可以认为，调整后的特征与编码图像特征具有相同的风格。在上述风格特征是通过根据属性特征对编码图像特征的全局图像特征进行调整而得到的情况下，可以认为与该风格特征相匹配的任意其他特征中也包括编码图像特征的全局图像特征的信息和属性特征的信息。

尽管上文中以对全局图像特征和调整后的全局图像特征进行叠加为例描述了组合调整后的全局图像特征和步骤S206中确定的全局图像特征的过程，事实上，本申请的范围不限于此。可以通过对调整后的全局图像特征和步骤S206中确定的全局图像特征进行任何数学处理来确定风格特征，只要风格特征中包括调整后的全局图像特征和原始的全局图像特征的信息即可。

在步骤S210中，可以利用解码单元，基于风格特征对编码图像特征进行解码，以得到第二图像。第二图像中包括第一图像中的至少部分图像信息和属性特征所指示的用于第一图像的内容属性。

可以利用包括至少一个卷积层的解码卷积神经网络对编码图像特征进行卷积以得到解码图像特征，其中解码图像特征包括至少两个通道的解码特征图。解码图像特征的尺寸可以和编码图像特征是相同的。在一些实现方式中，解码卷积神经网络的结构与编码卷积神经网络的结构是对应的。也就是说，解码卷积神经网络中包含的卷积层的数量与编码卷积神经网络中包含的卷积层的数量是相同的。在解码卷积神经网络和编码卷积神经网络中均包含N个卷积层的情况下，编码卷积神经网络的第i层输出的编码图像特征的尺寸和解码卷积神经中的第N+1-i层输出的解码图像特征的尺寸是相同的，其中N、i是正整数，并且1≤i≤N。

在一些实施例中，解码卷积神经网络可以对编码卷积神经网络输出的编码图像特征进行卷积，以得到对应的解码图像特征。也就是说，解码卷积神经网络的输入可以是编码卷积神经网络的最后一层卷积层的输出。

在另一些实施例中，可以在编码卷积神经网络和解码卷积神经网络之间设置有深度残差网络，其中深度残差网络包括至少一个残差单元。利用设置在编码卷积神经网络和解码卷积神经网络之间设置的深度残差网络能够缓解包括编码卷积神经网络和解码卷积神经网络的整个图像处理模型由于网络深度过深而导致的退化问题。在这种情况下，可以将编码卷积神经网络的输出输入深度残差网络，并将深度残差网络的输出作为解码卷积神经网络的输入，由此实现利用解码卷积神经网络对编码图像特征进行卷积。其中深度残差网络输出的结果可以和编码卷积神经网络输出的结果具有相同的尺寸。

在又一些实施例中，解码卷积神经网络还可以基于编码图像特征的空间特征对编码图像特征进行解码。

在一些实现方式中，可以通过空间特征确定单元对编码图像特征进行处理以得到编码图像特征的空间特征。空间特征确定单元可以实现为由至少一个卷积层形成的卷积神经网络。在这种情况下，可以通过对编码图像特征进行卷积以得到编码图像特征的空间特征。在一些示例中，空间特征的尺寸可以是1*W*H，其中W*H是编码图像特征中每个通道的编码特征图的尺寸。

然后，可以组合编码图像特征和空间特征的信息。在一些示例中，可以通过拼接编码图像特征和空间特征得到具有空间信息的编码图像特征。在编码卷积神经网络和解码卷积神经网络之间设置有深度残差网络的情况下，可以通过拼接深度残差网络输出的结果和空间特征得到具有空间信息的编码图像特征。然后，可以利用解码卷积神经网络对具有空间信息的编码图像特征进行卷积以得到解码图像特征。

步骤S208中得到的风格特征可以用于调整解码图像特征中各通道的解码特征图中的元素的值，以得到生成特征图。其中生成特征图的全局图像特征匹配风格特征。

如前所述，可以根据风格特征对任意一个与编码图像特征尺寸相同的特征进行调整，以使得调整后的特征与编码图像特征具有相同的风格。在编码图像特征的尺寸是C*W*H的情况下，风格特征可以实现为维度为2C的向量。因此，风格特征的尺寸可以表示为2C*1*1，并且风格特征可以用于表示尺寸为C*W*H的特征中每个通道的特征图的全局信息，例如均值和标准差。因此，可以根据风格特征调整与编码图像特征尺寸相同的解码图像特征以得到生成特征图，其中生成特征图的尺寸与解码图像特征的尺寸相同，并且生成特征图中每个通道的各元素的均值和标准差与编码图像特征中对应通道的特征图的编码均值和编码标准差是相同的。

在一些示例中，可以利用自适应实例正则化(AdaIN)单元对解码图像特征进行调整。其中可以将风格特征和解码图像特征作为AdaIN单元的输入。AdaIN可以基于以下公式对解码图像特征中每个特征图的元素的值进行调整：

其中，x表示待调整的解码图像特征中的解码特征图的元素，AdaIN(x,y)表示基于风格特征调整后得到的生成特征图中对应于x的元素的值，σ(y)表示基于风格特征确定的用于x的标准差，σ(x)表示x的标准差，μ(x)表示x的均差。其中可以基于公式(1)计算μ(x)、σ(x)，只要将公式(1)中编码特征图中的第j个元素(f_enc)_j替换为解码特征图中的元素x_j，将编码特征图中元素的总数目M_t替换为解码特征图中的元素总数目M_x即可。

通过对生成特征图进行卷积可以得到第二图像。例如，可以通过卷积将生成特征图恢复为彩色的三通道的第二图像。其中第二图像中包括第一图像的部分图像信息以及对应于属性特征中指示的至少一个属性的图像信息。

在一些实施例中，在步骤S202和步骤S204之间，图2中示出的方法还可以包括针对第一图像的预处理步骤。

在一些实施例中，预处理步骤可以包括对第一图像的尺寸和/或对第一图像中的像素值进行归一化，以简化后续步骤中的计算量。在一些实现方式中，可以将第一图像的尺寸归一化成256*256的图像，将第一图像中的像素值归一化至[-1,1]的区间。

进一步地，在第一图像包括预定义的图像信息(例如人脸图像)时，预处理步骤还可以包括对这样的预定义的图像信息进行关键点检测。例如，当第一图像中包括人脸图像时，可以对第一图像应用人脸关键点检测技术，并根据所检测到的人脸关键点对第一图像进行旋转和/或平移，使得第一图像中的人脸图像转正并位于图像中央。

在第一图像包括的是人体信息的情况下，可以对第一图像应用人体关键点检测技术，并根据所检测到的人体关键点对第一图像进行旋转和/或平移，使得第一图像中的人体图像转正并位于图像中央。

利用本申请提供的图像处理方法，可以根据输入图像的编码图像特征的全局信息和预定的属性特征确定期望的解码器的风格特征。基于通过上述方法生成的风格特征对编码图像特征进行解码能够得到根据预定属性对输入图像进行调整后的生成图像。由于上述方法获得的风格特征中保留了必要的编码图像特征的全局信息，因此在解码过程中，图像中与属性无关的部分可以保留，并且能够从全局的视角进行图像生成，保证整体特征的一致性。

图3示出了根据本申请的实施例的基于人工智能的图像处理装置的示意性的框图。

如图3所示，图像处理装置300可以包括获取单元310、编码单元320、全局图像特征确定单元330、风格特征确定单元340以及解码单元350。

获取单元310可以获取配置成第一图像和属性特征，其中属性特征用于指示所述第一图像的内容属性。

在一些实施例中，第一图像可以包括人脸信息和/或人体信息。例如，第一图像可以是用户的自拍照或自拍视频。第一图像中可以仅包括用户的脸部图像，也可以还包括用户的身体图像。

属性可以包括用于第一图像的预先指定的至少一个属性。只要能够与第一图像的图像信息相结合以生成新的图像，在此不限制预先指定的至少一个属性的具体内容。

属性特征可以实现为向量的形式，其中向量中的每个元素对应于预先指定的一个属性，并且该元素的值表示预先指定的该属性的信息。在一些示例中，属性特征中的元素的值可以是0或1或0到1之间的一个值。

编码单元320可以配置成对第一图像进行编码，以得到编码图像特征。

在一些实施例中，可以利用编码卷积神经网络实现上述编码单元。例如，可以利用包括至少一个卷积层的编码卷积神经网络对第一图像进行卷积处理。

全局图像特征确定单元330可以配置成基于编码图像特征确定第一图像的全局图像特征。

在一些实现方式中，编码特征图的全局信息可以包括编码特征图中所有点的平均值和标准差中的至少一项。可以基于公式(1)计算编码特征图中所有点的平均值和标准差。

在另一些实现方式中，编码特征图的全局信息还可以包括编码特征图中所有点的方差或其他任何形式的统计结果。

可以通过拼接编码图像特征的编码均值向量μ和编码图像特征的编码标准差向量σ来确定用于第一图像的全局图像特征。如前所述，编码图像特征的编码均值向量μ和编码标准差向量σ都可以是维度为C的向量，拼接编码均值向量μ和编码标准差向量σ可以得到一个维度为2C的向量作为全局图像特征。

风格特征确定单元340可以配置成基于全局图像特征和属性特征确定第一图像的风格特征。

可以利用属性特征调整全局图像特征确定单元330确定的全局图像特征(或第i个全局图像特征)，以得到调整后的全局图像特征。

可以组合调整后的全局图像特征和全局图像特征确定单元330确定的全局图像特征以得到第一图像的风格特征。当涉及的是第一图像的第i个全局图像特征时，可以得到第一图像的第i个风格特征。

解码单元350可以配置成基于风格特征对编码图像特征进行解码，以得到第二图像。第二图像中包括第一图像中的至少部分图像信息和属性特征所指示的用于第一图像的内容属性。

可以利用包括至少一个卷积层的解码卷积神经网络对编码图像特征进行卷积以得到解码图像特征，其中解码图像特征包括至少两个通道的解码特征图。解码图像特征的尺寸可以和编码图像特征是相同的。在一些实现方式中，解码卷积神经网络的结构与编码卷积神经网络的结构是对应的。也就是说，解码卷积神经网络中包含的卷积层的数量与编码卷积神经网络中包含的卷积层的数量是相同的。在解码卷积神经网络和编码卷积神经网络中均包含N个卷积层的情况下，编码卷积神经网络的第i层输出的编码图像特征的尺寸和解码卷积神经中的第N+1-i层输出的解码图像特征的尺寸是相同的，其中i是整数，并且1≤i≤N。

在另一些实施例中，可以在编码卷积神经网络和解码卷积神经网络之间设置有深度残差网络，其中深度残差网络包括至少一个残差单元。利用设置在编码卷积神经网络和解码卷积神经网络之间设置的深度残差网络能够缓解包括编码卷积神经网络和解码卷积神经网络的整个图像处理模型由于网络深度过深而导致的退化问题。在这种情况下，可以将编码卷积神经网络的输出输入深度残差网络，并将深度残差网络的输出作为解码卷积神经网络的输入，由此实现利用解码卷积神经网络对编码图像特征进行卷积。

风格特征确定单元340确定的风格特征可以用于调整解码图像特征中各通道的解码特征图中的元素的值，以得到生成特征图。其中生成特征图的全局图像特征匹配风格特征。

如前所述，可以根据风格特征对任意一个与编码图像特征尺寸相同的特征进行调整，以使得调整后的特征与编码图像特征具有相同的风格。可以根据风格特征调整与编码图像特征尺寸相同的解码图像特征以得到生成特征图，其中生成特征图的尺寸与解码图像特征的尺寸相同，并且生成特征图中每个通道的各元素的均值和标准差与编码图像特征中对应通道的特征图的编码均值和编码标准差是相同的。

在一些示例中，可以利用自适应实例正则化(AdaIN)单元对解码图像特征进行调整。其中可以将风格特征和解码图像特征作为AdaIN单元的输入。

在一些实施例中，图像处理装置300还可以包括预处理单元(未示出)。

在一些实施例中，预处理单元可以配置成对第一图像的尺寸和/或对第一图像中的像素值进行归一化，以简化后续步骤中的计算量。在一些实现方式中，可以将第一图像的尺寸归一化成256*256的图像，将第一图像中的像素值归一化至[-1,1]的区间。

进一步地，在第一图像包括预定义的图像信息(例如人脸图像)时，预处理单元还可以配置成对这样的预定义的图像信息进行关键点检测。例如，当第一图像中包括人脸图像时，可以对第一图像应用人脸关键点检测技术，并根据所检测到的人脸关键点对第一图像进行旋转和/或平移，使得第一图像中的人脸图像转正并位于图像中央。

利用本申请提供的图像处理装置，可以根据输入图像的编码图像特征的全局信息和预定的属性特征确定期望的解码器的风格特征。基于通过上述方法生成的风格特征对编码图像特征进行解码能够得到根据预定属性对输入图像进行调整后的生成图像。由于上述方法获得的风格特征中保留了必要的编码图像特征的全局信息，因此在解码过程中，图像中与属性无关的部分可以保留，并且能够从全局的视角进行图像生成，保证整体特征的一致性。

如前所述，可以基于深度学习的原理，利用神经网络实现上述基于人工智能的图像处理方法和图像处理装置。下面将介绍本申请涉及的神经网络的训练方法。

图4示出了根据本申请的实施例的用于训练本申请涉及的神经网络的训练装置的示意性的框图。

如图4所示，训练装置400可以包括图像生成单元410和损失确定单元420。可以利用训练装置400对包括至少一个训练图像的训练集进行处理。其中，训练集可以包括第一训练图像和用于第一训练图像的训练属性特征。训练属性特征用于指示第一训练图像的训练内容属性。

图像生成单元410可以用于对第一训练图像和训练属性特征进行处理，以得到包括训练属性的第一生成图像。

如图4所示，图像生成单元410可以包括获取子单元411、编码子单元412、全局图像特征确定子单元413、风格特征确定子单元414以及解码子单元415。

获取子单元411可以用于获取第一训练图像和训练属性特征。如图4所示，获取子单元411可以包括人脸关键点检测子单元4111和归一化子单元4112。在一些实施例中，在输入的第一训练图像是用户人脸图像的情况下，人脸关键点检测子单元4111可以利用人脸关键点检测网络对输入的第一训练图像进行人脸关键点检测，并可以根据检测到的关键点，利用归一化子单元4112对第一训练图像中存在的用户人脸图像的大小进行归一化，还可以基于检测到的关键点对用户人脸图像进行旋转使得人脸图像转正。

编码子单元412可以用于对通过获取子单元411获取的第一训练图像进行编码，以得到训练编码图像特征。可以利用多层编码器网络对利用获取子单元411转正的人脸图像进行处理，以得到训练编码图像特征。

全局图像特征确定子单元413可以用于基于训练编码图像特征确定第一训练图像的训练全局图像特征。

风格特征确定子单元414可以用于基于训练全局图像特征和训练属性特征确定第一训练图像的训练风格特征。可以利用包括全连接层的风格特征确定网络实现风格特征确定子单元414。

解码子单元415可以用于基于训练风格特征对训练编码图像特征进行解码，以得到第一生成图像。可以利用多层解码器网络基于训练风格特征对训练编码特征进行解码，以得到第一生成图像。

在一些实施例中，图像生成单元410还可以包括设置在编码子单元412和解码子单元415之间的深度残差子单元416。这里的深度残差子单元可以实现为神父残差网络。利用设置在编码卷积神经网络和解码卷积神经网络之间设置的深度残差网络能够缓解包括编码卷积神经网络和解码卷积神经网络的整个图像处理模型由于网络深度过深而导致的退化问题。

第一生成图像可以具有第一标记，其中第一标记指示第一生成图像不属于真实图像。进一步地，训练集还可以包括具有第二标记的第二训练图像，其中第二训练图像不是由图像生成单元410生成的结果，并且第二标记指示第二训练图像属于真实图像。

可以利用图3中示出的图像处理装置实现图4中的图像生成单元410，其中，图4中的获取子单元411、编码子单元412、全局图像特征确定子单元413、风格特征确定子单元414以及解码子单元415可以实现为图3中的获取单元310、编码单元320、全局图像特征确定单元330、风格特征确定单元340以及解码单元350，相应细节在此不再加以赘述。

损失确定单元420可以包括判别子单元421、特征识别子单元422以及属性分类子单元423。

判别子单元421可以实现为第一分类网络，第一分类网络可以用于对输入判别子单元421的图像进行分类，以得到用于指示输入判别子单元421的图像是否属于真实图像的分类结果。

判别子单元421输出的分类结果可以用于指示输入判别子单元421的图像是真实图像还是由图像生成单元410生成的图像。例如，当分类结果为0时，可以表示判别子单元421的图像判断其输入图像是由图像生成单元410生成的图像。当分类结果为1时，可以表示判别子单元421的图像判断其输入图像是真实图像。

可以通过分别将具有第一标记的第一生成图像或具有第二标记的第二训练图像输入判别子单元421来得到判别子单元421输出的分类结果。其中，第一标记可以指示第一生成图像不属于真实图像。例如，第一标记可以被设置为0。中第二标记可以指示第二训练图像属于真实图像。例如。第二标记可以被设置为1。

可以通过分别比较分类结果和第一标记之间的标记差别或分类结果和第二标记之间的标记差别确定用于训练装置400的第一损失。

例如，当输入判别子单元421的是具有第一标记的第一生成图像，并且判别子单元输出的分类结果指示其输入图像是图像生成单元410生成的图像时，可以基于第一标记(0)和分类结果(0)的差别，将标记差别确定为0。如果此时判别子单元输出的分类结果指示其输入图像是真实图像，那么可以基于第一标记(0)和分类结果(1)的差别，将标记差别确定为1。

类似地，当输入判别子单元421的是具有第二标记的第二训练图像，并且判别子单元输出的分类结果指示其输入图像是图像生成单元410生成的图像时，可以基于第二标记(1)和分类结果(0)的差别，将标记差别确定为1。如果此时判别子单元输出的分类结果指示其输入图像是真实图像，那么可以基于第一标记(1)和分类结果(1)的差别，将标记差别确定为0。

特征识别子单元422可以用于监督图像生成单元410输出的生成图像中的特征点信息。在一些实施例中，特征识别子单元422可以用于确定第一生成图像中的生成特征点信息和第一训练图像中的训练特征点信息是否匹配。例如，在第一训练图像包括人脸图像的情况下，可以利用特征识别子单元422提取第一生成图像中的生成人脸关键点，并可以比较所提取的生成人脸关键点和第一训练图像中包括的训练人脸关键点是否匹配。又例如，在第一训练图像包括人体图像的情况下，可以利用特征识别子单元422提取第一生成图像中的生成人体关键点，并可以比较所提取的生成人脸关键点和第一训练图像中包括的训练人体关键点是否匹配。

特征识别子单元422可以确定第一生成图像中的生成特征点信息和第一训练图像中的训练特征点信息之间的第一差别。在一些示例中，当训练特征点信息是第一训练图像中的训练人脸关键点，生成特征点信息是第一生成图像中的生成人脸关键点时，可以将训练人脸关键点和生成人脸关键点之间的欧氏距离确定为第一差别。

属性分类子单元423可以用于监督图像生成单元410输出的生成图像的属性信息。在一些实施例中，第二分类网络可以用于接收图像生成单元410输出的第一生成图像，并对第一生成图像进行分类，以确定第一生成图像中包括的真实属性。在一些实现方式中，第二分类网络可以输出第一生成图像中包括预定义的至少一个训练属性的分数(或概率)。针对预定义的至少一个训练属性中的每个训练属性，当第二分类网络输出的结果指示第一生成图像中包括该训练属性的分数(或概率)大于预设的分数阈值(或概率阈值)时，可以认为第一生成图像中包括的真实属性包含该训练属性。

可以通过比较利用属性分类子单元423确定的第一生成图像中包括的真实属性和对应于训练属性特征指示的训练属性之间的第二差别。例如，可以利用交叉熵损失函数评价第一生成图像中包括的真实属性和对应于训练属性特征指示的训练属性之间的第二差别。

可以至少基于上述第一差别确定训练装置的损失函数，并基于损失函数调整图像生成单元410中各子单元中的参数。在一些实施例中，可以基于上述第一差别调整图像生成单元410中各子单元中的参数。在另一些实施例中，可以基于上述第一差别、第二差别以及标记差别调整图像生成单元410中各子单元中的参数。例如，可以对上述第一差别、第二差别以及标记差别进行加权求和来得到训练装置的损失函数。

可以通过Adam算法对图像生成单元410中各子单元中的参数进行更新。通过不断重复迭代，可以使得损失函数的值趋于预定的定值，即，趋于收敛。

利用上述训练装置，可以利用判别子单元得到的标记误差促使图像生成单元生成更真实的生成图像。可以利用特征识别子单元得到的第一误差监督所生成的图像中的特征信息和训练图像中的特征信息是一致的。可以利用属性分类子单元得到的第二误差监督所生成的图像中包含的属性与生成图像所使用的属性特征中包含的属性是一致的。

图5A示出了根据本申请的实施例的基于人工智能的图像处理过程的示意图。

如图5A所示，可以确定输入图像510和属性特征520。可以看出，输入图像510中包括一名男性的人脸图像。属性特征520可以包括指示女性的属性信息。

可以利用编码卷积神经网络530对输入图像510进行处理。其中编码卷积神经网络530具有至少一个卷积层530-1、530-2、530-3和530-4。每个卷积层可以输出用于输入图像510的一个编码图像特征。下文中，将卷积层530-1输出的编码图像特征称为输入图像510的第1个编码图像特征，卷积层530-2输出的编码图像特征称为输入图像510的第2个编码图像特征，卷积层530-3输出的编码图像特征称为输入图像510的第3个编码图像特征，卷积层530-4输出的编码图像特征称为输入图像510的第4个编码图像特征。其中第1个编码图像特征、第2个编码图像特征、第3个编码图像特征、第4个编码图像特征的尺寸可以是不同的。

然后，可以利用风格特征确定模块540基于属性特征520，分别对上述第1个编码图像特征、第2个编码图像特征、第3个编码图像特征、第4个编码图像特征进行处理，以得到用于上述第1个编码图像特征、第2个编码图像特征、第3个编码图像特征、第4个编码图像特征的风格特征。可以利用前述全局特征确定单元和风格特征确定单元实现风格特征确定模块540。

图5B示出了风格特征确定模块540的示意图。

如图5B所示，针对第k个编码图像特征(其中k是大于等于1小于等于4的整数)，可以利用上述公式(1)对该第k个编码图像特征进行处理，并得到该第k个编码图像特征的全局图像特征。

然后，可以利用拼接单元541拼接(concat)属性特征520和第k个编码图像特征的全局图像特征，以得到第k个拼接的全局图像特征。可以利用两个全连接层542-1、542-2对第k个拼接的全局图像特征进行处理，以得到第k个调整后的全局图像特征。其中全连接层543-1、543-2中的参数可以是相同的或不同的。其中第k个调整后的全局图像特征中包含了属性特征520的信息。然后可以利用叠加单元543叠加(add)第k个编码图像特征的全局图像特征和第k个调整后的全局图像特征，从而得到第k个编码图像特征的风格特征。

返回参考图5A，如图5A所示，针对编码卷积神经网络530中每个卷积层输出的编码图像特征，都可以利用风格特征确定模块540对该编码图像特征进行处理以得到该编码图像特征的风格特征。

解码卷积神经网络可以用于基于风格特征对编码卷积神经网络530中输出的编码图像特征进行解码。图5A中示出的解码卷积神经网络可以包括至少一个卷积层550-1、550-2、550-3和550-4。

在输入解码卷积神经网络之前，编码卷积神经网络530中最后一个卷积层530-4输出的第4个编码图像特征可以经过一个例如6层的深度残差网络(未示出)的处理，然后可以将深度残差网络输出的结果输入解码卷积神经网络。其中深度残差网络输出的结果中每个通道的特征图与第4个编码图像特征中每个通道的编码特征图的尺寸是相同的。

如图5A所示，针对编码卷积神经网络530中每个卷积层输出的编码图像特征，可以利用空间特征确定单元560对该编码图像特征进行处理以得到该编码图像特征的空间特征。可以利用上文中描述的空间特征确定单元实现空间特征确定单元560。在存在多个空间特征确定单元的情况下，各空间特征确定单元的参数可以是相同的，也可以是不同的。

解码卷积神经网络中的第一个卷积层550-1的输入可以是深度残差网络输出的结果和编码卷积神经网络的第4个编码图像特征的空间特征。可以拼接深度残差网络输出的结果和编码卷积神经网络的第4个编码图像特征的空间特征，以得到具有空间信息的第4个编码图像特征，然后利用卷积层550-1对具有空间信息的第4个编码图像特征进行卷积以实现解码。

卷积层550-1后可以连接自适应实例正则化(AdaIN)单元570-1。该AdaIN单元570-1的输入可以是第4个编码图像特征经过风格特征确定模块得到的风格特征和解码卷积神经网络550中的卷积层550-1输出的第1个解码图像特征。可以利用上述公式(2)，基于第4个编码图像特征的风格特征对第1个解码图像特征进行调整，以使得调整后的第1个解码图像特征中的全局图像特征匹配第4个编码图像特征的风格特征。

类似地，解码卷积神经网络中的第二个卷积层550-2的输入可以是AdaIN单元570-1输出的调整后第1个解码图像特征和第3个编码图像特征的空间特征。可以拼接调整后第1个解码图像特征和第3个编码图像特征的空间特征，以得到拼接后的第1个解码图像特征，并利用卷积层550-2对拼接后的第1个解码图像特征进行卷积，以得到第2个解码图像特征。

使用类似方法，可以进一步利用AdaIN单元570-2对第3个编码图像特征的风格特征和第2个解码图像特征进行处理。通过AdaIN单元570-2可以利用第3个编码图像特征的风格特征对第2个解码图像特征进行调整，以得到调整后的第2个解码图像特征。

基于类似的方法，可以进一步利用卷积层550-3得到第3个解码图像特征、利用AdaIN单元570-3对第2个编码图像特征的风格特征和第3个解码图像特征进行处理以得到调整后的第3个解码图像特征、利用卷积层550-4得到第4个解码图像特征、利用AdaIN单元570-4对第1个编码图像特征的风格特征和第4个解码图像特征进行处理以得到调整后的第4个解码图像特征。调整后的第4个解码图像特征可以被看作是用于生成输出图像的生成图像特征。

可以利用生成单元580对AdaIN单元580-4输出的生成图像特征进行处理。生成单元580可以实现为卷积神经网络。因此，可以通过对生成图像特征进行卷积来得到输出图像590。

可以看出，输出图像580中包括一名女性的脸部信息。除了性别信息以外，输出图像580中的其他图像信息(例如人物脸部表情、人物发型、画面背景等)与输入图像510是一致的。

也就是说，基于属性特征520中指示的属性信息，即，女性，可以将输入图像510中的男性脸部信息修改为女性脸部信息，同时保持图像中的其他图像信息不变。

图6示出了根据本申请的实施例的图像处理终端的示意性的框图。

如图6所示，图像处理终端600可以包括图像获取单元610、输入单元620、处理单元630以及显示单元640。

图像获取单元610可以用于获取第一图像。在图像处理终端600是例如手机、电脑、平板电脑、可穿戴设备等任何电子设备的情况下，图像获取单元610可以是集成在电子设备上的图像采集设备。例如，图像获取单元610可以是照相机、摄像机等。可以利用图像处理终端600进行拍摄以采集第一图像。

输入单元620可以用于确定用于第一图像的属性信息。在一些实施例中，输入单元620可以实现为例如鼠标、键盘、触摸屏、手写板、麦克风等输入设备。用户可以利用输入单元620确定用于第一图像的属性信息。例如，可以利用用户交互界面向用户提供可用的属性信息，例如黑色头发、金色头发、微笑、眼镜、性别等。用户可以利用输入单元620进行输入，以选择用户期望的属性信息。基于用户的输入可以确定用于第一图像的属性信息。又例如，用户也可以利用输入单元620直接输入用于第一图像的属性信息。

处理单元630可以用于执行结合图2描述的方法，在此不再加以赘述。

结合图2描述的过程，处理单元630可以基于第一图像和属性特征生成第二图像，其中第二图像中包括第一图像中的至少部分图像信息和属性特征指示的内容属性。

显示单元640可以用于显示第二图像。在一些实施例中，显示单元可以实现为显示屏、投影设备等任何能够显示图像的输出设备。进一步地，显示单元还可以显示从第一图像变化至第二图像的动态效果图。

图7A～7D示出了根据本申请的实施例的图像处理过程的用户交互界面的示例。

如图7A所示，可以利用例如图6中描述的图像处理终端采集用户的图像710。图像710包括一名女性的脸部图像。可以将图像710显示在界面700上。

界面700上还可以包括选项720-1～720-5，其中选项720-1～720-5分别代表可用于图像710的属性。图7A中示出的可用属性包括头发颜色、表情、年龄、性别、配饰等。用户可以利用触摸屏、鼠标等输入设备选择选项720-1～720-5中的至少一项。

尽管图7A中仅以文字为例示出了选项720-1～720-5，可以理解的是，在不脱离本申请原理的情况下，选项720-1～720-5中的至少一项也可以以图标、色块等任何方式向用户进行展示，只要用户能够理解该选项的含义即可。

图7B示出了根据本申请实施例的用户交互界面的另一个示例。如图7B所示，当确定用户选择了选项720-1后，可以进一步向用户显示用于选项720-1的至少一个子选项。以图7A中示出的选项720-1指示头发颜色为例，选项720-1的至少一个子选项可以包括可用于头发的至少一种颜色，例如黑色、金色、棕色。

尽管图7B中仅以文字形式示出了选项720-1的子选项，然而可以理解的是在不脱离本申请原理的情况下，各子选项中的至少一项也可以以图标、色块等任何方式向用户进行展示，只要用户能够理解该选项的含义即可。

此外，在展示任一选项的至少一个子选项的过程中，可以根据实际情况调整其他选项的显示位置或隐藏其他选项中的至少一项。

类似地，指示表情的选项720-2可以包括指示表情为高兴、平静、悲伤、惊讶等的子选项，指示年龄的选项720-3可以包括指示年龄为青年、中年、老年等的子选项，指示性别的选项720-4可以包括指示性别为男、女的子选项，指示配饰的选项720-5可以包括指示眼镜、蝴蝶结、围巾、帽子等的子选项。

可以理解的是，以上仅是用于本申请的属性的一些示例。在不脱离本申请原理的情况下，本领域技术人员可以根据实际情况设置用于输入图像的任意属性，包括但不限于在输入图像上增加、减少任意内容、对输入图像中存在的任意内容进行变形、移动、旋转等等。

图7C示出了根据本申请实施例的用户交互界面的又一个示例。如图7C所示，当确定用户选择了选项720-5，即配饰时，可以向用户展示该选项的三个子选项眼镜、帽子、围巾。用户可以进一步选择(在图中以灰色底色示出)子选项“眼镜”作为用于输入图像710的属性。

然后，可以利用例如图像处理终端的处理单元，基于用户所选择的属性“眼镜”生成用于图像710的属性特征，并基于图像710和所生成的属性特征生成图像720。

图7D示出了根据本申请实施例的用户交互界面的又一个示例。如图7D所示，图像720是在图像710的基础上为人物脸部加上了配饰“眼镜”的生成图像。

此外，根据本申请实施例的方法或装置也可以借助于图8所示的计算设备的架构来实现。图8示出了该计算设备的架构。如图8所示，计算设备800可以包括总线810、一个或至少两个CPU 820、只读存储器(ROM)830、随机存取存储器(RAM)840、连接到网络的通信端口850、输入/输出组件860、硬盘870等。计算设备800中的存储设备，例如ROM 830或硬盘870可以存储本申请提供的目标检测方法的处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。计算设备800还可以包括用户界面880。当然，图8所示的架构只是示例性的，在实现不同的设备时，根据实际需要，可以省略图8示出的计算设备中的一个或至少两个组件。

根据本申请的另一方面，还提供了一种非易失性的计算机可读存储介质，其上存储有计算机可读的指令，当利用计算机执行所述指令时可以执行如前所述的方法。

技术中的程序部分可以被认为是以可执行的代码和/或相关数据的形式而存在的“产品”或“制品”，通过计算机可读的介质所参与或实现的。有形的、永久的储存介质可以包括任何计算机、处理器、或类似设备或相关的模块所用到的内存或存储器。例如，各种半导体存储器、磁带驱动器、磁盘驱动器或者类似任何能够为软件提供存储功能的设备。

所有软件或其中的一部分有时可能会通过网络进行通信，如互联网或其他通信网络。此类通信可以将软件从一个计算机设备或处理器加载到另一个。例如：从视频目标检测设备的一个服务器或主机计算机加载至一个计算机环境的硬件平台，或其他实现系统的计算机环境，或与提供目标检测所需要的信息相关的类似功能的系统。因此，另一种能够传递软件元素的介质也可以被用作局部设备之间的物理连接，例如光波、电波、电磁波等，通过电缆、光缆或者空气等实现传播。用来载波的物理介质如电缆、无线连接或光缆等类似设备，也可以被认为是承载软件的介质。在这里的用法除非限制了有形的“储存”介质，其他表示计算机或机器“可读介质”的术语都表示在处理器执行任何指令的过程中参与的介质。

本申请使用了特定词语来描述本申请的实施例。如“第一/第二实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

除非另有定义，这里使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

上面是对本发明的说明，而不应被认为是对其的限制。尽管描述了本发明的若干示例性实施例，但本领域技术人员将容易地理解，在不背离本发明的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此，所有这些修改都意图包含在权利要求书所限定的本发明范围内。应当理解，上面是对本发明的说明，而不应被认为是限于所公开的特定实施例，并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本发明由权利要求书及其等效物限定。

Claims

1.一种图像处理方法，包括：

获取第一图像和属性特征，其中所述属性特征用于指示所述第一图像的内容属性；

对所述第一图像进行编码，以得到编码图像特征；

基于所述编码图像特征确定所述第一图像的全局图像特征；

基于所述全局图像特征和所述属性特征确定所述第一图像的风格特征；

基于所述风格特征对所述编码图像特征进行解码，以得到第二图像，其中所述第二图像中包括所述第一图像中的至少部分图像信息和所述内容属性。

2.如权利要求1所述的图像处理方法，其中，基于所述全局图像特征和所述属性特征确定所述第一图像的风格特征包括：

利用所述属性特征调整所述全局图像特征，以得到调整后的全局图像特征；

叠加所述全局图像特征和所述调整后的全局图像特征，以得到所述风格特征。

3.如权利要求1所述的图像处理方法，其中，基于所述风格特征对所述编码图像特征进行解码，以得到第二图像包括：

对所述编码图像特征进行卷积以得到所述解码图像特征，其中，所述解码图像特征包括至少两个通道的解码特征图；

调整所述解码图像特征中各通道的解码特征图中的元素以得到生成特征图，其中所述生成特征图的全局图像特征匹配所述风格特征；

对所述生成特征图进行卷积以得到所述第二图像。

4.如权利要求3所述的图像处理方法，其中，对所述编码图像特征进行卷积以得到所述解码图像特征包括：

确定所述编码图像特征的空间特征；

拼接所述编码图像特征和所述空间特征，以得到具有空间信息的编码图像特征；

对所述具有空间信息的编码图像特征进行卷积以得到所述解码图像特征。

5.如权利要求1所述的图像处理方法，其中，对所述第一图像进行编码，以得到编码图像特征包括：

对所述第一图像进行卷积以得到所述编码图像特征。

6.如权利要求1所述的图像处理方法，其中，所述编码图像特征包括至少两个通道的编码特征图，基于所述编码图像特征确定所述第一图像的全局图像特征包括：

针对每个通道的编码特征图，确定该编码特征图的编码均值和编码方差；

拼接每个编码特征图的编码均值和编码方差，以得到所述第一图像的全局图像特征。

7.如权利要求1-6任一项所述的图像处理方法，其中所述第一图像包括人脸信息。

8.如权利要求1所述的图像处理方法，还包括：

确定包括第一训练图像和训练属性特征的训练集，其中所述第一训练图像包括训练人脸信息，所述训练属性特征用于指示所述第一训练图像的训练内容属性；

利用编码卷积神经网络对所述第一训练图像进行编码，以得到训练编码图像特征；

基于所述训练编码图像特征确定所述第一训练图像的训练全局图像特征；

利用风格特征确定网络，基于所述训练全局图像特征和所述训练属性特征确定所述第一训练图像的训练风格特征；

利用解码卷积神经网络，基于所述训练风格特征对所述训练编码图像特征进行解码，以得到第一生成图像，其中所述第一生成图像包括所述训练属性；

对所述第一生成图像进行特征点识别，以得到生成特征点信息；

对所述第一训练图像进行特征点识别，以得到训练特征点信息；

确定所述生成特征点信息和所述训练特征点信息之间的第一差别；以及

至少部分基于所述第一差别调整所述编码卷积神经网络、所述风格特征确定网络以及所述解码卷积神经网络的参数。

9.如权利要求8所述的图像处理方法，其中确定所述生成脸部识别特征和所述训练脸部识别特征之间的第一差别包括：

确定所述生成脸部识别特征和所述训练脸部识别特征的欧氏距离作为所述第一差别。

10.如权利要求8所述的图像处理方法，其中，至少部分基于所述第一差别调整所述编码卷积神经网络、所述风格特征确定网络以及所述解码卷积神经网络的参数包括：

对具有第一标记的所述第一生成图像进行图像分类，以得到指示第一生成图像是否属于真实图像的分类结果，其中第一标记指示所述第一生成图像不属于真实图像；

基于所述分类结果与所述第一标记确定标记差别；以及

对所述第一生成图像进行属性分类，以得到第一生成图像中包括的真实属性；

确定所述真实属性和所述训练属性特征之间的第二差别；

基于所述标记差别、所述第一差别、所述第二差别调整所述编码卷积神经网络、所述风格特征确定网络以及所述解码卷积神经网络的参数。

11.一种图像处理装置，包括：

获取单元，配置成获取第一图像和属性特征，其中所述属性特征用于指示所述第一图像的内容属性；

编码单元，配置成对所述第一图像进行编码，以得到编码图像特征；

全局图像特征确定单元，配置成基于所述编码图像特征确定所述第一图像的全局图像特征；

风格特征确定单元，配置成基于所述全局图像特征和所述属性特征确定所述第一图像的风格特征；

解码单元，配置成基于所述风格特征对所述编码图像特征进行解码，以得到第二图像，其中所述第二图像中包括所述第一图像中的至少部分图像信息和所述内容属性。

12.一种图像处理设备，包括：

处理器；以及

存储器，其中存储计算机可读程序指令，

其中，在所述计算机可读程序指令被所述处理器运行时执行如权利要求1-10任一项所述的图像处理方法。

13.一种计算机可读存储介质，其上存储计算机可读指令，当所述计算机可读指令由计算机执行时，所述计算机执行如权利要求1-10任一项所述的图像处理方法。