CN111583399A

CN111583399A - 图像处理方法、装置、设备、介质和电子设备

Info

Publication number: CN111583399A
Application number: CN202010594436.3A
Authority: CN
Inventors: 黄浩智; 曹蒙; 王浩; 王璇; 沈力; 王盛; 暴林超; 李志锋; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2020-08-25
Anticipated expiration: 2040-06-28
Also published as: CN111583399B

Abstract

公开了一种图像处理方法、装置、设备、介质和电子设备。所述图像处理方法包括：利用三维重建的方式，确定第一人脸图像的身份参数、第二人脸图像的姿态参数和第三人脸图像的表情参数；基于所述第一人脸图像的身份参数、第二人脸图像的姿态参数和第三人脸图像的表情参数生成二维的融合的渲染人脸图像；拼接所述渲染人脸图像和外观提示图像，以得到拼接的图像特征，其中所述外观提示图像指示输出图像中用于所述渲染人脸图像的脸部区域的轮廓；基于所述拼接的图像特征生成输出图像。

Description

图像处理方法、装置、设备、介质和电子设备

技术领域

本申请涉及图像处理领域，更具体地涉及一种图像处理方法、装置、设备、介质。

背景技术

可以对人脸图像执行各种处理以得到不同的效果。例如，通过给定原始人脸和参考人脸，可以生成与参考人脸身份信息一致，保留原始人脸的光线、姿态、装扮属性等效果的虚拟人脸，以实现换脸效果。又例如，还可以基于原始人脸和参考人脸生成与原始人脸的身份和属性信息一致，同时模拟参考人脸的表情和姿态的虚拟人脸，以实现面部重现的效果。然而，换脸效果和面部重现的效果都仅局限于针对一种人脸参数的编辑。

发明内容

根据本申请的一方面，提出了一种图像处理方法，包括：利用三维重建的方式，确定第一人脸图像的身份参数、第二人脸图像的姿态参数和第三人脸图像的表情参数；基于所述第一人脸图像的身份参数、所述第二人脸图像的姿态参数和所述第三人脸图像的表情参数生成二维的融合的渲染人脸图像；拼接所述渲染人脸图像和外观提示图像，以得到拼接的图像特征；基于所述拼接的图像特征生成输出图像，其中所述外观提示图像指示输出图像中用于所述渲染人脸图像的脸部区域的轮廓。

在一些实施例中，基于所述拼接的图像特征生成输出图像包括：利用残差网络对所述拼接的图像特征进行特征变换，以得到变换图像特征；利用基于所述第一人脸图像生成的身份特征和所述外观提示图像对所述变换图像特征进行调整以生成所述输出图像。

在一些实施例中，利用基于所述第一人脸图像生成的身份特征和所述外观提示图像对所述变换图像特征进行调整以生成所述输出图像包括：基于所述外观提示图像生成所述脸部区域的掩膜图像；基于所述掩膜图像确定脸部区域的内部图像特征和脸部区域的外部图像特征；利用所述身份特征分别调整所述内部图像特征和所述外部图像特征，以得到调整后的内部图像特征和调整后的外部图像特征；叠加所述调整后的内部图像特征和所述调整后的外部图像特征以得到调整后的图像特征；基于所述调整后的图像特征确定所述输出图像。

在一些实施例中，利用三维重建的方式，确定第一人脸图像的身份参数、第二人脸图像的姿态参数和第三人脸图像的表情参数包括：针对第一人脸图像、第二人脸图像和第三人脸图像中的每个人脸图像，对该人脸图像进行三维重建，以得到对应于该人脸图像的三维人脸；基于所述三维人脸确定该人脸图像的身份参数和表情参数；基于所述三维人脸到该人脸图像的投影确定相机投影参数，作为该人脸图像的姿态参数；提取第一人脸图像的身份参数、第二人脸图像的姿态参数以及第三人脸图像的表情参数。

在一些实施例中，基于所述第一人脸图像的身份参数、第二人脸图像的姿态参数和第三人脸图像的表情参数生成二维的融合的渲染人脸图像包括：利用所述第一人脸图像的身份参数和第三人脸图像的表情参数构建融合的三维人脸；基于第三人脸图像的姿态参数对融合的三维人脸进行投影，以得到二维的所述渲染人脸图像。

在一些实施例中，所述外观提示图像是通过在所述第三人脸图像中移除脸部区域的像素生成的。

在一些实施例中，所述渲染人脸图像具有第一通道数，所述外观提示图像具有第二通道数，拼接所述渲染人脸图像和外观提示图像，以得到拼接的图像特征包括：在通道维度上对所述渲染人脸图像和所述外观提示图像进行拼接，以生成所述拼接的图像特征，其中所述拼接的图像特征的通道数是第一通道数和第二通道数之和。

在一些实施例中，所述方法还包括：确定包括至少三个训练人脸图像的训练集；确定第一训练人脸图像的训练身份参数、第二训练人脸图像的训练姿态参数和第三训练人脸图像的训练表情参数；基于所述第一训练人脸图像的训练身份参数、第二训练人脸图像的训练姿态参数和第三训练人脸图像的训练表情参数生成二维的融合的训练渲染人脸图像；拼接所述训练渲染人脸图像和训练外观提示图像，以得到拼接的训练图像特征；利用卷积神经网络对所述拼接的训练图像特征进行卷积处理以生成训练输出图像，其中训练输出图像中包括训练输出人脸，其中所述训练外观提示图像指示训练输出图像中用于所述训练渲染人脸图像的脸部区域的轮廓；确定所述训练输出人脸的输出身份特征和所述第一训练人脸图像中的人脸图像的训练身份特征；至少基于所述训练身份特征和所述输出身份特征之间的差别、所述训练输出图像的背景区域与所述外观提示图像之间的差别以及基于判别网络生成的对抗损失对所述卷积神经网络的参数进行调整。

在一些实施例中，第一训练人脸图像和第二训练人脸图像是相同的。

根据本申请的另一方面，提供了一种图像处理装置，包括：人脸参数确定单元，配置成利用三维重建的方式，确定第一人脸图像的身份参数、第二人脸图像的姿态参数和第三人脸图像的表情参数；融合单元，配置成基于所述第一人脸图像的身份参数、第二人脸图像的姿态参数和第三人脸图像的表情参数生成二维的融合的渲染人脸图像；拼接单元，配置成拼接所述渲染人脸图像和外观提示图像，以得到拼接的图像特征；生成单元，基于所述拼接的图像特征生成输出图像，其中所述外观提示图像指示输出图像中用于所述渲染人脸图像的脸部区域的轮廓。

在一些实施例中，所述变换单元配置成：利用残差网络对所述拼接的图像特征进行特征变换，以得到变换图像特征；利用基于所述第一人脸图像生成的身份特征和所述外观提示图像对所述变换图像特征进行调整以生成所述输出图像。

在一些实施例中，利用基于所述第一人脸图像生成的身份特征和所述外观提示图像对所述变换图像特征进行调整以生成所述输出图像包括：确定第一人脸图像的身份特征；基于所述外观提示图像生成所述脸部区域的掩膜图像；基于所述掩膜图像，从所述变换图像特征确定脸部区域的内部图像特征和脸部区域的外部图像特征；利用所述身份特征分别调整所述内部图像特征和所述外部图像特征，以得到调整后的内部图像特征和调整后的外部图像特征；叠加所述调整后的内部图像特征和所述调整后的外部图像特征以得到调整后的图像特征；基于所述调整后的图像特征确定所述输出图像。

在一些实施例中，所述人脸参数确定单元配置成：针对第一人脸图像、第二人脸图像和第三人脸图像中的每个人脸图像，对该人脸图像进行三维重建，以得到对应于该人脸图像的三维人脸；基于所述三维人脸确定该人脸图像的身份参数和表情参数；基于所述三维人脸到该人脸图像的投影确定相机投影参数，作为该人脸图像的姿态参数；提取第一人脸图像的身份参数、第二人脸图像的姿态参数以及第三人脸图像的表情参数。

在一些实施例中，所述融合单元配置成：利用所述第一人脸图像的身份参数和第三人脸图像的表情参数构建融合的三维人脸；基于第三人脸图像的姿态参数对融合的三维人脸进行投影，以得到二维的所述渲染人脸图像。

在一些实施例中，所述渲染人脸图像具有第一通道数，所述外观提示图像具有第二通道数，所述拼接单元配置成：在通道维度上对所述渲染人脸图像和所述外观提示图像进行拼接，以生成所述拼接的图像特征，其中所述拼接的图像特征的通道数是第一通道数和第二通道数之和。

根据本申请的又一方面，还提供了一种电子设备，包括：输入单元，配置成接收至少三个输入图像，其中所述至少三个输入图像包括第一人脸图像、第二人脸图像和第三人脸图像；处理器，配置成确定第一人脸图像的身份参数、第二人脸图像的姿态参数和第三人脸图像的表情参数，并对所述第一人脸图像的身份参数、第二人脸图像的姿态参数和第三人脸图像的表情参数进行融合以生成输出人脸图像；输出单元，配置成显示所述输出人脸图像，其中所述输出人脸图像具有第一人脸图像的身份信息、第二人脸图像的姿态信息和第三人脸图像的表情信息。

根据本申请的又一方面，还提供了一种图像处理设备，包括：处理器；以及存储器，其中存储计算机可读程序指令，其中，在所述计算机可读程序指令被所述处理器运行时执行如前所述的图像处理方法。

根据本申请的又一方面，还提供了一种计算机可读存储介质，其上存储计算机可读指令，当所述计算机可读指令由计算机执行时，所述计算机执行如前所述的图像处理方法。

利用本申请提供的基于人工智能的图像处理方法、装置、设备、介质和电子设备，可以通过输入的至少三个人脸图像分别确定虚拟人脸的身份、姿态和表情的属性，从而实现灵活的人脸属性编辑。通过利用外观提示图像和身份特征在图像解码过程中对图像特征进行调整，可以实现针对脸部区域和脸部区域以外的区域的分别处理，防止背景区域受到额外信息的干扰。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员而言，在没有做出创造性劳动的前提下，还可以根据这些附图获得其他的附图。以下附图并未刻意按实际尺寸等比例缩放绘制，重点在于示出本申请的主旨。

图1示出了根据本申请的图像处理系统的示例性的场景图；

图2示出了根据本申请的实施例的示意性的原理；

图3示出了根据本申请的原理的图像处理方法的示意性的流程图；

图4示出了根据本申请的实施例的用身份特征和外观提示对变换图像特征进行调整的示意性的过程；

图5示出了根据本申请的实施例的人脸编辑方法的示意性的过程；

图6中示出了根据本申请的实施例的AAdaIN残差模块510的示意性的结构；

图7中示出了AAdaIN层的结构；

图8示出了根据本申请的实施例的训练过程的示意性的过程图；

图9示出了根据本申请的实施例的图像处理装置的示意性的框图；

图10A-图10C示出了根据本申请的实施例的示例性的用户交互界面；以及

图11示出了根据本申请的实施例的计算设备的架构。

具体实施方式

下面将结合附图对本申请实施例中的技术方案进行清楚、完整地描述，显而易见地，所描述的实施例仅仅是本申请的部分实施例，而不是全部的实施例。基于本申请实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，也属于本申请保护的范围。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

虽然本申请对根据本申请的实施例的系统中的某些模块做出了各种引用，然而，任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的，并且所述系统和方法的不同方面可以使用不同模块。

本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，根据需要，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

二维的人脸编辑技术如换脸或面部重现无法一次性实现多种效果的人脸编辑，例如同时实现换脸或面部重现。此外，二维的人脸编辑技术从输入图片或二维的地标中提取姿态和表情信息。这样提取的姿态和表情信息无法解耦，因此使得生成的结果的表达是受限的。此外，由于二维的地标是稀疏提示，生成的结果中可能缺乏细节信息。

为此，本申请提出了一种灵活的人脸编辑技术，通过基于三维重建技术提取出用于表示人脸的参数并对参数进行解耦表达，可以更灵活地操控生成的结果。此外，利用基于二维的生成方法对三维重建的结果进行处理，可以使得生成的图像效果更加真实。

图1示出了根据本申请的图像处理系统的示例性的场景图。如图1所示，该图像处理系统100可以包括用户终端110、网络120、服务器130以及数据库140。

用户终端110可以是例如图1中示出的电脑110-1、手机110-2。可以理解的是，事实上，用户终端可以是能够执行数据处理的任何其他类型的电子设备，其可以包括但不限于台式电脑、笔记本电脑、平板电脑、智能手机、智能家居设备、可穿戴设备等。

根据本申请提供的用户终端可以用于接收待处理的图像。例如，用户终端可以通过用户终端上设置的图像采集设备(例如照相机、摄像机等)采集待处理的第一图像。又例如，用户终端也可以从独立设置的图像采集设备(例如照相机、摄像机、扫描仪等)获取待处理的图像。再例如，用户终端也可以经由网络从服务器或任何其他电子设备接收待处理的图像。这里所说的待处理的图像可以是单独的一张图像，也可以是视频中的一个图像帧。

在一些实施例中，可以利用用户终端的处理单元执行本申请提供的图像处理方法。在一些实现方式中，用户终端可以利用用户终端内置的应用程序执行图像处理。在另一些实现方式中，用户终端可以通过调用用户终端外部存储的应用程序执行本申请提供的图像处理方法。

在另一些实施例中，用户终端将接收的待处理的图像经由网络120发送至服务器130，并由服务器130执行图像处理方法。在一些实现方式中，服务器130可以利用服务器内置的应用程序执行图像处理方法。在另一些实现方式中，服务器130可以通过调用服务器外部存储的应用程序执行图像处理方法。

网络120可以是单个网络，或至少两个不同网络的组合。例如，网络120可以包括但不限于局域网、广域网、公用网络、专用网络等中的一种或几种的组合。

服务器130可以是一个单独的服务器，或一个服务器群组，群组内的各个服务器通过有线的或无线的网络进行连接。一个服务器群组可以是集中式的，例如数据中心，也可以是分布式的。服务器130可以是本地的或远程的。

数据库140可以泛指具有存储功能的设备。数据库140主要用于存储从用户终端110和服务器130工作中所利用、产生和输出的各种数据。数据库140可以是本地的，或远程的。数据库140可以包括各种存储器、例如随机存取存储器(Random Access Memory(RAM))、只读存储器(Read Only Memory(ROM))等。以上提及的存储设备只是列举了一些例子，该系统可以使用的存储设备并不局限于此。

数据库140可以经由网络120与服务器130或其一部分相互连接或通信，或直接与服务器130相互连接或通信，或是上述两种方式的结合。

在一些实施例中，数据库140可以是独立的设备。在另一些实施例中，数据库140也可以集成在用户终端110和服务器130中的至少一个中。例如，数据库140可以设置在用户终端110上，也可以设置在服务器130上。又例如，数据库140也可以是分布式的，其一部分设置在用户终端110上，另一部分设置在服务器130上。

根据本申请提供的图像处理系统可以用于向用户提供图像(或视频)的改变的人脸处理结果。在一些实施例中，本申请提供的图像处理系统可以改变原始图像(或视频中)的人物脸部的五官特征、表情、姿态等，以向用户提供更多可能的人物的图像效果，从而使得更容易生成多样化的图像信息。

下文中将详细阐述本申请提供的图像处理方法的流程。

图2示出了根据本申请的实施例的示意性的原理。如图2所示，在本申请的实施例中，可以基于三个不同的人脸图像实现人脸编辑的过程。通过分别提取姿态图像的姿态参数、表情图像的表情参数和身份图像的身份参数，可以生成一个虚拟的人脸作为人脸编辑的结果。其中，身份参数用于唯一地识别图像中的人物，例如，身份参数可以指示人脸图像的五官特征。表情参数用于指示图像中人物脸部的表情状态，例如，表情参数可以指示图像中人物五官的动作，如微笑、大笑、哭泣、睁眼、闭眼等。姿态参数可以用于指示图像中人物脸部在图像中的位置和朝向等。在这个虚拟的结果中，人脸具有对应于姿态图像的姿态、对应于表情图像的表情以及对应于身份图像的身份。这里所述的姿态参数、表情参数和身份参数可以是利用三维重建的方式对人脸图像进行处理后得到的结果。

在一些实施例中，姿态图像和表情图像可以是相同的。在这种情况下，利用本申请提供的实施例的人脸编辑可以实现换脸的效果。在另一些实施例中，身份图像和姿态图像可以是相同的。在这种情况下，利用本申请提供的实施例的人脸编辑可以实现面部重现的效果。

图3示出了根据本申请的原理的图像处理方法的示意性的流程图。

在步骤S302中，可以确定第一人脸图像的身份参数、第二人脸图像的姿态参数和第三人脸图像的表情参数。其中每个人脸图像包括人物的脸部图像以及相关联的背景外观，包括但不限于发型、饰品、衣服以及周围环境的图像。

在一些实施例中，可以利用三维重建的方式对第一人脸图像、第二人脸图像以及第三人脸图像分别进行处理，以确定第一人脸图像的身份参数、第二人脸图像的姿态参数和第三人脸图像的表情参数。在下文中，第一人脸图像也被称作是身份图像，第二人脸图像也被称作是姿态图像，第三人脸图像也被称作是表情图像。

在一些实施例中，针对第一人脸图像、第二人脸图像和第三人脸图像中的每个人脸图像，可以利用三维重建模型对该人脸图像进行三维重建，以得到对应于该人脸图像的三维人脸。可以利用身份参数、表情参数和姿态参数表示三维重建得到的结果。

在一些实现方式中，三维重建模型可以是3DDFA(三维稠密人脸对齐，3D DenseFace Alignment)网络、3DMM(三维可变性人脸模型，3D Morphable Face Model)网络等任何能够实现人脸三维重建的模型。下文中以三维重建模型是3DDFA网络为例描述本申请的原理。可以理解的是，在不脱离本申请原理的情况下，本领域技术人员可以根据实际情况采用其他三维重建模型。

利用三维重建模型对人脸图像进行处理可以得到人脸图像的身份参数、表情参数以及姿态参数。

利用3DDFA网络可以基于下式(1)确定对应于人脸图像的生成的三维人脸：

其中，S^x是利用3DDFA网络生成的对应于输入的人脸图像x的三维人脸，x可以等于i、p、e，其分别表示身份图像、姿态图像和表情图像，

是基于预定义的人脸数据集确定的平均脸，A_id是身份基，A_exp是表情基，其中A_id和A_exp是基于人脸数据集预先确定的参数，

是图像x的身份参数，

是图像x的表情参数。

利用公式(1)可以分别对身份图像、姿态图像和表情图像进行处理，并得到对应于身份图像的三维人脸Sⁱ、对应于姿态图像的三维人脸S^p、对应于表情图像的三维人脸S^e，并确定分别用于身份图像、姿态图像和表情图像的身份参数和表情参数。其中，Sⁱ是身份图像的身份参数

和表情参数

的函数，S^p是姿态图像的身份参数

和表情参数

的函数，S^e是表情图像的身份参数

和表情参数

的函数。

此外，可以基于三维人脸到人脸图像的投影确定相机投影参数作为人脸图像的姿态参数。在一些实施例中，可以将利用3DDFA网络确定的相机投影参数C^x确定为用于人脸图像x的姿态参数。可以分别确定用于身份图像的姿态参数Cⁱ、用于姿态图像的姿态参数C^p以及用于表情图像的姿态参数C^e。

可以提取身份图像的身份参数

姿态图像的姿态参数C^p以及表情图像的表情参数

用于生成新的人脸图像。

在步骤S304中，可以基于第一人脸图像的身份参数、第二人脸图像的姿态参数和第三人脸图像的表情参数生成二维的融合的渲染人脸图像。

在一些实施例中，可以利用三维重建的方式对身份图像(第一人脸图像)的身份参数、姿态图像(第二人脸图像)的姿态参数和表情图像(第三人脸图像)的表情参数进行融合，以得到融合的三维人脸。也就是说，融合的三维人脸可以具有身份图像的身份信息、表情图像的表情信息以及姿态图像的姿态信息的三维人脸。进一步地，可以通过基于姿态图像的姿态参数对融合的三维人脸进行投影来得到二维的渲染人脸图像。

在另一些实施例中，可以利用身份图像(第一人脸图像)的身份参数和表情图像(第三人脸图像)的表情参数构建融合的三维人脸。也就是说，融合的三维人脸可以是具有身份图像的身份信息和表情图像的表情信息的三维人脸。进一步地，可以基于姿态图像的姿态参数对融合的三维人脸进行投影，以得到二维的渲染人脸图像。

以3DDFA网络为例，可以基于公式(1)构建融合的三维人脸S，其中

是身份图像的身份参数，

是表情图像的表情参数。在一些实现方式中，可以根据姿态图像的姿态参数和身份图像的纹理图，利用弱透射投影的方式将融合的三维人脸S投影到二维平面上，可以用公式(2)表示上述投影过程：

R＝P(S,Tⁱ,C^p) (2)

其中R表示二维的渲染人脸图像，P表示弱透射投影，S表示融合的三维人脸，Tⁱ表示身份图像的纹理图，C^p表示姿态图像的姿态参数。

在步骤S306中，可以拼接渲染人脸图像和外观提示图像，以得到拼接的图像特征，其中外观提示图像指示输出图像中用于渲染人脸图像的脸部区域的轮廓。进一步地，外观提示图像还可以指示输出图像中的脸部区域的周围环境的信息。

在一些实施例中，外观提示图像可以是通过在姿态图像(第三人脸图像)中移除脸部区域的像素而生成的。也就是说，可以将姿态图像中的背景外观确定为外观提示图像。可以理解的是，由于渲染人脸图像R是根据姿态图像的姿态参数投影生成的二维人脸图像，R的轮廓和姿态图像中的脸部区域的轮廓的相似性较高。因此可以在第三人脸图像中移除脸部区域的像素作为输出图像中用于渲染人脸图像的脸部区域的轮廓的提示。

在另一些实施例中，外观提示图像也可以是通过在第一人脸图像或第二人脸图像中移除脸部区域的像素而生成的。在又一些实施例中，外观提示图像也可以是与第一人脸图像、第二人脸图像和第三人脸图像无关的任何图像。

在一些实施例中，可以通过在通道维度上对渲染人脸图像和外观提示图像进行拼接，以生成拼接的图像特征。通道数指的是图像特征的每个像素点对应的数据的数量。以彩色图像为例，彩色图像可以包括三个通道，每个通道分别表示R、G、B三个颜色的信息。在图像处理的过程中，图像特征可以根据实际情况被设置成具有任意数量的通道数。

渲染人脸图像可以具有第一通道数，外观提示图像可以具有第二通道数。通过在通道维度上拼接渲染人脸图像和外观提示图像，可以得到具有第三通道数的拼接的图像特征，其中第三通道数是第一通道数和第二通道数之和。在一些实现方式中，可以利用concat函数对渲染人脸图像和外观提示图像进行处理，以得到上述拼接的图像特征。

可以理解的是，在不脱离本申请原理的情况下，本领域技术人员也可以利用其他方式拼接渲染人脸图像和外观提示图像。例如，可以在通道维度以外的其他维度上拼接渲染人脸图像和外观提示图像。事实上，本领域技术人员可以利用任何能够将渲染人脸图像的信息和外观提示图像的信息进行融合的方式实现步骤S306中的拼接操作。

在步骤S308中，可以基于步骤S306确定的拼接的图像特征生成输出图像。

可以利用残差网络对拼接的图像特征进行特征变换，以得到变换图像特征。在一些实现方式中，残差网络可以包括恒等残差块或卷积残差块。进一步地，恒等残差块或卷积残差块可以包括卷积层、归一化层(如批量归一化(BatchNorm)函数)以及激活层(线性整流(Rectified Linear Unit，ReLU))的组合。利用残差网络可以对拼接的图像特征进行图像编码，以实现针对拼接的图像特征的特征变换。接下来可以对变换图像特征进行解码以生成输出图像。

在一些实施例中，可以利用卷积网络对变换图像特征进行解码以生成输出图像。

在另一些实施例中，可以利用身份图像的身份特征和外观提示图像对变换图像特征进行调整以生成输出图像。

在一些实现方式中，可以基于身份图像生成上述身份特征。这里的身份特征可以是利用基于二维的图像处理方法对身份图像进行处理得到的结果。在一些示例中，可以利用训练好的任何人脸识别网络对身份图像进行处理以得到身份特征e_id。例如，可以将人脸识别网络的最后一个全连接层前的特征向量作为身份特征。

利用本申请提供的图像处理方法，能够基于三维重建方法得到不同人脸图像的身份信息、表情信息和姿态信息以实现灵活的人脸编辑，并基于二维的图像生成网络对融合的人脸以及外观提示图像进行融合，以得到真实的图像效果。

图4示出了根据本申请的实施例的用身份特征和外观提示图像对变换图像特征进行调整的示意性的过程。

在步骤S402中，可以基于外观提示图像生成脸部区域的掩膜图像。在一些实施例中，可以对外观提示图像进行二值化处理以得到脸部区域的掩膜图像M^*。在掩膜图像M^*中，脸部区域的像素点的像素值为可以为1，而脸部区域以外的区域的像素点的像素值可以为0。

在步骤S404中，可以基于掩膜图像，从变换图像特征确定脸部区域的内部图像特征和脸部区域的外部图像特征。在一些实施例中，如果变换图像特征的尺寸和掩膜图像的尺寸不同，可以对掩膜图像进行尺寸调整(如上采样或下采样)，使得调整后的掩膜图像的尺寸和变换图像特征的尺寸相同。在下文的描述中将以掩膜图像和变换图像特征的尺寸相同为例描述本申请的原理，而不再重复阐述尺寸调整的步骤。本领域技术人员可以根据实际情况对掩膜图像的尺寸进行需要的调整。

在一些实现方式中，可以将变换图像特征中的各个元素和掩膜图像中对应位置的元素相乘，以得到内部图像特征。如前所述，脸部区域的像素点的像素值为可以为1，而脸部区域以外的区域的像素点的像素值可以为0。因此将变换图像特征中的各个元素和掩膜图像中对应位置的元素相乘后得到的结果仅保留了脸部区域内部的图像特征的信息。在变换图像特征被表示为X的情况下，脸部区域的内部图像特征可以被表示为XM^*。

在一些实现方式中，可以将变换图像特征中的各个元素和反掩膜图像中对应位置的元素相乘，以得到脸部区域的外部图像特征。其中反掩膜图像是通过对掩膜图像中的每个元素取反得到的。例如，在掩膜图像M^*中，脸部区域的像素点的像素值为1，而脸部区域以外的区域的像素点的像素值为0的情况下，反掩膜图像

中的脸部区域的像素点的像素值为0，而脸部区域以外的区域的像素点的像素值为1。类似地，通过将变换图像特征中的各个元素和反掩膜图像中对应位置的元素相乘，可以得到脸部区域外部的图像特征的信息。在变换图像特征被表示为X的情况下，脸部区域的外部图像特征可以被表示为

在步骤S406中，可以利用身份特征分别调整脸部区域的内部图像特征和脸部区域的外部图像特征，以得到调整后的内部图像特征和调整后的外部图像特征。

在一些实施例中，可以基于自适应实例归一化(Adaptive InstanceNormalization，AdaIN)层，利用身份特征e_id对脸部区域的内部图像特征进行调整。类似地，可以基于自适应实例归一化层，利用身份特征e_id对脸部区域的外部图像特征进行调整。调整后的内部图像特征可以被表示为AdaIN₁(XM^*,e_id)，其中AdaIN₁被定义为公式(3)：

其中m、n是自变量，σ(m)表示m的标准差，μ(m)表示m的平均值，σ(n)表示n的标准差，μ(n)表示n的平均值。

类似地，调整后的外部图像特征可以被表示为

其中AdaIN₂也被定义为公式(3)。

在步骤S408中，可以叠加调整后的内部图像特征和调整后的外部图像特征以得到调整后的图像特征。

在一些实施例中，可以对调整后的内部图像特征和调整后的外部图像特征进行加权求和以得到调整后的图像特征。

在一些实现方式中，可以通过公式(4)确定调整后的图像特征AAdaIN(X,e_id,M^*)，其中X是变换图像特征，e_id是身份特征，M^*是掩膜图像。

其中可以基于公式(3)确定AdaIN₁(XM^*,e_id)和

α、β是可学习的向量参数，其中α_k∈[0,1],β_k∈[0,1],k∈[0,c-1]，c是调整后的内部图像特征和调整后的外部图像特征的通道数。在训练过程中，α_k和β_k可以分别被初始化为0.8和0.1。可以理解的是，本领域技术人员也可以根据实际情况将α_k和β_k设置为其他的值。

在另一些实现方式中，可以通过公式(5)确定调整后的图像特征AAdaIN(X,e_id,M^*)，其中X是变换图像特征，e_id是身份特征，M^*是掩膜图像。

其中可以基于公式(3)确定AdaIN₁(XM^*,e_id)和

在步骤S410中，可以基于调整后的图像特征确定输出图像。在一些实施例中，可以对调整后的图像特征执行尺寸调整(如上采样或下采样)、卷积等操作，以生成最终的输出图像。

此外，通过在生成图像时利用身份特征和外观提示图像适应性地对脸部区域的内部图像特征和脸部区域的外部图像特征分别进行调整，能够获得更好的图像效果。

根据本申请图4中提供的方法，在图像的解码过程中，可以利用身份特征和外观提示图像适应性地对脸部区域的内部图像特征和脸部区域的外部图像特征分别进行调整以生成最终的输出图像，在这个过程中，针对脸部区域的调整不会影响脸部区域周围的环境的信息。

图5示出了根据本申请的实施例的人脸编辑方法的示意性的过程。

如图5所示，可以确定姿态图像501、表情图像502和身份图像503。基于先前描述的三维重建过程分别确定姿态图像的三维模型504、表情图像的三维模型505以及身份图像的三维模型506。其中每个三维模型可以包括被表示为身份参数和表情参数的函数的三维人脸，以及用于将三维人脸投影为二维图像的姿态参数。

可以从三维模型504、505和506中分别提取姿态图像的姿态参数、表情图像的表情参数以及身份图像的身份参数。通过融合表情图像的表情参数以及身份图像的身份参数可以确定融合的三维人脸，该三维人脸具有表情图像的表情信息和身份图像的身份信息。根据姿态图像的姿态参数对融合的三维人脸进行投影，可以得到二维的渲染人脸图像R。通过对姿态图像移除脸部区域的像素可以得到外观提示图像M。

利用基于神经网络的图像生成器对二维的渲染人脸图像R和外观提示图像M进行处理可以得到生成的人脸图像。如前所述，可以将渲染人脸图像R和外观提示图像M在通道维度上进行拼接，并将拼接的结果作为图像生成器的输入。

如图5所述，图像生成器可以包括残差下采样模块508、残差模块509以及AAdaIN(Adaptive Adaptive Instance Normalization,可学习的自适应实例归一化)残差模块510。其中，残差下采样模块508输出的图像特征的尺寸小于输入残差下采样模块508的图像特征的尺寸。残差下采样模块508可以包括至少一个残差下采样层(图5中示出的是三个残差下采样层)。残差模块509输出的图像特征的尺寸和输入残差模块509的图像特征的尺寸是相同的。残差模块509中可以包括至少一个残差层(图5中示出了2个)。

本领域技术人员可以利用任何现有的卷积层、激活层等组合形成残差块的结构，来实现残差下采样模块中的残差下采样层和残差模块中的残差层。在此不对残差下采样模块和残差模块的具体结果进行限制。

图5中示出的残差下采样模块和残差模块可以用于对拼接的渲染人脸图像R和外观提示图像M进行图像编码，以实现针对拼接的图像特征的特征变换并得到变换图像特征。

然后，可以利用图5中示出的AAdaIN残差模块510对变换图像特征进行解码以得到最终的输出图像512。其中AAdaIN残差模块中可以包括至少一个AAdaIN残差层(图5中示出了3个)。AAdaIN残差模块输出的图像特征的尺寸大于输入AAdaIN残差模块的图像特征的尺寸。其中第一个AAdaIN残差层的输入是变换图像特征，第二个和第三个AAdaIN残差层的输入是前一个AAdaIN残差层输出的结果。最后一层AAdaIN残差层的输出可以是输出图像512。其中，可以将变换图像特征、掩膜图像M^*和身份特征e_id输入到AAdaIN残差模块。

如前所述，在一些情况下，需要对掩膜图像M^*进行尺寸调整以匹配AAdaIN残差层处理的图像特征的尺寸。

可以利用身份生成器511对身份图像503进行处理得到身份特征e_id。可以利用任何训练好的人脸识别网络实现身份生成器511。

图6中示出了根据本申请的实施例的AAdaIN残差模块510的示意性的结构。

如图6所示，以AAdaIN残差模块510中的第一个AAdaIN残差层为例，其输入是残差模块509输出的变换图像特征X。

AAdaIN残差层可以包括依次连接的卷积层Conv 601、激活层ReLU 602、AAdaIN层603。在图6中示出的结构中，AAdaIN残差层包括依次连接的两组卷积层Conv、激活层ReLU以及AAdaIN层。可以理解的是，根据实际情况，本领域技术人员也可以在AAdaIN残差层中设置更多(三组以上)或更少组(一组)这样的结构。

如图6所示，最后一层AAdaIN层输出的结果与AAdaIN残差层的输入相加以实现残差结构，然后可以利用上采样层604对相加的结果进行上采样。

图7中示出了AAdaIN层的结构。

如前所述，可以基于变换图像特征确定脸部区域的内部图像特征XM^*和脸部区域的外部图像特征

可以根据AdaIN1结构，利用身份特征701(e_id)对XM^*的平均值702(μ1)和标准差703(σ1)进行调整。例如，可以利用公式(3)确定AdaIN(XM^*,e_id)的结果。类似地，可以根据AdaIN2结构，利用身份特征e_id对

的平均值704(μ2)和标准差705(σ2)进行调整。例如，可以利用公式(3)确定

的结果。

然后，AAdaIN层可以利用参数α和β对脸部区域的内部图像特征XM^*、调整后的内部图像特征AdaIN(XM^*,e_id)、脸部区域的外部图像特征

以及调整后的外部图像特征

进行加权求和。例如，可以利用公式(5)确定AAdaIN层的输出结果。

图8示出了根据本申请的实施例的训练过程的示意性的过程图。

在步骤S802中，可以确定包括至少两个训练人脸图像的训练集。其中训练集可以是图像数据和视频数据的混合集合。其中图像数据覆盖更多的身份，而视频数据覆盖更多的面部表情。

在步骤S804中，可以确定第一训练人脸图像的训练身份参数、第二训练人脸图像的训练姿态参数和第三训练人脸图像的训练表情参数。

在步骤S806中，可以基于第一训练人脸图像的训练身份参数、第二训练人脸图像的训练姿态参数和第三训练人脸图像的训练表情参数生成二维的融合的训练渲染人脸图像。

在步骤S808中，可以拼接训练渲染人脸图像和训练外观提示图像，以得到拼接的训练图像特征，其中训练外观提示图像指示训练输出图像中用于训练渲染人脸图像的脸部区域的轮廓。

在步骤S810中，可以利用卷积神经网络对拼接的训练图像特征进行卷积处理以生成训练输出图像，其中训练输出图像中包括训练输出人脸。其中卷积神经网络可以包括结合图5、图6描述的卷积层、激活层、AAdaIN层等实现根据本申请的原理的图像处理方法的任何结构。卷积神经网络中包括需要训练的参数。

在步骤S812中，可以确定训练输出人脸的输出身份特征和第一训练人脸图像中的人脸图像的训练身份特征。

在步骤S814中，可以至少基于训练身份特征和输出身份特征之间的差别、训练输出图像的背景区域与外观提示图像之间的差别以及基于判别网络生成的对抗损失对卷积神经网络的参数进行调整。

在一些实施例中，本申请使用的优化目标函数可以表示为式(6)：

L＝λ_iL_id+λ_rL_rec+λ_bL_bg+λ_aL_adv (6)

其中λ_i、λ_r、λ_b、λ_a是预先设置的参数。例如，λ_i、λ_r、λ_b、λ_a可以被设置为15、10、10、1。

公式(6)中的L_id代表身份保持损失,L_rec代表重建损失，L_bg代表背景损失，L_adv代表对抗损失。

其中，可以基于公式(7)确定身份保持损失L_id，其中身份保持损失是训练身份特征和输出身份特征之间的差别：

L_id＝1-cos(E(Y),E(X_i)) (7)

其中E(Y)表示训练输出人脸图像Y，X_i表示训练身份图像，E(Y)表示Y的身份特征，E(X_i)表示X_i的身份特征。可以利用图5中示出的身份生成器对训练输出人脸图像Y和训练身份图像X_i进行处理以得到E(Y)和E(X_i)。cos表示计算E(Y)和E(X_i)之间的余弦值。

可以基于公式(8)确定重建损失L_rec：

在训练时，第一训练人脸图像和第二训练人脸图像是相同的。也就是说，可以采用同一图像作为训练的身份图像和姿态图像，从而可以将输出的结果与输入的身份图像(姿态图像)进行比较，来确定图像生成中产生的损失。

如公式(8)所示，当身份图像和姿态图像相同时，可以通过计算训练输出图像Y和姿态图像X_p之间的区别确定重建损失。当身份图像和姿态图像不同时，不考虑上述重建损失。|Y-X_p|表示计算Y和X_p之间的差的模。

可以基于公式(9)确定背景损失L_bg，背景损失是训练输出图像的背景区域与外观提示图像之间的差别：

其中

是基于外观提示图像确定的反掩膜图像，M是外观提示图像，Y*

表示脸部区域外部的输出训练图像，

表示脸部区域外部的输出训练图像和外观提示图像之间的差的模。

可以基于判别网络确定对抗损失L_adv。通过将训练输出图像Y输出判别网络，判别网络可以输出结果指示生成的训练输出图像是否是真实图像。可以基于判别网络输出的结果确定对抗损失。在一些示例中，可以利用基于pix2pixHD模型的多尺度判别器确定对抗损失L_adv。在另一些示例中，本领域技术人员也可以利用任何现有的判别器的结构确定对抗损失L_adv。

可以通过调整卷积神经网络中的参数使得优化目标函数L的值最小来确定图像处理方法中涉及的卷积神经网络中的所有参数。

图9示出了根据本申请的实施例的图像处理装置的示意性的框图。如图9所示，图像处理装置可以包括人脸参数确定单元910、融合单元920、拼接单元930以及生成单元940。

人脸参数确定单元910可以配置成确定第一人脸图像的身份参数、第二人脸图像的姿态参数和第三人脸图像的表情参数。其中人脸图像包括人物的脸部图像以及相关联的背景外观，包括但不限于发型、饰品、衣服以及周围环境的图像。

在一些实施例中，针对第一人脸图像、第二人脸图像和第三人脸图像中的每个人脸图像，可以利用三维重建模型对该人脸图像进行三维重建，以得到对应于该人脸图像的三维人脸。其中，三维人脸可以被表示为身份参数和表情参数的函数。

在一些实现方式中，三维重建模型可以是3DDFA网络、3DMM网络等任何能够实现人脸三维重建的模型。下文中以三维重建模型是3DDFA网络为例描述本申请的原理。可以理解的是，在不脱离本申请原理的情况下，本领域技术人员可以根据实际情况采用其他三维重建模型。

和表情参数

的函数，S^p是姿态图像的身份参数

和表情参数

的函数，S^e是表情图像的身份参数

和表情参数

的函数。

此外，可以基于三维人脸到人脸图像的投影确定相机投影参数作为人脸图像的姿态参数。在一些实施例中，可以将利用3DDFA网络确定的相机投影参数C^x确定为用于人脸图像x的姿态参数。可以分别确定用于身份图像的姿态参数C^x、用于姿态图像的姿态参数C^p以及用于表情图像的姿态参数C^e。

可以提取身份图像的身份参数

姿态图像的姿态参数C^p以及表情图像的表情参数

用于生成新的人脸图像。

融合单元920可以配置成基于第一人脸图像的身份参数、第二人脸图像的姿态参数和第三人脸图像的表情参数生成二维的融合的渲染人脸图像。

在一些实现方式中，可以根据姿态图像的姿态参数和身份图像的纹理图，利用弱透射投影的方式将融合的三维人脸S投影到二维平面上，可以用公式(2)表示上述投影过程。

拼接单元930可以配置成拼接渲染人脸图像和外观提示图像，以得到拼接的图像特征，其中外观提示图像指示输出图像中用于渲染人脸图像的脸部区域的轮廓。进一步地，外观提示图像还可以指示输出图像中的脸部区域的周围环境的信息。

在一些实施例中，外观提示图像可以是通过在第三人脸图像中移除脸部区域的像素而生成的。也就是说，可以将姿态图像中的背景外观确定为外观提示图像。可以理解的是，由于渲染人脸图像R是根据姿态图像的姿态参数投影生成的二维人脸图像，R的轮廓和姿态图像中的脸部区域的轮廓的相似性较高。因此可以在第三人脸图像中移除脸部区域的像素作为输出图像中用于渲染人脸图像的脸部区域的轮廓的提示。

在一些实施例中，可以通过在通道维度上对渲染人脸图像和外观提示图像进行拼接，以生成拼接的图像特征。渲染人脸图像可以具有第一通道数，外观提示图像可以具有第二通道数。通过在通道维度上拼接渲染人脸图像和外观提示图像，可以得到具有第三通道数的拼接的图像特征，其中第三通道数是第一通道数和第二通道数之和。在一些实现方式中，可以利用concat函数对渲染人脸图像和外观提示图像进行处理，以得到上述拼接的图像特征。

可以理解的是，在不脱离本申请原理的情况下，本领域技术人员也可以利用其他方式拼接渲染人脸图像和外观提示图像。例如，可以在通道维度以外的其他维度上拼接渲染人脸图像和外观提示图像。事实上，本领域技术人员可以利用任何能够将渲染人脸图像的信息和外观提示图像的信息进行融合的方式实现上述拼接操作。

生成单元940可以配置成可以基于拼接单元930确定的拼接的图像特征生成输出图像。

生成单元940可以配置成利用残差网络对拼接的图像特征进行特征变换，以得到变换图像特征。在一些实现方式中，残差网络可以包括恒等残差块或卷积残差块。进一步地，恒等残差块或卷积残差块可以包括卷积层、归一化层(如批量归一化(BatchNorm)函数)以及激活层(如线性整流(Rectified Linear Unit，ReLU))的组合。利用残差网络可以对拼接的图像特征进行图像编码，以实现针对拼接的图像特征的特征变换。接下来可以对变换图像特征进行解码以生成输出图像。

在另一些实施例中，可以利用身份图像的身份特征和外观提示图像对变换图像特征进行调整以生成输出图像。生成单元940可以利用先前结合图4-图6描述的过程对变换图像特征进行调整以生成输出图像，在此不再加以赘述。

在一些实现方式中，可以基于身份图像生成上述身份特征。在一些示例中，可以利用训练好的任何人脸识别网络对身份图像进行处理以得到身份特征e_id。例如，可以将人脸识别网络的最后一个全连接层前的特征向量作为身份特征。

利用本申请提供的图像处理装置，能够基于三维重建方法得到不同人脸图像的身份信息、表情信息和姿态信息以实现灵活的人脸编辑，并基于二维的图像生成网络对融合的人脸以及外观提示图像进行融合，以得到真实的图像效果。

根据本申请另一方面，还可以提供一种电子设备。电子设备可以包括输入单元、处理器以及输出单元。

其中，输入单元可以配置成接收至少三个输入图像，其中至少三个输入图像可以包括第一人脸图像、第二人脸图像和第三人脸图像。用户可以经由输入设备向电子设备输入所需的人脸图像。进一步地，输入图像还可以包括外观提示图像。用户还可以经由输入设备向电子设备输入额外的背景图像作为外观提示图像。

在一些实施例中，输入单元可以是图像采集单元，用户可以利用图像采集设备采集所需的人脸图像和/或背景图像。

在另一些实施例中，输入单元也可以是网络接口，用户可以经由有线或无线网络向电子设备输入所需的人脸图像。

处理器可以配置成确定第一人脸图像的身份参数、第二人脸图像的姿态参数和第三人脸图像的表情参数，并对所述第一人脸图像的身份参数、第二人脸图像的姿态参数和第三人脸图像的表情参数进行融合以生成输出人脸图像。

输出单元可以配置成显示输出人脸图像，其中所述输出人脸图像具有第一人脸图像的身份信息、第二人脸图像的姿态信息和第三人脸图像的表情信息。

图10A-图10C示出了根据本申请的实施例的示例性的用户交互界面。

在图10A中，用户交互界面包括用于输入身份图像的框1001、用于输入姿态图像的框1002以及用于输入表情图像的框1003以及显示区域1004。用户可以通过与框1001、1002、1003的交互操作输入身份图像、姿态图像以及表情图像。例如，用户可以点击框1001，然后根据响应于选择框1001的提示，通过在已经存储的图像中进行选择或通过图像获取单元捕获图像来输入身份图像。类似地，用户可以点击框1002或1003来输入姿态图像和表情图像。

在图10B中，还提供了用于输入外观提示图像的框1005。用户可以点击框1005，然后根据响应于选择框1005的提示，通过在已经存储的图像中进行选择或通过图像获取单元捕获图像来输入外观提示图像。在用户不输入外观提示图像的情况下，可以根据默认的设置确定外观提示图像。例如，可以基于姿态图像生成外观提示图像。

在图10C中，可以显示基于用户输入的身份图像、姿态图像和表情图像，在显示区域1004中向用户显示生成的输出图像。其中输出图像中具有身份图像的身份信息、姿态图像中的姿态信息和表情图像中的表情信息。

此外，根据本申请实施例的方法或装置也可以借助于图11所示的计算设备的架构来实现。图11示出了该计算设备的架构。如图11所示，计算设备1100可以包括总线1110、一个或至少两个CPU 1120、只读存储器(ROM)1130、随机存取存储器(RAM)1140、连接到网络的通信端口1150、输入/输出组件1160、硬盘1170等。计算设备1100中的存储设备，例如ROM1130或硬盘1170可以存储本申请提供的目标检测方法的处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。计算设备1100还可以包括用户界面1180。当然，图11所示的架构只是示例性的，在实现不同的设备时，根据实际需要，可以省略图11示出的计算设备中的一个或至少两个组件。

根据本申请的另一方面，还提供了一种非易失性的计算机可读存储介质，其上存储有计算机可读的指令，当利用计算机执行所述指令时可以执行如前所述的方法。

技术中的程序部分可以被认为是以可执行的代码和/或相关数据的形式而存在的“产品”或“制品”，通过计算机可读的介质所参与或实现的。有形的、永久的储存介质可以包括任何计算机、处理器、或类似设备或相关的模块所用到的内存或存储器。例如，各种半导体存储器、磁带驱动器、磁盘驱动器或者类似任何能够为软件提供存储功能的设备。

所有软件或其中的一部分有时可能会通过网络进行通信，如互联网或其他通信网络。此类通信可以将软件从一个计算机设备或处理器加载到另一个。例如：从视频目标检测设备的一个服务器或主机计算机加载至一个计算机环境的硬件平台，或其他实现系统的计算机环境，或与提供目标检测所需要的信息相关的类似功能的系统。因此，另一种能够传递软件元素的介质也可以被用作局部设备之间的物理连接，例如光波、电波、电磁波等，通过电缆、光缆或者空气等实现传播。用来载波的物理介质如电缆、无线连接或光缆等类似设备，也可以被认为是承载软件的介质。在这里的用法除非限制了有形的“储存”介质，其他表示计算机或机器“可读介质”的术语都表示在处理器执行任何指令的过程中参与的介质。

本申请使用了特定词语来描述本申请的实施例。如“第一/第二实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

除非另有定义，这里使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

上面是对本发明的说明，而不应被认为是对其的限制。尽管描述了本发明的若干示例性实施例，但本领域技术人员将容易地理解，在不背离本发明的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此，所有这些修改都意图包含在权利要求书所限定的本发明范围内。应当理解，上面是对本发明的说明，而不应被认为是限于所公开的特定实施例，并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本发明由权利要求书及其等效物限定。

Claims

1.一种图像处理方法，包括：

利用三维重建的方式，确定第一人脸图像的身份参数、第二人脸图像的姿态参数和第三人脸图像的表情参数；

基于所述第一人脸图像的身份参数、所述第二人脸图像的姿态参数和所述第三人脸图像的表情参数生成二维的融合的渲染人脸图像；

拼接所述渲染人脸图像和外观提示图像，以得到拼接的图像特征；

基于所述拼接的图像特征生成输出图像，其中所述外观提示图像指示所述输出图像中用于所述渲染人脸图像的脸部区域的轮廓。

2.如权利要求1所述的图像处理方法，其中，基于所述拼接的图像特征生成输出图像包括：

利用残差网络对所述拼接的图像特征进行特征变换，以得到变换图像特征；

利用基于所述第一人脸图像生成的身份特征和所述外观提示图像对所述变换图像特征进行调整以生成所述输出图像。

3.如权利要求2所述的图像处理方法，其中，利用基于所述第一人脸图像生成的身份特征和所述外观提示图像对所述变换图像特征进行调整以生成所述输出图像包括：

基于所述外观提示图像生成所述脸部区域的掩膜图像；

基于所述掩膜图像，从所述变换图像特征确定所述脸部区域的内部图像特征和所述脸部区域的外部图像特征；

利用所述身份特征分别调整所述内部图像特征和所述外部图像特征，以得到调整后的内部图像特征和调整后的外部图像特征；

叠加所述调整后的内部图像特征和所述调整后的外部图像特征以得到调整后的图像特征；

基于所述调整后的图像特征确定所述输出图像。

4.如权利要求1-3任一项所述的图像处理方法，其中，利用三维重建的方式，确定第一人脸图像的身份参数、第二人脸图像的姿态参数和第三人脸图像的表情参数包括：

针对所述第一人脸图像、所述第二人脸图像和所述第三人脸图像中的每个人脸图像，

对该人脸图像进行三维重建，以得到对应于该人脸图像的三维人脸；

基于所述三维人脸确定该人脸图像的身份参数和表情参数；

基于所述三维人脸到该人脸图像的投影确定相机投影参数，作为该人脸图像的姿态参数；

提取所述第一人脸图像的身份参数、所述第二人脸图像的姿态参数以及所述第三人脸图像的表情参数。

5.如权利要求1-3任一项所述的图像方法，其中，基于所述第一人脸图像的身份参数、所述第二人脸图像的姿态参数和所述第三人脸图像的表情参数生成二维的融合的渲染人脸图像包括：

利用所述第一人脸图像的身份参数和所述第三人脸图像的表情参数构建融合的三维人脸；

基于所述第三人脸图像的姿态参数对所述融合的三维人脸进行投影，以得到二维的所述渲染人脸图像。

6.如权利要求1-3任一项所述的图像处理方法，其中，所述外观提示图像是通过在所述第三人脸图像中移除所述脸部区域的像素生成的。

7.如权利要求1-3任一项所述的图像处理方法，其中，所述渲染人脸图像具有第一通道数，所述外观提示图像具有第二通道数，

拼接所述渲染人脸图像和外观提示图像，以得到拼接的图像特征包括：

在通道维度上对所述渲染人脸图像和所述外观提示图像进行拼接，以生成所述拼接的图像特征，其中所述拼接的图像特征的通道数是所述第一通道数和所述第二通道数之和。

8.如权利要求1-3任一项所述的图像处理方法，还包括：

确定包括至少三个训练人脸图像的训练集；

确定第一训练人脸图像的训练身份参数、第二训练人脸图像的训练姿态参数和第三训练人脸图像的训练表情参数；

基于所述第一训练人脸图像的训练身份参数、第二训练人脸图像的训练姿态参数和第三训练人脸图像的训练表情参数生成二维的融合的训练渲染人脸图像；

拼接所述训练渲染人脸图像和训练外观提示图像，以得到拼接的训练图像特征；

利用卷积神经网络对所述拼接的训练图像特征进行卷积处理以生成训练输出图像，其中训练输出图像中包括训练输出人脸，其中所述训练外观提示图像指示训练输出图像中用于所述训练渲染人脸图像的脸部区域的轮廓；

确定所述训练输出人脸的输出身份特征和所述第一训练人脸图像中的人脸图像的训练身份特征；

至少基于所述训练身份特征和所述输出身份特征之间的差别、所述训练输出图像的背景区域与所述外观提示图像之间的差别以及基于判别网络生成的对抗损失对所述卷积神经网络的参数进行调整。

9.如权利要求8所述的图像处理方法，其中所述第一训练人脸图像和所述第二训练人脸图像是相同的，所述方法还包括基于所述训练输出图像和所述第一训练人脸图像之间的差别对所述卷积神经网络的参数进行调整。

10.一种图像处理装置，包括：

人脸参数确定单元，配置成利用三维重建的方式，确定第一人脸图像的身份参数、第二人脸图像的姿态参数和第三人脸图像的表情参数；

融合单元，配置成基于所述第一人脸图像的身份参数、所述第二人脸图像的姿态参数和所述第三人脸图像的表情参数生成二维的融合的渲染人脸图像；

拼接单元，配置成拼接所述渲染人脸图像和外观提示图像，以得到拼接的图像特征；

生成单元，基于所述拼接的图像特征生成输出图像，其中所述外观提示图像指示所述输出图像中用于所述渲染人脸图像的脸部区域的轮廓。

11.如权利要求10所述的图像处理装置，其中，所述变换单元配置成：

12.如权利要求11所述的图像处理装置，其中，利用基于所述第一人脸图像生成的身份特征和所述外观提示图像对所述变换图像特征进行调整以生成所述输出图像包括：

确定所述第一人脸图像的所述身份特征；

基于所述外观提示图像生成所述脸部区域的掩膜图像；

基于所述调整后的图像特征确定所述输出图像。

13.一种电子设备，包括：

输入单元，配置成接收至少三个输入图像，其中所述至少三个输入图像包括第一人脸图像、第二人脸图像和第三人脸图像；

处理器，配置成确定所述第一人脸图像的身份参数、所述第二人脸图像的姿态参数和所述第三人脸图像的表情参数，并对所述第一人脸图像的身份参数、所述第二人脸图像的姿态参数和所述第三人脸图像的表情参数进行融合以生成输出人脸图像；

输出单元，配置成显示所述输出人脸图像，其中所述输出人脸图像具有所述第一人脸图像的身份信息、所述第二人脸图像的姿态信息和所述第三人脸图像的表情信息。

14.一种图像处理设备，包括：

处理器；以及

存储器，其中存储计算机可读程序指令，

其中，在所述计算机可读程序指令被所述处理器运行时执行如权利要求1-9任一项所述的图像处理方法。

15.一种计算机可读存储介质，其上存储计算机可读指令，当所述计算机可读指令由计算机执行时，所述计算机执行如权利要求1-9任一项所述的图像处理方法。