CN114937115A

CN114937115A - 图像处理方法、人脸更换模型处理方法、装置和电子设备

Info

Publication number: CN114937115A
Application number: CN202110866292.7A
Authority: CN
Inventors: 朱俊伟; 贺珂珂; 朱飞达; 邰颖; 汪铖杰; 李季檩; 黄飞跃
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2022-08-23

Abstract

本申请涉及人工智能技术，特征涉及一种图像处理方法、人脸更换模型处理方法、装置和电子设备，所述方法包括：从不同目标真实对象的人脸图像中提取对象属性特征，所述对象属性特征包括所述目标真实对象的姿态特征、表情特征和光照特征；基于训练过程中学习到的虚拟角色属性特征，依次对各所述对象属性特征中的姿态特征和表情特征进行解码，得到不同的目标合成图像；各所述目标合成图像中的对象具有与相应所述目标真实对象一致的姿态和表情，以及具有与目标虚拟角色一致的身份信息；依据各所述光照特征，对相应所述目标合成图像进行光照渲染。采用本方法能够简化人脸更换的过程以及提高人脸更好后使得的合成图像的真实性。

Description

图像处理方法、人脸更换模型处理方法、装置和电子设备

技术领域

本申请涉及人工智能技术领域，特别是涉及一种图像处理方法、人脸更换模型处理方法、装置和电子设备。

背景技术

随着图像处理技术的不断发展，用户可以将自己或他人的图像中的人脸进行更换，如将虚拟人物的一些面部特征转移到用户自己或他人的图像中，从而实现换脸的目的。

在传统的人脸更换方案中，通常是先拍摄三维人体模型得到模型图像，以及拍摄他人的人物图像以捕捉不同的表情和姿态，然后将模型图像中的模型人对人物图像中的人脸进行更换，从而得到合成图像。然而，上述方案中需要专门制作三维人体模型，使得人脸更换变得复杂，而且基于三维人体模型进行人脸更换所得的合成图像真实性较差。

发明内容

基于此，有必要针对上述技术问题，提供一种图像处理方法、人脸更换模型处理方法、装置和电子设备，能够简化人脸更换的过程以及提高人脸更好后使得的合成图像的真实性。

一种图像处理方法，所述方法包括：

从不同目标真实对象的人脸图像中提取对象属性特征，所述对象属性特征包括所述目标真实对象的姿态特征、表情特征和光照特征；

基于训练过程中学习到的虚拟角色属性特征，依次对各所述对象属性特征中的姿态特征和表情特征进行解码，得到不同的目标合成图像；各所述目标合成图像中的对象具有与相应所述目标真实对象一致的姿态和表情，以及具有与目标虚拟角色一致的身份信息；

依据各所述光照特征，对相应所述目标合成图像进行光照渲染。

一种图像处理装置，所述装置包括：

提取模块，用于从不同目标真实对象的人脸图像中提取对象属性特征，所述对象属性特征包括所述目标真实对象的姿态特征、表情特征和光照特征；

解码模块，用于基于训练过程中学习到的虚拟角色属性特征，依次对各所述对象属性特征中的姿态特征和表情特征进行解码，得到不同的目标合成图像；各所述目标合成图像中的对象具有与相应所述目标真实对象一致的姿态和表情，以及具有与目标虚拟角色一致的身份信息；

渲染模块，用于依据各所述光照特征，对相应所述目标合成图像进行光照渲染。

一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述图像处理方法、装置、电子设备和存储介质，从各人脸图像中提取对象属性特征提取各目标真实对象的姿态特征、表情特征和光照特征；基于训练过程中学习到的虚拟角色属性特征，依次对各对象属性特征中的姿态特征和表情特征进行解码，便可得到不同的目标合成图像，其中各目标合成图像中的对象具有与相应目标真实对象一致的姿态和表情，以及具有与目标虚拟角色一致的身份信息，从而无需专门制作三维人体模型，简化人脸更换的过程；而且由于基于训练过程中学习到的虚拟角色属性特征、姿态特征和表情特征得到目标合成图像，而不是基于制作的三维人体模型进行人脸更换，可以有效提高目标合成图像的真实性。此外，基于训练过程中学习到的虚拟角色属性特征，可以对多个目标真实对象的姿态特征和表情特征解码得到不同的目标合成图像，从而实现利用一种虚拟角色的属性特征实现多个用户的图像换脸，有利于对虚拟角色图像的维护。最后，依据各光照特征对相应目标合成图像进行光照渲染，可以进一步提高目标合成图像的真实性，而且也避免了传统方案中需要对渲染结果进行大量后期制作，也使得简化人脸更换的过程。

一种人脸更换模型处理方法，所述方法包括：

从人脸图像样本中提取真实对象的身份特征；

通过通用编码器依次对所述人脸图像样本和虚拟角色图像进行属性特征提取，分别得到训练对象属性特征和训练虚拟角色属性特征；

通过通用解码器对所述身份特征和所述训练对象属性特征进行解码，得到第一合成图像；以及，通过专用解码器对所述训练虚拟角色属性特征进行解码，得到第二合成图像；

根据所述第一合成图像和所述人脸图像样本之间的差异值，对所述通用编码器和所述通用解码器进行参数调整；以及，根据所述第二合成图像与所述虚拟角色图像之间的损失值，对所述通用编码器和所述专用解码器进行参数调整；

当模型收敛时，基于所述通用编码器与所述专用解码器形成人脸更换模型；所述人脸更换模型，用于对不同目标真实对象的人脸图像进行人脸更换。

一种人脸更换模型处理装置，所述装置包括：

第一提取模块，用于从人脸图像样本中提取真实对象的身份特征；

第二提取模块，用于通过通用编码器依次对所述人脸图像样本和虚拟角色图像进行属性特征提取，分别得到训练对象属性特征和训练虚拟角色属性特征；

解码模块，用于通过通用解码器对所述身份特征和所述训练对象属性特征进行解码，得到第一合成图像；以及，通过专用解码器对所述训练虚拟角色属性特征进行解码，得到第二合成图像；

调整模块，用于根据所述第一合成图像和所述人脸图像样本之间的差异值，对所述通用编码器和所述通用解码器进行参数调整；以及，根据所述第二合成图像与所述虚拟角色图像之间的损失值，对所述通用编码器和所述专用解码器进行参数调整；

构建模块，用于当模型收敛时，基于所述通用编码器与所述专用解码器形成人脸更换模型；所述人脸更换模型，用于对不同目标真实对象的人脸图像进行人脸更换。

从人脸图像样本中提取真实对象的身份特征；

上述人脸更换模型处理方法、装置、电子设备和存储介质，通过通用编码器对人脸图像样本进行属性特征提取，通过通用解码器对从人脸图像样本提取的身份特征和训练对象属性特征进行解码，根据解码所得的第一合成图像和人脸图像样本之间的差异值对通用编码器和通用解码器进行参数调整，从而可以使通用编码器更好地从目标真实对象的人脸图像中提取出对象属性特征，以便在换脸过程中保留对象属性特征，而隐去目标真实对象的身份特征。此外，通过通用编码器对虚拟角色图像进行属性特征提取，通过专用解码器对提取的训练虚拟角色属性特征进行解码，根据第二合成图像与虚拟角色图像之间的损失值，对通用编码器和专用解码器进行参数调整，从而可以学习到虚拟角色属性特征，以便基于学习到的虚拟角色属性特征和对象属性特征实现对目标真实对象的人脸图像进行人脸更换，可以有效提高目标合成图像的真实性，简化人脸更换的过程。

附图说明

图1为一个实施例中图像处理方法和人脸更换模型处理方法的应用环境图；

图2为一个实施例中图像处理方法的流程示意图；

图3为一个实施例中面部特征点的示意图；

图4为一个实施例中通过人脸更换模型对目标真实对象的人脸图像进行换脸处理的示意图；

图5为一个实施例中人脸更换模型处理方法的流程示意图；

图6为一个实施例中模型训练的结构示意图；

图7为一个实施例中获得混合生成器，基于混合生成器生成虚拟角色图像的流程示意图；

图8为一个实施例中将模特生成器与明星生成器中相应网络层的网络参数进行更换得到混合生成器的示意图；

图9为一个实施例中不同生成器生成相应图像的对比示意图；

图10为一个实施例中图像处理装置的结构框图；

图11为一个实施例中人脸更换模型处理装置的结构框图；

图12为另一个实施例中人脸更换模型处理装置的结构框图；

图13为一个实施例中电子设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的科学，通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维(3D)物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning，ML)专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习通常包括人工神经网络、置信网络、强化学习、深度学习、迁移学习、归纳学习和式教学习等技术。

本申请实施例提供的方案涉及人工智能的计算机视觉和机器学习等技术，具体通过如下实施例进行说明：

本申请提供的图像处理方法和人脸更换模型处理方法，可以应用于如图1所示的应用环境中。在该应用环境中，包括终端102和服务器104。人脸更换模型处理方法可以应用于服务器104，图像处理方法可以应用于终端102或服务器104。具体地，服务器104从人脸图像样本中提取真实对象的身份特征；通过通用编码器依次对人脸图像样本和虚拟角色图像进行属性特征提取，分别得到训练对象属性特征和训练虚拟角色属性特征；通过通用解码器对身份特征和训练对象属性特征进行解码，得到第一合成图像；以及，通过专用解码器对训练虚拟角色属性特征进行解码，得到第二合成图像；根据第一合成图像和人脸图像样本之间的差异值，对通用编码器和通用解码器进行参数调整；以及，根据第二合成图像与虚拟角色图像之间的损失值，对通用编码器和专用解码器进行参数调整；当模型收敛时，基于通用编码器与专用解码器形成人脸更换模型，然后将该人脸更换模型部署于终端102。

当图像处理方法可以应用于终端102时，终端102响应于用户发起的更换操作，从目标真实对象的人脸图像中提取对象属性特征，对象属性特征包括目标真实对象的姿态特征、表情特征和光照特征；基于训练过程中学习到的虚拟角色属性特征，依次对对象属性特征中的姿态特征和表情特征进行解码，得到目标合成图像；目标合成图像中的对象具有与目标真实对象一致的姿态和表情，以及具有与目标虚拟角色一致的身份信息；依据光照特征，对目标合成图像进行光照渲染，从而得到最终更换人脸的合成图像并进行显示。

此外，当图像处理方法可以应用于服务器104时，终端102将目标真实对象的人脸图像发送给服务器104，服务器104从目标真实对象的人脸图像中提取对象属性特征，对象属性特征包括目标真实对象的姿态特征、表情特征和光照特征；基于训练过程中学习到的虚拟角色属性特征，依次对对象属性特征中的姿态特征和表情特征进行解码，得到目标合成图像；目标合成图像中的对象具有与目标真实对象一致的姿态和表情，以及具有与目标虚拟角色一致的身份信息；依据光照特征，对目标合成图像进行光照渲染，从而得到最终更换人脸的合成图像，将该最终的合成图像发送给终端102进行显示。

其中，终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机和智能手表等，但并不局限于此。

服务器104可以是独立的物理服务器，也可以是区块链系统中的服务节点，该区块链系统中的各服务节点之间形成组成点对点(P2P，Peer To Peer)网络，P2P协议是一个运行在传输控制协议(TCP，Transmission Control Protocol)协议之上的应用层协议。

此外，服务器104还可以是多个物理服务器构成的服务器集群，可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

终端102与服务器104之间可以通过蓝牙、USB(Universal Serial Bus，通用串行总线)或者网络等通讯连接方式进行连接，本申请在此不做限制。

在一个实施例中，如图2所示，提供了一种图像处理方法，该图像处理方法可应用于图1中的终端102，也可以应用于图1中的服务器104。在接下来的实施例中，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：

S202，从不同目标真实对象的人脸图像中提取对象属性特征。

其中，目标真实对象可以指需要对人脸图像进行人脸更换的真实用户。人脸图像可以指拍摄到含有面部特征的图像，例如只拍摄目标真实对象的面部所得的图像，或同时拍摄目标真实对象的面部和其它身体部位的图像，如该图像既包含目标真实对象的面部，还包含该目标真实对象的上身和下身。

此外，对象属性特征用于反映目标真实对象的非身份特征，包括目标真实对象的姿态特征、表情特征和光照特征。该姿态特征可以指表征目标真实对象头部姿态的特征，如抬头、低头和偏头等特征。表情特征可以指用于表达感情和情意的面部特征，不同的表情特征通常可以通过不同面部器官的组合来呈现，如开心的表情特征可以通过眼睛微眯以及嘴巴微张来呈现。光照特征可以指用于反映目标真实对象面部光照强弱和光照方向的特征。

在一个实施例中，服务器可以接收各终端拍摄的针对不同目标真实对象的人脸图像，然后提取该人脸图像中的对象属性特征。或者，服务器从待发布的用户视频或待播放的影视视频中，提取包含目标真实对象面部特征的目标视频帧，然后通过通用编码器提取各目标视频帧中的对象属性特征；其中，不同用户视频或不同影视视频提取的目标视频帧属于不同目标真实对象的人脸图像。

在一个实施例中，服务器通过通用编码器对不同目标真实对象的人脸图像进行姿态识别，以识别出该目标真实对象是否处于抬头、低头或偏头的状态，得到该目标真实对象的姿态特征，从而完成姿态特征的提取。此外，服务器还可以通过通用编码器对不同目标真实对象的人脸图像进行人脸识别，可以识别出该不同目标真实对象的面部特征点，得到对应的表情特征，从而完成表情特征的提取。

如图3所示，对人脸图像进行人脸识别可得到如图3所示的面部特征点的识别结果，为了方便说明，采用数字标记识别得到的各个面部特征点，例如图3中所示的1～17表示脸部边缘特征点，18～22以及23～27对应表示用户的左眉部特征点和右眉部特征点，28～36表示用户的鼻子特征点，37～42表示用户的左眼特征点，43～48表示用户的右眼特征点，49～68表示用户的嘴唇特征点，通过将识别出来的特征点进行组合即可得到表情特征，如稍微眯眼的眼特征点和微张的嘴唇特征点进行组合可以得到微笑的表情特征。

此外，服务器还可以通过通用编码器截取人脸图像中包含面部的目标区域，在该目标区域内确定该目标真实对象面部的最大亮度特征、最小亮度特征和光照方向特征，从而得到光照特征。其中，该光照特征包括最大亮度特征、最小亮度特征和光照方向特征。

S204，基于训练过程中学习到的虚拟角色属性特征，依次对各对象属性特征中的姿态特征和表情特征进行解码，得到不同的目标合成图像。

其中，目标合成图像中的对象也可称为合成对象或换脸后的对象。各目标合成图像中的对象具有与相应目标真实对象一致的姿态和表情，以及具有与目标虚拟角色一致的身份信息。例如，假设目标真实对象为用户A，目标虚拟角色为真实世界不存在的虚拟人物，那么该目标合成图像中的对象即为融合了用户A的姿态特征和表情特征，以及虚拟人物的身份信息的人物，从视觉上来说，该目标合成图像中的对象具有与用户A一致的姿态和表情，但由于该对象具有与虚拟人物一致的身份信息，因此在进行人脸识别时，识别不出该对象是用户A。

在一个实施例中，S204具体可以包括：服务器在通用编码器提取到对象属性特征后，将对象属性特征输入至专用解码器，以使专用解码器基于训练过程中学习到的虚拟角色属性特征，依次对各对象属性特征中的姿态特征和表情特征进行解码，得到不同的目标合成图像。

其中，虚拟角色属性特征可以包括虚拟角色(也即虚拟对象)的身份信息、姿态特征、表情特征和光照特征。通用编码器是指可以对任意目标真实对象的人脸图像进行属性特征提取的编码器。专用解码器是指可以基于提取的目标真实对象的对象属性特征进行解码得到目标合成图像，且目标合成图像中的对象具有与目标真实对象一致的姿态和表情，以及与虚拟角色一致的身份信息。

具体地，服务器将对象属性特征输入至专用解码器之后，专用解码器基于虚拟角色属性特征中的身份信息，依次对各对象属性特征中的姿态特征和表情特征进行解码，得到不同的目标合成图像。

在一个实施例中，通用编码器和专用解码器属于人脸更换模型的两个部分，该通用编码器和专用解码器是通过与通用解码器联合训练所得的，具体的训练方法包括：从人脸图像样本中提取真实对象的身份特征；通过通用编码器依次对人脸图像样本和虚拟角色图像进行属性特征提取，分别得到训练对象属性特征和训练虚拟角色属性特征；通过通用解码器对身份特征和训练对象属性特征进行解码，得到第一合成图像；以及，通过专用解码器对训练虚拟角色属性特征进行解码，得到第二合成图像；根据第一合成图像和人脸图像样本之间的差异值，对通用编码器和通用解码器进行参数调整；以及，根据第二合成图像与虚拟角色图像之间的损失值，对通用编码器和专用解码器进行参数调整；当模型收敛时，基于通用编码器与专用解码器形成人脸更换模型。其中，虚拟角色图像也可称为虚拟人像，是二维的虚拟角色的图像。该虚拟角色也可称为虚拟对象，具体可以指虚拟人物。

在一个实施例中，服务器获取不同特点的人脸图像训练集；将不同特点的人脸图像训练集分别输入不同的生成器进行训练；在完成训练后，基于第一目标生成器中至少一层的网络参数，对第二目标生成器中相应层的网络参数进行更换，得到混合生成器；第一目标生成器与第二目标生成器均属于训练后的生成器；通过混合生成器生成虚拟角色图像。

在一个实施例中，第一目标生成器用于生成具有第一特点的图像；第二目标生成器用于生成具有第二特点的图像。上述通过混合生成器生成虚拟角色图像的步骤，具体可以包括：服务器获取待转换图像；将待转换图像输入至混合生成器，以使混合生成器中的网络层对待转换图像进行图像处理，得到具有第一特点和第二特点的虚拟角色图像。

在一个实施例中，上述获取待转换图像的步骤，具体可以包括：服务器获取至少两张在不同光照下采集的待转换图像；各待转换图像中的真实对象具有不同的姿态和表情。对应地，上述对待转换图像进行图像处理，得到具有第一特点和第二特点的虚拟角色图像的步骤，具体可以包括：服务器依次对至少两张待转换图像进行图像处理，得到具有第一特点和第二特点的至少两张虚拟角色图像；其中，各虚拟角色图像中的虚拟角色具有不同的姿态和表情。

在一个实施例中，第一特点和第二特点为不同的年龄，或不同的肤色，或不同的装扮风格；或者，第一特点和第二特点为年龄、肤色和装扮风格之间的两两组合。

在一个实施例中，上述基于第一目标生成器中至少一层的网络参数，对第二目标生成器中相应层的网络参数进行更换的步骤，具体可以包括：服务器在第二目标生成器中确定待更换参数的网络层；在第一目标生成器中确定与待更换参数的网络层匹配的网络层；基于第一目标生成器中匹配的网络层的网络参数，对待更换参数的网络层的网络参数进行更换。

在一个实施例中，通用编码器包括共享网络参数的第一通用编码器和第二通用编码器。对应地，上述通过通用编码器依次对人脸图像样本和虚拟角色图像进行属性特征提取的步骤，具体可以包括：服务器分别对人脸图像样本和虚拟角色图像进行归一化处理；将处理后的人脸图像样本输入第一通用编码器，以使第一通用编码器对人脸图像样本进行属性特征提取；通过第二通用编码器对处理后的虚拟角色图像进行属性特征提取。

在一个实施例中，第一合成图像和人脸图像样本之间的差异值包括第一差异值和第二差异值。对应地，上述根据第一合成图像和人脸图像样本之间的差异值，对通用编码器和通用解码器进行参数调整的步骤，具体可以包括：服务器根据第一合成图像和人脸图像样本确定第一差异值；分别从第一合成图像和人脸图像样本中提取图像特征，得到第一合成图像特征和人脸图像特征；根据第一合成图像特征和人脸图像特征确定第二差异值；根据第一差异值和第二差异值，对通用编码器和通用解码器进行参数调整。

在一个实施例中，第二合成图像与虚拟角色图像之间的损失值包括第一损失值、第二损失值和第三损失值。对应地，上述根据第二合成图像与虚拟角色图像之间的损失值，对通用编码器和专用解码器进行参数调整的步骤，具体可以包括：根据第二合成图像与虚拟角色图像确定第一损失值；分别从第二合成图像与虚拟角色图像中提取图像特征，得到第二合成图像特征和虚拟角色图像特征；根据第二合成图像特征和虚拟角色图像特征确定第二损失值；通过判别器分别对第二合成图像与虚拟角色图像进行判别，得到第一判别结果和第二判别结果；根据第一判别结果和第二判别结果确定第三损失值；根据第一损失值、第二损失值和第三损失值，对通用编码器和专用解码器进行参数调整。

S206，依据各光照特征，对相应目标合成图像进行光照渲染。

具体地，服务器依据各目标真实对象的光照特征，在相应目标合成图像中对象的面部处布置光照探针，然后根据光照探针对相应目标合成图像进行光照渲染，从而即便真实对象处于运动状态也可以很好地渲染出光照情况。

为了更好地理解本申请的方案，这里结合一个具体的场景进行说明，具体如下：用户在公开场合发布个人视频或个人图像时，用户可以选择自己喜爱的虚拟角色(也即虚拟人物)进行替换。如图4所示，通用编码器从用户的个人视频或个人图像中提取用户的属性特征(该属性特征包括姿态特征、表情特征和光照特征)，然后专用解码器基于训练过程中学习到的针对该虚拟角色的虚拟角色属性特征对该用户的姿态特征和表情特征进行解码，然后依据光照特征对解码所得的目标合成图像进行光照渲染，得到最终的目标合成图像，该目标合成图像保留用户本人的表情特征、姿态特征和光照特征，隐去用户本人的身份信息，用虚拟人物的身份信息进行替换，从而既可以保持个人视频和个人图像的真实性，又不会泄露自己的身份信息。例如，用户A在发布其跳舞视频之前，可以用自己喜欢的虚拟偶像的身份信息转移至跳舞视频中的用户人脸上，然后进行发布，从而观看者可以观看到跳舞视频中的“人物”具有用户A的跳舞姿态、头部姿态和表情，且该“人物”的面部样子像用户A的虚拟偶像。

上述实施例中，从各人脸图像中提取对象属性特征提取各目标真实对象的姿态特征、表情特征和光照特征；基于训练过程中学习到的虚拟角色属性特征，依次对各对象属性特征中的姿态特征和表情特征进行解码，便可得到不同的目标合成图像，其中各目标合成图像中的对象具有与相应目标真实对象一致的姿态和表情，以及具有与目标虚拟角色一致的身份信息，从而无需专门制作三维人体模型，简化人脸更换的过程；而且由于基于训练过程中学习到的虚拟角色属性特征、姿态特征和表情特征得到目标合成图像，而不是基于制作的三维人体模型进行人脸更换，可以有效提高目标合成图像的真实性。此外，基于训练过程中学习到的虚拟角色属性特征，可以对多个目标真实对象的姿态特征和表情特征解码得到不同的目标合成图像，从而实现利用一种虚拟角色的属性特征实现多个用户的图像换脸，有利于对虚拟角色图像的维护。最后，依据各光照特征对相应目标合成图像进行光照渲染，可以进一步提高目标合成图像的真实性，而且也避免了传统方案中需要对渲染结果进行大量后期制作，也使得简化人脸更换的过程。

在一个实施例中，如图5所示，提供了一种人脸更换模型处理方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

S502，从人脸图像样本中提取真实对象的身份特征。

其中，真实对象可以指真实的用户。人脸图像样本可以指拍摄到含有面部特征的用于进行模型训练的图像，例如只拍摄目标真实对象的面部所得的图像，或同时拍摄目标真实对象的面部和其它身体部位的图像。

身份特征也可称为身份信息，是用于表示真实对象身份的特征，如该真实对象的虹膜特征、鼻子特征和嘴唇特征等。

在一个实施例中，服务器通过人脸识别模型对人脸图像样本进行身份特征提取，得到真实对象的身份特征，如图6的(a)图所示。

S504，通过通用编码器依次对人脸图像样本和虚拟角色图像进行属性特征提取，分别得到训练对象属性特征和训练虚拟角色属性特征。

其中，通用编码器是指既可以对人脸图像样本和虚拟角色图像进行属性特征提取的编码器，而且在完成训练后，该通用编码器还可以对目标真实对象的人脸图像进行属性特征提取。

训练对象属性特征可以指在训练阶段从人脸图像样本中提取的关于真实对象的属性特征，该训练对象属性特征用于反映真实对象的非身份特征，包括真实对象的姿态特征、表情特征和光照特征。该训练对象属性特征中的姿态特征可以指表征真实对象头部姿态的特征，如抬头、低头和偏头等特征。该训练对象属性特征中的表情特征可以指用于表达感情和情意的面部特征，不同的表情特征通常可以通过不同面部器官的组合来呈现，如开心的表情特征可以通过眼睛微眯以及嘴巴微张来呈现。该训练对象属性特征中的光照特征可以指用于反映真实对象面部光照强弱和光照方向的特征。

训练虚拟角色属性特征可以指在训练阶段从虚拟角色图像中提取的针对虚拟角色的属性特征，该训练虚拟角色属性特征可以包括虚拟角色的身份特征、表情特征、姿态特征和光照特征。其中，该虚拟角色的身份特征、表情特征、姿态特征和光照特征与真实对象的相关特征类似，具体介绍可参考真实对象的相关特征。

在一个实施例中，该通用编码器包括共享网络参数的第一通用编码器和第二通用编码器。因此，S504中的通过通用编码器依次对人脸图像样本和虚拟角色图像进行属性特征提取步骤，具体可以包括：服务器分别对人脸图像样本和虚拟角色图像进行归一化处理；将处理后的人脸图像样本输入第一通用编码器，以使第一通用编码器对人脸图像样本进行属性特征提取，如图6的(a)图所示；通过第二通用编码器对处理后的虚拟角色图像进行属性特征提取，如图6的(b)图所示。

对于人脸图像样本归一化处理的具体步骤，具体可以包括：服务器可以通过估算网络对人脸图像样本进行全局池化处理以及至少两次卷积处理，得到人脸图像样本的预测均值和预测方差，然后基于该预测均值和预测方差对人脸图像样本进行归一化处理。或者，服务器可以直接计算人脸图像样本的统计均值和统计方差，然后基于该统计均值和统计方差对人脸图像样本进行归一化处理。又或者，通过上述方式获得人脸图像样本的预测均值、统计均值、预测方差和统计方差，然后对预测均值和统计均值进行加权计算，得到加权均值；以及，对预测方差和统计方差进行加权计算，得到加权方差；根据加权均值和加权方差对人脸图像样本进行归一化处理。

此外，对于虚拟角色图像归一化处理的具体步骤，可以参考上述人脸图像样本归一化处理的步骤。

在一个实施例中，在归一化处理之前或之前，服务器还可以对人脸图像样本和虚拟角色图像进行去噪处理，以避免噪点影响模型的精准度。

S506，通过通用解码器对身份特征和训练对象属性特征进行解码，得到第一合成图像；以及，通过专用解码器对训练虚拟角色属性特征进行解码，得到第二合成图像。

其中，通用解码器是指可以基于提取的身份特征和训练对象属性特征进行解码得到与人脸图像样本相似的解码器，从而可以是通用编码器更好地提取出姿态特征、表情特征和光照特征。

专用解码器是指可以基于提取的虚拟角色的训练虚拟角色属性特征进行解码得到第二合成图像，且第二合成图像中的对象具有与虚拟角色一致的姿态、表情和身份信息。此外，在训练完成后，专用解码器可以基于通用编码器提取的目标真实对象的对象属性特征进行解码得到目标合成图像，该目标合成图像中的对象具有与目标真实对象一致的姿态和表情，以及与虚拟角色一致的身份信息。

在一个实施例中，S506中的通过通用解码器对身份特征和训练对象属性特征进行解码步骤，具体可以包括：服务器将身份特征和训练对象属性特征输入通用解码器，以使通用解码器基于该身份特征对训练对象属性特征中的姿态特征和表情特征进行解码，得到第一初始合成图像；然后，服务器基于训练对象属性特征中的光照特征对第一初始合成图像进行光照渲染，从而得到第一合成图像。

在一个实施例中，训练虚拟角色属性特征包括虚拟角色的身份特征、姿态特征、表情特征和光照特征；因此，S506中的通过专用解码器对训练虚拟角色属性特征进行解码步骤，具体可以包括：服务器将训练虚拟角色属性特征输入专用解码器，以使专用解码器基于虚拟角色的身份特征对姿态特征和表情特征进行解码，得到第二初始合成图像；然后，服务器基于训练虚拟角色属性特征中的光照特征对第二初始合成图像进行光照渲染，从而得到第二合成图像。

S508，根据第一合成图像和人脸图像样本之间的差异值，对通用编码器和通用解码器进行参数调整；以及，根据第二合成图像与虚拟角色图像之间的损失值，对通用编码器和专用解码器进行参数调整。

其中，该差异值可以指第一合成图像和人脸图像样本之间的相似程度，差异值越小表示相似程度越大。类似地，该损失值可以指第二合成图像与虚拟角色图像之间的相似程度，损失值越小表示相似程度越大。

为了更加清楚描述上述编解码器的参数调整，接下来分两部分进行描述：

(1)通用编码器和通用解码器的参数调整。

在一个实施例中，服务器确定第一合成图像和人脸图像样本之间的差异值，然后将该差异值在通用编码器和通用解码器进行反向传播，得到通用编码器和通用解码器中各网络层的网络参数的梯度值，基于该梯度值调整网络层的网络参数。此外，当通用编码器包括第一通用编码器时，服务器还可以将差异值在第一通用编码器和通用解码器进行反向传播，得到第一通用编码器和通用解码器中各网络层的网络参数的梯度值，基于该梯度值调整网络层的网络参数。

具体地，第一合成图像和人脸图像样本之间的差异值包括第一差异值和第二差异值。S508中的根据第一合成图像和人脸图像样本之间的差异值，对通用编码器和通用解码器进行参数调整步骤，具体可以包括：服务器根据第一合成图像和人脸图像样本确定第一差异值；分别从第一合成图像和人脸图像样本中提取图像特征，得到第一合成图像特征和人脸图像特征；根据第一合成图像特征和人脸图像特征确定第二差异值；根据第一差异值和第二差异值，对通用编码器和通用解码器进行参数调整。

例如，服务器可以通过L1损失函数计算第一合成图像和人脸图像样本之间的第一差异值，该L1损失函数为：

L_1other＝abs(Dec_other(Enc(Ohter_i)，Identity(Ohter_i))-(Ohter_i))

其中，Ohter_i可以指第i个人脸图像样本，Identity(Ohter_i)可以指通过人脸识别模型提取出来的身份特征，Enc(Ohter_i)可以指通用编码器提取出来的训练对象属性特征，而Dec_other(Enc(Ohter_i)，Identity(Ohter_i))可以指通用解码器解码所得的第一合成图像，abs()是指对第一合成图像和第i人脸图像样本这两者的差值取绝对值。

此外，服务器还可以利用L_LPIPS损失函数计算第一合成图像和人脸图像样本之间的第二差异值，该L_LPIPS损失函数为：

L_LPIPSothe＝[LPIPS(Dec_other(Enc(Ohter_i)，Identity(Ohter_i)))-LPIPS(Ohter_i)]²

其中，LPIPS(Ohter_i)表示从第i个人脸图像样本中提取出来的特征，LPIPS(Dec_other(Enc(Ohter_i)，Identity(Ohter_i)))表示从第一合成图像中提取出来的特征，从而L_LPIPSothe可以表示第一合成图像和人脸图像样本在特征空间上的相似程度(即第二差异值)。

当通用编码器包括第一通用编码器时，服务器确定第一差异值和第二差异值之间的差异和值，然后将差异和值输入至第一通用编码器和通用解码器进行反向传播，得到第一通用编码器和通用解码器中各网络层的网络参数的梯度值，基于该梯度值调整网络层的网络参数。

(2)通用编码器和专用解码器的参数调整。

在一个实施例中，服务器确定第二合成图像与虚拟角色图像之间的损失值，然后将该损失值在通用编码器和专用解码器进行反向传播，得到通用编码器和专用解码器中各网络层的网络参数的梯度值，基于该梯度值调整网络层的网络参数。此外，当通用编码器还包括第二通用编码器时，服务器还可以将损失值在第二通用编码器和专用解码器进行反向传播，得到第二通用编码器和专用解码器中各网络层的网络参数的梯度值，基于该梯度值调整网络层的网络参数。

具体地，第二合成图像与虚拟角色图像之间的损失值包括第一损失值、第二损失值和第三损失值；因此，S508中的根据第二合成图像与虚拟角色图像之间的损失值，对通用编码器和专用解码器进行参数调整步骤，具体可以包括：服务器根据第二合成图像与虚拟角色图像确定第一损失值；分别从第二合成图像与虚拟角色图像中提取图像特征，得到第二合成图像特征和虚拟角色图像特征；根据第二合成图像特征和虚拟角色图像特征确定第二损失值；通过判别器分别对第二合成图像与虚拟角色图像进行判别，得到第一判别结果和第二判别结果；根据第一判别结果和第二判别结果确定第三损失值；根据第一损失值、第二损失值和第三损失值，对通用编码器和专用解码器进行参数调整。

例如，服务器可以通过L1损失函数计算第二合成图像和虚拟角色图像之间的第一损失值，该L1损失函数为：

L_1A＝abs(Dec_A(Enc(A_i)))-(A_i))

其中，A_i表示第i个虚拟角色图像，Enc(A_i)表示通用编码器从第i个虚拟角色图像提取出来的训练虚拟角色属性特征，Dec_A(Enc(A_i))表示专用解码器对训练虚拟角色属性特征进行解码所得的第二合成图像，abs()是指对第二合成图像和第i虚拟角色图像这两者的差值取绝对值。

此外，服务器还可以利用L_LPIPS损失函数计算第二损失值，该L_LPIPS损失函数为：

L_LPIPSA＝[LPIPS(Dec_A(Enc(A_i)))-LPIPS(A_i)]²

其中，LPIPS(A_i)从第i个虚拟角色图像中提取出来的特征，LPIPS(Dec_A(Enc(A_i)))表示从第二合成图像中提取出来的特征，而L_LPIPSA可以表示第二合成图像和i个虚拟角色图像在特征空间上的相似程度(即第二损失值)。

最后，服务器还可以利用L_GAN损失函数计算第三损失值，该L_GAN损失函数如下所示：

其中，DA_j(Dec_A(Enc(A_i))))表示第j判别器对第二合成图像进行判别所得的第一判别结果，DA_j(A_i)表示第j判别器对第i虚拟角色图像进行判别所得的第二判别结果，E()表示计算均值。

当通用编码器还包括第二通用编码器时，服务器确定第一损失值、第二损失值和第三损失值之间的损失和值，然后将损失和值输入至第二通用编码器和专用解码器进行反向传播，得到第二通用编码器和专用解码器中各网络层的网络参数的梯度值，基于该梯度值调整网络层的网络参数。

S510，当模型收敛时，基于通用编码器与专用解码器形成人脸更换模型；人脸更换模型，用于对不同目标真实对象的人脸图像进行人脸更换。

在一个实施例中，当模型收敛时，基于通用编码器与专用解码器构建人脸更换模型，然后将该人脸更换模型部署在服务器或终端，以便用户在需要进行图像中的人脸进行更换时，通过该人脸更换模型对人脸图像进行人脸更换。

上述实施例中，通过通用编码器对人脸图像样本进行属性特征提取，通过通用解码器对从人脸图像样本提取的身份特征和训练对象属性特征进行解码，根据解码所得的第一合成图像和人脸图像样本之间的差异值对通用编码器和通用解码器进行参数调整，从而可以使通用编码器更好地从目标真实对象的人脸图像中提取出对象属性特征，以便在换脸过程中保留对象属性特征，而隐去目标真实对象的身份特征。此外，通过通用编码器对虚拟角色图像进行属性特征提取，通过专用解码器对提取的训练虚拟角色属性特征进行解码，根据第二合成图像与虚拟角色图像之间的损失值，对通用编码器和专用解码器进行参数调整，从而可以学习到虚拟角色属性特征，以便基于学习到的虚拟角色属性特征和对象属性特征实现对目标真实对象的人脸图像进行人脸更换，可以有效提高目标合成图像的真实性，简化人脸更换的过程。

在一个实施例中，如图7所示，该方法还包括：

S702，获取不同特点的人脸图像训练集。

其中，不同的特点可以是不同的年龄、不同的肤色或不同的装扮风格。例如，不同特点的人脸图像训练集可以是不同年龄的真实对象的人脸图像训练集，或者是不同肤色的真实对象的人脸图像训练集，或者是不同装扮风格的人脸图像训练集。而不同装扮风格的人脸图像训练集可以包括明星风格的人脸图像训练集和模特风格的人脸图像训练集。

S704，将不同特点的人脸图像训练集分别输入不同的生成器进行训练。

在一个实施例中，服务器分别将不同年龄的真实对象的人脸图像训练集分别输入不同的生成器进行训练，从而得到用于生成不同年龄的人脸图像的专用生成器。此外，服务器分别将不同肤色的真实对象的人脸图像训练集分别输入不同的生成器进行训练，从而得到用于生成不同肤色的人脸图像的专用生成器。最后，服务器分别将不同装扮风格的真实对象的人脸图像训练集分别输入不同的生成器进行训练，从而得到用于生成不同装扮风格的人脸图像的专用生成器。

例如，服务器将明星风格的人脸图像输入生成器进行训练，从而可以得到用于生成明星风格人脸图像的专用生成器(简称明星生成器)。而服务器将模特风格的人脸图像输入生成器进行训练，从而可以得到用于生成模特风格人脸图像的专用生成器(简称模特生成器)。

S706，在完成训练后，基于第一目标生成器中至少一层的网络参数，对第二目标生成器中相应层的网络参数进行更换，得到混合生成器；第一目标生成器与第二目标生成器均属于训练后的生成器。

在一个实施例中，S706具体可以包括：服务器在第二目标生成器中确定待更换参数的网络层；在第一目标生成器中确定与待更换参数的网络层匹配的网络层；基于第一目标生成器中匹配的网络层的网络参数，对待更换参数的网络层的网络参数进行更换。

其中，网络层中网络参数的更换，可以理解为第二目标生成器中的相应部分网络层替换为第一目标生成器的网络层。

例如，假设第一目标生成器为用于生成明星风格图像的明星生成器，第二目标生成器为用于生成模特风格图像的模特生成器，此时可以将模特生成器的第i网络层以及之后的网络层的网络参数均替换为明星生成器第i网络层以及之后的网络层的网络参数，从而得到混合了明星生成器和模特生成器的混合生成器，如图8所示。

S708，通过混合生成器生成虚拟角色图像。

在一个实施例中，第一目标生成器用于生成具有第一特点的图像；第二目标生成器用于生成具有第二特点的图像。对应地，S708具体可以包括：服务器获取待转换图像；将待转换图像输入至混合生成器，以使混合生成器中的网络层对待转换图像进行图像处理，得到具有第一特点和第二特点的虚拟角色图像。

其中，第一特点和第二特点为不同的年龄，或不同的肤色，或不同的装扮风格；或者，第一特点和第二特点为年龄、肤色和装扮风格之间的两两组合。

在一个实施例中，上述获取待转换图像的步骤，具体可以包括：服务器获取至少两张在不同光照下采集的待转换图像；各待转换图像中的真实对象具有不同的姿态和表情；对待转换图像进行图像处理，得到具有第一特点和第二特点的虚拟角色图像包括：依次对至少两张待转换图像进行图像处理，得到具有第一特点和第二特点的至少两张虚拟角色图像；其中，各虚拟角色图像中的虚拟角色具有不同的姿态和表情。

如图9所示，明星生成器可以生成明星图像，模特生成器可以生成模特图像，而混合生成器可以生成虚拟角色图像，该虚拟角色图像混合了模特图像和明星图像的特征，因此混合生成器可以将不同图像中的对象面部进行特征混合，从而得到一个虚拟角色的图像(即虚拟角色图像)。

上述实施例中，通过对第二目标生成器的相应网络层中的参数进行更换，从而可以利用所得的混合生成器生成用户感兴趣的虚拟角色图像，丰富了虚拟角色图像的特点和风格，满足了不同用户对不同虚拟角色图像的需求。

本申请还提供不同的应用场景，如隐私保护的应用场景、游戏影视制作的应用场景和虚拟偶像维护的应用场景，这些可应用上述的图像处理方法，该图像处理方法在这些应用场景的应用如下：

场景1，隐私保护的应用场景

用户在公开场合发布个人视频时，用户可以选择自己喜爱的虚拟人物进行替换，即保留用户本人的表情特征、姿态特征和光照特征，隐去用户本人的身份信息，用虚拟人物的身份信息进行替换，从而既可以保持个人视频的真实性，又不会泄露自己的身份信息。

场景2，游戏影视制作的应用场景

在影视制作过程中，采用设计好虚拟人物图像后，只需要搭建场景请演员表演得到包含面部的影视图像，然后将影视图像中演员的属性特征转换到虚拟人物图像中，即可完成换脸过程，保留演员的表情特征、姿态特征和光照特征，隐去该演员的身份信息，用虚拟人物的身份信息进行替换，无需大量的后期制作，可以大大简化类真人场景中计算机动画(Computer Graphics，CG)制作的pipline。

场景3，虚拟偶像维护的应用场景

可以实现Nv1的虚拟人视频换脸，即可以将某个特定的虚拟人换到任意的演员身上，实现了虚拟偶像和演员的解绑定，以便对虚拟偶像进行维护。

结合上述应用场景，对具体地换脸过程进行进一步描述，具体如下：

(一)虚拟人像生成

使用多个预训练的stylegan生成器混合来生成虚拟人像，无需专门设计制作3D人体模型：

(1)收集多个有特点的人像数据集，比如儿童图像集合、模特图像集合、明星图像集合等，此外还可以从开源的FFHQ数据集里进行细分类得到不同特点的人像数据集；

(2)利用不同特点的人像数据集分别对stylegan生成器进行训练，以对stylegan生成器中相应网络层的网络进行微调，得到特定风格或特点的图像的专用生成器；

(3)利用stylegan的层交换技术，将不同专用生成器的不同尺度的网络参数进行结合得到混合生成器，利用该混合生成器可以生成兼顾不同特点的虚拟人像，如下图2，将两个模型参数进行混合的方式如下：

P_inter＝(1-a)P_star+aP_model

其中，P_interp可以表示对某个网络层进行网络参数混合后所得的网络参数，r表示专用生成器中网络层的层级数，r_swap表示层级数满足的条件。例如，假设模特生成器和明星生成器总共有18个网络层，那么当r_swap＝9时，则模特生成器中第10～18网络层的网络参数用明星生成器中第10～18网络层的网络参数进行替换，从而得到混合生成器。

(4)根据不同的场景需求，可以通过训练更多专用生成器进行网络参数混合，可以确保不同用户获得感兴趣的虚拟人像。

(二)人脸更换模型的训练

其中，该人脸更换模型可以支持Nv1的更换模式，即用一个虚拟人像对多个用户的人脸图像进行人脸更换。

对于Nv1的换脸方案，针对特定的虚拟人物专门设计一个解码器(即专用解码器)，大幅提升换脸的效果，具体如下：

(1)利用stylegan的属性编辑功能，对上述生成的虚拟人像A0进行数据扩充，生成多姿态、多表情和多光照的虚拟人像，并根据身份一致性进行人工筛选得到多个虚拟人像Ai；

(2)除上述虚拟人像Ai外，还收集的任意人像Otheri；

(3)在进行模型训练时，可采用如图6的模型结构进行训练，该模型结构包含通用编码器、通用解码器和专用解码器。其中，通用编码器负责编码任意人像的姿态、表情和光照等信息，通用解码器负责生成任意身份的人像，专用解码器只负责生成虚拟人像A。此外，该模型结构还包含人脸识别模型Identity和针对虚拟人像A的多尺度判别器DA1、DA2和DA3，其中，人脸识别模型用来提取真实用户图像的身份特征。

(4)计算损失函数

如图6的(a)图所示，该部分的损失包括L1和LPIPS，通过大量的图像训练，让通用编码器可以更好地提取出姿态、表情和光照等信息：

L_1othe＝abs(Dec_other(Enc(Ohter_i)，Identity(Ohter_i))-(Ohter_i))

如图6的(b)图所示，对于虚拟人像A的重建除了计算重建loss，还有对抗loss，目的是增强生成虚拟人物A的质量，该专用解码器将用于后续的部署。

L_1A＝abs(Dec_A(Enc(A_i)))-(A_i))

L_LPIPSA＝[LPIPS(DeC_A(Enc(A_i)))-LPIPS(A_i)]²

总的训练loss为：

L_total＝L_1other+L_LPIPSothe+L_1A+L_LPIPSA+L_GAN

(三)人脸更换模型的部署

模型部署时，只需使用上述的通用编码器和专用解码器，将其组成人脸更换模型进行部署。在需要对任意用户的人脸图像或视频中的视频帧进行人脸更换时，将人脸图像或相应的视频帧输入人脸更换模型，通过人脸更换模型的处理可以得到虚拟人像(该虚拟人像中的虚拟人具有与该用户一致的姿态、表情和光照，以及具有与虚拟人物一致的身份信息)，从而完成人脸更换。

通过上述实施例，可以具有以下技术效果：

(1)通过将2D虚拟人像的生成和Nv1换脸方式的结合，实现了对图像和视频高质量的换脸；

(2)2D虚拟人像的生成，比CG制作成本低、速度快和多样性好；

(3)使用Nv1的换脸方案时，只需要在真实场景中自然拍摄视频或图像即可，对演员无特殊要求，相比CG制作，无需使用动作捕捉和表情捕捉设备，无需复杂的后期制作，成本低，效率高；此外，获得的合成图像也更加真实，避免了CG制作中常见的“恐怖谷”效应。

应该理解的是，虽然图2、5、7的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、5、7中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图10所示，提供了一种图像处理装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为电子设备的一部分，该装置具体包括：提取模块1002、解码模块1004和渲染模块1006，其中：

提取模块1002，用于从不同目标真实对象的人脸图像中提取对象属性特征，对象属性特征包括目标真实对象的姿态特征、表情特征和光照特征；

解码模块1004，用于基于训练过程中学习到的虚拟角色属性特征，依次对各对象属性特征中的姿态特征和表情特征进行解码，得到不同的目标合成图像；各目标合成图像中的对象具有与相应目标真实对象一致的姿态和表情，以及具有与目标虚拟角色一致的身份信息；

渲染模块1006，用于依据各光照特征，对相应目标合成图像进行光照渲染。

在一个实施例中，提取模块1002，还用于从待发布的用户视频或待播放的影视视频中，提取包含目标真实对象面部特征的目标视频帧；其中，不同用户视频或不同影视视频提取的目标视频帧属于不同目标真实对象的人脸图像；

提取模块1002，还用于通过通用编码器提取各目标视频帧中的对象属性特征。

在一个实施例中，解码模块1004，还用于在通用编码器提取到对象属性特征后，将对象属性特征输入至专用解码器，以使专用解码器基于训练过程中学习到的虚拟角色属性特征，依次对各对象属性特征中的姿态特征和表情特征进行解码。

关于图像处理装置的具体限定可以参见上文中对于图像处理方法的限定，在此不再赘述。上述图像处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备中的处理器中，也可以以软件形式存储于电子设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，如图11所示，提供了一种人脸更换模型处理装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为电子设备的一部分，该装置具体包括：第一提取模块1102、第二提取模块1104、解码模块1106、调整模块1108和构建模块1110，其中：

第一提取模块1102，用于从人脸图像样本中提取真实对象的身份特征；

第二提取模块1104，用于通过通用编码器依次对人脸图像样本和虚拟角色图像进行属性特征提取，分别得到训练对象属性特征和训练虚拟角色属性特征；

解码模块1106，用于通过通用解码器对身份特征和训练对象属性特征进行解码，得到第一合成图像；以及，通过专用解码器对训练虚拟角色属性特征进行解码，得到第二合成图像；

调整模块1108，用于根据第一合成图像和人脸图像样本之间的差异值，对通用编码器和通用解码器进行参数调整；以及，根据第二合成图像与虚拟角色图像之间的损失值，对通用编码器和专用解码器进行参数调整；

构建模块1110，用于当模型收敛时，基于通用编码器与专用解码器形成人脸更换模型；人脸更换模型，用于对不同目标真实对象的人脸图像进行人脸更换。

在一个实施例中，如图12所示，该装置还包括：

获取模块1112，用于获取不同特点的人脸图像训练集；

输入模块1114，用于将不同特点的人脸图像训练集分别输入不同的生成器进行训练；

更换模块1116，用于在完成训练后，基于第一目标生成器中至少一层的网络参数，对第二目标生成器中相应层的网络参数进行更换，得到混合生成器；第一目标生成器与第二目标生成器均属于训练后的生成器；

生成模块1118，用于通过混合生成器生成虚拟角色图像。

在一个实施例中，第一目标生成器用于生成具有第一特点的图像；第二目标生成器用于生成具有第二特点的图像；

生成模块1118，还用于获取待转换图像；将待转换图像输入至混合生成器，以使混合生成器中的网络层对待转换图像进行图像处理，得到具有第一特点和第二特点的虚拟角色图像。

在一个实施例中，生成模块1118，还用于获取至少两张在不同光照下采集的待转换图像；各待转换图像中的真实对象具有不同的姿态和表情；依次对至少两张待转换图像进行图像处理，得到具有第一特点和第二特点的至少两张虚拟角色图像；其中，各虚拟角色图像中的虚拟角色具有不同的姿态和表情。

在一个实施例中，更换模块1116，还用于在第二目标生成器中确定待更换参数的网络层；在第一目标生成器中确定与待更换参数的网络层匹配的网络层；基于第一目标生成器中匹配的网络层的网络参数，对待更换参数的网络层的网络参数进行更换。

在一个实施例中，通用编码器包括共享网络参数的第一通用编码器和第二通用编码器；

第二提取模块1104，还用于分别对人脸图像样本和虚拟角色图像进行归一化处理；将处理后的人脸图像样本输入第一通用编码器，以使第一通用编码器对人脸图像样本进行属性特征提取；通过第二通用编码器对处理后的虚拟角色图像进行属性特征提取。

在一个实施例中，第一合成图像和人脸图像样本之间的差异值包括第一差异值和第二差异值；

调整模块1108，还用于根据第一合成图像和人脸图像样本确定第一差异值；分别从第一合成图像和人脸图像样本中提取图像特征，得到第一合成图像特征和人脸图像特征；根据第一合成图像特征和人脸图像特征确定第二差异值；根据第一差异值和第二差异值，对通用编码器和通用解码器进行参数调整。

在一个实施例中，第二合成图像与虚拟角色图像之间的损失值包括第一损失值、第二损失值和第三损失值；

调整模块1108，还用于根据第二合成图像与虚拟角色图像确定第一损失值；分别从第二合成图像与虚拟角色图像中提取图像特征，得到第二合成图像特征和虚拟角色图像特征；根据第二合成图像特征和虚拟角色图像特征确定第二损失值；通过判别器分别对第二合成图像与虚拟角色图像进行判别，得到第一判别结果和第二判别结果；根据第一判别结果和第二判别结果确定第三损失值；根据第一损失值、第二损失值和第三损失值，对通用编码器和专用解码器进行参数调整。

关于人脸更换模型处理装置的具体限定可以参见上文中对于人脸更换模型处理方法的限定，在此不再赘述。上述人脸更换模型处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备中的处理器中，也可以以软件形式存储于电子设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种电子设备，该电子设备可以是终端或服务器，以该设备为服务器为例，其内部结构图可以如图13所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的数据库用于存储人脸图像、人脸图像样本和虚拟角色图像。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像处理方法或人脸更换模型处理方法。

本领域技术人员可以理解，图13中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种电子设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

从待发布的用户视频或待播放的影视视频中，提取包含所述目标真实对象面部特征的目标视频帧；

其中，不同所述用户视频或不同所述影视视频提取的目标视频帧属于不同目标真实对象的人脸图像；

所述从不同目标真实对象的人脸图像中提取对象属性特征包括：

通过通用编码器提取各所述目标视频帧中的对象属性特征。

3.根据权利要求2所述的方法，其特征在于，所述基于训练过程中学习到的虚拟角色属性特征，依次对各所述对象属性特征中的姿态特征和表情特征进行解码包括：

在所述通用编码器提取到所述对象属性特征后，将所述对象属性特征输入至专用解码器，以使所述专用解码器基于训练过程中学习到的虚拟角色属性特征，依次对各所述对象属性特征中的姿态特征和表情特征进行解码。

4.一种人脸更换模型处理方法，其特征在于，所述方法包括：

从人脸图像样本中提取真实对象的身份特征；

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

获取不同特点的人脸图像训练集；

将不同特点的所述人脸图像训练集分别输入不同的生成器进行训练；

在完成训练后，基于第一目标生成器中至少一层的网络参数，对第二目标生成器中相应层的网络参数进行更换，得到混合生成器；所述第一目标生成器与所述第二目标生成器均属于训练后的所述生成器；

通过所述混合生成器生成所述虚拟角色图像。

6.根据权利要求5所述的方法，其特征在于，所述第一目标生成器用于生成具有第一特点的图像；所述第二目标生成器用于生成具有第二特点的图像；

所述通过所述混合生成器生成所述虚拟角色图像包括：

获取待转换图像；

将所述待转换图像输入至所述混合生成器，以使所述混合生成器中的网络层对所述待转换图像进行图像处理，得到具有所述第一特点和所述第二特点的虚拟角色图像。

7.根据权利要求6所述的方法，其特征在于，所述获取待转换图像包括：

获取至少两张在不同光照下采集的待转换图像；各所述待转换图像中的真实对象具有不同的姿态和表情；

所述对所述待转换图像进行图像处理，得到具有所述第一特点和所述第二特点的虚拟角色图像包括：

依次对至少两张所述待转换图像进行图像处理，得到具有所述第一特点和所述第二特点的至少两张虚拟角色图像；

其中，各所述虚拟角色图像中的虚拟角色具有不同的所述姿态和所述表情。

8.根据权利要求6所述的方法，其特征在于，所述第一特点和所述第二特点为不同的年龄，或不同的肤色，或不同的装扮风格；或者，

所述第一特点和所述第二特点为年龄、肤色和装扮风格之间的两两组合。

9.根据权利要求5所述的方法，其特征在于，所述基于第一目标生成器中至少一层的网络参数，对第二目标生成器中相应层的网络参数进行更换包括：

在所述第二目标生成器中确定待更换参数的网络层；

在所述第一目标生成器中确定与所述待更换参数的网络层匹配的网络层；

基于所述第一目标生成器中匹配的网络层的网络参数，对所述待更换参数的网络层的网络参数进行更换。

10.根据权利要求4所述的方法，其特征在于，所述通用编码器包括共享网络参数的第一通用编码器和第二通用编码器；

所述通过通用编码器依次对所述人脸图像样本和虚拟角色图像进行属性特征提取包括：

分别对所述人脸图像样本和所述虚拟角色图像进行归一化处理；

将处理后的人脸图像样本输入所述第一通用编码器，以使所述第一通用编码器对所述人脸图像样本进行属性特征提取；

通过所述第二通用编码器对处理后的虚拟角色图像进行属性特征提取。

11.根据权利要求4至10任一项所述的方法，其特征在于，所述第一合成图像和所述人脸图像样本之间的差异值包括第一差异值和第二差异值；

所述根据所述第一合成图像和所述人脸图像样本之间的差异值，对所述通用编码器和所述通用解码器进行参数调整包括：

根据所述第一合成图像和所述人脸图像样本确定第一差异值；

分别从所述第一合成图像和所述人脸图像样本中提取图像特征，得到第一合成图像特征和人脸图像特征；根据所述第一合成图像特征和所述人脸图像特征确定第二差异值；

根据所述第一差异值和所述第二差异值，对所述通用编码器和所述通用解码器进行参数调整。

12.根据权利要求4至10任一项所述的方法，其特征在于，所述第二合成图像与所述虚拟角色图像之间的损失值包括第一损失值、第二损失值和第三损失值；

所述根据所述第二合成图像与所述虚拟角色图像之间的损失值，对所述通用编码器和所述专用解码器进行参数调整包括：

根据所述第二合成图像与所述虚拟角色图像确定第一损失值；

分别从所述第二合成图像与所述虚拟角色图像中提取图像特征，得到第二合成图像特征和虚拟角色图像特征；根据所述第二合成图像特征和所述虚拟角色图像特征确定第二损失值；

通过判别器分别对所述第二合成图像与所述虚拟角色图像进行判别，得到第一判别结果和第二判别结果；根据所述第一判别结果和所述第二判别结果确定第三损失值；

根据所述第一损失值、所述第二损失值和所述第三损失值，对所述通用编码器和所述专用解码器进行参数调整。

13.一种图像处理装置，其特征在于，所述装置包括：

14.一种人脸更换模型处理装置，其特征在于，所述装置包括：

15.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。

16.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。