CN118015142A

CN118015142A - 人脸图像处理方法、装置、计算机设备和存储介质

Info

Publication number: CN118015142A
Application number: CN202410247193.4A
Authority: CN
Inventors: 冯鑫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2024-03-04
Filing date: 2024-03-04
Publication date: 2024-05-10

Abstract

本申请涉及一种人脸图像处理方法、装置、计算机设备、存储介质和计算机程序产品。所述方法涉及人工智能技术，包括：获取源人脸图像和目标人脸图像，通过源人脸图像中的人脸部位对目标人脸图像中的人脸部位进行人脸交换，得到人脸交换中间图像；对人脸交换中间图像进行脸部特征区域分割，得到人脸交换中间图像的容貌特征区域图；确定目标人脸图像中人脸部位的容貌特征区域图和脸部皮肤区域图；将目标人脸图像的容貌特征区域图、脸部皮肤区域图和人脸交换中间图像的容貌特征区域图融合，得到脸部融合区域图；根据脸部融合区域图、人脸交换中间图像和目标人脸图像，得到人脸交换图像。采用本方法能够提高人脸交换的图像质量。

Description

人脸图像处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种人脸图像处理方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着计算机技术的发展，基于计算机视觉的人脸交换技术通过将一张人脸的图像特征合成到另一张人脸图像上，可以实现换脸效果。人脸交换技术在影视制作、娱乐业、视频游戏等领域得到了广泛的应用。例如，在视频游戏中，玩家授权后可以使用人脸交换技术实现对游戏角色的面部替换，以获得更优的游戏体验。

然而，目前人脸交换技术中得到的人脸交换图像缺乏真人质感，导致图像真实感效果有限，使得人脸交换图像质量较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高人脸交换图像质量的人脸图像处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种人脸图像处理方法。所述方法包括：

获取源人脸图像和目标人脸图像，通过源人脸图像中的人脸部位对目标人脸图像中的人脸部位进行人脸交换，得到人脸交换中间图像；

对人脸交换中间图像进行脸部特征区域分割，得到人脸交换中间图像的容貌特征区域图；

确定目标人脸图像中人脸部位的容貌特征区域图和脸部皮肤区域图；

将目标人脸图像的容貌特征区域图、脸部皮肤区域图和人脸交换中间图像的容貌特征区域图融合，得到脸部融合区域图；

根据脸部融合区域图、人脸交换中间图像和目标人脸图像，得到人脸交换图像。

第二方面，本申请还提供了一种人脸图像处理装置。所述装置包括：

人脸交换模块，用于获取源人脸图像和目标人脸图像，通过源人脸图像中的人脸部位对目标人脸图像中的人脸部位进行人脸交换，得到人脸交换中间图像；

特征区域分割模块，用于对人脸交换中间图像进行脸部特征区域分割，得到人脸交换中间图像的容貌特征区域图；

特征区域图确定模块，用于确定目标人脸图像中人脸部位的容貌特征区域图和脸部皮肤区域图；

特征区域图融合模块，用于将目标人脸图像的容貌特征区域图、脸部皮肤区域图和人脸交换中间图像的容貌特征区域图融合，得到脸部融合区域图；

脸部融合区域图处理模块，用于根据脸部融合区域图、人脸交换中间图像和目标人脸图像，得到人脸交换图像。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以上人脸图像处理方法的步骤。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以上人脸图像处理方法的步骤。

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以上人脸图像处理方法的步骤。

上述人脸图像处理方法、装置、计算机设备、存储介质和计算机程序产品，对于通过源人脸图像中的人脸部位对目标人脸图像中的人脸部位进行人脸交换得到的人脸交换中间图像，针对人脸交换中间图像进行脸部特征区域分割得到容貌特征区域图，将目标人脸图像的容貌特征区域图、脸部皮肤区域图和人脸交换中间图像的容貌特征区域图融合，得到脸部融合区域图，并根据脸部融合区域图、人脸交换中间图像和目标人脸图像得到人脸交换图像。利用根据目标人脸图像的容貌特征区域图、脸部皮肤区域图和人脸交换中间图像的容貌特征区域图融合得到的脸部融合区域图，将人脸交换中间图像和目标人脸图像进行融合，能够在确保人脸交换图像与源人脸图像的相似度基础上，利用脸部融合区域图平滑人脸交换中间图像和目标人脸图像的脸部皮肤，从而提升人脸交换图像的脸部皮肤质感，提升了人脸交换图像的真实感效果，提高了人脸交换图像的图像质量。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一些实施例中人脸图像处理方法的应用环境图；

图2为一些实施例中人脸图像处理方法的流程示意图；

图3为一些实施例中人脸图像处理流程示意框图；

图4为一些实施例中质感提升处理的流程示意图；

图5为一些实施例中人脸图像处理方法的流程示意图；

图6为一些实施例中人脸交换处理的流程示意图；

图7为一些实施例中Unet模型结构示意图；

图8为一些实施例中添加嵌入特征的Unet模型结构示意图；

图9为一些实施例中皮肤掩码融合处理的流程示意图；

图10为一些实施例中人脸分割处理的流程示意图；

图11为图10所示实施例中特征融合模块的示意图；

图12为一些实施例中掩码融合处理的流程示意图；

图13为一些实施例中贴合区域融合处理的流程示意图；

图14为一些实施例中质感提升处理的流程示意图；

图15为一些实施例中稳定扩散模型的结构示意图；

图16为一些实施例中人脸图像处理装置的结构框图；

图17为一些实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

预训练模型（Pre-training model），也称基石模型、大模型，指具有大参量的深度神经网络（Deep neural network，DNN），在海量未标记的数据上对其进行训练，利用大参量DNN的函数近似能力使PTM在数据上提取共性特征，经微调（fine tune）、参数高效微调（PEFT）、prompt-tuning等技术，适用于下游任务。因此，预训练模型可以在小样本（Few-shot）或零样本（Zero-shot）场景下达到理想效果。PTM按照处理的数据模态可以分为语言模型（ELMO,BERT,GPT)、视觉模型（swin-transformer，ViT，V-MOE）、语音模型（VALL-E）、多模态模型(ViBERT, CLIP，Flamingo，Gato)等，其中多模态模型指建立两种或以上数据模态特征表示的模型。预训练模型是输出人工智能生成内容（AIGC）重要工具，也可以作为连接多个具体任务模型的通用接口。

计算机视觉技术(Computer Vision, CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟随和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。大模型技术为计算机视觉技术发展带来重要变革，swin-transformer，ViT，V-MOE，MAE等视觉领域的预训练模型经过微调（fine tune）可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果，融合了以上技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、数字孪生、虚拟人、机器人、人工智能生成内容（AIGC）、对话式交互、智能医疗、智能客服、游戏AI等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的计算机视觉技术、机器学习/深度学习等技术，具体通过如下实施例进行说明。

本申请实施例提供的人脸图像处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以单独设置，也可以集成在服务器104上，也可以放在云上或其他服务器上。

用户可以通过终端102拍摄得到源人脸图像，并基于终端102将源人脸图像和目标人脸图像向服务器104发送，服务器104接收终端102发送的源人脸图像和目标人脸图像。服务器104可以通过源人脸图像中的人脸部位对目标人脸图像中的人脸部位进行人脸交换，得到人脸交换中间图像；服务器104对人脸交换中间图像进行脸部特征区域分割，得到人脸交换中间图像的容貌特征区域图，并确定目标人脸图像中人脸部位的容貌特征区域图和脸部皮肤区域图。服务器104将目标人脸图像的容貌特征区域图、脸部皮肤区域图和人脸交换中间图像的容貌特征区域图融合，得到脸部融合区域图，最后根据脸部融合区域图、人脸交换中间图像和目标人脸图像，融合得到人脸交换图像。服务器104可以将得到的人脸交换图像返回给到终端102。

在一些实施例中，人脸图像处理方法也可以由终端102或者服务器104单独实现，如终端102可以单独针对获取的源人脸图像和目标人脸图像进行人脸图像处理，又如服务器104可以从数据存储系统中获取源人脸图像和目标人脸图像后针对进行人脸图像处理。其中，终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现，也可以是云服务器。

在一个示例性的实施例中，如图2所示，提供了一种人脸图像处理方法，该方法由计算机设备执行，具体可以由终端或服务器等计算机设备单独执行，也可以由终端和服务器共同执行，在本申请实施例中，以该方法应用于图1中的服务器为例进行说明，包括以下步骤202至步骤210。其中：

步骤202，获取源人脸图像和目标人脸图像，通过源人脸图像中的人脸部位对目标人脸图像中的人脸部位进行人脸交换，得到人脸交换中间图像。

其中，人脸交换技术也被称为AI换脸或面部替换技术，是一种利用计算机视觉和深度学习算法来实现人脸图像实时替换的技术，这种技术能够将一个人的脸部特征转移到另一个人的脸部图像上，从而生成高度逼真的换脸效果。源人脸图像和目标人脸图像是需要针对进行人脸交换处理的图像，具体需要用源人脸图像中的人脸替换目标人脸图像中的人脸。如需要用A图像中人脸替换B图像中人脸时，则A图像作为人脸交换处理中的源人脸图像，而B图像作为人脸交换处理中的目标人脸图像，在人脸交换处理后，B图像中的脸部替换成A图像中的人脸。人脸交换中间图像是通过源人脸图像对目标人脸图像进行人脸交换后得到的人脸图像。

示例性地，服务器可以获取需要进行人脸交换处理的人脸图像，包括源人脸图像和目标人脸图像。需要进行人脸交换处理的人脸图像的来源可以根据实际应用场景实现，本申请对此不做限定。如源人脸图像或目标人脸图像可以由用户拍摄得到，还可以由计算机设备生成。例如，在视频游戏应用场景中，源人脸图像可以是包括玩家脸部的人脸图像，可以由玩家拍摄得到，而目标人脸图像可以是视频游戏中玩家操作角色的人脸图像。又如，目标人脸图像还可以是基于人工智能生成内容技术生成的人脸图像。此外，源人脸图像或目标人脸图像既还可以是从各种图像或视频中截取得到的人脸图像，如可以是从影视剧中截取得到的人脸图像。

服务器用源人脸图像中的人脸部位对目标人脸图像中的人脸部位进行替换，以实现针对源人脸图像和目标人脸图像的人脸交换得到人脸交换中间图像。在人脸交换中间图像中，人脸从目标人脸图像替换成源人脸图像中的人脸，而图像的其他部分则保留目标人脸图像中的内容，如图像背景保留目标人脸图像中的图像背景。在一些实施例中，服务器可以从终端接收源人脸图像和目标人脸图像，并通过预先训练的人脸交换模型，如Face2Face（人脸到人脸）、FaceSwap（人脸交换）、NeuralTextures（神经纹理）等人脸交换模型，针对源人脸图像和目标人脸图像进行人脸交换处理，由人脸交换模型输出得到人脸交换中间图像。

步骤204，对人脸交换中间图像进行脸部特征区域分割，得到人脸交换中间图像的容貌特征区域图。

其中，容貌特征区域图是针对人脸交换中间图像中人脸脸部的特征区域进行识别分割后得到的特征图，具体可以是掩码图（Mask）。掩码图可以是一种单通道图像，具体可以是二值图或灰度图。掩码图中的每个像素位置都有一个对应的值，这个值决定了在某种操作中该位置是否起作用。在掩码图中，值为0的位置表示在此位置上的操作不起作用，而值不为0（通常为255）的位置则表示在此位置的操作会起作用。在人脸交换应用场景中，通过制作掩码图，可以指定需要交换的区域，从而实现更真实、更自然的人脸交换效果。例如，在基于人工智能的换脸技术中，掩码图可以用于指定需要替换的面部特征区域，从而确保只有这些区域被替换，而其他区域保持不变。容貌特征区域图具体可以包括反映人脸容貌的特征区域，如可以包括五官特征区域，而五官特征区域具体可以包括眼部特征区域、眉毛特征区域、鼻子特征区域、嘴唇特征区域、耳朵特征区域等区域。在具体应用中，容貌特征区域图可以包括五官特征区域中至少一种特征区域，如可以包括眼部特征区域、眉毛特征区域、鼻子特征区域和嘴唇特征区域。通过容貌特征区域图可以指定源人脸图像和目标人脸图像中具体需要替换的面部特征区域。

可选地，服务器可以针对人脸交换中间图像进行脸部特征区域分割，具体可以针对人脸交换中间图像中所包括人脸脸部的眉毛、眼睛、鼻子、嘴巴或者耳朵等特征部位进行特征区域分割，从而得到容貌特征区域图。在具体实现时，服务器可以基于图像分割算法，如基于阈值的分割算法、基于边缘的分割算法、基于区域的分割算法、基于聚类的分割或者基于深度学习的分割等，针对人脸交换中间图像进行脸部特征区域分割。在一些实施例中，脸部特征区域分割所针对的脸部部位，可以根据实际需要进行灵活设置，具体可以包括但不限于包括人脸脸部的眉毛、眼睛、鼻子、嘴巴或耳朵中的至少一种。

步骤206，确定目标人脸图像中人脸部位的容貌特征区域图和脸部皮肤区域图。

其中，脸部皮肤区域图包括目标人脸图像中人脸部位的皮肤所覆盖的区域，具体可以是脸部除五官部位以外皮肤所属的区域。具体地，服务器可以获取目标人脸图像的容貌特征区域图和脸部皮肤区域图。容貌特征区域图是包括目标人脸图像中人脸容貌特征的特征区域图，具体可以包括五官特征区域，基于容貌特征区域图可以反映出目标人脸图像中人脸的容貌特征，如可以反映出目标人脸图像中人脸的眉毛、眼睛、鼻子、嘴巴或耳朵等部位特征；脸部皮肤区域图是包括目标人脸图像中人脸皮肤的特征区域图，脸部皮肤区域图可以反映出目标人脸图像中人脸的皮肤特征。在一些实施例中，服务器可以基于目标人脸图像直接查询得到目标人脸图像的容貌特征区域图和脸部皮肤区域图，服务器也可以针对目标人脸图像进行脸部特征区域分割，以得到目标人脸图像的容貌特征区域图和脸部皮肤区域图。

步骤208，将目标人脸图像的容貌特征区域图、脸部皮肤区域图和人脸交换中间图像的容貌特征区域图融合，得到脸部融合区域图。

其中，脸部融合区域图是通过融合各个特征区域图后得到的融合结果。示例性地，服务器可以融合目标人脸图像的容貌特征区域图、脸部皮肤区域图和人脸交换中间图像的容貌特征区域图，具体可以先将目标人脸图像的容貌特征区域图与人脸交换中间图像的容貌特征区域图进行融合后，再与脸部皮肤区域图进行融合，得到脸部融合区域图。在一些实施例中，可以针对各个特征区域图分别设置相应的融合权重，以通过各自的融合权重将各个特征区域图加权融合，具体可以将目标人脸图像的容貌特征区域图、脸部皮肤区域图和人脸交换中间图像的容貌特征区域图加权融合，得到脸部融合区域图。

步骤210，根据脸部融合区域图、人脸交换中间图像和目标人脸图像，得到人脸交换图像。

其中，人脸交换图像基于脸部融合区域图、人脸交换中间图像和目标人脸图像后得到，具体可以是基于脸部融合区域图、人脸交换中间图像和目标人脸图像后融合得到的图像融合结果。可选地，服务器可以利用脸部融合区域图，将人脸交换中间图像和目标人脸图像融合，具体可以将人脸交换中间图像和目标人脸图像进行加权融合，得到人脸交换图像。

在一个具体应用中，如图3所示，服务器对于获得的获取源人脸图像和目标人脸图像，通过源人脸图像中的人脸部位对目标人脸图像中的人脸部位进行人脸交换，得到人脸交换中间图像。服务器对人脸交换中间图像进行脸部特征区域分割，得到人脸交换中间图像的容貌特征区域图。服务器确定目标人脸图像中人脸部位的容貌特征区域图和脸部皮肤区域图。服务器将目标人脸图像的容貌特征区域图、脸部皮肤区域图和人脸交换中间图像的容貌特征区域图融合，得到脸部融合区域图。服务器根据脸部融合区域图、人脸交换中间图像和目标人脸图像，融合得到人脸交换图像，利用脸部融合区域图平滑人脸交换中间图像和目标人脸图像的脸部皮肤，能够提升人脸交换图像的脸部皮肤质感，有利于提高人脸交换图像的图像质量。

上述人脸图像处理方法中，对于通过源人脸图像中的人脸部位对目标人脸图像中的人脸部位进行人脸交换得到的人脸交换中间图像，针对人脸交换中间图像进行脸部特征区域分割得到容貌特征区域图，将目标人脸图像的容貌特征区域图、脸部皮肤区域图和人脸交换中间图像的容貌特征区域图融合，得到脸部融合区域图，并根据脸部融合区域图、人脸交换中间图像和目标人脸图像得到人脸交换图像。利用根据目标人脸图像的容貌特征区域图、脸部皮肤区域图和人脸交换中间图像的容貌特征区域图融合得到的脸部融合区域图，将人脸交换中间图像和目标人脸图像进行融合，能够在确保人脸交换图像与源人脸图像的相似度基础上，利用脸部融合区域图平滑人脸交换中间图像和目标人脸图像的脸部皮肤，从而提升人脸交换图像的脸部皮肤质感，提升了人脸交换图像的真实感效果，提高了人脸交换图像的图像质量。

在一个示例性的实施例中，将目标人脸图像的容貌特征区域图、脸部皮肤区域图和人脸交换中间图像的容貌特征区域图融合，得到脸部融合区域图，包括：融合目标人脸图像的容貌特征区域图和人脸交换中间图像的容貌特征区域图，得到容貌特征区域融合图；将容貌特征区域融合图和脸部皮肤区域图融合，得到脸部融合区域图。

其中，容貌特征区域融合图是将目标人脸图像和人脸交换中间图像各自的容貌特征区域图进行融合后得到的特征区域图，容貌特征区域融合图可以覆盖了目标人脸图像和人脸交换中间图像各自的容貌特征所在的特征区域，如可以覆盖了目标人脸图像和人脸交换中间图像各自五官部位所在的特征区域。

示例性地，服务器先将目标人脸图像的容貌特征区域图和人脸交换中间图像的容貌特征区域图进行融合，得到容貌特征区域融合图。在一些实施例中，各种特征图可以为Mask掩码图，则融合得到的容貌特征区域融合图也为掩码图，能够反映出目标人脸图像和人脸交换中间图像各自的容貌特征在同一图中叠加后所覆盖的特征区域。容貌特征区域融合图中所针对的容貌特征可以包括五官部位。服务器融合容貌特征区域融合图与脸部皮肤区域图，具体可以将脸部皮肤区域图中容貌特征区域融合图所对应覆盖区域进行删除，从而去除脸部皮肤区域图中覆盖到容貌特征的区域，确保脸部皮肤区域图的准确性。

本实施例中，服务器先融合目标人脸图像的容貌特征区域图和人脸交换中间图像的容貌特征区域图，在与脸部皮肤区域图融合，从而可以确保容貌特征区域融合图的融合不受脸部皮肤区域图的干扰，确保脸部皮肤区域图的准确，从而能够确保脸部融合区域图的可靠性，有利于提高基于脸部融合区域图进行人脸图像处理时人脸交换图像的图像质量。

在一个示例性的实施例中，融合目标人脸图像的容貌特征区域图和人脸交换中间图像的容貌特征区域图，得到容貌特征区域融合图，包括：将目标人脸图像的容貌特征区域图和人脸交换中间图像的容貌特征区域图进行融合，得到原始融合图；获取人脸交换中间图像的眼部特征区域图和目标人脸图像的眼部特征区域图；将人脸交换中间图像的眼部特征区域图、目标人脸图像的眼部特征区域图和原始融合图进行融合，得到容貌特征区域融合图。

其中，原始融合图是直接将目标人脸图像的容貌特征区域图和人脸交换中间图像的容貌特征区域图进行融合后得到的原始融合结果。眼部特征区域图是包括眼部特征的特征区域图，人脸交换中间图像的眼部特征区域图可以是包括人脸交换中间图像中人脸眼部的特征区域图，目标人脸图像的眼部特征区域图可以是包括目标人脸图像中人脸眼部的特征区域图。眼部特征区域图可以通过针对相应人脸图像进行脸部特征区域分割得到，即可以基于针对相应人脸图像进行脸部特征区域分割得到，例如，对于人脸交换中间图像，可以根据针对人脸交换中间图像进行脸部特征区域分割的分割结果，得到人脸交换中间图像的眼部特征区域图。

可选地，服务器将目标人脸图像的容貌特征区域图和人脸交换中间图像的容貌特征区域图直接进行融合，得到原始融合图。服务器获取人脸交换中间图像的眼部特征区域图和目标人脸图像的眼部特征区域图，人脸交换中间图像的眼部特征区域图可以从人脸交换中间图像的容貌特征区域图中提取得到，目标人脸图像的眼部特征区域图可以从目标人脸图像的容貌特征区域图中提取得到。在一些实施例中，眼部特征区域图还可以针对相应所属人脸图像进行眼部特征区域分割处理得到，眼部特征区域分割处理可以基于图像分割算法实现，如人脸交换中间图像的眼部特征区域图可以通过针对人脸交换中间图像进行眼部特征区域分割处理得到，目标人脸图像的眼部特征区域图可以通过对目标人脸图像进行眼部特征区域分割处理得到。服务器融合人脸交换中间图像的眼部特征区域图、目标人脸图像的眼部特征区域图和原始融合图，具体可以将两个眼部特征区域图和原始融合图进行加权融合，得到容貌特征区域融合图。

本实施例中，服务器将容貌特征区域图融合得到原始融合图后，进一步融合人脸交换中间图像的眼部特征区域图和目标人脸图像的眼部特征区域图，从而可以针对容貌特征丰富的眼部部位进行加强关注，以确保容貌特征区域融合图的准确性，有利于提高基于脸部融合区域图进行人脸图像处理时人脸交换图像的图像质量。

在一个示例性的实施例中，将人脸交换中间图像的眼部特征区域图、目标人脸图像的眼部特征区域图和原始融合图进行融合，得到容貌特征区域融合图，包括：针对原始融合图、人脸交换中间图像的眼部特征区域图和目标人脸图像的眼部特征区域图分别进行膨胀，得到膨胀融合图、第一眼部区域膨胀图和第二眼部区域膨胀图；将到膨胀融合图、第一眼部区域膨胀图和第二眼部区域膨胀图进行融合，得到中间融合图；针对中间融合图进行膨胀，得到容貌特征区域融合图。

其中，膨胀用于将图像中感兴趣区域进行扩大，以确保感兴趣区域能够准确覆盖相应特征。例如，对于原始融合图，可以将原始融合图中容貌特征，如五官特征区域的边缘进行扩大，从而将五官特征区域的范围进行膨胀扩大，以避免五官部位产生偏移，确保原始融合图的准确性。膨胀融合图是将原始融合图进行膨胀后得到的特征区域图；第一眼部区域膨胀图是将人脸交换中间图像的眼部特征区域图进行膨胀后得到的特征区域图；第二眼部区域膨胀图是将目标人脸图像的眼部特征区域图进行膨胀后得到的特征区域图。中间融合图是将膨胀后得到的膨胀融合图、第一眼部区域膨胀图和第二眼部区域膨胀图融合得到的特征区域图。

示例性地，服务器可以将原始融合图、人脸交换中间图像的眼部特征区域图和目标人脸图像的眼部特征区域图分别进行膨胀，以扩大各个特征图中感兴趣的特征区域。具体地，对于人脸交换中间图像的眼部特征区域图，服务器可以通过眼部特征区域图中眼部部位的边缘进行扩大，从而将眼部部位的特征区域进行扩大，得到第一眼部区域膨胀图。服务器可以将膨胀融合图、第一眼部区域膨胀图和第二眼部区域膨胀图进行融合，从而将膨胀融合图中的容貌特征区域、第一眼部区域膨胀图中的眼部特征区域以及第二眼部区域膨胀图中的眼部特征区域进行融合叠加，得到中间融合图。服务器将中间融合图进行进一步地膨胀，具体可以将中间融合图中的边缘进行扩大，以扩大中间融合图中的容貌特征所属区域。

本实施例中，服务器将原始融合图、人脸交换中间图像的眼部特征区域图和目标人脸图像的眼部特征区域图分别进行膨胀后融合得到中间融合图，并针对中间融合图进行膨胀后得到容貌特征区域融合图，从而可以避免容貌特征或者眼部部位产生偏移，确保容貌特征区域融合图的准确，有利于提高基于脸部融合区域图进行人脸图像处理时人脸交换图像的图像质量。

在一个示例性的实施例中，将容貌特征区域融合图和脸部皮肤区域图融合，得到脸部融合区域图，包括：从脸部皮肤区域图中去除容貌特征区域融合图所覆盖的区域，得到脸部融合区域图。

其中，脸部皮肤区域图包括目标人脸图像中脸部皮肤覆盖的区域，容貌特征区域融合图包括脸部容貌特征覆盖的区域，通过将脸部皮肤区域图中脸部容貌特征覆盖的区域去除，可以得到皮肤覆盖区域准确的脸部融合区域图。具体地，服务器融合容貌特征区域融合图和脸部皮肤区域图时，可以从脸部皮肤区域图中确定容貌特征区域融合图所覆盖的区域，并将容貌特征区域融合图所覆盖的区域去除，从而得到脸部融合区域图。

本实施例中，服务器通过将脸部皮肤区域图中容貌特征区域融合图所覆盖的区域去除，可以利用容貌特征区域融合图针对脸部皮肤区域图的区域范围进行调整，提高脸部皮肤区域图的准确性从，有利于提高基于脸部融合区域图进行人脸图像处理时人脸交换图像的图像质量。

在一个示例性的实施例中，根据脸部融合区域图、人脸交换中间图像和目标人脸图像，得到人脸交换图像，包括：确定人脸交换中间图像和目标人脸图像各自的融合权重；将脸部融合区域图、人脸交换中间图像和目标人脸图像，按照加权权重进行加权融合，得到人脸交换图像。

其中，融合权重可以针对人脸交换中间图像和目标人脸图像分别设置，以根据实际需要调整人脸交换图像的肤质质感效果。示例性地，服务器可以获取针对人脸交换中间图像和目标人脸图像分别设置的融合权重，融合权重可以根据实际场景需要预先进行设置。服务器按照该融合权重将脸部融合区域图、人脸交换中间图像和目标人脸图像，按照加权权重进行加权融合，得到人脸交换图像。在一些实施例中，脸部融合区域图可以为掩码图，通过脸部融合区域图可以分别针对人脸交换中间图像和目标人脸图像进行加权融合，如可以先通过脸部融合区域图与目标人脸图像，按照目标人脸图像对应的融合权重进行加权融合，得到融合结果，并将该融合结果再与人脸交换中间图像按照人脸交换中间图像所对应融合权重进行加权融合，得到人脸交换图像。

本实施例中，服务器基于人脸交换中间图像和目标人脸图像各自的融合权重，结合脸部融合区域图进行加权融合，可以利用脸部融合区域图有效平滑人脸交换中间图像和目标人脸图像各自的皮肤，从而提升人脸交换图像的脸部皮肤质感，提升了人脸交换图像的真实感效果，提高了人脸交换图像的图像质量。

在一个示例性的实施例中，对人脸交换中间图像进行脸部特征区域分割，得到人脸交换中间图像的容貌特征区域图，包括：对人脸交换中间图像进行至少一次的特征编码，得到人脸交换中间图像的像素空间编码特征；提取人脸交换中间图像的图像语义特征；将像素空间编码特征和图像语义特征融合，得到图像融合特征；基于图像融合特征进行脸部特征区域分割，得到人脸交换中间图像的容貌特征区域图。

其中，特征编码可以为基于像素空间维度针对人脸交换中间图像进行的特征处理，具体可以通过针对人脸交换中间图像进行至少一次卷积操作实现。像素空间编码特征是针对人脸交换中间图像进行特征编码得到的图像特征。像素空间编码特征直接基于像素空间维度编码得到，属于携带人脸交换中间图像的空间信息的底层次特征。图像语义特征是基于语义特征提取算法，如卷积神经网络（CNN，Convolutional Neural Network）、全局平均池化（Global Average Pooling）、区域卷积神经网络（R-CNN，Region-basedConvolutional Neural Networks）、注意力机制或者多模态特征融合算法，针对人脸交换中间图像提取得到的特征，属于包括人脸交换中间图像的语义信息的高层次特征。图像融合特征通过融合像素空间编码特征和图像语义特征得到，属于融合了底层次特征和高层次特征的特征。

可选地，服务器可以对人脸交换中间图像进行特征编码，具体可以进行至少一次的特征编码处理，得到像素空间编码特征。在一些实施例中，服务器可以基于卷积神经网络中的卷积层实现对人脸交换中间图像的特征编码处理，在包括多个卷积层时，可以实现针对人脸交换中间图像的多次特征编码，得到低层次的像素空间编码特征。服务器针对人脸交换中间图像提取得到高层次的图像语义特征，如可以基于Context Path（上下文路径）算法针对人脸交换中间图像进行语义特征提取，得到人脸交换中间图像的图像语义特征。服务器可以融合像素空间编码特征和图像语义特征，得到图像融合特征。服务器基于融合得到的图像融合特征进行脸部特征区域分割，如可以通过图像分割算法基于图像融合特征进行脸部特征区域分割，从而确定人脸交换中间图像的容貌特征区域图。在一些实施例中，服务器基于图像融合特征进行脸部特征区域分割时，可以得到五官中各个部位各自的部位特征区域，服务器根据五官各自的部位特征区域组合得到容貌特征区域图。此外，针对人脸交换中间图像进行脸部特征区域分割时，还可以得到人脸交换中间图像的脸部皮肤区域图，该脸部皮肤区域图包括人脸交换中间图像中人脸脸部皮肤所覆盖区域。

本实施例中，服务器针对人脸交换中间图像分别进行低层次的特征编码以及高层次的语义特征提取，分别得到像素空间编码特征和图像语义特征，融合像素空间编码特征和图像语义特征后，基于融合得到的图像融合特征进行脸部特征区域分割，可以综合人脸交换中间图像底层地和高层次的图像特征进行脸部特征区域分割，确保了容貌特征区域图的准确性，有利于提高基于脸部融合区域图进行人脸图像处理时人脸交换图像的图像质量。

在一个示例性的实施例中，确定目标人脸图像中人脸部位的容貌特征区域图和脸部皮肤区域图，包括：对目标人脸图像中人脸部位进行脸部特征区域分割，得到目标人脸图像中人脸部位的容貌特征区域图和脸部皮肤区域图。

示例性地，服务器可以直接对目标人脸图像中人脸部位进行脸部特征区域分割，如可以通过图像分割算法或者预先训练得到的脸部语义分割模型，针对目标人脸图像中人脸部位进行脸部特征区域分割，得到目标人脸图像的容貌特征区域图和脸部皮肤区域图。在一些实施例中，服务器可以针对人脸交换中间图像和目标人脸图像分别进行脸部特征区域分割，得到各自的特征区域图，具体包括人脸交换中间图像的容貌特征区域图，以及目标人脸图像的容貌特征区域图和脸部皮肤区域图。

本实施例中，服务器直接针对目标人脸图像进行脸部特征区域分割，以得到容貌特征区域图和脸部皮肤区域图，可以获得目标人脸图像不同的特征区域，以用于人脸交换图像处理中，从而提高人脸交换图像的图像质量。

在一个示例性的实施例中，确定目标人脸图像中人脸部位的容貌特征区域图和脸部皮肤区域图，包括：基于目标人脸图像的图像标识，查询得到目标人脸图像中人脸部位的容貌特征区域图和脸部皮肤区域图。

其中，图像标识是用户标识不同图像的标识信息，具体可以包括但不限于包括图像名称、图像编号等标识信息。具体地，服务器可以确定目标人脸图像的图像标识，并基于图像标识进行特征区域图查询，如可以根据图像标识在特征区域图库中进行查询，以得到图像标识所标识目标人脸图像的容貌特征区域图和脸部皮肤区域图。特征区域图库可以根据实际需要预先建立，具体可以预先针对各种人脸图像中人脸部位进行脸部特征区域分割，并将各种人脸图像的图像标识与相应容貌特征区域图和脸部皮肤区域图存储到特征区域图库中，以便可以基于图像标识从特征区域图库中查询得到相应的特征区域图，具体可以包括容貌特征区域图和脸部皮肤区域图。

本实施例中，服务器基于目标人脸图像的图像标识直接查询得到预先存储的目标人脸图像的容貌特征区域图和脸部皮肤区域图，可以提高特征区域图的获取效率，从而有利于提高人脸交换图像的处理效率。

在一个示例性的实施例中，通过源人脸图像中的人脸部位对目标人脸图像中的人脸部位进行人脸交换，得到人脸交换中间图像，包括：提取源人脸图像的人脸部位的嵌入特征；基于嵌入特征对目标人脸图像中的人脸部位进行人脸交换，得到人脸交换中间图像。

其中，嵌入特征是源人脸图像中人脸部位图像更加抽象和语义化的特征表示，嵌入特征有利于确保人脸交换后的人脸相似度。示例性地，服务器可以提取源人脸图像中人脸部位的嵌入特征，如可以通过预训练的嵌入特征提取模型针对源人脸图像的人脸部位提取得到相应的嵌入特征。服务器嵌入特征对目标人脸图像中的人脸部位进行人脸交换，得到人脸交换中间图像。人脸交换可以通过人脸交换模型实现，则服务器可以获取预先基于历史数据训练的人脸交换模型，人脸交换模型可以基于DeepFakes算法、FaceSwap算法、GANimation（Generative Adversarial Animation，生成对抗式动画）算法、卷积神经网络（Convolutional Neural Network，CNN）算法、循环神经网络（Recurrent Neural Network,RNN）或者Unet网络算法等各种算法中的至少一种构建得到。服务器可以将嵌入特征和目标人脸图像输入到人脸交换模型中进行人脸交换处理，由人脸交换模型输出人脸交换中间图像。

本实施例中，服务器利用源人脸图像的人脸部位的嵌入特征对目标人脸图像中的人脸部位进行人脸交换，可以确保人脸交换后的人脸相似度，确保人脸交换的换脸效果。

在一个示例性的实施例中，人脸图像处理方法还包括：获取质感提升模型；质感提升模型是基于满足图像质感条件的图像集训练得到的；通过质感提升模型对人脸交换图像中的人脸肤质进行处理，得到人脸肤质质感提升后的人脸交换图像。

其中，质感提升模型用于提升图像的皮肤质感。对于人脸皮肤的质感可以包括脸部皮肤表现出来的颗粒度、纹理、毛发等元素，从而整体表现出的人脸图像的真实感。人脸图像的皮肤质感越高，则对应人脸图像视觉上越真实。质感提升模型预先基于满足图像质感条件的图像集训练得到，具体可以通过高质感图像组成的图像集训练得到质感提升模型。质感提升模型可以基于各种神经网络算法或者深度学习算法训练得到，具体可以包括卷积神经网络、循环神经网络、生成式网络或者扩散模型等各种网络模型形式。

可选地，服务器可以获取预先训练的质感提升模型，质感提升模型预先预计质感高的图像集训练得到。图像集中所包括的满足图像质感条件的高质感图像可以是基于相机拍摄得到的真实世界中的图像，从而图像的真实感效果强烈。服务器可以通过质感提升模型对人脸交换图像进行质感提升，具体针对人脸交换图像中的人脸肤质进行处理，从而得到人脸肤质质感提升后的人脸交换图像。相比于人脸交换图像，人脸肤质质感提升后的人脸交换图像中脸部皮肤的颗粒度、纹理、毛发等元素更加细腻，从而整体图像更加具有真实感。

本实施例中，服务器通过预训练的质感提升模型提升人脸交换图像的人脸肤质质感，可以提高人脸交换图像的真实感，提高了人脸交换图像的图像质量。

在一个示例性的实施例中，如图4所示，质感提升的处理，即通过质感提升模型对人脸交换图像中的人脸肤质进行处理，得到人脸肤质质感提升后的人脸交换图像，包括：

步骤402，从人脸交换图像中分割出脸部区域图像。

其中，脸部区域图像是包括人脸交换图像中人脸部分所属区域的图像。具体地，服务器可以针对人脸交换图像进行脸部区域分割处理，得到脸部区域图像，脸部区域图像中包括人脸交换图像中人脸部位所属区域。

步骤404，将脸部区域图像输入到质感提升模型中进行人脸肤质处理，得到人脸肤质质感提升后的脸部区域图像。

示例性地，服务器可以通过质感提升模型对脸部区域图像进行人脸肤质质感提升，具体服务器可以将脸部区域图像输入到质感提升模型中，由质感提升模型进行人脸肤质处理，并输出得到人脸肤质质感提升后的脸部区域图像。

步骤406，将人脸肤质质感提升后的脸部区域图像贴合回人脸交换图像中，得到人脸肤质质感提升后的人脸交换图像。

可选地，对于人脸肤质质感提升后的脸部区域图像，服务器可以将其贴合回人脸交换图像中，以填充人脸交换图像中人脸部分所属区域，从而实现对人脸交换图像中脸部的肤质质感提升，得到人脸肤质质感提升后的人脸交换图像。

本实施例中，服务器从人脸交换图像中分割出脸部区域图像通过质感提升模型进行质感提升后，将人脸肤质质感提升后的脸部区域图像贴合回人脸交换图像中，可以在提升人脸交换图像的人脸肤质质感，提高人脸交换图像质量的同时，减少质感提升处理数据量，能够提高人脸交换图像的处理效率。

在一个示例性的实施例中，人脸图像处理方法还包括：当人脸肤质质感提升后的人脸交换图像不满足质感提升结束判定条件，通过质感提升模型对人脸肤质质感提升后的人脸交换图像中的人脸肤质进行处理，获得重复质感提升后的人脸交换图像。

其中，质感提升结束判定条件用于判定是否结束针对人脸交换图像的质感提升处理，在不满足质感提升结束判定条件时，认为需要继续针对人脸交换图像进行人脸肤质质感的提升处理。

示例性地，服务器可以检测人脸肤质质感提升后的人脸交换图像是否满足预先设置的质感提升结束判定条件，并在确定不满足质感提升结束判定条件时，通过质感提升模型对人脸肤质质感提升后的人脸交换图像中的人脸肤质继续进行处理，从而得到重复质感提升后的人脸交换图像。在一些实施例中，服务器可以基于人脸肤质质感提升后的人脸交换图像和目标人脸图像之间的质感差距进行判定，以根据判定结果确定是否满足质感提升结束判定条件。例如，可以对人脸肤质质感提升后的人脸交换图像和目标人脸图像之间的质感差距进行量化，得到质感差距值，在质感差距值小于质感差距阈值时，认为不满足质感提升结束判定条件，则针对该人脸肤质质感提升后的人脸交换图像继续进行人脸肤质处理，直至满足图像质感结束条件时，得到最终的人脸交换图像。

在一些实施例中，可以预先训练质感判定模型，通过该质感判定模型针对人脸肤质质感提升后的人脸交换图像和目标人脸图像之间的质感差距进行判定，从而确定是否满足质感提升结束判定条件。在具体应用中，可以在不满足质感提升结束判定条件时，可以针对人脸肤质质感提升后的人脸交换图像进行再一次质感提升后直接得到最终的人脸交换图像，也可以反复进行多次质感提升处理直至得到满足图像质感结束条件的人脸交换图像。

本实施例中，在人脸肤质质感提升后的人脸交换图像不满足质感提升结束判定条件时，服务器可以针对重复进行质感提升处理，以确保人脸交换图像的质感，从而提高人脸交换图像的图像质量。

本申请还提供一种应用场景，该应用场景应用上述的人脸图像处理方法。具体地，该人脸图像处理方法在该应用场景的应用如下：

人脸交换，也就是计算机视觉中常说的换脸模型，通常就是指输入系统两张带有人物人脸的图片，分别是源图片和目标图片，使用源图片中的人脸长相特征来替换目标图片中人物的长相特征，从而改变目标图片中的长相特征，更加符合源图片中的人脸长相。对于人脸交换的实现，现有的可以通过人手工编辑的方式来对目标图片中人脸形象进行转换。该方法是通过使用Photoshop（图像处理软件）等软件，来针对于输入的目标图片进行人工的编辑，在编辑过程中会输入用户本身自己的自拍照片，让最终编辑出来的目标图片符合用户自己本上的长相特征，从而完成对于目标图片换脸的需求。然而基于Photoshop工具这种方法人工编辑图片的方法，针对于工业级应用来说，生产的速度效率极慢，同时还会因为不同人编辑的方式以及主观感受的差异，就会导致编辑出来的图像人脸相似度差异较大，不能形成标准化的换脸效果。人脸相似度是为了能够判断给定的两张人物图片中，针对于其人物中的脸部长相特征进行计算的相似度距离，为了能够判断两张人脸是否同属于一个人，可以用来进行对于人脸的识别和辨认，在本方案中主要是用来判断生成的个性化形象中的人脸与用户自己的长相特征之间的相似度距离。

目前还可以使用当前用户人脸数据以及目标人脸数据结合成为大量的数据对，然后使用当前组成的数据对训练出来一个针对于当前用户的专属换脸GAN（GenerativeAdversarial Network，生成对抗网络）模型，然后这个模型就是用户自己的换脸模型，只要输入目标图片，就能够将目标图片中的人物人脸长相更换成为用户人脸的长相特征。然而，通过使用大量用户人脸图片数据以及目标数据来进行专属的换脸GAN模型的训练，虽然这种方法训练出来的模型是能够在一定程度上完成换脸的任务。但是这种方法训练出来的模型没办法通用，只能针对于当前人专属的换脸模型，并且这种方式会依赖大量的用户人脸数据，而在实际落地的过程中无法提供这么多的数据。同时这种学习的方法，很容易将训练数据中用户人脸肤质学习过拟合，导致最终换脸上去的肤质无法保持目标图片原有的质感。肤质主要指的是人类脸部皮肤的多样化所形成的特殊属性及特征，在本方案中主要是为了表达形象人物脸部中的皮肤质感，其中包括了脸部表现出来的颗粒度，纹理，毛发等元素。与之相对应的就是平滑肤质，指的是整张形象人脸中，皮肤质感太过平滑或者AI化，没有真人质感的表现。

此外，对于通过使用大量的换脸开源数据集来完成传统的换脸模型的训练机制来构成人脸交换模型，具体使用大量的卷积网络加上Attention（注意力），比如Style-GAN（Style-Based Generator Adversarial Networks，基于图像风格的生成对抗网络）模型，然后该模型就能构成一个通用的Face Swap模型，通过输入当前用户的图片以及目标图片，经过本模型计算后就能够将目标图片中的人脸更换为用户的长相特征。通过使用大量的开源换脸图片数据集训练出来后，是有一定很好的换脸效果，但在实际使用的过程中，因为用户上传的图片质量不一定非常高，就会导致模型在进行换脸时，会将用户上传图片的质感和清晰度带入到目标图片中去，导致Face Swap的结果容易出现模糊肤质质感或者清晰度较低的情况。

对于基于Stable Diffusion（稳定扩散）模型的方式来进行对目标图像的转换。通过使用大量的用户长相的照片图片来Finetune（微调）出来一个用户专属的StableDiffusion（SD）模型，然后在实际使用过程中，输入目标图片到Stable Diffusion模型中，针对于图片进行Img2img（图到图）的修改，让模型把学习到的用户长相表征，替换到目标图片中。使用Stable Diffusion模型基于用户图片数据来进行用户长相特征的学习训练，是能够让SD（Stable Diffusion）模型具备其长相特征的还原能力。但是在实际应用中，如果训练数据没有足够的多样化，就会导致用户图片中的质感带入到了目标图片中，从而影响了最终结果的质感。如果图片足够多的情况下，模型可能会产生AI平滑质感出现，这主要是模型为了兼顾在学习训练中各种各样皮肤质感的情况，这样也会给最终输出的目标结果图片带来AI平滑质感，从而影响最终的出图质量。

基于此，本实施例提供的人脸图像处理方法，基于Face Parsing Paste（人脸解析贴合）机制实现提升Face Swap（人脸交换）人脸质感与相似度保持，该方法是为了能够在Face Swap过程中，提升目标人脸的肤质质感以及换脸之后的结果与源人脸的人脸相似度。本实施例首先通过构建一个基于海量换脸数据集训练的创新性Face Swap模型，然后利用该Face Swap模型对输入的源图片以及目标图片进行换脸操作，经过换脸之后，能够让生成的目标结果图片中的人脸长相特征转换为源图片中的特征。然后使用本实施例中的FaceParsing Paste模型中，通过基于人脸语义分割模型来对目标图片和目标结果图片中的两个人脸进行五官和皮肤区域的识别和检测，然后按照所需要的区域进行Paste Mask（贴合掩码）的计算。最后根据计算出来的Paste Mask来融合目标图片和目标结果图片的人脸质感，并且能够维持提升目标结果图片中的人脸相似度。最后再将图片输入到Face Aigc-I2I（Artificial Intelligence Generative Content- Image-to-Image，人工智能生成内容-图像生成图像）模型中，来对目标结果图片中的人脸区域进行专门的人脸质感融合提升，以此来增加目标结果图片中人脸的纹理质感，从而提升最终Face Swap图片的质感质量。本实施例提供的人脸图像处理方法能够解决在众多传统换脸模型遇到的质感差以及相似度低的问题，基于Face Parsing Paste+Aigc-I2I的方法来对Face Swap之后的结果进行质感提升以及相人脸相似度提升。

本实施例提供的人脸图像处理方法，是一个全自动化训练以及推理计算的系统流程方案，可以不需要人工的参与，能够极大的提升整体换脸工业化生产的效率，同时能够大幅度的降低成本。并且本实施例提供的人脸图像处理方法能够提升Face Swap结果的肤质质感以及人脸相似度，可以标准化整个生产流程，不会受到任何主观带来的结果差异。具体地，本实施例提供的人脸图像处理方法中的Face Swap基底模型可以选用基于FaceEmbedding嵌入的Unet网络模型结构，该结构不需要使用大量的专属用户人像图片数据和目标数据来进行训练，只需要在开源的换脸数据集上进行训练即可，能够摆脱对于大批用户数据的依赖，方便在线上落地使用时，提升用户的使用感受。

本实施例提供的人脸图像处理方法，能够在很多人脸落地应用场景中进行实际的应用部署。首先是该方法能够落地应用于很多智能相机中，帮助相机提供一个高质感以及高相似度保持的Face Swap功能模块，给用户提供一个自助换脸的落地应用场景，能够支持用户自己上传自己的照片以及想换脸的目标照片，然后将自己的照片上传后，把自己的长相特征换到目标照片中，生成一个带有自己长相的目标结果形象。

此外，本实施例提供的人脸图像处理方法能够应用于直播场景中，尤其是针对于虚拟直播中。针对于很多主播up主（uploader，上传者），可以结合虚拟人的方式来完成让虚拟主播代替自己进行直播的需求，从而节省自己的直播成本。首先通过设置一个虚拟人的形象，然后使用本方案中系统，将up主自己的长相特征更换到虚拟人的脸上，从而完成让虚拟人代替自己进行直播，降低整体直播的工作成本和负担。

本实施例提供的人脸图像处理方法，基于Face Parsing Paste机制实现提升FaceSwap人脸质感与相似度，该方法中通过使用Face Parsing Paste结合Face-I2i的机制来进行对Face Swap的目标结果图像进行肤质质感的融合，在融合的同时能够进行保持对换脸之后人脸相似的提升和保持，以此来提升Face Swap结果的整体质感和质量，能够在智能相机、直播以及影视剧后期制作等多个落地方向上进行应用部署。

具体地，本实施例提供的人脸图像处理方法可分为三个阶段，分别是基于FaceEmbedding多层嵌入的Face Swap模型、Face Parsing Paste模型以及Face-I2I模型。如图5所示，用户可以分别输入源图片和目标图片到换脸模型（Face Swap）中，源图片即为需要替换其他人脸的源人脸图像，目标图片为需要被替换人脸的目标人脸图像。对于换脸后的图片，即人脸交换中间图像结合目标图片输入到人脸解析贴合（Face Parsing Paste）模型中，得到人脸交换图像。将人脸交换图像输入到基于高质感图片数据集训练的人脸图像生成模型（Face-I2I）中，得到目标结果图片，即得到人脸肤质质感提升后的人脸交换图像。

对于Face Embedding多层嵌入的Face Swap模型模块，在该模块中，通过使用FaceEmbedding 在Unet网络中多层嵌入的方法，让模型深刻感受源人脸的长相特征，同时输入目标图片人像数据，最终能够计算生成出目标结果图片，在目标结果图片中的人像中，除了脸部之外其余均保持之前目标图片的原样，只有脸部长相更换成了用户上传自己的源图片人脸长相特征。然后将目标图片和目标结果图片输入到第二阶段中的Face Parsing Paste模型中，在该模型中，通过构建创新型的人脸语义分割模型来对输入的目标图片和目标结果图片的面部进行拆解，然后通过计算五官和皮肤的Mask，融合生成最终的Mask区域，基于此Mask区域来进行两张图之间的肤质质感融合，同时保持人脸相似度。融合完之后的图片输入到第三个模块中，第三个模块是Face-I2I模型，该模型是基于大量超真实感的数据进行训练的一个Stable Diffusion模型，首先对输入图片的脸部进行定位，然后抠取脸部方框图后进行增加质感的I2I，增强完之后再按照原来脸部的位置贴合回去，从而生成最终Face Swap 高质感且人脸相似度高的换脸目标结果图片。

进一步地，对于基于Face Embedding多层嵌入的Face Swap模型。这个模型的输入是用户的源图片数据以及用户想要换脸的目标图片，这个模型的目的就是为了能够将源图片中人物人脸的长相特征转换到目标图片数据中，即通过Face Swap模型，实现源人脸图像中的人脸部位对目标人脸图像中的人脸部位进行人脸交换，得到人脸交换中间图像。如图6所示，源人脸图像具体为源图片，目标人脸图像具体为目标图片，针对源图片进行脸部图像剪切编码模块（Clip lmage Encoder Model）后得到脸部嵌入特征（Face Embeding），将脸部嵌入特征和目标图片输入到人脸交换模型中，具体输入到U-net模型中，得到人脸交换中间图像。具体地，本模型设计了一个基于Face Embedding多层嵌入的Face Swap模型方法，首先根据输入的源图片数据进行Face Embedding的提取，然后基于Unet网络进行构建一个大型的Face Swap模型，这个模型是Face Embedding嵌入Unet里面多层网络层进行构建的，为了能够让整个模型中每一层深刻的感受到源图片Face的长相特征，从而能够提升整个模型针对于当前输入的人脸更换效果，让Face Swap之后的人脸相似度有大幅度提升。同时Unet网络的输入为目标图片数据，该图片数据作为整个模型的主要计算特征，会经过Unet网络的Downsample（下采样）以及Upsample（上采样）两个分支，最终计算生成相同尺寸的图片。

对于Unet网络，Unet网络的典型特点是，它是U型对称结构，左侧是卷积层，右侧是上采样层。Unet结构中，包含4个Convolutional Layer（卷积层）和对应的4个Up SamplingLayer（上采样层）。所以在实现的时候，既可以从头实现网络并进行权重的初始化，然后进行模型的训练；也可以借用现有一些网络的卷积层结构和对应的已训练好的权重文件，再加上后面的Up Sampling Layer，进行训练计算，比如Resnet（Residual Network，残差网络）、Vgg（Visual Geometry Group，视觉几何组）等，在深度学习的模型训练中，通过使用已有的权重模型文件，可以大大加快训练的速度。另一个特点是，Unet网络的每个卷积层得到的特征图都会Concatenate（连接）到对应的上采样层，从而实现对每层特征图都有效使用到后续计算中。也就是Skip-Connection（跳跃连接）。这样，同其他的一些网络结构比如FCN（Fully Convolutional Network，全卷积网络）比较，Unet避免了直接在高级Feature Map（特征图）中进行监督和loss（损失）计算，而是结合了低级Feature Map中的特征，从而可以使得最终所得到的Feature Map中既包含了High-Level（高层次）的Feature（特征），也包含很多的Low-Level（低层次）的Feature，实现了不同Scale（尺度）下Feature的融合，提高模型的结果精确度。

其中，卷积神经网络（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网络由一个或多个卷积层和顶端的全连通层（对应经典的神经网络）组成，同时也包括关联权重和池化层（pooling layer）。

如图7所示，Unet网络一共有四层，分别对输入图片（Input）进行了4次下采样和4次上采样。从最左边开始，输入的是一张572x572x1的图片，然后经过64个3x3的卷积核进行卷积，再通过ReLU函数后得到64个570x570x1的特征通道，然后把这570x570x64的结果再经过64个3x3的卷积核进行卷积，同样通过ReLU函数后得到64个568x568x1的特征提取结果，这就是第一层的处理结果，第一层的处理结果是568x568x64的特征图片，通过2x2的池化核，对图片下采样为原来大小的一半，即为284x284x64，然后通过128个卷积核进一步提取图片特征。后面的下采样过程也以此类推，每一层都会经过两次卷积来提取图像特征，每下采样一层，都会把图片减小一半，卷积核数目增加一倍。最终下采样部分的结果是28x28x1024，也就是一共有1024个特征层，每一层的特征大小为28x28。右边部分从下往上则是4次上采样过程。从最右下角开始，把28x28x1024的特征矩阵经过512个2x2的卷积核进行反卷积，把矩阵扩大为56x56x512，再进行卷积来提取特征。由于每一次Valid（有效）卷积都会使得结果变小一圈，因此每次拼接之前都需要先把左边下采样寸程中的图片进行剪裁，矩阵进行拼接后，整个新的特征知阵就变成56x56x1024，然后经过512个卷积核，进行两次卷积后得到52x52x512的特征矩阵，再一次进行上采样，重复上述过程。每一层都会进行两次卷和来提取特征，每上采样一层，都会把图片扩大一倍，卷积核数目减少一半。最后上采样的结果是388x388x64，也就是一共有64个特征层，每一层的特征大小为388x388。在最后一步中，选择了2个1x1的卷积核把64个特征通道变成2个，也就是最后的388x388x2，其实这里就是一个二分类的操作，把图片分成背景和目标两个类别。

如图8所示，改造后的新型U-net网络架构图中，基本的架构与原始的Unet网络架构相同，但是在Unet中的每一个层级中，都加入了同一个嵌入特征（Embedding）向量作为嵌入，这就是本模块中计算出来的Face Embedding向量，让该向量嵌入到每一层网络中，能够让整个模型深度的感受学习到提取的Face（人脸）长相特征信息，从而能够让每一个层级计算都朝着该长相特征进行靠拢。

对于Face Parsing Paste模块，整个模块的输入为Face Swap人脸后的人脸交换中间图像以及原始的目标图片，用于为了能够将原始目标图片中的肤质质感融入到当前的目标结果图片中，同时还能够避免影响目标结果图片中用户人脸的相似度。本模块主要是通过构建一个脸部的语义分割网络，然后将脸部中的五官和皮肤进行分割Mask，按照FaceParsing Paste机制中的Mask融合规则来计算出需要融合的区域Mask，最后按照计算出来的Mask进行两张图的肤质质感融合，非Mask区域仍然保留目标结果图片中的内容，以此来保持人脸相似度。如图9所示，对于目标图片和人脸交换中间图像，分别确定各自的脸部区域，并进行人脸分割（Face Segment），得到目标图片的皮肤掩码（Skin Mask）、五官特征掩码（Features Mask）以及眼部掩码（Eye Mask），以及人脸交换中间图像的五官特征掩码。将目标图片的五官特征掩码、眼部掩码与人脸交换中间图像的五官特征掩码进行融合并膨胀（Concat+Dilate）处理，并将膨胀结果与目标图片的皮肤掩码进行掩码选取（Mask Select）处理，得到皮肤贴合掩码，通过将皮肤贴合掩码与目标图片进行皮肤掩码融合后与人脸交换中间图像进行皮肤贴合（Skin Paste），得到输出，即得到人脸交换图像。

Face Parsing Paste模块分为两个部分，分别是人脸脸部的语义分割模型FaceSegment、Parsing Mask 融合的肤质Paste，即脸部融合区域图处理模块。

其中，语义分割模型Face Segment是脸部语义分割模型。如图10所示，脸部语义分割模型分为三个部分，分别是编码模块，Context Path（上下文路径）以及特征融合。首先是模型的编码模块，在分割任务中，空间分辨率和感受野很难两全，尤其是在实时分割的情况下，现有方法通常是利用小的输入图像或者轻量主干模型实现加速。但是小图像相较于原图像缺失了很多空间信息，而轻量级模型则由于裁剪通道而损害了空间信息。所以本模型中的特征编码模块保留了原输入图像的空间尺度，丰富编码空间信息。整个编码模块中包含了4层结构，上面三层每层结构都是一个卷积层+Batch Norm（Batch Normailzatoin，批量归一化）+Relu激活函数，即图中conv+bn+relu。每层中的卷积Stride（步长）都是等于2，所以整个编码模块计算出来的特征图尺寸是原输入图像尺寸的1/8，最后添加一个1x1的卷积层（conv）为了巩固特征的语义。

在分割任务中，感受野对于性能表现至关重要。为增大感受野，一些方法利用金字塔池化模块，金字塔型空洞池化（ASPP，Atrous Spatial Pyramid Pooling）或者 “largekernel”，但是这些操作比较耗费计算和内存，导致速度慢。出于较大感受野和较高计算效率兼得的考量，本模型中提出 Context Path，它充分利用轻量级模型与全局平均池化以提供大感受野。在Context Path中借助全局平均池化捕获全局语义并计算注意力向量以指导特征学习，这一设计可以优化 Context Path中每一阶段的输出特征，无需任何上采样操作即可轻易整合全局语义信息。具体如图10所示，对于输入的人脸图像，即对于人脸交换中间图像或者目标人脸图像，针对输入图像进行4x down的下采样处理，从而使图像缩小为1/4，并继续依次通过8x down、16x down的下采样处理，使图像分别缩小到原输入图像的1/8、1/16；进一步地，在一个分支中依次通过池化层（pooling）进行池化，通过卷积层（1x1 conv）进行卷积操作，通过批量归一化层（bn）进行归一化处理，通过激活函数层（sigmoid）进行归一化处理，通过矩阵相乘（mul）处理，得到第一分支的输出；在另一个分支中，依次通过下采样层（32x down）进行下采样，通过池化层（pooling）进行池化，通过卷积层（1x1 conv）进行卷积操作，通过批量归一化层（bn）进行归一化处理，通过激活函数层（sigmoid）进行归一化处理，通过矩阵相乘层（mul）处理，得到第二分支的输出，并将第一分支和第二分支各自的输出通过融合层（merge）进行融合，得到上下文路径的输出。

语义分割模型Face Segment和Parsing Mask 融合的肤质Paste经过计算后的特征输入到特征融合（feature concat）模块中进行最终的高级特征融合。具体地，如图11所示，在特征融合模块中，对于编码模块和上下文路径模块各自的输出，分别通过连接层（concat）进行连接，通过层结构（conv+bn+relu）进行综合处理，一方面，通过池化层（pooling）、卷积层（1x1 conv）、激活函数层（relu）、卷积层（1x1 conv）和激活函数层（sigmoid）进行处理，并通过矩阵相乘层（mul）以及融合层（add）得到特征融合结果。在特征表示的层面上，两路网络的特征并不相同，因此不能简单地加权这些特征。因为语义分割模型的输出包含了大量的空间信息，尤其是针对于细节信息。Context Path中编码了语义信息，可以理解为第一模块的特征为低层次的，而Parsing Mask 融合的肤质Paste的特征为高层次，通过融合高低两个层次的特征来进行更为精准的特征信息提取。计算完特征后输入到激活函数中进行对于分割的判断，其判断是在融合后特征图中的每个点位进行计算的，经过计算后能够在小特征图上定位到不同对象之间的分界线，然后经过同样的3层Upsample后还原称为输入图片尺寸，最终能够得到原图像中所需要的分割边界，在本方案中也就是输入训练图片的人脸的各个五官和皮肤的边界。

对于Parsing Mask 融合的肤质Paste，即脸部融合区域图处理模块，如图12所示，针对于脸部parsing mask的融合。通过上一个节点脸部语义分割模型的计算后，能够将两张脸部的五官和皮肤区域进行检测识别，并根据检测出来的结果计算成为Mask图像，其中关注区域为图中的白色，非关注区域为黑色。对于目标图片，获取到了目标结果人脸图像（target）的五官区域Mask，其中五官区域包括了左右眼（L-eye、R-eye）、左右眉毛（L-eyebrow、R-eyebrow）、鼻子（nose）、上下嘴唇（U-lip、D-lip）等部位的部位特征区域图，具体为掩码图；对于上一个模块输出人脸交换中间图像，同样的方法针对于目标人脸图像（Source）提取其五官的Mask，具体得到左眼（L-eye）、右眼（R-eye）、左眉毛（L-eyebrow）、右眉毛（R-eyebrow）、鼻子（nose）、上嘴唇（U-lip）以及下嘴唇（D-lip）等部位的部位特征区域图，具体为掩码图。

对两个图片计算出来的Mask进行融合，同时为了避免Face Swap之后脸部上的五官发生位移，所以需要将融合之后的Mask进行膨胀，就是针对Mask图中的白色区域进行边缘扩大。针对重点关注的眼睛区域，需要进行单独处理。所以对两张图中的左右眼区域进行Mask计算并随之进行边缘扩大膨胀，然后与上面融合后的Mask进行二次融合。最后使用原始目标人像图片的Skin Mask减去上面融合的Mask结果，就是最终需要进行肤质融合的区域，即Paste Mask贴合掩码区域。如图13所示，计算完Paste Mask区域后，进行对Mask白色区域内两张人脸图的加权和，具体对贴合区域（Paste Mask）内目标图片和人脸交换中间图像的图像区域进行加权融合，然后就能够将目标人脸图像的肤质质感融合到了最终出图中，即得到贴合结果图，同时剔出了五官融合Mask区域，能够让人脸图像保持对用户的人脸相似度。

对于Face-I2I融合模块，是针对于上一个模块经过Paste之后的目标结果图片进行肤质提升的模型，该模型是基于传统的Stable Diffusion模型加高质感图片数据集训练出来的。如图14所示，在训练阶段使用大量的该质量图片数据集进行对Face-I2I模型进行训练，重点是为了能够让模型学习到图片中人脸的肤质质感，得到基于稳定扩散的人脸生成模型（Face-I2I Stable Diffusion）。然后在预测阶段中输入第二模块计算出来的目标结果图片进行肤质质感的提升，将图片输入到训练好的模型中，即输入到预训练的基于稳定扩散的人脸生成模型（trained Face-I2I Stable Diffusion）中，计算输出结果图片，该图片就能够提升最终的肤质质感，同时不影响图片中人脸相似度。Face-I2I融合模块使用的是大量高质感的形象图片基于Stable Diffusion来训练提升质感的模型，后续可以考虑再进行肤质质感提取完之后，添加一个质感判断模块，来进行对结果图片和目标图片之间的质感差距计算，如果低于一定的质感差距阈值，需要进行二次的模型处理，从而能够提升最终的效果。

Stable Diffusion（稳定扩散，SD）是一种扩散模型（diffusion model）的变体，叫做“潜在扩散模型”（latent diffusion model; LDM）。扩散模型是在2015年推出的，其目的是消除对训练图像的连续应用高斯噪声，可以将其视为一系列去噪自编码器。StableDiffusion由3个部分组成：变分自编码器（VAE，Variational auto-encoder）、U-Net（基于卷积的图像分割网络）和一个文本编码器。与其学习去噪图像数据，而是训练VAE将图像转换为低维潜在空间。添加和去除高斯噪声的过程被应用于这个潜在表示，然后将最终的去噪输出解码到像素空间中。在前向扩散过程中，高斯噪声被迭代地应用于压缩的潜在表征。每个去噪步骤都由一个包含残差神经网络中的U-Net架构完成，通过从前向扩散往反方向去噪而获得潜在表征。最后，VAE解码器通过将表征转换回像素空间来生成输出图像。

如图15所示，对于Stable Diffusion模型，首先需要训练好一个自编码模型（AutoEncoder，包括一个编码器和一个解码器）。这样一来就可以利用编码器对图片进行压缩，然后在潜在空间（Latent space）上做Diffusion操作，最后再用解码器恢复到原始像素空间即可，模型中将这个方法称之为感知压缩（Perceptual Compression）。这种将高维特征压缩到低维，然后在低维空间上进行操作的方法具有普适性。具体在像素空间，对于输入，编码得到特征图，基于特征图在潜在空间实现扩散过程，具体实现从特征图到特征图的扩散过程；在解码过程中，引入条件（Conditioning）机制，具体包括语义图（Semantic Map）、文本（Text）、再现（Repres Entations）以及图像（Images）等各种条件进行解码恢复。具体地，解码时从特征图到特征图，过程中基于Unet网络结合注意力机制实现，基于特征图结合前一次恢复图像得到特征图，并得到像素空间的特征图，最后生成输出图。

在潜在表示空间上做Diffusion操作其主要过程和标准的扩散模型没有太大的区别，所用到的扩散模型的具体实现为 time-conditional UNet。但是有一个重要的地方是模型为Diffusion操作引入了条件机制（Conditioning Mechanisms），通过Cross-Attention（交叉注意力）的方式来实现多模态训练，使得条件图片生成任务也可以实现。Diffusion模型整体有三个主要组成部分：

自动编码器(VAE): 自动编码器(VAE)由两个主要部分组成:编码器和解码器。编码器将把图像转换成低维的潜在表示形式，该表示形式将作为下一个组件U-Net的输入。解码器将做相反的事情，它将把潜在的表示转换回图像。在Diffusion训练过程中，利用编码器获得正向扩散过程中输入图像的潜表示(latent)。而在推理过程中，VAE解码器将把潜信号转换回图像。

Unet: UNet也包括编码器和解码器两部分，两者都由ResNet块组成。编码器将图像表示压缩为低分辨率图像，解码器将低分辨率解码回高分辨率图像。为了防止U-Net在下采样时丢失重要信息，通常在编码器的下采样的ResNet和解码器的上采样ResNet之间添加了捷径的连接。在diffusion的U-Net中添加了交叉注意层对文本嵌入的输出进行调节。交叉注意层被添加到U-Net的编码器和解码器ResNet块之间。

Text encoder：文本编码器将把输入文字提示转换为U-Net可以理解的嵌入空间，一个简单的基于Transformer的编码器，它将标记序列映射到潜在文本嵌入序列。为了能够使用良好的文字提示以获得更好的预期输出。Stable Diffusion在进行训练过程中，是使用的MSE（Mean Squared Error，均方误差）损失函数来作为整个系统的更新函数机制。

本实施例提供的人脸图像处理方法，基于Face Parsing Paste机制提升FaceSwap人脸质感并保持相似度，该方法中通过融合了创新的Face Parsing Paste机制以及AIGC（Artificial lntelligence Generative Content，人工智能生成内容）人脸图片质感融合机制，分别能够对人脸的五官皮肤等区域进行细微的语义分割，然后计算源和目标之间的差异，从而选择融合区域，随后在使用基于Aigc-Img2img的质感融合机制来对斑块进行平滑，能够分别从人脸肤质以及人脸相似度和质量上，让整个系统在换脸之后，仍然能够提升保持目标图片人脸的肤质质感，并且还能够提升换过之后与源人脸的相似度，提升Face Swap系统结果的整体质量和效果。

本实施例提供的人脸图像处理方法中通过使用构建的创新性人脸Parsing语义分割模型，来对输入的人脸图片进行五官和皮肤区域的检测分割，然后按照所需要的区域进行Mask计算，通过多轮Mask融合处理后，按照Mask区域的方式来对Face Swap结果中的人脸区域与原目标图片人脸之间进行肤质的贴合，以此来提升整个模型换脸的肤质质感，同时还因为使用的是Face Swap结果来做融合，能够利用Mask来保持Face Swap结果的人脸相似度。

本实施例提供的人脸图像处理方法使用了基于Face Aigc-I2I（Image-to-Image，图像到图像）的方式来对Face Parsing Paste之后的目标人脸进行质感融合，从而改善Paste融合之后可能带来的斑块现象，同时使用大量的高质感人脸图片数据训练出来的AIGC模型，用来作为I2I的基底模型做融合使用，能够让Face Swap之后的人脸更能够保证人脸质感，避免出现AI平滑感，从而提升最终Face Swap结果图片的肤质质感。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的人脸图像处理方法的人脸图像处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个人脸图像处理装置实施例中的具体限定可以参见上文中对于人脸图像处理方法的限定，在此不再赘述。

在一个示例性的实施例中，如图16所示，提供了一种人脸图像处理装置1600，包括：人脸交换模块1602、特征区域分割模块1604、特征区域图确定模块1606、特征区域图融合模块1608和脸部融合区域图处理模块1610，其中：

人脸交换模块1602，用于获取源人脸图像和目标人脸图像，通过源人脸图像中的人脸部位对目标人脸图像中的人脸部位进行人脸交换，得到人脸交换中间图像；

特征区域分割模块1604，用于对人脸交换中间图像进行脸部特征区域分割，得到人脸交换中间图像的容貌特征区域图；

特征区域图确定模块1606，用于确定目标人脸图像中人脸部位的容貌特征区域图和脸部皮肤区域图；

特征区域图融合模块1608，用于将目标人脸图像的容貌特征区域图、脸部皮肤区域图和人脸交换中间图像的容貌特征区域图融合，得到脸部融合区域图；

脸部融合区域图处理模块1610，用于根据脸部融合区域图、人脸交换中间图像和目标人脸图像，得到人脸交换图像。

在一个实施例中，特征区域图融合模块1608，还用于融合目标人脸图像的容貌特征区域图和人脸交换中间图像的容貌特征区域图，得到容貌特征区域融合图；将容貌特征区域融合图和脸部皮肤区域图融合，得到脸部融合区域图。

在一个实施例中，特征区域图融合模块1608，还用于将目标人脸图像的容貌特征区域图和人脸交换中间图像的容貌特征区域图进行融合，得到原始融合图；获取人脸交换中间图像的眼部特征区域图和目标人脸图像的眼部特征区域图；将人脸交换中间图像的眼部特征区域图、目标人脸图像的眼部特征区域图和原始融合图进行融合，得到容貌特征区域融合图。

在一个实施例中，特征区域图融合模块1608，还用于针对原始融合图、人脸交换中间图像的眼部特征区域图和目标人脸图像的眼部特征区域图分别进行膨胀，得到膨胀融合图、第一眼部区域膨胀图和第二眼部区域膨胀图；将到膨胀融合图、第一眼部区域膨胀图和第二眼部区域膨胀图进行融合，得到中间融合图；针对中间融合图进行膨胀，得到容貌特征区域融合图。

在一个实施例中，特征区域图融合模块1608，还用于从脸部皮肤区域图中去除容貌特征区域融合图所覆盖的区域，得到脸部融合区域图。

在一个实施例中，脸部融合区域图处理模块1610，还用于确定人脸交换中间图像和目标人脸图像各自的融合权重；将脸部融合区域图、人脸交换中间图像和目标人脸图像，按照融合权重进行加权融合，得到人脸交换图像。

在一个实施例中，特征区域分割模块1604，还用于对人脸交换中间图像进行至少一次的特征编码，得到人脸交换中间图像的像素空间编码特征；提取人脸交换中间图像的图像语义特征；将像素空间编码特征和图像语义特征融合，得到图像融合特征；基于图像融合特征进行脸部特征区域分割，得到人脸交换中间图像的容貌特征区域图。

在一个实施例中，特征区域图确定模块1606，还可以用于对目标人脸图像中人脸部位进行脸部特征区域分割，得到目标人脸图像中人脸部位的容貌特征区域图和脸部皮肤区域图。

在一个实施例中，特征区域图确定模块1606，还用于基于目标人脸图像的图像标识，查询得到目标人脸图像中人脸部位的容貌特征区域图和脸部皮肤区域图。

在一个实施例中，人脸交换模块1602，还用于提取源人脸图像的人脸部位的嵌入特征；基于嵌入特征对目标人脸图像中的人脸部位进行人脸交换，得到人脸交换中间图像。

在一个实施例中，还包括质感提升模块，用于获取质感提升模型；质感提升模型是基于满足图像质感条件的图像集训练得到的；通过质感提升模型对人脸交换图像中的人脸肤质进行处理，得到人脸肤质质感提升后的人脸交换图像。

在一个实施例中，质感提升模块，还用于从人脸交换图像中分割出脸部区域图像；将脸部区域图像输入到质感提升模型中进行人脸肤质处理，得到人脸肤质质感提升后的脸部区域图像；将人脸肤质质感提升后的脸部区域图像贴合回人脸交换图像中，得到人脸肤质质感提升后的人脸交换图像。

在一个实施例中，还包括质感结束判定模块，用于当人脸肤质质感提升后的人脸交换图像不满足质感提升结束判定条件，通过质感提升模型对人脸肤质质感提升后的人脸交换图像中的人脸肤质进行处理，获得重复质感提升后的人脸交换图像。

上述人脸图像处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个示例性的实施例中，提供了一种计算机设备，该计算机设备可以是服务器或者终端，其内部结构图可以如图17所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O）和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储人脸图像数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种人脸图像处理方法。

本领域技术人员可以理解，图17中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要符合相关规定。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种人脸图像处理方法，其特征在于，所述方法包括：

获取源人脸图像和目标人脸图像，通过所述源人脸图像中的人脸部位对所述目标人脸图像中的人脸部位进行人脸交换，得到人脸交换中间图像；

对所述人脸交换中间图像进行脸部特征区域分割，得到所述人脸交换中间图像的容貌特征区域图；

确定所述目标人脸图像中人脸部位的容貌特征区域图和脸部皮肤区域图；

将所述目标人脸图像的容貌特征区域图、所述脸部皮肤区域图和所述人脸交换中间图像的容貌特征区域图融合，得到脸部融合区域图；

根据所述脸部融合区域图、所述人脸交换中间图像和所述目标人脸图像，得到人脸交换图像。

2.根据权利要求1所述的方法，其特征在于，所述将所述目标人脸图像的容貌特征区域图、所述脸部皮肤区域图和所述人脸交换中间图像的容貌特征区域图融合，得到脸部融合区域图，包括：

融合所述目标人脸图像的容貌特征区域图和所述人脸交换中间图像的容貌特征区域图，得到容貌特征区域融合图；

将所述容貌特征区域融合图和所述脸部皮肤区域图融合，得到脸部融合区域图。

3.根据权利要求2所述的方法，其特征在于，所述融合所述目标人脸图像的容貌特征区域图和所述人脸交换中间图像的容貌特征区域图，得到容貌特征区域融合图，包括：

将所述目标人脸图像的容貌特征区域图和所述人脸交换中间图像的容貌特征区域图进行融合，得到原始融合图；

获取所述人脸交换中间图像的眼部特征区域图和所述目标人脸图像的眼部特征区域图；

将所述人脸交换中间图像的眼部特征区域图、所述目标人脸图像的眼部特征区域图和所述原始融合图进行融合，得到容貌特征区域融合图。

4.根据权利要求3所述的方法，其特征在于，所述将所述人脸交换中间图像的眼部特征区域图、所述目标人脸图像的眼部特征区域图和所述原始融合图进行融合，得到容貌特征区域融合图，包括：

针对所述原始融合图、所述人脸交换中间图像的眼部特征区域图和所述目标人脸图像的眼部特征区域图分别进行膨胀，得到膨胀融合图、第一眼部区域膨胀图和第二眼部区域膨胀图；

将所述到膨胀融合图、所述第一眼部区域膨胀图和所述第二眼部区域膨胀图进行融合，得到中间融合图；

针对所述中间融合图进行膨胀，得到容貌特征区域融合图。

5.根据权利要求2所述的方法，其特征在于，所述将所述容貌特征区域融合图和所述脸部皮肤区域图融合，得到脸部融合区域图，包括：

从所述脸部皮肤区域图中去除所述容貌特征区域融合图所覆盖的区域，得到脸部融合区域图。

6.根据权利要求1所述的方法，其特征在于，所述根据所述脸部融合区域图、所述人脸交换中间图像和所述目标人脸图像，得到人脸交换图像，包括：

确定所述人脸交换中间图像和所述目标人脸图像各自的融合权重；

将所述脸部融合区域图、所述人脸交换中间图像和所述目标人脸图像，按照所述融合权重进行加权融合，得到人脸交换图像。

7.根据权利要求1所述的方法，其特征在于，所述对所述人脸交换中间图像进行脸部特征区域分割，得到所述人脸交换中间图像的容貌特征区域图，包括：

对所述人脸交换中间图像进行至少一次的特征编码，得到所述人脸交换中间图像的像素空间编码特征；

提取所述人脸交换中间图像的图像语义特征；

将所述像素空间编码特征和所述图像语义特征融合，得到图像融合特征；

基于所述图像融合特征进行脸部特征区域分割，得到所述人脸交换中间图像的容貌特征区域图。

8.根据权利要求1所述的方法，其特征在于，所述确定所述目标人脸图像中人脸部位的容貌特征区域图和脸部皮肤区域图，包括以下至少一项：

对所述目标人脸图像中人脸部位进行脸部特征区域分割，得到所述目标人脸图像中人脸部位的容貌特征区域图和脸部皮肤区域图；

基于所述目标人脸图像的图像标识，查询得到所述目标人脸图像中人脸部位的容貌特征区域图和脸部皮肤区域图。

9.根据权利要求1所述的方法，其特征在于，所述通过所述源人脸图像中的人脸部位对所述目标人脸图像中的人脸部位进行人脸交换，得到人脸交换中间图像，包括：

提取所述源人脸图像的人脸部位的嵌入特征；

基于所述嵌入特征对所述目标人脸图像中的人脸部位进行人脸交换，得到人脸交换中间图像。

10.根据权利要求1至9任意一项所述的方法，其特征在于，所述方法还包括：

获取质感提升模型；所述质感提升模型是基于满足图像质感条件的图像集训练得到的；

通过所述质感提升模型对所述人脸交换图像中的人脸肤质进行处理，得到人脸肤质质感提升后的人脸交换图像。

11.根据权利要求10所述的方法，其特征在于，所述通过所述质感提升模型对所述人脸交换图像中的人脸肤质进行处理，得到人脸肤质质感提升后的人脸交换图像，包括：

从所述人脸交换图像中分割出脸部区域图像；

将所述脸部区域图像输入到所述质感提升模型中进行人脸肤质处理，得到人脸肤质质感提升后的脸部区域图像；

将所述人脸肤质质感提升后的脸部区域图像贴合回所述人脸交换图像中，得到人脸肤质质感提升后的人脸交换图像。

12.根据权利要求10所述的方法，其特征在于，所述方法还包括：

当人脸肤质质感提升后的人脸交换图像不满足质感提升结束判定条件，通过所述质感提升模型对人脸肤质质感提升后的人脸交换图像中的人脸肤质进行处理，获得重复质感提升后的人脸交换图像。

13.一种人脸图像处理装置，其特征在于，所述装置包括：

人脸交换模块，用于获取源人脸图像和目标人脸图像，通过所述源人脸图像中的人脸部位对所述目标人脸图像中的人脸部位进行人脸交换，得到人脸交换中间图像；

特征区域分割模块，用于对所述人脸交换中间图像进行脸部特征区域分割，得到所述人脸交换中间图像的容貌特征区域图；

特征区域图确定模块，用于确定所述目标人脸图像中人脸部位的容貌特征区域图和脸部皮肤区域图；

特征区域图融合模块，用于将所述目标人脸图像的容貌特征区域图、所述脸部皮肤区域图和所述人脸交换中间图像的容貌特征区域图融合，得到脸部融合区域图；

脸部融合区域图处理模块，用于根据所述脸部融合区域图、所述人脸交换中间图像和所述目标人脸图像，得到人脸交换图像。

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。

16.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。