CN114596237A

CN114596237A - 一种保留用户特征的自适应五官融合方法、装置以及设备

Info

Publication number: CN114596237A
Application number: CN202210119316.7A
Authority: CN
Inventors: 江玥
Original assignee: Xiamen Meitu Technology Co Ltd
Current assignee: Xiamen Meitu Technology Co Ltd
Priority date: 2022-02-08
Filing date: 2022-02-08
Publication date: 2022-06-07

Abstract

本发明公开了一种保留用户特征的自适应五官融合方法、装置、设备及存储介质，其包括：对源人脸图像以及模特参照图进行预处理，得到第一人脸图以及第二人脸图，其中，所述预处理包括人脸对齐和人脸裁剪，所述模特参照图用于将所述模特参照图中的五官部位融合至所述源人脸图像的参照图；将所述第一人脸图以及所述第二人脸图输入预先训练得到的五官融合模型中，得到融合后的人脸结果图，其中，所述五官融合模型包括对应每一五官部位的五官子网络以及融合网络，所述五官子网络包括用于对所述第一人脸图以及所述第二人脸图进行特征提取与特征融合的SDFEF模块。能够保留用户自有的五官细节特征，使得融合效果更加自然和清晰。

Description

一种保留用户特征的自适应五官融合方法、装置以及设备

技术领域

本发明涉及图像处理技术领域，尤其涉及一种保留用户特征的自适应五官融合方法、装置以及设备。

背景技术

任意给定一张用户图和一张参考图，将参考图五官融合到用户图脸上的算法叫做五官融合算法。但是目前已有的绝大部分五官融合算法，更类似于“换脸”算法，即尽可能地让融合图与参考图的五官特征相似，很少考虑对用户五官特征的保留。这样会使已有算法只局限于换脸玩法的场景，但是用户在日常修图的时候，更希望在保留自己五官特征的情况下，融入参考图的一些比较美观的特征，从而达到自然变美的目的。

发明内容

有鉴于此，本发明的目的在于提出一种保留用户特征的自适应五官融合方法和装置以及设备，旨在解决现有的五官融合方式无法保留用户自有的五官细节特征，导致融合处理后不够自然的问题。

为实现上述目的，本发明提供一种保留用户特征的自适应五官融合方法，所述方法包括：

对源人脸图像以及模特参照图进行预处理，得到第一人脸图以及第二人脸图，其中，所述预处理包括人脸对齐和人脸裁剪，所述模特参照图用于将所述模特参照图中的五官部位融合至所述源人脸图像的参照图；

将所述第一人脸图以及所述第二人脸图输入预先训练得到的五官融合模型中，得到融合后的人脸结果图，其中，所述五官融合模型包括对应每一五官部位的五官子网络以及融合网络，所述五官子网络包括用于对所述第一人脸图以及所述第二人脸图进行特征提取与特征融合的SDFEF模块。

优选的，所述将所述第一人脸图以及所述第二人脸图输入预先训练得到的五官融合模型中，得到融合后的人脸结果图，包括：

分别提取所述第一人脸图以及所述第二人脸图的每一五官部位；

将至少一对五官部位输入对应的所述五官子网络中，得到对应五官部位的融合部位图，其中，所述一对五官部位为所述第一人脸图以及所述第二人脸图的同一五官；

将各个所述融合部位图输入所述融合网络中，得到第一结果图，将所述第一结果图贴回至所述源人脸图像，得到所述人脸结果图。

优选的，所述SDFEF模块包括用于所述特征提取的wavelet和CBAM，以及用于所述特征融合的self-attention和soft-mask。

优选的，所述五官融合模型基于GAN网络进行构建；所述五官融合模型的网络训练过程，包括：

基于人脸点将所获取的图像训练数据进行人脸对齐和人脸裁剪，得到人脸训练数据，其中，所述人脸训练数据包括用户图和参考图；

利用所述人脸点分别提取所述用户图和所述参考图的每一五官部位以及对应每一五官部位的五官蒙版；

分别将所提取的所述用户图的各个五官部位、所述参考图的各个五官部位以及各个五官部位的五官蒙版基于相同五官部位进行拼接后，输入至对应的每一所述五官子网络进行训练。

优选的，还包括：

利用损失函数Loss对所述用户图和所述参考图在网络训练过程中进行监督优化，并在所述损失函数Loss中通过引入自适应融合参数α平衡所述用户图和所述参考图的权重。

优选的，所述损失函数Loss包括：

Loss＝L_gan+L_mse+α*(L_id-u+L_fd-u)+(1-α)*(L_id-r+L_fd-r)，

其中，L_gan和L_mse分别表示ganloss和mse loss，L_id-u、L_fd-u分别表示生成图和用户图的idloss、人脸点loss，L_id-r、L_fd-r分别表示生成图和参考图的idloss、人脸点loss。

为实现上述目的，本发明还提供一种保留用户特征的自适应五官融合装置，所述装置包括：

预处理单元，用于对源人脸图像以及模特参照图进行预处理，得到第一人脸图以及第二人脸图，其中，所述预处理包括人脸对齐和人脸裁剪，所述模特参照图用于将所述模特参照图中的五官部位融合至所述源人脸图像的参照图；

五官融合单元，用于将所述第一人脸图以及所述第二人脸图输入预先训练得到的五官融合模型中，得到融合后的人脸结果图，其中，所述五官融合模型包括对应每一五官部位的五官子网络以及融合网络，所述五官子网络包括用于对所述第一人脸图以及所述第二人脸图进行特征提取与特征融合的SDFEF模块。

为了实现上述目的，本发明还提出一种设备，包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序被所述处理器执行以实现如上述实施例所述的一种保留用户特征的自适应五官融合方法的步骤。

为了实现上述目的，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行以实现如上述实施例所述的一种保留用户特征的自适应五官融合方法的步骤。

有益效果：

以上方案，通过在五官融合模型中的设计的SDFEF模块能够更合理地提取特征并保留五官细节，实现源人脸图像以及模特参照图的特征更自然地进行融合。

以上方案，通过将五官拆分成对应五官部位的多个五官子网络分别生成各个区域融合结果，能够更好的控制想要融合或者保留的五官特征，增强了整体融合效果的可控性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有方案融合后的五官存在伪影的结果示意图。

图2为本发明一实施例提供的一种保留用户特征的自适应五官融合方法的流程示意图。

图3为本发明一实施例提供的整体流程示意图。

图4为本发明一实施例提供的眼睛部位的五官子网络的结构示意图。

图5为本发明一实施例提供的SDFEF模块的结构示意图。

图6为本发明一实施例提供的利用wavelet提取眼睛部位的效果示意图。

图7为本发明一实施例提供的对应五官部位的标注示意图。

图8为本发明一实施例提供的一种保留用户特征的自适应五官融合装置的结构示意图。

发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

在本发明的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

以下结合实施例详细阐述本发明的内容。

另外，在现有中部分基于深度学习的五官融合算法，还存在其他问题：由于主要通过ID loss实现与参考图特征的监督，虽然大致看起来和参考图人脸类似，但是很难针对性地学习到用户想要的特定五官特征(如双眼皮、鼻型、眉形等)，可控性较低，并且结果图很容易出现清晰度较低、存在不自然的伪影等问题，可参照图1所示。

基于此，本发明提出一种保留用户特征的自适应五官融合方法，能够保留五官细节，并且实现所生成的结果图在融合后更自然、清晰度更高以及细节更加真实的结果。

参照图2所示为本发明一实施例提供的一种保留用户特征的自适应五官融合方法的流程示意图。

本实施例中，该方法包括：

S11，对源人脸图像以及模特参照图进行预处理，得到第一人脸图以及第二人脸图，其中，所述预处理包括人脸对齐和人脸裁剪，所述模特参照图用于将所述模特参照图中的五官部位融合至所述源人脸图像的参照图。

S12，将所述第一人脸图以及所述第二人脸图输入预先训练得到的五官融合模型中，得到融合后的人脸结果图，其中，所述五官融合模型包括对应每一五官部位的五官子网络以及融合网络，所述五官子网络包括用于对所述第一人脸图以及所述第二人脸图进行特征提取与特征融合的SDFEF模块。

进一步的，所述将所述第一人脸图以及所述第二人脸图输入预先训练得到的五官融合模型中，得到融合后的人脸结果图，包括：

S12-1，分别提取所述第一人脸图以及所述第二人脸图的每一五官部位；

S12-2，将至少一对五官部位输入对应的所述五官子网络中，得到对应五官部位的融合部位图，其中，所述一对五官部位为所述第一人脸图以及所述第二人脸图的同一五官；

S12-3，将各个所述融合部位图输入所述融合网络中，得到第一结果图，将所述第一结果图贴回至所述源人脸图像，得到所述人脸结果图。

如图3所示。在本实施例中，通过对源人脸图像以及模特参照图进行人脸对齐，以及裁剪图像到脸部范围，得到第一人脸图以及第二人脸图。在具体实施中，通过利用人脸点画出第一人脸图和第二人脸图的各个五官部位以及对应的mask，其中，五官部位包括眉毛、眼睛、鼻子以及嘴巴，将四个部分分别通过对应五官子网络，得到区域融合结果。例如以Eye-Net为例，如图4所示为眼睛部位的五官子网络的结构示意图，其他五官部位的五官子网络的结构及处理流程与其一致。进一步的，将第一人脸图、第二人脸图对应抠出的眼睛部位以及mask输入SDFEF模块，分别对第一人脸图以及第二人脸图的眼睛部位提取特征并进行特征融合，再将融合后的特征经过resblocks和上采样、卷积，得到融合后的眼睛图。最后通过融合网络融合各五官子网络的五官融合结果，得到完整的脸部效果，最后贴回原图得到最终结果。进一步的，在使用阶段可以通过选择性的利用五官子网络，达到控制融合人脸部分区域的效果。比如只想迁移眼睛部位的话，只利用眼睛部位的五官子网络得到眼睛图，再和用户本身的眉毛、鼻子、嘴巴图一起输入融合网络，即可得到最终的效果图。

其中，所述五官融合模型基于GAN网络进行构建；所述五官融合模型的网络训练过程，包括：

基于人脸点将所获取的图像训练数据进行人脸对齐和人脸裁剪，得到人脸训练数据，所述人脸训练数据包括用户图和参考图；

其中，所述SDFEF模块包括用于所述特征提取的wavelet和CBAM，以及用于所述特征融合的self-attention和soft-mask。

在本实施例中，通过选择一批高清的人脸图像数据作为训练集，按照统一的标准人脸点进行人脸对齐，将图像数据集中不同角度的人脸摆正，裁剪图像到脸部范围；通过人脸点画出用户图和参考图的眉毛、眼睛、鼻子、嘴巴四个mask，通过mask抠出对应区域，例如以眼睛为例，将用户图眼睛(3通道)、参考图眼睛(3通道)和mask(1通道)拼接在一起，形成7通道的图像输入对应的眼睛五官子网络进行训练。

本实施例以GAN(生成对抗网络)为基础结构进行网络构建，并将五官部位拆分成对应的4个五官子网络分别生成，并在每个五官子网络设有自注意力五官细节特征提取与融合模块(SDFEF，Self-attention Detail Feature Extract and Fusion)，可参照图5所示的SDFEF模块的结构示意图。具体的，在特征提取部分，主要利用wavelet和CBAM所结合的结构进行特征提取，通过上述结构能通过wavelet提取到图像的细节特征，而引入CBAM更能够通过注意力机制，对特征的通道和空间尺度重新分配权重。通过这两者的结合，能够更合理地学习图像的细节特征，提升结果图的清晰度。如图6所示的利用wavelet提取眼睛部位的效果示意图。进一步的，在特征融合部分，结合了self-attention和soft-mask。首先通过self-attention提升对空间尺度的注意力，对特征重新分配权重，然后通过一个自学习的soft-mask，在空间尺度上，对每个像素对应的特征进行单独的带权重融合。在一般的特征融合方式会采用直接拼接特征的方式，这种方式没有考虑到特征的空间关系，融合非常粗暴。因此，相比于传统的特征拼接方案，上述结构能够更加辅助网络进一步区分参考图和用户图各自需要注意的特征，并且能够在空间尺度上，将参考图和用户图的特征更自然地进行融合。

进一步的，利用损失函数Loss对所述用户图和所述参考图在网络训练过程中进行监督优化，并在所述损失函数Loss中通过引入自适应融合参数α平衡所述用户图和所述参考图的权重。

其中，所述损失函数Loss包括：

Loss＝L_gan+L_mse+α*(L_id-u+L_fd-u)+(1-α)*(L_id-r+L_fd-r)，其中，L_gan和L_mse分别表示ganloss和mse loss，L_id-u、L_fd-u分别表示生成图和用户图的idloss、人脸点loss，L_id-r、L_fd-r分别表示生成图和参考图的idloss、人脸点loss。

在本实施例中，在soft-mask的基础上，通过全连接层学习一个自适应融合参数α，在训练loss中通过α平衡参考图和用户图的监督权重，公式如下：

Loss＝L_gan+L_mse+α*(L_id-u+L_fd-u)+(1-α)*(L_id-r+L_fd-r)

其中，L_gan和L_mse分别代表ganloss和mse loss，L_id-u、L_fd-u分别代表生成图和用户图之间的idloss、人脸点loss，L_id-r、L_fd-r分别代表生成图和参考图之间的idloss、人脸点loss，其中，生成图表示通过五官子网络以及融合网络融合后所得到的最终的全脸生成图。该自适应融合参数α通过直接调整训练中的loss监督，能够更好地引导网络保留更多的用户五官特征，并能够生成更自然的融合效果。

在本实施例中，通过四个独立的五官子网络，对眉毛、眼睛、鼻子、嘴巴分别进行生成，再通过简单的融合网络对迁移的五官和用户图进行融合，能够比一般的GAN算法得到更为精细的五官生成效果。并且，已有算法基本都是对整张人脸进行监督训练，很难保证每个五官部位的融合效果。因此，本实施例通过针对不同的五官部位，定义了一系列显著影响外观的特征，将这些特征整合进五官子网络的监督loss，进行进一步的针对性学习，各五官子网络的针对性特征参见下表1以及图7对应的五官部位示意图。其中，f代表每个点的像素坐标，下标y代表y轴坐标。通过这些针对性特征的监督，能够显著提升融合结果图与参考图的局部特征相似度，并且提供了人为选择五官特征的思路，能够更好的控制想要融合或者保留的五官特征，增强了整体融合效果的可控性。

表1

综上，在具体应用时，能够对任意用户图以及参考图通过该五官融合模型中即可实现五官迁移，不存在角度、光线、肤色等限制，应用场景更广泛；并且，五官迁移结果融合自然，在迁移部分五官区域和全部五官迁移的情况下都能够很好适应，在融合参考图五官特征的情况下，保证用户图整体效果的美观。再有，通过五官子网络实现各区域分别生成，能够保证迁移五官的高清晰度和真实细节，能够自由选择迁移的五官区域，支持眉毛、眼睛、鼻子、嘴巴分别迁移和自由组合，区域可控性高。

参照图8所示为本发明一实施例提供的一种保留用户特征的自适应五官融合装置的结构示意图。

在本实施例中，该装置80包括：

预处理单元81，用于对源人脸图像以及模特参照图进行预处理，得到第一人脸图以及第二人脸图，其中，所述预处理包括人脸对齐和人脸裁剪，所述模特参照图用于将所述模特参照图中的五官部位融合至所述源人脸图像的参照图；

五官融合单元82，用于将所述第一人脸图以及所述第二人脸图输入预先训练得到的五官融合模型中，得到融合后的人脸结果图，其中，所述五官融合模型包括对应每一五官部位的五官子网络以及融合网络，所述五官子网络包括用于对所述第一人脸图以及所述第二人脸图进行特征提取与特征融合的SDFEF模块。

进一步的，所述五官融合单元82，包括：

五官提取单元，用于分别提取所述第一人脸图以及所述第二人脸图的每一五官部位；

第一处理单元，用于将至少一对五官部位输入对应的所述五官子网络中，得到对应五官部位的融合部位图，其中，所述一对五官部位为所述第一人脸图以及所述第二人脸图的同一五官；

第二处理单元，用于将各个所述融合部位图输入所述融合网络中，得到第一结果图，将所述第一结果图贴回至所述源人脸图像，得到所述人脸结果图。

进一步的，所述SDFEF模块包括用于所述特征提取的wavelet和CBAM，以及用于所述特征融合的self-attention和soft-mask。

进一步的，所述五官融合模型基于GAN网络进行构建；所述五官融合模型的网络训练过程，包括：

进一步的，还包括：

进一步的，所述损失函数Loss包括：

Loss＝L_gan+L_mse+α*(L_id-u+L_fd-u)+(1-α)*(L_id-r+L_fd-r)，

该装置80的各个单元模块可分别执行上述方法实施例中对应步骤，故在此不对各单元模块进行赘述，详细请参见以上对应步骤的说明。

本发明实施例还提供一种设备，该设备包括如上所述的保留用户特征的自适应五官融合装置，其中，保留用户特征的自适应五官融合装置可以采用图8实施例的结构，其对应地，可以执行图2所示方法实施例的技术方案，其实现原理和技术效果类似，详细可以参见上述实施例中的相关记载，此处不再赘述。

所述设备包括：手机、数码相机或平板电脑等具有拍照功能的设备，或者具有图像处理功能的设备，或者具有图像显示功能的设备。所述设备可包括存储器、处理器、输入单元、显示单元、电源等部件。

其中，存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(例如图像播放功能等)等；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器和输入单元对存储器的访问。

输入单元可用于接收输入的数字或字符或图像信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，本实施例的输入单元除了包括摄像头，还可包括触敏表面(例如触摸显示屏)以及其他输入设备。

显示单元可用于显示由用户输入的信息或提供给用户的信息以及设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元可包括显示面板，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器以确定触摸事件的类型，随后处理器根据触摸事件的类型在显示面板上提供相应的视觉输出。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现图2所示的保留用户特征的自适应五官融合方法。所述计算机可读存储介质可以是只读存储器，磁盘或光盘等。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例、设备实施例及存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

并且，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

上述说明示出并描述了本发明的优选实施例，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种保留用户特征的自适应五官融合方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种保留用户特征的自适应五官融合方法，其特征在于，所述将所述第一人脸图以及所述第二人脸图输入预先训练得到的五官融合模型中，得到融合后的人脸结果图，包括：

3.根据权利要求1所述的一种保留用户特征的自适应五官融合方法，其特征在于，所述SDFEF模块包括用于所述特征提取的wavelet和CBAM，以及用于所述特征融合的self-attention和soft-mask。

4.根据权利要求1所述的一种保留用户特征的自适应五官融合方法，其特征在于，所述五官融合模型基于GAN网络进行构建；所述五官融合模型的网络训练过程，包括：

5.根据权利要求4所述的一种保留用户特征的自适应五官融合方法，其特征在于，还包括：

6.根据权利要求5所述的一种保留用户特征的自适应五官融合方法，其特征在于，所述损失函数Loss包括：

Loss＝L_gan+L_mse+α*(L_id-u+L_fd-u)+(1-α)*(L_id-r+L_fd-r)，

其中，L_gan和L_mse分别表示gan loss和mse loss，L_id-u、L_fd-u分别表示生成图和用户图的id loss、人脸点loss，L_id-r、L_fd-r分别表示生成图和参考图的id loss、人脸点loss。

7.一种保留用户特征的自适应五官融合装置，其特征在于，所述装置包括：

8.一种设备，其特征在于，包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序被所述处理器执行以实现如权利要求1至6任意一项所述的一种保留用户特征的自适应五官融合方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1至6任意一项所述的一种保留用户特征的自适应五官融合方法的步骤。