CN113034355B

CN113034355B - 一种基于深度学习的肖像图像双下巴去除方法

Info

Publication number: CN113034355B
Application number: CN202110426710.0A
Authority: CN
Inventors: 吴奕谦; 金小刚
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2022-06-21
Anticipated expiration: 2041-04-20
Also published as: CN113034355A

Abstract

本发明公开了一种基于深度学习的肖像图像双下巴去除方法，包括以下步骤：随机采样训练得到粗糙双下巴分离边界，经过语义扩散细化得到对应的精细双下巴分离边界；输入需要去除双下巴的肖像图像并进行预处理，得到在StyleGAN2隐空间中对应的隐码；利用训练得到的精细双下巴分离边界对得到的隐码进行编辑，输出一张没有双下巴并且保持其他面部特征不变的新肖像图像；提取出新肖像图像的脖颈区域的掩膜；用图像扭曲方法调整新肖像图像中的偏差，使新肖像图像的脖颈和下巴无缝嵌入到所述需要去除双下巴的肖像图像中，计算得到去除双下巴后的肖像图像。本发明能够在保持人脸的其他特征不变的情况下进行双下巴的去除，实现快速自动地去除肖像照片中的双下巴。

Description

一种基于深度学习的肖像图像双下巴去除方法

技术领域

本发明涉及肖像编辑技术领域，特别是涉及一种基于深度学习的肖像图像双下巴去除方法。

背景技术

随着移动网络和摄影技术的飞速发展，以人脸为主要表现形式的肖像图像随处可见。特别是由于社交媒体应用在人类社会生活中占有的地位逐步升高，为了给他人更好的第一印象，使得肖像图像在社交媒体应用中变得非常重要。社交媒体应用的用户经常使用修饰工具来进一步美化他们的肖像图像，通过调整面部颜色形状，纠正阴影、噪声、畸变等问题。

肖像图像中的双下巴的出现不仅仅取决于下巴和脖颈的特征，也取决于人脸姿态和光照条件。大多数用户认为，消除肖像图像中的双下巴能够改进人脸的吸引力。

现阶段双下巴技术主要是通过美工利用Photoshop软件进行手动编辑会耗费大量人力物力。

“Maskgan:Towards diverse and interactive facial image manipulation”(In Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition,pages 5549-5558,2020)公开了使用掩膜作为中间表示来交互式编辑人脸，但是在人脸特征保持上并不理想。

“Interpreting the Latent Space of GANs for Semantic Face Editing”(InProceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition,pages9243-9252,2020)公开了一种能寻求语义属性在隐空间中对应的分离边界的方法，通过用分离边界编辑隐码，达到语义编辑的目的，但是语义无法被有效地解纠缠。

“A morphable model for the synthesis of 3D faces.”(InProceedings ofthe 26th annual conference on Computer graphics and interactive techniques,pages 187-194,1999)公开了三维形变模型(3DMM)，所述三维形变模型能够用参数表示三维人脸，但是没有对脖颈区域的有效建模。

“A style-based generator architecture for generative adversarialnetworks.”(InProceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition,pages 4401-4410,2019)和“Analyzing and improving the imagequality of stylegan”(InProceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition,pages 8110-8119,2020)公开了StyleGAN，所述StyleGAN是一种在生成非常高质量的图像的同时，构建一个解纠缠的隐空间的生成对抗模型。

公开号为CN 110956681 A的发明公开了一种结合卷积网络和邻域相似性的人像背景自动替换方法，该发明首先采用卷积网络进行目标对象分剖，得到人脸前景的初始轮廓。然后针对分割后的人像边界不光滑问题，采用随机全局采样，扩大采样范围，增加相邻像素的相似性约束，提高透明度的连续性。该发明通过卷积网络实现人类图像分剖，提高了复杂背景的人脸背景替换准确率。此外，发明采用邻域颜色相似性约束，使人像边界更平滑，提高了人脸背景替换的轮廓质量。解决了现有人像背景替换技术存在分割不准确、分割边界不平滑的问题。

公开号为CN 111598762 A的发明公开了一种生成式鲁棒图像隐写方法，包括：构建图像数据集，并对图像数据集进行预处理；构建并初始化深度学习网络架构；采用联合-精调式方法训练深度学习网络架构，得到网络架构模型；利用网络架构模型生成载密伪图并进行秘密通信，完成图像隐写过程。该发明提供的图像隐写方法，通过利用生成对抗网络StyleGAN，将秘密信息的嵌入过程融入到图像的生成过程中，构建一种能承担较大容量秘密信息并具备一定鲁棒性的生成式图像隐写架构，从而得到的生成式图像隐写方法具有嵌入的容量较大、生成的图像质量好、载密图像统计不可检测性强、实用性高等优点，并克服了现有的生成式图像隐写生成的载密图像质量差、嵌入容量低下、信息提取准确率不高等问题。

因此，在保持人脸的其他特征不变的情况下进行双下巴的去除是个非常有挑战性的问题。人脸的多样性非常丰富，这就要求模型有很好的泛化能力；语义的解纠缠是个非平凡问题，因为要获得标定好的数据集是很困难的；而生成新的下巴和脖颈需要有效的几何信息。

发明内容

本发明的目的在于提出一种基于深度学习的肖像图像双下巴去除方法，能够在保持人脸的其他特征不变的情况下进行双下巴的去除，实现快速自动地去除肖像照片中的双下巴。

一种基于深度学习的肖像图像双下巴去除方法，包括以下步骤：

(1)通过随机采样训练得到粗糙双下巴分离边界，再经过语义扩散细化得到对应的精细双下巴分离边界；所述精细双下巴分离边界用于直接编辑隐码从而消除图像中的双下巴，并保持面部基本不变，所述粗糙双下巴分离边界为编辑隐码后不能保持面部特征的分离边界；

(2)输入需要去除双下巴的肖像图像并进行预处理，得到在StyleGAN2隐空间中对应的隐码；

(3)利用步骤(1)中训练得到的精细双下巴分离边界对步骤(2)中得到的隐码进行编辑，得到一张没有双下巴并且保持其他面部特征不变的新肖像图像；

(4)提取出步骤(2)中输入的需要去除双下巴的肖像图像的脖颈区域的掩膜；

(5)用图像扭曲方法调整新肖像图像中的偏差，使新肖像图像的脖颈和下巴无缝嵌入到所述需要去除双下巴的肖像图像中，利用步骤(4)得到的掩膜计算得到去除双下巴后的肖像图像。

所述步骤(1)中，训练一个精细双下巴分离边界的具体步骤如下：

(1-1)随机采样得到N_w个隐码

将其输入到StyleGAN2的生成器中得到对应的随机采样肖像图像，训练一个双下巴分类器对所述随机采样肖像图像进行评分，根据式(I)得到隐码对应的分数：

s＝C(g(T(w,ψ))) (I)

其中，s为双下巴分数，C为双下巴分类器，g为StyleGAN2的生成器，g(T(w,ψ))为生成器输出的肖像图像，T为StyleGAN2中的截断技巧和堆栈操作；

T将

映射为

N_layer＝(log₂(Resolution)-1)×2，Resolution为输入图像的分辨率，ψ为截断技巧中的超参数，其缩放给定的w到中心

的偏差；

则对应的隐码-分数数据集为：

(1-2)基于所述的隐码-分数数据集(W,S)，利用支持向量机训练输出一个粗糙双下巴分离边界b_c的法向量n_c；

(1-3)采用粗糙双下巴分离边界编辑隐码w_d，所述w_d为隐码w中对应的有双下巴的肖像图像的隐码，根据式(III)合成一个没有双下巴的中间肖像图像

其中，α为控制n_c权重的超参数，σ为风格混合操作；

所述风格混合操作σ(A,B)将

的后N_style层替换为

的后N_style层，A和B的后N_style层分别为A和B的风格特征，通过替换操作，在不改变肖像图像结构的情况下进行风格迁移；

(1-4)提取w_d对应的原始肖像图像x^d＝g(T(w_d,ψ))的脖颈区域的掩膜m_neck；

(1-5)基于原始肖像图像x^d和中间肖像图像

计算输出先验信息

其中，⊙表示元素级别的乘法；

(1-6)利用截断技巧和堆栈操作，将所述

映射为

(1-7)将所述先验信息

的语义扩散入

中，得到不具有双下巴的肖像图像

及其对应的隐码

(1-8)基于成对的具有双下巴和不具有双下巴的隐码

和

得到对应的隐码-分数数据集：

采用支持向量机对(W+,S)′训练输出一个精细双下巴分离边界b_f的法向量n_f。

所述步骤(1-1)中，训练一个双下巴分类器对肖像图像进行评分的具体步骤如下：

(1-1-1)标定N_img0张不含有双下巴的肖像图像

和N_img1张含有双下巴的图像

得到如式(VI)所示的分类器训练数据集：

(X,S)＝{(x,0)|x∈X₀}∪{(x,1)|x∈X₁} (VI)

(1-1-2)对(X,S)中的各个肖像图像生成一个能覆盖脖颈部分的矩形掩膜m_C，将m_C对应的区域作为输入，训练双下巴分类器C，所述双下巴分类器C采用ResNeXt-50(32x4d)结构，将含有双下巴的肖像图像评分为1，将不含有双下巴的肖像图像评分为0。

所述步骤(1-4)中提取原始肖像图像x^d中脖颈区域的掩膜m_neck的具体步骤如下：

(1-4-1)采用FaceParsing从x^d中提取脸部的掩膜m_face和脖颈区域的初始掩膜

(1-4-2)采用面部识别技术从x^d中提取下巴的定标点，并且通过连线定标点得到下巴边缘曲线l_chin；

(1-4-3)根据式(VII)得到最佳脖颈掩膜m_neck：

其中，∪为联合操作，Θ为保留掩膜位于下巴边缘曲线l_chin下方部分的切割操作。

所述步骤(1-7)中，将所述先验信息

的语义扩散入

中的具体步骤如下：

(1-7-1)将

作为不具有双下巴的隐码

的初始值；

(1-7-2)根据式(VIII)计算得到像素级重构损失L_r：

(1-7-3)根据式(IX)计算得到结构级重构损失L_p：

其中，φ表示训练完成的VGG16模型；

(1-7-4)根据式(X)计算得到总损失L：

L＝λ_rL_r+λ_pL_p (X)其中，λ_r为像素级重构损失的权重，λ_p为结构级重构损失的权重；

(1-7-5)利用不断迭代优化

使得总损失L最小，得到最终语义扩散结果，

与

构成成对的具有双下巴和不具有双下巴的隐码。

将需要去除双下巴的肖像图像

使用StyleGAN2提供的投影器进行编码，得到相应的隐码

所述步骤(3)中，对步骤(2)中得到的隐码

进行编辑，得到一张没有双下巴并且保持其他面部特征不变的新肖像图像的具体步骤如下：

(3-1)对步骤(2)中得到的隐码

进行编辑，得到对应的没有双下巴并且保持其他面部特征不变的隐码

其中，α₀为控制n_f权重的超参数，所述超参数α₀的值可根据实际情况调整；

(3-2)将隐码

输入StyleGAN2的生成器中，得到一张没有双下巴并且保持其他面部特征不变的新肖像图像：

所述步骤(4)中，所述的肖像图像中脖颈区域的掩膜提取方法与所述步骤(1-4)中原始肖像图像x^d中脖颈区域的掩膜m_neck提取方法相同。

用图像扭曲方法调整新肖像图像中的偏差，将新肖像图像的脖颈和下巴无缝嵌入到所述需要去除双下巴的肖像图像中的具体步骤如下：

(5-1)提取没有双下巴并且保持其他面部特征不变的新肖像图像

脖颈区域的掩膜边缘的点集P^neck：

其中，

为新肖像图像

的脖颈边缘选择的点，N_point为新肖像图像

的脖颈边缘选取的点的个数；

(5-2)分别提取需要去除双下巴的肖像图像

和新肖像图像

中的点集P^face1和P^face2：

其中，

为从

的面部掩膜边缘选择的点，

为从

的面部掩膜边缘选择的点，

和

的y坐标相同，P⁰为一个固定的点集；

(5-3)基于P^face1构建Delaunay三角形集D，采用Delaunay三角形集D扭曲

即推拉P^face2到P^face1的位置，使

与

的面部边缘对齐；

(5-4)计算得到去除双下巴后的肖像图像x：

其中，warp为扭曲操作。

本发明还提供了一种肖像图像双下巴去除方法装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机处理器执行所述基于深度学习的肖像图像双下巴去除方法。

本发明相比现有技术，其优点在于：

1、本发明是一种简单、高效、稳定的自动去除双下巴的方法，能处理各种表情、姿态、年龄、性别不同的人脸，自动合成高质量的没有双下巴的图像，并应用于各种社交媒体和图像处理软件。

2、本发明提供了结构性人脸编辑方法，可直接对肖像图像的潜在空间进行编辑，并具有合理的语义操作和面部特征保留。

附图说明

图1本发明实施例中基于深度学习的肖像图像双下巴去除流程图。

图2本发明实施例中训练得到精细双下巴分离边界的流程图。

图3本发明实施例中对需要去除双下巴的肖像图像计算去除双下巴的流程图。

图4为图3中需要去除双下巴的肖像图像的照片。

图5为图4中去除双下巴后的肖像图像的照片。

具体实施方式

如图1所示，基于深度学习的肖像图像双下巴去除方法，包括以下步骤：

如图2所示，S1通过随机采样训练得到粗糙双下巴分离边界，再经过语义扩散细化得到对应的精细双下巴分离边界；精细双下巴分离边界用于直接编辑隐码从而消除图像中的双下巴，并保持面部基本不变，粗糙双下巴分离边界为编辑隐码后不能保持面部特征的分离边界。

S1中，训练得到一个精细双下巴分离边界的具体步骤如下：

S11随机采样得到N_w个隐码

s＝C(g(T(w,ψ))) (I)

T将

映射为

的偏差。

对应的隐码-分数数据集为：

其中，N_w的值为50000。

S11中训练一个双下巴分类器对肖像图像进行评分的具体步骤如下：

S111标定N_img0张不含有双下巴的肖像图像

和N_img1张含有双下巴的图像

得到如式(VI)所示的分类器训练数据集：

(X,S)＝{(x,0)|x∈X₀}∪{(x,1)|x∈X₁} (VI)

S112对(X,S)中的各个肖像图像生成一个能覆盖脖颈部分的矩形掩膜m_C，将m_C对应的区域作为输入，训练双下巴分类器C，双下巴分类器C采用ResNeXt-50(32x4d)结构，将含有双下巴的肖像图像评分为1，将不含有双下巴的肖像图像评分为0。

S12基于隐码-分数数据集(W,S)，采用支持向量机训练输出一个粗糙双下巴分离边界b_c的法向量n_c。

S13采用粗糙双下巴分离边界编辑隐码w_d，w_d为隐码w中对应的有双下巴的肖像图像的隐码，根据式(III)合成一个没有双下巴的中间肖像图像

其中，α为控制n_c权重的超参数，σ为风格混合操作。

风格混合操作σ(A,B)将

的后N_style层替换为

的后N_style层，A和B的后N_style层分别为A和B的风格特征，通过替换操作，在不改变肖像图像结构的情况下进行风格迁移，其中，根据实际操作N_style取值为11。

S14提取w_d对应的原始肖像图像x^d＝g(T(w_d,ψ))的脖颈区域的掩膜m_neck的具体步骤如下：

S141采用FaceParsing从x^d中提取脸部的掩膜m_face和脖颈区域的初始掩膜

FaceParsing方法公开于“Maskgan:Towards diverse and interactive facialimage manipulation”(InProceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition,pages 5549-5558,2020)。

S142采用面部识别技术从x^d中提取下巴的定标点，并且通过连线定标点得到下巴边缘曲线l_chin；

面部识别技术公开于“How far are we from solving the 2d&3d facealignment problem？(and a dataset of 230,000 3d facial landmarks)”(InProceedings of the IEEE International Conference on Computer Vision,pages1021-1030,2017)。

S143根据式(VII)计算得到最佳脖颈掩膜m_neck：

S15基于原始肖像图像x^d和中间肖像图像

计算输出先验信息

其中，⊙表示元素级别的乘法。

S16利用截断技巧和堆栈操作，将所述

映射为

S17将先验信息

的语义扩散入

中，得到不具有双下巴的肖像图像

及其对应的隐码

语义扩散方法公开于“In-domain gan inversion for real image editing”(InEuropean Conference on Computer Vision,pages 592-608,2020)。

将先验信息

的语义扩散入

中，得到不具有双下巴的肖像图像

及其对应的隐码

具体步骤如下：

S171将

作为不具有双下巴的隐码

的初始值；

S172根据式(VIII)计算得到像素级重构损失L_r：

S173根据式(IX)计算得到结构级重构损失L_p：

其中，φ表示训练完成的VGG16模型；

S174根据式(X)计算得到总损失L：

L＝λ_rL_r+λ_pL_p (X)

其中，λ_r为像素级重构损失的权重，λ_p为结构级重构损失的权重；

S175利用不断迭代优化

使得总损失L最小，得到最终语义扩散结果，

与

构成成对的具有双下巴和不具有双下巴的隐码。

S18基于成对的具有双下巴和不具有双下巴的隐码

和

得到对应的隐码-分数数据集：

以图4为例，测试S1所得模型，将带有双下巴的肖像图像进行双下巴的去除。

如图3所示，S2将需要去除双下巴的肖像图像

使用StyleGAN2提供的投影器进行编码，得到相应的隐码

S3利用S1训练得到的精细双下巴分离边界对S2得到的隐码进行编辑，得到一张没有双下巴并且保持其他面部特征不变的新肖像图像。

对S2中得到的隐码

S31对S2中得到的隐码

其中，α₀为控制n_f权重的超参数，超参数α₀的值可根据实际情况调整；

S32将隐码

S4提取出S2中输入的需要去除双下巴的肖像图像的脖颈区域的掩膜；需要去除双下巴的肖像图像中脖颈区域的掩膜提取方法与S14中原始肖像图像x^d中脖颈区域的掩膜m_neck提取方法相同。

S5用图像扭曲方法调整新肖像图像中的偏差，使新肖像图像的脖颈和下巴无缝嵌入到所述需要去除双下巴的肖像图像中，利用S4得到的掩膜计算得到去除双下巴后的肖像图像，具体步骤如下：

S51提取没有双下巴并且保持其他面部特征不变的新肖像图像

脖颈区域的掩膜边缘的点集P^neck：

其中，

为新肖像图像

的脖颈边缘选择的点，N_point为新肖像图像

的脖颈边缘选取的点的个数；

S52分别提取需要去除双下巴的肖像图像

和新肖像图像

中的点集P^face1和P^face2：

其中，

为从

的面部掩膜边缘选择的点，

为从

的面部掩膜边缘选择的点，

和

的y坐标相同，P⁰为一个固定的点集；

S53基于P^face1构建Delaunay三角形集D，采用Delaunay三角形集D扭曲

即推拉P^face2到P^face1的位置，使

与

的面部边缘对齐；

S54计算得到去除双下巴后的肖像图像x，如图5所示：

其中，warp为扭曲操作。

Claims

1.一种基于深度学习的肖像图像双下巴去除方法，其特征在于，包括以下步骤：

训练一个精细双下巴分离边界的具体步骤如下：

(1-1)随机采样得到N_w个隐码

s＝C(g(T(w,ψ))) (I)

其中，s为双下巴分数，C为双下巴分类器，g为StyleGAN2的生成器，g(T(w,ψ))为生成器输出的肖像图像，T为StyleGAN2中的截断技巧和堆栈操作，T将

映射为

的偏差；

则对应的隐码-分数数据集为：

(1-2)基于所述的隐码-分数数据集(W,S)，采用支持向量机训练输出一个粗糙双下巴分离边界b_c的法向量n_c；

其中，α为控制n_c权重的超参数，σ为风格混合操作；

所述风格混合操作σ(A,B)将

的后N_style层替换为

(1-5)基于原始肖像图像x^d和中间肖像图像

计算输出先验信息

其中，⊙表示元素级别的乘法；

(1-6)利用截断技巧和堆栈操作，将所述

映射为

(1-7)将所述先验信息

的语义扩散入

中，得到不具有双下巴的肖像图像

及其对应的隐码

(1-8)基于成对的具有双下巴和不具有双下巴的隐码

和

得到对应的隐码-分数数据集：

采用支持向量机对(W+,S)′训练输出一个精细双下巴分离边界b_f的法向量n_f；

2.如权利要求1所述的基于深度学习的肖像图像双下巴去除方法，其特征在于，所述步骤(1-1)中，训练一个双下巴分类器对肖像图像进行评分的具体步骤如下：

(1-1-1)标定N_img0张不含有双下巴的肖像图像

和N_img1张含有双下巴的图像

得到如式(VI)所示的分类器训练数据集：

(X,S)＝{(x,0)|x∈X₀}∪{(x,1)|x∈X₁} (VI)；

(1-1-2)对(X,S)中的各个肖像图像生成一个能覆盖脖颈部分的矩形掩膜m_C，将m_C对应的区域作为输入，训练双下巴分类器C，所述双下巴分类器C采用ResNeXt-50，32x4d结构，将含有双下巴的肖像图像评分为1，将不含有双下巴的肖像图像评分为0。

3.如权利要求1所述的基于深度学习的肖像图像双下巴去除方法，其特征在于，所述步骤(1-4)中提取原始肖像图像x^d中脖颈区域的掩膜m_neck的具体步骤如下：

(1-4-3)根据式(VII)得到最佳脖颈掩膜m_neck：

4.如权利要求3所述的基于深度学习的肖像图像双下巴去除方法，其特征在于，所述步骤(1-7)中，将所述先验信息

的语义扩散入

中的具体步骤如下：

(1-7-1)将

作为不具有双下巴的隐码

的初始值；

(1-7-2)根据式(VIII)计算得到像素级重构损失L_r：

(1-7-3)根据式(IX)计算得到结构级重构损失L_p：

其中，φ表示训练完成的VGG16模型；

(1-7-4)根据式(X)计算得到总损失L：

L＝λ_rL_r+λ_pL_p (X)

(1-7-5)利用不断迭代优化

使得总损失L最小，得到最终语义扩散结果，

与

构成成对的具有双下巴和不具有双下巴的隐码。

5.如权利要求3所述的基于深度学习的肖像图像双下巴去除方法，其特征在于，所述步骤(4)中，需要去除双下巴的肖像图像提取方法与所述步骤(1-4)中原始肖像图像x^d中脖颈区域的掩膜m_neck提取方法相同。

6.如权利要求1所述的基于深度学习的肖像图像双下巴去除方法，其特征在于，将需要去除双下巴的肖像图像

使用StyleGAN2提供的投影器进行编码，得到相应的隐码

7.如权利要求6所述的基于深度学习的肖像图像双下巴去除方法，其特征在于，所述步骤(3)中，对步骤(2)中得到的隐码

进行编辑，得到没有双下巴并且保持其他面部特征不变的新肖像图像的具体步骤如下：

(3-1)对步骤(2)中得到的隐码

(3-2)将隐码

8.如权利要求7所述的基于深度学习的肖像图像双下巴去除方法，其特征在于，用图像扭曲方法调整新肖像图像中的偏差，将新肖像图像的脖颈和下巴无缝嵌入到所述需要去除双下巴的肖像图像中的具体步骤如下：

脖颈区域的掩膜边缘的点集p^neck：

其中，

为新肖像图像

的脖颈边缘选择的点，N_point为新肖像图像

的脖颈边缘选取的点的个数；

(5-2)分别提取需要去除双下巴的肖像图像

和新肖像图像

中的点集P^face1和P^face2：

其中，

为从

的面部掩膜边缘选择的点，

为从

的面部掩膜边缘选择的点，

和

的y坐标相同，P⁰为一个固定的点集；

即推拉P^face2到P^face1的位置，使

与

的面部边缘对齐；

(5-4)计算得到去除双下巴后的肖像图像x：

其中，warp为扭曲操作。

9.一种基于深度学习的肖像图像双下巴去除方法装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，其特征在于，所述计算机处理器执行权利要求1～8任意一项所述的基于深度学习的肖像图像双下巴去除方法。