CN114049250A

CN114049250A - 一种证件照人脸姿态矫正方法、装置及介质

Info

Publication number: CN114049250A
Application number: CN202210036247.3A
Authority: CN
Inventors: 李博; 曹婉玉
Original assignee: Guangzhou Prestige Technology Co ltd
Current assignee: Guangzhou Prestige Technology Co ltd
Priority date: 2022-01-13
Filing date: 2022-01-13
Publication date: 2022-02-15
Anticipated expiration: 2042-01-13
Also published as: CN114049250B

Abstract

本发明提供了一种证件照人脸姿态矫正方法，其包括如下步骤：S1，获取证件照；S2，根据所述证件照获取人脸的旋转角度，并判断所述旋转角度是否在预设范围内；S3，当所述旋转角度不在预设范围内时，使用预设的人脸矫正模型对所述人脸进行矫正，生成矫正后的证件照；所述人脸矫正模型是使用ResNet50替换TP‑GAN的Light CNN，并且所述人脸矫正模型的总体损失函数在TP‑GAN的总体损失函数中增加头发损失。本发明通过改进TP‑GAN的神经网络以及在TP‑GAN的总体损失函数中增加头发损失，可以提高对用户的头发特征的识别，从而有效的解决了用户无法专注完成标准拍照姿态调整的情况下，对人脸角度进行自动矫正。

Description

一种证件照人脸姿态矫正方法、装置及介质

技术领域

本发明涉及图像处理技术领域，具体来说，涉及一种证件照人脸姿态矫正方法、装置及介质。

背景技术

在使用证件照设备拍摄证件照时，用户必须严格按照证件照的标准进行人脸位姿调整，需要完全正视摄像头，然而很多用户无法根据拍摄标准来调整人脸姿态，导致在拍摄过程中浪费了很多证件照的拍摄次数，以及拍摄时间较长，让后边排队的用户等候时间较长。

参考文献1（CN201910858868.8）公开的一种证件照自动拍摄方法及装置，包括监测被拍摄者身高；根据被拍摄者身高调整拍摄装置的拍摄高度；拍摄装置的左右屏幕同步播放动态画面，分别捕捉被拍摄者左右眼球的动线位置，锁定两眼球位置；动态调整屏幕画面，引导被拍摄者迁移视觉焦点，修正眼球位置和面部形态，并实时检测被拍摄者的眼球位置和面部形态，当检测到被拍摄者眼球位置和面部形态符合拍照规则时进行拍照；抠取拍摄照片中的人像，将人像与预选背景进行融合，并将融合后的图像剪切为证件照自动排版输出。可见，上述文献主要是对用户的眼球进行修正，从而达到自然拍照的效果，但是并未对用户不符合拍照标准的部位进行修正。针对上述问题，目前尚未有有效的技术解决方案。

参考文献2，提出了双通道生成对抗网络（Two-Pathway Generative AdversarialNetwork，TP-GAN），通过侧面人脸合成逼真的正面人脸视图。

参考文献1：CN201910858868.8

参考文献2：Beyond Face Rotation: Global and Local Perception GAN forPhotorealistic and Identity Preserving Frontal View Synthesis，rui huang et al.

本文提供的背景描述用于总体上呈现本公开的上下文的目的。除非本文另外指示，在该章节中描述的资料不是该申请的权利要求的现有技术并且不要通过包括在该章节内来承认其成为现有技术。

发明内容

针对相关技术中的上述技术问题，本发明提出了一种证件照人脸姿态矫正方法，其包括如下步骤：

S1，获取证件照；

S2，根据所述证件照获取人脸的旋转角度，并判断所述旋转角度是否在预设范围内；

S3，当所述旋转角度不在预设范围内时，使用预设的人脸矫正模型对所述人脸进行矫正，生成矫正后的证件照；所述人脸矫正模型是使用ResNet50替换TP-GAN的LightCNN，并且所述人脸矫正模型的总体损失函数在TP-GAN的总体损失函数中增加头发损失。

具体的，所述头发损失为

，其中S为头发区域的像素点集合，P为头发部分的像素点，

为头发部分p点的预测像素值，

为头发部分的p 点的真实像素值。

具体的，根据所述证件照获取人脸的旋转角度具体为：提取整个人脸的关键点，并对人脸关键点进行拟合，计算出人脸的3D仿射变换矩阵，并根据所述仿射变换矩阵计算人脸的旋转矩阵。

具体的，所述预设范围为相对于Z轴，Y轴，X轴为：[-10°，10°]、[-5°，5°]、[-10°，10°]。

具体的，使用SeetaFace人脸检测算法，获取人脸的68个关键点。

第二方面，本发明的另一个实施例提供了一种证件照拍摄设备，所述证件照拍摄设备包括如下单元：

证件照获取单元，用于获取证件照；

旋转角度获取单元，用于根据所述证件照获取人脸的旋转角度，并判断所述旋转角度是否在预设范围内；

人脸矫正单元，用于当所述旋转角度不在预设范围内时，使用预设的人脸矫正模型对所述人脸进行矫正，生成矫正后的证件照；所述人脸矫正模型是使用ResNet50替换TP-GAN的Light CNN，并且所述人脸矫正模型的总体损失函数在TP-GAN的总体损失函数中增加头发损失。

具体的，所述头发损失为

，其中S为头发区域的像素点集合，P为头发部分的像素点，

为头发部分p点的预测像素值，

为头发部分的p 点的真实像素值。

第三方面，本发明的另一个实施例提供了一种非易失性存储器，所述存储上存储有指令，所述指令被处理器执行时，用于实现上述证件照人脸姿态矫正方法。

本发明的证件照姿态矫正方法，通过改进TP-GAN的神经网络以及在TP-GAN的总体损失函数中增加头发损失，可以提高对用户的头发特征的识别，从而有效的解决了用户无法专注完成标准拍照姿态调整的情况下，对人脸角度进行自动矫正，使其在有偏转的情况下自动矫正至正脸图像，可以提高用户的体验，以节约用户的拍摄时间，提高用户拍摄证件照的体验度和便捷性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供一种证件照人脸姿态矫正方法的流程图；

图2是本发明实施例提供的TP-GAN网络结构示意图；

图3是本发明实施例提供的一种证件照拍摄设备示意图；

图4是本发明实施例提供的一种证件照人脸姿态矫正设备示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

参考图1，本实施例公开了一种证件照人脸姿态矫正方法，其包括如下步骤：

S1，获取证件照；

本步骤使用证件照设备获取证件照。

本实施例采用SeetaFace人脸检测算法，利用68点定位法提取整个人脸的关键点。采用opencv solvepnp函数来将这68个人脸关键点进行拟合，计算出人脸pose的3D仿射变换矩阵，该矩阵包含旋转信息

（rotation vection）和平移信息（translation vector）。

根据公式

计算出人脸的沿着Z轴旋转角度

，计算出人脸沿着Y轴旋转角度

，计算出人脸沿着X轴旋转角度

。

当人脸姿态角度

的合规角度分别为[-10°，10°]、[-5°，5°]、[-10°，10°]，当人脸姿态角度超出这个范围的话则判断该人脸姿态转角过大，不符合证件照拍摄标准。

本实施例通过对TP-GAN双路径对抗神经网络进行改进，以适应证件照环境下的多角度人脸的精细转正。由于证件照对头发的要求也比较高，需要头发不能遮挡人脸，以及不能染发不能耸立过高等要求，所以在生成图像的时候需要考虑到头发特征信息。

参考图2，图2是TP-GAN神经网络的结构示意图，TP-GAN使用双路CNN编码器和解码器来进行用从不同的侧面照合成正面照作为学习合成函数，分别标记为

和

，其中g表示全局卷积结构通路，l表示局部卷积纹理通路。

表示全卷机结构通路编码器，

表示全卷积神经网络解码器，

表示局部卷积纹理通路编码器，

表示局部卷积纹理通路解码器。

TP-GAN原网络采用Light CNN提取真实图片和生成图片的高维特征向量来保留生成图的身份信息，这种方法对头发部分的关注度较少。其总体损失函数为：

。

其中

、

、

、

为对应对称损失、总差分正则化、对抗损失、身份保持损失的权重。

TP-GAN对头发部分的关注度较少，并且总体损失函数中也没有考虑头发的因素，本实施例采用ResNet50作为损失计算的主干网络以优化对头发的特征的提取，并且在总体损失函数中增加头发损失。

本实施例采用的双路径对抗生成网络分两个步骤，一是对生成器进行优化，二是生成对抗网络依靠样本分布概率特性的损失函数，对生成器和判别器的权重参数进行交替训练优化。

首先，构建生成器

优化损失函数如下：

其中

为生成器的损失函数，

为输入的待生成图像，

为输入的标准图像，

为人脸总体损失，N为样本个数，

为标准样本正面照图片（GroundTruth），

表示全卷机结构通路编码器，

为全局结构通路损失所占权重，其计算方式如下：

①像素损失，采用L1正则化来计算预测图像合成时的像素损失，计算公式如下：

其中，

为图像合成的像素损失，W为图像的宽，H为图像的高，

为合成图像的像素值，

为标准图像的像素值。

②对称损失，因为人脸一般为对称人脸，为解决侧转角导致人脸有遮挡的问题，需要引入图像对称损失，计算对称损失的公式如下：

其中，

为图像合成的对称损失，W为图像的宽，H为图像的高，

为合成图像的像素值，

为标准图像的像素值。

③对抗损失，

，

为判别网络，输出对抗生成图像与原图的误差损失。

④身份保持损失，

，其中

表示输入图像的宽度，

表示输入图像的高度，

表示原图像人脸特征值，

表示生成图像人脸特征值。

⑤头发损失，

，其中S为头发区域的像素点集合，P 为头发部分的像素点，

为头发部分p点的预测像素值，

为头发部分的p点的真实像素值

⑥总差分正则化，GAN模型生成的图像会产生很多人工伪影，为降低这些人工伪影，需要加入总变分正则化项来环节这一问题。

其中，

为生成图像总则差分正则化，W为图像的宽，H为图像的高，C为图像像素通道，

为图像（w，h）点像素的各通道像素值。

⑦综合总体损失函数如下：

。

其中

、

、

、

、

为对应对称损失、总差分正则化、对抗损失、身份保持损失、头发损失的权重。

其次，根据生成器的生成数据分布特性与训练样本集的数据概率交替训练生成器和判别器，损失函数如下：

。其中

为判别网络，

为生成器生成数据和判别器数据的分布期望。

本实施例对人脸矫正模型的训练过程如下：

（1）数据集制作

（1a）采集智惠易拍照机拍到的500个志愿者所提供的不同角度的不合格各10张，总共5000张图像作为不合格照片；采集智惠易拍照机拍到的相同500个志愿者所提供的标准正面头部姿态合规照片10张总共5000张图像作为合格照片；

（1b）获取人脸的旋转角度；

（1d）当人脸姿态角度

的合规角度分别为[-10°,10°]、[-5°,5°]、[-10°,10°]，当人脸姿态角度超出这个范围的话则判断该人脸姿态转角过大，不符合证件照拍摄标准。

（1e）将选取的500个志愿者的10张不合格照片与10张合格照片一一组成图像训练图像对

（2）模型训练

（2a）将128对

样本作为一个批次送入训练网络，使用SGD优化器对每个批次的双路径对抗神经网络的损失函数进行优化并进行反向传播，当模型的损失代价下降到指定精度的时候停止迭代。

（2b）训练每个批次的时候，以64对

样本作为一个批次送入作为训练测试，观察测试集的准确度和召回率。

本实施例的证件照姿态矫正方法，通过改进TP-GAN的神经网络以及在TP-GAN的总体损失函数中增加头发损失，可以提高对用户的头发特征的识别，从而有效的解决了用户无法专注完成标准拍照姿态调整的情况下，对人脸角度进行自动矫正，使其在有偏转的情况下自动矫正至正脸图像，可以提高用户的体验，以节约用户的拍摄时间，提高用户拍摄证件照的体验度和便捷性。

实施例二

参考图3，本实施例公开了一种证件照拍摄设备，所述证件照拍摄设备包括如下单元：

证件照获取单元，用于获取证件照；

（rotation vection）和平移信息（translation vector）。

根据公式

计算出人脸的沿着Z轴旋转角度

，计算出人脸沿着Y轴旋转角度

，计算出人脸沿着X轴旋转角度

。

当人脸姿态角度

和

，其中g表示全局卷积结构通路，l表示局部卷积纹理通路。

。

首先，构建生成器

优化损失函数如下：

其中

为生成器的损失函数，

为输入的待生成图像，

为输入的标准图像，

为人脸总体损失，其计算方式如下：

其中，

为图像合成的像素损失，W为图像的宽，H为图像的高，

为合成图像的像素值，

为标准图像的像素值。

其中，

为图像合成的对称损失，W为图像的宽，H为图像的高，

为合成图像的像素值，

为标准图像的像素值。

③对抗损失，

④身份保持损失，

⑤头发损失，

，其中S为头发区域的像素点集合，P 为头发部分的像素点，

为头发部分p点的预测像素值，

为头发部分的p点的真实像素值

其中，

为图像（w，h）点像素的各通道像素值。

⑦综合总体损失函数如下：

。

。

本实施例的证件照拍摄设备，通过改进TP-GAN的神经网络以及在TP-GAN的总体损失函数中增加头发损失，可以提高对用户的头发特征的识别，从而有效的解决了用户无法专注完成标准拍照姿态调整的情况下，对人脸角度进行自动矫正，使其在有偏转的情况下自动矫正至正脸图像，可以提高用户的体验，以节约用户的拍摄时间，提高用户拍摄证件照的体验度和便捷性。

实施例三

参考图4，图4是本实施例的一种证件照人脸姿态矫正设备的结构示意图。该实施例的证件照人脸姿态矫正设备20包括处理器21、存储器22以及存储在所述存储器22中并可在所述处理器21上运行的计算机程序。所述处理器21执行所述计算机程序时实现上述方法实施例中的步骤。或者，所述处理器21执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器22中，并由所述处理器21执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述证件照人脸姿态矫正设备20中的执行过程。例如，所述计算机程序可以被分割成实施例二中的各个模块,各模块具体功能请参考上述实施例所述的装置的工作过程，在此不再赘述。

所述证件照人脸姿态矫正设备20可包括，但不仅限于，处理器21、存储器22。本领域技术人员可以理解，所述示意图仅仅是证件照人脸姿态矫正设备20的示例，并不构成对证件照人脸姿态矫正设备20的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述证件照人脸姿态矫正设备20还可以包括输入输出设备、网络接入设备、总线等。

所述处理器21可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器21是所述证件照人脸姿态矫正设备20的控制中心，利用各种接口和线路连接整个证件照人脸姿态矫正设备20的各个部分。

所述存储器22可用于存储所述计算机程序和/或模块，所述处理器21通过运行或执行存储在所述存储器22内的计算机程序和/或模块，以及调用存储在存储器22内的数据，实现所述证件照人脸姿态矫正设备20的各种功能。所述存储器22可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述证件照人脸姿态矫正设备20集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器21执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。