CN109087261B

CN109087261B - 基于非受限采集场景的人脸矫正方法

Info

Publication number: CN109087261B
Application number: CN201810874734.0A
Authority: CN
Inventors: 张至先; 陈远浩; 孔屹平; 曹汉卿
Original assignee: Shanghai Yitu Network Science and Technology Co Ltd
Current assignee: Shanghai Yitu Network Science and Technology Co Ltd
Priority date: 2018-08-03
Filing date: 2018-08-03
Publication date: 2020-08-18
Anticipated expiration: 2038-08-03
Also published as: CN109087261A

Abstract

本发明涉及一种基于非受限采集场景的人脸矫正方法，包括：人脸姿态估计，二维人脸关键点定位，三维人脸关键点定位，以及三维矫正的步骤，最终得到矫正后的二维图像。与现有技术相比，本发明能够有效的提高非受限场景下采集的人脸的矫正效果。

Description

基于非受限采集场景的人脸矫正方法

技术领域

本发明涉及一种基于非受限采集场景的人脸矫正方法。

背景技术

如今，计算机视觉人脸技术已经在安防、金融、互联网等多个领域发挥重要的作用。人脸矫正作为计算机视觉中的一项关键技术也得到长足发展，一般来说，人脸矫正技术，是基于一张有一定姿态角度的人脸原始图像，在经过人脸检测的预处理之后，得到了画面中人的人脸检测框作为输入，经过矫正处理后，输出一张经过矫正后的人脸图像，在尽量保留原始人脸特点信息，并且避免失真的前提下，将人脸矫正为正脸。

现有的人脸矫正技术有三种方式，最简单的是通过人脸关键点和一张标准正脸进行匹配，然后通过相似变换，缩放并旋转到标准正脸上，这样的做法可以解决人脸面内旋转的矫正问题，但无法解决面外旋转问题(包括X方向的低抬头和Y方向的左右侧脸)。第二种是基于人脸模板库匹配的做法，即通过收集多个人的正脸和各个角度的侧脸，并标注关键点信息，建立人脸模板库，在进行矫正的时候将输入人脸匹配到最接近的一张侧脸，然后将模板库中相同人的正脸作为矫正目标，通过三角面片变化进行矫正，这种做法理论上是可以解决面外旋转问题，但解决的效果依赖于模板库中的人数和模板数量，在模板数量偏小的时候容易无法匹配到和目标人脸相近的模板，导致最后矫正出现失真。最后一种是通过恢复输入图像三维人脸信息，通过三维空间变换的方式进行矫正。这个方式也对于恢复出来的三维信息有较高准确度的要求，直接影响了最终矫正成像的质量。后两种做法主要是基于受限采集场景的数据，对于非受限场景的人脸矫正存在较大缺陷。

所谓受限采集场景，是指人脸采集方和被采集方有一定交互，被采集方在配合采集的情况下，在采集方的指导下调整位置、姿态、表情完成采集，典型的包括拍摄人像照片，使用手机APP进行自拍或者视频录制等。这种采集得到的人脸图像质量较好，具体表现在：人脸清晰，无模糊，噪点；在图像中大小位置基本确定；人脸角度偏小，没有明显的侧脸和低抬头现象；无遮挡问题。

而非受限采集场景包括治安监控摄像头，互联网视频等，往往采集方不在现场，通过设备进行远程采集。而被采集方往往不会意识到采集的发生，也不会进行相应的配合和调整。在非受限场景下，采集得到人脸有如下问题：人脸在画面中的大小，位置不固定；人脸角度不固定，会出现相当比例的明显侧脸，低头，抬头情况；人脸会有一定比例出现部分遮挡的情况；人脸会有一定比例出现模糊的情况。

上文中提到的人脸矫正方法，在处理非受限采集的人脸会有明显的问题，尤其是在出现部分遮挡和大角度侧脸、低抬头的时候，会出现明显的矫正失真的情况。

发明内容

本发明的目的在于提供一种基于非受限采集场景的人脸矫正方案，改善非受限采集时的矫正效果。

本发明的第一方面提供了一种基于非受限采集场景的人脸矫正方法，包括：

人脸姿态估计，将人脸姿态分为N类，采用带有姿态标注的人脸来训练姿态估计模型，接收人脸图像并将人脸图像输入姿态估计模型中，得到人脸的姿态信息；

二维人脸关键点定位，按照人脸姿态的分类，采用标注有多个关键点的人脸来分别训练N个二维关键点定位模型，N个二维关键点定位模型分别与N类姿态相对应；利用姿态信息从N个二维关键点定位模型中选择与人脸图像中的人脸姿态一致的模型，将人脸图像输入二维关键点定位模型，得到多个关键点在人脸图像上的位置信息；

三维人脸关键点定位，训练三维关键点定位模型，将姿态信息和多个关键点在人脸图像上的位置信息输入三维关键点定位模型，得到多个关键点在三维空间中的位置信息，通过线性变换，对三维坐标进行矫正使得人脸处于三维空间中的预设位置并具有固定的大小和角度；以及

三维矫正，根据多个关键点在人脸图像上的位置信息和关键点在三维空间中的位置信息，通过三角面片匹配的方式，建立人脸的三维面片模型，并将人脸的三维面片模型在正脸视角进行渲染，得到二维矫正图像。

与现有技术相比，本发明能够有效的提高非受限场景下采集的人脸的矫正效果。

其中，在将人脸姿态分为N类时，按照人脸侧向的左、中、右和低抬头方向的上、中、下，将人脸姿态分为9类。

进一步地，关键点在人脸图像上的位置信息包括二维坐标和遮挡信息，在二维人脸关键点定位步骤中，除了得到关键点二维坐标之外，还会判断该关键点是否被遮挡，二维坐标是关键点在人脸图像上的坐标，遮挡信息是表示关键点是否被遮挡的信息。同时，在进行三维人脸关键点定位时，可以减小在人脸图像上被遮挡的关键点的权重。

这样，一方面可以避免因为部分关键点遮挡造成其他非遮挡定位点受到较大影响，提升定位模型对于部分遮挡人脸的定位精度；另一方面，在后续进行三维关键点定位时减小被遮挡的关键点的权重，可以进一步减少遮挡造成的影响。

本发明的第二方面提供了一种基于非受限采集场景的人脸矫正方法装置，包括：

人脸姿态估计单元，被配置为将人脸姿态分为N类，采用带有姿态标注的人脸来训练姿态估计模型，接收人脸图像并将人脸图像输入姿态估计模型中，得到人脸的姿态信息；

二维人脸关键点定位单元，被配置为按照人脸姿态的分类，采用标注有多个关键点的人脸来分别训练N个二维关键点定位模型，N个二维关键点定位模型分别与N类姿态相对应；利用姿态信息从N个二维关键点定位模型中选择与人脸图像中的人脸姿态一致的模型，将人脸图像输入二维关键点定位模型，得到多个关键点在人脸图像上的位置信息；

三维人脸关键点定位单元，被配置为训练三维关键点定位模型，将姿态信息和多个关键点在人脸图像上的位置信息输入三维关键点定位模型，得到多个关键点在三维空间中的位置信息，通过线性变换，对三维坐标进行矫正使得人脸处于三维空间中的预设位置并具有固定的大小和角度；

三维矫正单元，被配置为根据多个关键点在人脸图像上的位置信息和关键点在三维空间中的位置信息，通过三角面片匹配的方式，建立人脸的三维面片模型，并将人脸的三维面片模型在正脸视角进行渲染，得到二维矫正图像。

进一步地，人脸姿态估计单元进一步被配置为按照人脸侧向的左、中、右和低抬头方向的上、中、下，将人脸姿态分为9类。

进一步地，关键点在人脸图像上的位置信息包括二维坐标和遮挡信息，二维坐标是关键点在人脸图像上的坐标，遮挡信息是表示关键点是否被遮挡的信息。

进一步地，在三维人脸关键点单元中，减小在人脸图像上被遮挡的关键点的权重。

本发明的第三方面提供了一种设备，该设备包括处理器、存储器，处理器与存储器建立通信连接；处理器用于读取存储器中的程序，以执行前述第一方面或第一方面的任一实现方式提供的方法。

本发明的第四方面提供了一种非易失性存储介质，该非易失性存储介质中存储了程序，该程序被计算设备运行时，计算设备执行前述第一方面或第一方面的任一实现方式提供的方法。

本发明在一定程度上解决了现有技术对于在非受限场景下采集的人脸的矫正效果差的问题，基于深度神经网络模型的方法可以在训练环节可以用大量的人脸进行训练，相比于传统的矫正方法，解决了面外旋转的问题，且能够获得更高的匹配进度和矫正成像质量。

附图说明

图1是根据本发明的实施例的基于非受限采集场景的人脸矫正方法的流程示意图。

图2是根据本发明的实施例的基于非受限采集场景的人脸矫正装置框图。

具体实施方式

下面结合具体实施例和附图对本发明做进一步说明。可以理解的是，此处描述的具体实施例仅仅是为了解释本发明，而非对本发明的限定。此外，为了便于描述，附图中仅示出了与本发明相关的部分而非全部的结构或过程。

根据本发明的一个实施例，提供一种基于非受限采集场景的人脸矫正装置10，该装置可以接收人脸图像，并将图像处理后输出固定大小的经过矫正的正脸人像图片。如图2所示，装置10包括人脸姿态估计单元101、二维人脸关键点定位单元102、三维人脸关键点定位单元103和三维矫正单元104。

其中，人脸姿态估计单元101被配置为将人脸姿态分为N类，采用带有姿态标注的人脸来训练姿态估计模型，接收人脸图像并将人脸图像输入所述姿态估计模型中，得到人脸的姿态信息。人脸图像例如，标注有人脸框的原始图像，其中人脸框的标注可由其他单元采用各种现有技术完成，或者根据人脸框的位置裁剪后的图像。其中，人脸姿态分类可以按照侧脸方向的左、中、右和低、抬头方向的上、中、下将人脸姿态分为9类。

二维人脸关键点定位单元102可以按照人脸姿态的分类，采用标注有多个关键点的人脸来分别训练N个(例如，9个)分别与N类姿态相应的二维关键点定位模型，通过人脸姿态估计单元101中得到的姿态信息，从N个(例如9个)二维关键点定位模型中选择与人脸图像中的人脸姿态一致的模型，将裁剪后的人脸图像输入二维关键点定位模型，得到多个关键点在人脸图像上的位置信息。其中，每个关键点在人脸图像上的位置信息可以包括二维坐标(即，该关键点在人脸图像上的坐标)和遮挡信息(即，该关键点是否被遮挡)。该单元可以利用人脸姿态估计单元101对人脸进行的角度粗分类，选择针对特定姿态优化后的模型进行精细定位，这可以使得人脸关键点定位单元对于人脸姿态的鲁棒性大幅增加。此外，该单元还增加了判断该关键点是否被遮挡的功能，一方面可以提升定位模型对于部分遮挡人脸的定位精度，避免因为部分关键点遮挡造成其他非遮挡定位点受到较大影响；另一方面，在后续过程中，可以减少被遮挡的关键点的权重，从而减少遮挡造成的影响。

三维人脸关键点定位单元103被配置为训练三维关键点定位模型，将姿态信息和多个关键点在人脸图像上的位置信息输入三维关键点定位模型，得到多个关键点在三维空间中的位置信息，通过线性变换，将三维坐标进行矫正使得人脸处于三维空间中的预设位置并具有固定的大小和角度。

三维矫正单元104被配置为根据多个关键点在人脸图像上的位置信息和关键点在三维空间中的位置信息，通过三角面片匹配的方式，建立人脸的三维面片模型，并将人脸面片模型在正脸视角进行渲染，得到二维矫正图像。在前面的二维和三维关键点定位时，关键点数目可以选在200个以上，使得三维重建时所用的三角面片能够更加精细，更多地反映出人脸的三维细节，这个将明显影响三维重建和矫正的质量。

下面结合图1介绍基于该装置10进行人脸矫正的方法。该方法首先可以通过人脸姿态估计单元得到人脸的大致姿态；然后根据姿态选择合适的模型进行二维关键点定位，在得到全部定位点在人脸图像上的二维位置估计的同时，会给出该关键点是否被遮挡的判断；基于关键点二维坐标、遮挡信息和粗估计姿态信息，可以通过三维关键点定位单元得到该人脸的所有关键点在三维空间上的位置信息。最终建立该人脸在三维空间中的面片模型，并在正脸角度上渲染为二维图像，得到最终输出的矫正图片。

如图1所示，根据本发明的一个实施例，提供一种基于非受限采集场景的人脸矫正方法，包括以下步骤：

步骤S101，人脸姿态估计。

首先，将人脸姿态分为N类。举例来说，可以按照侧脸方向的左、中、右和低、抬头方向的上、中、下对人脸进行角度的粗分类，将低、抬头作为X方向，将左右侧脸作为Y方向，其中X方向分为抬头、低头、正常三类，Y方向分为左侧、右侧、正常三类，得到人脸的X方向和Y方向的姿态分类，共计9类。该分类只用于举例说明，并不是对本发明的限制，在其他实施例中，也可以根据各种面外旋转方式将人脸姿态分为多类。

随后，训练一个用于姿态估计的深度神经网络模型。在一种实施方式中，该模型可以采用7层网络结构，包括4层卷积神经网络层，两层全连接层和一个输出层。采用训练数据为按照前面的分类方式标注有X和Y方向的姿态的人脸数据，数据量可以为，例如，20K。训练好的模型可以按照以上分类对输入的人脸图像进行姿态估计，例如，确定图像中的人脸属于以上9类中的哪一类。训练好模型后，根据所述人脸框的位置裁剪所述原始图像，并缩放到固定大小，输入所述姿态估计模型中，得到所述人脸的姿态信息。

随后，步骤S102，二维人脸关键点定位。

首先，需要训练N个分别与N类姿态相应的二维关键点定位模型，例如，在上述示例中，人脸姿态被分为9类，那么，此处需要先训练好9个用于关键点定位的深度神经网络模型。在一种实施方式中，这些模型可以采用11层的网络结构，包括8层卷积层，两层全连接层和一个输出层。采用的训练数据为带有关键点标注的人脸，对于每个人脸，需要标注多个(例如，216个)关键点，这些关键点需要覆盖五官和人脸内外轮廓，每个关键点的标注需要包括二维坐标(即，该关键点在人脸图像上的x,y坐标)和遮挡信息(即，该关键点是否被遮挡)。对于每个二维关键点定位模型，需要采用与该模型对应的姿态的人脸数据来训练，每个模型可以采用约10K量级的训练数据。

通过步骤S101中得到的姿态信息，从N个(例如9个)二维关键点定位模型中选择与所述人脸图像中的人脸姿态一致的模型，将裁剪后的人脸图像输入所述二维关键点定位模型，得到多个关键点在人脸图像上的位置信息，包括二维坐标和遮挡信息。

该步骤S102可以利用人脸姿态估计单元101对人脸进行的角度粗分类，选择针对特定姿态优化后的模型进行精细定位。使得人脸关键点定位单元对于人脸姿态的鲁棒性大幅增加，避免现有技术在大侧脸，大角度低抬头上定位效果差的问题。此外，除了关键点的位置外，还增加了判断该关键点是否被遮挡的信息，这可以显著提升定位模型对于部分遮挡人脸的定位精度，避免因为部分关键点遮挡造成其他非遮挡定位点受到较大影响。

随后，步骤S103，三维人脸关键点定位。在定位之前，可以预先训练一个用于三维关键点定位的深度神经网络模型。根据本发明的一个实施例，该模型可以采用5层神经网络结构，包括4个全连接层和一个输出层。例如，该模型可能需要约1M量级的训练数据，每个数据包括多个输入向量，以及作为标注的三维位置信息向量。该数据需要先产生出例如10K量级的不同人的三维模型，每个模型可以生成三维位置信息向量和在随机100个方向上的二维输入向量，即可作为100组训练数据，对于10K个模型都进行此项操作，即可产生出1M训练数据。

将前面生成的姿态信息和多个关键点在人脸图像上的位置信息输入三维关键点定位模型，例如，在前面的示例中提取了216个关键点，则该模型的输入为二维姿态信息、216个关键点在人脸图像上的二维坐标信息和一维遮挡信息组成的总计650维的向量。在进行三维关键点定位时，将关键点是否被遮挡作为输入信息，并减小被遮挡的关键点在定位时的权重，可以进一步减少遮挡造成的影响。从三维关键点定位模型中可以得到多个关键点在三维空间中的位置信息，通过线性变换，将三维坐标进行矫正使得人脸处于三维空间中的预设位置并具有固定的大小和角度，例如，可以将三维坐标进行矫正使得该人脸在三维空间的正中位置，大小确定，且X和Y方向角度为0。

相比于现有技术中对于二维到三维关键点位置匹配上一般采用的模板匹配方式，本发明中的做法有多个优势：首先，模板匹配的做法无法解决模板本身和输入人脸之间的差异，往往输入人脸的五官位置会和模板有一定误差；模板无法有效模拟很多在非受限场景下出现的人脸，比如遮挡，大角度人脸；基于深度神经网络模型的方法可以在训练环节可以用大量(例如10K以上)的人脸进行训练，但在模板匹配方法下可以支持的人脸模板数量只能在1K量级；速度上，基于模板匹配的做法如果需要获得更高的匹配进度，需要更多的模板和更精细的角度数量，进而导致大量的计算量上升，但基于模型的方式不存在这个问题。

随后，步骤S104，三维矫正。根据多个关键点在人脸图像上的位置信息，可以将图像分解为若干个三角面片，基于输入的关键点的三维位置，可以通过三角面片变换，将二维人脸图像转化为在三维空间中的人脸面片模型。进一步，将此人脸模型在正脸视角处进行渲染，即可得到二维图像，该图像便是最终输出。

在以上实施例中，具体描述的姿态分类，关键点的数量，以及各个神经网络模型的结构、层数及训练数据量等等均仅仅是作为示例进行的描述，以方便解释本发明的思想，不应理解为对本发明的限制。

根据本发明的另一个实施例，还提供了一种计算设备，包括处理器和存储器，处理器和存储器建立通信连接，所述处理器，用于读取存储器中的程序，以执行图1中的人脸矫正方法。

根据本发明的另一个实施例，还提供了一种非易失性存储介质，所述非易失性存储介质中存储了程序，该程序被计算设备运行时，所述计算设备执行图1中的人脸矫正方法。

上面结合附图对本发明的实施例做了详细说明，但本发明技术方案的使用不仅仅局限于本专利实施例中提及的各种应用，各种结构和变型都可以参考本发明技术方案轻易地实施，以达到本文中提及的各种有益效果。在本领域普通技术人员所具备的知识范围内，在不脱离本发明宗旨的前提下做出的各种变化，均应归属于本发明专利涵盖范围。

Claims

1.一种基于非受限采集场景的人脸矫正方法，其特征在于，包括：

人脸姿态估计，将人脸姿态分为N类，采用带有姿态标注的人脸来训练姿态估计模型，接收人脸图像并将所述人脸图像输入所述姿态估计模型中，得到人脸的姿态信息；

二维人脸关键点定位，按照人脸姿态的分类，采用标注有多个关键点的人脸来分别训练N个二维关键点定位模型，所述N个二维关键点定位模型分别与N类姿态相对应；利用所述姿态信息从所述N个二维关键点定位模型中选择与所述人脸图像中的人脸姿态一致的模型，将人脸图像输入所述二维关键点定位模型，得到所述多个关键点在所述人脸图像上的位置信息；

三维人脸关键点定位，训练三维关键点定位模型，将所述姿态信息和所述多个关键点在人脸图像上的位置信息输入所述三维关键点定位模型，得到所述多个关键点在三维空间中的位置信息，通过线性变换，对三维坐标进行矫正使得所述人脸处于三维空间中的预设位置并具有固定的大小和正脸角度；以及

三维矫正，根据所述多个关键点在人脸图像上的位置信息和所述关键点在三维空间中的位置信息，通过三角面片匹配的方式，建立所述人脸的三维面片模型，并将所述人脸的三维面片模型在正脸视角进行渲染，得到二维矫正图像。

2.根据权利要求1所述的方法，其特征在于，将所述人脸姿态分为N类时，按照人脸侧向的左、中、右和低抬头方向的上、中、下，将人脸姿态分为9类。

3.根据权利要求1所述的方法，其特征在于，所述关键点在所述人脸图像上的位置信息包括二维坐标和遮挡信息，所述二维坐标是所述关键点在人脸图像上的坐标，所述遮挡信息是表示所述关键点是否被遮挡的信息。

4.根据权利要求3所述的方法，其特征在于，在进行所述三维人脸关键点定位时，减小在所述人脸图像上被遮挡的关键点的权重。

5.一种基于非受限采集场景的人脸矫正方法装置，其特征在于，包括：

人脸姿态估计单元，被配置为将人脸姿态分为N类，采用带有姿态标注的人脸来训练姿态估计模型，接收人脸图像并将所述人脸图像输入所述姿态估计模型中，得到人脸的姿态信息；

二维人脸关键点定位单元，被配置为按照人脸姿态的分类，采用标注有多个关键点的人脸来分别训练N个二维关键点定位模型，所述N个二维关键点定位模型分别与N类姿态相对应；利用所述姿态信息从所述N个二维关键点定位模型中选择与所述人脸图像中的人脸姿态一致的模型，将人脸图像输入所述二维关键点定位模型，得到所述多个关键点在所述人脸图像上的位置信息；

三维人脸关键点定位单元，被配置为训练三维关键点定位模型，将所述姿态信息和所述多个关键点在人脸图像上的位置信息输入所述三维关键点定位模型，得到所述多个关键点在三维空间中的位置信息，通过线性变换，对三维坐标进行矫正使得所述人脸处于三维空间中的预设位置并具有固定的大小和正脸角度；

三维矫正单元，被配置为根据所述多个关键点在人脸图像上的位置信息和所述关键点在三维空间中的位置信息，通过三角面片匹配的方式，建立所述人脸的三维面片模型，并将所述人脸的三维面片模型在正脸视角进行渲染，得到二维矫正图像。

6.根据权利要求5所述的装置，其特征在于，所述人脸姿态估计单元进一步被配置为按照人脸侧向的左、中、右和低抬头方向的上、中、下，将人脸姿态分为9类。

7.根据权利要求5所述的装置，其特征在于，所述关键点在人脸图像上的位置信息包括二维坐标和遮挡信息，所述二维坐标是所述关键点在人脸图像上的坐标，所述遮挡信息是表示所述关键点是否被遮挡的信息。

8.根据权利要求7所述的方法，其特征在于，在所述三维人脸关键点单元中，减小在所述人脸图像上被遮挡的关键点的权重。

9.一种设备，其特征在于，包括处理器、存储器，所述处理器与所述存储器建立通信连接；

所述处理器，用于读取所述存储器中的程序，以执行如权利要求1-4中任一项所述的方法。

10.一种非易失性存储介质，其特征在于，所述非易失性存储介质中存储了程序，该程序被计算设备运行时，所述计算设备执行如权利要求1-4中任一项所述的方法。