CN111353353A

CN111353353A - 跨姿态的人脸识别方法及装置

Info

Publication number: CN111353353A
Application number: CN201811582007.3A
Authority: CN
Inventors: 程德生; 蒋洵; 江峰; 张鹤; 江永渡; 王梨; 陈志方; 李振; 孙延春
Original assignee: China Soft Hangzhou Anren Network Communication Co ltd
Current assignee: China Soft Hangzhou Anren Network Communication Co ltd
Priority date: 2018-12-24
Filing date: 2018-12-24
Publication date: 2020-06-30

Abstract

本发明提供一种跨姿态的人脸识别方法及装置。所述方法包括：通过对不同姿态图像之间的映射关系或公共特征表示建模，进行姿态鲁棒的特征提取；利用3D模型或者2D学习的方式生成非正面人脸图像的虚拟正面人脸图像。本发明能够提高人脸识别率。

Description

跨姿态的人脸识别方法及装置

技术领域

本发明涉及图像识别技术领域，尤其涉及一种跨姿态的人脸识别方法及装置。

背景技术

图像识别是指利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对像的技术。人脸识别是利用脸部的特征，从图像或视频中快速定位人脸的位置并抓取人脸部图像。

目前，现有的人脸识别方法的识别率不高。

发明内容

本发明提供的跨姿态的人脸识别方法及装置，能够提高人脸识别率。

第一方面，本发明提供一种跨姿态的人脸识别方法，包括：

通过对不同姿态图像之间的映射关系或公共特征表示建模，进行姿态鲁棒的特征提取；

利用3D模型或者2D学习的方式生成非正面人脸图像的虚拟正面人脸图像。

可选地，所述通过对不同姿态图像之间的映射关系或公共特征表示建模，进行姿态鲁棒的特征提取包括：

将侧面图像到正面图像的建模划分为多个子任务，每个子任务仅负责将变化较大的姿态变换到变化较小的姿态。

可选地，所述将变化较大的姿态变换到变化较小的姿态包括：

将每个浅层自编码器的目标设计为仅进行较小范围的姿态转化，即将变化较大姿态的图像转换到相邻的变化较小姿态，而姿态变化已经较小的图像则保持不变。

第二方面，本发明提供一种跨姿态的人脸识别装置，包括：

提取单元，用于通过对不同姿态图像之间的映射关系或公共特征表示建模，进行姿态鲁棒的特征提取；

生成单元，用于利用3D模型或者2D学习的方式生成非正面人脸图像的虚拟正面人脸图像。

可选地，所述提取单元，用于将侧面图像到正面图像的建模划分为多个子任务，每个子任务仅负责将变化较大的姿态变换到变化较小的姿态。

可选地，所述提取单元，用于将每个浅层自编码器的目标设计为仅进行较小范围的姿态转化，即将变化较大姿态的图像转换到相邻的变化较小姿态，而姿态变化已经较小的图像则保持不变。

本发明实施例提供的跨姿态的人脸识别方法及装置，通过对不同姿态图像之间的映射关系或公共特征表示建模，进行姿态鲁棒的特征提取；利用3D模型或者2D学习的方式生成非正面人脸图像的虚拟正面人脸图像。对比经典的卷积神经网络，本发明采用的卷积神经网络不仅在算法的效果上有所提高，而且训练的参数有所减少，训练所需的时间更短，从而能够有效地提高图像识别的准确度，并具备良好的扩展性。

附图说明

图1为本发明实施例提供的跨姿态的人脸识别方法的流程图；

图2为本发明实施例提供的姿态、表情、光照和遮挡条件下的面部特征点定位示意图；

图3为本发明实施例提供的多阶段深度非线性人脸形状提取方法示意图；

图4为本发明实施例提供的人脸比对示意图；

图5为本发明实施例提供的侧面图像到正面图像的栈式渐进非线性建模示意图；

图6为本发明实施例提供的栈式渐进自编码网络示意图；

图7为本发明实施例提供的跨姿态的人脸识别装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种跨姿态的人脸识别方法，如图1所示，所述方法包括：

S11、通过对不同姿态图像之间的映射关系或公共特征表示建模，进行姿态鲁棒的特征提取。

S12、利用3D模型或者2D学习的方式生成非正面人脸图像的虚拟正面人脸图像。

本发明实施例提供的跨姿态的人脸识别方法，通过对不同姿态图像之间的映射关系或公共特征表示建模，进行姿态鲁棒的特征提取；利用3D模型或者2D学习的方式生成非正面人脸图像的虚拟正面人脸图像。对比经典的卷积神经网络，本发明采用的卷积神经网络不仅在算法的效果上有所提高，而且训练的参数有所减少，训练所需的时间更短，从而能够有效地提高图像识别的准确度，并具备良好的扩展性。

下面对本发明实施例跨姿态的人脸识别方法进行详细说明。

图像识别，是指利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对像的技术。本发明实施例包括人脸识别、场景与物体识别、文字识别等模块。

图像识别系统框架主要包括五部分：图像输入、预处理、特征提取、分类和匹配。

图像输入：将图像采集下来输入计算机进行处理。

预处理：为了减少后续算法的复杂度和提高效率，需要对图像进行预处理，主要图像分割、图像增强、二值化和细化等几部分。其中背景分离是将图像区与背景分离，从而避免在没有有效信息的区域进行特征提取，加速后续处理的速度，提高图像特征提取和匹配的精度；图像增强的目的是改善图像质量，恢复其原来的结构；图像的二值化是将图像从灰度图像转换为二值图像；图像细化是把清晰但不均匀的二值图像转化成线宽仅为一个像素的点线图像。

特征提取：特征提取负责把能够充分表示该图像唯一性的特征用数值的形式表达出来。尽量保留真实特征，滤除虚假特征。

图像分类：在图像系统中，输入的图像要与数十上百甚至上千个图像进行匹配，为了减少搜索时间、降低计算的复杂度，需要将图像以一种精确一致的方法分配到不同的图像库中。

图像匹配：图像匹配是在图像预处理和特征提取的基础上，将当前输入的测试图像特征与事先保存的模板图像特征进行比对，通过它们之间的相似程度，判断这两幅图像是否一致。

本发明实施例图像分类与匹配部分主要采用卷积神经网络算法。卷积神经网络在卷积层之间使用了共享的参数，不仅减少了需要的内存大小，也减少了需要训练的参数数量，提高了算法的性能。同时也极大程度地减少了对图像的预处理或者特征值提取操作，具备显著优势。经典的卷积神经网络算法并没有对算法进行深入挖掘，卷积神经层的卷积核较大，而且整体结构的层数略少，算法的优势并没有完全发挥。为了提高经典算法的识别率并改进算法性能，本发明实施例采用了一种使用较小卷积核的结构，并进行修改使得这种新的结构可以简单地重复使用，这样既能够保证网络的总体深度，又能够有效地提高图像识别的准确度，并具备良好的扩展性。对比经典的卷积神经网络，不仅在算法的效果上有所提高，而且训练的参数有所减少，训练所需的时间更短。

人脸识别是一款用于提供图像和视频帧中人脸分析的在线服务。包括人脸捕获与跟踪、人脸识别与比对、建模与检索、真人鉴别、图像质量检测等功能。可应用于人脸识别和认证、大规模人脸检索等各种场景。

人脸识别是利用脸部的特征，从图像或视频中快速定位人脸的位置并抓取人脸部图像；基于人脸检测结果，对图像进行预处理，主要是去除光线环境变化等对人脸识别的影响，并利用卷积神经网络进行特征提取与分类。人脸图像特征提取主要从人的面部找到一些可辨别身份的唯一属性(如人脸器官的形状描述以及它们之间的距离等)，并形成一个数字代码；最后进行人脸图像匹配与识别，将当前提取的人脸图像特征数据与数据库中存储的特征模板进行搜索匹配，确定相似性，输出结果。

在本实施例中，利用大规模的人脸数据训练卷积神经网络并应用于基于视频的人脸和表情识别，由粗到精的深度非线性人脸形状提取方法，以及姿态鲁棒的人脸特征渐进深度学习方法。

人脸识别的最大预期应用是智能视频监控环境下的黑名单人物识别。针对此类应用场景，本实施例人脸识别采用的技术方案有两个核心步骤：针对图像或视频中每一帧人脸的卷积神经网络特征提取方法和集成视频片段中所有视频帧中人脸卷积神经网络特征的集合建模方法。所用卷积神经网络模型是在Caffe模型基础上改进得到的：将其从最初的5个卷积层增加为14个卷积层，并采用3个数据集对其训练：包括1520个人的超过15万幅人脸图像，170人的约3.8万幅图像的训练集和人脸库(共1000人的超过14万视频帧图像)。最终采用第二个全连接层的2048个隐节点输出作为单帧人脸图像的特征。在第二个步骤中，对每个视频片段中所有人脸帧的卷积神经网络特征进行集合建模，采用它们的均值、协方差和高斯分布作为视频表达，并分别学习这些集合表达的核测度，最终将每个视频片段表达为1320维的视频特征进行比对。此方法在评测中识别率相比其它算法得到了显著提升。

此外，还将卷积神经网络特征用于人脸表情识别。表情识别过去采用与人脸识别类似的局部特征(如HOG、SIFT、LBP、LGBP5等)，并在此基础上用支持向量机等分类器进行分类。

多阶段深度非线性人脸形状提取

将上述模型应用于面部特征点定位。面部特征点定位(又称人脸形状提取或人脸对齐)在人脸识别、表情识别、人脸动画合成等诸多任务中具有非常重要的作用。如图2所示，由于姿态、表情、光照和遮挡等因素的影响，真实场景下的人脸对齐任务是一个非常困难的问题。

本实施例提出了一种由粗到细的深度非线性人脸形状提取方法，即CFAN8。CFAN级联多个由栈式自编码网络实现的非线性回归模型，如图3所示。

每一级刻画从人脸表观到人脸形状的部分非线性映射。CFAN第一级栈式自编码网络(SAN)以较低分辨率的人脸图像作为输入，快速估计出粗略的人脸形状S0。然后在分辨率更高的人脸图像上提取S0各特征点的SIFT特征，作为下一级自编码网络的输入来优化人脸形状得到S1。以此类推，我们级联多个基于局部特征的自编码网络，在分辨率不断提高的人脸图像上逐步优化人脸形状提取结果。该方法中，每个自编码网络刻画了部分“非线性”，多个级联有效逼近了全局“非线性”。

我们使用3个公开的数据集——LFPW、HELEN和AFW来验证CFAN方法的有效性。我们合并LFPW的训练集合、HELEN和AFW作为训练集进行模型训练，并在LFPW的测试集上进行测试。根据测试结果可知，后续自编码网络的特征定位性能逐步增强。与SDM等最先进方法对比可以看出，本实施例提供的方法取得了最佳的定位性能。

姿态鲁棒的人脸特征渐进深度学习

人脸识别技术在可控条件及半可控条件下已经基本趋于成熟,然而在非可控条件下，由于受姿态、光照、表情、年龄等因素的影响，人脸识别依然很不成熟。其中，姿态变化会导致极大的面部表观变化，是对人脸识别影响最大的因素之一。姿态变化引起的面部表观变化使不同人脸图像相同像素位置的语义不同。

如图4中的(a)部分所示，正面像代表的是一半鼻子，而侧面像则包含了整个鼻子，直接进行图像比较与识别通常性能很差。为了解决跨姿态的人脸识别问题，已有的工作主要从两个方面进行，即姿态鲁棒的特征提取方法和生成虚拟正面人脸图像的方法。前者一般通过对不同姿态图像之间的映射关系或公共特征表示建模来实现。后者则通常利用3D模型或者2D学习的方式生成非正面人脸图像的虚拟正面人脸图像，如图4中的(b)部分所示，从而使不同姿态的图像可以在相同姿态下进行比较与识别。姿态变化导致的人脸表观变化是一种复杂的非线性变化，利用3D模型生成虚拟图像的方式固然可以较好地解决不同姿态间过级联多个浅层的渐进自编码器形成的深层网络结构即可实现平滑的姿态变换。随着网络层数的增加，姿态变化越来越小。在最高层，所有图像均被转换为正面姿态。此网络中高隐层包含较小的姿态变化，其隐层输出即可用作姿态鲁棒的特征。我们在MultiPIE数据库上对上述方法进行了评测，结果如表1所示。

表1

其中，0°姿态为目标的非线性变化问题，但从2D图像恢复准确的3D模型非常困难。考虑到深度神经网络有很强的非线性建模能力，可以采用深度学习来建模。然而，深度学习需要大规模的有监督、多姿态人脸图像进行训练，而这类数据在实际中很难收集。为此，我们提出一种栈式渐进自编码(SPAE)神经网络模型，以实现较小规模数据下对姿态变化的非线性建模。

侧面图像到正面图像变化虽然非常复杂，但却是缓慢平滑的，如图5所示。根据这一特点，我们将侧面图像到正面图像的建模划分为若干子任务，每个子任务仅负责将变化较大的姿态变换到变化较小的姿态而非直接变换到正面姿态，由此控制了每个子问题的难度，使用一个浅层的神经网络即可有效建模，进而将多个浅层的神经网络叠联到一起即可得到一个深层的神经网络，实现侧面图像到正面图像的平滑变换。这种渐进学习的思想将深度神经网络划分为若干浅层的网络，使其模型能力与有限的数据相匹配，避免数据规模小带来的过学习问题。每个子任务，亦有多种网络结构可供选择。我们采用自编码器网络并对其进行改进以适应栈式渐进的需求。

如图6所示，我们将每个浅层自编码器的目标设计为仅进行较小范围的姿态转化，即将变化较大姿态的图像转换到相邻的变化较小姿态，而姿态变化已经较小的图像则保持不变。由此通过级联多个浅层的渐进自编码器形成的深层网络结构即可实现平滑的姿态变换。随着网络层数的增加，姿态变化越来越小。在最高层，所有图像均被转换为正面姿态。此网络中高隐层包含较小的姿态变化，其隐层输出即可用作姿态鲁棒的特征。我们在MultiPIE数据库上对上述方法进行了评测，结果如表1所示。其中，0°姿态为目标集，其余6个姿态用作测试集。从识别结果可以看出，我们提出的SPAE方法的性能明显优于其他2D方法，甚至略优于基于3D的方法。需要指出的是，该方法的另外一个重要优点是不需要已知输入图像的姿态，也不需要进行显式的姿态估计。

本发明实施例提供的人脸识别方法的主要功能包括：

(1)人脸捕获与跟踪功能

人脸捕获是指在一幅图像或视频流的一帧中检测出人像并将人像从背景中分离出来，并自动地将其保存。人像跟踪是指利用人像捕获技术，当指定的人像在摄像头拍摄的范围内移动时自动地对其进行跟踪。

(2)人脸识别比对

人脸识别分核实式和搜索式二种比对模式。核实式是对指将捕获得到的人像或是指定的人像与数据库中已登记的某一对像作比对核实确定其是否为同一人。搜索式的比对是指从数据库中已登记的所有人像中搜索查找是否有指定的人像存在。

(3)人脸的建模与检索

可以将登记入库的人像数据进行建模提取人脸的特征，并将其生成人脸模板(人脸特征文件)保存到数据库中。在进行人脸搜索时(搜索式)，将指定的人像进行建模，再将其与数据库中的所有人的模板相比对识别，最终将根据所比对的相似值列出最相似的人员列表。

(4)真人鉴别功能

系统可以识别得出摄像头前的人是一个真正的人还是一幅照片。以此杜绝使用者用照片作假。此项技术需要使用者作脸部表情的配合动作。

(5)图像质量检测

图像质量的好坏直接影响到识别的效果，图像质量的检测功能能对即将进行比对的照片进行图像质量评估，并给出相应的建议值来辅助识别。

本发明实施例还提供一种跨姿态的人脸识别装置，如图7所示，所述装置包括：

提取单元11，用于通过对不同姿态图像之间的映射关系或公共特征表示建模，进行姿态鲁棒的特征提取；

生成单元12，用于利用3D模型或者2D学习的方式生成非正面人脸图像的虚拟正面人脸图像。

可选地，所述提取单元11，用于将侧面图像到正面图像的建模划分为多个子任务，每个子任务仅负责将变化较大的姿态变换到变化较小的姿态。

可选地，所述提取单元11，用于将每个浅层自编码器的目标设计为仅进行较小范围的姿态转化，即将变化较大姿态的图像转换到相邻的变化较小姿态，而姿态变化已经较小的图像则保持不变。

本发明实施例提供的跨姿态的人脸识别装置，通过对不同姿态图像之间的映射关系或公共特征表示建模，进行姿态鲁棒的特征提取；利用3D模型或者2D学习的方式生成非正面人脸图像的虚拟正面人脸图像。对比经典的卷积神经网络，本发明采用的卷积神经网络不仅在算法的效果上有所提高，而且训练的参数有所减少，训练所需的时间更短，从而能够有效地提高图像识别的准确度，并具备良好的扩展性。

本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种跨姿态的人脸识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述通过对不同姿态图像之间的映射关系或公共特征表示建模，进行姿态鲁棒的特征提取包括：

3.根据权利要求2所述的方法，其特征在于，所述将变化较大的姿态变换到变化较小的姿态包括：

4.一种跨姿态的人脸识别装置，其特征在于，包括：

5.根据权利要求4所述的装置，其特征在于，所述提取单元，用于将侧面图像到正面图像的建模划分为多个子任务，每个子任务仅负责将变化较大的姿态变换到变化较小的姿态。

6.根据权利要求5所述的装置，其特征在于，所述提取单元，用于将每个浅层自编码器的目标设计为仅进行较小范围的姿态转化，即将变化较大姿态的图像转换到相邻的变化较小姿态，而姿态变化已经较小的图像则保持不变。