CN106358444B

CN106358444B - 用于面部验证的方法和系统

Info

Publication number: CN106358444B
Application number: CN201480077117.8A
Authority: CN
Inventors: 汤晓鸥; 孙祎; 王晓刚
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2014-04-11
Filing date: 2014-04-11
Publication date: 2019-07-30
Anticipated expiration: 2034-04-11
Also published as: JP6159489B2; US9811718B2; WO2015154206A1; JP2017513144A; US20170147868A1; CN106358444A

Abstract

公开了用于面部验证的方法和设备。该设备包括：特征提取单元，配置为通过使用不同训练的ConvNet对面部的不同区域提取HIF(隐藏身份特征)，其中，所述ConvNet的最末隐藏层神经元激活值被认为是HIF。该设备还包括：验证单元，配置为将从每个面部中提取的HIF组合以形成特征向量，然后比较所形成的特征向量中的两个特征向量以确定这两个特征向量是否来自相同身份。

Description

用于面部验证的方法和系统

技术领域

本申请涉及用于面部验证的方法及其系统。

背景技术

许多面部验证方法通过高维过完备面部描述符(例如，LBP或SIFT)来表示面部，然后使用浅层面部验证模型。

在一些早先的研究中，基于低级特征进一步学习了与身份相关的特征。在这些过程中，训练了属性分类器和相似分类器，以检测面部属性以及测量相对于参照组的人的面部相似度、或区分两个不同人的面部。特征是经过学习的分类器的输出。但是，早先的研究使用SVM(Support Vector Machine，支持向量机)分类器，SVM分类器是浅层结构的并且其学习的特征依然是相对低级的。

一些深度模型已经被用于面部验证。Chopra等人使用Siamese架构分别从输入给两个相同子网络的两张待比较的人脸图像中提取特征，并将这两个子网络的输出人脸特征表示之间的距离作为这两张人脸图像的差异度。特征提取与面部验证目标一起被学习。

虽然现有技术的一些技术方案使用多重深度ConvNet来学习高级面部相似度特征并训练分类器以用于面部验证，但是它们的特征是从一对面部中一起提取而不是从单个面部提取。虽然具有高度的可区分性，但是面部相似度特征依然太短并且一些有用信息可能在最终验证之前已经丢失。

一些早先的研究也将ConvNet的最末隐藏层特征用于其它任务。Krizhevsky等人指出，当以图像分类为学习目标时，ConvNet的最末隐藏层近似于语义空间中的欧氏距离，但是并没有定量结果来显示这些特征在图像检索上表现得怎样。Farabet等人将从尺寸不变的ConvNet(具有用于景物标记的多尺寸输入)中提取的最末隐藏层特征组合。早先的方法未解决面部验证问题。此外，如何学习足以用于面部识别的精细分类的特征也是不清楚的。

发明内容

在本申请的一方面中，公开了用于面部验证的设备，其包括：

特征提取单元，配置为通过使用不同训练的ConvNet提取面部的不同区域的HIF(Hidden Identity Feature，隐藏身份特征)，其中，所述ConvNet的最末隐藏层神经元激活值被认为是所述HIF；以及

验证单元，配置为将从每个所述面部中提取的HIF组合以形成特征向量，然后比较所形成的特征向量中的两个特征向量以确定所述两个特征向量是否来自相同身份。

在本申请的另一方面中，公开了用于面部验证的方法，其包括：

通过使用不同训练的ConvNet从面部的不同区域提取HIF，其中，所述ConvNet的最末隐藏层神经元激活值被认为是HIF；

将所提取的HIF组合以形成特征向量；以及

比较所形成的特征向量中的两个特征向量以确定这两个特征向量是否来自相同身份。

根据本申请的设备还可包括训练单元，该训练单元配置为通过输入面部的对齐区域来训练ConvNet以用于身份分类。

与现有方法对比，本申请对训练集中的所有人脸身份进行分类。此外，本申请利用最末隐藏层激活值而非利用分类器的输出作为特征表示。在ConvNet中，最末隐藏层的神经元数量远小于输出的神经元数量，这使得为了很好地将不同人的面部进行分类，最末隐藏层能够学习不同人的面部的、共享的隐藏特征表示，从而得到高识别性能且紧凑的特征表示。

本申请可在两个步骤中执行特征提取和识别，其中，第一特征提取步骤使用面部分类目标进行学习，该面部分类目标是比验证更强的监督信号。

本申请使用高层次的高级特征来用于面部验证。从不同面部区域提取的HIF是互补的。具体地，特征从深度ConvNet的最末隐藏层中提取，该特征是全局的、高度非线性的特征并揭示面部身份。此外，不同的ConvNet从不同视觉线索(面部区域)进行学习，因此它们必须使用不同的方式判断面部身份，因此HIF是互补的。

附图说明

下文中参照附图对本发明的示例性非限制实施方式进行描述。附图是说明性的并且通常不表示精确尺寸。不同附图上的相同或相似的元件使用相同的附图标记表示。

图1是示出了根据一些公开的实施方式的用于面部验证的设备的示意图。

图2是示出了根据一些公开的实施方式的通过软件实施的用于面部验证的设备的示意图。

图3是示出了根据第一公开实施方式的剪裁区域的示例的示意图。

图4是示出了根据第二公开实施方式的ConvNet的详细结构的示意图。

图5是示出了用于面部验证的神经网络的结构的示意图。层类型和维度标记在每个层的旁边。标记为实心的神经元形成子网络。

图6是示出了根据一些公开实施方式的面部验证的示意性流程图。

图7是示出了图6中所示的步骤S103的示意性流程图。

图8是示出了根据一些公开实施方式的ConvNet的训练过程的示意性流程图。

具体实施方式

现在将详细参照示例性实施方式，在附图中示出了示例性实施方式的示例。在恰当的情况下，在全部附图中，相同的附图标记用于表示相同或相似的部件。图1是示出了根据一些公开实施方式的用于面部验证的示例性设备1000的示意图。

应理解的是，设备1000可使用特定硬件、软件或者硬件与软件的组合实现。此外，本发明的实施方式可改造为实现于包含计算机程序代码的一个或多个计算机可读储存介质(包括但不限于磁盘储存器、CD-ROM、光存储器等)上的计算机程序产品。

在使用软件实现设备1000的情况下，设备1000可包括通用计算机、计算机群、主流计算机、专用于提供在线内容的计算机装置、或包括以集中方式或分布方式运行的一组计算机的计算机网络。如图2中所示，设备1000可包括一个或多个处理器(处理器102、104、106等)、存储器112、储存装置116、通信接口以及便于在设备1000的各种部件之间交换信息的总线。处理器102-106可包括中央处理单元(“CPU”)、图形处理单元(“GPU”)或其它合适的信息处理装置。根据所使用的硬件的类型，处理器102-106可包括一个或多个印刷电路板、和/或一个或多个微处理器芯片。处理器102-106可运行计算机程序指令序列以执行将在下文更为详细地解释的各种方法。

存储器112还可包括随机存取存储器(“RAM”)和只读存储器(“ROM”)。计算机程序指令可存储在存储器112中、从存储器112中被访问和读取，从而供处理器102-106中的一个或多个处理器来运行。例如，存储器112可存储一个或多个软件应用。此外，存储器112可存储全部软件应用或仅存储软件应用中可由处理器102-106中的一个或多个处理器执行的部分。应注意到的是，虽然图2中仅示出了用一个框表示存储器，但是存储器112可包括安装在中央计算装置上或安装在不同计算装置上的多个实体装置。

再次参照图1，当设备1000通过硬件实现时，其可包括特征提取单元10和验证单元20。特征提取单元10配置为通过使用不同训练的ConvNet从面部的不同区域提取HIF(Hidden Identity Feature，隐藏身份特征)，其中ConvNet的最末隐藏层神经元激活值被认为是HIF。验证单元20配置为将所提取的HIF组合以形成特征向量，然后比较所形成的向量中的两个向量以确定这两个向量是否来自相同身份。

对于ConvNet中的每个，特征提取单元10操作为将特定区域及其翻转对应区域输入至ConvNet中的每个以提取HIF。图3示出了剪裁区域的示例，其中，上方的10个面部区域是中等尺寸的。左上方的五个区域是从弱对齐面部中得到的全局区域，右上方的其它五个区域是以五个面部标记物(两个眼睛中心、鼻尖、以及两个嘴角)为中心的局部区域。在图3的底部，示出了两个特定图像块的三种尺寸。

根据本申请的一个实施方式，所提取的HIF中的每个可形成特征向量。形成的向量可例如具有如图4中所示的160维。验证单元20可将所提取的每个面部的全部HIF组合以形成高维特征向量。例如，在如图4中所示的实施方式中，所组合的向量为19,200维。

在本申请的实施方式中，ConvNet中的每个可包括多个级联的特征提取层以及连接至这些特征提取层中的至少一个的最末隐藏层，其中，在ConvNet的当前层中的特征(该特征是从ConvNet的上一层特征中提取的特征)的数量沿着级联的特征提取层持续减少直到在ConvNet的最末隐藏层中获得所述HIF。图4还示出了具有39×31×k维输入的ConvNet的详细结构。如图4中所示，ConvNet可包含四个卷积层(伴随有最大池化)以分层地提取特征，其后跟有(全连接的)HIF层和指示身份类别的(全连接的)softmax输出层。输入至ConvNet中的每个的输入可以是39×31×k维的长方形图像块，以及39×31×k维的正方形图像块，其中，对于彩色图像块，k＝3，而对于灰色图像块k＝1。当输入尺寸改变时，后续层中特征图的高度和宽度将相应地改变。特征数量沿着特征提取层级持续减少直到最末隐藏层(HIF层)，从而形成了高度紧凑和强预测能力的特征，这些特征仅使用少量特征预测更多数量的身份类别。在图4中，对于所有输入层、卷积层和最大池化层，每个立方体的长度、宽度和高度表示每层的特征图数量和维度。内部小立方体和正方形分别表示卷积层的3D卷积核尺寸以及最大池化层的2D池化区域尺寸。最后两个全连接层的神经元数量标记在每层的旁边。

在实践中，可基于所提取的HIF使用任何面部验证模型。联合贝叶斯(JointBayesian)和神经网络模型是两个示例。验证单元20可形成为图5中所示的神经网络，该神经网络包含获取HIF的一个输入层501、一个局部连接层502、一个全连接层503以及指示面部相似度的单个输出神经元504。输入特征被分为(例如)60个组，它们中的每个包含(例如)640个特征，该640个特征是使用特定ConvNet从特定图像块对中提取的。相同组中的特征高度相关。局部连接层中的一组神经元单元(例如，如图所示的两个神经元)仅连接至一组特征以学习它们的局部关系并同时减小特征维度。第二隐藏层全连接至第一隐藏层以学习全局关系。单个输出神经元全连接至第二隐藏层。隐藏神经元使用(例如)ReLU激活函数，输出神经元使用(例如)sigmoid激活函数。图5中示出了神经网络结构的图例。例如，该神经网络结构可具有38,400个输入神经元(这些输入神经元具有来自每个图像块的19,200个HIF)，以及在后面的两个隐藏层中具有4,800个神经元，其中，第一隐藏层中的每80个神经元局部连接至60组输入神经元中的一组。

现有技术中所公知的Dropout学习可用于所有隐藏神经元。输入神经元不能被关停，因为所学习的特征是紧凑且分布的表征(使用很少的神经元表示大量身份)，并且这些特征必须相互协作以良好地表示身份。另一方面，由于梯度扩散，难以在没有Dropout的情况下学习高维特征。为了解决该问题，本申请首先训练多个(例如，60个)子网络，子网络中的每个将单个组的特征作为输入。图5中示出了特定的子网络，然后本申请使用子网络的第一层权重来初始化原始网络中的第一层权重，并使用经过修正的第一层权重来调节原始网络中的第二层和第三层。

设备1000还包括训练单元30，该训练单元30配置为通过输入如上文参照图3所讨论的面部的对齐区域来训练用于身份分类的多个ConvNet。对于ConvNet中的每个，图8示出了根据一些公开实施方式的训练过程的示意性流程图。如图所示，在步骤S801中，从预定的面部训练集中选择面部图像。在一个实施方式中，可随机选择面部图像。在步骤S802中，确定输入至ConvNet的输入。具体地，该输入可以是从S801中选择的面部剪裁出的面部图像块。还预先确定ConvNet的与输入对应的目标输出，该目标输出为第n个元素为1而其余元素全为零的向量，其中，n表示所选择的面部图像所属的身份类别的身份序号。

然后在步骤S803中，将以上所确定的面部图像块输入至ConvNet以通过正向传播过程来计算其输出，该计算过程可包括以下参照公式1和公式2讨论的卷积操作和最大池化操作。

在步骤S804中，比较计算的输出和目标输出以生成计算的输出与目标输出之间的误差信号。然后在步骤S805中将所生成的误差信号反向传播通过ConvNet以调节ConvNet的参数。在步骤S806中，确定训练过程是否收敛，如果收敛，则训练过程终止；否则将重复步骤S801-S805直到训练过程收敛从而确定ConvNet的参数。

在下文中，将进一步讨论如上文中所述的卷积操作和最大池化操作。

如图4中所示的ConvNet中的每个卷积层的卷积操作可表示为

其中xⁱ和y^j分别为第i个输入特征图和第j个输出特征图。k^ij为第i个输入特征图和第j个输出特征图之间的卷积核。*表示卷积。b^j为第j个输出特征图的偏置值。在本文中，ReLU非线性函数y＝max(0,x)用于隐藏神经元，该ReLU非线性函数y＝max(0,x)表现出具有比sigmoid函数更好的拟合能力。ConvNet的更高卷积层中的权重是局部共享，以学习不同人脸区域中的不同的中级或高级特征。r表示权重被共享的局部区域。图4中所示的最大池化可公式化为

其中，第i个输出特征图yⁱ中的每个神经元在第i个输入特征图xⁱ中的s×s的非重叠局部区域上池化。

HIF的最末隐藏层可(在最大池化之后)全连接至卷积层中的至少一个。在一个优选实施方式中，HIF的最末隐藏层(在最大池化之后)全连接至第三卷积层和第四卷积层，以使得其可探测到多尺度特征(第四卷积层中的特征比第三卷积层中的特征更为全局化)。这对于特征学习是至关重要的，因为在沿着各层连续下采样之后，第四卷积层包含太少的神经元，并且成为信息传播的瓶颈。在第三卷积层(称为跳层)与最末隐藏层之间添加旁路连接减少了在第四卷积层中的可能的信息丢失。最末隐藏层可采用以下函数

其中，x¹、w¹、x²、w²分别表示第三卷积层和第四卷积层中的神经元和权重。其将先前的两个卷积层中的特征线性组合，其后进行ReLU非线性操作。

ConvNet的输出y_i为多路(例如，4349路)soft-max，其预测在多个(例如，4349个)不同身份上的可能性分布。在形成的向量是160维的向量并且存在4349个不同的人脸身份的情况下，输出y_i可公式化为：

其中，将160个HIFx_i线性组合以作为神经元j的输入，y_j作为其输出。ConvNet通过最小化-logy_t来学习其网络参数，其中t为目标输出类别。可使用随机梯度下降，其中梯度是通过反向传播计算的。

图6示出了图示根据一些公开实施方式的用于面部验证的方法的流程图。在图6中，过程200包括可由处理器102-106中的一个或多个或设备1000中的每个模块/单元执行的一系列步骤以实现数据处理操作。出于描述的目的，以下讨论参照设备1000中的每个模块/单元由硬件或者硬件与软件的组合而构成的情况来进行。本领域技术人员应理解，其它合适的装置或系统应适合于执行下列过程，而设备1000仅用作对执行该过程的说明。

在步骤S101中，设备1000操作为通过使用不同训练的ConvNet从面部的不同区域提取HIF，其中，所述ConvNet的最末隐藏层神经元激活值被认为是HIF。在一个实施方式中，设备1000的单元10可例如使用现有技术提出的面部点检测法来检测五个面部特征点，包括两个眼睛中心、鼻尖以及两个嘴角。面部根据两个眼睛中心和两个嘴角的中间点通过相似变换被全局对齐。从具有(例如)10个区域、三种尺寸、以及RGB或灰色通道的(例如)60个面部图像块中提取特征。图3示出了10个面部区域和两个特定面部区域的三种尺寸。单元30训练60个ConvNet，该60个ConvNet中的每个从特定的图像块及其水平翻转的对应图像块中提取两个具有160维的HIF向量。一种特殊情况为围绕两个眼睛中心和两个嘴角的图像块，它们本身不被翻转，而是翻转与它们对称的图像块(例如，通过翻转以右眼为中心的图像块来得到以左眼为中心的图像块的翻转对应图像块)。

然后在步骤S102中，设备1000操作为针对多个面部中的每个将所提取的HIF组合以形成特征向量。在训练单元30训练多个(例如，60个)ConvNet的示例中，特征提取单元10可通过使用这些不同训练的ConvNet对面部的不同区域提取HIF，然后，针对面部中的每个将所提取的HIF组合以形成特征向量，在存在60个ConvNet且该60个ConvNet中的每个提取160×2维的HIF的情况下，特征向量的总长度可以是例如19,200(160×2×60)。所组合的HIF准备用于最终面部验证。

然后在步骤S103中，设备1000操作为比较所形成的、分别从两个面部提取的向量中的两个向量，以确定这两个向量是否来自相同身份。在本申请的一些实施方式中，可使用基于HIF的面部验证的联合贝叶斯技术。联合贝叶斯在面部验证方面非常成功。其通过两个独立高斯变量的总和(在扣除平均值之后)来表示所提取的面部特征x：

x＝μ+ò,(5)

其中，μ～N(0,S_μ)表示面部身份，而ò～N(0，S_ò)表示同一人自身的变化。在给定同一人自身的变化和不同人之间的变化P(x₁,x₂|H_I)和P(x₁,x₂|H_E)的前提下，联合贝叶斯建模两个面部的联合概率。等式(5)中示出了这两个概率也是高斯变量，分别是：

和

S_μ和S_ò可使用EM算法从数据中学习。在测试中，计算以下似然率

其具有闭式解，可以高效地计算。

图7为示出了如图5中所示的神经网络模型如何在步骤S103中工作的流程图。在步骤S1031中，输入层501操作为将步骤S102中形成的特征向量的HIF分成n个组。每个组包含由同一ConvNet提取的HIF。在S1032中，局部连接层502操作为从每组HIF中提取局部特征。在S1033中，全连接层503操作为从之前提取的局部特征中提取全局特征。在S1034中，输出神经元504操作为基于之前提取的全局特征计算单个面部相似度分数。

虽然已经描述了本发明的优选示例，但是本领域技术人员可在知晓基本发明构思的情况下对这些示例进行改变或修改。所附权利要求旨在理解为包括优选示例以及落入本发明范围内的全部改变或修改。

明显地，本领域技术人员可在不背离本发明精神和范围的情况下对本发明进行改变或修改。因而，如果这些改变或修改属于权利要求和等效技术的范围，则这些改变或修改也可落入本发明的范围中。

Claims

1.用于面部验证的设备，包括：

特征提取单元，配置为通过使用不同训练的ConvNet提取面部的不同区域的HIF隐藏身份特征，其中，所述ConvNet的最末隐藏层神经元激活值被认为是所述HIF；以及

2.根据权利要求1所述的设备，还包括：

训练单元，配置为通过输入面部的对齐区域来训练所述ConvNet以用于身份分类。

3.根据权利要求1所述的设备，其中，所述验证单元包括：

输入层，配置为将所述HIF分成多个组，每个组包括由同一ConvNet提取的HIF；

局部连接层，配置为从每组HIF提取局部特征；

全连接层，配置为从先前提取的局部特征提取全局特征；以及

输出神经元，配置为从所提取的全局特征计算单个面部相似度分数，以基于所计算的分数确定所述两个特征向量是否来自相同身份。

4.根据权利要求1所述的设备，其中，对于所述ConvNet中的每个，所述特征提取单元配置为将特定区域及其翻转对应区域输入至每个所述ConvNet中以提取所述HIF。

5.根据权利要求4所述的设备，其中，所述验证单元配置为将从每个面部提取的全部HIF组合以形成用于面部验证的特征向量。

6.根据权利要求2所述的设备，其中，所述ConvNet中的每个包括多个级联的特征提取层和连接至所述特征提取层中的至少一个的最末隐藏层；

其中，在所述ConvNet的当前层中的特征数量沿所述级联的特征提取层持续减少直到在所述ConvNet的最末隐藏层中获得所述HIF，其中，所述ConvNet的当前层中的特征是从所述ConvNet的上一层特征提取的。

7.根据权利要求6所述的设备，其中，所述ConvNet中的每个包括四个级联的特征提取层以及连接至第三特征提取层和第四特征提取层的所述最末隐藏层。

8.根据权利要求2所述的设备，其中，对于所述ConvNet中的每个，所述训练单元还配置为：

1)从预定的面部训练集中选择面部图像；

2)为所述ConvNet分别确定输入和目标输出，其中，所述输入为从所选择的面部图像剪裁出的面部图像块，以及所述目标输出为第n位置为1而其余位置都为零的向量，n为所选择的面部图像的身份序号；

3)将所述面部图像块输入至所述ConvNet以在所述ConvNet中通过正向传播计算输出；

4)将所计算的输出与所述目标输出作比较以生成误差信号；

5)将所生成的误差信号反向传播通过所述ConvNet以调节所述ConvNet的参数；以及

6)重复步骤1)-5)直到训练过程收敛，从而确定所述ConvNet的参数。

9.用于面部验证的方法，包括：

通过使用不同训练的ConvNet从每个面部的不同区域中提取HIF，其中，所述ConvNet的最末隐藏层神经元激活值被认为是所述HIF；

将从每个面部提取的HIF组合以形成特征向量；以及

比较所形成的特征向量中的两个特征向量以确定所述两个特征向量是否来自相同身份。

10.根据权利要求9所述的方法，还包括：

通过输入对齐的面部区域训练多个ConvNet。

11.根据权利要求10所述的方法，其中，对于所述ConvNet中的每个的训练过程包括：

1)从预定的面部训练集中选择面部图像；

2)为所述ConvNet分别确定输入和目标输出，其中，所述输入为从所选择的面部图像剪裁的面部图像块，以及所述目标输出为第n位置为1而其余位置都为零的向量，n为所选择的面部图像的身份序号；

3)将所述面部图像块输入至所述ConvNet以通过在所述ConvNet中进行正向传播处理，计算所述ConvNet的输出；

4)将所计算的输出与所述目标输出作比较以生成误差信号；

6)重复步骤1)-5)直到所述训练过程收敛，从而确定所述ConvNet的参数。

12.根据权利要求9所述的方法，其中，所述比较还包括：

将所形成的特征向量中的HIF分成多个组，所述多个组中的每个组包括由同一ConvNet提取的HIF；

从每组HIF中提取局部特征；

从先前所提取的局部特征提取全局特征；以及

从所提取的全局特征计算单个面部相似度分数以基于所述分数确定所述两个特征向量是否来自相同身份。

13.根据权利要求9所述的方法，其中，对于所述ConvNet中的每个，所述提取包括：

将特定区域及其翻转对应区域输入至所述ConvNet中的每个以提取所述HIF。

14.根据权利要求9所述的方法，其中，所述组合包括：

将所提取的每个面部的全部HIF组合以形成特征向量。

15.根据权利要求10所述的方法，其中，所述ConvNet中的每个包括多个级联的特征提取层以及连接至所述特征提取层中的至少一个的最末隐藏层；

其中，在所述ConvNet的当前层中的特征的数量沿所述级联的特征提取层持续减少直到在所述ConvNet的最末隐藏层中获得所述HIF，其中，在所述ConvNet的当前层中的特征是从所述ConvNet的上一层特征提取。