CN107209864B

CN107209864B - 人脸识别方法和装置

Info

Publication number: CN107209864B
Application number: CN201580074278.6A
Authority: CN
Inventors: 汤晓鸥; 王晓刚; 孙祎
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2015-01-27
Filing date: 2015-01-27
Publication date: 2018-03-30
Anticipated expiration: 2035-01-27
Also published as: CN107209864A; WO2016119076A1

Abstract

公开一种人脸识别装置。该装置可以包括具有多个深度特征提取层的提取器，该层从一个或多个输入图像提取识别特征；和与提取器电连接并根据提取的识别特征识别输入图像中的人脸图像的识别器。

Description

人脸识别方法和装置

技术领域

本申请涉及一种人脸识别方法和装置。

背景技术

使用深度神经网络学习有效的深度人脸表示来进行人脸识别，已经成为很有前途的人脸识别方法。由于使用了较好的深度网络结构和监督方法，近年来人脸识别的准确度得到了快速提升。DeepFace算法和DeepID算法分别被提出，以通过大量的人脸识别任务去学习身份相关的人脸特征。DeepID2算法通过结合联合人脸身份验证任务学习深度人脸特征，实现了进一步提升。DeepID2+通过对之前的特征提取层增加每层的特征维度和增加联合身份验证监督信号的方式，进一步改进了DeepID2。DeepID2+在一些广泛评估的人脸识别数据集中，取得了目前最好的面部识别结果。然而，DeepID2+的网络结构仍然与具有交错卷积和池化层的传统卷积神经网络相似。

在一般的对象识别领域中，已有一些成功的尝试改进传统的卷积神经网络。VGG网络和GoogLeNet是两个代表。VGG网络提出使用小卷积核进行连续卷积。特别地，它在每两个池化层之间堆叠了两层或三层3×3卷积。GoogLeNet将多尺度卷积和池化并入初始创建的单个特征提取层中。为了学习有效的特征，复合卷积层(inception layer)引入1×1卷积，以降低更大卷积之前和池化之后的特征图的数量。

发明内容

在本申请的一个方面，公开了一种人脸识别装置。该装置可包括提取器和识别器，提取器具有多个深度特征提取层，这些深度特征提取层从一个或多个输入图像中提取识别特征；识别器与提取器电子通信，并基于提取的识别特征识别输入图像的人脸图像。

在本申请的一个实施例中，每个深度特征提取层包括N个多卷积模块和M个池化模块，每个N和M都是大于1的整数。首个多卷积模块从输入图像提取局部特征，且后续的多卷积模块从在前的池化模块输出的提取特征图中，提取进一步的局部特征，其中，每个池化模块从各自的多卷积模块接收局部特征，并且降低接收到的特征的维度。从所有的提取层获得的特征被连接成作为识别特征的特征向量。

在本申请的一个实施例中，每个池化模块被设置在相邻两个多卷积模块之间、在一个多卷积模块和一个相邻的多路复合卷积模块(multi-inception modules)之间，或者在相邻的两个多路复合卷积模块之间。

在本申请的一个实施例中，每个深度特征提取层还包含一个或多个的多路复合卷积模块。每个多路复合卷积模块对从在前连接的池化模块接收的特征执行多尺度卷积操作，并降低接收的特征的维度。除了每个深度特征提取层的最后的池化模块、最后的多卷积模块、或最后的多路复合卷积模块以外，在该深度特征提取层中的每个多卷积模块和多路复合卷积模块后跟随有一池化模块，并且每个池化模块后跟随有一多卷积模块或者一多路复合卷积模块。

作为示例，每个多路复合卷积模块可包含一个或多个串接的复合卷积层。每个复合卷积层接收从在前的复合卷积层输出的特征作为其输入，并且该复合卷积层被配置为对接收到的特征执行多尺度卷积操作和池化操作，以获得多尺度卷积特征图和局部恒定的特征图，且在多尺度卷积操作之前和池化操作之后执行1×1卷积操作，以在多尺度卷积操作之前和池化操作之后降低特征图的维度。获得的多尺度卷积特征图和获得的局部恒定特征图被堆叠在一起，以形成下一层的输入特征图。

具体地，每个复合卷积层包括：一个或多个第一1×1卷积操作层，第一1×1卷积操作层被配置为，接收从在前的特征提取层输入的特征图并对接收的特征图执行1×1卷积操作，以压缩特征图的数量；一个或多个多尺度卷积操作层，被配置为，对从各自的1×1卷积操作层接收的压缩后的特征图，执行N×N卷积操作，以形成多个第一输出特征图，其中N＞1。一个或多个池化操作层，被配置为，对从在前的复合卷积层输入的特征图的局部原始区域进行池化，以形成局部恒定的特征图；和一个或多个第二1×1卷积操作层，被配置为，对从池化操作层接收的局部恒定特征图执行1×1卷积操作，以压缩特征图的数量从而获得多个第二输出特征图。一个或多个第三卷积操作层被配置为，从在前的复合卷积层接收输入特征图，并且对接收的特征图执行1×1卷积操作，以压缩特征图的数量从而获得多个第三特征图。第一特征图、第二特征图和第三特征图被堆叠在一起，以形成用于输入多个复合卷积层中的后续复合卷积层的特征图，或者用于输入下一个特征提取模块的特征图。

在本申请的一个实施例中，每个多卷积模块可以包括一个或多个串接的卷积层，每个卷积层接收在前卷积层输出的特征作为其输入，并且每个卷积层被配置为，对输入的特征执行局部卷积操作，其中，卷积层仅在输入图像的局部区域共享用于卷积操作的神经权重。

在一些实施例中，训练器可以与提取器执行电子通信，以在训练期间对特征提取单元施加监督信号，从而通过将监督信号反向传输到串接的多卷积模块和池化模块，或者串接的多卷积模块、池化模块和多路复合卷积模块，调整深度特征提取层中神经权重。该监督信号包括一个识别监督信号和一个验证监督信号，其中，识别监督信号通过以下方式生成：将任意模块中从输入的人脸区域提取的特征分类为训练数据集中的N个身份之一，并且将分类误差作为监督信号；并且其中，验证监督信号通过以下方式生成：对任意模块中的分别从两个输入人脸图像提取的特征进行比较，以确定他们是否来自同一个人，并且将验证误差作为监督信号。根据本申请，多卷积模块、池化模块和多路复合卷积模块中的每个均接收多个被施加到上述模块的监督信号或者多个从后续特征提取模块反向传输的监督信号。这些监督信号被聚合，以在训练期间调整每个多卷积模块和多路复合卷积模块的神经权重。

在本申请中，每个深度特征提取层可以包括不同数量的多卷积模块、不同数量的多路复合卷积模块、不同数量的池化模块和不同数量的全连接模块，或者获取不同输入人脸区域以提取特征。

本申请的另一方面，公开一种人脸识别方法，包括：通过具有多个深度特征提取层的提取器从一个或多个输入图像提取识别特征；和基于提取的识别特征识别输入图像的人脸图像，其中，每个层包括N个多卷积模块和M个池化模块，每个N和M是大于1的整数。首个多卷积模块从输入图像提取局部特征，后续的多卷积模块从在前的池化模块输出的提取特征提取进一步的局部特征，其中每个池化模块从各自的多卷积模块接收局部特征，并且降低接收的特征的维度。从各提取层获取的特征被连接成为作为识别特征的特征向量。

在本申请的一个实施例中，每个深度特征提取层还包括一个或多个多路复合卷积模块，每个多路复合卷积模块包括一个或多个串接的复合卷积层，所述提取还包括，通过每个复合卷积层对接收的特征执行卷积操作，以获得多尺度卷积特征图，并且通过上述的每个复合卷积层对接收的特征进行池化操作，以获得池化的特征图(即从在前层接收的特征图的局部区域进行池化以形成局部恒定的特征图)，其中，获得的多尺度卷积特征图和池化的特征图被堆叠到一起，以形成后续层的输入特征图。

本申请的进一步的实施例中，每个深度特征提取层还包括一个或多个多路复合卷积模块，每个多路复合卷积模块包括一个或多个串接的复合卷积层，并且其中，在提取中，每个复合卷积层执行：从在前的特征提取层接收输入特征图并且在接收的特征图上执行1×1卷积操作，以压缩特征图的数量；对从各自的1×1卷积操作层接收的压缩后的特征图，执行N×N卷积操作，以形成第一输出特征图，其中N＞1；对从在前的层接收的特征，执行池化操作(即池化来自在前层的输入特征图的局部区域以形成局部恒定的特征图)；对接收自池化操作层的池化后的特征图执行1×1卷积操作，以压缩特征图的数量以便获得第二输出特征图，接收来自在前层的输入特征图并且对接收的特征图执行1×1卷积操作，以压缩特征图的数量以便获得第三特征图；并且连接第一特征图、第二特征图和第三特征图以形成用于输入多个复合卷积层中的后续复合卷积层的特征图或者输入下一特征提取模块的特征图。

本申请的另一方面，提供一种人脸识别装置，其可以包括：一个或多个存储可执行组件的存储器；和一个或多个处理器，连接到存储器，执行可执行组件以执行装置的操作，该可执行组件包括：

提取组件，具有多个深度特征提取层，深度特征提取层被配置为从一个或多个输入图像提取识别特征；和

识别组件，基于提取的识别特征识别输入图像的人脸图像，

其中，每个深度特征提取层包括N个多卷积模块和M个池化模块，每个N和M是大于1的整数，

首个多卷积模块从输入图像提取局部特征，后续的多卷积模块从在前的池化模块输出的提取的特征提取进一步局部特征，其中，每个池化模块从各自的多卷积模块接收局部特征，并且降低接收的特征的维度，和

其中，将从各提取层获得的特征连接成作为识别特征的特征向量。

附图说明

下面参照附图描述本发明的示例性非限制性实施例。附图是说明性的，通常不按照精确的比例绘制。不同图上的相同或相似的元件用相同的附图标记表示。

图1是示出本公开一些实施例的人脸识别装置的示意图；

图2是示出本公开一些实施例的当以软件实现时的人脸识别装置的示意图；

图3a和3b是示出图1中的特征提取单元中的深度特征提取层的两个示例的两个示意图；

图4a是示出本公开一些实施例的多卷积模块的结构的示意图；

图4b是示出本公开一些实施例的深度特征提取层的多路复合卷积(multi-inception)模块的示意图；

图5是示出本公开一些实施例的多路复合卷积模块的复合卷积层的结构示意图；

图6是示出本公开一些实施例的图1中所示的训练器的示意流程图；

图7是示出本公开一些实施例的图1中所示的提取器的流程图；

图8是示出本公开一些实施例的图1中所示的识别器的流程图；

图9是示出本公开一些实施例的图5中所示的复合卷积层的处理的示意流程图。

具体实施方式

现在将详细介绍本发明的一些具体实施例，包括发明人为实施本发明而设想的最佳模式。结合附图说明具体实施例的示例。虽然结合具体实施方式描述了本发明，但是应当理解，不旨在是将本发明限制于所描述的具体实施例。相反，旨在覆盖包括在被权利要求限定的本发明的精神与范围内的替代方式、变型和等同物。在下面的描述中，阐述了许多具体细节，以提供对本发明的充分理解。可以在没有一些或全部具体细节的情况下实施本发明。在其他情况下，未详细描述公知的处理操作，从而不会不必要地模糊本发明。

本文使用的术语仅用于描述具体实施例的目的，而不在于限制本发明。如本文所使用的，单数形式“一”和“该”也旨在包括复数形式，除非上下文另有明确指示以外。将进一步理解，当在本说明书中使用时，术语“包括”指定陈述的特征、整体、步骤、操作、元件和/或部件的存在，但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、部件和/或其组合。

如本领域技术人员将理解的，本发明可以实现为系统、方法或计算机程序产品。因此，本发明可以采取完全硬件的实施例、完全软件的实施例(包括固件、驻件、微代码等)的形式，或组合软件和硬件方面的实施例，这些方面在本文中可通常被称为“电路”、“模块”或“系统”。此外，本发明可采用计算机程序产品的形式，在任何有形介质中实现该计算机程序产品，在该有形介质中存有计算机可用程序代码。

在以软件实施下述公开的装置1000的情况下，装置1000可包括通用计算机、计算机集群、主流计算机、专用于提供在线内容的计算机设备，或者可包括以集中或分布方式操作的一组计算机的计算机网络。如图2所示，装置1000可包括一个或多个处理器(处理器102、104、106等)、存储器112、存储设备116、通信接口114和促进装置1000的各部件之间信息交换的总线。处理器102-106可包括中央处理单元(“CPU”)，图形处理单元(“GPU”)或者其他适合的信息处理装置。根据使用的硬件的类型，处理器102-106可包括一个或多个印刷电路板、和/或一个或多个微处理芯片。处理器102-106可执行计算机程序指令的序列，以执行各种方法或运行后续将会更加详细介绍细节的模块。

存储器112除包括其他以外，可包括随机存取存储器(“RAM”)和只读存储器(“ROM”)。计算机程序指令可被从存储器112中存储、访问和读取，以供一个或多个处理器102-106执行。例如，存储器112可存储一个或多个软件应用程序。进一步地，存储器112可存储整个软件应用程序或者仅存储可由处理器102-106执行的部分软件应用程序，以完成用于下述公开的装置1000的功能。需要注意的是，尽管图1中仅示出了一个块，但是存储器112可包括安装于中央计算设备上或者安装于不同计算设备上的多个物理设备。

参照图1，以硬件实施装置1000，装置1000可包括提取器10和识别器20。提取器10被配置有多个深度特征提取层，该深度特征提取层可被形成为神经网络，该神经网络被配置或者被训练为从一个或多个输入图像提取识别特征。识别器20与提取器10进行电子通信，并且根据提取的识别特征识别输入图像的人脸图像。如下文将要详细说明的，每个深度特征提取层包括N个多卷积模块和M个池化模块，N和M均是大于1的整数。首个多卷积模块从输入图像提取局部特征，并且后续的多卷积模块从在前的池化模块输出的提取特征提取进一步的局部特征，其中，每个池化模块从各自的多卷积模块接收局部特征并且降低接收的特征的维度。从各提取层获得的特征被连接成特征向量作为识别特征。另外，装置1000可还包括用于训练神经网络的训练器30。

提取器10

特征提取器10包括多个深度特征提取层。每个深度特征提取层是特征提取模块的串接。图7是示出提取器10中的特征提取处理的示意流程图，该处理包含3个步骤。在步骤101，特征提取器10将输入人脸图像分别前向传播通过每个深度特征提取层。然后，在步骤102，提取器10获取每个深度特征提取层输出的表示作为特征。最后在步骤103中，提取器10将所有深度特征提取层的特征连接起来。

在本发明的一个实施例中，每个深度特征提取层可包括多个多卷积模块、多个多路复合卷积模块(multi-inception module)、多个池化模块和多个全连接模块。每个深度特征提取层可包括不同数量的串接的多卷积模块、不同数量的多路复合卷积模块、不同数量的池化模块和不同数量的全连接模块，或者可获取不同的输入人脸区域以提取特征。

图3a示出了提取器10中的特征提取层的一个示例。如图3a所示，每个深度特征提取层包括交替的多卷积模块21-1、21-2、21-3、…和池化模块22-1、22-2、22-3….。为了描述的目的，在图3a中示出四个多卷积模块21-1、21-2、21-3和21-4和三个池化模块22-1、22-2和22-3作为示例。

图4a是示出每个多卷积模块21-1、21-2、21-3….的结构示意图。如图所示，每个多卷积模块包含多个串接的卷积层。图4a示出了卷积层1-3的三个串接的卷积层的示例。然而，在本申请中，多卷积模块可包括任意数量的卷积层，例如1个、2个、3个，或者更多。在多卷积模块仅包含一个卷积层的极端情形中，它降级到传统的卷积模块。因此，多卷积模块是传统卷积模块的泛化。同样地，多路复合卷积模块包括一个或多个串接的复合卷积层。

多卷积模块的卷积层配置为，从输入特征图(即在前层的输出特征图)提取局部人脸特征，以形成当前层的输出特征图。具体地，每个卷积层对输入特征图执行卷积操作，以形成当前层的输出特征图，并且形成的输出特征图将会被输入到下一卷积层。

每个特征图是一种2D的特征。在相同输出特征图中的特征或者在相同特征图的局部区域中的特征以相同的神经网络权重集被从输入特征图提取。每个卷积层中的卷积操作可被表达为：

其中，

xⁱ和y^j分别是第i个输入特征图和第j个输出特征图；

k^ij是第i个输入特征图和第j个输出特征图之间的卷积核；

*表示卷积；

b^j是第j个输出特征图的偏差；

ReLU非线性的y＝max(0,x)用于神经元。ConvNets的高卷积层中的权重被局部共享。

r表示共享权重的局部区域。在局部区域r的与整个输入特征图一致的极端情形中，卷积变为全局卷积。在局部区域r对应于输入特征图的单个像素的另一极端情形中，卷积层降级到局部连接层。

在本申请的又一实施例中，可在复合卷积层(如图5所示)执行1×1卷积操作，通过将输出特征图的数量设置为显著地小于输入特征图的数量来压缩特征图的数量，下面将会给予说明。

返回图3a，如图所示，在每两个多卷积模块之间一个池化模块被嵌入。每个池化模块22-1、22-2…旨在降低特征维度并且形成更多恒定的特征。

串接多个卷积/复合卷积层的目标是，提取分层的局部特征(即，特征被从输入图像或输入特征的局部区域提取)，其中，通过更高的卷积/复合卷积层提取的特征在输入图像上具有更大、更有效的感受野和更复杂的非线性。池化模块22-1、22-2…被设置为对从在前层的输入特征图将局部人脸特征进行池化，以形成当前层的输出特征图。每个池化模块22-1、22-2…从各自的连接的多卷积/多路复合卷积模块接收特征图，再降低接收的特征图的特征维度，并且通过池化操作形成更加恒定的特征，可被公式化为：

其中，在第i个输出特征图中的每个神经元yⁱ针对第i个输入特征图xⁱ中的M×N局部区域进行池化，s作为步长。

维度被降低的特征图随后被输入到下一个串接的卷积模块。

如图3a所示，每个池化模块另外还跟有全连接模块23(23-1、23-2和23-3)。在三个全连接模块21-1、21-2和21-3和最后一个多卷积模块21-4(多卷积模块4)中提取的特征被监督信号监督。在最后一个多卷积模块21-4中的特征用于人脸识别。

在深度特征提取层中的全连接模块23-1、23-2、和23-3被配置为，从在前的特征提取模块提取全局特征(从输入特征图的全部区域提取的特征)，即池化模块22-1、22-2和22-3。全连接层还用作在训练期间接收监督信号的接口，这将会在后面讨论。全连接模块23-1、23-2和23-3通过限制在其中的神经元的数量，还具有如池化模块22-1、22-2和22-3降低特征维度的功能。全连接模块23-1、23-2和23-3可被公式化为：

其中，

x表示来自串接的池化模块的神经输出(特征)，

y表示在当前全连接中的神经输出(特征)，

w表示在当前特征提取模块(当前全连接)中的神经权重。在全连接模块中的神经元将在在前的特征提取模块中的特征进行线性结合，接着进行ReLU非线性处理。

在深度特征提取层的最高的模块中的特征用于人脸识别。这些特征是全局的，并且可捕捉从输入人脸图像到他们的身份的更高的非线性映射。作为两个例子，图3a中的多卷积模块4中的特征和图3b中的全连接模块4中的特征用于人脸识别，分别用于这两个图中所示的两个深度特征提取层。特征提取单元可包括多个深度特征提取层。所有深度特征提取层中的顶部特征提取模块中的特征被连接为长特征向量，作为用于人脸识别的最终特征表示。可存在从用于提取特征的模块串接分支出来的多个特征提取模块。图3a和3b中的全连接模块1-3是这些模块的示例。这些分支出的模块，以及顶部特征提取模块(提取用于人脸识别的特征)，用作在训练期间接收监督信号的接口，这将会在下面进行讨论。当训练完成时，所有分支出的模块将会被丢弃，并且仅用于为人脸识别提取特征的模块串接在测试中被保留。

在图3b中的特征提取层的另一个示例中，该深度特征提取层包括两个多卷积模块21-1和21-2，每个多卷积模块后跟随有池化模块22(22-1或者22-2)。多卷积模块21-1被连接到输入人脸图像作为输入层，并且被配置为，根据公式1)从输入图像提取局部人脸特征(即从输入图像的局部区域提取特征)。

池化模块22-1被配置为对来自在前层(多卷积模块21-1)的局部人脸特征进行池化，以形成当前层的输出特征图。具体地，池化模块22-1从各自的连接的卷积模块接收特征图，然后降低接收的特征图的维度，并通过池化操作形成更加恒定的特征，该池化操作通过公式2)被公式化。

然后，串接的多卷积模块21-2和池化模块22-2从池化模块22-1接收特征图，并且对接收的特征图分别地执行与卷积模块21-1和池化模块22-1相同的操作。于此，每个特征图是以2D组织的某种特征。

如图3b所示，特征提取层还包括两个多路复合卷积模块24-1和24-2，每个多路复合卷积模块后跟随有池化模块22(22-3和22-4)。图4b示出了每个多路复合卷积模块24-1和24-2中的三个串接的复合卷积层1-3的示例。串接复合卷积层的目标是，通过结合多种卷积核尺寸的卷积以及在单层中的局部池化操作，提取多尺度局部特征。通过更高的卷积/复合卷积层提取的特征具有针对输入图像的更大、更有效的的感受野和更加复杂的非线性。

如图5所示，每个复合卷积层包括一个或多个第一1×1卷积操作层241；一个或多个第二1×1卷积操作层242，一个或多个多卷积操作层(N×N卷积，N＞1)243，一个或多个池化操作层244，以及一个或多个第三1×1卷积操作层245。1×1卷积操作层241的数量与多尺度卷积操作层243的数量一致，并且每个层243与相应的层241连接。第三1×1卷积操作层245的数量与池化层244的数量一致。第二1×1卷积操作层242与在前的起始层连接。

1×1卷积层241用于在多卷积操作层243的操作之前和池化操作层244之后使计算更有效率，这将会在下面进行讨论。

为了清楚的目的，图5仅示出了两个第一1×1卷积操作层241、一个第二1×1卷积操作层242、一个第三1×1卷积操作层245和两个多尺度卷积操作层243，但是本发明并不限于此。在图5所示的示例中，复合卷积层配置通过1×1，3×3，和5×5的尺寸的卷积核进行卷积操作，并且通过公式2进行池化操作。第一1×1卷积层241用于在3×3和5×5卷积之前使计算更有效率。1×1卷积层的输出特征图的数量被设置为比它的输入特征图更小。因为3×3和5×5卷积获取1×1卷积的输出特征图作为他们的输入特征图，因此3×3和5×5卷积的输入特征图的数量变得更小。通过这种方式，在3×3和5×5卷积中的计算量被显著的降低。同样地，池化之后的1×1卷积245帮助减少池化的输出特征图的数量。因为1×1、3×3和5×5卷积的输出特征图被连接以形成下一层的输入特征图，1×1卷积的输出特征图的小数量减少了输出特征图的总数量，并且因此降低了在下一层的计算量。因卷积核尺寸极小，1×1卷积本身不占用太多的计算量。

图9是示出本公开一些实施例的如图5所示的复合卷积层的处理的示意流程图。在步骤901，每个1×1卷积操作层241操作以从在前层接收输入特征图，并且对接收的特征图执行1×1卷积操作，以如前所述，通过公式1)压缩特征图的数量。多尺度卷积操作层243对从各个1×1卷积操作层241接收的压缩特征图执行N×N卷积操作，以形成多个第一输出特征图。

在步骤902，池化操作层244操作以接收来自在前层的输入特征图，并且根据公式2)对接收的特征图执行池化操作。复合卷积层中的池化操作旨在针对输入特征图的局部区域进行池化，以形成前述的局部恒定的特征。然而，为了保持层242，243和245中的输出特征图尺寸的一致以便后续将它们堆叠到一起，复合卷积层的池化可能不降低特征维度，这是通过根据公式2将步长s设置为1来实现的。第三1×1卷积操作层245操作以对从池化操作层244接收到的特征图执行1×1卷积操作，以如前所述根据公式1)压缩特征图的数量，从而获得多个第二输出特征图。

在步骤903，第二1×1卷积操作层242操作以从在前层接收输入特征图，并且对接收的特征图执行1×1卷积操作，从而根据公式1)压缩特征图的数量以便获取多个第三特征图。

在步骤904，第一特征图、第二特征图和第三特征图被连接，形成用于将这些特征图输入给后续的复合卷积层或输入给后续的特征提取模块。

识别器20

识别器20操作以计算由特征提取器10提取的不同人脸图像的特征之间的距离，从而确定两个人脸图像是否是来自用于人脸验证的同一身份或者确定是否作为探测人脸图像的输入图像之一属于与训练人脸图像之一相同的身份，训练人脸图像包括用于人脸验证的输入图像。图8是示出识别器20中的识别处理的示意流程图。在步骤201，识别器20计算通过特征提取器10从不同人脸图像提取的特征之间的距离。然后在步骤202，识别器20确定两个人脸图像是否是来自用于人脸验证的相同身份，或者，替代地，在步骤203，它确定作为探测人脸图像的输入图像中的一个属于与训练人脸图像之一相同的身份，训练人脸图像包括用于人脸验证的输入图像。

在识别器20中，如果两个人脸图像的特征距离小于阈值，则被确认属于同一身份，或者如果探测人脸图像和训练人脸图像之一之间的特征距离相较于探测人脸图像和所有其他训练人脸图像之间的特征距离是最小的，则探测人脸图像被确定为属于与该训练人脸图像之一相同的身份，其中，由识别器20确定的特征距离可以是欧氏距离(Euclideandistances)、联合贝叶斯距离(Joint Bayesian distances)、余弦距离(cosinedistances)、汉明距离(Hamming distances)或任何其他距离。

本发明的一个实施例中，联合贝叶斯距离用作特征距离。联合贝叶斯距离已经成为流行的人脸相似度量，其通过求取两个独立高斯变量的和表示提取的人脸特征x(减均值之后)

x＝μ+ò (4)

其中，μ～N(0,S_μ)代表人脸身份，并且ò～N(O，S_ò)代表本人的变化。联合贝叶斯模型给出了给定本人的变化或个人之间的变化，两个人脸的联合概率，P(x₁,x₂∣H_I)和P(x₁,x₂∣H_E)。从等式(5)可容易地看出这两个概率也是变形的高斯，分别为：

和

S_μ和S_ò可从EM算法的数据中学习到。在测试中，它计算可能性比率

其具有封闭的解且是有效的。

训练器30

训练器30用于，通过对特征提取器中的特征提取层中的神经元之间的连接输入最初的权重、多个识别监督信号和多个验证监督信号，更新特征提取器10中的特征提取层(即多卷积模块，多路复合卷积模块和全连接模块的层)中的神经元之间的连接的权重w。训练器30旨在在深度特征提取层中迭代地寻找最优的神经权重集，该最优的神经权重集用于提取用于人脸识别的身份相关特征。

如图3a和3b所示，在训练器30中的识别和验证监督信号被同时地施加到特征提取器10中的每个特征提取层中的每个被监督的层，并且分别地反向传输到输入图像，以便更新所有串接的特征提取模块中的神经元之间的连接的权重。

通过将所有被监督的层(被选择用于监督的层，它们可以是在多卷积模块、多路复合卷积模块、池化模块或者全连接模块中的层)的表示分类成N个身份中的一个，在训练器30中生成识别监督信号，其中，分类误差用作识别监督信号。

通过分别地对在每个特征提取模块中，两个被比对的人脸图像的监督层表示进行验证，在训练器30中生成验证监督信号，以确定两个被比对的人脸图像是否属于相同的身份，其中，验证误差用作验证监督信号。给定一对训练人脸图像，特征提取器10从每个特征提取模块中的两个人脸图像，分别提取两个特征向量f_i和f_j。如果f_i和f_j是相同身份的人脸图像，则特征验证误差是或者，如果f_i和f_j是不同的身份的人脸图像，则特征验证误差是其中，||f_i-f_j||₂是两个特征向量的欧氏距离(Euclideandistance)，m是正的常量值。如果对于相同的身份f_i和f_j不相似，则存在误差，或者，如果对于不同的身份f_i和f_j相同，则存在误差。

图6是示出训练器30中的训练处理的示意流程图。在步骤301，训练器30采样得到两个人脸图像，并且将它们分别地输入到特征提取器10，以在特征提取器10的所有特征提取层中获得两个人脸图像的每个的特征表示。然后，在步骤302，训练器30通过将在每个被监督层中的每个人脸图像的特征表示分类成多个(N)身份中的一个，计算识别误差。同时，在步骤303，训练器30通过分别地验证在每个被监督层中的两个人脸图像的特征表示是否来自相同的身份，计算验证误差。识别误差和验证误差分别用作识别监督信号和验证监督信号。在步骤304，训练器30同时地将所有识别监督信号和验证监督信号反向传输给特征提取器10，以便更新特征提取器10中的神经元之间的连接的权重。同时地被施加给被监督层识别监督信号和验证监督信号(或者误差)被反向传输到串接的特征提取模块，一直到被传输得到输入图像为止。在反向传输之后，从串接的特征提取模块中的每个层获取的误差被累积。根据误差的大小，特征提取器10中的神经元之间的连接的权重被更新。最后，在步骤305，训练器30判断训练处理是否收敛，并且如果尚未达到收敛点，则重复执行步骤301-304。

尽管已经对本发明的较优的实施例进行了说明，但是本领域技术人员可以在了解基本发明构思之后，对这些示例进行变形或修改。所附权利要求旨在被考虑为包括优选示例，并且所有变形或修改均落入本发明的范围内。

显然，在不脱离本发明的精神和范围的情况下，本领域技术人员可以对本发明进行变形或修改。因此，如果这些变形或修改属于权利要求以及等同技术的范围，则它们也将落入本发明的范围内。

所附权利要求中的所有方法或者步骤以及功能元素的相应的结构、材料、动作和以及等同物意图包括用于执行结合有其他被明确要求保护的元素中的功能的任何结构、材料或动作。为了说明和描述的目的已对本发明进行了描述，但这些描述并不意图是穷尽性的，也不受限于本发明所公开的形式。在不脱离本发明的范围和精神的情况下，许多修改和变形对于本领域普通技术人员是显而易见的。选择和描述了实施例，以便最好地解释本发明的原理和实际应用，并且使得本领域普通技术人员能够通过适合于所预期的特定用途的各种修改来理解本发明的各种实施例。

Claims

1.一种人脸识别装置，包括：

提取器，具有多个深度特征提取层，所述深度特征提取层被配置为从一个或多个输入图像提取识别特征；和

识别器，与提取器电连接，用于根据提取的识别特征识别输入图像中的人脸图像，

其中，每个深度特征提取层包括多个多卷积模块和多个池化模块，并且至少一个深度特征提取层还包括多个多路复合卷积模块，多路复合卷积模块包括一个或多个串接的复合卷积层；

其中，首个多卷积模块或者多路复合卷积模块从输入图像提取局部特征，并且后续的多卷积模块和多路复合卷积模块从与其连接的池化模块的模块输出的特征中提取进一步的局部特征，并且其中，每个池化模块从各自的多卷积模块和多路复合卷积模块接收局部特征并降低接收的特征的维度，和

其中，连接从各提取层获得的特征，作为所述识别特征的特征向量。

2.根据权利要求1所述的装置，其中，每个池化模块被设置在相邻的两个多卷积模块之间、一个多卷积模块和一个相邻的多路复合卷积模块之间，或者设置在相邻的两个多路复合卷积模块之间。

3.根据权利要求1所述的装置，其中，每个多路复合卷积模块对从为其设置的池化模块接收的特征，执行多尺度卷积操作，并且降低接收的特征的维度，

其中，除了每个深度特征提取层中的最后一个池化模块、最后一个多卷积模块或最后一个多个多路复合卷积模块以外，在每个深度特征提取层中的每个多卷积模块和每个多路复合卷积模块分别地跟随有一个池化模块，并且每个池化模块后跟随有一个多卷积模块或者一个多路复合卷积模块。

4.根据权利要求1或3所述的装置，其中，每个复合卷积层被配置为对输入特征图执行1×1卷积，以在更大的卷积操作之前和池化操作之后压缩输入特征图的数量。

5.根据权利要求4所述的装置，其中，每个复合卷积层包括：

一个或多个第一1×1卷积操作层，被配置为从在前的复合卷积层中的一个接收输入特征图，并对接收的特征图执行1×1卷积操作，以压缩接收的特征图的数量；

一个或多个多尺度卷积操作层，被配置为对从各自的1×1卷积操作层接收的压缩的特征图，执行N×N卷积操作，以形成多个第一输出特征图，其中N＞1；

一个或多个池化操作层，被配置为从所述在前的复合卷积层接收输入特征图，以针对接收的特征图的局部区域进行池化，从而形成局部恒定的特征图；

一个或多个第二1×1卷积操作层，被配置为对所述局部恒定的特征图执行1×1卷积操作，以压缩所述特征图的数量从而获取多个第二输出特征图；和

一个或多个第三卷积操作层，被配置为从在前的复合卷积层接收输入特征图，并且对接收的特征图执行1×1卷积操作以所述压缩特征图的数量从而获取多个第三特征图；

其中第一特征图、第二特征图和第三特征图堆叠到一起，以形成用于输入下一复合卷积层的特征图。

6.根据权利要求1所述的装置，其中，每个多卷积模块包括一个或多个串接的卷积层，每个卷积层接收从前一卷积层输出的特征作为它的输入，并且每个卷积层被配置为对输入特征执行局部卷积操作，其中，所述卷积层仅在输入图像的局部区域中共享用于卷积操作的神经权重。

7.根据权利要求4所述的装置，其中，所述池化模块、多卷积模块或者多路复合卷积模块中的一个或多个跟随有全连接模块，所述全连接模块用于从相应的与其连接的池化模块、多卷积模块或者多路复合卷积模块提取全局特征。

8.根据权利要求7所述的装置，还包括：

训练器，与提取器电连接，用于在训练期间对一个或多个所述池化模块、所述多卷积模块、所述多路复合卷积模块和所述全连接模块施加监督信号，从而通过将所述监督信号反向传输到串接的多卷积模块和池化模块，或者到串接的多卷积模块、池化模块和多路复合卷积模块，调整深度特征提取层中的神经权重。

9.根据权利要求8所述的装置，其中，所述监督信号包括一个识别监督信号和一个验证监督信号，

其中，所述识别监督信号通过以下方式生成：将每个被监督模块的特征分类到训练数据集中的N个身份中的一个，并且将分类误差作为监督信号，所述特征从输入人脸区域提取，和

其中，所述验证信号通过以下方式生成：对每个被监督模块中的特征进行比较，并且将验证误差作为监督信号，所述特征分别从两个输入人脸图像提取并且用于确定它们是否来自同一人。

10.根据权利要求9所述的装置，其中，每个所述多卷积模块、所述池化模块和所述多路复合卷积模块中的每个接收多个监督信号，这些监督信号被施加到所述每个模块，或者从后续的特征提取模块被反向传输，其中，这些监督信号被聚合以调整训练中的每个多卷积模块、每个多路复合卷积模块和每个全连接模块中的神经权重。

11.根据权利要求1所述的装置，其中，来自两个输入人脸图像的特征之间的距离被与阈值比较，以确定两个所述输入人脸图像是否来自同一人以实现人脸识别，或者，输入查询人脸图像的特征与人脸图像数据集中的每个人脸图像的特征之间的距离被计算，以确定所述输入查询人脸图像属于人脸图像数据集中的哪个身份以实现人脸识别。

12.根据权利要求11所述的装置，其中，所述特征之间的距离是从欧氏距离、联合贝叶斯距离、余弦距离、汉明距离或任何其他距离当中选择的一个。

13.根据权利要求7所述的装置，其中，每个深度特征提取层包括不同数量的多卷积模块、不同数量的多个多路复合卷积模块、不同数量的池化模块以及不同数量的全连接模块，或者获取不同输入人脸区域来提取特征。

14.一种人脸识别方法，包括：

通过多个深度特征提取层，从一个或多个输入图像提取识别特征；和

基于提取的识别特征识别所述输入图像的人脸图像，

其中，每个所述深度特征提取层包括多个多卷积模块和多个池化模块，并且至少一个所述深度特征提取层还包括多个多路复合卷积模块，多路复合卷积模块包括一个或多个串接的复合卷积层；

其中，所述提取还包括：

通过首个多卷积模块或者多路复合卷积模块从所述输入图像提取局部特征；

通过后续的多卷积模块和多路复合卷积模块，从在前的池化模块输出的提取特征提取进一步的局部特征，其中，每个池化模块从各自的多卷积模块和多路复合卷积模块接收局部特征，并且降低接收的特征的维度，和

将从各提取层获得的特征连接成作为所述识别特征的特征向量。

15.根据权利要求14所述的方法，其中，所述复合卷积层被配置为对输入特征图执行1×1卷积，以在更大的卷积操作之前和池化操作之后压缩所述特征图的数量。

16.根据权利要求15所述的方法，其中，在提取期间，每个复合卷积层执行：

从在前的复合卷积层接收输入特征图，并且对接收的特征图执行1×1卷积操作，以压缩所述特征图的数量；

对从各自的1×1卷积操作层接收的压缩的特征图执行N×N卷积操作，以形成多个第一输出特征图，其中N＞1；

对来自所述在前的复合卷积层的输入特征图的局部区域执行池化，以形成局部恒定的特征图；

对所述局部恒定的特征图执行1×1卷积操作，以压缩所述特征图的数量以便获取多个第二输出特征图；

从在前的复合卷积层接收输入特征图，并对接收的特征图执行1×1卷积操作，以压缩所述特征图的数量从而获取多个第三特征图；和

连接第一特征图、第二特征图和第三特征图，以形成用于输入下一复合卷积层的特征图。

17.根据权利要求14所述的方法，其中，所述识别还包括：

确定所述识别特征之间的距离；和

根据确定的距离确定用于人脸识别的输入图像中的两个人脸图像是否来自相同的身份，或者，确定作为探测人脸图像的一输入图像与作为训练人脸图像的一用于人脸识别的输入图像是否属于相同的身份。

18.根据权利要求要求17所述的方法，其中，所述确定还包括：

将两个输入人脸图像的特征到阈值之间各自的距离进行比较，以确定两个所述输入人脸图像是否来自用于人脸识别的同一人，或者

计算输入查询人脸图像的特征与人脸图像数据集中的每个人脸图像的特征之间的距离，以确定输入查询人脸图像属于人脸图像数据集中的哪个身份，以进行人脸识别。

19.根据权利要求18所述的方法，其中，所述距离是从欧氏距离、联合贝叶斯距离、余弦距离、汉明距离或任何其他距离当中选择出的一个。

20.根据权利要求15所述的方法，其中，至少一个所述深度特征提取层还包括：多个全连接模块，用于从与其连接的相应的池化模块、多卷积模块或者多路复合卷积模块提取全局特征。

21.根据权利要求20所述的方法，其中，所述多卷积模块、所述多路复合卷积模块、所述池化模块和全连接模块形成为神经网络，并且该方法还包括：

分别将两个人脸图像输入到神经网络，以获得两个人脸图像中的每个的特征表示；

通过将所述神经网络中的每个人脸图像的特征表示分类程多个身份中的一个，计算识别误差；

通过对两个人脸图像各自的特征表示是否来自相同身份，计算验证误差，所述识别误差和所述验证误差分别被作为为识别监督信号和验证监督信号；和

同时地将所述识别监督信号和验证监督信号反向传输到神经网络，以更新神经网络中的串接的多卷积模块、多路复合卷积模块和全连接模块之间的连接的神经权重。

22.一种人脸识别装置，包括：

一个或多个存储器，存储可执行组件；和

一个或多个处理器，耦合到所述存储器，执行所述可执行组件以执行装置的操作，所述可执行组件包括：

提取组件，具有多个深度特征提取层，所述深度特征提取层被配置为从一个或多个输入图像提取识别特征；和

识别组件，根据提取的识别特征识别所述输入图像的人脸图像，

首个所述多卷积模块或者所述多路复合卷积模块从所述输入图像提取局部特征，后续的多卷积模块和多路复合卷积模块从在前的池化模块输出的提取特征进一步提取局部特征，其中，每个池化模块从各自的多卷积模块和多路复合卷积模块接收局部特征，并降低所述局部特征的维度，并且

其中，从所有提取层获得的特征被连接为作为所述识别特征的特征向量。

23.根据权利要求22所述的装置，其中，每个多路复合卷积模块对从在前连接的池化模块接收的特征执行多尺度卷积操作，并且降低接收的特征的维度。

24.根据权利要求22所述的装置，其中，每个复合卷积层接收在前的复合卷积层输出的特征作为输入，并且被配置为对特征图执行1×1卷积操作以减少特征图的数量。

25.根据权利要求22-24中任一项所述的装置，其中，每个复合卷积层包括：

一个或多个第一1×1卷积操作层，被配置为从在前的复合卷积层接收输入特征图像，并且对接收的特征图执行1×1卷积操作，以压缩特征图的数量；

一个或多个多尺度卷积操作层，被配置为对从各自的1×1卷积操作层接收的压缩的特征图执行N×N卷积操作，以形成多个第一输出特征图，其中N＞1；

一个或多个池化操作层，被配置为对来自在前的复合卷积层的输入特征图的局部区域进行池化，以形成局部恒定的特征图；

一个或多个第二1×1卷积操作层，被配置为对所述局部恒定的特征图执行1×1卷积操作，以压缩特征图的数量从而获得多个第二输出特征图；和

一个或多个第三卷积操作层，被配置为从在前的复合卷积层接收输入特征图，并对接收的特征图执行1×1卷积操作，以压缩所述特征图的数量从而获得多个第三特征图；

其中，第一特征图、第二特征图和第三特征图被堆叠到一起，以形成输入到多个复合卷积层的后续复合卷积层的特征图。

26.根据权利要求22所述的装置，其中，每个多卷积模块包括一个或多个串接的卷积层，每个卷积层接收来自在前的卷积层输出的特征作为输入，并且每个卷积层被配置为对输入特征执行局部卷积操作，其中，卷积层仅在输入图像的局部区域共享用于卷积操作的神经权重。

27.根据权利要求22所述的装置，其中，每个深度特征提取层还包括多个用于从连接在其上的相应的池化模块，多卷积模块，或者或复合卷积模块提取全局特征的全连接模块。

28.一种计算机可读存储介质，其上存储有计算机程序指令，其中，所述程序指令被处理器执行时实现权利要求14～21中任一项所述人脸识别方法的步骤。