CN108496174B - 用于面部识别的方法和系统 - Google Patents

用于面部识别的方法和系统 Download PDF

Info

Publication number
CN108496174B
CN108496174B CN201580085498.9A CN201580085498A CN108496174B CN 108496174 B CN108496174 B CN 108496174B CN 201580085498 A CN201580085498 A CN 201580085498A CN 108496174 B CN108496174 B CN 108496174B
Authority
CN
China
Prior art keywords
layer
layers
neurons
feature extraction
connections
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580085498.9A
Other languages
English (en)
Other versions
CN108496174A (zh
Inventor
孙祎
王晓刚
汤晓鸥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Shenzhen Sensetime Technology Co Ltd
Sensetime Group Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Shenzhen Sensetime Technology Co Ltd
Sensetime Group Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd, Shenzhen Sensetime Technology Co Ltd, Sensetime Group Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Publication of CN108496174A publication Critical patent/CN108496174A/zh
Application granted granted Critical
Publication of CN108496174B publication Critical patent/CN108496174B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

公开了一种用于面部识别的设备,包括:特征提取单元,用于利用多个深度特征提取层次结构从输入面部图像提取特征;以及识别单元,用于计算所述特征提取单元从不同面部图像提取的面部特征之间的距离,以在面部验证时确定两个面部图像是否来自同一身份,或在面部识别时确定所述输入图像中作为测试面部图像的一个输入图像与由所述输入图像组成的训练面部图像集中的一个训练面部图像是否属于同一身份;其中,每个所述深度特征提取层次结构包括多个级联的卷积层、局部连接层、池化层和全连接层,以及所述全连接层中的神经元仅连接到其前一层中的神经元的一部分,而所述卷积层和所述局部连接层中的神经元仅连接到其前一层中的局部区中的神经元的一部分。

Description

用于面部识别的方法和系统
技术领域
本申请涉及一种用于面部识别的方法及其系统。
背景技术
深度神经网络中的参数个数受到训练数据量的限制,而权值稀疏化算法有助于减少模型参数且改进深度模型的通用化能力。
在设计GoogLeNet时已经采取了减少神经元连接的想法,这在面对ImageNet中存在的挑战时获得了巨大成功。GoogLeNet通过使用大小为1×1、3×3和5×5的极小卷积核而减少了神经元连接。
根据“神经元捆绕在一起(neurons that fire together wire together)”的Hebbian规则的建议,强相关神经元之间的连接比弱相关神经元之间的连接重要。此外,前一层中与当前层中的给定神经元较相关(正或负)的神经元对于预测当前层中的给定神经元的活动较有帮助。
LeCun等人在其开创性文章“最佳脑损伤(Optimal Brain Damage)”中研究了移除深度神经网络中的不重要的参数。他们采取了二阶导数相关准则(second derivative-related criterion)来移除参数。在不损失原始模型的预测能力的情况下,他们将模型参数减少了八倍。
发明内容
在本申请的一个方面中公开了一种用于面部识别的设备。该设备可包括:提取器,其具有拥有稀疏化神经元连接的多个深度神经网络,以从面部图像的多个面部区提取面部特征用于面部识别;以及识别器,与提取器电通信且基于所提取的面部特征来识别输入面部图像的面部身份。
根据“神经元捆绕在一起”的Hebbian规则,与强相关神经元之间的神经元连接相比,裁剪掉更多的、弱相关神经元之间的神经元连接,其中两个连接的神经元之间的相关性由其神经激活之间的相关性的量值界定。
在本申请的一个实施例中,首先训练基线(baseline)深度神经网络,且接着从最后一层向前一层逐层裁剪神经元连接,每次仅对一个额外层进行稀疏化且再训练整个模型。先前训练的模型用于计算神经相关性且初始化后续较稀疏模型。
在本申请的一个实施例中,基线深度神经网络相似于VGG网,其中每两个卷积层跟随在一个最大池化层之后。它们之间的一个主要差异是,最后两个卷积层被两个局部连接层替换。该实施例的目标是学习不同面部区中的不同特征,这是因为面部是结构化对象,且局部连接增加了模型适配能力。第二局部连接层之后跟随的是多维全连接层。全连接层中的特征表示(feature representation)用于后继面部识别。
在本申请的一个实施例中,从最后一个全连接层向前一局部连接和卷积层以逐层方式删除基线模型中的连接。假设N0表示良好训练基线模型,当层Lm稀疏化时,新模型Nm由其前一模型Nm-1再训练、初始化。因此,训练出具有越来越少连接的模型序列{N1,…,NM},且NM是获得的最终稀疏ConvNet。在整个训练过程期间,先前学习的模型用于计算神经相关性且引导连接中断程序。由较致密模型NM-1学习到的权值也可作为待进一步训练的较稀疏模型Nm的良好初始权值。
在一些实施例中,训练器可与提取器电通信,以在训练期间向深度神经网络添加监督信号以学习卷积层、局部连接层和全连接层中的稀疏结构,并调整这些层中的神经权值。
在本申请的一个实施例中,将联合识别-验证监督信号添加到最后一个全连接层。同一监督信号还添加到若干先前层以增强先前特征学习阶段中的监督。监督信号包括一个识别监督信号和一个验证监督信号,其中,通过将在任意层中从输入面部区提取的特征分类为训练数据集中的N个身份中的一个身份、且将分类误差作为监督信号而生成识别监督信号,以及通过将在任意层中分别从两个输入面部图像提取的特征进行比较,以确定其是否来自同一人且将验证误差作为监督信号而生成验证监督信号。
交替地且迭代地更新神经权值和神经元连接。首先,在固定神经元连接的同时,通过将监督信号反向传播通过深度神经网络而调整神经权值。这些监督信号聚合(aggregated)以在训练期间调整卷积层、局部连接层和全连接层中的每个的神经权值。接着,在固定神经权值的同时根据连接的神经元的神经激活之间的相关性裁剪神经元连接。大部分弱相关神经元被裁剪掉。在给出较稀疏深度模型的情况下,再次通过固定神经元连接更新神经权值等。
本申请的一个方面提供了这样一种用于面部识别的设备,包括:
特征提取单元,用于利用多个深度特征提取层次结构(hierarchy)从输入面部图像提取特征;以及
识别单元,用于计算特征提取单元从不同面部图像提取的面部特征之间的距离,以在面部验证时确定两个面部图像是否来自同一身份,或在面部识别时确定输入面部图像中作为测试面部图像的一个输入面部图像与由输入面部图像组成的训练面部图像集中的一个训练面部图像是否属于同一身份,其中,每个深度特征提取层次结构包括多个级联的卷积层、局部连接层、池化层和全连接层,以及
其中,全连接层中的神经元仅连接到其前一层中的神经元的一部分,而卷积层和局部连接层中的神经元仅连接到其前一层中的局部区中的神经元的一部分。
在本申请的另一方面中公开了一种用于面部识别的方法,包括:配置多个深度特征提取层次结构,使得每个深度特征提取层次结构包括多个级联卷积层、局部连接层、池化层和全连接层,且全连接层中的神经元仅连接到其前一层中的神经元的一部分,而卷积层和局部连接层中的神经元仅连接到其前一层中的局部区中的神经元的一部分;训练所配置的深度特征提取层次结构,以学习卷积层、局部连接层和全连接层中的神经元连接,且调整这些层中的神经权值;通过经训练的深度特征提取层次结构从输入面部图像提取特征;以及基于所提取的面部特征来识别输入面部图像的面部身份。
在本申请的另一方面中还公开了一种用于面部识别的系统,包括:
存储器,其存储可执行组件;以及
处理器,执行可执行组件以执行:配置多个深度特征提取层次结构,使得每个深度特征提取层次结构包括多个级联卷积层、局部连接层、池化层和全连接层,且全连接层中的神经元仅连接到其前一层中的神经元的一部分,而卷积层和局部连接层中的神经元仅连接到其前一层中的局部区中的神经元的一部分;训练经配置的深度特征提取层次结构;利用经训练过的深度特征提取层次结构从输入面部图像提取特征;以及基于从每个输入面部图像提取的特征来识别面部。
附图说明
下文参照附图来描述本发明的示范性非限制性实施方式。附图是说明性的且通常未按确切比例绘制,并且用相同附图标号来表示不同图上的相同或相似元件。
图1是示出了根据一些公开的实施方式的、用于面部识别的设备的示意图。
图2是示出了根据一些公开的实施方式的、用于面部识别的设备以软件方式实施时的示意图。
图3示出了如图1所示的提取器中的、具有稀疏化层的深度神经网络的实例。
图4是示出了根据一些公开的实施方式的、用于如图1所示的训练器的示意性流程图。
图5是示出了根据一些公开的实施方式的、用于如图1所示的提取器的示意性流程图。
图6是示出了根据一些公开的实施方式的、用于如图1所示的识别器的示意性流程图。
具体实施方式
下面将详细参考本发明的一些具体实施方式,这些实施方式包含发明人预期用于实行本发明的最佳模式。在附图中示出的是这些具体实施方式的示例。尽管结合这些具体的实施方式描述了本发明,但本领域技术人员应该理解这些描述并不是用来将本发明限制为所描述的实施方式。相反,其用意是希望涵盖如所附权利要求书限定的本发明的精神和范围内的替代方案、修改和等同方案。在以下描述中,为了完整理解本申请阐述了众多具体的细节,但是在实践中本申请可不具有这些特定细节中的一些细节或全部细节。在其它情况下,对公知的过程操作没有进行详细的描述以免不必要地混淆本申请。
如本领域技术人员应该理解的那样,本发明可以实现为系统、方法或计算机程序产品。因此,本发明可以采取全部硬件的实施例、全部软件的实施例(包含固件、驻存软件、微码等等)、或者软件方面与硬件方面(在本文中可以全部总体上称为“电路”、“模块”或“系统”)组合的实施例形式。此外,本发明可以采取体现在任何有形表达媒介中的计算机程序产品的形式,所述有形表达媒介具有体现于媒介中的计算机可用程序代码。
在如下文所公开的设备1000以软件实施的状况下,设备1000可包含通用计算机、计算机群集、主流计算机、专用于提供线上内容的计算装置,或包括以集中方式或分布方式操作的计算机的群组的计算机网络。如图2所展示,设备1000可包含一个或多个处理器(处理器102、104、106等等)、存储器112、存储装置116、通信接口114和总线以便于设备1000的各组件之间的信息交换。处理器102-106可包含中央处理单元(“CPU”)、图形处理单元(“GPU”)或其它合适的信息处理装置。取决于所使用的硬件的类型,处理器102-106可包含一个或多个印刷电路板和/或一个或多个微处理器芯片。处理器102-106可执行计算机程序指令序列以执行各种方法或运行下文将更详细地阐释的模块。
存储器112可包含随机存取存储器(“RAM”)和只读存储器(“ROM”)以及其它形式的存储器。计算机程序指令可从存储器112存储、存取和读取以供由处理器102-106中的一个或多个处理器执行。举例来说,存储器112可存储一个或多个软件应用程序。此外,存储器112可存储整个软件应用程序,或仅存储软件应用程序的、可由处理器102-106中的一个或多个执行以实行用于设备1000的如下所公开的功能的一部分。应注意,尽管存储器112在图1中被示为一个模块,但存储器112可包含安装在中央计算装置上或不同计算装置上的多个物理装置。
再次参照图1,其中设备1000由硬件实施。设备1000可包括提取器10和识别器20。提取器10配置有多个具有稀疏化神经元连接的深度神经网络(被称为稀疏深度神经网络)以从输入面部图像的面部区提取面部特征。识别器20与提取器10电通信,且基于所提取的面部特征来识别输入面部图像的面部身份。如下文将详细描述的那样,每个稀疏深度神经网络均包括多个稀疏的卷积层、稀疏的局部连接层、稀疏的全连接层和池化层。稀疏的卷积层中的第一个稀疏的卷积层从输入面部图像提取局部面部特征,且稀疏的卷积层和稀疏的局部连接层中的后继层从前一层输出的提取特征进一步提取出局部特征。每个稀疏的全连接层从前一层输出的提取特征提取出全局特征。每个池化层从前一层接收特征且减小所接收特征的尺寸。从所有稀疏的深度神经网络获得的特征连结为特征向量作为用于面部识别的面部特征。
此外,设备1000可进一步包括用于学习稀疏的神经元连接(被称作稀疏的结构)以及稀疏的深度神经网络的稀疏连接上的权值的训练器30。
提取器10
图5是示出用于提取器10中的特征提取过程50的示意流程图,该特征提取过程含有三个步骤。在步骤S501,提取器10将输入面部图像的面部区正向传播通过具有稀疏化连接的深度神经网络(被称作稀疏深度神经网络)。接着,在步骤S502,提取器10将稀疏深度神经网络的最后层中的神经激活作为面部特征。最后,在步骤S503,提取器10将所有稀疏的深度神经网络的面部特征连结(concatenate)起来。
在给出输入面部图像的情况下,提取器10中的稀疏深度神经网络通过提取局部面部特征而开始操作(每两个稀疏卷积层后面具有一个池化层)。最后一个池化层(池化层12)之后是两个稀疏的局部连接层以进一步提取局部面部特征,以及一个稀疏的全连接层以提取全局面部特征。确切地说,在稀疏的深度神经网络中,全连接层中的神经元仅连接到其前一层中的神经元的一部分,而卷积层和局部连接层中的神经元仅连接到其前一层中的局部区中的神经元的一部分。这就是为何将这些层被称为“稀疏”层。
如稍后将参考训练器30所论述的那样,将对提取器10中的稀疏的深度神经网络进行训练。在本申请的一个实施例中,从最后一个全连接层向前一局部连接和卷积层以逐层方式删除基线模型中的连接。假设N0表示良好训练的基线模型,当层Lm稀疏化时,新模型Nm由其前一模型Nm-1再训练初始化。因此,训练出具有越来越少连接的模型序列{N1,…,NM},且NM是获得的最终稀疏的深度神经网络(也称为稀疏ConvNet,这是因为所述深度神经网络含有卷积层)。在整个训练过程期间,先前学习的模型用于计算神经相关性且引导连接断开程序。较致密模型NM-1学习获得的权值也是待进一步训练的较稀疏模型Nm的良好初始化。
利用以上构造,通过减少原始非稀疏层的模型/层参数(即,连接上的神经权值),这些稀疏层可帮助改进通过学习获得的特征的通用化能力,即,在训练面部图像上通过学习获得的特征可很好地被通用化,以测试面部图像从而依据其身份能很好地辨别所测试的面部图像。此外,稀疏层减小了神经网络的大小(参数),从而使其更容易存储在移动电话或具有有限存储器的其它装置上。
图3示出了根据本申请一个实施方式的、用于提取器10中的稀疏的深度神经网络的实例。提取器10含有多个稀疏的深度神经网络。每个稀疏的深度神经网络可包括多个稀疏的卷积-池化模块301、302、303和304,且包括连接模块305,如图3所示。应了解,虽然图3示出了4个稀疏的卷积-池化模块作为实例,但根据需要还可以就有更多或更少数目的稀疏的卷积-池化模块。
如图所示,每个稀疏的卷积-池化模块301、302、303和304是两个稀疏的卷积层和池化层的级联。举例来说,卷积-池化模块301可包括循序级联的稀疏的卷积层1、稀疏的卷积层2和池化层3。所有稀疏的卷积-池化模块301、302、303和304循序级联,且接着级联到连接模块305。连接模块305进一步具有两个稀疏的局部连接层13和14以及稀疏的全连接层15。与卷积层相比较,局部连接层13和14帮助提取更加多样的特征,这被证明在深度神经网络中的稍后特征提取阶段是有帮助的。稀疏的全连接层15中的神经激活用作用于面部识别的面部特征。
稀疏的卷积层、稀疏的局部连接层和稀疏的全连接层分别是具有稀疏化神经元连接的卷积层、局部连接层和全连接层。在给出稀疏度S(0<S<1)的情况下,本申请对来自给定稀疏层中的权值总数|W|的S·|W|权值取样。保留对应于被取样权值的神经元连接。否则,从当前稀疏的深度神经网络裁剪掉神经元连接。连接数目与稀疏的深度神经网络中所有类型的稀疏层的权值数目成比例。
卷积层用于从输入特征映射(其是前一层的输出特征映射)提取局部面部特征以形成当前层的输出特征映射。确切地说,每个卷积层对输入特征映射执行卷积运算以形成当前层的输出特征映射,且所形成的输出特征映射将输入到下一层。
每个特征映射是2D形式组织的特定种类的特征。同一输出特征映射中的特征是从具有相同神经元连接权值集的输入特征映射中提取的。每个卷积层中的卷积运算可被表达为
Figure GDA0002185625910000091
其中,
xi和yj分别是第i输入特征映射和第j输出特征映射;
kij是第i输入特征映射与第j输出特征映射之间的卷积核;
*表示卷积;
bj是第j输出特征映射的偏移;
y=max(0,·)为非线性函数。
卷积层中的神经权值即为卷积核kij中的参数。在稀疏的卷积层中,根据稀疏度S对核参数的一部分进行取样。所取样的参数对应于共享同一参数的神经元连接集合。这些神经元连接被保留在稀疏的卷积层中。将未被取样的核参数作为权值的其它神经元连接从稀疏的卷积层裁剪掉。
局部连接层也用于从输入特征映射(其是前一层的输出特征映射)提取局部面部特征以形成当前层的输出特征映射。不同于卷积层,局部连接层在同一输出特征映射上的神经元之间并不共享神经权值。每个局部连接层中的运算可被表达为
Figure GDA0002185625910000092
其中,xir是前一层的第i特征映射中的局部区r中的神经激活。yjr是当前层的第j输出特征映射中的第r(单个)神经激活。kijr是yjr与xir之间的局部连接上的神经权值。bj是第j输出特征映射的偏移。y=max(0,·)是ReLU非线性函数。在稀疏的局部连接层中,根据稀疏性度S对神经权值的部分(即,kijr,对于所有i、j和r)进行取样。所取样的神经权值对应于单个神经元连接,这是因为权值在不同神经元连接之间不共享。这些所取样的神经元连接被保留在稀疏的局部连接层中,而其它未被取样的神经元连接则被从稀疏的局部连接层裁剪掉。
级联(稀疏)卷积层和(稀疏)局部连接层的目标是提取分层局部特征(即,从输入图像的局部区提取的特征或输入特征),其中,从较高卷积/局部连接层提取的特征在输入图像上具有较大的有效接受场(receptive field)并且具有较复杂非线性属性。
池化层用于池化来自前一层的输入特征映射的局部面部特征、以形成当前层的输出特征映射。池化运算形成较恒定特征,其被公式化为
Figure GDA0002185625910000101
其中,第i输出特征映射yi中的每个神经元在第i输入特征映射xi中的M×N局部区进行池化操作,其中s作为步长。
深度神经网络中的全连接层用于从前一层提取全局特征(从输入特征映射的整个区提取的特征)。全连接层还充当用于在训练期间接收监督信号的接口,这将稍后论述。像池化层一样,全连接层还具有通过限制全连接层中的神经元数目,而将特征尺寸减小的功能。全连接层被公式化为
Figure GDA0002185625910000102
其中,
x表示来自前一层的神经激活,
y表示当前全连接层中的神经激活,
w表示当前全连接层与前一层之间的连接上的神经权值。全连接层中的神经元线性地组合前一层中所有神经元的神经激活,继之执行ReLU非线性操作。在稀疏全连接层中,根据稀疏性度S对神经权值的部分(即,wi,j,对于所有i和j)进行取样。所取样的神经权值对应于单个神经元连接,这是因为权值在不同神经元连接之间不共享。这些所取样的神经元连接被保留在稀疏全连接层中。其它未取样的神经元连接从稀疏全连接层被裁剪掉。
在稀疏的深度神经网络中,将最高层中的神经元的神经激活用作用于面部识别的面部特征。这些面部特征是全局的且可较高地捕获从输入面部图像到其身份的非线性映射。在本申请的一个实施例中,图3中示出了稀疏的深度神经网络的稀疏全连接层15中的神经元的神经激活用作用于面部识别的面部特征。提取器含有多个稀疏的深度神经网络。由所有稀疏的深度神经网络提取的面部特征连结为长特征向量作为用于面部识别的最终特征表示。
识别器20
识别器20操作以计算提取器10所提取的不同面部图像的面部特征之间的距离,以在面部验证时确定两个面部图像是否来自同一身份,或在面部识别时确定输入图像中作为测试(probe)面部图像的一个输入图像与由输入图像组成的训练(gallery)面部图像集中的一个训练面部图像是否属于同一身份。图6是示出用于识别器20中的识别过程60的示意流程图。在步骤S601,识别器20计算由提取器10从不同面部图像提取的面部特征之间的距离。接着在用于面部验证的步骤S602,识别器20确定两个面部图像是否来自同一身份,或者在用于面部识别的步骤S603中,确定输入图像中作为测试面部图像的一个输入图像与由输入图像组成的训练面部图像集中的一个训练面部图像是否属于同一身份。
在识别器20中,如果两个面部图像的特征距离小于阈值,那么确定出两个面部图像属于同一身份,或如果其特征距离与测试面部图像到所有其它训练面部图像的特征距离相比为最小,那么确定出测试面部图像与训练面部图像集中的一个训练面部图像属于同一身份,其中由识别器20确定的特征距离可以是欧几里得距离、联合贝叶斯距离、余弦距离、汉明距离或任何其它距离。
训练器30
训练器30用于学习提取器10中的稀疏的深度神经网络的稀疏结构(即,神经元连接)以及稀疏的深度神经网络的连接上的神经权值。如图4所示,在步骤S401,训练器30首先训练具有网络结构T0的初始致密神经网络N0。举例来说,初始结构T0通过以下操作可以是图3所示的结构:分别用稀疏的卷积层、稀疏的局部连接层和稀疏的全连接层替换常规卷积层、常规局部连接层和常规全连接层。接着,在给出待稀疏化的层序列L1,L2,…,LM和对应的预指定稀疏度S1,S2,…,SM的情况下,训练器30如步骤S402所示迭代地裁剪(稀疏化)神经元连接,且如步骤S403中所示学习保留的神经元连接上的神经权值。在第m次迭代(其中m=1,2,…,M)中,训练器30首先在步骤S402中根据网络Nm-1中的神经相关性和预指定稀疏度Sm裁剪层Lm中的神经元连接。假设Tm为裁剪之后的较稀疏结构,训练器30接着在步骤S403中训练具有结构Tm的较稀疏网络Nm,其中网络Nm的连接上的权值由网络Nm-1的连接上的权值初始化。在迭代连接裁剪(稀疏化)和权值更新(m>=M,在步骤S404处)之后,训练器30最后在步骤S405中输出稀疏化且经良好训练的神经网络NM
在给出待裁剪(稀疏化)层Lm和给定层的预指定稀疏度Sm(0<Sm<1)的情况下,本申请对来自层Lm的权值总数|W|的Sm·|W|权值取样。连接数目与稀疏的深度神经网络中所有类型的稀疏层(包含稀疏的卷积层、稀疏的局部连接层和稀疏的全连接层)的权值数目成比例。基于神经相关性进行取样操作,其原理是保持在其中具有高相关性的连接(和对应权值)的神经元,并断开弱相关神经元之间的连接,这是因为在一个层中与上层神经元具有较强相关性的神经元具有较强预测能力来预测上层中的神经元的活动。应注意,具有较强的负相关性的神经元还可用于预测神经激活。如果将神经元视为特定视觉图案的检测器,那么其下层中的正相关神经元则可以为该视觉图案提供了证明,而其负相关神经元帮助减少了假警报。在实践中,归功于弱相关神经元的预测与强相关神经元的预测之间互补的原因,本申请还可保持一小部分弱相关神经元之间的连接。
首先,考虑其中权值不共享的全连接层和局部连接层。在这些层中将权值和连接进行一对一的映射。在给出当前层中的神经元ai及其前一层中的K个连接的神经元bi1,bi2,…,biK的情况下,ai到每个bik之间的相关性系数(其中k=1,2,…,K)是(为简单起见,当本申请提到神经元时,其还意指其神经激活)
Figure GDA0002185625910000131
其中
Figure GDA0002185625910000132
分别意指单独训练集上评估的ai和bik的均值和标准偏差。因为正和负相关神经元都对预测有帮助,所以分别考虑对应的连接。对于所有rik,其中k=1,2,…,K,首先取出所有正系数且将其按降序排序,表示为其中k=1,2,…,K+。接着分别从按降序排序好的相关性系数的第一和第二半部中随机取样λSK+和(1-λ)SK+系数。所取样的系数对应的权值/连接被保留,而其它被删除。本申请采取λ=0.75。换句话说,来自较高相关性的一半的连接是来自较低相关性的一半的连接的3倍那么多。所保持的总连接/权值是SK+,这取决于稀疏度S。
负系数以相似方式处理,不同之处在于考虑了系数的绝对值以及保持较高绝对值的较多系数(和对应连接/权值)。给定K-个负系数来自rik(其中k=1,2,…,K),则总取样的负系数为SK-。输出神经元ai中的每个输出神经元的连接也以相同方式处理。给定存在N个输出神经元ai,其中i=1,2,…,N,那么总取样权值/连接是SKN。
对于卷积层,联合地考虑具有共享连接权值的神经元之间的相关性系数集合,以确定应保留还是删除权值(或删除具有共享权值的连接的集合)。假设aim为当前层的第i特征映射中的第m神经元,且其连接到前一层中的K个神经元bmk,其中k=1,2,…,K(K等于滤波器大小(例如3×3)乘以输入通道的数目)。K个神经元bmk的集合由位置m确定。第i输出特征映射中总共存在M个神经元aim,其中m=1,2,…,M。尽管它们连接到前一层中的不同神经元集合bmk,其中m=1,2,…,M,但它们却全部共享K个权值的同一集合。aim与bmk之间的权值共享,其中m=1,2,…,M。我们计算aim与bmk(m=1,2,…,M)之间的相关性系数的均值大小为
Figure GDA0002185625910000141
与全连接层和局部连接层中的情形相似,在给出稀疏度S的情况下,选择来自K个系数的集合rik(其中k=1,2,…,K)的SK均值相关性系数(和对应权值)。rik按降序排序。从具有较高值的第一半部随机挑选λSK个系数,且从具有较低值的相关性系数的第二半部随机挑选(1-λ)SK个系数。λ在本申请中再次设置成0.75。K个权值的集合rik(其中k=1,2,…,K)对于所有i=1,2,…,N以相同方式处理(在给出当前层中的N个特征映射的情况下)。总取样权值是SKN。
在权值更新的阶段期间,训练器30中的识别和验证监督信号被同时添加到提取器10中的每个稀疏深度神经网络的每个受监督层(例如,图3中的稀疏全连接层15)中,且被分别反向传播到输入面部图像,以更新稀疏深度神经网络的稀疏卷积层、稀疏局部连接层和稀疏全连接层的保留的神经元连接上的神经权值。
在训练器30中通过将所有受监督层(经选择用于监督的层,例如图3中的稀疏全连接层15)表示(representation)分类为N个身份中的一个身份而生成识别监督信号,其中分类误差用作识别监督信号。
通过在每个特征提取模块中分别验证两个所比较的面部图像的受监督层表示,以确定这两个面部图像是否属于同一身份,从而生成训练器30中的验证监督信号,其中验证误差用作验证监督信号。在给出一对训练面部图像的情况下,在每个特征提取模块中,提取器10分别从两个面部图像提取两个特征向量fi和fj。如果fi和fj为同一身份的面部图像的特征,那么验证误差为
Figure GDA0002185625910000151
或如果fi和fj为不同身份的面部图像的特征,那么验证误差为
Figure GDA0002185625910000152
其中||fi-fj||2为两个特征向量的欧几里得距离,m为正恒定值。如果fi和fj对于同一身份是不相似的,或如果fi和fj对于不同身份是相似的,那么存在误差。
根据本申请的一个实施方式中的、用于面部识别的设备包括:特征提取单元,用于利用多个深度特征提取层次结构从输入面部图像提取特征;以及识别单元,用于计算特征提取单元从不同面部图像提取的面部特征之间的距离,以在面部验证时确定两个面部图像是否来自同一身份,或在面部识别时确定输入图像中作为测试面部图像的一个输入图像与由输入图像组成的训练面部图像集中的一个训练面部图像是否属于同一身份,其中,每个深度特征提取层次结构包括多个级联的卷积层、局部连接层、池化层和全连接层,以及全连接层中的神经元仅连接到其前一层中的神经元的一部分,而卷积层和局部连接层中的神经元仅连接到其前一层中的局部区中的神经元的一部分。
在本申请的一个实施方式中,用于面部识别的设备进一步包括:训练单元,用于在训练期间在特征提取单元上添加监督信号,以学习卷积层、局部连接层和全连接层中的神经元连接,且调整这些层中的神经权值。
根据本申请一个实施方式的、用于面部识别的方法包括:配置多个深度特征提取层次结构,使得每个深度特征提取层次结构包括多个级联卷积层、局部连接层、池化层和全连接层,且全连接层中的神经元仅连接到其前一层中的神经元的一部分,而卷积层和所述局部连接层中的神经元仅连接到其前一层中的局部区中的神经元的一部分;训练经过配置的深度特征提取层次结构,以学习卷积层、局部连接层和全连接层中的神经元连接,且调整这些层中的神经权值;通过经训练的深度特征提取层次结构从输入面部图像提取特征;以及基于从每个输入面部图像提取的特征来识别面部。
根据本申请一个实施方式的、用于面部识别的系统包括:存储器,其存储可执行组件;以及处理器,执行可执行组件以进行以下操作:配置多个深度特征提取层次结构,使得每个深度特征提取层次结构包括多个级联卷积层、局部连接层、池化层和全连接层,且全连接层中的神经元仅连接到其前一层中的神经元的一部分,而卷积层和局部连接层中的神经元仅连接到其前一层中的局部区中的神经元的一部分;训练经配置的深度特征提取层次结构;利用经训练过的深度特征提取层次结构从输入面部图像提取特征;以及基于从每个输入面部图像提取的特征来识别面部。
在本申请的一个实施方式中,处理器进一步用于执行所述可执行组件以通过以下操作来训练深度特征提取层次结构:向深度特征提取层次结构添加监督信号,以学习卷积层、局部连接层和全连接层中的神经元连接,且调整这些层中的神经权值。
在本申请的一个实施方式中,迭代地学习卷积层、局部连接层和全连接层中的神经元连接以及神经元连接上的神经权值。
在本申请的一个实施方式中,在一次迭代中,通过固定卷积层、局部连接层和全连接层中的神经元连接来调整神经元连接上的神经权值,接着,在固定神经权值的同时裁剪卷积层、局部连接层和全连接层中的一个或多个层中的神经元连接。
在本申请的一个实施方式中,根据被连接的神经元的神经激活之间的相关性而裁剪神经元连接,其中,裁剪掉弱相关神经元之间的大部分连接,而保留强相关神经元之间的大部分连接。
在本申请的一个实施方式中,在第一次迭代之前,全连接层中的神经元连接到其前一层中的所有神经元,而卷积层和局部连接层中的神经元分别连接到其前一层中的局部区中的所有神经元。
在本申请的一个实施方式中,对于第二次和后继的迭代,从在前一迭代中保留的神经元连接获得当前神经元连接,且通过在所述前一迭代中学习到的神经权值初始化所述当前神经元连接上的神经权值。
在本申请的一个实施方式中,从前一迭代中保留的神经元连接的神经权值根据联合识别-验证监督信号而可调整。
在本申请的一个实施方式中,联合识别-验证监督信号包括识别监督信号和验证监督信号,其中,通过将从输入面部区提取的特征分类为训练数据集中的N个身份中的一个身份、且将分类误差作为监督信号而生成识别监督信号,以及通过将分别从两个输入面部图像提取的特征进行比较,以确定其是否来自同一人且将验证误差作为监督信号而生成验证监督信号。
在本申请的一个实施方式中,由多个深度特征提取层次结构提取的特征被连结起来用于面部识别。
在本申请的一个实施方式中,在面部验证时,将从两个输入面部图像提取的、被连结后的特征之间的距离与阈值进行比较,以确定所述两个输入面部图像是否来自同一人,或在面部识别时,计算输入查询面部图像的特征到面部图像数据库中的每个面部图像的特征之间的距离以确定所述输入查询面部图像属于所述面部图像数据库中的哪一身份。
尽管已经描述了本发明的优选实例,但所属领域的技术人员在知晓基本发明概念后可对这些实例作出变化或修改。所附权利要求书希望被认为是包括上述优选实例以及落在本发明范围内的所有变化或修改。
显然,所属领域的技术人员可在不脱离本发明精神和范围的情况下对本发明作出变化或修改。因而,如果这些变化或修改属于权利要求书和等同技术的范围,那么它们也落在本发明的范围内。
所附权利要求书中的所有装置或步骤以及功能元件的对应结构、材料、动作和等同物旨在包含用于结合其它所要求保护的要素(如具体要求保护的要素)执行功能的任何结构、材料或动作。已出于说明和描述的目的对本发明进行了上面描述,但这些描述并非是详尽的或限于所公开形式的发明。对于本领域普通技术人员来说,未背离本发明范围和精神的多个修改和变化将是显而易见的。上述的实施例被挑选出来进行描述,其目的在于最佳地阐释本发明的原理及其实际应用,并使得本领域普通技术人员能够理解本发明,以用于具有各种修改的各种实施方式中,这些修改适合于预期的特定用途。

Claims (23)

1.一种用于面部识别的设备,包括:
特征提取单元,用于利用多个深度特征提取层次结构从输入面部图像提取特征;以及
识别单元,用于计算所述特征提取单元从不同面部图像提取的面部特征之间的距离,以在面部验证时确定两个面部图像是否来自同一身份,或在面部识别时确定所述输入面部图像中作为测试面部图像的一个输入面部图像与由所述输入面部图像组成的训练面部图像集中的一个训练面部图像是否属于同一身份,
其中,每个所述深度特征提取层次结构包括多个级联的卷积层、局部连接层、池化层和全连接层,以及
其中,所述全连接层中的神经元仅连接到其前一层中的神经元的一部分,而所述卷积层和所述局部连接层中的神经元仅连接到其前一层中的局部区中的神经元的一部分。
2.根据权利要求1所述的设备,进一步包括:
训练单元,用于在训练期间在所述特征提取单元上添加监督信号,以学习所述卷积层、所述局部连接层和所述全连接层中的神经元连接,且调整这些层中的神经权值。
3.根据权利要求1所述的设备,其中,迭代地学习所述卷积层、所述局部连接层和所述全连接层中的神经元连接以及所述神经元连接上的神经权值。
4.根据权利要求3所述的设备,其中,
在一次迭代中,通过固定所述卷积层、局部连接层和全连接层中的神经元连接来调整所述神经元连接上的神经权值,接着,
在固定所述神经权值的同时裁剪所述卷积层、局部连接层和全连接层中的一个或多个层中的所述神经元连接。
5.根据权利要求3所述的设备,其中,根据被连接的神经元的神经激活之间的相关性而裁剪所述神经元连接,其中,裁剪掉弱相关神经元之间的大部分连接,而保留强相关神经元之间的大部分连接。
6.根据权利要求3所述的设备,其中,在第一次迭代之前,所述全连接层中的神经元连接到其前一层中的所有神经元,而所述卷积层和所述局部连接层中的神经元分别连接到其前一层中的局部区中的所有神经元。
7.根据权利要求3所述的设备,其中,对于第二次和后继的迭代,从在前一迭代中保留的神经元连接获得当前神经元连接,且通过在所述前一迭代中学习到的神经权值初始化所述当前神经元连接上的神经权值。
8.根据权利要求7所述的设备,其中,从所述前一迭代中保留的神经元连接的神经权值根据联合识别-验证监督信号而可调整。
9.根据权利要求8所述的设备,其中,所述联合识别-验证监督信号包括识别监督信号和验证监督信号,
其中,
通过将从输入面部区提取的特征分类为训练数据集中的N个身份中的一个身份、且将分类误差作为监督信号而生成识别监督信号,以及
通过将分别从两个输入面部图像提取的特征进行比较,以确定其是否来自同一人且将验证误差作为监督信号而生成验证监督信号。
10.根据权利要求1所述的设备,其中,由所述特征提取单元中的多个深度特征提取层次结构提取的特征被连结起来用于面部识别。
11.根据权利要求10所述的设备,其中,在面部验证时,将从两个输入面部图像提取的、被连结后的特征之间的距离与阈值进行比较,以确定所述两个输入面部图像是否来自同一人,或
在面部识别时,计算输入查询面部图像的特征到面部图像数据库中的每个面部图像的特征之间的距离以确定所述输入查询面部图像属于所述面部图像数据库中的哪一身份。
12.一种用于面部识别的方法,包括:
配置多个深度特征提取层次结构,使得每个所述深度特征提取层次结构包括多个级联卷积层、局部连接层、池化层和全连接层,且所述全连接层中的神经元仅连接到其前一层中的神经元的一部分,而所述卷积层和所述局部连接层中的神经元仅连接到其前一层中的局部区中的神经元的一部分;
训练经过配置的所述深度特征提取层次结构,以学习所述卷积层、所述局部连接层和所述全连接层中的神经元连接,且调整这些层中的神经权值;
通过经训练的所述深度特征提取层次结构从输入面部图像提取特征;以及
基于从每个输入面部图像提取的特征来识别面部。
13.根据权利要求12所述的方法,其中,所述训练进一步包括:
迭代地学习所述卷积层、所述局部连接层和所述全连接层中的神经元连接以及所述神经元连接上的神经权值。
14.根据权利要求13所述的方法,其中,在一次迭代中,所述训练包括:
通过固定所述卷积层、局部连接层和全连接层中的神经元连接来调整神经元连接的神经权值,以及,
在固定所述神经权值的同时裁剪所述卷积层、局部连接层和全连接层中的一个或多个层中的神经元连接。
15.根据权利要求14所述的方法,其中,根据连接的神经元的神经激活之间的相关性而裁剪所述神经元连接,其中裁剪掉弱相关神经元之间的大部分连接,而保留强相关神经元之间的大部分连接。
16.根据权利要求13所述的方法,其中,在第一次迭代之前,所述全连接层中的神经元连接到其前一层中的所有神经元,而所述卷积层和所述局部连接层中的神经元分别连接到其前一层中的局部区中的所有神经元。
17.根据权利要求13所述的方法,其中,对于第二次和后继迭代,从前一迭代中保留的神经元连接获得当前神经元连接,且通过所述前一迭代中学习的神经权值初始化所述当前神经元连接上的神经权值。
18.根据权利要求17所述的方法,其中,从所述前一迭代中保留的神经元连接上的神经权值是根据联合识别-验证监督信号而可调整。
19.根据权利要求18所述的方法,其中,所述联合识别-验证监督信号包括识别监督信号和验证监督信号,
其中,
通过将从输入面部区提取的特征分类为训练数据集中的N个身份中的一个身份且将分类误差作为所述监督信号而生成所述识别监督信号,以及
通过比较分别从两个输入面部图像提取的特征以分辨其是否来自同一人且将验证误差作为所述监督信号而生成所述验证监督信号。
20.根据权利要求12所述的方法,其中由多个深度特征提取层次结构提取的特征被连结起来用于面部识别。
21.一种用于面部识别的系统,包括:
存储器,其存储可执行组件;以及
处理器,执行所述可执行组件以进行以下操作:
配置多个深度特征提取层次结构,使得每个所述深度特征提取层次结构包括多个级联卷积层、局部连接层、池化层和全连接层,且所述全连接层中的神经元仅连接到其前一层中的神经元的一部分,而所述卷积层和所述局部连接层中的神经元仅连接到其前一层中的局部区中的神经元的一部分;
训练经配置的所述深度特征提取层次结构;
利用经训练过的所述深度特征提取层次结构从输入面部图像提取特征;以及
基于从每个输入面部图像提取的特征来识别面部。
22.根据权利要求21所述的系统,其中,所述处理器进一步用于执行所述可执行组件以通过以下操作来训练经配置的所述深度特征提取层次结构:
向所述深度特征提取层次结构添加监督信号,以学习所述卷积层、所述局部连接层和所述全连接层中的神经元连接,且调整这些层中的神经权值。
23.根据权利要求22所述的系统,其中,所述训练进一步包括:
迭代地学习所述卷积层、所述局部连接层和所述全连接层中的神经元连接以及所述神经元连接上的神经权值。
CN201580085498.9A 2015-10-28 2015-10-28 用于面部识别的方法和系统 Active CN108496174B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2015/093031 WO2017070858A1 (en) 2015-10-28 2015-10-28 A method and a system for face recognition

Publications (2)

Publication Number Publication Date
CN108496174A CN108496174A (zh) 2018-09-04
CN108496174B true CN108496174B (zh) 2020-02-11

Family

ID=58629770

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580085498.9A Active CN108496174B (zh) 2015-10-28 2015-10-28 用于面部识别的方法和系统

Country Status (2)

Country Link
CN (1) CN108496174B (zh)
WO (1) WO2017070858A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107346423A (zh) * 2017-06-30 2017-11-14 重庆科技学院 基于细胞神经网络的自联想记忆的人脸识别方法
CN109344731B (zh) * 2018-09-10 2022-05-03 电子科技大学 基于神经网络的轻量级的人脸识别方法
CN109815814B (zh) * 2018-12-21 2023-01-24 天津大学 一种基于卷积神经网络的人脸检测方法
AU2021313620A1 (en) * 2020-07-21 2023-03-09 Royal Bank Of Canada Facial recognition tokenization

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7646894B2 (en) * 2006-02-14 2010-01-12 Microsoft Corporation Bayesian competitive model integrated with a generative classifier for unspecific person verification
US7668346B2 (en) * 2006-03-21 2010-02-23 Microsoft Corporation Joint boosting feature selection for robust face recognition
US7684651B2 (en) * 2006-08-23 2010-03-23 Microsoft Corporation Image-based face search
US8218880B2 (en) * 2008-05-29 2012-07-10 Microsoft Corporation Linear laplacian discrimination for feature extraction
CN103530657A (zh) * 2013-09-26 2014-01-22 华南理工大学 一种基于加权l2抽取深度学习人脸识别方法
WO2015154206A1 (en) * 2014-04-11 2015-10-15 Xiaoou Tang A method and a system for face verification

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7646894B2 (en) * 2006-02-14 2010-01-12 Microsoft Corporation Bayesian competitive model integrated with a generative classifier for unspecific person verification
US7668346B2 (en) * 2006-03-21 2010-02-23 Microsoft Corporation Joint boosting feature selection for robust face recognition
US7684651B2 (en) * 2006-08-23 2010-03-23 Microsoft Corporation Image-based face search
US8218880B2 (en) * 2008-05-29 2012-07-10 Microsoft Corporation Linear laplacian discrimination for feature extraction
CN103530657A (zh) * 2013-09-26 2014-01-22 华南理工大学 一种基于加权l2抽取深度学习人脸识别方法
WO2015154206A1 (en) * 2014-04-11 2015-10-15 Xiaoou Tang A method and a system for face verification

Also Published As

Publication number Publication date
WO2017070858A1 (en) 2017-05-04
CN108496174A (zh) 2018-09-04

Similar Documents

Publication Publication Date Title
CN111523621B (zh) 图像识别方法、装置、计算机设备和存储介质
US10019629B2 (en) Skeleton-based action detection using recurrent neural network
CN106415594B (zh) 用于面部验证的方法和系统
Mrabah et al. Adversarial deep embedded clustering: on a better trade-off between feature randomness and feature drift
WO2016119076A1 (en) A method and a system for face recognition
CN109344731B (zh) 基于神经网络的轻量级的人脸识别方法
CN110765860A (zh) 摔倒判定方法、装置、计算机设备及存储介质
CN108229347B (zh) 用于人识别的拟吉布斯结构采样的深层置换的方法和装置
Sun et al. Fast object detection based on binary deep convolution neural networks
CN109002755B (zh) 基于人脸图像的年龄估计模型构建方法及估计方法
CN109273054B (zh) 基于关系图谱的蛋白质亚细胞区间预测方法
CN111027576B (zh) 基于协同显著性生成式对抗网络的协同显著性检测方法
Guo et al. JointPruning: Pruning networks along multiple dimensions for efficient point cloud processing
WO2016086330A1 (en) A method and a system for face recognition
CN108496174B (zh) 用于面部识别的方法和系统
CN111738351A (zh) 模型训练方法、装置、存储介质及电子设备
CN113065525B (zh) 年龄识别模型训练方法、人脸年龄识别方法及相关装置
CN110188827A (zh) 一种基于卷积神经网络和递归自动编码器模型的场景识别方法
CN111898703A (zh) 多标签视频分类方法、模型训练方法、装置及介质
CN110705600A (zh) 一种基于互相关熵的多深度学习模型融合方法、终端设备及可读存储介质
Imani et al. Neural computation for robust and holographic face detection
CN111860823A (zh) 神经网络训练、图像处理方法及装置、设备及存储介质
CN113822125A (zh) 唇语识别模型的处理方法、装置、计算机设备和存储介质
CN108805280B (zh) 一种图像检索的方法和装置
CN109299246A (zh) 一种文本分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant