CN108875542A

CN108875542A - 一种人脸识别方法、装置、系统及计算机存储介质

Info

Publication number: CN108875542A
Application number: CN201810302067.9A
Authority: CN
Inventors: 张华翼
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2018-04-04
Filing date: 2018-04-04
Publication date: 2018-11-23
Anticipated expiration: 2038-04-04
Also published as: CN108875542B

Abstract

本发明提供了一种人脸识别方法、装置、系统及计算机存储介质。所述人脸识别方法包括：获取人脸图片序列，人脸图片序列包括至少2张人脸图片；根据人脸图片的模糊程度F和人脸的角度θ评估人脸图片的质量因素Q；根据质量因素Q选取n张人脸图片进行特征提取，n≥2，并将质量因素Q作为权重，基于提取的特征生成平均特征T；将平均特征T在人脸底库中进行搜索得到首位结果A，并根据首位结果A判断是否进行投票；若是则根据n张人脸图片提取的特征在人脸底库中进行搜索的结果投票及所述首位结果A，以得到识别结果。根据本发明的方法、装置、系统及计算机存储介质，可以提高人脸识别的精度、运行效率，减少漏报或误报以及提升召回率。

Description

一种人脸识别方法、装置、系统及计算机存储介质

技术领域

本发明涉及人脸识别技术领域，更具体地涉及一种视频人脸识别方法及装置。

背景技术

当前，视频中的人脸识别方法在安防、智能商业等领域有着广泛的应用。现有技术中基本上是对视频进行人脸检测和跟踪得到人脸序列，而对人脸序列有以下几种处理方法：

第一种是挑选一帧抽取人脸特征在底库中搜索，若比对分数超过阈值则报警。但该方法十分依赖于挑选的图片质量，常常由于挑选出的人脸比较模糊或者遮挡造成漏报和误报。

第二种是将各帧人脸图片抽取特征去底库搜索得到平均比对分数，再通过阈值判断是否报警。该方法虽然比第一种方法有所改进，但其识别结果仍然比较依赖于图片质量，且没有利用人脸图片的特征空间的特性，实际上没有从本质解决单帧图片质量不好所造成的影响。

第三种是将各帧人脸图片抽取特征，然后将所抽取的特征求平均得到平均特征，用平均特征去底库搜索得到比对分数，再通过阈值判断是否报警。该方法虽然改善了单帧图片质量造成的不好影响，但是该方法在高维空间中求得的平均点会和其他点的距离都很近，很容易得到较高的比对分数，造成误报。

因此，现有技术中由于动态视频中人脸的姿态、画质等的变化，有可能用于识别的那一帧人脸质量较差，造成漏报或误报，使得视频人脸识别的准确度和召回率低。此外，将每帧人脸均在人脸底库中进行搜索，导致运行效率低。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种人脸识别方法、装置、系统及计算机存储介质，通过深度学习人脸图片，且只对高质量的人脸图片提取特征生成平均特征进行识别，并对识别结果进行投票复核，可以提高人脸识别的准确度、召回率和运行效率。

根据本发明一方面，提供了一种人脸识别方法，包括：获取人脸图片序列，所述人脸图片序列包括至少2张人脸图片；根据所述人脸图片的模糊程度F和人脸的角度θ评估所述人脸图片的质量因素Q；根据所述质量因素Q选取n张人脸图片进行特征提取，n≥2，并将所述质量因素Q作为权重，基于提取的特征生成平均特征T；将所述平均特征T在人脸底库中进行搜索得到首位结果A，并根据所述首位结果A以及投票阈值判断是否进行投票；若是则根据所述n张人脸图片提取的特征在人脸底库中进行搜索得到的n个首位结果Bi，i＝1,2……n，以及所述首位结果A进行投票以得到人脸识别结果。

示例性地，所述获取人脸图片序列还包括：接收视频数据；对所述视频数据进行视频图像分帧，并对每帧图像进行人脸检测和跟踪，生成包括至少2张人脸图片的人脸图片序列。

示例性地，所述评估所述人脸图片的质量因素Q还包括：基于神经网络模型获取所述人脸图片的模糊程度F和人脸的角度θ，用来评估所述人脸图片的质量因素Q。

示例性地，人脸的角度包括俯仰角θf和偏转角θp，所述俯仰角θf是人脸的俯仰旋转角度和偏转角θp是人脸的左右旋转角度，θf∈[-π，π]，θp∈[-π，π]。

示例性地，评估所述人脸图片的质量因素Q还包括：根据下列公式计算质量因素Q，Q＝(F+abs(θf/π)+abs(θp/π))/3，其中，Q∈[0，1]，abs为绝对值函数，F∈[0，1]且F越接近1越模糊。

示例性地，所述生成平均特征T还包括：根据所述质量因素Q由大到小排序，选取前n张人脸图片作为高质量人脸图片，n≥2；对n张所述高质量人脸图片进行特征提取，并将所述质量因素Q作为权重，基于对n张所述高质量人脸图片提取的特征生成平均特征T。

示例性地，所述判断是否进行投票还包括：如果所述首位结果A在人脸底库中搜索的得分小于投票阈值，则跳过，得到人脸识别结果为无；如果得分大于或等于所述投票阈值则进行投票。

示例性地，所述投票以得到人脸识别结果还包括：对所述n个首位结果Bi进行投票，如果Bi＝A则票数P加1；

当投票率P/n大于或等于投票率阈值时，得到人脸识别结果为首位结果A；

当投票率P/n小于投票率阈值时，得到人脸识别结果为无。

根据本发明另一方面，提供了一种人脸识别装置，包括：人脸图片序列生成模块用于生成人脸图片序列，所述人脸图片序列包括至少2张人脸图片；质量因素评估模块用于根据所述人脸图片的模糊程度F和人脸的角度θ评估所述人脸图片的质量因素Q；平均特征生成模块用于根据所述质量因素Q选取n张人脸图片进行特征提取，n≥2，并将所述质量因素Q作为权重，基于提取的特征生成平均特征T；搜索模块用于将所述平均特征T在人脸底库中进行搜索或将所述平均特征T和所述n张人脸图片提取的特征均在人脸底库中进行搜索；判断模块用于根据所述平均特征T的搜索结果及投票阈值判断是否进行投票；投票模块用于根据所述搜索模块的结果进行投票以得到人脸识别结果。

示例性地，所述人脸图片序列生成模块还包括：数据接收模块接收视频数据；分帧模块用于对所述视频数据进行视频图像分帧；人脸检测模块用于对每帧图像进行人脸检测和跟踪；序列生成模块用于生成包括至少一张人脸图片的人脸图片序列。

示例性地，所述质量因素评估模块还包括：深度学习模块用于对所述人脸图片序列中的每张人脸图片进行深度学习；参数获取模块用于基于神经网络模型获取所述人脸图片的模糊程度F和人脸的角度θ；质量计算模块用来计算所述人脸图片的质量因素Q。

示例性地，人脸的角度包括俯仰角θf和偏转角θp，所述俯仰角θf是人脸的俯仰旋转角度，所述偏转角θp是人脸的左右旋转角度，θf∈[-π，π]，θp∈[-π，π]。

示例性地，所述质量计算模块还包括：根据下列公式计算质量因素Q，Q＝(F+abs(θf/π)+abs(θp/π))/3，其中，Q∈[0，1]，abs为绝对值函数，F∈[0，1]且F越接近1越模糊。

示例性地，平均特征生成模块还包括：质量排序模块用于根据所述质量因素Q由大到小排序，选取前n张人脸图片作为高质量人脸图片；特征提取模块用于对n张所述高质量人脸图片进行特征提取；加权平均模块用于将所述质量因素Q作为权重，基于对n张所述高质量人脸图片提取的特征生成平均特征T。

示例性地，所述判断模块还包括：所述平均特征T的搜索结果为首位结果A，如果所述首位结果A在人脸底库中搜索的得分小于投票阈值，则跳过不进行投票；如果得分大于或等于投票阈值则进行投票。

示例性地，所述搜索模块还包括：当所述判断模块判断进行投票时，将所述n张人脸图片提取的特征在人脸底库中进行搜索得到n个首位结果Bi，i＝1,2……n。

示例性地，投票模块还包括：包括：计票模块用于对所述n个首位结果Bi进行投票，如果Bi＝A则票数P加1；确认模块用于当投票率P/n大于或等于投票率阈值时，得到人脸识别结果为首位结果A；当投票率P/n小于投票率阈值时，得到人脸识别结果为无。

根据本发明实施例的人脸识别方法和装置，通过深度学习得到人脸图片质量并进行排序，只对其中高质量的人脸图片进提取特征，提高了人脸识别的精度和运行效率；将人脸图片质量作为权重加权平均得到平均特征，利用特征空间的特性提升召回率；利用多帧投票机制对结果进行复核，减少误报。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是用于实现根据本发明实施例的人脸识别方法和装置的示例电子设备的示意性框图；

图2是根据本发明实施例的人脸识别方法的示意性流程图；

图3是根据本发明实施例的人脸识别装置的示意性框图；

图4是根据本发明实施例的人脸识别系统的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

首先，参考图1来描述用于实现本发明实施例的人脸识别方法和装置的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108、图像传感器110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像传感器110可以拍摄用户期望的图像(例如照片、视频等)，并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的人脸识别方法和装置的示例电子设备可以被实现为诸如智能手机、平板电脑、门禁系统的视频采集端等。

下面，将参照图2描述根据本发明实施例的人脸识别方法200。

首先，在步骤S210，获取人脸图片序列，所述人脸图片序列包括至少2张人脸图片。

在步骤S220，根据所述人脸图片的模糊程度F和人脸的角度θ评估所述人脸图片的质量因素Q。

在步骤S230，根据所述质量因素Q选取n张人脸图片进行特征提取，n≥2，并将所述质量因素Q作为权重，基于提取的特征生成平均特征T。

在步骤S240，将所述平均特征T在人脸底库中进行搜索得到首位结果A，并根据所述首位结果A判断是否进行投票。

最后，在步骤S250，若是则根据所述n张人脸图片提取的特征在人脸底库中进行搜索得到的n个首位结果Bi，i＝1,2……n，以及所述首位结果A进行投票以得到人脸识别结果。

示例性地，首位结果是指人脸特征在人脸底库中进行比对搜索时，相似度最高的那张底图的ID，在一个实施例中，首位结果以及人脸底图可以使用ID进行表示，例如数字编号0123表示在包含10000张底图的人脸底库中，人脸ID为0123的底图。当待识别的人脸特征在人脸底库中进行搜索时，返回首位结果，可以是对应的人脸ID号码。

示例性地，根据本发明实施例的人脸识别方法可以在具有存储器和处理器的设备、装置或者系统中实现。

根据本发明实施例的人脸识别方法可以部署在人脸图像采集端处，例如，在安防应用领域，可以部署在门禁系统的图像采集端；在金融应用领域，可以部署在个人终端处，诸如智能电话、平板电脑、个人计算机等。

替代地，根据本发明实施例的人脸识别方法还可以分布地部署在服务器端(或云端)和个人终端处。例如，在金融应用领域，可以在服务器端(或云端)生成人脸图片序列，服务器端(或云端)将所生成的人脸图片序列传递给个人终端，个人终端根据所接收的人脸图片序列进行人脸识别。再例如，可以在服务器端(或云端)生成人脸图片序列，个人终端将图像传感器采集的视频信息以及非图像传感器采集的视频信息传递给服务器端(或云端)，然后服务器端(或云端)进人脸识别。

根据本发明实施例的人脸识别方法，通过深度学习得到人脸图片质量并进行排序，只对其中高质量的人脸图片进提取特征，提高了人脸识别的精度和运行效率；将人脸图片质量作为权重加权平均得到平均特征，利用特征空间的特性提升召回率；利用多帧投票机制对结果进行复核，减少误报。

根据本发明实施例，步骤210可以进一步地包括：接收视频数据；对所述视频数据进行视频图像分帧，并对每帧图像进行人脸检测和跟踪，生成包括至少一张人脸图片的人脸图片序列。

示例性地，所述人脸图片是通过对视频中的各帧图像进行人脸检测和人脸跟踪处理所确定的包含有目标人脸的图像帧。具体的，可以通过诸如模板匹配、SVM(支持向量机)、神经网络等各种本领域中常用的人脸检测方法在包含目标人脸的起始图像帧中确定该目标人脸的大小和位置，随后基于目标人脸的颜色信息、局部特征、或运动信息等对该目标人脸进行跟踪，从而确定视频中包含有目标人脸的各帧图像。上述通过人脸检测和人脸跟踪确定包含有目标人脸的图像帧的处理是图像处理领域中的常见处理，此处不再对其进行详细描述。

需要说明的是，所述人脸图片序列并非必须是视频中所有包含有目标人脸的图像，而可以仅是其中的部分图像帧；另一方面，所述人脸图片序列可以是连续的多帧图像，也可以是不连续的、任意选定的多帧图像。

根据本发明实施例，步骤220可以进一步地包括：基于神经网络模型获取所述人脸图片的模糊程度F和人脸的角度θ，用来评估所述人脸图片的质量因素Q。

示例性地，所述人脸图片的模糊程度F是根据所述人脸图片序列中的清晰度由清晰到模糊进行排序，按照所述排序计算所述人脸图片的模糊程度F，F∈[0，1]。在一个实施例中，所述人脸图片序列包括5张人脸图片，将所述5张人脸图片按照清晰到模糊进行排序，根据所述排序分别将所述5张人脸图片的模糊程度F记为1/5，2/5，3/5，4/5，1。

示例性地，所述人脸图片的模糊程度F是所述人脸图片和所述人脸图片的模糊图像的邻域梯度变化，F∈[0，1]。在一个实施例中，将所述人脸图片通过预设的低通滤波器，得到所述人脸图片的模糊图像，计算所述模糊图像的邻域梯度变化；通过比较所述选取的视频帧和所述模糊图像的邻域梯度变化，得到所述人脸图片的模糊程度F，所述模糊程度F是0到1范围内的实数。在上述实施例中，估计图像模糊程度基于以下事实：清晰图像的纹理锐利，图像邻域变化显著；模糊图像的邻域变化较小。因此首先计算输入图像的高斯模糊图像，再分别计算输入图像和其模糊图像的水平和垂直方向的平均一阶差分，来衡量图像的邻域梯度大小。最后比较两者的邻域梯度变化，并归一化为0到1范围内的实数作为图像的模糊程度，所述模糊程度F越接近1图像越模糊。该图像模糊估计方法快速有效，估计时间不超过4ms。

示例性地，所述人脸图片的模糊程度F是所述人脸图片中特征点的梯度值，F∈[0，1]。其中，特征点包括眼部特征点、鼻部特征点及嘴部特征点，特征点的梯度值为平均梯度(meangradient)，平均梯度指人脸图像的特征点的边界或影线两侧附近灰度有明显差异，即灰度变化率大，这种变化率的大小可用来表示图像清晰度，反映了特征点微小细节反差变化的速率，即特征点多维方向上密度变化的速率，表征人脸图像的相对清晰程度。在一个实施例中，特征点的坐标值至少包括眼部特征点及鼻部特征点的x横坐标。所述人脸图片中，双眼之间距离越大、双眼中心点与鼻尖的x横坐标越接近，平均梯度值越大，图像的评分就越高，表示人脸图像为正脸图像的概率越大。

示例性地，人脸的角度θ包括俯仰角θf和偏转角θp，所述俯仰角θf是人脸的俯仰旋转角度，即人脸低头或者抬头时人脸所在平面与参照平面形成的角度，偏转角θp是人脸的左右旋转角度，即在三维坐标系中，设水平面为X轴与Y轴构成的平面，Z轴为垂直于XY平面的轴线，θp是人的头部以Z轴为中心线旋转时，人脸所在平面与参照平面形成的角度，其中，θf∈[-π，π]，θp∈[-π，π]。

在一个实施例中，人脸的角度通过深度学习基于卷积神经网络结构进行计算，具体过程如下：输入层接受输入数据，得到图像数据及其相应标签值，建立数据集为包含三个标签值，分别对应三维坐标系每个轴旋转的角度标签，然后经过五层卷积模块进行特征提取，每个卷积模块包括卷积层和池化层，将提取到的特征向量输入到全连接层，经过两层全连接，将特征图转化为2048维的特征向量，作为分类层的输入，进行分类，三个标签对应三个并列的分类层，每个分类层得到人脸在三维坐标系中绕每个轴旋转的角度，然后根据绕每个轴旋转的角度计算得到俯仰角θf和偏转角θp。

在另一个实施例中，采用一种自适应随机森林算法分别对人脸的俯仰角θf和偏转角θp进行回归估计，具体过程如下：将人脸检测区域归一化为48×48像素的灰度图，然后使用高斯滤波算子(3×3，标准差为2)以去噪，最后提取(3×3)Sobel边缘特征。所述自适应随机森林算法主要在两个方面对随机森林算法进行了改进：一是每棵多叉随机树的节点判决采用LDA(Linear Discriminant Analysis,线性判别式分析)来提高姿态鉴别力，二是采用可变叉节点分裂策略自适应地对分类效果不佳的姿态类进行鉴别分类，以进一步提高姿态鉴别力。测试时在叶子节点对不同姿态类进行回归，并融合多棵随机树的结果。该姿态估计方法准确实时，能在10ms以内同时估计俯仰角θf和偏转角θp。

示例性地，根据下列公式计算质量因素Q，Q＝(F+abs(θf/π)+abs(θp/π))/3，其中，abs为绝对值函数，Q∈[0，1]。

根据本发明实施例，步骤230可以进一步地包括：根据所述质量因素Q由大到小排序，选取前n张人脸图片作为高质量人脸图片；对n张所述高质量人脸图片进行特征提取，并将所述质量因素Q作为权重，基于对n张所述高质量人脸图片提取的特征生成平均特征T。

示例性地，所述特征提取可以采用诸如LBP(局部二值模式)、HoG(方向梯度直方图)、PCA(主成分分析法)或者神经网络等各种适当的人脸特征提取方法来进行特征提取并生成所述多个特征向量。可选的，对于所述人脸图片序列中的每一帧图像中的目标人脸均采用相同的特征提取方法生成特征向量。下面仅仅是为了说明的完整性，对本实施例中所采用的人脸特征提取方法进行简单的说明。

在一个实施例中，采用基于卷积神经网络的特征提取方法对视频中的人脸图片序列中的目标人脸进行特征提取以生成分别与所述人脸图片序列中的目标人脸对应的多个特征向量。例如，首先对于所述人脸图片序列中的每一帧图像，确定其中与目标人脸对应的人脸图像区域；随后，对该人脸图像区域基于卷积神经网络进行特征提取，以生成与该帧图像中的目标人脸对应的一个特征向量。此处，可以将该人脸图像区域作为一个整体进行特征提取，也可以在该人脸图像区域的不同子图像区域中分别进行特征提取。

通过深度学习得到人脸图片质量并进行排序，只对其中高质量的人脸图片进提取特征，提高了运行效率；将人脸图片质量作为权重加权平均得到平均特征，利用特征空间的特性提升召回率。

根据本发明实施例，步骤240可以进一步地包括：如果所述首位结果A在人脸底库中搜索的得分小于投票阈值，则跳过，得到人脸识别结果为无；如果得分大于或等于投票阈值则进行投票。当首位结果A在在脸底库中搜索的分数小于投票阈值时，说明所述首位结果A不是正确结果，则跳过，不执行投票步骤。在一个实施例中，满分为100分时，投票阈值为85分。

示例性地，首位结果是人脸特征在脸底库中进行对比，相似度排名第一的底图。

根据本发明实施例，步骤250可以进一步地包括：对所述n个首位结果Bi进行投票，如果Bi＝A则票数P加1；当投票率P/n大于或等于预定投票率阈值时，得到人脸识别结果为首位结果A；当投票率P/n小于预定投票率阈值时，得到人脸识别结果为无。

示例性地，当投票率P/n大于或等于预定阈值时，报警并输出识别结果。在一个实施例中，当投票率P/n大于0.5时，显示屏显示识别结果的人脸图片及身份信息。

根据本发明实施例，利用多帧投票机制对结果进行复核，减少误报。

图3示出了根据本发明实施例的人脸识别装置300的示意性框图。

如图3所示，根据本发明实施例的人脸识别装置300包括人脸图片序列生成模块310、质量因素评估模块320、平均特征生成模块330、搜索模块340、判断模块350以及投票模块360。

人脸图片序列生成模块310，用于生成人脸图片序列，所述人脸图片序列包括至少2张人脸图片。

质量因素评估模块320，用于根据所述人脸图片的模糊程度F和人脸的角度θ评估所述人脸图片的质量因素Q。

平均特征生成模块330，用于根据所述质量因素Q选取n张人脸图片进行特征提取，n≥2，并将所述质量因素Q作为权重，基于提取的特征生成平均特征T。

搜索模块340，用于将所述平均特征T在人脸底库中进行搜索或将所述平均特征T和所述n张人脸图片提取的特征均在人脸底库中进行搜索。

判断模块350，用于根据所述平均特征T的搜索结果及投票阈值判断是否进行投票；

投票模块360，用于根据所述搜索模块340的结果投票以得到人脸识别结果。

根据本发明实施例的人脸识别装置300，通过深度学习得到人脸图片质量并进行排序，只对其中高质量的人脸图片进提取特征，提高了人脸识别的精度和运行效率；将人脸图片质量作为权重加权平均得到平均特征，利用特征空间的特性提升召回率；利用多帧投票机制对结果进行复核，减少误报。

根据本发明实施例，所述人脸图片序列生成模块310可以进一步地包括：数据接收模块3110接收视频数据；分帧模块3120用于对所述视频数据进行视频图像分帧；人脸检测模块3130用于对每帧图像进行人脸检测和跟踪；序列生成模块3140用于生成包括至少一张人脸图片的人脸图片序列。

示例性地，所述人脸图片是人脸检测模块3130通过对视频中的各帧图像进行人脸检测和人脸跟踪处理所确定的包含有目标人脸的图像帧。具体的，人脸检测模块3130可以通过诸如模板匹配、SVM(支持向量机)、神经网络等各种本领域中常用的人脸检测方法在包含目标人脸的起始图像帧中确定该目标人脸的大小和位置，随后基于目标人脸的颜色信息、局部特征、或运动信息等对该目标人脸进行跟踪，从而确定视频中包含有目标人脸的各帧图像。上述通过人脸检测和人脸跟踪确定包含有目标人脸的图像帧的处理是图像处理领域中的常见处理，此处不再对其进行详细描述。

根据本发明实施例，所述质量因素评估模块320可以进一步地包括：深度学习模块3210用于对所述人脸图片序列中的每张人脸图片进行深度学习；参数获取模块3220用于基于神经网络模型获取所述人脸图片的模糊程度F和人脸的角度θ；质量计算模块3230用来计算所述人脸图片的质量因素Q。

示例性地，所述人脸图片的模糊程度F是根据所述人脸图片序列中的清晰度由清晰到模糊进行排序，按照所述排序计算所述人脸图片的模糊程度F，F∈[0，1]。在一个实施例中，所述人脸图片序列包括5张人脸图片，参数获取模块3220将所述5张人脸图片按照清晰到模糊进行排序，根据所述排序分别将所述5张人脸图片的模糊程度F记为1/5，2/5，3/5，4/5，1。

示例性地，所述人脸图片的模糊程度F是所述人脸图片和所述人脸图片的模糊图像的邻域梯度变化。在一个实施例中，参数获取模块3220将所述人脸图片通过预设的低通滤波器，得到所述人脸图片的模糊图像，计算所述模糊图像的邻域梯度变化；通过比较所述选取的视频帧和所述模糊图像的邻域梯度变化，得到所述人脸图片的模糊程度F，所述模糊程度F是0到1范围内的实数。在上述实施例中，估计图像模糊程度基于以下事实：清晰图像的纹理锐利，图像邻域变化显著；模糊图像的邻域变化较小。因此首先计算输入图像的高斯模糊图像，再分别计算输入图像和其模糊图像的水平和垂直方向的平均一阶差分，来衡量图像的邻域梯度大小。最后比较两者的邻域梯度变化，并归一化为0到1范围内的实数作为图像模糊指标，该指标越接近1图像越模糊。该图像模糊估计方法快速有效，估计时间不超过4ms。

示例性地，所述人脸图片的模糊程度F是所述人脸图片中特征点的梯度值。在一个实施例中，参数获取模块3220根据所述人脸图片中特征点的梯度值及坐标值评估人脸图片的模糊程度F，其中，特征点包括眼部特征点、鼻部特征点及嘴部特征点，特征点的梯度值为平均梯度(meangradient)，平均梯度指人脸图像的特征点的边界或影线两侧附近灰度有明显差异，即灰度变化率大，这种变化率的大小可用来表示图像清晰度，反映了特征点微小细节反差变化的速率，即特征点多维方向上密度变化的速率，表征人脸图像的相对清晰程度。特征点的坐标值至少包括眼部特征点及鼻部特征点的x横坐标。所述人脸图片中，双眼之间距离越大、双眼中心点与鼻尖的x横坐标越接近，平均梯度值越大，图像的评分就越高，表示人脸图像为正脸图像的概率越大。

示例性地，人脸的角度包括俯仰角θf和偏转角θp，所述俯仰角θf是人脸的俯仰旋转角度，即人脸低头或者抬头时人脸所在平面与参照平面形成的角度，θf∈[-π，π]，偏转角θp是人脸的左右旋转角度，即在三维坐标系中，设水平面为X轴与Y轴构成的平面，Z轴为垂直于XY平面的轴线，θp是人的头部以Z轴为中心线旋转时，人脸所在平面与参照平面形成的角度，θp∈[-π，π]。

在一个实施例中，参数获取模块3220通过深度学习基于卷积神经网络结构计算人脸的角度θ，具体过程如下：输入层接受输入数据，得到图像数据及其相应标签值，建立数据集为包含三个标签值，分别对应三维坐标系每个轴旋转的角度标签，然后经过五层卷积模块进行特征提取，每个卷积模块包括卷积层和池化层，将提取到的特征向量输入到全连接层，经过两层全连接，将特征图转化为2048维的特征向量，作为分类层的输入，进行分类，三个标签对应三个并列的分类层，每个分类层得到人脸在三维坐标系中绕每个轴旋转的角度，然后根据绕每个轴旋转的角度计算得到俯仰角θf和偏转角θp。

在另一个实施例中，参数获取模块3220采用一种自适应随机森林算法分别对人脸的俯仰角θf和偏转角θp进行回归估计，具体过程如下：将人脸检测区域归一化为48×48像素的灰度图，然后使用高斯滤波算子(3×3，标准差为2)以去噪，最后提取(3×3)Sobel边缘特征。该姿态估计方法准确实时，能在10ms以内同时估计俯仰角θf和偏转角θp。

示例性地，质量计算模块3230根据下列公式计算质量因素Q，Q＝(F+abs(θf/π)+abs(θp/π))/3，其中，abs为绝对值函数，Q∈[0，1]。

根据本发明实施例，平均特征生成模块330可以进一步地包括：质量排序模块3310用于根据所述质量因素Q由大到小排序，选取前n张人脸图片作为高质量人脸图片；特征提取模块3320用于对n张所述高质量人脸图片进行特征提取；加权平均模块3330用于将所述质量因素Q作为权重，基于对n张所述高质量人脸图片提取的特征生成平均特征T。

示例性地，所述特征提取模块3320可以采用诸如LBP(局部二值模式)、HoG(方向梯度直方图)、PCA(主成分分析法)或者神经网络等各种适当的人脸特征提取方法来进行特征提取并生成所述多个特征向量。可选的，对于所述人脸图片序列中的每一帧图像中的目标人脸均采用相同的特征提取方法生成特征向量。下面仅仅是为了说明的完整性，对本实施例中所采用的人脸特征提取方法进行简单的说明。

在一个实施例中，特征提取模块3320采用基于卷积神经网络的特征提取方法对视频中的人脸图片序列中的目标人脸进行特征提取以生成分别与所述人脸图片序列中的目标人脸对应的多个特征向量。例如，首先对于所述人脸图片序列中的每一帧图像，确定其中与目标人脸对应的人脸图像区域；随后，对该人脸图像区域基于卷积神经网络进行特征提取，以生成与该帧图像中的目标人脸对应的一个特征向量。此处，可以将该人脸图像区域作为一个整体进行特征提取，也可以在该人脸图像区域的不同子图像区域中分别进行特征提取。

特征提取模块3320通过深度学习得到人脸图片质量并进行排序，只对其中高质量的人脸图片进提取特征，提高了运行效率；加权平均模块3330将人脸图片质量作为权重加权平均得到平均特征，利用特征空间的特性提升召回率。

根据本发明实施例，判断模块350还包括：所述平均特征T的搜索结果为首位结果A，如果所述首位结果A在人脸底库中搜索的得分小于投票阈值，则跳过不进行投票；如果得分大于或等于投票阈值则进行投票。当首位结果A在脸底库中搜索的分数小于投票阈值时，说明所述首位结果A不是正确结果，则跳过，不执行投票步骤。在一个实施例中，当满分为100分时，所述投票阈值为85分。

根据本发明实施例，所述搜索模块340还包括：当所述判断模块350判断进行投票时，将所述n张人脸图片提取的特征在人脸底库中进行搜索得到n个首位结果Bi，i＝1,2……n。

根据本发明实施例，投票模块360可以进一步地包括：计票模块3510用于对所述n个首位结果Bi进行投票，如果Bi＝A则票数P加1；确认模块3520用于当投票率P/n大于或等于投票率阈值时，得到人脸识别结果为首位结果A；当投票率P/n小于投票率阈值时，得到人脸识别结果为无。

根据本发明实施例，投票模块360利用多帧投票机制对结果进行复核，减少误报。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

图4示出了根据本发明实施例的人脸识别系统400的示意性框图。人脸识别系统400包括图像传感器410、存储装置430、以及处理器440。

图像传感器410用于采集视频数据。

所述存储装置430存储用于实现根据本发明实施例的人脸识别方法中的相应步骤的程序代码。

所述处理器440用于运行所述存储装置430中存储的程序代码，以执行根据本发明实施例的人脸识别方法的相应步骤，并且用于实现根据本发明实施例的人脸识别装置中的人脸图片序列生成模块310、质量因素评估模块320、平均特征生成模块330、搜索模块340、判断模块350以及投票模块360。

在一个实施例中，在所述程序代码被所述处理器440运行时执行以下步骤：

获取人脸图片序列，所述人脸图片序列包括至少2张人脸图片；

根据所述人脸图片的模糊程度F和人脸的角度θ评估所述人脸图片的质量因素Q；

根据所述质量因素Q选取n张人脸图片进行特征提取，n≥2，并将所述质量因素Q作为权重，基于提取的特征生成平均特征T；

将所述平均特征T在人脸底库中进行搜索得到首位结果A，并根据所述首位结果A以及投票阈值判断是否进行投票；

若是则根据所述n张人脸图片提取的特征在人脸底库中进行搜索得到的n个首位结果Bi，i＝1,2……n，及所述首位结果A进行投票以得到人脸识别结果。

此外，在所述程序代码被所述处理器440运行时还执行以下步骤：

示例性地，所述生成人脸图片序列还包括：接收视频数据；对所述视频数据进行视频图像分帧，并对每帧图像进行人脸检测和跟踪，生成包括至少2张人脸图片的人脸图片序列。

当投票率P/n小于投票率阈值时，得到人脸识别结果为无。

示例性地，所述人脸识别系统400还包括用于存储由图像传感器410采集的图像数据，包括视频数据和非视频数据。

示例性地，所述视频数据的存储方式可以包括以下存储方式之一：本地(local)存储、数据库存储、分布式文件系统(hdfs)存储以及远程存储，存储服务地址可以包括服务器IP和服务器端口。其中，本地存储是指将人脸识别系统所接收的视频数据在系统本地；数据库存储是指将人脸识别系统所接收的视频数据保存在系统的数据库中，数据库存储需要在人脸识别系统上安装相应的数据库；分布式文件系统存储是指将人脸识别系统所接收的视频数据保存在分布式文件系统中，分布式文件系统存储需要在人脸识别系统上安装分布式文件系统；远程存储是指将人脸识别系统所接收的视频数据交由其他存储服务进行存储。在其他示例中，所配置的存储方式也可以包括其他任何合适类型的存储方式，本发明对此不作限制。

示例性地，在上述对视频数据进行存取时，可以以流的形式进行。例如，可以采用二进制流的传输方式实现对视频数据的存取。所述人脸识别系统400以流的形式发送文件后，存储服务获取到文件流时，开始保存文件。不同于读入内存的方式，两端的交互存取将会以流的形式快速进行，不需要等待任何一方将文件读入内存后再进行发送。同理，所述人脸识别系统400从存储服务获取文件时，也是使用此种方式。存储服务将文件以流的形式传输到所述人脸识别系统400，并不是读入内存再发送。当文件流传输不完整，两端连接断掉时，双方服务会引发异常，服务进行捕获，此时可在等待若干时间例如几秒后尝试重新获取或存储文件。以流的方式进行文件的存取可以实现高效快速的文件存取。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的人脸识别方法的相应步骤，并且用于实现根据本发明实施例的人脸识别装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合，例如一个计算机可读存储介质包含用于随机地生成动作指令序列的计算机可读的程序代码，另一个计算机可读存储介质包含用于进行人脸活动识别的计算机可读的程序代码。

在一个实施例中，所述计算机程序指令在被计算机运行时可以实现根据本发明实施例的人脸识别装置的各个功能模块，并且/或者可以执行根据本发明实施例的人脸识别方法。

在一个实施例中，所述计算机程序指令在被计算机运行时执行以下步骤：获取人脸图片序列，所述人脸图片序列包括至少2张人脸图片；根据所述人脸图片的模糊程度F和人脸的角度θ评估所述人脸图片的质量因素Q；根据所述质量因素Q选取n张人脸图片进行特征提取，n≥2，并将所述质量因素Q作为权重，基于提取的特征生成平均特征T；将所述平均特征T在人脸底库中进行搜索得到首位结果A，并根据所述首位结果A以及投票阈值判断是否进行投票；若是则根据所述n张人脸图片提取的特征在人脸底库中进行搜索到的n个首位结果Bi，i＝1,2……n，及所述首位结果A进行投票以得到人脸识别结果。

此外，所述计算机程序指令在被计算机运行时还执行以下步骤：

示例性地，所述评估所述人脸图片的质量因素Q还包括：对所述人脸图片序列中的每张人脸图片进行深度学习，基于神经网络模型获取所述人脸图片的模糊程度F和人脸的角度θ，用来评估所述人脸图片的质量因素Q。

当投票率P/n小于投票率阈值时，得到人脸识别结果为无。

根据本发明实施例的人脸识别系统中的各模块可以通过根据本发明实施例的人脸识别的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

根据本发明实施例的人脸识别方法及装置、人脸识别设备以及存储介质，通过深度学习得到人脸图片质量并进行排序，只对其中高质量的人脸图片进提取特征，提高了人脸识别的精度和运行效率；将人脸图片质量作为权重加权平均得到平均特征，利用特征空间的特性提升召回率；利用多帧投票机制对结果进行复核，减少误报。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的物品分析设备中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种人脸识别方法，其特征在于，所述方法包括：

若是则根据所述n张人脸图片提取的特征在人脸底库中进行搜索得到的n个首位结果Bi，i＝1,2……n，以及所述首位结果A进行投票以得到人脸识别结果。

2.如权利要求1所述的人脸识别方法，其特征在于，所述投票以得到人脸识别结果还包括：

对所述n个首位结果Bi进行投票，如果Bi＝A则票数P加1；

当投票率P/n小于投票率阈值时，得到人脸识别结果为无。

3.如权利要求1中所述的人脸识别方法，其特征在于，所述判断是否进行投票还包括：

如果所述首位结果A在人脸底库中搜索的得分小于投票阈值，则跳过，得到人脸识别结果为无；如果所述得分大于或等于所述投票阈值则进行投票。

4.如权利要求1所述的人脸识别方法，其特征在于，所述生成平均特征T还包括：

根据所述质量因素Q由大到小排序，选取前n张人脸图片作为高质量人脸图片，n≥2；

对n张所述高质量人脸图片进行特征提取，并将所述质量因素Q作为权重，基于对n张所述高质量人脸图片提取的特征生成平均特征T。

5.如权利要求1所述的人脸识别方法，其特征在于，所述评估所述人脸图片的质量因素Q还包括：

基于神经网络模型获取所述人脸图片的模糊程度F和人脸的角度θ，用来评估所述人脸图片的质量因素Q。

6.如权利要求5所述的人脸识别方法，其特征在于，所述人脸的角度包括俯仰角θf和偏转角θp，所述俯仰角θf是人脸的俯仰旋转角度，所述偏转角θp是人脸的左右旋转角度，θf∈[-π，π]，θp∈[-π，π]。

7.如权利要求6所述的人脸识别方法，其特征在于，评估所述人脸图片的质量因素Q还包括：根据下列公式计算质量因素Q，Q＝(F+abs(θf/π)+abs(θp/π))/3，其中，Q∈[0，1]，abs为绝对值函数，F∈[0，1]且F越接近1越模糊。

8.如权利要求1-7中任一项所述的人脸识别方法，其特征在于，所述获取人脸图片序列还包括：

接收视频数据；

对所述视频数据进行视频图像分帧，并对每帧图像进行人脸检测和跟踪，生成包括至少2张人脸图片的人脸图片序列。

9.一种人脸识别装置，其特征在于，所述装置包括：

人脸图片序列生成模块，用于生成人脸图片序列，所述人脸图片序列包括至少2张人脸图片；

质量因素评估模块，用于根据所述人脸图片的模糊程度F和人脸的角度θ评估所述人脸图片的质量因素Q；

平均特征生成模块，用于根据所述质量因素Q选取n张人脸图片进行特征提取，n≥2，并将所述质量因素Q作为权重，基于提取的特征生成平均特征T；

搜索模块，用于将所述平均特征T在人脸底库中进行搜索或将所述平均特征T和所述n张人脸图片提取的特征均在人脸底库中进行搜索；

判断模块，用于根据所述平均特征T的搜索结果及投票阈值判断是否进行投票；

投票模块，用于根据所述搜索模块的结果进行投票以得到人脸识别结果。

10.一种人脸识别系统，包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。

11.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被计算机执行时实现权利要求1至8中任一项所述方法的步骤。