CN111652070A

CN111652070A - 一种基于监控视频的人脸序列协同识别方法

Info

Publication number: CN111652070A
Application number: CN202010375629.XA
Authority: CN
Inventors: 王海涛; 罗秋凤; 杨先明; 王怀斌; 王海龙; 刘强; 王荣耀
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2020-05-07
Filing date: 2020-05-07
Publication date: 2020-09-11
Anticipated expiration: 2040-05-07
Also published as: CN111652070B

Abstract

本发明公开了一种基于监控视频的人脸序列协同识别方法，涉及视频人脸识别技术领域。包括从视频流中交替使用人脸检测和人脸跟踪技术获得目标人脸对应的人脸序列并存储于人脸序列缓冲空间；同时检测缓冲空间中是否存在完整人脸序列，对完整人脸序列首先等间隔抽取部分人脸进行图像人脸识别；根据部分人脸识别结果缩小抽取范围，在缩小范围内再次等间隔抽取部分人脸进行识别；通过不断缩小抽取范围最终获得人脸序列目标区域，根据目标区域及抽取人脸图像识别结果综合得出目标人脸身份信息。本发明在确保准确率的前提下有效的提升了视频人脸识别的实时性，同时在一定程度上降低了视频人脸识别的误识率。

Description

一种基于监控视频的人脸序列协同识别方法

技术领域

本发明涉及视频人脸识别技术领域，特别涉及一种基于监控视频的人脸序列协同识别方法。

背景技术

人脸识别技术技术经过几十年的发展已逐步趋于成熟，在最近几年被广泛应用到各类场景当中。从人脸识别技术的发展历程来看，人脸识别方法主要分为传统的人脸识别方法和基于深度学习的人脸识别方法。传统的人脸识别方法主要分为基于几何特征、基于相关匹配以及基于子空间的人脸识别方法，传统的人脸识别方法一般通过人工提取特征进行识别，因此具有参数少、识别速度快的特点。基于深度学习的人脸识别方法在2012年后取得了极大的发展，在准确率方面表现远超传统方法，因此成为当前人脸识别技术的主流研究方向。但由于基于深度学习的人脸识别方法模型复杂、识别速度慢，因此在当前实际应用中使用不多。

随着视频监控在生产生活、安防等各方面的的广泛应用和快速发展，如何快速、准确的确定视频中的大量人脸的身份信息对安防领域具有重要意义。目前基于深度学习的人脸识别方法准确率高，但是模型复杂，识别速度慢，且在人脸库较大时，人脸比对耗时较大，对视频中所有人脸进行识别将严重降低视频识别的实时性以及产生过多的误报。因此，如何根据视频人脸特性降低误报和提高实时性对人脸识别技术的应用具有重要意义。

基于视频的人脸识别方法主要分为三类，即基于集的方法、基于序列的方法以及利用视频序列生成人脸模型的方法。基于集的方法根据匹配前和匹配后又分为多种方法，基于序列的方法分为基于时间序列的方法和基于时空序列的方法。在实际应用中，基于集的方法由于增加了匹配、融合等，引入了新的误差及计算，因此使用较少。基于序列的方法一般通过在帧序列中挑选优质人脸图像进行识别，最后对每次识别结果进行综合，这种方法在人脸图像质量评价及挑选中有较大的操作性。对于第三类的方法，现有利用视频序列生成人脸模型的方法应用中受环境影响较大，鲁棒性有待提高。

发明内容

发明目的：针对现有的技术存在的上述问题，提供一种基于监控视频的人脸序列协同识别方法，在确保准确率一定的条件下提升视频识别的实时性并降低误报。

技术方案：本发明提供的基于监控视频的人脸序列协同识别方法包括视频人脸序列图像获取过程和视频人脸序列图像识别过程。所述视频人脸序列图像获取过程通过对人脸进行检测和跟踪以不断获得视频人脸序列并将其存储于人脸序列缓冲空间，所述视频人脸序列图像识别过程通过不断查询缓冲空间以对缓冲空间中人脸序列进行协同识别；所述视频人脸序列图像获取过程包括以下步骤：

(S1)对所述监控视频的初始帧进行人脸检测，一旦检测到人脸，则获取当前帧中全部人脸的位置信息和大小信息作为检测结果，将检测结果作为跟踪目标，并将当前帧中各人脸对应的序列图像存储于人脸序列缓冲空间；

(S2)从当前帧后续第一帧至第N帧，N为大于1的整数，对所述跟踪目标进行跟踪并将跟踪信息存储于所述人脸序列缓冲空间中；将当前帧后续第N+1帧作为新的当前帧，对新的当前帧再次进行人脸检测，根据新的检测结果更新所述跟踪信息；

(S3)重复执行步骤(S2)直至跟踪人脸在监控视频中消失，在存储器对应序列处添加结束标志，得到一个完整人脸图像序列。

进一步地，所述视频人脸序列图像识别过程包括以下步骤：

(S4)对存储器中任一完整人脸图像序列，等间隔抽取多张人脸图像进行识别，所述识别包括计算每张抽取的人脸图像与人脸库中所有人脸图像的欧式距离，将欧式距离最近的人脸库图像对应的人脸身份作为识别结果，且所能达到的最近欧式距离值越小，说明识别结果越好；

(S5)在识别结果最好的抽取的人脸图像附近选定目标区域，在目标区域内再次等间隔抽取人脸图像进行识别；

(S6)重复执行步骤(S5)以将人脸图像序列的目标区域不断缩小至预定范围内，通过在获取最终目标区域过程中抽取的所有人脸图像的识别结果综合得出所述完整人脸图像序列中目标人脸的身份。

进一步地，步骤(S1)中，使用MTCNN算法进行人脸检测；步骤(S2)中，使用Dlib库中的目标跟踪算法对跟踪目标进行跟踪。

进一步地，步骤(S2)中，根据新的检测结果更新所述跟踪信息，具体包括：计算检测到的人脸的区域与已在跟踪人脸区域的交并比，通过判断所述交并比是否在第一预定阈值范围内来判断检测到的人脸是否已在跟踪；如果在所述第一预定范围内，则判断结果为检测到的人脸已在跟踪，并使用检测到的人脸区域替代跟踪人脸区域，如果不在所述第一预定范围内，则判断结果为检测到的人脸未在跟踪，并增加未在跟踪的人脸的跟踪信息。

进一步地，步骤(S4)中，计算每张抽取的人脸图像与人脸库中所有人脸图像的欧式距离，具体包括：

(S41)对抽取的每张人脸图像，使用Facenet网络获得对应人脸图像的人脸特征向量；

(S42)对抽取的每张人脸图像，通过KNN算法基于所述人脸特征向量计算对应人脸图像与人脸库中所有人脸图像间的欧式距离，其中欧式距离通过下式计算：

式中，x和y分别为抽取的人脸图像和人脸库中任一图像的人脸特征向量，x_i和y_i分别为特征向量x和y的第i个分量，n为x和y的维度。

进一步地，步骤(S5)中，再次等间隔抽取的范围为前次进行抽取间隔长度的两倍，若最优人脸图像为抽取图像集端点处图像，则取距端点最近两个间隔，否则以最优人脸图像为中心确定范围。

进一步地，步骤(S6)中，通过在获取最终目标区域过程中抽取的所有人脸图像的识别结果综合得出所述完整人脸图像序列中目标人脸的身份，具体为：

(S61)取最终目标区域内所有人脸图像的识别结果构成第一决策样本集，取在获取最终目标区域过程中抽取的所有人脸图像的识别结果中距离最小的多个人脸图像构成第二决策样本集；

(S62)基于第一和第二决策样本集中出现最多的人脸身份，通过下式计算决策分数值：

式中，C1和C2分别为所述第一样本集和所述第二样本集；C1'_max和C2'_max分别为C1和C2中出现最多的人脸身份；C1_max和C2_max分别为身份C1'_max在C1中出现的次数以及身份C2'_max在C2中出现的次数；G1、G2分别为C1和C2的元素个数；w₁、w₂、w₃分别为第一、第二、第三权重系数；

(S62)确定所述决策分数值Score是否小于设定的决策阈值，如果Score小于决策阈值，则认为目标人脸为所述人脸库中的人脸，且抽取的所有人脸图像的识别结果中欧式距离最小值对应的人脸库图像的人脸身份即为所述目标人脸的身份，否则认为所述目标人脸非库中人脸。

有益效果：与现有相比，本发明具有以下优点：

(1)通过以序列内人脸图像识别结果为导向选择的代表人脸，其识别结果能够更准确的反映目标人脸身份信息；

(2)通过将人脸检测与人脸跟踪相结合，减少了视频人脸序列图像获取过程中的计算量；

(3)由于“从粗到精”的目标区域选择方式仅对部分代表人脸进行识别，因此能够很好的提升视频人脸识别的实时性；

(4)对选择的人脸序列图像的识别综合得出结果，每个目标人脸只需要报警一次，一定程度上改善了视频人脸识别中的误报频繁问题。

附图说明

图1为本发明实例一种基于监控视频的人脸序列协同识别方法的结构示意图；

图2为本发明实例中人脸序列协同识别过程及识别结果示意图；

图3为监控视频中人脸图像变化示意图；

图4为判断检测到人脸是否已在跟踪示意图；

图5为本发明实例中针对静态图像人脸识别的人脸距离表征示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细说明。以下实施例用来说明本发明，但不用来限制本发明的范围。

本实施例提供一种基于监控视频的人脸序列协同识别方法，如图1所示，人脸序列协同识别的整体识别结构主要由两部分组成，即视频人脸序列图像获取过程和视频人脸序列图像识别过程。图1左侧部分通过结合人脸检测和跟踪技术获得视频流中人脸序列图像并存储于人脸序列缓冲空间，右侧部分通过查询缓冲空间对缓冲空间中完整人脸序列进行协同识别。

在视频人脸序列图像获取过程中，通过人脸检测获得视频帧中人脸位置、大小信息。根据检测结果，对后续视频帧进行跟踪，跟踪N帧后，再次进行检测并根据检测结果对跟踪人脸信息进行矫正和更新，以此方式交替获得序列人脸图像。在视频人脸序列图像识别过程中，通过不断查询是否有完整序列人脸图像，对完整序列人脸图像使用协同识别的方法进行识别，并对整个序列人脸身份信息得出一个结论，协同识别过程及相应结果如图2所示。由于在监控视频中的人脸序列图像质量有一个变化的过程，使得全部人脸序列图像中只有部分人脸图像与人脸库图像距离较近，如图3所示。因此，协同识别的方法通过挑选出距离人脸库特征向量距离最近的序列区域进行识别。

对目标人脸的全部识别过程具体包括以下步骤：

视频人脸序列图像获取过程包括步骤S1至S3，各步骤分别为：

S1：对监控视频的初始帧进行人脸检测，一旦检测到人脸，则获取当前帧中全部人脸的位置信息和大小信息作为检测结果，将检测结果作为跟踪目标，并将当前帧中各人脸对应的序列图像存储于人脸序列缓冲空间。

具体的，在步骤S1中使用MTCNN算法进行人脸检测，使用Dlib库中目标跟踪算法进行人脸跟踪。MTCNN首先将输入图像缩放到不同尺度形成图像金字塔，以达到尺度不变，然后依次使用三个卷积神经网络P-NET、R-NET及O-NET对人脸框和关键点进行回归和筛选。其中P-NET用来生成候选窗和边框回归向量，使用边框回归向量校正候选窗，使用非极大抑制(NMS)合并重叠候选框。R-NET输入为P-NET产生的大量候选框，拒绝掉大部分错误框，继续使用边框回归向量和NMS合并。最后通过O-NET网络对人脸框和特征点进行回归，得到最终人脸框和特征点。在人脸跟踪部分，使用dlib库中的目标跟踪模块，将MTCNN检测结果作为跟踪目标进行跟踪。

S2：从当前帧后续第一帧至第N帧，N为大于1的整数，对跟踪目标进行跟踪并将跟踪信息存储于人脸序列缓冲空间中；将当前帧后续第N+1帧作为新的当前帧，对新的当前帧再次进行人脸检测，根据新的检测结果更新所述跟踪信息。

在本实施例中具体包括：跟踪N帧后，对视频帧再次检测获得检测人脸信息。设检测所得人脸区域面积为C，跟踪人脸区域面积为G_i(i表示第i个跟踪人脸)，检测人脸区域与跟踪人脸区域的重合区域面积为C∩G_i，如图4所示。若最大重合度P大于设定阈值，则认为当前检测所得人脸属于P对应跟踪人脸i。在下一帧进行跟踪时，使用该检测人脸信息代替跟踪信息进行跟踪。若P小于设定阈值，则认为检测人脸为新增人脸，对新增人脸开始跟踪。其中最大重合度公式如下：

S3：重复执行步骤(S2)直至人脸在监控视频中消失，在存储器对应序列处添加结束标志，得到一个完整人脸图像序列。

视频人脸序列图像识别过程包括步骤S4至S6，各步骤具体为：

S4：对存储器中任一完整人脸图像序列，等间隔抽取多张人脸图像进行识别，所述识别包括计算每张抽取的人脸图像与人脸库中所有人脸图像的欧式距离，将欧式距离最近的人脸库图像对应的人脸身份作为识别结果，且所能达到的最近欧式距离值越小，说明识别结果越好。以下对该步骤进行具体说明：

假设查询存储器时，存储器由个不同长度的人脸序列组成，这里表示为集合X＝{X₁,X₂,Λ,X_M}。设遍历查询至X₂时，X₂存在结束标志位，即X₂是一个完整人脸序列图像集。将人脸序列集合X₂表示为N_i(i＝1,2,Λ,m)，其中i表示第i帧人脸图像。

先进行初始化设置：序列目标区域左边界位置S_L＝1，序列目标区域右边界位置S_R＝m，目标区域等间隔抽取间隔数为n；

再进行初始目标区域筛选：对序列集合N_i根据图像位置进行平均抽取，抽取间隔内包含帧数d＝(S_R-S_L)/n,抽取帧所处位置集合L＝{S_L,S_L+S_R/n,S_L+(S_R/n)*2,Λ,S_L+(S_R/n)*(n-1),S_R}，第一次选择样本集

对样本集F中人脸图像进行人脸识别，得到F中人脸图像识别结果，识别结果包括F中各人脸图像的身份信息及对应人脸图像与人脸库的最小距离集合

求集合D中元素最小值获得抽取人脸中的最小距离D_min,设D_min在序列集合N_i中对应人脸图像为N_k。

S5：后续目标区域筛选：根据上一次抽取的人脸图像识别结果，在第k帧人脸图像附近距离最小，因而第k帧图像具有更好识别效果。以第k帧人脸图像为中心，取目标区域帧数范围大小为2×d，更新目标区域边界S_L、S_R以及间隔帧数d。更新方式为：若最优人脸图像为抽取图像集端点处图像，则取距端点最近两个间隔，否则以最优人脸图像为中心确定范围。再次等间隔抽取的范围为前次进行抽取间隔长度的两倍，若最优人脸图像为抽取图像集端点处图像，则取距端点最近两个间隔，否则以最优人脸图像为中心确定范围。更新结果用式子表达如下：

S6:重复执行步骤(S5)以将人脸图像序列的目标区域不断缩小至预定范围内，通过在获取最终目标区域过程中抽取的所有人脸图像的识别结果及最终目标区域范围内所有人脸图像的识别结果综合得出所述完整人脸图像序列中目标人脸的身份。该步骤具体为：

根据更新后的目标区域边界S_L、S_R和抽取间隔d，重复步骤S5不断缩小目标区域范围至S_R-S_L＜n，n为预定范围。对最终目标区域人脸图像进行识别，获得目标区域人脸图像识别结果。取最终目标区域内的所有G1个图像的识别结果中的身份构成决策样本集C1，取获取最终目标区域的过程中抽取的(包括最终目标区域内)所有图像的识别结果中欧式距离最小的G2个人脸图像的身份构成决策样本集C2。然后，基于第一和第二决策样本集中出现最多的人脸身份，通过下式计算决策分数值：

式中，C1和C2分别为所述第一样本集和所述第二样本集；C1'_max和C2'_max分别为C1和C2中出现最多的人脸身份；C1_max和C2_max分别为身份C1'_max在C1中出现的次数以及身份C2'_max在C2中出现的次数；G1、G2分别为C1和C2的元素个数；w₁、w₂、w₃分别为第一、第二、第三权重系数。

通过设置决策阈值Threshold确定目标人脸是否在人脸库中。如果Score小于决策阈值，则认为目标人脸为所述人脸库中的人脸，且抽取的所有人脸图像的识别结果中欧式距离最小值对应的人脸库图像的人脸身份即为所述目标人脸的身份，否则认为所述目标人脸非库中人脸。

在步骤S4至S6中，对选中人脸图像的识别使用Facenet网络提取特征，使用KNN算法获得识别结果。FaceNet通过卷积神经网络学习将图像映射到欧几里得空间，空间距离直接和图片相似度相关。这种映射关系也可以称之为嵌入(embedding)，即将原特征映射到一个新的特征空间，新的特征就被看作是一种嵌入。因此，将图像通过Facenet映射所得的512维向量表征了图像人脸特征。

人脸特征数据分类是图像人脸识别过程的最后一步，通过上述Facenet网络得到待识别人脸图像的512维特征向量以及人脸库所有图像的特征向量，根据数据分类算法即可判断待识别人脸图像属于人脸库哪一类。本发明使用KNN(k-nearest neighbors)进行人脸特征数据分类，KNN思想是：如果一个样本在特征空间中的K个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。实现步骤为首先计算待识别人脸对应特征向量与所有人脸库特征向量欧式距离，计算公式为：

式中，x和y分别为抽取的人脸图像和人脸库中任一图像的人脸特征向量，x_i和y_i分别为特征向量x和y的第i个分量，n为x和y的维度。其次选择K个在最近的人脸库特征向量作为样本，最后统计出K个样本中大多数样本所属的类别，这个类别就是输入人脸图像的识别结果。

对人脸图像的识别，通过提取人脸图像特征和对人脸特征分类来实现，通过KNN的思想用距离远近来度量人脸的相似程度，距离越小则相似度越高。如图5所示，对一未知人脸图像的识别，比较该人脸图像与人脸库中所有人脸图像间的距离，距离最近的人脸库图像类别即为该人脸图像所属类别。

以上实施方式仅用于说明本发明，而非对本发明的限制。对于有关技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明保护范畴以内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种基于监控视频的人脸序列协同识别方法，其特征在于，包括视频人脸序列图像获取过程和视频人脸序列图像识别过程，所述视频人脸序列图像获取过程通过对人脸进行检测和跟踪以不断获得视频人脸序列并将其存储于人脸序列缓冲空间，所述视频人脸序列图像识别过程通过不断查询缓冲空间以对缓冲空间中人脸序列进行协同识别；

所述视频人脸序列图像获取过程包括以下步骤：

(S3)重复执行步骤(S2)直至跟踪人脸在监控视频中消失，在人脸序列缓冲空间对应序列处添加结束标志，得到一个完整人脸图像序列。

2.根据权利要求1所述的基于监控视频的人脸序列协同识别方法，其特征在于，所述视频人脸序列图像识别过程包括以下步骤：

(S4)对存储器中任一完整人脸图像序列，以整个序列为初始目标区域等间隔抽取多张人脸图像进行识别，所述识别包括计算每张抽取的人脸图像与人脸库中所有人脸图像的欧式距离，将欧式距离最近的人脸库图像对应的人脸身份作为识别结果，且所能达到的最近欧式距离值越小，说明识别结果越好；

(S5)在识别结果最好的抽取的人脸图像附近重新选定目标区域，在目标区域内再次等间隔抽取人脸图像进行识别；

(S6)重复执行步骤(S5)以将人脸图像序列的目标区域不断缩小至预定范围内，通过在获取最终目标区域过程中抽取的所有人脸图像的识别结果及最终目标区域范围内所有人脸图像的识别结果综合得出所述完整人脸图像序列中目标人脸的身份。

3.根据权利要求2所述的基于监控视频的人脸序列协同识别方法，其特征在于，步骤(S1)中，使用MTCNN算法进行人脸检测；步骤(S2)中，使用Dlib库中的目标跟踪算法对跟踪目标进行跟踪。

4.根据权利要求2所述的基于监控视频的人脸序列协同识别方法，其特征在于，步骤(S2)中，根据新的检测结果更新所述跟踪信息，具体包括：

计算检测到的人脸的区域与所有已在跟踪人脸区域的最大重合度P，P的计算方式如下：

其中，C为检测获得的人脸区域，G_i为第i个正在跟踪中的人脸区域；通过判断所述最大重合度P是否大于第一预定阈值来判断检测到的人脸是否已在跟踪；如果大于，则判断结果为检测到的人脸已在跟踪，并使用检测到的人脸区域替代跟踪人脸区域，如果小于，则判断结果为检测到的人脸未在跟踪，并增加未在跟踪的人脸的跟踪信息。

5.根据权利要求4所述的基于监控视频的人脸序列协同识别方法，其特征在于，步骤(S4)中，计算每张抽取的人脸图像与人脸库中所有人脸图像的欧式距离，具体包括：

6.根据权利要求2所述的基于监控视频的人脸序列协同识别方法，其特征在于，步骤(S5)中，再次等间隔抽取的范围为前次进行抽取间隔长度的两倍，若最优人脸图像为抽取图像集端点处图像，则取距端点最近两个间隔，否则以最优人脸图像为中心确定范围。

7.根据权利要求2所述的基于监控视频的人脸序列协同识别方法，其特征在于，步骤(S6)中，通过在获取最终目标区域过程中抽取的所有人脸图像的识别结果及最终目标区域范围内所有人脸图像的识别结果综合得出所述完整人脸图像序列中目标人脸的身份，具体为：