CN107609497B

CN107609497B - 基于视觉跟踪技术的实时视频人脸识别方法及系统

Info

Publication number: CN107609497B
Application number: CN201710775594.7A
Authority: CN
Inventors: 邹复好; 曹锋; 李开; 王浩; 任梓涵; 栾朝阳
Original assignee: WUHAN SHIJI JINQIAO SAFETY TECHNOLOGY Co Ltd; Huazhong University of Science and Technology
Current assignee: WUHAN SHIJI JINQIAO SAFETY TECHNOLOGY Co Ltd; Huazhong University of Science and Technology
Priority date: 2017-08-31
Filing date: 2017-08-31
Publication date: 2019-12-31
Anticipated expiration: 2037-08-31
Also published as: CN107609497A

Abstract

本发明公开了一种基于视觉跟踪技术的实时视频人脸识别方法，涉及计算机视觉跟踪技术领域，包括本发明将视频分为图像组来处理，在每一个图像组中，第1帧作为关键帧，其他帧为非关键帧，其中，关键帧中使用人脸检测与对齐、人脸特征提取和人脸匹配得到人脸识别结果，非关键帧中对关键帧检测到人脸进行跟踪得到人脸跟踪结果，相邻的两个图像组通过对相邻的两个视频帧采用空间位置匹配，若匹配一致，将该人脸作为后一个图像组的人脸识别结果；若空间位置匹配不一致，以与待识别人脸的人脸特征值相似度更高的人脸作为后一个图像组的人脸识别结果，极大提高了人脸识别的速度，且可以实现及时修正前一组人脸识别结果的目的。

Description

基于视觉跟踪技术的实时视频人脸识别方法及系统

技术领域

本发明涉及计算机视觉跟踪技术领域，具体涉及一种基于视觉跟踪技术的实时视频人脸识别方法及系统。

背景技术

随着互联网的高速发展，信息安全在社会生活中日益重要，身份鉴定技术在社会各方面体现着非常重要的应用地位。传统的身份验证方法主要包括标志物件(钥匙、身份证等)、特定的知识(口令、密码等)和标志物件与特定知识的结合(银行卡+口令等)，这些技术已经很成熟，但是无法避免丢失、伪造、遗忘或盗用等问题，存在不安全、不方便、不可靠的缺点。随着网络空间对人类的影响不断扩大，传统的身份验证方法越来越不能满足要求，而利用人类生物特征来识别身份的生物特征识别开始兴起。生物特征作为人的内在属性，具有安全、稳定、不易伪造、不可窃取等优点，是身份验证的最理想依据。由于生物识别技术具有传统方法所无法比拟的优点，得到了人们越来越多的关注，在近些年发展日益成熟。

人脸识别作为一种重要的生物特征识别技术，是模式识别和计算机视觉领域中一个非常活跃的研究热点。相对于指纹、虹膜等其它生物识别技术，具有直接、友好、方便、快捷、操作隐蔽、非侵犯性、可交互性强等特点，应用前景十分广泛。随着人脸识别技术的日益成熟，它被广泛地应用于公安、银行、海关、机场、智能视频监控、医疗等多个方面，表现出了强大的生命力。因此，研发一种视频中兼顾识别效率和准确率的人脸识别方法具有重要的现实意义。

传统的人脸识别方法是先手工提取人脸特征，然后在人脸特征库中进行最邻近搜索，将基于图像的人脸检索转换为人脸特征的相似性度量。这种方法可以满足小规模数据集的要求，但是在大规模数据集中的识别效率与准确率都会降低。近年来，由于卷积神经网络强大的特征学习能力，基于卷积神经网络的人脸识别方法变得流行起来。例如：Facebook提出的DeepFace算法、香港中文大学汤晓鸥团队的DeepID算法系列、Google的FaceNet算法等，一步步超越前人，在LFW人脸数据库上的精度达到了极限。在处理视频数据时，需要每秒钟处理25帧以上才能够保证视频的流畅性。但是，这些卷积神经网络的层数太多，需要训练的参数达到上亿多个，模型复杂，处理速度缓慢，大部分算法处理速度低于10帧每秒，很难直接用于实际应用场景中。

因此，亟需一种基于卷积神经网络的情况下，加速对视频中的人脸进行识别的技术方案。

发明内容

针对现有技术中存在的缺陷，本发明的目的在于提供一种基于视觉跟踪技术的实时视频人脸识别方法及系统，减少了视频流中需要进行人脸识别处理的视频帧，极大提高了人脸识别的速度。

为达到以上目的，本发明采取的技术方案是：一种基于视觉跟踪技术的实时视频人脸识别方法，其特征在于：

将视频流的每n帧划为一个图像组，每个图像组第1帧为关键帧，第2帧至第n帧为非关键帧，对每个图像组关键帧采用人脸检测算法检测视频帧中所有人脸的位置及每个人脸的面部关键点位置，对齐每个人脸的面部关键点位置；提取每个人脸的面部关键点位置对应的人脸特征值，与待识别人脸的人脸特征值相似度最高的视频帧中的人脸为人脸识别结果；

分别在每个图像组非关键帧中对其第1帧中的人脸识别结果通过视觉跟踪算法进行跟踪，保存每个图像组第n帧的人脸跟踪结果及该人脸跟踪结果对应的人脸ID；

按照图像组在视频流中的播放顺序从第一个图像组开始，比较前一个图像组的第n帧的人脸跟踪结果和后一个图像组的第1帧的人脸识别结果，若空间位置匹配一致且人脸ID匹配一致，则将该人脸作为后一个图像组的人脸识别结果；若空间位置匹配不一致或人脸ID匹配不一致，以与待识别人脸的人脸特征值相似度更高的人脸作为后一个图像组的人脸识别结果。

在上述技术方案的基础上，所述人脸检测算法为MTCNN算法。

在上述技术方案的基础上，提取每个人脸的面部关键点位置对应的人脸特征值，与待识别人脸的人脸特征值相似度最高的视频帧中的人脸为人脸识别结果包括以下步骤：

S1，使用人脸特征提取每个人脸的面部关键点位置的每个人脸的人脸特征实际值；

S2，将S1得到的每个人脸的人脸特征实际值转化为哈希特征值；

S3，将步骤1和2得到每个人脸的人脸特征实际值和哈希特征值一一对应的存储在人脸数据库中；

S4，获取待识别人脸的人脸特征实际值和哈希特征值，使用待识别人脸的哈希特征值在人脸数据库中检索，筛选出多个候选的哈希特征值；

S5，以S4中得到的候选的哈希特征值作为索引，在人脸数据库中查询候选的哈希特征值对应的人脸特征实际值，以查询出的人脸特征实际值作为候选的人脸特征实际值；

S6，计算待识别人脸的人脸特征实际值与S5得到的候选的人脸特征实际值的相似度，将相似度超过设定的相似度阈值的候选的人脸特征实际值对应的人脸作为候选的人脸识别结果；

S7，使用投票算法计算候选的人脸识别结果的投票分数，得分最高者为最终的人脸识别结果。

在上述技术方案的基础上，步骤S1包括：

将原始人脸图片及其镜像人脸图片分别送入人脸特征提取网络中提取出两个维数相同的特征向量；然后使用特征融合策略将得到的两个特征向量融合为一个新的特征向量作为人脸特征实际值。

在上述技术方案的基础上，所述特征融合策略为选取两个特征向量每一维的最大值形成一个新的特征向量，对应的公式为：

f_i＝max(x_i，y_i)i＝1，2，...，n，其中，x_i表示待融合的其中一个特征向量的第i维，y_i表示待融合的另一个特征向量的第i维，n表示特征向量的维数。

在上述技术方案的基础上，步骤S1还包括使用PCA降维方法对融合后的新的特征向量降维。

在上述技术方案的基础上，步骤S2中将人脸特征实际值转化为哈希特征值的计算公式为：h(x)＝0.5×(sign(x)+1)；

其中，x为步骤S1得到的人脸特征实际值，h(x)为人脸特征实际值x对应的哈希特征值，

在上述技术方案的基础上，步骤S4包括：

计算待识别人脸的哈希特征值与人脸数据库中所有哈希特征值的汉明距离；

使用最小堆排序算法对计算得到的所有汉明距离进行排序；

选出K个最近的汉明距离，将其对应的哈希特征值作为候选的哈希特征值。

在上述技术方案的基础上，所述投票算法为：

其中，score(id)是候选的人脸识别结果中每个人脸的投票分数，id为每个人脸对应的人脸ID，投票分数最大的人脸即为最终的人脸识别结果。

本发明还公开了一种基于视觉跟踪技术的实时视频人脸识别系统，包括：

关键帧处理模块，其用于将视频流的每n帧划为一个图像组，每个图像组第1帧为关键帧，第2帧至第n帧为非关键帧，对每个图像组关键帧采用人脸检测算法检测视频帧中所有人脸的位置及每个人脸的面部关键点位置，对齐每个人脸的面部关键点位置；提取每个人脸的面部关键点位置对应的人脸特征值，与待识别人脸的人脸特征值相似度最高的视频帧中的人脸为人脸识别结果；

非关键帧处理模块，其用于分别在每个图像组的非关键帧中对其第1帧中的人脸识别结果通过视觉跟踪算法进行跟踪，保存每个图像组第n帧的人脸跟踪结果及该人脸跟踪结果对应的人脸ID；

组连接模块，其用于按照图像组在视频流中的播放顺序从第一个图像组开始，比较前一个图像组的第n帧的人脸跟踪结果和后一个图像组的第1帧的人脸识别结果，若空间位置匹配一致且人脸ID匹配一致，则将该人脸作为后一个图像组的人脸识别结果；若空间位置匹配不一致或人脸ID匹配不一致，以与待识别人脸的人脸特征值相似度更高的人脸作为后一个图像组的人脸识别结果。

与现有技术相比，本发明的优点在于：

本发明将视频分为图像组来处理，在每一个图像组中，第1帧作为关键帧，其他帧为非关键帧，其中，关键帧中使用人脸检测与对齐、人脸特征提取和人脸匹配得到人脸识别结果，非关键帧中对关键帧检测到人脸进行跟踪得到人脸跟踪结果，相邻的两个图像组通过对相邻的两个视频帧采用空间位置匹配，若匹配一致，将该人脸作为后一个图像组的人脸识别结果；若空间位置匹配不一致，以与待识别人脸的人脸特征值相似度更高的人脸作为后一个图像组的人脸识别结果，实现减少视频流中需要进行人脸识别处理的视频帧，极大提高了人脸识别的速度，且可以实现及时修正前一组人脸识别结果的目的。

附图说明

图1为本发明实施例中基于视觉跟踪技术的实时视频人脸识别方法示意图；

图2为本发明实施例中基于视觉跟踪技术的实时视频人脸识别方法中实现的MTCNN级联网络结构图；

图3为本发明实施例中本发明实施例中基于视觉跟踪技术的实时视频人脸识别方法中人脸特征提取网络结构图；

图4为本发明实施例中本发明实施例中基于视觉跟踪技术的实时视频人脸识别方法中人脸特征融合框架图；

图5为本发明实施例中本发明实施例中基于视觉跟踪技术的实时视频人脸识别方法中人脸匹配框架图；

图6为本发明实施例中本发明实施例中基于视觉跟踪技术的实时视频人脸识别方法中人脸跟踪的框架图；

图7为本发明实施例中本发明实施例中基于视觉跟踪技术的实时视频人脸识别系统的结构框图。

具体实施方式

以下结合附图及实施例对本发明作进一步详细说明。

参见图1所示，本发明实施例提供一种基于视觉跟踪技术的实时视频人脸识别方法：

(一)关键帧处理

将视频流的每n帧划为一个图像组，每个图像组第1帧为关键帧，第2帧至第n帧为非关键帧，对每个图像组关键帧采用人脸检测算法检测视频帧中所有人脸的位置及每个人脸的面部关键点位置，对齐每个人脸的面部关键点位置；提取每个人脸的面部关键点位置对应的人脸特征值，与待识别人脸的人脸特征值相似度最高的视频帧中的人脸为人脸识别结果。

本发明采用MTCNN(Multi-task deep convolutional networks)算法来实现人脸检测以及人脸特征点检测。当给定一张图片的时候，将其缩放到不同尺度形成图像金字塔，MTCNN分三个阶段来处理图像：首先，使用一个简单的全卷积网络P-Net(ProposalNetwork),获取一部分人脸窗口候选集，其中使用边界框回归来校准和用NMS来合并候选框；然后将其送入一个复杂的CNN(Refine Network，R-Net)去掉更多非人脸的区域；最后将结果输入到一个更复杂的网络(Output Network,O-Net)做精细的处理，输出最终人脸框和五个面部关键点位置。

如图2所示，MTCNN使用三个CNN级联的方式，实现了由粗到细的算法结构。该方法通过减少滤波器数量、设置小卷积核和增加网络结构的深度，实现了通过较少的运行时间获得更好的性能。将视频帧输入到MTCNN，得到人脸检测结果，并将检测到的人脸图像裁剪出来进行对齐，等待下一步处理。

提取每个人脸的面部关键点位置对应的人脸特征值，与待识别人脸的人脸特征值相似度最高的视频帧中的人脸为人脸识别结果包括以下步骤：

S1，使用人脸特征提取每个人脸的面部关键点位置的每个人脸的人脸特征实际值。

本发明设计的人脸特征提取网络是根据残差网络(Resnet)所述的残差块的结构堆叠构建一个32层的深度卷积神经网络，网络由卷积层、降采样层(最大采样)、全连接层和损失层等多种不同类型的结构组合而成。整体的网络结构如图3所示。网络的具体配置与参数设置如表1所示：

表1 32层的深度卷积神经网络具体配置与参数设置

人脸特征提取的网络结构一共有32层，其中conv为卷积层，maxpool是最大池化层，fc是全连接层。卷积层结构的重复次数在重复中显示，网络最终输出512维的特征向量。损失函数层中，本发明实施的特征提取网络同时使用softmax-loss和center-loss两个损失函数，以实现类内聚合和类间分离，最终提高识别准确率。Center-loss在配合softmax-loss的时候，通过惩罚每个种类的样本和该种类样本中心的偏移，使得同一种类的样本尽量聚合在一起，从而减少了因为类类之间太近而导致的误判。这样，通过添加center-loss让简单的softmax能够训练出更有内聚性的特征，学习到的特征具有更好的泛化性和辨别能力。

步骤S1包括：

特征融合策略为选取两个特征向量每一维的最大值形成一个新的特征向量，如图4所示，本发明中首先将原始人脸图片及其镜像人脸图片分别送入人脸特征提取网络中，得到两个512维的特征向量。然后使用特征融合策略将得到的两个特征向量融合为一个新的特征向量。本发明采用的特征融合公式为：

f_i＝max(x_i，y_i)i＝1，2，...，n，其中，xi表示待融合的其中一个特征向量的第i维，yi表示待融合的另一个特征向量的第i维，n表示特征向量的维数。

步骤S1还包括使用PCA降维方法对融合后的新的特征向量降维。在人脸特征提取中，提取的特征维数太多会导致特征匹配时过于复杂，消耗系统资源，因此，本发明使用PCA降维方法对融合后的特征向量降维。PCA降维能够在尽可能好的代表原特征的情况下，将原特征进行线性变换、映射到低维度空间中。本发明使用PCA将融合得到的512维特征向量映射到128维。

S2，将S1得到的每个人脸的人脸特征实际值转化为哈希特征值。

步骤S2中将人脸特征实际值转化为哈希特征值的计算公式为：h(x)＝0.5×(sign(x)+1)；

S3，将步骤1和2得到每个人脸的人脸特征实际值和哈希特征值一一对应的存储在人脸数据库中；存储为键值型(key,value)数据库。

本发明特征查询采用人脸特征实际值和哈希特征值双特征结合的方式，每个哈希特征值对应多个人脸特征实际值，为了更快地查询到人脸特征实际值，建立键值对索引结构。建立人脸数据库时，每张人脸的人脸特征实际值通过哈希函数得到一个哈希特征值，将哈希特征值作为键值对的键，人脸特征实际值对应的人脸信息作为键值对的值，存储在数据库中。如果产生的哈希索引在数据库中已经存在，则将人脸信息追加到对应的哈希索引中。

本发明使用三张数据库表来存储关于人脸的信息，分别是：

(1)hash_index：是集合类型的数据结构，用来存储全部的哈希索引。

(2)person_infomation：Hash类型数据结构，以键值对的形式存储每个人的信息，每个人的ID是唯一的，但是可以有多张人脸。主要的键有：每个人的id、名字、性别、信息的修改时间p等。

(3)face_infomation：Hash类型数据结构，以键值对的形式存储每一张人脸的相关信息。主要包括：每个人的对应的人脸照片数量、每张照片的存储路径、每张照片的哈希特征值等,不同人的信息通过id来区分。其中，哈希特征值为键名的键中则存储多张人脸的人脸特征实际值。

S4，获取待识别人脸的人脸特征实际值和哈希特征值，使用待识别人脸的哈希特征值在人脸数据库中检索，筛选出多个候选的哈希特征值。

步骤S4包括：

使用最小堆排序算法对计算得到的所有汉明距离进行排序；

S5，以S4中得到的候选的哈希特征值作为索引，在人脸数据库中查询候选的哈希特征值对应的人脸特征实际值，以查询出的人脸特征实际值作为候选的人脸特征实际值。

将步骤S4中得到的哈希特征值作为键名，在数据库中查找键名对应的键值，可以得到对应的人脸特征实际值候选集。根据本发明的步骤S3中建立人脸数据库的过程可以知道，哈希索引为键名的键中存储多张人脸的人脸特征实际值，因此，将步骤S4中得到的哈希特征值在人脸数据库中依次查询，可以得到其对应的人脸特征实际值向量候选集。

S6，计算待识别人脸的人脸特征实际值与S5得到的候选的人脸特征实际值的相似度，将相似度超过设定的相似度阈值的候选的人脸特征实际值对应的人脸作为候选的人脸识别结果。

计算待查询的人脸人脸特征实际值与步骤S5得到的特征向量候选集中所有向量的距离。本发明中使用余弦距离作为相似性度量，余弦相似度是通过测量两个向量点积空间夹角的余弦值来判断相似性，0°角的余弦值是1，90°为0，余弦值大小在[-1,1]区间，两个向量的余弦距离越接近于1，说明这两个向量越相似。本发明中设定一个相似度阈值，余弦距离超过这个阈值的候选人脸特征实际值向量对应的人脸则认为是和待识别人脸相似，从而得到满足相似性要求的人脸候选集。

本发明的步骤S6中得到的余弦距离满足阈值要求的人脸可能不止一张，并且可能属于不同的ID，所以需要设计一个投票算法对人脸ID进行投票，投票算法设计如下：

投票算法为：

(二)非关键帧处理

分别在每个图像组非关键帧中对其第1帧中的人脸识别结果通过视觉跟踪算法进行跟踪，保存每个图像组第n帧的人脸跟踪结果及该人脸跟踪结果对应的人脸ID；本发明采用基于相关滤波的视觉跟踪算法KCF(Kernelized Correlation Filters)对关键帧中检测到的人脸进行跟踪。

如图6所示，本发明中实施的KCF跟踪算法是一个判别式跟踪方法，它的思想可以分解成如下几步：

(1)在视频帧的每个图像组内第i帧中，在当前人脸位置pt附近采样，训练一个目标检测器，这个检测器能计算一个小窗口采样的响应。训练目标检测器时选取目标区域为正样本，目标的周围区域为负样本，越靠近目标的区域为正样本的可能性越大。

(2)在第i+1帧中，在前一帧的人脸位置pt附近采样，用(1)中训练的检测器判断每个采样的响应。

(3)将响应最强的采样作为本帧人脸位置p(t+1)。同时，使用新检测结果去更新训练集进而更新目标检测器。

该算法在使用循环矩阵在目标人脸周围区域采集正负样本，一个样本通过循环矩阵之后，实现了图像向上、向下分别移动不同的像素，从而可以产生更多的样本，更多的样本能够训练更好的分类器。KCF利用岭回归训练目标检测器(分类器)，并成功的利用循环矩阵在傅里叶空间可对角化的性质将循环矩阵的卷积运算转化为傅里叶域向量元素的点乘，即将时域的卷积转换为频域的点乘，大大降低了运算量，提高了运算速度，使算法能够满足实时性要求。KCF的输入是多通道HOG特征，由于卷积在频域是点乘的求和，所以将不同通道的特征向量连接为一个向量。

KCF将线性空间的岭回归通过Gauss核函数映射到非线性空间，在非线性空间通过求解一个对偶问题和某些常见的约束，同样使用循环矩阵傅里叶空间对角化来简化计算,进一步加快了运算速度。

利用循环矩阵和核函数，KCF跟踪算法得到了极大的加速，达到了172FPS的高速水平，同时保持了很高的精确度。

本发明实施的KCF算法时尺度变换的，可以随人脸大小的变化改变人脸框的大小，本发明对视频流组的第2帧到第n帧进行KCF跟踪，并保存第n帧的人脸跟踪框坐标以及ID信息，留待下一步处理。

(三)组连接处理

参见图7所示，本发明实施例还公开了一种基于视觉跟踪技术的实时视频人脸识别系统，包括：

本发明不局限于上述实施方式，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种基于视觉跟踪技术的实时视频人脸识别方法，其特征在于：

2.如权利要求1所述的基于视觉跟踪技术的实时视频人脸识别方法，其特征在于：所述人脸检测算法为MTCNN算法。

3.如权利要求1所述的基于视觉跟踪技术的实时视频人脸识别方法，其特征在于：提取每个人脸的面部关键点位置对应的人脸特征值，与待识别人脸的人脸特征值相似度最高的视频帧中的人脸为人脸识别结果包括以下步骤：

4.如权利要求3所述的基于视觉跟踪技术的实时视频人脸识别方法，其特征在于：步骤S1包括：

5.如权利要求4所述的基于视觉跟踪技术的实时视频人脸识别方法，其特征在于：所述特征融合策略为选取两个特征向量每一维的最大值形成一个新的特征向量，对应的公式为：

f_i＝max(x_i,y_i)i＝1,2,…,n，其中，f_i表示所述新的特征向量的第i维，x_i表示待融合的其中一个特征向量的第i维，y_i表示待融合的另一个特征向量的第i维，n表示特征向量的维数。

6.如权利要求4所述的基于视觉跟踪技术的实时视频人脸识别方法，其特征在于：步骤S1还包括使用PCA降维方法对融合后的新的特征向量降维。

7.如权利要求3所述的基于视觉跟踪技术的实时视频人脸识别方法，其特征在于：步骤S2中将人脸特征实际值转化为哈希特征值的计算公式为：h(x)＝0.5×(sign(x)+1)；

其中，x为步骤S1得到的人脸特征实际值，h(x)为人脸特征实际值x对应的哈希特征值，其中，sign(x)为符号函数。

8.如权利要求3所述的基于视觉跟踪技术的实时视频人脸识别方法，其特征在于：步骤S4包括：

使用最小堆排序算法对计算得到的所有汉明距离进行排序；

选出多个最近的汉明距离，将其对应的哈希特征值作为候选的哈希特征值。

9.如权利要求3所述的基于视觉跟踪技术的实时视频人脸识别方法，其特征在于：所述投票算法为：

其中，score(id)是候选的人脸识别结果中每个人脸的投票分数，id为每个人脸对应的人脸ID，sim是余弦相似度，threshold是相似度阈值，投票分数最大的人脸即为最终的人脸识别结果。

10.一种基于视觉跟踪技术的实时视频人脸识别系统，其特征在于，包括：