CN110598535B

CN110598535B - 一种监控视频数据中使用的人脸识别分析方法

Info

Publication number: CN110598535B
Application number: CN201910701920.9A
Authority: CN
Inventors: 范祚军; 高健; 姜文君; 梁广林
Original assignee: Guangxi University
Current assignee: Guangxi University
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2021-03-23
Anticipated expiration: 2039-07-31
Also published as: US11263435B2; US20210034840A1; CN110598535A

Abstract

本发明公开一种监控视频数据中使用的人脸识别分析方法，利用2个神经网络对人脸高纬人脸特征进行比对打分，融合K相邻算法以及欧式距离为阈值的筛选机制做到人脸比对识别，从而得到准确的人脸识别结果；此外，本发明还根据视频数据的时间和人脸的出现频次做进一步的筛选，最终得到识别结果，进而得到更为准确的人脸识别结果。本发明可以对实时或历史监控摄像头拍摄到的视频数据或图片数据进行比较准确的人脸识别。

Description

一种监控视频数据中使用的人脸识别分析方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种监控视频数据中使用的人脸识别分析方法。

背景技术

人工智能相关技术随着大数据的普及呈现飞速发展，并渐渐普及到人们的日常生活中。人工智能四大领域中的计算机视觉在近些年得到了人们的肯定，而计算机视觉中的人脸识别技术一直是关注的焦点，其准确率在一些情况下甚至一度超越人眼的辨识准确率。与其他人体生物特征相比，其具有非接触、非强制、隐蔽性强、获取方便、结果更加直观等优点，可以在不干涉被监控人的情况下就达到识别目的。

计算机视觉人脸识别技术，在安全领域拥有很大的发展前景。在实时监控视频数据中使用，可以完成黑名单报警、白名单保护追踪、黑白名单目标锁定和轨迹绘制等功能。在历史监控数据中使用，可以起到快速找出目标出现在哪个摄像头的哪个时间点。计算机视觉人脸识别技术的7*24（7天乘以24小时）工作方式，大大节省了区域安全监视工作的人力资源消耗，人脸识别算法的高并发功能，还可大大降低时间成本，不止可以同时观看多个不同设备拍摄的视频数据，还使人类需要花费几个小时的历史视频数据加速到几十分钟甚至几分钟内即可完成检索。

虽然人脸识别拥有很多优点，甚至在特定情况下超过人眼的辨识准确率，但由于监控视频数据的获取设备监控摄像头存在摆设方式多样、摄像距离多变、拍摄情况复杂、被拍摄人不会直视设备等原因，造成视频数据中的人脸角度、光线、距离、表情、模糊度等复杂且多变，这些情况都使得人脸识别的难度增大，导致程序算法误判和漏判。

发明内容

本发明针对现有人脸识别方法在监控视频数据中容易出现误判和漏判的问题，提供一种监控视频数据中使用的人脸识别分析方法，用以应对人脸识别在监控视频数据中的恶劣情况，提高人脸识别在监控视频数据中的准确率。

为解决上述问题，本发明是通过以下技术方案实现的：

一种监控视频数据中使用的人脸识别分析方法，具体包括步骤如下：

步骤1、在监控区域内采集自制的人脸照片集，并获得公开的人脸数据集；对自制的人脸照片集和公开的人脸数据集进行预处理，并利用人脸检测算法和特征提取器从预处理后的人脸数据集中提取人脸的高维特征，并保存为模型的训练集；

步骤2、利用监控区域内的监控摄像设备采集含有人脸的视频数据，利用现有人脸检测算法提取视频中的人脸图片，经过简单的人工筛选过滤掉完全看不清脸的图片，最后人工标记人脸图片的标签，并保存为模型的验证集；

步骤3、选取2个不同的人脸比对模型，即第一人脸比对模型和第二人脸比对模型；

步骤4、先利用步骤1的训练集分别对步骤3的2个人脸比对模型进行训练，再利用步骤2的验证集对步骤3的2个人脸比对模型进行验证，后保存所得到的2个人脸比对模型；

步骤5、先采集每个可信身份的K张标准人脸照片，再利用特征提取器从标准人脸照片提取标准人脸的高维特征，后将标准人脸照片、标准人脸的高维特征和对应的身份标签组成人脸矩阵并保存，由此建立人脸标准库；

步骤6、利用监控区域内的监控摄像设备实时采集视频数据，并在视频流中逐帧获取每一帧的图片，且利用人脸检测算法和特征提取器提取每一帧图片中的所有待识别人脸的高维特征；

步骤7、对于步骤6所得到的每个待识别人脸的高维特征，分别执行如下操作：

步骤7.1、将待识别人脸的高维特征与步骤5所得到的人脸矩阵共同输入到步骤4所保存的2个人脸比对模型中，每个人脸比对模型均输出该待识别人脸的高维特征与人脸标准库的各个标准人脸的高维特征之间的匹配分数值；

步骤7.2、将步骤7.1所得到的第一人脸比对模型的匹配分数值和第二人脸比对模型的匹配分数值进行加权融合，得到该待识别人脸的高维特征与人脸标准库的各个标准人脸的高维特征之间的综合匹配分数值；

步骤7.3、选择综合匹配分数值较高的L个标准人脸的高维特征所对应的身份标签作为模型识别的初步识别身份标签；

步骤7.4、将待识别人脸的高维特征与步骤5所得到的人脸矩阵共同输入到K相邻算法中；在K相邻算法中，先计算得到该待识别人脸的高维特征与人脸标准库的各个标准人脸的高维特征之间的欧式距离；再选出欧式距离较小的K个标准人脸的高维特征所对应的身份标签；如果这K身份标签有K-1个身份标签相同时，则K相邻算法输出这一相同的身份标签作为算法识别的初步识别身份标签，并计算这K-1个身份标签的欧式距离平均值；否则，该K相邻算法输出无解；

步骤7.5、当步骤7.4所得算法识别的初步识别身份标签存在于步骤7.3所得模型识别的初步识别身份标签时，则将该算法识别的初步识别身份标签所对应的欧式距离平均值与设定的相似度阈值进行比较：

当欧式距离平均值大于设定的相似度阈值时，则将该算法识别的初步识别身份标签作为该待识别人脸的高维特征的识别结果，并将待识别人脸的高维特征、综合匹配分数值、欧式距离平均值和身份标签形成一条记录，归入到可识别集合中；

否则，待识别人脸的高维特征无解，并将待识别人脸的高维特征形成一条记录，归入到未识别集合中；

上述K和L均为设定的大于1的正整数。

上述步骤3所建立的2个不同的人脸比对模型如下：

第一人脸比对模型的计算过程为：首先计算两个人的人脸的高维特征之间的乘积、和值、绝对差值以及差值的平方并拼接成一个矩阵数据；然后进行一次激活函数为修正线性单元的卷积计算和批量归一化；之后进行一次激活函数为线性回归的卷积计算和批量归一化计算；最后经过一个激活函数为S型函数的全连接层输出一个分数值；

第二人脸比对模型的计算过程为：首先计算两个人的人脸的高维特征之间的乘积、和值、绝对差值以及差值的平方并拼接成一个矩阵数据；然后进行一次激活函数为修正线性单元的卷积计算和批量归一化；接着进行注意机制的挤压和激发模块计算；之后进行一次激活函数为线性回归的卷积计算和批量归一化计算；最后经过一个激活函数为S型函数的全连接层输出一个分数值。

上述方案中，K的取值为4，L的取值为3。

作为改进，所述一种监控视频数据中使用的人脸识别分析方法还进一步包括如下步骤：

步骤8、每间隔1秒从步骤7所得到的可识别集合中取出之前连续m秒的所有记录，并按身份标签进行分类后，保存与每个身份标签的综合匹配分数值最高的该待识别人脸的高维特征，作为每一秒的初步筛选结果；

步骤9、分别计算步骤8所得的每一秒的初步筛选结果中所有该待识别人脸的高维特征两两之间的欧式距离：

如果该欧式距离小于等于设定的相似度阈值，则表明2个待识别人脸的高维特征为同一个人，此时仅保留综合匹配分数值相对较高的身份标签，作为待识别人脸的高维特征在每秒下的有效识别结果；

如果该欧式距离大于设定的相似度阈值，则表明2个待识别人脸的高维特征为不同的人，此时同时保留这2个身份标签，作为待识别人脸的高维特征在每秒下的有效识别结果；

步骤10、在尝试输出每个待识别人脸的高维特征的有效识别结果时，先遍历之前n秒的所有有效识别结果，并计算当前尝试输出的待识别人脸的高维特征与所有有效识别结果所对应的待识别人脸的高维特征之间的欧式距离：

如果所有欧式距离均小于等于设定的相似度阈值，则说明当前尝试输出的待识别人脸的高维特征的有效识别结果在之前已经输出，不需要再次输出；

否则，说明当前尝试输出的待识别人脸的高维特征的有效识别结果在之前未输出，则输出当前结果；

上述m和n均为设定的大于1的正整数。

上述方案中，m的取值为3，n的取值为5。

作为改进，所述一种监控视频数据中使用的人脸识别分析方法还进一步包括判断未识别集合中的识别结果是否输出的步骤：

步骤11、遍历l秒内所有尝试输出的待识别人脸的高维特征，并计算未识别集合中的待识别人脸的高维特征与尝试输出的待识别人脸的高维特征之间的欧式距离E4：

当未识别集合中存在欧式距离E4小于等于相似度阈值的待识别人脸的高维特征时，则说明该待识别人脸的高维特征的识别结果已经输出，将该待识别人脸的高维特征从未识别集合中删除；

否则，将该待识别人脸的高维特征继续保留在未识别集合中；

上述l为设定的大于1的正整数。

上述方案中，l的取值为5。

与现有技术相比，本发明利用2个神经网络对人脸高维人脸特征进行比对打分，融合K相邻算法以及欧式距离为阈值的筛选机制做到人脸比对识别，从而得到准确的人脸识别结果；此外，本发明还根据视频数据的时间和人脸的出现频次做进一步的筛选，最终得到识别结果，进而得到更为准确的人脸识别结果。本发明可以对实时或历史监控摄像头拍摄到的视频数据或图片数据进行比较准确的人脸识别。

附图说明

图1为一种监控视频数据中使用的人脸识别分析方法的流程图。

图2为第一人脸比对模型。

图3为第二人脸比对模型。

图4为基于欧式距离的Known结果筛选流程图。

图5为基于欧式距离的Unknown结果筛选流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实例，对本发明进一步详细说明。

一种监控视频数据中使用的人脸识别分析方法，如图1所示，其具备包括如下步骤：

（1）准备阶段：

步骤S1：数据集准备：

获得公开的CASIA-Webface人脸数据集、MS-Celeb-1M人脸数据集、VGGFace2人脸数据集，以及在广西大学内采集的学生和老师的人脸照片集。其中，CASIA-Webface人脸数据库包含10,575个人的494,414张人脸图片，平均每个人有46.8张训练数据；MS-Celeb-1M人脸数据库包含100,000个名人的大约100,000,000张不同的人脸图片，平均每个名人有100张训练数据；VGGFace2人脸数据集包含9131个人的3,310,000张图片，平均每个人有362.6张训练数据；广西大学内部采集人脸照片集包含15,000个人的150,000张图片，平均每个人有10张训练数据。

步骤S2：验证集制作：

利用广西大学内的监控摄像头采集的含有人脸的视频数据，利用DSFD（DualShotFaceDetector，双分支人脸检测器）人脸检测算法提取视频中的人脸图片，经过简单的人工筛选过滤掉完全看不清脸的图片，最后人工标记人脸图片的标签，做成验证数据集。测试数据集有100个人的3592张人脸图片，平均每人35.92张人脸图片。

步骤S3：特征提取器准备：

首先使用DSFD人脸检测算法提取图像中的人脸图片；接着基于损失函数（逻辑归一化指数交叉熵+中心损失）来对FaceNet（通用于人脸识别和聚类的嵌入方法）中的深度卷积神经网络InceptionResnetV1（网络结构）进行训练，并利用该训练好的深度卷积神经网络构成特征提取器；最后利用特征提取器从所提取出的人脸图片中进一步提取成512维的人脸高维人脸特征。

步骤S4：训练集准备：

将步骤S1中准备的数据集进行合并、筛选、翻转、变形、去噪和归一化等预处理操作，利用S3的特征提取器把预处理后的数据集提取成512维的人脸特征并保存为训练集。

步骤S5：K邻近算法编写：

K邻近算法是计算一个样本在特征空间中的K个最相邻样本中的大多数属于一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。这里使用欧式距离来计算特征空间是否相邻，欧式距离公式为：

这里的K值和d值的阈值根据步骤S2中的验证集的验证，得到：K = n = 4，d >0.895时效果最佳，n为人脸的标准照片数量。

步骤S6：人脸比对模型建立：

本发明发明两种基于卷积神经网络的度量学习算法模型进行人脸高维人脸特征对比，再融合步骤S5中的K邻近算法从而达到人脸识别的目的。基于卷积神经网络的度量学习算法模型如图2和图3所示。

模型详解：

图2所示的人脸比对模型拥有838个参数值，其计算过程：首先，计算两个人的人脸的高维度特征之间的乘积、和值、绝对差值以及差值的平方并拼接成形状为4×512×1矩阵数据；然后，进行一次卷积核为4×1的卷积计算得到形状为1×512×32的矩阵数据，进行一次批量归一化计算；之后，把矩阵数据变形为512×32×1并进行一次卷积核为1×32的卷积计算得到形状为512×1×1的矩阵数据，批量归一化计算后再把矩阵一维化并随即失活50%的隐藏神经元；最后，进行激活函数为“S型函数”的全连接计算得到一个分数值用以判断2个人的人脸的匹配度。

图3所示的人脸比对模型拥有1390个参数值，其计算过程：首先，计算两个人的人脸的高维度特征之间的乘积、和值、绝对差值以及差值的平方并拼接成形状为4×512×1矩阵数据；然后，进行一次卷积核为4×1的卷积计算得到形状为1×512×32的矩阵数据，进行一次批量归一化计算后得到矩阵r1；接着，进行“注意”机制的“挤压和激发”模块计算，该模块具体计算过程是把矩阵r1进行全局平均池化计算后，进行一次使用修正线性单元的全连接计算，接下来进行一次使用S型函数的全连接计算并将计算结果转换成形状为1×1×32的矩阵r2，把r1和r2相乘，得到一个形状为1×512×32的矩阵数据，到这里“挤压和激发”模块计算结束；之后，把“挤压和激发”模块计算得到的矩阵数据变形为512×32×1并进行一次卷积核为1×32的卷积计算得到形状为512×1×1的矩阵数据，把矩阵一维化并随即失活50%的隐藏神经元；最后，进行激活函数为“S型函数”的全连接计算得到一个分数值用以判断2个人的人脸的匹配度。

图2和图3模型结构相似，有一点不同，图3中的算法模型在第一个卷积计算后比图2中的算法模型多加入一个“注意”机制的“挤压和激发”模块。

步骤 S7：模型训练：

用步骤S4中制作的训练集和损失函数“二进制交叉熵”训练步骤S6中建立的2个算法模型，并使用步骤S2制作的验证集做算法的理性验证，保存最后的模型。

步骤S8：人脸矩阵建立：

人脸标准库为人脸识别过程的基础库，里面存放需要识别的人的标准、高清、多角度的人脸照片以及其对应的标签。人脸库要求至少存在1张人脸照片/人，最佳效果为4张/人（K=4），然后使用步骤S3中的特征提取器把人脸标准库里的图片提取成人脸高维人脸特征，联合人脸高维人脸特征对应的标签组成人脸矩阵并保存。

（2）人脸识别过程：

步骤S9：输入监控设备采集的视频数据，在视频流中逐帧获取每一帧的图片，使用步骤S3中的特征提取器提取每一帧图片中的人脸的高维人脸特征。

步骤S10：把步骤S9中获取的人脸高维人脸特征和步骤S8中得到的人脸矩阵输入到步骤S7中得到的训练好的2个人脸比对模型中，去计算每个待识别的当前帧人脸的高维特征与标准人脸的高维特征之间的匹配分数值（该匹配值分数为模型基于深度学习算法得到的一个0.0到1.0之间的一个32位浮点的小数，数值越大说明匹配度越高）。

步骤S11：把步骤S10中的结果，根据步骤S7中训练时2个人脸比对模型在验证集的准确率高低分别分配0.6和0.4的权重，并相加得到一个综合结果，选取综合结果分数最高的前3个识别目标标签，保存结果。

步骤S12：把步骤S9中获取的人脸高维人脸特征和步骤S8中得到的人脸矩阵输入到步骤S5中的K相邻算法中，在K相邻算法中，先计算得到该待识别人脸的高维特征与人脸标准库的各个标准人脸的高维特征之间的欧式距离；再选择欧式距离较小的K个标准人脸的高维特征所对应的身份标签；如果这K身份标签有K-1个身份标签相同时，则K相邻算法输出这一身份标签作为算法识别的初步目标标签，并计算这K-1个身份标签的欧式距离平均值；否则，该K相邻算法输出无解。

步骤S13：当步骤S12的结果和S11的结果有共存标签结果时，利用步骤S12中该标签结果的高维人脸特征的欧式距离平均值对比步骤S5中的阈值d，将识别结果分为Known和Unknown两大类（当大于阈值d时判别为Known，当小于阈值d时判别为Unknown）。

（3）人脸验证阶段：

步骤S14：识别结果接收：

按时间顺序记录步骤S13中的识别结果，识别结果分为Known和Unknown两大类分别存储，其中Known中包含被识别人的姓名、人脸以及人脸的匹配度等信息；Unknown中包含了人脸，但该人脸未匹配脸库中的任何一个人。保留当前时间前5s的所有数据，用于相互比对，筛除无效结果。

对于Known中的结果进行处理（参见图4）：

步骤S15：针对Known结果分组筛选：每间隔1s取出步骤S14中Known识别结果3s内的数据，并按姓名分类，取对应匹配度最高的人脸。依序往后推移，每秒可取得一组与姓名一一对应的匹配度最高的结果。

步骤S16：筛除无效结果：对步骤S15所得的一组数据，取其每一个识别结果两两互相比较，计算人脸高维度特征向量欧式距离E，取步骤S5中的人脸相似度阈值d，若E ≤ d，则认为这两条结果的图像是同一个人，但步骤S15得到的是一个姓名对应一个人脸的数据，此时两个不同姓名的结果对应的人脸却被判定为同一个人，即说明其中有一人的识别结果是无效的，此时取匹配度较高者作为有效结果，匹配度低者被筛除；若两两比较之后，相互之间没有E ≤ d的情况出现，则认为这一组数据中的每一个识别结果都是有效的。

步骤S17：判断步骤S16的筛选结果是否输出：经过步骤S15~S16的筛选，得到的每一组数据都是识别有效的数据，但由于取值方式是每隔1s取3s的识别结果，因此会造成重复取值，此时则要判断本组结果中的哪些数据已经输出过了，避免造成重复输出的情况。

具体实现方式是，在尝试输出本组的某个结果时，遍历5s内的Known输出记录，依次计算Known输出记录中的每张人脸与当前尝试输出的人脸间的特征向量的欧式距离E，如果Known输出记录中有E ≤ d的人脸存在，则说明当前结果已经输出，不需再次输出；若Known输出记录中没有E ≤ d的情况出现，则应输出当前结果，并将该结果存入Known输出记录中。

对于Unknown中的结果进行处理（参见图5）：

步骤S18：判断Unknown结果是否输出：依次取Unknown中的识别结果，遍历5s内的Unknown输出记录，依次计算Unknown输出记录中每张人脸与当前尝试输出的人脸间的特征向量的欧式距离E，如果Unknown输出记录中有E ≤ d的人脸存在，则说明当前结果已经输出，不需再次输出，并将该结果从Unknown中删除；若Unknown输出记录中没有E ≤ d的情况出现，则应输出此结果，并将该结果继续存入Unknown中。

需要说明的是，尽管以上本发明所述的实施例是说明性的，但这并非是对本发明的限制，因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下，凡是本领域技术人员在本发明的启示下获得的其它实施方式，均视为在本发明的保护之内。

Claims

1.一种监控视频数据中使用的人脸识别分析方法，其特征是，具体包括步骤如下：

第二人脸比对模型的计算过程为：首先计算两个人的人脸的高维特征之间的乘积、和值、绝对差值以及差值的平方并拼接成一个矩阵数据；然后进行一次激活函数为修正线性单元的卷积计算和批量归一化后得到矩阵r1；接着进行注意机制的挤压和激发模块计算，即把矩阵r1进行全局平均池化计算后，进行一次使用修正线性单元的全连接计算，接下来进行一次使用S型函数的全连接计算并将计算结果转换成矩阵r2，把矩阵r1和矩阵r2相乘，得到一个矩阵数据；之后把矩阵数据进行一次激活函数为线性回归的卷积计算和批量归一化计算；最后经过一个激活函数为S型函数的全连接层输出一个分数值；

步骤7.4、将待识别人脸的高维特征与步骤5所得到的人脸矩阵共同输入到K相邻算法中；在K相邻算法中，先计算得到该待识别人脸的高维特征与人脸标准库的各个标准人脸的高维特征之间的欧式距离E1；再选出欧式距离E1较小的K个标准人脸的高维特征所对应的身份标签；如果这K身份标签有K-1个身份标签相同时，则K相邻算法输出这一相同的身份标签作为算法识别的初步识别身份标签，并计算这K-1个身份标签的欧式距离平均值E；否则，该K相邻算法输出无解；

步骤7.5、当步骤7.4所得算法识别的初步识别身份标签存在于步骤7.3所得模型识别的初步识别身份标签时，则将该算法识别的初步识别身份标签所对应的欧式距离平均值E与设定的相似度阈值进行比较：

当欧式距离平均值E大于设定的相似度阈值时，则将该算法识别的初步识别身份标签作为该待识别人脸的高维特征的识别结果，并将待识别人脸的高维特征、综合匹配分数值、欧式距离平均值和身份标签形成一条记录，归入到可识别集合中；

上述K和L均为设定的大于1的正整数。

2.根据权利要求1所述的一种监控视频数据中使用的人脸识别分析方法，其特征是，K的取值为4，L的取值为3。

3.根据权利要求1所述的一种监控视频数据中使用的人脸识别分析方法，其特征是，还进一步包括判断可识别集合中的识别结果是否输出的步骤：

步骤9、分别计算步骤8所得的每一秒的初步筛选结果中所有该待识别人脸的高维特征两两之间的欧式距离E2：

如果该欧式距离E2小于等于设定的相似度阈值，则表明2个待识别人脸的高维特征为同一个人，此时仅保留综合匹配分数值相对较高的身份标签，作为待识别人脸的高维特征在每秒下的有效识别结果；

如果该欧式距离E2大于设定的相似度阈值，则表明2个待识别人脸的高维特征为不同的人，此时同时保留这2个身份标签，作为待识别人脸的高维特征在每秒下的有效识别结果；

步骤10、在尝试输出每个待识别人脸的高维特征的有效识别结果时，先遍历之前n秒的所有有效识别结果，并计算当前尝试输出的待识别人脸的高维特征与所有有效识别结果所对应的待识别人脸的高维特征之间的欧式距离E3：

如果所有欧式距离E3均小于等于设定的相似度阈值，则说明当前尝试输出的待识别人脸的高维特征的有效识别结果在之前已经输出，不需要再次输出；

上述m和n均为设定的大于1的正整数。

4.根据权利要求3所述的一种监控视频数据中使用的人脸识别分析方法，其特征是，m的取值为3，n的取值为5。

5.根据权利要求3所述的一种监控视频数据中使用的人脸识别分析方法，其特征是，还进一步包括判断未识别集合中的识别结果是否输出的步骤：

上述l为设定的大于1的正整数。

6.根据权利要求5所述的一种监控视频数据中使用的人脸识别分析方法，其特征是，l的取值为5。