CN110503000A

CN110503000A - 一种基于人脸识别技术的教学抬头率测量方法

Info

Publication number: CN110503000A
Application number: CN201910677848.0A
Authority: CN
Inventors: 姜周曙; 邓小海
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-07-25
Filing date: 2019-07-25
Publication date: 2019-11-26
Anticipated expiration: 2039-07-25
Also published as: CN110503000B

Abstract

本发明公开了一种基于人脸识别技术的教学抬头率测量方法，本发明由人脸采集、人脸检测、特征提取、特征匹配、人脸跟踪、视频组间的匹配以及抬头率的计算。利用教室摄像头所采集的视频流数据进行人脸识别分析，并根据教学过程中学生头部姿态变化判断抬头与否并生成相应的抬头率图表。使用人脸识别技术来测量教学抬头率本发明为教学评估中的抬头率这一指标提供一种客观评价手段；引入统计的思想计算教学抬头率，对检测到人脸进行身份验证进一步精确了教学抬头率的计算。师生可根据教学过程中抬头率变化调整相应的教学模式；为教学研究数据库的建立提供有效数据；能够在不干扰正常教学情况下获取教学抬头率得变化。

Description

一种基于人脸识别技术的教学抬头率测量方法

技术领域

本发明属于现代教育或教学评估领域，主要是一种基于人脸识别技术的教学抬头率测量方法。

背景技术

人脸识别是一种生物识别技术,描述了人脸的整体特征和轮廓,是一种通过模式识别来对人的身份进行识别的技术。然而对静态图像的人脸识别往往难以满足需求，因此研究重心慢慢转向视频这种动态图像的识别跟踪。

基于视频流人脸识别的流程主要分为分为4个步骤即人脸采集、人脸检测、特征提取以及人脸匹配。首先通过摄像源采集到视频流资源，在采集的过程中要确保采集到的视频资源像素要高这样才能更好的提高识别的精度。然后，将视频流资源分为帧图像并作为样本输入，通过对帧图像的轮廓进行特定算法从而判断有无人脸。最后，提取帧图像的人脸深层次特征并通过计算机代码表示出来，将提取出来的特征与数据库中的人脸进行比对来确定是否为同一人。

这种基于视频流的人脸识别方法易受图像清晰度、人脸转动以及背景等因素的影响，仅仅通过单一的特征提取网络难以保证识别的精度。采用本发明的人脸识别技术方案能够达到教学评估过程中所需要的识别精度，也为教学领域的教学评估提供了一种客观的评价手段。使得教学评估不在依赖人们的主观评价。

发明内容

本发明针对教学评估中的抬头率这一指标缺少客观评价手段以及现有技术的不足，给出了一种基于人脸识别技术的教学抬头率测量方法。

本发明包括如下步骤：首先将视频流帧序列划分为人脸识别帧与人脸跟踪帧，将最优样本数据划分为i组，每组N帧。分组后的视频帧包括第一帧的人脸识别帧以及2～N帧的人脸跟踪帧。人脸识别帧进行人脸的识别与匹配，然后人脸跟踪帧中对匹配成功的人脸进行跟踪。在整个跟踪过程中以在视频流数据中得到的准确头部姿态信息作为抬头依据。

具体需要执行以下步骤：

步骤A1、人脸采集：通过教师录播系统，利用教室前后安置的摄像头采集教学视频，并将采集到的视频资源作为样本输入。

步骤A2、人脸检测：通过人脸识别帧图像的处理从而输出人脸建议框。由于人脸检测易受图像清晰度、人脸转动的影响，为了提高人脸识别的精度，引入了双层网络级联的人脸检测算法。

步骤A3、特征提取：在步骤A2输出人脸建议框的基础上进行深层次处理。人脸的特性需要深层次的特征提取才能将其有效地区分出来。构造一个包含多个卷积层、采样层以及全连接层的模型，对每个网络层的输入、输出尺寸和滤波器的个数进行重新设计。

步骤A4、特征匹配：依据全连接层的输出的特征向量匹配。从用以匹配的人脸中分别提取128维特征向量，通过计算特征向量的余弦距离来判断是否为同一人脸。余弦距离所反映的是两人的相似程度，当余弦距离超过限定阈值就认为匹配成功。如果是一对多的匹配且有多数超过阈值，则取阈值最高即相识度最高的作为匹配结果。

步骤A5、人脸跟踪：人脸跟踪帧使用的是核相关滤波的高速跟踪方法。该方法把跟踪问题简化为个二分类问题，从而找到目标与背景的边界。人脸跟踪帧在第i帧中检测到人脸位置并记录其坐标M，将其作为正样本，在此标记样本附近采集负样本，训练一个目标采集器将图像样本输入获取响应值。接着在i+1帧中的坐标M处采集样本，将样本输入目标检测模型取得响应值，响应值最大的地方即i+1帧中目标人脸所在的位置。

步骤A6、视频组间的匹配：相邻的视频组间使用双重匹配。取出两组中前一组的最后一帧与后一组的第一帧进行匹对，过程中保存图像中所有人脸框的位置，计算两帧中每个人脸间的欧式距离，根据距离与阈值的大小判定是否为同一人脸。在完成人脸识别后比较两帧中相对应的人脸身份信息，取相识度大的为最终结果。双重匹配机制不仅连接了相邻的视频组序列，也了识别的精度。

步骤A7：抬头率的计算：通过步骤A1～A6实时得到人脸信息，准确识别并匹配到人脸信息作为抬头的依据并且以时间段为节点判断该时间段内是否抬头。以5分钟为一时间节点，该时间段内学生抬头的时间大于4分钟则认为该学生在此时间段内抬头。

进一步的，步骤A2所述的双层联级网络呈现出金字塔结构，金字塔结构的第一级网络结合anchor机制实现了对视频帧图像进行不同尺度的采样。卷积分解策略和网络加速方法的使用能够增强网络的特征提取。卷积层的使用加快了对局部区域的特征提取，但是对于全局特征并不敏感。因此，第一级网络的输出中仍然存在一部分的非人脸建议框。二级深层次网络进一步提炼人脸建议框，减少网络中输出的非人脸建议框数量，降低了第一级网络输出建议框中的困难样本数，提高了识别精度。二级深层次网络的使用降低了第一级网络输出建议框中的困难样本数，也进一步提炼了人脸建议框，提高了识别精度。

精度的提升是以训练花费时间为代价，前向传播中全连接层的参数太多导致卷积层的计算时间增加。在双层级联网络中都引入BN层，能够加快网络训练速度同时降低权重初始化的成本。训练时，固定BN层的权重训练整个网络，训练结束后将BN层权重与它相邻的卷积层权重合并。

卷积层和BN层的表达式见式(1)和(2)：

y1＝ωx+b (1)；

其中：ω和b是卷积层的权重和偏置值，μ、σ、α和β分别代表BN层的均值、方差、刻度以及滑动系数。

BN层本质上是对卷积层的结果进行二次处理，使得两层合并后模型中的权重和偏执值优化为ω'和b'，也进一步降低了训练所花费的事件。

进一步的，步骤A3所述的全连接层的模型所采用的是MFM激活函数。通过比较两个特征图各位置的大小，取相应位置的最大值输出。假设有输入卷积层C∈R^h×ω×2n,MFM激活函数的数学表达式为式(3)：

其中，输入卷积层的通道数为2n，h×ω表示卷积核的大小，1≤i≤h,1≤j≤ω,l∈R^h×ω×n，由(3)式可得，激活函数的梯度表示为式(4)：

其中,k'为常数,1≤k'≤2n,并且有式(5)：

分析(4)式可知，激活层的梯度有1/2为0，因此MFM就能通过聚合策略得到最紧凑的特征表示。相较于Rule激活函数的高维稀疏梯度，MFM能够得到更加紧凑的特征表示，并且还能实现特征的选取，达到降维的效果。此模型的使用在不失精度的情况下加快了识别的速度，进一步释放了空间存储压力，对于在视频流中进行人脸识别有较好的优化效果。

由于人脸的极为复杂的特性，仅使用Softmax Loss函数作为特征提取网络的损失函数只能增大不同类人脸间的距离,而无法减少同一类人脸间的距离，这将使人脸识别的精度无法得到保证。考虑到Softmax Loss函数的特性，将其与Center Loss函数联合使用，这样就能在增大类间距离的同时减小类内距离。将两损失函数进行加权处理，得到最终的联合损失函数如式(6)：

式(6)中：M为训练数据类别总数；θ为最后一个全连接层的权重集合；为对应的偏置值；λ为Center Loss的权重值，用来平衡这两个损失；M为训练类别总数；N为训练批次大小；x_i是批次中第i的样本的特征向量，属于k类；c_k是k类的中心特征向量。

本发明考虑到教学评估中抬头率这一指标缺乏客观的评价手段，拥有较高的精度，能够通过对视频图像的分析得到课堂教学过程中学生的抬头率。该方法能够通过人脸识别技术判断在教学过程中学生的抬头率变化并生成相应的图表，此外该方法还能有效的分析智慧学习环境下师生的教学特征，为教学研究数据库的建立以及教学质量的评估提供了一种客观的评价手段。此方法的运用解决了教学评估中的抬头率缺乏客观评价标准这一难题，同时能够有效地分析智慧学习环境下师生的教学特征，为教学研究数据库的建立提供了技术支持。

附图说明

图1为本发明的方法框架图；

图2为人脸特征提取模型示意图；

图3为联合损失函数具体应用图；

图4为人脸跟踪流程图；

图5为抬头率分析图。

具体实施方式

下面结合具体实例说明本发明的具体实施方式。

如图1所示，一种基于人脸识别技术的教学抬头率测量方法，首先将视频流帧序列划分为人脸识别帧与人脸跟踪帧，将测试的最优结果样本数据划分为i组(每组N帧)。分组后的视频帧包括第一帧(R)的人脸识别帧以及2～N帧(T)人脸跟踪帧。人脸识别帧进行人脸的识别与匹配，然后人脸跟踪帧中对匹配成功的人脸进行跟踪。在整个跟踪过程中以在视频流数据中得到的准确头部姿态信息作为抬头依据。

具体需要执行以下步骤：

步骤A2、人脸检测：通过人脸识别帧图像的处理从而输出人脸建议框。由于人脸检测易受图像清晰度、人脸转动等因素的影响，为了提高人脸识别的精度，引入了双层网络级联的人脸检测算法。双层联级网络呈现出金字塔结构，金字塔结构的第一级网络结合anchor机制实现了对视频帧图像进行不同尺度的采样。卷积分解策略和网络加速方法的使用能够增强网络的特征提取。卷积层的使用加快了对局部区域的特征提取，但是对于全局特征并不敏感。因此，第一级网络的输出中仍然存在一部分的非人脸建议框。二级深层次网络进一步提炼人脸建议框，减少网络中输出的非人脸建议框数量，降低了第一级网络输出建议框中的困难样本数，提高了识别精度。

卷积层和BN层的表达式见式(1)和(2)：

y1＝ωx+b (1)；

步骤A3、特征提取：在输出人脸建议框的基础上进行深层次处理。人脸的特性需要深层次的特征提取才能将其有效地区分出来。构造一个包含多个卷积层、采样层以及全连接层的模型，对每个网络层的输入、输出尺寸和滤波器的个数进行重新设计。全连接层的输出的特征向量是我们匹配的依据。

为了得到更加紧实的特征，模型所采用的是MFM激活函数。它通过比较两个特征图各位置的大小，取相应位置的最大值输出。

假设有输入卷积层C∈R^h×ω×2n,MFM激活函数的数学表达式为式(3)：

其中，输入卷积层的通道数为2n，h×ω表示卷积核的大小，1≤i≤h,1≤j≤ω,l∈R^h×ω×n。由(3)式可得，激活函数的梯度表示为式(4)：

其中,k'为常数,1≤k'≤2n,并且有式(5)：

损失函数在网络中的具体使用如图3所示。由于人脸的极为复杂的特性，仅使用Softmax Loss函数作为特征提取网络的损失函数只能增大不同类人脸间的距离,而无法减少同一类人脸间的距离，这将使人脸识别的精度无法得到保证。考虑到Softmax Loss函数的特性，将其与Center Loss函数联合使用，这样就能在增大类间距离的同时减小类内距离。将两损失函数进行加权处理，得到最终的联合损失函数如式(6)：

步骤A4、特征匹配：从用以匹配的人脸中分别提取128维特征向量，通过计算特征向量的余弦距离来判断是否为同一人脸。余弦距离所反映的是两人的相似程度，当余弦距离超过一个限定阈值就认为匹配成功。如果是一对多的匹配且有多数超过阈值，则取阈值最高即相识度最高的作为匹配结果。

步骤A5、人脸跟踪：如图4所示，人脸跟踪帧使用的是核相关滤波的高速跟踪方法(KCF)。该方法把跟踪问题简化为个二分类问题，从而找到目标与背景的边界。人脸跟踪帧在第i帧中检测到人脸位置并记录其坐标(M)，将其作为正样本，在此标记样本附近采集负样本，训练一个目标采集器将图像样本输入获取响应值。接着在i+1帧中的坐标M处采集样本，将样本输入目标检测模型取得响应值，响应值最大的地方即i+1帧中目标人脸所在的位置。

KCF算法利用循环偏移快速制造大量的分类器训练样本，这样训练出来的目标检测器将具有更好的性能。KCF使用脊回归算法对目标检测器进行训练，算法利用循环矩阵的特性把复杂问题的求解变换到了傅里叶域,避免了矩阵求逆，从而极大地降低了计算难度。如果在保证准确度的情况下使用方向梯度直方图(HOG)特征来跟踪，将获得更快的跟踪速度。

步骤A6、视频组间的匹配：相邻的视频组间使用双重匹配。取出两组中前一组的最后一帧与后一组的第一帧进行匹对，算法过程中保存图像中所有人脸框的位置，计算两帧中每个人脸间的欧式距离，根据距离与阈值的大小判定是否为同一人脸。在完成人脸识别后比较两帧中相对应的人脸身份信息，取相识度大的为最终结果。双重匹配机制不仅连接了相邻的视频组序列，也了识别的精度。

步骤A7、抬头率的计算：抬头率是教学质量评价的重要指标。首先通过摄像机获取视频源数据，通过双层网络检测人脸并构造一个包含多个卷积层、采样层以及全连接层的特征提取模型，该模型全连接层输出的特征向量是我们匹配的依据。匹配完成之后就需要使用核相关滤波的高速跟踪方法(KCF)以及使用双重匹配进行视频组间的匹配，这样就能实时获取人脸信息。通过以上步骤就能实时得到人脸信息，我们以能准确识别到人脸并且该人脸与数据库中的人脸身份信息匹配成功作为抬头的依据，并且考虑到学生上课做笔记等情况并非处于抬头状态以时间段为统计节点判断该时间段内是否抬头。时间段内抬头率的统计方法：以5分钟为一时间节点，该时间段内学生抬头的时间大于4分钟则认为该学生在此时间段内抬头。

在YTF发布的基准测试方法下模拟人脸识别实验结果如表1所示。从YTF下载的500个视频对随机分为10组，每组正负样本对各25个，测试在每组包含6帧的样本平均相识度和处理速度。

表1

如图5所示，在教学评估中所采用的是小班级的教室视频，该视频时长45分钟包含老师1人，学生20人。抬头率很大程度上反映了学生们对这门课的喜爱程度，也是教学质量体现的重要指标。此项评估过程中以能准确得到头部姿态信息，既能输出人脸识别框图作为抬头的依据。抬头率分析图如图5所示，该图以5分钟的平均抬头率为一节点，该时间段内学生抬头的时间大于4分钟则认为该学生在此时间段内抬头。

以上内容是结合具体的实例给出的实施方式对本发明的进一步说明，不能认定本发明的具体实施只限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离发明构思的前提下还可以做出一定程度的简单推演或者替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于人脸识别技术的教学抬头率测量方法，其特征在于：包括如下步骤：首先将视频流帧序列划分为人脸识别帧与人脸跟踪帧，将最优样本数据划分为i组，每组N帧；分组后的视频帧包括第一帧的人脸识别帧以及2～N帧的人脸跟踪帧；人脸识别帧进行人脸的识别与匹配，然后人脸跟踪帧中对匹配成功的人脸进行跟踪；在整个跟踪过程中以在视频流数据中得到的人脸信息与数据库中的人脸身份信息验证成功作为抬头的依据，并且引入统计的思想，以时间为节点计算抬头率；

具体需要执行以下步骤：

步骤A1、人脸采集：通过教师录播系统，利用教室前后安置的摄像头采集教学视频，并将采集到的视频资源作为样本输入；

步骤A2、人脸检测：通过人脸识别帧图像的处理从而输出人脸建议框；由于人脸检测易受图像清晰度、人脸转动的影响，为了提高人脸识别的精度，引入了双层网络级联的人脸检测算法；

步骤A3、特征提取：在步骤A2输出人脸建议框的基础上进行深层次处理；人脸的特性需要深层次的特征提取才能将其有效地区分出来；构造一个包含多个卷积层、采样层以及全连接层的模型，对每个网络层的输入、输出尺寸和滤波器的个数进行重新设计；

步骤A4、特征匹配：依据全连接层的输出的特征向量匹配；从用以匹配的人脸中分别提取128维特征向量，通过计算特征向量的余弦距离来判断是否为同一人脸；余弦距离所反映的是两人的相似程度，当余弦距离超过限定阈值就认为匹配成功；如果是一对多的匹配且有多数超过阈值，则取阈值最高即相识度最高的作为匹配结果；

步骤A5、人脸跟踪：人脸跟踪帧使用的是核相关滤波的高速跟踪方法；该方法把跟踪问题简化为个二分类问题，从而找到目标与背景的边界；人脸跟踪帧在第i帧中检测到人脸位置并记录其坐标M，将其作为正样本，在此标记样本附近采集负样本，训练一个目标采集器将图像样本输入获取响应值；接着在i+1帧中的坐标M处采集样本，将样本输入目标检测模型取得响应值，响应值最大的地方即i+1帧中目标人脸所在的位置；

步骤A6、视频组间的匹配：相邻的视频组间使用双重匹配；取出两组中前一组的最后一帧与后一组的第一帧进行匹对，过程中保存图像中所有人脸框的位置，计算两帧中每个人脸间的欧式距离，根据距离与阈值的大小判定是否为同一人脸；在完成人脸识别后比较两帧中相对应的人脸身份信息，取相识度大的为最终结果；双重匹配机制不仅连接了相邻的视频组序列，也了识别的精度；

步骤A7、抬头率的计算：通过步骤A1～A6实时得到人脸信息，并且该人脸与数据库中的人脸身份信息匹配成功作为抬头的依据，并且考虑到学生上课做笔记等情况并非处于抬头状态以时间段为统计节点判断该时间段内是否抬头。时间段内抬头率的统计方法：以5分钟为一时间节点，该时间段内学生抬头的时间大于4分钟则认为该学生在此时间段内抬头。

2.如权利要求1所述的一种基于人脸识别技术的教学抬头率测量方法，其特征在于：步骤A2所述的双层联级网络呈现出金字塔结构，金字塔结构的第一级网络结合anchor机制实现了对视频帧图像进行不同尺度的采样；卷积分解策略和网络加速方法的使用能够增强网络的特征提取；卷积层的使用加快了对局部区域的特征提取，但是对于全局特征并不敏感；因此，第一级网络的输出中仍然存在一部分的非人脸建议框；二级深层次网络进一步提炼人脸建议框，减少网络中输出的非人脸建议框数量，降低了第一级网络输出建议框中的困难样本数，提高了识别精度；

精度的提升是以训练花费时间为代价，前向传播中全连接层的参数太多导致卷积层的计算时间增加；在双层级联网络中都引入BN层，能够加快网络训练速度同时降低权重初始化的成本；训练时，固定BN层的权重训练整个网络，训练结束后将BN层权重与它相邻的卷积层权重合并；

卷积层和BN层的表达式见式(1)和(2)：

y1＝ωx+b (1)；

其中：ω和b是卷积层的权重和偏置值，μ、σ、α和β分别代表BN层的均值、方差、刻度以及滑动系数；

3.如权利要求1所述的一种基于人脸识别技术的教学抬头率测量方法，其特征在于：步骤A3所述的全连接层的模型所采用的是MFM激活函数；通过比较两个特征图各位置的大小，取相应位置的最大值输出；

其中，输入卷积层的通道数为2n，h×ω表示卷积核的大小，1≤i≤h,1≤j≤ω,l∈R^h ^×ω×n，由(3)式可得，激活函数的梯度表示为式(4)：

其中,k'为常数,1≤k'≤2n,并且有式(5)：

分析(4)式可知，激活层的梯度有1/2为0，因此MFM就能通过聚合策略得到最紧凑的特征表示；相较于Rule激活函数的高维稀疏梯度，MFM能够得到更加紧凑的特征表示，并且还能实现特征的选取，达到降维的效果；此模型的使用在不失精度的情况下加快了识别的速度，进一步释放了空间存储压力，对于在视频流中进行人脸识别有较好的优化效果；

由于人脸的极为复杂的特性，仅使用Softmax Loss函数作为特征提取网络的损失函数只能增大不同类人脸间的距离,而无法减少同一类人脸间的距离，这将使人脸识别的精度无法得到保证；考虑到Softmax Loss函数的特性，将其与Center Loss函数联合使用，这样就能在增大类间距离的同时减小类内距离；将两损失函数进行加权处理，得到最终的联合损失函数如式(6)：