CN110889672B

CN110889672B - 一种基于深度学习的学生打卡及上课状态的检测系统

Info

Publication number: CN110889672B
Application number: CN201911138397.XA
Authority: CN
Inventors: 陈波; 田晓华; 王建民
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2019-11-19
Filing date: 2019-11-19
Publication date: 2022-04-12
Anticipated expiration: 2039-11-19
Also published as: CN110889672A

Abstract

一种基于深度学习的学生打卡及上课状态的检测系统，涉及深度学习技术应用领域。本发明为了实时准确地检测学生的打卡情况及上课状态，进而提供了一种基于深度学习的学生打卡及上课状态的检测系统。本发明所述检测系统包括数据采集子系统、检测子系统和存储及可视化子系统，首先利用人脸检测网络在图片或视频中找到人脸的位置，再分别进行人脸识别、疲劳检测和表情识别，确定学生身份和上课状态。最后还将数据进行输出，方便老师、家长实时掌握学生的情况并给予相应的指导，提高教学质量。本发明能实时地、同时地检测学生的身份、表情以判断其上课状态，具有网络结构精简、计算量低、检测系统的准确性较高的优点。

Description

一种基于深度学习的学生打卡及上课状态的检测系统

技术领域

本发明涉及一种学生打卡及上课状态的检测系统，涉及深度学习技术应用领域。

背景技术

近年来，针对初高中甚至大学课堂教学质量问题，国内外专家提出了很多监测、评估学生上课状态、学习质量的方式、性能指标等[1-2]，但这些方法，太多的依赖了人工检测的手段，而且不能做到实时检测、实时反馈，无法对学生的行为及时纠正。随着计算机技术的高速发展，特别是图像识别、计算机视觉等领域的进步，基于图像的人脸识别技术已经成为深度学习领域的热点课题。近年来，为了高速、准确地识别人脸和表情，国内外学者对此进行了大量的研究，并取得了丰硕的成果。比较早期的人脸识别大多是通过人脸结构分布的特征来得到较低维度的表征，A.Pentland等人的文章中提出了模块化本征脸方法[3]，B.Takacs等人提出了双边特征方法[4]等，然而这些理论、方法都无法处理因为环境、年龄甚至是特定表情状态下的人脸变化。21世纪以来，人脸识别方法开始使用局部特征，C.Liu等人提出了Gabor特征[5]，T.Ahonen等人提出了LBP特征[6]，这些局部特征过滤的方式，在一些不变性要求上获得了更好的鲁棒性，但是，人工选取的特征缺少特异性和紧凑性。这些比较早期的机器学习算法很难满足日益提高的人脸识别精度要求。2014年，DeepFace[7]和DeepID[8]凭借它们在LFW[9]数据集上的良好表现，首次在无场景约束的情况下超越了人类，让深度学习人脸识别进入了研究者的视野。但是这些算法的复杂度都非常高，导致其计算速度都比较慢。为了达到实时地人脸识别，必须要降低网络的复杂度。

表情识别是建立在人脸识别的基础上的一个研究方向，所以无论是它的发展速度还是网络的识别效果都略逊于人脸识别技术。Lin等人基于CSO鸡群算法和SVM分类进行表情识别[10]，在实际检测过程中，对实际表情的识别度并不高。Jeon等人用HOG特征进行人脸检测，用卷积神经网络进行特征提取，用SVM进行分类的方法[11]取得了一定的成效。但是这些方法在人脸检测的成功率和表情识别准确率方面都比较低。

因此，为了能实时地、同时地检测学生的身份、表情以判断其上课状态，既要保证网络结构精简以降低计算量，又要保证检测系统的准确性。现有技术没有人提出利用深度学习的对学生打卡及上课状态进行监测。

发明内容

本发明为了实时准确地检测学生的打卡情况及上课状态，进而提供了一种基于深度学习的学生打卡及上课状态的检测系统。

本发明解决上述技术问题采用的技术方案为：

一种基于深度学习的学生打卡及上课状态的检测系统，所述检测系统包括数据采集子系统、检测子系统和存储及可视化子系统，

数据采集子系统由定时相机、网络摄像头和本地摄像头中一种或二种以上组合而成，数据采集子系统用于采集学生上课时的照片或视频，并将照片或视频处理后传输给检测子系统；

检测子系统包括服务器或嵌入式设备，以及布署在服务器端或布署在嵌入式设备上检测识别模块，所述检测识别模块包括人脸检测子模块、人脸区域截取子模块、表情识别子模块、人脸识别子模块和疲劳检测子模块；人脸检测子模块、表情识别子模块以及人脸识别子模块均采用训练后的神经网络实现；疲劳检测子模块基于传统机器学习方法来实现；当检测识别模块布署在嵌入式设备上时，人脸检测子模块、人脸区域截取子模块、人脸识别子模块和疲劳检测子模块布署在一台嵌入式设备上，而表情识别子模块需要接收人脸检测子模块的输出并布署在另一台嵌入式设备上(这样设计，是考虑嵌入式设备的计算能力有限，无法同进运行上述四个子模块)；将处理后的每一帧图片传输给人脸检测子模块进行人脸检测，输出该帧图片上每张人脸检测向量组成的矩阵(图片上有N个人，该矩阵就有N行，推理过程的检测中不含人脸的选框会被踢除)，并将其传给人脸区域截取子模块。

人脸区域截取子模块的输入是原图片矩阵和人脸检测子模块输出的矩阵，这个模块的输出是按照人脸检测子模块输出的矩阵在原图片矩阵截取出来的一系列图片矩阵组成的新矩阵，这个新矩阵中的每个图片矩阵都包含一张人脸，并会被输出给表情识别子模块、人脸识别子模块和疲劳检测子模块。

表情识别子模块针对每个人脸输出一个行向量，人脸识别子模块针对每个人脸输出一个行向量，疲劳检测子模块针对每个人脸输出一个布尔值，所述两个行向量与对应的布尔值构成用于表征一个人脸的表情识别、人脸识别和疲劳检测结果的新行向量；

经过检测识别模块后每一帧图片输出由不同人脸产生的上述新行向量组成的、行数等于该帧图片中人脸数的矩阵；

存储及可视化子系统包括存储模块和上位机可视化模块；存储模块用于将检测子系统输出的每帧图片中人脸数的矩阵进行存储，上位机可视化模块对检测子系统输出的每帧图片中人脸数的矩阵进行处理后，为每个学生进行打卡，并输出每个学生的上课状态。

过一步地，所述人脸检测子模块基于MTCNN人脸检测网实现，MTCNN人脸检测网具体为：MTCNN使用金字塔式图片尺寸重整，最小人脸大小设置为20，单位为像素；

本发明对尺寸重整的指标进行了调整，发现对于教室内学生人脸检测，最小人脸大小设置为20(单位为像素)较为合适，在这一过程中需要在程序中添加一个新的比例系数，并对图片最小尺寸过滤程序进行修改。金字塔式图片尺寸重整会把原图片矩阵输出成多种尺寸的图片矩阵，并先传给区域选取网络。

区域选取网络仅由卷积神经网络构成，有4个卷积阶段，这样的优点在于不需要对输入图像的尺寸进行限制，适合生成目标检测框的任务。该网络结构的输出有1*1*2的人脸检测结果，反映了检测框中是否有人脸；还有1*1*4的人脸定位信息，准确指示出图中的人脸在什么位置；还有1*1*10的人脸标志特征指示，反映了包括眼睛、嘴角和鼻子等在内的很多脸部特征，但是这个输出只在训练时启用，在进行推理时不输出这个1*1*10的矩阵。

区域选取网络的输出会和金字塔式图片尺寸重整的输出一起被传输给精炼网络，精炼网络是一种传统的卷积神经网络，它的输出是一个有16个元素的向量，每个元素的意义和区域选取网络相似，在推理过程中，表征面部特征的10个元素也不会被输出。

最后精炼网络输出会和金字塔式图片尺寸重整的输出一起呗传输给输出网络，输出网络的结构和输出与精炼网络类似，不再赘述。

区域选取网络会粗略检测图片，并选取所有可能是人脸的区域，消除掉重叠比较大的几个区域后，作为输出；精炼网络会对这些输出进行筛选，并输出被认为是人脸的候选框；最后，输出网络会对这些区域在进行一次更精细尺度(即图片输入分辨率更高的)筛选，在输出人脸候选框的同时，可以输出人脸的特征点。

进一步地，所述人脸区域截取子模块的实现具体为：按照人脸检测子模块输出的矩阵在原图片矩阵截取出来的一系列图片矩阵组成的新矩阵，该新矩阵中的每个图片矩阵都包含一张人脸。

这样做的目的是为了防止在之后的每个子模块中都需要对完整的图片矩阵进行加载重复本模块的操作。这不仅会浪费时间，还会占用一定的存储空间，是应该避免的。

进一步地，所述人脸识别子模块采用人脸识别网络FaceNet进行分类器重训练来实现，具体为：输入的图片矩阵会通过GoogLeNet进行特征提取，之后进行归一化，并采用损失函数对比确认相似度，在这一过程中，除了需要验证的图片矩阵的损失函数是实时计算的，所有对比用的参照图片的损失函数都是提前计算好的，那么训练分类器的过程就是将学生的多角度图片调整成160*160像素尺寸的矩阵提前输入网络进行计算，得到所述损失函数，用于后续对比。

FaceNet虽然是卷积神经网络，但结构中有全连接层，所以它对输入的限制非常严格。因此对于人脸检测子模块的输出，需要进行图片矩阵尺寸调整，将每一个图片矩阵都调整为160*160输入FaceNet。

进一步地，所述表情识别子模块是基于简化的Xception网络结构进行修改得到的，具体为：该网络使用人脸区域截取子模块的输出作为输入。

由于简化的Xception网络结构本身是全卷积神经网络，与前面介绍的区域选取网络类似，所以不对输入图片的尺寸有要求。该网络结构要先进行两次卷积和归一化，之后输出会分别输出到一个深度可分离卷积层中，它由一个基础结构循环四次得到。最后会在经过一个卷积层后输出。

进一步地，所述疲劳检测子模块中的传统机器学习方法，具体为：使用HOG特征提取得到特征图，使用dlib库将每只眼睛的左眼角p₁进行标记，之后按照顺时针分别标记上眼眶两点p₂和p₃、右眼角p₄、下眼眶p₅和p₆，应用公式

当结果小于等于0.25时，证明人眼处于闭合状态，就会发布告警信息，输出对应布尔值。

进一步地，数据采集子系统采用了多种输入方式；软件方面，用于网络视频流传输的RTSP协议和HTTP协议，可将视频传回本地，传回的视频和本地图片、视频一样可以直接调用numpy和cv2读取，生成矩阵输入检测子系统，硬件方面，支持多种硬件设备，包括可以悬挂于教室内的安防用网络摄像头(建议使用RTSP协议)，可以通过支持架假设在教桌上的安装有安卓系统的手机(使用HTTP协议)。最高支持1080P(1920*1080像素)高清图片和视频的实时分析。

进一步地，存储及可视化子系统接收检测子系统发送的输出矩阵，存储及可视化子系统支持云端存储和本地存储，将监测结果存储后可以进行回放和大数据分析，为教师和家长提供更加准确、长期的分析；存储及可视化子系统还可通过上位机软件，进行实时播放分析和历史播放分析，软件上可以直观地查看视频中所有的学生身份、疲劳状况、表情和综合上课状态分析结果，其中使用的判定规则为：如学生处于疲劳状态，即闭眼长达10秒，则直接判定为疲劳；如果学生不在疲劳状态，则判断其表情是否处于普通(normal)状态，如果长时间(15秒)不处于普通状态则判定为异常状态；如果在一段视频中学生出现在视频上，则完成签到，在此视频期间，如果学生无法被检测的时间，连续超过一分钟，则被判定为异常状态。

本发明具有以下有益技术效果：

针对老师很难监控所有学生的上课情况和听课状态而导致教学质量不高的问题，本发明提出了一套基于神经网络的对学生进行面部识别和上课状态实时分析的系统。首先利用人脸检测网络在图片或视频中找到人脸的位置，再分别进行人脸识别、疲劳检测和表情识别，确定学生身份和上课状态。最后还将数据进行输出，方便老师、家长实时掌握学生的情况并给予相应的指导，提高教学质量。本发明能实时地、同时地检测学生的身份、表情以判断其上课状态，具有网络结构精简、计算量低、检测系统的准确性较高的优点。

附图说明

图1为传统卷积神经网络的AlexNet原理示意图，图2为本发明所述系统的整体结构框图，图3位优化后的人脸检测网络MTCNN，图4为人脸识别网络FaceNet结构框图，图5为简化的Xception结构框图，图6为由检测子系统传给存储和可视化子系统的输出(检测子系统的输出)；

图7本发明为获取图像范围适中且能捕获清晰的人脸的照片和视频截图，图中，(a)中显示视频完成了对两位同学的人脸进行识别并且将他们的眼睛轮廓进行了标注，在此期间，已经完成了对他们眼睛纵横比的计算并保存，(b)中当右边的同学长时间闭眼后，系统识别到该学生眼睛纵横比长时间、大幅度小于初始采集到的值时，判定该同学处于疲劳状态，在左上角进行了警告；

图8给出了该学生的微笑状态和正常自然状态的截图，图中，(a)为该学生的微笑状态，(b)为该学生的正常自然状态；

图9给出了两个可视化结果界面截图，(a)表示可视化程序的人脸识别和疲劳检测模块，图中左边显示了由检测系统传入的人脸识别和疲劳检测视频，右边是系统结果输出；(b)表示可视化程序的表情检测模块，图中左边显示了由检测系统传入的表情检测视频，右边是系统结果输出。

具体实施方式

结合附图1至9，对本发明的实现进行如下详尽阐述：

本发明中的RTSP协议

RTSP协议全程实时流传输协议，它是一种基于文本的多媒体播放控制协议。RTSP以客户端方式工作，可以对流媒体进行播放、调节时间轴、暂停等操作。

RTSP是一种应用层协议，它拥有可以进行拓展的框架，这让传输的视频可以进行点播，它可以控制具有实时特性的数据传输，但是本身并不能传输流媒体数据，而是需要下层传输协议(如RTP/RTCP)提供的服务完成流媒体数据的传输。RTSP只是定义了具体的控制信息、操作方法、状态码，以及描述了和RTP之间的交互操作。在实际应用中，要播放RTSP协议传输的流媒体文件，只需要知道媒体源的URL即可。

本发明中提及的卷积神经网络

卷积神经网络是深度学习处理图片、视频的常用方法，它能够使用一个卷积核作为滑动窗口，在图片上滑动，进行卷积，并在经过多次卷积、池化操作后，经过一次全连接层，给出各种预测的可能性，像比较传统的AlexNet如图1所示。

但是相比于机器学习的方法，虽然卷积神经网络拥有较高的准确度，但是它的速度很慢，很难达到对流媒体文件进行实时的检测分析。R.Girshick、J.Donahue等人提出的Faster R-CNN中给出了加速方式，现对原始图片进行卷积特征提取，在特征图上通过RPN确定候选区域，再确定目标的中心，再对候选区域的物体进行分类和bounding box回归。用这种方法可以有效地提高神经网络的速度，使神经网络给出的预测可以接近实时的速度。

对本发明所述基于深度学习的学生打卡及上课状态的检测系统结构的介绍：

本发明提出了一个基于深度学习的学生打卡及上课状态检测的系统，该系统的整体结构如图2所示，本系统会将定时相机、网络摄像头、本机摄像头等设备采集的图片和视频上传到本地服务器进行备份，同时服务器会把这些图片、视频输入到监测系统中，该系统由多个神经网络及机器学习模型组成。首先，进入系统的图片和视频会通过MTCNN网络进行人脸检测，检测结果会将其中所有的人脸进行标记，然后，对网络中的人脸部分进行截取后分别输入到FaceNet进行人脸识别和表情识别系统进行表情检测，最后，FaceNet的输出还会被发送到疲劳检测系统通过眼部变化进行疲劳检测。三个系统的输出数据都会被保存到本地服务器上，并通过自制软件整理后进行可视化。

(1)数据库配置由于人脸识别、表情识别只需要对人脸部及其表情进行分析。因此对于数据集，需要先将图片中的脸部提取出来，本发明使用的是OpenCV中detectMultiScale进行提取，它可以检测图片中所有的人脸，并将人脸的坐标、大小用向量的形式保存下来。人脸识别中需要肤色等颜色信息，所以需要保留RGB三个颜色通道，但是在表情识别的过程中，只需要对人脸面部的形态特征进行分析，因此可以将彩色图片转为灰度图片，以减少表情识别网络的运算量，提高速度。

在CNN的训练过程中，如果训练数据总数过少，就很容易引起过拟合现象而导致在训练集上效果很好，而在验证集上效果非常差，但是一般搜集数据的手段扩大训练集难度非常大，本发明采用keras内置的ImageDataGenerator函数，通过使图像小角度(10°以内随机)旋转，水平、上下方向上小范围(0.1倍原图像尺寸)随机平移，长或宽方向上小范围(0.1倍原图像尺寸)随机放缩，随即对图像进行水平翻转，来增加训练集的样本量。

(2)人脸识别系统

2015年Florian Schroff等人提出了一种新的人脸识别方法——FaceNet。本发明使用了这套系统。相较于其他人脸识别算法，该方法在损失函数计算上使用了TripletLoss方法，并且在特征维度的选择上，通过大量的对比实验，验证了并非特征维度越大，识别率越高，这可以通过特征的稀疏性对识别率的影响来解释。关于TripletLoss方法，它是通过神经网络提取出来的特征，计算欧氏距离，通过使类内最大距离小于类间最小距离来对训练结果进行约束，其优化函数为

同时TripletLoss还保证类内间距尽可能小，类间间距尽可能大。网络结构方面，本发明使用的是GoogLeNet。在实验过程中，需要对TripletLoss人脸分类部分进行训练。

(3)疲劳检测系统

在MTCNN输出了人脸区域后，需要在该区域中对人的眼睛进行检测并判断疲劳程度，在这个过程中没有必要应用神经网络进行检测，本发明采用了占用资源更少，速度更快的EAR方法，即眼睛纵横比。

这个方法是由Soukupová和

在2016年提出来的，如图通过基于HOG特征检测的dlib库先将每只眼睛左眼角进行标记，之后按照顺时针的顺序分别标记出上眼眶、右眼角和下眼眶，之后使用公式

计算出眼睛纵横比。

在判断条件方面，本发明是在开始上课(通过老师控制)后的几秒内会对每个目标的眼睛纵横比进行检测并记录，作为该目标该目标闭眼判断的阈值，若之后该目标的眼睛纵横比长时间小于该阈值，则会判断为疲劳状态，对教师进行预警。

(4)表情识别

对于学生上课状态的监控，仅依靠疲劳判断是不够的，有的时候学生不专注听课，可以通过长时间的表情呆滞或者长时间或者多次的特殊的脸部表情来判断，因此进行表情识别也是有必要的。

本发明通过FER2013数据库和简化的Xception网络结构训练了一个对人脸表情进行分类的神经网络。简化的Xception结构如图3所示，该网络一共有13层，并且分为输入部分、中间部分和输出部分。其中输入部分含有两个卷积层，输入图像要求是64*64像素的灰度图像，因此对于MTCNN提取出来的人脸图像要进行处理，将其进行缩放。接下来的中间部分是由两个深度可分离卷积层组成，并将这两个卷积层重复四次，该部分的输入输出没有尺寸、维度都没有变化。最后的输出部分仅包含1个卷积层，并在最后使用了Softmax方法。

本发明中用到了特殊的卷积层结构——深度可分离卷积层，该网络层的特点在于它可以大幅度的减少参数，减少计算和所需要占用的显存空间，通过这种方法也能在有限的空间内，尽可能加深神经网络，提高神经网络结果的准确性。

各个卷积层采用的激活函数是Relu函数。在反向传播过程中，使用了交叉熵损失函数即

这其中，y_i表示真实的分类结果，a_i是神经网络预测的结果。当这个函数对权重或者偏置求导即

对于分类问题，可以有

从导数可以看出，这种方法受误差影响，即误差越大，权重更新越快，误差越小，权重更新越慢。同时为了防止因为高阶项的权重过大而导致模型的过拟合问题，采用了L2正则化对其系数进行限制，L2正则化是在上述的误差函数的基础上加上

在此损失函数的基础上本发明采用了Adam算法，它根据损失函数对每个参数的梯度的一阶矩估计和二阶矩估计动态调整针对于每个参数的学习速率。

针对本发明的数据及测试与结果分析

在测试过程中本发明使用的是海康威视网络摄像头，该摄像头为200万1/2.7”CMOS日夜型半球型网络摄像机，和基于华为Mate10Pro的IP摄像头，两者支持的最大图像尺寸都是1920*1080像素。前者使用的是RTSP协议，其访问URL模板为rtsp://[username]:[password]@[ip]:[port]/[codec]/[channel]/[subtype]/av_stream，后者使用的是HTTP协议，其访问URL模板为http://[ip]:[channel]。

本发明的系统主要由两个神经网络组成，对两个不同的神经网络，需要分别进行训练，所需要的训练集也不相同，FaceNet使用VGGFace2进行训练，表情识别网络则使用FER2013进行训练。VGGFace2是一个巨大的人脸识别数据库，共包含331万张人脸图片，9131个ID，它所包含的人物的ID非常多，并且每个ID下的图片个数也很多，这些图片包含同一个人不同姿势、不同表情和不同年龄、环境的数据，大大提高了训练出来的网络的鲁棒性。FER2013人脸表情数据集含有35886张人脸表情图片，其中训练集图像28708张，公有验证图和私有验证图各3589张，每张图像都是48*48像素的灰度图，但是由于表情识别网络需要64*64像素的输入，本发明使用Opencv对图像进行扩大。该数据库有六种标签：生气、厌恶、恐惧、开心、伤心、惊讶、自然状态。

本发明对人脸识别部分TripletLoss分类部分使用了实验室中一些学生的人脸图片、视频，拍摄的角度均是从上向下方远程拍摄，模拟课堂视角，尽量保证除了人脸不同外不存在其他变量，防止影响实验结果。图7为一部分照片和视频截图，获取图像范围适中，且能捕获清晰的人脸。视频分辨率为1920PXx1080PX，像素深度为24。其中图7(a)中显示视频完成了对两位同学的人脸进行识别并且将他们的眼睛轮廓进行了标注，在此期间，已经完成了对他们眼睛纵横比的计算并保存。图7(b)中当右边的同学长时间闭眼后，系统识别到该学生眼睛纵横比长时间、大幅度小于初始采集到的值时，判定该同学处于疲劳状态，在左上角进行了警告。

在表情识别训练、验证过程中，本发明使用了FER2013人脸表情数据集。下表是该网络在交叉验证过程中的表现，从这个表中我们可以看到几个比较主要的错误在把“厌恶”误识别为“愤怒”，把“正常”表情误识别为“悲伤”，另外在“恐惧”表情的识别正确率比较低，会被误识别为“愤怒”、“悲伤”、“惊讶”。

在实际的实验测试中，我们对上面实验的其中一名学生的表情进行了检测，图8(a)为该学生的微笑状态，图8(b)为该学生的正常自然状态。实际视频的测试过程中，学生表情识别的准确度还是比较高的，但依然存在“恐惧”等表情的误识别问题。

本发明系统在线推导得到的判断结果(人名、疲劳状态、表情)会被实时记录在文档中，在老师上课结束后，会保存到服务器进行可视化，其结果如图9所示。该系统会根据疲劳状态、表情信息对学生的上课状态进行判断。疲劳检测拥有直接否决权，若学生被判定为疲劳状态，则状态就会判定为异常，如图9(a)所示。在疲劳判定为“否”时，如果表情短时间是内非“normal”表情，“正常”状态不会发生改变；若长时间处于非“normal”表情，则转台会变成异常状态。

结论

本发明提出了一个基于深度CNN的学生打卡和上课状态检测系统，学生人脸进行识别，通过是否闭眼判断学生的疲劳状态，并对“中性”、“开心”、“悲伤”、“愤怒”、“惊讶”、“害怕”、“厌恶”这7种表情进行分类，最后综合以上信息，对学生的上课状态做出判断。本发明的工作过程：首先，获取开源数据集，并进行简单的筛选，另外对于FaceNet分类器的训练采集了学生的脸部照片。然后，通过MTCNN对图片、照片的裁剪切割获取脸部图像，对于表情识别网络，还额外将图像转换为单通道的灰度图像，去除了不必要的信息。最后，完成了对网络的训练，通过随训练次数增加实时调整学习率等方式，加快了训练速度并防止了网络过拟合。本发明提出的系统能够快速地、准确地对学生上课状态进行检测，与其他系统相比，引入了更多的判定条件，使输出结果更加可靠。

本发明中援引的参考文献如下：

[1]Ramsden,Paul.A performance indicator of teaching quality in highereducat ion:The Course Experience Questionnaire[J].Studies in HigherEducation,1991,16(2):129-150.

[2]吴国誉,等.以学生为本的高校课堂教学评价指标体系研究[J].教育探索,2015,(10):19-23.

[3]A.Pentland,B.Moghaddam,T.Starner,et al.,“View-based and modulareigenspaces for face recognition,”1994.

[4]B.Takacs,“Comparing face images using the

hausdorffdistance,”Pattern Recognition,vol.31,no.12,pp.1873–1881,1998.

[5]C.Liu and H.Wechsler.Gabor feature based classification using theenhanced fisher linear discriminant model for face recognition.Imageprocessing,IEEE Transactions on,11(4):467–476,2002.

[6]T.Ahonen,A.Hadid,and M.Pietikainen.Face description with localbinary patterns:Application to face recognition.IEEE Trans.PatternAnal.Machine Intell.,28(12):2037–2041,2006.

[7]Y.Taigman,M.Yang,M.Ranzato,and L.Wolf.Deepface:Closing the gap tohuman-level performance in face verification.In CVPR,pages 1701–1708,2014.

[8]Y.Sun,Y.Chen,X.Wang,and X.Tang.Deep learning face representationby joint identification-verification.In NIPS,pages 1988–1996,2014.

[9]G.B.Huang,M.Ramesh,T.Berg,and E.Learned-Miller.Labeled faces inthe wild:A database for studying face recognition in unconstrainedenvironments.Technical report,Technical Report 07-49,University ofMassachusetts,Amher st,2007.

[10]Lin K C,Lin R W,Chen S J,et al.The classroom response systembased on affective computing[C]//IEEE International Conference on Ubi-mediaComputing.IEEE,2010.

[11]Jeon J,Park J C,Jo Y J,et al.[ACM Press the 10th InternationalConference-Danang,Viet Nam(2016.01.04-2016.01.06)]Proceedings of the 10th International Conference on Ubiquitous Information Management and Communication-IMCOM\"16-A Real-time Facial Expression Recognizer using Deep Neural Network[C]//International Conference on Ubiquitous Information Management&Communication.ACM,2016:1-4.

Claims

1.一种基于深度学习的学生打卡及上课状态的检测系统，其特征在于，所述检测系统包括数据采集子系统、检测子系统和存储及可视化子系统，

检测子系统包括服务器或嵌入式设备，以及布署在服务器端或布署在嵌入式设备上检测识别模块，所述检测识别模块包括人脸检测子模块、人脸区域截取子模块、表情识别子模块、人脸识别子模块和疲劳检测子模块；人脸检测子模块、表情识别子模块以及人脸识别子模块均采用训练后的神经网络实现；疲劳检测子模块基于传统机器学习方法来实现；当检测识别模块布署在嵌入式设备上时，人脸检测子模块、人脸区域截取子模块、人脸识别子模块和疲劳检测子模块布署在一台嵌入式设备上，而表情识别子模块需要接收人脸检测子模块的输出并布署在另一台嵌入式设备上；将处理后的每一帧图片传输给人脸检测子模块进行人脸检测，输出该帧图片上每张人脸检测向量组成的矩阵，并将其传给人脸区域截取子模块；

人脸区域截取子模块的输入是原图片矩阵和人脸检测子模块输出的矩阵，这个模块的输出是按照人脸检测子模块输出的矩阵在原图片矩阵截取出来的一系列图片矩阵组成的新矩阵，这个新矩阵中的每个图片矩阵都包含一张人脸，并会被输出给表情识别子模块、人脸识别子模块和疲劳检测子模块；

2.根据权利要求1所述的一种基于深度学习的学生打卡及上课状态的检测系统，其特征在于，所述人脸检测子模块基于MTCNN人脸检测网实现，MTCNN人脸检测网具体为：MTCNN使用金字塔式图片尺寸重整，最小人脸大小设置为20，单位为像素。

3.根据权利要求1或2所述的一种基于深度学习的学生打卡及上课状态的检测系统，其特征在于，所述人脸区域截取子模块的实现具体为：按照人脸检测子模块输出的矩阵在原图片矩阵截取出来的一系列图片矩阵组成的新矩阵，该新矩阵中的每个图片矩阵都包含一张人脸。

4.根据权利要求3所述的一种基于深度学习的学生打卡及上课状态的检测系统，其特征在于，所述人脸识别子模块采用人脸识别网络FaceNet进行分类器重训练来实现，具体为：输入的图片矩阵会通过GoogLeNet进行特征提取，之后进行归一化，并采用损失函数对比确认相似度，在这一过程中，除了需要验证的图片矩阵的损失函数是实时计算的，所有对比用的参照图片的损失函数都是提前计算好的，那么训练分类器的过程就是将学生的多角度图片调整成160*160像素尺寸的矩阵提前输入网络进行计算，得到所述损失函数，用于后续对比。

5.根据权利要求1、2或4所述的一种基于深度学习的学生打卡及上课状态的检测系统，其特征在于，所述表情识别子模块是基于简化的Xception网络结构进行修改得到的，具体为：该网络使用人脸区域截取子模块的输出作为输入。

6.根据权利要求5所述的一种基于深度学习的学生打卡及上课状态的检测系统，其特征在于，所述疲劳检测子模块中的传统机器学习方法，具体为：使用HOG特征提取得到特征图，使用dlib库将每只眼睛的左眼角p₁进行标记，之后按照顺时针分别标记上眼眶两点p₂和p₃、右眼角p₄、下眼眶p₅和p₆，应用公式:

7.根据权利要求6所述的一种基于深度学习的学生打卡及上课状态的检测系统，其特征在于，数据采集子系统采用多种输入方式，用于网络视频流传输的RTSP协议和HTTP协议，可将视频传回本地，传回的视频和本地图片、视频可直接调用numpy和cv2读取，生成矩阵输入检测子系统。

8.根据权利要求7所述的一种基于深度学习的学生打卡及上课状态的检测系统，其特征在于，存储及可视化子系统接收检测子系统发送的输出矩阵，存储及可视化子系统支持云端存储和本地存储，将监测结果存储后可以进行回放和大数据分析，为教师和家长提供更加准确、长期的分析；存储及可视化子系统还可通过上位机软件，进行实时播放分析和历史播放分析，软件上可以直观地查看视频中所有的学生身份、疲劳状况、表情和综合上课状态分析结果，其中使用的判定规则为：如学生处于疲劳状态，即闭眼长达10秒，则直接判定为疲劳；如果学生不在疲劳状态，则判断其表情是否处于普通状态，如果长时间不处于普通状态则判定为异常状态；如果在一段视频中学生出现在视频上，则完成签到，在此视频期间，如果学生无法被检测的时间，连续超过一分钟，则被判定为异常状态。