CN111931598B - 一种基于人脸识别的课堂智能实时分析方法及系统 - Google Patents

一种基于人脸识别的课堂智能实时分析方法及系统 Download PDF

Info

Publication number
CN111931598B
CN111931598B CN202010700071.8A CN202010700071A CN111931598B CN 111931598 B CN111931598 B CN 111931598B CN 202010700071 A CN202010700071 A CN 202010700071A CN 111931598 B CN111931598 B CN 111931598B
Authority
CN
China
Prior art keywords
face
layer
convolutional neural
neural network
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010700071.8A
Other languages
English (en)
Other versions
CN111931598A (zh
Inventor
海克洪
黄龙吟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Meihe Yisi Digital Technology Co ltd
Original Assignee
Wuhan Meihe Yisi Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Meihe Yisi Digital Technology Co ltd filed Critical Wuhan Meihe Yisi Digital Technology Co ltd
Priority to CN202010700071.8A priority Critical patent/CN111931598B/zh
Publication of CN111931598A publication Critical patent/CN111931598A/zh
Application granted granted Critical
Publication of CN111931598B publication Critical patent/CN111931598B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于人脸识别的课堂智能实时分析方法及系统,所述方法包括:通过摄像头采集课堂实时数据作为输入视频流,对所述输入视频流进行预处理,得到实时帧画面;检测人脸区域并标记;构建ResNet网络结构与Inception网络结构相结合的卷积神经网络模型,所述卷积神经网络模型中同时包括人脸识别模型和专注度识别模型;准备训练集对所述卷积神经网络模型进行训练;对所述人脸区域做预处理,输入训练好的卷积神经网络模型,输出人脸识别结果和对应的专注度分类结果;将人脸区域标记、人脸识别结果、专注度分类结果直接标注在实时帧画面内,通过帧迭代器生成输出视频流并推送至浏览器。本发明优化了卷积神经网络结构,加快了识别速率,减少延迟。

Description

一种基于人脸识别的课堂智能实时分析方法及系统
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于人脸识别的课堂智能实时分析方法及系统。
背景技术
在课堂教学过程中,学生的出勤率和学生在课堂上的专注度直接影响学生学习效率和教师的教学质量,传统的考勤分析基本上都需要老师与各位学生的配合,往往耽误正常上课时间,学生课堂上的专注度也无法全面统计,老师无法实时了解学生状态和评估授课质量。因此需要一种智能课堂管理与分析系统来弥补教育行业传统记录考勤、巡课、分析等需要大量人力的缺陷。
近些年来,人工智能技术发展迅速,各类人工智能的应用给人类的生产、交通、生活、教育等多方面带来了极大的便利,特别是模式识别、人脸识别等方向得到了广泛的应用且效果理想。一些智能课堂管理与分析系统在部分校园已有应用,但这些方式往往识别效率低下、滞后严重,不能实时反映学生状态,影响教学质量评估。
发明内容
有鉴于此,本发明提出了一种基于人脸识别的课堂智能实时分析方法,用于解决现有课堂管理系统中识别、分析速率低下,滞后严重的问题。
本发明第一方面,提出一种基于人脸识别的课堂智能实时分析方法,所述方法包括:
通过摄像头采集课堂实时数据作为输入视频流,对所述输入视频流进行预处理,得到实时帧画面;
通过多个固定大小的滑动窗口在每一个帧画面上滑动,检测人脸区域并标记人脸区域;
构建ResNet网络结构与Inception网络结构相结合的卷积神经网络模型,所述卷积神经网络模型中同时包括人脸识别模型和专注度识别模型;
准备人脸图像数据集并制作标签作为训练集,对所述卷积神经网络模型进行训练,直至模型收敛;
对所述人脸区域做预处理,输入训练好的卷积神经网络模型,输出人脸识别结果和对应的专注度分类结果;
将人脸区域标记、人脸识别结果、专注度分类结果直接标注在实时帧画面内,通过帧迭代器生成输出视频流并推送至浏览器。
优选的,所述人脸图像数据集由学生人脸数据库和开源数据集faces_webface组成。
优选的,所述卷积神经网络模型的结构包括输入层、隐藏层和输出层;
所述输入层包括批量归一层batch_norm_1;
所述隐藏层将所述批量归一层batch_norm_1的输出分为四个分支,其中一个分支用于ResNet网络做残差连接,通过其余三个分支构建第一Inception模块,所述第一Inception模块包括3×3的卷积层组成的分支branch_11、3×3的最大池化层组成的分支branch_12以及使用1×1的卷积层连接3×3的卷积层连接3×3的卷积层组成的分支branch_13,将所述三个分支的结果合并concatenated_1作为第一Inception模块的输出;
在所述第一Inception模块输出上再搭建一个批量归一化层batch_norm_2,在批量归一层batch_norm_2的输出上搭建一个PReLU激活层,将PReLU激活层activation_1的输出分为三个分支构建第二Inception模块,所述第二Inception模块包括3×3最大池化层组成的分支branch_21、1×1卷积层连接3×3的卷积层组成的分支branch_22、1×1卷积层连接1×7的卷积层连接7×1的卷积层组成的分支branch_23,将这三个分支合并concatenated_2作为第二Inception模块的输出;
将所述第二Inception模块的输出作为另一批量归一层batch_norm_2的输入,经过PReLU激活层输出activation_2,将batch_norm_1层经过2×2卷积层处理后与activation_2激活层的结果相加add,把相加的结果做压平处理,将压平后的结果作为隐藏层的输出;
所述输出层有两个分支,第一个分支为人脸识别单元,将隐藏层的输出作为输入,搭建一个使用softmax激活函数的全连接层dense_1,用于预测帧画面中的人脸归属于谁;另一个分支为专注度识别单元,将隐藏层的输出作为输入,搭建一个包含sigmoid激活函数的全连接层dense_2,用于区分对应人脸专注与不专注两个类别。
优选的,所述卷积神经网络模型中所述人脸识别单元使用arcface损失函数,对于专注度识别单元使用交叉熵损失函数,所述卷积神经网络模型的最终损失为所述arcface损失函数与所述交叉熵损失函数的加权之和,所述卷积神经网络模型收敛条件为所述最终损失最小。
优选的,所述将人脸区域标记、人脸识别结果、专注度分类结果直接标注在实时帧画面内,通过帧迭代器生成输出视频流并推送至浏览器具体为:
将人脸区域框图标记在实时帧画面中,OpenCV格式的帧画面转换为PIL格式的帧画面,使用PIL中的ImageDraw方法完成人脸识别结果、专注度分类结果中文标注,再将PIL格式的帧画面转换为OpenCV格式的帧画面;
将标注后的帧画面经过视频编码转换为字节数组,将所述字节数组与对应的当前帧信息合并,以帧迭代器生成输出视频流展示到浏览器网页上。
优选的,所述方法还包括:根据数据采集时间和对应的人脸识别结果和专注度分类结果进行考勤分析。
本发明第二方面,提出一种基于人脸识别的课堂智能实时分析系统,所述系统包括:
数据采集模块:通过摄像头采集课堂实时数据作为输入视频流,对所述输入视频流进行预处理,得到实时帧画面;
人脸检测模块:通过多个固定大小的滑动窗口在每一个帧画面上滑动,检测人脸区域并标记人脸区域;
模型构建模块:构建ResNet网络结构与Inception网络结构相结合的卷积神经网络模型,所述卷积神经网络模型中同时包括人脸识别模型和专注度识别模型;
模型训练模块:准备人脸图像数据集并制作标签作为训练集,对所述卷积神经网络模型进行训练,直至模型收敛;
分类识别模块:对所述人脸区域做预处理,输入训练好的卷积神经网络模型,输出人脸对比结果和对应的专注度分类结果;
标记显示模块:将人脸区域标记、人脸识别结果、专注度分类结果直接标注在实时帧画面内,通过帧迭代器生成输出视频流并推送至浏览器。
本发明的相对于现有技术具有以下有益效果:
1)实现了无感考勤分析与专注度分析的同时,还能在各种符合HTML页面协议的设备上将结果进行实时展示;
2)采用了同时包括人脸识别模型和专注度识别模型的卷积神经网络模型,优化了卷积神经网络结构,加快识别速率,减少延迟。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于人脸识别的课堂智能实时分析方法整体流程示意图;
图2为本发明实施例提供的人脸区域探测的流程示意图;
图3为本发明实施例提供的卷积神经网络结构示意图。
具体实施方式
下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
请参阅图1,本发明实施例提供的一种基于人脸识别的课堂智能实时分析方法整体流程示意图;
本发明所有的现场实时数据都是以视频流的形式进行传输与展示的。本发明处理视频流主要分为两种情况:输入视频流和输出视频流。
对于输入视频流,即从使用常见的视频采集设备采集得到的视频数据,诸如USB摄像头、网络摄像头等视频设备均能完成现场实时数据的采集工作。
S1、通过摄像头采集课堂实时数据作为输入视频流,对所述输入视频流进行预处理,得到实时帧画面;对于采集到的数据使用OpenCV分帧处理,即将原有的流式数据切分成大小一致的帧图像。为了提高处理的速度、增强展示实时性,对所有帧图像先做灰度化处理,将原有的三颜色通道转换为单一颜色通道处理。
S2、通过多个固定大小的滑动窗口在每一个帧画面上滑动,检测人脸区域并标记人脸区域;
选取当前开源技术中人脸探测准确率最高的insightface框架完成人脸区域探测,选取此框架中包含的两种常用人脸探测模型:mobilenet和R50。前者的准确率在LFW数据集上测试大约为95%,后者在LFW上大约为99%。两个模型均返回一个0~1之间的阈值用于确定这个区域内是否是真的人脸,可设置此值大于85%的区域是人脸。
人脸区域探测的识别原理是,通过固定大小的滑动窗口检测人脸区域。请参阅图2,本发明指定使用8×8、16×16、32×32这三个大小的窗口,对于每个窗口在同一帧图像中由左至右由上至下的进行滑动,对每次滑动后的结果进行检测。以一个800×600的帧图像为例,使用大小为8×8的窗口,由左至右一共需要滑动800-8=792次,得到的大小为8×8的子区域共有793次,由上至下一共需要滑动592次,得到的大小为8×8的子区域也有593次,故此,使用8×8的窗口检测人脸时需要检测793*593=470249次,同理,对于16×16的窗口需要检测459225次,32×32的窗口需要检测437561次,因此,对于每一帧图像共需要检测470249+459225+437561=1367035次,然而这个次数对于一张800×600的图像来说实在是太大了,借助MTCNN的相关技术,首先对800×600图像进行预处理,筛选出可能存在人脸的区域,然后再通过滑动窗口的方法进一步进行检测,从而确定该区域中的内容为人脸。
通过以上方式可以对帧画面中的人脸区域进行探测,便于实时标记脸部区域,还可以完成人脸五个关键点的定位:左眼中心、右眼中心、鼻子中心、左嘴角以及右嘴角。
S3、构建ResNet网络结构与Inception网络结构相结合的卷积神经网络模型,所述卷积神经网络模型中同时包括人脸识别模型和专注度识别模型;
请参阅图3,本发明卷积神经网络结构示意图,本发明卷积神经网络主要使用的ResNet网络结构与Inception网络结构相结合,包括输入层、隐藏层和输出层;
所述输入层包括批量归一层batch_norm_1;
所述隐藏层将所述批量归一层batch_norm_1的输出分为四个分支,其中一个分支用于ResNet网络做残差连接,通过其余三个分支构建第一Inception模块,所述第一Inception模块包括3×3的卷积层组成的分支branch_11、3×3的最大池化层组成的分支branch_12以及使用1×1的卷积层连接3×3的卷积层连接3×3的卷积层组成的分支branch_13,将所述三个分支的结果合并concatenated_1作为第一Inception模块的输出;
在所述第一Inception模块输出上再搭建一个批量归一化层batch_norm_2,在批量归一层batch_norm_2的输出上搭建一个PReLU激活层,将PReLU激活层activation_1的输出分为三个分支构建第二Inception模块,所述第二Inception模块包括3×3最大池化层组成的分支branch_21、1×1卷积层连接3×3的卷积层组成的分支branch_22、1×1卷积层连接1×7的卷积层连接7×1的卷积层组成的分支branch_23,将这三个分支合并concatenated_2作为第二Inception模块的输出;
将所述第二Inception模块的输出作为另一批量归一层batch_norm_2的输入,经过PReLU激活层输出activation_2,将batch_norm_1层经过2×2卷积层处理后与activation_2激活层的结果相加add,把相加的结果做压平处理,将压平后的结果作为隐藏层的输出;
所述输出层有两个分支,第一个分支为人脸识别单元,将隐藏层的输出作为输入,搭建一个使用softmax激活函数的全连接层dense_1,用于预测帧画面中的人脸归属于谁;另一个分支为专注度识别单元,将隐藏层的输出作为输入,搭建一个包含sigmoid激活函数的全连接层dense_2,用于区分对应人脸专注与不专注两个类别。
本发明针对课堂实时分析的需要搭建了一种改进的卷积神经网络,使用并行与串行相结合的网络结构,这种不对称卷积核结构,可增加特征多样性,且可以在保证信息损失足够小的情况下,降低计算量,提高计算速度,引入的残差模块也可以极大地加速训练过程,这种改进的卷积神经网络在实时视频流数据分析中可以减少识别与标注的延迟。
S4、准备人脸图像数据集并制作标签作为训练集,对所述卷积神经网络模型进行训练,直至模型收敛;
所述人脸图像数据集由学生人脸数据库和开源数据集faces_webface组成。
事先采集每个学生多个角度的人脸图像组成学生人脸数据库,与开源数据集faces_webface共同组成本发明的训练集,制作好标签。训练前首先设置训练所需的基本相关参数,如GPU、轮次、批次、初始化学习率以及学习率调整周期等超参数,本发明中使用到的是mxnet中的CompositeEvalMetric作为验证函数。所述卷积神经网络模型中所述人脸识别单元使用arcface损失函数,对于专注度识别单元使用交叉熵损失函数,所述卷积神经网络模型的最终损失为所述arcface损失函数与所述交叉熵损失函数的加权之和,所述卷积神经网络模型收敛条件为所述最终损失最小。
S5、对所述人脸区域做预处理,输入训练好的卷积神经网络模型,输出人脸识别结果和对应的专注度分类结果;
首先对输入数据做预处理,即将数据分布于-1到1之间,便于后面的层进行处理,使用到的参数是将所有的像素点减127.5,然后将结果统一除以128得到。
预测的原理是,通过卷积神经网络提取人脸特征,依据实时图像数据比对本发明实时分析系统内人脸的相关性,将相关性得分最高的标签作为预测标签,从而完成人脸识别。对于人脸识别来说,可以将视频采集设备中的帧画面输入给人脸探测模型,探测模型则会得到帧画面中所有出现的人脸区域范围,将此范围内的图像拷贝出来,经过resize操作后统一变成大小为112×112的图像,然后将这些图像经过人脸识别模型,从而得到预测结果。对于专注度分析来说,主要依据眼睛和面部角度来判断是否专注。
S6、将人脸区域标记、人脸识别结果、专注度分类结果直接标注在实时帧画面内,通过帧迭代器生成输出视频流并推送至浏览器。具体为:
将人脸区域框图标记在实时帧画面中,OpenCV格式的帧画面转换为PIL格式的帧画面,使用PIL中的ImageDraw方法完成人脸识别结果、专注度分类结果中文标注,再将PIL格式的帧画面转换为OpenCV格式的帧画面;
将标注后的帧画面经过视频编码转换为字节数组,将所述字节数组与对应的当前帧信息合并,以帧迭代器生成输出视频流展示到浏览器网页上。在后期需要使用的时候由于该数据已经符合HTML标准,直接嵌套在浏览器内即可实现输出与展示功能。
对于高帧率输入视频流来说,由于这类视频流帧率通常在60帧以上,在计算资源有限的情况下,输出这类视频流会首先会出现延迟情况,然后出现阻塞,即视频流不再输出。本发明解决这种情况的方法分为两个步骤,第一个步骤是必须的,第二个步骤是可选的:
1)在视频流输入时,设置一个可更改的阈值,默认大小为30,该阈值的作用是限制采集到的视频流帧率,即将输入视频流的帧率限制在阈值内,高于该阈值的帧会被直接丢弃。经过此处理后,输入视频流的帧被固定为某个值,用户可以根据自身的实际情况调节此阈值的大小,从而依据计算能力适应不同的场景,经验证,帧率大于20时,效果良好,肉眼无法察觉。
2)设置帧率更新机制。通过获取当前视频帧画面处理的开始时间以及处理完成视频帧画面的结束时间得到处理帧画面的时长,1除以将该时长得到输出视频帧率,最后将此输出视频帧率与帧画面绑定在一起输出,对于介于处理时长之间的帧画面直接丢弃以保证视频流不阻塞。
与上述方法实施例相对应,本发明还公开一种基于人脸识别的课堂智能实时分析系统,所述系统包括:
数据采集模块:通过摄像头采集课堂实时数据作为输入视频流,对所述输入视频流进行预处理,得到实时帧画面;
人脸检测模块:通过多个固定大小的滑动窗口在每一个帧画面上滑动,检测人脸区域并标记人脸区域;
模型构建模块:构建ResNet网络结构与Inception网络结构相结合的卷积神经网络模型,所述卷积神经网络模型中同时包括人脸识别模型和专注度识别模型;
模型训练模块:准备人脸图像数据集并制作标签作为训练集,对所述卷积神经网络模型进行训练,直至模型收敛;
分类识别模块:对所述人脸区域做预处理,输入训练好的卷积神经网络模型,输出人脸对比结果和对应的专注度分类结果;
标记显示模块:将人脸区域标记、人脸识别结果、专注度分类结果直接标注在实时帧画面内,通过帧迭代器生成输出视频流并推送至浏览器;
考勤分析模块:根据数据采集时间和对应的人脸识别结果和专注度分类结果进行考勤分析,统计各学生、各班级、各年级在一定时间段内的出勤率和专注率,生成报表并展示。
本发明的智能实时分析系统实现了无感考勤与专注度分析的同时,还能在各种符合HTML页面协议的设备上将结果进行实时展示;通过改进的卷积神经网络结构加快识别速率,减少延迟,实时性高,方便教师在课堂上了实时解学生状态并及时调整课堂授课计划或方式;本发明的实时智能分析系统可在各种教学活动结束之后对整体教学活动进行智能分析,得到较为全面的数据报表,为教学质量评估提供支撑。
以上系统实施例与方法实施例是一一对应的,系统实施例简略之处,参见方法实施例即可。
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于人脸识别的课堂智能实时分析方法,其特征在于,所述方法包括:
通过摄像头采集课堂实时数据作为输入视频流,对所述输入视频流进行预处理,得到实时帧画面;
通过多个固定大小的滑动窗口在每一个帧画面上滑动,检测人脸区域并标记人脸区域;
构建ResNet网络结构与Inception网络结构相结合的卷积神经网络模型,所述卷积神经网络模型中同时包括人脸识别模型和专注度识别模型;
准备人脸图像数据集并制作标签作为训练集,对所述卷积神经网络模型进行训练,直至模型收敛;
对所述人脸区域做预处理,输入训练好的卷积神经网络模型,输出人脸识别结果和对应的专注度分类结果;
将人脸区域标记、人脸识别结果、专注度分类结果直接标注在实时帧画面内,通过帧迭代器生成输出视频流并推送至浏览器;
所述卷积神经网络模型的结构包括输入层、隐藏层和输出层;
所述输入层包括批量归一层batch_norm_1;
所述隐藏层将所述批量归一层batch_norm_1的输出分为四个分支,其中一个分支用于ResNet网络做残差连接,通过其余三个分支构建第一Inception模块,所述第一Inception模块包括3×3的卷积层组成的分支branch_11、3×3的最大池化层组成的分支branch_12以及使用1×1的卷积层连接3×3的卷积层连接3×3的卷积层组成的分支branch_13,将所述三个分支的结果合并concatenated_1作为第一Inception模块的输出;
在所述第一Inception模块输出上再搭建一个批量归一化层batch_norm_2,在批量归一层batch_norm_2的输出上搭建一个PReLU激活层,将PReLU激活层activation_1的输出分为三个分支构建第二Inception模块,所述第二Inception模块包括3×3最大池化层组成的分支branch_21、1×1卷积层连接3×3的卷积层组成的分支branch_22、1×1卷积层连接1×7的卷积层连接7×1的卷积层组成的分支branch_23,将这三个分支合并concatenated_2作为第二Inception模块的输出;
将所述第二Inception模块的输出作为另一批量归一层batch_norm_2的输入,经过PReLU激活层输出activation_2,将batch_norm_1层经过2×2卷积层处理后与activation_2激活层的结果相加add,把相加的结果做压平处
理,将压平后的结果作为隐藏层的输出;
所述输出层有两个分支,第一个分支为人脸识别单元,将隐藏层的输出作为输入,搭建一个使用softmax激活函数的全连接层dense_1,用于预测帧画面中的人脸归属于谁;另一个分支为专注度识别单元,将隐藏层的输出作为输入,搭建一个包含sigmoid激活函数的全连接层dense_2,用于区分对应人脸专注与不专注两个类别。
2.根据权利要求1所述基于人脸识别的课堂智能实时分析方法,其特征在于,所述人脸图像数据集由学生人脸数据库和开源数据集faces_webface
组成。
3.根据权利要求1所述基于人脸识别的课堂智能实时分析方法,其特征在于,所述卷积神经网络模型中所述人脸识别单元使用arcface损失函数,对于专注度识别单元使用交叉熵损失函数,所述卷积神经网络模型的最终损失为所述arcface损失函数与所述交叉熵损失函数的加权之和,所述卷积神经网络模型收敛条件为所述最终损失最小。
4.根据权利要求1所述基于人脸识别的课堂智能实时分析方法,其特征在于,所述将人脸区域标记、人脸识别结果、专注度分类结果直接标注在实时帧画面内,通过帧迭代器生成输出视频流并推送至浏览器具体为:
将人脸区域框图标记在实时帧画面中,OpenCV格式的帧画面转换为PIL格式的帧画面,使用PIL中的ImageDraw方法完成人脸识别结果、专注度分类结果中文标注,再将PIL格式的帧画面转换为OpenCV格式的帧画面;
将标注后的帧画面经过视频编码转换为字节数组,将所述字节数组与对应的当前帧信息合并,以帧迭代器生成输出视频流展示到浏览器网页上。
5.根据权利要求1所述基于人脸识别的课堂智能实时分析方法,其特征在于,所述方法还包括:根据数据采集时间和对应的人脸识别结果和专注度分类结果进行考勤分析,统计各学生、各班级、各年级在一定时间段内的出勤率和专注率,生成报表并展示。
6.使用权利要求1~5任一项所述方法的一种基于人脸识别的课堂智能实时分析系统,其特征在于,所述系统包括:
数据采集模块:通过摄像头采集课堂实时数据作为输入视频流,对所述输入视频流进行预处理,得到实时帧画面;
人脸检测模块:通过多个固定大小的滑动窗口在每一个帧画面上滑动,检测人脸区域并标记人脸区域;
模型构建模块:构建ResNet网络结构与Inception网络结构相结合的卷积神经网络模型,所述卷积神经网络模型中同时包括人脸识别模型和专注度识别模型;
模型训练模块:准备人脸图像数据集并制作标签作为训练集,对所述卷积神经网络模型进行训练,直至模型收敛;
分类识别模块:对所述人脸区域做预处理,输入训练好的卷积神经网络模型,输出人脸对比结果和对应的专注度分类结果;
标记显示模块:将人脸区域标记、人脸识别结果、专注度分类结果直接标注在实时帧画面内,通过帧迭代器生成输出视频流并推送至浏览器;
考勤分析模块:根据数据采集时间和对应的人脸识别结果和专注度分类结果进行考勤分析,统计各学生、各班级、各年级在一定时间段内的出勤率和专注率,生成报表并展示。
CN202010700071.8A 2020-07-20 2020-07-20 一种基于人脸识别的课堂智能实时分析方法及系统 Active CN111931598B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010700071.8A CN111931598B (zh) 2020-07-20 2020-07-20 一种基于人脸识别的课堂智能实时分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010700071.8A CN111931598B (zh) 2020-07-20 2020-07-20 一种基于人脸识别的课堂智能实时分析方法及系统

Publications (2)

Publication Number Publication Date
CN111931598A CN111931598A (zh) 2020-11-13
CN111931598B true CN111931598B (zh) 2024-05-17

Family

ID=73312672

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010700071.8A Active CN111931598B (zh) 2020-07-20 2020-07-20 一种基于人脸识别的课堂智能实时分析方法及系统

Country Status (1)

Country Link
CN (1) CN111931598B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112525352A (zh) * 2020-11-24 2021-03-19 深圳市高巨创新科技开发有限公司 一种基于人脸识别的红外测温补偿方法及终端
CN112487948B (zh) * 2020-11-27 2022-05-13 华中师范大学 一种基于多空间融合的学习者学习过程的专注度感知方法
CN112733663A (zh) * 2020-12-29 2021-04-30 山西大学 一种基于图像识别的学生专注力的检测方法
CN112396042A (zh) * 2021-01-20 2021-02-23 鹏城实验室 实时更新的目标检测方法及系统、计算机可读存储介质
CN112990677B (zh) * 2021-03-04 2022-03-01 青岛海科虚拟现实研究院 一种基于人工智能的教学系统、计算机设备、存储介质
CN112990892A (zh) * 2021-05-24 2021-06-18 南京百伦斯智能科技有限公司 一种用于教学考评的视频信息采集方法及图像处理系统
CN113139530B (zh) * 2021-06-21 2021-09-03 城云科技(中国)有限公司 一种睡岗行为检测方法、装置及其电子设备
CN115879701B (zh) * 2022-11-24 2023-11-14 读书郎教育科技有限公司 一种基于智慧课堂的课堂时长自适应调整系统
CN115860995B (zh) * 2022-12-09 2024-02-06 广州兴趣岛信息科技有限公司 基于云计算的智能培训监督方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107230267A (zh) * 2017-05-08 2017-10-03 谢剑锋 基于人脸识别算法的幼儿园智能签到方法
CN108171196A (zh) * 2018-01-09 2018-06-15 北京智芯原动科技有限公司 一种人脸检测方法及装置
CN110008875A (zh) * 2019-03-26 2019-07-12 武汉大学 一种基于关键帧回溯的人脸识别视频片段筛选方法及系统
CN110647807A (zh) * 2019-08-14 2020-01-03 中国平安人寿保险股份有限公司 异常行为确定方法、装置、计算机设备和存储介质
WO2020037937A1 (zh) * 2018-08-20 2020-02-27 深圳壹账通智能科技有限公司 人脸识别的方法、装置、终端及计算机可读存储介质
CN110889672A (zh) * 2019-11-19 2020-03-17 哈尔滨理工大学 一种基于深度学习的学生打卡及上课状态的检测系统
CN110996055A (zh) * 2019-12-02 2020-04-10 国网辽宁省电力有限公司检修分公司 输电线路图像监测系统镜头的自清洁装置及方法
WO2020082971A1 (zh) * 2018-10-24 2020-04-30 江苏君英天达人工智能研究院有限公司 一种课堂实时监测与评估系统及其工作方法、创建方法
CN111401257A (zh) * 2020-03-17 2020-07-10 天津理工大学 一种基于余弦损失非约束条件人脸识别方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107230267A (zh) * 2017-05-08 2017-10-03 谢剑锋 基于人脸识别算法的幼儿园智能签到方法
CN108171196A (zh) * 2018-01-09 2018-06-15 北京智芯原动科技有限公司 一种人脸检测方法及装置
WO2020037937A1 (zh) * 2018-08-20 2020-02-27 深圳壹账通智能科技有限公司 人脸识别的方法、装置、终端及计算机可读存储介质
WO2020082971A1 (zh) * 2018-10-24 2020-04-30 江苏君英天达人工智能研究院有限公司 一种课堂实时监测与评估系统及其工作方法、创建方法
CN110008875A (zh) * 2019-03-26 2019-07-12 武汉大学 一种基于关键帧回溯的人脸识别视频片段筛选方法及系统
CN110647807A (zh) * 2019-08-14 2020-01-03 中国平安人寿保险股份有限公司 异常行为确定方法、装置、计算机设备和存储介质
CN110889672A (zh) * 2019-11-19 2020-03-17 哈尔滨理工大学 一种基于深度学习的学生打卡及上课状态的检测系统
CN110996055A (zh) * 2019-12-02 2020-04-10 国网辽宁省电力有限公司检修分公司 输电线路图像监测系统镜头的自清洁装置及方法
CN111401257A (zh) * 2020-03-17 2020-07-10 天津理工大学 一种基于余弦损失非约束条件人脸识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于CNN人脸识别模型的大学生课堂行为分析研究;左国才;吴小平;苏秀芝;王海东;;智能计算机与应用;20191101(06);全文 *

Also Published As

Publication number Publication date
CN111931598A (zh) 2020-11-13

Similar Documents

Publication Publication Date Title
CN111931598B (zh) 一种基于人脸识别的课堂智能实时分析方法及系统
CN113936339B (zh) 基于双通道交叉注意力机制的打架识别方法和装置
CN110889672B (zh) 一种基于深度学习的学生打卡及上课状态的检测系统
CN108830252A (zh) 一种融合全局时空特征的卷积神经网络人体动作识别方法
CN107679522B (zh) 基于多流lstm的动作识别方法
CN103996192B (zh) 基于高质量自然图像统计量模型的无参考图像质量评价方法
CN107239801A (zh) 视频属性表示学习方法及视频文字描述自动生成方法
WO2023050650A1 (zh) 动画视频生成方法、装置、设备及存储介质
CN106993188B (zh) 一种基于多人脸视频显著性的hevc压缩编码方法
CN111178263B (zh) 一种实时表情分析方法及其装置
CN115484410A (zh) 基于深度学习的事件相机视频重建方法
CN115410119A (zh) 一种基于训练样本自适应生成的剧烈运动检测方法及系统
CN115240259A (zh) 一种基于yolo深度网络的课堂环境下人脸检测方法及其检测系统
CN113689382B (zh) 基于医学影像和病理图像的肿瘤术后生存期预测方法及系统
CN113066074A (zh) 一种基于双目视差偏移融合的视觉显著性预测方法
CN111127386B (zh) 一种基于深度学习的图像质量评价方法
CN116403218A (zh) 基于远程音视频互动的线上线下混合式教学管理系统
CN113076885B (zh) 一种基于人眼动作特征的专注度分级方法及系统
CN113688789A (zh) 一种基于深度学习的在线学习投入度识别方法及系统
CN114785978A (zh) 一种面向视频会议的视频图像质量确定方法
CN111275592B (zh) 一种基于视频图像的课堂行为分析方法
CN110211146B (zh) 视交叉仿真的视频前景分割方法及装置
CN114005054A (zh) 一种ai智能评分系统
CN111666830A (zh) 一种密集人群计数检测框架
KR20210035535A (ko) 뇌 연결성 학습 방법 및 이를 위한 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Country or region after: China

Address after: Room 01, 2 / F, building A14, phase 1.1, Wuhan National Geospatial Information Industrialization Base (New Area), no.6, Beidou Road, Donghu New Technology Development Zone, Wuhan City, Hubei Province, 430000

Applicant after: Wuhan Meihe Yisi Digital Technology Co.,Ltd.

Address before: Room 01, 2 / F, building A14, phase 1.1, Wuhan National Geospatial Information Industrialization Base (New Area), no.6, Beidou Road, Donghu New Technology Development Zone, Wuhan City, Hubei Province, 430000

Applicant before: HUBEI MEIHE YISI EDUCATION TECHNOLOGY Co.,Ltd.

Country or region before: China

GR01 Patent grant
GR01 Patent grant