CN113569761A - 一种基于深度学习的学生视点估计方法 - Google Patents
一种基于深度学习的学生视点估计方法 Download PDFInfo
- Publication number
- CN113569761A CN113569761A CN202110868818.5A CN202110868818A CN113569761A CN 113569761 A CN113569761 A CN 113569761A CN 202110868818 A CN202110868818 A CN 202110868818A CN 113569761 A CN113569761 A CN 113569761A
- Authority
- CN
- China
- Prior art keywords
- face
- viewpoint
- student
- formula
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 238000013135 deep learning Methods 0.000 title claims abstract description 13
- 210000002569 neuron Anatomy 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 230000003213 activating effect Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 3
- 238000012417 linear regression Methods 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 abstract description 4
- 238000007619 statistical method Methods 0.000 abstract description 3
- 210000003128 head Anatomy 0.000 description 19
- 238000013528 artificial neural network Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 244000207740 Lemna minor Species 0.000 description 1
- 235000006439 Lemna minor Nutrition 0.000 description 1
- 235000014249 Spirodela polyrhiza Nutrition 0.000 description 1
- 210000005252 bulbus oculi Anatomy 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的学生视点估计方法,其特征在于,包括如下步骤:1)视频帧获取;2)人脸检测;3)hopenet头部姿态估计;4)学生视点估计。这种方法利用监控摄像头拍摄的视频数据,对学生的视点位置进行估计,能提高实际应用的鲁棒性,对复杂教室环境下的学生视点估计有较高的准确率,采用估计学生的视点位置,进一步分析学生的注意力,从而对课堂学生听课质量进行统计分析,为实现智慧课堂管理提供技术支持。
Description
技术领域
本发明涉及人工智能领域,具体涉及计算机视觉中的一种基于深度学习的学生视点估计方法。
背景技术
在人工智能的迅速发展中,针对新兴技术和教育行业需求的不断更新发展态势下,多领域融合、深度学习等成为解决传统教学管理的不二选择。现如今,各个级别的学校教室都安装有摄像头,如何利用这些视频信息解决课堂问题成为了一大挑战。现有技术中,陈平等在文献“基于单幅图像PnP头部姿态估计的学习注意力可视化分析”中提出通过求解PnP问题得到人脸的旋转矩阵R和平移矩阵t,再通过三角形相似边成正比几何推导的方式计算学生视点在黑板上的投影坐标;高巧萍等在公开号为CN202110289021.X的中国专利中提出通过图像采集模块采集脸部图像,然后通过中控单元确定学生黑眼球中心位置,将实际视线角度与预设视线角度进行比较以确定学生注意力;郭赟等在文献“基于头部姿态的学习注意力判别研究”中提出通过卷积神经网络对面部特征点进行检测,接着采用比例正交投影迭代变换(POSIT)求解头部姿态的旋转和平移矩阵,最后通过判断头部的旋转角度是否在指定的阈值范围来确定注意力是否集中。但是,现有技术存在的缺陷有:传统的机器学习方法对头部姿态的估计过程中,对相机的外部参数过分依赖、估计的结果准确率较低;通过几何公式推导计算学生视点的投影坐标,对相机参数过于依赖、对头部姿态的容错能力较低,在应用上缺少鲁棒性,将严重影响最终的结果;只考虑头部姿态对视点坐标的影响,对于不同个体在教室中的位置因素缺少分析。本方法利用监控摄像头拍摄的视频数据,尝试对学生的视点位置进行估计。
发明内容
本发明的目的是针对现有技术的不足,而提供一种基于深度学习的学生视点估计方法。这种方法利用监控摄像头拍摄的视频数据,对学生的视点位置进行估计,能提高实际应用的鲁棒性,对复杂教室环境下的学生视点估计有较高的准确率,采用估计学生的视点位置,进一步分析学生的注意力,从而对课堂学生听课质量进行统计分析,为实现智慧课堂管理提供技术支持。
实现本发明目的的技术方案是:
一种基于深度学习的学生视点估计方法,包括如下步骤:
1)视频帧获取:依据布置在教室内的摄像头获取学生的视频帧,然后依次将采集的所有学生视频帧输入人脸检测网络模型MTCNN;
2)人脸检测:人脸检测网络模型MTCNN对步骤1)获得的视频帧进行特征提取,检测出每个学生视频帧中的人脸区域,并记录人脸的左上角坐标(x_min,y_min)和右下角坐标(x_max,y_max),最后,根据左上角坐标(x_min,y_min)和右下角坐标(x_max,y_max)对人脸进行裁剪,得到单张人脸图片,人脸的中心坐标(X人脸,Y人脸)如公式(1)所示:
3)hopenet头部姿态估计:将步骤2)裁剪的单张人脸图片输入头部姿态估计网络hopenet中,hopenet网络是Nataniel Ruiz等在文献“Fine-grained head poseestimation without keypoints”中提出的无关键点的精细头部姿态估计模型,头部姿态估计网络hopenet对人脸进行特征提取,根据最终的特征图估计人脸的俯仰角pitch、偏航角yaw和滚转角roll;
4)学生视点估计:将步骤3)得到的人脸俯仰角pitch、偏航角yaw和滚转角roll及步骤2)得到的人脸中心坐标(X人脸,Y人脸)5个参数输入学生视点估计网络gazeNet中,学生视点估计网络gazeNet经过线性回归得到学生在黑板区域的视点坐标(X视点,Y视点),gazeNet网络的神经元线性计算如公式(2)所示,其中ω是gazeNet网络学习得到的网络参数,x是输入的特征参数,b是偏移量,y是计算值,其次,神经元的激活函数采用leakyRelu,如公式(3)所示,其中x是公式(2)的计算值,leak是系数常量,y是神经元的输出值:
y=ωTx+b (2),
y=max(0,x)+leak*min(0,x) (3)。
步骤4)中所述的学生视点估计网络gazeNet采用深度学习框架Pytorch或TensorFlow进行搭建,并采集大量数据进行标注学习,学生视点估计网络gazeNet设有顺序连接的输入层、隐藏层和输出层,其中,输入层共计五个参数:人脸的中心坐标(X人脸,Y人脸)、人脸俯仰角(pitch)、偏航角(yaw)和滚转角(roll),隐藏层设有3个全连接层,每一个全连接层有12个神经元,神经元对上一层的输出值进行公式(2)计算,并用公式(3)激活输出,第1个全连接层的12个神经元采用公式(2)对输入层的5个参数进行计算,并将计算结果采用公式(3)激活输出;第2、3个全连接层对各自上一层的12个神经元的输出结果进行公式(2)的线性计算以及公式(3)的激活,并输出。
本技术方案针对传统几何方法中估计学生视点位置不具备鲁棒性的问题,选用深度神经网络对人脸的检测和头部姿态的估计,提高了人脸检测和头部姿态估计的准确性,通过搭建浅层神经网络对学生视点的估计,提高了在复杂教室环境下应用的鲁棒性。
这种方法利用监控摄像头拍摄的视频数据,对学生的视点位置进行估计,能提高实际应用的鲁棒性,对复杂教室环境下的学生视点估计有较高的准确率,采用估计学生的视点位置,进一步分析学生的注意力,从而对课堂学生听课质量进行统计分析,为实现智慧课堂管理提供技术支持。
附图说明
图1实施例的方法流程示意图;
图2为实施例中的浅层神经网络gazeNet结构示意图;
图3为实施例中方法的原理示意图。
具体实施方式
下面结合附图和实施例对本发明的内容作进一步的阐述,但不是对本发明的限定。
实施例:
参照图1,图3,一种基于深度学习的学生视点估计方法,包括如下步骤:
1)视频帧获取:依据布置在教室内的摄像头获取学生的视频帧,本例采用Opencv进行视频帧的获取,然后依次将采集的所有学生视频帧输入人脸检测网络模型MTCNN,MTCNN是多任务卷积神经网络人脸检测器,该检测器在大规模人脸数据集上训练并得到最优的模型,该模型将对视频帧进行提取特征,将提取的特征进行筛选分类,得到视频帧中人脸的区域;
2)人脸检测:人脸检测网络模型MTCNN对步骤1)获得的视频帧进行特征提取,检测出每个学生视频帧中的人脸区域,并记录人脸的左上角坐标(x_min,y_min)和右下角坐标(x_max,y_max),最后,根据左上角坐标(x_min,y_min)和右下角坐标(x_max,y_max)对人脸进行裁剪,得到单张人脸图片,人脸的中心坐标(X人脸,Y人脸)如公式(1)所示:
3)hopenet头部姿态估计:将步骤2)裁剪的单张人脸图片输入头部姿态估计网络hopenet中,hopenet网络是Nataniel Ruiz等在文献“Fine-grained head poseestimation without keypoints”中提出的无关键点的精细头部姿态估计模型,头部姿态估计网络hopenet对人脸进行特征提取,根据最终的特征图估计人脸的俯仰角pitch、偏航角yaw和滚转角roll;
4)学生视点估计:将步骤3)得到的人脸俯仰角pitch、偏航角yaw和滚转角roll及步骤2)得到的人脸中心坐标(X人脸,Y人脸)5个参数输入学生视点估计网络gazeNet中,学生视点估计网络gazeNet经过线性回归得到学生在黑板区域的视点坐标(X视点,Y视点),gazeNet网络的神经元线性计算如公式(2)所示,其中ω是gazeNet网络学习得到的网络参数,x是输入的特征参数,b是偏移量,y是计算值,其次,神经元的激活函数采用leakyRelu,如公式(3)所示,其中x是公式(2)的计算值,leak是系数常量,y是神经元的输出值:
y=ωTx+b (2),
y=max(0,x)+lea k*min(0,x) (3)。
如图2所示,步骤4)中所述的学生视点估计网络gazeNet采用深度学习框架Pytorch或TensorFlow进行搭建,并采集大量数据进行标注学习,学生视点估计网络gazeNet设有顺序连接的输入层、隐藏层和输出层,其中,输入层共计五个参数:人脸的中心坐标(X人脸,Y人脸)、人脸俯仰角(pitch)、偏航角(yaw)和滚转角(roll),隐藏层设有3个全连接层,每一个全连接层有12个神经元,神经元对上一层的输出值进行公式(2)计算,并用公式(3)激活输出。第1个全连接层的12个神经元采用公式(2)对输入层的5个参数进行计算,并将计算结果采用公式(3)激活输出;第2、3个全连接层对各自上一层的12个神经元的输出结果进行公式(2)的线性计算以及公式(3)的激活,并输出。
Claims (2)
1.一种基于深度学习的学生视点估计方法,其特征在于,包括如下步骤:
1)视频帧获取:依据布置在教室内的摄像头获取学生的视频帧,然后依次将采集的所有学生视频帧输入人脸检测网络模型MTCNN;
2)人脸检测:人脸检测网络模型MTCNN对步骤1)获得的视频帧进行特征提取,检测出每个学生在视频帧中的人脸区域,并记录人脸的左上角坐标(x_min,y_min)和右下角坐标(x_max,y_max),最后,根据左上角坐标(x_min,y_min)和右下角坐标(x_max,y_max)对人脸进行裁剪,得到单张人脸图片,人脸的中心坐标(X人脸,Y人脸)如公式(1)所示:
3)hopenet头部姿态估计:将步骤2)裁剪的单张人脸图片输入头部姿态估计网络hopenet中,头部姿态估计网络hopenet对人脸进行特征提取,根据最终的特征图估计人脸的俯仰角pitch、偏航角yaw和滚转角roll;
4)学生视点估计:将步骤3)得到的人脸俯仰角pitch、偏航角yaw和滚转角roll及步骤2)得到的人脸中心坐标(X人脸,Y人脸)5个参数输入学生视点估计网络gazeNet中,学生视点估计网络gazeNet经过线性回归得到学生在黑板区域的视点坐标(X视点,Y视点),gazeNet网络的神经元线性计算如公式(2)所示,其中ω是gazeNet网络学习得到的网络参数,x是输入的特征参数,b是偏移量,y是计算值,其次,神经元的激活函数采用leakyRelu,如公式(3)所示,其中x是公式(2)的计算值,leak是系数常量,y是神经元的输出值:
y=ωTx+b (2),
y=max(0,x)+leak*min(0,x) (3)。
2.根据权利要求1所述的基于深度学习的学生视点估计方法,其特征在于,步骤4)中所述的学生视点估计网络gazeNet采用深度学习框架Pytorch或TensorFlow进行搭建,并采集大量数据进行标注学习,学生视点估计网络gazeNet设有顺序连接的输入层、隐藏层和输出层,其中,输入层共计五个参数:人脸的中心坐标(X人脸,Y人脸)、人脸俯仰角(pitch)、偏航角(yaw)和滚转角(roll),隐藏层设有3个全连接层,每一个全连接层有12个神经元,神经元对上一层的输出值进行公式(2)计算,并用公式(3)激活输出。第1个全连接层的12个神经元采用公式(2)对输入层的5个参数进行计算,并将计算结果采用公式(3)激活输出;第2、3个全连接层对各自上一层的12个神经元的输出结果进行公式(2)的线性计算以及公式(3)的激活,并输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110868818.5A CN113569761B (zh) | 2021-07-30 | 2021-07-30 | 一种基于深度学习的学生视点估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110868818.5A CN113569761B (zh) | 2021-07-30 | 2021-07-30 | 一种基于深度学习的学生视点估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113569761A true CN113569761A (zh) | 2021-10-29 |
CN113569761B CN113569761B (zh) | 2023-10-27 |
Family
ID=78169424
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110868818.5A Active CN113569761B (zh) | 2021-07-30 | 2021-07-30 | 一种基于深度学习的学生视点估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113569761B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116524572A (zh) * | 2023-05-16 | 2023-08-01 | 北京工业大学 | 基于自适应Hope-Net的人脸精准实时定位方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104517102A (zh) * | 2014-12-26 | 2015-04-15 | 华中师范大学 | 学生课堂注意力检测方法及系统 |
CN108171152A (zh) * | 2017-12-26 | 2018-06-15 | 深圳大学 | 深度学习人眼视线估计方法、设备、系统及可读存储介质 |
CN108399376A (zh) * | 2018-02-07 | 2018-08-14 | 华中师范大学 | 学生课堂学习兴趣智能分析方法及系统 |
CN110223382A (zh) * | 2019-06-13 | 2019-09-10 | 电子科技大学 | 基于深度学习的单帧图像自由视点三维模型重建方法 |
US20200175264A1 (en) * | 2017-08-07 | 2020-06-04 | Shenzhen Institutes Of Advanced Technology Chinese Academy Of Sciences | Teaching assistance method and teaching assistance system using said method |
CN112541400A (zh) * | 2020-11-20 | 2021-03-23 | 小米科技(武汉)有限公司 | 基于视线估计的行为识别方法及装置、电子设备、存储介质 |
-
2021
- 2021-07-30 CN CN202110868818.5A patent/CN113569761B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104517102A (zh) * | 2014-12-26 | 2015-04-15 | 华中师范大学 | 学生课堂注意力检测方法及系统 |
US20200175264A1 (en) * | 2017-08-07 | 2020-06-04 | Shenzhen Institutes Of Advanced Technology Chinese Academy Of Sciences | Teaching assistance method and teaching assistance system using said method |
CN108171152A (zh) * | 2017-12-26 | 2018-06-15 | 深圳大学 | 深度学习人眼视线估计方法、设备、系统及可读存储介质 |
CN108399376A (zh) * | 2018-02-07 | 2018-08-14 | 华中师范大学 | 学生课堂学习兴趣智能分析方法及系统 |
CN110223382A (zh) * | 2019-06-13 | 2019-09-10 | 电子科技大学 | 基于深度学习的单帧图像自由视点三维模型重建方法 |
CN112541400A (zh) * | 2020-11-20 | 2021-03-23 | 小米科技(武汉)有限公司 | 基于视线估计的行为识别方法及装置、电子设备、存储介质 |
Non-Patent Citations (1)
Title |
---|
李雨峤;: "基于多元数据融合的课堂表现智能检测系统设计", 无线互联科技, no. 06 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116524572A (zh) * | 2023-05-16 | 2023-08-01 | 北京工业大学 | 基于自适应Hope-Net的人脸精准实时定位方法 |
CN116524572B (zh) * | 2023-05-16 | 2024-01-26 | 北京工业大学 | 基于自适应Hope-Net的人脸精准实时定位方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113569761B (zh) | 2023-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657553B (zh) | 一种学生课堂注意力检测方法 | |
JP2020525965A (ja) | 教学補助方法およびその方法を採用する教学補助システム | |
CN111563452B (zh) | 一种基于实例分割的多人体姿态检测及状态判别方法 | |
CN110197169A (zh) | 一种非接触式的学习状态监测系统及学习状态检测方法 | |
CN112183238B (zh) | 一种远程教育注意力检测方法及系统 | |
CN109241830B (zh) | 基于光照生成对抗网络的课堂听课异常检测方法 | |
CN108960067A (zh) | 基于深度学习的实时的列车驾驶员动作识别系统和方法 | |
CN110175534A (zh) | 基于多任务级联卷积神经网络的授课辅助系统 | |
CN105741375A (zh) | 一种大视场双目视觉的红外图像考勤方法 | |
CN112001219B (zh) | 一种多角度多人脸识别考勤方法及系统 | |
CN110490173B (zh) | 一种基于3d体感模型的智能动作打分系统 | |
CN110148092B (zh) | 基于机器视觉的青少年坐姿及情绪状态的分析方法 | |
CN111563449A (zh) | 一种实时课堂注意力检测方法及系统 | |
CN113705349A (zh) | 一种基于视线估计神经网络的注意力量化分析方法及系统 | |
CN111126330A (zh) | 一种瞳膜中心定位方法及学员听课疲劳度检测方法 | |
CN113569761B (zh) | 一种基于深度学习的学生视点估计方法 | |
Xu et al. | Classroom attention analysis based on multiple euler angles constraint and head pose estimation | |
CN113239794B (zh) | 一种面向在线学习的学习状态自动识别方法 | |
CN110705355A (zh) | 一种基于关键点约束的人脸姿态估计方法 | |
CN111898552B (zh) | 一种判别人员关注目标物的方法、装置及计算机设备 | |
CN113723277A (zh) | 一种融入多模态视觉信息的学习意图监测方法及系统 | |
CN112307899A (zh) | 一种基于深度学习的面部姿态检测与矫正方法及系统 | |
JP6773825B2 (ja) | 学習装置、学習方法、学習プログラム、及び対象物認識装置 | |
CN112149517A (zh) | 一种人脸考勤方法、系统、计算机设备及存储介质 | |
CN115829234A (zh) | 基于课堂检测的自动化督导系统及其工作方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |