CN113688789B - 一种基于深度学习的在线学习投入度识别方法及系统 - Google Patents
一种基于深度学习的在线学习投入度识别方法及系统 Download PDFInfo
- Publication number
- CN113688789B CN113688789B CN202111091047.XA CN202111091047A CN113688789B CN 113688789 B CN113688789 B CN 113688789B CN 202111091047 A CN202111091047 A CN 202111091047A CN 113688789 B CN113688789 B CN 113688789B
- Authority
- CN
- China
- Prior art keywords
- learning
- model
- input
- network
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000013135 deep learning Methods 0.000 title claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 65
- 238000001514 detection method Methods 0.000 claims abstract description 38
- 230000006870 function Effects 0.000 claims abstract description 26
- 230000008569 process Effects 0.000 claims abstract description 10
- 238000010276 construction Methods 0.000 claims description 9
- 238000013526 transfer learning Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000013434 data augmentation Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 238000012886 linear function Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 230000007547 defect Effects 0.000 abstract description 6
- 238000013461 design Methods 0.000 abstract description 6
- 238000010801 machine learning Methods 0.000 abstract description 6
- 230000000694 effects Effects 0.000 description 7
- 238000004088 simulation Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000001815 facial effect Effects 0.000 description 5
- 238000011176 pooling Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 230000003416 augmentation Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 208000000044 Amnesia Diseases 0.000 description 1
- 208000026139 Memory disease Diseases 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000006984 memory degeneration Effects 0.000 description 1
- 208000023060 memory loss Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Image Analysis (AREA)
Abstract
本发明设计了一种基于深度学习的在线学习投入度识别方法及系统,首先为了保证图像不受无关背景的影响,本发明通过YOLOv4进行学生人脸检测;其次针对VGG16网络参数量庞大、训练耗时等问题,提出了一种改进的VGG16模型,同时,在模型训练过程中,采用深度确定性信息瓶颈方法DIB弥补传统损失函数的不足,以获取较为紧致的特征表达,减少泛化误差,改善模型的通用性和稳定性,实现复杂在线学习场景下的学习投入度精准识别;最后通过与传统机器学习和其它深度学习等多种方法比较和分析,验证了本发明方法的有效性。
Description
技术领域
本发明属于图像识别、图像分类技术领域,具体涉及一种基于深度学习的在线学习投入度识别方法及系统,以实现复杂在线学习场景下的学习投入度精准识别,以期为在线教育中教师改进教学策略和提供教学干预提供支撑。
背景技术
随着互联网时代的到来,开放、共享式的在线学习日益成为一种重要的学习方式。在线学习突破了时空限制,其学习方式灵活、学习资源丰富,为教育领域注入了新的活力。学习投入是在线学习过程性评价的重要指标,当前许多相关研究已经充分证实学习效果与在线投入之间的联系,即学习投入度越高,学习效果越好。
在真实在线学习过程中,由于环境的复杂性和学习状态的内隐性,如何进行非侵入式的学习投入度识别仍然是一项具有挑战性的任务。因此,学习投入度识别的相关研究日益成为国内外在线教育的热点话题。传统用来衡量学习投入状态的工具如自我报告和人工观察法耗时费力、主观性强,缺乏理解投入状态和学习之间的相互作用所需的时间分辨率。因此,上述方法已无法满足在线学习的个性化学习需求。在线学习环境下,教师与学习者的时空的分离导致学习者的投入状态无法被直接观察,因此迫切需要一种自动化的识别方法解决该问题。
传统机器学习方法在面对大样本数据时,识别效率不高,且手工提取特征依赖以往经验,深度学习的出现有效缓解了此类问题。当前,越来越多的研究者聚焦于通过深度学习方法识别学习者投入度。最近,计算机视觉与教育教学的深度融合,为在线学习投入度自动识别带来了新的发展契机。基于计算机视觉的方法通常通过学习终端的摄像头采集学习者视频,然后通过面部图像提取获得学习投入特征,实现投入度的自动识别。然而,基于面部图像的在线学习投入度识别研究目前还存在许多问题:首先通过面部图像如何精准定义投入状态是一个难点问题,如若定义的有歧义,类别存在模糊性,会直接影响识别结果。其次,基于计算机视觉的方法通常建立在大样本数据库上,而当前公开的真实在线学习场景下的投入数据库较为缺乏,限制了此类研究的推进。
综上所述,通过面部特征识别学习投入度受到研究者广泛关注。当前识别的方法主要分为传统机器学习方法和深度学习的方法,但是这两种方法都有局限性:首先传统机器学习方法适合小样本分类问题,对于更复杂的特征提取不全面,而深度学习方法虽然对大样本容量或者复杂的分类问题有优势,但是由于深度网络层次结构较深,包含的参数较多,训练过程中容易得到局部最优值。
因此,本发明立足于研究内容,设计一种高效的深度学习方法实现在线学习投入度识别,为实时感知学习者学习状态提供技术支撑。
发明内容
本发明针对当前学习投入度识别精度不高的问题,从视频中的学习者面部表情信息入手,设计学习投入度识别算法评估学习者投入状态,本发明提供了一种基于深度学习的在线学习投入度识别方法,以期为在线教育中的教师改进教学策略、提供学习干预提供帮助。
本发明提供的一种基于深度学习的在线学习投入度识别方法,包括如下步骤:
步骤1,基于学习视频构建学习投入数据库;
步骤2,利用YOLOv4目标检测模型在学习投入数据库上进行迁移学习,用来进行学生人脸检测任务,并在公开人脸检测数据集上训练得到YOLOv4预训练模型;
步骤3,在学习投入数据库上,通过训练集不断训练网络模型,验证集测试网络模型性能,最终通过多次迭代和调整网络参数获取到最优的YOLOv4检测模型,并检测获得学习投入数据库上的人脸;
步骤4,修改VGG16网络结构模型,并利用改进的VGG16模型进行训练,调参获取最佳模型;
步骤5,利用训练好的改进的VGG16模型从检测到的人脸中识别学习投入度。
进一步的,步骤1的具体实现过程如下;
1a)在真实的学习环境中采集学生在线学习的视频,从收集的M个学生学习视频抽取图像帧并进行投入度标注,对每个视频片段按照每间隔a帧抽取一帧的规则进行抽取,从视频序列中抽取m张图片;
1b)进行数据标记,将m张图片中的学生个体进行标记,目的在于将学生与环境分离,并赋予图片标签值,为m张图片中的学生个体分配投入度标签值b,其中b有C类。
进一步的,改进的VGG16模型的网络结构如下;
(1)将VGG16网路结构模型的第18层Max Pool替换为Global Pool,减少参数量;
(2)将VGG16网路结构模型的第20-21层Full Connet剔除,并将全连接层的节点数对应投入类别数目a;
(3)在VGG16最后一层全连接层之前引入dropout策略,以增强模型的鲁棒性。
进一步的,训练改进的VGG16模型时,采用数据增广方式,将训练数据集按照某种特定的变换规则,产生新的图像,具体包括;
a)图像向左旋转20度;
b)图像向右旋转20度;
c)图像水平翻转;
d)图像向左平移20个像素点;
e)随机设置部分像素值为零;
f)添加高斯噪声;
g)添加高斯模糊;
h)将每张图像每隔两行的像素点变成黑色的条带。
进一步的,所述改进的VGG16模型包括14个隐藏层,即13个卷积层和1个全连接层,所有隐藏层的激活单元都采用ReLU函数,ReLU的表达式f(x)以及其导数f’(x)的计算公式如下所示:
f(x)=max(0,x) (1)
ReLU函数是分段线性函数,把所有的负值都变为0,而正值不变,这种操作被成为单侧抑制。
进一步的,采用深度确定性信息瓶颈DIB作为VGG16模型的损失函数,弥补传统损失函数的不足,以获取较为紧致的特征表达,减少泛化误差,改善模型的通用性和稳定性,DIB定义了一个最优的特征表示,即网络所学习到的输入数据的特征表示T应该与输入X之间的互信息MI最小,同时与理想输出Y的互信息最大,互信息利用熵来描述变量之间的非线性相关性,MI的值反映变量之间的相关性强弱,MI值越大,说明相关性越强;两个变量之间的MI值定义为:
I(Y;T)=H(Y)-H(Y|T) (3)
其中,H(Y)表示Y的熵;H(Y|T)表示给网络所学习到的输入数据的特征表示T的条件下,Y和T的条件信息熵,t∈T,T为网络所学习到的输入数据的特征表示,y∈Y;由于H(Y)是一个与神经网络无关的参数,因此由公式(3)可以得到:
进一步的,给定一个训练数据集D=(xi,yi)i=1,...,N及其先验分布p(xi,yi),其中N为训练数据集中样本个数,xi为输入的图像集合,yi为在输入xi图像情况下的理想输出的分类结果集合,从该分布中可以对训练集进行采样,条件概率pθ(t|xi)和pθ(yi|t)由θ进行参数化,其θ表示网络参数,E表示期望。然后,可以得到给网络所学习到的输入数据的特征表示T的条件下,Y和T的条件信息熵:
进一步的,根据经验可以近似的得到平均交叉熵损失,即DIB,其计算公式如下:
综上,DIB可以解释为通过了加权可微互信息项I(Y;T)而得的经典交叉损失熵。
本发明还提供一种基于深度学习的在线学习投入度识别系统,包括如下模块:
学习投入数据库构建模块,用于基于学习视频构建学习投入数据库;
人脸检测模型构建模块,用于利用YOLOv4目标检测模型在学习投入数据库上进行迁移学习,用来进行学生人脸检测任务,并在公开人脸检测数据集上训练得到YOLOv4预训练模型;
人脸检测模块,用于在学习投入数据库上,通过训练集不断训练网络模型,验证集测试网络模型性能,最终通过多次迭代和调整网络参数获取到最优的YOLOv4检测模型,并检测获得学习投入数据库上的人脸;
学习投入度识别模型构建模块,用于修改VGG16网络结构模型,并利用改进的VGG16模型进行训练,调参获取最佳模型;
最终识别模块,用于利用训练好的改进的VGG16模型从检测到的人脸中识别学习投入度。
进一步的,所述改进的VGG16模型的网络结构如下;
(1)将VGG16网路结构模型的第18层Max Pool替换为Global Pool,减少参数量;
(2)将VGG16网路结构模型的第20-21层Full Connet剔除,并将全连接层的节点数对应投入类别数目a;
(3)在VGG16最后一层全连接层之前引入dropout策略,以增强模型的鲁棒性。
进一步的,所述改进的VGG16模型包括14个隐藏层,即13个卷积层和1个全连接层,所有隐藏层的激活单元都采用ReLU函数,ReLU的表达式f(x)以及其导数f’(x)的计算公式如下所示:
f(x)=max(0,x) (1)
ReLU函数是分段线性函数,把所有的负值都变为0,而正值不变,这种操作被成为单侧抑制。
进一步的,采用深度确定性信息瓶颈DIB作为VGG16模型的损失函数,弥补传统损失函数的不足,以获取较为紧致的特征表达,减少泛化误差,改善模型的通用性和稳定性,DIB定义了一个最优的特征表示,即网络所学习到的输入数据的特征表示T应该与输入X之间的互信息MI最小,同时与理想输出Y的互信息最大,互信息利用熵来描述变量之间的非线性相关性,MI的值反映变量之间的相关性强弱,MI值越大,说明相关性越强;两个变量之间的MI值定义为:
I(Y;T)=H(Y)-H(Y|T) (3)
其中,H(Y)表示Y的熵;H(Y|T)表示给网络所学习到的输入数据的特征表示T的条件下,Y和T的条件信息熵,t∈T,T为网络所学习到的输入数据的特征表示,y∈Y;由于H(Y)是一个与神经网络无关的参数,因此由公式(1)可以得到:
进一步的,给定一个训练数据集D=(xi,yi)i=1,...,N及其先验分布p(xi,yi),其中N为训练数据集中样本个数,xi为输入的图像集合,yi为在输入xi图像情况下的理想输出的分类结果集合,从该分布中可以对训练集进行采样,条件概率pθ(t|xi)和pθ(yi|t)由θ进行参数化,其θ表示网络参数,,E表示期望;然后,可以得到给网络所学习到的输入数据的特征表示T的条件下,Y和T的条件信息熵:
进一步的,根据经验可以近似的得到平均交叉熵损失,即DIB,其计算公式如下:
综上,DIB可以解释为通过了加权可微互信息项I(Y;T)而得的经典交叉损失熵。
本发明与现有技术相比,具有有益效果:
1.本发明提供的基于深度学习的学习投入度识别方法及系统,将在线学习环境下的学生学习状态划分为不同的学习投入度状态,了解学生在不同网络学习时空中的学习状态,据此更好提供精准教学干预和个性化学习支持服务,为课程教学设计和学习设计优化提供依据。
2.本发明采用迁移学习,在学生数据库上重新训练YOLOv4目标检测算法,并通过不断地调参,使得模型可以有效检测学生个体,且具备一定泛化能力。
3.在分类模型方面,本发明针对VGG16网络参数量庞大、训练耗时等问题,提出了一种改进的VGG16模型,在保证模型特征信息不流失的前提下减少了模型参数量。
4.在VGG16模型训练过程中,采用DIB法弥补传统损失函数的不足,以获取较为紧致的特征表达,减少泛化误差,改善模型的通用性和稳定性,实现复杂在线学习场景下的投入度精准识别。
附图说明
图1为本发明的基于深度学习的学习投入识别方法流程框图。
图2为数据增广示意图;
图3为仿真模拟所用数据分布图;
图4为本发明模型测试样本时产生的混淆矩阵图;
具体实施方式
以下参照附图,对本发明的技术方案和效果做进一步详细描述。
为实现上述目的,按照本发明的第一方面,提供了一种基于深度学习的在线学习投入度识别方法,包括YOLOv4进行迁移学习过程和改进的VGG16模型进行投入度识别过程,主要步骤分为:
利用YOLOv4目标检测模型在学习投入数据库上进行迁移学习,用来进行学生人脸检测任务,具体包括设置网络参数、训练网络模型以及验证网络模型;
使用改进的VGG16模型进行学习投入度识别任务,具体包括激活函数的设置、损失函数的设计、优化算法的选择以及相关参数的调整;
为了保证图像不受无关背景的影响,本发明通过迁移YOLOv4网络结构模型,在学习投入数据库上进行训练,获取最佳模型,进行人脸检测。其次,利用改进的VGG16网络结构进行学习投入识别,该改进可以缓解原VGG16网络参数量庞大、训练耗时等问题。然后,在模型训练过程中,采用深度确定性信息瓶颈方法(Deep Deterministic InformationBottleneck,DIB)弥补传统损失函数的不足,以获取较为紧致的特征表达,减少泛化误差,改善模型的通用性和稳定性。最后,利用训练得到的模型实现复杂在线学习场景下的学习投入精准识别。
具体步骤包括:
1.基于视频构建学习投入数据库;
1)优选的,数据的采集应尽可能接近真实的学习环境设置,如可能出现的各种头部姿势、低面部分辨率、光照和遮挡等问题,且考虑空间和时间维度,为后面的算法模型训练奠定良好的数据库基础。
2)优选的,从收集到的M个学生学习视频中抽取帧进行投入度标注,对每个视频片段按照每间隔a帧抽取一帧的规则进行抽取,从视频序列中抽取m张图片。
3)进一步的,进行数据标记,将m张图片中的学生个体进行标记,目的在于将学生与环境分离,并赋予图片标签值,为m张图片中的学生个体分配投入度标签值b(b有C类)。
2.在公开人脸检测数据集上训练得到YOLOv4预训练模型;
3.在学习投入数据库上,通过训练集不断训练网络模型,验证集测试网络模型性能,最终通过多次迭代和调整网络参数获取到最优的YOLOv4检测模型;
4.进一步的,将训练的最佳模型保存,用于后续投入度识别任务中的人脸检测。
5.修改VGG16网络结构模型,减少参数量和训练过程中的内存损耗;
1)优选的,将VGG16网路结构模型的第18层Max Pool替换为Global Pool,减少参数量。
2)进一步的,将VGG16网路结构模型的第20-21层Full Connet剔除,并将全连接层的节点数对应投入类别数目a;
3)进一步的,在VGG16最后一层全连接层之前引入dropout策略,以增强模型的鲁棒性。
5.利用改进的VGG16模型进行训练,调参获取最佳模型;
1)优选的,在训练时增强模型泛化能力,采用数据增广方式,将训练数据集按照某种特定的变换规则,产生新的图像,具体包括:
a)图像向左旋转20度;
b)图像向右旋转20度;
c)图像水平翻转;
d)图像向左平移20个像素点;
e)随机设置部分像素值为零;
f)添加高斯噪声;
g)添加高斯模糊;
h)将每张图像每隔两行的像素点变成黑色的条带。
2)优选的,改进的VGG16结构模型包括14个隐藏层(13个卷积层和1个全连接层),所有隐藏层的激活单元都采用ReLU函数。选用ReLU型函数作为模型激活函数,ReLU的表达式f(x)以及其导数f’(x)的计算公式如下所示:
f(x)=max(0,x) 公式1
ReLU函数其实是分段线性函数,把所有的负值都变为0,而正值不变,这种操作被成为单侧抑制。正因为有了这单侧抑制,才使得神经网络中的神经元也具有了稀疏激活性。
3)优选的,采用深度确定性信息瓶颈(Deep Deterministic InformationBottleneck,DIB)作为VGG16模型的损失函数,弥补传统损失函数的不足,以获取较为紧致的特征表达,减少泛化误差,改善模型的通用性和稳定性。DIB方法源于信息瓶颈理论,信息瓶颈理论的主要思想如下:
在特征提取阶段,通过整合所有局部特征得到了全局特征,这可能带来与故障诊断任务无关的冗余信息,因此,希望利用信息瓶颈思想过滤这部分信息,从而提取最精炼的特征表示。信息瓶颈理论定义了一个最优的特征表示,即网络所学习到的输入数据的特征表示T应该与输入X之间的互信息(Mutual Information,MI)最小,同时与理想输出Y的互信息最大。互信息利用熵来描述变量之间的非线性相关性。MI的值可以反映变量之间的相关性强弱,MI值越大,说明相关性越强。两个变量之间的MI值可以定义为:
I(Y;T)=H(Y)-H(Y|T) 公式3
其中,H(Y)表示Y的熵;H(Y|T)表示给网络所学习到的输入数据的特征表示T的条件下,Y和T的条件信息熵,由于H(Y)是一个与神经网络无关的参数,因此由公式3可以得到:
进一步的,给定一个训练数据集D=(xi,yi)i=1,...,N(N为训练数据集中样本个数,xi为输入的图像集合,yi为在输入xi图像情况下的理想输出的分类结果集合)及其先验分布p(xi,yi),从该分布中可以对训练集进行采样,条件概率pθ(t|xi)和pθ(yi|t)由θ进行参数化(θ表示网络参数,t∈T,T为网络所学习到的输入数据的特征表示),E表示期望。然后,可以得到给网络所学习到的输入数据的特征表示T的条件下,Y和T的条件信息熵:
进一步的,根据经验可以近似的得到平均交叉熵损失,即本发明提出的DIB方法,其计算公式如下:
综上,DIB方法可以解释为通过了加权可微互信息项I(Y;T)而的经典交叉损失熵。
6.利用训练好的检测模型和识别模型从学习视频中识别学习投入度。
按照本发明的第二方面,提供了一种基于深度学习的学习投入度识别系统,包括如下模块:
学习投入数据库构建模块,用于基于学习视频构建学习投入数据库;
人脸检测模型构建模块,用于利用YOLOv4目标检测模型在学习投入数据库上进行迁移学习,用来进行学生人脸检测任务,并在公开人脸检测数据集上训练得到YOLOv4预训练模型;
人脸检测模块,用于在学习投入数据库上,通过训练集不断训练网络模型,验证集测试网络模型性能,最终通过多次迭代和调整网络参数获取到最优的YOLOv4检测模型,并检测获得学习投入数据库上的人脸;
学习投入度识别模型构建模块,用于修改VGG16网络结构模型,并利用改进的VGG16模型进行训练,调参获取最佳模型;
最终识别模块,用于利用训练好的改进的VGG16模型从检测到的人脸中识别学习投入度。
各模块的具体实现方式与各步骤相应,本发明不予撰述。
参照图1,即本发明的基于深度学习的学习投入度识别方法流程框图,具体实施步骤如下:
1)本发明通过PASCAL VOC2007数据集得到预训练模型YOLOv4,通过迁移学习的方式,将其用于学习者人脸检测任务中。在学习投入数据库上,通过训练集不断训练网络模型,验证集测试网络模型性能,最终通过多次迭代和调整网络参数获取到了最优的检测模型,将模型保存,用于后续学习投入度识别任务的人脸检测中。
2)本发明所涉及的VGG16模型在实际应用中,其参数比较多,训练时不仅耗时而且耗费内存,且训练网络前,Learning rate初始值需要设置的比较低,但又容易导致模型收敛速度慢。基于此,本发明提出了一种改进的VGG16进行学习投入度识别,改进策略如下:
2a)首先将VGG16的三个全连接层丢弃两个,仅保留一个全连接层,并将全连接层的节点数对应学习投入度类别数目4,该操作可以显著减少网络模型的参数量,学习投入获取的特征信息也能较好保留。
2b)其次用一个全局池化层替代网络最后的最大池化层,再次减少参数量。
2c)针对学习投入数据库容量不大,模型训练易产生过拟合问题,除了对数据进行增广操作,本发明在VGG16最后一层全连接层之前引入dropout策略,以增强模型的鲁棒性。
VGG16和本发明的网络结构及参数对比如表1所示,改进模型因剔除掉了两层全连接层,且网络中最后一个池化层变成了全局池化层,参数量大幅减少,只有改进前的11%。因此本发明所采用的改进的VGG16模型可以有效减少内存空间占用。
表1 VGG16和MyVGG16网络结构及参数量对比
3)根据增广原理及数据库的特点,本文主要采用了以下方法进行图像增广:
3a)图像向左旋转20度;
3b)图像向右旋转20度;
3c)图像水平翻转;
3d)图像向左平移20个像素点;
3e)随机设置部分像素值为零;
3f)添加高斯噪声;
3g)高斯模糊;
3h)自定义一些变换函数,将每张图像每隔两行的像素点变成黑色的条带,关键点保留。
图2为随机选取的一张图像通过以上8种方式增广后的情况,通过此种方式扩大样本容量。
本发明的效果可以用下列的仿真实验进一步说明:
(1)仿真条件
本发明的仿真的硬件条件为:Windows 10,Intel Xeon E5-2620处理器、NVIDIAGeForce GTX 1080Ti x2;软件平台为:PyCharm;
仿真选用的图片来源于自然场景中收集的50名在校大学生在线学习投入度数据,得到了50位学习者的学习视频数据共计73个,经过裁剪标注,获得四个类别的学生投入度数据,每一类的标记样本数目如图3所示。
仿真方法分别用本发明方法和现有深度学习方法:GooLeNet、ResNet18、Xception和VGG16(未修改前)以及传统机器学习方法:SIFT、HOG、HOG+SIFT。
(2)仿真内容及结果
图4显示出本发明方法保存训练好的模型后随机抽取测试样本获得的混淆矩阵。水平轴表示实际的测试集类别,垂直轴表示预测结果。不难看出,DisEngagement、LowEngagement、HighEngagement的识别率最高,准确率达到98%以上,MediumEngagement最低。通过分析,发现类间的相似性和类内的差异性会影响识别的准确性。
表2多种深度学习识别效果比较
表3与传统机器方法识别效果比较
通过表2和表3我们可以发现,基于传统机器学习算法的识别结果都低于深度学习方法,但HOG与SIFT特征间的融合的识别结果高于这两者单独的识别效果。主要原因在于单一的学习投入特征具有表征能力不足的问题。相反,深度学习的学习能力很强,提取的特征抽象层次更高,更具有泛化性。因此对于学习投入度识别研究,我们更推荐采用深度学习的方式。本发明提出的方法在与其他几个深度学习方法相比,识别结果是最好的。再次证明本发明的有效性。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (6)
1.一种基于深度学习的在线学习投入度识别方法,其特征在于,包括如下步骤:
步骤1,基于学习视频构建学习投入数据库;
步骤2,利用YOLOv4目标检测模型在学习投入数据库上进行迁移学习,用来进行学生人脸检测任务,并在公开人脸检测数据集上训练得到YOLOv4预训练模型;
步骤3,在学习投入数据库上,通过训练集不断训练网络模型,验证集测试网络模型性能,最终通过多次迭代和调整网络参数获取到最优的YOLOv4检测模型,并检测获得学习投入数据库上的人脸;
步骤4,修改VGG16网络结构模型,并利用改进的VGG16模型进行训练,调参获取最佳模型;
改进的VGG16模型的网络结构如下;
(1)将VGG16网路结构模型的第18层Max Pool替换为Global Pool;
(2)将VGG16网路结构模型的第20-21层Full Connet剔除,并将全连接层的节点数对应投入类别数目a;
(3)在VGG16最后一层全连接层之前引入dropout策略;采用深度确定性信息瓶颈DIB作为VGG16模型的损失函数,DIB定义了一个最优的特征表示,即网络所学习到的输入数据的特征表示T应该与输入X之间的互信息MI最小,同时与理想输出Y的互信息最大,互信息利用熵来描述变量之间的非线性相关性,MI的值反映变量之间的相关性强弱,MI值越大,说明相关性越强;两个变量之间的MI值定义为:
I(Y;T)=H(Y)-H(Y|T) (3)
其中,H(Y)表示Y的熵;H(Y|T)表示给网络所学习到的输入数据的特征表示T的条件下,Y和T的条件信息熵,t∈T,T为网络所学习到的输入数据的特征表示,y∈Y;由于H(Y)是一个与神经网络无关的参数,因此由公式(3)得到:
进一步的,给定一个训练数据集D=(xi,yi),i=1,…,N及其先验分布p(xi,yi),其中N为训练数据集中样本个数,xi为输入的图像集合,yi为在输入xi图像情况下的理想输出的分类结果集合,从该分布中对训练集进行采样,条件概率pθ(t|xi)和pθ(yi|t)由θ进行参数化,其中θ表示网络参数,E表示期望;然后,得到在网络所学习到的输入数据的特征表示T的条件下,Y和T的条件信息熵:
进一步的,根据经验近似地得到平均交叉熵损失,即DIB,其计算公式如下:
综上,DIB为通过了加权可微互信息项I(Y;T)而得的经典交叉损失熵;
步骤5,利用训练好的改进的VGG16模型从检测到的人脸中识别学习投入度。
2.如权利要求1所述的一种基于深度学习的在线学习投入度识别方法,其特征在于:步骤1的具体实现过程如下;
1a)在真实的学习环境中采集学生在线学习的视频,从收集的M个学生学习视频抽取图像帧并进行投入度标注,对每个视频片段按照每间隔a帧抽取一帧的规则进行抽取,从视频序列中抽取m张图片;
1b)进行数据标记,将m张图片中的学生个体进行标记,目的在于将学生与环境分离,并赋予图片标签值,为m张图片中的学生个体分配投入度标签值b,其中b有C类。
3.如权利要求1所述的一种基于深度学习的在线学习投入度识别方法,其特征在于:训练改进的VGG16模型时,采用数据增广方式,将训练数据集按照特定的变换规则,产生新的图像,具体包括;
a)图像向左旋转20度;
b)图像向右旋转20度;
c)图像水平翻转;
d)图像向左平移20个像素点;
e)随机设置部分像素值为零;
f)添加高斯噪声;
g)添加高斯模糊;
h)将每张图像每隔两行的像素点变成黑色的条带。
4.如权利要求1所述的一种基于深度学习的在线学习投入度识别方法,其特征在于:所述改进的VGG16模型包括14个隐藏层,即13个卷积层和1个全连接层,所有隐藏层的激活单元都采用ReLU函数,ReLU的表达式f(x)以及其导数f’(x)的计算公式如下所示:
f(x)=max(0,x) (1)
ReLU函数是分段线性函数,把所有的负值都变为0,而正值不变。
5.一种基于深度学习的在线学习投入度识别系统,其特征在于,包括如下模块:
学习投入数据库构建模块,用于基于学习视频构建学习投入数据库;
人脸检测模型构建模块,用于利用YOLOv4目标检测模型在学习投入数据库上进行迁移学习,用来进行学生人脸检测任务,并在公开人脸检测数据集上训练得到YOLOv4预训练模型;
人脸检测模块,用于在学习投入数据库上,通过训练集不断训练网络模型,验证集测试网络模型性能,最终通过多次迭代和调整网络参数获取到最优的YOLOv4检测模型,并检测获得学习投入数据库上的人脸;
学习投入度识别模型构建模块,用于修改VGG16网络结构模型,并利用改进的VGG16模型进行训练,调参获取最佳模型;
所述改进的VGG16模型的网络结构如下;
(1)将VGG16网路结构模型的第18层Max Pool替换为Global Pool;
(2)将VGG16网路结构模型的第20-21层Full Connet剔除,并将全连接层的节点数对应投入类别数目a;
(3)在VGG16最后一层全连接层之前引入dropout策略;
采用深度确定性信息瓶颈DIB作为VGG16模型的损失函数,DIB定义了一个最优的特征表示,即网络所学习到的输入数据的特征表示T应该与输入X之间的互信息MI最小,同时与理想输出Y的互信息最大,互信息利用熵来描述变量之间的非线性相关性,MI的值反映变量之间的相关性强弱,MI值越大,说明相关性越强;两个变量之间的MI值定义为:
I(Y;T)=H(Y)-H(Y|T) (3)
其中,H(Y)表示Y的熵;H(Y|T)表示给网络所学习到的输入数据的特征表示T的条件下,Y和T的条件信息熵,t∈T,T为网络所学习到的输入数据的特征表示,y∈Y;由于H(Y)是一个与神经网络无关的参数,因此由公式(3)得到:
进一步的,给定一个训练数据集D=(xi,yi),i=1,…,N及其先验分布p(xi,yi),其中N为训练数据集中样本个数,xi为输入的图像集合,yi为在输入xi图像情况下的理想输出的分类结果集合,从该分布中对训练集进行采样,条件概率pθ(t|xi)和pθ(yi|t)由θ进行参数化,其中θ表示网络参数,E表示期望;然后,得到在网络所学习到的输入数据的特征表示T的条件下,Y和T的条件信息熵:
进一步的,根据经验近似地得到平均交叉熵损失,即DIB,其计算公式如下:
综上,DIB为通过了加权可微互信息项I(Y;T)而得的经典交叉损失熵;
最终识别模块,用于利用训练好的改进的VGG16模型从检测到的人脸中识别学习投入度。
6.如权利要求5所述的一种基于深度学习的在线学习投入度识别系统,其特征在于:所述改进的VGG16模型包括14个隐藏层,即13个卷积层和1个全连接层,所有隐藏层的激活单元都采用ReLU函数,ReLU的表达式f(x)以及其导数f’(x)的计算公式如下所示:
f(x)=max(0,x) (1)
ReLU函数是分段线性函数,把所有的负值都变为0,而正值不变。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111091047.XA CN113688789B (zh) | 2021-09-17 | 2021-09-17 | 一种基于深度学习的在线学习投入度识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111091047.XA CN113688789B (zh) | 2021-09-17 | 2021-09-17 | 一种基于深度学习的在线学习投入度识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113688789A CN113688789A (zh) | 2021-11-23 |
CN113688789B true CN113688789B (zh) | 2023-11-10 |
Family
ID=78586705
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111091047.XA Active CN113688789B (zh) | 2021-09-17 | 2021-09-17 | 一种基于深度学习的在线学习投入度识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113688789B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023184144A1 (zh) * | 2022-03-29 | 2023-10-05 | 中国科学院深圳先进技术研究院 | 一种用于评估深度超分辨率网络泛化能力的方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110276248A (zh) * | 2019-05-10 | 2019-09-24 | 杭州电子科技大学 | 一种基于样本权值分配和深度学习的人脸表情识别方法 |
CN113158880A (zh) * | 2021-04-19 | 2021-07-23 | 中国海洋大学 | 一种基于深度学习的学生课堂行为识别方法 |
WO2021155713A1 (zh) * | 2020-09-08 | 2021-08-12 | 平安科技(深圳)有限公司 | 基于权重嫁接的模型融合的人脸识别方法及相关设备 |
CN113361307A (zh) * | 2020-03-06 | 2021-09-07 | 上海卓繁信息技术股份有限公司 | 一种人脸表情分类方法,装置及存储设备 |
CN113392766A (zh) * | 2021-06-16 | 2021-09-14 | 哈尔滨理工大学 | 一种基于注意力机制的人脸表情识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191655B (zh) * | 2018-11-14 | 2024-04-16 | 佳能株式会社 | 对象识别方法和装置 |
-
2021
- 2021-09-17 CN CN202111091047.XA patent/CN113688789B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110276248A (zh) * | 2019-05-10 | 2019-09-24 | 杭州电子科技大学 | 一种基于样本权值分配和深度学习的人脸表情识别方法 |
CN113361307A (zh) * | 2020-03-06 | 2021-09-07 | 上海卓繁信息技术股份有限公司 | 一种人脸表情分类方法,装置及存储设备 |
WO2021155713A1 (zh) * | 2020-09-08 | 2021-08-12 | 平安科技(深圳)有限公司 | 基于权重嫁接的模型融合的人脸识别方法及相关设备 |
CN113158880A (zh) * | 2021-04-19 | 2021-07-23 | 中国海洋大学 | 一种基于深度学习的学生课堂行为识别方法 |
CN113392766A (zh) * | 2021-06-16 | 2021-09-14 | 哈尔滨理工大学 | 一种基于注意力机制的人脸表情识别方法 |
Non-Patent Citations (1)
Title |
---|
基于深度卷积神经网络与中心损失的人脸识别;张延安;王宏玉;徐方;;科学技术与工程(第35期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113688789A (zh) | 2021-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108537269B (zh) | 一种弱交互式的物体检测深度学习方法及其系统 | |
WO2019028592A1 (zh) | 一种教学辅助方法及采用该方法的教学辅助系统 | |
CN116091886A (zh) | 一种基于教师学生模型与强弱分支的半监督目标检测方法及系统 | |
US20230290118A1 (en) | Automatic classification method and system of teaching videos based on different presentation forms | |
CN113628297A (zh) | 一种基于注意力机制和迁移学习的covid-19深度学习诊断系统 | |
CN115810163B (zh) | 一种基于ai课堂行为识别的教学评估方法和系统 | |
CN111611854B (zh) | 一种基于模式识别的课堂情况评价方法 | |
CN115240259A (zh) | 一种基于yolo深度网络的课堂环境下人脸检测方法及其检测系统 | |
Tang et al. | Automatic facial expression analysis of students in teaching environments | |
CN114898460B (zh) | 一种基于图卷积神经网络的教师非言语行为检测方法 | |
CN117058752A (zh) | 一种基于改进YOLOv7的学生课堂行为检测方法 | |
CN113688789B (zh) | 一种基于深度学习的在线学习投入度识别方法及系统 | |
Yang et al. | Student in-class behaviors detection and analysis system based on CBAM-YOLOv5 | |
Che et al. | A database of students’ spontaneous actions in the real classroom environment | |
Zhang et al. | HVS revisited: A comprehensive video quality assessment framework | |
CN113536926A (zh) | 基于距离向量和多角度自适应网络的人体动作识别方法 | |
CN112488165A (zh) | 一种基于深度学习模型的红外行人识别方法及系统 | |
CN115471773B (zh) | 一种面向智慧教室的学生跟踪方法及系统 | |
CN115719497A (zh) | 一种学生专注度识别方法及系统 | |
Wenchao et al. | Research on intelligent recognition algorithm of college students’ classroom behavior based on improved SSD | |
CN115909493A (zh) | 一种面向课堂实录视频的教师不当手势检测方法及系统 | |
CN112686128B (zh) | 基于机器学习的教室课桌检测方法 | |
CN113723233A (zh) | 一种基于分层时序多示例学习的学生学习参与度评估方法 | |
Wang | Application of AI Intelligent Learning System in Multimedia Demonstration | |
Li et al. | Delving Deeper Into Image Dehazing: A Survey |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |