CN115719497A - 一种学生专注度识别方法及系统 - Google Patents

一种学生专注度识别方法及系统 Download PDF

Info

Publication number
CN115719497A
CN115719497A CN202211510373.4A CN202211510373A CN115719497A CN 115719497 A CN115719497 A CN 115719497A CN 202211510373 A CN202211510373 A CN 202211510373A CN 115719497 A CN115719497 A CN 115719497A
Authority
CN
China
Prior art keywords
concentration
sequence
student
video frame
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211510373.4A
Other languages
English (en)
Inventor
张�浩
黄涛
刘三女牙
李宗霖
王翔宇
闵远东
戴志诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central China Normal University
Original Assignee
Central China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central China Normal University filed Critical Central China Normal University
Priority to CN202211510373.4A priority Critical patent/CN115719497A/zh
Publication of CN115719497A publication Critical patent/CN115719497A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提供了一种学生专注度识别方法及系统,方法包括:获取目标学生的学习视频的视频帧序列;基于专注度识别模型中的特征提取网络,对所述视频帧序列进行多尺度特征提取并获得所述视频帧序列的多尺度特征序列;基于专注度识别模型中的分类网络,对所述多尺度特征序列进行专注度分类并获得所述目标学生的专注度;其中,所述专注度识别模型是基于样本视频帧序列以及所述样本视频帧序列中学生的样本专注度训练得到的。本发明实现了学生专注度的自动识别,在节省人力成本的同时,提升了学生专注度识别的准确率和效率。

Description

一种学生专注度识别方法及系统
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及一种学生专注度识别方法及系统。
背景技术
学生在课堂中的专注度可以看作是学生在课堂中注意力的集中程度、学习参与状况等的综合体现,因此学生在课堂中的专注度可以作为教学过程评价参考的指标之一。
目前,学生专注度识别方法通常采用手动识别法,该方法需要学习者直接参与到检测的过程中。这种方法往往需要花费大量的时间和精力,并且还有许多研究人员无法控制的因素都影响着自我报告和观察者评价的结果有效性,具有一定的随机性与主观性,导致识别准确率较低。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种学生专注度识别方法及系统,旨在解决现有学生专注度识别方法人力成本较高、识别准确率较低的问题。
为实现上述目的,第一方面,本发明提供了一种学生专注度识别方法,包括:
S101获取目标学生的学习视频的视频帧序列;
S102基于专注度识别模型中的特征提取网络,对所述视频帧序列进行多尺度特征提取并获得所述视频帧序列的多尺度特征序列;
S103基于专注度识别模型中的分类网络,对所述多尺度特征序列进行专注度分类并获得所述目标学生的专注度;
其中,所述专注度识别模型是基于样本视频帧序列以及所述样本视频帧序列中学生的样本专注度训练得到的。
在一个可选的示例中,所述样本视频帧序列是基于如下步骤获得的:
对初始样本学习视频中视频帧的各图像块进行随机遮盖,获得样本学习视频;
对所述样本学习视频进行随机抽帧,获得所述样本视频帧序列。
在一个可选的示例中,S103具体包括:
由分类网络基于所述多尺度特征序列的时间信息,生成所述多尺度特征序列对应的位置编码序列,并基于所述多尺度特征序列及其对应的位置编码序列进行专注度分类,获得所述目标学生的专注度。
在一个可选的示例中,所述基于所述多尺度特征序列及其对应的位置编码序列进行专注度分类,获得所述目标学生的专注度,包括:
将所述多尺度特征序列及其对应的位置编码序列进行融合,获得融合特征序列;
基于自注意力机制分析所述融合特征序列中任意两个特征之间的关联性,并基于所述关联性进行专注度分类,获得所述目标学生的专注度。
在一个可选的示例中,所述特征提取网络包括多个瓶颈层;所述瓶颈层包括依次连接的第一卷积层、多个残差连接分支和第二卷积层。
第二方面,本发明提供一种学生专注度识别系统,包括:
视频帧序列获取模块,用于获取目标学生的学习视频的视频帧序列;
多尺度特征提取模块,用于基于专注度识别模型中的特征提取网络,对所述视频帧序列进行多尺度特征提取并获得所述视频帧序列的多尺度特征序列;
专注度分类模块,用于基于专注度识别模型中的分类网络,对所述多尺度特征序列进行专注度分类并获得所述目标学生的专注度;
其中,所述专注度识别模型是基于样本视频帧序列以及所述样本视频帧序列中学生的样本专注度训练得到的。
在一个可选的示例中,所述系统还包括训练样本获取模块;
所述训练样本获取模块用于对初始样本学习视频中视频帧的各图像块进行随机遮盖,获得样本学习视频,并对所述样本学习视频进行随机抽帧,获得所述样本视频帧序列。
在一个可选的示例中,所述专注度分类模块具体用于由分类网络基于所述多尺度特征序列的时间信息,生成所述多尺度特征序列对应的位置编码序列,并基于所述多尺度特征序列及其对应的位置编码序列进行专注度分类,获得所述目标学生的专注度。
在一个可选的示例中,所述专注度分类模块具体用于将所述多尺度特征序列及其对应的位置编码序列进行融合,获得融合特征序列,基于自注意力机制分析所述融合特征序列中任意两个特征之间的关联性,并基于所述关联性进行专注度分类,获得所述目标学生的专注度。
在一个可选的示例中,所述特征提取网络包括多个瓶颈层;所述瓶颈层包括依次连接的第一卷积层、多个残差连接分支和第二卷积层。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
本发明提供一种学生专注度识别方法及系统,通过获取目标学生在学习过程中的视频帧序列,并应用深度学习模型首先对视频帧序列进行多尺度特征提取,使得模型能够捕获视频帧序列中时间和空间的特征信息,并且同时包含细节信息和整体信息,在此基础上再进行学生专注度的分析,从而实现了学生专注度的自动识别,在节省人力成本的同时,提升了学生专注度识别的准确率和效率。
附图说明
图1是本发明实施例提供的学生专注度识别方法的流程示意图;
图2是本发明实施例提供的bottleneck与标准ResNet的bottleneck的结构对比图;
图3是本发明实施例提供的基于自注意力机制的学生专注度识别模型的整体框架图;
图4是本发明实施例提供的数据增强方法的流程图;
图5是本发明实施例提供的学生专注度识别系统的架构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
计算机技术的进步和人工智能的高速发展,促进了信息技术与社会各行各业的融合,推动着行业的变革,同样对教育行业的发展也产生了重大的影响。传统的教学评价方式往往以教学成果当作主要的评判依据,存在评价手段相对简单、评价模式比较机械、评价主体具有主观倾向等问题。因此,把教学过程评价纳入评价体系具备了充分的合理性和紧迫性。然而教学过程评价需要对每一名学生在教学过程的表现进行观察、记录、分析,这个过程需要大量的人力并且非常耗时。随着科学技术的发展,可以运用大数据和人工智能技术为教育评价提供技术和数据支持。学生在课堂中的专注度可以看作是学生在课堂中注意力的集中程度、学习参与状况等的综合体现,因此学生在课堂中的专注度可以作为教学过程评价参考的指标之一。
学生专注度识别方法可以分为:手动识别法、自动识别法。其中,手动识别法是指需要学习者直接参与到检测的过程中的方法。这种方法往往需要花费大量的时间和精力,并且具有一定的随机性与主观性,导致识别准确率较低。自动识别法则是通过采集学习者在学习过程中的图像、生理指标(心率、脑电图、血压、皮肤电等)、学习记录(点击流、学习总时间、论坛帖子数量、解题的平均时间、解题的准确率等)等数据,再利用计算机从中提取特征,最后通过某种匹配规则或者深度学习模型进行识别的方法。
随着科学技术的发展,视频采集设备变得更加廉价,并且性能也得到不断的提升,这使得非常容易收集到大量高质量的学生学习过程视频。同时随着计算机算力不断提升,这些都为深度学习技术的快速发展创造了有利的条件。越来越多的领域运用深度学习技术进行相关的研究,深度学习技术正在颠覆着各领域的发展。专注度识别领域也不例外,基于深度学习技术的专注度识别方法成为了专注度识别领域的主要发展方向。
对此,本发明提供一种基于深度学习技术的学生专注度识别方法。图1是本发明实施例提供的学生专注度识别方法的流程示意图,如图1所示,该方法具体包括:
步骤S101,获取目标学生的学习视频的视频帧序列。
此处,目标学生即需要进行专注度识别的学生。对目标学生在课堂中的学习过程可以进行视频采集,从而获得目标学生的学习视频。从学习视频中抽取多个连续的视频帧,并按照对应的时间顺序排列起来,即可得到视频帧序列。此处,视频帧序列中可以包括目标学生的面部表情、眼部凝视、姿态等特征。
步骤S102,基于专注度识别模型中的特征提取网络,对视频帧序列进行多尺度特征提取并获得视频帧序列的多尺度特征序列;
步骤S103,基于专注度识别模型中的分类网络,对多尺度特征序列进行专注度分类并获得目标学生的专注度;
其中,专注度识别模型是基于样本视频帧序列以及样本视频帧序列中学生的样本专注度训练得到的。
具体地,专注度识别模型用于对输入的视频帧序列中的各个视频帧进行分析,从而得到视频帧序列对应的专注度识别结果,即目标学生的专注度。专注度识别模型在进行专注度识别的过程中,具体可以分为两个阶段,第一个阶段由专注度识别模型中的特征提取网络,对视频帧序列进行多尺度特征提取,获得视频帧序列的多尺度特征序列,第二个阶段由专注度识别模型中的分类网络,根据第一个阶段所得的多尺度特征序列进行专注度分类,从而获得目标学生在课堂中的专注度。
需要说明的是,考虑到学生的专注度识别结果跟局部特征和整体特征都有很大的关联,然而现有的专注度识别模型往往只选取了使用一部分特征作用推理依据。针对这一问题,本发明实施例设计了多尺度特征提取网络,使其提取到的特征同时包含局部信息与整体信息,在此基础上再进行专注度分类,从而提高了模型的专注度识别准确率。
另外,在执行步骤S102之前,还可以预先训练得到专注度识别模型,具体可以通过如下方式进行训练:首先,收集大量学生在课堂中学习的视频作为样本学习视频,并获得样本视频帧序列,以及通过标注得到样本视频帧序列中学生的样本专注度;随即,样本视频帧序列以及样本视频帧序列中学生的样本专注度输入到初始模型进行训练,从而得到专注度识别模型。
本发明实施例提供的方法,通过获取目标学生在学习过程中的视频帧序列,并应用深度学习模型首先对视频帧序列进行多尺度特征提取,使得模型能够捕获视频帧序列中时间和空间的特征信息,并且同时包含细节信息和整体信息,在此基础上再进行学生专注度的分析,从而实现了学生专注度的自动识别,在节省人力成本的同时,提升了学生专注度识别的准确率和效率。
基于上述实施例,样本视频帧序列是基于如下步骤获得的:
对初始样本学习视频中视频帧的各图像块进行随机遮盖,获得样本学习视频;
对样本学习视频进行随机抽帧,获得样本视频帧序列。
具体地,通过分析归纳教学过程视频中的特点,发现遮挡是影响学生专注度识别准确率最为主要的因素之一。针对这个问题,本发明实施例从数据层面提出应对方法,提出了模拟真实场景的样本数据增强方法,借鉴了自然语言处理领域的遮盖思想,设计了一种针对视频数据的随机遮盖方法(V-Mask)。V-Mask方法的大体思路是首先将获取到的初始样本学习视频中视频帧分成好多个不重叠的图像块,然后按照预先设置的概率,计算每一个图像块是否被遮盖,得到遮盖视频帧并替换原始的视频帧,最终即可得到遮盖处理后的视频,即样本学习视频。通过这种方法,可以很好地模拟出目标物体被遮挡的情况。
随后,又考虑到训练集中每个视频的总帧数远远大于模型的输入长度,并且学生在听课学习的时候,往往不会有很大幅度的运动,肢体动作较少,所以只需要其中的一部分帧作为输入。因此在将视频作为训练数据输入模型时,可以运用基于随机抽帧的数据增强方法(R-Extract)以一个随机的方式抽帧,而不以一个固定的规则进行的抽帧。由于加入了随机性,使得同一个视频可以生成好多不同的视频帧序列。
假设一个样本学习视频的总帧数是t帧,采样频率是f,模型的输入长度(即样本视频帧序列的长度)为l,则可以算出随机的起始帧的位置s,计算公式如下:
s=random_int(0,t-f*l-1)
其中,random_int函数用于生成随机整数。然后,以s作为起始位置,f为采样频率,抽取样本视频帧序列。
进一步地,在对视频帧使用V-Mask方法随机遮盖图像区域之前,还可以将视频帧首先通过裁剪、平移、亮度调整、翻转等常规增强手段进行增强。
本发明实施例提出的数据增强方式,可以对原始数据进行增强,解决学生专注度识别领域公开的数据量小的问题。使数据量增长的同时,也丰富了数据集中数据的分布。运用该增强方法增强后的数据训练专注度识别模型可以很好地提升专注度识别模型的泛化能力、鲁棒性,提升教室中学生被遮挡场景下专注度识别的准确率。
基于上述任一实施例,步骤S103具体包括:
由分类网络基于多尺度特征序列的时间信息,生成多尺度特征序列对应的位置编码序列,并基于多尺度特征序列及其对应的位置编码序列进行专注度分类,获得目标学生的专注度。
具体地,考虑到不同时刻的视频帧对应的特征可能存在较强的关联性,比如时刻a的某个状态与时刻b的某个状态有强关联性,有较大的组合关系,则可以大概率推断出目标学生的专注度,对此,本发明实施例中分类网络根据输入的多尺度特征序列的时间信息,对多尺度特征序列中的各个多尺度特征进行位置编码,由此生成多尺度特征序列对应的位置编码序列,随即,结合多尺度特征序列及其对应的位置编码序列进行专注度分类,获得目标学生的专注度,从而进一步提升了模型的专注度识别准确率。
此处,时间信息可以包含不同时刻多尺度特征前后时间点的相对位置关系、时间间隔大小等信息等。
基于上述任一实施例,基于多尺度特征序列及其对应的位置编码序列进行专注度分类,获得目标学生的专注度,包括:
将多尺度特征序列及其对应的位置编码序列进行融合,获得融合特征序列;
基于自注意力机制分析融合特征序列中任意两个特征之间的关联性,并基于关联性进行专注度分类,获得目标学生的专注度。
具体地,在分类网络中,为了应对序列模型在长距离特征捕获能力差、无法并行计算的问题,运用了自注意力机制,并修改了自注意力机制中的位置编码方式,使其包含时间信息。首先可以将多尺度特征序列及其对应的位置编码序列进行融合,获得融合特征序列,随即将融合特征序列并行输入到分类模块中,序列中的任意两个位置的融合特征可以直接通过自注意力机制相关联,获得关联性特征,不用依赖上一个时刻传导,大大提高计算效率,并且不会存在因为序列过长导致的信息丢失的情况。
通过对融合特征序列提取时间维度上的关联性特征后,将其输入到全连接层进行专注度分类,通过判断目标学生在课堂上的专注程度,输出目标学生的专注度。
本发明实施例针对教室场景、学生专注度特点、现存模型的缺点,针对性地提出了基于自注意力机制的学生专注度识别模型,通过在特征提取网络中增加多尺度特征融合模块和在分类网络中引入自注意力机制,解决了现存专注度识别模型的多尺度特征提取能力欠缺、图片序列模型的长距离特征捕获能力差、无法并行计算、数据量不足导致的模型效果差等问题。
基于上述任一实施例,特征提取网络包括多个瓶颈层;瓶颈层包括依次连接的第一卷积层、多个残差连接分支和第二卷积层。
具体地,通过分析影响学生专注度相关的特征,发现局部与整体特征对学生专注度的结果同样重要。对此,本发明实施例修改标准ResNet模型,在其结构中增加对多尺度特征提取的支持,设计了多尺度特征提取网络MS-ResNet-50,使其提取到的特征同时包含细节信息和整体信息。通过MS-ResNet-50模型提取视频帧序列在空间维度上的特征,即多尺度特征序列,然后将多尺度特征序列输入到分类网络中进行专注度分类。
修改ResNet模型结构具体可以是修改其中的瓶颈层结构(bottleneck),修改后的bottleneck可以包括依次连接的第一卷积层、多个残差连接分支和第二卷积层。标准ResNet的bottleneck与修改后的bottleneck的结构对比图如图2所示,具体的修改思路如下:
(1)设置一个尺度参数s,这个参数表示需要将输入这一层的特征分为多少组,例如图2中的尺度参数设置为5。将第一个1*1大小的卷积层即第一卷积层输出的特征矩阵X按通道切分成s组,则每一组的特征可以表示为xi,i∈1,2,…,。特征xi的通道数为ci,可以通过特征矩阵X的通道数c计算得来,具体公式如下:
c=ci*
(2)然后针对分组后的每一个特征xi计算这一层的输出值,可以由每一个残差连接分支分别计算。第一个分组的输出值直接等于输入,从第二个分组开始,每个组输入xi首先要与上一组的输出yi-1进行残差连接,然后再经过卷积操作得到这一组的输出yi
这种方法可以使提取到的特征包含多尺度的信息,从而提升特征表达能力。公式具体如下:
Figure BDA0003970584080000101
其中,convi表示对第i组特征进行卷积操作。
(3)将上一步所得出的所有输出yi按通道进行拼接,得到矩阵Y。然后将Y输入到第二个1*1大小的卷积层(即第二卷积层)计算这个bottleneck的输出值。
基于上述任一实施例,学生专注度的自动识别法一般还可以分为三类:基于日志文件、基于传感器数据、基于计算机视觉技术。基于计算机视觉技术的方法是现在最为主流的识别方法,又可以将其分为基于三维卷积的识别模型和基于二维卷积加循环神经网络的识别模型。基于三维卷积的识别模型是将采集到的视频一次性输入到识别模型中,模型通过包含时间维度的三维卷积模型进行识别。基于二维卷积加循环神经网络的识别模型则是首先对视频每一帧进行特征提取,然后将提取到的特征序列输入到循环神经网络进行识别分类。
基于计算机视觉技术的学生专注度识别领域现存以下一些问题:学生专注度识别领域公开的数据集数量少,并且数据集中的数据量小;教室中容易出现人脸被遮挡的情况,导致专注度识别准确率低;基于三维卷积的识别模型参数多、推理效率低;基于二维卷积加循环神经网络的识别模型长距离特征捕获能力差、无法并行计算、效率差;学生的专注度跟局部特征和整体特征都有很大的关联,然而现有的专注度识别模型往往只选取了使用一部分特征作用推理依据。
针对上述问题,以及教室场景的特点,本发明提出了一种基于自注意力机制的学生专注度识别模型(DSA-SER)。图3为本发明实施例提供的基于自注意力机制的学生专注度识别模型的整体框架图,该模型分为三个部分:数据增强、特征提取、分类。
步骤1:输入数据增强
图4为本发明实施例提供的数据增强方法的流程图,输入的样本数据会按照图4的增强流程进行增强操作。数据增强模块中运用了图像领域的常规增强方法、V-Mask和R-Extract方法。首先把教学过程的初始样本视频帧序列输入到数据增强模块,在该模块中初始样本视频帧首先通过随机平移、裁剪、亮度调整等常规增强手段进行增强,然后再对视频帧使用V-Mask方法随机遮盖图像区域,最后通过R-Extract方法抽取样本视频帧序列,将抽取后的样本视频帧序列输入到特征提取网络中。
其中的随机遮盖算法(V-Mask)的实现思路如下:对于一个视频帧图片,可以将其均匀地划分为4*4个单元格即图像块。预先设置一个遮盖概率p,例如,p设置为0.25。每一个单元格有概率p被空白像素取代,即遮盖。
随机抽帧算法(R-Extract)的实现思路如下:假设一个样本视频的总帧数是t帧,采样频率是f,模型的输入长度为l,可以算出随机的起始帧的位置s,然后以s作为起始位置,f为采样频率,抽取样本视频帧序列。对于同一个视频而言,一共可以生成(-f*l-1)种输入序列。
步骤2:特征提取
修改标准ResNet模型,在其结构中增加对多尺度特征提取的支持,设计了多尺度特征提取网络MS-ResNet-50。MS-ResNet-50分为5个Conv Stage,其中后4个Conv Stage可以由修改后的bottleneck组成,修改后的bottleneck如图2所示。
特征提取网络中,通过MS-ResNet-50模型提取视频帧序列在空间维度上的特征,即多尺度特征序列,然后将多尺度特征序列输入到分类网络中进行专注度分类。
步骤3:分类
分类网络的核心结构如图3所示,包括多头自注意力层、相加&归一化层、前馈神经网络层和全连接层(MLP HEAD),分类网络可以采用Transformer模型,从而将Transformer模型引入专注度识别领域。分类网络中的序列特征提取方法运用了自注意力机制,这使得模型可以并行计算输入序列。并且对输入序列中任意两个位置的向量能够直接计算它们间的关联性,与循环神经网络中计算两个位置之间的相关性会随着距离的增加计算次数不断增多的情况不同。
同时,修改了自注意力机制中的位置编码方式,使其包含时间信息。通过对特征序列提取时间维度上的关联性特征后,将其输入到全连接层进行分类,从而获得学生的专注度。
综上,本发明提出了一种面向遮挡场景的学生专注度实时识别方法,具有如下优点:提出了针对视频的数据增强方法,这种方法针对教室中学生被遮挡场景提出了应对方案;优化了学生专注度识别模型,将自注意力机制引入专注度识别领域,提高了模型在长序列视频中的专注度识别准确率;修改了特征提取网络,在模型中增加了多尺度特征融合模块,使模型提取到的特征同时包含细节信息和整体信息。
基于上述任一实施例,本发明实施例提供了一种学生专注度识别系统。图5是本发明实施例提供的学生专注度识别系统的架构图,如图5所示,该系统具体包括:
视频帧序列获取模块510,用于获取目标学生的学习视频的视频帧序列;
多尺度特征提取模块520,用于基于专注度识别模型中的特征提取网络,对视频帧序列进行多尺度特征提取并获得视频帧序列的多尺度特征序列;
专注度分类模块530,用于基于专注度识别模型中的分类网络,对多尺度特征序列进行专注度分类并获得目标学生的专注度;
其中,专注度识别模型是基于样本视频帧序列以及样本视频帧序列中学生的样本专注度训练得到的。
本发明实施例提供的系统,通过获取目标学生在学习过程中的视频帧序列,并应用深度学习模型首先对视频帧序列进行多尺度特征提取,使得模型能够捕获视频帧序列中时间和空间的特征信息,并且同时包含细节信息和整体信息,在此基础上再进行学生专注度的分析,从而实现了学生专注度的自动识别,在节省人力成本的同时,提升了学生专注度识别的准确率和效率。
可以理解的是,上述各个模块的详细功能实现可参见前述方法实施例中的介绍,在此不做赘述。
另外,本发明实施例提供了另一种学生专注度识别装置,其包括:存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现上述实施例中的方法。
此外,本发明还提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现上述实施例中的方法。
基于上述实施例中的方法,本发明实施例提供了一种计算机程序产品,当计算机程序产品在处理器上运行时,使得处理器执行上述实施例中的方法。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种学生专注度识别方法,其特征在于,包括:
S101获取目标学生的学习视频的视频帧序列;
S102基于专注度识别模型中的特征提取网络,对所述视频帧序列进行多尺度特征提取并获得所述视频帧序列的多尺度特征序列;
S103基于专注度识别模型中的分类网络,对所述多尺度特征序列进行专注度分类并获得所述目标学生的专注度;
其中,所述专注度识别模型是基于样本视频帧序列以及所述样本视频帧序列中学生的样本专注度训练得到的。
2.根据权利要求1所述的学生专注度识别方法,其特征在于,所述样本视频帧序列是基于如下步骤获得的:
对初始样本学习视频中视频帧的各图像块进行随机遮盖,获得样本学习视频;
对所述样本学习视频进行随机抽帧,获得所述样本视频帧序列。
3.根据权利要求1所述的学生专注度识别方法,其特征在于,S103具体包括:
由分类网络基于所述多尺度特征序列的时间信息,生成所述多尺度特征序列对应的位置编码序列,并基于所述多尺度特征序列及其对应的位置编码序列进行专注度分类,获得所述目标学生的专注度。
4.根据权利要求3所述的学生专注度识别方法,其特征在于,所述基于所述多尺度特征序列及其对应的位置编码序列进行专注度分类,获得所述目标学生的专注度,包括:
将所述多尺度特征序列及其对应的位置编码序列进行融合,获得融合特征序列;
基于自注意力机制分析所述融合特征序列中任意两个特征之间的关联性,并基于所述关联性进行专注度分类,获得所述目标学生的专注度。
5.根据权利要求1至4中任一项所述的学生专注度识别方法,其特征在于,所述特征提取网络包括多个瓶颈层;所述瓶颈层包括依次连接的第一卷积层、多个残差连接分支和第二卷积层。
6.一种学生专注度识别系统,其特征在于,包括:
视频帧序列获取模块,用于获取目标学生的学习视频的视频帧序列;
多尺度特征提取模块,用于基于专注度识别模型中的特征提取网络,对所述视频帧序列进行多尺度特征提取并获得所述视频帧序列的多尺度特征序列;
专注度分类模块,用于基于专注度识别模型中的分类网络,对所述多尺度特征序列进行专注度分类并获得所述目标学生的专注度;
其中,所述专注度识别模型是基于样本视频帧序列以及所述样本视频帧序列中学生的样本专注度训练得到的。
7.根据权利要求6所述的学生专注度识别系统,其特征在于,还包括训练样本获取模块;
所述训练样本获取模块用于对初始样本学习视频中视频帧的各图像块进行随机遮盖,获得样本学习视频,并对所述样本学习视频进行随机抽帧,获得所述样本视频帧序列。
8.根据权利要求6所述的学生专注度识别系统,其特征在于,所述专注度分类模块具体用于由分类网络基于所述多尺度特征序列的时间信息,生成所述多尺度特征序列对应的位置编码序列,并基于所述多尺度特征序列及其对应的位置编码序列进行专注度分类,获得所述目标学生的专注度。
9.根据权利要求8所述的学生专注度识别系统,其特征在于,所述专注度分类模块具体用于将所述多尺度特征序列及其对应的位置编码序列进行融合,获得融合特征序列,基于自注意力机制分析所述融合特征序列中任意两个特征之间的关联性,并基于所述关联性进行专注度分类,获得所述目标学生的专注度。
10.根据权利要求6至9中任一项所述的学生专注度识别系统,其特征在于,所述特征提取网络包括多个瓶颈层;所述瓶颈层包括依次连接的第一卷积层、多个残差连接分支和第二卷积层。
CN202211510373.4A 2022-11-29 2022-11-29 一种学生专注度识别方法及系统 Pending CN115719497A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211510373.4A CN115719497A (zh) 2022-11-29 2022-11-29 一种学生专注度识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211510373.4A CN115719497A (zh) 2022-11-29 2022-11-29 一种学生专注度识别方法及系统

Publications (1)

Publication Number Publication Date
CN115719497A true CN115719497A (zh) 2023-02-28

Family

ID=85256916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211510373.4A Pending CN115719497A (zh) 2022-11-29 2022-11-29 一种学生专注度识别方法及系统

Country Status (1)

Country Link
CN (1) CN115719497A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117574098A (zh) * 2024-01-15 2024-02-20 珠海谷田科技有限公司 一种学习专注度分析方法以及相关装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117574098A (zh) * 2024-01-15 2024-02-20 珠海谷田科技有限公司 一种学习专注度分析方法以及相关装置
CN117574098B (zh) * 2024-01-15 2024-04-02 珠海谷田科技有限公司 一种学习专注度分析方法以及相关装置

Similar Documents

Publication Publication Date Title
Ji et al. Spatio-temporal memory attention for image captioning
Zhang et al. An novel end-to-end network for automatic student engagement recognition
CN109117744A (zh) 一种用于人脸验证的孪生神经网络训练方法
CN110659573B (zh) 一种人脸识别方法、装置、电子设备及存储介质
WO2020029915A1 (zh) 基于人工智能的中医舌像分割装置、方法及存储介质
CN113283438A (zh) 基于多源显著性和时空榜样适配的弱监督视频目标分割方法
CN110796018A (zh) 一种基于深度图像和彩色图像的手部运动识别方法
CN113486700A (zh) 一种教学场景下基于注意力机制的面部表情分析方法
CN109086664A (zh) 一种动静态融合的多态手势识别方法
Tang et al. Automatic facial expression analysis of students in teaching environments
CN110852271A (zh) 一种基于峰值帧和深度森林的微表情识别方法
CN116050892A (zh) 一种基于人工智能的智能教育评价监督方法
CN115719497A (zh) 一种学生专注度识别方法及系统
Chen et al. Intelligent teaching evaluation system integrating facial expression and behavior recognition in teaching video
US11734389B2 (en) Method for generating human-computer interactive abstract image
CN113974627A (zh) 一种基于脑机生成对抗的情绪识别方法
CN117671353A (zh) 动作抖动与骨架噪声抑制的多尺度时空交互骨架动作分类方法、系统、设备及介质
CN113688789B (zh) 一种基于深度学习的在线学习投入度识别方法及系统
CN111368663A (zh) 自然场景中静态面部表情识别方法、装置、介质及设备
CN115050075B (zh) 一种跨粒度交互学习的微表情图像标注方法及装置
Wang et al. Children's expression recognition based on a multiscale mixed attention mechanism
CN115346259A (zh) 一种结合上下文信息的多粒度学业情绪识别方法
Zhu et al. Emotion Recognition in Learning Scenes Supported by Smart Classroom and Its Application.
CN112906539B (zh) 一种基于eeg数据的物体识别方法
Obeso et al. Dropping activations in convolutional neural networks with visual attention maps

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination