CN113326739B - 基于时空注意力网络的在线学习参与度评估方法及评估系统、设备、存储介质 - Google Patents
基于时空注意力网络的在线学习参与度评估方法及评估系统、设备、存储介质 Download PDFInfo
- Publication number
- CN113326739B CN113326739B CN202110497274.6A CN202110497274A CN113326739B CN 113326739 B CN113326739 B CN 113326739B CN 202110497274 A CN202110497274 A CN 202110497274A CN 113326739 B CN113326739 B CN 113326739B
- Authority
- CN
- China
- Prior art keywords
- facial expression
- attention
- features
- hidden state
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Image Analysis (AREA)
Abstract
Description
技术领域
本发明涉及基于时空注意力网络的在线学习参与度评估方法及评估系统、设备、存储介质,属于人工智能技术领域。
背景技术
随着数字媒体与网络技术的发展,在线教育正逐步发展成为一种新型的教育模式。与传统教育模式相比,在线教育能够突破时间、空间的限制,拓宽学生获取信息的渠道。但由于学生在学习过程中缺乏与教师的直接沟通和反馈,导致极低的完成率。因此及时获取学生的学习状态并做出相应调整,是提高网络教育质量的关键。
学习参与度是体现学生学习状况的重要指标,在学习过程中起着至关重要的作用。随着慕课、公开课等一类网络课程的大量出现,学习过程中学生参与度的自动评估问题受到研究人员的广泛关注。实时获取学生的学习参与度,并且及时反馈给教师,教师根据参与度的情况做出相应调整,进而影响学生的学习过程,能够一定程度解决在线教育过程中存在的问题。
早期学习参与度的研究主要是基于简单学习行为的统计方法,例如分析在线时长、阅读数量、点击次数等学习行为。这是由于早期时候数据采集能力以及计算能力的限制,研究只能在规模较小的数据上进行,并且只能处理一些简单的特征。尽管受试者在学习过程的视频数据蕴含着更丰富的行为与情感信息,但是早期基于特征点的方法很难提取此类信息,研究工作进展有限。随着深度学习技术的出现与发展,能够从大量视频中直接提取受试者复杂的学习行为以及面部表情信息,进而评估其行为参与度与情感参与度,最终得到学习参与度。该方法是目前主流的参与度研究方法,称之为视觉方法。两类方法相比,统计方法有很强的主观性,评估性能的好坏依赖于衡量指标。视觉方法直接从分析受试者入手,不受学习内容的约束,因此具有更强的普适性。如中国专利文献CN111832669A公开了学习参与度识别网络模型的建立方法及装置,对获取的多个视频样本进行预处理,得到融合特征;根据所述视频样本的融合特征,构建学习参与度识别网络模型训练用的最小批;依据所述最小批中视频样本对的嵌入向量距离与所述最小批中视频样本对的参与度标签距离一致性有序的原则,构造有序度量损失函数,其中,所述嵌入向量由所述学习参与度识别网络模型根据视频样本的融合特征计算得到;根据所述有序度量损失函数,优化所述学习参与度识别网络模型中的参数。但是,目前的视觉方法只是将多类特征进行简单的拼接,没有充分挖掘特征内以及特征之间的显著性信息。
同时,传统的双向长短期记忆网络(Bi-LSTM)模型只有一个输入信息,结果好坏很大程度取决于输入的情况,Bi-LSTM模型缺乏外部调控的问题。
发明内容
针对现有技术的不足,本发明提供了基于时空注意力网络的在线学习参与度评估方法及评估系统,该方法提出了空间注意力模块与时间注意力模块,对于每一帧特征,既考虑该特征的空间信息的显著性,同时考虑该特征在时间序列上的显著性,并且能够融合多类输入特征,提高评估的准确性。本发明提出的基于时间注意力的双向自适应长短期记忆网络,能够根据帧特征的时间上的显著性,调节双向长短期记忆网络的输入,从而进一步提高准确性。
本发明还提供了一种计算机设备和存储介质。
术语解释:
1.Bi-aLSTM:双向自适应长短期记忆网络,是在Bi-LSTM模型的基础上,构建了一个自适应模块,能够基于获取的权重信息,自动调整Bi-LSTM模型的输入。
2.Bi-LSTM:是Bi-directional Long Short-Term Memory的缩写,双向长短期记忆网络,是由前向LSTM与后向LSTM组合而成。
3.hyperface网络:hyperface网络能够自动提取图像中人的头部姿态特征块。Ranjan R,Patel V M,Chellappa R.HyperFace:A Deep Multi-task Learning Frameworkfor Face Detection,Landmark Localization,Pose Estimation,and GenderRecognition.IEEE Transactions on Pattern Analysis&Machine Intelligence,2018:1-1。
4.openface网络:以卷积网络为基础,能够自动提取图像中人的头部姿态特征块。Amos B,Ludwiczuk B,Mahadev Satyanarayanan.OpenFace:A general-purpose facerecognition library with mobile applications。
5.KMEANS聚类算法:KMEANS算法是典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。
6.DS-ATT:Dual-Modal Spatial Attention Module,双模态空间注意力模块,能够融合两种模态的特征,并对特征中不同位置基于注意力机制进行加权。
7.T-ATT:Temporal Attention Module,时间注意力模块,能够对特征序列中不同时刻的特征基于注意力机制进行加权。
本发明的技术方案为:
一种基于时空注意力网络的在线学习参与度评估方法,该方法包括步骤:
(1)对待评估的在线学习的视频片段进行预处理;
(2)特征提取:提取经过预处理后视频片段t*的头部姿态特征块Gt和面部表情特征块Et;
(3)特征变换:将头部姿态特征块Gt分解成头部姿态特征集合 表示在第t个头部姿态特征块i位置上从通道1到通道D1上的值构成的特征,K1表示头部姿态特征块中每个通道的边长,t∈{1,…,T},T表示视频片段的个数;D1表示头部姿态特征块中通道的个数;该头部姿态特征的维度与头部姿态特征块的通道数相同,均为D1;
同理,将面部表情特征块Et分解成面部表情特征集合 表示在第t个面部表情特征块j位置上从通道1到通道D2上的值构成的特征,K2表示面部表情特征块中每个通道的边长,t∈{1,…,T};D2表示面部表情特征块中通道的个数;该面部表情特征的维度与面部表情特征块的通道数相同,均为D2;
(7)将步骤(6)时间注意力模块得到的隐藏状态的权重βt和步骤(5)得到的隐藏状态输入到训练好的Bi-aLSTM模型中,然后Bi-aLSTM模型根据当前时刻的权值βt调整输入的隐藏状态Bi-aLSTM模型输出隐藏状态隐藏状态经过激活函数tanh得到学习参与度评估结果YT,YT是整数,YT取值范围0到3,从0至3参与度依次增加,0表示完全不参与,1表示低程度的参与,2表示一般程度的参与,3表示高程度的参与。
根据本发明优选的,Bi-aLSTM模型的训练过程为:
a、构建数据集,具体包括:
a-1、获取训练视频;
a-2、确定视频的标注指标,标注指标包括头部姿态、眼球注视点和面部表情;
a-3、对视频进行标注;
b、将数据集中的视频片段进行预处理;
c、特征提取:提取经过预处理后视频片段t*的头部姿态特征块Gt和面部表情特征块Et;
i、通过训练确定Bi-aLSTM模型中细胞状态C以及隐藏状态H的维度,以及输入特征序列的最大长度T。
根据本发明优选的,步骤(1)中,对待评估的在线学习的视频片段进行预处理;具体过程为:
1-1:降采样:从采集的在线学习的视频中,每10帧图像随机采样1帧图像,用于后续的计算;通过观察,发现连续多帧图像中受试者的头部姿态与面部表情变化很小,因此为了减少训练时间以及减小存储压力;
1-2:视频分段:基于滑动窗口的方式将降采样的视频进行分块处理;滑动窗口的长度为len,每次窗口滑动的步长定为len,因此每一个视频片段的长度为len。能够进一步减少训练时间。
由于LSTM在处理时序数据的时候,随着序列长度的增加,训练时间会大大延长,因此采用降采样和视频分段两种方式来降低训练时间。
根据本发明优选的,步骤(2)中,提取经过预处理后视频片段t*的头部姿态特征块Gt和面部表情特征块Et;具体过程为:
2-1、将预处理后的视频片段t*的每一帧图像经过hyperface网络得到该帧图像的头部姿态特征块,将预处理后的视频片段的每一帧图像经过openface网络得到该帧图像的面部表情特征块;
2-2、将视频片段t*中所有帧图像的头部姿态特征块的特征均值作为视频片段t*的头部姿态特征块Gt,将该视频片段t*中所有帧图像的面部表情特征块的特征均值作为视频片段t*的面部表情特征块Et;具体为:
式(I)中,len为视频片段的长度,Gr,t表示第t个视频片段中第r帧图像提取的头部姿态特征块;r∈{1,…,len},t∈{1,…,T},T表示视频片段的个数;Gt表示视频片段t*均值化后的头部姿态特征块;
式(II)中,Er,t表示第t个视频片段中第r帧图像提取的面部表情特征块,r∈{1,…,len},t∈{1,…,T},T表示视频片段的个数;Et表示视频片段t*均值化后的面部表情特征块。
经过以上操作,能够进一步加速,同时能尽可能的获取一个视频片段中每一帧图像的信息;基于特征提取,将时长为L的视频,压缩成时长为T的特征序列。
经过聚类得到K个聚类中心Ck,每个聚类中心的维度h和Bi-LSTM输出的隐藏状态的维度相同;每个隐藏状态对每个聚类中心的隶属度为Dt,且 表示第t个隐藏状态属于第k个聚类中心的概率值,k为1,2,3…K;
步骤6-2,进行挤压操作:对每个聚类中心的每一维数值累加求和,将每个聚类中心变成一个实数,这个实数某种程度上具有全局的感受野,经过挤压操作,最终输出的维度与输入的聚类中心的个数相等,如式(VII)所示:
式(VIII)中,z表示z1到zk构成的向量;δ表示RELU函数,Fex(·,W)表示进行活化操作,σ(·)表示sigmoid激活函数;W1表示第一次全连接操作,W2表示第二次全连接操作;
一种基于时空注意力网络的在线学习参与度评估系统,用于实现上述基于时空注意力网络的在线学习参与度评估方法,该系统包括:
预处理模块,用于对待评估的在线学习的视频片段进行预处理;
特征提取模块,用于提取经过预处理后视频片段t*的头部姿态特征块Gt和面部表情特征块Et;
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述基于时空注意力网络的在线学习参与度评估方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述基于时空注意力网络的在线学习参与度评估方法的步骤。
本发明的有益效果为:
1.该发明提出了双模态空间注意力模块与时间注意力模块,对于每一帧特征,既考虑该特征的空间信息的显著性,同时考虑该特征在时间序列上的显著性,并且能够融合多类输入特征,提高评估的准确性。提出的基于时间注意力的自适应的双向LSTM,能够根据帧特征的时间上的显著性,调节双向LSTM的输入,从而进一步提高准确性。
2.本发明提出的双模态空间注意力模块,用于解决视频中每一帧图像不同区域缺乏显著性的问题;图像不同区域提取的特征对评估结果产生不同的影响度,通过双模态空间注意力模块,提取不同区域特征的显著度,根据显著度区别使用每个区域的特征,能够提高评估的准确度。
3.本发明提出的时间注意力模块,用于解决视频中不同时刻图像的缺乏区分性的问题;提取不同时刻图像的显著度,综合考虑每一帧图像的学习者的参与度情况,提高评估的准确度。
4.本发明提出的双向自适应LSTM模块(Bi-aLSTM),基于输入信息与时间显著度的自适应Bi-LSTM模块,根据显著度调整Bi-LSTM的输入,提高最终评估的准确度。
附图说明
图1是从每个视频片段中提取头部姿态特征以及面部表情特征的过程示意图;
图4是本发明实施例提供的一种基于时空注意力网络的在线学习参与度评估方法的结构示意图;
图5是本发明实施例提供的多类特征融合的双模态空间注意力模块的结构示意图;
图6是本发明实施例提供的时间注意力模块的结构示意图。
具体实施方式
下面结合实施例和说明书附图对本发明做进一步说明,但不限于此。
实施例1
一种基于时空注意力网络的在线学习参与度评估方法,如图4所示,该方法包括步骤:
(1)对待评估的在线学习的视频片段进行预处理;
具体过程为:
1-1:降采样:从采集的在线学习的视频中,每10帧图像随机采样1帧图像,用于后续的计算;通过观察,发现连续多帧图像中受试者的头部姿态与面部表情变化很小,因此为了减少训练时间以及减小存储压力;
1-2:视频分段:基于滑动窗口的方式将降采样的视频进行分块处理;滑动窗口的长度为len,每次窗口滑动的步长定为len,因此每一个视频片段的长度为len。能够进一步减少训练时间。
由于LSTM在处理时序数据的时候,随着序列长度的增加,训练时间会大大延长,因此采用降采样和视频分段两种方式来降低训练时间。
(2)特征提取:提取经过预处理后视频片段t*的头部姿态特征块Gt和面部表情特征块Et;具体过程为:
2-1、如图1所示,将预处理后的视频片段t*的每一帧图像经过hyperface网络得到该帧图像的头部姿态特征块,将预处理后的视频片段的每一帧图像经过openface网络得到该帧图像的面部表情特征块;
2-2、将视频片段t*中所有帧图像的头部姿态特征块的特征均值作为视频片段t*的头部姿态特征块Gt,将该视频片段t*中所有帧图像的面部表情特征块的特征均值作为视频片段t*的面部表情特征块Et;具体为:
式(I)中,len为视频片段的长度,Gr,t表示第t个视频片段中第r帧图像提取的头部姿态特征块;r∈{1,…,len},t∈{1,…,T},T表示视频片段的个数;Gt表示视频片段t*均值化后的头部姿态特征块;
式(II)中,Er,t表示第t个视频片段中第r帧图像提取的面部表情特征块,r∈{1,…,len},t∈{1,…,T},T表示视频片段的个数;Et表示视频片段t*均值化后的面部表情特征块。
经过以上操作,能够进一步加速,同时能尽可能的获取一个视频片段中每一帧图像的信息;基于特征提取,将时长为L的视频,压缩成时长为T的特征序列。
(3)特征变换:将头部姿态特征块Gt分解成头部姿态特征集合 表示在第t个头部姿态特征块i位置上从通道1到通道D1上的值构成的特征,K1表示头部姿态特征块中每个通道的边长,t∈{1,…,T},T表示视频片段的个数;D1表示头部姿态特征块中通道的个数;该头部姿态特征的维度与头部姿态特征块的通道数相同,均为D1;如图2所示,将头部姿态特征块的底面划分为个网格,i位置在个网格中的任一个网格中变换;头部姿态特征块的维度相同与通道数相同,通道数可看做头部姿态特征块的高;将头部姿态特征块Gt分解成头部姿态特征集合
同理,将面部表情特征块Et分解成面部表情特征集合 表示在第t个面部表情特征块j位置上从通道1到通道D2上的值构成的特征,K2表示面部表情特征块中每个通道的边长,t∈{1,…,T};D2表示面部表情特征块中通道的个数;该面部表情特征的维度与面部表情特征块的通道数相同,均为D2;如图3所示,将面部表情特征块的底面划分为个网格,i位置在个网格中任一个网格中变换;面部表情特征块的维度相同与通道数相同,通道数可看做面部表情特征块的高;将面部表情特征块Et分解成面部表情特征集合
(4)如图5所示,将t时刻提取得到的面部表情特征集合头部姿态特征集合及t-1时刻的隐藏状态输入到双模态空间注意力模块中,最后双模态空间注意力模块的输出Mt;初始的隐藏状态H0每一维初始化为0;具体过程为:
经过聚类得到K个聚类中心Ck,每个聚类中心的维度h和Bi-LSTM输出的隐藏状态的维度相同;每个隐藏状态对每个聚类中心的隶属度为Dt,且 表示第t个隐藏状态属于第k个聚类中心的概率值,k为1,2,3…K;
步骤6-2,进行挤压操作:对每个聚类中心的每一维数值累加求和,将每个聚类中心变成一个实数,这个实数某种程度上具有全局的感受野,经过挤压操作,最终输出的维度与输入的聚类中心的个数相等,如式(VII)所示:
式(VIII)中,z表示z1到zk构成的向量;δ表示RELU函数,Fex(·,W)表示进行活化操作,σ(·)表示sigmoid激活函数;W1表示第一次全连接操作,W2表示第二次全连接操作;
(7)将步骤(6)时间注意力模块得到的隐藏状态的权重βt和步骤(5)得到的隐藏状态输入到训练好的Bi-aLSTM模型中,然后Bi-aLSTM模型根据当前时刻的权值βt调整输入的隐藏状态Bi-aLSTM模型输出隐藏状态隐藏状态经过激活函数tanh得到学习参与度评估结果YT,YT是整数,YT取值范围0到3,从0至3参与度依次增加,0表示完全不参与,1表示低程度的参与,2表示一般程度的参与,3表示高程度的参与。
Bi-aLSTM模型的训练过程为:
a、构建数据集,具体包括:
a-1、获取训练视频;
a-2、确定视频的标注指标,标注指标包括头部姿态、眼球注视点和面部表情;
a-3、对视频进行标注:首先,进行图像标注,将每个视频数据等间距抽取100帧图像,根据标注指标,将每帧图像进行标注,较高参与度的图像标注1分,较低参与度的图像标注0分;例如:当图像中,学习者的头部垂直,无偏头、眼球直视屏幕,面部表情认真严肃时,判定为较高参与度,图像标注1分;其他情况判定为较低参与度,图像标注0分;
然后,进行视频标注,统计100帧图像的标注总得分,当得分位于0到24之间,视频标签为0;当得分位于25到49之间,视频标签为1;当得分位于50到74之间,视频标签为2;当得分位于75到100之间,视频标签为3;0表示完全不参与,1表示低程度的参与,2表示一般程度的参与,3表示高程度的参与;
b、将数据集中的视频片段进行预处理;
c、特征提取:提取经过预处理后视频片段t*的头部姿态特征块Gt和面部表情特征块Et;
i、通过训练确定Bi-aLSTM模型中细胞状态C以及隐藏状态H的维度,以及输入特征序列的最大长度T。
对本发明提供的评估方法的性能进行评估,表1为不同评估方法的平均绝对误差:
表1
方法 | 平均绝对误差 |
RMI-SVM[3] | 1.50 |
VGPMIL[4] | 1.44 |
GAP[5] | 1.30 |
实施例1提供的评估方法 | 1.12 |
由表1可知,实施例1提供的评估方法的平均绝对误差为1.12,想比较与现有的常规用的在线参与度评估方法MI-SVM方法、VGPMIL方法以及GAP方法,本发明提供的评估方法的平均绝对误差均小于其他方法,本发明提供的评估方法的的性能都优与现有的评估方法。RMI-SVM方法记载在Xing gang Wang,Zhuotun Zhu,Cong Yao,and Xiang Bai.Relaxedmultiple-instance svm with application to object discovery.InProceedings ofthe IEEE International Conference on Computer Vision,pages1224–1232,2015.VGPMI方法记载在Manuel Hauβmann,Fred A Ham-precht,and MelihKandemir.Variational bayesian multipleinstance learning with gaussianprocesses.InProceedingsof the IEEE Conference on Computer Vision andPatternRecognition,pages 6570–6579,2017.GAP方法记载在Xuesong Niu,Hu Han,Jiabei Zeng,XuranSun,Shiguang Shan,Yan Huang,Songfan Yang,andXilinChen.Automatic engagement prediction with gap feature.InProceedings ofthe2018 on International Conferenceon Multimodal Interaction,pages 599–603.ACM,2018。
实施例2
一种基于时空注意力网络的在线学习参与度评估系统,用于实现实施例1提供的一种基于时空注意力网络的在线学习参与度评估方法,该系统包括:
预处理模块,用于对待评估的在线学习的视频片段进行预处理;
特征提取模块,用于提取经过预处理后视频片段t*的头部姿态特征块Gt和面部表情特征块Et;
实施例3
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现实施例1提供的基于时空注意力网络的在线学习参与度评估方法的步骤。
实施例4
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现实施例1提供的基于时空注意力网络的在线学习参与度评估方法的步骤。
Claims (10)
1.一种基于时空注意力网络的在线学习参与度评估方法,其特征在于,该方法包括步骤:
(1)对待评估的在线学习的视频片段进行预处理;
(2)特征提取:提取经过预处理后视频片段t*的头部姿态特征块Gt和面部表情特征块Et;
(3)特征变换:将头部姿态特征块Gt分解成头部姿态特征集合 表示在第t个头部姿态特征块i位置上从通道1到通道D1上的值构成的特征,K1表示头部姿态特征块中每个通道的边长,t∈{1,…,T},T表示视频片段的个数;D1表示头部姿态特征块中通道的个数;该头部姿态特征的维度与头部姿态特征块的通道数相同,均为D1;
同理,将面部表情特征块Et分解成面部表情特征集合 表示在第t个面部表情特征块j位置上从通道1到通道D2上的值构成的特征,K2表示面部表情特征块中每个通道的边长,t∈{1,…,T};D2表示面部表情特征块中通道的个数;该面部表情特征的维度与面部表情特征块的通道数相同,均为D2;
(4)将t时刻提取得到的面部表情特征集合头部姿态特征集合及t-1时刻的隐藏状态输入到双模态空间注意力模块中,最后双模态空间注意力模块的输出Mt,双模态空间注意力模块用于融合表情特征和头部姿态特征并对特征中不同位置基于注意力模块进行加权;
2.根据权利要求1所述的一种基于时空注意力网络的在线学习参与度评估方法,其特征在于,Bi-aLSTM模型的训练过程为:
a、构建数据集,具体包括:
a-1、获取训练视频;
a-2、确定视频的标注指标,标注指标包括头部姿态、眼球注视点和面部表情;
a-3、对视频进行标注;
b、将数据集中的视频片段进行预处理;
c、特征提取:提取经过预处理后视频片段t*的头部姿态特征块Gt和面部表情特征块Et;
i、通过训练确定Bi-aLSTM模型中细胞状态C以及隐藏状态H的维度,以及输入特征序列的最大长度T。
3.根据权利要求1所述的一种基于时空注意力网络的在线学习参与度评估方法,其特征在于,步骤(1)中,对待评估的在线学习的视频片段进行预处理;具体过程为:
1-1:降采样:从采集的在线学习的视频中,每10帧图像随机采样1帧图像;
1-2:视频分段:基于滑动窗口的方式将降采样的视频进行分块处理;滑动窗口的长度为len,每次窗口滑动的步长定为len,因此每一个视频片段的长度为len。
4.根据权利要求1所述的一种基于时空注意力网络的在线学习参与度评估方法,其特征在于,步骤(2)中,提取经过预处理后视频片段t*的头部姿态特征块Gt和面部表情特征块Et;具体过程为:
2-1、将预处理后的视频片段t*的每一帧图像经过hyperface网络得到该帧图像的头部姿态特征块,将预处理后的视频片段的每一帧图像经过openface网络得到该帧图像的面部表情特征块;
2-2、将视频片段t*中所有帧图像的头部姿态特征块的特征均值作为视频片段t*的头部姿态特征块Gt,将该视频片段t*中所有帧图像的面部表情特征块的特征均值作为视频片段t*的面部表情特征块Et;具体为:
式(I)中,len为视频片段的长度,Gr,t表示第t个视频片段中第r帧图像提取的头部姿态特征块;r∈{1,…,len},t∈{1,…,T},T表示视频片段的个数;Gt表示视频片段t*均值化后的头部姿态特征块;
式(II)中,Er,t表示第t个视频片段中第r帧图像提取的面部表情特征块,r∈{1,…,len},t∈{1,…,T},T表示视频片段的个数;Et表示视频片段t*均值化后的面部表情特征块。
5.根据权利要求1所述的一种基于时空注意力网络的在线学习参与度评估方法,其特征在于,步骤(4)中,将t时刻提取得到的面部表情特征集合头部姿态特征集合及t-1时刻的隐藏状态输入到双模态空间注意力模块中,最后双模态空间注意力模块的输出Mt;具体过程为:
经过聚类得到K个聚类中心Ck,每个聚类中心的维度h和Bi-LSTM输出的隐藏状态的维度相同;每个隐藏状态对每个聚类中心的隶属度为Dt,且 表示第t个隐藏状态属于第k个聚类中心的概率值,k为1,2,3…K;
步骤6-2,进行挤压操作:对每个聚类中心的每一维数值累加求和,将每个聚类中心变成一个实数,经过挤压操作,最终输出的维度与输入的聚类中心的个数相等,如式(VII)所示:
式(VIII)中,z表示z1到zk构成的向量;δ表示RELU函数,Fex(·,W)表示进行活化操作,σ(·)表示sigmoid激活函数;W1表示第一次全连接操作,W2表示第二次全连接操作;
8.一种基于时空注意力网络的在线学习参与度评估系统,其特征在于,用于实现权利要求1-7任一项所述的一种基于时空注意力网络的在线学习参与度评估方法,该系统包括:
预处理模块,用于对待评估的在线学习的视频片段进行预处理;
特征提取模块,用于提取经过预处理后视频片段t*的头部姿态特征块Gt和面部表情特征块Et;
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1-7任一项所述的基于时空注意力网络的在线学习参与度评估方法的步骤。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的基于时空注意力网络的在线学习参与度评估方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110497274.6A CN113326739B (zh) | 2021-05-07 | 2021-05-07 | 基于时空注意力网络的在线学习参与度评估方法及评估系统、设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110497274.6A CN113326739B (zh) | 2021-05-07 | 2021-05-07 | 基于时空注意力网络的在线学习参与度评估方法及评估系统、设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113326739A CN113326739A (zh) | 2021-08-31 |
CN113326739B true CN113326739B (zh) | 2022-08-09 |
Family
ID=77414229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110497274.6A Active CN113326739B (zh) | 2021-05-07 | 2021-05-07 | 基于时空注意力网络的在线学习参与度评估方法及评估系统、设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113326739B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109389091A (zh) * | 2018-10-22 | 2019-02-26 | 重庆邮电大学 | 基于神经网络和注意力机制结合的文字识别系统及方法 |
CN110475129A (zh) * | 2018-03-05 | 2019-11-19 | 腾讯科技(深圳)有限公司 | 视频处理方法、介质及服务器 |
CN111091045A (zh) * | 2019-10-25 | 2020-05-01 | 重庆邮电大学 | 一种基于时空注意力机制的手语识别方法 |
CN111259142A (zh) * | 2020-01-14 | 2020-06-09 | 华南师范大学 | 基于注意力编码和图卷积网络的特定目标情感分类方法 |
CN112580777A (zh) * | 2020-11-11 | 2021-03-30 | 暨南大学 | 一种基于注意力机制的深度神经网络插件及图像识别方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108388900B (zh) * | 2018-02-05 | 2021-06-08 | 华南理工大学 | 基于多特征融合和时空注意力机制相结合的视频描述方法 |
CN112183056A (zh) * | 2020-08-19 | 2021-01-05 | 合肥工业大学 | 基于CNN-BiLSTM框架的上下文依赖的多分类情感分析方法和系统 |
CN111832669B (zh) * | 2020-09-21 | 2020-12-15 | 首都师范大学 | 学习参与度识别网络模型的建立方法及装置 |
CN112541529A (zh) * | 2020-12-04 | 2021-03-23 | 北京科技大学 | 表情与姿态融合的双模态教学评价方法、设备及存储介质 |
-
2021
- 2021-05-07 CN CN202110497274.6A patent/CN113326739B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110475129A (zh) * | 2018-03-05 | 2019-11-19 | 腾讯科技(深圳)有限公司 | 视频处理方法、介质及服务器 |
CN109389091A (zh) * | 2018-10-22 | 2019-02-26 | 重庆邮电大学 | 基于神经网络和注意力机制结合的文字识别系统及方法 |
CN111091045A (zh) * | 2019-10-25 | 2020-05-01 | 重庆邮电大学 | 一种基于时空注意力机制的手语识别方法 |
CN111259142A (zh) * | 2020-01-14 | 2020-06-09 | 华南师范大学 | 基于注意力编码和图卷积网络的特定目标情感分类方法 |
CN112580777A (zh) * | 2020-11-11 | 2021-03-30 | 暨南大学 | 一种基于注意力机制的深度神经网络插件及图像识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113326739A (zh) | 2021-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liao et al. | Deep facial spatiotemporal network for engagement prediction in online learning | |
CN110321833B (zh) | 基于卷积神经网络和循环神经网络的人体行为识别方法 | |
WO2020010785A1 (zh) | 一种课堂教学认知负荷测量系统 | |
CN110575663B (zh) | 一种基于人工智能的体育辅助训练方法 | |
CN112784763A (zh) | 基于局部与整体特征自适应融合的表情识别方法及系统 | |
CN111199202B (zh) | 基于循环注意力网络的人体动作识别方法及识别装置 | |
CN113158861B (zh) | 一种基于原型对比学习的运动分析方法 | |
CN110598638A (zh) | 模型训练方法、人脸性别预测方法、设备及存储介质 | |
CN113435335B (zh) | 微观表情识别方法、装置、电子设备及存储介质 | |
CN116645721B (zh) | 基于深度学习的坐姿识别方法及系统 | |
CN110287879A (zh) | 一种基于注意力机制的视频行为识别方法 | |
CN114022918A (zh) | 基于多姿态的学习者兴奋状态标签算法 | |
CN114299279B (zh) | 基于脸部检测和识别的无标记群体恒河猴运动量估计方法 | |
CN112560668B (zh) | 一种基于场景先验知识的人体行为识别方法 | |
CN111626197B (zh) | 一种基于人体行为识别网络模型的识别方法 | |
CN112257600B (zh) | 一种人脸识别方法及系统 | |
CN113326739B (zh) | 基于时空注意力网络的在线学习参与度评估方法及评估系统、设备、存储介质 | |
CN114663910A (zh) | 基于多模态学习状态分析系统 | |
CN115641525A (zh) | 一种基于视频的多人行为分析方法 | |
CN113688789A (zh) | 一种基于深度学习的在线学习投入度识别方法及系统 | |
Tan et al. | Tackling Event-Based Lip-Reading by Exploring Multigrained Spatiotemporal Clues | |
Shen et al. | Head pose estimation in classroom scenes | |
Mahajan et al. | Classification of emotions using a 2-channel convolution neural network | |
CN113486706B (zh) | 一种基于人体姿态估计和历史信息的在线动作识别方法 | |
CN113762082B (zh) | 基于循环图卷积自动编码器的无监督骨架动作识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |