CN113326739B - 基于时空注意力网络的在线学习参与度评估方法及评估系统、设备、存储介质 - Google Patents

基于时空注意力网络的在线学习参与度评估方法及评估系统、设备、存储介质 Download PDF

Info

Publication number
CN113326739B
CN113326739B CN202110497274.6A CN202110497274A CN113326739B CN 113326739 B CN113326739 B CN 113326739B CN 202110497274 A CN202110497274 A CN 202110497274A CN 113326739 B CN113326739 B CN 113326739B
Authority
CN
China
Prior art keywords
facial expression
attention
features
hidden state
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110497274.6A
Other languages
English (en)
Other versions
CN113326739A (zh
Inventor
姜新波
秦学英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202110497274.6A priority Critical patent/CN113326739B/zh
Publication of CN113326739A publication Critical patent/CN113326739A/zh
Application granted granted Critical
Publication of CN113326739B publication Critical patent/CN113326739B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及基于时空注意力网络的在线学习参与度评估方法及评估系统、设备、存储介质,该评估方法包括:对视频片段依次进行预处理、特征提取和变换;通过空间注意力模块的输出Mt;将Mt输入到两层Bi‑LSTM模型,得到隐藏状态
Figure DDA0003054913070000011
利用时间注意力模块,得到隐藏状态
Figure DDA0003054913070000012
的权重βt;根据权值βt调整输入的隐藏状态
Figure DDA0003054913070000013
输出隐藏状态
Figure DDA0003054913070000014
最后经过激活函数得到学习参与度评估结果YT。该方法既考虑该特征的空间信息的显著性,同时考虑该特征在时间序列上的显著性,并且能够融合多类输入特征,提高评估的准确性。

Description

基于时空注意力网络的在线学习参与度评估方法及评估系 统、设备、存储介质
技术领域
本发明涉及基于时空注意力网络的在线学习参与度评估方法及评估系统、设备、存储介质,属于人工智能技术领域。
背景技术
随着数字媒体与网络技术的发展,在线教育正逐步发展成为一种新型的教育模式。与传统教育模式相比,在线教育能够突破时间、空间的限制,拓宽学生获取信息的渠道。但由于学生在学习过程中缺乏与教师的直接沟通和反馈,导致极低的完成率。因此及时获取学生的学习状态并做出相应调整,是提高网络教育质量的关键。
学习参与度是体现学生学习状况的重要指标,在学习过程中起着至关重要的作用。随着慕课、公开课等一类网络课程的大量出现,学习过程中学生参与度的自动评估问题受到研究人员的广泛关注。实时获取学生的学习参与度,并且及时反馈给教师,教师根据参与度的情况做出相应调整,进而影响学生的学习过程,能够一定程度解决在线教育过程中存在的问题。
早期学习参与度的研究主要是基于简单学习行为的统计方法,例如分析在线时长、阅读数量、点击次数等学习行为。这是由于早期时候数据采集能力以及计算能力的限制,研究只能在规模较小的数据上进行,并且只能处理一些简单的特征。尽管受试者在学习过程的视频数据蕴含着更丰富的行为与情感信息,但是早期基于特征点的方法很难提取此类信息,研究工作进展有限。随着深度学习技术的出现与发展,能够从大量视频中直接提取受试者复杂的学习行为以及面部表情信息,进而评估其行为参与度与情感参与度,最终得到学习参与度。该方法是目前主流的参与度研究方法,称之为视觉方法。两类方法相比,统计方法有很强的主观性,评估性能的好坏依赖于衡量指标。视觉方法直接从分析受试者入手,不受学习内容的约束,因此具有更强的普适性。如中国专利文献CN111832669A公开了学习参与度识别网络模型的建立方法及装置,对获取的多个视频样本进行预处理,得到融合特征;根据所述视频样本的融合特征,构建学习参与度识别网络模型训练用的最小批;依据所述最小批中视频样本对的嵌入向量距离与所述最小批中视频样本对的参与度标签距离一致性有序的原则,构造有序度量损失函数,其中,所述嵌入向量由所述学习参与度识别网络模型根据视频样本的融合特征计算得到;根据所述有序度量损失函数,优化所述学习参与度识别网络模型中的参数。但是,目前的视觉方法只是将多类特征进行简单的拼接,没有充分挖掘特征内以及特征之间的显著性信息。
同时,传统的双向长短期记忆网络(Bi-LSTM)模型只有一个输入信息,结果好坏很大程度取决于输入的情况,Bi-LSTM模型缺乏外部调控的问题。
发明内容
针对现有技术的不足,本发明提供了基于时空注意力网络的在线学习参与度评估方法及评估系统,该方法提出了空间注意力模块与时间注意力模块,对于每一帧特征,既考虑该特征的空间信息的显著性,同时考虑该特征在时间序列上的显著性,并且能够融合多类输入特征,提高评估的准确性。本发明提出的基于时间注意力的双向自适应长短期记忆网络,能够根据帧特征的时间上的显著性,调节双向长短期记忆网络的输入,从而进一步提高准确性。
本发明还提供了一种计算机设备和存储介质。
术语解释:
1.Bi-aLSTM:双向自适应长短期记忆网络,是在Bi-LSTM模型的基础上,构建了一个自适应模块,能够基于获取的权重信息,自动调整Bi-LSTM模型的输入。
2.Bi-LSTM:是Bi-directional Long Short-Term Memory的缩写,双向长短期记忆网络,是由前向LSTM与后向LSTM组合而成。
3.hyperface网络:hyperface网络能够自动提取图像中人的头部姿态特征块。Ranjan R,Patel V M,Chellappa R.HyperFace:A Deep Multi-task Learning Frameworkfor Face Detection,Landmark Localization,Pose Estimation,and GenderRecognition.IEEE Transactions on Pattern Analysis&Machine Intelligence,2018:1-1。
4.openface网络:以卷积网络为基础,能够自动提取图像中人的头部姿态特征块。Amos B,Ludwiczuk B,Mahadev Satyanarayanan.OpenFace:A general-purpose facerecognition library with mobile applications。
5.KMEANS聚类算法:KMEANS算法是典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。
6.DS-ATT:Dual-Modal Spatial Attention Module,双模态空间注意力模块,能够融合两种模态的特征,并对特征中不同位置基于注意力机制进行加权。
7.T-ATT:Temporal Attention Module,时间注意力模块,能够对特征序列中不同时刻的特征基于注意力机制进行加权。
本发明的技术方案为:
一种基于时空注意力网络的在线学习参与度评估方法,该方法包括步骤:
(1)对待评估的在线学习的视频片段进行预处理;
(2)特征提取:提取经过预处理后视频片段t*的头部姿态特征块Gt和面部表情特征块Et
(3)特征变换:将头部姿态特征块Gt分解成头部姿态特征集合
Figure GDA0003639565390000031
Figure GDA0003639565390000032
表示在第t个头部姿态特征块i位置上从通道1到通道D1上的值构成的特征,
Figure GDA0003639565390000033
K1表示头部姿态特征块中每个通道的边长,t∈{1,…,T},T表示视频片段的个数;D1表示头部姿态特征块中通道的个数;该头部姿态特征的维度与头部姿态特征块的通道数相同,均为D1
同理,将面部表情特征块Et分解成面部表情特征集合
Figure GDA0003639565390000034
Figure GDA0003639565390000035
表示在第t个面部表情特征块j位置上从通道1到通道D2上的值构成的特征,
Figure GDA0003639565390000036
K2表示面部表情特征块中每个通道的边长,t∈{1,…,T};D2表示面部表情特征块中通道的个数;该面部表情特征的维度与面部表情特征块的通道数相同,均为D2
(4)将t时刻提取得到的面部表情特征集合
Figure GDA0003639565390000037
头部姿态特征集合
Figure GDA0003639565390000038
及t-1时刻的隐藏状态
Figure GDA0003639565390000041
输入到双模态空间注意力模块中,最后双模态空间注意力模块的输出Mt;初始的隐藏状态H0每一维初始化为0;
(5)将Mt输入到两层Bi-LSTM模型,得到隐藏状态
Figure GDA0003639565390000042
(6)将隐藏状态
Figure GDA0003639565390000043
输入到时间注意力模块,得到隐藏状态
Figure GDA0003639565390000044
的权重βt
(7)将步骤(6)时间注意力模块得到的隐藏状态
Figure GDA0003639565390000045
的权重βt和步骤(5)得到的隐藏状态
Figure GDA0003639565390000046
输入到训练好的Bi-aLSTM模型中,然后Bi-aLSTM模型根据当前时刻的权值βt调整输入的隐藏状态
Figure GDA0003639565390000047
Bi-aLSTM模型输出隐藏状态
Figure GDA0003639565390000048
隐藏状态
Figure GDA0003639565390000049
经过激活函数tanh得到学习参与度评估结果YT,YT是整数,YT取值范围0到3,从0至3参与度依次增加,0表示完全不参与,1表示低程度的参与,2表示一般程度的参与,3表示高程度的参与。
Bi-aLSTM模型是在Bi-LSTM模型的基础上,构建了一个自适应模块,自适应模块根据当前时刻的权值βt调整输入的隐藏状态
Figure GDA00036395653900000410
Bi-aLSTM模型输出隐藏状态
Figure GDA00036395653900000411
根据本发明优选的,Bi-aLSTM模型的训练过程为:
a、构建数据集,具体包括:
a-1、获取训练视频;
a-2、确定视频的标注指标,标注指标包括头部姿态、眼球注视点和面部表情;
a-3、对视频进行标注;
b、将数据集中的视频片段进行预处理;
c、特征提取:提取经过预处理后视频片段t*的头部姿态特征块Gt和面部表情特征块Et
d、特征变换:将头部姿态特征块Gt分解成头部姿态特征集合
Figure GDA00036395653900000412
将面部表情特征块Et分解成面部表情特征集合
Figure GDA00036395653900000413
e、将t时刻提取得到的面部表情特征集合
Figure GDA00036395653900000414
头部姿态特征集合
Figure GDA00036395653900000415
及t-1时刻的隐藏状态
Figure GDA00036395653900000416
输入到双模态空间注意力模块中,最后双模态空间注意力模块的输出Mt
f、将Mt输入到两层Bi-LSTM模型,得到隐藏状态
Figure GDA0003639565390000051
g、将隐藏状态
Figure GDA0003639565390000052
输入到时间注意力模块,得到隐藏状态
Figure GDA0003639565390000053
的权重βt
h、将步骤g时间注意力模块得到的隐藏状态
Figure GDA0003639565390000054
的权重βt和步骤f得到的隐藏状态
Figure GDA0003639565390000055
输入到Bi-aLSTM模型中;
i、通过训练确定Bi-aLSTM模型中细胞状态C以及隐藏状态H的维度,以及输入特征序列的最大长度T。
根据本发明优选的,步骤(1)中,对待评估的在线学习的视频片段进行预处理;具体过程为:
1-1:降采样:从采集的在线学习的视频中,每10帧图像随机采样1帧图像,用于后续的计算;通过观察,发现连续多帧图像中受试者的头部姿态与面部表情变化很小,因此为了减少训练时间以及减小存储压力;
1-2:视频分段:基于滑动窗口的方式将降采样的视频进行分块处理;滑动窗口的长度为len,每次窗口滑动的步长定为len,因此每一个视频片段的长度为len。能够进一步减少训练时间。
由于LSTM在处理时序数据的时候,随着序列长度的增加,训练时间会大大延长,因此采用降采样和视频分段两种方式来降低训练时间。
根据本发明优选的,步骤(2)中,提取经过预处理后视频片段t*的头部姿态特征块Gt和面部表情特征块Et;具体过程为:
2-1、将预处理后的视频片段t*的每一帧图像经过hyperface网络得到该帧图像的头部姿态特征块,将预处理后的视频片段的每一帧图像经过openface网络得到该帧图像的面部表情特征块;
2-2、将视频片段t*中所有帧图像的头部姿态特征块的特征均值作为视频片段t*的头部姿态特征块Gt,将该视频片段t*中所有帧图像的面部表情特征块的特征均值作为视频片段t*的面部表情特征块Et;具体为:
Figure GDA0003639565390000056
式(I)中,len为视频片段的长度,Gr,t表示第t个视频片段中第r帧图像提取的头部姿态特征块;r∈{1,…,len},t∈{1,…,T},T表示视频片段的个数;Gt表示视频片段t*均值化后的头部姿态特征块;
Figure GDA0003639565390000061
式(II)中,Er,t表示第t个视频片段中第r帧图像提取的面部表情特征块,r∈{1,…,len},t∈{1,…,T},T表示视频片段的个数;Et表示视频片段t*均值化后的面部表情特征块。
经过以上操作,能够进一步加速,同时能尽可能的获取一个视频片段中每一帧图像的信息;基于特征提取,将时长为L的视频,压缩成时长为T的特征序列。
根据本发明优选的,步骤(4)中,将t时刻提取得到的面部表情特征集合
Figure GDA0003639565390000062
头部姿态特征集合
Figure GDA0003639565390000063
及t-1时刻的隐藏状态
Figure GDA0003639565390000064
输入到双模态空间注意力模块中,最后双模态空间注意力模块的输出Mt;具体过程为:
4-1,在双模态空间注意力模块中,得到面部表情特征
Figure GDA0003639565390000065
的注意力值αE,t,j和头部姿态特征
Figure GDA0003639565390000066
的注意力值αG,t,i;具体过程为:
头部姿态特征
Figure GDA0003639565390000067
的注意力值αG,t,i的计算公式为:
Figure GDA0003639565390000068
式(III)中,特征块i位置,
Figure GDA0003639565390000069
Wi G表示对头部姿态特征
Figure GDA00036395653900000610
进行全连接操作,
Figure GDA00036395653900000611
表示对任一个头部姿态特征
Figure GDA00036395653900000612
进行全连接操作,
Figure GDA00036395653900000613
面部表情特征
Figure GDA00036395653900000614
的注意力值αE,t,j的计算公式为:
Figure GDA0003639565390000071
式(IV)中,特征块j位置,
Figure GDA0003639565390000072
Figure GDA0003639565390000073
表示对面部表情特征
Figure GDA0003639565390000074
进行全连接操作,
Figure GDA0003639565390000075
表示对任一个面部表情特征
Figure GDA0003639565390000076
进行全连接操作,
Figure GDA0003639565390000077
4-2,基于对面部表情特征
Figure GDA0003639565390000078
及其注意力值αE,t,j,以及头部姿态特征
Figure GDA00036395653900000725
及其注意力值αG,t,i分别进行加权处理,再进行连接及全连接操作,得到双模态空间注意力模块的输出Mt;具体过程为:
a、对面部表情特征
Figure GDA00036395653900000710
及其注意力值αE,t,j进行加权处理,得到加权面部表情注意力特征
Figure GDA00036395653900000711
具体为:
Figure GDA00036395653900000712
对头部姿态特征
Figure GDA00036395653900000713
及其注意力值αG,t,i进行加权处理,得到加权头部姿态注意力特征
Figure GDA00036395653900000714
具体为:
Figure GDA00036395653900000715
b、将加权头部姿态注意力特征
Figure GDA00036395653900000716
和加权面部表情注意力特征
Figure GDA00036395653900000717
进行连接,再进行全连接操作,得到Mt
Figure GDA00036395653900000718
W[·]表示全连接操作。
根据本发明优选的,步骤(6)中,将隐藏状态
Figure GDA00036395653900000719
输入到时间注意力模块,得到隐藏状态
Figure GDA00036395653900000720
的权重βt;具体过程为:
步骤6-1,在时间注意力模块中,进行聚类操作:采用KMEANS聚类算法对第二层双向LSTM输出的隐藏状态
Figure GDA00036395653900000721
进行聚类;为了消除特征不同维度的方差差异,使用马氏距离来度量特征之间的距离,然后进行聚类;
经过聚类得到K个聚类中心Ck
Figure GDA00036395653900000722
每个聚类中心的维度h和Bi-LSTM输出的隐藏状态的维度相同;每个隐藏状态
Figure GDA00036395653900000723
对每个聚类中心的隶属度为Dt
Figure GDA00036395653900000724
Figure GDA0003639565390000081
Figure GDA0003639565390000082
表示第t个隐藏状态
Figure GDA0003639565390000083
属于第k个聚类中心的概率值,k为1,2,3…K;
步骤6-2,进行挤压操作:对每个聚类中心的每一维数值累加求和,将每个聚类中心变成一个实数,这个实数某种程度上具有全局的感受野,经过挤压操作,最终输出的维度与输入的聚类中心的个数相等,如式(VII)所示:
Figure GDA0003639565390000084
式(VII)中,zk表示经过求和操作后,第k个聚类中心的值;Ck表示第k个聚类中心,Fsq(·)表示进行挤压操作,
Figure GDA0003639565390000085
表示第k个聚类中心第i维的值;h表示聚类中心的维度;
步骤6-3,进行活化操作:进行两个全连接以及σ(·)函数的非线性运算,计算每个聚类中心的权重
Figure GDA0003639565390000086
这两个全连接层的作用就是融合各个聚类中心的信息,具体如下:
Figure GDA0003639565390000087
式(VIII)中,z表示z1到zk构成的向量;δ表示RELU函数,Fex(·,W)表示进行活化操作,σ(·)表示sigmoid激活函数;W1表示第一次全连接操作,W2表示第二次全连接操作;
步骤6-4,基于每个聚类中心的权重
Figure GDA0003639565390000088
Figure GDA0003639565390000089
中的每一个分量的值表示每个聚类中心的权重,分配给每个隐藏状态
Figure GDA00036395653900000810
的权重βt,如式(IX)所示:
Figure GDA00036395653900000811
式(IX)中,Dt表示每个隐藏状态
Figure GDA00036395653900000817
对每个聚类中心的隶属度,
Figure GDA00036395653900000812
Figure GDA00036395653900000813
的第k个分量,k=1、2、3……K。
根据本发明优选的,步骤(7)中,Bi-aLSTM模型根据当前时刻的权值βt调整输入的隐藏状态
Figure GDA00036395653900000814
具体过程如下:
Figure GDA00036395653900000815
式(X)中,St表示隐藏状态
Figure GDA00036395653900000816
调整后的输入,W3、W4分别表示两次全连接操作,σ(·)表示sigmoid激活函数;δ表示RELU函数。
一种基于时空注意力网络的在线学习参与度评估系统,用于实现上述基于时空注意力网络的在线学习参与度评估方法,该系统包括:
预处理模块,用于对待评估的在线学习的视频片段进行预处理;
特征提取模块,用于提取经过预处理后视频片段t*的头部姿态特征块Gt和面部表情特征块Et
特征变换模块,用于将头部姿态特征块Gt分解成头部姿态特征集合
Figure GDA0003639565390000091
以及将面部表情特征块Et分解成面部表情特征集合
Figure GDA0003639565390000092
双模态空间注意力模块,用于将t时刻提取得到的面部表情特征集合
Figure GDA0003639565390000093
头部姿态特征集合
Figure GDA0003639565390000094
及t-1时刻的隐藏状态
Figure GDA0003639565390000095
输入到双模态空间注意力模块中,输出Mt
两层Bi-LSTM模块,基于双模态空间注意力模块的输出Mt得到隐藏状态
Figure GDA0003639565390000096
时间注意力模块,用于得到隐藏状态
Figure GDA0003639565390000097
的权重βt
Bi-aLSTM模块,用于根据当前时刻的权值βt调整输入的隐藏状态
Figure GDA0003639565390000098
输出隐藏状态
Figure GDA0003639565390000099
隐藏状态
Figure GDA00036395653900000910
经过激活函数tanh得到学习参与度评估结果YT
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述基于时空注意力网络的在线学习参与度评估方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述基于时空注意力网络的在线学习参与度评估方法的步骤。
本发明的有益效果为:
1.该发明提出了双模态空间注意力模块与时间注意力模块,对于每一帧特征,既考虑该特征的空间信息的显著性,同时考虑该特征在时间序列上的显著性,并且能够融合多类输入特征,提高评估的准确性。提出的基于时间注意力的自适应的双向LSTM,能够根据帧特征的时间上的显著性,调节双向LSTM的输入,从而进一步提高准确性。
2.本发明提出的双模态空间注意力模块,用于解决视频中每一帧图像不同区域缺乏显著性的问题;图像不同区域提取的特征对评估结果产生不同的影响度,通过双模态空间注意力模块,提取不同区域特征的显著度,根据显著度区别使用每个区域的特征,能够提高评估的准确度。
3.本发明提出的时间注意力模块,用于解决视频中不同时刻图像的缺乏区分性的问题;提取不同时刻图像的显著度,综合考虑每一帧图像的学习者的参与度情况,提高评估的准确度。
4.本发明提出的双向自适应LSTM模块(Bi-aLSTM),基于输入信息与时间显著度的自适应Bi-LSTM模块,根据显著度调整Bi-LSTM的输入,提高最终评估的准确度。
附图说明
图1是从每个视频片段中提取头部姿态特征以及面部表情特征的过程示意图;
图2是从头部姿态特征块Gt中提取头部姿态特征集合
Figure GDA0003639565390000101
的过程示意图;
图3是从面部表情特征块Et中提取面部表情特征集合
Figure GDA0003639565390000102
的过程示意图;
图4是本发明实施例提供的一种基于时空注意力网络的在线学习参与度评估方法的结构示意图;
图5是本发明实施例提供的多类特征融合的双模态空间注意力模块的结构示意图;
图6是本发明实施例提供的时间注意力模块的结构示意图。
具体实施方式
下面结合实施例和说明书附图对本发明做进一步说明,但不限于此。
实施例1
一种基于时空注意力网络的在线学习参与度评估方法,如图4所示,该方法包括步骤:
(1)对待评估的在线学习的视频片段进行预处理;
具体过程为:
1-1:降采样:从采集的在线学习的视频中,每10帧图像随机采样1帧图像,用于后续的计算;通过观察,发现连续多帧图像中受试者的头部姿态与面部表情变化很小,因此为了减少训练时间以及减小存储压力;
1-2:视频分段:基于滑动窗口的方式将降采样的视频进行分块处理;滑动窗口的长度为len,每次窗口滑动的步长定为len,因此每一个视频片段的长度为len。能够进一步减少训练时间。
由于LSTM在处理时序数据的时候,随着序列长度的增加,训练时间会大大延长,因此采用降采样和视频分段两种方式来降低训练时间。
(2)特征提取:提取经过预处理后视频片段t*的头部姿态特征块Gt和面部表情特征块Et;具体过程为:
2-1、如图1所示,将预处理后的视频片段t*的每一帧图像经过hyperface网络得到该帧图像的头部姿态特征块,将预处理后的视频片段的每一帧图像经过openface网络得到该帧图像的面部表情特征块;
2-2、将视频片段t*中所有帧图像的头部姿态特征块的特征均值作为视频片段t*的头部姿态特征块Gt,将该视频片段t*中所有帧图像的面部表情特征块的特征均值作为视频片段t*的面部表情特征块Et;具体为:
Figure GDA0003639565390000111
式(I)中,len为视频片段的长度,Gr,t表示第t个视频片段中第r帧图像提取的头部姿态特征块;r∈{1,…,len},t∈{1,…,T},T表示视频片段的个数;Gt表示视频片段t*均值化后的头部姿态特征块;
Figure GDA0003639565390000112
式(II)中,Er,t表示第t个视频片段中第r帧图像提取的面部表情特征块,r∈{1,…,len},t∈{1,…,T},T表示视频片段的个数;Et表示视频片段t*均值化后的面部表情特征块。
经过以上操作,能够进一步加速,同时能尽可能的获取一个视频片段中每一帧图像的信息;基于特征提取,将时长为L的视频,压缩成时长为T的特征序列。
(3)特征变换:将头部姿态特征块Gt分解成头部姿态特征集合
Figure GDA0003639565390000113
Figure GDA0003639565390000114
表示在第t个头部姿态特征块i位置上从通道1到通道D1上的值构成的特征,
Figure GDA0003639565390000121
K1表示头部姿态特征块中每个通道的边长,t∈{1,…,T},T表示视频片段的个数;D1表示头部姿态特征块中通道的个数;该头部姿态特征的维度与头部姿态特征块的通道数相同,均为D1;如图2所示,将头部姿态特征块的底面划分为
Figure GDA0003639565390000122
个网格,i位置在
Figure GDA0003639565390000123
个网格中的任一个网格中变换;头部姿态特征块的维度相同与通道数相同,通道数可看做头部姿态特征块的高;将头部姿态特征块Gt分解成头部姿态特征集合
Figure GDA0003639565390000124
同理,将面部表情特征块Et分解成面部表情特征集合
Figure GDA0003639565390000125
Figure GDA0003639565390000126
表示在第t个面部表情特征块j位置上从通道1到通道D2上的值构成的特征,
Figure GDA0003639565390000127
K2表示面部表情特征块中每个通道的边长,t∈{1,…,T};D2表示面部表情特征块中通道的个数;该面部表情特征的维度与面部表情特征块的通道数相同,均为D2;如图3所示,将面部表情特征块的底面划分为
Figure GDA0003639565390000128
个网格,i位置在
Figure GDA0003639565390000129
个网格中任一个网格中变换;面部表情特征块的维度相同与通道数相同,通道数可看做面部表情特征块的高;将面部表情特征块Et分解成面部表情特征集合
Figure GDA00036395653900001210
(4)如图5所示,将t时刻提取得到的面部表情特征集合
Figure GDA00036395653900001211
头部姿态特征集合
Figure GDA00036395653900001212
及t-1时刻的隐藏状态
Figure GDA00036395653900001213
输入到双模态空间注意力模块中,最后双模态空间注意力模块的输出Mt;初始的隐藏状态H0每一维初始化为0;具体过程为:
4-1,在双模态空间注意力模块中,得到面部表情特征
Figure GDA00036395653900001214
的注意力值αE,t,j和头部姿态特征
Figure GDA00036395653900001215
的注意力值αG,t,i;具体过程为:
头部姿态特征
Figure GDA00036395653900001216
的注意力值αG,t,i的计算公式为:
Figure GDA00036395653900001217
式(III)中,特征块i位置,
Figure GDA0003639565390000131
Wi G表示对头部姿态特征
Figure GDA0003639565390000132
进行全连接操作,
Figure GDA0003639565390000133
表示对任一个头部姿态特征
Figure GDA0003639565390000134
进行全连接操作,
Figure GDA0003639565390000135
面部表情特征
Figure GDA0003639565390000136
的注意力值αE,t,j的计算公式为:
Figure GDA0003639565390000137
式(IV)中,特征块j位置,
Figure GDA0003639565390000138
Figure GDA0003639565390000139
表示对面部表情特征
Figure GDA00036395653900001310
进行全连接操作,
Figure GDA00036395653900001311
表示对任一个面部表情特征
Figure GDA00036395653900001312
进行全连接操作,
Figure GDA00036395653900001313
4-2,基于对面部表情特征
Figure GDA00036395653900001314
及其注意力值αE,t,j,以及头部姿态特征
Figure GDA00036395653900001328
及其注意力值αG,t,i分别进行加权处理,再进行连接及全连接操作,得到双模态空间注意力模块的输出Mt;具体过程为:
a、对面部表情特征
Figure GDA00036395653900001316
及其注意力值αE,t,j进行加权处理,得到加权面部表情注意力特征
Figure GDA00036395653900001317
具体为:
Figure GDA00036395653900001318
对头部姿态特征
Figure GDA00036395653900001319
及其注意力值αG,t,i进行加权处理,得到加权头部姿态注意力特征
Figure GDA00036395653900001320
具体为:
Figure GDA00036395653900001321
b、将加权头部姿态注意力特征
Figure GDA00036395653900001322
和加权面部表情注意力特征
Figure GDA00036395653900001323
进行连接,再进行全连接操作,得到Mt
Figure GDA00036395653900001324
W[·]表示全连接操作。
(5)将Mt输入到两层Bi-LSTM模型,得到隐藏状态
Figure GDA00036395653900001325
(6)如图6所示,将隐藏状态
Figure GDA00036395653900001326
输入到时间注意力模块,得到隐藏状态
Figure GDA00036395653900001327
的权重βt;具体过程为:
步骤6-1,在时间注意力模块中,进行聚类操作:采用KMEANS聚类算法对第二层双向LSTM输出的隐藏状态
Figure GDA0003639565390000141
进行聚类;为了消除特征不同维度的方差差异,使用马氏距离来度量特征之间的距离,然后进行聚类;
经过聚类得到K个聚类中心Ck
Figure GDA0003639565390000142
每个聚类中心的维度h和Bi-LSTM输出的隐藏状态的维度相同;每个隐藏状态
Figure GDA0003639565390000143
对每个聚类中心的隶属度为Dt
Figure GDA0003639565390000144
Figure GDA0003639565390000145
Figure GDA0003639565390000146
表示第t个隐藏状态
Figure GDA0003639565390000147
属于第k个聚类中心的概率值,k为1,2,3…K;
步骤6-2,进行挤压操作:对每个聚类中心的每一维数值累加求和,将每个聚类中心变成一个实数,这个实数某种程度上具有全局的感受野,经过挤压操作,最终输出的维度与输入的聚类中心的个数相等,如式(VII)所示:
Figure GDA0003639565390000148
式(VII)中,zk表示经过求和操作后,第k个聚类中心的值;Ck表示第k个聚类中心,Fsq(·)表示进行挤压操作,
Figure GDA0003639565390000149
表示第k个聚类中心第i维的值;h表示聚类中心的维度;
步骤6-3,进行活化操作:进行两个全连接以及σ(·)函数的非线性运算,计算每个聚类中心的权重
Figure GDA00036395653900001410
这两个全连接层的作用就是融合各个聚类中心的信息,具体如下:
Figure GDA00036395653900001411
式(VIII)中,z表示z1到zk构成的向量;δ表示RELU函数,Fex(·,W)表示进行活化操作,σ(·)表示sigmoid激活函数;W1表示第一次全连接操作,W2表示第二次全连接操作;
步骤6-4,基于每个聚类中心的权重
Figure GDA00036395653900001412
Figure GDA00036395653900001413
中的每一个分量的值表示每个聚类中心的权重,分配给每个隐藏状态
Figure GDA00036395653900001414
的权重βt,如式(IX)所示:
Figure GDA00036395653900001415
式(IX)中,Dt表示每个隐藏状态
Figure GDA00036395653900001416
对每个聚类中心的隶属度,
Figure GDA00036395653900001417
Figure GDA00036395653900001418
的第k个分量,k=1、2、3……K。
(7)将步骤(6)时间注意力模块得到的隐藏状态
Figure GDA0003639565390000151
的权重βt和步骤(5)得到的隐藏状态
Figure GDA0003639565390000152
输入到训练好的Bi-aLSTM模型中,然后Bi-aLSTM模型根据当前时刻的权值βt调整输入的隐藏状态
Figure GDA0003639565390000153
Bi-aLSTM模型输出隐藏状态
Figure GDA0003639565390000154
隐藏状态
Figure GDA0003639565390000155
经过激活函数tanh得到学习参与度评估结果YT,YT是整数,YT取值范围0到3,从0至3参与度依次增加,0表示完全不参与,1表示低程度的参与,2表示一般程度的参与,3表示高程度的参与。
Bi-aLSTM模型是在Bi-LSTM模型的基础上,构建了一个自适应模块,自适应模块根据当前时刻的权值βt调整输入的隐藏状态
Figure GDA0003639565390000156
Bi-aLSTM模型输出隐藏状态
Figure GDA0003639565390000157
步骤(7)中,Bi-aLSTM模型根据当前时刻的权值βt调整输入的隐藏状态
Figure GDA0003639565390000158
具体过程如下:
Figure GDA0003639565390000159
式(X)中,St表示隐藏状态
Figure GDA00036395653900001510
调整后的输入,W3、W4分别表示两次全连接操作,σ(·)表示sigmoid激活函数;δ表示RELU函数。
Bi-aLSTM模型的训练过程为:
a、构建数据集,具体包括:
a-1、获取训练视频;
a-2、确定视频的标注指标,标注指标包括头部姿态、眼球注视点和面部表情;
a-3、对视频进行标注:首先,进行图像标注,将每个视频数据等间距抽取100帧图像,根据标注指标,将每帧图像进行标注,较高参与度的图像标注1分,较低参与度的图像标注0分;例如:当图像中,学习者的头部垂直,无偏头、眼球直视屏幕,面部表情认真严肃时,判定为较高参与度,图像标注1分;其他情况判定为较低参与度,图像标注0分;
然后,进行视频标注,统计100帧图像的标注总得分,当得分位于0到24之间,视频标签为0;当得分位于25到49之间,视频标签为1;当得分位于50到74之间,视频标签为2;当得分位于75到100之间,视频标签为3;0表示完全不参与,1表示低程度的参与,2表示一般程度的参与,3表示高程度的参与;
b、将数据集中的视频片段进行预处理;
c、特征提取:提取经过预处理后视频片段t*的头部姿态特征块Gt和面部表情特征块Et
d、特征变换:将头部姿态特征块Gt分解成头部姿态特征集合
Figure GDA0003639565390000161
将面部表情特征块Et分解成面部表情特征集合
Figure GDA0003639565390000162
e、将t时刻提取得到的面部表情特征集合
Figure GDA0003639565390000163
头部姿态特征集合
Figure GDA0003639565390000164
及t-1时刻的隐藏状态
Figure GDA0003639565390000165
输入到双模态空间注意力模块中,最后双模态空间注意力模块的输出Mt
f、将Mt输入到两层Bi-LSTM模型,得到隐藏状态
Figure GDA0003639565390000166
g、将隐藏状态
Figure GDA0003639565390000167
输入到时间注意力模块,得到隐藏状态
Figure GDA0003639565390000168
的权重βt
h、将步骤g时间注意力模块得到的隐藏状态
Figure GDA0003639565390000169
的权重βt和步骤f得到的隐藏状态
Figure GDA00036395653900001610
输入到Bi-aLSTM模型中;
i、通过训练确定Bi-aLSTM模型中细胞状态C以及隐藏状态H的维度,以及输入特征序列的最大长度T。
对本发明提供的评估方法的性能进行评估,表1为不同评估方法的平均绝对误差:
表1
方法 平均绝对误差
RMI-SVM[3] 1.50
VGPMIL[4] 1.44
GAP[5] 1.30
实施例1提供的评估方法 1.12
由表1可知,实施例1提供的评估方法的平均绝对误差为1.12,想比较与现有的常规用的在线参与度评估方法MI-SVM方法、VGPMIL方法以及GAP方法,本发明提供的评估方法的平均绝对误差均小于其他方法,本发明提供的评估方法的的性能都优与现有的评估方法。RMI-SVM方法记载在Xing gang Wang,Zhuotun Zhu,Cong Yao,and Xiang Bai.Relaxedmultiple-instance svm with application to object discovery.InProceedings ofthe IEEE International Conference on Computer Vision,pages1224–1232,2015.VGPMI方法记载在Manuel Hauβmann,Fred A Ham-precht,and MelihKandemir.Variational bayesian multipleinstance learning with gaussianprocesses.InProceedingsof the IEEE Conference on Computer Vision andPatternRecognition,pages 6570–6579,2017.GAP方法记载在Xuesong Niu,Hu Han,Jiabei Zeng,XuranSun,Shiguang Shan,Yan Huang,Songfan Yang,andXilinChen.Automatic engagement prediction with gap feature.InProceedings ofthe2018 on International Conferenceon Multimodal Interaction,pages 599–603.ACM,2018。
实施例2
一种基于时空注意力网络的在线学习参与度评估系统,用于实现实施例1提供的一种基于时空注意力网络的在线学习参与度评估方法,该系统包括:
预处理模块,用于对待评估的在线学习的视频片段进行预处理;
特征提取模块,用于提取经过预处理后视频片段t*的头部姿态特征块Gt和面部表情特征块Et
特征变换模块,用于将头部姿态特征块Gt分解成头部姿态特征集合
Figure GDA0003639565390000171
以及将面部表情特征块Et分解成面部表情特征集合
Figure GDA0003639565390000172
双模态空间注意力模块,用于将t时刻提取得到的面部表情特征集合
Figure GDA0003639565390000173
头部姿态特征集合
Figure GDA0003639565390000174
及t-1时刻的隐藏状态
Figure GDA0003639565390000175
输入到双模态空间注意力模块中,输出Mt
两层Bi-LSTM模块,基于双模态空间注意力模块的输出Mt得到隐藏状态
Figure GDA0003639565390000176
时间注意力模块,用于得到隐藏状态
Figure GDA0003639565390000177
的权重βt
Bi-aLSTM模块,用于根据当前时刻的权值βt调整输入的隐藏状态
Figure GDA0003639565390000178
输出隐藏状态
Figure GDA0003639565390000179
隐藏状态
Figure GDA00036395653900001710
经过激活函数tanh得到学习参与度评估结果YT
实施例3
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现实施例1提供的基于时空注意力网络的在线学习参与度评估方法的步骤。
实施例4
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现实施例1提供的基于时空注意力网络的在线学习参与度评估方法的步骤。

Claims (10)

1.一种基于时空注意力网络的在线学习参与度评估方法,其特征在于,该方法包括步骤:
(1)对待评估的在线学习的视频片段进行预处理;
(2)特征提取:提取经过预处理后视频片段t*的头部姿态特征块Gt和面部表情特征块Et
(3)特征变换:将头部姿态特征块Gt分解成头部姿态特征集合
Figure FDA0003671727880000011
Figure FDA0003671727880000012
表示在第t个头部姿态特征块i位置上从通道1到通道D1上的值构成的特征,
Figure FDA0003671727880000013
K1表示头部姿态特征块中每个通道的边长,t∈{1,…,T},T表示视频片段的个数;D1表示头部姿态特征块中通道的个数;该头部姿态特征的维度与头部姿态特征块的通道数相同,均为D1
同理,将面部表情特征块Et分解成面部表情特征集合
Figure FDA0003671727880000014
Figure FDA0003671727880000015
表示在第t个面部表情特征块j位置上从通道1到通道D2上的值构成的特征,
Figure FDA0003671727880000016
K2表示面部表情特征块中每个通道的边长,t∈{1,…,T};D2表示面部表情特征块中通道的个数;该面部表情特征的维度与面部表情特征块的通道数相同,均为D2
(4)将t时刻提取得到的面部表情特征集合
Figure FDA0003671727880000017
头部姿态特征集合
Figure FDA0003671727880000018
及t-1时刻的隐藏状态
Figure FDA0003671727880000019
输入到双模态空间注意力模块中,最后双模态空间注意力模块的输出Mt,双模态空间注意力模块用于融合表情特征
Figure FDA00036717278800000110
和头部姿态特征
Figure FDA00036717278800000111
并对特征中不同位置基于注意力模块进行加权;
(5)将Mt输入到两层Bi-LSTM模型,得到隐藏状态
Figure FDA00036717278800000112
(6)将隐藏状态
Figure FDA00036717278800000113
输入到时间注意力模块,得到隐藏状态
Figure FDA00036717278800000114
的权重βt
(7)将步骤(6)时间注意力模块得到的隐藏状态
Figure FDA00036717278800000115
的权重βt和步骤(5)得到的隐藏状态
Figure FDA00036717278800000116
输入到训练好的双向自适应长短期记忆网络Bi-aLSTM模型中,Bi-aLSTM是在Bi-LSTM模型的基础上,构建了一个自适应模块,能够基于获取的权重信息,自动调整Bi-LSTM模型的输入;即Bi-aLSTM模型根据当前时刻的权值βt调整输入的隐藏状态
Figure FDA00036717278800000117
Bi-aLSTM模型输出隐藏状态
Figure FDA0003671727880000021
隐藏状态
Figure FDA0003671727880000022
经过激活函数tanh得到学习参与度评估结果YT,YT是整数,YT取值范围0到3,从0至3参与度依次增加,0表示完全不参与,1表示低程度的参与,2表示一般程度的参与,3表示高程度的参与。
2.根据权利要求1所述的一种基于时空注意力网络的在线学习参与度评估方法,其特征在于,Bi-aLSTM模型的训练过程为:
a、构建数据集,具体包括:
a-1、获取训练视频;
a-2、确定视频的标注指标,标注指标包括头部姿态、眼球注视点和面部表情;
a-3、对视频进行标注;
b、将数据集中的视频片段进行预处理;
c、特征提取:提取经过预处理后视频片段t*的头部姿态特征块Gt和面部表情特征块Et
d、特征变换:将头部姿态特征块Gt分解成头部姿态特征集合
Figure FDA0003671727880000023
将面部表情特征块Et分解成面部表情特征集合
Figure FDA0003671727880000024
e、将t时刻提取得到的面部表情特征集合
Figure FDA0003671727880000025
头部姿态特征集合
Figure FDA0003671727880000026
及t-1时刻的隐藏状态
Figure FDA0003671727880000027
输入到双模态空间注意力模块中,最后双模态空间注意力模块的输出Mt
f、将Mt输入到两层Bi-LSTM模型,得到隐藏状态
Figure FDA0003671727880000028
g、将隐藏状态
Figure FDA0003671727880000029
输入到时间注意力模块,得到隐藏状态
Figure FDA00036717278800000210
的权重βt
h、将步骤g时间注意力模块得到的隐藏状态
Figure FDA00036717278800000211
的权重βt和步骤f得到的隐藏状态
Figure FDA00036717278800000212
输入到Bi-aLSTM模型中;
i、通过训练确定Bi-aLSTM模型中细胞状态C以及隐藏状态H的维度,以及输入特征序列的最大长度T。
3.根据权利要求1所述的一种基于时空注意力网络的在线学习参与度评估方法,其特征在于,步骤(1)中,对待评估的在线学习的视频片段进行预处理;具体过程为:
1-1:降采样:从采集的在线学习的视频中,每10帧图像随机采样1帧图像;
1-2:视频分段:基于滑动窗口的方式将降采样的视频进行分块处理;滑动窗口的长度为len,每次窗口滑动的步长定为len,因此每一个视频片段的长度为len。
4.根据权利要求1所述的一种基于时空注意力网络的在线学习参与度评估方法,其特征在于,步骤(2)中,提取经过预处理后视频片段t*的头部姿态特征块Gt和面部表情特征块Et;具体过程为:
2-1、将预处理后的视频片段t*的每一帧图像经过hyperface网络得到该帧图像的头部姿态特征块,将预处理后的视频片段的每一帧图像经过openface网络得到该帧图像的面部表情特征块;
2-2、将视频片段t*中所有帧图像的头部姿态特征块的特征均值作为视频片段t*的头部姿态特征块Gt,将该视频片段t*中所有帧图像的面部表情特征块的特征均值作为视频片段t*的面部表情特征块Et;具体为:
Figure FDA0003671727880000031
式(I)中,len为视频片段的长度,Gr,t表示第t个视频片段中第r帧图像提取的头部姿态特征块;r∈{1,…,len},t∈{1,…,T},T表示视频片段的个数;Gt表示视频片段t*均值化后的头部姿态特征块;
Figure FDA0003671727880000032
式(II)中,Er,t表示第t个视频片段中第r帧图像提取的面部表情特征块,r∈{1,…,len},t∈{1,…,T},T表示视频片段的个数;Et表示视频片段t*均值化后的面部表情特征块。
5.根据权利要求1所述的一种基于时空注意力网络的在线学习参与度评估方法,其特征在于,步骤(4)中,将t时刻提取得到的面部表情特征集合
Figure FDA0003671727880000033
头部姿态特征集合
Figure FDA0003671727880000034
及t-1时刻的隐藏状态
Figure FDA0003671727880000035
输入到双模态空间注意力模块中,最后双模态空间注意力模块的输出Mt;具体过程为:
4-1,在双模态空间注意力模块中,得到面部表情特征
Figure FDA0003671727880000041
的注意力值αE,t,j和头部姿态特征
Figure FDA0003671727880000042
的注意力值αG,t,i;具体过程为:
头部姿态特征
Figure FDA0003671727880000043
的注意力值αG,t,i的计算公式为:
Figure FDA0003671727880000044
式(III)中,i表示第i个特征块,
Figure FDA0003671727880000045
Wi G表示对头部姿态特征
Figure FDA0003671727880000046
进行全连接操作,
Figure FDA0003671727880000047
表示对任一个头部姿态特征
Figure FDA0003671727880000048
进行全连接操作,
Figure FDA0003671727880000049
面部表情特征
Figure FDA00036717278800000410
的注意力值αE,t,j的计算公式为:
Figure FDA00036717278800000411
式(IV)中,j表示第j个特征块,
Figure FDA00036717278800000412
Figure FDA00036717278800000413
表示对面部表情特征
Figure FDA00036717278800000414
进行全连接操作,
Figure FDA00036717278800000415
表示对任一个面部表情特征
Figure FDA00036717278800000416
进行全连接操作,
Figure FDA00036717278800000417
4-2,基于对面部表情特征
Figure FDA00036717278800000418
及其注意力值αE,t,j,以及头部姿态特征
Figure FDA00036717278800000419
及其注意力值αG,t,i分别进行加权处理,再进行连接及全连接操作,得到双模态空间注意力模块的输出Mt;具体过程为:
a、对面部表情特征
Figure FDA00036717278800000420
及其注意力值αE,t,j进行加权处理,得到加权面部表情注意力特征
Figure FDA00036717278800000421
具体为:
Figure FDA00036717278800000422
对头部姿态特征
Figure FDA00036717278800000423
及其注意力值αG,t,i进行加权处理,得到加权头部姿态注意力特征
Figure FDA00036717278800000424
具体为:
Figure FDA00036717278800000425
b、将加权头部姿态注意力特征
Figure FDA0003671727880000051
和加权面部表情注意力特征
Figure FDA0003671727880000052
进行连接,再进行全连接操作,得到Mt
Figure FDA0003671727880000053
W[·]表示全连接操作。
6.根据权利要求1所述的一种基于时空注意力网络的在线学习参与度评估方法,其特征在于,步骤(6)中,将隐藏状态
Figure FDA0003671727880000054
输入到时间注意力模块,得到隐藏状态
Figure FDA0003671727880000055
的权重βt;具体过程为:
步骤6-1,在时间注意力模块中,进行聚类操作:采用KMEANS聚类算法对第二层双向LSTM输出的隐藏状态
Figure FDA0003671727880000056
进行聚类;
经过聚类得到K个聚类中心Ck
Figure FDA0003671727880000057
每个聚类中心的维度h和Bi-LSTM输出的隐藏状态的维度相同;每个隐藏状态
Figure FDA0003671727880000058
对每个聚类中心的隶属度为Dt
Figure FDA0003671727880000059
Figure FDA00036717278800000510
Figure FDA00036717278800000511
表示第t个隐藏状态
Figure FDA00036717278800000512
属于第k个聚类中心的概率值,k为1,2,3…K;
步骤6-2,进行挤压操作:对每个聚类中心的每一维数值累加求和,将每个聚类中心变成一个实数,经过挤压操作,最终输出的维度与输入的聚类中心的个数相等,如式(VII)所示:
Figure FDA00036717278800000513
式(VII)中,zk表示经过求和操作后,第k个聚类中心的值;Ck表示第k个聚类中心,Fsq(·)表示进行挤压操作,
Figure FDA00036717278800000514
表示第k个聚类中心第i维的值;h表示聚类中心的维度;
步骤6-3,进行活化操作:进行两个全连接以及σ(·)函数的非线性运算,计算每个聚类中心的权重
Figure FDA00036717278800000515
具体如下:
Figure FDA00036717278800000516
式(VIII)中,z表示z1到zk构成的向量;δ表示RELU函数,Fex(·,W)表示进行活化操作,σ(·)表示sigmoid激活函数;W1表示第一次全连接操作,W2表示第二次全连接操作;
步骤6-4,基于每个聚类中心的权重
Figure FDA00036717278800000517
Figure FDA00036717278800000518
中的每一个分量的值表示每个聚类中心的权重,分配给每个隐藏状态
Figure FDA0003671727880000061
的权重βt,如式(IX)所示:
Figure FDA0003671727880000062
式(IX)中,
Figure FDA0003671727880000063
Figure FDA0003671727880000064
的第k个分量,k=1、2、3……K。
7.根据权利要求1所述的一种基于时空注意力网络的在线学习参与度评估方法,其特征在于,步骤(7)中,Bi-aLSTM模型根据当前时刻的权值βt调整输入的隐藏状态
Figure FDA0003671727880000065
具体过程如下:
Figure FDA0003671727880000066
式(X)中,St表示隐藏状态
Figure FDA0003671727880000067
调整后的输入,W3、W4分别表示两次全连接操作,σ(·)表示sigmoid激活函数;δ表示RELU函数。
8.一种基于时空注意力网络的在线学习参与度评估系统,其特征在于,用于实现权利要求1-7任一项所述的一种基于时空注意力网络的在线学习参与度评估方法,该系统包括:
预处理模块,用于对待评估的在线学习的视频片段进行预处理;
特征提取模块,用于提取经过预处理后视频片段t*的头部姿态特征块Gt和面部表情特征块Et
特征变换模块,用于将头部姿态特征块Gt分解成头部姿态特征集合
Figure FDA0003671727880000068
以及将面部表情特征块Et分解成面部表情特征集合
Figure FDA0003671727880000069
双模态空间注意力模块,用于将t时刻提取得到的面部表情特征集合
Figure FDA00036717278800000610
头部姿态特征集合
Figure FDA00036717278800000611
及t-1时刻的隐藏状态
Figure FDA00036717278800000612
输入到双模态空间注意力模块中,输出Mt
两层Bi-LSTM模块,基于双模态空间注意力模块的输出Mt得到隐藏状态
Figure FDA00036717278800000613
时间注意力模块,用于得到隐藏状态
Figure FDA00036717278800000614
的权重βt
Bi-aLSTM模块,用于根据当前时刻的权值βt调整输入的隐藏状态
Figure FDA00036717278800000615
输出隐藏状态
Figure FDA00036717278800000616
隐藏状态
Figure FDA00036717278800000617
经过激活函数tanh得到学习参与度评估结果YT
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1-7任一项所述的基于时空注意力网络的在线学习参与度评估方法的步骤。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的基于时空注意力网络的在线学习参与度评估方法的步骤。
CN202110497274.6A 2021-05-07 2021-05-07 基于时空注意力网络的在线学习参与度评估方法及评估系统、设备、存储介质 Active CN113326739B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110497274.6A CN113326739B (zh) 2021-05-07 2021-05-07 基于时空注意力网络的在线学习参与度评估方法及评估系统、设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110497274.6A CN113326739B (zh) 2021-05-07 2021-05-07 基于时空注意力网络的在线学习参与度评估方法及评估系统、设备、存储介质

Publications (2)

Publication Number Publication Date
CN113326739A CN113326739A (zh) 2021-08-31
CN113326739B true CN113326739B (zh) 2022-08-09

Family

ID=77414229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110497274.6A Active CN113326739B (zh) 2021-05-07 2021-05-07 基于时空注意力网络的在线学习参与度评估方法及评估系统、设备、存储介质

Country Status (1)

Country Link
CN (1) CN113326739B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109389091A (zh) * 2018-10-22 2019-02-26 重庆邮电大学 基于神经网络和注意力机制结合的文字识别系统及方法
CN110475129A (zh) * 2018-03-05 2019-11-19 腾讯科技(深圳)有限公司 视频处理方法、介质及服务器
CN111091045A (zh) * 2019-10-25 2020-05-01 重庆邮电大学 一种基于时空注意力机制的手语识别方法
CN111259142A (zh) * 2020-01-14 2020-06-09 华南师范大学 基于注意力编码和图卷积网络的特定目标情感分类方法
CN112580777A (zh) * 2020-11-11 2021-03-30 暨南大学 一种基于注意力机制的深度神经网络插件及图像识别方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388900B (zh) * 2018-02-05 2021-06-08 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN112183056A (zh) * 2020-08-19 2021-01-05 合肥工业大学 基于CNN-BiLSTM框架的上下文依赖的多分类情感分析方法和系统
CN111832669B (zh) * 2020-09-21 2020-12-15 首都师范大学 学习参与度识别网络模型的建立方法及装置
CN112541529A (zh) * 2020-12-04 2021-03-23 北京科技大学 表情与姿态融合的双模态教学评价方法、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110475129A (zh) * 2018-03-05 2019-11-19 腾讯科技(深圳)有限公司 视频处理方法、介质及服务器
CN109389091A (zh) * 2018-10-22 2019-02-26 重庆邮电大学 基于神经网络和注意力机制结合的文字识别系统及方法
CN111091045A (zh) * 2019-10-25 2020-05-01 重庆邮电大学 一种基于时空注意力机制的手语识别方法
CN111259142A (zh) * 2020-01-14 2020-06-09 华南师范大学 基于注意力编码和图卷积网络的特定目标情感分类方法
CN112580777A (zh) * 2020-11-11 2021-03-30 暨南大学 一种基于注意力机制的深度神经网络插件及图像识别方法

Also Published As

Publication number Publication date
CN113326739A (zh) 2021-08-31

Similar Documents

Publication Publication Date Title
Liao et al. Deep facial spatiotemporal network for engagement prediction in online learning
CN110321833B (zh) 基于卷积神经网络和循环神经网络的人体行为识别方法
CN108764059B (zh) 一种基于神经网络的人体行为识别方法及系统
WO2020010785A1 (zh) 一种课堂教学认知负荷测量系统
CN110575663B (zh) 一种基于人工智能的体育辅助训练方法
CN112784763B (zh) 基于局部与整体特征自适应融合的表情识别方法及系统
CN111199202B (zh) 基于循环注意力网络的人体动作识别方法及识别装置
CN113158861B (zh) 一种基于原型对比学习的运动分析方法
CN110598638A (zh) 模型训练方法、人脸性别预测方法、设备及存储介质
CN112819065A (zh) 基于多重聚类信息的无监督行人难样本挖掘方法和系统
CN111028319A (zh) 一种基于面部运动单元的三维非真实感表情生成方法
CN116645721B (zh) 基于深度学习的坐姿识别方法及系统
CN116110089A (zh) 一种基于深度自适应度量学习的面部表情识别方法
CN111626197B (zh) 一种基于人体行为识别网络模型的识别方法
CN112257600B (zh) 一种人脸识别方法及系统
CN112560668A (zh) 一种基于场景先验知识的人体行为识别方法
CN113326739B (zh) 基于时空注意力网络的在线学习参与度评估方法及评估系统、设备、存储介质
Chen Evaluation technology of classroom students’ learning state based on deep learning
CN116012903A (zh) 一种人脸表情自动标注的方法及系统
CN114663910A (zh) 基于多模态学习状态分析系统
CN114360058A (zh) 一种基于行走视角预测的跨视角步态识别方法
CN111178141B (zh) 一种基于注意力机制的lstm人体行为识别方法
CN113688789A (zh) 一种基于深度学习的在线学习投入度识别方法及系统
Mahajan et al. Classification of emotions using a 2-channel convolution neural network
CN113486706B (zh) 一种基于人体姿态估计和历史信息的在线动作识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant