CN112801042B - 一种基于深度学习和视频轨迹的学生上课行为识别方法 - Google Patents
一种基于深度学习和视频轨迹的学生上课行为识别方法 Download PDFInfo
- Publication number
- CN112801042B CN112801042B CN202110251597.7A CN202110251597A CN112801042B CN 112801042 B CN112801042 B CN 112801042B CN 202110251597 A CN202110251597 A CN 202110251597A CN 112801042 B CN112801042 B CN 112801042B
- Authority
- CN
- China
- Prior art keywords
- video
- track
- network
- behavior
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000006399 behavior Effects 0.000 title claims abstract description 67
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000013135 deep learning Methods 0.000 title claims abstract description 15
- 238000011176 pooling Methods 0.000 claims abstract description 12
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 8
- 238000013528 artificial neural network Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 37
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000003287 optical effect Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 5
- 230000009977 dual effect Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 101100161752 Mus musculus Acot11 gene Proteins 0.000 claims description 2
- 238000000926 separation method Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种基于深度学习和视频轨迹的学生上课行为识别方法,包括以下步骤1:使用手工标注的学生上课行为训练样本训练双流卷积网络;步骤2:利用改进的轨迹算法从行为视频中提取出视频轨迹;步骤3:使用步骤2提取的轨迹和行为视频作为输入通过步骤1训练得到的双流卷积网络提取出每个视频轨迹时刻的特征;步骤4:使用步骤3提取的视频轨迹特征作为输入使用循环神经网络提取视频轨迹特征在时间维度的特征;步骤5:使用步骤4得到的特征通过时空池化后拼接获得整个视频的特征;步骤6:根据步骤5得到的视频特征训练一个线性SVM分类器对视频进行分类。
Description
技术领域
本发明属于视觉识别技术领域,涉及一种基于深度学习和视频轨迹的学生上课行为识别方法。
背景技术
随着生活水平的提高,人们越来越多投眼于孩子的教育上。随着教室摄像头的普及,学生上课行为的获取日益便捷。学生上课行为可以帮助家长了解孩子在课堂上的表现从而发现孩子的兴趣方向,帮助老师了解学生的听课状态从而改进教学方法提升学生的课堂参与度,帮助学校领导了解不同老师的教学效果从而评估教学质量优化教学管理。直接观察学生上课行为识别视频明显会浪费大量的时间和经历。
随着机器学习算法的发展,尤其是深度学习的发展。基于深度学习的行为识别能快速获得学生的上课行为。该方法需要先对学生进行检测,得到大小不一的包围盒。这为后续的行为识别带来了挑战,因为基于深度学习的行为识别算法需要固定大小的输入。如果将包围盒中的图像变换成固定大小,则会引起形变从而带来的识别精度的损失。
发明内容
针对现有技术的不足,本发明提供了一种基于深度学习和视频轨迹的学生上课行为识别方法,从而避免传统基于深度学习的行为识别算法需要固定输入尺寸的问题。
技术方案:本发明公开了基于深度学习和视频轨迹的学生上课行为识别方法,其核心在于通过提取视频的轨迹,提取不同层次的视频轨迹特征,将轨迹特征在时间维度进行编码,并通过时空池化统一不同层次的特征向量维度并进行拼接得到是视频整体特征,最后使用视频整体的特征来训练深度学习模型,从而达到学生上课行为识别的目的。具体包含以下步骤:
步骤1:使用手工标注的学生上课行为视频训练双流卷积网络;
步骤2:利用改进的轨迹算法从学生上课行为视频中提取出视频的轨迹;
步骤3:使用步骤2提取的视频的轨迹和学生上课行为视频作为输入通过步骤1训练得到的双流卷积网络提取出每个视频轨迹时刻的特征;
步骤4:使用步骤3提取的每个轨迹时刻的特征作为输入,使用循环神经网络提取出每个轨迹时刻的特征在时间维度的特征;
步骤5:将步骤4得到的特征通过时空池化后拼接获得整个视频的特征;
步骤6:根据步骤5得到的视频特征训练一个线性SVM分类器对视频进行分类。
进一步地,本发明中步骤1包括如下步骤:
步骤1-1,使用标注工具(如VoTT)对学生上课行为视频进行标注,用正四边形框框选教室中的学生上课行为并标注行为类别,从而得到尺寸为正四边形的视频样本。使用正四边形框是为了满足双流卷积网络对输入样本是固定大小的正四边形的要求。例如视频中有一个学生在举手,则用一个正四边形框将其框选出来,给予标签“举手”得到一个类别为举手的视频样本;
步骤1-2,从步骤1-1得到的视频样本中提取帧和光流,分别作为双流卷积网络中空间网络和时序网络的输入;
步骤1-3,构造双流卷积网络,使用VGGNet16(引用文献:Simonyan K,ZissermanA.Very Deep Convolutional Networks for Large-Scale Image Recognition[J].Computer Science,2014.)作为双流卷积网络的基础网络,VGGNet16由5个卷积层(每个卷积层有数量不同的卷积子层)3个全连接层组成,层与层之间使用最大池化分开,所有隐层的激活单元都采用ReLU函数。
步骤1-4,用步骤1-2获得的数据训练由步骤1-3构造的双流卷积网络。
步骤2中,使用如下公式(引用文献:Wang H,Schmid C.Action Recognition withImproved Trajectories[C]//2013IEEE International Conference on ComputerVision.IEEE,2014.)从学生上课行为视频V提取出视频的轨迹Traj(V):
Traj(V)=P1,P2,…,PN,…,PN,
其中Pn表示第n个特征点的轨迹,N代表视频V中的轨迹数量,即特征点的数量,视频轨迹Traj(V)由N个特征点的轨迹构成;代表轨迹中t时刻点第n个特征点的空间位置坐标。本方法为了避免跟踪时产生的漂移问题,设置轨迹长度为T=15。
步骤3包括如下步骤:
步骤3-1,根据步骤2提取出的学生上课行为视频V的轨迹时刻,使用现有技术(denseflow:一个提取视频帧和光流的工具)提取学生上课行为视频的帧数据和光流数据;
步骤3-2,将步骤3-1得到的数据输入到步骤1训练完成的双流卷积网络,则每个轨迹时刻Vt获得一组卷积特征图Feat(Vt)和一组相对于输入尺寸的缩放因子Scale(Vt):
Feat(Vt)={FS1,...,FSm,...,FSM,FT1,...,FTm,...,FTM}
Scale(Vt)={α1,...,αm,...,αM,α1,…,αm,…αM}
其中S和T分别表示双流卷积网络中的空间网络和时序网络,FSm表示双流卷积网络中的空间网络第m个卷积层的特征图,FTm表示双流卷积网络中的时序网络第m个卷积层的特征图,m∈{1,…,M},M表示卷积层的总层数;表示第m个卷积层特征图的尺寸,Hm表示第m个卷积层的特征高度,Wm表示第m个卷积层的特征宽度,D表示学生上课行为视频V帧数,Cm表示第m个卷积层的特征图的通道数,R表示实数,αm表示第m个卷积层的特征图FAm,A∈{S,T}的尺寸相对于双流卷积网络输入尺寸的缩放因子。
步骤4包括如下步骤:
步骤4-1,给定轨迹根据步骤3得到每个轨迹时刻的特征向量/>
步骤4-2,使用IRNN网络(一种由Relu组成并用单位矩阵初始化的循环卷积网络)作为时间维度的特征提取器,其在循环卷积网络的基础上,使用单位矩阵来初始化循环权重矩阵,使其具备长时间记忆的能力。
at=Uxt+Wht-1+b
ht=Relu(at),t=1,2,…,T
其中xt表示t时刻的输入,ht表示t时刻的隐状态,U和W为权重矩阵,b为偏差,Relu为线性整流函数,at为中间变量;
IRNN网络初始化时,将递归调用的权重矩阵设置为单位矩阵I,偏差设置为0,即W=I,b=0;
步骤4-3,将作为IRNN的输入,获得特征QAmn,A∈{S,T}。
步骤5包括如下步骤:
步骤5-1:对于每个学生上课行为视频,其轨迹数量N各不相同。给定轨迹Pn由步骤4提取时间维度特征为QAmn,获得整个学生上课行为视频V的特征向量为QAm1,QAm2,…,QAmN,A∈{S,T};
步骤5-2:学生上课行为视频V表示为V∈RH×W×T,H表示视频宽度、W表示视频高度、T表示视频帧数,则V为一个H×W×T的长方体;将学生上课行为视频V的宽度、高度、帧数均分成两段,即视频宽度、高度、帧数组成的长方体均分成8块,使其编号为i的长方体,i∈{1,2,…,8},找出起始坐标位于编号i的子长方体的轨迹编号,记为集合Ui,并且将对应的特征向量{QAmj,j∈Ui}做最大池化,记结果为
步骤5-3:将不同子立方体得到的特征向量拼接,得到特征向量SAm:
其中concat表示向量拼接。
步骤5-4:由步骤5-3得到多个特征向量{SAm,A∈S,T,m=1,2,…,M},将这2M个特征向量拼接成一个特征向量,得到整个学生上课行为视频V的特征VF:
VF=concat(SS1,…,SSm,…,SSM,ST1,…,STm,…,STM)
其中SSm表示空间网络第m层卷积层的特征向量,STm表示时序网络第m层卷积层的特征向量。
步骤6根据步骤5得到的视频特征训练一个线性SVM分类器,设定给定学生上课行为视频V的标签为t,在训练过程中使用的损失函数L(V,t)为:
其中C表示行为识别的类别总数,VF[k]表示取第k个向量元素。
有益效果
本发明具有如下有益效果:
1)本方法通过使用改进的轨迹算法提取视频轨迹,借助轨迹获得视频的整体特征。解决了传统行为识别通过包围盒检测后将包围盒图像变换成固定尺寸而带来形变和识别精度的损失问题。
2)本方法首次将传统的基于轨迹的方法和现在广泛使用的深度学习融合在一起使其互补,大大提高了模型的识别准确率。
3)本方法提出了将不同层次的特征融合起来,将从简单的视觉元素(例如边缘)到复杂的视觉概念(例如类别)的拼接作为视频整体特征的方法使不同级别上描述运动信息彼此互补,不仅可以提高识别的精确度,而且可以增加模型的鲁棒性,大大提高了应用场景的普适性。
4)本方法通过双流卷积网络预训练模块、轨迹提取模块、特征提取模块、特征融合模块的协同工作,不仅精度极高,而且适用性广泛,鲁棒性好,非常有利于应用于实际场景中。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述或其他方面的优点将会变得更加清楚。
图1为于深度学习和视频轨迹的学生上课行为识别方法的流程图。
图2为本发明中双流卷积网络的示意图。
图3为本发明中使用双流卷积网络的基础网络VGGNet16的示意图。
图4为本发明中使用的循环神经网络的示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
下面将结合本发明实施例的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例,在不同的实施例中,不仅可以通过改进的轨迹算法提取视频的轨迹,还可以通过轨迹算法提取视频的轨迹,同时双流卷积网络的基础网络可以根据需要检测的学生上课行为视频的分辨率以及需要检测的行为类别数来选择不同的模型,例如对视频的分辨率较低以及需要检测的行为类别数较少可以选择VGG16模型,对视频的分辨率较高以及需要检测的行为类别数较多可以选择残差网络。本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,均属于本发明的保护范围。
实施例1
参照图1所示,本发明提供了一种基于深度学习和视频轨迹的学生上课行为识别的方法,具体包括如下步骤:
步骤1:使用手工标注的学生上课行为训练样本训练双流卷积网络;
步骤2:利用改进的轨迹算法从行为视频中提取出视频的轨迹;
步骤3:使用步骤2提取的轨迹和行为视频作为输入,通过步骤1训练得到的双流卷积网络提取出每个视频轨迹时刻的特征;
步骤4:使用步骤3提取的视频轨迹特征作为输入使用循环神经网络提取视频轨迹特征在时间维度的特征;
步骤5:使用步骤4得到的特征通过时空池化后拼接获得整个视频的特征;
步骤6:根据步骤5得到的视频特征训练一个线性SVM分类器对视频进行分类。
步骤1对学生上课行为视频进行人工标注,并用标注数据训练双流卷积网络,具体包括如下步骤:
步骤1-1,使用标注用具对学生上课行为视频进行标注,用正四边形框框选教室中的学生上课行为并行为类别标注。使用正四边形框是为了满足双流网络对输入样本是固定大小的正四边形的要求;
步骤1-2,从步骤1-1得到的样本中提取帧和光流,分别作为双流卷积网络中空间网络和时序网络的输入,如图2所示;
步骤1-3,构造双流卷积网络(图2),使用VGGNet16作为双流卷积网络的基础网络,VGGNet16(图3)由5个卷积层(每个卷积层有数量不同的卷积子层)3个全连接层组成,层与层之间使用最大池化分开,所有隐层的激活单元都采用ReLU函数。
步骤1-4,用步骤1-2获得的数据训练由步骤1-3构造的双流卷积网络。
步骤2使用改进的轨迹算法从学生上课行为视频V提取到视频轨迹:
Traj(V)=P1,P2,…,Pn,…,PN,
其中N代表该视频中的轨迹数量,即特征点的数量;代表轨迹中t时刻点的空间位置坐标,本方法为了避免跟踪时产生的漂移问题,设置轨迹长度为T=15。
步骤3使用步骤1训练完成的双流卷积网络作为视频轨迹特征提取器,提取轨迹时刻的卷积特征,具体包括如下步骤:
步骤3-1,根据步骤2提取轨迹的轨迹时刻提取行为视频的帧数据和光流数据。
步骤3-2,将步骤3-1得到的数据输入到步骤1训练完成的VGGNet16网络,则每个轨迹时刻Vt获得一组卷积特征图:
Feat(Vt)={FS1,...,FSm,...,FSM,FT1,...,FTm,...,FTM}
Scale(Vt)={α1,…,αm,…,αM,α1,…,αm,…,αM}
其中S表示双流网络中的空间网络,T表示双流网络中的时序网络,M表示卷积层的。Hm表示第m层的特征高度,Wm表示第m层的特征宽度,D表示视频帧数,Cm表示第m层的特征图的通道数,αm表示第m层的特征图FAm相对于VGGNet16网络输入尺寸的缩放因子。
步骤4使用循环神经网络作为视频轨迹特征在时间维度的特征提取器,提取在时间维度的特征,具体包括如下步骤:
步骤4-1,给定轨迹根据步骤3得到每个轨迹时刻的特征向量/>
步骤4-2,使用IRNN作为时间维度的特征提取器,其具体结构如图4所示,其在RNN的基础上,使用单位矩阵来初始化循环权重矩阵,使其具备长时间记忆的能力。
at=Uxt+Wht-1+b
ht=Relu(at),t=1,2,…,T
网络初始化时,将递归权重矩阵设置为单位矩阵,偏差设置为0,即W=I,b=0。
步骤4-3,将作为IRNN的输入提取获得特征QAmn,A∈{S,T}。
步骤5:通过时空池化将不同长度的特征向量编码传换成固定长度的特征向量,从而获得整个视频的特征表达,具体包括如下步骤:
步骤5-1:各不相同对于每个视频V,其轨迹数量N各不相同。给定轨迹Pn由步骤4提取时间维度特征为QAmn,获得整个视频的特征向量为QAm1,QAm2,…,QAmN,A∈{S,T};
步骤5-2:将视频的宽度、高度、帧数各维度均分成两段,即视频宽度、高度、帧数组成的长方体均分成8块,使其编号为i(i∈{1,2,…,8})的长方体,找出起始坐标位于该子长方体的轨迹编号,记为集合Ui,并且将对应的特征向量{QAmj,j∈Ui}使用最大池化,记结果为
步骤5-3:将不同子立方体得到的特征拼接,得到:
其中concat表示向量拼接。
步骤5-4:由步骤5-3得到多个特征向量{SAm,A∈S,T,m=1,2,…,M},将这2M个特征向量拼接成一个特征向量,得到整个视频V的特征:
VF=concat(SS1,…,SSm,…,SSM,ST1,…,STm,…,STM)
其中SSm表示空间网络第m层卷积层的特征向量,STm表示时序网络第m层卷积层的特征向量。
步骤6根据步骤5得到的视频特征训练一个线性SVM分类器,假设给定视频V的标签为t,在训练过程中使用的损失函数为:
其中C表示行为识别的类别总数,VF[k]表示取第k个向量元素。
本发明提供了一种基于深度学习和视频轨迹的学生上课行为识别方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (2)
1.一种基于深度学习和视频轨迹的学生上课行为识别方法,其特征在于,包括以下步骤:
步骤1:使用标注的学生上课行为视频训练双流卷积网络;
步骤2:使用改进的轨迹算法从学生上课行为视频中提取出视频的轨迹;
步骤3:使用步骤2提取的视频的轨迹和学生上课行为视频作为输入,通过步骤1训练得到的双流卷积网络提取出每个轨迹时刻的特征;
步骤4:使用步骤3提取的每个轨迹时刻的特征作为输入,使用循环神经网络提取出每个轨迹时刻的特征在时间维度的特征;
步骤5:将步骤4得到的特征通过时空池化后拼接获得整个视频的特征;
步骤6:根据步骤5得到的视频特征训练一个线性SVM分类器对视频进行分类;
步骤1包括如下步骤:
步骤1-1,使用标注工具对学生上课行为视频进行标注,用正四边形框框选教室中的学生上课行为并标注行为类别,从而得到尺寸为正四边形的视频样本;
步骤1-2,从步骤1-1得到的视频样本中提取帧和光流,分别作为双流卷积网络中空间网络和时序网络的输入;
步骤1-3,构造双流卷积网络,使用VGGNet16作为双流卷积网络的基础网络,VGGNet16由5个卷积层和3个全连接层组成,层与层之间使用最大池化分开,所有隐层的激活单元都采用ReLU函数;
步骤1-4,步骤1-2获得的数据训练由步骤1-3构造的双流卷积网络;
步骤2中,使用如下公式从学生上课行为视频V提取出视频的轨迹Traj(V):
Traj(V)=P1,P2,…,Pn,…,PN,
其中Pn表示第n个特征点的轨迹,N代表视频V中的轨迹数量,即特征点的数量,视频轨迹Traj(V)由N个特征点的轨迹构成;代表轨迹中t时刻点第n个特征点的空间位置坐标;
步骤3包括如下步骤:
步骤3-1,根据步骤2提取出的学生上课行为视频V的轨迹时刻,提取学生上课行为视频的帧数据和光流数据;
步骤3-2,将步骤3-1得到的数据输入到步骤1训练完成的双流卷积网络网络,则每个轨迹时刻Vt获得一组卷积特征图Feat(Vt)和一组相对于输入尺寸的缩放因子Scale(Vt):
Feat(Vt)={FS1,...,FSm,...,FSM,FT1,...,FTm,...,FTM}
Scale(Vt)={α1,...,αm,...,αm,α1,...,αm,...,αM}
其中S和T分别表示双流卷积网络中的空间网络和时序网络,FSm表示双流卷积网络中的空间网络第m个卷积层的特征图,FTm表示双流卷积网络中的时序网络第m个卷积层的特征图,m∈{1,…,M},M表示卷积层的总层数; 表示第m个卷积层特征图的尺寸,Hm表示第m个卷积层的特征高度,Wm表示第m个卷积层的特征宽度,D表示学生上课行为视频V帧数,Cm表示第m个卷积层的特征图的通道数,R表示实数,αm表示第m个卷积层的特征图FAm,A∈{S,T}的尺寸相对于双流卷积网络输入尺寸的缩放因子;
步骤4包括如下步骤:
步骤4-1,给定轨迹根据步骤3得到每个轨迹时刻的特征向量/>
步骤4-2,使用IRNN网络作为时间维度的特征提取器:
at=Uxt+Wht-1+b
ht=Relu(at),t=1,2,...,T
其中xt表示t时刻的输入,ht表示t时刻的隐状态,U和W为权重矩阵,b为偏差,Relu为线性整流函数,at为中间变量;
IRNN网络初始化时,将递归调用的权重矩阵设置为单位矩阵I,偏差设置为0,即W=I,b=0;
步骤4-3,将作为IRNN的输入,获得特征QAmn,A∈{S,T};
步骤5包括如下步骤:
步骤5-1:给定轨迹Pn由步骤4提取时间维度特征为QAmn,获得整个学生上课行为视频V的特征向量为QAm1,QAm2,…,QAmN,A∈{S,T};
步骤5-2:学生上课行为视频V表示为V∈RH×W×T,H表示视频宽度、W表示视频高度、T表示视频帧数,则V为一个H×W×T的长方体;将学生上课行为视频V的宽度、高度、帧数均分成两段,即视频宽度、高度、帧数组成的长方体均分成8块,使其编号为i的长方体,i∈{1,2,...,8},找出起始坐标位于编号i的子长方体的轨迹编号,记为集合Ui,并且将对应的特征向量{QAmj,j∈Ui}做最大池化,记结果为
步骤5-3:将不同子立方体得到的特征向量拼接,得到特征向量SAm:
其中concat表示向量拼接;
步骤5-4:由步骤5-3得到多个特征向量{SAm,A∈S,T,m=1,2,...,M},将这2M个特征向量拼接成一个特征向量,得到整个学生上课行为视频V的特征VF:VF=concat(SS1,...,SSm,…,SSM,ST1,...,STm,…,STM)
其中SSm表示空间网络第m层卷积层的特征向量,STm表示时序网络第m层卷积层的特征向量。
2.根据权利要求1所述的方法,其特征在于,步骤6中,根据步骤5得到的视频特征训练一个线性SVM分类器,设定给定学生上课行为视频V的标签为t,在训练过程中使用的损失函数L(V,t)为:
其中C表示行为识别的类别总数,VF[k]表示取第k个向量元素。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110251597.7A CN112801042B (zh) | 2021-03-08 | 2021-03-08 | 一种基于深度学习和视频轨迹的学生上课行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110251597.7A CN112801042B (zh) | 2021-03-08 | 2021-03-08 | 一种基于深度学习和视频轨迹的学生上课行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112801042A CN112801042A (zh) | 2021-05-14 |
CN112801042B true CN112801042B (zh) | 2023-12-15 |
Family
ID=75815489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110251597.7A Active CN112801042B (zh) | 2021-03-08 | 2021-03-08 | 一种基于深度学习和视频轨迹的学生上课行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112801042B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105787458A (zh) * | 2016-03-11 | 2016-07-20 | 重庆邮电大学 | 基于人工设计特征和深度学习特征自适应融合的红外行为识别方法 |
EP3166075A1 (en) * | 2015-11-05 | 2017-05-10 | Facebook, Inc. | Systems and methods for processing content using convolutional neural networks |
CN108229338A (zh) * | 2017-12-14 | 2018-06-29 | 华南理工大学 | 一种基于深度卷积特征的视频行为识别方法 |
CN108288035A (zh) * | 2018-01-11 | 2018-07-17 | 华南理工大学 | 基于深度学习的多通道图像特征融合的人体动作识别方法 |
CN109508684A (zh) * | 2018-11-21 | 2019-03-22 | 中山大学 | 一种视频中人体行为识别的方法 |
CN110084228A (zh) * | 2019-06-25 | 2019-08-02 | 江苏德劭信息科技有限公司 | 一种基于双流卷积神经网络的危险行为自动识别方法 |
CN110175596A (zh) * | 2019-06-04 | 2019-08-27 | 重庆邮电大学 | 基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法 |
CN110188637A (zh) * | 2019-05-17 | 2019-08-30 | 西安电子科技大学 | 一种基于深度学习的行为识别技术方法 |
EP3547211A1 (en) * | 2018-03-30 | 2019-10-02 | Naver Corporation | Methods for training a cnn and classifying an action performed by a subject in an inputted video using said cnn |
-
2021
- 2021-03-08 CN CN202110251597.7A patent/CN112801042B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3166075A1 (en) * | 2015-11-05 | 2017-05-10 | Facebook, Inc. | Systems and methods for processing content using convolutional neural networks |
CN105787458A (zh) * | 2016-03-11 | 2016-07-20 | 重庆邮电大学 | 基于人工设计特征和深度学习特征自适应融合的红外行为识别方法 |
CN108229338A (zh) * | 2017-12-14 | 2018-06-29 | 华南理工大学 | 一种基于深度卷积特征的视频行为识别方法 |
CN108288035A (zh) * | 2018-01-11 | 2018-07-17 | 华南理工大学 | 基于深度学习的多通道图像特征融合的人体动作识别方法 |
EP3547211A1 (en) * | 2018-03-30 | 2019-10-02 | Naver Corporation | Methods for training a cnn and classifying an action performed by a subject in an inputted video using said cnn |
CN109508684A (zh) * | 2018-11-21 | 2019-03-22 | 中山大学 | 一种视频中人体行为识别的方法 |
CN110188637A (zh) * | 2019-05-17 | 2019-08-30 | 西安电子科技大学 | 一种基于深度学习的行为识别技术方法 |
CN110175596A (zh) * | 2019-06-04 | 2019-08-27 | 重庆邮电大学 | 基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法 |
CN110084228A (zh) * | 2019-06-25 | 2019-08-02 | 江苏德劭信息科技有限公司 | 一种基于双流卷积神经网络的危险行为自动识别方法 |
Non-Patent Citations (5)
Title |
---|
"Action recognition with improved trajectories";Heng Wang;《IEEE》;全文 * |
TVBN-ResNeXt:解决动作视频分类的端到端时空双流融合网络;胡正平;张瑞雪;张璇;李淑芳;赵梦瑶;;信号处理(01);全文 * |
video action classification using symmelets and deep learning;Salah Alghyaline;《IEEE》;全文 * |
基于时空双流卷积神经网络的红外行为识别;吴雪平;孙韶媛;李佳豪;李大威;;应用光学(05);全文 * |
基于深度卷积神经网络的人体行为识别研究;戎炜;《中国优秀硕士学位论文全文数据库信息科技辑》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112801042A (zh) | 2021-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Huang et al. | Attention-based 3D-CNNs for large-vocabulary sign language recognition | |
Li et al. | Word-level deep sign language recognition from video: A new large-scale dataset and methods comparison | |
Ye et al. | Recognizing american sign language gestures from within continuous videos | |
Yang et al. | Discovering motion primitives for unsupervised grouping and one-shot learning of human actions, gestures, and expressions | |
Wang et al. | Joint learning of visual attributes, object classes and visual saliency | |
Altwaijry et al. | Learning to match aerial images with deep attentive architectures | |
Dang et al. | RPCA-KFE: Key frame extraction for video using robust principal component analysis | |
CN111368815A (zh) | 一种基于多部件自注意力机制的行人重识别方法 | |
CN109190561B (zh) | 一种视频播放中的人脸识别方法及系统 | |
CN110580500A (zh) | 一种面向人物交互的网络权重生成少样本图像分类方法 | |
Hu et al. | Hand-model-aware sign language recognition | |
CN107392131A (zh) | 一种基于人体骨骼节点距离的动作识别方法 | |
Wan et al. | CSMMI: Class-specific maximization of mutual information for action and gesture recognition | |
CN113408343B (zh) | 基于双尺度时空分块互注意力的课堂动作识别方法 | |
CN108921038A (zh) | 一种基于深度学习人脸识别技术的课堂快速点名签到方法 | |
CN112001278A (zh) | 一种基于结构化知识蒸馏的人群计数模型及其方法 | |
CN111160134A (zh) | 一种以人为主体的视频景别分析方法和装置 | |
Khalid et al. | Multi-modal three-stream network for action recognition | |
Bin et al. | Study of convolutional neural network in recognizing static American sign language | |
CN112016601A (zh) | 基于知识图谱增强小样本视觉分类的网络模型构建方法 | |
CN111881716A (zh) | 一种基于多视角生成对抗网络的行人重识别方法 | |
CN107463996A (zh) | 自步‑协同训练学习方法 | |
CN113449801A (zh) | 一种基于多级图像上下文编解码的图像人物行为描述生成方法 | |
CN114170672A (zh) | 一种基于计算机视觉的课堂学生行为识别的方法 | |
CN111401113A (zh) | 一种基于人体姿态估计的行人重识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |