CN112801042B - 一种基于深度学习和视频轨迹的学生上课行为识别方法 - Google Patents

一种基于深度学习和视频轨迹的学生上课行为识别方法 Download PDF

Info

Publication number
CN112801042B
CN112801042B CN202110251597.7A CN202110251597A CN112801042B CN 112801042 B CN112801042 B CN 112801042B CN 202110251597 A CN202110251597 A CN 202110251597A CN 112801042 B CN112801042 B CN 112801042B
Authority
CN
China
Prior art keywords
video
track
network
behavior
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110251597.7A
Other languages
English (en)
Other versions
CN112801042A (zh
Inventor
徐春蕾
胡锦鑫
潘飞
郭延文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202110251597.7A priority Critical patent/CN112801042B/zh
Publication of CN112801042A publication Critical patent/CN112801042A/zh
Application granted granted Critical
Publication of CN112801042B publication Critical patent/CN112801042B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种基于深度学习和视频轨迹的学生上课行为识别方法,包括以下步骤1:使用手工标注的学生上课行为训练样本训练双流卷积网络;步骤2:利用改进的轨迹算法从行为视频中提取出视频轨迹;步骤3:使用步骤2提取的轨迹和行为视频作为输入通过步骤1训练得到的双流卷积网络提取出每个视频轨迹时刻的特征;步骤4:使用步骤3提取的视频轨迹特征作为输入使用循环神经网络提取视频轨迹特征在时间维度的特征;步骤5:使用步骤4得到的特征通过时空池化后拼接获得整个视频的特征;步骤6:根据步骤5得到的视频特征训练一个线性SVM分类器对视频进行分类。

Description

一种基于深度学习和视频轨迹的学生上课行为识别方法
技术领域
本发明属于视觉识别技术领域,涉及一种基于深度学习和视频轨迹的学生上课行为识别方法。
背景技术
随着生活水平的提高,人们越来越多投眼于孩子的教育上。随着教室摄像头的普及,学生上课行为的获取日益便捷。学生上课行为可以帮助家长了解孩子在课堂上的表现从而发现孩子的兴趣方向,帮助老师了解学生的听课状态从而改进教学方法提升学生的课堂参与度,帮助学校领导了解不同老师的教学效果从而评估教学质量优化教学管理。直接观察学生上课行为识别视频明显会浪费大量的时间和经历。
随着机器学习算法的发展,尤其是深度学习的发展。基于深度学习的行为识别能快速获得学生的上课行为。该方法需要先对学生进行检测,得到大小不一的包围盒。这为后续的行为识别带来了挑战,因为基于深度学习的行为识别算法需要固定大小的输入。如果将包围盒中的图像变换成固定大小,则会引起形变从而带来的识别精度的损失。
发明内容
针对现有技术的不足,本发明提供了一种基于深度学习和视频轨迹的学生上课行为识别方法,从而避免传统基于深度学习的行为识别算法需要固定输入尺寸的问题。
技术方案:本发明公开了基于深度学习和视频轨迹的学生上课行为识别方法,其核心在于通过提取视频的轨迹,提取不同层次的视频轨迹特征,将轨迹特征在时间维度进行编码,并通过时空池化统一不同层次的特征向量维度并进行拼接得到是视频整体特征,最后使用视频整体的特征来训练深度学习模型,从而达到学生上课行为识别的目的。具体包含以下步骤:
步骤1:使用手工标注的学生上课行为视频训练双流卷积网络;
步骤2:利用改进的轨迹算法从学生上课行为视频中提取出视频的轨迹;
步骤3:使用步骤2提取的视频的轨迹和学生上课行为视频作为输入通过步骤1训练得到的双流卷积网络提取出每个视频轨迹时刻的特征;
步骤4:使用步骤3提取的每个轨迹时刻的特征作为输入,使用循环神经网络提取出每个轨迹时刻的特征在时间维度的特征;
步骤5:将步骤4得到的特征通过时空池化后拼接获得整个视频的特征;
步骤6:根据步骤5得到的视频特征训练一个线性SVM分类器对视频进行分类。
进一步地,本发明中步骤1包括如下步骤:
步骤1-1,使用标注工具(如VoTT)对学生上课行为视频进行标注,用正四边形框框选教室中的学生上课行为并标注行为类别,从而得到尺寸为正四边形的视频样本。使用正四边形框是为了满足双流卷积网络对输入样本是固定大小的正四边形的要求。例如视频中有一个学生在举手,则用一个正四边形框将其框选出来,给予标签“举手”得到一个类别为举手的视频样本;
步骤1-2,从步骤1-1得到的视频样本中提取帧和光流,分别作为双流卷积网络中空间网络和时序网络的输入;
步骤1-3,构造双流卷积网络,使用VGGNet16(引用文献:Simonyan K,ZissermanA.Very Deep Convolutional Networks for Large-Scale Image Recognition[J].Computer Science,2014.)作为双流卷积网络的基础网络,VGGNet16由5个卷积层(每个卷积层有数量不同的卷积子层)3个全连接层组成,层与层之间使用最大池化分开,所有隐层的激活单元都采用ReLU函数。
步骤1-4,用步骤1-2获得的数据训练由步骤1-3构造的双流卷积网络。
步骤2中,使用如下公式(引用文献:Wang H,Schmid C.Action Recognition withImproved Trajectories[C]//2013IEEE International Conference on ComputerVision.IEEE,2014.)从学生上课行为视频V提取出视频的轨迹Traj(V):
Traj(V)=P1,P2,…,PN,…,PN,
其中Pn表示第n个特征点的轨迹,N代表视频V中的轨迹数量,即特征点的数量,视频轨迹Traj(V)由N个特征点的轨迹构成;代表轨迹中t时刻点第n个特征点的空间位置坐标。本方法为了避免跟踪时产生的漂移问题,设置轨迹长度为T=15。
步骤3包括如下步骤:
步骤3-1,根据步骤2提取出的学生上课行为视频V的轨迹时刻,使用现有技术(denseflow:一个提取视频帧和光流的工具)提取学生上课行为视频的帧数据和光流数据;
步骤3-2,将步骤3-1得到的数据输入到步骤1训练完成的双流卷积网络,则每个轨迹时刻Vt获得一组卷积特征图Feat(Vt)和一组相对于输入尺寸的缩放因子Scale(Vt):
Feat(Vt)={FS1,...,FSm,...,FSM,FT1,...,FTm,...,FTM}
Scale(Vt)={α1,...,αm,...,αM,α1,…,αm,…αM}
其中S和T分别表示双流卷积网络中的空间网络和时序网络,FSm表示双流卷积网络中的空间网络第m个卷积层的特征图,FTm表示双流卷积网络中的时序网络第m个卷积层的特征图,m∈{1,…,M},M表示卷积层的总层数;表示第m个卷积层特征图的尺寸,Hm表示第m个卷积层的特征高度,Wm表示第m个卷积层的特征宽度,D表示学生上课行为视频V帧数,Cm表示第m个卷积层的特征图的通道数,R表示实数,αm表示第m个卷积层的特征图FAm,A∈{S,T}的尺寸相对于双流卷积网络输入尺寸的缩放因子。
步骤4包括如下步骤:
步骤4-1,给定轨迹根据步骤3得到每个轨迹时刻的特征向量/>
步骤4-2,使用IRNN网络(一种由Relu组成并用单位矩阵初始化的循环卷积网络)作为时间维度的特征提取器,其在循环卷积网络的基础上,使用单位矩阵来初始化循环权重矩阵,使其具备长时间记忆的能力。
at=Uxt+Wht-1+b
ht=Relu(at),t=1,2,…,T
其中xt表示t时刻的输入,ht表示t时刻的隐状态,U和W为权重矩阵,b为偏差,Relu为线性整流函数,at为中间变量;
IRNN网络初始化时,将递归调用的权重矩阵设置为单位矩阵I,偏差设置为0,即W=I,b=0;
步骤4-3,将作为IRNN的输入,获得特征QAmn,A∈{S,T}。
步骤5包括如下步骤:
步骤5-1:对于每个学生上课行为视频,其轨迹数量N各不相同。给定轨迹Pn由步骤4提取时间维度特征为QAmn,获得整个学生上课行为视频V的特征向量为QAm1,QAm2,…,QAmN,A∈{S,T};
步骤5-2:学生上课行为视频V表示为V∈RH×W×T,H表示视频宽度、W表示视频高度、T表示视频帧数,则V为一个H×W×T的长方体;将学生上课行为视频V的宽度、高度、帧数均分成两段,即视频宽度、高度、帧数组成的长方体均分成8块,使其编号为i的长方体,i∈{1,2,…,8},找出起始坐标位于编号i的子长方体的轨迹编号,记为集合Ui,并且将对应的特征向量{QAmj,j∈Ui}做最大池化,记结果为
步骤5-3:将不同子立方体得到的特征向量拼接,得到特征向量SAm
其中concat表示向量拼接。
步骤5-4:由步骤5-3得到多个特征向量{SAm,A∈S,T,m=1,2,…,M},将这2M个特征向量拼接成一个特征向量,得到整个学生上课行为视频V的特征VF:
VF=concat(SS1,…,SSm,…,SSM,ST1,…,STm,…,STM)
其中SSm表示空间网络第m层卷积层的特征向量,STm表示时序网络第m层卷积层的特征向量。
步骤6根据步骤5得到的视频特征训练一个线性SVM分类器,设定给定学生上课行为视频V的标签为t,在训练过程中使用的损失函数L(V,t)为:
其中C表示行为识别的类别总数,VF[k]表示取第k个向量元素。
有益效果
本发明具有如下有益效果:
1)本方法通过使用改进的轨迹算法提取视频轨迹,借助轨迹获得视频的整体特征。解决了传统行为识别通过包围盒检测后将包围盒图像变换成固定尺寸而带来形变和识别精度的损失问题。
2)本方法首次将传统的基于轨迹的方法和现在广泛使用的深度学习融合在一起使其互补,大大提高了模型的识别准确率。
3)本方法提出了将不同层次的特征融合起来,将从简单的视觉元素(例如边缘)到复杂的视觉概念(例如类别)的拼接作为视频整体特征的方法使不同级别上描述运动信息彼此互补,不仅可以提高识别的精确度,而且可以增加模型的鲁棒性,大大提高了应用场景的普适性。
4)本方法通过双流卷积网络预训练模块、轨迹提取模块、特征提取模块、特征融合模块的协同工作,不仅精度极高,而且适用性广泛,鲁棒性好,非常有利于应用于实际场景中。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述或其他方面的优点将会变得更加清楚。
图1为于深度学习和视频轨迹的学生上课行为识别方法的流程图。
图2为本发明中双流卷积网络的示意图。
图3为本发明中使用双流卷积网络的基础网络VGGNet16的示意图。
图4为本发明中使用的循环神经网络的示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
下面将结合本发明实施例的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例,在不同的实施例中,不仅可以通过改进的轨迹算法提取视频的轨迹,还可以通过轨迹算法提取视频的轨迹,同时双流卷积网络的基础网络可以根据需要检测的学生上课行为视频的分辨率以及需要检测的行为类别数来选择不同的模型,例如对视频的分辨率较低以及需要检测的行为类别数较少可以选择VGG16模型,对视频的分辨率较高以及需要检测的行为类别数较多可以选择残差网络。本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,均属于本发明的保护范围。
实施例1
参照图1所示,本发明提供了一种基于深度学习和视频轨迹的学生上课行为识别的方法,具体包括如下步骤:
步骤1:使用手工标注的学生上课行为训练样本训练双流卷积网络;
步骤2:利用改进的轨迹算法从行为视频中提取出视频的轨迹;
步骤3:使用步骤2提取的轨迹和行为视频作为输入,通过步骤1训练得到的双流卷积网络提取出每个视频轨迹时刻的特征;
步骤4:使用步骤3提取的视频轨迹特征作为输入使用循环神经网络提取视频轨迹特征在时间维度的特征;
步骤5:使用步骤4得到的特征通过时空池化后拼接获得整个视频的特征;
步骤6:根据步骤5得到的视频特征训练一个线性SVM分类器对视频进行分类。
步骤1对学生上课行为视频进行人工标注,并用标注数据训练双流卷积网络,具体包括如下步骤:
步骤1-1,使用标注用具对学生上课行为视频进行标注,用正四边形框框选教室中的学生上课行为并行为类别标注。使用正四边形框是为了满足双流网络对输入样本是固定大小的正四边形的要求;
步骤1-2,从步骤1-1得到的样本中提取帧和光流,分别作为双流卷积网络中空间网络和时序网络的输入,如图2所示;
步骤1-3,构造双流卷积网络(图2),使用VGGNet16作为双流卷积网络的基础网络,VGGNet16(图3)由5个卷积层(每个卷积层有数量不同的卷积子层)3个全连接层组成,层与层之间使用最大池化分开,所有隐层的激活单元都采用ReLU函数。
步骤1-4,用步骤1-2获得的数据训练由步骤1-3构造的双流卷积网络。
步骤2使用改进的轨迹算法从学生上课行为视频V提取到视频轨迹:
Traj(V)=P1,P2,…,Pn,…,PN
其中N代表该视频中的轨迹数量,即特征点的数量;代表轨迹中t时刻点的空间位置坐标,本方法为了避免跟踪时产生的漂移问题,设置轨迹长度为T=15。
步骤3使用步骤1训练完成的双流卷积网络作为视频轨迹特征提取器,提取轨迹时刻的卷积特征,具体包括如下步骤:
步骤3-1,根据步骤2提取轨迹的轨迹时刻提取行为视频的帧数据和光流数据。
步骤3-2,将步骤3-1得到的数据输入到步骤1训练完成的VGGNet16网络,则每个轨迹时刻Vt获得一组卷积特征图:
Feat(Vt)={FS1,...,FSm,...,FSM,FT1,...,FTm,...,FTM}
Scale(Vt)={α1,…,αm,…,αM,α1,…,αm,…,αM}
其中S表示双流网络中的空间网络,T表示双流网络中的时序网络,M表示卷积层的。Hm表示第m层的特征高度,Wm表示第m层的特征宽度,D表示视频帧数,Cm表示第m层的特征图的通道数,αm表示第m层的特征图FAm相对于VGGNet16网络输入尺寸的缩放因子。
步骤4使用循环神经网络作为视频轨迹特征在时间维度的特征提取器,提取在时间维度的特征,具体包括如下步骤:
步骤4-1,给定轨迹根据步骤3得到每个轨迹时刻的特征向量/>
步骤4-2,使用IRNN作为时间维度的特征提取器,其具体结构如图4所示,其在RNN的基础上,使用单位矩阵来初始化循环权重矩阵,使其具备长时间记忆的能力。
at=Uxt+Wht-1+b
ht=Relu(at),t=1,2,…,T
网络初始化时,将递归权重矩阵设置为单位矩阵,偏差设置为0,即W=I,b=0。
步骤4-3,将作为IRNN的输入提取获得特征QAmn,A∈{S,T}。
步骤5:通过时空池化将不同长度的特征向量编码传换成固定长度的特征向量,从而获得整个视频的特征表达,具体包括如下步骤:
步骤5-1:各不相同对于每个视频V,其轨迹数量N各不相同。给定轨迹Pn由步骤4提取时间维度特征为QAmn,获得整个视频的特征向量为QAm1,QAm2,…,QAmN,A∈{S,T};
步骤5-2:将视频的宽度、高度、帧数各维度均分成两段,即视频宽度、高度、帧数组成的长方体均分成8块,使其编号为i(i∈{1,2,…,8})的长方体,找出起始坐标位于该子长方体的轨迹编号,记为集合Ui,并且将对应的特征向量{QAmj,j∈Ui}使用最大池化,记结果为
步骤5-3:将不同子立方体得到的特征拼接,得到:
其中concat表示向量拼接。
步骤5-4:由步骤5-3得到多个特征向量{SAm,A∈S,T,m=1,2,…,M},将这2M个特征向量拼接成一个特征向量,得到整个视频V的特征:
VF=concat(SS1,…,SSm,…,SSM,ST1,…,STm,…,STM)
其中SSm表示空间网络第m层卷积层的特征向量,STm表示时序网络第m层卷积层的特征向量。
步骤6根据步骤5得到的视频特征训练一个线性SVM分类器,假设给定视频V的标签为t,在训练过程中使用的损失函数为:
其中C表示行为识别的类别总数,VF[k]表示取第k个向量元素。
本发明提供了一种基于深度学习和视频轨迹的学生上课行为识别方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (2)

1.一种基于深度学习和视频轨迹的学生上课行为识别方法,其特征在于,包括以下步骤:
步骤1:使用标注的学生上课行为视频训练双流卷积网络;
步骤2:使用改进的轨迹算法从学生上课行为视频中提取出视频的轨迹;
步骤3:使用步骤2提取的视频的轨迹和学生上课行为视频作为输入,通过步骤1训练得到的双流卷积网络提取出每个轨迹时刻的特征;
步骤4:使用步骤3提取的每个轨迹时刻的特征作为输入,使用循环神经网络提取出每个轨迹时刻的特征在时间维度的特征;
步骤5:将步骤4得到的特征通过时空池化后拼接获得整个视频的特征;
步骤6:根据步骤5得到的视频特征训练一个线性SVM分类器对视频进行分类;
步骤1包括如下步骤:
步骤1-1,使用标注工具对学生上课行为视频进行标注,用正四边形框框选教室中的学生上课行为并标注行为类别,从而得到尺寸为正四边形的视频样本;
步骤1-2,从步骤1-1得到的视频样本中提取帧和光流,分别作为双流卷积网络中空间网络和时序网络的输入;
步骤1-3,构造双流卷积网络,使用VGGNet16作为双流卷积网络的基础网络,VGGNet16由5个卷积层和3个全连接层组成,层与层之间使用最大池化分开,所有隐层的激活单元都采用ReLU函数;
步骤1-4,步骤1-2获得的数据训练由步骤1-3构造的双流卷积网络;
步骤2中,使用如下公式从学生上课行为视频V提取出视频的轨迹Traj(V):
Traj(V)=P1,P2,…,Pn,…,PN,
其中Pn表示第n个特征点的轨迹,N代表视频V中的轨迹数量,即特征点的数量,视频轨迹Traj(V)由N个特征点的轨迹构成;代表轨迹中t时刻点第n个特征点的空间位置坐标;
步骤3包括如下步骤:
步骤3-1,根据步骤2提取出的学生上课行为视频V的轨迹时刻,提取学生上课行为视频的帧数据和光流数据;
步骤3-2,将步骤3-1得到的数据输入到步骤1训练完成的双流卷积网络网络,则每个轨迹时刻Vt获得一组卷积特征图Feat(Vt)和一组相对于输入尺寸的缩放因子Scale(Vt):
Feat(Vt)={FS1,...,FSm,...,FSM,FT1,...,FTm,...,FTM}
Scale(Vt)={α1,...,αm,...,αm1,...,αm,...,αM}
其中S和T分别表示双流卷积网络中的空间网络和时序网络,FSm表示双流卷积网络中的空间网络第m个卷积层的特征图,FTm表示双流卷积网络中的时序网络第m个卷积层的特征图,m∈{1,…,M},M表示卷积层的总层数; 表示第m个卷积层特征图的尺寸,Hm表示第m个卷积层的特征高度,Wm表示第m个卷积层的特征宽度,D表示学生上课行为视频V帧数,Cm表示第m个卷积层的特征图的通道数,R表示实数,αm表示第m个卷积层的特征图FAm,A∈{S,T}的尺寸相对于双流卷积网络输入尺寸的缩放因子;
步骤4包括如下步骤:
步骤4-1,给定轨迹根据步骤3得到每个轨迹时刻的特征向量/>
步骤4-2,使用IRNN网络作为时间维度的特征提取器:
at=Uxt+Wht-1+b
ht=Relu(at),t=1,2,...,T
其中xt表示t时刻的输入,ht表示t时刻的隐状态,U和W为权重矩阵,b为偏差,Relu为线性整流函数,at为中间变量;
IRNN网络初始化时,将递归调用的权重矩阵设置为单位矩阵I,偏差设置为0,即W=I,b=0;
步骤4-3,将作为IRNN的输入,获得特征QAmn,A∈{S,T};
步骤5包括如下步骤:
步骤5-1:给定轨迹Pn由步骤4提取时间维度特征为QAmn,获得整个学生上课行为视频V的特征向量为QAm1,QAm2,…,QAmN,A∈{S,T};
步骤5-2:学生上课行为视频V表示为V∈RH×W×T,H表示视频宽度、W表示视频高度、T表示视频帧数,则V为一个H×W×T的长方体;将学生上课行为视频V的宽度、高度、帧数均分成两段,即视频宽度、高度、帧数组成的长方体均分成8块,使其编号为i的长方体,i∈{1,2,...,8},找出起始坐标位于编号i的子长方体的轨迹编号,记为集合Ui,并且将对应的特征向量{QAmj,j∈Ui}做最大池化,记结果为
步骤5-3:将不同子立方体得到的特征向量拼接,得到特征向量SAm
其中concat表示向量拼接;
步骤5-4:由步骤5-3得到多个特征向量{SAm,A∈S,T,m=1,2,...,M},将这2M个特征向量拼接成一个特征向量,得到整个学生上课行为视频V的特征VF:VF=concat(SS1,...,SSm,…,SSM,ST1,...,STm,…,STM)
其中SSm表示空间网络第m层卷积层的特征向量,STm表示时序网络第m层卷积层的特征向量。
2.根据权利要求1所述的方法,其特征在于,步骤6中,根据步骤5得到的视频特征训练一个线性SVM分类器,设定给定学生上课行为视频V的标签为t,在训练过程中使用的损失函数L(V,t)为:
其中C表示行为识别的类别总数,VF[k]表示取第k个向量元素。
CN202110251597.7A 2021-03-08 2021-03-08 一种基于深度学习和视频轨迹的学生上课行为识别方法 Active CN112801042B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110251597.7A CN112801042B (zh) 2021-03-08 2021-03-08 一种基于深度学习和视频轨迹的学生上课行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110251597.7A CN112801042B (zh) 2021-03-08 2021-03-08 一种基于深度学习和视频轨迹的学生上课行为识别方法

Publications (2)

Publication Number Publication Date
CN112801042A CN112801042A (zh) 2021-05-14
CN112801042B true CN112801042B (zh) 2023-12-15

Family

ID=75815489

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110251597.7A Active CN112801042B (zh) 2021-03-08 2021-03-08 一种基于深度学习和视频轨迹的学生上课行为识别方法

Country Status (1)

Country Link
CN (1) CN112801042B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787458A (zh) * 2016-03-11 2016-07-20 重庆邮电大学 基于人工设计特征和深度学习特征自适应融合的红外行为识别方法
EP3166075A1 (en) * 2015-11-05 2017-05-10 Facebook, Inc. Systems and methods for processing content using convolutional neural networks
CN108229338A (zh) * 2017-12-14 2018-06-29 华南理工大学 一种基于深度卷积特征的视频行为识别方法
CN108288035A (zh) * 2018-01-11 2018-07-17 华南理工大学 基于深度学习的多通道图像特征融合的人体动作识别方法
CN109508684A (zh) * 2018-11-21 2019-03-22 中山大学 一种视频中人体行为识别的方法
CN110084228A (zh) * 2019-06-25 2019-08-02 江苏德劭信息科技有限公司 一种基于双流卷积神经网络的危险行为自动识别方法
CN110175596A (zh) * 2019-06-04 2019-08-27 重庆邮电大学 基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法
CN110188637A (zh) * 2019-05-17 2019-08-30 西安电子科技大学 一种基于深度学习的行为识别技术方法
EP3547211A1 (en) * 2018-03-30 2019-10-02 Naver Corporation Methods for training a cnn and classifying an action performed by a subject in an inputted video using said cnn

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3166075A1 (en) * 2015-11-05 2017-05-10 Facebook, Inc. Systems and methods for processing content using convolutional neural networks
CN105787458A (zh) * 2016-03-11 2016-07-20 重庆邮电大学 基于人工设计特征和深度学习特征自适应融合的红外行为识别方法
CN108229338A (zh) * 2017-12-14 2018-06-29 华南理工大学 一种基于深度卷积特征的视频行为识别方法
CN108288035A (zh) * 2018-01-11 2018-07-17 华南理工大学 基于深度学习的多通道图像特征融合的人体动作识别方法
EP3547211A1 (en) * 2018-03-30 2019-10-02 Naver Corporation Methods for training a cnn and classifying an action performed by a subject in an inputted video using said cnn
CN109508684A (zh) * 2018-11-21 2019-03-22 中山大学 一种视频中人体行为识别的方法
CN110188637A (zh) * 2019-05-17 2019-08-30 西安电子科技大学 一种基于深度学习的行为识别技术方法
CN110175596A (zh) * 2019-06-04 2019-08-27 重庆邮电大学 基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法
CN110084228A (zh) * 2019-06-25 2019-08-02 江苏德劭信息科技有限公司 一种基于双流卷积神经网络的危险行为自动识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
"Action recognition with improved trajectories";Heng Wang;《IEEE》;全文 *
TVBN-ResNeXt:解决动作视频分类的端到端时空双流融合网络;胡正平;张瑞雪;张璇;李淑芳;赵梦瑶;;信号处理(01);全文 *
video action classification using symmelets and deep learning;Salah Alghyaline;《IEEE》;全文 *
基于时空双流卷积神经网络的红外行为识别;吴雪平;孙韶媛;李佳豪;李大威;;应用光学(05);全文 *
基于深度卷积神经网络的人体行为识别研究;戎炜;《中国优秀硕士学位论文全文数据库信息科技辑》;全文 *

Also Published As

Publication number Publication date
CN112801042A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
Huang et al. Attention-based 3D-CNNs for large-vocabulary sign language recognition
Li et al. Word-level deep sign language recognition from video: A new large-scale dataset and methods comparison
Ye et al. Recognizing american sign language gestures from within continuous videos
Yang et al. Discovering motion primitives for unsupervised grouping and one-shot learning of human actions, gestures, and expressions
Wang et al. Joint learning of visual attributes, object classes and visual saliency
Altwaijry et al. Learning to match aerial images with deep attentive architectures
Dang et al. RPCA-KFE: Key frame extraction for video using robust principal component analysis
CN111368815A (zh) 一种基于多部件自注意力机制的行人重识别方法
CN109190561B (zh) 一种视频播放中的人脸识别方法及系统
CN110580500A (zh) 一种面向人物交互的网络权重生成少样本图像分类方法
Hu et al. Hand-model-aware sign language recognition
CN107392131A (zh) 一种基于人体骨骼节点距离的动作识别方法
Wan et al. CSMMI: Class-specific maximization of mutual information for action and gesture recognition
CN113408343B (zh) 基于双尺度时空分块互注意力的课堂动作识别方法
CN108921038A (zh) 一种基于深度学习人脸识别技术的课堂快速点名签到方法
CN112001278A (zh) 一种基于结构化知识蒸馏的人群计数模型及其方法
CN111160134A (zh) 一种以人为主体的视频景别分析方法和装置
Khalid et al. Multi-modal three-stream network for action recognition
Bin et al. Study of convolutional neural network in recognizing static American sign language
CN112016601A (zh) 基于知识图谱增强小样本视觉分类的网络模型构建方法
CN111881716A (zh) 一种基于多视角生成对抗网络的行人重识别方法
CN107463996A (zh) 自步‑协同训练学习方法
CN113449801A (zh) 一种基于多级图像上下文编解码的图像人物行为描述生成方法
CN114170672A (zh) 一种基于计算机视觉的课堂学生行为识别的方法
CN111401113A (zh) 一种基于人体姿态估计的行人重识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant