CN112801042B

CN112801042B - 一种基于深度学习和视频轨迹的学生上课行为识别方法

Info

Publication number: CN112801042B
Application number: CN202110251597.7A
Authority: CN
Inventors: 徐春蕾; 胡锦鑫; 潘飞; 郭延文
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-03-08
Filing date: 2021-03-08
Publication date: 2023-12-15
Anticipated expiration: 2041-03-08
Also published as: CN112801042A

Abstract

本发明公开了一种基于深度学习和视频轨迹的学生上课行为识别方法，包括以下步骤1：使用手工标注的学生上课行为训练样本训练双流卷积网络；步骤2：利用改进的轨迹算法从行为视频中提取出视频轨迹；步骤3：使用步骤2提取的轨迹和行为视频作为输入通过步骤1训练得到的双流卷积网络提取出每个视频轨迹时刻的特征；步骤4：使用步骤3提取的视频轨迹特征作为输入使用循环神经网络提取视频轨迹特征在时间维度的特征；步骤5：使用步骤4得到的特征通过时空池化后拼接获得整个视频的特征；步骤6：根据步骤5得到的视频特征训练一个线性SVM分类器对视频进行分类。

Description

一种基于深度学习和视频轨迹的学生上课行为识别方法

技术领域

本发明属于视觉识别技术领域，涉及一种基于深度学习和视频轨迹的学生上课行为识别方法。

背景技术

随着生活水平的提高，人们越来越多投眼于孩子的教育上。随着教室摄像头的普及，学生上课行为的获取日益便捷。学生上课行为可以帮助家长了解孩子在课堂上的表现从而发现孩子的兴趣方向，帮助老师了解学生的听课状态从而改进教学方法提升学生的课堂参与度，帮助学校领导了解不同老师的教学效果从而评估教学质量优化教学管理。直接观察学生上课行为识别视频明显会浪费大量的时间和经历。

随着机器学习算法的发展，尤其是深度学习的发展。基于深度学习的行为识别能快速获得学生的上课行为。该方法需要先对学生进行检测，得到大小不一的包围盒。这为后续的行为识别带来了挑战，因为基于深度学习的行为识别算法需要固定大小的输入。如果将包围盒中的图像变换成固定大小，则会引起形变从而带来的识别精度的损失。

发明内容

针对现有技术的不足，本发明提供了一种基于深度学习和视频轨迹的学生上课行为识别方法，从而避免传统基于深度学习的行为识别算法需要固定输入尺寸的问题。

技术方案：本发明公开了基于深度学习和视频轨迹的学生上课行为识别方法，其核心在于通过提取视频的轨迹，提取不同层次的视频轨迹特征，将轨迹特征在时间维度进行编码，并通过时空池化统一不同层次的特征向量维度并进行拼接得到是视频整体特征，最后使用视频整体的特征来训练深度学习模型，从而达到学生上课行为识别的目的。具体包含以下步骤：

步骤1：使用手工标注的学生上课行为视频训练双流卷积网络；

步骤2：利用改进的轨迹算法从学生上课行为视频中提取出视频的轨迹；

步骤3：使用步骤2提取的视频的轨迹和学生上课行为视频作为输入通过步骤1训练得到的双流卷积网络提取出每个视频轨迹时刻的特征；

步骤4：使用步骤3提取的每个轨迹时刻的特征作为输入，使用循环神经网络提取出每个轨迹时刻的特征在时间维度的特征；

步骤5：将步骤4得到的特征通过时空池化后拼接获得整个视频的特征；

步骤6：根据步骤5得到的视频特征训练一个线性SVM分类器对视频进行分类。

进一步地，本发明中步骤1包括如下步骤：

步骤1-1，使用标注工具(如VoTT)对学生上课行为视频进行标注，用正四边形框框选教室中的学生上课行为并标注行为类别，从而得到尺寸为正四边形的视频样本。使用正四边形框是为了满足双流卷积网络对输入样本是固定大小的正四边形的要求。例如视频中有一个学生在举手，则用一个正四边形框将其框选出来，给予标签“举手”得到一个类别为举手的视频样本；

步骤1-2，从步骤1-1得到的视频样本中提取帧和光流，分别作为双流卷积网络中空间网络和时序网络的输入；

步骤1-3，构造双流卷积网络，使用VGGNet16(引用文献：Simonyan K,ZissermanA.Very Deep Convolutional Networks for Large-Scale Image Recognition[J].Computer Science,2014.)作为双流卷积网络的基础网络，VGGNet16由5个卷积层(每个卷积层有数量不同的卷积子层)3个全连接层组成，层与层之间使用最大池化分开，所有隐层的激活单元都采用ReLU函数。

步骤1-4，用步骤1-2获得的数据训练由步骤1-3构造的双流卷积网络。

步骤2中，使用如下公式(引用文献：Wang H,Schmid C.Action Recognition withImproved Trajectories[C]//2013IEEE International Conference on ComputerVision.IEEE,2014.)从学生上课行为视频V提取出视频的轨迹Traj(V)：

Traj(V)＝P₁,P₂,…,P_N,…,P_N,

其中P_n表示第n个特征点的轨迹，N代表视频V中的轨迹数量，即特征点的数量，视频轨迹Traj(V)由N个特征点的轨迹构成；代表轨迹中t时刻点第n个特征点的空间位置坐标。本方法为了避免跟踪时产生的漂移问题，设置轨迹长度为T＝15。

步骤3包括如下步骤：

步骤3-1，根据步骤2提取出的学生上课行为视频V的轨迹时刻，使用现有技术(denseflow：一个提取视频帧和光流的工具)提取学生上课行为视频的帧数据和光流数据；

步骤3-2，将步骤3-1得到的数据输入到步骤1训练完成的双流卷积网络，则每个轨迹时刻V_t获得一组卷积特征图Feat(V_t)和一组相对于输入尺寸的缩放因子Scale(V_t)：

Feat(V_t)＝{FS₁，...，FS_m，...，FS_M，FT₁，...，FT_m，...，FT_M}

Scale(V_t)＝{α₁，...，α_m，...，α_M，α₁，…，α_m，…α_M}

其中S和T分别表示双流卷积网络中的空间网络和时序网络，FS_m表示双流卷积网络中的空间网络第m个卷积层的特征图，FT_m表示双流卷积网络中的时序网络第m个卷积层的特征图，m∈{1，…，M}，M表示卷积层的总层数；表示第m个卷积层特征图的尺寸，H_m表示第m个卷积层的特征高度，W_m表示第m个卷积层的特征宽度，D表示学生上课行为视频V帧数，C_m表示第m个卷积层的特征图的通道数，R表示实数，α_m表示第m个卷积层的特征图FA_m，A∈{S，T}的尺寸相对于双流卷积网络输入尺寸的缩放因子。

步骤4包括如下步骤：

步骤4-1，给定轨迹根据步骤3得到每个轨迹时刻的特征向量/>

步骤4-2，使用IRNN网络(一种由Relu组成并用单位矩阵初始化的循环卷积网络)作为时间维度的特征提取器，其在循环卷积网络的基础上，使用单位矩阵来初始化循环权重矩阵，使其具备长时间记忆的能力。

a^t＝Ux^t+Wh^t-1+b

h^t＝Relu(a^t)，t＝1，2，…，T

其中x^t表示t时刻的输入，h^t表示t时刻的隐状态，U和W为权重矩阵，b为偏差，Relu为线性整流函数，a^t为中间变量；

IRNN网络初始化时，将递归调用的权重矩阵设置为单位矩阵I，偏差设置为0，即W＝I，b＝0；

步骤4-3，将作为IRNN的输入，获得特征QA^mn，A∈{S，T}。

步骤5包括如下步骤：

步骤5-1：对于每个学生上课行为视频，其轨迹数量N各不相同。给定轨迹P_n由步骤4提取时间维度特征为QA^mn，获得整个学生上课行为视频V的特征向量为QA^m1，QA^m2，…，QA^mN，A∈{S，T}；

步骤5-2：学生上课行为视频V表示为V∈R^H×W×T，H表示视频宽度、W表示视频高度、T表示视频帧数，则V为一个H×W×T的长方体；将学生上课行为视频V的宽度、高度、帧数均分成两段，即视频宽度、高度、帧数组成的长方体均分成8块，使其编号为i的长方体，i∈{1，2，…，8}，找出起始坐标位于编号i的子长方体的轨迹编号，记为集合U_i，并且将对应的特征向量{QA^mj，j∈U_i}做最大池化，记结果为

步骤5-3：将不同子立方体得到的特征向量拼接，得到特征向量SA^m：

其中concat表示向量拼接。

步骤5-4：由步骤5-3得到多个特征向量{SA^m，A∈S，T，m＝1，2，…，M}，将这2M个特征向量拼接成一个特征向量，得到整个学生上课行为视频V的特征VF：

VF＝concat(SS¹，…，SS^m，…，SS^M，ST¹，…，ST^m，…，ST^M)

其中SS^m表示空间网络第m层卷积层的特征向量，ST^m表示时序网络第m层卷积层的特征向量。

步骤6根据步骤5得到的视频特征训练一个线性SVM分类器，设定给定学生上课行为视频V的标签为t，在训练过程中使用的损失函数L(V，t)为：

其中C表示行为识别的类别总数，VF[k]表示取第k个向量元素。

有益效果

本发明具有如下有益效果：

1)本方法通过使用改进的轨迹算法提取视频轨迹，借助轨迹获得视频的整体特征。解决了传统行为识别通过包围盒检测后将包围盒图像变换成固定尺寸而带来形变和识别精度的损失问题。

2)本方法首次将传统的基于轨迹的方法和现在广泛使用的深度学习融合在一起使其互补，大大提高了模型的识别准确率。

3)本方法提出了将不同层次的特征融合起来，将从简单的视觉元素(例如边缘)到复杂的视觉概念(例如类别)的拼接作为视频整体特征的方法使不同级别上描述运动信息彼此互补，不仅可以提高识别的精确度，而且可以增加模型的鲁棒性，大大提高了应用场景的普适性。

4)本方法通过双流卷积网络预训练模块、轨迹提取模块、特征提取模块、特征融合模块的协同工作，不仅精度极高，而且适用性广泛，鲁棒性好，非常有利于应用于实际场景中。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述或其他方面的优点将会变得更加清楚。

图1为于深度学习和视频轨迹的学生上课行为识别方法的流程图。

图2为本发明中双流卷积网络的示意图。

图3为本发明中使用双流卷积网络的基础网络VGGNet16的示意图。

图4为本发明中使用的循环神经网络的示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

下面将结合本发明实施例的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例，在不同的实施例中，不仅可以通过改进的轨迹算法提取视频的轨迹，还可以通过轨迹算法提取视频的轨迹，同时双流卷积网络的基础网络可以根据需要检测的学生上课行为视频的分辨率以及需要检测的行为类别数来选择不同的模型，例如对视频的分辨率较低以及需要检测的行为类别数较少可以选择VGG16模型，对视频的分辨率较高以及需要检测的行为类别数较多可以选择残差网络。本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，均属于本发明的保护范围。

实施例1

参照图1所示，本发明提供了一种基于深度学习和视频轨迹的学生上课行为识别的方法，具体包括如下步骤：

步骤1：使用手工标注的学生上课行为训练样本训练双流卷积网络；

步骤2：利用改进的轨迹算法从行为视频中提取出视频的轨迹；

步骤3：使用步骤2提取的轨迹和行为视频作为输入，通过步骤1训练得到的双流卷积网络提取出每个视频轨迹时刻的特征；

步骤4：使用步骤3提取的视频轨迹特征作为输入使用循环神经网络提取视频轨迹特征在时间维度的特征；

步骤5：使用步骤4得到的特征通过时空池化后拼接获得整个视频的特征；

步骤1对学生上课行为视频进行人工标注，并用标注数据训练双流卷积网络，具体包括如下步骤：

步骤1-1，使用标注用具对学生上课行为视频进行标注，用正四边形框框选教室中的学生上课行为并行为类别标注。使用正四边形框是为了满足双流网络对输入样本是固定大小的正四边形的要求；

步骤1-2，从步骤1-1得到的样本中提取帧和光流，分别作为双流卷积网络中空间网络和时序网络的输入，如图2所示；

步骤1-3，构造双流卷积网络(图2)，使用VGGNet16作为双流卷积网络的基础网络，VGGNet16(图3)由5个卷积层(每个卷积层有数量不同的卷积子层)3个全连接层组成，层与层之间使用最大池化分开，所有隐层的激活单元都采用ReLU函数。

步骤2使用改进的轨迹算法从学生上课行为视频V提取到视频轨迹：

Traj(V)＝P₁，P₂，…，P_n，…，P_N，

其中N代表该视频中的轨迹数量，即特征点的数量；代表轨迹中t时刻点的空间位置坐标，本方法为了避免跟踪时产生的漂移问题，设置轨迹长度为T＝15。

步骤3使用步骤1训练完成的双流卷积网络作为视频轨迹特征提取器，提取轨迹时刻的卷积特征，具体包括如下步骤：

步骤3-1，根据步骤2提取轨迹的轨迹时刻提取行为视频的帧数据和光流数据。

步骤3-2，将步骤3-1得到的数据输入到步骤1训练完成的VGGNet16网络，则每个轨迹时刻Vt获得一组卷积特征图：

Feat(V_t)＝{FS₁，...，FS_m，...，FS_M，FT₁，...，FT_m，...，FT_M}

Scale(V_t)＝{α₁，…，α_m，…，α_M，α₁，…，α_m，…，α_M}

其中S表示双流网络中的空间网络，T表示双流网络中的时序网络，M表示卷积层的。Hm表示第m层的特征高度，Wm表示第m层的特征宽度，D表示视频帧数，C_m表示第m层的特征图的通道数，α_m表示第m层的特征图FA_m相对于VGGNet16网络输入尺寸的缩放因子。

步骤4使用循环神经网络作为视频轨迹特征在时间维度的特征提取器，提取在时间维度的特征，具体包括如下步骤：

步骤4-1，给定轨迹根据步骤3得到每个轨迹时刻的特征向量/>

步骤4-2，使用IRNN作为时间维度的特征提取器，其具体结构如图4所示，其在RNN的基础上，使用单位矩阵来初始化循环权重矩阵，使其具备长时间记忆的能力。

a^t＝Ux^t+Wh^t-1+b

h^t＝Relu(a^t)，t＝1，2，…，T

网络初始化时，将递归权重矩阵设置为单位矩阵，偏差设置为0，即W＝I，b＝0。

步骤4-3，将作为IRNN的输入提取获得特征QA^mn，A∈{S，T}。

步骤5：通过时空池化将不同长度的特征向量编码传换成固定长度的特征向量，从而获得整个视频的特征表达，具体包括如下步骤：

步骤5-1：各不相同对于每个视频V，其轨迹数量N各不相同。给定轨迹P_n由步骤4提取时间维度特征为QA^mn，获得整个视频的特征向量为QA^m1，QA^m2，…，QA^mN，A∈{S，T}；

步骤5-2：将视频的宽度、高度、帧数各维度均分成两段，即视频宽度、高度、帧数组成的长方体均分成8块，使其编号为i(i∈{1，2，…，8})的长方体，找出起始坐标位于该子长方体的轨迹编号，记为集合U_i，并且将对应的特征向量{QA^mj，j∈U_i}使用最大池化，记结果为

步骤5-3：将不同子立方体得到的特征拼接，得到：

其中concat表示向量拼接。

步骤5-4：由步骤5-3得到多个特征向量{SA^m，A∈S，T，m＝1，2，…，M}，将这2M个特征向量拼接成一个特征向量，得到整个视频V的特征：

VF＝concat(SS¹，…，SS^m，…，SS^M，ST¹，…，ST^m，…，ST^M)

步骤6根据步骤5得到的视频特征训练一个线性SVM分类器，假设给定视频V的标签为t，在训练过程中使用的损失函数为：

其中C表示行为识别的类别总数，VF[k]表示取第k个向量元素。

本发明提供了一种基于深度学习和视频轨迹的学生上课行为识别方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于深度学习和视频轨迹的学生上课行为识别方法，其特征在于，包括以下步骤：

步骤1：使用标注的学生上课行为视频训练双流卷积网络；

步骤2：使用改进的轨迹算法从学生上课行为视频中提取出视频的轨迹；

步骤3：使用步骤2提取的视频的轨迹和学生上课行为视频作为输入，通过步骤1训练得到的双流卷积网络提取出每个轨迹时刻的特征；

步骤6：根据步骤5得到的视频特征训练一个线性SVM分类器对视频进行分类；

步骤1包括如下步骤：

步骤1-1，使用标注工具对学生上课行为视频进行标注，用正四边形框框选教室中的学生上课行为并标注行为类别，从而得到尺寸为正四边形的视频样本；

步骤1-3，构造双流卷积网络，使用VGGNet16作为双流卷积网络的基础网络，VGGNet16由5个卷积层和3个全连接层组成，层与层之间使用最大池化分开，所有隐层的激活单元都采用ReLU函数；

步骤1-4，步骤1-2获得的数据训练由步骤1-3构造的双流卷积网络；

步骤2中，使用如下公式从学生上课行为视频V提取出视频的轨迹Traj(V)：

Traj(V)＝P₁,P₂,…,P_n,…,P_N,

其中P_n表示第n个特征点的轨迹，N代表视频V中的轨迹数量，即特征点的数量，视频轨迹Traj(V)由N个特征点的轨迹构成；代表轨迹中t时刻点第n个特征点的空间位置坐标；

步骤3包括如下步骤：

步骤3-1，根据步骤2提取出的学生上课行为视频V的轨迹时刻，提取学生上课行为视频的帧数据和光流数据；

步骤3-2，将步骤3-1得到的数据输入到步骤1训练完成的双流卷积网络网络，则每个轨迹时刻V_t获得一组卷积特征图Feat(V_t)和一组相对于输入尺寸的缩放因子Scale(V_t)：

Feat(V_t)＝{FS₁,...,FS_m,...,FS_M,FT₁,...,FT_m,...,FT_M}

Scale(V_t)＝{α₁,...,α_m,...,α_m,α₁,...,α_m,...,α_M}

其中S和T分别表示双流卷积网络中的空间网络和时序网络，FS_m表示双流卷积网络中的空间网络第m个卷积层的特征图，FT_m表示双流卷积网络中的时序网络第m个卷积层的特征图，m∈{1,…,M}，M表示卷积层的总层数；表示第m个卷积层特征图的尺寸，H_m表示第m个卷积层的特征高度，W_m表示第m个卷积层的特征宽度，D表示学生上课行为视频V帧数，C_m表示第m个卷积层的特征图的通道数，R表示实数，α_m表示第m个卷积层的特征图FA_m，A∈{S,T}的尺寸相对于双流卷积网络输入尺寸的缩放因子；

步骤4包括如下步骤：

步骤4-1，给定轨迹根据步骤3得到每个轨迹时刻的特征向量/>

步骤4-2，使用IRNN网络作为时间维度的特征提取器：

a^t＝Ux^t+Wh^t-1+b

h^t＝Relu(a^t),t＝1,2,...,T

步骤4-3，将作为IRNN的输入，获得特征QA^mn,A∈{S,T}；

步骤5包括如下步骤：

步骤5-1：给定轨迹P_n由步骤4提取时间维度特征为QA^mn，获得整个学生上课行为视频V的特征向量为QA^m1,QA^m2,…,QA^mN,A∈{S,T}；

步骤5-2：学生上课行为视频V表示为V∈R^H×W×T，H表示视频宽度、W表示视频高度、T表示视频帧数，则V为一个H×W×T的长方体；将学生上课行为视频V的宽度、高度、帧数均分成两段，即视频宽度、高度、帧数组成的长方体均分成8块，使其编号为i的长方体，i∈{1,2,...,8}，找出起始坐标位于编号i的子长方体的轨迹编号，记为集合U_i，并且将对应的特征向量{QA^mj,j∈U_i}做最大池化，记结果为

其中concat表示向量拼接；

步骤5-4：由步骤5-3得到多个特征向量{SA^m,A∈S,T,m＝1,2,...,M}，将这2M个特征向量拼接成一个特征向量，得到整个学生上课行为视频V的特征VF：VF＝concat(SS¹,...,SS^m,…,SS^M,ST¹,...,ST^m,…,ST^M)

2.根据权利要求1所述的方法，其特征在于，步骤6中，根据步骤5得到的视频特征训练一个线性SVM分类器，设定给定学生上课行为视频V的标签为t，在训练过程中使用的损失函数L(V,t)为：

其中C表示行为识别的类别总数，VF[k]表示取第k个向量元素。