CN110414415A

CN110414415A - 面向课堂场景的人体行为识别方法

Info

Publication number: CN110414415A
Application number: CN201910674395.6A
Authority: CN
Inventors: 戴忠健; 顾晓炜; 魏鹏宇
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology; Beijing Institute of Technology BIT
Priority date: 2019-07-24
Filing date: 2019-07-24
Publication date: 2019-11-05

Abstract

课堂是学校教育的核心场景，观察记录学生的课堂学习行为对评估教学质量有重要意义。仅依靠授课老师无法全面记录学生的学习行为，针对这一需求，面向课堂场景的人体行为识别方法实现了学生课堂学习行为的自动识别和记录。面向课堂场景的人体行为识别方法：提出3D多管道模型，降低3D CNN模型计算量。制作了课堂场景学生行为的数据集，由9名同学按指定序列完成相应动作，包括端坐、书写、趴桌、左顾右盼、举手、起立等常见行为，并以此训练模型，实现学生行为的分类识别功能。实现了完整的面向课堂场景的人体行为识别系统。包括人体检测跟踪，视频分割以及最后的行为识别，用于教学评估中的统计分析。

Description

面向课堂场景的人体行为识别方法

技术领域

本发明涉及一种面向课堂场景的人体行为识别方法，属于计算机视觉领域和深度学习领域。

背景技术

课堂是学习教育的核心场景，观察记录学生的课堂学习行为对评估教学质量有着重要意义。

现阶段，观察记录学生的课堂学习行为主要是靠授课老师课堂现场人为监督，以及后期通过视频资料对学习行为进行评估。

目前这两种评估方式主要存在以下问题：

(1)工作耗时长、自动化程度低。

(2)授课老师分散精力，降低授课效率。

(3)无法全面和准确地记录所有学生的学习行为。

本专利发明了一种面向课堂场景的人体行为识别方法，该方法采用深度学习的方法实现了完整的面向课堂场景的人体行为识别系统。包括人体检测和跟踪，视频分割以及最后的行为识别，行为识别结果按照学生ID记录，用于教学评估中的统计分析，既可以得到学生个人的学习行为表现，也可以得到课堂整体的参与度和活跃度。

发明内容

本发明的目的在于解决当前课堂学习行为分析工作耗时长，自动化程度低，无法全面准确地记录所有学生的学习行为等问题，其技术方案如下：

面向课堂场景的人体行为识别方法：提出3D多管道模型，在保证精度的前提下，降低3D CNN模型计算量。制作了课堂场景学生行为的数据集，由9名同学按指定序列完成相应动作，包括端坐、书写、趴桌、左顾右盼、举手、起立等常见行为，并以此训练模型，实现学生行为的分类识别功能。实现了完整的面向课堂场景的人体行为识别系统。包括人体检测跟踪，视频分割以及最后的行为识别，用于教学评估中的统计分析，既可以得到学生个人的学习行为表现，也可以得到课堂整体的参与度和活跃度。

附图说明

图1系统流程图

图2人体检测和跟踪实验结果图

图3人体边界框分割结果像

图4多管道模块示意图

图5数据集实验结果比较图

图6真实课堂的人体检测和跟踪图

图7真实课堂的人体边界框分割图

图8训练过程的流程图

图9测试流程图

图10测试结果图

具体实施方式

面向课堂场景的人体行为识别方法

首先，利用YOLO_v3目标检测框架和Deepsort多目标跟踪对9名同学进行检测与跟踪，根据识别到的人体边界框对视频进行切割，并将切割下来的单人视频分为7个类别作为行为标签。通过得到的数据集来训练改进的3D CNN网络，将数据按7：2：1的比例划分为训练集、验证集、和测试集三部分。最后，从拍摄的真实课堂视频中分割出单人视频，来验证网络效果，实现完整的面向课堂场景的人体行为识别系统。系统流程图如图1所示。

具体步骤：

步骤1：通过YOLO获取人体分割数据

利用YOLO_v3目标检测框架和Deepsort多目标跟踪对9名同学进行检测与跟踪，根据识别到的人体边界框对视频进行切割，并将切割下来的单人视频分为7个类别作为行为标签。人体检测和跟踪实验结果如图2所示。人体边界框分割结果如图3所示。

步骤2：通过得到的数据集来训练改进的3D CNN网络

基于三维卷积神经网络的方法主要的不足之处在于三维卷积核的计算开销过大，3D CNN计算开销的主要来源是较大的输入张量以及3维卷积核。为了在保持网络效果的同时，大幅度降低计算量，提高网络的效率，提出一种稀疏连接结构，称为多管道模块。

传统的多通道设计，前后分别用1×1的卷积进行升维和降维，在中间将通道进行分组，分别用多个3×3卷积核进行处理。为了进一步减小计算量，将整个残差模块分为多个平行且独立的管道，就得到多管道模型。

传统残差模块，设输入通道数量为M_in，中间通道数量为M_mid，M_out表示输出通道数量。则这两层之间的连接数可以由下式计算：

Connections＝M_in*M_mid+M_mid*M_out (1)

将残差模块分解为多管道模块后，连接数变为原来的1/N，N为切分的管道数目，计算如下式：

用3D多管道模块替换I3D网络中的基本单元后，计算量大幅减少到原来的十分之一，同时还保持了目前最优的识别性能。多管道模块示意图如图4所示。数据集实验结果比较如图5所示。

步骤3：真实课堂场景数据集

真实教学场景具有以下几个特点：人数多且密集；前后排光照、角度差异大。我们在40人和200人的教室录制了整学期的课堂视频。利用YOLO_V3以及Deepsort进行人体识别与跟踪。进行行为识别前，需要根据此阶段识别到的人体边界框对视频进行切割，得到只包含单人的视频片段。将分割出的单人视频按行为类别放入七个文件夹中，文件夹名字即为行为类别标签，即端坐、书写、趴桌、左顾右盼、举手、起立、玩手机。为了加快训练速度，将训练集中的视频按帧数提取，省去视频解码过程，同时将数据随机划分按7：2：1的比例将整个数据集分为训练集、验证集和测试集。真实课堂的人体检测和跟踪图如图6所示。真实课堂的人体边界框分割图如图7所示。

步骤4：3D CNN模型训练过程

第一步，设置总的训练迭代次数上限N＝100，迭代次数n从0开始加1，若n>N则完成训练，推出程序。第二步，将训练集中的样本重新随机排列。第三步，若训练集中还有样本没有计算过，则抽取一个样本，送入模型进行正向计算，得到输出值和误差E；若训练集中所有样本都已遍历完毕，转到第一步。第四步，将第三步得到的误差反向传播，更新每一层网络参数；跳转回第三步。训练过程的流程图如图8所示。

步骤5：3D CNN模型测试过程

将测试集中的单人视频输入训练好的模型进行测试，输出分类结果在视频左上角进行实时显示，第一行是识别出的行为类别，第二行是置信度，即识别结果的可信任程度。如果输出向量的最大值与测试样本的标签一致，则认为测试结果是正确的，否则判定识别错误。测试流程图如图9所示。测试结果图如图10所示。

实验验证

本专利实验过程中的实验结果精度由测试集输入训练好的模型进行衡量，输出分类结果为行为类别与其置信度。如输出向量的最大值与测试样本的标签一致，则认为测试结果正确。最终7个行为类别的准确率如表1所示：

表1.实验结果

从实验结果可以看出，本专利改进的三维卷积模型在课堂行为数据集上训练后，对“举手”和“起立”两类动作的识别正确率最高，达到100％；“趴桌”和“左顾右盼”也有不错的正确率，“玩手机”的识别率最低。综上，识别结果在总体上还是比较优秀的，达到实用的标准。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.面向课堂场景的人体行为识别方法，其特征是：利用YOLO_V3与Deepsort实现课堂中学生个体的识别与跟踪，将每个个体从视频中分割出来，并按照端坐、书写、趴桌、左顾右盼、举手、起立等常见行为分类制作训练集。提出改进的3D多管道模型，将制作的训练集输入模型进行训练。通过测试集的检验，得到比较好的识别精度。

2.根据权利要求1所述的面向课堂场景的人体行为识别方法，其特征是：利用YOLO_V3与Deepsort采集数据集，并以此来在改进的3D CNN模型进行训练，继而得到较好的姿态识别精度。