CN113989608A

CN113989608A - 基于顶部视觉的学生实验课堂行为识别方法

Info

Publication number: CN113989608A
Application number: CN202111449024.1A
Authority: CN
Inventors: 袁晓光; 任爱锋; 刘诗若; 胡振勇; 龙璐岚
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-12-01
Filing date: 2021-12-01
Publication date: 2022-01-28

Abstract

本发明提出了一种基于顶部视觉的学生实验课堂行为识别方法，主要解决传统行为识别人工提取信息，工作量大，时效性差的问题。其实现方案是：将摄像头垂直安装在于每台实验台桌面的上方，对学生做实验时的行为进行视频采样，并对采样的视频流进行图像帧提取和标定得到数据集；利用数据集对目标检测网络进行训练，得到训练好的目标检测模型；将学生实验课堂视频输入到训练好的目标检测模型中，得到框定学生手部的图片；利用深度学习分类模型对框定学生手部的所有图片进行分类，生成学生手部行为的识别结果。本发明减小了数据处理量和运算量，能在设备密集，学生分散的实验室内精准获取以学生手部行为动作的图片并保存，供老师提取，可用于实验教学。

Description

基于顶部视觉的学生实验课堂行为识别方法

技术领域

本发明属于行为识别技术领域，具体涉及了一种学生实验课堂行为识别方法。可用于实验教学。

背景技术

随着工业的发展，社会的进步，各行业需要大量高素质人才。为了适应社会需求，担负着人才输出的教育领域也随之进行一系列旨在提高教学质量，培养人才的教育改革。在众多作为改革的识别和评估指标中，学生的课堂行为是反映教学成效的重要参考信息。

在传统的行为观察中，学校在每个教室装置了少量的监控摄像头拍摄学生上课行为，以此方便老师查看学生学习情况，及时对教学方式做出调整。这种基于人工查看反馈客观情况的方法，存在主观判断且实时性不高。

伴随计算机视觉和人工智能的发展，智慧课堂得到教育领域的青睐。提取和反馈学生课堂行为的信息时，出现了以深度学习为基础的人脸识别技术，手势姿态估计技术。具体是以现有教室里装置的监控摄像头记录上课行为，以抓取到的学生行为动作自动化识别学生行为，得到课堂观察的学生专注度报告，利于老师改善教学方法，提高教学效率。但是这种仅是在学生上课场景下，借助现有布置在墙角普通位置的拍摄角度获得的数据集，由于对于距离较远的学生拍摄到的人脸图像模糊，使得系统只能识别人脸却不能定位人眼，从而造成系统错判行为的问题。

目前，对于学生行为识别技术的相关研究大都应用于学生理论课堂的情况，对于本发明实验室课堂的学生行为识别的场景没有相关研究。

在实验室这种放置大量实验设备的地方，设备密集，学生分散，且实验设备形成的遮挡会引起老师视觉上盲区以及摄像头拍摄的视频不能完整反映学生行为动作。如果将以上传统的行为识别方法应用到这种场景进行学生行为识别，需要实验老师人工提取信息，工作量大，时效性差。如果采取基于深度学习的人脸识别和手势姿态估计技术的行为识别方法进行学生实验课堂行为识别，会产生下不足：

一是由于实验设备造成实验台被遮挡，使得装置在墙角这些具有普通视角的摄像头拍摄得到的原始图片中遮挡物多，导致学生的行为动作少且不完整，且在训练图像内包含学生的面部信息，当存储图片数据的数据库由于一些不可控因素造成信息泄露时，会引起隐私侵犯问题；

二是由于成像区域物体繁杂，所能利用的摄像头数量少，且摄像头安装位置和角度受限，不能独立截取出目标行为动作，且提取图片中的背景物体造成系统定位偏差，加大了系统网络训练的难度，且针对性不高，模型推理运算量大，系统模型泛化能力差，识别的准确率低。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于顶部视觉的学生实验课堂行为识别方法，以改善摄像头拍摄视频角度，减少背景物体信息的数据，降低提取定位学生行为特征的难度，提高识别的准确率和泛化能力。

为实现上述目的，本发明的技术方案包括如下：

将摄像头垂直安装在于每台实验台桌面的上方，对学生做实验时的行为进行视频采样，并对采样的视频流进行图像帧提取和标定得到数据集；

利用数据集对目标检测网络yolov4进行训练，得到训练好的目标检测模型，将学生实验课堂视频输入到训练好的目标检测模型中，得到框定学生手部的N张图片，N取决于模型中输入视频的大小；

利用深度学习分类模型VGG16对框定学生手部的所有图片进行分类，生成学生手部行为识别类别结果的数据，并保存至数据库，供老师后续提取。

本发明与现有技术相比，具有如下优点：

1.本发明由于将摄像头垂直安装在于每台实验台桌面的上方，相较于现有技术增加了摄像头的数量，且能够准确地提取出实验课堂上学生的手部行为图片，不仅优化了数据集，而且避免了收集学生面部信息，提高了学生的隐私安全性。

2.本发明基于训练好的目标检测模型yolov4，得到框定学生手部的N张图片，再送入深度学习分类模型VGG16，对框定学生手部的所有图片进行分类，生成学生手部行为的识别结果，相较于现有技术提高了输入模型数据集的质量，使得模型定位偏差减小，提高识别的准确率。

3.本发明应用场景是实验室，结果是生成反映每一位学生实验课堂行为情况的类别数据，可向老师提供某一学生一节实验课内的各行为类别的统计数据，老师通过可视化软件得到某一学生实验课堂各行为时间占比的统计图表，结合实验台上的学生端登录信息，落实到该学生身份，对实验课程各种行为时间占比不合理的学生进行本门实验课程的课程行为预警，并以该学生本实验课程各种行为总的时间占比为重要依据，对此学生的实验学习表现做出评估。

附图说明

图1本发明的实现流程图；

图2是本发明中的实验室摄像头安装位置示意图；

图3是本发明中训练目标检测模型的子流程图。

具体实施方式

以下结合附图对本发明的实施例做进一步详细描述。

参照图1，本发明的实现步骤如下：

步骤1，在实验室中安装摄像头。

参照图2，将摄像头垂直安装在于每台实验台桌面的上方，调试拍摄角度，使其对准实验台桌面学生手部活动的区域。

步骤2，制作数据集。

2.1)用每个摄像头同时拍摄一段实验课期间学生做实验时的手部行为的视频，并从视频流中进行帧提取，得到原始图片；

2.2)对每张原始图片采用水平翻转、垂直翻转，按比例缩放、剪裁，扩展，旋转中的任意一种方式进行增强，增大图片数量，并进行标定，得到数据集。

本实施例中，共启用八个摄像头同时对八个学生的行为进行拍摄，从视频流中进行帧提取，得到5000张原始图片，将这些图片随机分成三组，并对这三组原始图片分别使用水平翻转、垂直翻转，旋转这三种方式，扩展到三万张，并对每一张进行标定，得到数据集。

步骤3，用数据集训练目标检测网络yolov4。

参照图3，本步骤的具体实现如下：

3.1)将数据集按9:1的比例分为训练集和测试集，并建立相应的文件夹进行存放；

3.2)选择交叉熵函数loss作为其损失函数：

其中N为数据数量，tnk表示第n个数据的第k个元素真实值，ynk表示第n个数据的第k个元素模型输出值；

3.3使用Adam算法对目标检测网络的权重优化函数w_t进行优化更新：

3.3.1)计算t时刻损失函数关于当前参数的梯度g_t：

3.3.2)根据历史梯度计算t时刻的一阶动量m_t和二阶动量v_t：

m_t＝β₁*m_t-1+(1-β₁)*g_t；

v_t＝β₂*v_t-1+(1-β₂)*g_t；

其中，β₁和β₂是两个数值不同的动量因子，β₁取值为0.9，β₂取值0.999，m_t-1表示t-1时刻的一阶动量值，v_t-1表示t-1时刻的二阶动量值；

3.3.3)计算t时刻的下降梯度η_t：

其中，

表示加权后的一阶动量值，

表示加权后的二阶动量值，lr为学习率；

3.3.4)根据下降梯度更新t+1时刻的权重参数w_t+1：

w_t+1＝w_t-η_t；

3.4)设置目标检测网络参数的学习率lr，最大迭代次数N，一次处理训练集数据量的大小bn；

3.5)通过训练集对目标检测网络进行训练，即让目标检测网络yolov4学习训练集中的特征信息，按照3c)的步骤更新权重参数，得到当前的预训练模型，并对经过迭代n次后的预训练模型，用测试集测试其识别准确率，即用当前模型的输出值和真实值之间的偏差，计算输出其损失函数值；

3.6)重复3.5)直到损失函数值不再变小或达到最大迭代次N时，结束训练，得到的训练好的目标检测模型。

本实施例中，为了缓和模型过拟合问题，使用类似集成学习的原理，在进行学习更新权重参数的过程中随机删除神经元，使得每一次都进行不同的模型学习。而且在测试时，通过对神经元的输出乘以删除比例，以取得模型的平均值，使网络识别精度提高了好几个百分点。

步骤4，利用训练好的目标检测模型中，得到框定学生手部动作的图片。

将每一部摄像头拍摄的学生实验课堂视频依次输入到通过训练好的目标检测模型中对其进行扫描，获得学生手部区域，并从中选择避免其他背景物体信息的最优区域，得到框定每个学生手部的图片。

步骤5，对框定学生手部的所有图片进行行为分类。

利用现有的深度学习分类模型VGG16对框定每个学生手部的所有图片进行行为分类，并按照经模型处理每台摄像头所拍摄学生视频而生成某一学生手部行为识别类别结果的数据，依次按摄像头对应的实验台的顺序保存至数据库本实施例中，识别出的行为类别包括：玩手机，打游戏，使用鼠标，看书，写字和其他行为。

教师通过从数据库中提取某一学生三节实验课内总的各行为类别的统计数据，通过可视化软件得到此学生实验课堂各行为时间占比的统计图表，结合实验台上的学生端登录信息，落实到该学生身份，对实验课程各种行为，例如打游戏，玩手机和其他行为等时间占比不合理的学生进行课程行为预警，并以该学生一学期实验课程的各种行为总的时间占比为重要依据，对此学生的实验学习表现做出评估。

以上描述仅是本发明的一个具体实例，并未构成对本发明的任何限制，显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修改和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims

1.一种基于顶部视觉的学生实验课堂行为识别方法，其特征在于，包括：

利用深度学习分类模型VGG16对框定学生手部的所有图片进行分类，生成学生手部行为的识别结果，并保存至数据库，供老师后续提取。

2.根据权利要求1所述的方法，其特征在于，所述对采样的视频流进行图像帧提取和标定得到数据集，是从视频流中提取图像帧得到原始图片，并对原始图片进行图像增强，以增大图片数量；再使用图像标注软件框出每张图片中的学生手部，形成图片文件及配对的标签文件，即数据集。

3.根据权利要求2所述的方法，其特征在于，所述对原始图片进行图像增强，采用水平或垂直翻转、剪裁、扩展、旋转中的任意一种。

4.根据权利要求1所述的方法，其特征在于，所述用数据集训练目标检测网络yolov4，实现如下：

4a)将得到的数据集按9:1的比例分为训练集和测试集，并建立相应的文件夹进行存放；

4b)选择Adam函数作为目标检测网络的权重优化函数，选择交叉熵函数作为其损失函数；

4c)设置目标检测网络参数的学习率lr，最大迭代次数N，一次处理训练集数据量的大小bn；

4d)向目标检测网络yolov4载入训练集和测试集；

4e)通过训练集对目标检测网络进行训练，即让目标检测网络yolov4学习训练集中的特征信息，得到当前的预训练模型，对经过迭代n次后的预训练模型，用测试集测试其识别准确率，即输出其损失函数值；

4f)重复4e)，直到损失函数值不再变小或达到最大迭代次次数N时，结束训练，得到训练好的目标检测模型。

5.根据权利要求1所述的方法，其特征在于，所述向训练好的目标检测模型输入学生实验课堂视频，得到框定学生手部的图片，是通过训练好的目标检测模型对输入的学生实验课堂视频进行扫描，获得学生手部区域，并从中选择避免其他背景物体信息的最优区域，得到框定学生手部的图片。

6.根据权利要求1所述的方法，其特征在于，所述利用深度学习分类模型VGG16对框定学生手部的图片进行分类，生成学生手部行为识别结果，是从框定学生手部的图片中分出学生实验期间行为的类别，其包括，玩手机，打游戏，使用鼠标，看书，写字，其他行为。