CN116434341A

CN116434341A - 一种学生课堂异常行为的识别方法及系统

Info

Publication number: CN116434341A
Application number: CN202310435968.6A
Authority: CN
Inventors: 陈婷; 薛盼; 赵晓琳; 廖本奇; 朱金轲
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2023-04-23
Filing date: 2023-04-23
Publication date: 2023-07-14

Abstract

本发明公开了一种学生课堂异常行为的识别方法及系统，利用监控视频构建学生课堂异常行为图像数据集；将学生课堂异常行为图像数据集利用Labelimg进行数据标注；向改进的YOLOV5网络中输入学生课堂异常行为数据集进行训练模型；将训练好的模型部署到监控设备进行学生课堂异常行为检测。本发明以更高的准确率和更高的效率实时监控学生课堂行为的异常行为，通过这种智能化的识别检测方法可以实时分析学生课堂状态，减轻教师的上课负担的同时帮助教师实时了解到学生在课堂上的听课状态，根据学生们在课堂上的状态反馈及时调整教学策略以提高课堂教学质量，不仅可以减轻老师的上课压力，减少教师的精力分散，并且可以实现智慧化校园的普及。

Description

一种学生课堂异常行为的识别方法及系统

技术领域

本发明涉及一种学生课堂异常行为的识别方法及系统，属于目标识别技术领域。

背景技术

课堂教学被对学校教育研究的相关人员视为重要的研究素材，通过对课堂教学进行过程分析，对教学过程效果的把握与教学质量的提高具有十分重要的意义，而学生在课堂上的行为表现又是课堂过程分析的关键组成部分。随着智慧化校园的普及、教育信息化建设工作的不断深入以及近年来深度学习技术在计算机视觉的不断突破发展，使用更加智能化的技术对学生课堂行为分析备受期待。通过这种方式，一方面可以帮助教师及时调整和改变他们的教学风格，以实现更高效地授课。另一方面学生可以了解到在自己在上课时的学习状态与行为习惯，增加学生对自身上课学习情况的了解，有助于其反思、调整自己的课堂行为和学习状态，提高学习效率。总而言之，研究智能化学生行为识别方法可以实时分析学生课堂状态，减轻教师的上课负担的同时帮助教师实时了解到学生在课堂上的听课状态，根据学生们在课堂上的状态反馈及时调整教学策略以提高课堂教学质量。

现行的方案存在以下几个不足：

一、在传统的课堂教学环境中，教师在课堂上直接对学生上课时的行为状态进行观察，但近年来随着高校招生扩招，以班级为单位的学生数量不断上涨，大学授课老师管理课堂、教学授课工作日益繁重，而传统的课堂观察方法依赖人类观察者，十分耗时耗力，难以及时、全面的反映课堂情况，因此很难扩展到大规模和长期观测。

二、传统的教师直接观察学生异常动作，并不能一直实时性的提醒学生，而学生的上课状态也无法实时评估监督，学生无法时刻约束自己的上课行为。

发明内容

本发明提供了一种学生课堂异常行为的识别方法及系统，能有效地用于学生课堂异常行为的识别检测。

本发明的技术方案是：一种学生课堂异常行为的识别方法，包括：

利用监控视频构建学生课堂异常行为图像数据集；

将学生课堂异常行为图像数据集利用Labelimg进行数据标注；

向改进的YOLOV5网络中输入学生课堂异常行为数据集进行训练模型；

将训练好的模型部署到监控设备进行学生课堂异常行为检测。

所述利用监控视频构建学生课堂异常行为图像数据集，具体为将监控视频通过视频剪辑软件进行明显异常行为片段裁剪，并通过对视频进行每秒25帧的逐帧裁剪，得到学生课堂异常行为图像数据库。

所述将学生课堂异常行为图像数据集中的图像利用图像标注工具进行目标真实框标注，具体为：将学生课堂异常行为图像数据集中的图像利用Labelimg工具进行目标真实框标注，生成相应的XML文件，对生成的XML文件转化为YOLOV5可以训练的TXT文件，并将数据集按8：1：1的比例划分训练集、验证集、测试集。

所述向改进的YOLOV5网络中输入整理好的学生课堂异常行为图像数据集，获得目标识别模块，具体为：

S4.1、输入端：输入端：整理好的数据集输入到网络后，首先通过SAHI(切片辅助超推理)的方式对图像进行切片处理，然后在学生课堂异常行为数据库中随机抽取图片进行Mosaic数据增强；Mosaic数据增强是通过随机缩放、随机裁剪、随机排布的方式对不同图像进行拼接，拼接成640*640的图像后输入改进的YOLOV5网络中；

S4.2、Backbone端：对输入端输出的图像数据进行特征提取：Focus层采用切片操作把高分辨率的图片(特征图)拆分成多个低分辨率的图片/特征图，即隔列采样+拼接，四次CBL卷积操作(CBL由Conv+BN+Leaky_ReLU组成)、三次CSP卷积操作和一次SPP操作，让网络模型提取到更多的特征；

S4.3、Neck端：对Backbone端提取出的图像特征进行混合和组合，当融合具有不同分辨率的特征时，由于不同的输入特征具有不同的分辨率，它们通常对输出特征的贡献是不平等的，BiFPN为每个输入增加一个额外的权重，并让网络学习每个输入特性的重要性，并且把这些特征传递给Head端；

S4.4、Head端：对Neck输出的特征信息进行分类、定位，输出检测目标的预测框；

S4.5、将得到的预测框与真实框进行损失计算，然后反向更新改进的YOLOV5网络的权重，迭代网络参数；

S4.6、重复上述步骤S4.1-S4.5直至迭代终止，得到一个目标识别模块。

所述的学生课堂异常行为识别系统，包括：

构建单元，用于构建学生课堂异常行为的图像数据集；

图像处理单元，用于将学生课堂异常行为的图像数据集中的图像利用图像标注工具进行目标物体真实框标注；

获得单元，用于向改进的YOLOV5网络中输入学生课堂异常行为的图像数据集，获得目标识别模块；

识别单元，用于利用目标识别模块对待检测的学生课堂通过监控获得的学生行为图像进行识别以判断学生是否存在异常行为；

识别系统单元，用于对识别结果进行存储及展示。

本发明的有益效果是：相较于教师人工观察学生课堂行为状态，本发明以更高的准确率和更高的效率实时监控学生课堂行为的异常行为，通过这种智能化的识别检测方法可以实时分析学生课堂状态，减轻教师的上课负担的同时帮助教师实时了解到学生在课堂上的听课状态，根据学生们在课堂上的状态反馈及时调整教学策略以提高课堂教学质量。通过深度学习算法对学生课堂异常行为检测，不仅可以减轻老师的上课压力，减少教师的精力分散，并且可以实现智慧化校园的普及。

附图说明

图1为本发明识别方法的流程图；

图2为改进的YOLOV5网络算法主干网络图；

图3为标注后的数据集图片数量统计图；

图4为目标识别模块各类行为识别精度结果图。

具体实施方式

下面结合附图和实施例，对发明做进一步的说明，但本发明的内容并不限于所述范围。

实施例1：如图1、图2、图3、图4所示，一种学生课堂异常行为的识别方法及系统，包括：利用监控视频构建学生课堂异常行为图像数据集；将学生课堂异常行为图像数据集利用Labelimg进行数据标注；向改进的YOLOV5网络中输入学生课堂异常行为数据集进行训练模型；将训练好的模型部署到监控设备进行学生课堂异常行为检测。

进一步地，可以设置所述将学生课堂异常行为图像数据集中的图像利用图像标注工具进行目标真实框标注，具体为：将学生课堂异常行为图像数据集中的图像利用Labelimg工具进行目标真实框标注，生成相应的XML文件，对生成的XML文件转化为YOLOV5可以训练的TXT文件，并将数据集按8：1：1的比例划分训练集、验证集、测试集。

进一步地，可以设置所述向改进的YOLOV5网络中输入整理好的学生课堂异常行为图像数据集，获得目标识别模块，具体为：

再进一步地，所述的学生课堂异常行为识别系统，包括：

构建单元，用于构建学生课堂异常行为的图像数据集；

识别系统单元，用于对识别结果进行存储及展示。

实施例2：如图1、图2、图3、图4所示，一种学生课堂异常行为的识别方法及系统，包括：

S1、构建学生课堂异常行为图像数据集；

具体而言，可以通过学校的监控设备采集教师上课视频，从采集到的视频文件中选取具有学生明显异常行为的片段，裁剪成几秒的小视频，将视频按照每秒25帧进行逐帧裁剪，组成图像数据集。在监控视频中总结出现的全部异常行为，如交头接耳，随意走动，玩手机等。

S2、将图像数据集中的图像利用Labelimg工具进行目标物体真实框标注，生成相应的XML文件。Labelimg工具标注出图像中的目标物体的真实框位置并标记行为的类别，行为类别共7类，分别为：normal、look around、turn around and talk、sleep、wander、whisper、play cell phone。其中XML文件记录了图像名称、图像位置、图像大小、图像中行为类别以及坐标信息。随后对生成的XML文件转化为YOLOV5可以训练的TXT文件，并将数据集按8：1：1的比例划分训练集、验证集、测试集。

如图3为对学生课堂异常行为图像进行行为标注的过程。

S3、向改进的YOLOV5网络中输入整理好的学生课堂异常行为图像数据集，获得目标识别模块；

S3.1、输入端：整理好的数据集输入到网络后，首先通过SAHI(切片辅助超推理)的方式对图像进行切片处理，然后在学生课堂异常行为数据库中随机抽取图片进行Mosaic数据增强；Mosaic数据增强是通过随机缩放、随机裁剪、随机排布的方式对不同图像进行拼接，拼接成640*640的图像后输入改进的YOLOV5网络中；

S3.2、Backbone端：对输入端输出的图像数据进行特征提取：Focus层采用切片操作把高分辨率的图片(特征图)拆分成多个低分辨率的图片/特征图，即隔列采样+拼接，四次CBL卷积操作(CBL由Conv+BN+Leaky_ReLU组成)、三次CSP卷积操作和一次SPP操作，让网络模型提取到更多的特征；

S3.3、Neck端：对Backbone端提取出的图像特征进行混合和组合，当融合具有不同分辨率的特征时，由于不同的输入特征具有不同的分辨率，它们通常对输出特征的贡献是不平等的，BiFPN为每个输入增加一个额外的权重，并让网络学习每个输入特性的重要性，并且把这些特征传递给Head端；

S3.4、Head端：对Neck输出的特征信息进行分类、定位，输出检测目标的预测框；

S3.5、将得到的预测框与真实框进行损失计算，然后反向更新改进的YOLOV5网络的权重，迭代网络参数；

S3.6、重复上述步骤S4.1-S4.5直至迭代终止，得到一个目标识别模块。

对于S3.1的给出如下：

整理好的数据集输入到网络后，首先通过SAHI(切片辅助超推理)的方式对图像进行切片处理，构建更多小目标，增加网络对于小目标的检测精度。SAHI通过滑动窗口将图像切分成若干区域，各个区域分别进行预测，同时也对整张图片进行推理。然后将各个区域的预测结果和整张图片的预测结果合并，最后用NMS(非极大值抑制)进行过滤。在对图像数据进行切片处理之后，再进行Mosaic数据增强，Mosaic数据增强是通过随机缩放、随机裁剪、随机排布的方式对不同图像进行拼接，拼接成640*640的图像后输入改进的YOLOV5网络中；

对于S3.2、S3.3的给出如下：

Focus层采用切片操作把高分辨率的图片(特征图)拆分成多个低分辨率的图片/特征图，即隔列采样+拼接，原始的640*640*3的图像输入Focus结构，采用切片(slice)操作，先变成320*320*12的特征图，拼接(Concat)后，再经过一次卷积(CBL)操作，最终变成320*320*64的特征图。Focus层将w-h平面上的信息转换到通道维度，再通过3*3卷积的方式提取不同特征。采用这种方式可以减少下采样带来的信息损失。

CBL卷积操作是由Conv、BN、Leaky_ReLU组成

CSP卷积操作：

在YOLOV5中存在两种CSP，一种是CSP1_X，一种是CSP2_X，CSP1_X应用在Backbone端，CSP2_X应用在Neck端。

CSP1_X模块由CBL模块、Res unit模块、Conv、还有Concate组成；

CSP2_X模块由Conv和X个Res unit模块和Concate而成。

Res unit：是x个残差组件，用来构建深层网络

CSP1_X主要是将feature map拆成两个分支，一个分支先通过CBL，再经过多个残差结构，再进行一次卷积；另一个分支直接进行卷积；然后两个分支进行Concat，再经过BN(正态分布)，再来一次激活，最后进行一个CBL。

CSP2_X相对于CSP1_X来说，不一样的地方只有CSP2_X将Res unit换成了2*X个CBL。

SPP模块操作：

SPP模块采用1×1、5×5、9×9和13×13的最大池化方式，进行多尺度特征融合.

对于S3.3的给出如下：

对Backbone端提取出的图像特征进行混合和组合，当融合具有不同分辨率的特征时，由于不同的输入特征具有不同的分辨率，它们通常对输出特征的贡献是不平等的，BiFPN为每个输入增加一个额外的权重，并让网络学习每个输入特性的重要性，并且把这些特征传递给Head端。

原本的Neck端使用的是FPN+PAN的形式进行特征融合，但由于不同的输入特征具有不同的分辨率，对输出特征的贡献是不平等的，因此改进的YOLOV5将此处替换成BiFPN，进行更好的特征融合。

加权双向特征金字塔网络(BiFPN)，它引入可学习的权值来学习不同输入特征的重要性，同时反复应用自顶向下和自下而上的多尺度特征融合。

加上一个可学习的权重，即：O＝∑_iw_i·I_i

不对w_i的范围进行限制，会导致训练不稳定，所以提出了快速的限制方法，公式如下：

最终的特征图输出结合了当前层与上下两层，一共三层的特征。

对于S3.4的给出如下：

YOLOV5的损失函数包括：classification loss分类损失、localization loss定位损失(预测框和真实框之间的误差)和confidence loss置信度损失。总损失函数为三者的和，即：classification loss+localization loss+confidence loss。

损失函数的公式如下：

其中，N为检测层个数，B是标签分配到先验框的目标个数，S×S为该尺度被分割成的网格数。L_box为边界框回归损失，对每个目标计算；L_obj为目标物体损失，对每个网格计算；L_cls为分类损失，同样对每个目标计算λ₁、λ₂、λ₃分别为这三种损失的权重。

L_obj和L_cls均采用BCEWithLogitsLoss，计算公式如下：

L_box采用CIoU损失函数，公式如下：

S4、利用目标识别模块对学生课堂场景下的监控设备所得的每帧图像进行识别，用以判断学生是否存在异常行为；如图4所示，为通过本发明构建的目标识别模块进行识别后的结果，包括学生行为的类别，及识别为该类别的准确率。

S5、对识别结果进行存储及展示。

将监控视频实时的视频文件传入识别系统中，系统首先对视频每秒进行分割，然后将图片输送到目标识别模块，得到行为类别的判定，在系统界面实时展示出来。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种学生课堂异常行为的识别方法，其特征在于：包括：

利用监控视频构建学生课堂异常行为图像数据集；

将学生课堂异常行为图像数据集利用Labelimg进行数据标注；

2.根据权利要求1所述的学生课堂异常行为的识别方法，其特征在于：所述利用监控视频构建学生课堂异常行为图像数据集，具体为将监控视频通过视频剪辑软件进行明显异常行为片段裁剪，并通过对视频进行每秒25帧的逐帧裁剪，得到学生课堂异常行为图像数据库。

3.根据权利要求1所述的学生课堂异常行为的识别方法，其特征在于：所述将学生课堂异常行为图像数据集中的图像利用图像标注工具进行目标真实框标注，具体为：将学生课堂异常行为图像数据集中的图像利用Labelimg工具进行目标真实框标注，生成相应的XML文件，对生成的XML文件转化为YOLOV5可以训练的TXT文件，并将数据集按8：1：1的比例划分训练集、验证集、测试集。

4.根据权利要求1所述的学生课堂异常行为的识别方法，其特征在于：所述向改进的YOLOV5网络中输入整理好的学生课堂异常行为图像数据集，获得目标识别模块，具体为：

S4.1、输入端：整理好的数据集输入到网络后，首先通过SAHI(切片辅助超推理)的方式对图像进行切片处理，然后在学生课堂异常行为数据库中随机抽取图片进行Mosaic数据增强；Mosaic数据增强是通过随机缩放、随机裁剪、随机排布的方式对不同图像进行拼接，拼接成640*640的图像后输入改进的YOLOV5网络中；

5.一种学生课堂异常行为识别系统，其特征在于：包括：

构建单元，构建学生课堂异常行为的图像数据集；

图像处理单元，将学生课堂异常行为的图像数据集中的图像利用图像标注工具进行目标物体真实框标注；

获得单元，向改进的YOLOV5网络中输入学生课堂异常行为的图像数据集，获得目标识别模块；

识别单元，利用目标识别模块对待检测的学生课堂通过监控获得的学生行为图像进行识别以判断学生是否存在异常行为；

识别系统单元，对识别结果进行存储及展示。