CN114241422A

CN114241422A - 一种基于ESRGAN和改进YOLOv5s的学生课堂行为检测方法

Info

Publication number: CN114241422A
Application number: CN202111592024.7A
Authority: CN
Inventors: 李丽娜; 刘洺含; 李念峰; 李玉鹏
Original assignee: Changchun University
Current assignee: Changchun University
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2022-03-25

Abstract

本发明公开了一种基于ESRGAN和改进YOLOv5s的学生课堂行为检测方法，包括：采集多个学生课堂监控图像，并且在所述监控图像上标注学生的位置和行为，得到初始样本集；采用ESRGAN模型对所述初始样本集中的图像进行处理，得到训练样本集；构建改进的YOLOv5s模型，其包括Backbone网络、Neck网络和Head网络；其中，所述Backbone网络包括卷积注意力模块；所述Neck网络包括微小物体检测模块；采用所述训练样本集对改进的YOLOv5s模型进行训练，得到学生课堂行为检测模型；采集学生课堂实时监控图像，并通过ESRGAN模型对所述课堂实时监控图像进行处理；采用所述学生课堂行为检测模型对处理后的课堂实时监控图像进行目标检测，识别出课堂实时监控图像中的学生行为。

Description

一种基于ESRGAN和改进YOLOv5s的学生课堂行为检测方法

技术领域

本发明属于学生课堂行为检测技术领域，特别涉及一种基于ESRGAN和改进YOLOv5s的学生课堂行为检测方法。

背景技术

随着智慧校园和人工智能技术的快速发展，学生课堂行为智能化识别变得越来越有优势。通过课堂上的监控设备，实时采集教学视频并进行存储，利用智能方法识别和分析学生的课堂行为，及时反馈给教师，便于追踪和评估学生学习状态，达到提高教学质量与监测学生身心健康的目的。

目前，许多研究人员已将深度学习技术应用于学生课堂行为检测。与传统方法和机器学习方法不同，深度学习基于大数据，自动提取特征，具有更强的鲁棒性。但是，由于学生人数较多，位置密集，学生的课堂行为复杂多变，视频数据存在后排学生目标小且分辨率较低的问题，使得深度学习方法在检测后排小目标和多目标时，效果不佳。在图像采集时发现将近50％的目标是仅占图像不到0.5％的小目标。此外，真实课堂场景复杂，如光变、物体遮挡、学生重叠等。上述因素增加了目标检测的难度，给学生课堂行为识别带来了极大的挑战。

发明内容

本发明的目的是提供了一种基于ESRGAN和改进YOLOv5s的学生课堂行为检测方法，能够提高学生课堂行为识别的准确性。

本发明提供的技术方案为：

一种基于ESRGAN和改进YOLOv5s的学生课堂行为检测方法，包括：

采集多个学生课堂监控图像，并且在所述监控图像上标注学生的位置和行为，得到初始样本集；

采用ESRGAN模型对所述初始样本集中的图像进行处理，得到训练样本集；

构建改进的YOLOv5s模型，其包括Backbone网络、Neck网络和Head网络；

其中，所述Backbone网络包括卷积注意力模块；所述Neck网络包括微小物体检测模块；

采用所述训练样本集对改进的YOLOv5s模型进行训练，得到学生课堂行为检测模型；

采集学生课堂实时监控图像，并通过ESRGAN模型对所述课堂实时监控图像进行处理；采用所述学生课堂行为检测模型对处理后的课堂实时监控图像进行目标检测，识别出课堂实时监控图像中的学生行为。

优选的是，所述Backbone网络还包括Focus模块、多个第一BottleneckCSP模块和SPP空间金字塔池化模块；

其中，所述卷积注意力模块设置在所述Focus模块和所述第一BottleneckCSP模块之间。

优选的是，所述微小物体检测模块包括FPN结构和PAN结构；

其中，所述FPN结构包括依次连接的第二BottleneckCSP模块、第一卷积层和第一Concat模块；所述PAN结构依次连接第三BottleneckCSP模块和第二卷积层和第二Concat模块。

优选的是，所述第一卷积层的卷积核尺寸为1×1，所述第二卷积层的卷积核尺寸为3×3。

优选的是，所述卷积注意力模块包括：通道注意力模块和空间注意力模块。

优选的是，所述Head网络中输出四种尺寸的检测特征图，四种所述检测特征图的尺寸分别为：160×160、80×80、40×40和20×20。

优选的是，采用所述学生课堂行为检测模型对处理后的课堂实时监控图像进行目标检测，包括：

在所述Backbone网络中：

Focus模块将输入图像分成多个切片后，通过卷积操作将所述多个切片Concat操作深度连接起来，通过卷积层输出第一特征图；

所述第一特征图依次经所述通道注意力模块和所述空间注意力模块处理后得到第二特征图；

所述第二特征图依次经过所述多个第一BottleneckCSP模块后，分别得到第三特征图、第四特征图和第五特征图；

所述SPP空间金字塔池化对所述第五特征图进行张量拼接和最大池化操作后，经卷层操作输出第六特征图。

优选的是，所述的基于ESRGAN和改进YOLOv5s的学生课堂行为检测方法，还包括：

在所述Neck网络中：

所述第六特征图经BottleneckCSP模块和卷积处理后，与所述第五特征图进行Concat融合操作得到第七特征图；

所述第七特征图经BottleneckCSP模块和卷积处理后，与所述第四特征图进行Concat融合操作得到第八特征图；

所述第八特征图经所述第二BottleneckCSP模块和所述第一卷积层处理后，与所述第三特征图经所述第一Concat模块融合操作后，得到第九特征图；

所述第九特征图经所述第三BottleneckCSP模块处理后，得到第十特征图。

在所述Head网络中，所述第十特征图经过卷积操作得到尺寸为160×160的检测特征图。

优选的是，所述输入图向的尺寸为640×640。

本发明的有益效果是：

本发明提供的基于ESRGAN和改进YOLOv5s的学生课堂行为检测方法，充分利用YOLOv5s的速度快、轻量级和多目标检测的优势，通过集成CBAM模块，分配信道特征的权重和特征图空间特征的权重，在抑制无效特征权重的同时增加有用特征的权重，更关注包含重要信息的目标区域，提高目标检测的总体精度；使用小规模特征融合层作为微小目标检测模块，可以减少下采样过程中小层次特征的信息丢失，从而可以在网络中充分提取微小目标的特征，提高教室后排小目标学生行为识别的准确性。

附图说明

图1为本发明所述的基于ESRGAN和改进YOLOv5s的学生课堂行为检测方法的流程图。

图2为本发明所述的改进后的YOLOv5s模型图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

如图1所示，本发明提供了一种基于ESRGAN和改进YOLOv5s的学生课堂行为检测方法，用于检测学生在课堂上的学习状态。

第一阶段为建立高校真实课堂场景下学生课堂行为数据集：采集获取高校真实课堂环境的监控录像视频，进行有用帧的截取，将视频流数据转化为若干帧图像。根据图像中每个学生的课堂行为，使用数据标注工具对图像进行标注，包括使用矩形框框定每个学生的位置和标明学生的行为名称，并对数据集进行训练集、验证集和测试集的划分。

为获得满足建立模型需要的实验数据集，本实施例中通过采集某大学真实课堂监控视频构建实验数据集，视频分辨率为1920×1080，每个视频的时长为120分钟，对帧进行统一采样，获得480×270像素的图像，数据格式为PNG。

将图像通过数据标注工具LabelImg进行标注，每个学生在图像中的位置和行为都用边界框准确标注。标签文件以txt为后缀，文件名与图片名一致。数据集中包含学生在课堂上经常采取的10个动作：玩手机、手捂脸坐着、坐着向右转、坐着向左转、低头、睡觉、喝水、站立、打哈欠、上课以及未知的行为。

第二阶段为模型设计与训练阶段，在所述第一阶段建立的数据集上，使用ESRGAN算法(增强型超分辨率生成对抗网络算法)生成高分辨率图像并训练基于改进YOLOv5s的目标检测模型。

为了提高模型的识别精度，本发明采用ESRGAN从数据集的原始图像一对一生成高分辨率图像。ESRGAN在架构和损失函数方面优化了超分辨率生成对抗网络(SRGAN)。与SRGAN相比，残差块被Residual-in-Residual Dense Block(RRDB)替换，它结合了多层残差网络和密集连接来优化图像的纹理。Sense block由5个Conv组成，3个Sense block模块组成一个RRDB模块。在判别网络方面，相对平均判别器(RaD)取代了原来的判别器。数学表达式如下：

D(x)＝σ(C(x)) (1)

其中，σ代表Sigmoid函数，C(x)代表未转换判别网络的输出。x_real代表真实图像，x_fake代表生成的图像，

代表所有生成数据的平均值。相对判别网络的损失函数正式定义为：

将第一阶段建立的课堂行为数据集作为ESRGAN模型的输入，通过生成对抗网络能够实现原始图像分辨率放大4倍，并可以提升图像中的远距离学生小目标的纹理细节，有助于后续学生行为的检测识别。

本发明采用的ESRGAN算法与超分辨率生成对抗网络(SRGAN)相比，ESRGAN算法在架构和损失函数方面优化了超分辨率生成对抗网络，并引入了Residual-in-Residu DenseBlock(RRDB)模块。ESRGAN算法生成的高分辨率图像可以学习到更精细的图像特征，极大地提升了阶段一所述数据集中的小目标分辨率，有利于小目标的特征表达，从而提升了小目标识别精确率。

如图2所示，构建改进后的YOLOv5s模型结构分为3个部分：Backbone网络、Neck网络和Head网络。输入图像在Backbone网络中聚合不同的细粒度图像形成图像特征。Backbone网络包括Focus结构和CSPNet(Cross Stage Partial Networks)。改进后的Head网络由四个模块组成，分别检测尺寸为160×160、80×80、40×40和20×20的物体，输出预测的bounding box和类别，并在原图中标记目标，输出学生行为检测结果。

本发明在YOLOv5s架构的基础上，分别对Backbone网络、Neck网络和Head网络结构进行改进：在Backbone结构的Focus操作后加入卷积注意力模块；在Neck结构的第二次Concat操作后增加了一个由FPN和PAN组成的微小物体检测模块，FPN结构依次包含一个BottleneckCSP模块，一个卷积层(卷积核大小为1×1)和一次Concat操作；PAN结构依次包括一个BottleneckCSP模块和一个卷积层(卷积核大小为3×3)和一次Concat操作。Head网络中，增加一个大小为160×160的检测特征图。

采用改进后的YOLOv5s对图像进行目标检测的具体方法如下：

对于输入大小为640×640的原始图像：首先，Focus切片操作将输入的原始640×640×3通道的图像分成4个切片，每个切片的大小为3×320×320。其次，利用32个卷积核的卷积操作将4个部分Concat操作深度连接起来，再通过32个卷积组成的卷积层，输出大小为32×320×320的特征图(第一特征图)。

在本发明中，在Backbone结构的Focus操作后增加空间注意力和通道注意力组成的卷积注意力模块Conv_CBAM加强初始特征。通道注意力模块(Channel AttentionModule)将输入的特征图分别经过全局最大池化和全局平均池化聚合特征映射的空间信息，送到一个共享网络，压缩输入特征图的空间维数，逐元素求和合并产生通道注意力图。

空间注意力模块(Spatial Attention Module)通道注意力模块输出的特征图作为本模块的输入特征图。首先做一个基于通道的全局最大池化和全局平均池化，再经过卷积核为7×7的卷积层，最后将其和该模块的输入特征相乘，得到最终生成的特征图(第二特征图)。

卷积注意力模块后得到的特征图依次通过3个BottleneckCSP模块，BottleneckCSP模块主要由一个残差单元构成，它连接卷积核大小为1×1的卷积层和卷积核大小为3×3的卷积层。依次通过三个BottleneckCSP模块后，特征图尺度依次变为64×160×160(第三特征图)，128×80×80(第四特征图)，256×40×40(第五特征图)。

SPP空间金字塔池化结构使用四个不同大小的卷积核对256×40×40特征图(第五特征图)进行张量拼接和最大池化操作，输出1024×20×20的特征图，最后通过卷积数目为512，卷积核大小为1×1的卷积层，输出512×20×20的特征图(第六特征图)。

SPP模块后得到的特征图(第六特征图)经过一个BottleneckCSP模块后尺寸为256×20×20。Neck网络包含FPN和PANet模块，FPN特征金字塔是一种自顶向下的结构，如图2所示，对256×20×20较小尺寸的高层特征图进行卷积核为1×1的卷积操作，然后将得到的256×40×40的特征图与Backbone中第三层CSP模块的256×40×40输出特征图(第五特征图)进行Concat融合操作得到512×40×40的特征图(第七特征图)；继续将512×40×40特征图通过一个BottleneckCSP模块和卷积核为1×1的卷积层后与Backbone中第二层CSP模块输出的128×80×80特征图(第四特征图)进行Concat操作融合得到256×80×80的特征图(第八特征图)。依次按此方式将高层特征信息与不同层CSP模块的输出特征从上到下聚合，从而充分整合不同层的图像特征，将其传递到自底向上的特征金字塔PANnet结构中，PANnet结构包含两个PAN结构。PAN结构是对两个相同大小的特征图进行Concat操作，可以在一定程度上提高算法的目标定位能力。

在Neck结构的第二次Concat操作后增加一个由FPN和PAN组成的微小物体检测模块，如图2所示。其中FPN结构包括，在Neck网络的第二次concat操作中提取出大小为80×80的特征图后，增加一个BottleneckCSP模块和一个卷积层(卷积核大小为1×1)，使特征图的尺寸扩大到160×160，将其与Backbone中第一层CSP模块输出的特征图进行Concat操作融合得到大小为160×160的特征图(第九特征图)，从而在Head网络中增加一个尺度为160×160的检测特征图。PAN结构包括，得到160×160特征图后增加一个BottleneckCSP模块和一个卷积层(卷积核大小为3×3)按自底向上结构，将160×160特征图与微小物体检测模块FPN结构中的卷积操作(卷积核为1×1)的输出特征图进行Concat操作融合。

最后在Head网络中得到四种尺寸的检测特征图：160×160、80×80、40×40和20×20。通过集成微小物体检测模块，实现了更复杂的网络结构，增加了网络的深度。因此，本发明中提供的改进后的YOLOv5s可以比原始的YOLOv5s学习更精细的图像特征。当图像的输入尺寸为640×640时，模型可以检测到最小为4×4像素的目标。

使用改进后的YOLOv5s模型在本发明所建立的学生行为数据集上训练，本实施例中的网络参数如表1所示。

表1训练网络超参数表

在本实例中，改进的YOLOv5s网络采用随机梯度下降(SGD)优化算法，初始学习率和动量参数分别设置为0.01和0.937。模型训练的迭代次数总共为300次。

本实例中训练集和验证集的框损失、目标损失和分类损失的收敛曲线，在迭代过程中都呈现出急剧下降的趋势，直到最终收敛。200次迭代后损失值下降到相对较小的值，当迭代接近300次时，损失值达到一个相对稳定的水平，甚至接近于零。

另一方面，随着迭代次数的增加，精确度、召回率和平均精度(mAP)的性能曲线呈上升趋势，当迭代次数达到200次时趋于稳定，300次迭代后超过95％，最后接近100％。这说明，ET-YOLOv5s模型的整体训练效果是理想的。模型训练完成后，保存得到的识别模型的权重文件，使用测试集对模型的性能进行评估。

将本发明提供的基于ESRGAN和改进YOLOv5s的学生课堂行为检测方法与其他检测模型进行对比实验，以验证本发明所提供的学生行为识别方法的有效性。

检测模型分别是：YOLOv4、YOLOv5s、改进的YOLOv5s+ESRGAN(本发明提供的检测方法)。对比实验在我们建立的测试数据集上进行测试，以平均精度(mAP)和精度(P)作为模型性能的评估指标。此外，采用FPS(每秒帧数)评估模型的检测速度，FPS表示模型每秒处理的图像数量。所有模型的硬件环境和训练参数都相同。实验结果如表2所示。

表2不同组合算法的对比实验结果

实验结果表明，与其他同类算法相比，本发明提供的检测方法对小且低分辨率的目标具有更高的检测精度和更好的其他性能。在本发明中，CBAM模块和微小物体检测模块增加了YOLOv5s网络的深度，导致模型参数增多，计算量增加。因此，相对于原始的YOLOv5s改进后的YOLOv5s的检测速度略有下降，FPS值从110变为94，但检测速度仍满足实际应用场景的检测要求。

第三阶段为使用第二阶段训练后得到的模型，检测课堂上所有学生的行为并给出具体类别。识别出行为类别包括10个动作：玩手机、手捂脸坐着、坐着向右转、坐着向左转、低头、睡觉、喝水、站立、打哈欠、上课以及未知的行为。

以相同的图像作为输入图像，将本发明提供的基于ESRGAN和改进YOLOv5s的学生课堂行为检测方法与原始YOLOv5s方法得到的识别结果进行对比。原始YOLOv5s方法将低头误检为正常行为，并漏检了低头和托腮的检测框。本发明提供的方法检测小目标比原算法更准确，所有小目标都被检测到。当教室较暗且有更多的背景环境干扰时，原始YOLOv5s的检测框有漏检现象，本发明提出方法仍然可以准确检测到被遮挡的目标，可见其具有更强的鲁棒性。综合而言，本发明提出的基于ESRGAN和改进YOLOv5s的学生课堂行为检测方法可以检测到更多的远景学生小目标，且算法更具鲁棒性。

本发明在Backbone结构中的Focus层后加入卷积注意力模块(CBAM)，CBAM模块由中间特征图沿着两个独立的维度(通道和空间)依次推断注意力图，然后，将注意力图与输入特征图相乘以进行自适应特征优化。在原始Neck结构的三个分支的顶部增加了一个由FPN和PAN组成的微小物体检测模块，在Head网络中输出一个大小为160×160的特征图，即加入了比YOLOv5s原有的三个特征检测尺度更小的微小目标检测模块。在Neck网络的第二次concat操作中提取出大小为80×80的特征图后，增加了一个BottleneckCSP模块和一个卷积层(卷积核大小为1×1)。然后，进行上采样操作，使特征图的尺寸扩大到160×160，同时上采样得到的特征图和从Backbone中提取的第一层特征图通过连接操作融合得到大小为160×160的特征图，最后在Head网络中使用四种尺寸的特征图：160×160、80×80、40×40和20×20。改进后的YOLOv5s总共使用了四种尺寸的检测层实现对微小学生目标的准确识别。

本发明充分利用YOLOv5s的速度快、轻量级和多目标检测的优势，通过集成CBAM模块，分配信道特征的权重和特征图空间特征的权重，在抑制无效特征权重的同时增加有用特征的权重，更关注包含重要信息的目标区域，提高目标检测的总体精度；使用小规模特征融合层作为微小目标检测模块，可以减少下采样过程中小层次特征的信息丢失，从而可以在网络中充分提取微小目标的特征，提高教室后排小目标学生行为识别的准确性。当检测模型输入图像尺寸为640×640时，模型可以检测最小为4×4像素的目标。集成CBAM模块和微小目标检测模块，可以从网络中充分提取微小目标的有用特征，提高多个学生行为识别的准确性。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种基于ESRGAN和改进YOLOv5s的学生课堂行为检测方法，其特征在于，包括：

2.根据权利要求1所述的基于ESRGAN和改进YOLOv5s的学生课堂行为检测方法，其特征在于，所述Backbone网络还包括Focus模块、多个第一BottleneckCSP模块和SPP空间金字塔池化模块；

3.根据权利要求2所述的基于ESRGAN和改进YOLOv5s的学生课堂行为检测方法，其特征在于，所述微小物体检测模块包括FPN结构和PAN结构；

4.根据权利要求3所述的基于ESRGAN和改进YOLOv5s的学生课堂行为检测方法，其特征在于，所述第一卷积层的卷积核尺寸为1×1，所述第二卷积层的卷积核尺寸为3×3。

5.根据权利要求3或4所述的基于ESRGAN和改进YOLOv5s的学生课堂行为检测方法，其特征在于，所述卷积注意力模块包括：通道注意力模块和空间注意力模块。

6.根据权利要求5所述的基于ESRGAN和改进YOLOv5s的学生课堂行为检测方法，其特征在于，所述Head网络中输出四种尺寸的检测特征图，四种所述检测特征图的尺寸分别为：160×160、80×80、40×40和20×20。

7.根据权利要求6所述的基于ESRGAN和改进YOLOv5s的学生课堂行为检测方法，其特征在于，采用所述学生课堂行为检测模型对处理后的课堂实时监控图像进行目标检测，包括：

在所述Backbone网络中：

8.根据权利要求7所述的基于ESRGAN和改进YOLOv5s的学生课堂行为检测方法，其特征在于，还包括：

在所述Neck网络中：

9.根据权利要求8所述的基于ESRGAN和改进YOLOv5s的学生课堂行为检测方法，其特征在于，还包括：

10.根据权利要求9所述的基于ESRGAN和改进YOLOv5s的学生课堂行为检测方法，其特征在于，所述输入图像的尺寸为640×640。