CN116778581A

CN116778581A - 一种基于改进YOLOv7模型的考场异常行为检测方法

Info

Publication number: CN116778581A
Application number: CN202310725602.2A
Authority: CN
Inventors: 黄进; 王逢港; 包锐; 鲁永兵; 方铮; 李剑波; 冯义从
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2023-06-19
Filing date: 2023-06-19
Publication date: 2023-09-19

Abstract

本发明公开了一种基于改进YOLOv7模型的考场异常行为检测方法，步骤S1、将已有的考场监控视频进行分帧处理，获取考场图片数据；S2、将考场图片数据依次进行预处理，标注，获得考场异常行为数据集；S3、构建改进的YOLOv7网络模型，将激活函数SiLU替换为FReLU；使用Gn‑ASPPCSPC模块替换ASPPCSPC模块，使用Gn‑MP模块替换MP模块；使用SIoU损失函数；S4、利用考场异常行为数据集对改进的YOLOv7模型进行训练，训练完成后获得最优性能模型；S5、通过最优性能模型对新获取的考场图片进行识别，检测出考场中出现的异常行为。本发明的检测方法解决了原始YOLOv7网络模型缺乏捕获特征空间相关性的能力，对复杂背景下的目标定位不准确等问题。

Description

一种基于改进YOLOv7模型的考场异常行为检测方法

技术领域

本发明涉及计算机视觉技术领域，尤其是一种基于改进YOLOv7模型的考场异常行为检测方法。

背景技术

随着人工智能时代的到来，机器视觉技术、深度学习技术被应用在各个领域。当前，考场中学生的异常行为检测除了需要传统的监考老师巡视这种方式解决外，更需要通过实用有效的技术手段来全面地判断考场中各考生的异常行为。然而，目前考场中的视频监控系统大多处于传统模式，其主要功能和应用还是停留在摄像和存储上，只能对考试现场进行简单的视频记录并储存，无法有效地检测出考场中出现的异常行为，只能通过人为对监控视频观察判别。在需要人工对考场视频录像进行回看并查找判断考场异常行为的同时，视频录像中又存在着大量无关紧要的冗余存储记录，这造成了对考场中学生异常行为判断的效率低下。

Alexey Bochkovskiy等人提出了YOLOv7算法，YOLOv7在YOLOv5基础上继续优化，在检测准确度和速度方面较YOLOv5有明显的优势。YOLOv7算法由输入端(Input)、主干特征提取网络(Backbone)、颈部特征融合网络(Neck)、检测头(Head)四个主要模块组成。输入端(input)通过Mosaic数据增强、自适应计算锚框和自适应图片缩放等预处理操作，将图像裁剪成统一尺寸，使图像满足主干特征提取网络的输入要求。主干特征提取网络(Backbone)由CBS卷积模块、MP模块和高效聚合网络E-ELAN模块组成。颈部特征融合网络依旧沿用了YOLOv5的PAFPN结构，提取三个分别位于主干部分的中间层、中下层和底层的特征层，保证了不同尺度特征层的有效融合。在最后检测头网络(Head)，采用RepConv进行通道数的调整。RepConv借鉴了RepVGG的结构重参数化方法，在训练和推理阶段有不同的结构，在推理阶段将RepConv的结构进行简化，同时不损失精度。

YOLOv7原网络中使用的激活函数SiLU与ReLU相比ReLU增加了平滑性的特点，但与此同时引入了指数计算，增加了计算量，并且缺乏捕获特征空间相关性的能力，是空间不敏感的。同时YOLOv7网络在特征融合及下采样过程中用了大量的最大池化操作，会造成一些关键特征的丢失，导致网络对复杂背景下的目标定位不准确，而其边界框损失函数采用的是CIoU，其纵横比描述的是相对值，存在一定模糊。

发明内容

针对现有的YOLOv7网络用于考场异常行为检测中存在的计算量大、缺乏捕获特征空间相关性的能力、对复杂背景下的目标定位不准确等问题，本发明提供一种基于改进的YOLOv7模型的考场异常行为检测方法。

本发明提供的基于改进的YOLOv7模型的考场异常行为检测方法，步骤如下：

S1、将已有的考场监控视频进行视频分帧处理，获取考场图片数据；考场监控视频由视频监控装置采集得到。

S2、将所得考场图片数据依次进行预处理，标注，获得考场异常行为数据集。

具体步骤如下：

S21、预处理：对考场图片进行旋转、翻转、裁剪以及改变图片色彩饱和度等操作处理，最后使图片数量达到1800-2500张；

S22、标注：通过Label Img软件对预处理后的数据集进行标注，将考场中的学生状态标注分为九类，分别为：正常坐-答题状态、正常坐-非答题状态、站立、坐直向前看、大幅度左右张望、大幅度向后看、大幅度伸手、向上举手、趴着；

S23、转换格式：通过LabelImg软件标注后的数据集可生成json类型的标注文件，在正式将其投入网络进行训练前需要转换成满足YOLOv7网络训练需要的格式；按照8:2的比例对转换好格式的数据集进行训练集和测试集的划分。

S3、构建改进的YOLOv7网络模型：该模型由输入端(Input)、主干特征提取网络(Backbone)、特征融合网络(Neck)、检测头(Head)四个主要模块组成。

所述主干特征提取网络中将CBS卷积模块中的激活函数SiLU替换为FReLU，形成新的CBF卷积模块；激活函数FReLU的公式如下：

f(x_c,i,j)＝max(x_c,i,j,T(x_c,i,j))

式中，^T(x_c,i,j)为定义的漏斗式条件，x_c,i,j表示第c个通道上，以2D位置(i，j)为中心的窗口，表示此窗口在同一通道中共享的参数。

所述特征融合网络中使用Gn-ASPPCSPC模块替换ASPPCSPC模块，使用Gn-MP模块替换MP模块。

Gn-ASPPCSPC模块中沿用原模块的CSP残差结构，使用CBF模块替换CBS模块，使用空洞卷积代替最大池化，以不同采样率的空洞卷积并行采样，通过不同的的采样率构建不同感受野的卷积核，用来获取多尺度物体信息；最后将多个分支得到的结果融合到一起，引入递归门控卷积，对多尺度融合后的特征进行高阶空间交互。

Gn-MP模块具有两个分支结构，第一条分支先经过一个maxpool，再经过一个GBF模块；第二条分支先经过一个无参数注意力机制，然后经过一个1x1卷积的GBF模块，然后经过一个3x3卷积，步长为2的GBF模块；最后把第一个分支和第二分支的结果加在一起，得到下采样的结果；所述GBF模块由递归门控卷积、BN和激活函数FReLU组成。

所述检测头网络中使用SIoU损失函数作为边界框回归的定位损失函数，SIoU损失函数的公式如下：

式中，IoU代表IoU损失；△代表距离成本，距离成本是指预测框与真实框两框的中心点距离；Ω代表形状成本；θ代表形状损失的关注程度；γ代表被赋予时间优先的距离值；ω_w和ω_h的公式表示如下：

w为预测框的宽，w^gt为真实框的宽，h为预测框的高，h^gt为真实框的高。

S4、利用步骤S2获得的考场异常行为数据集对改进的YOLOv7网络模型进行训练，训练完成后获得最优性能模型。

S5、通过最优性能模型对新获取的考场图片进行识别，有效地检测出考场中出现的异常行为。

与现有技术相比，本发明的有益之处在于：

本发明的方法中使用视觉激活函数FReLU替换SiLU优化网络的视觉提取方式以捕获更多的空间视觉信息提高识别精度。在特征融合网络中使用改进的Gn-ASPPCSPC模块及Gn-MP模块，引入了空洞卷积在不做最大池化操作损失信息的同时加大了感受野，利用递归门控卷积实现关键特征的高阶空间交互，使用无参数注意力激机制凸显了关键信息，在减少关键特征损失的同时实现了多尺度特征的有效融合。使用SIoU损失函数替换原网络的CIoU损失函数，将角度成本纳入考虑，使用角度成本对距离重新进行描述，减少损失函数的总自由度。由于角度成本的增加，损失函数得到更充分表达的同时，减少了惩罚项为0出现的概率，使得损失函数收敛更加平稳，改善了回归精度，从而降低了预测误差。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1是本发明的基于改进YOLOv7模型的考场异常行为检测方法的流程图。

图2为本发明的检测方法的网络结构图。

图3为本发明的检测方法中网络模型中的CBF模块。

图4为本发明中颈部特征融合网络中的Gn-ASPPCSPC模块。

图5为本发明中使用到的递归门控卷积(gnconv)的运行流程图。

图6为SimAM原理图。

图7为本发明中颈部特征融合网络中的Gn-MP模块。

图8为本发明中检测头网络中所用到的SiOU损失函数的参数表示示意图。

图9为本发明方法实际应用中部分异常行为检测效果。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

如图1所示，本发明的基于改进YOLOv7模型的考场异常行为检测方法，包括依次进行的以下五个步骤：

S1、采用视频监控装置采集考场考试视频，将已有的考场监控视频进行视频分帧处理，获取考场图片数据。

将所得考场图片数据进行预处理、标注，获得考场异常行为数据集。包括对原始图片进行旋转、翻转、裁剪以及改变图片色彩饱和度等，最后使图片数量达到2000张左右。通过Label Img软件对预处理过的数据集进行标注，将考场中的学生状态标注分为九类，分别为：正常坐-答题状态、正常坐-非答题状态、站立、坐直向前看、大幅度左右张望、大幅度向后看、大幅度伸手、向上举手、趴着。通过LabelImg软件标注后的数据集可生成json类型的标注文件，在正式将其投入网络进行训练前需要转换成满足YOLOv7网络训练需要的格式。具体可通过解析json文件获取原始图像信息、多边形包围框标注信息、标注目标类别等信息，计算包围目标的最小矩形框坐标信息，生成与json标注文件同名但类型为txt的目标检测标签文件，后续再按照8:2的比例对转换好格式的数据集进行训练集和测试集的划分。

S3、构建YOLOv7网络，在构建过程中对YOLOv7网络进行改进，得到改进YOLOv7网络模型。

S4、利用步骤S2获得的考场异常行为数据集对改进的YOLOv7网络模型进行训练，训练完成后获得最优YOLOv7网络模型。

S5、利用最优YOLOv7网络模型对新获取的考场图片进行识别，有效地检测出考场中出现的异常行为。

由步骤S3得到的改进YOLOv7网络模型的结构如图2所示。其中，主干特征提取网络(BackBone)中采用了CBF卷积模块，CBF卷积模块结构如图3所示，由Conv、BN和激活函数FReLU组成。在只增加一点点的计算负担的情况下，将ReLU和PReLU扩展成2D激活函数。具体的做法是将max()函数内的条件部分(原先ReLU的x<0部分)换成了2D的漏斗条件，解决了激活函数中的空间不敏感问题，使规则(普通)的卷积也具备捕获复杂的视觉布局能力，使模型具备像素级建模的能力。利用视觉激活函数FReLU以捕获更多的空间视觉信息提高识别精度。

图4中的Gn-ASPPCSPC模块依旧沿用原模块的CSP残差结构，使用CBF模块替换CBS模块，利用视觉激活函数FReLU替换SiLU优化网络的视觉提取方式以捕获更多的空间视觉信息提高识别精度。原模块使用Maxpooling(最大池化)操作来增大感受野同时降低分辨率，但这种操作会导致一些细节信息的损失，为了减少这种损失，本发明的新模块使用了空洞卷积代替最大池化，以不同采样率的空洞卷积并行采样，通过不同的的采样率构建不同感受野的卷积核，用来获取多尺度物体信息。最后再将多个分支得到的结果concat到一起，引入递归门控卷积gnconv，对多尺度融合后的特征进行高阶空间交互。

图5所示的递归门控卷积是具有高效性、可伸缩性、平移不变性的卷积模块，使用门控卷积和递归设计的高效实现来实现任意阶空间交互。设输入特征X∈R^HW×C，输入特征X经过线性层运算输出特征图p₀与q₀，随后，p₀经过深度卷积进行运算处理，再与q₀进行点积运算，得到p₁，最后，p₁经线性层处理输出y。gnconv的输出可以表示为：

p₁＝f(q₀)·p₀∈R^HW×C

y＝φ(p₁)∈R^HW×C

其中，f代表深度卷积，·代表点积操作，循环进行门控卷积操作，可以实现特征间的高阶交互。

原始YOLOv7网络的MP模块的作用是进行下采样。但在下采样的过程中，特征图尺寸缩小，会造成一些关键特征丢失，导致网络对复杂背景下的目标定位不准确。针对这种关键特征丢失的情况，本发明方法在MP模块引入递归门控卷积(gnconv)去替换标准卷积，实现关键特征的高阶交互。与此同时，引入无参数注意力机制(SimAM)，相比于通道注意力机制和空间注意力机制，SimAM直接在网络层中推理出三维的注意力权重，在考虑空间和通道维度相关性的同时，不会增加多余的参数量。

SimAM原理如图6所示，SimAM在处理视觉相关任务时会对带有更多关键信息的神经元赋予更高的权重，通过对异物的相邻神经元产生空间抑制，减少复杂背景对目标识别的干扰，凸显目标的关键特征。综上改进后得到的Gn-MP模块在利用无参数注意力机制对目标关键特征的凸显作用的同时依靠递归门控卷积的设计对关键特征实现了高阶的空间交互，大大减少了下采样过程中关键特征的丢失。本发明得到的Gn-MP模块结构如图7所示。

本发明方法使用SIoU损失函数替换原网络CIoU，将角度成本纳入考虑，使用角度成本对距离重新进行描述，减少损失函数的总自由度，SIoU损失函数所用到的参数如图8所示。

本发明方法采用SIOU Loss作为边界框回归的定位损失函数，SIOU损失函数由角度损失、距离损失、形状损失、IOU损失组成，通过角度是否大于45°，判断需要使用β还是α最小化作为评判，角度成本的计算公式如下：

其中，

距离成本代表了预测框与真实框两框的中心点距离。SIoU对距离成本重新定义如下所示：

γ＝2-Λ

当α趋向于0时，距离成本的贡献大大降低。相反，当α越接近π/4，距离成本的贡献越大。随着角度的增大，γ被赋予时间优先的距离值。

形状成本的定义如下：

此处θ的值定义了形状损失的关注程度，本方法中设置为1，它将立即优化一个形状的长宽比，从而限制形状的自由移动。

综上，SIoU损失函数的最终定义如下所示：

由于角度成本的增加，损失函数得到更充分表达的同时，减少了惩罚项为0出现的概率，使得损失函数收敛更加平稳，改善了回归精度，从而降低了预测误差。

步骤S4中，利用上述获得的考场异常行为数据集对改进后的YOLOv7网络模型进行训练，训练完成后获得最优性能模型并保存为best.pt；本实施例设备采用NVIDIA V100，整个模型用PyTorch实现。初始学习率为0.01，动量大小为0.937，优化策略采用SGD函数，权重衰减设置为0.0005，batch size为32。

步骤S5中，通过所述最优性能模型best.pt对新获取考场异常行为数据进行识别，有效地检测出考场中出现的异常行为。

本发明通过对单阶段目标检测算法YOLOv7进行改进，引入了递归门控卷积，通过门控卷积和递归设计执行高阶空间交互，具有高度的灵活性和可定制性，它兼容各种卷积变体，将自注意力中的二阶交互扩展到任意阶且不会引入大量额外的计算，解决了CNN缺乏全局建模长距离建模的问题。使用视觉激活函数FReLU替换SiLU优化网络的视觉提取方式以捕获更多的空间视觉信息提高识别精度。在特征融合网络中使用改进的Gn-ASPPCSPC模块及Gn-MP模块，引入了空洞卷积在不做最大池化操作损失信息的同时加大了感受野，利用递归门控卷积实现关键特征的高阶空间交互，使用无参数注意力激机制凸显了关键信息，在减少单阶段目标检测网络特征处理过程造成的特征损失的同时实现了多尺度特征的有效融合。相较于原始YOLOv7，结合了递归门控卷积和改进的基础模块后的算法在VOC2007与VOC2012的整合数据集上各项评价指标对比mAP@0.5值提升了2.7％，mAP@0.5:0.95提升了2.5％，见表1。将改进后的算法应用于考场异常行为检测，部分检测效果如图9所示。

表1、实验评价指标对比

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于改进YOLOv7模型的考场异常行为检测方法，其特征在于，步骤如下：

S1、将已有的考场监控视频进行视频分帧处理，获取考场图片数据；

S2、将所得考场图片数据依次进行预处理，标注，获得考场异常行为数据集；

S3、构建改进的YOLOv7网络模型：

其中，主干特征提取网络中将CBS卷积模块中的激活函数SiLU替换为FReLU，形成新的CBF卷积模块；

特征融合网络中使用Gn-ASPPCSPC模块替换ASPPCSPC模块，使用Gn-MP模块替换MP模块；

检测头网络中使用SIoU损失函数作为边界框回归的定位损失函数；

S4、利用步骤S2获得的考场异常行为数据集对改进后的YOLOv7网络模型进行训练，训练完成后获得最优性能模型；

2.如权利要求1所述的基于改进YOLOv7模型的考场异常行为检测方法，其特征在于，步骤S3中，激活函数FReLU的公式如下：

f(x_c,i,j)＝max(x_c,i,j,T(x_c,i,j))

式中，T(x_c,i,j)为定义的漏斗式条件，x_c,i,j表示第c个通道上，以2D位置(i，j)为中心的窗口，表示此窗口在同一通道中共享的参数。

3.如权利要求1所述的基于改进YOLOv7模型的考场异常行为检测方法，其特征在于，步骤S3中，Gn-ASPPCSPC模块中沿用原模块的CSP残差结构，使用CBF模块替换CBS模块，使用空洞卷积代替最大池化，以不同采样率的空洞卷积并行采样，通过不同的的采样率构建不同感受野的卷积核，用来获取多尺度物体信息；最后将多个分支得到的结果融合到一起，引入递归门控卷积，对多尺度融合后的特征进行高阶空间交互。

4.如权利要求1所述的基于改进YOLOv7模型的考场异常行为检测方法，其特征在于，步骤S3中，Gn-MP模块具有两个分支结构，第一条分支先经过一个maxpool，再经过一个GBF模块；第二条分支先经过一个无参数注意力机制，然后经过一个1x1卷积的GBF模块，然后经过一个3x3卷积，步长为2的GBF模块；最后把第一个分支和第二分支的结果加在一起，得到下采样的结果；所述GBF模块由递归门控卷积、BN和激活函数FReLU组成。

5.如权利要求1所述的基于改进YOLOv7模型的考场异常行为检测方法，其特征在于，步骤S3中，SIoU损失函数的公式如下：

6.如权利要求1所述的基于改进YOLOv7模型的考场异常行为检测方法，其特征在于，步骤S2具体包括以下步骤：

S21、预处理：对考场图片进行旋转、翻转、裁剪以及改变图片色彩饱和度，最后使图片数量达到1800-2500张；