CN110633610A

CN110633610A - 一种基于yolo的学员状态检测算法

Info

Publication number: CN110633610A
Application number: CN201910413104.8A
Authority: CN
Inventors: 黄进; 杨旭; 朱明仓; 李剑波; 王敏; 李啸天; 刘怡
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2019-12-31
Anticipated expiration: 2039-05-17
Also published as: CN110633610B

Abstract

本发明公开了一种基于YOLO的学员状态检测算法，包括以下步骤：S1：YOLO的改进；S2：在原来的DBL组件后加入瓶颈注意力模型BAM，然后经过2个DBL组件，再加入卷积注意力模型CBAM；S3：修改后的网络进行训练，本发明涉及基于YOLO的目标检测技术。本发明在YOLO网络的基础上，加入了瓶颈注意力模型(BAM)和卷积注意力模型(CBAM)，在保证了较高检测速率的同时，提高了YOLO网络的精度。同时，我们将其应用在教学课堂中，实现对学生听课状态的检测，便于教学者对课堂情况的了解和管理加入了注意力机制的YOLO网络，经过在VOC 2012数据集上的测试，速度可以达到在自己的学员数据集上，准确率相对原版网络，准确率有所提升。

Description

一种基于YOLO的学员状态检测算法

技术领域

本发明属于计算机视觉领域中的目标检测技术方向，具体涉及一种基于基于YOLO的学员状态检测算法。

背景技术

目标检测，是图像处理领域的一个重要分支，即在一幅图像中框出感兴趣目标的范围和所属类别。现阶段目标检测分为“two-stage”和“one-stage”两个流派，前者是通过先候选区域定位，后分类的思路，以RCNN系列为代表，后者是直接进行候选框回归和分类，以YOLO、SSD等为代表。YOLO是其中检测速率最快的一种，但是检测精度不够。

在学生状态的检测最接近的技术中，论文《基于Faster R-CNN的学生课堂行为检测算法研究》，采用Ross B.Girshick提出的Faster R-CNN算法，将学生课堂行为分为三类即学习、睡觉、玩(玩手机、聊天等其他)，在教室布置摄像头采集数据，标注信息，并送入Faster R-CNN网络进行训练，最终实现检测。

缺点可以是成本高，效率底，耗时间等类似问题，由于Faster R-CNN网络本身的限制，检测速率很低，加上学生课堂行为数据集本身的特点(监控视频图像区别于一般的视频图像，其不能获取目标的正面信息，存在一定角度差)，因此虽然原论文可以实现对课堂行为的检测，但在实时性和高效性上有所欠缺，若是将其应用在实际场景中，就会存在一些问题。

发明内容

本发明的目的在于提供一种基于YOLO的学员状态检测算法，针对Faster R-CNN的检测速率问题，因此我们的方案是采用了YOLO网络，由于YOLO的固有结构，使得它的检测速率很快，是RCNN的1000倍，Faster RCNN的100倍，因此我们的重点在于改进YOLO的检测精度，使得YOLO速度与精度共存；

在YOLO网络的基础上，加入了瓶颈注意力模型(BAM)和卷积注意力模型(CBAM)，在保证了较高检测速率的同时，提高了YOLO网络的精度。同时，我们将其应用在教学课堂中，实现对学生听课状态的检测，便于教学者对课堂情况的了解和管理加入了注意力机制的YOLO网络，经过在VOC 2012数据集上的测试，速度可以达到在自己的学员数据集上，准确率相对原版网络，准确率有所提升，以解决上述背景技术中提出现有技术中的问题。

为实现上述目的，本发明采用了如下技术方案：一种基于YOLO的学员状态检测算法，包括以下步骤：

S1：YOLO的改进，修改原网络的残差单元，原结构中的残差单纯，由zero-padding层(零填充)、DBL组件(卷积+BN层+LeakyRelu)和n个残差结构res unit(两个DBL组件+add)构成；

S2：在原来的DBL组件后加入瓶颈注意力模型BAM，然后经过2个DBL组件，再加入卷积注意力模型CBAM；

S3：修改后的网络进行训练，具体步骤如下：

a：获取课堂监控视频，间隔或随机抽取部分帧画面，使用标注工具标注每张图中的目标信息，制成数据集；

b：将数据集送入修改后的YOLO网络进行训练；

c：训练完成后得到针对该数据集类型的模型文件，使用该模型可以检测相应类别的视频和图像。

优选的，所述YOLO算法采用CNN对目标进行端到端的检测，输入任意大小3通道RGB图片,图像缩放至416*416作为网络的输入。

优选的，所述CNN网络图片分为S*S个网格,每个单元格负责检测中心点落在该网格内的目标,输出3层,分别为13*13,26*26,52*52的特征图,每层最终预测值为S*S*3*(4+1+B)大小的张量,其中3指每层anchorbox数量,4为边框大小(x,y,w,h),1为置信度,B为类别数。

优选的，所述预测值通过非极大值抑制NMS筛选出boxes,生成最终检测数据框,包括输出框class_boxes和置信度class_box_scores,类别信息classes。

优选的，所述YOLO的骨干框架是darknet53，由卷积和残差单元组成。

本发明提出的一种基于YOLO的学员状态检测算法，与现有技术相比，具有以下优点：

1、本发明涉及基于YOLO的目标检测技术。YOLO是一种端对端的目标框架，YOLO v3是它的第三个版本，相对其他目标检测框架，如Faster RCNN、SSD等，YOLO v3的检测速度极快，能够达到22ms、30FPS。但在追求高速率的同时，YOLO v3的精度有所下降。而本发明在YOLO网络的基础上，加入了瓶颈注意力模型(BAM)和卷积注意力模型(CBAM)，在保证了较高检测速率的同时，提高了YOLO网络的精度。同时，我们将其应用在教学课堂中，实现对学生听课状态的检测，便于教学者对课堂情况的了解和管理加入了注意力机制的YOLO网络，经过在VOC 2012数据集上的测试，速度可以达到在自己的学员数据集上，准确率相对原版网络，准确率有所提升。

附图说明

图1为本发明一种基于YOLO的基于YOLO的学员状态检测算法的瓶颈注意力模型BAM图；

图2为本发明一种基于YOLO的学员状态检测算法的卷积注意力模型CBAM图；

图3为本发明一种基于YOLO的学员状态检测算法的加入注意力模型后的YOLO结构图；

图4为本发明一种基于YOLO的学员状态检测算法的卷积和残差单元组和数据图；

图5为本发明一种基于YOLO的学员状态检测算法的改进后的残差单元框架图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-5，本发明提供了一种基于YOLO的学员状态检测算法，包括以下步骤：

S3：修改后的网络进行训练，具体步骤如下：

b：将数据集送入修改后的YOLO网络进行训练；

YOLO网络结构由24个卷积层与2个全连接层构成，网络入口为448x448(v2为416x416)，图片进入网络先经过resize，网络的输出结果为一个张量，维度为：\[S*S*(B*5+C)\]其中，S为划分网格数，B为每个网格负责目标个数，C为类别个数。该表达式含义为：

(1)每个小格会对应B个边界框，边界框的宽高范围为全图，表示以该小格为中心寻找物体的边界框位置。

(2)每个边界框对应一个分值，代表该处是否有物体及定位准确度：\[P(object)*IoU_{pred}^{truth}\]。

(3)每个小格会对应C个概率值，找出最大概率对应的类别\(P(Class|object)\)，并认为小格中包含该物体或者该物体的一部分。

具体的，所述YOLO算法采用CNN对目标进行端到端的检测，输入任意大小3通道RGB图片,图像缩放至416*416作为网络的输入。

具体的，所述CNN网络图片分为S*S个网格,每个单元格负责检测中心点落在该网格内的目标,输出3层,分别为13*13,26*26,52*52的特征图,每层最终预测值为S*S*3*(4+1+B)大小的张量,其中3指每层anchorbox数量,4为边框大小(x,y,w,h),1为置信度,B为类别数。

具体的，所述预测值通过非极大值抑制NMS筛选出boxes,生成最终检测数据框,包括输出框class_boxes和置信度class_box_scores,类别信息classes。

具体的，所述YOLO的骨干框架是darknet53，由卷积和残差单元组成。

针对残差单元进行了修改，加入了注意力机制。由于CBAM和BAM是一个轻量级的通用模块，它可以无缝地集成到任何CNN架构中，开销可以忽略不计，并且可以与基本CNN一起进行训练。因此注意力模型的加入不会使得YOLO的速率受到太大影响。

综上所述：本发明涉及基于YOLO的目标检测技术。YOLO是一种端对端的目标框架，YOLO v3是它的第三个版本，相对其他目标检测框架，如Faster RCNN、SSD等，YOLO v3的检测速度极快，能够达到22ms、30FPS。但在追求高速率的同时，YOLO v3的精度有所下降。而本发明在YOLO网络的基础上，加入了瓶颈注意力模型(BAM)和卷积注意力模型(CBAM)，在保证了较高检测速率的同时，提高了YOLO网络的精度。同时，我们将其应用在教学课堂中，实现对学生听课状态的检测，便于教学者对课堂情况的了解和管理加入了注意力机制的YOLO网络，经过在VOC 2012数据集上的测试，速度可以达到在自己的学员数据集上，准确率相对原版网络，准确率有所提升。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于YOLO的学员状态检测算法，其特征在于：包括以下步骤：

S3：修改后的网络进行训练，具体步骤如下：

b：将数据集送入修改后的YOLO网络进行训练；

2.根据权利要求1所述的一种基于YOLO的学员状态检测算法，其特征在于：所述YOLO算法采用CNN对目标进行端到端的检测，输入任意大小3通道RGB图片,图像缩放至416*416作为网络的输入。

3.根据权利要求2所述的一种基于YOLO的学员状态检测算法，其特征在于：所述CNN网络图片分为S*S个网格,每个单元格负责检测中心点落在该网格内的目标,输出3层,分别为13*13,26*26,52*52的特征图,每层最终预测值为S*S*3*(4+1+B)大小的张量,其中3指每层anchorbox数量,4为边框大小(x,y,w,h),1为置信度,B为类别数。

4.根据权利要求3所述的一种基于YOLO的学员状态检测算法，其特征在于：所述预测值通过非极大值抑制NMS筛选出boxes,生成最终检测数据框,包括输出框class_boxes和置信度class_box_scores,类别信息classes。

5.根据权利要求1所述的一种基于YOLO的学员状态检测算法，其特征在于：所述YOLO的骨干框架是darknet53，由卷积和残差单元组成，并在残差单元后加入注意力模型。