CN110633610A - 一种基于yolo的学员状态检测算法 - Google Patents
一种基于yolo的学员状态检测算法 Download PDFInfo
- Publication number
- CN110633610A CN110633610A CN201910413104.8A CN201910413104A CN110633610A CN 110633610 A CN110633610 A CN 110633610A CN 201910413104 A CN201910413104 A CN 201910413104A CN 110633610 A CN110633610 A CN 110633610A
- Authority
- CN
- China
- Prior art keywords
- yolo
- network
- detection algorithm
- state detection
- dbl
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Abstract
本发明公开了一种基于YOLO的学员状态检测算法,包括以下步骤:S1:YOLO的改进;S2:在原来的DBL组件后加入瓶颈注意力模型BAM,然后经过2个DBL组件,再加入卷积注意力模型CBAM;S3:修改后的网络进行训练,本发明涉及基于YOLO的目标检测技术。本发明在YOLO网络的基础上,加入了瓶颈注意力模型(BAM)和卷积注意力模型(CBAM),在保证了较高检测速率的同时,提高了YOLO网络的精度。同时,我们将其应用在教学课堂中,实现对学生听课状态的检测,便于教学者对课堂情况的了解和管理加入了注意力机制的YOLO网络,经过在VOC 2012数据集上的测试,速度可以达到在自己的学员数据集上,准确率相对原版网络,准确率有所提升。
Description
技术领域
本发明属于计算机视觉领域中的目标检测技术方向,具体涉及一种基于基于YOLO的学员状态检测算法。
背景技术
目标检测,是图像处理领域的一个重要分支,即在一幅图像中框出感兴趣目标的范围和所属类别。现阶段目标检测分为“two-stage”和“one-stage”两个流派,前者是通过先候选区域定位,后分类的思路,以RCNN系列为代表,后者是直接进行候选框回归和分类,以YOLO、SSD等为代表。YOLO是其中检测速率最快的一种,但是检测精度不够。
在学生状态的检测最接近的技术中,论文《基于Faster R-CNN的学生课堂行为检测算法研究》,采用Ross B.Girshick提出的Faster R-CNN算法,将学生课堂行为分为三类即学习、睡觉、玩(玩手机、聊天等其他),在教室布置摄像头采集数据,标注信息,并送入Faster R-CNN网络进行训练,最终实现检测。
缺点可以是成本高,效率底,耗时间等类似问题,由于Faster R-CNN网络本身的限制,检测速率很低,加上学生课堂行为数据集本身的特点(监控视频图像区别于一般的视频图像,其不能获取目标的正面信息,存在一定角度差),因此虽然原论文可以实现对课堂行为的检测,但在实时性和高效性上有所欠缺,若是将其应用在实际场景中,就会存在一些问题。
发明内容
本发明的目的在于提供一种基于YOLO的学员状态检测算法,针对Faster R-CNN的检测速率问题,因此我们的方案是采用了YOLO网络,由于YOLO的固有结构,使得它的检测速率很快,是RCNN的1000倍,Faster RCNN的100倍,因此我们的重点在于改进YOLO的检测精度,使得YOLO速度与精度共存;
在YOLO网络的基础上,加入了瓶颈注意力模型(BAM)和卷积注意力模型(CBAM),在保证了较高检测速率的同时,提高了YOLO网络的精度。同时,我们将其应用在教学课堂中,实现对学生听课状态的检测,便于教学者对课堂情况的了解和管理加入了注意力机制的YOLO网络,经过在VOC 2012数据集上的测试,速度可以达到在自己的学员数据集上,准确率相对原版网络,准确率有所提升,以解决上述背景技术中提出现有技术中的问题。
为实现上述目的,本发明采用了如下技术方案:一种基于YOLO的学员状态检测算法,包括以下步骤:
S1:YOLO的改进,修改原网络的残差单元,原结构中的残差单纯,由zero-padding层(零填充)、DBL组件(卷积+BN层+LeakyRelu)和n个残差结构res unit(两个DBL组件+add)构成;
S2:在原来的DBL组件后加入瓶颈注意力模型BAM,然后经过2个DBL组件,再加入卷积注意力模型CBAM;
S3:修改后的网络进行训练,具体步骤如下:
a:获取课堂监控视频,间隔或随机抽取部分帧画面,使用标注工具标注每张图中的目标信息,制成数据集;
b:将数据集送入修改后的YOLO网络进行训练;
c:训练完成后得到针对该数据集类型的模型文件,使用该模型可以检测相应类别的视频和图像。
优选的,所述YOLO算法采用CNN对目标进行端到端的检测,输入任意大小3通道RGB图片,图像缩放至416*416作为网络的输入。
优选的,所述CNN网络图片分为S*S个网格,每个单元格负责检测中心点落在该网格内的目标,输出3层,分别为13*13,26*26,52*52的特征图,每层最终预测值为S*S*3*(4+1+B)大小的张量,其中3指每层anchorbox数量,4为边框大小(x,y,w,h),1为置信度,B为类别数。
优选的,所述预测值通过非极大值抑制NMS筛选出boxes,生成最终检测数据框,包括输出框class_boxes和置信度class_box_scores,类别信息classes。
优选的,所述YOLO的骨干框架是darknet53,由卷积和残差单元组成。
本发明提出的一种基于YOLO的学员状态检测算法,与现有技术相比,具有以下优点:
1、本发明涉及基于YOLO的目标检测技术。YOLO是一种端对端的目标框架,YOLO v3是它的第三个版本,相对其他目标检测框架,如Faster RCNN、SSD等,YOLO v3的检测速度极快,能够达到22ms、30FPS。但在追求高速率的同时,YOLO v3的精度有所下降。而本发明在YOLO网络的基础上,加入了瓶颈注意力模型(BAM)和卷积注意力模型(CBAM),在保证了较高检测速率的同时,提高了YOLO网络的精度。同时,我们将其应用在教学课堂中,实现对学生听课状态的检测,便于教学者对课堂情况的了解和管理加入了注意力机制的YOLO网络,经过在VOC 2012数据集上的测试,速度可以达到在自己的学员数据集上,准确率相对原版网络,准确率有所提升。
附图说明
图1为本发明一种基于YOLO的基于YOLO的学员状态检测算法的瓶颈注意力模型BAM图;
图2为本发明一种基于YOLO的学员状态检测算法的卷积注意力模型CBAM图;
图3为本发明一种基于YOLO的学员状态检测算法的加入注意力模型后的YOLO结构图;
图4为本发明一种基于YOLO的学员状态检测算法的卷积和残差单元组和数据图;
图5为本发明一种基于YOLO的学员状态检测算法的改进后的残差单元框架图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-5,本发明提供了一种基于YOLO的学员状态检测算法,包括以下步骤:
S1:YOLO的改进,修改原网络的残差单元,原结构中的残差单纯,由zero-padding层(零填充)、DBL组件(卷积+BN层+LeakyRelu)和n个残差结构res unit(两个DBL组件+add)构成;
S2:在原来的DBL组件后加入瓶颈注意力模型BAM,然后经过2个DBL组件,再加入卷积注意力模型CBAM;
S3:修改后的网络进行训练,具体步骤如下:
a:获取课堂监控视频,间隔或随机抽取部分帧画面,使用标注工具标注每张图中的目标信息,制成数据集;
b:将数据集送入修改后的YOLO网络进行训练;
c:训练完成后得到针对该数据集类型的模型文件,使用该模型可以检测相应类别的视频和图像。
YOLO网络结构由24个卷积层与2个全连接层构成,网络入口为448x448(v2为416x416),图片进入网络先经过resize,网络的输出结果为一个张量,维度为:\[S*S*(B*5+C)\]其中,S为划分网格数,B为每个网格负责目标个数,C为类别个数。该表达式含义为:
(1)每个小格会对应B个边界框,边界框的宽高范围为全图,表示以该小格为中心寻找物体的边界框位置。
(2)每个边界框对应一个分值,代表该处是否有物体及定位准确度:\[P(object)*IoU_{pred}^{truth}\]。
(3)每个小格会对应C个概率值,找出最大概率对应的类别\(P(Class|object)\),并认为小格中包含该物体或者该物体的一部分。
具体的,所述YOLO算法采用CNN对目标进行端到端的检测,输入任意大小3通道RGB图片,图像缩放至416*416作为网络的输入。
具体的,所述CNN网络图片分为S*S个网格,每个单元格负责检测中心点落在该网格内的目标,输出3层,分别为13*13,26*26,52*52的特征图,每层最终预测值为S*S*3*(4+1+B)大小的张量,其中3指每层anchorbox数量,4为边框大小(x,y,w,h),1为置信度,B为类别数。
具体的,所述预测值通过非极大值抑制NMS筛选出boxes,生成最终检测数据框,包括输出框class_boxes和置信度class_box_scores,类别信息classes。
具体的,所述YOLO的骨干框架是darknet53,由卷积和残差单元组成。
针对残差单元进行了修改,加入了注意力机制。由于CBAM和BAM是一个轻量级的通用模块,它可以无缝地集成到任何CNN架构中,开销可以忽略不计,并且可以与基本CNN一起进行训练。因此注意力模型的加入不会使得YOLO的速率受到太大影响。
综上所述:本发明涉及基于YOLO的目标检测技术。YOLO是一种端对端的目标框架,YOLO v3是它的第三个版本,相对其他目标检测框架,如Faster RCNN、SSD等,YOLO v3的检测速度极快,能够达到22ms、30FPS。但在追求高速率的同时,YOLO v3的精度有所下降。而本发明在YOLO网络的基础上,加入了瓶颈注意力模型(BAM)和卷积注意力模型(CBAM),在保证了较高检测速率的同时,提高了YOLO网络的精度。同时,我们将其应用在教学课堂中,实现对学生听课状态的检测,便于教学者对课堂情况的了解和管理加入了注意力机制的YOLO网络,经过在VOC 2012数据集上的测试,速度可以达到在自己的学员数据集上,准确率相对原版网络,准确率有所提升。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于YOLO的学员状态检测算法,其特征在于:包括以下步骤:
S1:YOLO的改进,修改原网络的残差单元,原结构中的残差单纯,由zero-padding层(零填充)、DBL组件(卷积+BN层+LeakyRelu)和n个残差结构res unit(两个DBL组件+add)构成;
S2:在原来的DBL组件后加入瓶颈注意力模型BAM,然后经过2个DBL组件,再加入卷积注意力模型CBAM;
S3:修改后的网络进行训练,具体步骤如下:
a:获取课堂监控视频,间隔或随机抽取部分帧画面,使用标注工具标注每张图中的目标信息,制成数据集;
b:将数据集送入修改后的YOLO网络进行训练;
c:训练完成后得到针对该数据集类型的模型文件,使用该模型可以检测相应类别的视频和图像。
2.根据权利要求1所述的一种基于YOLO的学员状态检测算法,其特征在于:所述YOLO算法采用CNN对目标进行端到端的检测,输入任意大小3通道RGB图片,图像缩放至416*416作为网络的输入。
3.根据权利要求2所述的一种基于YOLO的学员状态检测算法,其特征在于:所述CNN网络图片分为S*S个网格,每个单元格负责检测中心点落在该网格内的目标,输出3层,分别为13*13,26*26,52*52的特征图,每层最终预测值为S*S*3*(4+1+B)大小的张量,其中3指每层anchorbox数量,4为边框大小(x,y,w,h),1为置信度,B为类别数。
4.根据权利要求3所述的一种基于YOLO的学员状态检测算法,其特征在于:所述预测值通过非极大值抑制NMS筛选出boxes,生成最终检测数据框,包括输出框class_boxes和置信度class_box_scores,类别信息classes。
5.根据权利要求1所述的一种基于YOLO的学员状态检测算法,其特征在于:所述YOLO的骨干框架是darknet53,由卷积和残差单元组成,并在残差单元后加入注意力模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910413104.8A CN110633610B (zh) | 2019-05-17 | 2019-05-17 | 一种基于yolo的学员状态检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910413104.8A CN110633610B (zh) | 2019-05-17 | 2019-05-17 | 一种基于yolo的学员状态检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110633610A true CN110633610A (zh) | 2019-12-31 |
CN110633610B CN110633610B (zh) | 2022-03-25 |
Family
ID=68968617
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910413104.8A Active CN110633610B (zh) | 2019-05-17 | 2019-05-17 | 一种基于yolo的学员状态检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110633610B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339858A (zh) * | 2020-02-17 | 2020-06-26 | 电子科技大学 | 一种基于神经网络的油气管道标志物识别方法 |
CN111539524A (zh) * | 2020-03-23 | 2020-08-14 | 字节跳动有限公司 | 轻量级自注意力模块、神经网络模型和神经网络构架的搜索方法 |
CN112001275A (zh) * | 2020-08-09 | 2020-11-27 | 成都未至科技有限公司 | 用于采集学生信息的机器人 |
CN112418345A (zh) * | 2020-12-07 | 2021-02-26 | 苏州小阳软件科技有限公司 | 细粒度小目标快速识别的方法和装置 |
CN112699859A (zh) * | 2021-03-24 | 2021-04-23 | 华南理工大学 | 目标检测方法、装置、存储介质及终端 |
CN114550166A (zh) * | 2022-04-25 | 2022-05-27 | 科大天工智能装备技术(天津)有限公司 | 一种面向智慧大棚的果实检测方法、装置及存储介质 |
CN114550309A (zh) * | 2022-04-22 | 2022-05-27 | 湖北微模式科技发展有限公司 | 一种写字行为的检测方法 |
CN114677596A (zh) * | 2022-05-26 | 2022-06-28 | 之江实验室 | 一种基于注意力模型的遥感图像船舶检测方法和装置 |
CN115049969A (zh) * | 2022-08-15 | 2022-09-13 | 山东百盟信息技术有限公司 | 一种改进YOLOv3和BiConvLSTM的不良视频检测方法 |
CN117152846A (zh) * | 2023-10-30 | 2023-12-01 | 云南师范大学 | 学生行为识别方法、装置、系统及计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108647585A (zh) * | 2018-04-20 | 2018-10-12 | 浙江工商大学 | 一种基于多尺度循环注意力网络的交通标识符检测方法 |
CN108710830A (zh) * | 2018-04-20 | 2018-10-26 | 浙江工商大学 | 一种结合密集连接注意力金字塔残差网络和等距限制的人体3d姿势估计方法 |
US20180330238A1 (en) * | 2017-05-09 | 2018-11-15 | Neurala, Inc. | Systems and methods to enable continual, memory-bounded learning in artificial intelligence and deep learning continuously operating applications across networked compute edges |
CN108875807A (zh) * | 2018-05-31 | 2018-11-23 | 陕西师范大学 | 一种基于多注意力多尺度的图像描述方法 |
-
2019
- 2019-05-17 CN CN201910413104.8A patent/CN110633610B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180330238A1 (en) * | 2017-05-09 | 2018-11-15 | Neurala, Inc. | Systems and methods to enable continual, memory-bounded learning in artificial intelligence and deep learning continuously operating applications across networked compute edges |
CN108647585A (zh) * | 2018-04-20 | 2018-10-12 | 浙江工商大学 | 一种基于多尺度循环注意力网络的交通标识符检测方法 |
CN108710830A (zh) * | 2018-04-20 | 2018-10-26 | 浙江工商大学 | 一种结合密集连接注意力金字塔残差网络和等距限制的人体3d姿势估计方法 |
CN108875807A (zh) * | 2018-05-31 | 2018-11-23 | 陕西师范大学 | 一种基于多注意力多尺度的图像描述方法 |
Non-Patent Citations (2)
Title |
---|
徐诚极 等: "Attention-YOLO:引入注意力机制的YOLO检测算法", 《计算机工程与应用》 * |
高宗 等: "基于YOLO网络的行人检测方法", 《计算机工程》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339858B (zh) * | 2020-02-17 | 2022-07-29 | 电子科技大学 | 一种基于神经网络的油气管道标志物识别方法 |
CN111339858A (zh) * | 2020-02-17 | 2020-06-26 | 电子科技大学 | 一种基于神经网络的油气管道标志物识别方法 |
CN111539524A (zh) * | 2020-03-23 | 2020-08-14 | 字节跳动有限公司 | 轻量级自注意力模块、神经网络模型和神经网络构架的搜索方法 |
CN111539524B (zh) * | 2020-03-23 | 2023-11-28 | 字节跳动有限公司 | 轻量级自注意力模块和神经网络构架的搜索方法 |
CN112001275A (zh) * | 2020-08-09 | 2020-11-27 | 成都未至科技有限公司 | 用于采集学生信息的机器人 |
CN112418345A (zh) * | 2020-12-07 | 2021-02-26 | 苏州小阳软件科技有限公司 | 细粒度小目标快速识别的方法和装置 |
CN112418345B (zh) * | 2020-12-07 | 2024-02-23 | 深圳小阳软件有限公司 | 细粒度小目标快速识别的方法和装置 |
CN112699859A (zh) * | 2021-03-24 | 2021-04-23 | 华南理工大学 | 目标检测方法、装置、存储介质及终端 |
CN114550309A (zh) * | 2022-04-22 | 2022-05-27 | 湖北微模式科技发展有限公司 | 一种写字行为的检测方法 |
CN114550166B (zh) * | 2022-04-25 | 2022-08-19 | 科大天工智能装备技术(天津)有限公司 | 一种面向智慧大棚的果实检测方法、装置及存储介质 |
CN114550166A (zh) * | 2022-04-25 | 2022-05-27 | 科大天工智能装备技术(天津)有限公司 | 一种面向智慧大棚的果实检测方法、装置及存储介质 |
CN114677596A (zh) * | 2022-05-26 | 2022-06-28 | 之江实验室 | 一种基于注意力模型的遥感图像船舶检测方法和装置 |
CN115049969A (zh) * | 2022-08-15 | 2022-09-13 | 山东百盟信息技术有限公司 | 一种改进YOLOv3和BiConvLSTM的不良视频检测方法 |
CN117152846A (zh) * | 2023-10-30 | 2023-12-01 | 云南师范大学 | 学生行为识别方法、装置、系统及计算机可读存储介质 |
CN117152846B (zh) * | 2023-10-30 | 2024-01-26 | 云南师范大学 | 学生行为识别方法、装置、系统及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110633610B (zh) | 2022-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110633610B (zh) | 一种基于yolo的学员状态检测方法 | |
US11062123B2 (en) | Method, terminal, and storage medium for tracking facial critical area | |
Zhang et al. | Deep convolutional neural networks for forest fire detection | |
Miao et al. | Neuromorphic vision datasets for pedestrian detection, action recognition, and fall detection | |
US20180114071A1 (en) | Method for analysing media content | |
Deng et al. | Amae: Adaptive motion-agnostic encoder for event-based object classification | |
CN107545263B (zh) | 一种物体检测方法及装置 | |
Kim et al. | High-speed drone detection based on yolo-v8 | |
JP7222209B2 (ja) | イベント検出に用いられる深層学習ネットワーク、該ネットワークの訓練装置及び訓練方法 | |
CN110046659B (zh) | 一种基于tld的长时间单目标跟踪方法 | |
CN113408671B (zh) | 一种对象识别方法及装置、芯片及电子设备 | |
CN111428558A (zh) | 一种基于改进YOLOv3方法的车辆检测方法 | |
CN111079507B (zh) | 一种行为识别方法及装置、计算机装置及可读存储介质 | |
CN113239914B (zh) | 课堂学生表情识别及课堂状态评估方法、装置 | |
CN115240259A (zh) | 一种基于yolo深度网络的课堂环境下人脸检测方法及其检测系统 | |
CN115240035A (zh) | 半监督目标检测模型训练方法、装置、设备以及存储介质 | |
CN111027542A (zh) | 一种基于Faster RCNN算法改进的目标检测方法 | |
CN109902800B (zh) | 基于拟反馈神经网络的多级骨干网络检测通用物体的方法 | |
CN110674887A (zh) | 一种基于视频分类的端到端道路拥堵检测算法 | |
CN114694130A (zh) | 基于深度学习的铁路沿线电线杆及杆号检测方法和装置 | |
CN113901924A (zh) | 一种文档表格的检测方法及装置 | |
CN112417974A (zh) | 一种公共卫生监控方法 | |
CN111881914A (zh) | 一种基于自学习阈值的车牌字符分割方法及系统 | |
CN111339950A (zh) | 一种遥感图像目标检测方法 | |
CN110704678A (zh) | 评估排序方法、评估排序系统、计算机装置及储存介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |