CN117711069A

CN117711069A - 基于YOLOv8的学习行为识别与提醒系统及方法

Info

Publication number: CN117711069A
Application number: CN202311800105.0A
Authority: CN
Inventors: 刘海涛; 李路川; 田雪虹; 谢成; 李家欢
Original assignee: Guangdong Ocean University
Current assignee: Guangdong Ocean University
Priority date: 2023-12-26
Filing date: 2023-12-26
Publication date: 2024-03-15

Abstract

本发明公开了一种基于YOLOv8的学习行为识别与提醒系统及方法，采用基于深度学习的学习行为识别与提醒系统，可以更好地监督用户的学习行为，提高学习效率，并实现个性化的行为监督，利用弱监督和无监督学习的方法，进一步降低了训练过程中的人工标注成本，同时提高了模型的泛化能力。本发明将轻量级注意力模块CBAM插入YOLOv8的卷积网络CNN中，CBAM集成了通道注意力和空间注意力模块，通过CBS思想将其连接，YOLOv8算法网络的运行速度，并且提高了原本网络的特征精度。本发明采用Pyqt5设计一个可视化界面，帮助用户直观的观测目标的学习行为情况，有利于在出现异常学习行为时做出正确的判断。

Description

基于YOLOv8的学习行为识别与提醒系统及方法

技术领域

本发明属于人体行为识别技术领域，具体涉及一种基于YOLOv8的学习行为识别与提醒系统及方法的设计。

背景技术

目前国内外人体行为识别技术正在飞速发展，麻省理工学院（MIT）媒体实验室利用人们身上佩戴的加速度计，通过连续采集传感器数据和模式识别技术，成功地识别出了日常生活中的20种常见行为。2010年，王喜昌等人将加速度计放置在上肢，并利用三轴加速度信息来识别上肢动作，取得了较高的准确率。2012年，研究者们采用了深度卷积神经网络模型，在原始的RGB像素空间上进行训练，这个模型包含了6000万个参数和5层卷积网络，总共由65万个神经元构成，并且研究者们使用了图形处理单元（GPU）进行加速，这个深度学习模型取得了很大的创新。Vishwakarma等人利用无监督学习的方法在Weizman数据集上实现了100%的识别准确率，无监督学习的方法无需人工标注数据集或者只需要较少的标签，就能够达到很好的训练效果，这为人体行为识别的训练提供了广阔的应用前景。

早期研究采用加速度计来识别人体行为的方式，其应用受到很大的局限，并且操作比较麻烦，准确率较低。现有人体行为识别技术很多是基于YOLOv3、YOLOv5算法，这些算法缺点是泛化能力差、精度相对较低、目标位置误差较大，并且容易出现过拟合和欠拟合，模型鲁棒性较差。并且基于YOLO网络优先保证速度的前提下，YOLO的算法对于小目标的特征提取往往比较困难，原因是由于YOLO算法的卷积底使用的卷积核大小为7x7，大网格对于小目标的特征提取容易失真，往往在训练轮次尚低的情况下就因为纳入过多的噪音而导致模型发生过拟合。

发明内容

本发明的目的是为了解决现有人体行为识别技术泛化能力差且精度相对较低的问题，提出了一种基于YOLOv8的学习行为识别与提醒系统及方法。

本发明的技术方案为：第一方面，本发明提供了一种基于YOLOv8的学习行为识别与提醒系统，包括控制模块、硬件采集模块、电源管理模块、行为识别模块、可视化模块和提醒模块；控制模块用于对硬件采集模块、行为识别模块、可视化模块和提醒模块进行控制；电源管理模块用于为控制模块、硬件采集模块、行为识别模块、可视化模块和提醒模块提供工作电源；硬件采集模块用于实时采集用户的学习图像；行为识别模块用于根据用户的学习图像，采用改进YOLOv8算法网络识别用户的学习行为；可视化模块用于通过可视化界面显示用户的学习行为图像；提醒模块用于当检测到用户的异常学习行为时，采用语音及弹窗向用户进行提醒。

进一步地，硬件采集模块包括云台底座、第一舵机、第一L形板、第二舵机、第二L形板、第三舵机和凹板，第一L形板的一端通过螺栓分别与云台底座以及第一舵机连接，其另一端通过螺栓分别与第二L形板的一端以及第二舵机连接，第二L形板的另一端通过螺栓分别与第三舵机以及凹板的一个侧面连接，凹板的底面开设有一个固定孔，用于固定连接摄像机。

进一步地，行为识别模块中的改进YOLOv8算法网络为将轻量级注意力模块CBAM插入YOLOv8的卷积网络CNN中得到的网络，其损失函数采用回归损失函数+ VFL损失函数：

；

其中表示预测目标边界框和真实目标检测框的交并比，表示预测目标边界框和真实目标检测框之间的欧式距离，表示预测目标边界框的中心点，表示真实目标检测框的中心点，表示预测目标边界框和真实目标检测框闭合区域的对角线距离，表示权重系数，表示预测目标边界框和真实目标检测框相对比例的一致性，表示得分概率，表示样本标签，当预测目标边界框和真实目标检测框相交时，表示正样本，当预测目标边界框和真实目标检测框无相交时，表示负样本，表示减少负样本贡献的参数。

进一步地，可视化模块采用Pyqt5设计一个可视化界面，并将可视化界面连同YOLOv8打包成一个可执行的exe文件。

进一步地，提醒模块通过设置置信度阈值检测用户的异常学习行为，当目标用户被识别的置信度超过0.7且达到连续十帧，则会判定用户发生异常学习行为。

第二方面，本发明提供了一种基于YOLOv8的学习行为识别与提醒方法，包括以下步骤：

S1、通过摄像机实时采集用户的学习图像，制作关于检测目标的图像数据集，并对图像数据集进行标注，得到标注文件。

S2、将标注文件中的图像数据集划分为训练集和验证集，并将划分后的标注文件编译为可执行的exe文件。

S3、对YOLOv8算法网络进行改进，得到改进YOLOv8算法网络。

S4、通过训练集对改进YOLOv8算法网络进行训练，并通过验证集对训练完成后的改进YOLOv8算法网络进行验证，得到最优权重模型文件。

S5、根据最优权重模型文件推理识别用户的学习行为。

S6、通过可视化界面显示用户的学习行为图像，当检测到用户的异常学习行为时，采用语音及弹窗向用户进行提醒。

进一步地，步骤S1包括以下分步骤：

S11、通过摄像机实时采集用户的学习图像，制作关于检测目标的图像数据集。

S12、采用图像标注工具LabelImg遍历图像数据集中的所有图片，将其按hp0开始的顺序排列，并将图片名称与json文件一一对应。

S13、通过Opencv和numpy库，读取单个json文件内的信息，并将其保存在函数df中。

S14、遍历所有json文件，将所得信息绘制成表，导出为包含文件名、图片的长宽、标注的类别、标注框的点坐标以及标注框的长宽的csv标注文件。

进一步地，步骤S3中改进YOLOv8算法网络为将轻量级注意力模块CBAM插入YOLOv8 的卷积网络CNN中得到的网络，其损失函数采用回归损失函数+ VFL损失函数：

；

进一步地，步骤S5包括以下分步骤：

S51、将最优权重模型文件best.pt在YOLOv8的源代码目录中替换默认的YOLOv8n.pt权重文件。

S52、启动推理网络，通过摄像机推理识别用户的学习行为。

进一步地，步骤S6包括以下分步骤：

S61、采用Pyqt5设计一个可视化界面显示用户的学习行为图像，并将可视化界面连同YOLOv8打包成一个可执行的exe文件。

S62、当上位机判断摄像头识别到物体后，进入预警判别程序。

S63、当目标用户被识别的置信度超过0.7且达到连续十帧，判定用户发生异常学习行为，通过语音及弹窗向用户进行提醒。

本发明的有益效果是：

（1）本发明采用基于深度学习的学习行为识别与提醒系统，可以更好地监督用户的学习行为，提高学习效率，并实现个性化的行为监督，利用弱监督和无监督学习的方法，进一步降低了训练过程中的人工标注成本，同时提高了模型的泛化能力。

（2）本发明采用改进YOLOv8算法网络识别用户的学习行为，YOLOv8将YOLOv5的C3结构换成了梯度流更丰富的C2f结构，并对不同尺度模型调整了不同的通道数，大幅提升了模型的性能；C2f结构假设在一个CBS卷积层内，类似于做了特征融合，让YOLOv8可以在保证轻量化的同时获得更加丰富的梯度流信息。

（3）本发明将轻量级注意力模块CBAM插入YOLOv8的卷积神经网络CNN中，CBAM集成了通道注意力和空间注意力模块，并且通过CBS思想将其连接，大大加快了改进YOLOv8算法网络的运行速度，并且提高了原本网络的特征精度。

（4）本发明采用Pyqt5设计一个可视化界面显示用户的学习行为图像，并将该可视化界面连同YOLOv8打包成一个可执行的exe文件，帮助用户直观的观测目标的学习行为情况，有利于在出现异常学习行为时做出正确的判断。

（5）本发明通过添加置信度阈值设计预警判别程序，当目标用户被识别的置信度超过0.7且达到连续十帧，判定用户发生异常学习行为，通过语音及弹窗向用户进行提醒，准确度高，并且比较智能化，操作方便。

附图说明

图1所示为本发明实施例一提供的基于YOLOv8的学习行为识别与提醒系统结构框图。

图2所示为本发明实施例一提供的硬件采集模块结构示意图。

图3所示为本发明实施例一提供的YOLOv8算法网络结构示意图。

图4所示为本发明实施例一提供的改进YOLOv8算法网络结构示意图。

图5所示为本发明实施例一提供的轻量级注意力模块CBAM结构示意图。

图6所示为本发明实施例一提供的可视化界面示意图。

图7所示为本发明实施例二提供的基于YOLOv8的学习行为识别与提醒方法流程图。

图8所示为本发明实施例二提供的LabelImg标注界面示意图。

图9所示为本发明实施例二提供的训练前后YOLOv8算法网络的训练结果对比图。

附图标记说明：1-云台底座、2-第一舵机、3-第一L形板、4-第二舵机、5-第二L形板、6-第三舵机、7-凹板。

具体实施方式

现在将参考附图来详细描述本发明的示例性实施方式。应当理解，附图中示出和描述的实施方式仅仅是示例性的，意在阐释本发明的原理和精神，而并非限制本发明的范围。

实施例一：

本发明实施例提供了一种基于YOLOv8的学习行为识别与提醒系统，如图1所示，包括控制模块、硬件采集模块、电源管理模块、行为识别模块、可视化模块和提醒模块。

本发明实施例中，控制模块采用微型计算器树莓派4B作为控制芯片，用于对硬件采集模块、行为识别模块、可视化模块和提醒模块进行控制，树莓派4B具有高性能、高性价比、处理速度极快的优点。

本发明实施例中，电源管理模块分别与控制模块、硬件采集模块、行为识别模块、可视化模块以及提醒模块电气连接，用于为控制模块、硬件采集模块、行为识别模块、可视化模块和提醒模块提供工作电源。

本发明实施例中，硬件采集模块用于实时采集用户的学习图像，如图2所示，硬件采集模块包括云台底座1、第一舵机2、第一L形板3、第二舵机4、第二L形板5、第三舵机6和凹板7，第一L形板3的一端通过螺栓分别与云台底座1以及第一舵机2连接，其另一端通过螺栓分别与第二L形板5的一端以及第二舵机4连接，第二L形板5的另一端通过螺栓分别与第三舵机6以及凹板7的一个侧面连接，凹板7的底面开设有一个固定孔，用于固定连接摄像机。

本发明实施例中，云台底座1提供一个工作平台并用于支撑整套硬件采集模块的设备进行工作，第一L形板3、第二L形板5和凹板7构成三自由度云台，云台的设计尺寸为40*20*3mm，中间留有4个φ3mm的走线孔，一个φ5mm的安装孔。凹板7的底面开设有一个φ5mm的固定孔，用于固定连接摄像机。

本发明实施例中，第一舵机2、第二舵机4和第三舵机6均采用SG90舵机，其工作电压一般为4.8V或6V，同时在本发明实施例中需要保证摄像机的平稳，因此并不需要大电压或宽脉冲，以免电机转动过快。SG90舵机上有三根线，分别是GND（棕色线）、VCC（红色线）和SIG（黄色线），也就是地线、电源线和信号线。

本发明实施例中，行为识别模块用于根据用户的学习图像，采用改进YOLOv8算法网络识别用户的学习行为。

如图3所示，YOLOv8算法网络的主干网络Backbone由三种模块组成：Conv、C2f、SPPF。卷积模块使用的Conv同样由三部分组成一个二维卷积+二维BatchNorm+SiLU激活函数。其中，SiLU的激活是通过sigmoid函数乘以其输入来计算，具有无上界、有下界，平滑的优点。

如图4所示，改进YOLOv8算法网络为将轻量级注意力模块CBAM插入YOLOv8的卷积网络CNN中得到的网络，轻量级注意力模块CBAM在本发明实施例中用attention模块表示，该注意力模块插到池化层SPPF模块之后，通过CBS思想将其连接，大大加快了模块的运行速度，提高了原本网络的特征精度。CBAM具体由CAM和SAM两个子模块串行组成，具体网络结构如图5所示，输入的特征图先进入CAM模块中进行运算，结果与原图通过激活函数归一化后特征图再进入SAM块中，随后再次与原图进行卷积，经过激活函数的归一化完成特征融合，随后传输至高层特征网络。由此可见，CBAM作用聚焦在高级语义的连接过程中，提高特征在网络中的权重。

本发明实施例中，改进YOLOv8算法网络的损失函数采用回归损失函数+ VFL 损失函数：

；

本发明实施例中，用户端用于观测对象，查看目标用户的学习行为，上位机在执行代码过程中容易发生错误，为了更好地部署本发明在普通的家用/工作电脑上的使用，可视化模块采用Pyqt5设计一个可视化界面，并将可视化界面连同YOLOv8打包成一个可执行的exe文件。可视化界面如图6所示，具有切换模型权重、设置置信度阈值等功能。

本发明实施例中，提醒模块通过设置置信度阈值（本发明实施例中设置为0.7）检测用户的异常学习行为，当上位机判断摄像头识别到物体后，进入预警判别程序；当目标用户被识别的置信度超过0.7且达到连续十帧，判定用户发生异常学习行为，通过语音及弹窗向用户进行提醒“检测到疑似异常学习行为”。

实施例二：

本发明实施例提供了一种基于YOLOv8的学习行为识别与提醒方法，如图7所示，包括以下步骤S1~S6：

步骤S1包括以下分步骤S11~S14：

S12、采用图像标注工具LabelImg遍历图像数据集中的所有图片，将其按hp0开始的顺序排列，并将图片名称与json文件一一对应。LabelImg的标注界面如图8所示。

S2、将标注文件中的图像数据集按8：2的比例划分为训练集和验证集，并将划分后的标注文件编译为可执行的exe文件。

由于LabelImg标注工具在标注后默认生成该图片的标注配置文件json，YOLOv8算法在读取数据集时无法直接读取json文件，因此在标注完成后需要对得到的标注文件进行整理和文件格式转换。本发明实施例中，在github上将标注文件编译并打包为可执行的exe文件。

S3、对YOLOv8算法网络进行改进，得到改进YOLOv8算法网络。

本发明实施例中，改进YOLOv8算法网络为将轻量级注意力模块CBAM插入YOLOv8的卷积网络CNN中得到的网络，其具体网络结构在实施例一中已经进行详细阐述，在此不再赘述，其损失函数采用回归损失函数+ VFL损失函数：

；

S4、通过训练集对改进YOLOv8算法网络进行训练，并通过验证集对训练完成后的改进YOLOv8算法网络进行验证，得到最优权重模型文件best.pt。

本发明实施例中，对改进前和改进后的YOLOv8算法网络进行训练，以Precision、Recall、mAP、mAP——0.5：0.95作为指标，Batch=16和Batch=32，训练轮数分别为50次和100次，训练结果如图9以及表1所示，由此可见，CBAM成功优化了YOLOv8算法网络。

表1

训练模型	mAP_0.5	mAP_0.5:0.95	Recall	Precision
					改进前的YOLOv8算法网络	0.9164	0.5157	0.8649	0.8465
改进后的YOLOv8算法网络	0.9742	0.5946	0.9479	0.9551

S5、根据最优权重模型文件推理识别用户的学习行为。

步骤S5包括以下分步骤S51~S52：

S52、启动推理网络，通过摄像机推理识别用户的学习行为。

在正常情况下未识别到既定动作，则不会有任何数据返回；在识别到既定动作后，YOLOv8返回识别结果并调用Opencv在取像框内直接框出识别到的目标，且识别的角度广、置信度高，识别速度达到30-40帧/秒。

步骤S6包括以下分步骤S61~S63：

S63、当目标用户被识别的置信度超过0.7且达到连续十帧，判定用户发生异常学习行为，通过语音及弹窗向用户进行提醒“检测到疑似异常学习行为”。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.基于YOLOv8的学习行为识别与提醒系统，其特征在于，包括控制模块、硬件采集模块、电源管理模块、行为识别模块、可视化模块和提醒模块；

所述控制模块用于对硬件采集模块、行为识别模块、可视化模块和提醒模块进行控制；

所述电源管理模块用于为控制模块、硬件采集模块、行为识别模块、可视化模块和提醒模块提供工作电源；

所述硬件采集模块用于实时采集用户的学习图像；

所述行为识别模块用于根据用户的学习图像，采用改进YOLOv8算法网络识别用户的学习行为；

所述可视化模块用于通过可视化界面显示用户的学习行为图像；

所述提醒模块用于当检测到用户的异常学习行为时，采用语音及弹窗向用户进行提醒。

2.根据权利要求1所述的学习行为识别与提醒系统，其特征在于，所述硬件采集模块包括云台底座（1）、第一舵机（2）、第一L形板（3）、第二舵机（4）、第二L形板（5）、第三舵机（6）和凹板（7），所述第一L形板（3）的一端通过螺栓分别与云台底座（1）以及第一舵机（2）连接，其另一端通过螺栓分别与第二L形板（5）的一端以及第二舵机（4）连接，所述第二L形板（5）的另一端通过螺栓分别与第三舵机（6）以及凹板（7）的一个侧面连接，所述凹板（7）的底面开设有一个固定孔，用于固定连接摄像机。

3.根据权利要求1所述的学习行为识别与提醒系统，其特征在于，所述行为识别模块中的改进YOLOv8算法网络为将轻量级注意力模块CBAM插入YOLOv8的卷积网络CNN中得到的网络，其损失函数采用回归损失函数+ VFL损失函数/>：

；

其中表示预测目标边界框和真实目标检测框的交并比，/>表示预测目标边界框和真实目标检测框之间的欧式距离，/>表示预测目标边界框的中心点，/>表示真实目标检测框的中心点，/>表示预测目标边界框和真实目标检测框闭合区域的对角线距离，/>表示权重系数，/>表示预测目标边界框和真实目标检测框相对比例的一致性，/>表示得分概率，/>表示样本标签，当预测目标边界框和真实目标检测框相交时/>，表示正样本，当预测目标边界框和真实目标检测框无相交时/>，表示负样本，/>表示减少负样本贡献的参数。

4.根据权利要求1所述的学习行为识别与提醒系统，其特征在于，所述可视化模块采用Pyqt5设计一个可视化界面，并将所述可视化界面连同YOLOv8打包成一个可执行的exe文件。

5.根据权利要求1所述的学习行为识别与提醒系统，其特征在于，所述提醒模块通过设置置信度阈值检测用户的异常学习行为，当目标用户被识别的置信度超过0.7且达到连续十帧，则会判定用户发生异常学习行为。

6.基于YOLOv8的学习行为识别与提醒方法，其特征在于，包括以下步骤：

S1、通过摄像机实时采集用户的学习图像，制作关于检测目标的图像数据集，并对图像数据集进行标注，得到标注文件；

S2、将标注文件中的图像数据集划分为训练集和验证集，并将划分后的标注文件编译为可执行的exe文件；

S3、对YOLOv8算法网络进行改进，得到改进YOLOv8算法网络；

S4、通过训练集对改进YOLOv8算法网络进行训练，并通过验证集对训练完成后的改进YOLOv8算法网络进行验证，得到最优权重模型文件；

S5、根据最优权重模型文件推理识别用户的学习行为；

7.根据权利要求6所述的学习行为识别与提醒方法，其特征在于，所述步骤S1包括以下分步骤：

S11、通过摄像机实时采集用户的学习图像，制作关于检测目标的图像数据集；

S12、采用图像标注工具LabelImg遍历图像数据集中的所有图片，将其按hp0开始的顺序排列，并将图片名称与json文件一一对应；

S13、通过Opencv和numpy库，读取单个json文件内的信息，并将其保存在函数df中；

8.根据权利要求6所述的学习行为识别与提醒方法，其特征在于，所述步骤S3中改进YOLOv8算法网络为将轻量级注意力模块CBAM插入YOLOv8的卷积网络CNN中得到的网络，其损失函数采用回归损失函数+ VFL损失函数/>：

；

9.根据权利要求6所述的学习行为识别与提醒方法，其特征在于，所述步骤S5包括以下分步骤：

S51、将最优权重模型文件best.pt在YOLOv8的源代码目录中替换默认的YOLOv8n.pt权重文件；

S52、启动推理网络，通过摄像机推理识别用户的学习行为。

10.根据权利要求6所述的学习行为识别与提醒方法，其特征在于，所述步骤S6包括以下分步骤：

S61、采用Pyqt5设计一个可视化界面显示用户的学习行为图像，并将所述可视化界面连同YOLOv8打包成一个可执行的exe文件；

S62、当上位机判断摄像头识别到物体后，进入预警判别程序；