CN116229319A - 多尺度特征融合课堂行为检测方法与系统 - Google Patents

多尺度特征融合课堂行为检测方法与系统 Download PDF

Info

Publication number
CN116229319A
CN116229319A CN202310185147.1A CN202310185147A CN116229319A CN 116229319 A CN116229319 A CN 116229319A CN 202310185147 A CN202310185147 A CN 202310185147A CN 116229319 A CN116229319 A CN 116229319A
Authority
CN
China
Prior art keywords
training
prediction
detection
frames
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310185147.1A
Other languages
English (en)
Inventor
龚汝洪
杜振锋
周晓清
周燕
曾凡智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Etonedu Co ltd
Original Assignee
Guangdong Etonedu Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Etonedu Co ltd filed Critical Guangdong Etonedu Co ltd
Priority to CN202310185147.1A priority Critical patent/CN116229319A/zh
Publication of CN116229319A publication Critical patent/CN116229319A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种多尺度特征融合课堂行为检测方法与系统,该方法是基于改进YOLOv5检测模型实现学生课堂行为的精准检测,包括:1)构建学生课堂行为数据集,划分训练集、验证集和测试集,并对划分的数据进行标注和标签;2)对训练集进行数据增强;3)对训练集进行先验框的聚类;4)利用训练集训练改进YOLOv5检测模型;5)对改进YOLOv5检测模型前向传播中获得的预测结果进行解码操作;6)使用CIOU的非极大值抑制对预测框的重叠部分进行筛选,保留置信度最大的预测框;7)将获得的预测框绘制在原始图片上,在预测框的左上角区域标出预测类别信息。通过本发明能帮助教师更加了解学生的课堂学习情况,从而改善课堂的教学质量,提高学生的学习效率,有助于推动智慧教育发展。

Description

多尺度特征融合课堂行为检测方法与系统
技术领域
本发明涉及智慧教育、智能监控的技术领域,尤其是指一种基于改进YOLOv5检测模型的多尺度特征融合课堂行为检测方法与系统,可应用于学生课堂行为的实时监控检测及分析的学校和辅导机构。
背景技术
随着深度学习的发展和科技的进步,人工智能渗透在各个领域的研究。在人工智能热潮的影响下,各行各业逐步趋向于人工智能化的研究与发展。如何将人工智能技术与课堂教学任务进行结合,提高课堂教学质量和效率,推动智慧教育的发展是未来教育行业的主旋律。提高学生在课堂上的表现质量尤其重要,通过人工智能的参与,智能识别学生的动作行为并对专注度进行评估打分,从而有针对性地提高学生在课堂上的表现质量。观察并评估学生在课堂上的表现质量非常有意义。如何更高效地识别和分析学生课堂行为已经成为了智慧教育的研究热点。
课堂行为分析旨在研究课堂中教师教学活动与学生学业发展的内在机制,帮助教师和学生反思自身课堂表现,从而促进课堂教学质量与的提升。传统的课堂教学行为分析大多是通过自我评价法、人工督导、课堂巡查等方法采集和分析数据,存在个人评价主观性较强、样本量小、费时费力等缺点,导致其可解释性、可扩展性较低。人工智能技术的普及为这些缺点的改善带来了契机。
利用人工智能技术对数据进行采集和分析,能更加全面和及时识别课堂行为,了解课堂教师教学与学生学习状态,为教学质量的提升提供了有力支持。
发明内容
本发明的第一目的在于克服现有技术的缺点与不足,提供一种基于改进YOLOv5检测模型的多尺度特征融合课堂行为检测方法,主要利用注意力机制和特征增强融合对学生的课堂行为提取出局部特征,从而实现在视频时序上对学生在课堂上的表现给予识别,能够帮助教师更加了解学生的课堂学习情况,从而改善老师的教学质量,提高学生的学习效率,有助于推动智慧课堂的发展。
本发明的第二目的在于提供一种基于改进YOLOv5检测模型的多尺度特征融合课堂行为检测系统。
本发明的第一目的通过下述技术方案实现:多尺度特征融合课堂行为检测方法,该方法是基于改进YOLOv5检测模型实现学生课堂行为的精准检测,该改进YOLOv5检测模型是对原来YOLOv5检测模型的主干网络模块、池化金字塔模块和预测模块都进行了改进,其中,对主干网络模块的改进是:使用CBAM注意力模块对主干网络提取的特征进行增强;对池化金字塔模块的改进是:对原来的池化金字塔引入CSPC结构,在保持感受野不变的情况下获得速度提升;对预测模块的改进是:在每个预测模块输出特征前增加一个多尺度泛化检测模块SCAM用于提高小目标检测的精度;
该多尺度特征融合课堂行为检测方法的具体实施包括以下步骤:
1)前期数据采集构建,通过采集多个校园课堂监控,获取的图片作为学生课堂行为的样本数据集,将样本数据集划分为训练集、验证集和测试集,并对划分的样本进行标注和数据标签;
2)根据学生课堂的行为特性对训练集中的图片进行数据增强处理,随机对训练集中的图片进行亮度调整、对比度调整和饱和度调整,对训练集中的图片进行随机裁剪、随机翻转镜像和Mosaic增强,扩充数据量,提高模型的泛化能力;
3)根据处理后的训练集的图片中学生的动作和位置目标的特点,使用基于IOU的k-means算法对学生课堂行为目标进行先验框的聚类,获得真实学生行为目标的9个聚类先验框;
4)将经步骤2)处理后的训练集中的图片输入到改进YOLOv5检测模型中进行模型训练,将步骤3)中获得的先验框的值作为改进YOLOv5检测模型的先验值,根据预设的训练迭代次数epoch数进行训练,保存训练时改进YOLOv5检测模型的模型参数,将验证集损失最小的模型参数作为改进YOLOv5检测模型的最佳模型参数;
5)改进YOLOv5检测模型加载步骤4)获得的最佳模型参数后输入测试集中的图片,对模型前向传播中获得的预测结果进行解码操作,获得所有预测框中检测学生课堂行为的置信度、检测类别概率、预测框的位置调整参数,筛选出置信度大于预设阈值的预测框进行保留;
6)对保留的预测框进行进一步的筛选,使用基于CIOU的非极大值抑制对预测框中的重叠框进行筛选,当重叠框中的CIOU值大于预设阈值时,只保留其中置信度大的预测框;
7)将最后获得的预测框绘制在原始图片上,在预测框的左上角区域标出预测类别信息,从而完成学生课堂行为的检测。
进一步,在步骤1)中,数据采集以摄像机拍摄和监控录播的方式,采集学生在教室下做出不同的课堂行为,每个行为的动作视频持续采集10~20秒,通过不同拍摄角度下对每个行为随机抽取多帧图片,最终获取的图片作为学生课堂行为的样本数据集,通过labelimg标注工具对获得的具有学生课堂动作的图片进行标注,使用矩形框标注出图片中的学生和学生发出的动作位置,将标注的信息归类整合成训练标签数据。
进一步,在步骤2)中,针对密集人群复杂的课堂场景下,对训练集中的图片进行数据增强,对训练集中的图片的亮度、对比度、饱和度进行改变,以增加训练集的多样性影响;针对学生课堂行为的多样化特点,对训练集中的图片进行随机裁剪,Mosaic数据增强;针对课堂下多变的环境及噪声影响,使用随机翻转镜像的方式对训练集中的图片进行扩充。
进一步,在步骤3)中,输入训练标签数据至k-means算法中,设置n个聚类中心,从训练标签数据中随机选取n个先验框作为初始聚类中心,计算每个训练标签数据到当前已有聚类中心的欧式距离,将距离最短的训练标签数据归类至一个聚类簇,选取下一个聚类中心;重复上述步骤,直到所有聚类中心的值不再变化,当聚类中心的个数达到n时,获取最大迭代次数,将各个训练标签数据与最近的聚类中心划分为一类,最后得到9个不同尺寸的先验框。
进一步,在步骤4)中,所述改进YOLOv5检测模型的主干网络模块为CSPDarknet53,利用CSPDarknet53提取特征,主干网络模块读取输入的图像信息,进行5次下采样,获取不同尺寸目标的特征信息,在经过主干网络的BottleNeckCSP后添加CBAM注意力模块,所述CBAM注意力模块由通道注意力模块CAM和空间注意力模块SAM串联组成;
CAM将输入的特征图分别经过全局最大池化和全局平均池化后,再分别通过两层全连接层,所得到的特征进行element-wise加法操作后经过激活函数sigmoid得到最终的通道注意力特征图,将输入的特征图与通道注意力特征图进行element-wise乘法操作得到CAM输出的特征图;其过程如下公式(1)所示:
CAM(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F))) (1)
式中,CAM(F)表示经过CAM输出的特征图,F表示输入的特征图,MLP表示全连接层,AvgPool表示全局平均池化,MaxPool表示全局最大池化,σ表示sigmoid激活函数;
SAM将输入的特征图经过基于通道的全局最大池化和全局平局池化后的特征图进行concat拼接操作,然后经过7×7的卷积层和sigmoid激活函数生成空间注意力特征图,与输入的特征图相乘后得到最终输出特征图,其过程如下公式(2)所示:
SAM(F)=σ(k7([AvgPool(F)⊕MaxPool(F)])) (2)
式中,SAM(F)表示经过SAM输出的特征图,F表示输入的特征图,AvgPool表示全局平均池化,MaxPool表示全局最大池化,⊕表示concat拼接操作,k7表示7×7卷积操作,σ表示sigmoid激活函数;
所述改进YOLOv5检测模型的池化金字塔模块是将主干网络模块输出的特征图传入CSPC-SPPF池化金字塔,CSPC-SPPF池化金字塔共分为四层架构,其具体情况如下:
第一层为串联的1×1卷积操作、3×3卷积操作和1×1卷积操作,用于提取输入特征图的尺寸和增强图像像素;
第二层为SPPF空间池化金字塔,SPPF空间池化金字塔使用多级池化滑动窗口组成,滑动窗口由3个卷积核大小为5×5的全局最大池化卷积组成;
第三层为串联的1×1卷积操作、3×3卷积操作和1×1卷积操作,用于将SPPF空间池化金字塔提取的特征图进行降维操作;
第四层为CSPC特征增强,将主干网络模块输出的特征图跳跃连接后经过1×1卷积操作与第三层输出的特征图进行融合,使用CPSC结构融合特征,不仅能够减少一半的计算量,使检测速度变得快,精度也得到提升;
所述改进YOLOv5检测模型的预测模块在输出检测目标的特征前增加一个多尺度泛化检测模块SCAM用于提高检测目标的精度,多尺度泛化检测模块SCAM共分为三层架构,其具体情况如下:
第一层为分别由空洞率为1的3×3空洞卷积、空洞率为2的3×3空洞卷积、空洞率为3的3×3空洞卷积并联融合成新的特征图,从而形成多尺度特征金字塔结构增大输出特征图的感受野;
第二层将第一层融合输出的特征图使用SE注意力机制进行特征增强,所述的SE注意力机制分别由全局平均池化、全连接层和和Sigmoid激活函数组成;使用SE注意力机制将第一层融合输出的特征图聚合,形成一个局部上下文特征增强;
第三层将第二层输出的特征图与原始的特征图进行点乘操作,得到最终输出的全局上下文特征图;
通过多尺度泛化检测模块SCAM输出的检测目标的头部尺度分别为13×13、26×26、52×52的三个YOLO检测头。
进一步,所述的SE注意力机制共分为三层架构,其具体情况如下:
第一层为对并联融合输出的特征图进行全局平均池化操作,将全局空间信息压缩到通道局部因子中,从而增强空间信息的聚合,其过程如下公式(3)所示:
Figure BDA0004103461350000061
式中,i表示特征图高度的像素,j表示特征图宽度的像素,H表示特征图的高度,W表示特征图的宽度,xc表示并联融合输出的特征图,Zc表示对特征图xc在空间维度执行H×W全局平均池化后的特征图;
第二层为对Zc进行标准归一化操作,对归一化得到的线性特征进行Relu激活,然后对特征图进行全连接操作,最后经过Sigmoid激活函数获得归一化权重,其作用是为了完全捕获通道依赖关系,能够学习通道之间的非线性关系,使全连接层和非线性激活函数建立通道间的连接,其过程如下公式(4)所示:
Sc=σ(W2δ(W1Zc)) (4)
式中,W1表示Zc特征图的权重参数,σ表示sigmoid激活函数,δ表示relu激活函数,W2表示非线性映射的权重参数,Sc为激活函数获得的归一化权重;
第三层为将Zc的全局平均系数与得到的归一化权重Sc进行相乘,通过乘法得到空间局部特征因子系数逐通道加权到原始特征图每个空间上,完成通道注意力对原始特征的重新标定,从而增强特征图的全局感受野,其过程如下公式(5)所示:
Fc=Zc*Sc (5)
式中,Fc为空间局部特征因子系数。
进一步,在步骤4)中,将经步骤2)处理后的训练集中的图片输入到改进YOLOv5检测模型中进行训练,设置训练参数,加载coco预训练权重进行训练,在训练过程中,训练批次样本数batchsize设置为64,初始学习率设置为0.001,训练300个迭代次数epoch;训练优化器使用Adam优化器;在训练结束后,从保存的训练参数中选出验证集损失最小的模型参数作为检测模型的最佳模型参数;
在步骤5)中,改进YOLOv5检测模型加载获得的最佳模型参数后输入测试集中的图片,得到三个YOLO检测头的预测结果,对预测的结果进行解码操作,从而获得所有预测框所包含的预测目标的置信度、预测框包含目标的种类的概率、预测框的位置调整参数;只有置信度大于预设阈值的预测框才被保留。
进一步,在步骤6)中,对预测框做进一步的筛选,防止出现多个预测框对同一个目标重复检测的情况;将三个YOLO检测头的预测结果按照所有学生课堂行为预测框的得分排序,选中最高分及其对应的预测框,使用基于CIOU的非极大值抑制对重叠框进行剔除,对同一类的所有预测框两两之间计算CIOU,当两个框之间的CIOU大于预设阈值时,保留置信度大的作为最终预测框,置信度小的框进行丢弃。
进一步,在步骤7)中,将最终预测框检测得到的结果绘制在原始图片上,在预测框上定位出学生的坐标位置信息,并在左上角区域标记预测框的预测类别信息,从而完成学生课堂行为的检测。
本发明的第二目的通过下述技术方案实现:多尺度特征融合课堂行为检测系统,用于实现上述的多尺度特征融合课堂行为检测方法,其包括:
数据获取与处理模块,通过采集多个校园课堂监控,获取的图片作为学生课堂行为的样本数据集,将样本数据集划分为训练集、验证集和测试集,并对划分的样本进行标注和数据标签;根据学生课堂的行为特性对训练集中的图片进行数据增强处理,随机对训练集中的图片进行亮度调整、对比度调整和饱和度调整,对训练集中的图片进行随机裁剪、随机翻转镜像和Mosaic增强,扩充数据量,提高模型的泛化能力;根据处理后的训练集的图片中学生的动作和位置目标的特点,使用基于IOU的k-means聚类算法对学生课堂行为目标进行先验框的聚类,获得真实学生行为目标的9个聚类先验框;
改进YOLOv5检测模型,利用注意力机制和特征增强融合对学生的课堂行为提取出局部特征,实现在视频时序上对学生在课堂上的表现给予识别;
训练模块,用于将经数据获取与处理模块处理后的训练集中的图片输入到改进YOLOv5检测模型中进行模型训练,将数据获取与处理模块中获得的先验框的值作为改进YOLOv5检测模型的先验值,根据预设的训练迭代次数epoch进行训练,保存训练时改进YOLOv5检测模型的模型参数,将验证集损失最小的模型参数作为改进YOLOv5检测模型的最佳模型参数;
学生课堂行为检测模块,用于将改进YOLOv5检测模型加载训练模块获得的最佳模型参数后输入测试集中的图片,对模型前向传播中获得的预测结果进行解码操作,获得所有预测框中检测学生课堂行为的置信度、检测类别概率、预测框的位置调整参数,筛选出置信度大于预设阈值的预测框进行保留;对保留的预测框进行进一步的筛选,使用基于CIOU的非极大值抑制对预测框中的重叠框进行筛选,当重叠框中的CIOU值大于预设阈值时,只保留其中置信度大的预测框;将最后获得的预测框绘制在原始图片上,在预测框的左上角区域标出预测类别信息,从而完成学生课堂行为的检测。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明的核心是对摄像头传入的学生课堂行为状况进行分析,分析学生的上课情况,其中最核心的是改进YOLOv5检测模型的多尺度特征融合方法,增强对动作特征的提取,利用多尺度特征提升融合后模型的空间特征及融合效率,模型具有多尺度上下文信息的表现力。
2、本发明在原始的主干网络上添加CBAM注意力模块,CBAM注意力模块的通道空间注意力机制(通道注意力模块CAM和空间注意力模块SAM)能有效增强输入特征图的特征多样性,提升模型的训练速度及准确性。同时在通道和空间上使用注意力增强,可以提高网络的特征表达能力。其中通道注意力模块CAM能判断在多通道的特征图中进行权重的提升,空间注意力模块SAM能判别在特征图的空间域上提高特征值权重从而使得模型训练的结果更加的准确。
3、本发明提出的CSPC-SPPF池化金字塔使用多级池化滑动窗口,多层池化滑动窗口对图像的增强具有很强的鲁棒性特征;提高图像输入尺度的灵活性,在可变尺度下提取池化特征。同时使用CSPC特征增强,能够减少一半的计算量,使得速度变得快,精度反而会提升。
4、本发明提出的多尺度泛化检测模块SCAM能够增加特征的感受野,有效提升算法在学生动作检测上的效果,其结构简单并且参数量较小。多尺度泛化检测模块SCAM设置在网络检测头之前,能够对经过特征融合后的特征进行多尺度处理,是一种特征的增强方式。引入多尺度泛化检测模块SCAM的优势在于:使用空洞卷积来增大感受野;使用多尺度特征金字塔结构来增大感受野。
本发明通过引入基于注意力机制和特征增强融合对学生的动作行为提取出局部特征,对学生的动作行为进行语义标注,从而实现在视频时序上对于学生在课堂上的表现进行分析评价。通过本发明,将实时目标检测与视频行为理解相结合,能够帮助教师更加了解学生的课堂学习情况,从而改善老师的教学质量,提高学生的学习效率,有助于推动智慧课堂的发展。
综合以上论述,发明一种满足高精度和实时性的课堂行为检测方法与系统具有较高的实际应用价值。
附图说明
图1为本发明方法的流程图。
图2为改进YOLOv5检测模型的结构图。
图3为CBAM注意力模块的结构图。
图4为CSPC-SPPF池化金字塔的结构图。
图5为多尺度泛化检测模块SCAM的结构图。
图6为本发明系统的架构图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1
本实施例公开了一种基于改进YOLOv5检测模型的多尺度特征融合课堂行为检测方法,其具体情况如下:
1)建立高效真实场景下学生课堂行为数据集,通过多位志愿者参与采集,根据现实课堂场景中发生的行为,由志愿者做出相应的动作,例如玩手机、听讲、睡觉等。数据采集以摄像机拍摄和监控录播的方式,采集学生在教室下做出不同的课堂行为。每个动作视频持续采集10~20秒,将视频流数据转换成图像帧,通过不同拍摄角度下对每个行为随机抽取25帧图像,每个学生合计300张图片,最终获取的图片作为学生课堂行为的样本数据集。通过labelimg标注工具对获得的具有学生课堂动作的图片进行标注,使用矩形框标注出图片中的学生和学生发出的动作位置,将标注的信息归类整合成训练标签数据。并对数据集进行训练集、验证集和测试集的划分。
2)针对密集人群复杂的课堂场景下,对训练集中的图片进行数据增强,对训练集中的图片的亮度、对比度、饱和度进行改变,以增加训练集的多样性影响;针对学生课堂行为的多样化特点,对训练集中的图片进行随机裁剪,Mosaic数据增强;针对课堂下多变的环境及噪声影响,使用随机翻转镜像的方式对训练集中的图片进行扩充。
3)输入训练标签数据至k-means算法中,设置n个聚类中心,从训练标签数据中随机选取n个先验框作为初始聚类中心,计算每个训练标签数据到当前已有聚类中心的欧式距离,将距离最短的训练标签数据归类至一个聚类簇,选取下一个聚类中心;重复上述步骤,直到所有聚类中心的值不再变化,当聚类中心的个数达到n时,获取最大迭代次数,将各个训练标签数据与最近的聚类中心划分为一类,最后得到9个不同尺寸的先验(anchor)框。
4)构建改进的YOLOv5检测模型,模型用于高效检测学生课堂行为。该改进YOLOv5检测模型是对原来YOLOv5检测模型的主干网络模块、池化金字塔模块和预测模块都进行了改进,其中,对主干网络模块的改进是:使用CBAM注意力模块对主干网络提取的特征进行增强;对池化金字塔模块的改进是:对原来的池化金字塔引入CSPC结构,在保持感受野不变的情况下获得速度提升;对预测模块的改进是:在每个预测模块输出特征前增加一个多尺度泛化检测模块SCAM用于提高小目标检测的精度。
改进的YOLOv5检测模型结构如图2所示,主干网络模块为CSPDarknet53,利用CSPDarknet53提取特征,在经过主干网络的BottleNeckCSP后添加CBAM注意力模块。CBAM注意力模块结构如图3所示,所述CBAM注意力模块由通道注意力模块CAM和空间注意力模块SAM串联组成。
CAM将输入的特征图分别经过全局最大池化和全局平均池化后,再分别通过两层全连接层,所得到的特征进行element-wise加法操作后经过激活函数sigmoid得到最终的通道注意力特征图,将所述输入特征图与所述通道注意力特征图进行element-wise乘法操作得到CAM输出的特征图。其过程如下公式(1)所示:
CAM(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F))) (1)
式中,CAM(F)表示经过CAM输出的特征图,F表示输入的特征图,MLP表示全连接层,AvgPool表示全局平均池化,MaxPool表示全局最大池化,σ表示sigmoid激活函数。
SAM将输入特征图经过基于通道的全局最大池化和全局平局池化后的特征图进行concat拼接操作,然后经过7×7的卷积层和sigmoid激活函数生成空间注意力特征图,与所述输入特征图相乘后得到最终输出特征图。其过程如下公式(2)所示:
SAM(F)=σ(k7([AvgPool(F)⊕MaxPool(F)])) (2)
式中,SAM(F)表示经过SAM输出的特征图,F表示输入的特征图,AvgPool表示全局平均池化,MaxPool表示全局最大池化,⊕表示concat拼接操作,k7表示7×7卷积操作,σ表示sigmoid激活函数。
池化金字塔模块是将主干网络模块输出的特征图传入CSPC-SPPF池化金字塔。CSPC-SPPF池化金字塔如图4所示,CSPC-SPPF池化金字塔共分为四层架构,所述的CSPC-SPPF池化金字塔的具体情况如下:
第一层为串联的1×1卷积操作、3×3卷积操作和1×1卷积操作,用于提取输入特征图的尺寸和增强图像像素。
第二层为SPPF空间池化金字塔,SPPF空间池化金字塔使用多级池化滑动窗口组成,滑动窗口由3个卷积核大小为5×5的全局最大池化卷积组成。
第三层为串联的1×1卷积操作、3×3卷积操作和1×1卷积操作,用于将SPPF空间池化金字塔提取的特征图进行降维操作。
第四层为CSPC特征增强,将主干网络模块输出的特征图跳跃连接后经过1×1卷积操作与第三层输出的特征图进行融合。使用CPSC结构融合特征,不仅能够减少一半的计算量,使检测速度变得快,精度也得到提升。
预测模块在输出检测目标的特征前增加一个多尺度泛化检测模块SCAM用于提高检测目标的精度;多尺度泛化检测模块SCAM结构如图5所示,多尺度泛化检测模块SCAM共分为3层架构,所述的多尺度泛化检测模块SCAM的具体情况如下:
第一层为分别由空洞率为1的3×3空洞卷积,空洞率为2的3×3空洞卷积、空洞率为3的3×3空洞卷积并联融合成新的特征图,从而形成多尺度特征金字塔结构增大输出特征图的感受野。
第二层将第一层融合输出的特征图使用SE注意力机制进行特征增强。所述的SE注意力机制分别由全局平均池化、全连接层和和Sigmoid激活函数组成;使用SE注意力机制将第一层融合输出的特征图聚合,形成一个局部上下文特征增强。所述的SE注意力机制的具体情况如下:
第一层为对并联融合输出的特征图进行全局平均池化操作,将全局空间信息压缩到通道局部因子中,从而增强空间信息的聚合。其过程如下公式(3)所示:
Figure BDA0004103461350000141
式中,i表示特征图高度的像素,j表示特征图宽度的像素,H表示特征图的高度,W表示特征图的宽度,xc表示并联融合输出的特征图,Zc表示对特征xc在空间维度执行H×W全局平均池化后的特征图。
第二层为对Zc进行标准归一化操作,对归一化得到的线性特征进行Relu激活,然后对特征图进行全连接操作。最后经过Sigmoid激活函数获得归一化权重。其作用是为了完全捕获通道依赖关系,能够学习通道之间的非线性关系。使全连接层和非线性激活函数建立通道间的连接。其过程如下公式(4)所示:
Sc=σ(W2δ(W1Zc)) (4)
式中,W1表示Zc特征图的权重参数,σ表示sigmoid激活函数,δ表示relu激活函数,W2表示非线性映射的权重参数,Sc为激活函数获得归一化权重。
第三层为将Zc的全局平均系数与得到的归一化权重Sc进行相乘,通过乘法得到空间局部特征因子系数逐通道加权到原始特征图每个空间上,完成通道注意力对原始特征的重新标定。从而增强特征图的全局感受野。其过程如下公式(5)所示:
Fc=Zc*Sc (5)
式中,Fc为空间局部特征因子系数。
多尺度泛化检测模块SCAM的第三层将第二层输出的特征图与原始的特征图进行点乘操作,得到最终输出的全局上下文特征图,通过多尺度泛化检测模块SCAM输出的检测目标的头部尺度分别为13×13、26×26、52×52的三个YOLO检测头。
5)将训练集中的图片输入到改进YOLOv5检测模型中进行训练,设置训练参数,加载coco预训练权重进行训练,在训练过程中,训练批次样本数(batchsize)设置为64,初始学习率设置为0.001,训练300个迭代次数(epoch);训练优化器使用Adam优化器;观察训练过程中的损失曲线的变化,防止模型出现过拟合的情况,每隔1个epoch保存一次训练参数,同时每隔5个epoch对训练参数进行模型推理验证,从保存的训练参数中选出验证集损失最小的模型参数作为检测模型的最佳模型参数。
6)改进YOLOv5检测模型加载获得的最佳模型参数后输入测试集中的图片,得到三个YOLO检测头的预测结果,对预测的结果进行解码操作,从而获得所有预测框所包含的预测目标的置信度、预测框包含目标的种类的概率、预测框的位置调整参数;将置信度的阈值设置为0.6,当预测框的置信度大于0.6的时候才被保留,对置信度小于0.6的预测框进行剔除。
7)对预测框做进一步的筛选,防止出现多个预测框对同一个目标重复检测的情况;使用基于CIOU的非极大值抑制对重叠框进行剔除,对同一类的所有预测框两两之间计算CIOU,当两个框之间的CIOU大于预设阈值时,保留置信度大的作为最终预测框,置信度小的框进行丢弃。
8)将最终预测框检测得到的结果绘制在原始图片上,使用opencv的rectangle函数画矩形框,在矩形框上定位出学生的坐标位置信息,并在左上角区域使用opencv的putText函数标记预测框的预测类别信息,从而完成学生课堂行为的检测。
实施例2
本实施例公开了一种基于改进YOLOv5检测模型的多尺度特征融合课堂行为检测系统,用于实现实施例1所述的多尺度特征融合课堂行为检测方法,如图6所示,该系统包括以下功能模块:
数据获取与处理模块,通过采集多个校园课堂监控,获取的图片作为学生课堂行为的样本数据集,将样本数据集划分为训练集、验证集和测试集,并对划分的样本进行标注和数据标签;根据学生课堂的行为特性对训练集中的图片进行数据增强处理,随机对训练集中的图片进行亮度调整、对比度调整和饱和度调整,对训练集中的图片进行随机裁剪、随机翻转镜像和Mosaic增强,扩充数据量,提高模型的泛化能力;根据处理后的训练集的图片中学生的动作和位置目标的特点,使用基于IOU的k-means聚类算法对学生课堂行为目标进行先验框的聚类,获得真实学生行为目标的9个聚类先验框;
改进YOLOv5检测模型,利用注意力机制和特征增强融合对学生的课堂行为提取出局部特征,实现在视频时序上对学生在课堂上的表现给予识别;
训练模块,用于将经数据获取与处理模块处理后的训练集中的图片输入到改进YOLOv5检测模型中进行模型训练,将数据获取与处理模块中获得的先验框的值作为改进YOLOv5检测模型的先验值,根据预设的训练迭代次数(epoch)进行训练,保存训练时改进YOLOv5检测模型的模型参数,将验证集损失最小的模型参数作为改进YOLOv5检测模型的最佳模型参数;
学生课堂行为检测模块,用于将改进YOLOv5检测模型加载训练模块获得的最佳模型参数后输入测试集中的图片,对模型前向传播中获得的预测结果进行解码操作,获得所有预测框中检测学生课堂行为的置信度、检测类别概率、预测框的位置调整参数,筛选出置信度大于预设阈值的预测框进行保留;对保留的预测框进行进一步的筛选,使用基于CIOU的非极大值抑制对预测框中的重叠框进行筛选,当重叠框中的CIOU值大于预设阈值时,只保留其中置信度大的预测框;将最后获得的预测框绘制在原始图片上,在预测框的左上角区域标出预测类别信息,从而完成学生课堂行为的检测。
实施例3
本实施例公开了一种存储介质,存储有程序,所述程序被处理器执行时,实现实施例1所述的多尺度特征融合课堂行为检测方法。
本实施例中的存储介质可以是磁盘、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、U盘、移动硬盘等介质。
实施例4
本实施例公开了一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现实施例1所述的多尺度特征融合课堂行为检测方法。
本实施例中所述的计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑、可编程逻辑控制器(PLC,Programmable Logic Controller)、或其它具有处理器功能的终端设备。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.多尺度特征融合课堂行为检测方法,其特征在于,该方法是基于改进YOLOv5检测模型实现学生课堂行为的精准检测,该改进YOLOv5检测模型是对原来YOLOv5检测模型的主干网络模块、池化金字塔模块和预测模块都进行了改进,其中,对主干网络模块的改进是:使用CBAM注意力模块对主干网络提取的特征进行增强;对池化金字塔模块的改进是:对原来的池化金字塔引入CSPC结构,在保持感受野不变的情况下获得速度提升;对预测模块的改进是:在每个预测模块输出特征前增加一个多尺度泛化检测模块SCAM用于提高小目标检测的精度;
该多尺度特征融合课堂行为检测方法的具体实施包括以下步骤:
1)前期数据采集构建,通过采集多个校园课堂监控,获取的图片作为学生课堂行为的样本数据集,将样本数据集划分为训练集、验证集和测试集,并对划分的样本进行标注和数据标签;
2)根据学生课堂的行为特性对训练集中的图片进行数据增强处理,随机对训练集中的图片进行亮度调整、对比度调整和饱和度调整,对训练集中的图片进行随机裁剪、随机翻转镜像和Mosaic增强,扩充数据量,提高模型的泛化能力;
3)根据处理后的训练集的图片中学生的动作和位置目标的特点,使用基于IOU的k-means算法对学生课堂行为目标进行先验框的聚类,获得真实学生行为目标的9个聚类先验框;
4)将经步骤2)处理后的训练集中的图片输入到改进YOLOv5检测模型中进行模型训练,将步骤3)中获得的先验框的值作为改进YOLOv5检测模型的先验值,根据预设的训练迭代次数epoch进行训练,保存训练时改进YOLOv5检测模型的模型参数,将验证集损失最小的模型参数作为改进YOLOv5检测模型的最佳模型参数;
5)改进YOLOv5检测模型加载步骤4)获得的最佳模型参数后输入测试集中的图片,对模型前向传播中获得的预测结果进行解码操作,获得所有预测框中检测学生课堂行为的置信度、检测类别概率、预测框的位置调整参数,筛选出置信度大于预设阈值的预测框进行保留;
6)对保留的预测框进行进一步的筛选,使用基于CIOU的非极大值抑制对预测框中的重叠框进行筛选,当重叠框中的CIOU值大于预设阈值时,只保留其中置信度大的预测框;
7)将最后获得的预测框绘制在原始图片上,在预测框的左上角区域标出预测类别信息,从而完成学生课堂行为的检测。
2.根据权利要求1所述的多尺度特征融合课堂行为检测方法,其特征在于,在步骤1)中,数据采集以摄像机拍摄和监控录播的方式,采集学生在教室下做出不同的课堂行为,每个行为的动作视频持续采集10~20秒,通过不同拍摄角度下对每个行为随机抽取多帧图片,最终获取的图片作为学生课堂行为的样本数据集,通过labelimg标注工具对获得的具有学生课堂动作的图片进行标注,使用矩形框标注出图片中的学生和学生发出的动作位置,将标注的信息归类整合成训练标签数据。
3.根据权利要求2所述的多尺度特征融合课堂行为检测方法,其特征在于,在步骤2)中,针对密集人群复杂的课堂场景下,对训练集中的图片进行数据增强,对训练集中的图片的亮度、对比度、饱和度进行改变,以增加训练集的多样性影响;针对学生课堂行为的多样化特点,对训练集中的图片进行随机裁剪,Mosaic数据增强;针对课堂下多变的环境及噪声影响,使用随机翻转镜像的方式对训练集中的图片进行扩充。
4.根据权利要求3所述的多尺度特征融合课堂行为检测方法,其特征在于,在步骤3)中,输入训练标签数据至k-means算法中,设置n个聚类中心,从训练标签数据中随机选取n个先验框作为初始聚类中心,计算每个训练标签数据到当前已有聚类中心的欧式距离,将距离最短的训练标签数据归类至一个聚类簇,选取下一个聚类中心;重复上述步骤,直到所有聚类中心的值不再变化,当聚类中心的个数达到n时,获取最大迭代次数,将各个训练标签数据与最近的聚类中心划分为一类,最后得到9个不同尺寸的先验框。
5.根据权利要求4所述的多尺度特征融合课堂行为检测方法,其特征在于,在步骤4)中,所述改进YOLOv5检测模型的主干网络模块为CSPDarknet53,利用CSPDarknet53提取特征,主干网络模块读取输入的图像信息,进行5次下采样,获取不同尺寸目标的特征信息,在经过主干网络的BottleNeckCSP后添加CBAM注意力模块,所述CBAM注意力模块由通道注意力模块CAM和空间注意力模块SAM串联组成;
CAM将输入的特征图分别经过全局最大池化和全局平均池化后,再分别通过两层全连接层,所得到的特征进行element-wise加法操作后经过激活函数sigmoid得到最终的通道注意力特征图,将输入的特征图与通道注意力特征图进行element-wise乘法操作得到CAM输出的特征图;其过程如下公式(1)所示:
CAM(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F))) (1)
式中,CAM(F)表示经过CAM输出的特征图,F表示输入的特征图,MLP表示全连接层,AvgPool表示全局平均池化,MaxPool表示全局最大池化,σ表示sigmoid激活函数;
SAM将输入的特征图经过基于通道的全局最大池化和全局平局池化后的特征图进行concat拼接操作,然后经过7×7的卷积层和sigmoid激活函数生成空间注意力特征图,与输入的特征图相乘后得到最终输出特征图,其过程如下公式(2)所示:
Figure FDA0004103461340000041
式中,SAM(F)表示经过SAM输出的特征图,F表示输入的特征图,AvgPool表示全局平均池化,MaxPool表示全局最大池化,
Figure FDA0004103461340000042
表示concat拼接操作,k7表示7×7卷积操作,σ表示sigmoid激活函数;
所述改进YOLOv5检测模型的池化金字塔模块是将主干网络模块输出的特征图传入CSPC-SPPF池化金字塔,CSPC-SPPF池化金字塔共分为四层架构,其具体情况如下:
第一层为串联的1×1卷积操作、3×3卷积操作和1×1卷积操作,用于提取输入特征图的尺寸和增强图像像素;
第二层为SPPF空间池化金字塔,SPPF空间池化金字塔使用多级池化滑动窗口组成,滑动窗口由3个卷积核大小为5×5的全局最大池化卷积组成;
第三层为串联的1×1卷积操作、3×3卷积操作和1×1卷积操作,用于将SPPF空间池化金字塔提取的特征图进行降维操作;
第四层为CSPC特征增强,将主干网络模块输出的特征图跳跃连接后经过1×1卷积操作与第三层输出的特征图进行融合,使用CPSC结构融合特征,不仅能够减少一半的计算量,使检测速度变得快,精度也得到提升;
所述改进YOLOv5检测模型的预测模块在输出检测目标的特征前增加一个多尺度泛化检测模块SCAM用于提高检测目标的精度,多尺度泛化检测模块SCAM共分为三层架构,其具体情况如下:
第一层为分别由空洞率为1的3×3空洞卷积、空洞率为2的3×3空洞卷积、空洞率为3的3×3空洞卷积并联融合成新的特征图,从而形成多尺度特征金字塔结构增大输出特征图的感受野;
第二层将第一层融合输出的特征图使用SE注意力机制进行特征增强,所述的SE注意力机制分别由全局平均池化、全连接层和和Sigmoid激活函数组成;使用SE注意力机制将第一层融合输出的特征图聚合,形成一个局部上下文特征增强;
第三层将第二层输出的特征图与原始的特征图进行点乘操作,得到最终输出的全局上下文特征图;
通过多尺度泛化检测模块SCAM输出的检测目标的头部尺度分别为13×13、26×26、52×52的三个YOLO检测头。
6.根据权利要求5所述的多尺度特征融合课堂行为检测方法,其特征在于,所述的SE注意力机制共分为三层架构,其具体情况如下:
第一层为对并联融合输出的特征图进行全局平均池化操作,将全局空间信息压缩到通道局部因子中,从而增强空间信息的聚合,其过程如下公式(3)所示:
Figure FDA0004103461340000051
式中,i表示特征图高度的像素,j表示特征图宽度的像素,H表示特征图的高度,W表示特征图的宽度,xc表示并联融合输出的特征图,Zc表示对特征图xc在空间维度执行H×W全局平均池化后的特征图;
第二层为对Zc进行标准归一化操作,对归一化得到的线性特征进行Relu激活,然后对特征图进行全连接操作,最后经过Sigmoid激活函数获得归一化权重,其作用是为了完全捕获通道依赖关系,能够学习通道之间的非线性关系,使全连接层和非线性激活函数建立通道间的连接,其过程如下公式(4)所示:
Sc=σ(W2δ(W1Zc)) (4)
式中,W1表示Zc特征图的权重参数,σ表示sigmoid激活函数,δ表示relu激活函数,W2表示非线性映射的权重参数,Sc为激活函数获得的归一化权重;
第三层为将Zc的全局平均系数与得到的归一化权重Sc进行相乘,通过乘法得到空间局部特征因子系数逐通道加权到原始特征图每个空间上,完成通道注意力对原始特征的重新标定,从而增强特征图的全局感受野,其过程如下公式(5)所示:
Fc=Zc*Sc (5)
式中,Fc为空间局部特征因子系数。
7.根据权利要求6所述的多尺度特征融合课堂行为检测方法,其特征在于,在步骤4)中,将经步骤2)处理后的训练集中的图片输入到改进YOLOv5检测模型中进行训练,设置训练参数,加载coco预训练权重进行训练,在训练过程中,训练批次样本数batchsize设置为64,初始学习率设置为0.001,训练300个迭代次数epoch;训练优化器使用Adam优化器;在训练结束后,从保存的训练参数中选出验证集损失最小的模型参数作为检测模型的最佳模型参数;
在步骤5)中,改进YOLOv5检测模型加载获得的最佳模型参数后输入测试集中的图片,得到三个YOLO检测头的预测结果,对预测的结果进行解码操作,从而获得所有预测框所包含的预测目标的置信度、预测框包含目标的种类的概率、预测框的位置调整参数;只有置信度大于预设阈值的预测框才被保留。
8.根据权利要求7所述的多尺度特征融合课堂行为检测方法,其特征在于,在步骤6)中,对预测框做进一步的筛选,防止出现多个预测框对同一个目标重复检测的情况;将三个YOLO检测头的预测结果按照所有学生课堂行为预测框的得分排序,选中最高分及其对应的预测框,使用基于CIOU的非极大值抑制对重叠框进行剔除,对同一类的所有预测框两两之间计算CIOU,当两个框之间的CIOU大于预设阈值时,保留置信度大的作为最终预测框,置信度小的框进行丢弃。
9.根据权利要求8所述的多尺度特征融合课堂行为检测方法,其特征在于,在步骤7)中,将最终预测框检测得到的结果绘制在原始图片上,在预测框上定位出学生的坐标位置信息,并在左上角区域标记预测框的预测类别信息,从而完成学生课堂行为的检测。
10.多尺度特征融合课堂行为检测系统,其特征在于,用于实现权利要求1至9中任一项所述的多尺度特征融合课堂行为检测方法,其包括:
数据获取与处理模块,通过采集多个校园课堂监控,获取的图片作为学生课堂行为的样本数据集,将样本数据集划分为训练集、验证集和测试集,并对划分的样本进行标注和数据标签;根据学生课堂的行为特性对训练集中的图片进行数据增强处理,随机对训练集中的图片进行亮度调整、对比度调整和饱和度调整,对训练集中的图片进行随机裁剪、随机翻转镜像和Mosaic增强,扩充数据量,提高模型的泛化能力;根据处理后的训练集的图片中学生的动作和位置目标的特点,使用基于IOU的k-means聚类算法对学生课堂行为目标进行先验框的聚类,获得真实学生行为目标的9个聚类先验框;
改进YOLOv5检测模型,利用注意力机制和特征增强融合对学生的课堂行为提取出局部特征,实现在视频时序上对学生在课堂上的表现给予识别;
训练模块,用于将经数据获取与处理模块处理后的训练集中的图片输入到改进YOLOv5检测模型中进行模型训练,将数据获取与处理模块中获得的先验框的值作为改进YOLOv5检测模型的先验值,根据预设的训练迭代次数epoch进行训练,保存训练时改进YOLOv5检测模型的模型参数,将验证集损失最小的模型参数作为改进YOLOv5检测模型的最佳模型参数;
学生课堂行为检测模块,用于将改进YOLOv5检测模型加载训练模块获得的最佳模型参数后输入测试集中的图片,对模型前向传播中获得的预测结果进行解码操作,获得所有预测框中检测学生课堂行为的置信度、检测类别概率、预测框的位置调整参数,筛选出置信度大于预设阈值的预测框进行保留;对保留的预测框进行进一步的筛选,使用基于CIOU的非极大值抑制对预测框中的重叠框进行筛选,当重叠框中的CIOU值大于预设阈值时,只保留其中置信度大的预测框;将最后获得的预测框绘制在原始图片上,在预测框的左上角区域标出预测类别信息,从而完成学生课堂行为的检测。
CN202310185147.1A 2023-03-01 2023-03-01 多尺度特征融合课堂行为检测方法与系统 Pending CN116229319A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310185147.1A CN116229319A (zh) 2023-03-01 2023-03-01 多尺度特征融合课堂行为检测方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310185147.1A CN116229319A (zh) 2023-03-01 2023-03-01 多尺度特征融合课堂行为检测方法与系统

Publications (1)

Publication Number Publication Date
CN116229319A true CN116229319A (zh) 2023-06-06

Family

ID=86590675

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310185147.1A Pending CN116229319A (zh) 2023-03-01 2023-03-01 多尺度特征融合课堂行为检测方法与系统

Country Status (1)

Country Link
CN (1) CN116229319A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116665283A (zh) * 2023-07-31 2023-08-29 长春大学 一种课堂面部数据集的构建方法及系统
CN116935069A (zh) * 2023-09-15 2023-10-24 山东未来网络研究院(紫金山实验室工业互联网创新应用基地) 基于改进注意力机制的人机不同步检测方法、装置和介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116665283A (zh) * 2023-07-31 2023-08-29 长春大学 一种课堂面部数据集的构建方法及系统
CN116665283B (zh) * 2023-07-31 2023-12-15 长春大学 一种课堂面部数据集的构建方法及系统
CN116935069A (zh) * 2023-09-15 2023-10-24 山东未来网络研究院(紫金山实验室工业互联网创新应用基地) 基于改进注意力机制的人机不同步检测方法、装置和介质
CN116935069B (zh) * 2023-09-15 2023-11-21 山东未来网络研究院(紫金山实验室工业互联网创新应用基地) 基于改进注意力机制的人机不同步检测方法、装置和介质

Similar Documents

Publication Publication Date Title
Liu et al. Picanet: Learning pixel-wise contextual attention for saliency detection
Ohn-Bar et al. To boost or not to boost? on the limits of boosted trees for object detection
CN108229338B (zh) 一种基于深度卷积特征的视频行为识别方法
CN111126258B (zh) 图像识别方法及相关装置
CN110889672B (zh) 一种基于深度学习的学生打卡及上课状态的检测系统
CN116229319A (zh) 多尺度特征融合课堂行为检测方法与系统
CN108960207A (zh) 一种图像识别的方法、系统及相关组件
CN113011357B (zh) 基于时空融合的深度伪造人脸视频定位方法
CN110059728B (zh) 基于注意力模型的rgb-d图像视觉显著性检测方法
CN113822951B (zh) 图像处理方法、装置、电子设备及存储介质
CN110705566B (zh) 一种基于空间金字塔池的多模态融合显著性检测方法
CN113239916B (zh) 一种表情识别及课堂状态评估方法、设备及介质
CN110532959B (zh) 基于双通道三维卷积神经网络的实时暴力行为检测系统
CN112528777A (zh) 一种用于课堂环境下的学生面部表情识别方法及系统
CN112580458A (zh) 人脸表情识别方法、装置、设备及存储介质
CN114266988A (zh) 基于对比学习的无监督视觉目标跟踪方法及系统
Wang et al. Yolov5 enhanced learning behavior recognition and analysis in smart classroom with multiple students
Zhao et al. Cbph-net: A small object detector for behavior recognition in classroom scenarios
CN113283334B (zh) 一种课堂专注度分析方法、装置和存储介质
Liu et al. Student behavior recognition from heterogeneous view perception in class based on 3-D multiscale residual dense network for the analysis of case teaching
CN114550110A (zh) 一种基于无监督域适应的车辆重识别方法及系统
Zhang et al. Temporal transformer networks with self-supervision for action recognition
CN111242114B (zh) 文字识别方法及装置
CN111325149B (zh) 一种基于投票的时序关联模型的视频动作识别方法
TWI809957B (zh) 物件偵測方法及電子裝置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination