CN117523677A

CN117523677A - 一种基于深度学习的课堂行为识别方法

Info

Publication number: CN117523677A
Application number: CN202410008859.0A
Authority: CN
Inventors: 姜明华; 郑兴伟; 余锋; 王成; 刘莉; 周昌龙; 宋坤芳
Original assignee: Wuhan Textile University
Current assignee: Wuhan Textile University
Priority date: 2024-01-02
Filing date: 2024-01-02
Publication date: 2024-02-06

Abstract

本发明公开了一种基于深度学习的课堂行为识别方法，所述方法包括以下步骤：S1：设计适用于课堂监控的基于深度学习的课堂行为识别模型，包括关键点提取模块、基于频域变化的特征增强模块和行为识别模块；S2：训练设计好的基于深度学习的课堂行为识别模型，得到训练好的基于深度学习的课堂行为识别模型；S3：使用训练好的基于深度学习的课堂行为识别模型来识别实时课堂监控图片，生成学生行为分类的预测结果。本发明通过关键点提取模块获取人体关键点热图并入栈堆叠组成3D热图，通过基于频域变化的特征增强模块生成2D特征图并入栈堆叠组成3D特征图，将3D热图和3D特征图同时输入行为识别模块进行分类，提高对课堂行为识别的准确率。

Description

一种基于深度学习的课堂行为识别方法

技术领域

本发明涉及教育领域，尤其涉及一种基于深度学习的课堂行为识别方法。

背景技术

随着人工智能在教育领域迅速发展，视觉行为检测技术被应用于教育领域，通过准确分析监控视频中学生的行为，以评估他们在不同学习阶段的表现，为教师、管理者、学生和家长提供实际参考。传统教学中，教师难以同时关注到所有学生，只能通过观察少数学生来了解教学方法的效果；学校管理者则需要实地观察和分析学生成绩报告，以发现教育教学中存在的问题；家长只能通过教师和学生的反馈间接了解学生的学习情况。因此，近年来，许多研究者采用计算机视觉技术来自动检测学生在课堂上的行为。这种方法利用视觉行为检测技术，从监控视频中准确地识别学生的行为，并进一步分析学生的上课状态。通过这种方式，教师、管理者、学生和家长可以获得客观的学习表现评估。这种技术在学校教育中具有重要意义，为教师提供了更全面的反馈信息，帮助他们改进教学方法；管理者可以更准确地评估学校教育教学质量；家长可以直接观察学生的学习情况，更好地支持他们的成长。

然而，课堂行为识别面临的问题是如何精准地识别每个人的行为。同时能够更好的适应光照、多人重叠、遮挡等复杂场景。传统的课堂行为识别方法通常依赖于特征工程和人工设计的规则，需要手动提取和选择特征，且对于复杂的学生行为模式可能无法很好地适应和泛化。

公开号为CN111738177A的中国专利公开了“一种基于姿态信息提取的学生课堂行为识别方法”，使用姿态估计与关键点相对位置来识别行为，可以对学生行为进行识别且有较快较好的效果，受背景以及光线等多种噪声影响的复杂场景而言，仅使用静态图的姿态估计网络进行行为识别其精度是不够的。

因此，亟待设计一种基于深度学习的课堂行为识别方法，解决上述现有技术中存在的问题。

发明内容

本发明的目的在于提供一种基于深度学习的课堂行为识别方法，本发明通过关键点提取模块获取人体关键点热图并入栈堆叠组成3D热图，通过基于频域变化的特征增强模块生成2D特征图并入栈堆叠组成3D特征图，将3D热图和3D特征图同时输入行为识别模块进行分类，提高对课堂行为识别的准确率。

为了实现上述目的，本发明采用了如下技术方案：

本发明第一方面提供了一种基于深度学习的课堂行为识别方法，所述方法包括以下步骤：

S1：设计适用于课堂监控的基于深度学习的课堂行为识别模型，所述基于深度学习的课堂行为识别模型包括关键点提取模块、基于频域变化的特征提取模块和行为识别模块；具体步骤包括：

S11：监控图像经过数据增强后进行分支，所述分支包括Fs分支和Sl分支；

S12：将所述Fs分支的特征图输入关键点提取模块，提取人体关键点热图，将所述关键点热图入栈沿时间轴堆叠组成3D热图；

S13：将所述Sl分支的特征图通过基于频域变化的特征提取模块后，生成的2D特征图入栈沿着时间轴堆叠组成3D特征图；

S14：将所述3D热图和所述3D特征图同时输入行为识别模块，得到最终的行为分类结果；

S2：训练设计好的基于深度学习的课堂行为识别模型，得到训练好的基于深度学习的课堂行为识别模型；

S3：使用训练好的基于深度学习的课堂行为识别模型来识别实时课堂监控图像，生成学生行为分类的预测结果。

作为本申请一实施例，所述步骤S12中所述关键点提取模块具体包括：

S121:所述Fs分支的特征图通过特征提取后得到四个不同尺度的特征图，分别表示为M₁、M₂、M₃、M₄；其中M₁具有最多的空间信息，M₄具有最多的深度信息;

S122:对特征图M_k（k∈{2,3,4}）进行1×1卷积操作,再经过一个ReLU激活函数,然后做双线性插值的上采样操扩大尺度并与M_k-1（k∈{2,3,4}）拼接，最后经过3个C3模块和一个1×1的卷积操作生成4个新特征图U_k（k∈{1,2,3,4}且M₄=U₄）；

S123：对每个所述新特征图U_k（k∈{1,2,3,4}且M4=U4），通过优化模块后，再进行拼接操作得到3个不同尺度的特征图（k∈{1,2,3}），计算公式如下：

其中，B表示特征优化模块，k-1表示特征图处理的次数；

S124：3个不同尺度的所述特征图（k∈{1,2,3}）经过检测头后获得检测结果q，检测结果q表示2D姿态，所述2D姿态包括检测目标类别cls、检测目标置信度得分C_cls、候选框定位信息reg和相应的关键点信息key，其中，关键点信息key包括12对三元坐标,其坐标形式表示为（/>，/>，/>）；

S125：所述关键点信息key中的坐标三元组（，/>，/>），通过组合以每个关键点为中心的k个高斯映射来获得人体关节热图/>，其计算公式如下：

其中，σ是高斯映射的方差；(，/>），/>分别表示第k个关节的位置和置信度得分；i，j表示热图的散点

肢体的热图计算公式如下：

其中，第k个肢体位于两个关键点和/>之间，g表示点(i，j)到线段[(/>,/>),(/>,/>)]的距离的函数，/>表示/>和/>相连接的线段，生成的关节热图/>与肢体热图/>通过与0值填充的同尺度特征图相加得到大小为K×H×W的人体2D骨骼热图，其中，K是关节数，H和W是帧的高度和宽度；

S126：将大小为K×H×W的人体2D骨骼热图通过入栈的方式堆积T个热图来获得大小为K×T×H×W的3D骨骼关键点热图，其中，T表示热图帧的个数。

作为本申请一实施例，所述新特征图U_k（k∈{1,2,3,4}且M₄=U₄）经过所述特征优化模块时分为两个分支，第一分支经过1个1×1的卷积层，第二分支经过1个1×1卷积层、1个3×3卷积层，1个1×1卷积层和通道加权机制后与第一分支拼接，输出新的特征图。

作为本申请一实施例，所述通道加权机制具体包括：

将输入的经过三个卷积层后的特征图同时进行平均池化、最大池化、LP池化操作；

然后经过多层感知机，再通过三个sigmoid激活函数激活后并相加；

将经过三个sigmoid激活函数相加后的特征图与最初输入的经过三个卷积层后的特征图相乘后在通道维度上进行拼接并输出。

作为本申请一实施例，所述步骤S13中基于频域变化的特征提取模块具体包括：

S131:将Sl分支的特征图进行灰度处理转化成尺寸大小为M×N的灰度图像z,对调整尺寸后的灰度图像z进行补零操作，用于扩展图像的尺寸为；

S132:对补零后的灰度图像z应用二维离散傅里叶变换计算变换后的频谱，计算公式如下：

其中，为欧拉公式，/>表示频谱中的复数值，/>表示输入图像中的像素值，/>表示频域中的频率分量；

S133：对于傅里叶变换后的频谱，低频分量位于频谱的四个角，而高频分量位于频谱的中心，通过将频谱中心移动到图像中心来进行中心化，其计算公式如下：

其中，表示中心化后的频谱，/>表示频域分量，从中心化的频谱中，计算幅度谱和相位谱，所述幅度谱通过取频谱的绝对值获得，所述幅度谱表示不同频率分量的强度信息，所述相位谱通过取频谱的角度获得，所述相位谱表示不同频率分量的相位信息；

S134：将经过傅里叶变换后的灰度图像z的尺寸调整到大小为16×H×W，通道通过复制扩充到3，然后以T/4张为单位入栈组成3D特征图Q_I。

作为本申请一实施例，所述步骤S14中行为识别模块具体包括：

S141：所述3D骨骼关键点热图Q_pose和3D特征图Q_I进入批量归一化层进行批量归一化，所述3D骨骼关键点热图Q_pose通过归一化得到的特征图的分支为Fs’,所述3D特征图Q_I通过归一化得到的特征图的分支为Sl’；

S142：所述特征图的分支Fs’经过r2,r3,r4共3大3D卷积模块的卷积，所述特征图的分支Sl’经过r1,r2,r3,r4共四大3D卷积模块的卷积，其中所述特征图的分支Sl’在r2,r3,r4卷积模块的中间阶段时，所述特征图的分支Fs’分支与所述特征图的分支Sl’分支通过3D特征融合模块进行特征融合；

S143：所述特征图的分支Fs’与所述特征图的分支Sl’分别经过全局平均池化，再经过一个全连层后相加得到行为分类结果。

作为本申请一实施例，所述3D特征融合模块为添加时空注意力机制的特征融合模块，其具体包括：

S1421：将不同尺度的3D特征图表示为,每个特征图的维度为(/>,/>,/>,/>),3D骨骼关键点特征图表示为/>,维度为(/>,/>,/>,/>)，其中i表示经过/>卷积后的特征图，所述Fs’分支和Sl’分支具有相同的长与宽，Fs’分支的时间分量是Sl’分支的4倍；

S1422：对经过ri的两个分支的特征图进行预处理，使其具有相同的通道数，公式如下：

其中，表示Sl’分支的特征图经过通道调整后的结果，/>表示Fs’分支的特征图经过通道调整后的结果；其中，/>表示使用1x1x1的卷积核进行卷积，以调整通道数至/>；

S1423：应用自注意力机制来增强Sl’分支和Fs’分支的特征图，计算公式为：

其中，表示自注意力机制，其计算公式为：

其中，Q,K,V分别表示查询、键、值，表示键的维度，用于缩放点积的结果；

S1424：将经过自注意力处理的Sl’分支和Fs’分支的特征图进行加权融合，计算公式为：

其中，为权重因子，/>为融合后的特征图。

作为本申请一实施例，所述步骤S2中训练所述基于深度学习的课堂行为识别模型具体包括：

S21：首先设计损失函数，对所述关键点提取模块的网络进行训练，获得候选框定位信息与关键点信息；

S22：通过人为堆叠关键点3D热图和3D特征图，人为标注学生行为分类，所述学生行为分类包括睡觉、玩手机、阅读、写字；

S23：将3D热图和3D特征图输入行为识别模块，并设计分类损失函数对行为识别模块进行训练，得到训练好的基于深度学习的课堂行为识别模型。

作为本申请一实施例，所述损失函数包括关键点坐标损失函数loss_pose和置信度损失函数loss_conf；

所述关键点坐标损失函数公式表示如下：

其中，表示第p个目标的第k个关键点；/>表示/>的可见性；/>表示图像中的第p个目标区域所占的面积；δ是第k个关键点的归一化因子，通过预测位置与真实值之间的标准差计算得到δ；

所述置信度损失loss_conf公式为：

其中，为/>时的值,/>表示第k个关键点预测的置信度；log是自然对数。

作为本申请一实施例，所述分类损失函数用于衡量模型预测的概率分布和真实标签之间的差异，所述分类损失函数公式为：

其中，表示批次中的样本数，/>表示类别数，/>表示第K个样本是否属于第c个类别的指示，/>表示模型预测第K个样本属于第c个类别的概率；/>是正则化损失，用于降低过拟合的风险，/>表示所有网络权重，/>表示正则化系数，/>表示正则化系数，t为超参数，/>代表第c类的样本数量，/>表示中间变量。

本发明的有益效果为：

（1）本发明通过关键点提取模块获取人体关键点热图并入栈堆叠组成3D热图，通过基于频域变化的特征增强模块生成2D特征图并入栈堆叠组成3D特征图，将3D热图和3D特征图同时输入行为识别模块进行分类，提高对课堂行为识别的准确率。

（2）本发明通过在关键点提取模块通过通道加权机制与不同尺度特征融合的方式加强目标关键点对小目标的识别效果，为后面的行为识别模块提升精度。

（3）本发明使用创新的损失函数，使模型训练的更加关注难以分类的类别，同时训练效果更好，更加符合课堂场景，相比于使用常见的损失函数其准确率提高了5个百分点左右。

（4）本发明通过将3D热图和3D特征图通过堆叠入栈的方式输入3D卷积网络，3D热图中的骨骼数据关注时空信息，3D特征图关注静态信息，引入3D特征融合模块交换融合骨骼分支与图像分支的特征图，使得模型更好的区分多人骨骼，提升课堂行为识别的准确率。

附图说明

图1为本发明实施例中提供的一种基于深度学习的课堂行为识别方法的技术方案流程图；

图2为本发明实施例中提供的一种基于深度学习的课堂行为识别方法的模型模块示意图；

图3为本发明实施例中提供的一种基于深度学习的课堂行为识别方法的关键点提取模块示意图；

图4为本发明实施例中提供的一种基于深度学习的课堂行为识别方法的特征优化模块示意图；

图5为本发明实施例中提供的一种基于深度学习的课堂行为识别方法的通道加权机制示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示（诸如上、下、左、右、前、后……）仅用于解释在某一特定姿态（如附图所示）下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

在本发明中，除非另有明确的规定和限定，术语“连接”、“固定”等应做广义理解，例如，“固定”可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

另外，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，全文中出现的“和/或”的含义，包括三个并列的方案，以“A和/或B”为例，包括A方案、或B方案、或A和B同时满足的方案。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

参照图1至图5，本发明第一方面提供了一种基于深度学习的课堂行为识别方法，所述方法包括以下步骤：

S3：使用训练好的基于深度学习的课堂行为识别模型来识别实时课堂监控图像，生成学生行为分类的预测结果，并将生成的结果写到本地，用于教学评估，为教学研究提供了数据支持和实证依据，有利于促进教学质量的改进。

具体的，可根据实际需求和应用场景，选择合适的监控设备，例如教室监控等设备来获取课堂实时情况。

如图3所示，所述步骤S12中所述关键点提取模块具体包括：

S122:对特征图M_k（k∈{2,3,4}）进行1×1卷积操作,再经过一个ReLU激活函数,然后做双线性插值的上采样操扩大尺度并与M_k-1（k∈{2,3,4}）拼接，最后经过3个C3模块和一个1×1的卷积操作生成4个新特征图U_k（k∈{1,2,3,4}且M₄=U₄），其中C3模块是普遍采用的3个卷积层加上一个CSPBottleNeck组成；

S123：对每个所述新特征图U_k（k∈{1,2,3,4}且M₄=U₄），通过优化模块后，再进行拼接操作得到3个不同尺度的特征图（k∈{1,2,3}），计算公式如下：

其中，B表示特征优化模块，k-1表示特征图处理的次数；(k∈{1,2,3})分别融合了不同程度的空间信息与深度信息，其中U₃通过三次通道加权机制后融合了更多的高层语义信息，因此这个分支的检测头对小目标更具鲁棒性；

S124：3个不同尺度的所述特征图（k∈{1,2,3}）经过检测头后获得检测结果q，检测结果q表示2D姿态，所述2D姿态包括检测目标类别cls、检测目标置信度得分Ccls、候选框定位信息reg和相应的关键点信息key，其中，所述候选框定位信息reg包括坐标dot_min(X_min,Y_min)和坐标dot_max(X_max,Y_max)，关键点信息key包括12对三元坐标,其坐标形式表示为（，/>，/>），其中，/>、/>表示每个关键点坐标,/>表示每个关键点的置信度得分；

其中，σ是高斯映射的方差；(，/>），/>分别表示第k个关节的位置和置信度得分；i，j表示热图的散点；

肢体的热图计算公式如下：

其中，第k个肢体位于两个关键点和/>之间，g表示点(i，j)到线段[(/>,/>),(/>,/>)]的距离的函数，/>表示/>和/>相连接的线段，生成的关节热图/>与肢体热图/>通过与0值填充的同尺度特征图相加得到大小为K×H×W的人体2D骨骼热图Q，其中，K是关节数，H和W是帧的高度和宽度；

具体的，关键点是某个点，关节热图是以关键点为中心向四周发散变淡的散点图，肢体的热图先得到两个关键点相连的线段，然后散点在这个线段的周围分布，逐渐变淡，得到人体的所有热图。

S126：将大小为K×H×W的人体2D骨骼热图Q通过入栈的方式堆积T个热图来获得大小为K×T×H×W的3D骨骼关键点热图Q_pose，其中，T表示热图帧的个数。

其中，在堆叠热图的过程中，使用训练好的目标追踪方法DeepSort读取检测结果q和前后帧数K标记前后帧热图中属于同一个人的ID，将ID、K与检测结果q组成新的时空关键点信息Q_reg。

如图4所示，所述新特征图U_k（k∈{1,2,3,4}且M₄=U₄）经过所述特征优化模块时分为两个分支，第一分支经过1个1×1的卷积层，第二分支经过1个1×1卷积层、1个3×3卷积层，1个1×1卷积层和通道加权机制后与第一分支拼接，输出新的特征图。这种残差结构在卷积的过程中除了调节通道数量，也充分融合了空间信息与被通道加权机制增强的深度信息。

如图5所示，所述通道加权机制具体包括：

具体的，所述通道加权机制充分混合了通道信息、空间信息与高层语义信息，使得整个关键点提取模块对细粒度信息更加敏感，优化小目标的提取精度。

本发明通过在关键点提取模块通过通道加权机制与不同尺度特征融合的方式加强目标关键点对小目标的识别效果，为后面的行为识别模块提升精度。

S131:将Sl分支的特征图进行灰度处理转化成尺寸大小为M×N的灰度图像z,对调整尺寸后的灰度图像z进行补零操作，用于扩展图像的尺寸为(其中/>>=M₂和/>>=N₂)；其中补零通过在图像的边界周围添加零像素来实现。

其中，表示中心化后的频谱，/>表示频域分量，从中心化的频谱中，计算幅度谱和相位谱，所述幅度谱通过取频谱的绝对值获得，所述幅度谱表示不同频率分量的强度信息，所述相位谱通过取频谱的角度获得，所述相位谱表示不同频率分量的相位信息；通过频域变换之后，原始图的高频信息被过滤，低频信息被中心化，可以明显增强图片的有效信息，降低噪声。

其中，表示Sl’分支的特征图经过通道调整后的结果，/>表示Fs’分支的特征图经过通道调整后的结果；其中，/>表示使用1x1x1的卷积核进行卷积，以调整通道数至/>，/>表示较小的通道的分支；

其中，表示自注意力机制，其计算公式为：

其中，为权重因子，/>为融合后的特征图。

具体的，本发明通过将3D热图和3D特征图通过堆叠入栈的方式输入3D卷积网络，3D热图中的骨骼数据关注时空信息，3D特征图关注静态信息，引入3D特征融合模块交换融合骨骼分支与图像分支的特征图，使得模型更好的区分多人骨骼，提升课堂行为识别的准确率。

S21：首先设计损失函数，对所述关键点提取模块的网络进行训练，下载监控视频数据进行抽帧，将抽帧获得的所有视频的图片进行随机抽样8000张，进行关键点打标，载入模型训练300轮达到收敛，使收敛的模型推理效果达到最好，将训练好的关键点提取网络推理监控视频数据，获得候选框定位信息与关键点信息；

S22：通过人为堆叠关键点3D热图和3D特征图，人为标注学生行为的分类，所述学生行分类包括睡觉、玩手机、阅读、写字；

S23：将3D热图和3D特征图输入行为识别模块，并设计分类损失函数对行为识别模块进行训练，训练1000轮，行为识别模型基本达到拟合，得到训练好的基于深度学习的课堂行为识别模型。

具作为本申请一实施例，所述损失函数包括关键点坐标损失函数loss_pose和置信度损失函数loss_conf；

所述关键点坐标损失函数公式表示如下：

其中，表示第p个目标的第k个关键点；/>表示/>的可见性(置信度为0表示不可见)；/>表示图像中的第p个目标区域所占的面积；δ是第k个关键点的归一化因子，通过预测位置与真实值之间的标准差计算得到δ；

所述置信度损失公式为：

其中，为/>时的值,/>表示第k个关键点预测的置信度；/>是自然对数。

具体的，因为所述关键点提取模块是一种自顶向下地获取关键点的方式，所以损失函数将候选框的面积和置信度加入损失函数用以提升目标整体的位置精度。

具体的，本发明通过使用创新的损失函数，使模型训练的更加关注难以分类的类别，同时训练效果更好，更加符合课堂场景，相比于使用常见的损失函数其准确率提高了5个百分点左右。

以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开的实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于深度学习的课堂行为识别方法，其特征在于，所述方法包括以下步骤：

S1：设计适用于课堂监控的基于深度学习的课堂行为识别模型，所述基于深度学习的课堂行为识别模型包括关键点提取模块、基于频域变化的特征增强模块和行为识别模块；具体步骤包括：

S13：将所述Sl分支的特征图通过基于频域变化的特征增强模块后，生成的2D特征图入栈沿时间轴堆叠组成3D特征图；

S3：使用训练好的基于深度学习的课堂行为识别模型来识别实时课堂监控图像，生成课堂学生行为分类的预测结果。

2.根据权利要求1所述的一种基于深度学习的课堂行为识别方法，其特征在于，所述步骤S12中所述关键点提取模块具体包括：

其中，B表示特征优化模块，k-1表示特征图处理的次数；

S124：3个不同尺度的所述特征图（k∈{1,2,3}）经过检测头后获得检测结果q，所述检测结果q表示2D姿态，所述2D姿态包括检测目标类别cls、检测目标置信度得分C_cls、候选框定位信息reg和相应的关键点信息key，其中，关键点信息key包括12对三元坐标,其坐标形式表示为（/>，/>，/>）；

S125：所述关键点信息key中的三元坐标组（，/>，/>），通过组合以每个关键点为中心的k个高斯映射来获得人体关节热图/>，其计算公式如下：

其中，σ是高斯映射的方差；(，/>），/>分别表示第k个关节的位置和置信度得分；

肢体的热图计算公式如下：

其中，第k个肢体位于两个关键点和/>之间，g表示点(i，j)到线段[(/>,/>),(/>,/>)]的距离的函数，/>表示/>和/>相连接的线段，生成的关节热图/>与肢体热图通过与0值填充的同尺度特征图相加得到大小为K×H×W的人体2D骨骼热图，其中，K是关节数，H和W是帧的高度和宽度；

3.根据权利要求2所述的一种基于深度学习的课堂行为识别方法，其特征在于，所述新特征图U_k（k∈{1,2,3,4}且M₄=U₄）经过所述特征优化模块时分为两个分支，第一分支经过1个1×1的卷积层，第二分支经过1个1×1卷积层、1个3×3卷积层，1个1×1卷积层和通道加权机制后与第一分支拼接，输出新的特征图。

4.根据权利要求3所述的一种基于深度学习的课堂行为识别方法，其特征在于，所述通道加权机制具体包括：

5.根据权利要求1所述的一种基于深度学习的课堂行为识别方法，其特征在于，所述步骤S13中基于频域变化的特征增强模块具体包括：

S134：将经过傅里叶变换后的灰度图像z的尺寸调整到大小为16×H×W，通道通过复制扩充到3，然后以T/4张为单位入栈组成3D特征图。

6.根据权利要求1所述的一种基于深度学习的课堂行为识别方法，其特征在于，所述步骤S14中行为识别模块具体包括：

S141：所述3D骨骼关键点热图和3D特征图进入批量归一化层进行批量归一化，所述3D骨骼关键点热图通过归一化得到的特征图的分支为Fs’,所述3D特征图通过归一化得到的特征图的分支为Sl’；

7.根据权利要求6所述的一种基于深度学习的课堂行为识别方法，其特征在于，所述3D特征融合模块为添加时空注意力机制的特征融合模块，其具体包括：

S1421：将不同尺度的3D特征图表示为,每个特征图的维度为(/>,/>,/>,/>),3D骨骼关键点特征图表示为/>,每个特征图的维度为(/>,/>,/>,/>)，其中i表示经过/>卷积后的特征图，所述Fs’分支和Sl’分支具有相同的长与宽，Fs’分支的时间分量是Sl’分支的4倍；

S1422：对经过的两个分支的特征图进行预处理，使其具有相同的通道数，公式如下：

其中，表示Sl’分支的特征图经过通道调整后的结果，/>表示Fs’分支的特征图经过通道调整后的结果；其中，/>表示使用1x1x1的卷积核进行卷积，以调整通道数至；

其中，表示自注意力机制，其计算公式为：

其中，为权重因子，/>为融合后的特征图。

8.根据权利要求1所述的一种基于深度学习的课堂行为识别方法，其特征在于，所述步骤S2中训练所述基于深度学习的课堂行为识别模型具体包括：

9.根据权利要求8所述的一种基于深度学习的课堂行为识别方法，其特征在于，所述损失函数包括关键点坐标损失函数loss_pose和置信度损失函数loss_conf；

所述关键点坐标损失函数公式表示如下：

所述置信度损失loss_conf公式为：

10.根据权利要求8所述的一种基于深度学习的课堂行为识别方法，其特征在于，所述分类损失函数用于衡量模型预测的概率分布和真实标签之间的差异，所述分类损失函数公式为：

其中，表示批次中的样本数，/>表示类别数，/>表示第K个样本是否属于第c个类别的指示，/>表示模型预测第K个样本属于第c个类别的概率；/>是正则化损失，用于降低过拟合的风险，/>表示所有网络权重，/>表示正则化系数，/>表示正则化系数，t为超参数，代表第c类的样本数量，/>表示中间变量。