CN118135669A

CN118135669A - 一种基于轻量化网络的课堂行为识别方法及系统

Info

Publication number: CN118135669A
Application number: CN202410571684.4A
Authority: CN
Inventors: 姜明华; 袁嘉淇; 余锋; 郑兴伟; 王成; 刘莉
Original assignee: Wuhan Textile University
Current assignee: Wuhan Textile University
Priority date: 2024-05-10
Filing date: 2024-05-10
Publication date: 2024-06-04

Abstract

本发明公开了一种基于轻量化网络的课堂行为识别方法及系统，所述方法包括以下步骤：S1：设计适用于解析课堂行为识别图像的轻量化网络的课堂行为识别目标检测模型；所述轻量化网络的课堂行为识别目标检测模型包括特征提取模块、注意力机制模块、轻量特征融合模块和目标检测预测模块；S2：训练设计好的轻量化网络的课堂行为识别目标检测模型，得到训练好的轻量化网络的课堂行为识别目标检测模型；S3：使用训练好的轻量化网络的课堂行为识别目标检测模型来解析课堂行为识别图片，生成预测图像。本发明能够提高课堂行为识别准确率，同时明显降低了计算量和内存消耗，提升实用性。

Description

一种基于轻量化网络的课堂行为识别方法及系统

技术领域

本发明涉及计算机视觉领域，尤其涉及一种基于轻量化网络的课堂行为识别方法及系统。

背景技术

课堂行为识别是一项重要的计算机视觉任务，它可以帮助教育工作者了解学生的课堂参与度和学习情况。然而，传统的课堂行为识别方法通常依赖于计算密集型算法，这使得它们难以在资源受限的设备（例如移动设备）上部署。

近年来，在处理复杂的课堂行为识别问题时，传统的基于规则或手工设计特征的方法显示出了一定的局限性。为了克服这些限制，研究人员开始着眼于轻量化网络的应用。轻量化网络是一类结构简单、参数较少的神经网络模型，能够在保持较高性能的同时减少计算和存储资源的消耗。与此同时，深度学习在目标检测领域取得了显著的成就。然而，传统的深度学习模型通常具有较大的参数规模和计算复杂度，导致在实际应用中推理速度较慢，难以满足课堂行为识别的要求。此外，大部分模型缺乏轻量化的特性，无法在资源受限的环境中实现高效部署并同时保持良好的性能。因此，轻量化网络成为研究的热点之一，旨在通过减小模型的规模和计算负担，实现在课堂行为识别等应用中的轻量化部署。这种方法可以在保持高效性的同时提高推理速度，满足课堂行为识别的要求。通过结合深度学习和轻量化网络的研究成果，可以在课堂环境中实现高效、准确的行为识别，为教育和智能辅助教学等领域提供有力支持。

公开号为CN 114708525A的中国专利公开了“一种基于深度学习的学生课堂行为识别方法及系统”，通过将YOLOv5与ShuffleNetV2网络进行结合来对数据增强后的学生课堂行为图像进行预测，解决了对学生课堂行为识别图像的准确率低的问题，但是对于现有的终端设备而言，使用这种方法内存消耗大，实用性要求不高。

发明内容

针对现有技术的以上缺陷或者改进需求，本发明提供了一种基于轻量化网络的课堂行为识别方法及系统，通过优化网络结构，在现有的终端设备上实现高准确率的识别，同时大大降低内存消耗，能够在保证识别效果的前提下，更好地适应现有的终端设备，从而提升了系统的实用性和性能表现。

为实现上述目的，按照本发明的一个方面，提供了一种基于轻量化网络的课堂行为识别方法，所述方法包括以下步骤：

S1：设计适用于解析课堂行为识别图像的轻量化网络的课堂行为识别目标检测模型；所述轻量化网络的课堂行为识别目标检测模型包括特征提取模块、注意力机制模块、轻量特征融合模块和目标检测预测模块，包括如下步骤：

S11：将课堂行为图像送入特征提取模块用于提取高分辨率特征信息和低分辨率特征信息；

S12：将特征提取模块提取的高分辨率特征信息和低分辨率特征信息进行处理，并将处理后的特征信息送入注意力机制模块得到混合特征信息；

S13：将注意力机制模块输出的混合特征信息和高分辨率特征信息送入轻量特征融合模块进行融合，得到融合后的特征信息；

S14：将经过轻量化特征融合模块后的特征信息送入目标检测预测模块，最后得出最终预测结果；

S2：训练设计好的轻量化网络的课堂行为识别目标检测模型，得到训练好的轻量化网络的课堂行为识别目标检测模型；

S3：使用训练好的轻量化网络的课堂行为识别目标检测模型来解析课堂行为识别图片，生成预测图像。

作为本申请的一实施例，所述步骤S11中特征提取模块包括1个卷积层和3个相同的收集单元，具体包括以下步骤：

S111：将图像输入到卷积核大小为3×3的卷积层里，卷积操作的步幅为1；

S112：进入第一个收集单元，所述第一个收集单元中包含三个卷积核大小分别为1×1，3×3，1×1的卷积层，所述第一个收集单元重复三次，得到低分辨率特征信息；

S113：接着进入第二个相同的收集单元，所述第二个相同的收集单元重复四次；

S114：最后进入第三个相同的收集单元，输出高分辨率特征信息。

作为本申请的一实施例，步骤S12中注意力机制模块包括如下步骤：

S121：将输入的特征图A（C×H×W）进行局部平均池化和全局平均池化，其中C表示通道数，H表示特征图高度，W表示特征图宽度;

S122：将局部平均池化后的特征进行特征重组，再经过一维卷积，特征重组，经过卷积层得到特征图B；

S123：同时将全局平均池化后的特征经过一维卷积再经过反池化操作得到特征图D；

S124：将特征图B与特征图D进行特征相加，经过卷积层和反池化操作，得到了最后的特征图E。

作为本申请的一实施例，所述步骤S13中轻量特征融合模块包括第一融合单元和第二融合单元，具体步骤包括：

S131：将经过特征提取模块后的高分辨率信息和经过注意力机制模块后的混合特征信息进行通道分割，将分割后的高分辨率信息送入到第一融合单元中，同时将分割后的混合特征信息送入到第二融合单元中；

S132：在所述第一融合单元中，分割后的高分辨率信息首先经过大小为3×3的卷积层，进行组归一化，再经过大小为1×1的卷积层，进行组归一化，H-Swish函数操作；

S133：在第二融合单元中，分割后的混合特征信息首先经过大小为1×1的卷积层，进行组归一化，H-Swish函数操作，再经过大小为3×3的卷积层，进行组归一化，最后经过大小为1×1的卷积层，进行组归一化，H-Swish函数操作；

S134：将经过第一融合单元后的特征信息与经过第二融合单元后的特征信息进行拼接；

S135：最后将拼接后的特征信息进行通道重组，输出通道数为C的特征信息。

作为本申请的一实施例，所述步骤S14中目标检测模块包括具体包括3×3卷积层和1×1卷积层，具体步骤包括：

S141：将经过轻量化特征融合模块后的通道数为C的特征信息输入3×3卷积层；

S142：再通过1×1卷积层直接输出最后的预测结果。

作为本申请的一实施例，所述步骤S2中使用损失函数对设计好的轻量化网络的课堂行为识别目标检测模型进行训练，所述损失函数/>包括特征提取模块损失函数、注意力机制模块损失函数/>、轻量特征融合模块损失函数/>、目标检测预测模块损失函数/>；所述损失函数/>的计算公式如下：

其中，是权衡各损失函数的超参数。

作为本申请的一实施例，所述特征提取模块损失函数计算公式如下：

其中，表示样本数，/>表示图像/>所提取的特征，/>表示所有提取特征的均值，/>表示所有提取特征的标准差；

所述注意力机制模块损失函数计算公式如下：

其中，表示通道损失函数，/>表示空间损失函数，/>表示通道损失函数的权重，/>表示空间损失函数的权重；在通道损失函数，/>表示通道数，/>是特征图/>中的第/>个通道的注意力权重，/>表示特征图/>中的第/>个通道的注意力权重，在空间损失函数中，表示特征图/>中位置为/>的像素值，/>表示原始输入特征中位置为/>的像素值，/>表示特征图的高度，/>表示特征图的宽度;

所述轻量特征融合模块计算公式如下：

其中，表示第一融合单元损失函数，/>表示第二融合单元损失函数，/>表示第一融合单元损失函数的权重，/>表示第二融合单元损失函数的权重，/>是轻量特征融合模块中的可学习参数，/>是正则化超参数；/>表示高分辨率特征图的总像素数，/>表示第一融合单元输出的高分辨率特征信息，/>表示标签数据中的对应高分辨率特征信息；/>表示通道数，/>表示第二融合单元输出的混合特征信息，/>表示标签数据中的对应混合特征信息；

所述目标检测预测模块损失函数计算公式如下：

其中，表示样本数，/>表示图像第/>个预测框的类别概率分布，/>表示图像第/>个真实框的类别标签，/>是图像第/>个预测框的预测偏移量，/>是图像第/>个真实框的真实偏移量，是平衡分类损失的超参数，/>是定位损失的超参数，/>表示分类损失，是类别数，/>是真实框类别标签中第/>个类别的指示器，/>表示预测类别概率分布中第/>个类别的概率，/>表示定位损失，/>表示预测框坐标数量，/>表示平滑范数，表示预测边界框坐标，/>表示真实边界框坐标，/>表示输入值。

本发明还提供了一种基于轻量化网络的课堂行为识别系统，包括：

特征提取模块：用于提取课堂行为图像的高分辨率特征信息和低分辨率特征信息；

注意力机制模块：用于将所述特征提取模块提取出来的高分辨率特征信息和低分辨率特征信息进行处理，得到混合特征信息；

轻量特征融合模块：用于将经过特征提取模块的高分辨率特征信息和经过注意力机制模块的混合特征信息进行融合，得到融合后的特征信息；

目标检测预测模块：用于接收所述轻量特征融合模块融合后的特征信息进行检测，最后得出最终预测结果。

本发明的有益效果为：

（1）本发明通过设计轻量化网络的课堂行为识别目标检测模型，模型包括特征提取模块、注意力机制模块、轻量特征融合模块和目标检测预测模块，通过损失函数对模型进行训练，最后利用训练好的模型对课堂行为图像进行解析，生成预测图像，本发明在保持高准确率下显著地降低了计算成本，节省了内存消耗，旨在资源受限的终端设备下，也能够实现高效的课堂行为识别，为实际应用提供了更多的可能性。

（2）本发明中使用的注意力机制模块通过多层次的特征处理和上下文融合提升模型对图像的分析理解能力，也关注局部细节和全局背景，有效压缩特征维度，从而增强对有用特征和整体语境的关注，使模型能够专注于图像中最重要的区域，减少噪声的影响，使模型对图像中的噪声和干扰具有出色的抵抗能力，能够在光线不足、背景复杂或存在遮挡的情况下准确识别课堂行为，进而提高模型在嘈杂环境中的识别准确性和稳定性。

（3）本发明中采用的轻量特征融合模块具有通道分割和特征融合能力，采用轻量化设计以降低参数量和计算复杂度，并通过多层卷积和组归一化操作增强特征表达能力，这使得模型在资源受限的环境下高效融合和提取图像特征，实现了优秀的性能和效率平衡。

（4）本发明通过采用模块化的设计，可以轻松地扩展到识别更多的课堂行为，采用通用的轻量化网络，无需针对每个行为单独训练模型，即可识别广泛的课堂行为，为实际应用带来了更大的便利性和灵活性；同时还具备良好的可部署性，可以轻松地在各种设备和平台上进行部署，包括移动设备、台式机、服务器和云平台，这使得在实际课堂环境中进行大规模部署变得更加便捷，另外由于易于部署性，本方法能够轻松地集成到现有的教育技术系统中，例如学习管理系统和视频会议平台，为教育领域的各种应用场景提供了更加灵活和高效的解决方案。

附图说明

图1为本发明实施例中提供的一种基于轻量化网络的课堂行为识别方法的技术方案流程图；

图2为本发明实施例中提供的一种基于轻量化网络的课堂行为识别方法的特征提取模块示意图；

图3为本发明实施例提供的一种基于轻量化网络的课堂行为识别方法的注意力机制模块示意图；

图4为本发明实施例提供的一种基于轻量化网络的课堂行为识别方法的轻量特征融合模块示意图；

图5为本发明实施例提供的一种基于轻量化网络的课堂行为识别方法的目标检测预测模块示意图；

图6为本发明实施例提供的一种基于轻量化网络的课堂行为识别系统框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示（诸如上、下、左、右、前、后……）仅用于解释在某一特定姿态（如附图所示）下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

在本发明中，除非另有明确的规定和限定，术语“连接”、“固定”等应做广义理解，例如，“固定”可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

另外，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，全文中出现的“和/或”的含义，包括三个并列的方案，以“A和/或B”为例，包括A方案、或B方案、或A和B同时满足的方案。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

参照图1-图5，本发明第一方面提供了一种基于轻量化网络的课堂行为识别方法，所述方法包括以下步骤：

S12：将特征提取模块提取的高分辨率特征信息和低分辨率特征信息进行处理，并将处理后的特征信息送入注意力机制模块进行处理，得到混合特征信息；

S13：将注意力机制模块输出的混合特征信息和高分辨率特征信息送入轻量特征融合模块，得到融合后的特征信息；

具体的，本发明通过设计轻量化网络的课堂行为识别目标检测模型，模型包括特征提取模块、注意力机制模块、轻量特征融合模块和目标检测预测模块，通过损失函数对模型进行训练，最后利用训练好的模型对课堂行为图像进行解析，生成预测图像，本发明在保持高准确率下显著地降低了计算成本，节省了内存消耗，旨在资源受限的终端设备下，也能够实现高效的课堂行为识别，为实际应用提供了更多的可能性。

S111：将图像输入到卷积核的大小为3×3的卷积层里，卷积操作的步幅为1；

S112：接着进入第一个收集单元，所述第一个收集单元中包含三个卷积核大小分别为1×1，3×3，1×1的卷积层，所述第一个收集单元重复三次，得到低分辨率特征信息；

具体的，所述特征提取模块通过使用卷积层和收集单元有助于提取更加丰富的图像特征信息，增强模型对课堂行为识别图像的分类和识别能力。

具体的，本发明通过所述注意力机制模块对图像进行处理，通过多层次的特征处理和上下文融合提升模型对图像的分析理解能力，也关注局部细节和全局背景，有效压缩特征维度，从而增强对有用特征和整体语境的关注，最终提高模型的性能和泛化能力。同时，使用一维卷积来减少计算量和参数量，进一步优化模型的效率和表现，使模型能够专注于图像中最重要的区域，减少噪声的影响，使模型对图像中的噪声和干扰具有出色的抵抗能力，能够在光线不足、背景复杂或存在遮挡的情况下准确识别课堂行为，进而提高模型在嘈杂环境中的识别准确性和稳定性。

具体的，所述轻量特征融合模块具有通道分割和特征融合能力，采用轻量化设计以降低参数量和计算复杂度，并通过多层卷积和组归一化操作增强特征表达能力，这使得轻量特征融合模块在资源受限的环境下高效融合和提取图像特征，实现了优秀的性能和效率平衡。

S142：再通过1×1卷积层直接输出最后的预测结果。

具体的，所述目标检测模块采用小卷积来输出预测结果，符合轻量化设计，这种设计使得模块在资源受限的环境下能够快速、准确地进行目标检测预测，适合应用在资源有限的设备上。

本发明通过采用模块化的设计，可以轻松地扩展到识别更多的课堂行为，例如，可以通过训练轻量化网络来识别新的课堂行为，然后将这些新行为添加到系统中，从而不断丰富其识别能力，采用通用的轻量化网络，无需针对每个行为单独训练模型，即可识别广泛的课堂行为，为实际应用带来了更大的便利性和灵活性；同时还具备良好的可部署性，可以轻松地在各种设备和平台上进行部署，包括移动设备、台式机、服务器和云平台，这使得在实际课堂环境中进行大规模部署变得更加便捷，另外由于易于部署性，本方法能够轻松地集成到现有的教育技术系统中，例如学习管理系统和视频会议平台，为教育领域的各种应用场景提供了更加灵活和高效的解决方案。

其中，是权衡各损失函数的超参数。

具体的，所述特征提取模块损失函数能够有效地增强模型特征的同类紧凑性和异类可分性，减少了同类样本特征的差异，通过对特征分布的标准差进行处理来提高不同类别间的区别度，适用于轻量级网络，在有限的计算资源下仍能实现高效且鲁棒的特征学习，提升了课堂行为识别任务的准确性。

所述注意力机制模块损失函数计算公式如下：

其中，表示通道损失函数，/>表示空间损失函数，/>表示通道损失函数的权重，/>表示空间损失函数的权重；在通道损失函数，/>表示通道数，/>是特特征图/>中的第/>个通道的注意力权重，/>表示特征图/>中的第/>个通道的注意力权重，在空间损失函数中，/>表示特征图/>中位置为/>的像素值，/>表示原始输入特征中位置为/>的像素值，/>表示特征图的高度，/>表示特征图的宽度;

具体的，所述注意力机制模块损失函数能够分别考虑通道信息和空间信息来引导网络学习到重要的特征信息，通道注意力损失确保网络关注重要的通道信息，而空间注意力损失则确保网络关注重要的空间信息，这种分层的损失设计能够有效地提升网络在课堂行为识别任务中的表达能力，同时提高网络的鲁棒性和泛化能力。

所述轻量特征融合模块计算公式如下：

具体的，所述轻量特征融合模块损失函数能够同时关注到网络的高分辨率特征信息质量和混合特征信息质量，这样确保了高分辨率特征图的有效提取，也保证了混合特征图的有效整合。

所述目标检测预测模块损失函数计算公式如下：

具体的，所述目标检测预测模块损失函数平衡了分类准确性和定位准确性，提高了模型的泛化能力，这样设计能够确保轻量化网络快速高效地进行行为识别，同时保证高识别率和定位准确度。

本发明通过使用这种综合的损失函数设计有助于网络更好地学习到适合课堂行为识别任务的特征表示，提高了模型的性能和泛化能力。

如图6所示，本发明还提供了一种基于轻量化网络的课堂行为识别系统，包括：

具体来说，本发明通过加载预先训练好的轻量化网络的课堂行为识别目标检测模型，模型包括特征提取模块、注意力机制模块、轻量特征融合模块和目标检测预测模块，通过损失函数对模型进行训练，最后利用训练好的模型对课堂行为图像进行解析，生成预测图像，后续对模型输出进行必要的后处理，最终可选择可视化或保存检测结果，以获得对课堂行为识别的精确检测。

以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开的实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于轻量化网络的课堂行为识别方法，其特征在于，所述方法包括以下步骤：

S14：将经过轻量化特征融合模块后的特征信息送入目标检测预测模块进行检测，最后得出最终预测结果；

2.如权利要求1所述的一种基于轻量化网络的课堂行为识别方法，其特征在于，所述步骤S11中特征提取模块包括1个卷积层和3个相同的收集单元，具体包括以下步骤：

3.如权利要求1所述的一种基于轻量化网络的课堂行为识别方法，其特征在于，步骤S12中注意力机制模块包括如下步骤：

4.如权利要求1所述的一种基于轻量化网络的课堂行为识别方法，其特征在于，所述步骤S13中轻量特征融合模块包括第一融合单元和第二融合单元，具体步骤包括：

S131：将经过特征提取模块后的高分辨率信息和经过注意力机制模块后的混合特征信息进行通道分割，将分割后的高分辨率信息送入第一融合单元中，同时将分割后的混合特征信息送入第二融合单元中；

5.如权利要求1所述的一种基于轻量化网络的课堂行为识别方法，其特征在于，所述步骤S14中目标检测模块包括具体包括3×3卷积层和1×1卷积层，具体步骤包括：

S142：再通过1×1卷积层直接输出最后的预测结果。

6.如权利要求1所述的一种基于轻量化网络的课堂行为识别方法，其特征在于，所述步骤S2中使用损失函数对设计好的轻量化网络的课堂行为识别目标检测模型进行训练，所述损失函数/>包括特征提取模块损失函数/>、注意力机制模块损失函数/>、轻量特征融合模块损失函数/>、目标检测预测模块损失函数/>；所述损失函数/>的计算公式如下：

其中，是权衡各损失函数的超参数。

7.如权利要求6所述的一种基于轻量化网络的课堂行为识别方法，其特征在于，所述特征提取模块损失函数计算公式如下：

所述注意力机制模块损失函数计算公式如下：

其中，表示通道损失函数，/>表示空间损失函数，/>表示通道损失函数的权重，/>表示空间损失函数的权重；在通道损失函数，/>表示通道数，/>是特征图/>中的第/>个通道的注意力权重，/>表示特征图/>中的第/>个通道的注意力权重，在空间损失函数中，/>表示特征图/>中位置为/>的像素值，/>表示原始输入特征中位置为/>的像素值，/>表示特征图的高度，/>表示特征图的宽度;

所述轻量特征融合模块计算公式如下：

所述目标检测预测模块损失函数计算公式如下：

8.一种基于轻量化网络的课堂行为识别系统，其特征在于，包括：