CN113158880A

CN113158880A - 一种基于深度学习的学生课堂行为识别方法

Info

Publication number: CN113158880A
Application number: CN202110417576.8A
Authority: CN
Inventors: 吕伟刚; 车保良; 李晓萌; 吕立; 张树刚
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2021-04-19
Filing date: 2021-04-19
Publication date: 2021-07-23

Abstract

本发明属于计算机视觉技术领域，具体涉及基于深度学习的行为识别方法。一种基于深度学习的学生课堂行为识别方法，包括：建立真实课堂环境下的学生课堂行为数据库；构建深度卷积神经网络模型，在所述的学生课堂行为数据库中进行训练；利用训练完成的模型，预测学生的课堂行为。本发明的方法基于深度学习的超分辨率模型可以有效地提升课堂中学生图像质量。针对深度学习需要以大量的数据为训练样本的问题，使用数据增强的方法最大化利用现有数据，保证识别效果的有效性和可扩展性；设计11层卷积神经网络的结构，在保证较高准确率的前提下，减少模型训练时间以提高算法的性能。

Description

一种基于深度学习的学生课堂行为识别方法

技术领域

本发明属于计算机视觉技术领域，具体涉及基于深度学习的行为识别方法。

背景技术

课堂教学作为一种基本教学形式，一直以来都在高等教育中处于核心地位。在对大学课堂进行研究的过程中，应始终将微观课堂中的各个要素作为研究的重点。而学生作为课堂的主体，在课堂中所表现出的各种能够反映其情感和学习状态的行为是大课堂教学研究至关重要的依据。目前，对于课堂行为的研究通常采用问卷调查法和观察法。但传统的方法往往存在一些不足，并且给研究人员的时间和精力带来了一定的挑战。随着信息技术的发展和近年来情感智能化课堂的出现，对课堂观察的维度和方式不断提出新的要求，以实现对课堂教学过程进行全面、客观、科学的分析判断。

教育技术学领域的一个典型特点就是追求教学效果的最优化，近年来，随着教育技术的不断发展，研究者越来越倾向于借助计算机算法来解决教育中的一些问题。其中，行为识别技术是一个热门的研究方向，已经被广泛应用于在人机交互、安全监控等各个领域。从课堂观察角度，利用行为识别技术来优化课堂教学也已成为可能。

然而目前，虽有研究者从计算机视觉角度对课堂环境下学习者的课堂行为进行研究，但针对课堂环境下学生行为的图像数据库却少有文献提供公开获取途径。部分现有研究(Zaletelj J,

A.Predicting students’attention in the classroom fromKinect facial and body features.EURASIP Journal on Image and VideoProcessing.2017,1:80.；Psaltis A,Apostolakis K,Dimitropoulos K,etal.Multimodal Student Engagement Recognition in Prosocial Games.IEEETransactions on Games.2018,10(3):292-303.；Henderson N,Rowe J,Mott B,et al.4DAffect Detection:Improving Frustration Detection in Game-Based Learning withPosture-Based Temporal Data Fusion.20th International Conference onArtificial Intelligence in Education.2019:144-156.)使用Kinect捕捉学生的人体骨架信息，建立深度数据库，但此类数据库均收集于实验室环境，学生行为具有较强的表演性质，且受限于传感器的成本，其成果难以大规模普及。Ashwin等建立了从10小时的课堂教学视频中提取出4423张包含多人的单帧图像，但其数据来源为印度某大学，存在跨种族或跨文化的识别准确率差异的弊端(Buolamwini J,Gebru T.Gender Shades:IntersectionalAccuracy Disparities in Commercial Gender Classification.1st Conference onFairness,Accountability and Transparency.2018:77-91.)。此外，已有学生图像数据库的样本数量普遍较少，即使在研究相对丰富的表情识别领域，多数研究也非针对学习场景所构建，很难满足深度学习和实际应用的需求。因此，建立学生课堂行为图像数据库并对数据库中图像进行规范、准确的人工标注，是实现课堂环境下学生行为识别的基础，同时也对课堂评价的相关研究具有推动作用。

发明内容

基于现有技术中存在的不足，本发明聚焦于解决学生的课堂行为识别问题，一方面，由于学生在课堂学习过程中出现的动作行为与常见的动作行为有所不同，识别方式也有差别，针对该问题，本发明建立了一个真实课堂环境下的学生课堂行为数据库，为研究者提供更加丰富、真实的数据；另一方面，基于该数据库，本发明对学生课堂行为研究的方法进行了技术探究，提出一种基于深度学习的学生课堂行为识别方法，并进行了实验验证。

本发明解决其技术问题采用的技术方案是：一种基于深度学习的学生课堂行为识别方法，包括：

1.建立真实课堂环境下的学生课堂行为数据库；

2.构建深度卷积神经网络模型，在所述的学生课堂行为数据库中进行训练；

3.利用训练完成的模型，预测学生的课堂行为。

作为本发明的一种优选方式，所述真实课堂环境下的学生课堂行为数据库的建立包括：采集课堂教学现场视频；采用YOLOv3进行目标检测及提取，获取学生单人图像；采用基于EDSR的超分辨率方法对获取的图像进行处理。

进一步优选地，对获取的图像进行数据增强处理。

进一步优选地，所述步骤(2)中构建的深度卷积神经网络模型包含六个卷积层，每个卷积层可包含多个卷积核，一个卷积核将生成一个特征图；每两个卷积层叠加进行连续卷积操作；卷积层l的第j单元的输出值

的计算公式为：

其中，

为偏置，

表示所选择输入特征图的集合，k表示可学习的卷积核。

进一步优选地，所述深度卷积神经网络模型的每一个卷积层后设有一个批标准化层进行归一化处理，其计算公式为：

其中，

表示归一化后像素值大小，E[x^(k)]表示输入数据的均值，Var[x^(k)]为输入数据的方差；k为卷积层中卷积核的边长。

进一步优选地，所述深度卷积神经网络模型包含三个池化层，所述卷积层与池化层交替出现，一个池化层对应多个卷积层；池化层l中激活值

的计算公式为：

其中，down()表示池化函数，

为偏置，

为乘数残差，M^l表示第l层所采用的池化框大小为M^l×M^l。

进一步优选地，所述池化层的池化方式为最大池化。

进一步优选地，所述池化层后设有Dropout层，概率设为0.3，0.3，0.5。

进一步优选地，所述的深度卷积神经网络模型采用交叉熵损失函数作为目标函数，其计算公式为：

其中，m为样本个数，xⁱ为第i个样本，yⁱ为第i个样本的行为类别；h_θ(xⁱ)表示预测为yⁱ类别的概率。

在模型的训练中，采用RMSprop优化器对所述模型进行优化，其计算公式为：

其中，W_t表示t时刻，即第t代迭代模型的参数；g_t＝ΔJ(W_t)表示t次迭代代价函数关于W的梯度大小；E[g²]_t表示前t次梯度平方的均值；α表示动力值；η₀表示全局初始学习率；∈取1e^-8。

本发明的方法，基于深度学习的超分辨率模型可以有效地提升课堂中学生图像质量。针对深度学习需要以大量的数据为训练样本的问题，使用数据增强的方法最大化利用现有数据，保证识别效果的有效性和可扩展性。设计11层卷积神经网络的结构，在保证较高准确率的前提下，减少模型训练时间以提高算法的性能。

附图说明

图1为本发明实施例中真实课堂环境下的教室空间分布图；

图2为通过课堂实录采集学生课堂行为图像示例；

图3为基于YOLOv3目标检测与单人动作图像提取示例；

图4为本发明实施例提供的学生课堂行为识别方法流程图；

图5为本发明实施例中EDSR与ResNet、SRResNet网络结构对比；

图6超分辨率模型对比实验结果

图7数据增强效果展示；

图8本发明实施例中构建的11层深度卷积神经网络结构图；

图9为卷积计算过程对图像的填充过程示意图；

图10本发明实施例中的基于深度学习的学生行为识别模型训练结果；

具体实施方式

为了便于理解本发明，下面结合附图和具体实施例，对本发明进行更详细的说明。附图中给出了本发明的较佳的实施例。但是，本发明可以以许多不同的形式来实现，并不限于本说明书所描述的实施例。相反地，提供这些实施例的目的是使对本发明公开内容的理解更加透彻全面。

本发明提供的基于深度学习的学生课堂行为识别方法，具体步骤和实现过程如下详细阐述：

一、建立学生课堂行为数据库

现有文献已经提供了大量的行为数据库。通常，为了评估和基准化不同的行为识别算法，需要标准化的数据库才能进行有意义的比较。在没有此类标准数据库的比较测试的情况下，很难找到不同算法的相对优势和劣势。因此，基于学生课堂环境的特殊性，本文建立了真实课堂环境下的学生课堂行为数据库。

1、数据采集

(1)采集环境

本发明中，为保证动作的自发性，学生课堂行为数据的采集采用了非入侵、伴随式的方式。实验中采集的视频图像经被采集者允许后才会被包含在本发明所建立的学生行为数据库。本发明选择某大学所建设智慧教室作为数据来源，相对于传统教室，该教室能更便捷的获取课堂教学视频图像，其统一配备的摄像头给学生所带来的干扰感更低。教室俯视示意图如图1所示。录播系统可操作摄像机的角度和放大比例，视频分辨率为1280×720，帧率30fps。

(2)采集过程

数据收集时间跨度约3个月，共采集30节课堂教学现场视频，累计时长50小时左右。光照条件为自然光和室内灯光，所有的课堂数据包括多名学生在同一画面中，但每个画面中的人数可能会根据班级或课程的规模而变化，每堂课程学生人数10-40人不等。采集画面如图2所示。

本发明也使用网络爬虫技术进行数据采集，通过网络爬虫的方法共采集学生课堂行为图像2100幅。

2、数据处理

由于本发明设计的实验是非侵入性的，因此设计了一个行为界定表格，用于评估行为。本发明共收集了十类课堂常见行为：举手、站立、记笔记、鼓掌、手机拍照、抬头、托腮、玩手机、伸懒腰、趴桌，同时制定了行为与判别标准，其对应关系如表2所示。

表2学生课堂行为数据库行为界定

在收集到学生课堂行为数据之后，为了进一步剔除学生图像的无关背景信息，需要检测学生轮廓并获取单人图像，本发明通过目标检测技术获取原始图像中学生位置信息，并裁剪得出单人图像。结合课堂环境的实际情况，本发明采用YOLOv3(Redmon J,Farhadi A.YOLOv3:An Incremental Improvement.arXiv:1804.02767[cs].2018.)进行目标检测及提取。YOLOv3使用全新的网络架构DarkNet53，通过残差结构大大加深了网络层数。目标检测结果与单人图像提取结果如图3所示。

最终，本发明所建立的学生课堂行为数据库共收录了4917张图片(含网络爬虫采集的学生行为图像)，具体细节如表3所示。最终形成的学生行为图像数据库，数据库间类别数量较为均衡，为后续网络训练提供了良好的数据基础。学生行为图像数据库中各类图像数量的统计结果如表4所示。

表3学生课堂行为数据库信息

表4数据库各类图像数量统计

二、基于深度学习的学生课堂行为识别方法

本发明提出的基于EDSR的超分辨率和卷积神经网络的学生课堂行为识别方法，主要流程如图4所示。

具体包括，①将上一章节所建立的学生课堂行为数据库进行基于EDSR的超分辨率处理，解决实际应用中教室后排学生成像不清晰的现实问题。②数据增强处理通过仿射变化、对比度变换、噪声扰动、翻转变化、平移变换、尺度变换等多种方式进行数据扩容，保证算法训练的效果。③使用自主设计的11层CNN网络进行训练，根据验证集的训练结果对网络结构和参数进行微调，训练所得分类模型用于后期的学生行为识别。④利用训练好的模型对测试集进行测试，分析分类精度和类别间的差异，保存分类模型。

1、基于EDSR的超分辨率处理

为了解决后排远距离学生在图像中成像不清晰，分辨率较低的情况。本发明将采用图像超分辨率技术来提高相应图像的分辨率并放大图像尺寸。超分辨率技术(Super—Resolution,SR)是指将给定的低分辨率图像(LR)恢复为高分辨率图像(HR)的处理过程。增强深度超分辨率网络(Enhanced Deep Residual Networks,EDSR)是一种端到端的基于深度学习的单张图像超分辨率方法(Lim B,Son S,Kim H,et al.Enhanced deep residualnetworks for single image super-resolution.30th IEEE Conference on ComputerVision and Pattern Recognition.2017:1132-1140.)，是当前性能表现比较出色的超分辨率(Super—Resolution,SR)技术方法。研究者在传统残差网络的基础上去除了批规范化(Batch Normalization,BN)模块，并对模型的规模进行了扩展，大大提高了网络结构的性能。EDSR方法中残差块与原ResNet和SRResNet中残差块对比如下图5所示。

为选择最合适后续研究的超分辨率方法，本发明设计开展了Bicubic、FSRCNN、EDSR三种不同超分辨率模型的实验对比。其中，Bicubic为双三次插值方法，是传统超分辨率重建领域最常见的方法之一，FSRCNN、EDSR为目前主流的基于深度学习的超分辨率模型。考虑到现有计算资源，评价指标为峰值信噪比，峰值信噪比是一种衡量图像质量的指标，在很多领域中都会用到这一指标。一般来说，PNSR高于40dB说明图像质量极好(非常接近于原始图像)，在30-40dB通常表示图像质量是好的(可以发现失真，但可以接受)，在20-30dB说明图像质量差，低于20dB图像质量非常差。

实验结果如图6所示。对实验结果进行分析，从客观指标来看，EDSR模型相对于FSRCNN，准确率相差不大，但处理时间有显著降低。因此，本发明的超分辨率处理选择基于EDSR进行。

2、数据增强

为了提高学生课堂行为识别模型的识别准确率，训练前需要对训练集进行前期预处理。为提高模型的鲁棒性，防止训练过程中出现过拟合现象，需要对数据进行增强。

图像增强的主要方法是通过图像中像素之间的空间坐标变化、灰度内插，图像增强的方式有很多种，主要分为：(1)空间域图像增强，直接变换图像的灰度值、图像空域平滑和锐化等；(2)变换域图像增强是指图像在空间上的变换，实现对不同尺度下图像去噪。常用的数据增强方式有旋转、缩放、平移、色彩变化、随机剪裁等。

在空间变换中，最常使用的是仿射变换矩阵，其形式如式1所示：

其中，(t_x,t_y)表示平移量，而参数a_i则反映了图像旋转、缩放等变化，将参数t_x,t_y,a_i(i＝1～4)计算出，即可得到两幅图像的坐标变换关系。

本发明采用的是色彩变化、缩放、翻转以及多形式串联的十种变化，具体效果如图7所示。T元素矩阵的取值决定图像的变化形式，通过变化T矩阵，原始数据集中的图片随机选取两种数据增强方式进行变换，并按照随机概率保存原始图像或变换后的图像。最终，将训练样本集的数量扩增为原来的十倍。

3、卷积神经网络模型结构设计

作为深度学习领域重要模型，卷积神经网络(Convolutional Neural Network，CNN)具有权值共享、局部连接、端到端的处理方式等优点，降低了网络复杂度的同时，也利于并行处理。CNN通常包括输入层、卷积层、池化层、全连接层和输出层。学生行为图像的颜色、纹理、形状等低层视觉特征较为复杂。因此，本发明提出基于卷积神经网络的学生课堂行为识别方法。

本发明提出了基于卷积神经网络的学生课堂行为识别方法，该方法由训练和测试两个阶段组成。在训练阶段，本发明基于卷积神经网络原理，搭建11层深度卷积神经网络(CNN11)，并使用softmax激活函数和RMSprop优化器在学生课堂行为数据库中进行训练，不断优化得到一个针对真实课堂环境下学生行为识别的深度模型。在测试阶段，可以利用此深度模型预测输入的测试样本的学生行为。

(1)11层卷积神经网络架构

为了使搭建的卷积神经网络适用于学生课堂行为数据集，本发明建立了11层深度卷积神经网络，包含6个卷积层、3个池化层、2个全连接层，用于学生课堂行为识别，其网络结构如图8所示。该网络模型中包含激活层、池化层、批标准化层、dropout层、全联接层和输出层。各层的功能与参数设计如下所示：

(a)输入层。输入图像的尺寸设置为64×64像素，并将卷积核的尺寸设置为3×3，卷积步长均为1，以便CNN能够自主提取更多低层视觉特征。

(b)卷积层。每个卷积层可包含多个卷积核，一个卷积核将生成一个特征图。卷积层l的第j单元的输出值

的计算公式如式2所示。

其中，

表示所选择输入特征图的集合，k表示可学习的卷积核的边长。卷积操作中，把卷积核k看作一个滑动窗口，按照设定的步长向前滑动。

在图像卷积的过程中，每次卷积会导致图像尺寸变小，在卷积情况较多的情况下可能会出现仅剩一个像素的情况；而且输入图像矩阵的边缘像素仅进行一次计算，而中间像素经过多次卷积计算，边缘信息可能会出现大量丢失的情况。为解决以上两类问题，需要在计算过程中对图像进行填充(Padding)。其过程如图9所示。

输出图像大小计算公式如式3所示：

其中，M为输入图片的长和宽，k为卷积核的边长，s为步长，通常填充元素值为0，填充像素数为1，即P＝1。

输入图像边缘像素填充后，其原本的边缘像素转换为中间像素，在卷积操作中可进行多次计算，从而避免了边缘信息丢失的问题。此外，图9的输出图像大小为5×5，避免了卷积操作会使图像变小的缺点。

本发明所设计网络模型结构中共包含六层卷积层，每两个卷积层叠加进行连续卷积操作。网络中卷积核尺寸均采用3*3大小，据实际情况将卷积核的数量均设置为32个。

(c)激活函数的选择。ReLU函数具有收敛速度快、梯度求解简单的优点，逐渐成为图像识别中非常受欢迎的激活函数，其函数定义如式4所示。本发明使用ReLU函数作为激活函数。

(d)归一化层。本发明选择批标准化(Batch Normalization,BN)作为归一化方法，它具体体现在模型中为在每一个卷积层后添加BN层，其计算公式如公

式5所示。

其中，

表示归一化后像素值大小，E[x^(k)]表示输入数据的均值，Var[x^(k)]为输入数据的方差，x^k表示归一化前的像素值大小；k为卷积层中卷积核的边长。

(e)池化层。卷积层与池化层交替出现，一个池化层可对应多个卷积层。

池化层l中激活值

的计算公式如公式6所示。

其中，down()表示池化函数，

为偏置，

为乘数残差，M^l表示第l层所采用的池化框大小为M^l×M^l。其中一种常用的池化方式为最大池化，即选取输入图像中大小为M^l×M^l的非重叠滑动框内所有像素的最大值。对非重叠池化来说，经过池化操作后所输出特征图在像素上缩小了M^l倍。

本发明选择主流方式，将池化窗口的大小均设置为2×2，池化方式使用最大值池化。

(f)Dropout层。本模型在三层池化后添加Dropout层，概率设为0.3、0.3、0.5。

(g)全连接层与输出层。该模型中共包含两层全连接层，第一层全连接共包含512个神经元，第二层全连接共包含128个神经元，最后与输出层连接。学生课堂行为识别属于分类任务，因此采用交叉熵损失函数作为目标函数，其目的是使概率归一化，从而易于数据的处理。其计算公式如公式7所示。

其中，m为样本个数，xⁱ为第i个样本，yⁱ为第i个样本的类别，本发明中学生课堂个行为共10种类型，即y的类别数为10；h_θ(xⁱ)表示预测为yⁱ类别的概率。

本发明提出的11层卷积神经网络的应用流程如下：首先，通过输入层输入图像数据；在这之后，通过卷积层利用每组各32个卷积核组成的2组卷积模块提取特征；随后，将特征输入到池化窗口大小为2×2并选择最大池化方式的池化层当中，得到尺寸变为原来的一半的图像；接着，重复以上两个步骤两次，得到尺寸为8×8的图像特征，并通过Dropout层处理过拟合情况；然后，将特征输入到1个由512个神经元组成的全连接层和1个由128个神经元组成的全连接层；最后，由损失函数Softmax输出结果。

经过上述网络搭建和参数选择过程，11层卷积神经网络(CNN11)的结构描述如表5所示。

表5 11层卷积神经网络(CNN11)参数结构表

(2)模型参数设置

参数设置对深度学习算法的效果同样有着巨大的影响，适宜的参数有利于加速深度模型的训练过程，提高模型效果。

本发明所采用的RMSprop算法优化器通过将以往的算法优化器中的梯度积累改变为通过将梯度先指数平方运算后再进行加权平均的方式计算。其计算公式如公式8所示。

其中，W_t表示t时刻，即第t代迭代模型的参数；g_t＝ΔJ(W_t)表示t次迭代代价函数关于W的梯度大小；E[g²]_t表示前t次梯度平方的均值；α表示动力值，通常设定为0.9；η₀表示全局初始学习率；∈通常取1e^-8，其目的是避免分母为0。

本发明设置批次大小batchsize＝50，即每训练50幅图像后调整一次权重，所有图像循环处理500次。

4.模型评价

本实验使用的硬件设备包括两个NVIDIA GeForce GTX 1080Ti GPU 11GB和32GBRAM。本发明中网络结构的搭建和训练基于Keras进行，Keras是基于Python编写的深度学习框架，以TensorFlow、Theano和微软认知工具包(CNTK)为后端，可以方便灵活的定义深度学习模型的原型。

算法的评价实验采用十折交叉验证方法计算其分类精度，实验所得准确率计算公式如公式9所示：

其中，N为测试样本的数量；

为算法模型对测试样本标签的预测值，y为样本的真实标签，准确率代表了测试样本中模型预测正确的比例。算法训练实验结果如图10所示，分别展示了CNN11网络的准确率和损失函数随模型迭代次数的变化情况。

其中，不同行为类别识别精度如表6所示。由表6可知，所有行为均达到了85％以上的识别准确率，说明本发明所设计的学生行为识别模型能较为准确的识别学生行为，具有实际应用价值。

对识别准确率进行进一步分析，对举手、站立、手机拍照、玩手机、伸懒腰五种学生行为实现了90％以上的识别准确率，但是对记笔记、鼓掌抬头、托腮、趴桌的识别准确率较低，但也超过了85％。其中，站立和举手的识别准确率较高，其原因是这类行为动作特征明显，与其他动作区分度较大。此外，抬头和托腮的识别准确率相对最低，究其原因，这两类行为动作特征较为类似，容易产生混淆，这无论对人工识别还是计算机视觉识别方法都带来了较大的挑战。而玩手机与记笔记虽然行为特征较为类似，但训练样本的数量对训练结果也有着重要的影响，因此其识别准确率达到了较高的水平，课堂环境中大量存在的遮挡也一定程度上影响了识别的效果。对手机拍照和趴桌两个行为的识别结果进行分析，虽然相较于其他动作，这两类行为并没有突出的行为特征，但对数据库图像组成进行分析，两类行为的统一特点是网络爬虫图像数量显著高于真是课堂采集数量，这说明真实环境下复杂的环境和光照条件对学生行为的识别仍然是比较大的挑战。另一部分原因是本发明中所采用的卷积神经网络是基于图片识别学生行为，由于动作的连续性，部分动作在视频形式下较为容易辨别，转化为图片后表现力和特征减弱。

表6不同行为类别识别准确率

行为	举手	站立	记笔记	鼓掌	手机拍照
						准确率	93.56％	95.13％	87.52％	86.76％	91.83％
行为	抬头	托腮	玩手机	伸懒腰	趴桌
						准确率	85.82％	87.45％	91.10％	94.72％	87.69％

5.对比实验

为探究数据预处理方式与网络结构对识别精度的影响，本发明采用图像识别领域得到广泛使用的VGG16算法(Simonyan K,Zisserman A.Very Deep ConvolutionalNetworks for LargeScale Image Recognition[J].arXiv:1409.1556[cs],2014.)作为实验对比，不同算法的组合在学生课堂行为数据库的实验结果如下表7所示。

从实验结果可以分析得出，EDSR超分辨率方法和数据增强方法的引入使得识别准确率有了巨大的提升，从低于随机基线准确率到达到具有实际应用价值的水平。虽然网络结构改变带来的准确率提升幅度小于EDSR方法和数据增强方法，但CNN11的表现在不同组合下表现始终优于VGG16，这证明本发明所基于学生行为特征所设计的卷积神经网络结构对提高学生行为识别效果的方法是可行的。

表7不同数据处理方法和网络结构算法的实验效果

由于真实课堂环境复杂多样，且捕获学生图像的分辨率较低，运用传统行为识别算法的一系列实验效果都不理想。本发明提出一种基于深度学习的超分辨率模型和卷积神经网络的学生课堂行为识别方法。基于深度学习的超分辨率模型可以有效的提升课堂中学生图像质量。针对深度学习需要以大量的数据为训练样本的问题，使用数据增强的方法最大化利用现有数据，保证识别效果的有效性和可扩展性。设计11层卷积神经网络的结构，在保证较高准确率的前提下，减少模型训练时间以提高算法的性能。实验时首先将构建的11层卷积神经网络作为预训练模型，再将训练集和验证集输入到11层卷积神经网络中，对模型的参数进行调整，利用RMSprop算法对神经网络进行优化，然后将测试数据读入网络模型。最后，本发明所提出方法在学生课堂行为数据库上具有89.9％的识别精度，达到了实际应用的水平。