CN110837795A

CN110837795A - 基于课堂监控视频的教学情况智能监测方法、装置及设备

Info

Publication number: CN110837795A
Application number: CN201911066365.3A
Authority: CN
Inventors: 袁静; 王蒙; 刘雪阳; 袁国铭
Original assignee: Institute of Disaster Prevention
Current assignee: Institute of Disaster Prevention
Priority date: 2019-11-04
Filing date: 2019-11-04
Publication date: 2020-02-25

Abstract

本发明涉及一种基于课堂监控视频的教学情况智能监测方法、装置及设备，所述方法基于教室监控视频数据，构建训练数据集和学生行为数据集，并采用YOLOv3网络对数据集进行训练得到人体区域检测模型和人体行为识别模型，通过人体区域检测模型和人体行为识别模型对学生课堂行为进行识别，对识别结果进行标注，并统计各种学生行为人数及课堂上课人数总数。本发明能够获得可靠的人体特征和行为特征，可靠地检测到课堂中的学生人数，且能够可靠识别学生课堂行为，打破了教室监控视频处于机械的记录数据的状态，能够基于学生行为的识别结果进一步进行教学情况的判断，服务于教学管理，并为学校智能服务提供了大量的参考数据集。

Description

基于课堂监控视频的教学情况智能监测方法、装置及设备

技术领域

本发明属于教学管理技术领域，具体地说，涉及了基于课堂监控视频的教学情况智能监测方法、装置及设备。

背景技术

教室作为教师教学和学生学习的重要场地，对学生的学习效果影响明显。随着教育信息化的快速发展，教室内一般都安装有摄像头监控系统，摄像头采集教室内的画面并进行存储，但现有的监控视频系统处于一种机械地记录数据的状态，并不能对课堂的授课情况以及学生的学习情况进行分析，无法对教师的授课情况和学生的学习情况进行管理和评价。

公开号为CN 109461104 A的中国专利申请公开了一种课堂监控方法、装置及电子设备，其中监控方法包括：获取教室内的图像信息；对图像信息进行特征提取，并基于预先存储的特征库，确定学生的课堂接受程度；其中，特征库包括行为特征库和人脸特征库。该专利申请中，通过行为特征对比学生的课堂情绪进行分析，通过行为特征对比学生的课堂行为进行分析，从而从情绪和行为两个方面对学生的课堂接受程度进行分析。

上述专利申请从情绪和行为两个方面是对学生课堂接受程度进行分析，但并不能识别学生的上课状态，即统计正常听课人数、睡觉人数或玩手机的学生人数等信息，且无法评测课堂的授课情况。

发明内容

本发明针对现有技术存在的上述不足，提供一种基于课堂监控视频的教学情况智能监测方法、装置及设备，能够识别学生上课行为状态，并基于学生行为的识别结果进一步进行教学情况判断。

为了达到上述目的，本发明提供了一种基于课堂监控视频的教学情况智能监测方法，含有以下步骤：

获取m,m≥1间教室内不同时刻的监控视频数据，建立图像集X1，并对图像集X1进行归一化处理，得到图像集X2；

对图像集X2中的每一张图像进行每个学生的人体区域标注，并根据标注的人体区域数据建立训练数据集VOC1；

采用YOLOv3网络对训练数据集VOC1进行训练，得到人体区域检测模型F1；

获取另外m间教室内不同时刻的监控视频数据，建立图像集X3，采用人体区域检测模型F1检测出图像集X3中每张图像中的人体区域，并对人体区域的学生行为进行标注，建立学生行为数据集VOC2；

采用YOLOv3网络对学生行为数据集VOC2进行训练，得到人体行为识别模型F2；

实时获取教室内的监控视频数据，将监控视频数据输入至人体区域检测模型F1检测出学生的人体区域，并将检测出的人体区域输入至人体行为识别模型F2进行学生行为识别，将识别结果标注在图像上；

每隔预设时间T统计教室内上课人数总数和各种学生行为的人数。

进一步的，还包括以下步骤：根据各种学生行为的人数对课堂的授课情况进行评估

优选的，图像集X1的建立方法为：对采集的m间教室不同时刻的教室监控视频数据，在每间教室的监控视频中截取k时刻的图像，并每隔半小时提取一帧图像，选取有学生上课场景的图像，形成图像集X1；

获得图像集X2的方法为：对图像集X1进行归一化处理，每一张图像的大小为416*416，形成图像集X2。

优选的，标注人体区域并建立训练数据集VOC1的具体步骤为：采用标注工具VOCmaker依次打开图像集X2中的图像，在某一图像中标注出某一个学生的人体区域，人工标注该人体区域左上角的点和右下角的点，标注后在标注工具VOCmaker中输入标签“Person”，将该人体区域信息保存到对应的xml标签文件，按照上述方法标注出每张图像中的每个学生的人体区域，直至图像集X2所有图像中所有学生的人工区域信息保存至对应的xml标签文件，根据xml标签文件存储的教室内学生人体区域样本数据，建立训练数据集VOC1，所述人体区域信息包括人体区域左上角的点以及人体区域的宽度和高度。

优选的，YOLOv3网络对训练数据集VOC1进行训练得到人体区域检测模型F1的过程为：

输入训练数据集VOC1中的图像至YOLOv3网络，YOLOv3网络将每一张图像分成13×13网格，每个网格输出2个包含物体的矩形区域的边框Bounding box信息以及1个物体属于Person类的概率信息，所述边框Bounding box信息包括5个数据值，分别为x,y,w,h,confidence，其中，x,y表示当前网格预测得到的物体的边框Bounding box的中心位置的坐标，w表示当前预测得到的物体的边框Bounding box的宽度，h表示当前预测得到的物体的边框Bounding box的高度，confidence＝P(object)*IOU表示当前预测得到的物体的边框Bounding box是否包含物体以及物体位置的准确性，即置信度,若边框Bounding box包含物体，则P(object)＝1，否则P(object)＝0，IOU为预测边框Bounding box与物体真实区域的交集面积；

以YOLOv3网络输出的13*13*(2*5+1)维向量与真实图像对应的13*13*(2*5+1)维向量的均方和误差作为损失函数对训练数据集VOC1进行训练得到人体区域检测模型F1；

所述损失函数包括边框Bounding box的坐标预测误差、边框Bounding box的confidence预测误差以及类别预测误差，所述损失函数表示为：

式中，带帽的符号表示预测值，未带帽的符号表示人工标注值，S²表示网格数，B表示每个网格预测边框的个数，

表示网格内有目标，取值为1，

表示网格内没有目标，取值为0，λ_coord＝5表示对边框Bounding box坐标预测的惩戒系数，λ_noobj＝0.5表示没有探测到目标时的惩戒系数，p表示表示概率，c表示类别，包括person类和背景类。

优选的，采用YOLOv3网络对学生行为数据集VOC2进行训练得到人体行为识别模型F2的过程为：输入学生行为数据集VOC2中的图像至YOLOv3网络，YOLOv3网络将每一张图像分成13×13网格，每个网格输出2个包含物体的矩形区域的边框Bounding box信息以及1个物体属于Person类的概率信息，所述边框Bounding box信息包括5个数据值，分别为x,y,w,h,confidence；以YOLOv3网络输出的13*13*(2*5+1)维向量与真实图像对应的13*13*(2*5+1)维向量的均方和误差作为损失函数对学生行为数据集VOC2进行训练得到人体行为识别模型F2，所述损失函数为公式(1)所示的损失函数。

优选的，图像集X3的建立方法为：对采集的m间教室不同时刻的教室监控视频数据，在每间教室的监控视频中截取k时刻的图像，并每隔15分钟提取一帧图像，选取有学生上课场景的图像，形成图像集X3。

优选的，标注人体区域的学生行为时，将学生行为分为睡觉、正常上课、玩手机、记录四类行为。

为了达到上述目的，本发明还提供了一种教学情况智能监测装置，包括：

获取模块，用于获取教室内的监控视频数据；

训练数据集生成模块，用于对监控视频图像进行人工标注，生成训练数据集VOC1；

学生行为数据集生成模块，用于检测出的人体区域的学生行为进行标注，生成学生行为数据集VOC2；

网络训练模块，用于对训练数据集VOC1新型训练的得到人体区域检测模型F1以及对学生行为数据集VOC2进行训练得到人体行为识别模型F2；

识别统计模块，用于检测出图像中学生的人体区域，对人体区域内的学生行为进行识别，以及统计教室内上课人数总数以及各种学生行为的人数。

为了达到上述目的，本发明还提供了一种电子设备，包括存储器和处理器，所述存储器上存储有在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法及其任一种可能的实施方式所述方法。

为了达到上述目的，本发明还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质，其特征在于，所述程序代码是所述处理器执行上述方法及其任一种可能的实施方式所述方法。

与现有技术相比，本发明的有益效果在于：

本发明从大量的教室监控视频数据中构建了训练数据集和学生行为数据集，并采用YOLOv3网络对数据及进行训练获得可靠的人体区域检测模型和人体行为识别模型，通过人体区域检测模型和人体行为识别模型对学生课堂行为进行识别，对识别结果进行标注，并统计各种学生行为(包括睡觉、正常上课、玩手机、记录)人数及课堂上课人数总数，能够得到可靠的人体特征和行为特征，可靠地检测到课堂中的学生人数，且能够可靠识别学生课堂行为，打破了教室监控视频处于机械的记录数据的状态，能够基于学生行为的识别结果进一步进行教学情况的判断，服务于教学管理，并为学校智能服务提供了大量的参考数据集。

附图说明

图1为本发明实施例1所述基于课堂监控视频的教学情况智能监测方法的流程图；

图2为本发明实施例2所述基于课堂监控视频的教学情况智能监测方法的流程图。

图3为本发明实施例教学情况智能监测装置的结构框图；

图4为本发明实施例标注工具VOCmaker运行界面图；

图5为本发明实施例训练模型时将图像分成13×13网格图；

图6为本发明实施例YOLOv3网络结构图；

图7为本发明实施例人体区域检测模型和人体行为识别模型使用流程图；

图8为本发明实施例电子设备的流程示意图。

图中，1、获取模块，2、训练数据集生成模块，3、学生行为数据集生成模块，4、网络训练模块，5、识别统计模块，6、处理器，7、存储器，8、总线，9、通信接口。

具体实施方式

下面，通过示例性的实施方式对本发明进行具体描述。然而应当理解，在没有进一步叙述的情况下，一个实施方式中的元件、结构和特征也可以有益地结合到其他实施方式中。

目前现有教学管理中，仅通过监控视频系统进行机械地记录教室内课堂的状态，并未对后期数据进行分析处理，无法识别学生的上课状态和评测课堂的授课情况，难以满足教学管理的需要。

为了解决上述问题，本发明实施例提供了一种基于课堂监控视频的教学情况智能监测方法、装置及设备，通过构建训练数据集和学生行为数据集，并采用YOLOv3网络对数据集进行悬链得到可靠的人体特征和行为特征，能够可靠地检测到课堂中的学生人数，对学生课堂行为进行可靠识别，便于教学管理，进而提高课堂教学质量。

为了便于对本实施例进行理解，下面结合附图和实施例对本发明上述方法、装置及设备进行详细说明。首先对本发明实施例所公开的一种基于课堂监控视频的教学情况智能监测方法进行详细介绍。该方法可以但不限于应用于云服务器，并依靠现相关硬件或软件实现，主要用于教学管理。

实施例1：参见图1，一种基于课堂监控视频的教学情况智能监测方法，其具体步骤为：

S1、获取m,m≥1间教室内不同时刻的监控视频数据，建立图像集X1，并对图像集X1进行归一化处理，得到图像集X2。

具体地，图像集X1的建立方法为：对采集的m间教室不同时刻的教室监控视频数据，在每间教室的监控视频中截取k时刻的图像，并每隔半小时提取一帧图像，选取有学生上课场景的图像，形成图像集X1。例如：在每件教室的监控视频中截取早8点10分的图像，并每个半小时提取一帧图像。其中，m的数值可以为3、4、5、8、10、20不等，具体可根据实际情况选取m的数值。

具体地，获得图像集X2的方法为：对图像集X1进行归一化处理，每一张图像的大小为416*416，形成图像集X2。

S2、对图像集X2中的每一张图像进行每个学生的人体区域标注，并根据标注的人体区域数据建立训练数据集VOC1。

具体地，参见图4，采用标注工具VOCmaker依次打开图像集X2中的图像，在某一图像中标注出某一个学生的人体区域(参见图4中白色框标出的区域)，人工标注该人体区域左上角的点和右下角的点(图4中白色的圆点即为标注点)，标注后在标注工具VOCmaker中输入标签“Person”，将该人体区域信息保存到对应的xml标签文件，按照上述方法标注出每张图像中的每个学生的人体区域，直至图像集X2所有图像中所有学生的人工区域信息保存至对应的xml标签文件，根据xml标签文件存储的教室内学生人体区域样本数据，建立训练数据集VOC1，所述人体区域信息包括人体区域左上角的点以及人体区域的宽度和高度。本发明实施例中使用的标注样本量为22134张。xml标签文件存储的均为教室内的学生人体区域样本数据，将所有的学生人体区域样本数据组合形成训练数据集VOC1，主要用于训练模型，以实现从监控图像中检测出学生的人体区域。

S3、采用YOLOv3网络对训练数据集VOC1进行训练，得到人体区域检测模型F1。

具体地，输入训练数据集VOC1中的图像至YOLOv3网络，YOLOv3网络将每一张图像分成13×13网格(参见图5)，每个网格输出2个包含物体的矩形区域的边框Bounding box信息以及1个物体属于Person类的概率信息，所述边框Bounding box信息包括5个数据值，分别为x,y,w,h,confidence，其中，x,y表示当前网格预测得到的物体的边框Bounding box的中心位置的坐标，w表示当前预测得到的物体的边框Bounding box的宽度，h表示当前预测得到的物体的边框Bounding box的高度，confidence＝P(object)*IOU表示当前预测得到的物体的边框Bounding box是否包含物体以及物体位置的准确性，即置信度,若边框Bounding box包含物体，则P(object)＝1，否则P(object)＝0，IOU为预测边框Boundingbox与物体真实区域的交集面积；

表示网格内有目标，取值为1，

S4、获取另外m间教室内不同时刻的监控视频数据，建立图像集X3，采用人体区域检测模型F1检测出图像集X3中每张图像中的人体区域，并对人体区域的学生行为进行标注，建立学生行为数据集VOC2。

具体地，图像集X3的建立方法为：对采集的m间教室不同时刻的教室监控视频数据，在每间教室的监控视频中截取k时刻的图像，并每隔15分钟提取一帧图像，选取有学生上课场景的图像，形成图像集X3。在截取每间教室的监控视频图像时，与图像集X1的建立方法中一样，截取同一时刻的图像。例如：图像集X1中在每间教室的监控视频中截取早8点10分的图像，图像集X3中同样在每间教室的监控视频中截取早8点10分的图像，与图像集X1不同的是，图像集X3中，截取图像后，每隔15分钟提取一帧图像。

具体地，标注人体区域的学生行为时，将学生行为分为睡觉(即Sleep)、正常上课(即Normal)、玩手机(即Phone)、记录(即Writing)四类行为。对学生行为进行不同分类，根据不同学生行为有助于对后期的课堂的授课情况进行分析，从而进一步提高课堂授课质量，进行教学管理。

S5、采用YOLOv3网络对学生行为数据集VOC2进行训练，得到人体行为识别模型F2。

具体地，采用YOLOv3网络对学生行为数据集VOC2进行训练得到人体行为识别模型F2的过程为：输入学生行为数据集VOC2中的图像至YOLOv3网络，YOLOv3网络将每一张图像分成13×13网格，每个网格输出2个包含物体的矩形区域的边框Bounding box信息以及1个物体属于Person类的概率信息，所述边框Bounding box信息包括5个数据值，分别为x,y,w,h,confidence；以YOLOv3网络输出的13*13*(2*5+1)维向量与真实图像对应的13*13*(2*5+1)维向量的均方和误差作为损失函数对学生行为数据集VOC2进行训练得到人体行为识别模型F2，所述损失函数为公式(1)所示的损失函数。

S6、参见图7，实时获取教室内的监控视频数据，将监控视频数据输入至人体区域检测模型F1检测出学生的人体区域，并将检测出的人体区域输入至人体行为识别模型F2进行学生行为识别，将识别结果标注在图像上。

S7、每隔预设时间T统计教室内上课人数总数和各种学生行为的人数。预设时间T可以根据实际需要进行设定，例如：预设时间T为20分钟。

具体地，通过时间序列对学生的行为状态和数量进行追踪，能够进一步增加系统改的可靠性。

在本实施例中，参见图6，YOLOv3网络的结构为：共106层；input416×416×3表示输入图像的像素为416*416，通道数为3；Conv2D32×3×3是卷积层，采用了32个size3*3的卷积核，步伐为1；输出32个通道大小是416×416的特征图。例如：layer4，表示该层是第4层，filter res表示是res层，其输入与输出一般保持一致，并且不进行其他操作，只是求差。

具体地，继续参见图6，YOLOv3网络的结构具体包括：

darknet-53：53表示darknet网络中的卷积层加全连接层的数量。其中，卷积层：1+1+(1*2)+1+(2*2)+1+(8*2)+1+(8*2)+1+(4*2)＝52层，全连接层：1层，卷积层+全连接层合计53层。

Input层：输入图像256×256，常用的尺寸是416×416，都是32的倍数，RGB三通道彩色图片。卷积的strides默认为(1，1)，padding默认为same，当strides为(2，2)时padding为valid。

第一层卷积层：原始图像尺寸以256*256为例，卷积核数量32个，大小为3×3，步长为1，输出为256*256*32，该层对应卷积核参数数量为3*3*3*32＝864个。

第二层卷积层：传入数据为256*256尺寸的图像厚度为32层，卷积核数量为64个，尺寸3*3，步长为2，输出为128*128*64，该层对应卷积核参数数量为3*3*32*64＝18432个。

第三层卷积层：卷积核个数为32，尺寸1*1，步长1。

第四层卷积层：卷积核个数64个，尺寸3*3，步长1。

为了防止梯度消失与爆炸，第三层和第四层作为一个残差块。

第五层卷积层：卷积核个数128个，卷积核尺寸3*3，步长2。该层输出为64*64*128，卷积核参数数量为3*3*64*128＝73728个。

第六、七层卷积层：第六层为64个卷积核，卷积核大小1*1，步长1；第七层为128个卷积核，卷积核大小3*3，步长1。

为了防止梯度消失与爆炸，第六层和第七层作为一个残差块。

第八、九两层卷积层：该二层为第六、第七层卷积层的复刻层。并且同样将第八、九层作为一个残差快。

第十层卷积层：输入图像为尺寸为64*64，卷积核数量为256个，卷积核尺寸为3*3，步长为2。

第11-26层卷积层和28-43层卷积层，以及45-52层卷积层均为进一步组合上一层特征操作。第27、44和第5、10层卷积层，均为折半减小特征尺寸，同时成倍增加卷积核数量，以进一步组合特征。整个darknet53网络的功能是阶梯提取和组合不同尺度的各种特征。从第0层一直到74层，一共有53个卷积层。作为yolov3特征提取的主要网络结构。预训练(以imagenet数据集为训练基础)的权重文件可以通过官网下载。该结构使用一系列的3*3和1*1的卷积的卷积层。这些卷积层是从各个主流网络结构选取性能比较好的卷积层进行整合得到。

以下以416*416*3为输入图像为例对上述YOLOv3网络进一步进行说明。

从75到105层为YOLOv3网络的特征交互层，分为三个尺度，每个尺度内，通过卷积核的方式实现局部的特征交互，作用类似于全连接层但是是通过卷积核(3*3和1*1)的方式实现feature map之间的局部特征(fc层实现的是全局的特征交互)交互。

最小尺度YOLOv3层：

输入：13*13的feature map，一共1024个通道。

操作：一系列的卷积操作，feature map的大小不变，但是通道数最后减少为75个。

输出；输出13*13大小的feature map，75个通道，在此基础上进行分类和位置回归。

中尺度YOLOv3层：

输入：将79层的13*13、512通道的feature map进行卷积操作，生成13*13、256通道的feature map，然后进行上采样，生成26*26、256通道的feature map，同时于61层的26*26、512通道的中尺度的feature map合并，再进行一系列卷积操作。

输出：26*26大小的feature map，75个通道，然后在此进行分类和位置回归。

大尺度的YOLOv3层：

输入：将91层的26*26、256通道的feature map进行卷积操作，生成26*26、128通道的feature map，然后进行上采样生成52*52、128通道的feature map，同时于36层的52*52、256通道的中尺度的feature map合并，再进行一系列卷积操作。

输出：52*52大小的feature map，75个通道，然后在此进行分类和位置回归。

由此完成三个不同尺度的目标检测。

本发明上述监测方法，基于教室内课堂监控视频数据，构建了目前行业和学术领域缺少的课堂学生行为数据集，并采用YOLOv3网络对数据集进行训练得到课堂学生行为的识别模型，能够可靠识别人体特征和行为特征，检测到课堂中的学生人数，且能够可靠识别课堂学生行为，为高校监控智能化分析和使用提供了可行的思路和可靠的实施方案，推动人工智能技术在教学服务中应用。

实施例2：本实施例提供了一种基于课堂监控视频的教学情况智能监测方法，与实施例1不同的是，本实施例中还包括以下步骤：根据各种学生行为的人数对课堂的授课情况进行评估。

具体地，参见图2，其具体步骤为：

S6、实时获取教室内的监控视频数据，将监控视频数据输入至人体区域检测模型F1检测出学生的人体区域，并将检测出的人体区域输入至人体行为识别模型F2进行学生行为识别，将识别结果标注在图像上。

S7、每隔预设时间T统计教室内上课人数总数和各种学生行为的人数。

S8、根据各种学生行为的人数对课堂的授课情况进行评估。

具体地，根据四种学生行为的人数比例可以对课堂的授课情况进行评估。例如：玩手机、睡觉的人数较多，则授课情况较差，则说明可能老师的授课方式比较枯燥，听课的学生打不起精神，学生不喜欢或不愿意听课，也可能是老师讲课的内容比较深奥，基础差的学生听不懂。这时需要老师调整授课方式或授课内容。又例如：正常上课、记录的人数较多，则授课情况较好，则说明大多数学生接收老师的授课方式和授课内容，喜欢或愿意听老师讲课。

本发明上述监测方法，基于教室内课堂监控视频数据，构建了目前行业和学术领域缺少的课堂学生行为数据集，并采用YOLOv3网络对数据集进行训练得到课堂学生行为的识别模型，能够可靠识别人体特征和行为特征，检测到课堂中的学生人数，且能够可靠识别课堂学生行为，为教学监控智能化分析和使用提供了可行的思路和可靠的实施方案，推动人工智能技术在教学服务中应用。还可以根据学生行为的人数对课堂的授课情况进行评估，为教学智能服务提供大量的参考数据，从而提高教学质量。

实施例3：参见图3，一种教学情况智能监测装置，包括：

获取模块1，用于获取教室内的监控视频数据；

训练数据集生成模块2，用于对监控视频图像进行人工标注，生成训练数据集VOC1；

学生行为数据集生成模块3，用于检测出的人体区域的学生行为进行标注，生成学生行为数据集VOC2；

网络训练模块4，用于对训练数据集VOC1新型训练的得到人体区域检测模型F1以及对学生行为数据集VOC2进行训练得到人体行为识别模型F2；

识别统计模块5，用于检测出图像中学生的人体区域，对人体区域内的学生行为进行识别，以及统计教室内上课人数总数以及各种学生行为的人数。

进一步的，上述识别统计模块5还用于：根据各种学生行为的人数对课堂的授课情况进行评估。

本发明上述监测装置，通过对建立训练数据集和学生行为数据集进行训练，得到人体区域检测模型和人体行为识别模型，能够可靠识别人体特征和行为特征，检测到课堂中的学生人数，且能够可靠识别课堂学生行为，为教学监控智能化分析和使用提供了可行的思路和可靠的实施方案，推动人工智能技术在教学服务中应用。还可以根据学生行为的人数对课堂的授课情况进行评估，为教学智能服务提供大量的参考数据，从而提高教学质量。

实施例4：本发明还提供了一种电子设备，包括处理器6、存储器7、总线8和通信接口9，所述处理器6、通信接口9和存储器7通过总线8连接；处理器用于执行存储器中存储的可执行模块，例如计算机程序。

具体地，处理器6可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的个步骤可以通过处理器6中的硬件的集成逻辑电路或者软件形式的指令完成。上述处理器6可以是通用处理器，包括中央处理器(Central Processing Unit，简称：CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SingalProcessing，简称：DSP)、现场可编程门阵列(简称：FPGA)或者其他可编程逻辑器件。可以实现或者执行本发明实施例中提供的个方法、步骤及逻辑框图。结合本发明实施例所提供的方法的步骤可以直接体现为硬件编译码处理器执行完成，或者用编译码处理器中的硬件及软件模块组合执行完成。

具体地，存储器7可能包含高速随机存取存储器(英文：Random Access Memory简称：RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口(有线或者无线)实现系统网元与至少一个其他网元之间的通信连接，可以是互联网，广域网，本地网、城域网等。存储器7用于存储程序，所述处理器6在接收到执行指令后，执行所述程序，上述本发明实施例任一实施例揭示的装置所执行的方法可以应用于处理器中，或者由处理器实现。

总线8可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为了便于表示，图8中仅用一个双箭头表示，但并不表示仅有一根总线或一种类型的总线。

本发明实施例提供的电子设备，与上述实施例提供的监测方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

本发明实施例还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质，所述程序代码包括的指令可用于执行上述实施例中所述的监测方法，具体实现可参见方法实施例，在此不在赘述。

以上所举实施例仅用为方便举例说明本发明，并非对本发明保护范围的限制，在本发明所述技术方案范畴，所属技术领域的技术人员所作各种简单变形与修饰，均应包含在以上申请专利范围中。

Claims

1.一种基于课堂监控视频的教学情况智能监测方法，其特征在于，含有以下步骤：

2.如权利要求1所述的基于课堂监控视频的教学情况智能监测方法，还包括以下步骤：根据各种学生行为的人数对课堂的授课情况进行评估。

3.如权利要求1或2所述的基于课堂监控视频的教学情况智能监测方法，其特征在于，图像集X1的建立方法为：对采集的m间教室不同时刻的教室监控视频数据，在每间教室的监控视频中截取k时刻的图像，并每隔半小时提取一帧图像，选取有学生上课场景的图像，形成图像集X1；

获得图像集X2的方法为：对图像集X1进行归一化处理，每一张图像的大小为416*416，形成图像集X2；

图像集X3的建立方法为：对采集的m间教室不同时刻的教室监控视频数据，在每间教室的监控视频中截取k时刻的图像，并每隔15分钟提取一帧图像，选取有学生上课场景的图像，形成图像集X3。

4.如权利要求3所述的基于课堂监控视频的教学情况智能监测方法，其特征在于，标注人体区域并建立训练数据集VOC1的具体步骤为：采用标注工具VOCmaker依次打开图像集X2中的图像，在某一图像中标注出某一个学生的人体区域，人工标注该人体区域左上角的点和右下角的点，标注后在标注工具VOCmaker中输入标签“Person”，将该人体区域信息保存到对应的xml标签文件，按照上述方法标注出每张图像中的每个学生的人体区域，直至图像集X2所有图像中所有学生的人工区域信息保存至对应的xml标签文件，根据xml标签文件存储的教室内学生人体区域样本数据，建立训练数据集VOC1，所述人体区域信息包括人体区域左上角的点以及人体区域的宽度和高度。

5.如权利要求4所述的基于课堂监控视频的教学情况智能监测方法，其特征在于，YOLOv3网络对训练数据集VOC1进行训练得到人体区域检测模型F1的过程为：

表示网格内有目标，取值为1，

6.如权利要求5所述的基于课堂监控视频的教学情况智能监测方法，其特征在于，采用YOLOv3网络对学生行为数据集VOC2进行训练得到人体行为识别模型F2的过程为：输入学生行为数据集VOC2中的图像至YOLOv3网络，YOLOv3网络将每一张图像分成13×13网格，每个网格输出2个包含物体的矩形区域的边框Bounding box信息以及1个物体属于Person类的概率信息，所述边框Bounding box信息包括5个数据值，分别为x,y,w,h,confidence；以YOLOv3网络输出的13*13*(2*5+1)维向量与真实图像对应的13*13*(2*5+1)维向量的均方和误差作为损失函数对学生行为数据集VOC2进行训练得到人体行为识别模型F2，所述损失函数为公式(1)所示的损失函数。

7.如权利要求1所述的基于课堂监控视频的教学情况智能监测方法，其特征在于，标注人体区域的学生行为时，将学生行为分为睡觉、正常上课、玩手机、记录四类行为。

8.一种教学情况智能监测装置，其特征在于，包括：

获取模块，用于获取教室内的监控视频数据；

9.一种电子设备，包括存储器和处理器，所述存储器上存储有在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任意一项所述的方法。

10.一种具有处理器可执行的非易失的程序代码的计算机可读介质，其特征在于，所述程序代码是所述处理器执行如权利要求1至7任意一项所述的方法。