CN112580526A

CN112580526A - 基于视频监控的学生课堂行为识别系统

Info

Publication number: CN112580526A
Application number: CN202011533214.7A
Authority: CN
Inventors: 夏利民; 马文涛
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2021-03-30

Abstract

本发明公开了一种基于视频监控的学生课堂行为识别系统，属于计算机视觉领域与教育信息化技术联合领域，主要解决的是目前专业传感器体积大、成本高、不易广泛普及以及普通摄像头计算复杂、难以训练、鲁棒性差的技术问题。所述学生课堂行为识别系统包括：视频采集模块、信息存储模块和行为识别模块。视频采集模块利用普通的监控摄像头采集视频信息，信息存储模块用于存储识别过程所产生的各类信息以及学生的个人身份信息，行为识别模块用于学生的身份匹配与行为识别。本发明具有成本低、硬件要求低、检测速度快、易于训练、鲁棒性高等优点，可以使用在几乎所有的教室环境下。

Description

基于视频监控的学生课堂行为识别系统

技术领域

本发明属于数字图像处理领域设计教育智能信息化技术领域，更具体地，涉及一种基于监控视频的学生行为识别系统。

背景技术

近年来，随着机器学习与深度学习算法的广泛研究，数字图像信号处理的技术也取得了突破性的进展，特别是随着人脸识别，表情识别，目标检测以及复杂行为识别等技术都逐渐成熟，甚至在一些领域已经取代了人工的作用。

此外，随着硬件的发展，也有很多方法通过更高级的摄像头采集更加详细完备的信息。其中应用最为广泛Kinect传感器除了能够采集获取普通的RGB视频外，还能采集人体的三维数据，骨骼信息等，根据这些信息可以更加方便的进行人脸识别，表情识别以及复杂行为的识别。

现阶段，最成功的课堂行为检测系统往往依赖于Kinect实现，这一类系统利用Kinect传感器获取课堂中学生的彩色信息(RGB)、深度信息(Depth)与骨骼信息(Skeleton)来提取学生上课时的关节点信息，进而分析学生的肢体运动状态与注意力集中情况，在此基础上获得学生的听课状态。此外，这一类系统也经常利用Kinect传感器的麦克风阵列采集声音信息来判断学生上课时的回答问题情况与自习时教室秩序情况。通过对上述信息的学习与分析，可以获得具体到课堂中每一个学生的上课状态指标。但值得注意的是，Kinect传感器价格较为昂贵且体积也比较庞大，因此借助这一传感器的课堂行为识别系统尽管具有较好的识别效果与识别速度，却难以大范围普及。考虑到这一问题，通过普通的摄像头并利用计算机视觉相关知识进行学生课堂行为的识别与检测更是我们需要关注的问题。

发明内容

本发明的目的是提供一种基于视频监控的学生课堂行为识别系统，通过对每个学生在课堂上的运动特征进行建模分析该学生的学习行为与听课状态，进而提高学生的学习效率，能够对学生的学习成绩起到帮助作用。

为了实现上述目的，提供了一种基于视频监控的学生课堂行为识别系统，所述系统包括以下模块：

视频采集模块，用于采集教室中监控视频的数据信息并将其转化为灰度视频序列；

信息存储模块，用存储上一模块中采集到视频信息，座位信息，人脸信息与其对应的学生行为信息，学生与座位的位置关系信息；

行为识别模块，用于根据视频所包含的各种信息进行课堂内所有学生的行为建模，进而分析每个同学的行为与上课情况。

进一步地，所述的信息存储模块包括以下子模块：

视频信息存储子模块，用于存储普通摄像头所采集到的视频数据；

人脸信息存储子模块，用于存储监控视频采集到的学生人脸信息与学生上传的人脸身份信息；

座位信息存储子模块，用于存储视频课堂座位信息与实际座位表信息；

行为信息存储子模块，用于存储课堂中学生的行为信息；

进一步地，所述的行为识别模块包括以下子模块：

人脸检测与识别子模块，用于对监控视频检测到的人脸与数据库中的学生身份信息进行比对匹配，获得这一区域内学生信息；

位置信息统计子模块，用于根据目标检测到的人体区域的位置信息与课堂座位信息进行匹配，得到学生与座位的位置关系信息。并融合人脸检测与识别子模块得到的人脸信息，得到这一位置的学生基本信息。最后将视频序列按照学生信息进行视频的第一次分割，得到只包含单个学生的视频样本；

光流场计算子模块，用于计算分割后视频的密集光流场，以便于后续特征的提取；

注意力池化子模块，用于对计算得到的根据密集光流场进行预处理，主要目的是在于对视频序列进行二次分割得到若干个时空块，以方便计算视频的长期信息。并剔除产生自背景的“伪光流”，削弱课堂环境造成的背景干扰；

光流场校正子模块，用于校正由于原始光流算法捕捉到的输入误差、个体的细粒度随机行为以及背景变化都会导致的帧间矢量的剧烈变化。

行为特征提取子模块，用于提取基于流场物理特性的高阶物理特征；

行为识别子模块，用于融合视频序列的时空块所包含的高阶物理特征，进行学生行为的识别与判断，并将学生的身份信息与行为信息合并存入信息存储模块中的行为信息存储子模块。

进一步地，所述位置信息统计子模块中检测到的人体框的位置中心点估计具体为：

第k个人的中心点k_centre在位置p的置信图为：

其中σ表示置信度参数。通过控制该置信度参数，取最大置信图的位置即为第k学生的中心点位置信息。

进一步地，所述行为识别子模块的行为类别归纳为：

看书；写字；举手；回答问题；摇头晃脑；低头玩手机，趴桌睡觉以及正常听课8种。上述行为类别主要是通过对人体的光流场统计信息分析进行判别。

综上所述，通过本发明所构思的技术方案与其他技术相比，具有以下的技术特征与有益效果：

(1)本发明采用当前比较成熟的目标检测技术与人脸识别技术进行学生身份信息的匹配，所需的计算负担较低，能够被广泛的应用于学校中；

(2)本发明无需依赖Kinect传感器等高级的专业传感器，只需要借助普通的摄像头拍摄得到的视频数据就可以完成准确的数据，因此本系统可以很方便的接入现有的视频监控系统中；

(3)本发明针对视频数据设计了一种具有较低维度的运动特征，可以有效的减少计算成本与训练数据量。这也意味着本发明所设计的系统比其他的基于深度学习方法的系统更容易训练。

附图说明

图1是本发明系统结构的示意图；

图2是本发明中物理特性的计算方法示意图；

图3是本发明中高阶物理特征提取原理图；

具体实施方式

下面结合本发明实施例中的附图对本发明做进一步的说明。

请参阅图1-3，一种基于视频监控的学生课堂行为识别系统，系统包括：

将原始监控视频序列转化为灰度图，存入视频信息存储子模块；

可以根据公式：

f(i,j)＝0.2999R+0.587G+0.114B，

根据上式对原始的视频序列进行灰度化处理得到灰度图，其中f(i,j)表示灰度化处理后视频帧中坐标为(i,j)处的像素点的灰度值，R、G、B分别为彩色图像三个通道的分量，转化为灰度图可以有效地排除颜色的干扰，减少输入图像的维度大小，方便后续的处理。

将灰度图输入到目标检测模型中检测视频序列中可能是人体的区域。

对于检测得到的人体框，根据人脸识别子模块对人物框内学生进行身份匹配，匹配得到的结果存入人脸信息存储子模块。

位置信息统计子模块，用于将人物框的中心点坐标信息与已知的座位表信息进行匹配，得到该区域的完整学生身份信息，。

进一步地，我们根据座位信息分割视频序列得到若干个子视频，保证每个子视频内都包括单个学生的完整运动区域。对每个子视频进行该学生的课堂行为的识别。

对于给定的训练输入序列X_input，计算其密集光流场。并将其分割为若干个时空块，每个时空块之间相隔τ帧，包括连续θ帧的光流图像。在此基础上训练注意力池化子模块123。

假定需要进行池化的层为X∈R^n×f，其中f表示通道数，n表示图像空间位置数。权重矩阵为W_k∈R^f×f，最终的分类得分可以写为：

score_attention(X)＝Tr(X^TXW_k ^T)

进一步地，本发明中利用二维低秩近似权重矩阵W_k以减少训练所需的参数，即W＝a_kb^T，其中k表示行为的种类数量。经过数学上的推导，上式可以简化为：

score_attention(X)＝(Xa_k)^T(Xb)

本发明将注意力池化层替换传统CNN最后的全连接层进行该层的预训练，再采用反卷积操作以获得可以在原始视频序列中获取人物边界的注意力池化权重矩阵W_attention。

光流场校正子模块125，用于校正与实际运动趋势并不相符的部分光流矢量。本发明采用局部时空热扩散处理进行光流场的校正。其中，将每个视频帧中的像素视作一个粒子M。粒子M的能量定义为：

式中

是从粒子N转移到M的能量，n是粒子M附近的非零粒子数，

和

分别表示运动矢量的水平和垂直能量分量。则从单个粒子N到M传递的能量可以定义为：

其中γ∈{x,y}表示不同方向上的分量，

是属于粒子N的光流失量在γ上的分量大小，k_p和k_f分别表示传播系数和力传播因子，D_N表示M与N之间的欧几里得距离，V_N是从粒子N指向M的矢量，F_N表示N点的光流矢量。上式的物理意义是粒子M从靠近它的粒子上能够获得更多的能量。

进一步地，当视频序列中的人体处于运动状态时，运动矢量场的初始顺序会受到干扰，矢量强度和流场的拓扑结构也会发生变化。这些变化将反映在如散度、旋度以及梯度的物理特性上。其中，散度用来表示空间中某点在向量场中输出度，旋度是描述向量场中某点附近微元的旋转程度，此外，梯度特征也可以用来衡量光流场的变化率。本发明以此为基础设计高阶的物理特征描述符。

使用离散累积法进行二维流场的物理特性计算，计算公式如下：

进一步地，对每一个时空块进行分割，得到共W_n×H_n个单元格。计算单元格内的散度、旋度与梯度的归一化特征，并将每个单元格内的三个物理特征进行分别累加。最终将单元格合并得到第i个时空块的特征图

进一步地，本发明中所需的高阶物理特征描述符可以表示为

其中T表示时空块的数目。F_m即为运动特征。

行为识别子模块127，用于根据运动特征完成学生课堂行为的识别任务。具体地，采用卷积融合网络进行每个时空块运动特征的融合。

使用一组卷积核F₁∈R^{H×W×T×D×D}对运动特征F_m进行卷积，得到整个视频序列的最终视频表示：

F_spf＝F_m*F₁+b₁

式中b₁表示偏置项，D表示F_m的通道数。

进一步地，将F_spf重塑得到一个向量形式的特征，利用一个激活函数为ReLU的全连接层计算该特征的分类得分，并采用L2损失作为损失函数训练卷积融合网络，通过优化后的参数对测试集数据样本进行分类。

其中，L2损失被定义为：

其中Y_i表示这一数据样本的标签，f(x_i)表示卷积融合网络的预测结果，通过最小化S即可得到最优的网络参数。

本发明采用基于光流物理特征的系统进行学生课堂行为的识别，根据流场物理特征的变化度判断学生的行为以及行为的趋势，根据散度的变化判断运动的速度大小，根据旋度的变化判断运动的方向，根据梯度的变化判断身体部位运动时所产生的变化率，该系统在实际应用场景中得到验证。本发明相比于传统的关节点检测方法相比，具有输入图像小、图像特征提取速度会计、特征提取网络参数较少、计算复杂度低、运算速度快、准确率高、鲁棒性高等优点。

以上仅是本发明的优选实施方法，应当指出对于本领域内的专业技术人员而言，在不脱离本发明的网络结构的前提下，还可以针对适用环境的不同等具体情况做出若干改进，所做的改进都不会影响本发明实施的具体效果和专利的实用性。

Claims

1.一种基于视频监控的学生课堂行为识别系统，包括视频采集模块(10)、信息存储模块(11)和行为识别模块(12)，其特征在于：所述视频采集模块(10)、信息存储模块(11)和行为识别模块(12)彼此之间相互连接；所述信息存储模块(11)包括以下子模块：

视频信息存储子模块(111)，用于存储监控摄像头拍摄到的视频灰度化处理结果；

人脸信息存储子模块(112)，用于存储监控中检测到的人脸信息以及对应的学生上传的包括人脸信息在内的身份信息；

座位信息存储子模块(113)，用于存储视频中检测到的学生区域以及对应的座位表信息；

行为信息存储子模块(114)，用于存储课堂中每一位学生的行为信息记录与对应的学生身份信息。

2.根据权利要求1所述的一种基于视频监控的学生课堂行为识别系统，其特征在于：所述行为识别模块(12)包括以下子模块：

人脸检测与识别子模块(121)，用于对监控视频序列中的人脸进行目标检测，并与数据库中录入的学生人脸信息进行匹配，将最终的匹配结果存储至人脸信息存储子模块(112)中；

位置信息统计子模块(122)用于检测人体区域，评奖人体区域中心点坐标与座位表中的位置信息进行匹配，以此来分割每个学生所处的区域，将最终的匹配结果存储至座位信息存储子模块(113)中；

注意力池化子模块(123)，用于提取单个学生区域内的感兴趣区域(ROI)，消除背景环境产生的干扰；

光流场计算子模块(124)，用于根据注意力池化子模块(123)得到的ROI计算密集光流场；

光流场校正子模块(125)，用于根据光流场计算子模块(124)得到的密集光流场进行流场的校正，采用局部时空热扩散处理使流场中所有光流与运动趋势保持一致；

行为特征提取子模块(126)，用于根据光流场校正子模块(125)得到的稳定连贯流场进行物理特征的计算，主要是累加计算流畅的散度、旋度与梯度特征；

行为识别子模块(127)，用于根据行为特征提取子模块(126)得到的流场物理特征计算整个人物视频序列的视频表示，并根据此进行行为的识别分类；

上述子模块中，位置信息统计子模块(122)、注意力池化子模块(123)、光流场计算子模块(124)、光流场校正子模块(125)、行为特征提取子模块(126)与行为识别子模块(127)依次相连。

3.根据权利要求2所述的行为识别模块(12)，其特征在于：所述注意力池化子模块(123)用于根据注意力机提取当前视频内与行为类别相关程度最高的子区域，将注意力池化层score_attention(X)＝(Xa_k)^T(Xb)替换CNN的全连接层以实现上述目标。

4.根据权利要求2所述的行为识别模块(12)，其特征在于：所述光流场校正子模块(125)，用于校正由于输入误差、帧间差异等因素产生的与运动趋势不相符的异常光流，根据流体力学领域中的局部时空热扩散处理传递相邻光流矢量之间的能量：

其中γ∈{x,y}表示不同方向上的分量，

是属于粒子N的光流失量在γ上的分量大小，k_p和k_f分别表示传播系数和力传播因子，D_N表示M与N之间的欧几里得距离，V_N是从粒子N指向M的矢量，F_N表示N点的光流矢量。

5.根据权利要求2所述的行为识别模块(12)，其特征在于：所述行为特征提取子模块(126)构建基于流场散度、旋度与梯度的物理特征描述符，用来度量流场矢量强度和流场的拓扑结构变化。进一步地，所述行为特征提取子模块(126)的物理特征离散累积法为：

6.根据权利要求2所述的行为识别模块(12)，其特征在于：所述行为识别子模块(127)采用卷积融合网络进行每个时空块运动特征的融合并完成分类任务。采用一组卷积核F₁∈R^{H×W×T×D×D}对运动特征F_m进行卷积并得到最终的视频表示：

F_spf＝F_m*F₁+b₁

再通过最小化L2损失实现对F_spf的分类。

7.根据权利要求3所述的注意力池化子模块(123)，其特征在于：所述注意力池化层训练之前，应先将视频序列分割为若干个时空块，每个时空块之间相隔τ帧，包括连续θ帧的光流图像。后续的每个模块都将在时空块的基础上进行处理。

8.根据权利要求5所述的行为特征提取子模块(126)，其特征在于：所述物理特征描述符建立在一个单元格内，将整个时空块划分为W_n×H_n个单元格，只计算单元格内的散度、旋度与梯度的归一化特征，并将每个单元格内的三个物理特征进行分别累加。最终将单元格合并得到第i个时空块的特征图：