CN116543338A

CN116543338A - 一种基于注视目标估计的学生课堂行为检测方法

Info

Publication number: CN116543338A
Application number: CN202310539724.2A
Authority: CN
Inventors: 高陈强; 朱常杰; 陈欣悦; 陈睿昕; 段伟
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-05-15
Filing date: 2023-05-15
Publication date: 2023-08-04

Abstract

本发明属于图像处理与计算机视觉技术领域，具体涉及一种基于注视目标估计的学生课堂行为检测方法；包括构建并训练学生课堂行为检测模型，获取监控摄像头采集的课堂实时视频并输入训练好的学生课堂行为检测模型，得到课堂上所有学生的行为检测结果；所述学生课堂行为检测模型包括时空特征金字塔网络、动态实例交互头、注视目标估计模块、ROI映射模块和融合模块；本发明为一个端到端的单阶段学生课堂行为检测方法，可以有效的提高预测的实时性；使用动态实例交互头，并采用一对一标签分配方法，实现了教学场景下的拥挤目标检测，并有效减少重复预测。

Description

一种基于注视目标估计的学生课堂行为检测方法

技术领域

本发明属于图像处理与计算机视觉技术领域，具体涉及一种基于注视目标估计的学生课堂行为检测方法。

背景技术

随着信息技术、存储技术和通信技术的逐渐成熟，人工智能得到进一步的发展，深度学习技术也得到了越来越多的关注。无人驾驶汽车、智能家居系统等这些伴随着人工智能技术而火热起来的产业也在无时不刻地改变着人们的生活方式与生产方式，机器取代人类，解放生产力在各行各业都有着广泛的应用。智慧教育也成为了人们关注的焦点之一，用以提高教学效果。学生在教室课堂上的姿态信息是教学质量的重要评估标准之一。传统的教学质量评估主要采用督导巡查并进行主观打分的方式，无论人力还是物力都消耗较大，还会出现错漏的情况。而随着监控视频系统在校园的普及，校园监控的自动分析技术需求越来越大。现在我们可以利用分布在每个教室中的视频监控系统，采用深度学习技术对每个教室中的教学情况进行自动化、智能化分析。因此，如何利用深度学习和计算机视觉技术结合视频监控系统进行实时可靠的分析，从而减少错漏率、提高工作效率具有重要的研究意义。

行为检测是智能目标感知的一个重要研究方向，旨在利用计算机视觉对成像处理器采集的图像或视频进行处理，自动提取人体的行为信息。而在教室场景中，人体比较拥挤且遮挡严重，难以实现准确地检测；同时学生的行为，如玩手机、阅读等难以直接识别。

发明内容

为解决上述问题，本发明提供了一种基于注视目标估计的学生课堂行为检测方法，包括构建并训练学生课堂行为检测模型，获取监控摄像头采集的课堂实时视频并输入训练好的学生课堂行为检测模型，得到课堂上所有学生的行为检测结果；所述学生课堂行为检测模型包括时空特征金字塔网络、动态实例交互头、注视目标估计模块、ROI映射模块和融合模块；

所述学生课堂行为检测模型的训练过程包括以下步骤：

S1.获取监控摄像头采集的课堂视频，并输入时空特征金字塔网络得到视频特征；S2.从课堂视频中抽取一张关键帧图像，并在视频特征中提取该关键帧图像的关键帧特征输入动态实例交互头，输出关键帧图像中每个目标所对应的预测框坐标；

S3.将关键帧特征以及所有预测框坐标输入注视目标估计模块，输出每个目标所对应的注视目标区域；

S4.将每一个目标的预测框坐标和注视目标区域分别通过ROI模块进行ROIAlign映射，得到每一个目标的姿态信息和注视区域信息；

S5.将视频特征分别与每一个目标的姿态信息和注视区域信息进行融合，得到每一个目标对应的融合特征；

S6.采用行为检测网络处理每一个目标对应的融合特征，得到每个目标的行为检测结果。

进一步的，步骤S2获取关键帧特征的过程包括：

S11.所述时空特征金字塔网络采用3DResNet50-FPN架构，主要包括Bottom-up路径和top-down路径；其中Bottom-up路径包括res2卷积模块、res3卷积模块、res4卷积模块和res5卷积模块；

S12.通过时空特征金字塔网络提取课堂视频每一帧图像的多尺度特征，将所有图像的多尺度特征组成视频特征；其中，每一帧图像的多尺度特征由其在时空特征金字塔网络中获取的res3卷积模块输出特征、res4卷积模块输出特征和res5卷积模块输出特征组成；；

S13.从课堂视频中抽取一张关键帧图像，并在视频特征中提取该关键帧图像的多尺度特征作为关键帧特征。

进一步的，在Bottom-up路径中，将所有简单一维卷积替换为图卷积单元；所述图卷积单元包括图注意力卷积和步长为2的最大池化操作。

进一步的，步骤S2采用动态实例交互头进行检测的过程包括：

S21.动态实例交互头接收时空特征金字塔网络提取出的关键帧特征，然后预测关键帧图像中每个目标的位置和类别；

S22.采用一对一标签分配方法减少重复预测。

进一步的，一对一标签分配方法包括：

S221.设置第一置信度阈值，并将其与所有预测框的置信度进行比较；

S222.若预测框B_i，i＝1,2,…,M的置信度大于第一置信度阈值，则预测框B_i为可接受预测；若预测框B_i的置信度不大于第一置信度阈值，则预测框B_i为噪声预测；其中M为预测框数量；

S223.重复步骤S222，直至所有预测框划分好类别；

S224.获取所有目标的真实框组成目标真实集合，将任一可接受预测与目标真实集合进行匹配，若该可接受预测的中心点落在某一真实框中，则该可接受预测与该真实框匹配成功，并在目标真实集合中移除该匹配的真实框；重复步骤S224直至所有可接受预测都进行了匹配操作；

S225.获取步骤S224后的更新目标真实集合，将任一噪声预测与更新目标真实集合进行匹配。

进一步的，所述注视目标估计模块包括目标分支和注视预测分支；所述目标分支包括ROI Align、目标位置编码和全连接层；所述注视预测分支包括编码模块和MLP模块。

进一步的，通过注视目标估计模块输出每个目标所对应的注视目标区域，包括：

S31.基于关键帧特征，对任一个目标进行ROI Align得到该目标的目标特征，并对该目标的预测框坐标进行目标位置编码得到目标位置特征图；

S32.将目标特征与目标位置特征图连接起来并通过一个全连接层，计算得到注意力图；

S33.将关键帧特征、目标特征与目标位置特征图进行拼接，将拼接结果与注意力图相乘得到场景特征图；

S34.将场景特征图与目标特征的拼接结果输入编码模块进行编码，所述编码模块包括两个级联的卷积层；

S35.将编码模块输出的特征图输入MLP模块进行解码操作，所述MLP模块包括两个MLP层，一个MLP层用于输出预测注视目标在场景内的概率，另一个MLP层用于输出预测注视热力图。

本发明的有益效果：

本发明为一个端到端的单阶段学生课堂行为检测方法，只采用时空特征金字塔网络提取视频时空特征，并抽取关键帧特征，可以有效的提高预测的实时性；使用动态实例交互头，并采用一对一标签分配方法，实现了教学场景下的拥挤目标检测，并有效减少重复预测；使用目标注视预测实现对目标所注视区域的检测，能够有效的指导网络对相似行为的判别；并使用时空视频特征以实现行为起始时间的准确判别。

附图说明

图1为本发明逻辑框架图；

图2为本发明中时空特征金字塔示意图；

图3为本发明中动态交互头示意图；

图4为本发明中注视目标估计模块示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有的行为检测方法大多为两阶段方法，即需要先进行第一阶段的目标检测，再进行第二阶段的行为检测，计算量巨大。为有效减少计算量，实现行为检测的实时性，本发明提供了一种基于注视目标估计的学生课堂行为检测方法，如图1所示，包括以下步骤：

S1.获取监控摄像头采集的课堂视频，并输入时空特征金字塔网络得到视频特征。

具体地，所述时空特征金字塔网络采用ResNet50-FPN架构，如图2所示，主要包括Bottom-up路径、top-down路径和lateral connections；其中Bottom-up路径包括res2卷积模块、res3卷积模块、res4卷积模块和res5卷积模块。

具体地，在传统金字塔结构中，其自下而上的Bottom-up路径实质为一个下采样卷积神经网络的前馈计算，其中所采用的卷积运算均为简单一维卷积。而本发明为了有效获取视频中多帧图像间的时序信息，在Bottom-up路径中，将所有简单一维卷积替换为图卷积单元；所述图卷积单元包括图注意力卷积(Graph Attention Network，GAT)和步长为2的最大池化操作。

具体地，在传统金字塔结构中，其自上而下的top-down路径实质上是为了增大带有高层语义信息的特征图分辨率；对顶部具有大感受野的特征图做上采样，步长与最大池化操作相同都为2，上采样时用线性插值的方式。上采样完后与Bottom-up路径中输出的具有相同尺寸的特征图进行横向连接，融合时采用对应元素相加的形式，具体公式可表示为：

F_1ow＝interpolate(conv(F_cur))

其中，F_1ow表示上采样后的特征，F_cur表示当前层的输入特征，interpolate()表示上采样操作，conv()为3×1×1的卷积，用以提取视频的时序信息。

S2.从课堂视频中抽取一张关键帧图像，并在视频特征中提取该关键帧图像的关键帧特征输入动态实例交互头，输出关键帧图像中每个目标所对应的预测框坐标。

具体地，对于课堂视频中每一帧图像，将其在时空特征金字塔网络获取的res3卷积模块输出特征、res4卷积模块输出特征和res5卷积模块输出特征分别提取出来形成多尺度特征。将所有图像的多尺度特征组成视频特征；从课堂视频中抽取一张关键帧图像，并在视频特征中提取该关键帧图像的多尺度特征作为关键帧特征。

具体地，如图2所示，某一帧图像的多尺度特征包括：res5卷积模块输出特征为res5卷积模块直接输出的特征，res4卷积模块输出特征为res5卷积模块直接输出的特征与res4卷积模块直接输出的特征进行拼接得到的第一拼接特征，res3卷积模块输出特征为res3卷积模块直接输出的特征与第一拼接特征进行拼接得到的第二拼接特征。

具体地，动态实例交互头的输入包括三部分：一是关键帧特征，二是可学习提案框，三是可学习提案特征；可学习提案框由从0到1的4-D参数表示，表示标准化的中心坐标、高度和宽度，存储整个数据集的统计ROI信息，通过可学习提案框在图像中提取出N个ROI区域，用于提供粗糙的ROI表征，并使用ROI Align为每个可学习提案框提取ROI特征；同时提取对应的可学习提案特征以提供细节信息(如外观和姿态)。

具体地，每一个ROI特征都对应一个单独的动态实例交互头，每个动态实例交互头会将ROI特征与其对应的可学习提案特征进行一对一的交互，进而实现目标定位和分类，如图3所示，具体包括：

可学习提案特征和ROI特征的形状大小分别为(N，C)和(N，S×S，C)，设置N＝100，C＝256，S为RoI特征图的大小。可学习提案特征经过线性映射生成向量，将该向量作为动态参数，并与ROI特征进行交互；这里的交互形式是两个1×1卷积层，即生成的动态参数作为两个1×1卷积层的参数，对ROI特征进行卷积操作，根据1×1卷积的特点，这里会把ROI特征中作用不大的通道滤除掉，突出有效位置；最后，再对卷积网络的输出进行一次线性映射得到目标特征，用于后续目标定位及类别预测。

具体地，步骤S2采用动态实例交互头进行检测的过程包括：

S22.采用一对一标签分配方法减少重复预测。

具体地，采用动态实例交互头进行目标识别的过程中，一般置信度高的预测框中含有很大比例的目标对象，其中只包含少量的重复预测；而置信度低的预测框中重复预测较多。故本发明采用一对一标签分配方法来减少重复预测，包括：

S221.设置第一置信度阈值，并将其与所有预测框的置信度进行比较；本实施例中第一置信度阈值为0.7；

S223.重复步骤S222，直至所有预测框划分好类别；

S225.获取步骤S224后的更新目标真实集合，将任一噪声预测与更新目标真实集合进行匹配，若该噪声预测的中心点落在某一真实框中，则该噪声预测与该真实框匹配成功，并在目标真实集合中移除该匹配的真实框；重复步骤S225，直至所有可接受预测都进行了匹配操作或所有真实框都匹配成功。

具体地，当一个可接受预测的中心点落在多个真实框中时，分别计算可接受预测和多个真实框之间的IOU，选择IOU大的真实框。

S3.将关键帧特征以及所有预测框坐标输入注视目标估计模块，输出每个目标所对应的注视目标区域。

具体地，注视目标估计模块包括目标分支和注视预测分支。

目标分支：如图4所示，对关键帧特征中的每一个目标分别处理，使用ROI Align得到每一个目标的目标特征。对每一个目标的预测框坐标进行目标位置编码以获得每一个目标的目标位置特征图；对于每一个目标，将其目标特征与其目标位置特征图连接起来，然后将这两个连接起来的特征通过一个全连接层计算出一个注意力图。

具体地，二值图像对目标在场景中的位置和相对深度的编码比基于位置编码器的方式更有效。本发明所述的目标位置编码为将关键帧图像转化为二进制图像，其中黑色像素指定目标的边界框，而白色像素则是关键帧图像的其他部分，并使用三个连续的最大池化操作来缩小尺寸，获得目标位置特征图。

注视预测分支：如图4所示，需要将关键帧特征、目标特征与目标位置特征图进行concat，然后与目标分支得到的注意力图进行相乘，输出场景特征图。场景特征图与目标得到的注意力图相乘，使得模型能够根据目标的属性学会更多的更有可能被关注到的场景特征，并将场景特征图与目标特征图连接。最后在编码模块中使用两个卷积层对连接的特征进行编码。然后将编码后的特征送入2个MLP层中进行解码，一层MLP预测注视目标在场景内的概率，一层MLP层预测注视热力图。

损失函数：注视目标估计任务需要高质量的注视热力图来生成精确的结果。这是使用了能量聚集损失利用真实目标注视区域来指导注视目标估计过程。

目标注视区域的能量为E_b：

其中W_i,j表示预测注视热力图中每个像素点(i，j)的能量，x₁为真实注视目标框的最小横坐标，x₂为真实注视目标框的最大横坐标，y₁为真实注视目标框的最小纵坐标，y₂为真实注视目标框的最大纵坐标，M为真实注视目标框的所有像素的数量。

能量聚集损失如下：

其中E_b为目标注视区域的能量，E_I是这帧图像的所有能量。

总损失为能量聚集损失与注视损失的和：

为注视损失，具体为预测注视热力图与真实注视热力图之间的MSE损失；为能量聚集损失。

S4.将每一个目标的预测框坐标和注视目标区域分别通过ROI模块进行ROIAlign映射，得到每一个目标的姿态信息和注视区域信息。

具体地，计算预测框坐标、注视目标位置映射到特征图上的大小，并保留浮点数。主要包括：设置经过ROIAlign后的特征图尺寸为10×10，将某一目标的预测框坐标、注视目标位置映射到特征图中的区域进行划分，得到100个同等大小的子区域，选取每一个子区域内的最大值作为该子区域的像素值，从而得到100个像素值组成10×10特征图，最后得到该目标的姿态信息和注视区域信息。

S5.将多尺度特征分别与每一个目标的姿态信息和注视区域信息进行融合，得到每一个目标对应的融合特征；

本发明期望以最小的代价实现一个端到端的学生课堂行为检测网络，故使用一个简单地线性层处理所有融合特征，并使用交叉熵损失来训练行为分类头。

损失函数如下：

y是真实的标签值(正类值为1，负类值为0)，是预测的概率值/>).它表征真实样本标签和预测概率之间的差值。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于注视目标估计的学生课堂行为检测方法，其特征在于，构建并训练学生课堂行为检测模型，获取监控摄像头采集的课堂实时视频并输入训练好的学生课堂行为检测模型，得到课堂上所有学生的行为检测结果；所述学生课堂行为检测模型包括时空特征金字塔网络、动态实例交互头、注视目标估计模块、ROI映射模块和融合模块；

所述学生课堂行为检测模型的训练过程包括以下步骤：

S1.获取监控摄像头采集的课堂视频，并输入时空特征金字塔网络得到视频特征；

S2.从课堂视频中抽取一张关键帧图像，并在视频特征中提取该关键帧图像的关键帧特征输入动态实例交互头，输出关键帧图像中每个目标所对应的预测框坐标；

2.根据权利要求1所述的一种基于注视目标估计的学生课堂行为检测方法，其特征在于，步骤S2获取关键帧特征的过程包括：

S12.通过时空特征金字塔网络提取课堂视频每一帧图像的多尺度特征，将所有图像的多尺度特征组成视频特征；其中，每一帧图像的多尺度特征由其在时空特征金字塔网络中获取的res3卷积模块输出特征、res4卷积模块输出特征和res5卷积模块输出特征组成；

3.根据权利要求2所述的一种基于注视目标估计的学生课堂行为检测方法，其特征在于，在Bottom-up路径中，将所有简单一维卷积替换为图卷积单元；所述图卷积单元包括图注意力卷积和步长为2的最大池化操作。

4.根据权利要求1所述的一种基于注视目标估计的学生课堂行为检测方法，其特征在于，步骤S2采用动态实例交互头进行检测的过程包括：

S22.采用一对一标签分配方法减少重复预测。

5.根据权利要求4所述的一种基于注视目标估计的学生课堂行为检测方法，其特征在于，一对一标签分配方法包括：

S223.重复步骤S222，直至所有预测框划分好类别；

6.根据权利要求1所述的一种基于注视目标估计的学生课堂行为检测方法，其特征在于，所述注视目标估计模块包括目标分支和注视预测分支；所述目标分支包括ROIAlign、目标位置编码和全连接层；所述注视预测分支包括编码模块和MLP模块。

7.根据权利要求6所述的一种基于注视目标估计的学生课堂行为检测方法，其特征在于，通过注视目标估计模块输出每个目标所对应的注视目标区域，包括：

S31.基于关键帧特征，对任一个目标进行ROIAlign得到该目标的目标特征，并对该目标的预测框坐标进行目标位置编码得到目标位置特征图；