CN113255572B

CN113255572B - 一种课堂注意力评估方法及系统

Info

Publication number: CN113255572B
Application number: CN202110669216.7A
Authority: CN
Inventors: 许炜; 田博文; 郭春麟; 肖宇
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2021-06-17
Filing date: 2021-06-17
Publication date: 2021-09-14
Anticipated expiration: 2041-06-17
Also published as: CN113255572A

Abstract

本发明公开了一种课堂注意力评估方法及系统，包括：S1、对采集到的一节课的课堂视频按帧进行头部姿态检测，得到各帧图像中学生所在的位置框以及头部姿态；获取各帧图像中的学生人数，将各帧图像中学生人数的众数记为学生总人数；S2、基于各帧图像中学生的头部姿态以及学生总人数，计算该节课的正抬头率和活跃指数；其中，正抬头率为头部姿态为正抬头的学生人数与学生总人数比值的平均值；活跃指数为学生头部姿态从非正抬头变为抬头姿态的频率的平均值；S3、计算该节课的正抬头率和活跃指数的乘积，得到该节课的注意力估计值。本发明设计了用来刻画课堂活跃状态的活跃指数，活跃指数与抬头率相互补充来评估课堂注意力，使得评估结果更加准确。

Description

一种课堂注意力评估方法及系统

技术领域

本发明属于教育信息化技术领域，更具体地，涉及一种课堂注意力评估方法及系统。

背景技术

随着信息技术的发展，利用计算机监测分析课堂学习行为的方法系统也在不断出现。其中，课堂注意力的研究在教学研究领域的接受程度较高，通过对课堂注意力的分析研究可以达到辅助老师进行有效教学评估和教学反思的目的。

目前对于课堂注意力的研究通常有两种方法。一种是对学生脸部表情进行识别，建立起不同表情与注意力的关联关系，这种多适用于单人、近距离的在线教学场景；另一种则是对脸部或头部姿态的分析来完成，这种方法更适用于真实的课堂教学场景，而且其观测的内容也与人的主观感受比较接近，更容易被教学研究者所接受。但是之前大部分针对课堂注意力测量的研究，都几乎将抬头率等同于课堂注意力来对待。这种做法存在的问题就是对注意力刻画不够细腻，例如：在一个课堂上，同学们伴随着教师的讲解，同步翻阅着教材并积极记录着笔记，此时的抬头率和注意力就存在着一定的差异，评估得到的课堂注意力值的准确率较低。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供一种课堂注意力评估方法及系统，用以解决现有技术进行课堂注意力评估的准确率较低的技术问题。

为了实现上述目的，第一方面，本发明提供了一种课堂注意力评估方法，包括以下步骤：S1、对采集到的一节课的课堂视频按帧进行头部姿态检测，得到各帧图像中学生所在的位置框以及头部姿态；分别统计各帧图像中学生所在的位置框个数，得到各帧图像中的学生人数，并将各帧图像中学生人数的众数记为学生总人数；其中，头部姿态包括：正抬头和非正抬头；正抬头为学生头部正面朝向教学信息源的抬头姿态；S2、基于各帧图像中学生的头部姿态以及学生总人数，计算该节课的正抬头率和活跃指数；其中，正抬头率为头部姿态为正抬头的学生人数与学生总人数比值的平均值；活跃指数为学生头部姿态从非正抬头变为抬头姿态的频率的平均值；S3、计算该节课的正抬头率和活跃指数的乘积，得到该节课的注意力估计值。

进一步优选地，步骤S2包括：S21、将一节课分为多个时间段，分别计算各时间段的正抬头率和活跃指数；S22、计算各时间段的正抬头率的平均值，得到该节课的正抬头率；

S23、计算各时间段的活跃指数的平均值，得到该节课的活跃指数。

进一步优选地，步骤S21包括：S211、分别统计T_i时间段内各帧图像中头部姿态为正抬头的学生人数，并计算T_i时间段内头部姿态为正抬头的学生人数与学生总人数比值的平均值，得到T_i时间段的正抬头率；S212、在T_i时间段内，分别对每一个学生统计其在相邻两帧图像中头部姿态发生变化、且其在后一帧图像中的头部姿态为正抬头的次数，得到每一个学生头部姿态发生相应变化的次数，并计算T_i时间段内学生头部姿态发生相应变化的频率的平均值，得到T_i时间段的活跃指数；其中，

，m为一节课所对应的时间段个数。

进一步优选地，T_i时间段的正抬头率为：

其中，

为T_i时间段的正抬头率；

为T_i时间段的时长；

为T_i时间段内的学生总人数；

为第t时刻所对应的帧图像中第j个学生的头部姿态，若为正抬头，则

取值为1，否则为0。

进一步优选地，T_i时间段的活跃指数为：

其中，

为T_i时间段的活跃指数。

进一步优选地，一节课的注意力估计值为：

其中，K为课堂的注意力估计值。

进一步优选地，各时间段的时长均为预设时长，m为一堂课的时长与预设时长的比值。

进一步优选地，步骤S212中，得到每一个学生头部姿态发生相应变化的次数的方法包括：对于T_i时间段内的相邻两帧图像，对后一帧图像中头部姿势为正抬头的学生，将其所在的位置框与前一帧图像中的每一个位置框进行IoU计算，得到IoU计算结果的最大值

；判断

是否大于预设阈值，若是，则获取

对应的前一帧图像中的学生所在的位置框

，并判断位置框

中学生的头部姿态是否为正抬头，若否，则将该学生头部姿态发生相应变化的次数加一。

进一步优选地，上述课堂注意力评估方法还包括在步骤S1之前执行的步骤S0；

步骤S0包括以下步骤：

S01、搭建头部姿态检测模型；其中，头部姿态检测模型包括：特征提取模块、语义模块和检测模块；特征提取模块包括多个级联的降采样模块，用于基于不同感受野来提取帧图像的多个尺度的特征，得到多尺度特征图；每个的尺度特征图分别对应输入到一个语义模块中；语义模块和检测模块的个数均与多尺度特征图的个数相同，一个语义模块与一个检测模块对应相连；语义模块用于增加对应尺度特征图的背景信息得到语义特征图，并输入到检测模块中；检测模块包括并行的回归分支、分类分支和IOU Aware分支；回归分支用于计算语义特征图中每个像素点处的预测框；分类分支用于分别对语义特征图中每个像素点处的预测框，计算其属于不同头部姿态类别的概率，并将最大概率值所对应的头部姿态类别作为该预测框所属头部姿态类别的预测值；IOU Aware分支用于计算语义特征图中每个像素点处的预测框与真实框重合度的预测值;

S02、分别获取预采集到的训练集中各样本图像的正预设框和负预设框；具体为：对样本图像对应的语义特征图中的每个像素点预设若干个不同尺度的预设框，计算各预设框与真实框之间的IOU；将大于或等于预设IOU阈值的IOU所对应的预设框作为正预设框，将小于预设IOU阈值的IOU中前N个取值较大的IOU所对应的预设框作为负预设框；其中，训练集包括多个样本图像及其对应的标签；样本图像包括课堂视频帧图像；标签包括学生所在的真实框以及对应的学生头部姿态类别的真实值；N为正整数;

S03、将训练集输入到头部姿态检测模型中，以最小化回归分支计算得到的样本图像各正预设框中心点位置处的预测框与对应正预设框中心点的偏移量差异之和、最小化分类分支计算得到的样本图像各正预设框和各负预设框中心点位置处的预测框所属的头部姿态类别的预测值与对应头部姿态类别的真实值的差异之和，以及最小化IOU Aware分支计算得到的样本图像各正预设框中心点位置处的预测框与真实框重合度的预测值与对应正预设框与真实框重合度的真实值的差异之和为目标，训练头部姿态检测模型。

进一步优选地，进行头部姿态检测的方法包括：将课堂视频中的图像输入到预训练好的头部姿态检测模型中，得到图像所对应的各预测框、各预测框所属的头部姿态类别的预测值及其属于头部姿态类别预测值的概率、以及各预测框与真实框重合度的预测值；对各预测框，将其属于头部姿态类别预测值的概率和其与真实框重合度的预测值进行融合，得到各预测框的定位置信度；基于预测框的定位置信度对各预测框进行非极大值抑制，得到学生所在的位置框及其对应的头部姿态类型。

进一步优选地，第r个预测框的定位置信度为：

其中，

为第r个预测框对应头部姿态类别的预测值的概率，

为第r个预测框与真实框重合度的预测值，

为比例系数参数。

第二方面，本发明提供了一种课堂注意力评估系统，包括：

头部姿态检测模块，用于对采集到的一节课的课堂视频按帧进行头部姿态检测，得到各帧图像中学生所在的位置框以及头部姿态；分别统计各帧图像中学生所在的位置框个数，得到各帧图像中的学生人数，并将各帧图像中学生人数的众数记为学生总人数；其中，头部姿态包括：正抬头和非正抬头；正抬头为学生头部正面朝向教学信息源；

指标计算模块，用于基于各帧图像中学生的头部姿态以及学生总人数，计算该节课的正抬头率和活跃指数；其中，正抬头率为头部姿态为正抬头的学生人数与学生总人数比值的平均值；活跃指数为学生头部姿态从非正抬头变为抬头姿态的频率的平均值；

注意力估计模块，用于计算该节课的正抬头率和活跃指数的乘积，得到该节课的注意力估计值。

第三方面，本发明还提供一种机器可读存储介质，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现如上所述的课堂注意力评估方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

1、本发明提供了一种课堂注意力评估方法，设计了用来刻画课堂活跃状态的活跃指数，即学生头部姿态从非正抬头变为抬头姿态的频率的平均值，活跃指数与抬头率相互补充来评估课堂注意力，以衡量一节课的课堂注意力水平，避免了将抬头率等同于课堂注意力来对待，能够更加客观对课堂注意力进行评价，使得评估结果更加准确。

2、本发明所提供的课堂注意力评估方法，由于在一节课过程中随着授课内容的重要程度和老师的讲课状态的变化，学生的听讲和学习状态也会有所改变，故在评估一节课的注意力时，将将一节课分为多个时间段，基于各时间段的正抬头率和活跃指数来计算一节课的正抬头率和活跃指数，进而得到一节课的注意力，结果更加准确，且方便快捷。

3、本发明所提供的课堂注意力评估方法，采用头部姿态检测模型进行头部姿态检测，头部姿态检测模型用于检测教室内的学生头部位置，并判别出当前学生的头部状态(正抬头或者非正抬头)，包括特征提取模块、语义模块和检测模块，通过特征提取模块基于不同感受野来提取输入图像多个尺度的特征，对于包含信息多的较大的目标能够获得更加准确的图像特征；通过语义模块增大输入特征图像的感受野，同时将各层输出特征进行通道合并，达到充分利用上下文的目的；检测模块包括并行的回归分支、分类分支和IOU Aware分支，其中，IOU Aware分支可以用来增强分类分支和回归分支的联系，使得头部姿态检测模型在定位的时候更加精准；基于此，本发明所提供的头部姿态检测模型能够有效地优化因为某些情况无法检测到学生人脸而无从判别状态的问题。

4、本发明所提供的课堂注意力评估方法，所得的注意力评估结果可以同时使用曲线图和热度图两种可视化方法展示，能够更加直观地比较不同课堂间的差异。

附图说明

图1为本发明实施例1提供的一种课堂注意力评估方法流程图。

图2为本发明实施例1提供的头部姿态检测模型示意图。

图3为本发明实施例1提供的活跃指数计算中有效头部姿态切换示意图。

图4为本发明实施例1提供的抬头率与活跃指数的时间变化曲线示意图。

图5为本发明实施例1提供的抬头率与活跃指数的热度图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

实施例1

一种课堂注意力评估方法，如图1所示，包括以下步骤：

S1、对采集到的一节课的课堂视频按帧进行头部姿态检测，得到各帧图像中学生所在的位置框以及头部姿态；分别统计各帧图像中学生所在的位置框个数，得到各帧图像中的学生人数，并将各帧图像中学生人数的众数记为学生总人数；其中，头部姿态包括：正抬头和非正抬头；正抬头为学生头部正面朝向教学信息源的抬头姿态；可以采用头部姿态检测模型对采集到的一节课的课堂视频按帧进行头部姿态检测；常用的头部姿态检测模型包括RetinaFace模型、MTCNN模型、SSH模型、SSD模型、R-FCN模型、FasterRCNN模型、YoLov3模型等。

优选地，本实施例提出了一种课堂视频图像中进行头部姿态检测的头部姿态检测模型；具体地，在一种可实施方式中，上述课堂注意力评估方法还包括在步骤S1之前执行的步骤S0；步骤S0包括以下步骤：

S01、搭建头部姿态检测模型；其中，头部姿态检测模型包括：特征提取模块、语义模块和检测模块；特征提取模块可以为分类网络（如VGG）提取特征的层；本实施例中，特征提取模块包括多个级联的降采样模块，用于基于不同感受野来提取帧图像的多个尺度的特征，得到多尺度特征图；每个的尺度特征图分别对应输入到一个语义模块中；语义模块和检测模块的个数均与多尺度特征图的个数相同，一个语义模块与一个检测模块对应相连；语义模块用于增加对应尺度特征图的背景信息得到语义特征图，并输入到检测模块中；检测模块包括并行的回归分支、分类分支和IOU Aware分支；回归分支用于计算语义特征图中每个像素点处的预测框；分类分支用于分别对语义特征图中每个像素点处的预测框，计算其属于不同头部姿态类别的概率，并将最大概率值所对应的头部姿态类别作为该预测框所属头部姿态类别的预测值；IOU Aware分支用于计算语义特征图中每个像素点处的预测框与真实框重合度的预测值。

S02、分别获取预采集到的训练集中各样本图像的正预设框和负预设框；具体为：对样本图像对应的语义特征图中的每个像素点预设若干个不同尺度的预设框，计算各预设框与真实框之间的IOU；将大于或等于预设IOU阈值的IOU所对应的预设框作为正预设框，将小于预设IOU阈值的IOU中前N个取值较大的IOU所对应的预设框作为负预设框（优选地，将所得小于预设IOU阈值的IOU从大到小进行排序，将前N个取值较大的IOU所对应的预设框作为负预设框）；其中，训练集包括多个样本图像及其对应的标签；样本图像包括课堂视频帧图像；标签包括学生所在的真实框以及对应的学生头部姿态类别的真实值；N为正整数；本实施例中，正预设框与负预设框个数的比值为1:3，基于该比值确定N的取值。

具体地，如图2所示，本实施例中，头部姿态检测模型包括特征提取模块、语义模块和检测模块；其中，特征提取模块包括6个级联的降采样模块，分别为C1、C2、C3、C4、C5和最后的额外下采样层（记为Extra Layer，用于较大目标检测）。当图片输入后，每经过一个降采样模块处理后，特征图长宽降低2倍。为了达到检测教室内不同尺度的样本的目的，检测网络使用降采样8倍、16倍、32倍和64倍的输出特征分别进行预测，这样做的好处在于，小目标在下采样次数较多的高层网络特征信息会很少，而在下采样次数较少的低层网络特征信息相对丰富，因此需要使用低层特征来预测小目标。但高层特征与低层特征相比语义性和分辨性更强，因此对于包含信息多的较大的目标使用高层特征预测会更加准确。除此之外，本实施例中特征提取模块还包括RFB模块，用于丰富特征信息。语义模块通常是使用多个卷积层级联，这样可以增大感受野，同时语义模块还会将各层输出特征进行通道合并，达到充分利用上下文的目的。从图2可以看到，语义模块使用5个3*3大小的卷积层级联实现，其中第二个卷积层与第一个卷积层相比通道数减半，第三个卷积层和第四个卷积层的通道数设置为第二个卷积层的一半，最后将第二个卷积层，第三个卷积层，第四个卷积层的输出进行通道合并后，经过第五个卷积层输出，语义模块的每一个卷积层的卷积核大小为3，步长为1，填充也设置为1，这样可以保证不降低输入分辨率的情况下达到增大感受野的目的。检测模块包括并行的回归分支、分类分支和IOU Aware分支；IoU Aware分支可以用来增强分类分支和回归分支的联系，能够使网络在定位的时候更加精准。

在对教室内的视频数据进行采集后，输入到上述预训练好的头部姿态检测模型进行处理，头部姿态检测模块会按设定的处理频率抽取视频中的相应帧进行处理，并输出当前帧得到的学生人数和学生头部姿态数据。需要说明的是，本实施例中，视频流一秒对应25帧，其中会包含1个关键帧，因为关键帧已经包含了完整图像，并且所含的数据信息量比较大，本实施例从25帧中抽取其中的关键帧作为这一秒所对应的帧图像。

本实施例中，进行头部姿态检测的方法包括：

将课堂视频中的图像输入到预训练好的头部姿态检测模型中，得到图像所对应的各预测框、各预测框所属的头部姿态类别的预测值及其属于头部姿态类别预测值的概率、以及各预测框与真实框重合度的预测值；

对各预测框，将其属于头部姿态类别预测值的概率和其与真实框重合度的预测值进行融合，得到各预测框的定位置信度；其中，第r个预测框的定位置信度为：

；其中，

为第r个预测框对应头部姿态类别的预测值的概率，

为第r个预测框与真实框重合度的预测值，

为比例系数参数，用于调节两者的比重，本实施例中取值为0.3；基于预测框的定位置信度对各预测框进行非极大值抑制，得到学生所在的位置框及其对应的头部姿态类型。

S2、基于各帧图像中学生的头部姿态以及学生总人数，计算该节课的正抬头率和活跃指数；其中，正抬头率为头部姿态为正抬头的学生人数与学生总人数比值的平均值；活跃指数为学生头部姿态从非正抬头变为抬头姿态的频率的平均值。

在一种可选实施方式中，将一节课分为多个时间段，分别计算各时间段的正抬头率和活跃指数；然后，计算各时间段的正抬头率的平均值，得到该节课的正抬头率；计算各时间段的活跃指数的平均值，得到该节课的活跃指数。优选地，各时间段的时长均为预设时长，m为一节课所对应的时间段个数，具体为一堂课的时长与预设时长的比值。通常情况下，一节课的时长取值为45分钟，本实施例将预设时长取值为1分钟，m取值为45。

抬头率是某一时刻抬头人数与现场总人数的比值，它用来表征该时刻学生抬头的总体态势。这里的抬头，准确地定义是学生头部正面朝向教学信息源（教师以及教师指向的教学内容），它是学生对教师教学行为的一种有效响应。抬头率又是一个瞬时值，不同的分析频率会得到数量不同的抬头率数据集合。具体地，分别统计T_i时间段内各帧图像中头部姿态为正抬头的学生人数，并计算时间段T_i内头部姿态为正抬头的学生人数与学生总人数比值的平均值，得到T_i时间段的正抬头率；其中，

。所得T_i时间段的正抬头率为：

其中，

为T_i时间段的正抬头率；

为T_i时间段的时长；

为T_i时间段内的学生总人数；

取值为1，否则为0。

本实施例中采用的抬头率分析频率为1次/秒，这样可以比较精细地描述课堂上学生抬头的整体态势及其变化。

与抬头率不同，活跃指数表征的并不是头部姿态的数据，而是头部姿态变化的数据，由于课堂活跃指数表征的是头部姿态变化的频率，所以它不是一个瞬时值，而是一个具有时段特性的变量。本实施例中，将课堂活跃的观察时间窗口设定为1分钟（即T_i时间段的时长为1分钟），统计1分钟内每个个体头部姿态变化的频率，并按照个体总量来求系统平均，得到每1分钟的课堂活跃指数。具体地，在T_i时间段内，分别对每一个学生统计其在相邻两帧图像中头部姿态发生变化、且其在后一帧图像中的头部姿态为正抬头的次数，得到每一个学生头部姿态发生相应变化的次数，并计算T_i时间段内学生头部姿态发生相应变化的频率的平均值，得到T_i时间段的活跃指数；所得T_i时间段的活跃指数为：

其中，

为T_i时间段的活跃指数。

如图3所示为活跃指数计算中有效头部姿态切换示意图。在讲授型教师场景下，只有当学生注视黑板（老师）的时候才会被认定为正抬头，因此在计算的时候，学生从上一帧的侧抬头或者低头状态转换到当前的正抬头状态被认定为有效，因为活跃指数的计算需要知道相邻两帧学生的头部姿态变化，因此需要使用框跟踪算法进行学生位置匹配。具体地，得到每一个学生头部姿态发生相应变化的次数的方法包括：对于T_i时间段内的相邻两帧图像，定义后一帧检测到的学生位置框为

，定义前一帧检测到的学生位置框为

。

对后一帧图像中头部姿势为正抬头的所有学生依次进行头部姿态发生相应变化的次数的统计，具体包括以下步骤：

1)、令l=1；

2）对于后一帧图像中头部姿势为正抬头的第l个学生，将其所在的位置框

(

)与前一帧图像中的每一个位置框

（

，k为前一帧检测到的位置框的总数）进行IoU计算，得到IoU的集合，记为

；获取该集合中的最大值

，记为

）；为了降低前后左右学生头部框与当前学生头部框可能有部分重叠带来的干扰，本实例设置了一个匹配的最低预设阈值作为预设阈值（通过对多个课堂进行测试，取值为0.1的时候效果较好）。判断

是否大于预设阈值（本实施例取值为0.1），若

大于预设阈值，则获取

对应的前一帧图像中的学生所在的位置框

，位置框

为

上一帧对应的位置框；判断位置框

中学生的头部姿态是否为正抬头，若否，则将该学生头部姿态发生相应变化的次数加一；否则，转至步骤3）；若

小于或等于预设阈值，则转至步骤3）；

3）判断l是否为后一帧图像中头部姿势为正抬头的学生总数，若是，则操作结束；否则，令l=l+1，转至步骤2）。

S3、计算该节课的正抬头率和活跃指数的乘积，得到该节课的注意力估计值。

注意力估计值是由抬头率和活跃指数计算得到的一个综合指标。它是反映一个更大时间范围（通常是一节课）课堂注意力的整体态势。

需要说明的是，通过大量课堂观察发现：在课堂气氛活跃的时候，学生如果表现为兴奋，其头部姿态变化的频率会增多；如果学生紧跟教学节奏，也会增加与教材、笔记的交互频率，从而也增加了头部姿态变化的频率。这两种情况下课堂活跃指数都会比较高。相反，只有在课堂中大部分学生长期不抬头时，才会出现抬头率和课堂活跃指数双低的情况。只要学生还在听课，即使在没有教材也不用记笔记的情况下，课堂活跃指数也会维持在一个基数以上，明显高于长期不抬头的情况。

活跃指数用于对抬头率进行有效补充，例如观看视频的课堂比学生频繁记笔记的课堂的抬头率要高，但抬头率高并不能说明前者的教学效果要好于后者，而引入活跃指数后，后者活跃指数值会明显高于前者。这样对两个指标进行综合考虑，可以更加客观地刻画课堂注意力水平差异。

如果用抬头率和活跃指数构造一个二维坐标系，将每分钟的抬头率和活跃指数作为坐标绘制一个点，则注意力估计值则近似于由这些点堆叠成图形的重心。因此，采用上述注意力估计值来表征课堂注意力的总体态势，非常直观，也易于可视化。

对于上述注意力评估方法所得的注意力评估结果可以采用两种可视化方法进行展示，如图4所示为抬头率与活跃指数的时间变化曲线；如图5所示为抬头率与活跃指数的热度图。图4的曲线图能够很直观地反映出一段时间内课堂注意力的变化，抬头率分析频率为每秒一次，活跃指数的分析频率为每分钟一次，它们能够反映出注意力一种连续变化的特征。如果不关注注意力的时间特性，而关注注意力的总体分布，则可以利用图5的热度图。它的横坐标是活跃指数，纵坐标是抬头率，如果以1分钟作为采样频率，在图上绘制一个点，它的坐标是（活跃指数, 平均抬头率），这两个参数都是这个时段（1分钟）内的取值。那么一次授课可以在图上绘制90个点（90分钟），并据此可以自动绘制热度图，其中颜色越红代表着点越密集，同一颜色的等高线代表相同密度的范围。热度中心在45度角方向越远离坐标原点(0,0)，则说明活跃指数和平均抬头率越高，热度中心范围越小，则说明活跃指数和平均抬头率的时间波动性越小。

为了验证活跃指数是否能够有效评估课堂的活跃度，本实例从采集的讲授型教室和研讨型教室各10个课堂视频中选取了时长为2分钟的视频片段进行标记，标记的标签分为三类分别为活跃片段、正常片段和不活跃片段。为了尽量减少人为因素的影响，本实例采用多个人同时标定的方法，一个片段只有当所有人都判断一致时，才会给上对应的标签。构建的活跃指数测试数据集中三种标签的视频片段均为20个，每一种标签的视频片段中讲授型教室和研讨型教室的比例均为1:1。将这60个视频片段使用对应场景的头部姿态检测算法进行处理，计算出每个视频片段的活跃指数平均值，为了方便做数据分析，本文给每个片段设置一个活跃度值，非活跃片段为1、正常片段为2、活跃片段为3。这样就可以得到每一个视频片段的活跃指数和对应的活跃度，为了判断活跃指数与设定的活跃度之间是否存在相关性，本文使用SPSS软件对活跃指数序列和对应的活跃度序列进行Spearman相关分析，得到两个序列的相关系数为0.941，这说明活跃指数序列和对应的活跃度序列具有显著的相关性，本发明的活跃指数确实能代替人工对课堂教学视频进行活跃度判别和划分。

实施例2

一种课堂注意力评估系统，包括：头部姿态检测模块，用于对采集到的一节课的课堂视频按帧进行头部姿态检测，得到各帧图像中学生所在的位置框以及头部姿态；分别统计各帧图像中学生所在的位置框个数，得到各帧图像中的学生人数，并将各帧图像中学生人数的众数记为学生总人数；其中，头部姿态包括：正抬头和非正抬头；正抬头为学生头部正面朝向教学信息源；指标计算模块，用于基于各帧图像中学生的头部姿态以及学生总人数，计算该节课的正抬头率和活跃指数；其中，正抬头率为头部姿态为正抬头的学生人数与学生总人数比值的平均值；活跃指数为学生头部姿态从非正抬头变为抬头姿态的频率的平均值；注意力估计模块，用于计算该节课的正抬头率和活跃指数的乘积，得到该节课的注意力估计值。

相关技术方案同实施例1，这里不做赘述。

实施例3

一种机器可读存储介质，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现如实施例1所述的课堂注意力评估方法。

相关技术方案同实施例1，这里不做赘述。

综上所述，本发明提出了一个更加完备准确的课堂注意力评估方法，并构建了一个课堂注意力评估系统，该系统能够更加准确地刻画课堂注意力态势，帮助老师进行有效教学反思。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种课堂注意力评估方法，其特征在于，包括以下步骤：

S1、对采集到的一节课的课堂视频按帧进行头部姿态检测，得到各帧图像中学生所在的位置框以及头部姿态；分别统计各帧图像中学生所在的位置框个数，得到各帧图像中的学生人数，并将各帧图像中学生人数的众数记为学生总人数；所述头部姿态包括：正抬头和非正抬头；所述正抬头为学生头部正面朝向教学信息源的抬头姿态；

S2、基于各帧图像中学生的头部姿态以及所述学生总人数，计算该节课的正抬头率和活跃指数；其中，所述正抬头率为头部姿态为正抬头的学生人数与学生总人数比值的平均值；所述活跃指数为学生头部姿态从非正抬头变为抬头姿态的频率的平均值；

S3、计算该节课的正抬头率和活跃指数的乘积，得到该节课的注意力估计值；

其中，所述步骤S1中采用头部姿态检测模型对采集到的一节课的课堂视频按帧进行头部姿态检测；

所述头部姿态检测模型的构建方法包括：

S01、搭建头部姿态检测模型；所述头部姿态检测模型包括：特征提取模块、语义模块和检测模块；所述特征提取模块包括多个级联的降采样模块，用于基于不同感受野来提取帧图像的多个尺度的特征，得到多尺度特征图；每个的尺度特征图分别对应输入到一个语义模块中；一个语义模块与一个检测模块对应相连；所述语义模块用于增加对应尺度特征图的背景信息得到语义特征图，并输入到所述检测模块中；所述检测模块包括并行的回归分支、分类分支和IOU Aware分支；所述回归分支用于计算语义特征图中每个像素点处的预测框；所述分类分支用于分别对语义特征图中每个像素点处的预测框，计算其属于不同头部姿态类别的概率，并将最大概率值所对应的头部姿态类别作为该预测框所属头部姿态类别的预测值；所述IOU Aware分支用于计算语义特征图中每个像素点处的预测框与真实框重合度的预测值；

S02、分别获取预采集到的训练集中各样本图像的正预设框和负预设框；具体为：对样本图像对应的语义特征图中的每个像素点预设若干个不同尺度的预设框，计算各预设框与真实框之间的IOU；将大于或等于预设IOU阈值的IOU所对应的预设框作为正预设框，将小于预设IOU阈值的IOU中前N个取值较大的IOU所对应的预设框作为负预设框；其中，所述训练集包括多个样本图像及其对应的标签；所述样本图像包括课堂视频帧图像；所述标签包括学生所在的真实框以及对应的学生头部姿态类别的真实值；N为正整数；

S03、将所述训练集输入到所述头部姿态检测模型中，以最小化所述回归分支计算得到的样本图像各正预设框中心点位置处的预测框与对应正预设框中心点的偏移量差异之和、最小化所述分类分支计算得到的样本图像各正预设框和各负预设框中心点位置处的预测框所属的头部姿态类别的预测值与对应头部姿态类别的真实值的差异之和，以及最小化所述IOU Aware分支计算得到的样本图像各正预设框中心点位置处的预测框与真实框重合度的预测值与对应正预设框与真实框重合度的真实值的差异之和为目标，训练所述头部姿态检测模型。

2.根据权利要求1所述的课堂注意力评估方法，其特征在于，所述步骤S2包括：

S21、将一节课分为多个时间段，分别计算各时间段的正抬头率和活跃指数；

S22、计算各时间段的正抬头率的平均值，得到该节课的正抬头率；

3.根据权利要求2所述的课堂注意力评估方法，其特征在于，所述步骤S21包括：

S211、分别统计T_i时间段内各帧图像中头部姿态为正抬头的学生人数，并计算T_i时间段内头部姿态为正抬头的学生人数与学生总人数比值的平均值，得到T_i时间段的正抬头率；

S212、在T_i时间段内，分别对每一个学生统计其在相邻两帧图像中头部姿态发生变化、且其在后一帧图像中的头部姿态为正抬头的次数，得到每一个学生头部姿态发生相应变化的次数，并计算T_i时间段内学生头部姿态发生相应变化的频率的平均值，得到T_i时间段的活跃指数；

其中，

，m为一节课所对应的时间段个数。

4.根据权利要求3所述的课堂注意力评估方法，其特征在于，所述T_i时间段的正抬头率

、所述T_i时间段的活跃指数

以及一节课的注意力估计值K分别为：

其中，

为T_i时间段的时长；

为T_i时间段内的学生总人数；

取值为1，否则为0。

5.根据权利要求3所述的课堂注意力评估方法，其特征在于，所述步骤S212中，得到每一个学生头部姿态发生相应变化的次数的方法包括：对于T_i时间段内的相邻两帧图像，对后一帧图像中头部姿势为正抬头的学生，将其所在的位置框与前一帧图像中的每一个位置框进行IoU计算，得到IoU计算结果的最大值

；判断

是否大于预设阈值，若是，则获取

对应的前一帧图像中的学生所在的位置框

，并判断位置框

6.根据权利要求1所述的课堂注意力评估方法，其特征在于，所述步骤S1中进行头部姿态检测的方法包括：

将课堂视频中的图像输入到预训练好的所述头部姿态检测模型中，得到图像所对应的各预测框、各预测框所属的头部姿态类别的预测值及其属于头部姿态类别预测值的概率、以及各预测框与真实框重合度的预测值；

对各预测框，将其属于头部姿态类别预测值的概率和其与真实框重合度的预测值进行融合，得到各预测框的定位置信度；

基于预测框的定位置信度对各预测框进行非极大值抑制，得到学生所在的位置框及其对应的头部姿态类型。

7.根据权利要求6所述的课堂注意力评估方法，其特征在于，第r个预测框的定位置信度为：

其中，

为第r个预测框对应头部姿态类别的预测值的概率，

为第r个预测框与真实框重合度的预测值，

为比例系数参数。

8.一种课堂注意力评估系统，其特征在于，包括：

头部姿态检测模块，用于对采集到的一节课的课堂视频按帧进行头部姿态检测，得到各帧图像中学生所在的位置框以及头部姿态；分别统计各帧图像中学生所在的位置框个数，得到各帧图像中的学生人数，并将各帧图像中学生人数的众数记为学生总人数；所述头部姿态包括：正抬头和非正抬头；所述正抬头为学生头部正面朝向教学信息源的抬头姿态；

指标计算模块，用于基于各帧图像中学生的头部姿态以及所述学生总人数，计算该节课的正抬头率和活跃指数；其中，所述正抬头率为头部姿态为正抬头的学生人数与学生总人数比值的平均值；所述活跃指数为学生头部姿态从非正抬头变为抬头姿态的频率的平均值；

注意力估计模块，用于计算该节课的正抬头率和活跃指数的乘积，得到该节课的注意力估计值；

其中，所述头部姿态检测模块采用头部姿态检测模型对采集到的一节课的课堂视频按帧进行头部姿态检测；

所述头部姿态检测模型的构建方法包括：

9.一种机器可读存储介质，其特征在于，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现权利要求1-7任意一项所述的课堂注意力评估方法。