CN113283334B

CN113283334B - 一种课堂专注度分析方法、装置和存储介质

Info

Publication number: CN113283334B
Application number: CN202110556131.8A
Authority: CN
Inventors: 朱佳; 颜志文; 黄昌勤; 黎宇; 邢玉玲
Original assignee: Zhejiang Normal University CJNU
Current assignee: Zhejiang Normal University CJNU
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2023-07-21
Anticipated expiration: 2041-05-21
Also published as: CN113283334A

Abstract

本发明公开了一种课堂专注度分析方法、装置及存储介质。该方法通过获取视频数据，并根据视频数据对学生进行由头部姿态检测、脸部表情检测、动作检测和手机检测组成的多模态专注度检测，最后将多模态特征放入基于门控过滤机制的多模态规则融合网络中进行融合，得到学生的专注度得分。通过使用本发明中的方法，能够实现对学生听讲专注度的量化与测量，从而帮助教育者更简单有效地了解学生的听课情况。本发明可广泛应用于教学领域内。

Description

一种课堂专注度分析方法、装置和存储介质

技术领域

本发明涉及教学领域，尤其是一种课堂专注度分析方法、装置和存储介质。

背景技术

有效教学一直是教育领域所追求的目标，而专注度是衡量有效教学的一个重要指标。课堂学生听讲专注度是教学过程中的一个极其重要的考量，是影响教学质量和课堂效率的一个关键因素。目前通常是通过眼动仪采集学生的眼动信息或者在课中进行监测记录，从而实现对学生专注度的测量。

但是，在通常的教室课堂专注度分析中，仅仅通过眼动仪或者在课中进行检测记录来对专注度进行判断所得的有效信息比较少，有时候学生脸部表情正常，但是身体却是在做别的动作，甚至在课堂吃东西或者看手机。因此，现阶段缺乏全面的、系统的、智能的、可行的对学生听讲专注度量化、测量的方法，并且缺少对学生听讲专注度简单有效的测评实现手段，无法实现全数字化、信息化、智能化的学生听讲专注度测量过程，现有技术中存在的这些问题亟待解决。

发明内容

本发明的目的在于至少一定程度上解决现有技术中存在的技术问题之一。

为此，本发明实施例的一个目的在于提供一种课堂专注度分析方法、装置和介质，其能够对学生进行专注度检测，从而实现了对学生听讲专注度的量化与测量。

为了达到上述技术目的，本发明实施例所采取的技术方案包括：

第一方面，本发明实施例提供了一种课堂专注度分析方法，包括以下步骤：

获取视频数据；

根据所述视频数据对目标学生进行专注度检测，所述专注度检测包括头部姿态检测、脸部表情检测、动作检测、手机检测以及基于门控过滤机制的多模态规则融合网络；

对所述专注度检测结果进行不同领域的规则融合，得到所述目标学生的专注度得分。

进一步地，在所述根据所述视频数据对目标学生进行专注度检测这一步骤之前，还包括以下步骤：

通过预先设定的人脸识别模型从所述视频数据中获取所述目标学生的人脸图像和所述人脸图像的面部关键点，所述预先设定的人脸识别模型为RetinaFace模型，并使用MobileNetV3模型来作为人脸识别的主干模型。

进一步地，所述根据所述视频数据对目标学生进行头部姿态检测，包括：

采用HopeNet模型将所述面部关键点投影到三维模型，得到虚拟的三维角度；

对所述虚拟的三维角度根据预设角度间隔划分，得到每个角度的标签，并计算划分过程中的交叉熵误差；

对每个区间的标签进行还原，得到真实的三维角度，并计算回归过程中的均方误差；

根据所述真实的三维角度确定所述目标学生的头部姿态。

进一步地，所述根据所述视频数据对脸部表情检测，其具体为：

采用预先训练的人脸情绪分类网络模型检测所述目标学生的脸部表情；

所述人脸情绪分类网络模型的训练步骤，包括：

获取若干张第一训练图像，所述第一训练图像包括脸部信息；

对每一张训练图像进行人脸表情标注；

根据标注后的训练图像对所述人脸情绪分类网络模型进行训练。

进一步地，所述根据所述视频数据对目标学生进行手机检测，其具体为：

采用预先训练的Mask-RCNN模型从所述视频数据对目标学生进行手机检测；

所述Mask-RCNN模型的训练步骤，包括：

获取若干张第二训练图像，所述第二训练图像包括手机信息；

标注若干张所述第二训练图像中的所有手机型号，并对若干张所述第二训练图像进行大小处理；

根据特征标注和大小处理后的第二训练图像对所述Mask-RCNN模型进行训练。

进一步地，所述根据所述视频数据对目标学生进行动作检测，包括：

获取所述视频数据中的人体图像；

采用人体姿态识别模型识别所述人体图像的骨骼关键点；

计算所述骨骼关键点之间的距离以及角度；

根据得到的所述骨骼关键点距离以及角度确定所述目标学生的动作。

进一步地，将不同模态所得到的特征放入基于门控过滤机制的多模态规则融合网络进行专注度检测，得到所述目标学生的专注度得分，包括：

根据头部姿态检测结果和脸部表情检测结果确定头部注意力数值；

根据动作检测结果和手机检测结果确定动作注意力数值；

对所述头部注意力数值和所述动作注意力数值进行加权求和，得到所述目标学生的专注度得分。

第二方面，本发明实施例提供了一种课堂专注度分析装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行时，使得所述至少一个处理器实现第一方面实施例提供的课堂专注度分析方法。

第三方面，本发明实施例提供了一种存储介质，其中存储有处理器可执行的指令，第一方面实施例提供处理器可执行的指令在由处理器执行时用于实现所述的课堂专注度分析方法。

本发明公开了一种课堂专注度分析方法、装置及存储介质。该方法通过获取视频数据，并根据视频数据对学生进行由头部姿态检测、脸部表情检测、动作检测和手机检测，最后将所述专注度检测结果放入基于门控过滤机制的多模态规则融合网络中，得到学生的专注度得分。通过使用本发明中的方法，能够实现对学生听讲专注度的量化与测量，从而帮助教育者更简单有效地了解学生的听课情况。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案，下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员来说，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1为本发明一种课堂专注度分析方法具体实施例的流程示意图；

图2为本发明一种课堂专注度分析方法具体实施例的框架图；

图3为本发明一种课堂专注度分析方法中Mask-RCNN模型的框架图；

图4为本发明一种课堂专注度分析装置具体实施例的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

参照图1和图2，本发明实施例提供了课堂专注度分析方法。本方案可应用于服务器、各类课堂专注度评估平台的后台处理器或者课堂教学设施的控制器。

本实施例以应用于各类课堂专注度评估平台的后台处理器为例，其包括以下步骤：

步骤101、获取视频数据。在获取视频数据后，需要对视频数据按照预设的时间间隔进行帧处理，得到单帧图像，例如每过ls抽取一帧图像。

步骤102、根据视频数据对目标学生进行专注度检测。基于多领域规则融合的专注度检测包括头部姿态检测、脸部表情检测、动作检测、手机检测。

步骤103、将专注度检测结果放入基于门控过滤机制的多模态规则融合网络中进行融合，得到目标学生的专注度得分。具体地，将头部姿态特征和脸部表情特征放入门控过滤机制中进行融合。其中，门控机制的公式如下：

Gating(x，y)＝σ(W·x+b)*y+y，

x和y分别代表人脸表情特征和头部姿态特征。W和b表示可学习的权重，σ|表示激活层，激活层使用了tanh激活函数。

然后，将人脸表情特征以及头部姿态特征的特征向量相加后的结果一同放入门控注意力机制中，再经过全连接层分类得到头部专注度得分。其中，门控注意力机制公式如下：

e_i＝softmax(W₂·tanh(W₁·h_i+C·υ_i+b))

其中w1、w2、C、b都是可学习的权重，tanh为激活函数，sofimax为逻辑回归模型，N为一共抽取的帧数。hi为对应帧的门控gate融合后的特征，vi为对应表情特征与头部姿态特征向量相加后的特征。

根据动作检测的分类结果和手机检测结果进行规则融合得到动作注意力数值；对头部注意力数值和动作注意力数值进行加权求和，得到目标学生的专注度得分。其中，头部姿态检测结果和脸部表情检测结果的加权因子可以设定为一个预设值，例如将头部姿态检测结果和脸部表情检测结果的加权值都设置为0.5，手机检测和动作识别则按照一定规则来计算注意力，并将计算得到的结果与头部注意力融合得到最终的注意力数值。例如，如果检测到手机，则默认学生注意力为0；如果没有检测到手机，则将头部注意力数值根据不同的动作类型进行百分比换算，以得到学生的专注度得分。例如，若检测到学生打瞌睡、没有玩手机、头部姿态检测结果为80和脸部表情检测结果60，则该学生的专注度得分为(80*0.5+60*0.5)*1*0.3＝21，其中，0.3为学生打瞌睡这一行为对应的加权值，1为学生没有玩手机对应的加权值。

本实施例能够通过获取视频数据，并根据视频数据对学生进行由头部姿态检测、脸部表情检测、动作检测和手机检测组成多模态的专注度检测，接着将多模态特征放入基于门控过滤机制的多模态规则融合网络中进行融合，得到学生的专注度得分。通过使用本实施例中的方法，能够实现对学生听讲专注度的量化与测量，从而帮助教育者更简单有效地了解学生的听课情况。

在一些实施例中，在对学生进行专注度检测之前，还需要通过预先设定的人脸识别模型从视频数据中获取目标学生的人脸图像和人脸图像的面部关键点。其中，预先设定的人脸识别模型中采用了RetinaFace模型作为识别人脸的基础，相对于传统的算法，该模型添加了人脸的五点信息、加入了人脸对齐的额外监督信息损失函数，加入了自监督解码分支预测的3D人脸信息分支。而在人脸特征提取方面，本实施例使用了MobileNetV3模型，该模型利用公开数据集，去除噪声数据后训练，利用了目前高性能的卷积神经网络，可以自行选择不同的网络结构，在速度和精度上做权衡。其次，本实施例还对提取特征点进行了调整，由原来的5个段点增加到了96个点。

在一些实施例中，头部姿势的识别采用HopeNet模型获取面部关键点，然后将其投影到三维模型中，进而获得俯仰角、偏航角、翻滚角三个三维角度。通过这样的方法，识别结果不仅仅受到面部关键点的影响，而且也会受到三维模型的影响，然后根据预设角度间隔对三维角度进行划分，得到每个角度的标签，并计算划分过程中的交叉熵误差；例如，按照3度的间隔来对俯仰角、偏航角、翻滚角进行划分，则划分成了66个区间，从而得到了每个角度的标签。最后用softmax CE计算出分类的损失值，在将每个区间的标签值还原到真实的角度值后，用softmax CE的结果乘以对应真实的角度得到预测后的角度。其损失函数如下所示。

是损失函数，H是交叉熵，MSE为均方误差。交叉熵H用于控制分类回归角度的角度基点，均方误差MSE用于控制基于角度基点的期望调整。y表示训练得到的结果，/>表示标注的结果。其中，α是训练loss中两个子loss权重因子。

在一些实施例中，采用预先训练的人脸情绪分类网络模型检测目标学生的脸部表情。其中，人脸情绪分类网络模型需要通过以下步骤进行训练：获取大量第一训练图像，第一训练图像指的是包含人脸信息的图像；然后通过人工对每一张训练图像的人脸表情进行标注；最后根据标注后的训练图像对人脸情绪分类网络模型进行训练。

由于上课玩手机会导致学生注意力高度下降，因此在一些实施例中，设有手机检测模块，能从视频数据中对学生有没有玩手机进行检测。采用预先训练的Mask-RCNN模型从视频数据对目标学生进行手机检测；Mask-RCNN模型需要通过以下步骤进行训练：获取若干张第二训练图像，第二训练图像指的是市面上所有型号的手机的图像；对图像中的手机进行标注，并对这些图像进行统一文件大小的处理；根据特征标注和大小处理后的第二训练图像对Mask-RCNN模型进行训练。Mask-RCNN是一个实例分割算法，它可以通过增加不同得分支，可以完成目标分类、目标检测、语义分割、人体姿势等多种任务。

具体地，参照图3，首先需要收集手机图像以及标签，通过主干网络进行特征提取，再将提取到的特征放入RPN中生成候选区域，接着将候选区域、标签以及图像特征一同放入ROI head中训练得到感兴趣区域，再将感兴趣区域中的结果和RPN输出结果一同计算损失函数。其损失函数定义如下：

L为损失函数，为一个二分类损失函数，判断物品是否为手机。L_box是手机检测框的损失值。L_mask为平均二值交叉熵损失。对于一个属于第k个类别的RoI，L_mask仅仅考虑第k个mask(其他的掩模输入不会贡献到损失函数中)。这样的定义会允许对每个类别都会生成掩模，并且不会存在类间竞争。

在一些实施例中，采用人体姿态识别模型识别人体图像的骨骼关键点；计算骨骼关键点之间的距离以及角度；根据得到的骨骼关键点距离以及角度确定目标学生的动作。具体地，本实施例采用openpose模型实现对目标学生的动作检测。先向数据集输入大量人体动作的图片数据，再经过十层的VGG19网络提取特征，然后再进一步将提取到的特征分为两个主要分支，一个用于预测关键点的亲和度向量，另一个特征分支用于预测关键点置信度。通过上述两个分支的处理后，然后再将关键点进行聚类，最后将骨架组装起来，展示出来的就是人体骨骼关键点的连接图。为了便于神经网络的训练以及损失函数快速的收敛，以及为了提取高层信息，本实施例选取了差别比较明显的15组人体姿态骨骼关键点之间的距离作为特征，同时选择了15组夹角作为角度特征整合到一个数组中去。

距离是指两两关节点之间的欧式距离(二范数)：

其中A表示关键点1，B表示关键点2，C是指不同的骨骼关键点，θ为角度特征。d代表欧氏距离。其中x是指横坐标，y是指纵坐标，下面是角度特征的计算：

A(x_i,y_i,z_i)

B(x_j,y_j,z_j)

C(x_k,y_k,z_k)

c＝|AB|＝d₁a＝|BC|＝d₂b＝|AC|＝d₃

活体在摄像头前面距离摄像头的角度随时在改变，单纯的距离信息会有一定的干扰，因此需要加入角度信息。而加入角度信息之后，不管活体距离摄像头的角度，只要能检测到全身的骨骼，同一个姿态它的角度信息不会因为距离摄像头的远近而发生显著的改变。

参照图4，本发明实施例提供了一种课堂专注度分析装置，包括：

至少一个处理器201；

至少一个存储器202，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器201执行时，使得所述至少一个处理器301实现图1所示的课堂专注度分析方法。

同理，上述方法实施例中的内容均适用于本装置实施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

本发明实施例还提供了一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于实现图1所示课堂专注度分析方法。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种课堂专注度分析方法，其特征在于，包括以下步骤：

获取视频数据；

对所述专注度检测到的多个模态特征放入基于门控过滤机制的多模态规则融合网络进行推测综合专注度，得到所述目标学生的专注度得分；

其中，所述对所述专注度检测到的多个模态特征放入基于门控过滤机制的多模态规则融合网络进行推测综合专注度，得到所述目标学生的专注度得分，包括：

将头部姿态特征和脸部表情特征放入门控过滤机制中进行融合，门控过滤机制的公式如下：

x表示人脸表情特征，y表示头部姿态特征，W和b均表示可学习的权重，表示激活层，所述激活层采用tanh激活函数；

将人脸表情特征以及头部姿态特征的特征向量相加后的结果一同放入门控注意力机制中，再经过全连接层分类得到头部专注度数值，门控注意力机制的公式如下：

W₁、W₂、C、b都是可学习的权重，tanh为激活函数，softmax为逻辑回归模型，N为一共抽取的帧数，h_i为对应帧的门控gate融合后的特征，v_i为对应表情特征与头部姿态特征向量相加后的特征；

根据动作检测分类结果和手机检测结果进行规则融合得到动作专注度数值；

对所述头部专注度数值和所述动作专注度数值进行加权求和，得到所述目标学生的专注度得分。

2.根据权利要求1所述的课堂专注度分析方法，其特征在于，在所述根据所述视频数据对目标学生进行基于门控过滤机制的多模态规则融合网络的专注度推测这一步骤之前，还包括以下步骤：

3.根据权利要求2所述的课堂专注度分析方法，其特征在于，所述根据所述视频数据对目标学生进行头部姿态检测，包括：

根据所述真实的三维角度确定所述目标学生的头部姿态。

4.根据权利要求2所述的课堂专注度分析方法，其特征在于，所述根据所述视频数据对脸部表情检测，其具体为：

所述人脸情绪分类网络模型的训练步骤，包括：

对每一张训练图像进行人脸表情标注；

5.根据权利要求1所述的课堂专注度分析方法，其特征在于，所述根据所述视频数据对目标学生进行手机检测，其具体为：

所述Mask-RCNN模型的训练步骤，包括：

6.根据权利要求1所述的课堂专注度分析方法，其特征在于，所述根据所述视频数据对目标学生进行动作检测，包括：

获取所述视频数据中的人体图像；

采用人体姿态识别模型识别所述人体图像的骨骼关键点；

计算所述骨骼关键点之间的距离以及角度；

7.根据权利要求1所述的课堂专注度分析方法，其特征在于，在根据所述视频数据对目标学生进行基于门控过滤机制的多模态规则融合网络的专注度推测这一步骤之前，还包括以下步骤：

对所述视频数据按照预设时间间隔进行帧处理，得到单帧图像。

8.一种课堂专注度分析装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-7中任一项所述的课堂专注度分析方法。

9.一种存储介质，其中存储有处理器可执行的指令，其特征在于：所述处理器可执行的指令在由处理器执行时用于实现如权利要求1-7中任一项所述的课堂专注度分析方法。