CN115546861A

CN115546861A - 一种在线课堂专注度识别方法、系统、设备及介质

Info

Publication number: CN115546861A
Application number: CN202211025808.6A
Authority: CN
Inventors: 谷瑞; 商琦; 陆伟峰
Original assignee: Suzhou Industrial Park Institute of Services Outsourcing
Current assignee: Suzhou Industrial Park Institute of Services Outsourcing
Priority date: 2022-08-25
Filing date: 2022-08-25
Publication date: 2022-12-30

Abstract

本发明公开一种在线课堂专注度识别方法、系统、设备及介质，该方法包括获取若干个学生端的视频流，每隔M秒在每个学生端的视频流中提取视频帧，所述视频帧中至少包括一个人的人脸图像；将所述视频帧输入预设的表情分类模型中，获取视频帧中学生在在线课堂的上课过程中对应的表情类别；根据表情类别和专注度等级之间的映射关系，确定每个视频流中学生对应的专注度等级；建立专注度评价模型，统计预设时间段内若干个学生端中学生的专注度情况，并实时将统计结果在教师端进行更新显示。本发明提高了在线课堂授课教师对学生学习状态的把控能力，能依据在线学生的专注度情况，从针对性的改变教学策略，提高教学效果。

Description

一种在线课堂专注度识别方法、系统、设备及介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种在线课堂专注度识别方法、系统、设备及介质。

背景技术

近年来，在线课堂得到了飞速发展，与学校面对面的教学相比，在线课堂的特殊之处在于教师可以采用同步直播和同步虚拟课堂临场教学，从而提高学生的临场感，因此该教学模式得到越来越多的人的追捧。然而，在线课堂在热捧的同时，也逐渐暴露出发展中的不足，如教师无法实时把握每个学生的在线学习情况，无法了解每个学生线上听课的专注度，造成了在线课堂学生参与率很高，但学习效果很差的现象。

学习者面部表情特征的变化反映了学习过程中的情绪，是情绪专注度的表现特征之一，可以作为专注度判定的主要依据，虽然现有的人工智能算法可以通过卷积神经网络模型提取纹理、肤色等关键表情特征，然而学习者在课堂上的面部皱纹变化较为细微，使得模型的作用的发挥受到限制。

发明内容

为了解决上述技术问题，本发明提出一种在线课堂专注度识别方法、系统、设备及介质，提高了在线课堂授课教师对学生学习状态的把控能力，能依据在线学生的专注度情况，从针对性的改变教学策略，提高教学效果。

为了达到上述目的，本发明的技术方案如下：

一种在线课堂专注度识别方法，包括如下步骤：

获取若干个学生端的视频流，每隔M秒在每个学生端的视频流中提取视频帧，所述视频帧中至少包括一个人的人脸图像；

将所述视频帧输入预设的表情分类模型中，获取视频帧中学生在在线课堂的上课过程中对应的表情类别；

根据表情类别和专注度等级之间的映射关系，确定每个视频流中学生对应的专注度等级；

建立专注度评价模型，统计预设时间段内若干个学生端中学生的专注度情况，并实时将统计结果在教师端进行更新显示。

优选地，将所述视频帧输入预设的表情分类模型中，获取视频帧中学生在在线课堂的上课过程中对应的表情类别，具体包括如下步骤：

对所述视频帧进行二值化处理并提取面部区域图像；

将面部区域图像输入修改后的Xception网络模型，提取全局特征；

通过通道注意力机制和空间注意力机制聚焦微表情区域并计算微表情区域权重，输出注意力特征图；

通过3个全连接层，利用分类器softmax函数计算注意力特征所属的表情类别。

优选地，所述修改后的Xception网络模型的结构，如下所示，

在输入层的常规卷积中，卷积核的大小为3×3，卷积核的个数为6；

在第一个block模块中，使用两个可分离卷积层，卷积核大小为3×3，卷积核个数为6，残差连接层卷积核大小为1×1，卷积核个数为128；

在第二个block模块中，两个可分离卷积层，卷积核大小为3×3，卷积核个数为128，残差连接层卷积核大小为1×1，卷积核个数为512；

在第三个block模块中，两个可分离卷积层，卷积核大小为3×3，卷积核个数为512，残差连接层卷积核大小为1×1，卷积核个数为1024；

在每个block模块的两个可分离卷积之后，使用最大池化输出卷积后的特征；

在输出层的常规卷积中，卷积核的大小为3×3，卷积核的个数为512，最终提取全局特征。

优选地，所述M为不大于5的正整数。

优选地，所述专注度情况包括不专注度a₁和专注度a₂所占百分比，公式如下：

其中N为预设时间段内的人脸的检测总次数，n₁和n₂分别为检测结果出现不专注和极不专注等级的次数，n₃和n₄分别为检测结果出现专注和一般专注等级的次数。

优选地，所述表情分类包括愉悦、满足、自然、中立、悲伤、生气、厌恶和烦躁；所述专注度等级包括专注、一般专注、不专注和极不专注，其中，愉悦和满足对应专注；自然和中立对应一般专注；悲伤和生气对应不专注；厌恶和烦躁对应极不专注。

本发明还公开了一种在线课堂专注度识别系统，包括：获取单元、分类单元、确定单元和统计输出单元，其中，

所述获取单元，用于获取若干个学生端的视频流，每隔N秒在每个学生端的视频流中提取视频帧，所述视频帧中至少包括一个人的人脸图像；

所述分类单元，用于将所述视频帧输入预设的表情分类模型中，获取视频帧中学生在在线课堂的上课过程中对应的表情类别；

所述确定单元，用于根据表情类别和专注度等级之间的映射关系，确定每个视频流中学生对应的专注度等级；

所述统计输出单元，用于建立专注度评价模型，统计预设时间段内若干个学生端中学生的专注度情况，并实时将统计结果在教师端进行更新显示。

优选地，所述表情分类模型包括：区域剪裁处理模块、人脸全局特征提取模块、注意力特征提取模块、表情分类模块，其中，

所述区域剪裁处理模块，用于对图片进行二值化处理，并根据标记的左坐标、右坐标和上坐标，训练人脸超参数，估计区域返回，截取输出面部区域图像；

所述人脸全局特征提取模块，用于将面部区域图像输入修改后的Xception网络模型，提取全局特征，并训练出普通卷积、可分离卷积的卷积核参数；

所述注意力特征提取模块，用于通过通道注意力机制和空间注意力机制聚焦微表情区域并计算微表情区域权重，输出注意力特征图；

所述表情分类模块，用于训练全连接神经网络的全连接参数值，利用分类器softmax函数计算注意力特征所属的表情类别，

所述表情分类模型在训练过程中，训练轮数设置为5000次，使用指数衰减学习，初始学习率设置为0.001，损失函数为交叉熵损失函数。

本发明还公开了一种计算机设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现如上述任一项所述的方法。

本发明还公开了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一项所述的方法。

基于上述技术方案，本发明的有益效果是：本发明在教师端获取在线视频流后，分离出每个学生通道的视频，每隔固定的时间间隔截取图片后，首先通过剪裁算法定位面部区域，然后使用修改后的Xception网络结构提取全部特征，接着送入到基于通道注意力和空间注意力特征提取模块，对微表情、眼睛、眉毛等主要和显著性区域赋予较高的权重，最后将学生的在线表情量化为专注度进行统计输出，将统计结果实时呈现于教师授课界面，便于教师有针对性的调整教学策略，提高在线授课的质量。

附图说明

图1是一个实施例中一种在线课堂专注度识别方法流程图；

图2是一个实施例中表情分类模型的训练过程流程图；

图3是一个实施例中一种在线课堂专注度识别系统的结构示意图；

图4是一个实施例中表情分类模型的结构示意图；

图5是一个实施例中计算机设备的结构示意图；

图6是一个实施例中一种在线课堂专注度识别方法的的程序产品的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

如图1所示，本实施例提供一种在线课堂专注度识别方法，包括如下步骤：

步骤S1，获取若干个学生端的视频流，每隔M秒在每个学生端的视频流中提取视频帧，所述视频帧中至少包括一个人的人脸图像。

本实施例中，从在线课堂教学过程中，教师端通过通信连接若干个学生端，分离出每个学生的视频通道，每个通道每隔2秒提取并截取人脸图像，将并将该人脸图像存储并送入到专注度检测系统中。

步骤S2，将所述视频帧输入预设的表情分类模型中，获取视频帧中学生在在线课堂的上课过程中对应的表情类别。

本实施例中，预设的表情分类模型的训练过程，包括如下步骤：

步骤S201，数据集采集与存储

本数据集的图片截取自某校2019～2021三年中在线授课视频，授课视频被保存至MP4格式，每隔1分钟截图一张图片，将图片中的每个学生的摄像头数据单独保存一张图片，保存在系统中，共计6789张图片。

步骤S202，标记样本并划分训练集和测试集

首先人工标记图片，将图片标记为8类不同的表情，并标记人脸的左坐标、右坐标和上坐标，基于表情的不同，将按照6:4的原则划分为训练集和测试集，如表1显示了各种不同表情训练接和测试集图片数目。

表1各种不同表情类别训练集和测试集样本数量分布

表情类别	训练集样本数	测试集样本数
			愉悦	451	302
满足	634	423
			自然	584	391
中立	325	217
			悲伤	895	597
生气	371	248
			厌恶	698	466
烦躁	109	78

步骤S203，搭建并训练模型

模型的搭建如图2所示，在训练阶段模型分为：区域剪裁处理模块、人脸全局特征提取模块、注意力特征提取模块、表情分类模块四个模块，其中，

在训练过程中，训练轮数设置为5000次，使用指数衰减学习了，初始学习率设置为0.001，每次向模型中喂入64张图片，损失函数为交叉熵损失函数。

将视频帧输入上述训练好的表情分类模型中，

步骤S211，面部区域提取

对于在线学习者的每一幅图像，由于光线影响使得面部图像可能存在一定的噪声，首先进行二值化处理，突出显示面部表情。

在二进制图的基础上，对进行矩估计，计算图像的质心坐标(x₀,y₀)和图像宽度M。

利用图像质心坐标(x₀,y₀)和图像宽度M，计算面部宽度W，在并对在线学习者面部图像的左边缘x_l、右边缘x_r、上边缘x_u进行估计。

进一步的根据面部的左边缘x_l、右边缘x_r、上边缘进行估计x_u，在原始图像中剪裁出面部区域，形成面部表情图片，送入全局特征提取单元。

步骤S212，全局特征提取

在全局特征提取单元中，修改Xception网络模型，设计三个可分离卷积层提取特征，减少网络参数，提高在线专注度识别的效率。

在第二个block模块中，两个可分离卷积层，卷积核大小为3×3，卷积核个数为512，残差连接层卷积核大小为1×1，卷积核个数为1024；

在输出层的常规卷积中，卷积核的大小为3×3，卷积核的个数为512，最终提取全局特征T送入注意力特征提取单元。

步骤S213，注意力特征提取

通过卷全局特征提取单元提取了全局特征T∈w×h×c，需要通道注意力机制定位眼睛、眉毛、嘴巴等局部区域、使用空间注意力关注皱纹等微表情信息。

对于特征图T∈w×h×c，将特征图的每个位置按照通道方向展开处理，展平后的特征图为V＝[V₁,V₂....V_m],其中v_i∈c，m＝w×h，其中v_i是通孔第i个位置的特征映射；对通孔每个位置的特征进行汇聚，得到空间特征v：

v＝[v₁,v₂,...v_m],v∈R^w×h

对于通道方面的关注，首先将特征图T∈w×h×c重塑成U，并且U＝[U₁,U₂,...U_c]，U_i∈w×h表示特征图V的第i个通道的特征映射，而C是通道的总数；然后对每个通道的特征进行汇聚，获得通道特征u：

u＝[u₁,u₂....u_c],u∈R^c

将空间特征v，每个位置使用最大池化和平均池化，得到w×h×1的向量，分别送入包含两层全连接的感知机模型，最后最像素相加融合，经过一个激活函数，得到空间注意力权重分布α_s：

a_s＝φ(w_s1MLP(AvgPool(β))+w_s2MLP(MaxPool(β)))

将通道特征u，每个通道使用最大池化和平均池化，得到两个1×1×c的向量，分别送入包含两层全连接的感知机模型，最后最像素相加融合，经过一个激活函数，得到通道注意力权重分布α_c：

α_c＝φ(w_c1MLP(AvgPool(u))+w_c2MLP(MaxPool(u)))

将通道权重α_c、空间权重α_s，以及通道特征u，通过调制函数f计算调制通道特征图X_c。

X_c＝f(v,α_c,a_s)

进一步的，将空间特征v，将通道权重α_c、空间权重α_s使用调制函数f计算调制空间特征图X_s。

X_s＝f(v,α_c,α_s)

将生成的通道特征图X_c和空间特征图X_s按像素点加权融合，然后进行批归一化处理，得到基于注意力的特征图X：

X＝BatchNorm(αX_c+(1-α)X_s)

步骤S214，表情分类

根据输入的注意力特征图X，在第一个全连接层中，将输出节点数目设置为1024，使用Relu函数激活输出。

在第二个全连接层中，将输出节点设置为521，使用Relu函数激活输出。

在第三个全连接层中，将输出节点设置为8，使用Relu函数激活输出。

将第三个全连接层的结果，送入softmax函数，得到表情分类。

步骤S3，根据表情类别和专注度等级之间的映射关系，确定每个视频流中学生对应的专注度等级。

本实施例中，表情分类包括愉悦、满足、自然、中立、悲伤、生气、厌恶和烦躁；专注度等级包括专注、一般专注、不专注和极不专注，其中，愉悦和满足对应专注；自然和中立对应一般专注；悲伤和生气对应不专注；厌恶和烦躁对应极不专注，如表2所示。

表2在线课堂表情类别和专注度等级之间的映射关系

步骤S4，建立专注度评价模型，统计预设时间段内若干个学生端中学生的专注度情况，并实时将统计结果在教师端进行更新显示。

本实施例中，若干个学生端中学生的专注度情况通过不专注度a₁和专注度a₂所占百分比体现，具体计算公式如下：

其中N为2分钟内的人脸的检测总次数，n₁和n₂分别为检测结果出现不专注和极不专注等级的次数，n₃和n₄分别为检测结果出现专注和一般专注等级的次数。

如图3所示，本实施例提供一种在线课堂专注度识别系统100，包括：获取单元101、分类单元102、确定单元103和统计输出单元104，其中，

所述获取单元101，用于获取若干个学生端的视频流，每隔N秒在每个学生端的视频流中提取视频帧，所述视频帧中至少包括一个人的人脸图像；

所述分类单元102，用于将所述视频帧输入预设的表情分类模型中，获取视频帧中学生在在线课堂的上课过程中对应的表情类别；

所述确定单元103，用于根据表情类别和专注度等级之间的映射关系，确定每个视频流中学生对应的专注度等级；

所述统计输出单元104，用于建立专注度评价模型，统计预设时间段内若干个学生端中学生的专注度情况，并实时将统计结果在教师端进行更新显示。

在一个实施例的一种在线课堂专注度识别系统中，所述表情分类模型120包括：区域剪裁处理模块121、人脸全局特征提取模块122、注意力特征提取模块123、表情分类模块124，如图4所示，其中，

所述区域剪裁处理模块121，用于对图片进行二值化处理，并根据标记的左坐标、右坐标和上坐标，训练人脸超参数，估计区域返回，截取输出面部区域图像；

所述人脸全局特征提取模块122，用于将面部区域图像输入修改后的Xception网络模型，提取全局特征，并训练出普通卷积、可分离卷积的卷积核参数；

所述注意力特征提取模块123，用于通过通道注意力机制和空间注意力机制聚焦微表情区域并计算微表情区域权重，输出注意力特征图；

所述表情分类模块124，用于训练全连接神经网络的全连接参数值，利用分类器softmax函数计算注意力特征所属的表情类别，

所述表情分类模型在训练过程中，训练轮数设置为5000次，使用指数衰减学习了，初始学习率设置为0.001，损失函数为交叉熵损失函数。

如图5所示，本实施例提供一种计算机设备200，包括至少一个存储器210、至少一个处理器220以及连接不同平台系统的总线230，其中，

存储器210可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)211和/或高速缓存存储器212，还可以进一步包括只读存储器(ROM)213。

存储器210还存储有计算机程序，计算机程序可以被处理器220执行，使得处理器220执行本申请实施例中一种在线课堂专注度识别方法的步骤，其具体实现方式与上述一种在线课堂专注度识别方法的实施例中记载的实施方式、所达到的技术效果一致，部分内容不再赘述。

存储器210还可以包括具有至少一个程序模块215的实用工具214，这样的程序模块215包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

相应的，处理器220可以执行上述计算机程序，以及可以执行实用工具214。

总线230可以为表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。

一种计算机设备200也可以与一个或多个外部设备240例如键盘、指向设备、蓝牙设备等通信，还可与一个或者多个能够与该计算机设备200交互的设备通信，和/或与使得该计算机设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入输出接口250进行。并且，计算机设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器260可以通过总线230与计算机设备200的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。

本实施例还提供一种计算机可读存储介质，该计算机可读存储介质用于存储计算机程序，所述计算机程序被执行时实现本申请实施例中一种在线课堂专注度识别方法的步骤，其具体实现方式与上述一种在线课堂专注度识别方法的实施例中记载的实施方式、所达到的技术效果一致，部分内容不再赘述。

参见图6，图6是本实施例提供的用于实现上述一种在线课堂专注度识别方法的程序产品300，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品300不限于此，在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。程序产品300可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。计算机可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读存储介质还可以是任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等，或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，程序设计语言包括面向对象的程序设计语言诸如Java、C++等，还包括常规的过程式程序设计语言诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在关联设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

以上仅为本申请实施例的优选实施例而已，并不用于限制本申请实施例，对于本领域的技术人员来说，本申请实施例可以有各种更改和变化。凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请实施例的保护范围之内。

Claims

1.一种在线课堂专注度识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种在线课堂专注度识别方法，其特征在于，将所述视频帧输入预设的表情分类模型中，获取视频帧中学生在在线课堂的上课过程中对应的表情类别，具体包括如下步骤：

对所述视频帧进行二值化处理并提取面部区域图像；

3.根据权利要求2所述的一种在线课堂专注度识别方法，其特征在于，所述修改后的Xception网络模型的结构，如下所示，

4.根据权利要求1所述的一种在线课堂专注度识别方法，其特征在于，所述M为不大于5的正整数。

5.根据权利要求1所述的一种在线课堂专注度识别方法，其特征在于，所述专注度情况包括不专注度a₁和专注度a₂所占百分比，公式如下：

6.根据权利要求1所述的一种在线课堂专注度识别方法，其特征在于，所述表情分类包括愉悦、满足、自然、中立、悲伤、生气、厌恶和烦躁；所述专注度等级包括专注、一般专注、不专注和极不专注，其中，愉悦和满足对应专注；自然和中立对应一般专注；悲伤和生气对应不专注；厌恶和烦躁对应极不专注。

7.一种在线课堂专注度识别系统，其特征在于，包括：获取单元、分类单元、确定单元和统计输出单元，其中，

8.根据权利要求7所述的一种在线课堂专注度识别系统，其特征在于，所述表情分类模型包括：区域剪裁处理模块、人脸全局特征提取模块、注意力特征提取模块、表情分类模块，其中，

9.一种计算机设备，其特征在于，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现如权利要求1至6任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的方法。