CN114677751B

CN114677751B - 学习状态的监控方法、监控装置及存储介质

Info

Publication number: CN114677751B
Application number: CN202210578060.6A
Authority: CN
Inventors: 范国栋; 潘相颖; 梁嘉俊
Original assignee: Shenzhen Zhonghua Road Education Technology Co ltd
Current assignee: Shenzhen Zhonghua Road Education Technology Co ltd
Priority date: 2022-05-26
Filing date: 2022-05-26
Publication date: 2022-09-09
Anticipated expiration: 2042-05-26
Also published as: CN114677751A

Abstract

本发明公开了一种学习状态的监控方法、监控装置及存储介质，该方法包括：获取上课视频；对上课视频进行人脸特征提取，获得人脸特征；基于人脸特征对上课视频进行人脸分类，获得对应的人脸分类结果；基于人脸分类结果对预处理后视频进行人脸手势识别，并基于人脸手势识别结果生成初步学生状态信息；获取综合识别模型，基于综合识别模型对初步学生状态信息进行综合识别，获得学生状态识别结果。通过预先创建基于多特征的综合识别模型，在后续的学生学习状态识别过程中，实时获取学生的上课视频，并对学生的人脸特征进行提取和识别，结合学生的手势特征对学生的学习状态进行综合识别，大大提高了识别的实时性，提高了识别精确性，满足了实际需求。

Description

学习状态的监控方法、监控装置及存储介质

技术领域

本发明涉及教学监控技术领域，具体地涉及一种学习状态的监控方法、一种学习状态的监控装置以及一种计算机可读存储介质。

背景技术

教育是提高国民素质、提高国家竞争力的有力途径，因此良好、有效的教育必不可少。传统的教育过程往往是基于线下的面对面教育，即老师与学生面对面进行教育内容的传递，在此情况下，老师能够及时对学生的学习状态进行获知和监督。

而随着科技的不断发展，以及人们的生活需求的不断变化，人们对线上教育的需求也越来越高，例如随着通信技术的不断发展，线上视频教育被广泛应用。

然而在实际的应过程中，技术人员发现在线视频教育过程至少存在如下技术问题：

由于老师与学生并不是面对面的教育沟通，因此老师无法及时对学生的学习状态进行监督和管理，往往需要在课后通过人工查阅对应的教学录像视频，以对学生的学习状态进行判断，然而一方面，由于上课视频往往持续时间较长，因此该监督方法费时费力；另一方面，课后的监督判断时效性较差，无法满足实际需求。

发明内容

为了克服现有技术中存在的上述技术问题，本发明实施例提供一种学习状态的监控方法，通过在人脸识别的基础上，进一步结合手势识别综合对学生的学习状态进行识别，从而在满足实时监控的同时，实现更精确的学生状态识别效果。

为了实现上述目的，本发明实施例提供一种学习状态的监控方法，所述监控方法包括：获取上课视频；对所述上课视频进行人脸特征提取，获得人脸特征；基于所述人脸特征对所述上课视频进行人脸分类，获得对应的人脸分类结果；基于所述人脸分类结果对所述上课视频进行人脸手势识别，并基于人脸手势识别结果生成初步学生状态信息；获取综合识别模型，基于所述综合识别模型对所述初步学生状态信息进行综合识别，获得学生状态识别结果。

优选地，所述对所述上课视频进行人脸特征提取，获得人脸特征，包括：对所述上课视频进行预处理操作，获得预处理后图像；获取预设人脸特征提取模型；基于所述预设人脸特征提取模型对所述预处理后图像进行人脸特征提取，获得人脸特征。

优选地，所述对所述上课视频进行预处理操作，获得预处理后图像，包括：按照预设频率对所述上课视频进行图像抽取，获得对应的图像集；对所述图像集中的每张图像进行裁剪，获得每张图像对应的预设数量的裁剪图，其中当前图像对应的裁剪图中的每张裁剪图与当前图像对应的其他裁剪图存在重叠区域；分别基于每张图像以及每张图像对应的裁剪图创建多个目标图像集；对所述目标图像集中的每张图像执行归一化处理，获得对应的第一处理后图像；对所述第一处理后图像执行灰度化处理，获得第二处理后图像；对所述第二处理后图像执行图像增强处理，获得预处理后图像。

优选地，所述基于所述人脸特征对所述上课视频进行人脸分类，获得人脸分类结果，包括：对所述人脸特征进行初始权重计算，获得对应的初始特征权重；基于所述初始特征权重对所述人脸特征进行优化，获得优化后特征；获取预设约束条件，基于所述预设约束条件对所述优化后特征进行约束操作，获得约束后特征；对所述约束后特征执行人脸分类识别，获得对应的人脸分类结果。

优选地，所述上课视频包括验证视频，所述方法还包括：确定与所述预设人脸特征提取模型对应的多个模型参数；基于所述验证视频对所述预设人脸特征提取模型在每个模型参数下进行验证操作，获得验证结果；基于所述验证结果在所述多个模型参数中确定最佳模型参数；基于所述最佳模型参数对所述预设人脸特征提取模型进行优化，获得优化后模型。

优选地，所述基于所述人脸分类结果对所述上课视频进行人脸手势识别，并基于人脸手势识别结果生成初步学生状态信息，包括：基于所述人脸分类结果在所述预处理后图像中提取人脸图像；按照预设筛选规则对所述人脸图像进行筛选，获得筛选后人脸图像；对所述筛选后人脸图像进行特征提取，获得对应的特征提取信息；基于所述特征提取信息对所述筛选后人脸图像进行人脸手势识别，获得人脸手势识别结果；基于所述人脸手势识别结果生成初步学生状态信息。

优选地，所述对所述筛选后人脸图像进行特征提取，获得对应的特征提取信息，包括：对所述筛选后人脸图像进行格式转换，获得转换后图像；基于预设肤色模型对所述筛选后人脸图像进行特征提取，获得初步特征信息；计算确定所述筛选后人脸图像的中间参数值；基于所述初步特征信息和所述中间参数值计算确定所述转换后图像的第一特征值和第二特征值；基于所述转换后图像、所述第一特征值以及所述第二特征值确定所述筛选后人脸图像对应的特征提取信息。

优选地，所述转换后图像包括亮度特征信息，所述基于所述转换后图像、所述第一特征值以及所述第二特征值确定所述筛选后人脸图像对应的特征提取信息，包括：基于所述亮度特征信息、所述第一特征值以及所述第二特征值生成所述筛选后人脸图像的融合特征信息；获取预设特征约束范围；基于所述预设特征约束范围对每张筛选后人脸图像的融合特征信息进行灰度转换处理，获得对应的特征提取信息。

优选地，所述基于所述特征提取信息对所述筛选后人脸图像进行人脸手势识别，获得人脸手势识别结果，包括：基于所述特征提取信息判断所述筛选后人脸图像中人脸与手部是否存在重合区域；若是，则获取人脸与手部的相对位置，基于所述相对位置对所述筛选后人脸图像进行人脸手势识别，生成对应的人脸手势识别结果；否则，对所述筛选后人脸图像进行人脸手势识别，获得人脸手势识别结果。

优选地，所述获取综合识别模型，包括：获取样本数据；依次计算所述样本数据中每个样本的信息熵；基于所述信息熵确定对应的信息增益；基于所述信息增益创建多个决策随机模型；基于所述多个决策随机模型生成综合识别模型。

优选地，所述基于所述综合识别模型对所述初步学生状态信息进行综合识别，获得学生状态识别结果，包括：对所述初步学生状态信息进行统计，获得状态统计信息；获取每个学生的复购信息、课堂评分信息以及预设状态分类规则；基于所述预设状态分类规则、所述复购信息、所述课堂评分信息以及所述状态统计信息对学生进行分类，获得学生初步分类；基于所述综合识别模型对所述状态统计信息和所述学生初步分类进行分析处理，获得学生状态识别结果。

相应的，本发明实施例还提供一种学习状态的监控装置，所述监控装置包括：视频获取单元，用于获取上课视频；特征提取单元，用于对所述上课视频进行人脸特征提取，获得人脸特征；分类单元，用于基于所述人脸特征对所述上课视频进行人脸分类，获得对应的人脸分类结果；初步识别单元，用于基于所述人脸分类结果对所述上课视频进行人脸手势识别，并基于人脸手势识别结果生成初步学生状态信息；状态识别单元，用于获取综合识别模型，基于所述综合识别模型对所述初步学生状态信息进行综合识别，获得学生状态识别结果。

优选地，所述特征提取单元包括：预处理模块，用于对所述上课视频进行预处理操作，获得预处理后图像；第一模型获取模块，用于获取预设人脸特征提取模型；第一特征提取模块，用于基于所述预设人脸特征提取模型对所述预处理后图像进行人脸特征提取，获得人脸特征。

优选地，所述分类单元包括：权重计算模块，用于对所述人脸特征进行初始权重计算，获得对应的初始特征权重；优化模块，用于基于所述初始特征权重对所述人脸特征进行优化，获得优化后特征；约束模块，用于获取预设约束条件，基于所述预设约束条件对所述优化后特征进行约束操作，获得约束后特征；分类模块，用于对所述约束后特征执行人脸分类识别，获得对应的人脸分类结果。

优选地，所述上课视频包括验证视频，所述监控装置还包括优化单元，所述优化单元具体用于：确定与所述预设人脸特征提取模型对应的多个模型参数；基于所述验证视频对所述预设人脸特征提取模型在每个模型参数下进行验证操作，获得验证结果；基于所述验证结果在所述多个模型参数中确定最佳模型参数；基于所述最佳模型参数对所述预设人脸特征提取模型进行优化，获得优化后模型。

优选地，所述初步识别单元包括：图像提取模块，用于基于所述人脸分类结果在所述预处理后图像中提取人脸图像；筛选模块，用于按照预设筛选规则对所述人脸图像进行筛选，获得筛选后人脸图像；第二特征提取模块，用于对所述筛选后人脸图像进行特征提取，获得对应的特征提取信息；第一识别模块，用于基于所述特征提取信息对所述筛选后人脸图像进行人脸手势识别，获得人脸手势识别结果；第二识别模块，用于基于所述人脸手势识别结果生成初步学生状态信息。

优选地，所述状态识别单元包括第二模型获取模块，所述第二模型获取模块具体用于：获取样本数据；依次计算所述样本数据中每个样本的信息熵；基于所述信息熵确定对应的信息增益；基于所述信息增益创建多个决策随机模型；基于所述多个决策随机模型生成综合识别模型。

优选地，所述状态识别单元包括状态识别模块，所述状态识别模块具体用于：对所述初步学生状态信息进行统计，获得状态统计信息；获取每个学生的复购信息、课堂评分信息以及预设状态分类规则；基于所述预设状态分类规则、所述复购信息、所述课堂评分信息以及所述状态统计信息对学生进行分类，获得学生初步分类；基于所述综合识别模型对所述状态统计信息和所述学生初步分类进行分析处理，获得学生状态识别结果。

另一方面，本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明实施例提供的方法。

通过本发明提供的技术方案，本发明至少具有如下技术效果：

通过预先创建基于多特征的综合识别模型，在后续的学生学习状态识别过程中，一方面实时获取学生的上课视频，并对学生的人脸特征进行提取和识别，另一方面结合学生的手势特征对学生的学习状态进行综合识别，从而大大提高了识别的实时性，提高了识别精确性，满足了实际需求。

本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施例，但并不构成对本发明实施例的限制。在附图中：

图1是本发明实施例提供的学习状态的监控方法的具体实现流程图；

图2是本发明实施例提供的学习状态的监控方法中进行人脸特征提取获得人脸特征的具体实现流程图；

图3是本发明实施例提供的学习状态的监控方法中进行人脸分类获得人脸分类结果的具体实现流程图；

图4是本发明实施例提供的学习状态的监控方法中生成初步学生状态信息的具体实现流程图；

图5是本发明实施例提供的学习状态的监控方法中针对识别结果的细分示意图；

图6是本发明实施例提供的学习状态的监控方法中获取综合识别模型的具体实现流程图；

图7是本发明实施例提供的学习状态的监控装置的结构示意图。

具体实施方式

以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施例，并不用于限制本发明实施例。

本发明实施例中的术语“系统”和“网络”可被互换使用。“多个”是指两个或两个以上，鉴于此，本发明实施例中也可以将“多个”理解为“至少两个”。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，字符“/”，如无特殊说明，一般表示前后关联对象是一种“或”的关系。另外，需要理解的是，在本发明实施例的描述中，“第一”、“第二”等词汇，仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序。

请参见图1，本发明实施例提供一种学习状态的监控方法，所述监控方法包括：

S10）获取上课视频；

S20）对所述上课视频进行人脸特征提取，获得人脸特征；

S30）基于所述人脸特征对所述上课视频进行人脸分类，获得对应的人脸分类结果；

S40）基于所述人脸分类结果对所述上课视频进行人脸手势识别，并基于人脸手势识别结果生成初步学生状态信息；

S50）获取综合识别模型，基于所述综合识别模型对所述初步学生状态信息进行综合识别，获得学生状态识别结果。

在一种可能的实施方式中，为了实现对学生的上课状态的实时、精确的监控，首先获取上课视频，并将该上课视频存储至学生视频数据库。此时对该上课视频进行人脸特征提取，以获得对应的人脸特征。

请参见图2，在本发明实施例中，所述对所述上课视频进行人脸特征提取，获得人脸特征，包括：

S21）对所述上课视频进行预处理操作，获得预处理后图像；

S22）获取预设人脸特征提取模型；

S23）基于所述预设人脸特征提取模型对所述预处理后图像进行人脸特征提取，获得人脸特征。

进一步地，在本发明实施例中，所述对所述上课视频进行预处理操作，获得预处理后图像，包括：按照预设频率对所述上课视频进行图像抽取，获得对应的图像集；对所述图像集中的每张图像进行裁剪，获得每张图像对应的预设数量的裁剪图，其中当前图像对应的裁剪图中的每张裁剪图与当前图像对应的其他裁剪图存在重叠区域；分别基于每张图像以及每张图像对应的裁剪图创建多个目标图像集；对所述目标图像集中的每张图像执行归一化处理，获得对应的第一处理后图像；对所述第一处理后图像执行灰度化处理，获得第二处理后图像；对所述第二处理后图像执行图像增强处理，获得预处理后图像。

在一种可能的实施方式中，首先对上述上课视频进行预处理操作，具体的，可以截取学生视频数据库中的视频数据，例如按照预设频率对上课视频进行图像抽取，该预设视频优选为0.5s，以获得对应的图像集，将上述图像集存储至图像数据库中，上述图像集可以根据实际需求被划分为训练集、验证集和测试集，例如可以按照6:3:1的比例将上述图像集随机划分为上述三个子集。

此时对上述图像集中的每张图像进行裁剪，以获得对应的预设数量的多张裁剪图，例如将每帧图像裁剪为4张裁剪图，每张裁剪图与其他裁剪图存在重叠区域，此时将当前帧图像与对应的4张裁剪图创建为目标图像集，即为图像集中的每张图像均创建了对应的目标图像集，此时进一步对每个目标图像集中的每张图像进行归一化处理。具体的，首先计算一个均值像素值矩阵，然后对于每个均值像素值矩阵减去对应位置的像素均值，然后将所有图片的每个像素的标准差设置为1，从而实现了对目标图像集中每张图像的归一化处理，以获得对应的多张第一处理后图像。

此时对每张第一处理后图像进行灰度化处理，具体的，可以根据预设公式计算输入图像的原始灰度矩阵，例如该预设计算公式为：f(i,j)=(R(i,j)+G(i,j)+B(i,j)) /3，例如在一种实施例中，将当前目标图像集中的每张图像分别表示为C0,C1,C2,C3,C4，将其对应的原始灰度矩阵表征为g0,g1,g2,g3,g4，并获得对应的第二处理后图像，然后对每张第二处理后图像进行图像增强处理，以获得预处理后图像，具体的，通过对每张图像的大小进行调整，以使得每张图像的像素相同，例如将当前帧图像的裁剪图像的灰度矩阵进行扩大至当前帧图像的灰度矩阵大小，在扩大的过程中，可以用0来补充所扩充的行和列，并获得处理后的灰度矩阵G0,G1,G2,G3,G4。请参见表1和表2，为灰度矩阵g1以及处理后灰度矩阵G1的一种具体实施例。

60	800	0	8	1
					90	7	0	5	0
70	56	66	0	5
					57	78	0	9	4
98	9	4	8	0

表1灰度矩阵g1

0	0	0	0	0	0	0
							0	60	800	0	8	1	0
0	90	7	0	5	0	0
							0	70	56	66	0	5	0
0	57	78	0	9	4	0
							0	98	9	4	8	0	0
0	0	0	0	0	0	0

表2处理后灰度矩阵G1

根据上述处理后灰度矩阵G0,G1,G2,G3,G4即获得了当前目标图像集对应的预处理后图像，基于同样的原理，可以获得所有目标图像集对应的预处理后图像，此时可以将上述预处理后图像输入预设人脸特征提取模型，例如输入预训练好的CNN卷积神经网络中进行人脸特征提取，该CNN卷积神经网络中包括依次连接的卷积层、池化层和连接层，通过卷积层可以提取每张预处理后图像的图像特征；每个连接层可以包括512个神经元，用于得到面部样本集的512维的特征向量，即获得对应的人脸特征，当前目标图像集中每张图像的特征集可以表示为T0,T1,T2,T3,T4。根据上述提取出的人脸特征，可以对上课视频进行人脸分类，以获得对应的人脸分类结果。

请参见图3，在本发明实施例中，所述基于所述人脸特征对所述上课视频进行人脸分类，获得人脸分类结果，包括：

S31）对所述人脸特征进行初始权重计算，获得对应的初始特征权重；

S32）基于所述初始特征权重对所述人脸特征进行优化，获得优化后特征；

S33）获取预设约束条件，基于所述预设约束条件对所述优化后特征进行约束操作，获得约束后特征；

S34）对所述约束后特征执行人脸分类识别，获得对应的人脸分类结果。

在一种可能的实施方式中，首先对人脸特征进行初始权重计算，例如在该CNN卷积神经网络中包括权重层，通过该权重层对人脸特征进行初始权重计算以获得对应的初始特征权重，具体的，将上述人脸特征输入权重层中，并对不同学生、老师的图像特征权重进行学习，表情特征权重计算公式表示为：qi = L(A2*R(A1*zi))，其中：L：

；R：a=g(x)=max(0,z)，其中zi为上述人脸特征中任一人脸特征对应的全局特征，qi为任一目标图像集中任一图像的表情特征权重，R为ReLU激活函数，L为logsig激活函数，在本发明实施例中，将该表情特征权重作为人脸特征的初始特征权重。此时基于该初始特征权重对人脸特征进行优化，以获得优化后特征，具体的，可以通过如下计算公式进行优化：

，

其中，Fm为优化后特征，Fi为人脸特征，c为每个目标图像集中的图像数量。

此时进一步获取预设约束条件，例如该预设约束条件为约束性损失函数，优选地，该约束性损失函数为max-margin函数，该预设约束条件可以表征为：L1=MAX（0，margin-q _max +q ₁），其中q _max为目标图像集中各图像的权重最大值，q _l为当前计算的具有遮挡的图像的权重，margin为预设阈值。经过上述预设约束条件的约束，得到对应的约束后特征，此时对该约束后特征进行人脸分类识别，例如将上述约束后特征输入SoftMax分类器以进行表情分类识别，从而获得对应的人脸分类结果。

在本发明实施例中，通过采用约束性损失函数将权重的差值控制在一个合理的范围内，从而有效控制了人脸特征提取以及人脸识别的误差，提高了人脸识别精确性。

在本发明实施例中，所述上课视频包括验证视频，所述方法还包括：确定与所述预设人脸特征提取模型对应的多个模型参数；基于所述验证视频对所述预设人脸特征提取模型在每个模型参数下进行验证操作，获得验证结果；基于所述验证结果在所述多个模型参数中确定最佳模型参数；基于所述最佳模型参数对所述预设人脸特征提取模型进行优化，获得优化后模型。

在一种可能的实施方式中，在通过预设人脸特征提取模型进行人脸特征提取的过程中，为了进一步提高人脸识别结果的精确性，还需要对该预设人脸特征提取模型进行优化。具体的，首先确定与该预设人脸特征提取模型对应的多个模型参数，例如将该模型的margin分别设置为0. 03、0. 08 和 0. 1，并分别进行验证操作，并判断验证结果的精确性，例如在本发明实施例中，当margin的值为0.08值时该预设人脸特征提取模型的精确性和稳定性最佳，即margin=0.08为最佳模型参数，此时基于该最佳模型参数对预设人脸特征提取模型进行优化，获得优化后模型，通过上述优化后模型对人脸进行分类，可以获得对应的人脸分类结果，例如在本发明实施例中，人脸分类结果包括人脸类和非人脸类，其中非人脸类识别结果包括低头，仰头，转头等；人脸类识别结果包括中立（即无表情）微笑，大笑，皱眉等。

然而在实际应用过程中，技术人员发现采用单一的特征识别虽然可以识别学生的上课状态，但存在较大的误差和偏差，因此为了进一步提高对学生学习状态的识别精确性，采用多特征融合进行综合分析的方法进行识别。

请参见图4，在本发明实施例中，所述基于所述人脸分类结果对所述上课视频进行人脸手势识别，并基于人脸手势识别结果生成初步学生状态信息，包括：

S41）基于所述人脸分类结果在所述预处理后图像中提取人脸图像；

S42）按照预设筛选规则对所述人脸图像进行筛选，获得筛选后人脸图像；

S43）对所述筛选后人脸图像进行特征提取，获得对应的特征提取信息；

S44）基于所述特征提取信息对所述筛选后人脸图像进行人脸手势识别，获得人脸手势识别结果；

S45）基于所述人脸手势识别结果生成初步学生状态信息。

在一种可能的实施方式中，首先根据上述人脸识别结果从预处理后图像中提取人脸图像以进一步进行识别。然后按照预设筛选规则对人脸图像进行筛选，由于手势不属于人脸部分，且可能存在遮挡人脸的情况，因此将导致人脸识别的权重分配占比较低的情况，因此可将手势识别的范围缩小至人脸表情识别后人脸类图像的权重最小的某些图像中进行，例如在本发明实施例中，可以基于上述计算出的初始特征权重，获取在每个目标图像集中权重最小的几张图像（例如取权重最小的3张图像）来进行手势识别，经过上述筛选，获得筛选后人脸图像。此时进一步进行特征提取，以获得对应的特征提取信息。

在本发明实施例中，所述对所述筛选后人脸图像进行特征提取，获得对应的特征提取信息，包括：对所述筛选后人脸图像进行格式转换，获得转换后图像；基于预设肤色模型对所述筛选后人脸图像进行特征提取，获得初步特征信息；计算确定所述筛选后人脸图像的中间参数值；基于所述初步特征信息和所述中间参数值计算确定所述转换后图像的第一特征值和第二特征值；基于所述转换后图像、所述第一特征值以及所述第二特征值确定所述筛选后人脸图像对应的特征提取信息。

在一种可能的实施方式中，首先对该筛选后人脸图像进行格式转换，例如在本发明实施例中，上述筛选后人脸图像均为RGB格式的图像，将上述筛选后人脸图像转换为HSV图像，以利用HSV颜色直方图将手势区域与背景区域进行分割，具体的，可以采用如下公式进行转换计算：

V=max（R，G，B）；

；

此时另一方面，基于预设肤色模型对筛选后人脸图像进行特征提取，以获得初步特征信息，例如该预设肤色模型为椭圆肤色模型，具体的，基于该椭圆肤色模型将筛选后图像从RGB颜色空间图像转换至YUV颜色空间图像，转换公式表示为：

Y = 0.299R + 0.587G + 0.114B

U = -0.147R - 0.289G + 0.436B

V = 0.615R - 0.515G - 0.100B

其中，Y为亮度，U表示图像中的红色分量，V表示图像中的蓝色分量，例如在本发明实施例中，将该图像中的红色分量和蓝色分量作为该图像的初步特征信息。此时进一步计算该筛选后图像的中间参数值，例如该中间参数值包括中间值L、Cb分量、Cr分量以及平均UV值，其中该中间值L表征为L=(B-(0.239*R+0.578*G+0.115*B))；此时基于中间值L可以计算出Cb分量和Cr分量，具体的，Cb分量表征为：Cb=L*0.556+128；Cr分量表征为：Cr=L*0.718+128，此时根据上述参数进一步计算出平均UV值，例如该平均UV值表征为：U’=（U+ Cb）/2，V’=（V+Cr）/2，此时可以基于转换后图像中的亮度特征H、平均红色分量U’（即第一特征值）以及平均蓝色分量V’（即第二特征值）确定筛选后人脸图像对应的特征提取信息。

在本发明实施例中，所述转换后图像包括亮度特征信息，所述基于所述转换后图像、所述第一特征值以及所述第二特征值确定所述筛选后人脸图像对应的特征提取信息，包括：基于所述亮度特征信息、所述第一特征值以及所述第二特征值生成所述筛选后人脸图像的融合特征信息；获取预设特征约束范围；基于所述预设特征约束范围对每张筛选后人脸图像的融合特征信息进行灰度转换处理，获得对应的特征提取信息。

在一种可能的实施方式中，首先根据筛选后人脸图像中的亮度信息H、平均红色分量U’以及平均蓝色分量V’生成筛选后人脸图像的融合特征信息，然后获取预设特征约束范围，例如在本发明实施例中，该预设特征约束范围分别为：5≤H≤28；130≤U’≤175；77≤V’≤129；此时根据上述预设特征预设范围对每张筛选后人脸图像的上述三个值进行灰度转换处理，具体的，通过遍历筛选后图像中的每个像素点，当该像素点的像素值落在上述区域内时，将该像素点的特征值标记为0，否则标记为255，从而实现对筛选后图像的灰度转换处理，并获得对应的灰度图像，在本发明实施例中，将该灰度图像作为针对筛选后人脸图像的特征提取信息。此时可以根据上述特征提取信息对筛选后人脸图像进行人脸手势识别，以获得人脸手势识别结果。

在本发明实施例中，所述基于所述特征提取信息对所述筛选后人脸图像进行人脸手势识别，获得人脸手势识别结果，包括：基于所述特征提取信息判断所述筛选后人脸图像中人脸与手部是否存在重合区域；若是，则获取人脸与手部的相对位置，基于所述相对位置对所述筛选后人脸图像进行人脸手势识别，生成对应的人脸手势识别结果；否则，对所述筛选后人脸图像进行人脸手势识别，获得人脸手势识别结果。

在一种可能的实施方式中，首先根据该灰度图像判断人脸与手部是否存在重合区域，若是，则根据人脸与手部的相对位置进行人脸手势识别，并生成对应的人脸手势识别结果；否则，直接进行人脸手势识别，并生成对应的人脸手势识别结果。在具体的识别过程中，可以将上述灰度图像、人脸识别结果等数据输入SoftMax分类器进行人脸手势分类识别，并获得对应的人脸手势识别结果。此时进一步根据人脸手势识别结果生成初步学生状态信息，例如可以根据输出的手势数据以及人脸表情数据（人脸识别结果）对识别结果进行细分，例如请参见图5，为本发明实施例提供的针对识别结果的细分示意图，将上述细分结果作为初步学生状态信息。此时可以通过预先创建的综合识别模型对学生状态进行综合识别。因此，首先需要创建综合识别模型。

请参见图6，在本发明实施例中，所述获取综合识别模型，包括：

S51）获取样本数据集；

S52）计算所述样本数据集的信息熵；

S53）基于所述信息熵确定对应的信息增益；

S54）基于所述信息增益创建多个决策随机模型；

S55）基于所述多个决策随机模型生成综合识别模型。

在一种可能的实施方式中，该综合识别模型为基于决策随机模型的综合识别模型。首先获取样本数据集，该样本数据集中包括每个学生的学习状态以及特征集（人脸手势识别结果），然后计算样本数据集的信息熵。具体的，首先从样本数据集中抽取80%的样本数据作为第一个决策随机模型的输入数据D，并计算第一个决策随机模型的信息熵，在本发明实施例中，该输入数据D中的状态为1的样本占比p₁，状态为2的样本占比为p₂…则该信息熵P可以表征为：

例如该输入数据D的特征集为{ smile_time,laugh_time,help_face_frown,shake_head_time,raise_quiet,miss_time}，其中laugh_time有3个离值：{[0,30),[30,240),[240,3600)}，为了让特征作用显著，把数值相差较大的连续性特征转化为离散的程度数据，用不同值代表一个个连续的区间，可以令区间小于30帧对应级别为1，区间大于等于30帧且小于240帧对应级别为2，区间大于等于240帧且小于3600帧对应级别为3，转化结果如下：

当laugh_time<30时,值改变=1

当30<=laugh_time<240时, 值改变=2……

此时，基于上述信息熵可以计算出对应的信息增益，例如使用“laugh_time”对数据集D进行划分，则可得到3个子集，分别为：D1（“laugh_time” =1）、D2（“laugh_time”=2）、D3（“laugh_time”=3）。 D1共包含k1个样本，满意样本占比为q1；D2包含k2个样本,满意样本占比为q2；D3包含了k3个样本，满意样本占比为q3。基于此，可以计算出用“laugh_time”划分之后所获得的3个分支结点的信息熵分别为P1,P2,P3,计算过程如下：

进一步地，可以计算出特征”laugh_time”的信息增益为：

GAIN（D，laugh_time）= P-(P1+P2+P3)=0.108；基于同样的原理，可以计算得到其他特征的信息增益，例如根据计算结果可确定特征“shake_head_time”的信息增益最大，因此将特征“shake_head_time”作为第一决策随机模型的第一个划分属性，此时根据shake_head_time将样本数据集进一步划分为多个子集，例如划分为h1,h2,h3三个子集，然后进一步计算每个子集的信息熵，继续划分直至集合中所有元素属于相同的状态分类或集合为空，得到最终的第一决策随机模型。

然后基于同样的原理，构建K个决策随机模型，例如在本发明实施例中，构建128个决策随机模型，并根据最终获得的K个决策随机模型生成综合识别模型。在创建综合识别模型后，可以对学生进行综合状态识别。

在本发明实施例中，所述基于所述综合识别模型对所述初步学生状态信息进行综合识别，获得学生状态识别结果，包括：对所述初步学生状态信息进行统计，获得状态统计信息；获取每个学生的复购信息、课堂评分信息以及预设状态分类规则；基于所述预设状态分类规则、所述复购信息、所述课堂评分信息以及所述状态统计信息对学生进行分类，获得学生初步分类；基于所述综合识别模型对所述状态统计信息和所述学生初步分类进行处理，获得学生状态识别结果。

在一种可能的实施方式中，首先对所获得的初步学生状态信息进行统计，以获得状态统计信息，该状态统计信息包括每种状态在所有状态中的占比，以及每种状态在上课视频中的帧数，其中包括学生不在屏幕中出现的图像帧数。然后获取每个学生在学习过程中的复购信息、课堂评分信息以及预设状态分类规则，然后对学生进行分类，例如在一种实施例中，该预设分类规则表示为：

状态1（一般）：课堂评分范围为score∈[0,3)或课堂评分范围为score∈[3,8)，且不复购；

状态2（良好）：课堂评分范围为score∈[3,8)，且复购或课堂评分范围为score∈[8,10)，且不复购；

状态3（优秀）：课堂评分范围为score∈[8,10)，且复购。

此时基于上述综合识别模型对上述状态统计信息和学生初步分类进行分析处理，从而获得学生状态识别结果。例如在对某3个学生进行状态分析的过程中，获得如下数据：

Student_id	smile_time	laugh_time	help_face_frown	shake_head_time	raise_quiet	miss_time
							00356	563	32	34	290	65	96
01275	354	63	21	98	27	133
							00933	25	3	267	345	5	47

将上述数据输入综合识别模型后，得到学生00356在128个决策随机模型中的分类结果为：状态1：14%；状态2：78%；状态3：8%，因此可以确定该学生的学生状态识别结果为状态2。

在本发明实施例中，通过采用基于多特征的学生状态识别方法，能够大大提高对学生上课学习状态的识别精确性，能够在实时进行的识别的基础上，实现准确的学生学习状态识别结果，满足了实际需求。

根据上述预设状态分类规则对学生进行分类，获得学生初步分类。

下面结合附图对本发明实施例所提供的学习状态的监控装置进行说明。

请参见图7，基于同一发明构思，本发明实施例提供一种学习状态的监控装置，所述监控装置包括：视频获取单元，用于获取上课视频；特征提取单元，用于对所述上课视频进行人脸特征提取，获得人脸特征；分类单元，用于基于所述人脸特征对所述上课视频进行人脸分类，获得对应的人脸分类结果；初步识别单元，用于基于所述人脸分类结果对所述上课视频进行人脸手势识别，并基于人脸手势识别结果生成初步学生状态信息；状态识别单元，用于获取综合识别模型，基于所述综合识别模型对所述初步学生状态信息进行综合识别，获得学生状态识别结果。

在本发明实施例中，所述特征提取单元包括：预处理模块，用于对所述上课视频进行预处理操作，获得预处理后图像；第一模型获取模块，用于获取预设人脸特征提取模型；第一特征提取模块，用于基于所述预设人脸特征提取模型对所述预处理后图像进行人脸特征提取，获得人脸特征。

在本发明实施例中，所述对所述上课视频进行预处理操作，获得预处理后图像，包括：按照预设频率对所述上课视频进行图像抽取，获得对应的图像集；对所述图像集中的每张图像进行裁剪，获得每张图像对应的预设数量的裁剪图，其中当前图像对应的裁剪图中的每张裁剪图与当前图像对应的其他裁剪图存在重叠区域；分别基于每张图像以及每张图像对应的裁剪图创建多个目标图像集；对所述目标图像集中的每张图像执行归一化处理，获得对应的第一处理后图像；对所述第一处理后图像执行灰度化处理，获得第二处理后图像；对所述第二处理后图像执行图像增强处理，获得预处理后图像。

在本发明实施例中，所述分类单元包括：权重计算模块，用于对所述人脸特征进行初始权重计算，获得对应的初始特征权重；优化模块，用于基于所述初始特征权重对所述人脸特征进行优化，获得优化后特征；约束模块，用于获取预设约束条件，基于所述预设约束条件对所述优化后特征进行约束操作，获得约束后特征；分类模块，用于对所述约束后特征执行人脸分类识别，获得对应的人脸分类结果。

在本发明实施例中，所述上课视频包括验证视频，所述监控装置还包括优化单元，所述优化单元具体用于：确定与所述预设人脸特征提取模型对应的多个模型参数；基于所述验证视频对所述预设人脸特征提取模型在每个模型参数下进行验证操作，获得验证结果；基于所述验证结果在所述多个模型参数中确定最佳模型参数；基于所述最佳模型参数对所述预设人脸特征提取模型进行优化，获得优化后模型。

在本发明实施例中，所述初步识别单元包括：图像提取模块，用于基于所述人脸分类结果在所述预处理后图像中提取人脸图像；筛选模块，用于按照预设筛选规则对所述人脸图像进行筛选，获得筛选后人脸图像；第二特征提取模块，用于对所述筛选后人脸图像进行特征提取，获得对应的特征提取信息；第一识别模块，用于基于所述特征提取信息对所述筛选后人脸图像进行人脸手势识别，获得人脸手势识别结果；第二识别模块，用于基于所述人脸手势识别结果生成初步学生状态信息。

在本发明实施例中，所述状态识别单元包括第二模型获取模块，所述第二模型获取模块具体用于：获取样本数据；依次计算所述样本数据中每个样本的信息熵；基于所述信息熵确定对应的信息增益；基于所述信息增益创建多个决策随机模型；基于所述多个决策随机模型生成综合识别模型。

在本发明实施例中，所述状态识别单元包括状态识别模块，所述状态识别模块具体用于：对所述初步学生状态信息进行统计，获得状态统计信息；获取每个学生的复购信息、课堂评分信息以及预设状态分类规则；基于所述预设状态分类规则、所述复购信息、所述课堂评分信息以及所述状态统计信息对学生进行分类，获得学生初步分类；基于所述综合识别模型对所述状态统计信息和所述学生初步分类进行分析处理，获得学生状态识别结果。

进一步地，本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明实施例所述的方法。

以上结合附图详细描述了本发明实施例的可选实施方式，但是，本发明实施例并不限于上述实施方式中的具体细节，在本发明实施例的技术构思范围内，可以对本发明实施例的技术方案进行多种简单变型，这些简单变型均属于本发明实施例的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明实施例对各种可能的组合方式不再另行说明。

本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得单片机、芯片或处理器（processor）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

此外，本发明实施例的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明实施例的思想，其同样应当视为本发明实施例所公开的内容。

Claims

1.一种学习状态的监控方法，其特征在于，所述监控方法包括：

获取上课视频；

对所述上课视频进行人脸特征提取，获得人脸特征；

基于所述人脸特征对所述上课视频进行人脸分类，获得对应的人脸分类结果；

基于所述人脸分类结果对所述上课视频进行人脸手势识别，并基于人脸手势识别结果生成初步学生状态信息；

获取综合识别模型，基于所述综合识别模型对所述初步学生状态信息进行综合识别，获得学生状态识别结果；

所述获取综合识别模型，包括：

获取样本数据；

依次计算所述样本数据中每个样本的信息熵；

基于所述信息熵确定对应的信息增益；

基于所述信息增益创建多个决策随机模型；

基于所述多个决策随机模型生成综合识别模型；

所述对所述上课视频进行人脸特征提取，获得人脸特征，包括：

对所述上课视频进行预处理操作，获得预处理后图像；

所述对所述上课视频进行预处理操作，获得预处理后图像，包括：

按照预设频率对所述上课视频进行图像抽取，获得对应的图像集；

所述基于所述人脸分类结果对所述上课视频进行人脸手势识别，并基于人脸手势识别结果生成初步学生状态信息，包括：

基于所述人脸分类结果在所述预处理后图像中提取人脸图像；

按照预设筛选规则对所述人脸图像进行筛选，获得筛选后人脸图像；

对所述筛选后人脸图像进行特征提取，获得对应的特征提取信息；

基于所述特征提取信息对所述筛选后人脸图像进行人脸手势识别，获得人脸手势识别结果；

基于所述人脸手势识别结果生成初步学生状态信息；

所述人脸识别结果包括所述人脸特征的初始特征权重，所述按照预设筛选规则对所述人脸图像进行筛选，获得筛选后人脸图像，包括：

基于所述初始特征权重在所述人脸图像中获取权重最小的预设数量的图像作为所述筛选后人脸图像；

所述对所述筛选后人脸图像进行特征提取，获得对应的特征提取信息，包括：

对所述筛选后人脸图像进行格式转换，获得转换后图像；

基于预设肤色模型对所述筛选后人脸图像进行特征提取，获得初步特征信息；

计算确定所述筛选后人脸图像的中间参数值；

基于所述初步特征信息和所述中间参数值计算确定所述转换后图像的第一特征值和第二特征值；

基于所述转换后图像、所述第一特征值以及所述第二特征值确定所述筛选后人脸图像对应的特征提取信息。

2.根据权利要求1所述的监控方法，其特征在于，所述对所述上课视频进行人脸特征提取，获得人脸特征，还包括：

获取预设人脸特征提取模型；

基于所述预设人脸特征提取模型对所述预处理后图像进行人脸特征提取，获得人脸特征。

3.根据权利要求2所述的监控方法，其特征在于，所述对所述上课视频进行预处理操作，获得预处理后图像，还包括：

对所述图像集中的每张图像进行裁剪，获得每张图像对应的预设数量的裁剪图，其中当前图像对应的裁剪图中的每张裁剪图与当前图像对应的其他裁剪图存在重叠区域；

分别基于每张图像以及每张图像对应的裁剪图创建多个目标图像集；

对所述目标图像集中的每张图像执行归一化处理，获得对应的第一处理后图像；

对所述第一处理后图像执行灰度化处理，获得第二处理后图像；

对所述第二处理后图像执行图像增强处理，获得预处理后图像。

4.根据权利要求2所述的监控方法，其特征在于，所述基于所述人脸特征对所述上课视频进行人脸分类，获得人脸分类结果，包括：

对所述人脸特征进行初始权重计算，获得对应的初始特征权重；

基于所述初始特征权重对所述人脸特征进行优化，获得优化后特征；

获取预设约束条件，基于所述预设约束条件对所述优化后特征进行约束操作，获得约束后特征；

对所述约束后特征执行人脸分类识别，获得对应的人脸分类结果。

5.根据权利要求2所述的监控方法，其特征在于，所述上课视频包括验证视频，所述方法还包括：

确定与所述预设人脸特征提取模型对应的多个模型参数；

基于所述验证视频对所述预设人脸特征提取模型在每个模型参数下进行验证操作，获得验证结果；

基于所述验证结果在所述多个模型参数中确定最佳模型参数；

基于所述最佳模型参数对所述预设人脸特征提取模型进行优化，获得优化后模型。

6.根据权利要求1所述的监控方法，其特征在于，所述转换后图像包括亮度特征信息，所述基于所述转换后图像、所述第一特征值以及所述第二特征值确定所述筛选后人脸图像对应的特征提取信息，包括：

基于所述亮度特征信息、所述第一特征值以及所述第二特征值生成所述筛选后人脸图像的融合特征信息；

获取预设特征约束范围；

基于所述预设特征约束范围对每张筛选后人脸图像的融合特征信息进行灰度转换处理，获得对应的特征提取信息。

7.根据权利要求1所述的监控方法，其特征在于，所述基于所述特征提取信息对所述筛选后人脸图像进行人脸手势识别，获得人脸手势识别结果，包括：

基于所述特征提取信息判断所述筛选后人脸图像中人脸与手部是否存在重合区域；

若是，则获取人脸与手部的相对位置，基于所述相对位置对所述筛选后人脸图像进行人脸手势识别，生成对应的人脸手势识别结果；

否则，对所述筛选后人脸图像进行人脸手势识别，获得人脸手势识别结果。

8.根据权利要求1所述的监控方法，其特征在于，所述基于所述综合识别模型对所述初步学生状态信息进行综合识别，获得学生状态识别结果，包括：

对所述初步学生状态信息进行统计，获得状态统计信息；

获取每个学生的复购信息、课堂评分信息以及预设状态分类规则；

基于所述预设状态分类规则、所述复购信息、所述课堂评分信息以及所述状态统计信息对学生进行分类，获得学生初步分类；

基于所述综合识别模型对所述状态统计信息和所述学生初步分类进行分析处理，获得学生状态识别结果。

9.一种学习状态的监控装置，其特征在于，所述监控装置包括：

视频获取单元，用于获取上课视频；

特征提取单元，用于对所述上课视频进行人脸特征提取，获得人脸特征；

分类单元，用于基于所述人脸特征对所述上课视频进行人脸分类，获得对应的人脸分类结果；

初步识别单元，用于基于所述人脸分类结果对所述上课视频进行人脸手势识别，并基于人脸手势识别结果生成初步学生状态信息；

状态识别单元，用于获取综合识别模型，基于所述综合识别模型对所述初步学生状态信息进行综合识别，获得学生状态识别结果；

所述状态识别单元包括第二模型获取模块，所述第二模型获取模块具体用于：

获取样本数据；

依次计算所述样本数据中每个样本的信息熵；

基于所述信息熵确定对应的信息增益；

基于所述信息增益创建多个决策随机模型；

基于所述多个决策随机模型生成综合识别模型；

所述特征提取单元包括：

预处理模块，用于对所述上课视频进行预处理操作，获得预处理后图像；

所述初步识别单元包括：

图像提取模块，用于基于所述人脸分类结果在所述预处理后图像中提取人脸图像；

筛选模块，用于按照预设筛选规则对所述人脸图像进行筛选，获得筛选后人脸图像；

第二特征提取模块，用于对所述筛选后人脸图像进行特征提取，获得对应的特征提取信息；

第一识别模块，用于基于所述特征提取信息对所述筛选后人脸图像进行人脸手势识别，获得人脸手势识别结果；

第二识别模块，用于基于所述人脸手势识别结果生成初步学生状态信息；

所述人脸识别结果包括所述人脸特征的初始特征权重，所述筛选模块用于：

对所述筛选后人脸图像进行格式转换，获得转换后图像；

计算确定所述筛选后人脸图像的中间参数值；

10.根据权利要求9所述的监控装置，其特征在于，所述特征提取单元还包括：

第一模型获取模块，用于获取预设人脸特征提取模型；

第一特征提取模块，用于基于所述预设人脸特征提取模型对所述预处理后图像进行人脸特征提取，获得人脸特征。

11.根据权利要求10所述的监控装置，其特征在于，所述对所述上课视频进行预处理操作，获得预处理后图像，还包括：

12.根据权利要求10所述的监控装置，其特征在于，所述分类单元包括：

权重计算模块，用于对所述人脸特征进行初始权重计算，获得对应的初始特征权重；

优化模块，用于基于所述初始特征权重对所述人脸特征进行优化，获得优化后特征；

约束模块，用于获取预设约束条件，基于所述预设约束条件对所述优化后特征进行约束操作，获得约束后特征；

分类模块，用于对所述约束后特征执行人脸分类识别，获得对应的人脸分类结果。

13.根据权利要求10所述的监控装置，其特征在于，所述上课视频包括验证视频，所述监控装置还包括优化单元，所述优化单元具体用于：

确定与所述预设人脸特征提取模型对应的多个模型参数；

14.根据权利要求9所述的监控装置，其特征在于，所述转换后图像包括亮度特征信息，所述基于所述转换后图像、所述第一特征值以及所述第二特征值确定所述筛选后人脸图像对应的特征提取信息，包括：

获取预设特征约束范围；

15.根据权利要求9所述的监控装置，其特征在于，所述基于所述特征提取信息对所述筛选后人脸图像进行人脸手势识别，获得人脸手势识别结果，包括：

16.根据权利要求9所述的监控装置，其特征在于，所述状态识别单元包括状态识别模块，所述状态识别模块具体用于：

对所述初步学生状态信息进行统计，获得状态统计信息；

17.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-8中任一项权利要求所述的方法。