CN116246312A

CN116246312A - 一种学习状态检测方法、装置、设备及存储介质

Info

Publication number: CN116246312A
Application number: CN202211489148.7A
Authority: CN
Inventors: 徐晶晶
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2022-11-25
Filing date: 2022-11-25
Publication date: 2023-06-09

Abstract

本文涉及人工智能领域，提供了一种学习状态检测方法、装置、设备及存储介质，其中，方法包括：获取终端设备采集的用户视频，用户视频中包括多个视频帧；通过预训练的人脸检测模型实时检测视频帧中的人脸区域；根据第一次检测到的人脸区域以及人脸区域数量发生变化时的人脸区域进行用户身份识别，若用户身份识别成功，则通过追踪视频帧中人脸区域质心坐标的方式追踪同一用户身份的人脸区域；提取各视频帧中各用户身份的人脸区域的二维人脸特征点；根据各视频帧中每一用户身份的人脸区域的二维人脸特征点，识别用户的学习状态。本文能够减少人脸区域的检测次数，提高人脸检测效率，进而提高人脸识别效率及学习状态识别的准确性。

Description

一种学习状态检测方法、装置、设备及存储介质

技术领域

本文涉及人工智能领域，尤其涉及一种学习状态检测方法、装置、设备及存储介质。

背景技术

现有技术中，互联网+教育背景下与信息技术的不断融合，为在线教育及在线学习迅速发展奠定了基础。

在线学习是指学习者通过某种教学软件在网络上进行远程学习，根据课程获取方式的不同分为同步在线教学与录播课程教学两类。同步在线教学即通过直播的形式实时的教与学，可有效应对因突发事件无法开展线下教学的情况；录播课程教学即教师提前录制好课程并上传至教学平台，学习者可根据自己的学习情况自由的选择上课时间，打破了时间、空间、环境等各方面的限制，扩大了课程的利用率。

在线学习过程中，教师面对屏幕教学，面向课堂讲义教授课程，学生窗口较小，在学生众多的情况下很难关注大部分学生的学习状态，无法根据学生状态实时调整教学进度，无法通过学生的课堂表现评判课堂质量与学习成绩。学生长期面对单一的学习屏幕，缺乏老师的监督与引导，容易分心与疲劳，学习过程中的疑问无法得到教师及时回答，容易滋生烦躁、厌学等情绪。

在线学习状态的识别与相关监测系统的开发，对于提高在线学习效果，辅助教师优化课程设计具有积极意义。其一，设计在线学习状态监测系统，当系统识别到学生的状态异常时，及时给与提醒，可以弥补在线学习过程中缺乏监督的不足。其二，教师通过分析整堂课程中的学生学习状态的监测记录，可对课程的教学效果做出一个初步的评判，分析学习者学习内容的薄弱环节，对教学内容进行优化，提高在线学习者学习水平。现有针对学习状态的检测方法，包括如下三类：第一类是基于生理信号检测的方法，该类方法需要学习者佩戴生理信号采集设备，对学习者的干扰性较大；第二类是基于行为特征分析的方法，该类方法采用多模态分析学习者的学习状态，该类方法存在数据采集及建模过程复杂的问题；第三类是基于面部特征分析的方法，该类方法通过摄像头采集学习者人脸图像后，经过一定算法分析后输出学习状态，该类方法严重依赖于有效特征的提取与高效特征提取算法，且需实时跟踪人脸、实时提取人脸特征，存在检测过程流畅度不高的问题。

发明内容

本文用于解决现有技术中基于面部特征进行学习状态的检测方法存在人脸检测速度慢，进而导致人脸识别速度慢，学习状态识别结果不准确的问题。

为了解决上述技术问题，本文一方面提供一种学习状态检测方法，包括：

获取终端设备采集的用户视频，所述用户视频中包括多个视频帧；

通过预训练的人脸检测模型实时检测所述视频帧中的人脸区域；

根据第一次检测到的人脸区域以及人脸区域数量发生变化时的人脸区域进行用户身份识别，若用户身份识别成功，则通过追踪视频帧中人脸区域质心坐标的方式追踪同一用户身份的人脸区域；

提取各视频帧中各用户身份的人脸区域的二维人脸特征点；

根据各视频帧中每一用户身份的人脸区域的二维人脸特征点，识别用户的学习状态。

作为本文进一步实施例中，学习状态检测方法还包括：

根据人脸区域确定学习人数，当学习人数为0或大于预定值时，生成预警信息并发送至云数据库。

作为本文进一步实施例中，学习状态检测方法还包括：从预先建立的三维人脸特征库中获取各用户身份对应的三维人脸特征点；

将各用户身份的二维人脸特征点及三维人脸特征点输入至预训练的姿态估计模型中得到各用户身份的头部姿态；

根据各用户身份的头部姿态确定各用户是否分心。

作为本文进一步实施例中，所述三维人脸特征库中的三维人脸特征点确定过程包括：

获取同一时刻深度摄像头采集的人脸深度图像数据及彩色摄像头采集的人脸彩色图像数据；

对所述人脸深度图像数据及人脸彩色图像数据进行对齐融合处理得到RGB-D图像；

利用ERT算法从所述人脸彩色图像数据中获取二维特征点；

从所述RGB-D图像中获取所述二维特征点位置处的三维特征点。

作为本文进一步实施例中，对所述人脸深度图像数据及人脸彩色图像数据进行对齐融合处理得到RGB-D图像包括：

获取深度摄像头及彩色摄像头的内外参数矩阵；

根据深度摄像头及彩色摄像头的内外参数矩阵，确定彩色摄像头中像素点坐标与深度摄像头中像素点坐标之间的转换函数；

利用所述转换函数，对所述人脸深度图像数据及人脸彩色图像数据进行对齐融合处理得到RGB-D图像。作为本文进一步实施例中，根据第一次检测到的人脸区域以及人脸区域数量发生变化时的人脸区域进行用户身份识别包括：

确定第一次检测到的人脸区域以及人脸区域数量发生变化时的人脸区域中的待识别人脸特征向量；

匹配所述待识别人脸特征向量与人脸特征库中的人脸特征向量，将匹配成功的人脸特征库中的人脸特征向量对应的用户身份作为所述待识别人脸特征向量对应的人脸区域的用户身份；

其中，所述人脸特征库中的人脸特征向量通过ResNet特征提取模型提取用户预留用户图像的方式建立。

作为本文进一步实施例中，通过追踪视频帧中人脸区域质心坐标的方式追踪同一用户身份的人脸区域包括：

根据视频帧中各人脸区域的边缘像素坐标，计算人脸质心坐标；

根据连续视频帧中人脸区域对应的人脸质心坐标，计算连续视频帧中人脸区域的质心位移；

将质心位移小于预定值的人脸区域归类为同一用户身份的人脸区域。

作为本文进一步实施例中，根据视频帧中各人脸区域的边缘像素坐标，计算人脸质心坐标包括：

利用如下公式计算人脸质心坐标：

其中，(x_left,y_to_p)为人脸区域左上角坐标，(x_right,y_bottom)为人脸区域右下角坐标，(x_N,y_N)为第N个视频帧的质心坐标。

作为本文进一步实施例中，所述人脸检测模型训练过程包括：

获取样本数据，所述样本数据包括人脸图像及人脸图像中的人脸区域；

根据样本数据，构建改进的MTCNN网络模型，所述改进的MTCNN网络模型中的卷积层为深度可分离卷积；

利用样本数据及Focal Loss损失函数训练所述改进的MTCNN网络模型，将训练好的模型作为所述人脸检测模型。

作为本文进一步实施例中，根据各视频帧中每一用户身份的人脸区域的二维人脸特征点，识别用户的学习状态包括：

根据各视频帧中每一用户身份的人脸区域的二维人脸特征点，计算各用户的疲劳指标数据；

根据各用户的疲劳指标数据，确定用户是否处于疲劳状态。

作为本文进一步实施例中，疲劳指标数据包括眼部PERCLOS值、眨眼频率及哈欠次数，根据各视频帧中每一用户身份的人脸区域的二维人脸特征点，计算各用户的疲劳指标数据包括：

对于各视频帧中每一用户身份的人脸区域的二维人脸特征点，执行如下处理：获取该二维人脸特征点中的眼睛特征点及嘴部特征点；根据眼睛特征点，计算眼睛纵横比；根据嘴部特征点，计算嘴部纵横比；

根据第一预定时间段内视频帧对应的眼睛纵横比，计算眼部PERCLOS值；

根据第二预定时间段内视频帧对应的眼睛纵横比，计算眨眼频率；

根据第三预定时间段内视频帧对应的嘴部纵横比，计算哈欠次数。

本文第二方面提供一种学习状态检测装置，包括：

信息获取单元，用于获取终端设备采集的用户视频，所述用户视频中包括多个视频帧；

人脸检测单元，用于通过预训练的人脸检测模型实时检测所述视频帧中的人脸区域；

人脸识别单元，用于根据第一次检测到的人脸区域以及人脸区域数量发生变化时的人脸区域进行用户身份识别，若用户身份识别成功，则通过追踪视频帧中人脸区域质心坐标的方式追踪同一用户身份的人脸区域；

信息提取单元，用于提取各视频帧中各用户身份的人脸区域的二维人脸特征点；

状态识别单元，用于根据各视频帧中每一用户身份的人脸区域的二维人脸特征点，识别用户的学习状态。

本文第三方面提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述任一实例所述方法。

本文第四方面提供一种计算机存储介质，其上存储有计算机程序，所述计算机程序被计算机设备的处理器执行时实现前述任一实施例所述方法。

本文第五方面提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被计算机设备的处理器执行时实现前述任一实施例所述方法。

本文提供的学习状态检测方法及装置，通过预训练的人脸检测模型实时检测视频帧中的人脸区域；根据第一次检测到的人脸区域以及人脸区域数量发生变化时的人脸区域进行用户身份识别，若用户身份识别成功，则通过追踪视频帧中人脸区域质心坐标的方式追踪同一用户身份的人脸区域；提取各视频帧中各用户身份的人脸区域的二维人脸特征点；根据各视频帧中每一用户身份的人脸区域的二维人脸特征点，识别用户的学习状态，能够减少人脸区域的检测次数(仅需在人脸区域发射变化时才检测人脸区域)，提高人脸检测效率，进而提高人脸识别效率及学习状态识别的准确性。

为让本文的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

为了更清楚地说明本文实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本文的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本文实施例学习状态检测方法的第一流程图；

图2示出了本文实施例人脸检测模型训练过程的流程图；

图3示出了本文实施例用户身份识别过程的流程图；

图4示出了本文实施例ResNet模型的结构图；

图5示出了本文实施例质心追踪过程的流程图；

图6示出了本文实施例二维人脸特征点的示意图；

图7示出了本文实施例学习状态识别过程的流程图；

图8示出了本文实施例疲劳指标数据计算过程的流程图；

图9示出了本文实施例人眼状态变化示意图；

图10示出了本文实施例人眼特征点示意图；

图11A示出了本文实施例嘴部特征点示意图；

图11B示出了本文实施例嘴部特征点检测效果的示意图；

图12示出了本文实施例学习状态检测方法的第二流程图；

图13示出了本文实施例三维人脸特征点确定过程的流程图；

图14示出了本文实施例RGB-D图像确定过程的流程图；

图15示出了本文实施例学习状态检测装置的结构图；

图16示出了本文实施例计算机设备的结构图。

附图符号说明：

1501、信息获取单元；

1502、人脸检测单元；

1503、人脸识别单元；

1504、信息提取单元；

1505、状态识别单元；

1602、计算机设备；

1604、处理器；

1606、存储器；

1608、驱动机构；

1610、输入/输出模块；

1612、输入设备；

1614、输出设备；

1616、呈现设备；

1618、图形用户接口；

1620、网络接口；

1622、通信链路；

1624、通信总线。

具体实施方式

下面将结合本文实施例中的附图，对本文实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本文一部分实施例，而不是全部的实施例。基于本文中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本文保护的范围。

需要说明的是，本文的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本文的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或装置产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行。

需要说明的是，本文的学习状态检测方法及装置可用于各领域的同步在线教育，本文的学习状态检测方法及装置的应用领域不做限定。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户视频、二维人脸特征点等)，均为经用户授权或者经过各方充分授权的信息和数据。

本文一实施例中，提供一种学习状态检测方法，用于解决现有技术中基于面部特征进行学习状态的检测方法存在人脸检测速度慢，进而导致人脸识别速度慢，学习状态识别结果不准确的问题。具体的，如图1所示，包括：

步骤101，获取终端设备采集的用户视频，所述用户视频中包括多个视频帧。

步骤102，通过预训练的人脸检测模型实时检测所述视频帧中的人脸区域。

步骤103，根据第一次检测到的人脸区域以及人脸区域数量发生变化时的人脸区域进行用户身份识别，若用户身份识别成功，则通过追踪视频帧中人脸区域质心坐标的方式追踪同一用户身份的人脸区域。

步骤104，提取各视频帧中各用户身份的人脸区域的二维人脸特征点。

步骤105，根据各视频帧中每一用户身份的人脸区域的二维人脸特征点，识别用户的学习状态。

本实施例的学习状态检测方法可应用于学习端。所述学习端可以为台式电脑、平板电脑、笔记本电脑、智能手机、数字助理、智能可穿戴设备等。其中，智能可穿戴设备可以包括智能眼镜、智能头盔等。当然，所述学习端并不限于上述具有一定实体的电子设备，其还可以为运行于上述电子设备中的软件(例如直播视频的APP)。

由学习端完成用户视频采集及学习状态检测，并将异常学习状态上传至云数据库(例如阿里云)。面向教师的云端可以从云数据库中获取异常学习状态并显示，根据异常学习状态调整教学进度。具体的，云端主要面向线上课程教师开放，可实现教师登录注册、教师个人信息查询、教师授课信息查询以及学习者异常状态预警信息查询功能。具体的，

(1)注册登录：教师在进入主页面查询更多信息前，首先进行注册登录。

(2)教师个人信息查询：查看目前登录用户账号、姓名、密码、性别、年龄，所授课程等信息。

(3)教师授课信息查询：查看所有注册用户的姓名与所授课程。

(4)学习者(用户)异常状态预警信息查询。

客户端面向用户开发，可实现用户的人脸注册、人脸检测、人脸识别、人脸跟踪、疲劳检测等功能，还可实现头部姿态估计、分心状态检测等功能(参加后续实施例)。人脸注册即截取视频图像帧人脸构建人脸图像库，利用ResNet模型提取人脸图像库图像特征向量构成人脸特征库，为后续人脸识别做铺垫。

本实施例中使用的学习框架例如为TensorFlow；主要开发语言为Python3，依赖包有numpy、scipy、imutils等，仿真软件为PyCharm；系统选用的数据库为MySQL；系统部分代码来自OpenCV开源库以及以其为基础建立的跨平台通用框架Dlib库。开发软件为MyEclipse，主要开发语言为Java。本实施例在实施之前首先要建立人脸检测模型、用户身份识别算法、质心跟踪算法及学习状态检测算法。

本文一实施例中，步骤101中的用户视频由终端设备中的摄像头采集，用户视频可以为预定时间段内的视频，或是预定帧的视频。具体实施时，还可实时不间断的获取用户视频，或根据预设采样频率，获取终端设备采集的用户视频，例如每间隔五分钟、十分钟等获取最近一分钟内的用户视频。

本文一实施例中，步骤102中的人脸检测模型由MTCNN网络模型训练得到，具体的，如图2所示，人脸检测模型训练过程包括：

步骤201，获取样本数据，样本数据包括人脸图像及人脸图像中的人脸区域。

步骤202，根据样本数据，构建改进的MTCNN网络模型，所述改进的MTCNN网络模型中的卷积层为深度可分离卷积。

步骤203，利用样本数据及Focal Loss损失函数训练所述改进的MTCNN网络模型，将训练好的模型作为所述人脸检测模型。

本方法通过对现有MTCNN网络模型进行改进，能够减少模型中的参数。利用FocalLoss损失函数代替面部分类的交叉熵损失函数，以改善正负样本类别不平衡而导致的模型性能退化问题；分析在线学习状态检测的应用场景，增加中值滤波以降低噪声影响，微调模型参数以提高检测准确率。

本文一实施例中，如图3所示，步骤102实施过程包括：

步骤301，确定第一次检测到的人脸区域以及人脸区域数量发生变化时的人脸区域中的待识别人脸特征向量。

步骤302，匹配待识别人脸特征向量与人脸特征库中的人脸特征向量，将匹配成功的人脸特征库中的人脸特征向量对应的用户身份作为所述待识别人脸特征向量对应的人脸区域的用户身份。

当识别出用户身份后，可在人脸区域附近(例如左下角)的身份识别结果框内显示学习者姓名缩写，若识别失败则在人脸区域附近的身份识别结果框内显示“unknown”，并产生身份异常报警。

其中，人脸特征库中的人脸特征向量通过ResNet特征提取模型提取用户预留用户图像的方式建立。

步骤301中人脸特征向量可基于ResNet模型实现，ResNet模型把残差块引入到了深度卷积神经网络之中，通过残差块连接浅层网络与自身映射的增加层，将上一层网络输出信息直接传送到网络深层，实现了非相邻层之间的线性传递，在一定程度上解决了因网络层数增加产生的过拟合、梯度消失和爆炸等问题。具体实施时，可选用ResNet-18、ResNet-34、ResNet-50、ResNet-101等ResNet模型。

一实施方式中，ResNet模型如图4所示，该模型可通过Dlib库接口调用，共包含29层卷积层、1层全连接层，最终获取人脸图像128维特征向量，以此表征不同的人脸。

步骤302实施时，可通过计算待识别人脸特征向量与人脸特征库中人脸特征向量间的相似度的方式确定是否匹配，若相似度大于预定阈值，则认为二者匹配，反之，则不匹配。常见的相似度(系数)算法有余弦相似度、皮尔森相关系数、Jaccard相似系数等；距离算法有欧氏距离、马哈拉诺比斯距离、切比雪夫距离等。鉴于本文用来标志人脸的数据为特征向量，因此选用欧氏距离算法标志待识别人脸特征向量与人脸特征库中人脸特征向量之间的相关性。具体的，两个n维向量a(x₁₁,x₁₂,,x_1n)与b(x₂₁,x₂₂,,x_2n)之间的欧氏距离表达式如下式所示：

/>

本文一实施例中，如图5所示，步骤103通过追踪视频帧中人脸区域质心坐标的方式追踪同一用户身份的人脸区域包括：

步骤501，根据视频帧中各人脸区域的边缘像素坐标，计算人脸质心坐标。

步骤502，根据连续视频帧中人脸区域对应的人脸质心坐标，计算连续视频帧中人脸区域的质心位移。

步骤503，将质心位移小于预定值的人脸区域归类为同一用户身份的人脸区域。

步骤501实施时根据视频帧中各人脸区域的边缘像素坐标，计算人脸质心坐标包括：

利用如下公式计算人脸质心坐标：

本实施例将质心跟踪算法应用与人脸识别算法中，只对图像帧中第一帧和人脸数发生变化的图像进行人脸识别，其余的只根据相邻帧中相同人脸唯一最小的原则进行人脸跟踪，可以实现每一帧均进行人脸识别，特别适合用于需要一直人脸识别的场景。比如线上上课、线上考试、监测学生完手机游戏时间等。

本文一实施例中，步骤104中提取的二维人脸特征点如图6所示中点化线所示，二维人脸特征点为人脸面部的关键区域位置，例如眉毛、眼角、嘴角、鼻尖、唇、下巴、脸颊轮廓等。

特征点的提取可利用ERT算法实现，具体的，将人脸区域图像输入至ERT算法中，可得到二维人脸特征点的位置坐标，

ERT算法的核心思想是利用两层级联回归构建数学模型，将若干强回归器进行串行级联，达到集成的效果。

假设x_i∈R²为人脸图像中第i个特征点的二维坐标系坐标值，假设有数据集(I₁,S₁),(I₂,S₂),...,(I_n,S_n)，S_i＝(x₁,x₂,...,x_p)∈R^2p为图像上p个特征点坐标构成的人脸图像的形状向量，I_i表示人脸图像，第一层采用级联回归的方式构建ERT模型，迭代公式为：

式中

为第t级回归器预测的形状向量；I为输入图像；γ_t为第t级回归器，输入图像I与当前第t级的形状向量，输出为形状向量的迭代更新值；ΔS_i ^(t)为当前回归器输出结果与实际值的差值；π_i∈{1,...,n}。根据上述公式不断迭代更新面部特征点形状向量，若第一层回归级联层数为k，则生成k个回归器γ₁,γ₂,...,γ_k，每经过一次级回归器，获取68个面部特征点位置的更新值，使关键点的估计位置与实际坐标的位置误差最小。

第二层主要对回归器γ_t进行训练，回归器γ_t在训练过程中使用增强梯度树算法(the gradient tree boosting)，给定组成强回归器γ_t的弱回归器g_k个数K。设训练数据集为

学习率为0<v<1。训练过程中，首先进行对一个强回归器进行初始化：

初始化后进行迭代更新，每次更新的值为r_ik：

式中

表示第k-1级强回归器对于残差回归量的拟合，接下来用弱回归器构建强回归器，对/>

进行更新迭代如下式所示：

循环迭代公式(4)与公式(5)，直到收敛或者达到设定迭代次数，最终的输出为：

每一个二层回归中，输入为每个第一层回归输出的误差ΔS_i ^(t)，设定级联级数T＝10。在第二层回归中利用平方误差

作为损失函数，求导得y_i-f(x_i)，在每一轮的迭代中将该梯度作为拟合对象，最终得到构建模型。

本文一实施例中，如图7所示，上述步骤105根据各视频帧中每一用户身份的人脸区域的二维人脸特征点，识别用户的学习状态包括：

步骤701，根据各视频帧中每一用户身份的人脸区域的二维人脸特征点，计算各用户的疲劳指标数据。

步骤702，根据各用户的疲劳指标数据，确定用户是否处于疲劳状态。用户处于疲劳状态时，疲劳指标会出现异常。

疲劳指标数据包括眼部PERCLOS值、眨眼频率及哈欠次数，当出现疲劳状态时，眼部会出现闭眼时间增长、眨眼频率明显升高或降低等视觉行为。具体实施时，将疲劳状态上传至云数据库，以便教师端从云数据库获取用户的疲劳状态，并据此调整教学策略或进度。

如图8所示，步骤701根据各视频帧中每一用户身份的人脸区域的二维人脸特征点，计算各用户的疲劳指标数据包括：

步骤801，对于各视频帧中每一用户身份的人脸区域的二维人脸特征点，执行如下处理：获取该二维人脸特征点中的眼睛特征点及嘴部特征点；根据眼睛特征点计算眼睛纵横比；根据嘴部特征点计算嘴部纵横比。

步骤802，根据第一预定时间段内视频帧对应的眼睛纵横比，计算眼部PERCLOS值。

步骤803，根据第二预定时间段内视频帧对应的眼睛纵横比，计算眨眼频率。

步骤804，根据第三预定时间段内视频帧对应的嘴部纵横比，计算哈欠次数。

具体实施时，第一预定时间段、第二预定时间段及第三预定时间段可以相同，也可以不同，可根据实际需求进行设定，本文对其具体取值不做限定。

步骤801中，人眼状态主要可分为睁开和闭合两种。当眼睛状态发生改变时，眼睛的纵横比值随之改变。具体的，如图9所示，图中T1时刻表示眼睛处于睁开状态，T2表示眼睛处于闭合状态，T1～T2时间段表示在线学习者眼睛从睁开到闭合，T2～T3时间段表示眼睛一直处于闭合状态，T3～T4表示眼睛从闭合到睁开状态，T1～T4即为一次完整的眨眼动作。因此，获取学习者眼睛纵横比(Eye Aspect Ratio，EAR)之后，设定一定的EAR阈值，即可判定人眼状态处于睁开或闭合的哪一种。

EAR值计算步骤如下：

(1)提取视频图像帧中人脸68个二维特征点，将其编号为0～67。如图10所示，其中左眼由编号为36～41的特征点表示，右眼由编号为42～47的特征点表示，设它们为P₃₆～P₄₇。

(2)提取人眼特征点中的特定点，计算出左右眼睛纵横方向相应位置点之间的欧几里得距离，获取左右眼睛的EAR值，其计算表达式如下所示：

式中P_n为第n个特征点的二维坐标向量，分子和分母分别表示上下眼睑与左右两端眼角之间的垂直距离，EAR_left为左眼纵横比值，EAR_right为右眼纵横比值。

(3)为减轻因学习者姿态导致的误差干扰，计算左右眼睛平均EAR值，以此代表眼睛EAR值，其表达式如下所示。

通过以上步骤获取EAR值之后，为获取眼部状态，需要进行EAR阈值的设定。眼睛状态的获取与EAR阈值的设定密切相关，当EAR阈值设定过低时无法检测到学习者的闭眼状态，EAR值设定较高时会出现闭眼误检现象。

步骤802中，本实施例中眼部PERCLOS值得评价指标为P80，即指眼睑遮住瞳孔面积的80％则判断眼睛闭和，并且统计眼睛闭合的时间相对于某段时间的占比，PERCLOS值的计算公式为：

大量的实验表明，人处于疲劳状态时，RERCLOS平均值为40.69％，因此，本文中在进行疲劳检测时，设定RERCLOS的阈值为0.4。当计算出的PERCLOS值大于0.4，则认为用户处于疲劳状态。

步骤803中，眨眼动作是指人不自主出现的快速闭眼又张开的动作，又称瞬目反射。人眼在正常状态下每分钟眨眼15～20次，每次眨眼大概持续100～400ms。当学习者处于疲劳状态时，眨眼频率会明显增高或减少。

当实验者进行一次眨眼动作时，变化曲线即出现一个波谷，EAR值先减小后增大。因此当检测到连续视频图像帧中学习者的EAR值在0.4s的时间内先减小到小于0.23再增大到大于0.23则判断眨眼一次。眨眼频率数学表达式如下所示：

式中N_blink为在时间段T内眨眼次数，f_blink眨眼频率。当每分钟眨眼频率f_blink＜10或f_blink＞20时(具体数值可根据敏感度进行调节)，则判断用户处于疲劳状态。

步骤801中，用户的嘴部特征点是判定其是否疲劳的重要条件，其中最明显的特征为频繁哈欠。

嘴部的状态主要有闭合，张嘴说话与打哈欠三种。当嘴部状态发生改变时，嘴巴纵横比(Mouth Aspect Ratio，MAR)随之改变。嘴巴状态的判断与眼睛状态的判断相似，首先要进行嘴巴纵横比的计算，计算步骤如下：

(1)通过彩色图像帧获取人嘴部特征点如图11A所示，由编号为48～67的特征点表示，设它们为P₄₈～P₆₇。嘴部特征点检测效果如图11B所示。

(2)为减少用户姿态原因而导致的误差干扰，同时采用三对特征点之间的距离平均值作为嘴巴的垂直方向距离。MAR值的计算表达式如下式所示：

式中P_n为第n个特征点的二维坐标向量，分子表示上下嘴唇之间的距离，分母表示嘴角之间的距离。

步骤804实施时，哈欠是一种疲劳状态下的条件反射，常在人疲劳、缺乏休息时出现，以深呼吸运动的方式吸收更多的氧气以刺激神经中枢提振精神。人打哈欠时，嘴巴张大并且持续一定时间，人在正常说话时，嘴巴张开程度较小且持续时间较短。因此可通过计算MAR值判断嘴巴的张开程度，同时结合嘴巴的张开时间来判断人是否在打哈欠。与眨眼动作的检测类似，检测哈欠动作首先要设定一定的MAR阈值。当计算到的MAR值大于MAR阈值，则记为一次哈欠。若第三预定时间段内哈欠次数大于预定哈欠次数，则认为用户处于疲劳状态。

本文一实施例中，学习状态检测方法还包括：

本实施例通过对学习人数进行检测，能够识别脱离学习座位及多人学习的状态。

本文一实施例中，如图12所示，学习状态检测方法还包括：

步骤1201，从预先建立的三维人脸特征库中获取各用户身份对应的三维人脸特征点。三维人脸特征库记录有用户身份及三维人脸特征点的关联关系，用户身份例如为用户名称、电话号码、身份证等唯一标识用户身份的信息。

步骤1202，将各用户身份的二维人脸特征点及三维人脸特征点输入至预训练的姿态估计模型中得到各用户身份的头部姿态。其中，头部姿态包括：抬头、低头、扭头等。

步骤1203，根据各用户身份的头部姿态确定各用户是否分心。具体的，当头部姿态不满足预设姿态时，则认为用户出现了分心。本实施例能够结合二维人脸特征点及三维人脸特征点准确地识别出用户的分心状态。本实施例实施时，也会将分心状态上传至云数据库，以便教师端调阅分析结果，进而调整讲课进度。

本文一实施例中，如图13所示，三维人脸特征库中的三维人脸特征点确定过程包括：

步骤1301，获取同一时刻深度摄像头采集的人脸深度图像数据及彩色摄像头采集的人脸彩色图像数据。

本步骤实施时，可选用市面上已有的Intel RealSense D415深度相机采集人脸深度图像数据。

步骤1302，对人脸深度图像数据及人脸彩色图像数据进行对齐融合处理得到RGB-D图像。

步骤1303，利用ERT算法从人脸彩色图像数据中获取二维特征点。

步骤1304，从RGB-D图像中获取所述二维特征点位置处的三维特征点。

当有新用户加入视频学习时，需获取该用户的三维人脸特征点并加入到三维人脸特征库中。

本文一实施例中，如图14所示，步骤1302对人脸深度图像数据及人脸彩色图像数据进行对齐融合处理得到RGB-D图像包括：

步骤1401，获取深度摄像头及彩色摄像头的内外参数矩阵。

其中，内外参数矩阵包括深度摄像头内参矩阵为H_DE、深度摄像头及彩色摄像头的旋转矩阵R和平移矩阵T、彩色摄像头内参矩阵H_RGB。

步骤1402，根据深度摄像头及彩色摄像头的内外参数矩阵，确定彩色摄像头中像素点坐标与深度摄像头中像素点坐标之间的转换函数。

步骤1403，利用所述转换函数，对所述人脸深度图像数据及人脸彩色图像数据进行对齐融合处理得到RGB-D图像。

基于同一发明构思，本文还提供一种学习状态检测装置，如下面的实施例所述。由于学习状态检测装置解决问题的原理与学习状态检测方法相似，因此学习状态检测装置的实施可以参见学习状态检测方法，重复之处不再赘述。

具体的，如图15所示，学习状态检测装置包括：

信息获取单元1501，用于获取终端设备采集的用户视频，所述用户视频中包括多个视频帧。

人脸检测单元1502，用于通过预训练的人脸检测模型实时检测所述视频帧中的人脸区域。

人脸识别单元1503，用于根据第一次检测到的人脸区域以及人脸区域数量发生变化时的人脸区域进行用户身份识别，若用户身份识别成功，则通过追踪视频帧中人脸区域质心坐标的方式追踪同一用户身份的人脸区域。

信息提取单元1504，用于提取各视频帧中各用户身份的人脸区域的二维人脸特征点。

状态识别单元1505，用于根据各视频帧中每一用户身份的人脸区域的二维人脸特征点，识别用户的学习状态。

本实施例能够减少人脸区域的检测次数(仅需在人脸区域发射变化时才检测人脸区域)，提高人脸检测效率，进而提高人脸识别效率及学习状态识别的准确性。

本文一实施例中，还提供一种计算机设备1602，如图16所示，包括存储器1606、处理器1604及存储在存储器上并可在处理器上运行的计算机程序，处理器1604执行计算机程序时实现前述任一实施例所述方法。处理器1604诸如一个或多个中央处理单元(CPU)，每个处理单元可以实现一个或多个硬件线程。存储器1606其用于存储诸如代码、设置、数据等之类的任何种类的信息。非限制性的，比如，存储器1606可以包括以下任一项或多种组合：任何类型的RAM，任何类型的ROM，闪存设备，硬盘，光盘等。更一般地，任何存储器都可以使用任何技术来存储信息。进一步地，任何存储器可以提供信息的易失性或非易失性保留。进一步地，任何存储器可以表示计算机设备1602的固定或可移除部件。在一种情况下，当处理器1604执行被存储在任何存储器或存储器的组合中的相关联的指令时，计算机设备1602可以执行相关联指令的任一操作。计算机设备1602还包括用于与任何存储器交互的一个或多个驱动机构1608，诸如硬盘驱动机构、光盘驱动机构等。

计算机设备1602还可以包括输入/输出模块1610(I/O)，其用于接收各种输入(经由输入设备1612)和用于提供各种输出(经由输出设备1614)。一个具体输出机构可以包括呈现设备1616和相关联的图形用户接口1618(GUI)。在其他实施例中，还可以不包括输入/输出模块1610(I/O)、输入设备1612以及输出设备1614，仅作为网络中的一台计算机设备。计算机设备1602还可以包括一个或多个网络接口1620，其用于经由一个或多个通信链路1622与其他设备交换数据。一个或多个通信总线1624将上文所描述的部件耦合在一起。

通信链路1622可以以任何方式实现，例如，通过局域网、广域网(例如，因特网)、点对点连接等、或其任何组合。通信链路1622可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。

对应于图1-图3、图5、图7-图8、图12-图14中的方法，本文实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法的步骤。

本文实施例还提供一种计算机可读指令，其中当处理器执行所述指令时，其中的程序使得处理器执行如图1-图3、图5、图7-图8、图12-图14所示的方法。

应理解，在本文的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本文实施例的实施过程构成任何限定。

还应理解，在本文实施例中，术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本文的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本文所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本文实施例方案的目的。

另外，在本文各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本文的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本文各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本文中应用了具体实施例对本文的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本文的方法及其核心思想；同时，对于本领域的一般技术人员，依据本文的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本文的限制。

Claims

1.一种学习状态检测方法，其特征在于，包括：

提取各视频帧中各用户身份的人脸区域的二维人脸特征点；

2.如权利要求1所述的方法，其特征在于，还包括：

3.如权利要求1所述的方法，其特征在于，还包括：

从预先建立的三维人脸特征库中获取各用户身份对应的三维人脸特征点；

根据各用户身份的头部姿态确定各用户是否分心。

4.如权利要求3所述的方法，其特征在于，所述三维人脸特征库中的三维人脸特征点确定过程包括：

利用ERT算法从所述人脸彩色图像数据中获取二维特征点；

5.如权利要求4所述的方法，其特征在于，对所述人脸深度图像数据及人脸彩色图像数据进行对齐融合处理得到RGB-D图像包括：

获取深度摄像头及彩色摄像头的内外参数矩阵；

利用所述转换函数，对所述人脸深度图像数据及人脸彩色图像数据进行对齐融合处理得到RGB-D图像。

6.如权利要求1所述的方法，其特征在于，根据第一次检测到的人脸区域以及人脸区域数量发生变化时的人脸区域进行用户身份识别包括：

7.如权利要求1所述的方法，其特征在于，通过追踪视频帧中人脸区域质心坐标的方式追踪同一用户身份的人脸区域包括：

8.如权利要求7所述的方法，其特征在于，根据视频帧中各人脸区域的边缘像素坐标，计算人脸质心坐标包括：

利用如下公式计算人脸质心坐标：

9.如权利要求1所述的方法，其特征在于，所述人脸检测模型训练过程包括：

10.如权利要求1所述的方法，其特征在于，根据各视频帧中每一用户身份的人脸区域的二维人脸特征点，识别用户的学习状态包括：

根据各用户的疲劳指标数据，确定用户是否处于疲劳状态。

11.如权利要求10所述的方法，其特征在于，疲劳指标数据包括眼部PERCLOS值、眨眼频率及哈欠次数，根据各视频帧中每一用户身份的人脸区域的二维人脸特征点，计算各用户的疲劳指标数据包括：

12.一种学习状态检测装置，其特征在于，包括：

13.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至11任意一项所述方法。

14.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被计算机设备的处理器执行时实现权利要求1至11任意一项所述方法。

15.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序被计算机设备的处理器执行时实现权利要求1至11任意一项所述方法。