CN114022918A

CN114022918A - 基于多姿态的学习者兴奋状态标签算法

Info

Publication number: CN114022918A
Application number: CN202110848380.4A
Authority: CN
Inventors: 袁玉波; 孙琳
Original assignee: East China University of Science and Technology
Current assignee: East China University of Science and Technology
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2022-02-08

Abstract

本文提出了一种基于多姿态的学习者兴奋状态标签算法。通过研究学习者的注意力以及行为分析等方式，从头部姿态，视线方向，眼睛闭合度以及书写姿势来评估学习者的课中兴奋状态。基于头部姿态的考量，我们分别利用罗德里格斯旋转公式，四元数以及PFLD关键点建立的几何模型计算欧拉角。考虑到学习者典型的不兴奋状态，瞌睡，左顾右盼等情况，加入了closeness,peryaw等特征维度，并利用手臂关键点提取学习者的手部姿态信息。本文手工提取了八种特征维度作为学习者兴奋状态下的指标，基于这些特征数据，对它进行进一步的特征分析。最后通过模型预测，不断进行参数调整，采用XGBoost模型，使得各个评估指标达到最佳。该方法能够有效的反映学生的学习状态，帮助教师及时掌握学生的课堂情况，实现智能化课堂教学。

Description

基于多姿态的学习者兴奋状态标签算法

技术领域

本发明主要涉及图像处理技术，具体涉及一种基于多姿态的学习者兴奋状态标签算法。

背景技术

在传统的教学中，老师虽然能与学生进行互动，但是由于教学是以班级为单位进行的，人数众多，老师不可能随时观察哪个学生上课注意力不集中，甚至出现打瞌睡的现象。现在，我们已经进入了信息时代，网上有许多学习平台，MOOC，网易，微课等等，这使得在线学习的人数越来越多。但是在一个虚拟的环境中，由于时间和空间上的问题，所以教师无法与学生之间进行一个好的交互，如果能够利用摄像头记录下学习者的相关信息，便能了解学习者在课中的状态。这样，无论是在虚拟环境还是传统的教学环境下，教师与学生之间都能够实现一个很好的交互，可以及时的了解学习者在课中的相应状态。

通过对学习者的行为分析可以反映出学习者在课中的兴奋状态。学习者在课堂上的兴奋度可以理解为学生在课堂上的参与程度，若学生在课堂中处于兴奋状态，则表现为上课注意力集中，专心，不会出现瞌睡，交头接耳，左顾右盼等现象。反之，则学习者处于不兴奋状态。因此，基于对学习者的行为分析，本章将通过PFLD关键点估计学习者的头部姿态信息；在分割眼睛的基础之上进行眼睛闭合度计算，定位瞳孔的位置进行质点估计，从而判断学习者的凝视方向；同时利用人体姿态关键点识别书写姿态。另外，为了提高算法的准确率，应用了集成学习等模型进行预测，评估学习者是否在课堂中处于兴奋状态。

发明内容

本发明提出了一种基于多姿态的兴奋者状态标签算法。利用头部姿态，眼部区域以及书写姿态等方式自动标注学习者的兴奋状态。在发明中，整个实现过程都是由该系统完成，只要输入一段视频，便可通过算法进行相关分析，实时的标注学习者的兴奋状态。

本发明的技术方案如下：

步骤1，对输入的视频帧图像，利用Retinaface提取面部框架，然后使用PFLD进行人脸关键点的识别，得到98个人脸关键点。

步骤2，利用步骤一提取出来的98个人脸关键点，构建一个数学模型，这个数学模型是通过数百张人脸的不同头部姿态关键点进行训练。

步骤3，对步骤2中拟合的数学模型进行计算，获得欧拉角yaw,pitch,roll，对欧拉角进行相应的处理。

步骤4，利用视线追踪方法对输入的视频帧进行处理。

利用双边滤波，腐蚀，阈值等图像处理方法将视频帧中瞳孔的图像分割处理。

步骤5，通过分割出来的瞳孔图像，从而定位瞳孔的位置，利用图像的矩，计算瞳孔的质心位置和眼睛轮廓的宽度。

步骤6，通过步骤5获取的质心横坐标的位置与眼睛轮廓的宽度计算出眼睛视线跟踪指标。

步骤7，根据眼睛视线追踪指标得出眼睛视线追踪方向的相对位置，并将相对位置进行相应的处理。

步骤8，利用OpenPose实现对人体姿态的估计，获得人体姿态的关键点，从人体姿态中取2-7个关键点。

根据步骤8所得到的的关键点，提取手臂倾斜角度的特征作为评估标准判断相应的书写姿态，对手臂倾斜角度做相应的处理。

步骤9，依据之前所获得的yaw,构建具有时序特征的peryaw,以此判定学习者头部是否出现偏移情况。

步骤10，将之前所得到的头部姿态信息，视线方向信息以及书写姿态等进行方差分析，梯度特征消除等方法，消除属性之间的共线性。

步骤11，经过步骤10的数据处理方法之后，将所得到的多特征维度输入到XGBoost模型，经过参数调整和模型融合得到最终的兴奋度状态标签。

附图说明

读者在参照附图阅读了本发明的具体实施方式以后，将会更清楚地了解本发明的各个方面。其中，

图1为本发明基于多姿态的学习者兴奋状态标签算法的流程图；

图2是基于多姿态兴奋状态识别算法的具体实施过程图；

图3为不同角度下人脸关键点识别的示意图；

图4是本文头部姿态算法与其他算法的对比；

具体实施方式

步骤2，利用步骤1提取出来的98个人脸关键点，构建一个数学模型，这个数学模型是通过数百张人脸的不同头部姿态关键点进行训练。

步骤3，对步骤2中拟合的数学模型进行计算，获得欧拉角yaw，pitch，roll，对欧拉角进行相应的处理。

针对输入的视频帧图像，提取出98个人脸关键点，如下面公式(1)所示。

F_i＝{P₁，P₂，...，P_N}；P_i＝(P_x，P_y)，N＝98，i＝1，2，...，N(1)

在公式(2)，(3)，(4)中，我们得到了俯航角pitch，偏航角yaw，滚动角roll，用于表示头部姿态等信息。

pitch＝pitch_k×1.497+18.97 (2)

yaw＝yaw_k×71.58+0.7037 (3)

步骤4，根据视线追踪方法对输入的视频帧进行处理。利用双边滤波，腐蚀，阈值处理等图像处理技术分割出瞳孔的位置。

公式(5)中，(Pxc，Pyc)表示瞳孔的质心位置，m_ij表示图像的(i+j)阶矩。

步骤6通过质心横坐标位置与眼睛轮廓的宽度计算出眼睛追踪指标。如公式(6)所示。

步骤7，根据眼睛视线追踪指标得出眼睛视线追踪方向的相对位置，并将相对位置进行相应的处理。具体处理方式如公式(7)所示。

公式(7)中的α，β分别是向左看，向右看的阈值，其中α＝0.65，β＝0.35。根据瞳孔的相对位置来判断学习者是向左看，向右看还是朝中间看。

步骤8，利用OpenPose实现对人体姿态的估计，获得人体姿态的关键点，从人体姿态中取2-7个关键点，利用步骤8所得到的的关键点，提取手臂倾斜角度的特征作为评估标准判断相应的书写姿态，具体方式如公式(8)所示。

公式(8)中α则作为手臂倾斜角度，作为书写姿势的评估标准。L_ij则是i，j关键点之间的距离长度。

步骤9，依据之前所获得的yaw，构建具有时序特征的peryaw，以此判定学习者头部是否出现偏移情况。

公式(9)yaw_t为标准状态帧下偏航角的指标，N₀＝30，取前30帧的平均值作为衡量头部偏移状态的标准。

公式(10)中的∈作为学习者处于左顾右盼与正常状态下偏航角的偏移量，若在t时刻内，对应的学习者所得到的的值yaw，处于[yaw_t-ε，yaw_t+ε]之间，则认为学习者处于正常状态下，若是超过这个范围，则认为学习者在t时刻处于偏头状态，经反复试验，∈取40得到的效果最好。

将前150帧的Peryaw值标记为0，公式(11)取N＝150，作为平衡偏头状态信息的时间序列。

Claims

1.一种基于PFLD的脸部关键点的头部姿态信息提取算法，其特征在于：对头部姿态信息进行提取时，进行以下步骤，

首先，对输入的视频帧图像，利用Retinaface提取面部框架，然后使用PFLD进行人脸关键点的识别，得到98个人脸关键点；

然后，利用提取出来的98个人脸关键点，构建一个数学模型，这个数学模型是通过数百张人脸的不同头部姿态关键点进行训练。

最后，通过拟合出来的数学模型进行计算，获得欧拉角yaw，pitch，roll，对欧拉角进行相应的处理。

pitch＝pitch_k×1.497+18.97 (1)

yaw＝yaw_k×71.58+0.7037 (2)

2.基于视线跟踪法提取学习者的眼部特征，其特征在于：利用双边滤波，腐蚀，阈值处理等图像处理技术分割出瞳孔的位置，再通过质心横坐标位置与眼睛轮廓的宽度计算出眼睛追踪指标。

其中α，β分别是向左看，向右看的阈值，其中α＝0.65，β＝0.35。根据瞳孔的相对位置来判断学习者是向左看，向右看还是朝中间看。

3.基于手臂关键点提取手部姿态信息，其特征在于：利用OpenPose实现对人体姿态的估计，获得人体姿态的关键点，从人体姿态中取2-7个关键点，利用所得到的手部姿态的关键点，提取手臂倾斜角度的特征作为评估标准判断相应的书写姿态。

其中α则作为手臂倾斜角度，作为书写姿势的评估标准。L_ij则是i，j关键点之间的距离长度。

4.基于时序性构建特征维度PerYaw，其特征在于：利用peryaw，以此判断学习者在一定时间是否出现头部偏移的现象。

其中yaw_t为标准状态帧下偏航角的指标，N₀＝30，取前30帧的平均值作为衡量头部偏移状态的标准。∈取40得到的效果最好。一定时长取150帧，即N＝150，作为平衡偏头状态信息的时间序列。