CN113326729B

CN113326729B - 多模态的课堂专注度检测方法和装置

Info

Publication number: CN113326729B
Application number: CN202110416259.4A
Authority: CN
Inventors: 孙晓; 段凯杰
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2022-09-09
Anticipated expiration: 2041-04-16
Also published as: CN113326729A

Abstract

本发明提供了一种多模态的课堂专注度检测方法和装置，涉及智慧课堂技术领域。本发明区别于传统的单模态情绪检测，采用的多模态情绪检测更能充分的记录被测者的情绪特征，达到较高的精确度。且通过构建情绪模型进而由情绪特征识别专注度变化，有助于在很多应用场景下辅助其它检测手段对专注度进行更为精确的测量。

Description

多模态的课堂专注度检测方法和装置

技术领域

本发明涉及智慧课堂技术领域，具体涉及一种多模态的课堂专注度检测方法和装置。

背景技术

影响学习效果的因素一直是教育研究人员关注的话题，而课堂专注度是影响学习效果的重要因素。

课堂专注度检测目前主要通过两种技术，一种是基于面部表情、另一种是基于生理特征。

基于面部表情的方法需要近距离识别面部清晰表情，且容易受到外物的干扰，如口罩等；而基于生理特征的方法主要通过复杂的可穿戴设备测量脑电、心电、皮肤电、血压及呼吸变化来识别学习者学习过程中的情感状态，在实际应用中会比较困难，且接触式的传感器在很多场景下并不适用。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种多模态的课堂专注度检测方法和装置，解决了现有专注度检测通过单模态信息来检测专注度的准确度较差的问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

第一方面，一种多模态的课堂专注度检测方法，该方法包括：

获取被测者对刺激源进行反应时的正脸影像；

基于正脸影像获取面部表情特征、头部姿态特征和眼球注视角度特征；

将面部表情特征、头部姿态特征和眼球注视角度特征输入训练好的情绪预测模型，得到情绪预测结果；

将情绪预测结果输入训练好的专注度预测模型，得到专注度预测结果。

进一步的，所述获取被测者对刺激源进行反应时的正脸影像，包括：

以教学视频为刺激源，通过摄像机获取被测者观看教学视频时的正脸影像。

进一步的，所述面部表情特征包括正脸影像中每一帧中的人脸特征点；

所述头部姿态特征包括正脸影像中每一帧中的头部位置参数与方向角参数；

所述眼球注视角度特征包括正脸影像中每一帧中的视线方向。

进一步的，所述基于正脸影像获取面部表情特征、头部姿态特征和眼球注视角度特征还包括：

正脸影像的数据预处理；

和

面部表情特征、头部姿态特征和眼球注视角度特征的数据归一化。

进一步的，所述将面部表情特征、头部姿态特征和眼球注视角度特征输入训练好的情绪预测模型，得到情绪预测结果，包括：

通过每个模态对应的私有双向LSTM获得每一个单模态的内部信息；

通过每两个模态对应的共享双向LSTM获得每一对双模态之间的动态交互信息；

通过三模态对应的共享双向LSTM获得三模态之间的动态交互信息；

将单模态的内部信息、双模态之间的动态交互信息、三模态之间的动态交互信息进行融合，并通过神经网络层输出情绪预测结果。

进一步的，在将面部表情特征、头部姿态特征和眼球注视角度特征输入训练好的情绪预测模型，得到情绪预测结果之前，还包括：

获取其他被测者对相同刺激源进行反应时的面部表情特征、头部姿态特征、眼球注视角度特征、情绪变化信息和专注度变化信息；

将其他被测者的情绪变化信息作为标签、将其他被测者的面部表情特征、头部姿态特征、眼球注视角度特征作为情绪预测模型的输入进行训练，得到训练好的情绪预测模型；

在将情绪预测结果输入训练好的专注度预测模型，得到专注度预测结果之前，还包括：

将其他被测者的专注度变化信息作为标签、将其他被测者的情绪预测结果作为专注度预测模型的输入进行训练，得到训练好的专注度预测模型。

进一步的，所述面部表情特征、头部姿态特征和眼球注视角度特征的数据归一化采用Z-Score标准化方法，得到均值为0，标准差为1的标准正态分布的新数据。

第二方面，提供了一种多模态的课堂专注度检测装置，所述装置包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

(三)有益效果

本发明提供了一种多模态的课堂专注度检测方法和装置。与现有技术相比，具备以下有益效果：

本发明区别于传统的单模态情绪检测，采用的多模态情绪检测更能充分的记录被测者的情绪特征，达到较高的精确度。本发明通过构建情绪模型进而由情绪特征识别专注度变化，有助于在很多应用场景下辅助其它检测手段对专注度进行更为精确的测量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的流程图；

图2为本发明实施例的边缘梯度的八个标准方向的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种多模态的课堂专注度检测方法和装置，解决了现有专注度检测通过单模态信息来检测专注度的准确度较差问题。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

通过收集被测者的面部表情特征、头部姿态特征和眼球注视角度特征，充分考虑三种模态之间的联系，通过LSTM获取单个模态内部的特征信息以及不同模态之间的组合信息，最后通过训练好的网络模型进行情绪状态的预测输出，在情绪预测的基础上寻找情绪与专注度之间的映射关系，利用神经网络模型输出最终的专注度预测结果。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

实施例1：

本发明主要面向的使用场景是校园以及课堂教学。如图1所示，本发明提供了一种多模态的课堂专注度检测方法，该方法包括：

获取被测者对刺激源进行反应时的正脸影像；

本实施例的有益效果为：

1)区别于传统的单模态情绪检测，本实施例中采用的多模态情绪检测更能充分的记录被测者的情绪特征，达到较高的精确度。

2)本实施例通过构建情绪模型进而由情绪特征识别专注度变化，有助于在很多应用场景下辅助其它检测手段对专注度进行更为精确的测量。

下面对本发明实施例的实现过程进行详细说明：

S1、获取被测者对刺激源进行反应时的正脸影像，具体包括：

使用正常教学视频作为刺激源，被测者坐于电脑显示器前观看多段容易激发不同情感的教学视频，同时，在被测者正面放置一台摄像机记录被测者观看教学视频时的正脸影像。

为了确保观看视频可以充分激发被测者的情绪，预先对被测者进行调查统计，根据其各自的爱好分配不同类型的课程，同时在课程录制过程中也可以有意选择视频风格，如比较令人讨厌的教学视频，容易引起人体共鸣的教学视频，用来保证被测者可以充分表现出不同的情绪状态。

为了训练情绪和专注度预测模型，在被测者观看完相应的视频后，请求被测者填写观看视频时的情绪变化，将情绪分为高兴、惊奇、厌恶、悲伤、愤怒和恐惧，以及在观看视频的过程中，请求被测者填写专注度测试题，如是否心不在焉等来检测被测者的专注度变化。

S2、基于正脸影像获取面部表情特征、头部姿态特征和眼球注视角度特征；

具体包括对正脸影像进行预处理：

S201、对于眼球注视角度特征：

对于每一帧的图像建立坐标系，求出圆心的坐标A，正视时的虹膜中心坐标B，以及目前测得的虹膜中心坐标C。

其中，圆心是指在瞳孔范围内找到一个圆，利用基于灰度投影的方法求得眼睛的大体区域后，利用Hough变换来检测圆形，在检测圆心时，采用边缘梯度方向信息，对于边缘梯度提供的八个标准方向，如2图所示，只需要检查0～4五个方向，从而确定上眼睑圆周及圆心，然后在确定的上眼睑圆周上采用锁定区域的匹配搜索即可找到内外角点。上眼睑是由内外角点所确定的一段圆弧，由这段圆弧即可以得到圆心角。在找到上眼睑圆周和内外角点之后，可以粗略地估计出虹膜的边缘信息，根据这些边缘信息以及虹膜的边缘像素梯度背离圆心的知识，计算机可以很容易地计算出虹膜的相对中心坐标。

根据数据收集到的A，B，C三点，以A为坐标原点，圆心与B连线为y轴正向，与y轴垂直的线为x轴，右手方向为x轴正向据此可以得到向量，D＝A-C，E＝A-B。然后用E#D(叉乘)，如果算出的结果是负的，表明正在往左看，反之表明正在往右看。

在具体实施时，假设E#D在一定的误差范围内都认为是在往前看。

人的眼睛视线可以粗略地分为三个视角(俯视，平视和仰视)，三个方向(往左看，往右看，往中间看)三个视角分别对应三个方向，因此一共有九种视线方向。

S202、对于头部姿态特征：

以人脑中心为原点建立坐标系，人脑左右为x轴，上下为y轴，前后为z轴，对于每一帧图像，在坐标系中标注出其三维坐标；

对于头部姿态由三维坐标经模型处理得到头部位置参数与方向角参数，即俯仰角，偏航角和滚转角，即分别对应抬头，摇头和转头；

一般而言，一个正常的成年人的头部四周运动的范围为：左右偏角：-40.9度到63.3度，垂直偏角-60.4度到69.6度，水平偏角-79.8度到75.3度，对于误差较大的数据进行相应的舍弃。

S203、对于面部表情特征：

首先进行预处理，包括表情灰度归一化与图像几何归一化，前者对图像进行光照补偿，减轻光照对识别的影响，后者检测人脸特征点，根据其将数据集里的人脸归一化到同一位置(在图片里)及同一大小。

对于预处理过后的面部表情数据，依靠计算机技术对人脸表情的数字图像进行数据的组织和处理，提取表情特征，即人脸特征点或面部活动单元(AU)，去除非表情噪声，采用CNN卷积神经网络完成特征提取工作，得到面部表情特征。

S3、将面部表情特征、头部姿态特征和眼球注视角度特征输入训练好的情绪预测模型，得到情绪预测结果；具体包括：

S301、在相同的情绪状态下，不同的人可能有着不一样的外在表现，对应到面部表情，头部姿态以及眼球注视角度上可能就会因此产生很大的差异，例如喜极而泣等等，因此为了研究情绪状态与面部表情，头部姿态以及眼球注视角度的关系，就必须消除个体间的差异。

因此在输入情绪预测模型前，需要对数据进行归一化；这里采用了Z-Score标准化的方法，如当前坐标是x，将x减去均值再除以标准差，最终将原数据转换为符合均值为0，标准差为1的标准正态分布的新数据。

如果数据维度过大，使用主成分分析(PCA)对从视频帧中得到的数据降维。

多个模态的时间序列必须对齐后才可以获得最佳性能，3种模态信息都含有对应的时间戳，使用P2FA方法将三个模态的特征进行时间序列化的对齐。

S302、分别为每个模态如面部表情，头部姿态，眼球注视角度构建私有的双向LSTM，从而获得单模态的内部信息；

之后分别为两两组合(面部表情-头部姿态，面部表情-眼球注视角度，头部姿态-眼球注视角度)的双模态信息构建共享的双向LSTM层，以学习双模态之间的动态交互信息；

之后将三种模态组合的信息构建一个共享的双向LSTM，从而捕获三种模态之间的动态交互信息；

最后将得到的单模态内部信息，双模态两两信息以及三模态组合信息进行融合，通过神经网络层输出情绪预测结果。

关于情绪预测模型的训练：

在将面部表情特征、头部姿态特征和眼球注视角度特征输入训练好的情绪预测模型，得到情绪预测结果之前，还包括：

先训练一部分数据得到情绪预测模型，即将其他被测者的情绪变化信息作为标签、将其他被测者的面部表情特征、头部姿态特征、眼球注视角度特征作为情绪预测模型的输入进行训练，得到训练好的情绪预测模型；

最终，可通过情绪预测模型先预测出情绪结果，具体包含七种情绪，高兴、惊讶、厌烦、困惑、疲劳、专注及自信。

S4、将情绪预测结果输入训练好的专注度预测模型，得到专注度预测结果。

关于专注度预测模型：

专注度模型训练，需要先输入一部分数据来训练模型，专注度模型训练过程中，通过之前的情感训练模型，被测者的每一个视频可以得到七个输出值分别对应七种情绪各自的概率，每一个被测者各自观看9段视频，得到7*9维大小的一个输入向量，使用自评得到的专注度变化信息做为标签，将其他被测者的情绪预测结果作为专注度预测模型的输入进行训练，将其输入到bp神经网络训练，得到训练好的专注度预测模型。

实施例2

本发明还提供了一种多模态的课堂专注度检测装置，所述装置包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

可理解的是，本发明实施例提供的多模态的课堂专注度检测装置与上述多模态的课堂专注度检测方法相对应，其有关内容的解释、举例、有益效果等部分可以参考多模态的课堂专注度检测方法中的相应内容，此处不再赘述。

综上所述，与现有技术相比，本发明具备以下有益效果：

需要说明的是，通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多模态的课堂专注度检测方法，其特征在于，该方法包括：

获取被测者对刺激源进行反应时的正脸影像；

将情绪预测结果输入训练好的专注度预测模型，得到专注度预测结果；

所述将面部表情特征、头部姿态特征和眼球注视角度特征输入训练好的情绪预测模型，得到情绪预测结果，包括：

2.如权利要求1所述的一种多模态的课堂专注度检测方法，其特征在于，所述获取被测者对刺激源进行反应时的正脸影像，包括：

3.如权利要求1所述的一种多模态的课堂专注度检测方法，其特征在于，所述面部表情特征包括正脸影像中每一帧中的人脸特征点；

4.如权利要求3所述的一种多模态的课堂专注度检测方法，其特征在于，所述基于正脸影像获取面部表情特征、头部姿态特征和眼球注视角度特征还包括：

正脸影像的数据预处理；

和

5.如权利要求1所述的一种多模态的课堂专注度检测方法，其特征在于，在将面部表情特征、头部姿态特征和眼球注视角度特征输入训练好的情绪预测模型，得到情绪预测结果之前，还包括：

6.如权利要求4所述的一种多模态的课堂专注度检测方法，其特征在于，所述面部表情特征、头部姿态特征和眼球注视角度特征的数据归一化采用Z-Score标准化方法，得到均值为0，标准差为1的标准正态分布的新数据。

7.一种多模态的课堂专注度检测装置，所述装置包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1-6任一所述方法的步骤。