CN113239794A

CN113239794A - 一种面向在线学习的学习状态自动识别方法

Info

Publication number: CN113239794A
Application number: CN202110514825.5A
Authority: CN
Inventors: 王淑侠; 陈功; 何卫平
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2021-08-10
Anticipated expiration: 2041-05-11
Also published as: CN113239794B

Abstract

本发明公开了一种面向在线学习的学习状态自动识别方法，首先使用网络摄像头收集学习者的表情、身体姿态和眼动等信息，再通过视频图像对学习者进行情感状态、专注状态和注视状态三种状态的识别，然后使用加权平均法对三种状态按照权重求和进行信息融合，计算出学习状态，最后由学习状态得出学习者积极或消极的结果。使用本发明方法学习者只需使用配备网络摄像头的台式电脑、笔记本电脑或各种移动设备进行在线学习，就可以进行实时学习状态监测，不需要配备额外的专业设备，是一种低成本可大范围应用的方案。

Description

一种面向在线学习的学习状态自动识别方法

技术领域

本发明属于模式识别技术领域，具体涉及一种学习状态自动识别方法。

背景技术

随着信息技术逐渐应用于教育领域，新的教育模式和教育方法不断出现，其中在线学习以其优异的灵活性与便利性为人们提供了大量学与教的选择，以中国大学MOOC、慕课网及腾讯课堂等为代表的各种MOOCs学习平台的广泛应用，使得之前受限于时间和空间的优质教育资源能够被全球的学习者共享。

在基于传统教室的教学活动中，老师在讲台上能够根据每个学生的面部表情和姿态动作，及时察觉到学生的学习状态。师生之间面对面的实时互动，是基于传统教室的教学方式的巨大优势。在线学习虽然拥有优异的灵活性与便利性，但是其信息传输在教师与学生之间是单向的，教师在面对远多于传统课堂的学生人数时，无法及时了解学生的课堂学习情况，从而对教学进度和课程内容做出相应调整，目前的网络学习平台大多通过课堂检测与课后习题来获取学生的学习状态，但是这些方式不具有实时性，且需要学生的主动配合。

科学的教学评价和个性化的网络教学需要准确有效的学习状态反馈机制作为辅助。学习者的面部表情、身体姿态以及视线体现出其学习状态：学习者露出困惑的表情，表明其在对困难内容进行思考；学习者专注于学习时，身体会前倾，视线集中于屏幕；学习者空闲时，身体向后倾，视线可能离开屏幕。因此，利用智能设备，获取学习者学习过程中的面部表情、眼睛、身体姿势等信息，实时计算出学习者的情感和专注度等状态，构建能够自动记录学习过程、感知学习情境的智能学习环境，能够让教师或专家根据学习者的状态做出相应的反馈与调整，从而提升学习效果。

目前，在在线学习状态识别领域中，存在识别技术不够全面，以单模态为主，且对于状态大数研究只集中在单个方面的问题。许多研究者使用了昂贵的定制化设备，通用性不强。监测不够人性化，识别时会影响学习过程。

专利“一种基于多模态情感识别的虚拟学习环境自然交互方法：CN201710014881.6[P].2017-07-03”公开了一种多模态的情感识别方法，该方法使用Kinect采集学习者彩色图像和深度图像，使用麦克风采集学习者的语音，然后对表情识别结果、语音情感识别结果和姿势情感识别结果采用求积规则融合算法在决策层进行融合。该方法使用了昂贵和多种类的监测设备，通用性不强，适合大范围应用，而且较大的监测设备会让学习者明显体会到被监控的感觉，影响学习体验。

发明内容

为了克服现有技术的不足，本发明提供了一种面向在线学习的学习状态自动识别方法，首先使用网络摄像头收集学习者的表情、身体姿态和眼动等信息，再通过视频图像对学习者进行情感状态、专注状态和注视状态三种状态的识别，然后使用加权平均法对三种状态按照权重求和进行信息融合，计算出学习状态，最后由学习状态得出学习者积极或消极的结果。使用本发明方法学习者只需使用配备网络摄像头的台式电脑、笔记本电脑或各种移动设备进行在线学习，就可以进行实时学习状态监测，不需要配备额外的专业设备，是一种低成本可大范围应用的方案。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：使用摄像头获取学习者在线学习时的视频，所述摄像头视线与显示屏法线方向平行，并且摄像头位于显示屏上沿中间位置；

步骤2：针对步骤1获得的视频，对学习者进行情感状态、专注状态和注视状态三种状态的识别；

步骤2.1：定义七种学习者情感状态，分别为：生气、厌烦、快乐、沮丧、惊讶、困惑、中性；

对视频进行预处理、特征提取与情感状态识别；

步骤2.1.1：对视频进行预处理：将视频中的每一帧图像灰度化，从图像中搜索人脸，将学习者的正脸图像用矩形框框定并裁切，处理成48×48像素的矩形图像进行归一化与人脸扶正；

步骤2.1.2：进行表情特征提取：

对VGG神经网络进行简化，构建表情特征提取卷积神经网络，网络结构如下：由七个卷积层和三个池化层堆叠而成，分为3块；其中第一块包含两个卷积核为3×3且通道数为64的卷积层，后接一个最大池化层；第二块包含两个卷积核为3×3且通道数为64的卷积层，后接一个最大池化层；第三块包含三个卷积核为3×3且通道数为128的卷积层，后接一个最大池化层；所有卷积层的激活函数都使用relu函数；

将矩形图像输入表情特征提取卷积神经网络，依次经过第一块、第二块和第三块，矩形图像的高和宽依次变为24*24像素、13*13像素、7*7像素；

步骤2.1.3：表情特征提取卷积神经网络后接三层全连接层进行情感判别；全连接层第一层有1024个节点，第二层有512个节点，第三层有6个节点，前两层的激活函数使用relu函数，第三层的激活函数使用softmax函数；输出识别的情感状态；

步骤2.2：定义两种专注状态，分别为专注和松散；

对视频图像进行预处理、特征提取与专注状态识别；

步骤2.2.1：从视频图像中检测出学习者的头部与人眼，获取面部图像；

步骤2.2.2：进行专注度的特征提取，将学习者身体倾斜程度作为专注度的判断依据，学习者身体倾斜程度包含两个指标：面部到摄像头的距离distance、头部倾斜角度angle；

将面部定义为：

face＝x,y,w,h

其中面部位置坐标为(x，y)，面部尺寸为(w，h)；

将视频图像命名为bgr_image，面部图像命名为face_image，则面部图像在视频图像中表示为：

face_image＝bgr_image[y:y+h,x:x+w]；

则面部与摄像头的距离distance表示为：

在face_image图像中进行人眼检测，利用眼睛的相对位置计算学习者头部倾斜角度，具体如下：

定义左眼坐标为(x1,y1)，右眼坐标为(x2,y2)，则学习者头部倾斜角度的斜率slope表示为：

头部倾斜角度angle计算公式为：

angle＝|arctan(slope)|

步骤2.2.3：设定默认的距离参照值R，距离参照值R或者为学习者在线学习处于专注状态时的距离平均值，或者由学习者设定自己处于专注坐姿时的距离值；再设定宽容度T，用于调整监测专注度时的识别灵敏程度；

当距离distance满足条件：

min≤distance≤max

则学习者处于专注状态，其中：

min＝R×(1-T)

max＝R×(1+T)

步骤2.3：定义两种注视状态，分别为注视屏幕和离开屏幕；

对视频图像进行预处理、特征提取与注视状态识别；

步骤2.3.1：使用人脸68个关键点检测法定位内外眼角点，利用每只眼睛的关键点生成一个眼部矩形区域，直接在眼部矩形区域内搜索虹膜；

设定边缘值margin，对于左眼和右眼，将x1,x2,y1,y2表示为：

x1＝min(EYE_X)-margin

x2＝max(EYE_X)+margin

y1＝min(EYE_Y)-margin

y2＝max(EYE_Y)+margin

式中：

EYE_X——眼部所有关键点的横坐标；

EYE_Y——眼部所有关键点的纵坐标；

眼部图像的高度height和宽度width为：

height＝y2-y1

width＝x2-x1

步骤2.3.2：对眼部矩形区域进行双边滤波操作；再进行腐蚀操作，消除眼部矩形区域中不相关的细节；然后进行二值化；

获取二值化图像后，提取眼部轮廓，并计算眼部轮廓面积，眼部轮廓面积表示为所有像素点的个数；

令(Xc,Yc)表示虹膜中心的坐标，计算公式为：

其中，m₀₀和m₁₀为图像空间距，图像空间矩的表示如下：

针对一幅图像，把像素的坐标看成是二维随机变量(x,y)，则一副灰度图能用二维灰度图密度函数进行表示，并用空间矩描述灰度图像的特征；能够通过面积获得图像的空间矩，空间矩的公式为：

步骤2.3.3：设左眼虹膜坐标为(Xl,Yl)，左眼眼部中心坐标为(Xlc,Ylc)；右眼虹膜坐标为(Xr,Yr)，右眼眼部中心坐标为(Xrc,Yrc)；则虹膜的水平偏移比率ratio表示为：

学习者的水平注视方向判定标准为：

步骤3：识别出学习者的情感状态、专注状态及注视状态之后，使用加权平均法对三种状态按照权重求和进行信息融合，计算出学习状态state，其计算如下：

式中：

x_i——第i个状态按规则量化后得出的状态值；

λ_i——xi对应的权重；

x_i的计算如下：

x₁为情感状态值，赋值如下：

x₂为专注状态值，赋值如下和：

x₃为注视状态值，赋值如下：

当学习状态state小于0.5时判定为消极状态，状态值大于等于0.5时判定为积极状态；

步骤4：将识别结果实时显示；

步骤5：学习结束后将整个学习过程中的状态变化情况进行存储。

优选地，所述步骤2.1.1中使用Viola-Jones检测算法的Haar-like人脸检测器从图像中搜索人脸。

优选地，所述宽容度T的值介于0.05到0.3之间。

本发明的有益效果如下：

1、使用本发明方法学习者只需使用配备网络摄像头的台式电脑、笔记本电脑或各种移动设备进行在线学习，就可以进行实时学习状态监测，不需要配备额外的专业设备，是一种低成本可大范围应用的方案。

2、本发明方法同时监测学习者的情感、专注度和注视方向，并对三种状态进行综合全面地分析，能有效且实时识别学习者当前学习状态。

附图说明

图1为表情特征提取卷积神经网络结构示意图。

图2为人脸68个关键点检测法示意图。

图3为本发明方法的学习交互过程示意图。

图4为本发明方法的数据流示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

为了解决现有在线学习状态识别技术存在的问题，本发明以在线学习中的学习者为研究对象，提出了以非侵入的方式，用通用性强的普通网络摄像头收集学习者的表情，身体姿态和眼动等信息，用机器学习等工具分析这些信息并判断学习者当前的情绪、专注度和注视方向，通过信息融合的方式实时综合监测学习者的学习状态的方法。

一种面向在线学习的学习状态自动识别方法，包括如下步骤：

步骤2：针对步骤1获得的视频，对学习者进行情感状态、专注状态和注视状态三个状态的识别；

对视频进行预处理、特征提取与情感状态识别；

步骤2.1.1：对视频进行预处理：将视频中的每一帧图像灰度化以降低计算复杂度，使用Viola-Jones检测算法的Haar-like人脸检测器从图像中搜索人脸，被检测到的最合理的学习者的正脸图像用矩形框框定并裁切，处理成48×48像素的矩形图像进行归一化与人脸扶正；

步骤2.1.2：进行表情特征提取：

relu函数为：

f(x)＝max(0,x)

步骤2.2：定义两种专注状态，分别为专注和松散；

对视频图像进行预处理、特征提取与专注状态识别；

步骤2.2.1：使用Viola-Jones检测算法的正脸分类器及眼睛分类器从视频图像中检测出学习者的头部与人眼，获取面部图像；

将面部定义为：

face＝x,y,w,h

其中面部位置坐标为(x，y)，面部尺寸为(w，h)；

face_image＝bgr_image[y:y+h,x:x+w]；

则面部与摄像头的距离distance表示为：

为了提高检测速度，直接在face_image图像中进行人眼检测，利用眼睛的相对位置计算学习者头部倾斜角度，具体如下：

人眼检测器可以同时检测出左眼和右眼，定义左眼坐标为(x1,y1)，右眼坐标为(x2,y2)，则学习者头部倾斜角度的斜率slope表示为：

头部倾斜角度angle计算公式为：

angle＝|arctan(slope)|

步骤2.2.3：设定默认的距离参照值R，距离参照值R或者为学习者在线学习处于专注状态时的距离平均值，或者由学习者设定自己处于专注坐姿时的距离值；再设定宽容度T，宽容度T的值介于0.05到0.3之间，用于调整监测专注度时的识别灵敏程度；

当距离distance满足条件：

min≤distance≤max

则学习者处于专注状态，其中：

min＝R×(1-T)

max＝R×(1+T)

步骤2.3：定义两种注视状态，分别为注视屏幕和离开屏幕；

对视频图像进行预处理、特征提取与注视状态识别；

为了快速定位虹膜中心,先裁剪出眼部图像；为提高鲁棒性，设定边缘值margin，对于左眼和右眼，将x1,x2,y1,y2表示为：

x1＝min(EYE_X)-margin

x2＝max(EYE_X)+margin

y1＝min(EYE_Y)-margin

y2＝max(EYE_Y)+margin

式中：

EYE_X——眼部所有关键点的横坐标；

EYE_Y——眼部所有关键点的纵坐标；

眼部图像的高度height和宽度width为：

height＝y2-y1

width＝x2-x1

步骤2.3.2：进行快速虹膜定位，虹膜在眼睛图像中是一个占据区域比例较大的连续的深色圆形区域；对眼部矩形区域进行双边滤波操作；再进行腐蚀操作，消除眼部矩形区域中不相关的细节；然后进行二值化；

令(Xc,Yc)表示虹膜中心的坐标，计算公式为：

学习者的水平注视方向判定标准为：

式中：

x_i——第i个状态按规则量化后得出的状态值；

λ_i——xi对应的权重；

学习者或老师可以自己设置权重选择监测哪些状态，同时检测三种状态时，也可以直接使用默认的权重。

x_i的计算如下：

x₁为情感状态值，赋值如下：

x₂为专注状态值，赋值如下和：

x₃为注视状态值，赋值如下：

步骤4：将识别结果实时显示；

具体实施例：

1、学习者开始学习前选择默认权重的参数，该参数由志愿者的学习数据计算得出，取情感状态对应的权重为0.3，专注状态对应的权重为0.3，注视状态对应的权重为0.4。

2、进行情感识别。使用cv2包中的VideoCapture函数捕获指定摄像头的实时视频流，如果捕获成功，使用cvtColor函数对每一帧图像灰度化以降低计算复杂度，将该视频流命名为capture。

使用Viola-Jones检测算法的Haar-like人脸检测器从capture中提取每一帧图像搜索人脸，该分类器的最有效检测范围是摄像头朝向与学习者面部朝向所在直线的45度夹角内。该分类器的使用方式为直接加载名称为haarcascade_frontalface_alt2.xml的文件。被检测到的最合理的正脸图像会被矩形框选出来并裁切，然后被处理成48×48像素的矩形图像进行归一化与人脸扶正

将处理后的图像输入到我们设计的卷积神经网络中，输出为生气、厌烦、快乐、沮丧、惊讶、困惑、中性七种状态中的一种，且定义生气、厌烦、沮丧属于消极状态，快乐、惊讶、困惑积极状态，中性状态则介于两者之间。假设输出为困惑状态。

3、进行专注识别。使用cv2包中的VideoCapture函数调用指定摄像头获取实时学习场景视频流，开启摄像头的同时开始计时，使每一个视频帧都有对应的时间戳。

继续使用Viola-Jones检测算法其正脸分类器及眼睛分类器进行人脸识别。由公式计算得到distance的值为231.4，头部倾斜角度值为14.7°。设定一个默认的距离参照值(distance_reference)R＝163.517，设定一个宽容度(thoracolumbar_tolerance)T＝0.12，则min＝143.894，max＝183.139。由于此时：

distance>max

则认为学习者此时的姿态推断其处于松散状态。

4、进行注视状态识别。加载名为shape_predictor_68_face_landmarks.dat的模型文件来使用人脸关键点检测器，可将左眼与右眼用数组表示为：

LEFTEYE＝[37,38,39,40,41,42]

RIGHTEYE＝[43,44,45,46,47,48]

式中：

LEFTEYE——左眼关键点坐标数组

RIGHTEYE——右眼关键点坐标数组

设定5个像素的边缘值(margin＝5)，计算得到ratio＝0.45,由于此时：

0.35<ratio<0.65"

则判定学习者正注视屏幕。

步骤5：进行学习状态综合分析，根据步骤3中x_i的计算方法，对情感状态值、专注状态值、注视状态值分别赋值，x1＝1，x2＝0，x3＝1，计算得出state＝0.7。根据经验和实验研究对数据进行分析，将最终状态值按范围划分为两类，状态值小于0.5时为消极状态，状态值大于0.5时为积极状态。由于此时：

state>0.5

则最终判定学习者处于积极的学习状态。

6、将识别结果实时显示。

7、学习结束后将整个学习过程中的状态变化情况进行存储。