CN110619267B

CN110619267B - 一种基于深度学习的学生表情识别的方法及系统

Info

Publication number: CN110619267B
Application number: CN201910712839.0A
Authority: CN
Inventors: 刘秋云; 杨运华; 刘颖; 侯小鹏; 李丹露
Original assignee: Henan Institute of Science and Technology
Current assignee: Henan Institute of Science and Technology
Priority date: 2019-08-02
Filing date: 2019-08-02
Publication date: 2022-12-16
Anticipated expiration: 2039-08-02
Also published as: CN110619267A

Abstract

本发明涉及一种基于深度学习的学生表情识别的方法及系统，通过获取视频序列中的第一学生的人脸信息视频帧；对所述的第一学生的人脸信息进行特征提取，并构建表情识别模型；基于所述特征对人脸信息进行第一识别；当所述第一识别结果超过预设的阈值时则发出提示信息。

Description

一种基于深度学习的学生表情识别的方法及系统

技术领域

本发明属于图像处理领域，更具体地说，是涉及一种课堂监控方法和系统。

背景技术

在教学课堂中，当前老师上课时，有可能观察不到有的同学思想在开小差，没有认真听课，可能导致学生可能错过一些重要知识点。随着图像识别技术的飞速发展，目前也有技术在尝试利用表情识别技术来实时获取课堂中学生的表情，利用摄像头采集图像对摄像头里面的采集图像进行分析，如果有多个人脸，就对每个人脸的面部表情和动作都进行分析，判断出学生当前是否处于开小差的状态。然而，由于课堂持续时间较长，学生人数又较多，持续的数据采集和识别会造成数据量过大，导致整体效率不高。

专利文献CN109035089A公开了一种在线课堂氛围评估系统及方法，评估系统包括视频流采集模块，数据流处理模块，图像分析模块，课堂出勤分析模块，课堂氛围评估模块，课堂氛围评分模块，展示模块；本发明通过摄像头采集教室视频流数据，对采集的视频进行截取一帧一帧的图像，分割所有人脸图像，并按顺序编号，同时把特征值赋给相应编号的人脸，然后再按编号进行人脸识别和面部表情识别，以识别视频流数据中学生的人数、情绪和动作姿态，图像中学生低头则评分为0分，学生有互动行为加1分，再根据学生听课时的情绪分析策略得出当前学生听课状态评分，最终综合评估出课堂氛围评分。本发明能够在线实时评估课堂质量，能够有效提高评估效果。

但是，在教学课堂中，当前老师上课时，有可能观察不到有的同学思想在开小差，没有认真听课，可能导致学生可能错过一些重要知识点。随着图像识别技术的飞速发展，目前也有技术在尝试利用表情识别技术来实时获取课堂中学生的表情，利用摄像头采集图像对摄像头里面的采集图像进行分析，如果有多个人脸，就对每个人脸的面部表情和动作都进行分析，判断出学生当前是否处于开小差的状态。然而，由于课堂持续时间较长，学生人数又较多，持续的数据采集和识别会造成数据量过大，导致整体效率不高。

发明内容

本发明的目的是利用深度学习构建课堂上的学生表情识别模型，提高表情的识别效率。

本发明的目的可以通过以下技术方案来实现：

S1、获取视频序列中的第一学生的人脸信息视频帧；

在所述步骤S1中，采集图像范围需要包含每一个学生座位范围内包括学生头部到桌面所有区域；

对获取到的视频序列中的图像进行预处理，在确定第一学生的人脸位置后确定第一学生的人脸表情区域。

S2、对所述的第一学生的人脸信息视频帧进行特征提取；

在所述步骤S2中：

对训练集中的图像进行特征点标记，通过点分布提取主分量，并将提取到的平均形状作为形状模型；

为使建立的形状模型能适应人脸的各种形变，训练集中应含有学生的人脸姿态、表情，以及不同光照条件的图像，然后提取特征点局部纹理作为正确样本，偏离特征点一定距离的区域纹理作为错误样本，利用支持向量机对所述正确样本和错误样本进行训练，提取出局部纹理模型；

通过所述形状模型和所述局部纹理模型的双重约束构建表情识别模型，并根据所述表情识别模型获取所述第一学生的人脸特征点。

S3、构建表情识别模型，并基于所述特征对人脸信息视频帧进行识别并计算表情特征值；

在所述步骤S3中：

通过由所述形状训练模型和所述局部纹理模型的双抽约束构建的表情识别模型对采集到的人脸特征进行识别。

对所述获取到的视频序列中的图像进行提取，提取的n个样本向量x₁，x₂，...，x_n，并将该所述向量投影至l维空间，则在l维空间中，采集的第一学生的原始数据集中的样本x_i在所述l维空间中的投影向量x′_i表示为

其中k表示为第一学生人脸特征的前k个特征向量，α表示对第一学生人脸特征进行重建样本的精度，m表示采集的第一学生人脸特征的原始数据集中的样本均值，即

将n维空间里第一学生人脸特征的某个向量x₀表示N个样本，得到E(x₀)，其中E(x₀)表示x₀到N个数据的距离平方和，即

将x₀代入采集的第一学生的原始数据集中的样本x_i在所述l维空间中的投影向量公式中得到

进一步地，通过式

获取第一学生人脸信息视频帧图像的特征点分布并获取其平均形状并建立形状训练模型；

具体地，所述局部纹理模型是在采集到的人脸标定的特征点的基础上，该模型的作用是在迭代过程中特征点能更准确的确定新的位置，对于采集的第一学生的人脸视频帧的第m个样本图像的第j个特征点，在沿该点前后两特征点(j-1点和j+1点)连线的法线方向，第j个特征点的两侧各取k个像素，构成长度为2k+1的向量，对向量包含的像素灰度值求导可得一个局部纹理g_jm；采用同样的方法可得第j个特征点的n个局部纹理g_j1，g_j2，…，g_jn，通过公式

计算局部纹理的平均值

通过公式

计算局部纹理的方差S_j；

采用马氏距离来度量候选特征点与局部纹理模型特征的相似性，即相似性为

表情识别模型是由形状训练模型和局部纹理模型两部分组成，人脸形状模型主要用于控制不合理的面部形变，同时确定输出的拓扑形状；局部纹理模型主要用于实现对每个特征点的搜索定位；

在表情识别过程中，人脸形状模型和局部纹理模型交替作用，使得模型的输出形状逐步收敛；

在表情识别模型中通过训练读取采集的第一学生的视频帧的特征值，其中，采集的第一学生的视频帧中的人眼特征不仅包含了角度和面部肌肉的相对位置，还包括不同位置皮肤的皱纹情况，因此表情识别模型中识别人眼及附近面部肌肉和不同位置皮肤皱纹情况的特征值；

当第一学生的面部表情展现为笑容时，该第一学生会表现为将嘴角上扬。当第一学生面部表情为笑容时，该第一学生的鼻尖到鼻梁上方的距离是不受影响的，但是其同侧的嘴角与眼睛之间的距离缩小，并且随着笑容强度的增强该距离会不断地缩小，因此该第一学生的嘴角展开的角度与嘴角到同侧眼睛距离会逐渐接近并趋于相等，因此在表情识别模型中设定M为表情识别值，并通过公式

计算表情识别值，其中D1和D2分别表示左眼到嘴角的距离和右眼到嘴角之间的距离，D3表示嘴角两侧的距离，若该第一学生的表情识别值M超过对应的预设阈值，则得到该标准人脸图像对应的情绪即为第一识别结果；

所述表情识别模型会判断出第一目标人脸图像中面部区域对应的表情结果。

S4、当所述第一识别结果在预设的区间时则发出提示信息；

在步骤S4中，当所述第一识别结果在相应的阈值范围内时，则发出提示信息；

当表情识别模型判断出第一学生人脸图像中面部区域对应的情绪M值为在0.9-1.2区间时，输出的第一识别结果为异常；

当表情识别模型判断出第一目标人脸图像中面部区域对应的情绪为倾听、疑惑或者理解时，其M值均处于在0.5-0.8区间时，输出的第一识别结果为正常；

若第一识别结果为异常，则发送第一提示消息至监控端。

本发明还可以通过以下功能模块来实现；

一种基于深度学习的学生表情识别的系统，其特征在于：所述方法包括获取模块、特征模块、分类模块以及警示模块，其中：

获取模块，用于获取视频序列中的第一学生的人脸信息视频帧；

在获取模块中，采集图像范围需要包含每一个学生座位范围内包括学生头部到桌面所有区域；

特征模块，用于对所述的第一学生的人脸信息视频帧进行特征提取；

在所述特征模块中：

分类模块，用于并构建表情识别模型，并基于所述特征对人脸信息视频帧进行识别并计算表情特征值；

在所述分类模块中：

通过公式

计算局部纹理的平均值

通过公式

计算局部纹理的方差

警示模块，用于当所述第一识别结果在预设的区间时则发出提示信息；

在所述警示模块中：

当表情识别模型判断出第一目标人脸图像中面部区域对应的情绪为抗拒或者不屑时，对应输出的第一识别结果为异常；

当表情识别模型判断出第一目标人脸图像中面部区域对应的情绪为倾听、疑惑或者理解时，对应输出的第一识别结果为正常；

若第一识别结果为异常，则发送第一提示消息至监控端。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。在附图中：

图1示出了一种基于深度学习的学生表情识别的方法步骤；

图2示出了一种基于深度学习的学生表情识别的系统所包括的功能模块。

具体实施方式

本发明的目的可以通过以下技术方案来实现，参照附图1：

一种基于深度学习的学生表情识别的方法，所述方法包括以下步骤：

S1、获取视频序列中的第一学生的人脸信息视频帧；

本实施例中，采集图像范围需要包含每一个学生座位范围内包括学生头部到桌面所有区域。具体地，视频采集装置的摄像头需要采用1/3Progressive ScanCMOS类型的传感器，水平调整角度从-30°～30°，垂直角度为0～80°，旋转角度为0～360°。

首先对获取到的视频序列中的图像进行预处理，在确定第一学生的人脸位置后确定第一学生的人脸表情区域；

S2、对所述的第一学生的人脸信息视频帧进行特征提取，并构建表情识别模型；

在确定第一学生的人脸位置后确定第一学生的人脸表情区域后，提取训练集中的图像，标记所述训练集中的图像的特征点，通过归一化处理，提取特征点的主要分量构建平均形状，并将提取到的平均形状作为形状模型；

为使建立的形状模型能适应人脸的各种形变，训练集中应含有学生的面部姿态以及各种表情，并参照不同的光照条件，提取特征点局部纹理作为正确样本，并计算偏离正确样本的偏离特征点，将该区域纹理作为偏离样本，利用支持向量机对所述正确样本和偏离样本进行训练，提取出局部纹理模型。

具体地，在本实施例中，通过矩形窗口作为训练样本的大小，一般地设置为25×25像素，对于通过视频序列采集到的特征点来说，在特征点标注的位置上截取的矩形窗口作为训练这个特征点检测器的正确样本，同时，以这个特征点标注位置为基准，当出现偏离时，确定偏离距离并随机截取，将随机截取到的矩形窗口作为训练这个特征点检测器的偏离样本。

在本实施例中，通过AdaBoost分类器对采集的第一学生的原始数据集中的正确样本和偏离样本进行级联分类训练，在定位时需要对第一学生的人脸检测器给出具体的人脸位置，然后在人脸固定的区域通过训练得到的级联分类器进行特征点的检测，通过所述形状模型和所述局部纹理模型的双重约束构建表情识别模型，并根据所述表情识别模型获取所述第一学生的人脸特征点。

S3、基于所述特征对人脸信息视频帧进行第一识别；

在本实施例中，通过由所述形状训练模型和所述局部纹理模型的双抽约束构建的表情识别模型对采集到的人脸特征进行识别。

其中，所述形状训练模型中包括归一化处理，所述归一化处理包括利用PCA进行降维处理。具体地，本实施例中选用MUCT数据集，MUCT数据集包含3755张人脸图像，每张有76个标注点，为了消除学生人脸图像训练的样本图像中因人脸的尺寸、角度、姿态等不同造成的非形状因素干扰，通过形状归一化，以某个形状为基础，把一系列的形状进行尺度变化、平移和缩放，使它们尽可能接近基础形状，按大小顺序取向量集中的前n个特征值对应的特征向量

具体地，对所述获取到的视频序列中的图像进行提取，提取的n个样本向量x₁，x₂，...，x_n，并将该所述向量投影至l维空间，则在l维空间中，采集的第一学生的原始数据集中的样本x_i在所述l维空间中的投影向量x′_i表示为

进一步地，通过式

获取第一学生人脸信息视频帧图像的特征点分布并获取其平均形状并建立形状训练模型。

具体地，局部纹理模型是在采集到的人脸标定的特征点的基础上，该模型的作用是在迭代过程中特征点能更准确的确定新的位置，对于采集的第一学生的人脸视频帧的第m个样本图像的第j个特征点，在沿该点前后两特征点(j-1点和j+1点)连线的法线方向，第j个特征点的两侧各取k个像素，构成长度为2k+1的向量，对向量包含的像素灰度值求导可得一个局部纹理g_jm。采用同样的方法可得第j个特征点的n个局部纹理g_j1，g_j2，…，g_jn，通过公式

计算局部纹理的平均值

通过公式

计算局部纹理的方差S_j。此方法可建立其他特征点的局部纹理模型。然后采用马氏距离来度量候选特征点与局部纹理模型特征的相似性，即相似性为

表情识别模型是由形状训练模型和局部纹理模型两部分组成，人脸形状模型主要用于控制不合理的面部形变，同时确定输出的拓扑形状；局部纹理模型主要用于实现对每个特征点的搜索定位。在表情识别过程中，人脸形状模型和局部纹理模型交替作用，使得模型的输出形状逐步收敛。

具体地，在本实施例中，在表情识别模型中通过训练读取采集的第一学生的视频帧的特征值，其中，采集的第一学生的视频帧中的人眼特征不仅包含了角度和面部肌肉的相对位置，还包括不同位置皮肤的皱纹情况，因此可以认为本实施例中的表情识别模型中识别人眼及附近面部肌肉和不同位置皮肤皱纹情况的特征值。当第一学生的面部表情展现为笑容时，该第一学生会表现为将嘴角上扬。当第一学生面部表情为笑容时，该第一学生的鼻尖到鼻梁上方的距离是不受影响的，但是其同侧的嘴角与眼睛之间的距离缩小，并且随着笑容强度的增强该距离会不断地缩小，因此该第一学生的嘴角展开的角度与嘴角到同侧眼睛距离会逐渐接近并趋于相等，因此在表情识别模型中设定M为表情识别值，并通过公式

计算表情识别值，其中D1和D2分别表示左眼到嘴角的距离和右眼到嘴角之间的距离，D3表示嘴角两侧的距离，而通过测试与统计，我们发现学生上课认真情况下，学生笑容强度往往集中在0.5-0.8这个级别。而学生上课嬉笑打闹的时候，该笑容强度往往集中在0.9-1.2这个级别。若该第一学生的表情识别值M超过对应的预设阈值，则得到该标准人脸图像对应的情绪即为第一识别结果；

S4、当所述第一识别结果在相应的阈值范围内时，则发出提示信息；

具体的，在本实施例中，当表情识别模型判断出第一学生人脸图像中面部区域对应的情绪M值为在0.9-1.2区间时，输出的第一识别结果为异常；

当表情识别模型判断出第一目标人脸图像中面部区域对应的情绪为倾听、疑惑或者理解时，其M值均处于在0.5-0.8这个级别，因此对应输出的第一识别结果为正常；

若第一识别结果为异常，则发送第一提示消息至监控端。

本发明的目的还可以通过以下技术方案来实现，参照附图2：

一种基于深度学习的学生表情识别的系统，所述系统包括以下功能模块：获取模块、特征模块、分类计算模块以及警示模块。

特征模块，用于对所述的第一学生的人脸信息视频帧进行特征提取，并构建表情识别模型；

通过AdaBoost分类器对采集的第一学生的原始数据集中的正确样本和偏离样本进行级联分类训练，在定位时需要对第一学生的人脸检测器给出具体的人脸位置，然后在人脸固定的区域通过训练得到的级联分类器进行特征点的检测，通过所述形状模型和所述局部纹理模型的双重约束构建表情识别模型，并根据所述表情识别模型获取所述第一学生的人脸特征点。

分类计算模块，用于基于所述特征对人脸信息视频帧进行计算；

进一步地，通过式

计算局部纹理的平均值

通过公式

警示模块，用于当所述第一识别结果在相应的阈值范围内时，则发出提示信息；

若第一识别结果为异常，则发送第一提示消息至监控端。

所述功能如果以功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read－Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上仅为本发明的优选实施例而已，不用于限制本发明，对于本领域的技术人员来说，可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的学生表情识别的方法，其特征在于：所述方法包括以下步骤：

S1、获取视频序列中的第一学生的人脸信息视频帧；

S2、对所述的第一学生的人脸信息视频帧进行特征提取；

S3、构建表情识别模型，并基于所述特征对人脸信息视频帧进行识别并计算表情特征值；通过由所述形状训练模型和所述局部纹理模型的双抽约束构建的表情识别模型对采集到的人脸特征进行识别；对所述获取到的视频序列中的图像进行提取，提取的n个样本向量x₁，x₂，...，x_n，并将该所述向量投影至l维空间，则在l维空间中，采集的第一学生的原始数据集中的样本x_i在所述l维空间中的投影向量x′_i表示为

进一步地，通过式

获取第一学生人脸信息视频帧图像的特征点分布并获取其平均形状并建立形状训练模型；具体地，所述局部纹理模型是在采集到的人脸标定的特征点的基础上，该模型的作用是在迭代过程中特征点能更准确的确定新的位置，对于采集的第一学生的人脸视频帧的第m个样本图像的第j个特征点，在沿该点前后两特征点(j-1点和j+1点)连线的法线方向，第j个特征点的两侧各取k个像素，构成长度为2k+1的向量，对向量包含的像素灰度值求导可得一个局部纹理g_ir；采用同样的方法可得第j个特征点的n个局部纹理g_j1，g_j2，…，g_jn，通过公式

计算局部纹理的平均值

通过公式

计算局部纹理的方差S_j；采用马氏距离来度量候选特征点与局部纹理模型特征的相似性，即相似性为

表情识别模型是由形状训练模型和局部纹理模型两部分组成，人脸形状模型主要用于控制不合理的面部形变，同时确定输出的拓扑形状；局部纹理模型主要用于实现对每个特征点的搜索定位；在表情识别过程中，人脸形状模型和局部纹理模型交替作用，使得模型的输出形状逐步收敛；在表情识别模型中通过训练读取采集的第一学生的视频帧的特征值，其中，采集的第一学生的视频帧中的人眼特征不仅包含了角度和面部肌肉的相对位置，还包括不同位置皮肤的皱纹情况，因此表情识别模型中识别人眼及附近面部肌肉和不同位置皮肤皱纹情况的特征值；当第一学生的面部表情展现为笑容时，该第一学生会表现为将嘴角上扬；当第一学生面部表情为笑容时，该第一学生的鼻尖到鼻梁上方的距离是不受影响的，但是其同侧的嘴角与眼睛之间的距离缩小，并且随着笑容强度的增强该距离会不断地缩小，因此该第一学生的嘴角展开的角度与嘴角到同侧眼睛距离会逐渐接近并趋于相等，因此在表情识别模型中设定M为表情识别值，并通过公式

计算表情识别值，其中D1和D2分别表示左眼到嘴角的距离和右眼到嘴角之间的距离，D3表示嘴角两侧的距离，若该第一学生的表情识别值M超过对应的预设阈值，则得到该标准人脸图像对应的情绪即为第一识别结果；所述表情识别模型会判断出第一目标人脸图像中面部区域对应的表情结果；

S4、当所述第一识别结果在预设的区间时则发出提示信息。

2.根据权利要求1所述的一种基于深度学习的学生表情识别的方法，其特征在于，

3.根据权利要求1所述的一种基于深度学习的学生表情识别的方法，其特征在于，在所述步骤S2中：

通过所述形状模型和所述局部纹理模型的双重约束构建表情识别模型，并根据所述表情识别模型获取所述第一学生的人脸特征点；

对所述的第一学生的人脸信息视频帧进行特征提取，并构建表情识别模型；

4.根据权利要求1所述的一种基于深度学习的学生表情识别的方法，其特征在于，

若第一识别结果为异常，则发送第一提示消息至监控端。

5.一种基于深度学习的学生表情识别的系统，其特征在于：所述方法包括获取模块、特征模块、分类模块以及警示模块，其中：

分类计算模块，用于并构建表情识别模型，并基于所述特征对人脸信息视频帧进行识别并计算表情特征值；在所述分类计算模块中：通过由所述形状训练模型和所述局部纹理模型的双抽约束构建的表情识别模型对采集到的人脸特征进行识别；对所述获取到的视频序列中的图像进行提取，提取的n个样本向量x₁，x₂，...，x_n，并将该所述向量投影至l维空间，则在l维空间中，采集的第一学生的原始数据集中的样本x_i在所述l维空间中的投影向量x′_i表示为

通过公式

获取第一学生人脸信息视频帧图像的特征点分布并获取其平均形状并建立形状训练模型；具体地，所述局部纹理模型是在采集到的人脸标定的特征点的基础上，该模型的作用是在迭代过程中特征点能更准确的确定新的位置，对于采集的第一学生的人脸视频帧的第m个样本图像的第j个特征点，在沿该点前后两特征点(j-1点和j+1点)连线的法线方向，第j个特征点的两侧各取k个像素，构成长度为2k+1的向量，对向量包含的像素灰度值求导可得一个局部纹理g_jm采用同样的方法可得第j个特征点的n个局部纹理g_j，g_i2，...，g_jn通过公式

计算局部纹理的平均值

通过公式

警示模块，用于当所述第一识别结果在预设的区间时则发出提示信息。

6.根据权利要求5所述的一种基于深度学习的学生表情识别的系统，其特征在于，在获取模块中，采集图像范围需要包含每一个学生座位范围内包括学生头部到桌面所有区域；

7.根据权利要求5所述的一种基于深度学习的学生表情识别的系统，其特征在于，在所述特征模块中：

8.根据权利要求5所述的一种基于深度学习的学生表情识别的系统，其特征在于，在所述警示模块中：

若第一识别结果为异常，则发送第一提示消息至监控端。