CN112287891A

CN112287891A - 基于表情及行为特征提取的通过视频评估学习专注力的方法

Info

Publication number: CN112287891A
Application number: CN202011319889.1A
Authority: CN
Inventors: 柯逍; 缪欣
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2021-01-29
Anticipated expiration: 2040-11-23
Also published as: CN112287891B

Abstract

本发明提出一种基于表情及行为特征提取的通过视频评估学习专注力的方法，首先通过人体骨骼点检测方法AlphaPose获取人体骨架，通过轻量化人脸检测模型检测人脸；接着将骨架编码转换为图像，通过神经网络分类器进行动作分类；将获取到的人脸框，先通过VGG‑A网络提取特征，再经过Segmentation网络进一步拟合得到精确的人脸位置，接着将人脸裁剪为多个区域，并使用CNN网络提取特征，通过自注意力模块对不同人脸区域进行加权，融合多个区域的局部特征形成整体特征进行表情分类；最后融合动作和表情识别结果，通过LSTM网络得到最终的专注力分析结果。其针对学生行为构建了有效的运动特征，相对传统的动作识别难以有效地解决视角差异和动作差异带来的问题。

Description

基于表情及行为特征提取的通过视频评估学习专注力的方法

技术领域

本发明属于机器学习与计算机视觉技术领域，尤其涉及一种基于表情及行为特征提取的通过视频评估学习专注力的方法。

背景技术

随着科技的发展，人们学习的途径越来越多，如网课教学、互动直播等，其中线上教学的方式最受大众欢迎，尤其是疫情期间，同学们都只能在家中学习，这更有力的推动了线上教育的发展。然而通过视频学习的方式难以保证学生的学习效率，老师家长也不能及时了解到学生的学习情况，教学质量无法保障。如何不在老师家长的监督下，有效的保证学生的学习质量成为现下最值得关注的问题之一。现如今的专注力研究方法，大多基于脑电波的监测，这对硬件要求十分的高，对学生来说也十分的不便。

发明内容

为了填补现有技术的空白，本发明提出一种基于表情及行为特征提取的通过视频评估学习专注力的方法，能够根据采集的图像对学生或其他用户的注意力特征进行有效的提取，并实现识别和评估。

本发明具体采用以下技术方案：

一种基于表情及行为特征提取的通过视频评估学习专注力的方法，其特征在于：首先通过人体骨骼点检测方法AlphaPose获取人体骨架，通过轻量化人脸检测模型检测人脸；接着将骨架编码转换为图像，通过神经网络分类器进行动作分类；将获取到的人脸框，先通过VGG-A网络提取特征，再经过Segmentation网络进一步拟合得到精确的人脸位置，接着将人脸裁剪为多个区域，并使用CNN网络提取特征，通过自注意力模块对不同人脸区域进行加权，融合多个区域的局部特征形成整体特征进行表情分类；最后融合动作和表情识别结果，通过LSTM网络得到最终的专注力分析结果。

进一步地，其具体包括以下步骤：

步骤S1：通过视频收集学生行为动作图像，进行数据增强处理，利用AlphaPose提取人体骨架信息，利用Ultra-Light-Fast-Generic-Face-Detector-1M提取人脸信息；

步骤S2：对人体骨架进行预处理，并将其编码转换为图像，构造运动特征，搭建神经网络分类器，并基于人体运动特征数据进行训练，将处理后的图像输入到训练好的神经网络分类器中进行分类，得到分类结果；

步骤S3：将获取的人脸信息，通过VGG-A预训练模型提取特征，然后通过Segmentation网络得到精确的人脸位置，将获取的人脸图像裁剪为25个区域，使用CNN卷积网络提取特征，通过自注意力模块对不同人脸区域进行加权，融合25个区域的局部特征形成整体特征进行表情分类；

步骤S4：融合动作和表情识别结果，通过LSTM网络计算学习专注力结果。

进一步地，在步骤S1中：

所述数据增强处理包括对学生行为动作图像进行随机角度翻转、裁剪、镜像的处理，从而获得学生行为数据集；

所述AlphaPose是自上而下的人体骨架关键点检测模型，运用了RMPE框架，由对称空间变换器网络SSTN、参数姿势非最大抑制PNMS、姿势引导建议发生器PGPG的模块组成；

所述SSTN即对称空间变换网络，由STN，SDTN两部分组成，STN用于接收人体候选框，SDTN产生候选姿态；

所述PNMS即参数姿势非最大抑制，用于过滤掉多余的姿态估计，避免冗余；

所述PGPG即姿态引导建议发生器就是SPPE这一部分，可以产生各种姿态图片，供训练过程使用；

利用AlphaPose提取人体骨架信息的具体过程为：先利用AlphaPose检测出图像中的人，然后对其进行人体骨骼点提取，从图像中获取人体骨骼点的坐标；其中，骨骼关键点及其坐标和置信度为″Person″：{″0″：[x0，y0]，″1″：[x1，y1]，...，″17″：[x17，y17]}，其中Person表示检测到的人体，″0″-″17″分别对应鼻子、右眼、左眼、右耳、左耳、右肩、左肩、右肘、左肘、右腕、左腕、右髋、左髋、右膝、左膝、右脚踝、左脚踝、颈部，x和y表示骨骼点相对于图片的坐标s；

利用Ultra-Light-Fast-Generic-Face-Detector-1M提取的人脸信息为人脸框位置。

进一步地，步骤S2具体包括以下步骤：

步骤S21：对得到的人体骨架信息，先将坐标转换为向量，以人体的颈部关节坐标为中心，将其他骨骼点坐标转换为以颈部关节为坐标原点的坐标值，转换公式如下：

v＝P_n-P₀.(n＝1，2，3，…，N)

其中P_n表示除颈部关节之外的其他骨骼点坐标，P₀表示颈部关节坐标，所得v为其他骨骼点以颈部关节为起点的向量；

步骤S22：将向量进行归一化，具体公式如下：

其中，H为图片大小；

步骤S23：根据处理获得的骨骼关键点数据，在对应的人体躯干两端之间增加一个中点，得到更为精细的人体姿态；

步骤S24：对于人体骨骼点信息，将x、y和z位置经过处理编码作为RGB图像中的红、绿和蓝通道值：其中蓝色通道设置为0或1，红、绿通道规范化为0到1的连续范围内的值；再将图中的骨骼关键点位置规格化为0-255；

步骤S25：将转换获得的像素值，按照人体上半身部位位置进行排列；依次将头部、身体部位加入矩阵；

步骤S26：搭建神经网络分类器：包括三层对处理完的图片进行卷积提取特征的卷积层、对数据按批进行归一化的批量归一层、线性整流层和用于进行分类的三层全连接层，并利用交叉熵损失函数计算损失；将处理得到的图像输入到神经网络分类器进行训练，得到训练完毕的神经网络分类器；

步骤S27：将处理得到的图像输入到训练完毕的神经网络分类器进行分类。

进一步地，步骤S3具体包括以下步骤：

步骤S31：将人脸框输入到预训练好的VGG-A模型获取特征，然后通过Segmentation网络输出一个更为精确的掩膜，并得出准确性分数；

所述Segmentation网络由一个1*1的包含ReLU非线性层的卷积层和一个分类层组成；分类的classificationlayer由图像像素总数个像素分类器组成，每一个像素分类器用于识别给定的像素是否属于输入框中心的目标；

步骤S32：将获取的人脸图像随机剪裁为25个不重叠的部分，然后经过CNN卷积网络进行特征提取：

将局部区域提取的特征经过全连接层，然后通过激活函数得到对应的权重：

其中μ_i为第i个剪裁区域的权重，F_i为第i个剪裁区域提取的特征，q⁰表示全连接层的参数，f表示激活函数；T为矩阵转置；

将局部区域进行加权表示为整体特征，然后将区域局部特征与整体特征作一个concat操作，经过全连接层和激活函数，融合局部与整体的特征得到权重，最后经过全连接层进行分类：

整体特征表示为：

其中F_m为整体特征，μ_i为上文所述第i个剪裁区域的权重，F_i为第i个剪裁区域提取的特征。

局部和整体的权重：

ρ_i＝f((F_i：F_m)^Tq¹)

ρ_i为局部和整体特征的权重，q¹表示全连接层的参数。同理，对特征进行加权得到局部和整体特征结合的全局特征：

其中F_all为处理得到的全局特征。

进一步地，步骤S4具体包括以下步骤：

步骤S41：对表情、动作进行初始权重的分配，对于学习行为给予正向激励，对非学习行为给予负向激励；

步骤S42：对视频相隔一帧采样分析表情和动作，使用LSTM网络进行训练：

所述LSTM网络由遗忘门、输入门、输出门组成，其计算公式如下：

S_t＝σ(W_s[h_t-1，x_t]+b_s)

遗忘门决定了上一时刻的单元有多少信息保留到当前时刻，W_s是遗忘门的权重矩阵，[h_t-1，x_t]表示把两个向量连接成一个更长的向量，b_s是遗忘门的偏置项，σ是sigmoid函数，h_t-1为上一时刻的输出值，x_t为当前时刻的输入值；

I_t＝σ(W_i[h_t-1，x_t]+b_i)

输入门决定了当前时刻网络的输入x_t有多少保存到单元状态C_t，其中I_t决定需要更新的信息，W_i为输入门sigmoid即σ层的权重，b_i为输入门σ层的偏置项，

为本时刻备选用来更新的信息，tanh为激活函数，W_C为tanh层的权重，b_C为tanh层的偏置项；

o_t＝σ(W_o[h_t-1，x_t]+b_o)

h_t＝o_t*tanh(C_t)

输出门控制单元状态C_t有多少输出到LSTM的当前输出值h_t，最终得到专注力评分，其中o_t决定输出的信息，W_o为输出门sigmoid即σ层的权重，b_o为输出门σ层的偏置项。

与现有技术相比，本发明及其优选方案有以下有益效果：

1、本发明基于摄像头的动作识别和表情识别，相对于传统脑电波检测，不需要佩戴相应硬件。可直接使用现有手机、平板电脑、笔记本电脑等已有设备搭建实现方案的硬件平台，成本低。

2、本发明的动作识别针对学生行为构建了有效的运动特征，相对传统的动作识别难以有效地解决视角差异和动作差异带来的问题，本发明利用编码图像加以神经网络分类器，有效的改善了此类问题。

3、相对于主观的专注力判别方法，本发明将学生行为和表情的变化转换为特征输入到LSTM网络训练获得的相关参量并实现量化评分，使结果更加客观，可用于在线教育等场景。

附图说明

下面结合附图和具体实施方式对本发明进一步详细的说明：

图1为本发明实施例方法原理及流程示意图。

具体实施方式

为让本专利的特征和优点能更明显易懂，下文特举实施例，作详细说明如下：

如图1所示，本实施提供了一种基于表情及行为特征提取的通过视频评估学习专注力的方法，包括以下步骤：

步骤S1：通过监控视频收集学生或其他类似用户的行为动作，进行数据增强处理，利用AlphaPose提取人体骨架信息，利用Ultra-Light-Fast-Generic-Face-Detector-1M提取人脸信息；

步骤S2：对人体骨架进行预处理，并将其编码转换为图像，构造有效的运动特征，搭建神经网络分类器，并基于人体运动特征数据进行训练，将处理后的图像输入到训练好的神经网络分类器中进行分类，得到分类结果；

步骤S3：将获取的人脸信息，通过VGG-A预训练模型提取特征，然后通过Segmentation网络得到精确的人脸位置，将获取的人脸图片裁剪为25个区域，使用CNN卷积网络提取特征，通过自注意力模块对不同人脸区域进行加权，融合25个区域的局部特征形成整体特征进行表情分类；

在本实施例中，步骤S1具体包括以下内容：

收集学生行为数据集，对其进行随机角度翻转、裁剪、镜像等数据增强；

采用的AlphaPose是自上而下的人体骨架关键点检测模型，运用了RMPE框架，由对称空间变换器网络SSTN、参数姿势非最大抑制PNMS、姿势引导建议发生器PGPG几个模块组成；

采用的SSTN即对称空间变换网络，由STN，SDTN两部分组成，STN负责接收人体候选框，SDTN产生候选姿态；

采用的PNMS即参数姿势非最大抑制负责过滤掉多余的姿态估计，避免冗余；

采用的PGPG即姿态引导建议发生器就是SPPE这一部分，可以产生各种姿态图片，供训练过程使用；

在本实施例中，先利用AlphaPose检测出视频中的人，然后对其进行人脸提取和人体骨骼点提取，图像中获取人脸部位坐标及人体骨骼点的坐标。

其中，骨骼关键点及其坐标和置信度为″Person″：{″0″：[x0，y0]，″1″：[x1，y1]，...，″17″：[x17，y17]}，其中Person表示检测到的学生，″0″-″17″分别对应鼻子、右眼、左眼、右耳、左耳、右肩、左肩、右肘、左肘、右腕、左腕、右髋、左髋、右膝、左膝、右脚踝、左脚踝、颈部，x和y表示骨骼点相对于图片的坐标。

本实施例利用Ultra-Light-Fast-Generic-Face-Detector-1M检测人脸，得到人脸框位置。

其中，Ultra-Light-Fast-Generic-Face-Detector-1M为一种适用于边缘计算设备、移动端设备以及PC的超轻量级通用人脸检测模型，该模型文件大小仅1MB，320x240输入下计算量仅90MFlops。

在本实施例中，步骤S2具体包括以下步骤：

步骤S21：由于AlphaPose截取的图片大小存在差异，会影响到各个动作骨骼点位置，使得相同动作差异性增大，因此本实施例将得到的骨架信息，先将坐标转换为向量，以人体的颈部关节坐标为中心，将其他骨骼点坐标转换为以颈部关节为坐标原点的坐标值，转换公式如下：

v＝P_n-P₀.(n＝1，2，3，…，N)

步骤S22：由于个体差异，向量大小也会存在差异，所以，需要将向量进行归一化，具体公式如下：

其中，H为图片大小；

步骤S23：由于AlphaPose所得关键点有限，所以在本实施例中进行增加点的处理，即对应的人体躯干两端之间增加一个中点(可以视情况多加几个点)，得到更为精细的人体姿态。

步骤S24：对于处理好的人体骨骼点信息，在本实施例中将x、y和z位置经过处理编码作为RGB图像中的红、绿和蓝通道值，由于是二维的图片，转换图像编码时则不使用z值，即可以将蓝色通道设置为0(或者1)，为将检测到的关键点全局坐标转换为相应的“像素值”，需先将它们规格化。在本实施例中先将这些值规范化为从0到1的连续范围内的值，而不是从0到255的离散整数值，为了实现可视化，再将图中的骨骼关键点位置规格化为0-255；

步骤S25：在本实施例中转换得到了相应的像素值，并按照人体上半部位的位置进行排列。依次将头部、身体分别加入分配矩阵中，例如分配在(1+3)×5×3的矩阵中，则其中头部占一行，身体3行，5为横向划分关键点的列，矩阵中没有关键点的位置在本实施例中全部设为0；

步骤S26：搭建神经网络分类器，主要包括三层的卷积对处理完的图片进行卷积提取特征、紧接着批量归一层对数据按批进行归一化，然后通过线性整流层和三层全连接进行分类，并利用交叉熵损失函数计算损失，将处理得到的图像输入到神经网络分类器进行训练，得到神经网络分类器；

步骤S27：将处理得到的图像输入到神经网络分类器进行分类。

在本实施例中，步骤S3具体包括以下步骤：

其中，Segmentation网络由一个1*1的卷积层(包含ReLU非线性层)和一个分类层组成。分类的classificationlayer由图像像素总数个分类器组成，每一个负责识别给定的像素是否属于输入框中心的目标。每一个像素分类器都要能够充分利用整个特征图的信息，来获得对目标的完整的视觉表示。

步骤S32：对基于获取的人脸行裁剪为25份，剪裁方法为随机面部位置剪裁，即将图片剪裁为随机剪裁为25个不重叠的部分，然后经过CNN卷积网络进行特征提取：

其中μ_i为第i个剪裁区域的权重，F_i为第i个剪裁区域提取的特征，q⁰表示全连接层的参数，f表示激活函数。

整体特征表示为：

局部和整体的权重：

ρ_i＝f((F_i：F_m)^Tq¹)

其中F_all为处理得到的全局特征。

在本实施例中，步骤S4具体包括以下步骤：

步骤S41：对表情、动作进行初始权重的分配，对于学习行为给予正向激励，对非学习行为给予负向激励。

步骤S42：对视频相隔一帧采样分析表情和动作，使用LSTM网络进行训练；

步骤S43：LSTM网络由遗忘门、输入门、输出门组成，其计算公式如下：

S_t＝σ(W_s[h_t-1，x_t]+b_s)

I_t＝σ(W_i[h_t-1，x_t]+b_i)

输入门决定了当前时刻网络的输入x_t有多少保存到单元状态C_t，其中I_t决定需要更新的信息，W_i为sigmoid即σ层的权重，b_i为偏置项，

为本时刻备选用来更新的信息，tanh为激活函数，W_C为tanh层的权重，b_C为该层偏置项。

o_t＝σ(W_o[h_t-1，x_t]+b_o)

h_t＝o_t*tanh(C_t)

输出门控制单元状态C_t有多少输出到LSTM的当前输出值h_t，最终得到专注力评分，其中o_t决定输出的信息，W_o为sigmoid即σ层的权重，b_o为偏置项。

特别的，本实施例基于动作识别和表情识别，更加客观的展示学生学习情况，并对学生行为专注力进行评分。本实施例基于摄像头的动作识别和表情识别，相对于传统脑电波检测，不需要佩戴相应硬件。可直接使用现有手机、平板电脑、笔记本电脑等已有设备，成本低。本实施例采用的动作识别针对学生行为构建了有效的运动特征，相对传统的二维动作识别，难以有效的解决视角差异和动作差异带来的问题，本实施例利用编码图像加以神经网络分类器，有效的改善了此类问题。本实施例采用的表情识别通过整体和局部特征的提取，针对不同视角的表情有效的进行识别。

本专利不局限于上述最佳实施方式，任何人在本专利的启示下都可以得出其它各种形式的基于表情及行为特征提取的通过视频评估学习专注力的方法，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本专利的涵盖范围。

Claims

1.一种基于表情及行为特征提取的通过视频评估学习专注力的方法，其特征在于：首先通过人体骨骼点检测方法AlphaPose获取人体骨架，通过轻量化人脸检测模型检测人脸；接着将骨架编码转换为图像，通过神经网络分类器进行动作分类；将获取到的人脸框，先通过VGG-A网络提取特征，再经过Segmentation网络进一步拟合得到精确的人脸位置，接着将人脸裁剪为多个区域，并使用CNN网络提取特征，通过自注意力模块对不同人脸区域进行加权，融合多个区域的局部特征形成整体特征进行表情分类；最后融合动作和表情识别结果，通过LSTM网络得到最终的专注力分析结果。

2.根据权利要求1所述的基于表情及行为特征提取的通过视频评估学习专注力的方法，其特征在于，包括以下步骤：

3.根据权利要求2所述的基于表情及行为特征提取的通过视频评估学习专注力的方法，其特征在于，在步骤S1中：

利用AlphaPose提取人体骨架信息的具体过程为：先利用AlphaPose检测出图像中的人，然后对其进行人体骨骼点提取，从图像中获取人体骨骼点的坐标；其中，骨骼关键点及其坐标和置信度为″Person″：{″0″：[x0，y0]，″1″：[x1，y1]，...，″17″：[x17，y17]}，其中Person表示检测到的人体，″0″-″17″分别对应鼻子、右眼、左眼、右耳、左耳、右肩、左肩、右肘、左肘、右腕、左腕、右髋、左髋、右膝、左膝、右脚踝、左脚踝、颈部，x和y表示骨骼点相对于图片的坐标；

4.根据权利要求3所述的基于表情及行为特征提取的通过视频评估学习专注力的方法，其特征在于：

步骤S2具体包括以下步骤：

v＝P_n-P₀.(n＝1，2，3，…，N)

步骤S22：将向量进行归一化，具体公式如下：