CN111860033A

CN111860033A - 一种注意力识别方法和装置

Info

Publication number: CN111860033A
Application number: CN201910334039.XA
Authority: CN
Inventors: 何强; 宫团基
Original assignee: Beijing Sanhao Interactive Education Science & Technology Co ltd
Current assignee: Beijing Sanhao Interactive Education Science & Technology Co ltd
Priority date: 2019-04-24
Filing date: 2019-04-24
Publication date: 2020-10-30

Abstract

本发明提供了一种注意力识别方法和装置，其中，该方法包括：获取上课时学生的学生图像，对学生图像中的人脸进行检测，得到注意力可信度参数；根据注意力可信度参数，对注意力特征向量进行计算；根据计算得到的注意力特征向量，计算得到学生的注意力值，当注意力值低于注意力阈值时，确定学生的注意力未在上课内容上。通过本发明实施例提供的注意力识别方法和装置，可以进一步基于检测得到的注意力可信度参数计算得到学生的注意力值，并通过计算得到的学生的注意力值对学生上课时的注意力进行识别，使得识别出的学生的上课注意力更加准确。

Description

一种注意力识别方法和装置

技术领域

本发明涉及图像处理技术领域，具体而言，涉及一种注意力识别方法和装置。

背景技术

目前，在线辅导教育由于其个性化辅导、因材施教的优势及降低学习成本的优点，得到了快速发展。在线辅导利用音视频通信技术和互联网技术实现了线上面对面的辅导。在线上课中学生通过客户端计算机实现学习及与教师交流。学生端配置摄像机，能够实时采集学生的表情，并记录。学生上课的表情，注意力情况能够通过模型识别通知教师。学生上课注意力识别涉及到人脸检测，表情识别，注意力识别技术。

相关技术中，通常使用整张人脸图像作为网络输入来学习特征，然而这些原始像素缺少有效信息，导致识别结果不准确。

发明内容

为解决上述问题，本发明实施例的目的在于提供一种注意力识别方法和装置。

第一方面，本发明实施例提供了一种注意力识别方法，包括：

获取上课时学生的学生图像，对所述学生图像中的人脸进行检测，得到注意力可信度参数；

根据所述注意力可信度参数，对注意力特征向量进行计算；

根据计算得到的注意力特征向量，计算得到学生的注意力值，当所述注意力值低于注意力阈值时，确定所述学生的注意力未在上课内容上。

第二方面，本发明实施例还提供了一种注意力识别装置，包括：

获取模块，用于获取上课时学生的学生图像，对所述学生图像中的人脸进行检测，得到注意力可信度参数；

计算模块，用于根据所述注意力可信度参数，对注意力特征向量进行计算；

处理模块，用于根据计算得到的注意力特征向量，计算得到学生的注意力值，当所述注意力值低于注意力阈值时，确定所述学生的注意力未在上课内容上。

本发明实施例上述第一方面至第二方面提供的方案中，可以对上课时学生的学生图像进行检测，得到注意力可信度参数，并根据得到的注意力可信度参数，计算得到学生的注意力值，从而对上课时学生的注意力进行识别，与相关技术中仅使用学生的整张人脸图像就对学生的注意力进行识别相比，可以进一步基于检测得到的注意力可信度参数计算得到学生的注意力值，并通过计算得到的学生的注意力值对学生上课时的注意力进行识别，使得识别出的学生的上课注意力更加准确。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例所提供的一种注意力识别方法的流程图；

图2示出了本发明实施例所提供的一种注意力识别装置的结构示意图。

具体实施方式

人脸检测是计算机识别中的研究重点。人脸检测技术发展分为3个阶段，分布是早期算法，AdaBoost框架，以及深度学习技术。

早期的人脸检测算法使用了模板匹配技术，即用一个人脸模板图像与被检测图像中的各个位置进行匹配，确定这个位置处是否有人脸；此后机器学习算法被用于该问题，包括神经网络，支持向量机等。以上都是针对图像中某个区域进行人脸-非人脸二分类的判别。Rowley等人提出的正面人脸检测及多角度人脸检测方法，取得了很不错的准确度。然而分类器的设计相对复杂，而且采用密集滑动窗口进行采样导致速度太慢。

Adaboost框架boost算法基于PAC学习理论而建立的一套集成学习算法，其根本思想在于通过组合多个简单的弱分类器，构建出准确率高的强分类器。Viola和Jones设计了一种人脸检测算法，使用简单的Haar-like特征和级联的AdaBoost分类器构造检测器。与早期的算法相比，速度提高了2个数量级，而且具有很好的准确度。基于VJ算法是Adaboost框架中的主流，并广泛应用与工业界。但VJ算法存在着一些问题：(1)Haar-like特征是一种相对简单的特征，其稳定性较低；(2)弱分离器采用简单决策树，容易过拟合。(3)基于VJ-cascade的分类器设计，进入下一阶段后，之前的信息都丢弃，分类器评价一个样本不会基于之前的信息，因此分类器的鲁棒性差。

深度学习框架卷积神经网络在图像分类问题上取得成功之后很快被用于人脸检测问题。Cascade CNN采用卷积网络作为每一级的分类器，采用非最大抑制合并高度重叠的检测窗口。Cascade CNN一定程度上解决了传统方法在开放场景中对光照、角度等敏感的问题，但是该框架的第一级还是基于密集滑动窗口的方式进行窗口过滤，在高分辨率存在大量小人脸(tiny face)的图片上限制了算法的性能上限。DenseBox网络使用全卷积网络，在同一网络中直接预测人脸框和人脸的可信度。为了提高检测的准确率，采用多尺度融合策略，将不同卷积结果进行拼接。由于不同层输入图像大小不同，采用上采样和线性插值对小的推向进行放大。FacenessNet是一种典型的由粗到精的工作流，借助多个基于DCNN网络的人脸部分分类器对人脸进行评分，然后根据每个部件的得分进行规则分析得到建议的人脸区域，最后通过一个精炼网络得到最终的人脸检测结果。MTCNN是一个基于cascade的多任务方法，将人脸区域检测和人脸关键点检测融合在一起。MTCNN分为三个部分：PNet，RNet，和ONet。Pnet网络是采用全卷积网络，对任意尺寸的图像，进行卷积计算，提取特征，该网络结构主要获得了人脸区域的候选窗口和边界框的回归向量。并用该边界框做回归，对候选窗口进行校准，然后通过非极大值抑制(NMS)来合并高度重叠的候选框。RNet网络该网络结构还是通过边界框回归和NMS来去掉那些false-positive区域。只是由于该网络结构和P-Net网络结构有差异，多了一个全连接层，所以会取得更好的抑制false-positive的作用。O-Net该层比R-Net层又多了一层卷基层，所以处理的结果会更加精细。作用和R-Net层作用一样。但是该层对人脸区域进行了更多的监督，同时还会输出5个关键点坐标。SSH网络最大的特色是尺度不相关性，比如MTCNN方法在预测时是对不同尺度的图片分别进行预测，而SSH方法只需要处理一个尺度的图片。该方法是对VGG网络不同层的卷积层输出做了3个分支，每个分支使用类似的流程进行检测和分类，通过针对不同尺度特征图进行分析，实现多尺度人脸检测。

面部表情识别是人脸识别技术中重要组成部分，表情识别系统主要特征提取，特征分类。表情特征提取主要采用数学方法，依靠计算机技术对人脸表情的数字图像进行数据的组织和处理，提取表情特征，去除非表情噪声的方法。静态图像呈现的是表情发生时单幅图像的表情状态，动态图像呈现的是表情在多幅图像之间的运动过程。根据表情发生时的状态和处理对象来区分，表情特征提取算法大体分为基于静态图像的特征提取方法和基于动态图像的特征提取方法。

基于静态图像的特征提取算法可分为整体法和局部法。整体法人脸表情依靠肌肉的运动来体现。人脸表情静态图像直观地显示了表情发生时人脸肌肉运动所产生的面部形体和纹理的变化。从整体上看，这种变化造成了面部器官的明显形变，会对人脸图像的全局信息带来影响，因此出现了从整体角度考虑表情特征的人脸表情识别算法。整体法的经典算法包括主成份分析、独立成分分析和线性判别分析法。局部法静态图像上的人脸表情不仅有整体的变化，也存在局部的变化。面部肌肉的纹理、皱褶等局部形变所蕴含的信息，有助于精确地判断表情的属性。局部法的经典方法是Gabor小波法和LBP算子法。

动态图像反映了人脸表情发生的过程。因此动态图像的表情特征主要表现在人脸的持续形变和面部不同区域的肌肉运动上。目前基于动态图像的特征提取方法主要分为光流法、模型法和几何法。

(1)光流法

光流法是反映动态图像中不同帧之间相应物体灰度变化的方法。早期的人脸表情识别算法多采用光流法提取动态图像的表情特征，这主要在于光流法具有突出人脸形变、反映人脸运动趋势的优点。

(2)模型法

模型法是指对动态图像的表情信息进行参数化描述的统计方法。常用算法主要包括主动形状模型法(ASM)和主动外观模型法(AAM)，两种算法都可分为形状模型和主观模型两部分。就表观模型而言，ASM反映的是图像的局部纹理信息，而AAM反映的是图像的全局纹理信息。

(3)几何法

在表情特征提取方法中，研究者考虑到表情的产生与表达在很大程度上是依靠面部器官的变化来反映的。人脸的主要器官及其褶皱部分都会成为表情特征集中的区域。因此在面部器官区域标记特征点，计算特征点之间的距离和特征点所在曲线的曲率，就成为了采用几何形式提取人脸表情的方法。

特征分类

特征分类的目的是判断特征所对应的表情类别。在人脸表情识别中，表情的类别分为两部分：基本表情和动作单元。特征分类方法分为基于贝叶斯网络的分类方法和基于距离度量的分类方法。

深度学习方法

传统特征提取需要繁琐的人工设计和选择的特征，而且选择的特征的鲁棒性较差。深度学习网络(尤其是CNN)对图像具有较好的提取特征的能力，从而避免了人工提取特征的繁琐，人脸的人工特征包括常用的68个人脸基本点等其他的特征，而深度学习除了预测外，往往还扮演着特征工程的角色，从而省去了人工提取特征的步骤，且具有良好的泛化能力。因此基于深度学习的方法称为面部表情识别的主流。

(1)静态图像的深度表情识别

静态图像网络采用CNN网络进行特征选择，采用全连接和softmax预测表情类别。

直接在相对较小的人脸表情数据集上训练深度网络容易导致过拟合。为了解决这个问题，在预训练模型中进行微调是一种好的解决方法。Ng等人使用在ImageNet数据集上训练VGG网络，先在FER2013数据集上进行微调，再在目标数据集的训练数据上进行微调。Ding等人发现由于人脸识别数据集和表情识别数据集之间的差距，人脸主导的信息仍然留在微调的人脸识别网络中，削弱了网络表示不同表情的能力，提出了FaceNet2ExpNet训练算法，整合人脸识别网络学习的人脸区域知识修正目标表情识别的训练。多样化网络输入，传统方法通常使用整张人脸的RGB图像作为网络输入来学习特征，然而这些原始像素缺少有效信息，例如纹理和旋转平移缩放的不变性。一些方法采取手动提取的特征和它们的延伸信息作为网络输入来解决这个问题。

(2)动态序列图像深度表情识别

由于给定视频片段中的帧具有不同的表情强度，因此直接测量目标数据集中的每帧误差不能产生令人满意的效果。很多方法用于聚合每个序列的网络输出帧，以实质上改善FER性能。这些方法分为两类：决策层帧聚合和特征层帧聚合。

表情强度网络和深度空间-时间网络

本发明要解决的技术问题是：现有的表情识别技术不能准确识别上课学生注意力的问题。基于此，本申请实施例提出一种注意力识别方法，可以对上课时学生的学生图像进行检测，得到注意力可信度参数，并根据得到的注意力可信度参数，计算得到学生的注意力值，从而对上课时学生的注意力进行识别，使得识别出的学生的上课注意力更加准确。

实施例1

本实施例提出一种注意力识别方法，执行主体是服务器。

所述服务器，可以使用现有技术中任何可以运行人脸识别程序，并能够计算学生的注意力值的计算设备，这里不再一一赘述。

本实施例提出的一种注意力识别方法，可以具体包括以下步骤：

步骤100、获取上课时学生的学生图像，对所述学生图像中的人脸进行检测，得到注意力可信度参数。

在上述步骤100中，服务器可以通过安装在学生课桌上的摄像头对上课时的学生的学生图像进行获取；该摄像头，用于采集上课时的学生图像。

为了对所述学生图像中的人脸进行检测，得到注意力可信度参数，上述步骤100可以执行以下步骤(1)至步骤(2)：

(1)对所述学生图像进行归一化处理；

(2)将归一化处理后的学生图像输入到人脸表情检测网络，计算得到当前的注意力可信度参数。

在上述步骤(1)中，服务器先利用预先存储的人脸检测组件从学生图像中识别出学生的人脸图像，然后将识别出的人脸图像进行归一化处理，得到64像素乘以64像素尺寸的学生的人脸图像，将64像素乘以64像素尺寸的学生的人脸图像作为归一化处理后的所述学生图像。

在上述步骤(2)中，所述人脸表情检测网络，可以是深度表情识别网络，当然，所述人脸表情检测网络也可以采用其他的能够对人脸表情进行识别的神经网络，这里不再一一赘述。

服务器将将归一化处理后的学生图像输入到人脸表情检测网络后，人脸表情检测网络就会对归一化处理后的学生图像进行处理，得到多个关键特征点，然后，基于该多个关键特征点人脸表情检测网络计算得到注意力可信度参数。

基于该多个关键特征点人脸表情检测网络计算得到注意力可信度参数的过程为现有技术，这里不再赘述。

所述注意力可信度参数，包括：眼睛张开可信度、斜视可信度、转头可信度、低头可信度、以及嘴巴张开可信度。

可信度，为衡量课堂上学生听课时动作发生的程度。例如：将转头90度时的转头可信度是1，转头45度时的转头可信度为0.5。眼睛完全张开的眼睛张开可信度是1，眯眼状态时眼睛时的眼睛张开可信度为0.3，眼睛完全闭上时的眼睛张开可信度是0。眼睛直视黑板时的斜视可信度为0，眼睛完全离开黑板时的斜视可信度为1。老师讲课时抬起头听讲的学生的低头可信度为0，老师讲课时低头的学生的低头可信度为1。听课时嘴巴完全张开的学生的嘴巴张开可信度是1，听课时嘴巴微张的学生的嘴巴张开可信度是0.2，听课时嘴巴完全紧闭的学生的嘴巴张开可信度是0。

在一个实施方式中，当根据当前的学生的学生图像计算得到：眼睛张开可信度＝0.82，斜视可信度＝0.73，转头可信度＝0.65，低头可信度＝0.22，嘴巴张开可信度＝0.56时，那么，当前的注意力可信度参数X_i＝[0.82,0.73,0.65,0.22,0.56]。

步骤102、根据所述注意力可信度参数，对注意力特征向量进行计算。

在上述步骤102中，为了对注意力特征向量进行计算，可以执行以下步骤(1)至步骤(2)：

(1)获取在计算得到当前的注意力可信度参数之前计算得到的多个注意力可信度参数；

(2)根据当前的注意力可信度参数和所述多个注意力可信度参数，对注意力特征向量进行计算。

在上述步骤(1)中，在计算得到当前的注意力可信度参数之前计算得到的所有注意力可信度参数都存储在注意力可信度参数集合中。注意力可信度参数在注意力可信度参数集合中的存储形式是：注意力可信度参数的具体数值和计算时间。

在一个实施方式中，为了提高计算的注意力值的准确率，服务器可以根据存储的各注意力可信度参数的计算时间，获取计算时间最接近当前时间的多个注意力可信度参数，并将获取到的计算时间最接近当前时间的多个注意力可信度参数作为在计算得到当前的注意力可信度参数之前计算得到的多个注意力可信度参数，进行后续计算。

在上述步骤(2)中，通过以下哪个是对注意力特征向量进行计算：

其中，V_t表示注意力特征向量；

表示权重值；X_t表示当前的注意力可信度参数；X_t-1、X_t-2、…、X_t-p表示在计算得到当前的注意力可信度参数之前计算得到的多个注意力可信度参数。

所述

为训练好的预设数值。

步骤104、根据计算得到的注意力特征向量，计算得到学生的注意力值，当所述注意力值低于注意力阈值时，确定所述学生的注意力未在上课内容上。

这里，为了计算得到学生的注意力值，上述根据计算得到的注意力特征向量，计算得到学生的注意力值，包括：

通过以下公式计算学生的注意力值：

y_t＝σ(WV_t+b)

其中，y_t表示学生的注意力值；W表示权重矩阵；b表示偏移值。

所述权重矩阵W和所述偏移值b都是预先训练好的预设数值。

为了对所述权重矩阵W、所述偏移值b、以及所述

进行训练，可以使用以下监督学习模型，模型的目标函数是交叉熵损失函数，采用梯度下降方式进行训练：

其中，p_i是预测注意力状态，y_i是注意力状态，λ是超参数，Θ是权重参数。

在确定所述学生的注意力未在上课内容上时，可以获取注意力未在上课内容上的学生的学生标识生成提示信息发送给上课老师使用的终端，以告知上课老师哪些学生在上课时没注意听课。

综上所述，本实施例提出一种注意力识别方法，可以对上课时学生的学生图像进行检测，得到注意力可信度参数，并根据得到的注意力可信度参数，计算得到学生的注意力值，从而对上课时学生的注意力进行识别，与相关技术中仅使用学生的整张人脸图像就对学生的注意力进行识别相比，可以进一步基于检测得到的注意力可信度参数计算得到学生的注意力值，并通过计算得到的学生的注意力值对学生上课时的注意力进行识别，使得识别出的学生的上课注意力更加准确。

实施例2

本实施例提出一种注意力识别装置，用于执行上诉实施例1提出的注意力识别方法。

参见图2所示的注意力识别装置的结构示意图，该注意力识别装置，包括：

获取模块200，用于获取上课时学生的学生图像，对所述学生图像中的人脸进行检测，得到注意力可信度参数；

计算模块202，用于根据所述注意力可信度参数，对注意力特征向量进行计算；

处理模块204，用于根据计算得到的注意力特征向量，计算得到学生的注意力值，当所述注意力值低于注意力阈值时，确定所述学生的注意力未在上课内容上。

具体地，获取模块，用于对所述学生图像中的人脸进行检测，得到注意力可信度参数，包括：

对所述学生图像进行归一化处理；

将归一化处理后的学生图像输入到人脸表情检测网络进行处理，计算得到当前的注意力可信度参数，所述注意力可信度参数，包括：眼睛张开可信度、斜视可信度、转头可信度、低头可信度、以及嘴巴张开可信度。

具体地，所述计算模块，具体用于：

获取在计算得到当前的注意力可信度参数之前计算得到的多个注意力可信度参数；

根据当前的注意力可信度参数和所述多个注意力可信度参数，对注意力特征向量进行计算。

这里，根据当前的注意力可信度参数和所述多个注意力可信度参数，对注意力特征向量进行计算，包括：

通过以下哪个是对注意力特征向量进行计算：

其中，V_t表示注意力特征向量；

具体地，根据计算得到的注意力特征向量，计算得到学生的注意力值，包括：

通过以下公式计算学生的注意力值：

y_t＝σ(WV_t+b)

综上所述，本实施例提出一种注意力识别装置，可以对上课时学生的学生图像进行检测，得到注意力可信度参数，并根据得到的注意力可信度参数，计算得到学生的注意力值，从而对上课时学生的注意力进行识别，与相关技术中仅使用学生的整张人脸图像就对学生的注意力进行识别相比，可以进一步基于检测得到的注意力可信度参数计算得到学生的注意力值，并通过计算得到的学生的注意力值对学生上课时的注意力进行识别，使得识别出的学生的上课注意力更加准确。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种注意力识别方法，其特征在于，包括：

根据所述注意力可信度参数，对注意力特征向量进行计算；

2.根据权利要求1所述的方法，其特征在于，对所述学生图像中的人脸进行检测，得到注意力可信度参数，包括：

对所述学生图像进行归一化处理；

3.根据权利要求1所述的方法，其特征在于，根据所述注意力可信度参数，对注意力特征向量进行计算，包括：

4.根据权利要求3所述的方法，其特征在于，根据当前的注意力可信度参数和所述多个注意力可信度参数，对注意力特征向量进行计算，包括：

通过以下哪个是对注意力特征向量进行计算：

其中，V_t表示注意力特征向量；

5.根据权利要求1所述的方法，其特征在于，根据计算得到的注意力特征向量，计算得到学生的注意力值，包括：

通过以下公式计算学生的注意力值：

y_t＝σ(WV_t+b)

6.一种注意力识别装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，获取模块，用于对所述学生图像中的人脸进行检测，得到注意力可信度参数，包括：

对所述学生图像进行归一化处理；

8.根据权利要求6所述的装置，其特征在于，所述计算模块，具体用于：

9.根据权利要求8所述的装置，其特征在于，根据当前的注意力可信度参数和所述多个注意力可信度参数，对注意力特征向量进行计算，包括：

通过以下公式对注意力特征向量进行计算：

其中，V_t表示注意力特征向量；

10.根据权利要求6所述的装置，其特征在于，根据计算得到的注意力特征向量，计算得到学生的注意力值，包括：

通过以下公式计算学生的注意力值：

y_t＝σ(WV_t+b)