CN110175501B

CN110175501B - 基于人脸识别的多人场景专注度识别方法

Info

Publication number: CN110175501B
Application number: CN201910264000.5A
Authority: CN
Inventors: 田文龙; 董毅
Original assignee: Chongqing Dianzheng Information Technology Co ltd
Current assignee: Chongqing Dianzheng Information Technology Co ltd
Priority date: 2019-03-28
Filing date: 2019-03-28
Publication date: 2023-04-07
Anticipated expiration: 2039-03-28
Also published as: CN110175501A

Abstract

本发明为基于人脸识别的多人场景专注度识别方法，属于大数据人工智能深度学习领域。该方法包含以下步骤：S1：专注度特征数据集的建立；S2：专注度识别模型的建立；S3：利用梯度下降算法和专注度特征数据集训练专注度识别模型；S4：将视频图像输入专注度识别模型，得到评价因子矩阵；S5：将评价因子矩阵输入聚类模型，得到最终的专注度分类评估。本发明提供了基于人脸识别的多人场景专注度识别方法，在人脸方位识别的基础上，将专注度评估解构为3个维度的专注度评价因子，并结合整体的专注度分布为个体专注度评价因子施加不同的专注度权重，能够实现多人场景的专注度识别，提高了专注度评估的准确性和模型应用场景的广泛性。

Description

基于人脸识别的多人场景专注度识别方法

技术领域

本发明涉及基于人脸识别的多人场景专注度识别方法，属于大数据人工智能深度学习领域。

背景技术

专注度是人类智能行为的一种体现。在教学方面，传统教学中老师通过肉眼观察学生上课和考试过程中的注意力情况，但无法同时全面了解整体情况产生一定滞后性且分散教师注意力。在汽车驾驶方面，疲劳检测系统，通过红外光下的摄像头提取驾驶员的眼睛状态、头部姿势等特征，对驾驶员的专注度进行分析和预警。随着人脸特征识别和机器学习技术在人工智能、医学图像处和安全控制等领域广泛应用，使得专注度识别成为有可能。目前，对人类专注程度的评估方法有问卷调查法，观察法，计算机视觉法等。

早期，应用在关注专注程度的识别方法往往是针对无复杂背景的人脸监测，实际应用中受到很大程度的限制，面对视频条件或图像动态发生变化，都需要对检测系统的参数做调整或者重新设计整个系统。近几年，随着识别算法的发展，主要的检测方法多给予数据驱动的学习方法，归结分为模板检测、人脸特征检测和利用统计理论方法检测三大类，然而这些方法都有一定的局限性。模板检测是人脸模板的大小和取向具有一定的固定性，检测时受到模板的局限。人脸特征检测是根据人的眼睛、鼻子和嘴巴等人脸器官灰度值的不同，建立相对应的判断算法，但不同的环境下产生不同的背景，如果视频中遇到复杂难以分辨的背景，会产生不同色度空间，非人脸肤色和人脸肤色就会有部分重叠，反而增加了检测难度，而且识别模型都是基于正面人脸的识别，然而在大多数复杂场景中，人脸在视频摄像头中呈现多样的方位分布，由于人脸方位的变化，上述模型识别的效果急剧下降，无法使用多方位的人脸特征识别。目前，专注度的识别系统通过深度学习模型对人体的表情状态进行判断，判别的类别通常分为注意力不集中，认真听讲等类别。但这类模型只能适应较为简单场景下的专注度识别，对于场景较为复杂，人群较为密集的场所，识别效率低，准确度不高。

发明内容

有鉴于此，本发明提供基于人脸识别的多人场景专注度识别方法，在人脸方位识别的基础上，匹配相应的特征点检测模板，利用深度学习方法实现对不同方位的人体的专注度特征的提取和准确识别，结合每一个人的专注度识别结果，判断多人场景模式，进而实现多人场景的专注度识别。

为达到上述目的，本发明提供如下技术方案：

基于人脸识别的多人场景专注度识别方法，包括如下步骤：

S1：专注度特征数据集的建立；

S2：专注度识别模型的建立；

S3：利用梯度下降算法和专注度特征数据集训练专注度识别模型；

S4：将视频图像输入专注度识别模型，得到评价因子矩阵；

S5：将评价因子矩阵输入聚类模型，得到最终的专注度分类评估。

进一步，步骤S1所述的专注度特征数据集的建立具体为：通过视频数据库和摄像头获取的视频，每隔固定T时长提取一帧图像，判断该图像中是否含有人体轮廓，如果有，提取图像专注度特征，如果没有，则等待判断下一次图像。所述的专注度特征设置为3类，分别为人脸朝向、身体姿态、眼睛注视状态。其中，人脸朝向又分为正向、侧向、背向三类；身体特征又分为站立、坐下、趴卧三类；眼睛注视状态又分为为睁眼、闭眼、无法观察三类。

进一步，步骤S2所述的专注度识别模型由一个卷积神经网络串连一个后续处理层构成，所述后续处理层是由三个全连接层与一个卷积层相互作用构成的。其工作原理具体为：将图片通过适当的缩放处理为指定大小的后，输入特征提取神经网络模型，得到M×N维的特征向量进一步，将特征向量输入3个并行的全连接层，每个全连接层的卷积核为1×1，得到M×3×3维的特征矩阵，其中特征矩阵的3×3部分元素即对应这个人的专注度特征。同时，将特征向量输入一个卷积核大小为3×N的卷积层，得到M×1的权重矩阵。最后，将该权重矩阵与特征矩阵每个人对应行列相作用得到M×3×3维的评价因子矩阵。其中M是检测到人数；N是每一个人对应的特征参数，根据识别精度人为设定。

进一步，步骤S5所述的聚类模型是由M个并行的分类器串接一个分类器构成的，每一个分类器可以为支持向量机(Support Vector Machine，SVM)等常见分类器。其工作原理是M个并行的分类器分别将评价因子矩阵中M个人的3×3维专注度特征进行分类，分为专注和不专注两类；然后，将专注度特征分类结果输入到串接的一个分类器，来对场景进行分类，分为专注度识别场景和非专注度识别场景；最后，将专注度特征分类结果与场景分类结果进行卷积，得到最终的专注度分类评估。

本发明的有益效果在于：本发明提供了基于人脸识别的多人场景专注度识别方法，将专注度评估解构为3个维度的专注度评价因子，并结合整体的专注度分布为个体专注度评价因子施加不同的专注度权重，能够实现多人场景的专注度识别，提高了专注度评估的准确性和模型应用场景的广泛性。

附图说明

为了使本发明的目的、技术方案，本发明提供如下附图进行说明：

图1为基于人脸识别的多人场景专注度识别方法流程图；

图2为本发明实施例的专注度识别模型示意图；

图3为本发明实施例的聚类模型示意图。

具体实施方式

为使本发明的目的和技术方案更加清晰明白，下面结合附图及实施例对本发明进行详细的描述。

实施例：

在重要考试中，面对大量的监考视频，识别考场中考生的专注度，实现考试过程的无人监考。本实施例提供基于人脸识别的多人场景专注度识别方法，结合图1，该方法包含以下步骤：

步骤一：

从考试摄像视频以及网络视频等视频构建的考试视频库中获取不同考场下，不同的分辨率、帧率、对比度、拍摄角度，不同被拍摄人数，不同拍摄距离等多种因素下的视频，每隔固定T时长提取一帧图像，判断该图像中是否含有人体轮廓，如果有，提取图像专注度特征，并对每张图像进行分类；如果没有，则等待判断下一次图像。所述的专注度特征设置为3类，分别为人脸朝向、身体姿态、眼睛注视状态。其中，人脸朝向又分为正向、侧向、背向三类；身体特征又分为站立、坐下、趴卧三类；眼睛注视状态又分为为睁眼、闭眼、无法观察三类。

步骤二：

结合图2，建立专注度识别模型，由一个卷积神经网络(Visual Geometry Group，VGG)串连一个后续处理层构成，所述后续处理层是由三个全连接层与一个卷积层相互作用构成的。其工作原理具体为：将图片通过适当的缩放处理为指定大小的后，输入特征提取神经网络模型，得到M×N维的特征向量进一步，将特征向量输入3个并行的全连接层，每个全连接层的卷积核为1×1，得到M×3×3维的特征矩阵，其中特征矩阵的3×3部分元素即对应这个人的专注度特征。同时，将特征向量输入一个卷积核大小为3×N的卷积层，得到M×1的权重矩阵。最后，将该权重矩阵与特征矩阵每个人对应行列相作用得到M×3×3维的评价因子矩阵。其中M是对应每张图像检测到人数；N是每一个人对应的特征参数，根据识别精度人为设定。

步骤三：

将步骤一中的考试视频库按8∶2的比例分为训练集和测试集，利用梯度下降算法分别对步骤二所建立的专注度识别模型进行训练和测试，对比步骤一的分类结果，选取效果最优的专注度识别模型参数；

步骤四：

将考场实时拍摄视频作为输入，利用专注度识别模型，获取考生专注度评价因子矩阵。

步骤五：

结合图3，将评价因子矩阵输入聚类模型，得到每个考生最终的专注度分类评估，并在视频中标注出不专注的考生。其中，聚类模型是由M个并行的SVM分类器串接一个SVM分类器构成的，其工作原理是 M个并行的SVM分类器分别将评价因子矩阵中M个人的3×3维专注度特征进行分类，分为专注和不专注两类；然后，将专注度特征分类结果输入到串接的一个SVM分类器，来对场景进行分类，分为考试进行中和非考试时间场景；最后，将专注度特征分类结果与场景分类结果进行卷积，得到最终的专注度分类评估。例如，当场景判定为考试进行中时，有考生的专注度判定为不专注时，此时，综合判断该考生最终的专注度为不专注，并在视频中标注出此考生。

可见，本发明方法能够准确有效的实现考场的无人监考，降低人力成本，提高监考质量。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其做出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.基于人脸识别的多人场景专注度识别方法，其特征在于，该方法包含以下步骤：

S1：专注度特征数据集的建立；

S2：专注度识别模型的建立；

S4：将视频图像输入专注度识别模型，得到评价因子矩阵；

S5：将评价因子矩阵输入聚类模型，得到最终的专注度分类评估；

步骤S1所述的专注度特征数据集的建立具体为：通过视频数据库和摄像头获取视频，每隔固定T时长提取一帧图像，判断该图像中是否含有人体轮廓，如果有，提取图像专注度特征，如果没有，则等待判断下一次图像；所述的专注度特征设置为3类：分别为人脸朝向、身体姿态、眼睛注视状态；其中，人脸朝向又分为正向、侧向、背向三类；身体特征又分为站立、坐下、趴卧三类；眼睛注视状态又分为为睁眼、闭眼、无法观察三类；

步骤S2所述的专注度识别模型由一个卷积神经网络串连一个后续处理层构成，所述后续处理层是由三个全连接层与一个卷积层相互作用构成的；其工作原理具体为：将图片通过适当的缩放处理为指定大小的后，输入特征提取神经网络模型，得到M×N维的特征向量进一步，将特征向量输入3个并行的全连接层，每个全连接层的卷积核为1×1，得到M×3×3维的特征矩阵，其中特征矩阵的3×3部分元素即对应这个人的专注度特征；同时，将特征向量输入一个卷积核大小为3×N的卷积层，得到M×1的权重矩阵；最后，将该权重矩阵与特征矩阵每个人对应行列相作用得到M×3×3维的评价因子矩阵；其中M是检测到人数；N是每一个人对应的特征参数，根据识别精度人为设定；

步骤S5所述的聚类模型是由M个并行的分类器串接一个分类器构成的，每一个分类器可以为支持向量机(Support Vector Machine，SVM)；其工作原理是M个并行的分类器分别将评价因子矩阵中M个人的3×3维专注度特征进行分类，分为专注和不专注两类；然后，将专注度特征分类结果输入到串接的一个分类器，来对场景进行分类，分为专注度识别场景和非专注度识别场景；最后，将专注度特征分类结果与场景分类结果进行卷积，得到最终的专注度分类评估。