CN110458049A

CN110458049A - 一种基于多视觉的行为测量与分析方法

Info

Publication number: CN110458049A
Application number: CN201910669696.XA
Authority: CN
Inventors: 孔俊; 王建中; 吕英华; 郑彩侠; 齐妙
Original assignee: Northeast Normal University
Current assignee: Northeastern University China; Northeast Normal University
Priority date: 2019-07-24
Filing date: 2019-07-24
Publication date: 2019-11-15

Abstract

本发明公开了一种基于多视觉的行为测量与分析方法，包括如下步骤：(1)使用多种测量传感器监测到用户的面部姿态，然后将测量传感器接收到的数据传递到分析模块中；(2)首先使用现有的人脸检测器对输入图像进行人脸检测，对图像进行裁剪，通过人脸检测器的图像构建成为图像特征库；(3)将图像特征库中抽取样本图像，然后进行ReLU非线性激活，激活后进行归一化处理，归一化处理是为了提高模型的泛化能力；然后再将数据输入到第一、第二卷积层，第一、第二卷积层直接相连。本发明利用人脸检测器进行人脸检测，去除杂乱图像，然后利用深度卷积模型进行深度学习，进行人脸匹配，这样针对不同的人脸行为能够快速分类。

Description

一种基于多视觉的行为测量与分析方法

技术领域

本发明涉及行为测量与分析技术领域，尤其涉及一种基于多视觉的行为测量与分析方法。

背景技术

传统的人脸识别算法之所以不能满足多姿态人脸识别主要归咎于人脸姿态的变化在一定程度上会导致面部成分的移位、非线性纹理变化和自遮挡效应，这些都会很大程度的降低识别的准确率。为了解决这些问题，一系列的多姿态人脸识别算法相继被提出。在已经存在的多姿态人脸识别算法中，主要可以分为两类：一种是直接从图片中提取具有姿态鲁棒性的人脸特征，还有一种是先对人脸进行姿态标准化得到正脸图像，然后在正脸图像的基础上再进行识别。从单一的 2D人脸图片来建立人脸的3D模型会给增加过多的噪声信息，要保证建立精确的3D人脸模型是一件极其困难的事请。直接从人脸图片中提取具有姿态鲁棒性的特征的算法也可以分为两类：提取手工特征和使用机器学习模型学习出特征。提取手工特征的方法通常是直接在脸部上相呼应的语义块上进行的，因此其产生的特征对于由姿态变化引起的面部纹理的位移不敏感，且这系列的方法都建立在脸部精确对齐的基础上，脸部精确对齐目前依旧是一个很难做到的事情。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于多视觉的行为测量与分析方法，解决了目前的多姿态行为人脸识别在一定程度上会导致面部成分的移位、非线性纹理变化和自遮挡效应，这些都会很大程度的降低识别的准确率的问题。

(二)技术方案

为实现上述目的，本发明提供如下技术方案：一种基于多视觉的行为测量与分析方法，包括如下步骤：

(1)使用多种测量传感器监测到用户的面部姿态，然后将测量传感器接收到的数据传递到分析模块中；

(2)首先使用现有的人脸检测器对输入图像进行人脸检测，并将图像大小调整为250×250，然后再利用233×233大小的随机裁剪器对图像进行裁剪，最后对图像做随机镜像翻转，对图像进行随机裁剪和随机翻转的目的是为了减少训练过程中模型的过拟合现象，通过人脸检测器的图像构建成为图像特征库；

(3)将图像特征库中抽取样本图像，然后进行ReLU非线性激活，激活后进行归一化处理，归一化处理是为了提高模型的泛化能力；然后再将数据输入到第一、第二卷积层，第一、第二卷积层直接相连，在进行归一化层和池化层之后，启用了9个Inception模块，模型在不同深度处增加了两个辅助性的分类量词来保证梯度回传消失；在初期模块操作之后，经过平均池化，降低特征维度，最后进行一个1024 个神经元的全连接层和一个8类别输出的softmax函数，softmax函数产生8个人脸类别的概率值，使用Top-1错误率，即将网络输出的 8个概率值中最高值映射为1，表示深度学习网络将输入图像识别为该类，其余7个概率值映射为0，表示该输入图像不属于这些类别，最终测试值和真值进行比较，判别网络图像识别是否准确。

优选的，在步骤(3)中，第一卷积层使用了64个卷积核，大小为1×1，步长为1，第二卷积层使用了192个卷积核，大小为3×3，步长为1。

优选的，在步骤(3)中，所述卷积网络模型的梯度反向传播过程中，第l层的梯度定义如式(1)所示：

其中ω_l第l层的滤波权值参数，b_l是l层的偏置，y_l是第l层输出特征图像，f(·)是激活函数，f′是f的梯度，权值ω_l和偏置b_l的更新如式(2)、(3)所示：

其中μ为动量变量，a是动量因子，是权重延时，η为学习率，是目标函数L对ω在第i次迭代下批量样本D_i的平均梯度。

优选的，所述学习率η的计算公式如式(4)所示：

其中base_lr＝0.01，power＝0.5，t是当前迭代次数，T是最大迭代次数。

优选的，在步骤(2)中，采用SVM分类器对图像进行分类，首先设定SVM分类器的数目，准备训练样本集合，包括正样本集和负样本集，正样本集为多张一种类别图像图像，负样本集为多张其它类别图像；手动截取所有正样本集中的图像轮廓和负样本集中的图像轮廓；提取所有正样本集中的图像轮廓的HOG特征和负样本集中的图像轮廓的HOG特征，进行SVM分类器训练，得到性能优化的SVM分类器。

优选的，在步骤(2)中，所述对待采集的原图像进行二值化，包括：设定灰度阈值，将采集的的原图像中灰度值低于灰度阈值的像素点的灰度值设置为1，将采集的的原图像中灰度值高于灰度阈值的像素点的灰度值设置为0，从而实现待识别的原图像的二值化。

(三)有益效果

本发明提供了一种基于多视觉的行为测量与分析方法，具备有以下有益效果：本发明基于深度学习的机器学习技术为图像自动识别提供了强有力的支持。与传统手工提取图像特征进行图像分类和识别的方式不同，深度学习通过建立类似于人脑的分层模型结构，自动对输入图像逐级提取从底层到高层的特征，从而能很好地建立从底层信号到高层语义的映射关系。深度学习应用于图像识别不但大大提升了准确性，而且避免了人工特征抽取的时间消耗，从而大大提高了在线计算效率，适合于学生行为的自动识别与分类。本发明根据人脸图谱分类，选出常见的8类行为类别，通过数据采集模块不断的采集到图像数据，经过数据清洗，得到图像特征库。本发明采用深度卷积神经网络网络模型，使用数据集扩增(Data augmentation)技术，运用 fine-tune方法将人脸图像输入模型中进行训练，再用不同于训练集中的图像数据集进行网络测试，达到收敛为止。该网络模型识别精度高，可为学生行为远程自动诊断提供关键技术支持。通过对学生行为的不断分析，将学生的行为进行分类，当学生出现分心、开小差或者发呆的时候，能够及时提醒到学生，使老师督促学生恢复正常上课的状态。针对不同的人脸能够快速识别。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现提出下述实施例：

一种基于多视觉的行为测量与分析方法，包括如下步骤：

(2)首先使用现有的人脸检测器对输入图像进行人脸检测，采用SVM分类器对图像进行分类，首先设定SVM分类器的数目，准备训练样本集合，包括正样本集和负样本集，正样本集为多张一种类别图像图像，负样本集为多张其它类别图像；手动截取所有正样本集中的图像轮廓和负样本集中的图像轮廓；提取所有正样本集中的图像轮廓的HOG特征和负样本集中的图像轮廓的HOG特征，进行SVM分类器训练，得到性能优化的SVM分类器，然后对待采集的原图像进行二值化，包括：设定灰度阈值，将采集的的原图像中灰度值低于灰度阈值的像素点的灰度值设置为1，将采集的的原图像中灰度值高于灰度阈值的像素点的灰度值设置为0，从而实现待识别的原图像的二值化，并将图像大小调整为250×250，然后再利用233×233大小的随机裁剪器对图像进行裁剪，最后对图像做随机镜像翻转，对图像进行随机裁剪和随机翻转的目的是为了减少训练过程中模型的过拟合现象，通过人脸检测器的图像构建成为图像特征库；

(3)将图像特征库中抽取样本图像，然后进行ReLU非线性激活，激活后进行归一化处理，归一化处理是为了提高模型的泛化能力；然后再将数据输入到第一、第二卷积层，第一、第二卷积层直接相连，在进行归一化层和池化层之后，启用了9个Inception模块，模型在不同深度处增加了两个辅助性的分类量词来保证梯度回传消失；在初期模块操作之后，经过平均池化，降低特征维度，最后进行一个1024 个神经元的全连接层和一个8类别输出的softmax函数，softmax函数产生8个人脸类别的概率值，使用Top-1错误率，即将网络输出的 8个概率值中最高值映射为1，表示深度学习网络将输入图像识别为该类，其余7个概率值映射为0，表示该输入图像不属于这些类别，最终测试值和真值进行比较，判别网络图像识别是否准确，第一卷积层使用了64个卷积核，大小为1×1，步长为1，第二卷积层使用了192个卷积核，大小为3×3，步长为1，所述卷积网络模型的梯度反向传播过程中，第l层的梯度定义如式(1)所示：

其中μ为动量变量，α是动量因子，是权重延时，η为学习率，是目标函数L对ω在第i次迭代下批量样本D_i的平均梯度；所述学习率η的计算公式如式(4)所示：

本发明基于深度学习的机器学习技术为图像自动识别提供了强有力的支持。与传统手工提取图像特征进行图像分类和识别的方式不同，深度学习通过建立类似于人脑的分层模型结构，自动对输入图像逐级提取从底层到高层的特征，从而能很好地建立从底层信号到高层语义的映射关系。深度学习应用于图像识别不但大大提升了准确性，而且避免了人工特征抽取的时间消耗，从而大大提高了在线计算效率，适合于学生行为的自动识别与分类。本发明根据人脸图谱分类，选出常见的8类行为类别，通过数据采集模块不断的采集到图像数据，经过数据清洗，得到人脸图像库。本发明采用深度卷积神经网络网络模型，使用数据集扩增(Data augmentation)技术，运用 fine-tune方法将人脸图像输入模型中进行训练，再用不同于训练集中的图像数据集进行网络测试，达到收敛为止。该网络模型识别精度高，可为学生行为远程自动诊断提供关键技术支持。通过对学生行为的不断分析，将学生的行为进行分类，当学生出现分心、开小差或者发呆的时候，能够及时提醒到学生，使老师督促学生恢复正常上课的状态。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于多视觉的行为测量与分析方法，其特征在于：包括如下步骤：

(3)将图像特征库中抽取样本图像，然后进行ReLU非线性激活，激活后进行归一化处理，归一化处理是为了提高模型的泛化能力；然后再将数据输入到第一、第二卷积层，第一、第二卷积层直接相连，在进行归一化层和池化层之后，启用了9个Inception模块，模型在不同深度处增加了两个辅助性的分类量词来保证梯度回传消失；在初期模块操作之后，经过平均池化，降低特征维度，最后进行一个1024个神经元的全连接层和一个8类别输出的softmax函数，softmax函数产生8个人脸类别的概率值，使用Top-1错误率，即将网络输出的8个概率值中最高值映射为1，表示深度学习网络将输入图像识别为该类，其余7个概率值映射为0，表示该输入图像不属于这些类别，最终测试值和真值进行比较，判别网络图像识别是否准确。

2.根据权利要求1所述的一种基于多视觉的行为测量与分析方法，其特征在于：在步骤(3)中，第一卷积层使用了64个卷积核，大小为1×1，步长为1，第二卷积层使用了192个卷积核，大小为3×3，步长为1。

3.根据权利要求1所述的一种基于多视觉的行为测量与分析方法，其特征在于：在步骤(3)中，所述卷积网络模型的梯度反向传播过程中，第l层的梯度定义如式(1)所示：

其中μ为动量变量，α是动量因子，是权重延时，η为学习率，是目标函数L对ω在第i次迭代下批量样本D_i的平均梯度。

4.根据权利要求3所述的一种基于多视觉的行为测量与分析方法，其特征在于：所述学习率η的计算公式如式(4)所示：

5.根据权利要求1所述的一种基于多视觉的行为测量与分析方法，其特征在于：在步骤(2)中，采用SVM分类器对图像进行分类，首先设定SVM分类器的数目，准备训练样本集合，包括正样本集和负样本集，正样本集为多张一种类别图像图像，负样本集为多张其它类别图像；手动截取所有正样本集中的图像轮廓和负样本集中的图像轮廓；提取所有正样本集中的图像轮廓的HOG特征和负样本集中的图像轮廓的HOG特征，进行SVM分类器训练，得到性能优化的SVM分类器。

6.根据权利要求1所述的一种基于多视觉的行为测量与分析方法，其特征在于：在步骤(2)中，所述对待采集的原图像进行二值化，包括：设定灰度阈值，将采集的的原图像中灰度值低于灰度阈值的像素点的灰度值设置为1，将采集的的原图像中灰度值高于灰度阈值的像素点的灰度值设置为0，从而实现待识别的原图像的二值化。