CN110458049A - 一种基于多视觉的行为测量与分析方法 - Google Patents

一种基于多视觉的行为测量与分析方法 Download PDF

Info

Publication number
CN110458049A
CN110458049A CN201910669696.XA CN201910669696A CN110458049A CN 110458049 A CN110458049 A CN 110458049A CN 201910669696 A CN201910669696 A CN 201910669696A CN 110458049 A CN110458049 A CN 110458049A
Authority
CN
China
Prior art keywords
image
face
method based
analysis method
visions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910669696.XA
Other languages
English (en)
Inventor
孔俊
王建中
吕英华
郑彩侠
齐妙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Northeast Normal University
Original Assignee
Northeast Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeast Normal University filed Critical Northeast Normal University
Priority to CN201910669696.XA priority Critical patent/CN110458049A/zh
Publication of CN110458049A publication Critical patent/CN110458049A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多视觉的行为测量与分析方法,包括如下步骤:(1)使用多种测量传感器监测到用户的面部姿态,然后将测量传感器接收到的数据传递到分析模块中;(2)首先使用现有的人脸检测器对输入图像进行人脸检测,对图像进行裁剪,通过人脸检测器的图像构建成为图像特征库;(3)将图像特征库中抽取样本图像,然后进行ReLU非线性激活,激活后进行归一化处理,归一化处理是为了提高模型的泛化能力;然后再将数据输入到第一、第二卷积层,第一、第二卷积层直接相连。本发明利用人脸检测器进行人脸检测,去除杂乱图像,然后利用深度卷积模型进行深度学习,进行人脸匹配,这样针对不同的人脸行为能够快速分类。

Description

一种基于多视觉的行为测量与分析方法
技术领域
本发明涉及行为测量与分析技术领域,尤其涉及一种基于多视觉的行为测量与分析方法。
背景技术
传统的人脸识别算法之所以不能满足多姿态人脸识别主要归咎于人脸姿态的变化在一定程度上会导致面部成分的移位、非线性纹理变化和自遮挡效应,这些都会很大程度的降低识别的准确率。为了解决这些问题,一系列的多姿态人脸识别算法相继被提出。在已经存在的多姿态人脸识别算法中,主要可以分为两类:一种是直接从图片中提取具有姿态鲁棒性的人脸特征,还有一种是先对人脸进行姿态标准化得到正脸图像,然后在正脸图像的基础上再进行识别。从单一的 2D人脸图片来建立人脸的3D模型会给增加过多的噪声信息,要保证建立精确的3D人脸模型是一件极其困难的事请。直接从人脸图片中提取具有姿态鲁棒性的特征的算法也可以分为两类:提取手工特征和使用机器学习模型学习出特征。提取手工特征的方法通常是直接在脸部上相呼应的语义块上进行的,因此其产生的特征对于由姿态变化引起的面部纹理的位移不敏感,且这系列的方法都建立在脸部精确对齐的基础上,脸部精确对齐目前依旧是一个很难做到的事情。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于多视觉的行为测量与分析方法,解决了目前的多姿态行为人脸识别在一定程度上会导致面部成分的移位、非线性纹理变化和自遮挡效应,这些都会很大程度的降低识别的准确率的问题。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:一种基于多视觉的行为测量与分析方法,包括如下步骤:
(1)使用多种测量传感器监测到用户的面部姿态,然后将测量传感器接收到的数据传递到分析模块中;
(2)首先使用现有的人脸检测器对输入图像进行人脸检测,并将图像大小调整为250×250,然后再利用233×233大小的随机裁剪器对图像进行裁剪,最后对图像做随机镜像翻转,对图像进行随机裁剪和随机翻转的目的是为了减少训练过程中模型的过拟合现象,通过人脸检测器的图像构建成为图像特征库;
(3)将图像特征库中抽取样本图像,然后进行ReLU非线性激活,激活后进行归一化处理,归一化处理是为了提高模型的泛化能力;然后再将数据输入到第一、第二卷积层,第一、第二卷积层直接相连,在进行归一化层和池化层之后,启用了9个Inception模块,模型在不同深度处增加了两个辅助性的分类量词来保证梯度回传消失;在初期模块操作之后,经过平均池化,降低特征维度,最后进行一个1024 个神经元的全连接层和一个8类别输出的softmax函数,softmax函数产生8个人脸类别的概率值,使用Top-1错误率,即将网络输出的 8个概率值中最高值映射为1,表示深度学习网络将输入图像识别为该类,其余7个概率值映射为0,表示该输入图像不属于这些类别,最终测试值和真值进行比较,判别网络图像识别是否准确。
优选的,在步骤(3)中,第一卷积层使用了64个卷积核,大小为1×1,步长为1,第二卷积层使用了192个卷积核,大小为3×3,步长为1。
优选的,在步骤(3)中,所述卷积网络模型的梯度反向传播过程中,第l层的梯度定义如式(1)所示:
其中ωl第l层的滤波权值参数,bl是l层的偏置,yl是第l层输出特征图像,f(·)是激活函数,f′是f的梯度,权值ωl和偏置bl的更新如式(2)、(3)所示:
其中μ为动量变量,a是动量因子,是权重延时,η为学习率,是目标函数L对ω在第i次迭代下批量样本Di的平均梯度。
优选的,所述学习率η的计算公式如式(4)所示:
其中base_lr=0.01,power=0.5,t是当前迭代次数,T是最大迭代次数。
优选的,在步骤(2)中,采用SVM分类器对图像进行分类,首先设定SVM分类器的数目,准备训练样本集合,包括正样本集和负样本集,正样本集为多张一种类别图像图像,负样本集为多张其它类别图像;手动截取所有正样本集中的图像轮廓和负样本集中的图像轮廓;提取所有正样本集中的图像轮廓的HOG特征和负样本集中的图像轮廓的HOG特征,进行SVM分类器训练,得到性能优化的SVM分类器。
优选的,在步骤(2)中,所述对待采集的原图像进行二值化,包括:设定灰度阈值,将采集的的原图像中灰度值低于灰度阈值的像素点的灰度值设置为1,将采集的的原图像中灰度值高于灰度阈值的像素点的灰度值设置为0,从而实现待识别的原图像的二值化。
(三)有益效果
本发明提供了一种基于多视觉的行为测量与分析方法,具备有以下有益效果:本发明基于深度学习的机器学习技术为图像自动识别提供了强有力的支持。与传统手工提取图像特征进行图像分类和识别的方式不同,深度学习通过建立类似于人脑的分层模型结构,自动对输入图像逐级提取从底层到高层的特征,从而能很好地建立从底层信号到高层语义的映射关系。深度学习应用于图像识别不但大大提升了准确性,而且避免了人工特征抽取的时间消耗,从而大大提高了在线计算效率,适合于学生行为的自动识别与分类。本发明根据人脸图谱分类,选出常见的8类行为类别,通过数据采集模块不断的采集到图像数据,经过数据清洗,得到图像特征库。本发明采用深度卷积神经网络网络模型,使用数据集扩增(Data augmentation)技术,运用 fine-tune方法将人脸图像输入模型中进行训练,再用不同于训练集中的图像数据集进行网络测试,达到收敛为止。该网络模型识别精度高,可为学生行为远程自动诊断提供关键技术支持。通过对学生行为的不断分析,将学生的行为进行分类,当学生出现分心、开小差或者发呆的时候,能够及时提醒到学生,使老师督促学生恢复正常上课的状态。针对不同的人脸能够快速识别。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现提出下述实施例:
一种基于多视觉的行为测量与分析方法,包括如下步骤:
(1)使用多种测量传感器监测到用户的面部姿态,然后将测量传感器接收到的数据传递到分析模块中;
(2)首先使用现有的人脸检测器对输入图像进行人脸检测,采用SVM分类器对图像进行分类,首先设定SVM分类器的数目,准备训练样本集合,包括正样本集和负样本集,正样本集为多张一种类别图像图像,负样本集为多张其它类别图像;手动截取所有正样本集中的图像轮廓和负样本集中的图像轮廓;提取所有正样本集中的图像轮廓的HOG特征和负样本集中的图像轮廓的HOG特征,进行SVM分类器训练,得到性能优化的SVM分类器,然后对待采集的原图像进行二值化,包括:设定灰度阈值,将采集的的原图像中灰度值低于灰度阈值的像素点的灰度值设置为1,将采集的的原图像中灰度值高于灰度阈值的像素点的灰度值设置为0,从而实现待识别的原图像的二值化,并将图像大小调整为250×250,然后再利用233×233大小的随机裁剪器对图像进行裁剪,最后对图像做随机镜像翻转,对图像进行随机裁剪和随机翻转的目的是为了减少训练过程中模型的过拟合现象,通过人脸检测器的图像构建成为图像特征库;
(3)将图像特征库中抽取样本图像,然后进行ReLU非线性激活,激活后进行归一化处理,归一化处理是为了提高模型的泛化能力;然后再将数据输入到第一、第二卷积层,第一、第二卷积层直接相连,在进行归一化层和池化层之后,启用了9个Inception模块,模型在不同深度处增加了两个辅助性的分类量词来保证梯度回传消失;在初期模块操作之后,经过平均池化,降低特征维度,最后进行一个1024 个神经元的全连接层和一个8类别输出的softmax函数,softmax函数产生8个人脸类别的概率值,使用Top-1错误率,即将网络输出的 8个概率值中最高值映射为1,表示深度学习网络将输入图像识别为该类,其余7个概率值映射为0,表示该输入图像不属于这些类别,最终测试值和真值进行比较,判别网络图像识别是否准确,第一卷积层使用了64个卷积核,大小为1×1,步长为1,第二卷积层使用了192个卷积核,大小为3×3,步长为1,所述卷积网络模型的梯度反向传播过程中,第l层的梯度定义如式(1)所示:
其中ωl第l层的滤波权值参数,bl是l层的偏置,yl是第l层输出特征图像,f(·)是激活函数,f′是f的梯度,权值ωl和偏置bl的更新如式(2)、(3)所示:
其中μ为动量变量,α是动量因子,是权重延时,η为学习率,是目标函数L对ω在第i次迭代下批量样本Di的平均梯度;所述学习率η的计算公式如式(4)所示:
其中base_lr=0.01,power=0.5,t是当前迭代次数,T是最大迭代次数。
本发明基于深度学习的机器学习技术为图像自动识别提供了强有力的支持。与传统手工提取图像特征进行图像分类和识别的方式不同,深度学习通过建立类似于人脑的分层模型结构,自动对输入图像逐级提取从底层到高层的特征,从而能很好地建立从底层信号到高层语义的映射关系。深度学习应用于图像识别不但大大提升了准确性,而且避免了人工特征抽取的时间消耗,从而大大提高了在线计算效率,适合于学生行为的自动识别与分类。本发明根据人脸图谱分类,选出常见的8类行为类别,通过数据采集模块不断的采集到图像数据,经过数据清洗,得到人脸图像库。本发明采用深度卷积神经网络网络模型,使用数据集扩增(Data augmentation)技术,运用 fine-tune方法将人脸图像输入模型中进行训练,再用不同于训练集中的图像数据集进行网络测试,达到收敛为止。该网络模型识别精度高,可为学生行为远程自动诊断提供关键技术支持。通过对学生行为的不断分析,将学生的行为进行分类,当学生出现分心、开小差或者发呆的时候,能够及时提醒到学生,使老师督促学生恢复正常上课的状态。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (6)

1.一种基于多视觉的行为测量与分析方法,其特征在于:包括如下步骤:
(1)使用多种测量传感器监测到用户的面部姿态,然后将测量传感器接收到的数据传递到分析模块中;
(2)首先使用现有的人脸检测器对输入图像进行人脸检测,并将图像大小调整为250×250,然后再利用233×233大小的随机裁剪器对图像进行裁剪,最后对图像做随机镜像翻转,对图像进行随机裁剪和随机翻转的目的是为了减少训练过程中模型的过拟合现象,通过人脸检测器的图像构建成为图像特征库;
(3)将图像特征库中抽取样本图像,然后进行ReLU非线性激活,激活后进行归一化处理,归一化处理是为了提高模型的泛化能力;然后再将数据输入到第一、第二卷积层,第一、第二卷积层直接相连,在进行归一化层和池化层之后,启用了9个Inception模块,模型在不同深度处增加了两个辅助性的分类量词来保证梯度回传消失;在初期模块操作之后,经过平均池化,降低特征维度,最后进行一个1024个神经元的全连接层和一个8类别输出的softmax函数,softmax函数产生8个人脸类别的概率值,使用Top-1错误率,即将网络输出的8个概率值中最高值映射为1,表示深度学习网络将输入图像识别为该类,其余7个概率值映射为0,表示该输入图像不属于这些类别,最终测试值和真值进行比较,判别网络图像识别是否准确。
2.根据权利要求1所述的一种基于多视觉的行为测量与分析方法,其特征在于:在步骤(3)中,第一卷积层使用了64个卷积核,大小为1×1,步长为1,第二卷积层使用了192个卷积核,大小为3×3,步长为1。
3.根据权利要求1所述的一种基于多视觉的行为测量与分析方法,其特征在于:在步骤(3)中,所述卷积网络模型的梯度反向传播过程中,第l层的梯度定义如式(1)所示:
其中ωl第l层的滤波权值参数,bl是l层的偏置,yl是第l层输出特征图像,f(·)是激活函数,f′是f的梯度,权值ωl和偏置bl的更新如式(2)、(3)所示:
其中μ为动量变量,α是动量因子,是权重延时,η为学习率,是目标函数L对ω在第i次迭代下批量样本Di的平均梯度。
4.根据权利要求3所述的一种基于多视觉的行为测量与分析方法,其特征在于:所述学习率η的计算公式如式(4)所示:
其中base_lr=0.01,power=0.5,t是当前迭代次数,T是最大迭代次数。
5.根据权利要求1所述的一种基于多视觉的行为测量与分析方法,其特征在于:在步骤(2)中,采用SVM分类器对图像进行分类,首先设定SVM分类器的数目,准备训练样本集合,包括正样本集和负样本集,正样本集为多张一种类别图像图像,负样本集为多张其它类别图像;手动截取所有正样本集中的图像轮廓和负样本集中的图像轮廓;提取所有正样本集中的图像轮廓的HOG特征和负样本集中的图像轮廓的HOG特征,进行SVM分类器训练,得到性能优化的SVM分类器。
6.根据权利要求1所述的一种基于多视觉的行为测量与分析方法,其特征在于:在步骤(2)中,所述对待采集的原图像进行二值化,包括:设定灰度阈值,将采集的的原图像中灰度值低于灰度阈值的像素点的灰度值设置为1,将采集的的原图像中灰度值高于灰度阈值的像素点的灰度值设置为0,从而实现待识别的原图像的二值化。
CN201910669696.XA 2019-07-24 2019-07-24 一种基于多视觉的行为测量与分析方法 Pending CN110458049A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910669696.XA CN110458049A (zh) 2019-07-24 2019-07-24 一种基于多视觉的行为测量与分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910669696.XA CN110458049A (zh) 2019-07-24 2019-07-24 一种基于多视觉的行为测量与分析方法

Publications (1)

Publication Number Publication Date
CN110458049A true CN110458049A (zh) 2019-11-15

Family

ID=68483186

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910669696.XA Pending CN110458049A (zh) 2019-07-24 2019-07-24 一种基于多视觉的行为测量与分析方法

Country Status (1)

Country Link
CN (1) CN110458049A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753877A (zh) * 2020-05-19 2020-10-09 海克斯康制造智能技术(青岛)有限公司 一种基于深度神经网络迁移学习的产品质量检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101236599A (zh) * 2007-12-29 2008-08-06 浙江工业大学 基于多摄像机信息融合的人脸识别检测装置
CN106096667A (zh) * 2016-07-26 2016-11-09 江苏鸿信系统集成有限公司 基于svm的票据图像分类方法
CN108564025A (zh) * 2018-04-10 2018-09-21 广东电网有限责任公司 一种基于可变形卷积神经网络的红外图像物体识别方法
CN109409222A (zh) * 2018-09-20 2019-03-01 中国地质大学(武汉) 一种基于移动端的多视角人脸表情识别方法
CN109711471A (zh) * 2018-12-28 2019-05-03 井冈山大学 一种基于深度卷积神经网络的水稻病害图像识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101236599A (zh) * 2007-12-29 2008-08-06 浙江工业大学 基于多摄像机信息融合的人脸识别检测装置
CN106096667A (zh) * 2016-07-26 2016-11-09 江苏鸿信系统集成有限公司 基于svm的票据图像分类方法
CN108564025A (zh) * 2018-04-10 2018-09-21 广东电网有限责任公司 一种基于可变形卷积神经网络的红外图像物体识别方法
CN109409222A (zh) * 2018-09-20 2019-03-01 中国地质大学(武汉) 一种基于移动端的多视角人脸表情识别方法
CN109711471A (zh) * 2018-12-28 2019-05-03 井冈山大学 一种基于深度卷积神经网络的水稻病害图像识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753877A (zh) * 2020-05-19 2020-10-09 海克斯康制造智能技术(青岛)有限公司 一种基于深度神经网络迁移学习的产品质量检测方法
CN111753877B (zh) * 2020-05-19 2024-03-05 海克斯康制造智能技术(青岛)有限公司 一种基于深度神经网络迁移学习的产品质量检测方法

Similar Documents

Publication Publication Date Title
CN109543606B (zh) 一种加入注意力机制的人脸识别方法
CN106096535B (zh) 一种基于双线性联合cnn的人脸验证方法
CN108875674B (zh) 一种基于多列融合卷积神经网络的驾驶员行为识别方法
CN108615010B (zh) 基于平行卷积神经网络特征图融合的人脸表情识别方法
CN107273845B (zh) 一种基于置信区域和多特征加权融合的人脸表情识别方法
CN106096538B (zh) 基于定序神经网络模型的人脸识别方法及装置
CN111814661B (zh) 基于残差-循环神经网络的人体行为识别方法
CN112308158A (zh) 一种基于部分特征对齐的多源领域自适应模型及方法
CN106485214A (zh) 一种基于卷积神经网络的眼睛和嘴部状态识别方法
CN109543526B (zh) 基于深度差异性特征的真假面瘫识别系统
CN108304826A (zh) 基于卷积神经网络的人脸表情识别方法
CN106503687A (zh) 融合人脸多角度特征的监控视频人物身份识别系统及其方法
CN111488850B (zh) 一种基于神经网络的老年人跌倒检测方法
CN107563389A (zh) 一种基于深度学习的农作物病害识别方法
CN110991349B (zh) 一种基于度量学习的轻量级车辆属性识别方法
CN112597980B (zh) 一种面向动态视觉传感器的类脑手势序列识别方法
Poulose et al. Foreground extraction based facial emotion recognition using deep learning xception model
CN110378237B (zh) 基于深度度量融合网络的面部表情识别方法
CN111709266A (zh) 基于时空融合网络的面部表情识别方法
CN107066951A (zh) 一种人脸自发表情的识别方法及系统
CN108985200A (zh) 一种基于终端设备的非配合式的活体检测算法
CN113221655A (zh) 基于特征空间约束的人脸欺骗检测方法
CN102799872A (zh) 基于面部图像特征的图像处理方法
Cai et al. Cloud classification of satellite image based on convolutional neural networks
CN114492634A (zh) 一种细粒度装备图片分类识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191115