CN111582059B - 一种基于变分自编码器的人脸表情识别方法 - Google Patents

一种基于变分自编码器的人脸表情识别方法 Download PDF

Info

Publication number
CN111582059B
CN111582059B CN202010313704.XA CN202010313704A CN111582059B CN 111582059 B CN111582059 B CN 111582059B CN 202010313704 A CN202010313704 A CN 202010313704A CN 111582059 B CN111582059 B CN 111582059B
Authority
CN
China
Prior art keywords
face
image
training
encoder
angle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010313704.XA
Other languages
English (en)
Other versions
CN111582059A (zh
Inventor
董红斌
许劲
张万松
杨磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202010313704.XA priority Critical patent/CN111582059B/zh
Publication of CN111582059A publication Critical patent/CN111582059A/zh
Application granted granted Critical
Publication of CN111582059B publication Critical patent/CN111582059B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明属于视觉图像处理领域,尤其涉及人脸表情识别技术领域,具体涉及一种基于变分自编码器的人脸表情识别方法。本发明首先利用卷积神经网络预测输入人脸图像的面部姿势,并且通过改进损失函数和调整人脸边界框的边距大小提高面部姿势估计的准确度,然后将经过处理的人脸图像输入到变分自编码器中,通过给定人脸图像中姿势和表情属性的概率分布,生成不同姿势和表情的人脸图像来扩充表情识别模型的训练集,从而解决模型在训练的过程中,由于头部姿势偏转造成的识别精度不高和缺乏足够的训练数据造成的过拟合问题。最后利用生成图像和原始图像一起作为训练数据对分类器模型进行训练,实现非正面人脸表情识别。

Description

一种基于变分自编码器的人脸表情识别方法
技术领域
本发明属于视觉图像处理领域,尤其涉及人脸表情识别技术领域,具体涉及一种基于变分自编码器的人脸表情识别方法。
背景技术
人脸表情识别是人脸识别技术的重要组成部分,现已广泛应用于处理各种计算机视觉任务。人脸表情识别是指利用计算机技术获取人脸表情图像、检测人脸表情区域、提取表情特征和对表情特征进行分类的过程。目前,人脸表情识别的方法主要分为两大类,即传统的人脸表情识别方法和基于深度学习的人脸表情识别方法。
传统的人脸表情识别方法主要包括主成分分析法(PCA)、独立分量分析法(ICA)、几何法、光流法、模型法。传统的人脸表情识别方法主要根据人脸产生表情时的人脸形状和纹理的不同来区分不同的面部表情,具有易于理论证明和实现简单等优点,然而识别精度并不理想,不能很好地推广到现实的各种应用场景中。
基于深度学习的人脸表情识别方法在计算机视觉处理方面不断取得突破,由于深度学习中的神经网络,特别是卷积神经网络(CNN),能够有效地从人脸表情图像中提取表情特征信息,并且对于提取的表情特征能够进行有效地预测分类,大大提高了人脸表情识别的效率和准确率。目前,基于深度学习的人脸表情识别研究中,还可以通过对网络层的卷积神经网络层,递归神经网络层和全连接层等进行组合形成新的网络形式。
然而,现有的人脸表情识别研究面临着五大难题,它们分别是面部姿势的偏转、面部的配准误差、面部上有遮挡物、光照的变化和不同身份的差异。其中,面部姿势的偏转是造成配准误差和面部遮挡的一个重要原因。但是大多数方法在解决人脸表情识别时没有考虑到非正面人脸图像的特殊性,当涉及到人脸检测和面部姿势估计时又分开进行处理,无法构成一个统一的完整系统,不是一种端到端的方法。并且在非正面的人脸表情识别模型的训练过程中,由于缺乏足够的训练样本,容易导致过度拟合问题。
发明内容
本发明的目的在于提供解决非正面人脸表情识别研究过程中由于头部姿势偏转、配准误差带来人脸信息的缺失以及缺乏足够的训练样本而造成的过拟合问题,提高人脸表情识别的准确度的一种基于变分自编码器的人脸表情识别方法。
本发明的目的通过如下技术方案来实现:包括以下步骤:
步骤1:输入待识别的人脸图像数据集,取部分人脸图像构建训练集;
步骤2:通过Lib人脸检测算法对训练集中人脸图像进行处理,获得每幅图像中人脸的方形边界框;
步骤3:从训练集中选择一幅带有方形边界框的人脸图像,在边界框的基础上基于不同的边距对人脸图像进行裁剪,获得不同边距的人脸方形边界框图像;
步骤4:将不同边距的人脸方形边界框图像输入到预先训练好的卷积神经网络模型中,卷积神经网络模型输出人脸图像的三个欧拉角,即左右翻转角、平面旋转角、上下俯仰角;
步骤5:通过组合损失函数,比较不同边距下人脸图像欧拉角的平均误差,确定最优的边距K;将最优边距K时卷积神经网络模型输出的三个欧拉角作为人脸图像的面部姿势;
步骤6:判断是否完成训练集中全部人脸图像的面部姿势提取;若未完成,返回步骤3;
步骤7:将训练集中的人脸图像输入到变分自编码器中进行训练;
步骤8:变分自编码器训练完成后,在正态分布N(0,I)下进行采样,将采样到的隐变量向量输入到变分自编码器的解码器中进行重构,生成不同姿势和表情的人脸图像;
步骤9:将步骤8中生成的图像与步骤7中训练集的原始图像共同作为训练样本输入到分类器模型中进行训练,学习不同姿势和表情的人脸图像的特征信息;
步骤10:将待识别的人脸图像数据集中其他人脸图像输入到训练好的分类器模型中,通过分类器模型中的全连接层对特征信息进行分类,实现非正面条件下不同姿势的人脸表情识别。
本发明还可以包括:
所述的步骤7中将训练集中的人脸图像输入到变分自编码器中进行训练的方法具体为:
步骤7.1:通过变分自编码器对人脸图像的特征进行学习,获得人脸图像的均值向量和方差向量;
步骤7.2:将人脸图像的均值向量和方差向量按照正态分布N(0,I)进行采样,得到包含不同姿势和表情潜在属性的隐变量向量;
步骤7.3:构建模型的反向传播;计算生成的隐变量向量的数据分布与正态分布N(0,I)的距离,同时计算生成数据与原始数据间的交叉熵损失;将两种损失值放在一起,通过Adma的随机梯度下降算法来实现在训练中的优化参数。
所述的步骤4中预先训练好的卷积神经网络模型为在ImageNet数据集上预先训练的ResNet50卷积神经网络,在最后的平均池化层后面放置3个模块,分别用于输出翻转角,偏转角和俯仰角三个欧拉角的预测;将[-90°,+90°]区间分为181类,每一类对应一个角度值;ResNet50对图像中人脸姿势的翻转角,偏转角和俯仰角分别使用离散数和连续数来预测同一个角度,三个模块都从ResNet50的平均池化层接收相同的输出1×1×2048;通过使用2048×1的全连接层FC1将从ResNet50获得的输出映射成单个连续的数字,使用2048×181的全连接层FC181将输出通过激活函数softmax分别获得181个类别的概率。
所述的步骤5中的组合损失函数具体为:
Figure BDA0002458780430000031
其中,α是权衡两个损失的权重;回归损失函数LMSE表示的是均方误差;LMSE的公式如下所示:
Figure BDA0002458780430000032
其中,yi是第i个样本的真实角度;
Figure BDA0002458780430000033
是第i个样本的预测角度;
分类损失函数LS采用温度缩放的方式使得每个类的分数分布更广;LS的公式如下所示:
Figure BDA0002458780430000034
其中,Wj是最后一个全连接层的第j列;T是温度缩放参数。
本发明的有益效果在于:
本发明首先利用卷积神经网络预测输入人脸图像的面部姿势,并且通过改进损失函数和调整人脸边界框的边距大小提高面部姿势估计的准确度,然后将经过处理的人脸图像输入到变分自编码器中,通过给定人脸图像中姿势和表情属性的概率分布,生成不同姿势和表情的人脸图像来扩充表情识别模型的训练集,从而解决模型在训练的过程中,由于头部姿势偏转造成的识别精度不高和缺乏足够的训练数据造成的过拟合问题。最后利用生成图像和原始图像一起作为训练数据对分类器模型进行训练,实现非正面人脸表情识别。
附图说明
图1为一种基于变分自编码器的人脸表情识别方法的框架图。
图2为一种基于变分自编码器的人脸表情识别方法的流程图。
图3为一种基于变分自编码器的人脸表情识别方法的裁剪示例图。
图4为一种基于变分自编码器的人脸表情识别方法中实现人脸姿势估计的架构图。
图5为一种基于变分自编码器的人脸表情识别方法中变分自编码器生成图像的原理图。
具体实施方式
下面结合附图对本发明做进一步描述。
本发明提出了一种基于变分自编码器的人脸表情识别方法,为了解决非正面人脸表情识别研究过程中由于头部姿势偏转、配准误差带来人脸信息的缺失以及缺乏足够的训练样本而造成的过拟合问题,从而提高人脸表情识别的准确度。本发明首先利用卷积神经网络(CNN)预测输入人脸图像的面部姿势,并且通过改进损失函数和调整人脸边界框的边距大小提高面部姿势估计的准确度。然后将经过处理的人脸图像输入到变分自编码器中,通过给定人脸图像中姿势和表情属性的概率分布,生成不同姿势和表情的人脸图像来扩充表情识别模型的训练集,解决由于缺乏足够的训练数据造成的过拟合问题。最后利用生成图像和原始图像一起作为训练数据对分类器模型进行训练,实现非正面人脸表情识别。
一种基于变分自编码器的人脸表情识别方法,利用CNN模型对人脸图像的进行预处理,估计人脸图像的面部姿势,然后输入到变分自编码器中生成不同姿势和表情的面部图像,最后利用生成图像和原始图像对分类器模型进行训练从而实现高精度的非正面人脸表情识别。
步骤1:通过人脸检测算法对人脸图像进行处理,获得图像中人脸的方形边界框;
步骤2:获得人脸方形边界框后,将使用不同的边距对图像进行裁剪,并且将裁剪后的人脸图像输入到CNN模型中;
步骤3:将CNN模型对人脸图像进行处理并改进模型中的损失函数,输出人脸图像的左右翻转角、平面旋转角、上下俯仰角;
步骤4:通过组合损失函数,比较不同边距的人脸边界框的平均误差大小,确定人脸边界框的最优边距;
步骤5:通过训练CNN模型获得最优边距下面部姿势的三个欧拉角,解开人脸图像中的面部姿势;
步骤6:将经过上述步骤处理的人脸图像输入到变分自编码器中,编码器学习图像中的特征信息,通过均值方差计算模块得到人脸图像的均值向量和方差向量;
步骤7:均值向量和方差向量通过正态分布的随机采样生成包含不同姿势和表情潜在属性的隐变量;
步骤8:将采样到的隐变量输入变分自编码器的解码器中,并且和编码器同时进行训练,从而生成不同姿势和表情的人脸图像;
步骤9:生成图像和原始图像共同作为训练样本输入到分类器模型中进行训练,学习不同姿势和表情的人脸图像的特征信息;
步骤10:通过分类器模型中的全连接层对特征信息进行分类,实现非正面条件下不同姿势的人脸表情识别。
本发明对卷积神经网络进行训练获得人脸图像的三个欧拉角(翻转角、旋转角、俯仰角),从而估计人脸图像的面部姿势。并将获得面部姿势的人脸图像输入到变分自编码器中生成不同姿势和表情的面部图像,丰富人脸表情识别模型的数据集。从而解决模型在训练的过程中,由于头部姿势偏转造成的识别精度不高和缺乏足够的训练数据造成的过拟合问题。具体来说,首先通过Lib人脸检测算法检测人脸并获得方形边界框,通过比较不同边距的人脸边界框的平均误差,裁剪出最优边距的人脸图像;将裁减后的图像输入到基于ResNet50的卷积神经网络进行学习人脸的特征信息并得到三个欧拉角,估计图像中的人脸姿势。将上述处理过的图像输入到变分自编起码中,通过调节模型中的隐变量参数,生成不同姿势和表情的人脸图像;最后用生成图像和原始图像共同训练基于VGG-19网络的人脸表情分类器,提高非正面人脸表情识别的准确度。
步骤(1):人脸图像的预处理:将ImageNet数据集中的人脸图像输入到基于ResNet50的CNN模型中进行面部姿势的估计,输出结果为人脸图像的三个欧拉角(翻转角、旋转角、俯仰角)。对于输入的每张人脸图像,都要进行以下预处理操作:
步骤(1.1):获得人脸图像的边界框:通过Lib人脸检测算法对人脸图像{X1,X2,...,Xn}进行处理,获得人脸图像的方形边界框;
步骤(1.2):裁剪人脸图像:在原有人脸图像的方形边界框上使用不同的边距K对图像进行裁剪,以找到合适的边距;
步骤(1.3):估计面部姿势:将裁剪好的不同边距的所有人脸图像输入到基于ResNet50的卷积神经网络中进行学习人脸特征信息,然后输出人脸图像的三个欧拉角,分别是翻转角、旋转角、俯仰角。
步骤(1.4):通过实验给定的组合损失函数,比较不同边距K下人脸图像欧拉角的平均误差,确定最优的边距K;
步骤(1.5):在最优边距K下训练CNN模型得到面部姿势的三个欧拉角,解开人脸图像中面部姿势;
步骤(2):生成不同姿势的人脸图像:将经过步骤(1)处理的人脸图像{X1,X2,...,Xn}输入到变分自编码器进行以下操作:
步骤(2.1):计算人脸图像的均值向量和方差向量:通过变分自编码器中编码器的均值方差计算模块学习输入图像的特征信息,得到图像的均值向量μ和方差向量σ2
步骤(2.2):通过正态分布N(0,I)进行采样:将人脸图像{X1,X2,...,Xn}的均值向量和方差向量按照标准正态分布N(0,I)进行采样,得到包含不同姿势和表情潜在属性的隐变量向量;
步骤(2.3):生成不同姿势的人脸图像:将采样的隐变量向量输入到变分自编码器的解码器中进行重构,生成不同姿势和表情的人脸图像用于分类器模型的训练;
步骤(3):训练分类器模型:将步骤(2)中带标签的生成图像和原始图像作为数据集对分类器模型进行训练。避免在非正面人脸表情识别模型的训练过程中,由于缺乏足够的训练样本而造成的过拟合问题,提高识别准确率。主要包括以下几个步骤:
步骤(3.1):人脸图像的特征提取:将步骤(2)中的生成图像和原始图像输入到基于VGG19的卷积神经网络中进行训练,提取非正面条件下人脸图像的特征信息;
步骤(3.2):全连接层进行分类:分类器模型中的全连接层将最后池化层输出的特征图转化为一维特征向量,得到6个预测值,分别代表惊讶、高兴、悲伤、愤怒、厌恶和恐惧,输入到softmax激活函数中进行分类,实现不同姿势的人脸表情识别。
实施例1:
1.通过Lib人脸检测算法检测出ImageNet数据集中的人脸图像,获得224×224大小的人脸方形边界框;
2.在原有边界框的基础上基于不同的边距对人脸图像进行裁剪,边距K分别取值{0.0,0.2,0.4,0.6,1.0},获得不同边距的人脸方形边界框图像;
3.将(2)中裁剪后的图像输入到在ImageNet数据集上预先训练的ResNet50卷积神经网络中,在最后的平均池化层后面放置3个模块,分别用于输出翻转角,偏转角和俯仰角三个欧拉角的预测。将[-90°,+90°]区间分为181类,每一类对应一个角度值。ResNet50对图像中人脸姿势的翻转角,偏转角和俯仰角分别使用离散数和连续数来预测同一个角度,三个模块都从ResNet50的平均池化层接收相同的输出1×1×2048。通过使用2048×1的全连接层FC1将从ResNet50获得的输出映射成单个连续的数字,使用2048×181的全连接层FC181将输出通过激活函数softmax分别获得181个类别的概率;
4.训练CNN模型,对每个角度使用组合损失函数。回归损失函数LMSE表示的是通过计算训练样本(i=1,2,...,n)获得的均方误差。LMSE定义如下所示:
Figure BDA0002458780430000061
其中yi是真实角度,
Figure BDA0002458780430000062
是第i个样本的预测角度。分类损失函数LS采用温度缩放的方式使得每个类的分数分布更广。LS定义如下所示:
Figure BDA0002458780430000071
其中Wj是最后一个全连接层的第j列,
Figure BDA0002458780430000072
是第i个样本的输入,yi是第i个样本的真实类;T是温度缩放参数,实验中参数值设置为2。经过上一步操作后,将两个损失相加,以计算出训练中使用的最终损失函数L。L定义如下所示:
Figure BDA0002458780430000073
其中α是权衡两个损失的权重,在整个实验中,将α设置为2。分类损失的额外使用将指导CNN获得更好的全局最优值,并且通过比较使用不同边距K的组合损失获得的欧拉角的平均误差来取最优的边距值K。
5.将经过上述步骤后处理过的人脸图像{X1,X2,...,Xn}输入到变分自编码器的编码器中。通过编码器对人脸图像的特征进行学习,获得人脸图像的均值向量μ和方差向量σ2。编码器处理后的人脸图像具有两个潜在属性,分别是表情和姿势。给定输入图像的潜在属性的概率分布,生成图像的隐变量Z,实验中使用的是正态分布N(0,I)进行采样。编码器中使用KL散度公式,来计算它所代表的集合与标准的高斯分布集合(均值是0,方差为I的正态分布)间的距离,将这个距离当成误差让它最小化从而来优化网络参数,KL散度公式如下所示:
Figure BDA0002458780430000074
其中p(x)和q(x)都是表示样本的概率分布。
6.构建模型的反向传播,比较生成的数据分布与标准高斯分布的距离,同时计算生成数据与原始数据间的交叉熵损失。最后将两种损失值放在一起,通过Adma的随机梯度下降算法来实现在训练中的优化参数;
7.设置训练参数,迭代次数为50,每个批次中训练样本的数量为128,每次循环取指定批次数据进行训练,训练时目标函数定义如下所示:
logp(X)-DKL[q(Z|X)||p(Z|X)]=Ez-q[logp(X|Z)]-DKL[q(Z|X)||p(Z)]
其中p(Z|X)表示的是后验分布,p(Z)表示的是先验分布,p(X)、q(Z|X)、p(X|Z)表示的是固定概率分布;
8.变分自编码器模型训练完成后,在标准正态分布N(0,I)下进行采样,将其映射到模型中的隐变量Z中,然后通过解码器还原成真实人脸图像;
9.将步骤(8)中的生成图像和原始图像共同作为训练集输入到基于VGG19的卷积神经网络中进行训练,提取人脸图像的特征信息。卷积神经网络模型依次包括卷积层,池化层和全连接层的组合。卷积层用于提取人脸图像中的特征信息,池化层用于特征降维,压缩数据和参数的数量,减小过拟合,提高模型的容错性,全连接层用于对提取的特征进行分类。
10.通过全连接层将CNN模型中池化层输出的特征图转化为一维特征向量,得到6个预测值,经过softmax激活函数得到最终的输出,实现不同姿势下人脸表情的分类。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于变分自编码器的人脸表情识别方法,其特征在于,包括以下步骤:
步骤1:输入待识别的人脸图像数据集,取部分人脸图像构建训练集;
步骤2:通过Lib人脸检测算法对训练集中人脸图像进行处理,获得每幅图像中人脸的方形边界框;
步骤3:从训练集中选择一幅带有方形边界框的人脸图像,在边界框的基础上基于不同的边距对人脸图像进行裁剪,获得不同边距的人脸方形边界框图像;
步骤4:将不同边距的人脸方形边界框图像输入到预先训练好的卷积神经网络模型中,卷积神经网络模型输出人脸图像的三个欧拉角,即左右翻转角、平面旋转角、上下俯仰角;
步骤5:通过组合损失函数,比较不同边距下人脸图像欧拉角的平均误差,确定最优的边距K;将最优边距K时卷积神经网络模型输出的三个欧拉角作为人脸图像的面部姿势;
步骤6:判断是否完成训练集中全部人脸图像的面部姿势提取;若未完成,返回步骤3;
步骤7:将训练集中的人脸图像输入到变分自编码器中进行训练;
步骤8:变分自编码器训练完成后,在正态分布N(0,I)下进行采样,将采样到的隐变量向量输入到变分自编码器的解码器中进行重构,生成不同姿势和表情的人脸图像;
步骤9:将步骤8中生成的图像与步骤7中训练集的原始图像共同作为训练样本输入到分类器模型中进行训练,学习不同姿势和表情的人脸图像的特征信息;
步骤10:将待识别的人脸图像数据集中其他人脸图像输入到训练好的分类器模型中,通过分类器模型中的全连接层对特征信息进行分类,实现非正面条件下不同姿势的人脸表情识别。
2.根据权利要求1所述的一种基于变分自编码器的人脸表情识别方法,其特征在于:所述的步骤7中将训练集中的人脸图像输入到变分自编码器中进行训练的方法具体为:
步骤7.1:通过变分自编码器对人脸图像的特征进行学习,获得人脸图像的均值向量和方差向量;
步骤7.2:将人脸图像的均值向量和方差向量按照正态分布N(0,I)进行采样,得到包含不同姿势和表情潜在属性的隐变量向量;
步骤7.3:构建模型的反向传播;计算生成的隐变量向量的数据分布与正态分布N(0,I)的距离,同时计算生成数据与原始数据间的交叉熵损失;将两种损失值放在一起,通过Adma的随机梯度下降算法来实现在训练中的优化参数。
3.根据权利要求1或2所述的一种基于变分自编码器的人脸表情识别方法,其特征在于:所述的步骤4中预先训练好的卷积神经网络模型为在ImageNet数据集上预先训练的ResNet50卷积神经网络,在最后的平均池化层后面放置3个模块,分别用于输出翻转角,偏转角和俯仰角三个欧拉角的预测;将[-90°,+90°]区间分为181类,每一类对应一个角度值;ResNet50对图像中人脸姿势的翻转角,偏转角和俯仰角分别使用离散数和连续数来预测同一个角度,三个模块都从ResNet50的平均池化层接收相同的输出1×1×2048;通过使用2048×1的全连接层FC1将从ResNet50获得的输出映射成单个连续的数字,使用2048×181的全连接层FC181将输出通过激活函数softmax分别获得181个类别的概率。
4.根据权利要求1所述的一种基于变分自编码器的人脸表情识别方法,其特征在于:所述的步骤5中的组合损失函数具体为:
Figure FDA0003626283970000023
其中,α是权衡两个损失的权重;回归损失函数LMSE表示的是均方误差;LMSE的公式如下所示:
Figure FDA0003626283970000021
其中,yi是第i个样本的真实角度;
Figure FDA0003626283970000024
是第i个样本的预测角度;
分类损失函数LS采用温度缩放的方式使得每个类的分数分布更广;LS的公式如下所示:
Figure FDA0003626283970000022
其中,Wj是最后一个全连接层的第j列;T是温度缩放参数。
CN202010313704.XA 2020-04-20 2020-04-20 一种基于变分自编码器的人脸表情识别方法 Active CN111582059B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010313704.XA CN111582059B (zh) 2020-04-20 2020-04-20 一种基于变分自编码器的人脸表情识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010313704.XA CN111582059B (zh) 2020-04-20 2020-04-20 一种基于变分自编码器的人脸表情识别方法

Publications (2)

Publication Number Publication Date
CN111582059A CN111582059A (zh) 2020-08-25
CN111582059B true CN111582059B (zh) 2022-07-15

Family

ID=72124400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010313704.XA Active CN111582059B (zh) 2020-04-20 2020-04-20 一种基于变分自编码器的人脸表情识别方法

Country Status (1)

Country Link
CN (1) CN111582059B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112053408B (zh) * 2020-09-04 2021-05-25 清华大学 基于深度学习的人脸图像压缩方法及装置
CN112084960B (zh) * 2020-09-11 2024-05-14 中国传媒大学 一种基于稀疏图的人脸表情识别方法
CN112528764B (zh) * 2020-11-25 2021-09-03 杭州欣禾圣世科技有限公司 人脸表情识别方法、系统、装置及可读存储介质
CN112487971A (zh) * 2020-11-30 2021-03-12 南京信息工程大学 一种面向弱标签数据进行人脸年龄合成的方法
CN112487992B (zh) * 2020-12-02 2022-07-22 重庆邮电大学 一种基于流模型的人脸情绪图像的生成方法及设备
CN112507916B (zh) * 2020-12-16 2021-07-27 苏州金瑞阳信息科技有限责任公司 一种基于面部神态的人脸检测方法和系统
CN112907725B (zh) * 2021-01-22 2023-09-26 北京达佳互联信息技术有限公司 图像生成、图像处理模型的训练、图像处理方法和装置
CN112966150A (zh) * 2021-02-26 2021-06-15 平安普惠企业管理有限公司 一种视频内容抽取的方法、装置、计算机设备及存储介质
CN113239814B (zh) * 2021-05-17 2024-02-02 平安科技(深圳)有限公司 基于光流重构的面部表情识别方法、装置、设备及介质
CN113505829B (zh) * 2021-07-09 2024-04-26 南京大学 一种基于变分自编码器的表情序列自动生成方法
CN114944002B (zh) * 2022-06-16 2024-04-16 中国科学技术大学 文本描述辅助的姿势感知的人脸表情识别方法
CN114842544B (zh) * 2022-07-04 2022-09-06 江苏布罗信息技术有限公司 一种适用于面瘫患者的智能化人脸识别方法和系统
CN115862120B (zh) * 2023-02-21 2023-11-10 天度(厦门)科技股份有限公司 可分离变分自编码器解耦的面部动作单元识别方法及设备
CN116311481B (zh) * 2023-05-19 2023-08-25 广州视景医疗软件有限公司 一种增强视线估计模型的构建方法、装置及存储介质
CN117036355B (zh) * 2023-10-10 2023-12-15 湖南大学 编码器和模型的训练方法、故障检测方法及相关设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372581A (zh) * 2016-08-25 2017-02-01 中国传媒大学 构建及训练人脸识别特征提取网络的方法
CN106599800A (zh) * 2016-11-25 2017-04-26 哈尔滨工程大学 一种基于深度学习的人脸微表情识别方法
CN109784249A (zh) * 2019-01-04 2019-05-21 华南理工大学 一种基于变分级联信息瓶颈的置乱人脸识别方法
CN109815801A (zh) * 2018-12-18 2019-05-28 北京英索科技发展有限公司 基于深度学习的人脸识别方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800648B (zh) * 2018-12-18 2021-09-28 北京英索科技发展有限公司 基于人脸关键点校正的人脸检测识别方法及装置
CN110598719A (zh) * 2019-09-11 2019-12-20 南京师范大学 一种依据视觉属性描述自动生成人脸图像的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372581A (zh) * 2016-08-25 2017-02-01 中国传媒大学 构建及训练人脸识别特征提取网络的方法
CN106599800A (zh) * 2016-11-25 2017-04-26 哈尔滨工程大学 一种基于深度学习的人脸微表情识别方法
CN109815801A (zh) * 2018-12-18 2019-05-28 北京英索科技发展有限公司 基于深度学习的人脸识别方法及装置
CN109784249A (zh) * 2019-01-04 2019-05-21 华南理工大学 一种基于变分级联信息瓶颈的置乱人脸识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CNN Model Design of Gesture Recognition Based on Tensorflow Framework;Zixian Zeng .etc;《2019 IEEE 3rd Information Technology, Networking, Electronic and Automation Control Conference》;20190317;第1062-1067页 *
有遮挡人脸识别综述:从子空间回归到深度学习;李小薪等;《计算机学报》;20180131;第41卷(第1期);第177-207页 *

Also Published As

Publication number Publication date
CN111582059A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
CN111582059B (zh) 一种基于变分自编码器的人脸表情识别方法
CN111563508B (zh) 一种基于空间信息融合的语义分割方法
US20230186056A1 (en) Grabbing detection method based on rp-resnet
CN105701502B (zh) 一种基于蒙特卡罗数据均衡的图像自动标注方法
CN100492399C (zh) 利用降维方法进行人脸姿态估计的方法
US20110141258A1 (en) Emotion recognition method and system thereof
CN110781829A (zh) 一种轻量级深度学习的智慧营业厅人脸识别方法
CN113516152B (zh) 一种基于复合图像语义的图像描述方法
CN112861970B (zh) 一种基于特征融合的细粒度图像分类方法
CN111028319A (zh) 一种基于面部运动单元的三维非真实感表情生成方法
CN111652273A (zh) 一种基于深度学习的rgb-d图像分类方法
CN113158850A (zh) 基于深度学习的船舶驾驶员疲劳检测方法和系统
CN111414875A (zh) 基于深度回归森林的三维点云头部姿态估计系统
CN112364791A (zh) 一种基于生成对抗网络的行人重识别方法和系统
CN113052017A (zh) 一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法
CN110751005B (zh) 融合深度感知特征和核极限学习机的行人检测方法
CN114049541A (zh) 基于结构化信息特征解耦与知识迁移的视觉场景识别方法
CN113033283A (zh) 一种改进的视频分类系统
CN116311514A (zh) 一种基于2d-3d坐标匹配策略的行人检测与姿态估计方法
CN113887509B (zh) 一种基于图像集合的快速多模态视频人脸识别方法
Heer et al. An improved hand gesture recognition system based on optimized msvm and sift feature extraction algorithm
CN115511061A (zh) 基于YOLOv5模型的知识蒸馏方法
CN115439926A (zh) 一种基于关键区域和场景深度的小样本异常行为识别方法
CN111273779B (zh) 基于自适应空间监督的动态手势识别方法
CN111461130B (zh) 一种高精度图像语义分割算法模型及分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant