CN112036288A - 基于跨连接多特征融合卷积神经网络的面部表情识别方法 - Google Patents

基于跨连接多特征融合卷积神经网络的面部表情识别方法 Download PDF

Info

Publication number
CN112036288A
CN112036288A CN202010876454.0A CN202010876454A CN112036288A CN 112036288 A CN112036288 A CN 112036288A CN 202010876454 A CN202010876454 A CN 202010876454A CN 112036288 A CN112036288 A CN 112036288A
Authority
CN
China
Prior art keywords
network
hidden layer
layer
image
pooling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010876454.0A
Other languages
English (en)
Other versions
CN112036288B (zh
Inventor
田元
李方迪
周晓蕾
王志锋
董石
姚璜
周幂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central China Normal University
Original Assignee
Central China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central China Normal University filed Critical Central China Normal University
Priority to CN202010876454.0A priority Critical patent/CN112036288B/zh
Publication of CN112036288A publication Critical patent/CN112036288A/zh
Application granted granted Critical
Publication of CN112036288B publication Critical patent/CN112036288B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition

Abstract

本发明公开一种基于跨连接多特征融合卷积神经网络的面部表情识别方法,包括如下步骤:首先,进行人脸检测、数据预处理,减少背景信息干扰;然后,搭建一个跨连接多特征融合卷积神经网络自动提取丰富有效的面部表情特征,将网络的高低层次特征进行融合;最后,利用softmax进行面部表情分类。本发明将面部表情图像的高层次语义特征和低层次特征进行融合,充分利用每个隐藏层所学习到的特征信息,来提取更加充分、更为细致的表情特征,解决表情识别效果欠佳、鲁棒性差的问题。

Description

基于跨连接多特征融合卷积神经网络的面部表情识别方法
技术领域
本发明属于基于深度学习的面部表情识别技术领域,具体涉及到一种基于跨连接多特征融合卷积神经网络的面部表情识别方法。
背景技术
面部表情识别的一般步骤包括人脸检测、图像预处理、表情特征提取以及表情分类。当前关于人脸检测、图像预处理和表情分类的算法研究已经相对比较成熟,表情特征提取这个核心环节成为了当前的研究重点。在传统的面部表情识别方法中,使用手工设计的表情特征,这依赖于专业知识和运气,难以提取到全面的信息,且对光照变化等较为敏感,在真实场景中鲁棒性不足。深度学习技术作为大数据时代的算法利器,在面部表情识别中表现出了优于传统算法的性能,一方面表现在其随着数据规模的扩增,性能将不断得到提升;另一方面它采用非手工设计的特征,能够直接有效的进行特征的自动学习和提取,减少人工特征提取的盲目性和复杂性。
在面部表情识别中最具代表性的深度学习算法是卷积神经网络(ConvolutionalNeural Networks,CNN)。李勇等首次将跨连接卷积网络模型应用于人脸表情识别,在LeNet-5网络的基础上进行改进,将网络中的池化层与全连接层融合,提取图像中的高层次特征与低层次特征,取得了不错的分类效果。Mollahosseini等受到InceptionNet的启发,将此架构应用到跨多数据库的面部表情识别问题中,采用较小的卷积提取局部特征,并利用网络的稀疏性降低过拟合和计算开销。Yang等基于VGG16设计了一种加权混合深度神经网络(Weighted mixture deep neural network,WMDNN)来自动提取LBP和灰度图像特征并进行加权融合,提高了泛化能力。现有的CNN通过不一样的滤波器进行卷积操作来提取图像数据特征,不断地使用非线性的激活函数将特征信息向后传输,逐层转变为更高层次、更为抽象的表达,最后将提取出的高层次特征直接输入目标函数进行分类任务。这种模型结构和分类方法特征提取不充分,只是把提取到的特征向后传输,忽略了低层次的细节特征。而对于面部表情数据来说,某些表情类型是比较内隐、微弱而不明显的,这使得一些关键特征表现并不突出,因为其中包含了更多细微的特征。同时,网络层数的不断加深,会产生梯度的弥散问题,进而对网络的训练也会产生一定影响。
发明内容
本发明针对现有技术的不足,提出一种基于跨连接多特征融合卷积神经网络的面部表情识别方法,识别悲伤、高兴、恐惧、厌恶、惊讶、愤怒六种基本面部表情。
本发明的技术解决方案是:一种基于跨连接多特征融合卷积神经网络的面部表情识别方法,包括如下步骤:
步骤1,对训练的数据集以及需要进行表情识别的图像进行人脸检测、数据预处理,减少背景信息干扰;
步骤2,搭建一个跨连接多特征融合卷积神经网络自动提取丰富有效的面部表情特征,将网络的高低层次特征进行融合;
所述跨连接多特征融合卷积神经网络包括4个卷积层Layer1、Layer3、Layer4、Layer6,5个池化层Layer2、Layer5、Layer7、Layer9、Layer11,2个Inception V1模块和2个全连接层Layer12、Layer13;为了更好的提取表情特征,融入图像的低层次特征,将池化层Layer5、Layer7、Layer9、Layer11所获得的特征直接跨层送入全连接层同高层次语义信息进行特征融合作为目标函数的输入;
步骤3,利用softmax进行面部表情分类,首先利用训练的数据集对跨连接多特征融合卷积神经网络进行训练,然后利用训练好的网络对需要进行表情识别的图像进行识别。
进一步的,所述步骤1的具体实现包括以下子步骤,
步骤1.1,人脸检测;具体实施方法是,采用HOG-SVM算法进行人脸检测,去除大量与面部表情无关的多余背景信息,仅保面部图像作为表情识别的输入数据,降低网络对不同面部表情特征提取的难度;
步骤1.2,数据样本扩充及图像裁剪;具体实施方法是,采用图像缩放、图像裁剪、图像翻转、图像镜像以及添加高斯噪声对获得的面部图像数据进行扩充,扩充后,得到的数据较实际采集得到的面部图像数量扩大了4倍,然后,将所有面部图像尺寸统一为224×224,单位:像素;
步骤1.3,对面部图像数据进行标准化处理;具体实施方法是,采用Z-score标准化方法对数据进行标准化处理。
进一步的,所述步骤2的具体实现包括以下子步骤:
步骤2中跨连接多特征融合卷积神经网络的参数设置如下,其中k为滤波器的大小,n为通道数量,s为步长;
Figure BDA0002652753930000031
该网络除第一层以外均采用3×3的滤波器去构建卷积层,采用2×2的滤波器去构建池化层;第一层采用7×7的卷积核;网络的最后一个池化层采用平均池化,其余池化层均使用最大池化的方式进行采样。
进一步的,步骤3中整个网络的训练过程分为正向传播和反向传播,其中正向传播通过反复利用网络结构中的卷积、池化操作逐层提取输入数据的特征后,进行数学变换得到一个关于分类或回归结果的预测值;反向传播采用BP反向传播算法传递误差,根据误差不断调整权重参数值,不断的进行迭代,直到网络模型收敛;
以给定的学习情感面部表情图像作为输入,整个网络的计算过程如下:
Figure BDA0002652753930000041
上式中:
xinput表示输入图像;
Figure BDA0002652753930000042
表示某个样本在网络中第1个隐藏层经过卷积处理后得到的第j个图像,
Figure BDA0002652753930000043
Figure BDA0002652753930000044
分别表示第1个隐藏层的第j个卷积核的权重和偏置;
Figure BDA0002652753930000045
表示某个样本在网络中第2个隐藏层经过池化处理后得到的第j个图像;
Figure BDA0002652753930000046
表示某个样本在网络中第3个隐藏层经过卷积处理后得到的第j个图像,
Figure BDA0002652753930000047
Figure BDA0002652753930000048
分别表示第3个隐藏层的第j个卷积核的权重和偏置;
Figure BDA0002652753930000049
表示某个样本在网络中第4个隐藏层经过卷积处理后得到的第j个图像,
Figure BDA00026527539300000410
Figure BDA00026527539300000411
分别表示第4个隐藏层的第j个卷积核的权重和偏置;
Figure BDA00026527539300000412
表示某个样本在网络中第5个隐藏层经过池化处理后得到的第j个图像;
Figure BDA00026527539300000413
表示某个样本在网络中第6个隐藏层经过卷积处理后得到的第j个图像,
Figure BDA00026527539300000414
Figure BDA00026527539300000415
分别表示第6个隐藏层的第j个卷积核的权重和偏置;
Figure BDA00026527539300000416
表示某个样本在网络中第7个隐藏层经过池化处理后得到的第j个图像;
Figure BDA0002652753930000051
表示某个样本在网络中第8个隐藏层经过Inception V1卷积处理后得到的第j个图像,
Figure BDA0002652753930000052
分别对应第8个隐藏层中Inception V1模块中的四个分支;
Figure BDA0002652753930000053
表示某个样本在网络中第9个隐藏层经过池化处理后得到的第j个图像;
Figure BDA0002652753930000054
表示某个样本在网络中第10个隐藏层经过Inception V1卷积处理后得到的第j个图像,
Figure BDA0002652753930000055
分别对应第10个隐藏层中Inception V1模块中的四个分支;
Figure BDA0002652753930000056
表示某个样本在网络中第11个隐藏层经过池化处理后得到的第j个图像;
L12表示将浅层特征
Figure BDA0002652753930000057
和深层特征
Figure BDA0002652753930000058
作为输入经过全连接处理后得到的第12个隐藏层的输出结果,w5、w7、w9、w11分别表示第5个隐藏层、第7个隐藏层、第9个隐藏层、第11个隐藏层所对应的权重,b12表示偏置;
L13表示将第12层特征作为输入经过全连接处理后得到的第13个隐藏层的输出结果;
output表示分类结果的输出层,在该层采用了softmax目标函数进行表情分类,w和b分别表示权重和偏置;
Figure BDA0002652753930000059
表示卷积操作,也即矩阵元素乘法求和,相当于做了一个矩阵内积运算;
down(·)表示池化操作;
max(·)表示采用最大值池化采样;
avg(·)表示采用平均值池化采样;
FilterConcat(·)表示在Inception V1模块中将4个分支的特征图按深度连接起来的操作。
进一步的,ReLU函数的数学表达公式如下所示:
Figure BDA00026527539300000510
对于一个经过滤波器的输出来说,ReLU函数把所有的负数都变成了0,正数保持不变,当x≥0时,它的梯度为1,这使得梯度不会饱和,且收敛速度更快。
进一步的,步骤3中使用Adam梯度下降优化算法,对权重系数进行更新,以保证训练稳定的同时,让学习率会随着训练次数的增加去自动的进行调整变化,同时使用批量标准化的手段来避免变量分布偏移,缓解梯度不稳定的问题,其更新的公式如下:
Figure BDA00026527539300000511
其中t为迭代次数,w为权重参数,α为学习率,
Figure BDA00026527539300000512
为mt的修正,
Figure BDA00026527539300000513
是vt的修正,ε为一个极小的数,防止分母为0;
Figure BDA0002652753930000061
Figure BDA0002652753930000062
mt=β1mt-1+gt(1-β1)
Figure BDA0002652753930000063
其中β1和β2为常数,用于控制指数衰减;gt表示梯度,mt和vt分别表示样本一阶矩和二阶矩的有偏估计。
进一步的,学习率α=0.001,β1=0.9,β1=0.999,ε=1e-8,每次批处理也就是每个batch的大小设置为32,即在训练阶段,每轮迭代都将32个样本输入给网络,进行一次权重的更新,所有图像循环处理2000次。
进一步的,步骤3利用softmax进行面部表情分类的实现过程如下,
softmax位于网络的最后一层,通过计算输出结果概率完成最终的分类任务,softmax分类结果是一个概率分布向量,其每个分量代表了所输入样本为哪一类别的概率,最后的分类结果即为概率值最大的分量所对应的类别,采用交叉熵作为损失函数,来衡量网络对数据的拟合程度,该函数的表达式如下所示:
Figure BDA0002652753930000064
其中,zi表示输入样本的真实值,yi表示softmax输出值,K表示分类数。
与现有技术相比,本发明的优点及有益效果是:本发明将面部表情图像的高层次语义特征和低层次特征进行融合,充分利用每个隐藏层所学习到的特征信息,来提取更加充分、更为细致的表情特征,解决表情识别效果欠佳、鲁棒性差的问题。
附图说明
图1是本发明实施例中步骤2所搭建的跨连接多特征融合卷积神经网络结构图;
图2是本发明实施例中步骤2引入Inception V1结构图。
具体实施方式
本发明提供了一种基于跨连接多特征融合卷积神经网络的面部表情识别方法。
下面结合附图和实施例对本发明的技术方案作进一步说明。
本实施例的具体实施包括以下步骤:
步骤1,对训练的数据集以及需要进行表情识别的图像进行人脸检测、数据预处理,减少背景信息干扰,步骤1的具体实施方式包括如下子步骤:
步骤1.1,训练数据集的构建。本发明招募了69人作为被试者,其中男性22人,女性47人。采用观看诱导视频的方式,录制被试者的面部表情视频。然后播放录制的视频,并由被试者和一名实验员给出自己判断的表情标签,对于被试者而言更关注面部表情背后隐藏的真实情感,而实验员仅从图像层面来判断。如果两者给出的表情标签一致,则直接选择对应的表情标签,如果两人意见不一致则通过第二名实验员进行判断,给出最终的表情标签。标注完成后,对录制的视频每隔10帧自动提取一张图像,所有的图像将自动存储到六种表情对应的文件夹中。
步骤1.2,对训练的数据集以及需要进行表情识别的图像进行人脸检测。具体实施方法是,采用HOG-SVM算法进行人脸检测,去除大量与面部表情无关的多余背景信息,仅保面部图像作为表情识别的输入数据,降低网络对不同面部表情特征提取的难度;
步骤1.3,对训练的数据集以及需要进行表情识别的图像进行数据样本扩充及图像裁剪。具体实施方法是,采用图像缩放、图像裁剪、图像翻转、图像镜像以及添加高斯噪声对获得的面部图像数据进行扩充。扩充后,得到的数据较实际采集得到的面部图像数量扩大了4倍。然后,将所有面部图像尺寸统一为224×224(单位:像素)。
步骤1.4,对训练的数据集以及需要进行表情识别的面部图像数据进行标准化处理。具体实施方法是,采用Z-score标准化方法对数据进行标准化处理。首先,计算每一个通道上数据的均值;然后,在每一个通道上都减去该均值;最后,在数据的每一个通道上除以该维度上数据的标准差。转换公式为:z=x-μ/σ,其中μ为每个通道上数据的均值,σ为每个通道上数据的标准差。本发明最终得到有效面部表情录制视频372段,表情序列736组以及表情图像8912张,分辨率为224×224(单位:像素),其中49人佩戴眼镜,有部分图像的表情特征被手、头发等覆盖。
步骤2,搭建一个跨连接多特征融合卷积神经网络自动提取丰富有效的面部表情特征,将网络的高低层次特征进行融合,步骤2的具体实施方式包括如下子步骤:
步骤2.1,向构建的跨连接多特征融合卷积神经网络输入224×224(单位为像素)大小的RGB三通道面部表情图像。
步骤2.2,搭建跨连接多特征融合卷积神经网络。具体实施方法是,其结构如附图1所示,该网络共13层。包括卷积层(Layer1、Layer3、Layer4、Layer6)、池化层(Layer2、Layer5、Layer7、Layer9、Layer11)、2个Inception V1模块和2个全连接层(Layer12、Layer13)。为了更好的提取表情特征,融入图像的低层次特征,将池化层Layer5、Layer7、Layer9、Layer11所获得的特征直接跨层送入全连接层同高层次语义信息进行特征融合作为目标函数的输入,将浅层特征和深层特征进行concat连接,融合到全连接层,满足高低层次的特征融合。这里根据实践经验,仅使用了相对靠近目标函数的几层特征,因为越深层特征包含的高层语义越强,分辨力也会越强。
步骤2.3,设置网络结构参数。具体实施方法是,对于本发明提出的跨连接多特征融合卷积神经网络进行参数设置,其参数设置如表1所示,其中k为滤波器的大小,n为通道数量,s为步长。
表1跨连接多特征融合卷积神经网络的参数设置
Figure BDA0002652753930000081
该网络除第一层以外均采用3×3的滤波器去构建卷积层,采用2×2的滤波器去构建池化层。第一层采用7×7的卷积核,是考虑到输入图像尺寸较大,用较大的滤波器可以通过更大的感受野学习到更多的空间特征;同时在第三层和第四层用了两个堆积的3×3卷积层去表征图像更多的复杂特征,这种方式可以看作一层5×5的卷积层,而每多一个卷积层就多做了一次非线性变换,这样会使得模型学习到更多特征,提高决策函数判决力,拟合能力更强,同时也会相对减少参数量。网络的最后一个池化层采用平均池化,其余池化层均使用最大池化的方式进行采样。
此外,引入了两个Inception V1模块进行调整,如附图2所示。Inception V1模块的优势在于同一层上同时使用多种卷积核,可以看到各种层级的特征,多种视野域提升了提取特征的丰富性,增强了网络的表达能力;不同组之间的特征不交叉计算,既可以显著缩小表示层规模,又在不降低网络性能的情况下节省了计算量。
步骤2.4,网络模型训练和计算。具体实施方法是,整个网络的训练过程分为正向传播和反向传播,其中正向传播通过反复利用网络结构中的卷积、池化操作逐层提取输入数据的特征后,进行数学变换得到一个关于分类或回归结果的预测值;反向传播采用BP(Back Propagation)反向传播算法传递误差,是梯度下降算法在神经网络上的一个具体的计算过程,根据误差不断调整权重参数值,不断的进行迭代,直到网络模型收敛。
以给定的学习情感面部表情图像作为输入,整个网络的计算过程如下:
Figure BDA0002652753930000091
上式中:
xinput表示输入图像。
Figure BDA0002652753930000101
表示某个样本在网络中第1个隐藏层经过卷积处理后得到的第j个图像,
Figure BDA0002652753930000102
Figure BDA0002652753930000103
分别表示第1个隐藏层的第j个卷积核的权重和偏置。
Figure BDA0002652753930000104
表示某个样本在网络中第2个隐藏层经过池化处理后得到的第j个图像。
Figure BDA0002652753930000105
表示某个样本在网络中第3个隐藏层经过卷积处理后得到的第j个图像,
Figure BDA0002652753930000106
Figure BDA0002652753930000107
分别表示第3个隐藏层的第j个卷积核的权重和偏置。
Figure BDA0002652753930000108
表示某个样本在网络中第4个隐藏层经过卷积处理后得到的第j个图像,
Figure BDA0002652753930000109
Figure BDA00026527539300001010
分别表示第4个隐藏层的第j个卷积核的权重和偏置。
Figure BDA00026527539300001011
表示某个样本在网络中第5个隐藏层经过池化处理后得到的第j个图像。
Figure BDA00026527539300001012
表示某个样本在网络中第6个隐藏层经过卷积处理后得到的第j个图像,
Figure BDA00026527539300001013
Figure BDA00026527539300001014
分别表示第6个隐藏层的第j个卷积核的权重和偏置。
Figure BDA00026527539300001015
表示某个样本在网络中第7个隐藏层经过池化处理后得到的第j个图像。
Figure BDA00026527539300001016
表示某个样本在网络中第8个隐藏层经过Inception V1卷积处理后得到的第j个图像,
Figure BDA00026527539300001017
分别对应第8个隐藏层中Inception V1模块中的四个分支。
Figure BDA00026527539300001018
表示某个样本在网络中第9个隐藏层经过池化处理后得到的第j个图像。
Figure BDA00026527539300001019
表示某个样本在网络中第10个隐藏层经过Inception V1卷积处理后得到的第j个图像,
Figure BDA00026527539300001020
分别对应第10个隐藏层中Inception V1模块中的四个分支。
Figure BDA00026527539300001021
表示某个样本在网络中第11个隐藏层经过池化处理后得到的第j个图像。
L12表示将浅层特征
Figure BDA00026527539300001022
和深层特征
Figure BDA00026527539300001023
作为输入经过全连接处理后得到的第12个隐藏层的输出结果,w5、w7、w9、w11分别表示第5个隐藏层、第7个隐藏层、第9个隐藏层、第11个隐藏层所对应的权重,b12表示偏置。
L13表示将第12层特征作为输入经过全连接处理后得到的第13个隐藏层的输出结果。
output表示分类结果的输出层,在该层采用了softmax目标函数进行表情分类,w和b分别表示权重和偏置。
Figure BDA00026527539300001024
表示卷积操作,也即矩阵元素乘法求和,相当于做了一个矩阵内积运算。
f(·)函数为ReLU激活函数,通过该函数进行非线性变化,ReLU函数的数学表达公式如下所示:
Figure BDA0002652753930000111
ReLU函数计算非常高效,相较于Sigmoid函数和tanh函数等不需要计算指数,计算复杂度低,也大大节省耗时。对于一个经过滤波器的输出来说,ReLU函数把所有的负数都变成了0,正数保持不变。当x≥0时,它的梯度为1,这使得梯度不会饱和,且收敛速度更快。
down(·)表示池化操作。
max(·)表示采用最大值池化采样。
avg(·)表示采用平均值池化采样。
FilterConcat(·)表示在Inception V1模块中将4个分支的特征图按深度连接起来的一个操作。
在正向传播的末端会经过损失函数来计算出预测值与真实的标注值之间的误差,利用误差和损失函数的函数关系,借助链式求导法则可以进行回溯,将误差从网络末端逐层向前反馈,对每一个参数求偏导,然后利用学习率去更新参数,一步步进行迭代。正向传播、反向传播反复交替循环,直到模型收敛,从而达到训练的目的。
本发明使用了Adam梯度下降优化算法,对权重系数进行更新,以保证训练稳定的同时,让学习率会随着训练次数的增加去自动的进行调整变化。同时使用批量标准化的手段来避免变量分布偏移,缓解梯度不稳定的问题。其更新的公式如下:
Figure BDA0002652753930000112
其中t为迭代次数,w为权重参数,α为学习率,
Figure BDA0002652753930000113
为mt的修正,
Figure BDA0002652753930000114
是vt的修正,ε为一个极小的数,防止分母为0。
Figure BDA0002652753930000115
Figure BDA0002652753930000116
mt=β1mt-1+gt(1-β1)
Figure BDA0002652753930000117
其中β1和β2为常数,用于控制指数衰减;gt表示梯度,mt和vt分别表示样本一阶矩和二阶矩的有偏估计。
在本发明中,按照在Tensorflow深度学习库中的应用经验,将参数设置如下:学习率α=0.001,β1=0.9,β1=0.999,ε=1e-8。每次批处理也就是每个batch的大小设置为32,即在训练阶段,每轮迭代都将32个样本输入给模型,进行一次权重的更新,所有图像循环处理2000次。
同时,由于初始化的结果跟初始化后各层的激活值分布是相关的,本发明采用了He-ReLU初始化方法对参数进行初始化,该方法在代码中体现为:
#W=np.random.randn(fan_in,fan_out)/np.sqrt(fan_in)
上式用到了Python的NumPY库的randn()函数,其中fan_in表示输入通道数,fan_out表示输出通道数,randn()函数在fan_in和fan_out之间随机选择一个数,然后用这个值去除以输入通道数一半的平方根,将得到的值去做初始化,给参数赋值。
进一步的,步骤3利用softmax对待分类的图像进行面部表情分类的具体实施方法是,softmax位于网络的最后一层,通过计算输出结果概率完成最终的分类任务。softmax分类结果是一个概率分布向量,其每个分量代表了所输入样本为哪一类别的概率,最后的分类结果即为概率值最大的分量所对应的类别。本发明采用交叉熵作为损失函数,来衡量网络对数据的拟合程度,该函数的表达式如下所示:
Figure BDA0002652753930000121
其中,zi表示输入样本的真实值,yi表示softmax输出值,K表示分类数。对于卷积神经网络的训练,就是通过调整参数使网络模型在训练集上的损失函数最小,使得神经网络学到数据中的规律。
如表2所示,本发明所设计的一种基于跨连接多特征融合卷积神经网络的面部表情识别方法表现较好,且在构建的训练数据集上较VGG-16和ResNet-30的训练效果更好。这说明本发明将高低层次特征进行融合处理来增加网络的非线性表达,同时引入InceptionV1模块使网络学习到的特征更加丰富的方法,对于面部表情识别来说是有效的。
表2与现有方法的对比
Figure BDA0002652753930000122
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (8)

1.一种基于跨连接多特征融合卷积神经网络的面部表情识别方法,其特征在于,包括如下步骤:
步骤1,对训练的数据集以及需要进行表情识别的图像进行人脸检测、数据预处理,减少背景信息干扰;
步骤2,搭建一个跨连接多特征融合卷积神经网络自动提取丰富有效的面部表情特征,将网络的高低层次特征进行融合;
所述跨连接多特征融合卷积神经网络包括4个卷积层Layer1、Layer3、Layer4、Layer6,5个池化层Layer2、Layer5、Layer7、Layer9、Layer11,2个Inception V1模块和2个全连接层Layer12、Layer13;为了更好的提取表情特征,融入图像的低层次特征,将池化层Layer5、Layer7、Layer9、Layer11所获得的特征直接跨层送入全连接层同高层次语义信息进行特征融合作为目标函数的输入;
步骤3,利用softmax进行面部表情分类,首先利用训练的数据集对跨连接多特征融合卷积神经网络进行训练,然后利用训练好的网络对需要进行表情识别的图像进行识别。
2.如权利要求1所述的一种基于跨连接多特征融合卷积神经网络的面部表情识别方法,其特征在于:所述步骤1的具体实现包括以下子步骤,
步骤1.1,人脸检测;具体实施方法是,采用HOG-SVM算法进行人脸检测,去除大量与面部表情无关的多余背景信息,仅保面部图像作为表情识别的输入数据,降低网络对不同面部表情特征提取的难度;
步骤1.2,数据样本扩充及图像裁剪;具体实施方法是,采用图像缩放、图像裁剪、图像翻转、图像镜像以及添加高斯噪声对获得的面部图像数据进行扩充,扩充后,得到的数据较实际采集得到的面部图像数量扩大了4倍,然后,将所有面部图像尺寸统一为224×224,单位:像素;
步骤1.3,对面部图像数据进行标准化处理;具体实施方法是,采用Z-score标准化方法对数据进行标准化处理。
3.如权利要求1所述的一种基于跨连接多特征融合卷积神经网络的面部表情识别方法,其特征在于:所述步骤2的具体实现包括以下子步骤:
步骤2中跨连接多特征融合卷积神经网络的参数设置如下,其中k为滤波器的大小,n为通道数量,s为步长;
Figure FDA0002652753920000011
Figure FDA0002652753920000021
该网络除第一层以外均采用3×3的滤波器去构建卷积层,采用2×2的滤波器去构建池化层;第一层采用7×7的卷积核;网络的最后一个池化层采用平均池化,其余池化层均使用最大池化的方式进行采样。
4.如权利要求3所述的一种基于跨连接多特征融合卷积神经网络的面部表情识别方法,其特征在于:步骤3中整个网络的训练过程分为正向传播和反向传播,其中正向传播通过反复利用网络结构中的卷积、池化操作逐层提取输入数据的特征后,进行数学变换得到一个关于分类或回归结果的预测值;反向传播采用BP反向传播算法传递误差,根据误差不断调整权重参数值,不断的进行迭代,直到网络模型收敛;
以给定的学习情感面部表情图像作为输入,整个网络的计算过程如下:
Figure FDA0002652753920000031
上式中:
xinput表示输入图像;
Figure FDA0002652753920000032
表示某个样本在网络中第1个隐藏层经过卷积处理后得到的第j个图像,
Figure FDA0002652753920000033
Figure FDA0002652753920000034
分别表示第1个隐藏层的第j个卷积核的权重和偏置;
Figure FDA0002652753920000035
表示某个样本在网络中第2个隐藏层经过池化处理后得到的第j个图像;
Figure FDA0002652753920000036
表示某个样本在网络中第3个隐藏层经过卷积处理后得到的第j个图像,
Figure FDA0002652753920000037
Figure FDA0002652753920000038
分别表示第3个隐藏层的第j个卷积核的权重和偏置;
Figure FDA0002652753920000039
表示某个样本在网络中第4个隐藏层经过卷积处理后得到的第j个图像,
Figure FDA00026527539200000310
Figure FDA00026527539200000311
分别表示第4个隐藏层的第j个卷积核的权重和偏置;
Figure FDA00026527539200000312
表示某个样本在网络中第5个隐藏层经过池化处理后得到的第j个图像;
Figure FDA00026527539200000313
表示某个样本在网络中第6个隐藏层经过卷积处理后得到的第j个图像,
Figure FDA00026527539200000314
Figure FDA00026527539200000315
分别表示第6个隐藏层的第j个卷积核的权重和偏置;
Figure FDA00026527539200000316
表示某个样本在网络中第7个隐藏层经过池化处理后得到的第j个图像;
Figure FDA0002652753920000041
表示某个样本在网络中第8个隐藏层经过Inception V1卷积处理后得到的第j个图像,
Figure FDA0002652753920000042
分别对应第8个隐藏层中Inception V1模块中的四个分支;
Figure FDA0002652753920000043
表示某个样本在网络中第9个隐藏层经过池化处理后得到的第j个图像;
Figure FDA0002652753920000044
表示某个样本在网络中第10个隐藏层经过Inception V1卷积处理后得到的第j个图像,
Figure FDA0002652753920000045
分别对应第10个隐藏层中Inception V1模块中的四个分支;
Figure FDA0002652753920000046
表示某个样本在网络中第11个隐藏层经过池化处理后得到的第j个图像;
L12表示将浅层特征
Figure FDA0002652753920000047
和深层特征
Figure FDA0002652753920000048
作为输入经过全连接处理后得到的第12个隐藏层的输出结果,w5、w7、w9、w11分别表示第5个隐藏层、第7个隐藏层、第9个隐藏层、第11个隐藏层所对应的权重,b12表示偏置;
L13表示将第12层特征作为输入经过全连接处理后得到的第13个隐藏层的输出结果;
output表示分类结果的输出层,在该层采用了softmax目标函数进行表情分类,w和b分别表示权重和偏置;
Figure FDA0002652753920000049
表示卷积操作,也即矩阵元素乘法求和,相当于做了一个矩阵内积运算;
down(·)表示池化操作;
max(·)表示采用最大值池化采样;
avg(·)表示采用平均值池化采样;
FilterConcat(·)表示在InceptionV1模块中将4个分支的特征图按深度连接起来的操作。
5.如权利要求4所述的一种基于跨连接多特征融合卷积神经网络的面部表情识别方法,其特征在于:ReLU函数的数学表达公式如下所示:
Figure FDA00026527539200000410
对于一个经过滤波器的输出来说,ReLU函数把所有的负数都变成了0,正数保持不变,当x≥0时,它的梯度为1,这使得梯度不会饱和,且收敛速度更快。
6.如权利要求5所述的一种基于跨连接多特征融合卷积神经网络的面部表情识别方法,其特征在于:步骤3中使用Adam梯度下降优化算法,对权重系数进行更新,以保证训练稳定的同时,让学习率会随着训练次数的增加去自动的进行调整变化,同时使用批量标准化的手段来避免变量分布偏移,缓解梯度不稳定的问题,其更新的公式如下:
Figure FDA00026527539200000411
其中t为迭代次数,w为权重参数,α为学习率,
Figure FDA0002652753920000051
为mt的修正,
Figure FDA0002652753920000052
是vt的修正,ε为一个极小的数,防止分母为0;
Figure FDA0002652753920000053
Figure FDA0002652753920000054
mt=β1mt-1+gt(1-β1)
Figure FDA0002652753920000055
其中β1和β2为常数,用于控制指数衰减;gt表示梯度,mt和vt分别表示样本一阶矩和二阶矩的有偏估计。
7.如权利要求6所述的一种基于跨连接多特征融合卷积神经网络的面部表情识别方法,其特征在于:学习率α=0.001,β1=0.9,β1=0.999,ε=1e-8,每次批处理也就是每个batch的大小设置为32,即在训练阶段,每轮迭代都将32个样本输入给网络,进行一次权重的更新,所有图像循环处理2000次。
8.如权利要求1所述的一种基于跨连接多特征融合卷积神经网络的面部表情识别方法,其特征在于:步骤3利用softmax进行面部表情分类的实现过程如下,
softmax位于网络的最后一层,通过计算输出结果概率完成最终的分类任务,softmax分类结果是一个概率分布向量,其每个分量代表了所输入样本为哪一类别的概率,最后的分类结果即为概率值最大的分量所对应的类别,采用交叉熵作为损失函数,来衡量网络对数据的拟合程度,该函数的表达式如下所示:
Figure FDA0002652753920000056
其中,zi表示输入样本的真实值,yi表示softmax输出值,K表示分类数。
CN202010876454.0A 2020-08-27 2020-08-27 基于跨连接多特征融合卷积神经网络的面部表情识别方法 Active CN112036288B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010876454.0A CN112036288B (zh) 2020-08-27 2020-08-27 基于跨连接多特征融合卷积神经网络的面部表情识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010876454.0A CN112036288B (zh) 2020-08-27 2020-08-27 基于跨连接多特征融合卷积神经网络的面部表情识别方法

Publications (2)

Publication Number Publication Date
CN112036288A true CN112036288A (zh) 2020-12-04
CN112036288B CN112036288B (zh) 2022-03-15

Family

ID=73580899

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010876454.0A Active CN112036288B (zh) 2020-08-27 2020-08-27 基于跨连接多特征融合卷积神经网络的面部表情识别方法

Country Status (1)

Country Link
CN (1) CN112036288B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112509046A (zh) * 2020-12-10 2021-03-16 电子科技大学 一种弱监督的卷积神经网络图像目标定位方法
CN112530019A (zh) * 2020-12-11 2021-03-19 中国科学院深圳先进技术研究院 三维人体重建方法、装置、计算机设备和存储介质
CN112560701A (zh) * 2020-12-17 2021-03-26 成都新潮传媒集团有限公司 一种人脸图像提取方法、装置及计算机存储介质
CN113642467A (zh) * 2021-08-16 2021-11-12 江苏师范大学 一种基于改进vgg网络模型的人脸表情识别方法
CN113743422A (zh) * 2021-09-07 2021-12-03 西安建筑科技大学 多特征信息融合的人群密度估计方法、设备及存储介质
CN113792574A (zh) * 2021-07-14 2021-12-14 哈尔滨工程大学 一种基于度量学习和教师学生模型的跨数据集表情识别方法
CN114202794A (zh) * 2022-02-17 2022-03-18 之江实验室 一种基于人脸ppg信号的疲劳检测方法和装置
CN114529746A (zh) * 2022-04-02 2022-05-24 广西科技大学 基于低秩子空间一致性的图像聚类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778444A (zh) * 2015-11-23 2017-05-31 广州华久信息科技有限公司 一种基于多视图卷积神经网络的表情识别方法
CN107657204A (zh) * 2016-07-25 2018-02-02 中国科学院声学研究所 深层网络模型的构建方法及人脸表情识别方法和系统
CN109886190A (zh) * 2019-02-20 2019-06-14 哈尔滨工程大学 一种基于深度学习的人脸表情和姿态双模态融合表情识别方法
US20190311188A1 (en) * 2018-12-05 2019-10-10 Sichuan University Face emotion recognition method based on dual-stream convolutional neural network

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778444A (zh) * 2015-11-23 2017-05-31 广州华久信息科技有限公司 一种基于多视图卷积神经网络的表情识别方法
CN107657204A (zh) * 2016-07-25 2018-02-02 中国科学院声学研究所 深层网络模型的构建方法及人脸表情识别方法和系统
US20190311188A1 (en) * 2018-12-05 2019-10-10 Sichuan University Face emotion recognition method based on dual-stream convolutional neural network
CN109886190A (zh) * 2019-02-20 2019-06-14 哈尔滨工程大学 一种基于深度学习的人脸表情和姿态双模态融合表情识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHRISTOPHER PRAMERDORFER,ET AL: "《Facial Expression Recognition using Convolutional Neural Networks:State of the Art》", 《ARXIV:1612.02903V1》 *
陈慧萍: "《基于深度学习的人脸表情识别的研究》", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112509046A (zh) * 2020-12-10 2021-03-16 电子科技大学 一种弱监督的卷积神经网络图像目标定位方法
CN112509046B (zh) * 2020-12-10 2021-09-21 电子科技大学 一种弱监督的卷积神经网络图像目标定位方法
CN112530019A (zh) * 2020-12-11 2021-03-19 中国科学院深圳先进技术研究院 三维人体重建方法、装置、计算机设备和存储介质
CN112560701A (zh) * 2020-12-17 2021-03-26 成都新潮传媒集团有限公司 一种人脸图像提取方法、装置及计算机存储介质
CN113792574A (zh) * 2021-07-14 2021-12-14 哈尔滨工程大学 一种基于度量学习和教师学生模型的跨数据集表情识别方法
CN113792574B (zh) * 2021-07-14 2023-12-19 哈尔滨工程大学 一种基于度量学习和教师学生模型的跨数据集表情识别方法
CN113642467A (zh) * 2021-08-16 2021-11-12 江苏师范大学 一种基于改进vgg网络模型的人脸表情识别方法
CN113642467B (zh) * 2021-08-16 2023-12-01 江苏师范大学 一种基于改进vgg网络模型的人脸表情识别方法
CN113743422A (zh) * 2021-09-07 2021-12-03 西安建筑科技大学 多特征信息融合的人群密度估计方法、设备及存储介质
CN113743422B (zh) * 2021-09-07 2024-05-03 西安建筑科技大学 多特征信息融合的人群密度估计方法、设备及存储介质
CN114202794A (zh) * 2022-02-17 2022-03-18 之江实验室 一种基于人脸ppg信号的疲劳检测方法和装置
CN114529746A (zh) * 2022-04-02 2022-05-24 广西科技大学 基于低秩子空间一致性的图像聚类方法
CN114529746B (zh) * 2022-04-02 2024-04-12 广西科技大学 基于低秩子空间一致性的图像聚类方法

Also Published As

Publication number Publication date
CN112036288B (zh) 2022-03-15

Similar Documents

Publication Publication Date Title
CN112036288B (zh) 基于跨连接多特征融合卷积神经网络的面部表情识别方法
CN107122809B (zh) 基于图像自编码的神经网络特征学习方法
CN110532900B (zh) 基于U-Net和LS-CNN的人脸表情识别方法
CN109101938B (zh) 一种基于卷积神经网络的多标签年龄估计方法
CN109948692B (zh) 基于多颜色空间卷积神经网络及随机森林的计算机生成图片检测方法
CN110263174B (zh) —基于焦点关注的主题类别分析方法
CN111339847A (zh) 一种基于图卷积神经网络的人脸情绪识别方法
CN113749657B (zh) 一种基于多任务胶囊的脑电情绪识别方法
CN111582397A (zh) 一种基于注意力机制的cnn-rnn图像情感分析方法
CN110889335B (zh) 基于多通道时空融合网络人体骨架双人交互行为识别方法
CN111340187B (zh) 基于对抗注意力机制的网络表征方法
CN113011487B (zh) 一种基于联合学习与知识迁移的开放集图像分类方法
CN114596605A (zh) 一种多特征融合的表情识别方法
CN113297936A (zh) 一种基于局部图卷积网络的排球群体行为识别方法
Xu Mt-resnet: a multi-task deep network for facial attractiveness prediction
Chen et al. Intelligent teaching evaluation system integrating facial expression and behavior recognition in teaching video
Jadhav et al. Content based facial emotion recognition model using machine learning algorithm
CN111382684A (zh) 基于对抗学习的角度鲁棒的个性化人脸表情识别方法
CN113553917B (zh) 一种基于脉冲迁移学习的办公设备识别方法
CN111160161B (zh) 一种基于噪声剔除的自步学习人脸年龄估计方法
CN114358195A (zh) 一种基于改进vgg16网络的中医复杂体质辨识方法
Dembani et al. UNSUPERVISED FACIAL EXPRESSION DETECTION USING GENETIC ALGORITHM.
CN113505740A (zh) 基于迁移学习和卷积神经网络的面部识别方法
CN111209433A (zh) 一种基于特征增强的视频分类算法
CN113011436A (zh) 一种基于卷积神经网络的中医舌色苔色协同分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20201204

Assignee: Hubei ZHENGBO Xusheng Technology Co.,Ltd.

Assignor: CENTRAL CHINA NORMAL University

Contract record no.: X2024980001275

Denomination of invention: Facial expression recognition method based on cross connected multi feature fusion convolutional neural network

Granted publication date: 20220315

License type: Common License

Record date: 20240124

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20201204

Assignee: Hubei Rongzhi Youan Technology Co.,Ltd.

Assignor: CENTRAL CHINA NORMAL University

Contract record no.: X2024980001548

Denomination of invention: Facial expression recognition method based on cross connected multi feature fusion convolutional neural network

Granted publication date: 20220315

License type: Common License

Record date: 20240126