CN110188621B - 一种基于ssf-il-cnn的三维人脸表情识别方法 - Google Patents

一种基于ssf-il-cnn的三维人脸表情识别方法 Download PDF

Info

Publication number
CN110188621B
CN110188621B CN201910383975.XA CN201910383975A CN110188621B CN 110188621 B CN110188621 B CN 110188621B CN 201910383975 A CN201910383975 A CN 201910383975A CN 110188621 B CN110188621 B CN 110188621B
Authority
CN
China
Prior art keywords
ssf
cnn
convolution
loss function
facial expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910383975.XA
Other languages
English (en)
Other versions
CN110188621A (zh
Inventor
达飞鹏
余璟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201910383975.XA priority Critical patent/CN110188621B/zh
Publication of CN110188621A publication Critical patent/CN110188621A/zh
Application granted granted Critical
Publication of CN110188621B publication Critical patent/CN110188621B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于SSF‑IL‑CNN的三维人脸表情识别方法,该方法首先对卷积神经网络结构进行改进,将卷积核拆解成结构参数与强度参数,并让两种参数分别承担初始化和更新的任务,使得原本需要借助大量样本进行训练的卷积神经网络,能够应用于样本规模较小的三维人脸表情库。同时,本方法提出采用Island Loss函数构建卷积神经网络中的损失函数,加强网络对人脸表情的敏感性与区分度,提升表情识别的效果。

Description

一种基于SSF-IL-CNN的三维人脸表情识别方法
技术领域
本发明涉及一种基于SSF-IL-CNN的三维人脸表情识别方法,属于计算机视觉中三维图像识别的领域。
背景技术
三维人脸表情识别技术指的是基于人脸的三维数据,计算机实现对人脸表情识别的技术。这项技术在人机交互和心理学研究等领域具有巨大的应用潜力。与二维数据相比,人脸的三维数据不受光线、姿态、角度等因素的影响,同时包含更丰富的几何信息和拓扑特征,因此基于三维人脸数据的表情识别研究近年来获得了更广泛的关注。面对复杂多样的应用场景,针对三维人脸表情识别任务生成特定的特征将变得更加困难,不仅耗费人力,效果还易受到特征性能的制约,此时,考虑采用卷积神经网络搭建三维人脸表情识别算法,可能突破构造特征性能的“天花板”,获得满意的效果。借助卷积层、池化层、激活函数、全链接层和目标函数等基本构件的有机组合,卷积神经网络能够实现自动的特征学习,实现从原始数据到高层语义的“端到端”映射,大幅提升了识别性能。
实现卷积神经网络在三维人脸表情识别的应用,需要解决两大技术难点。第一,改进卷积核的初始化方法。目前大部分学者选择采用预训练卷积核作为初始值、再进行微调的方法。然而由于二次训练集(即三维人脸表情数据库)样本数量较少,易导致参数训练不够充分,发生过拟合现象,进而识别性能大打折扣。同时,由于二次训练集和原始数据库在内容上有较大差异,因此二次训练的过程可能会非常复杂,例如需要根据模型的层深对不同的网络层设置不同的学习率,或是需要借助多目标学习框架进行参数微调。此外,二次训练过程一般需要重新调整所有卷积核参数,工作量较大,时间成本较高。因此,微调卷积核的方法存在多重弊端。为了从根本上解决三维人脸表情识别问题,需要改进卷积核初始化的方法。第二,卷积神经网络的损失函数对表情变化的敏感性有待增强。损失函数是识别任务中的“指挥官”,通过误差反馈实现对参数更新过程的干预,因此损失函数的性能对整个网络的识别效果有重要的影响。然而,由于人脸表情的变化不显著,并且存在较多的干扰信息,因此需要针对表情识别任务,改进网络的损失函数。
发明内容
为了实现计算机对三维人脸表情的特征提取,提升识别结果并降低人工工作量,本发明提供了一种基于SSF-IL-CNN的三维人脸表情识别方法。该方法首先对卷积神经网络结构进行改进,将卷积核拆解成结构参数与强度参数,并让两种参数分别承担初始化和更新的任务,使得原本需要借助大量样本进行训练的卷积神经网络,能够应用于样本规模较小的三维人脸表情库。同时,本方法提出采用Island Loss函数构建卷积神经网络中的损失函数,加强网络对人脸表情的敏感性与区分度,提升表情识别的效果。
本发明为解决上述技术问题采用以下技术方案:
本发明提供一种基于SSF-IL-CNN的三维人脸表情识别方法,所述SSF-IL-CNN包括卷积层、池化层、激活函数、全链接层和损失函数,该识别方法包括以下步骤:
步骤1,生成三维人脸对应的深度图像和纹理图像;
步骤2,分别对步骤1中的深度图像和纹理图像进行归一化处理;
步骤3,基于归一化后的深度图像和纹理图像,进行字典学习,得到字典矩阵和稀疏表示;
步骤4,采用字典矩阵初始化卷积核的结构参数;
步骤5,搭建SSF-IL-CNN的损失函数;
步骤6,更新卷积核强度参数,完成SSF-IL-CNN模型的训练;
步骤7,根据步骤6中训练完成的SSF-IL-CNN模型,进行三维人脸表情识别。
作为本发明的进一步技术方案,步骤1中对三维人脸进行人脸切割和姿态矫正的预处理后,生成三维人脸对应的深度图像和纹理图像。
作为本发明的进一步技术方案,步骤3中字典学习的目标函数为:
Figure GDA0004193768310000021
其中,Y为输入数据,D为字典矩阵,α为稀疏表示,‖·‖1表示L1范数操作,‖·‖2表示L2范数操作,μ为大于0的稀疏正则化系数。
作为本发明的进一步技术方案,步骤3中字典学习的次数由卷积层的层数决定,每次学习的字典矩阵大小由对应卷积层卷积核的个数决定。
作为本发明的进一步技术方案,步骤5中损失函数为:
LSSF-IL=LS+βLIL
其中,LS为Softmax函数,
Figure GDA0004193768310000022
N为用于训练的人脸样本总数,C为人脸样本的表情个数,yi为第i个人脸样本的真实表情,yi∈{1,2,…,C},/>
Figure GDA0004193768310000023
表示人脸样本预测表情值等于真实表情的概率,/>
Figure GDA0004193768310000024
表示卷积神经网络预测人脸表情为k的概率,k=1,2,…,C;LIL为Island Loss函数,/>
Figure GDA0004193768310000025
Figure GDA0004193768310000026
为真实表情为yi的所有卷积特征的均值,‖·‖2表示向量的二范数,ck和cj分别表示第k类和第j类深度特征的中心,Xi是真实表情为yi的样本对应的卷积特征,σ为调节参数。
作为本发明的进一步技术方案,步骤6中将弹性网络正则化加入损失函数:L′=LSSF-I1|t|12|t|2,其中,L′为最终损失函数,λ1和λ2分别为L1正则化和L2正则化的系数,t为卷积核强度参数。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:本发明针对三维人脸表情识别问题,提出改进的卷积神经网络——SSF-IL-CNN,对卷积神经网络的结构与损失函数提出了改进,使得网络能够适用于样本规模较小的三维人脸表情库,并且对三维人脸表情具有较高的区分度与鉴别能力,在实验中获得了较高的识别率。:
首先,SSF-IL-CNN模型以三维人脸的深度图与纹理图作为输入数据,能够同时学习两种图像的特征,并且通过特征融合层融合深度卷积特征与纹理卷积特征,实现更全面的特征学习;
其次,SSF-IL-CNN模型将卷积核分解成结构参数与强度参数,让二者分别承担初始化和更新的任务。结构参数的初始化基于字典矩阵实现,使得初始值具备较强的表征能力,后续的参数更新更容易收敛到最优值,达到事半功倍的效果;同时,该初始化方法大大减小了所需训练样本的数目,从根本上解决了小规模训练集实现卷积神经网络时的难题;
最后,SSF-IL-CNN模型采用Island Loss函数构建损失函数,增强特征的表情区分度。Island Loss函数在指导参数更新时,对特征的表情属性具有较高的敏感度,因此能够帮助模型更准确地区分不同表情、聚合同类表情,从而有效提高模型的表情识别率。
附图说明
图1是实验中所用的BU-3DFE人脸库示例图。
图2是SSF-IL-VGG16模型的结构图,其中,(a)为SSF-IL-VGG16的第一部分结构,(b)为SSF-IL-VGG16的第二部分结构。是的整个过程的流程图。
图3是本发明的实现流程图。
图4是生成SSF-IL-VGG16模型所需要的深度图像与纹理图像。
图5是初始化卷积核的可视化结果图。
图6是第一层卷积层的输出特征可视化结果图。图6(a)为纹理图像的第一层输出特征可视化结果,图6(b)为深度图像的第一层输出特征可视化结果。
图7是应用本发明的三维人脸表情识别效果图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
本发明一种基于SSF-IL-CNN(Structure and Strength Filtered CNN based onIsland Loss)的三维人脸表情识别算法。其目的在于搭建适用于三维人脸表情样本的卷积神经网络,以实现高效的三维人脸表情识别。该算法的实现包括:
1)首先,搭建SSF-IL-CNN模型的结构。与其他卷积神经网络(CNN)模型相同,SSF-IL-CNN模型具备卷积层、池化层、激活函数、全链接层和损失函数等模块。特别地,SSF-IL-CNN模型还具备特征融合层,使得该模型能够同时学习三维人脸对应的纹理图像和深度图像,并能够实现特征融合,融合特征将作为一个整体实现最终的表情识别。
2)接着,进行SSF-IL-CNN模型的训练。借鉴SSF-CNN模型对卷积核结构的定义,SSF-IL-CNN模型将卷积核拆解成结构参数与强度参数,并让两种参数分别承担初始化和更新的任务。首先,基于字典学习的字典矩阵初始化卷积核结构参数。字典学习对训练样本数目的需求远远低于卷积神经网络,同时字典矩阵与卷积核具有类似的特征提取功能,因此可以采用字典矩阵作为卷积核的结构参数,有效避免了三维人脸表情数据库样本容量不足带来的问题。接着,保持结构参数不变,交替进行误差的前馈与反馈计算,更新卷积核的强度参数,并最终收敛到最优值,使得模型的识别性能达到最优,完成模型的训练。与传统的CNN模型相比,SSF-IL-CNN模型仅更新强度参数,更新的参数数量大大减少,计算成本与模型复杂度得到降低。此外,针对三维人脸表情识别,SSF-IL-CNN模型采用Island Loss函数构建损失函数指导参数更新。Island Loss函数能够增强特征的表情区分度,有益于参数更新到最优值,从而提高模型的表情识别率。
本发明一种基于SSF-IL-CNN的三维人脸表情识别方法,其典型应用SSF-IL-VGG16网络的结构图如图2中的(a)和(b)所示。
具体包括以下步骤:
1.搭建SSF-IL-CNN的结构。SSF-IL-CNN包括以下模块:卷积层、池化层、激活函数、全链接层、损失函数。这里采用类似VGG16网络的模块设置,构建SSF-IL-VGG16网络,以此为例说明SSF-IL-CNN模型的结构。SSF-IL-VGG16中各模块的功能与说明如下:
模块1:输入数据。SSF-IL-CNN模型的处理对象是二维图像,因此采用三维人脸点云对应的纹理图像和深度图像作为输入数据。纹理图,指的是存储着人脸各点RGB值的二维映射图像,其效果类似于相机拍摄的二维图像,体现人脸的轮廓和五官的准确形状;深度图,指的是存储着人脸各点与摄像头之间距离的二维映射图像,像素存储的深度值能够体现像素点的三维信息。在针对三维人脸的卷积神经网络算法中,采用深度图像和纹理图像作为输入图像是简单高效的处理方式。
模块2:卷积层。卷积层是卷积神经网络的核心模块,通常由多个卷积核构成。卷积核,又称卷积滤波,是一组包含固定权重的矩阵,以一定大小的感受野(即卷积核的维数)作用于局部图像获得局部信息(包括边缘、颜色和轮廓等),是网络实现特征提取的关键部件。在搭建网络时,首先对卷积核的维数、个数、步长以及卷积层的层数进行设定,而卷积核的权重(即矩阵的元素)需要基于样本进行多次训练与更新才能最终确定。SSF-IL-CNN模型中的第l层卷积可以表示为:
f(Yl,Wl,tl,bl)=Yl*(tl·Wl)+bl
其中,(*)为卷积操作,(·)表示矩阵对应元素相乘,(tl·Wl)表示该层卷积核,Yl、tl、Wl和bl分别为该层的输入特征、卷积核的强度参数、卷积核的结构参数以及卷积核的偏置项。在SSF-IL-VGG16模型中,各卷积层的卷积核大小与个数设置为:3*3*64(l=1,2),3*3*128(l=3,4),3*3*256(l=5,6,7),3*3*512(l=8,9,…,13)。
模块3:池化层。池化(Pooling)又称“汇合”,是卷积神经网络中实现降采样(Down-sampling)的重要操作。池化结果中的一个元素对应原输入数据的一个子区域,因此,池化相当于空间范围的维度约减(Spatially dimension reduction)。池化使得模型可以抽取更广范围的特征,同时能够有效减小计算量和参数个数。通常使用的池化操作包括平均值池化(Average Pooling)和最大值池化(Max Pooling),其区别在于池化结果对应的是原区域的平均值还是最大值。SSF-IL-VGG16模型采用的是最大值池化。与卷积层不同,池化层不包含需要学习的参数。搭建模型时,仅需指定池化类型(平均值或最大值池化)、池化操作的核大小(Kernel size)和池化操作的步长等参数即可。在SSF-IL-VGG16模型中,各池化层的池化核大小与步长设置为:池化层1~4为2*2、步长为2,池化层5为7*7、步长为1。
模块4:激活函数。激活函数(Activation function)又称非线性映射层,用于增加卷积神经网络的非线性表达能力。激活函数模拟人脑神经元的特性,接收输入信号并产生输出,同时通过一个阈值模拟神经元的兴奋或抑制状态。若无激活函数,网络则是若干线性操作层的堆叠,只能实现线性映射,而无法构成复杂函数。常见的激活函数有:ReLU(修正线性单元)、Sigmoid型函数、tanh(x)型函数、Leaky ReLU等。其中,ReLU具备计算复杂度低的优势,并且能够有效避免“梯度饱和效应”的发生,是最为常用的激活函数。SSF-IL-VGG16模型采用ReLU作为激活函数。其定义为:
Figure GDA0004193768310000051
其中x为ReLU函数的输入。激活函数的输入是前层的卷积特征,该特征中小于0的元素,将被ReLU函数置为0,如此重复,最终的学习特征中将出现大量的0,即特征能用更少的神经元起到同样的作用,表明ReLU函数使得模型的稀疏性得到增强,提取的特征更具有代表性,网络的泛化性能更好。
模块5:全链接层。全链接层(Fully connected layers)是卷积神经网络的“分类器”,它将卷积层、池化层和激活函数学习到的隐层特征映射到标记空间,实现对样本的预测。实际上,全链接层由卷积操作实现:若前层是卷积层,则全链接层采用h×w的卷积核,其中h和w分别表示前层卷积输出特征的宽和高;若前层是全链接层,则此层全链接层采用1×1的卷积核。同时,为了降低卷积核之间的相互依赖,消除协同作用,防止过拟合的出现,全链接层往往要配备随机失活操作。在第二层全链接层后,特征将进行随机失活。随机失活的具体内容为:在训练阶段以概率p随机将某层卷积核参数重置为0;测试阶段所有参数均呈激活状态,但其卷积核参数需乘以(1-p)以保证训练和测试阶段t拥有相同的期望。
模块6:特征融合层。针对SSF-IL-VGG16模型,本方法设计了特征融合层用于融合纹理图像和深度图像的卷积特征。由于纹理图像和深度图像经过对齐处理、且具有相同的通道数,因此纹理图像和深度图像在第一层全链接层的输出特征具有完全相同的维度和结构,可以连接构成融合特征用于后层的分类任务。SSF-IL-VGG16中第一层全链接层的输出特征维数为"1×1×4096",经过特征融合层,输出特征维数为"1×1×8192"。
模块7:损失函数。损失函数,又称目标函数,用于衡量全链接层输出的预测值与真实标记之间的误差,通过误差的反向传播指导网络参数的学习,从而影响特征的分类结果。SSF-IL-VGG16模型采用Island Loss函数构建最终的损失函数,通过对损失函数的改进实现对特征表情鉴别力的提升。
2.SSF-IL-CNN的实现,即模型中卷积核的初始化与更新。其流程图如图3所示。SSF-IL-CNN模型的初始化和更新由结构参数W和强度参数t分别实现,在完成结构参数W初始化之后,该参数将保持不变,仅针对强度参数t进行更新。
本发明一种基于SSF-IL-CNN的三维人脸表情识别方法,具体步骤如下:
步骤1,生成三维人脸对应的深度图像和纹理图像,如图4所示。
生成深度图像的步骤为:
步骤1.1,对三维人脸点云进行方格化,让三维点落在方格内,以方格的矩阵形式存储点的三维坐标,矩阵的每个元素存储着唯一对应三维点的坐标(x,y,z)。基于三维人脸在x和y方向的最大、最小值,确定采样步长及方格大小,对三维人脸的x方向和y方向分别进行采样;
步骤1.2,结合步长以及三维点云中点的坐标信息,采用立方插值算法获取方格中每个点的z值;
步骤1.3,依据方格点z值的取值范围,按比例缩小至0~255的灰度值区间,实现深度图像的生成。
生成三维人脸对应的纹理图像的步骤为:
步骤1-1,同步骤1.1,获取三维点云的方格结构;
步骤1-2:将RGB三个通道值分别进行立方插值,即可得到各像素点的颜色信息,获得与三维人脸对应的纹理图像。
由于深度图像和纹理图像是基于相同方格结构的人脸生成的,因此像素点之间具有一一对应的关系,便于SSF-IL-CNN模型同时对两类图像进行特征的学习。
步骤2,分别对步骤1中的深度图像和纹理图像进行归一化处理。在卷积神经网络中,要对输入数据进行图像归一化,其目的是为了“移除”背景等无效部分,而“凸显”人脸等显著区域,其原理是:自然图像是一类平稳的数据分布,即数据每个维度的统计都服从相同分布,在每个样本上减去数据的统计平均值可以移除共同部分,有效凸显个体差异。
图像归一化的具体做法为:计算训练集图像的像素均值,之后在处理训练集、验证集和测试集图像时分别减去该均值。
步骤3,基于归一化后的深度图像和纹理图像,进行字典学习,得到字典矩阵和稀疏表示。字典学习,又称稀疏编码,指的是为原始样本找到合适的字典,将样本转化为字典矩阵与稀疏表示的线性组合,使得针对样本的学习任务得以简化,模型复杂度得以降低。实质上,字典矩阵的每一列分别代表一个基向量,稀疏表达就是多个基向量的稀疏线性组合,其目标函数如下:
Figure GDA0004193768310000071
其中,Y为输入数据,D为字典矩阵,α为稀疏表示,‖·‖1表示L1范数操作,‖·‖2表示L2范数操作,μ为大于0的稀疏正则化系数。
字典矩阵D的具体求解方法如下:
步骤3.1:将输入图像Y切割成n个碎片;
步骤3.2:调用reshape函数将碎片图像原始的矩阵,整形为列向量(即各列元素首尾相连);例如将3×3碎片整形为9×1向量;
步骤3.3:依据交替迭代最优化的思想,先固定D,调整α使得目标函数最小;再固定α,调整D使目标函数最小;
步骤3.4:迭代交替,不断将目标函数推向最小值,获得最终的矩阵D;
步骤4,采用字典矩阵初始化卷积核的结构参数。由于字典矩阵在字典学习中的作用与卷积核在卷积神经网络中的作用类似——字典矩阵的m个列向量相当于m个卷积核,都是从m个不同的方向或层次获得对原始图像的表征,因此,本专利采用字典矩阵初始化SSF-IL-CNN模型中的卷积核结构参数。由于卷积神经网络包含多个卷积层,且每层具有多个卷积核,因此需要进行多次字典学习,且字典学习的次数由卷积层数决定,每次学习的字典矩阵大小由该层卷积核的个数决定。初始化后的卷积核如图5所示。
步骤4.1:针对第l层卷积层的输入图像Yl,获得其对应的字典矩阵Dl
步骤4.2:调用reshape函数对Dl进行整形,获得第1层卷积核结构参数W1
步骤4.3:Yl与W1做卷积操作,得到当前层的卷积特征,并采用激活函数ReLU对该特征进行激活处理;
步骤4.4:激活后的卷积特征作为第2层的输入,重复以上3步,获得第2层的卷积核结构参数,如此重复,直到模型中所有卷积层的卷积核实现赋值,即实现卷积核的初始化。
步骤5,搭建SSF-IL-CNN的损失函数。完成卷积核结构参数初始化之后,需要搭建损失函数以用于后续的参数更新。损失函数的输入是真实表情为yi的样本对应的卷积特征Xi,损失函数的输出是网络对该样本的预测结果h。之后,h与yi之间的偏差将被反向传播,实现指导参数更新的作用。为了提高特征分辨力,本方法采用Island Loss函数构建SSF-IL-CNN网络的损失函数。Island Loss函数定义如下:
Figure GDA0004193768310000081
其中,
Figure GDA0004193768310000082
为真实表情为yi的所有卷积特征的均值,‖·‖2表示向量的二范数,ck和cj分别表示第k类和第j类深度特征的中心,Xi是真实表情为yi的样本对应的卷积特征,σ为两项之间的调节参数。上式中第一项为中心损失函数,负责考虑减小类内差异,第二项负责增大类间差异。通过最优化Island Loss函数,迫使属于同一类的特征聚拢而不同类别的特征被拉开,达到增强特征分辨能力的目的。
为了使损失函数的表现更加稳定(避免出现因参数σ而导致的极端情况),实际应用时将Island Loss函数与Softmax函数配合使用。
Softmax是分类问题中最基础的损失函数,通过指数化将网络输出映射到(0,1)区间内,转换为概率形式,其定义为:
Figure GDA0004193768310000083
其中,N为用于训练的人脸样本总数,C为人脸样本的表情个数(表情识别问题中C等于6),yi为第i个人脸样本的真实表情,yi∈{1,2,…,C},
Figure GDA0004193768310000084
表示人脸样本预测表情值等于真实表情的概率,/>
Figure GDA0004193768310000091
表示卷积神经网络预测人脸表情为k的概率,k=1,2,…,C。
因此,SSF-IL-CNN最终的损失函数为:
LSSF-I=LS+βLIL
其中,参数β用来调节Softmax函数与Island Loss函数的比重。
步骤6,更新卷积核强度参数,完成SSF-IL-CNN模型的训练。
与其它卷积神经网络一样,SSF-IL-CNN模型通过最小化损失函数来更新参数,特别地,SSF-IL-CNN保持结构参数不变,只更新强度参数t的值。
步骤6.1:在训练集中随机选取n个样本作为“一批”(Batch)样本,记为xn。网络损失函数为LSSF-IL。然而,仅凭最小化LSSF-可能会产生过拟合,因此,考虑将待更新的参数t加入到损失函数中去限制波动。因此本方法将弹性网络正则化加入损失函数,即L′=LSSF-I1|t|12|t|2,其中λ1和λ2分别为L1正则化和L2正则化的系数,t为卷积核强度参数;
步骤6.2:前馈运算与反馈运算交替使用,更新参数。令t的初始值为1,通过卷积神经网络的前馈运算,得到预测的表情标记值,并计算其与真实表情标记的误差z,用梯度项
Figure GDA0004193768310000092
更新参数,得到/>
Figure GDA0004193768310000093
其中τ为每次随机梯度下降的步长;
步骤6.3:将第s层所输出的卷积特征xs的梯度项
Figure GDA0004193768310000094
反馈到前层,将/>
Figure GDA0004193768310000095
视为最后一层传递至第s层的误差信号;如此下去,直至更新到网络的第一层参数,完成一个批处理的参数更新。
步骤6.4:重复步骤6.1,并且每次重复实验时按照无放回原则,遍历所有训练集样本,完成“一轮”(epoch)更新,参数往往需要经过多轮的更新才能收敛到理想值,即:随着epoch次数的有限次增加,更新得到的参数值逐渐逼近一个唯一确定的有限值。
步骤7,根据步骤6中训练完成的SSF-IL-CNN模型,可以进行三维人脸表情识别。
在Windows操作系统下选用Python作为编程工具,基于Binghamton University于2006年发布的BU-3DFE三维人脸表情库测试本发明所提出的方法。图1展示了BU-3DFE库中某对象的中性表情和6种基本表情的示例图。首先,基于BU-3DFE库设置训练集和测试集。从BU-3DFE库中任意选出60人作为待选(此操作只进行一次),每次实验时,从中任选55人用于训练、剩余5人用于测试。选取表情强度3级和4级的人脸样本,每张三维人脸样本都生成深度图像和纹理图像。每次实验中,训练集样本的总数为:55×2×(6+6)=1320,测试集样本总数为:5×2×(6+6)=120。重复实验200次,取所有结果的均值作为最终的识别结果,证实本专利提出的识别方法的有效性。应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (5)

1.一种基于SSF-IL-CNN的三维人脸表情识别方法,其特征在于,所述SSF-IL-CNN的具体结构为:两个输入分别为三维人脸对应的深度图像和纹理图像的CNN卷积模块,两个CNN卷积模块的输出依次经过特征融合层、全链接层,其中CNN卷积模块包括若干卷积层和池化层的组合;
该识别方法包括以下步骤:
步骤1,生成三维人脸对应的深度图像和纹理图像;
步骤2,分别对步骤1中的深度图像和纹理图像进行归一化处理;
步骤3,基于归一化后的深度图像和纹理图像,进行字典学习,得到字典矩阵和稀疏表示;其中,步骤3中字典学习的目标函数为:
Figure FDA0004193768300000011
其中,Y为输入数据,D为字典矩阵,α为稀疏表示,‖·‖1表示L1范数操作,‖·‖2表示L2范数操作,μ为大于0的稀疏正则化系数;
步骤4,采用字典矩阵初始化卷积核的结构参数;
步骤5,采用Island Loss函数搭建SSF-IL-CNN模型的损失函数;
步骤6,更新卷积核强度参数,完成SSF-IL-CNN模型的训练;
步骤7,根据步骤6中训练完成的SSF-IL-CNN模型,进行三维人脸表情识别。
2.根据如权利要求1所述的一种基于SSF-IL-CNN的三维人脸表情识别方法,其特征在于,步骤1中对三维人脸进行人脸切割和姿态矫正的预处理后,生成三维人脸对应的深度图像和纹理图像。
3.根据如权利要求1所述的一种基于SSF-IL-CNN的三维人脸表情识别方法,其特征在于,步骤3中字典学习的次数由卷积层的层数决定,每次学习的字典矩阵大小由对应卷积层卷积核的个数决定。
4.根据如权利要求1所述的一种基于SSF-IL-CNN的三维人脸表情识别方法,其特征在于,步骤5中损失函数为:
LsSF-I=Ls+βLIL
其中,LS为Softmax函数,
Figure FDA0004193768300000012
N为用于训练的人脸样本总数,C为人脸样本的表情个数,yi为第i个人脸样本的真实表情,yi∈{1,2,…,C},/>
Figure FDA0004193768300000013
表示人脸样本预测表情值等于真实表情的概率,/>
Figure FDA0004193768300000014
表示卷积神经网络预测人脸表情为k的概率,k=1,2,…,C;LIL为Island Loss函数,/>
Figure FDA0004193768300000015
Figure FDA0004193768300000016
为真实表情为yi的所有卷积特征的均值,‖·‖2表示向量的二范数,ck和cj分别表示第k类和第j类深度特征的中心,Xi是真实表情为yi的样本对应的卷积特征,σ为调节参数。
5.根据如权利要求4所述的一种基于SSF-IL-CNN的三维人脸表情识别方法,其特征在于,步骤6中将弹性网络正则化加入损失函数:L′=LSSF-I1|t|12|t|2,其中,L′为最终损失函数,λ1和λ2分别为L1正则化和L2正则化的系数,t为卷积核强度参数。
CN201910383975.XA 2019-05-09 2019-05-09 一种基于ssf-il-cnn的三维人脸表情识别方法 Active CN110188621B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910383975.XA CN110188621B (zh) 2019-05-09 2019-05-09 一种基于ssf-il-cnn的三维人脸表情识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910383975.XA CN110188621B (zh) 2019-05-09 2019-05-09 一种基于ssf-il-cnn的三维人脸表情识别方法

Publications (2)

Publication Number Publication Date
CN110188621A CN110188621A (zh) 2019-08-30
CN110188621B true CN110188621B (zh) 2023-06-02

Family

ID=67715975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910383975.XA Active CN110188621B (zh) 2019-05-09 2019-05-09 一种基于ssf-il-cnn的三维人脸表情识别方法

Country Status (1)

Country Link
CN (1) CN110188621B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111312403A (zh) * 2020-01-21 2020-06-19 山东师范大学 基于实例和特征共享级联的疾病预测系统、设备及介质
CN111753652B (zh) * 2020-05-14 2022-11-29 天津大学 一种基于数据增强的三维人脸识别方法
CN113221952B (zh) * 2021-04-13 2023-09-15 山东师范大学 多中心大脑弥散张量成像图分类方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108717568A (zh) * 2018-05-16 2018-10-30 陕西师范大学 一种基于三维卷积神经网络的图像特征提取与训练方法
CN109360146A (zh) * 2018-08-22 2019-02-19 国网甘肃省电力公司 基于深度卷积对抗生成网络dcgan的双光图像融合模型

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108717568A (zh) * 2018-05-16 2018-10-30 陕西师范大学 一种基于三维卷积神经网络的图像特征提取与训练方法
CN109360146A (zh) * 2018-08-22 2019-02-19 国网甘肃省电力公司 基于深度卷积对抗生成网络dcgan的双光图像融合模型

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SSF-CNN:Spatial and Spectral Fusion with CNN for Hyperspectral Image Super Resolution;Xian-Hua Handeng;《2018 25th IEEE International Conference on Image Processing》;20181010;第2506-2510页 *

Also Published As

Publication number Publication date
CN110188621A (zh) 2019-08-30

Similar Documents

Publication Publication Date Title
Ghaderizadeh et al. Hyperspectral image classification using a hybrid 3D-2D convolutional neural networks
CN110555446B (zh) 基于多尺度深度特征融合和迁移学习的遥感影像场景分类方法
CN109118564B (zh) 一种基于融合体素的三维点云标记方法和装置
CN110689086B (zh) 基于生成式对抗网络的半监督高分遥感图像场景分类方法
US11450066B2 (en) 3D reconstruction method based on deep learning
CN110414377B (zh) 一种基于尺度注意力网络的遥感图像场景分类方法
CN110348399B (zh) 基于原型学习机制和多维残差网络的高光谱智能分类方法
CN108921893A (zh) 一种基于在线深度学习slam的图像云计算方法及系统
CN110188621B (zh) 一种基于ssf-il-cnn的三维人脸表情识别方法
WO2012177913A1 (en) Method and apparatus for a local competitive learning rule that leads to sparse connectivity
CN111695494A (zh) 一种基于多视角卷积池化的三维点云数据分类方法
CN113191387A (zh) 结合无监督学习与数据自增强的文物碎片点云分类方法
Park et al. Fast and scalable approximate spectral matching for higher order graph matching
CN107423747A (zh) 一种基于深度卷积网络的显著性目标检测方法
CN110263644B (zh) 基于三胞胎网络的遥感图像分类方法、系统、设备及介质
Alom et al. Object recognition using cellular simultaneous recurrent networks and convolutional neural network
CN109671019A (zh) 一种基于多目标优化算法和稀疏表达的遥感影像亚像元制图方法
CN115222998A (zh) 一种图像分类方法
CN117079098A (zh) 一种基于位置编码的空间小目标检测方法
Shariff et al. Artificial (or) fake human face generator using generative adversarial network (gan) machine learning model
CN110543888B (zh) 一种基于群集递归神经网络的图像分类方法
CN116311186A (zh) 一种基于改进Transformer模型的植物叶片病变识别方法
Jin et al. Fusion of remote sensing images based on pyramid decomposition with Baldwinian Clonal Selection Optimization
Ososkov et al. Two-stage approach to image classification by deep neural networks
Saenz et al. Dimensionality-reduction of climate data using deep autoencoders

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant