CN111639544B

CN111639544B - 基于多分支跨连接卷积神经网络的表情识别方法

Info

Publication number: CN111639544B
Application number: CN202010378592.6A
Authority: CN
Inventors: 石翠萍; 谭聪; 靳展; 苗凤娟; 刘文礼
Original assignee: Qiqihar University
Current assignee: Qiqihar University
Priority date: 2020-05-07
Filing date: 2020-05-07
Publication date: 2022-08-09
Anticipated expiration: 2040-05-07
Also published as: CN111639544A

Abstract

基于多分支跨连接卷积神经网络的表情识别方法，本发明涉及表情识别方法。本发明的目的是为了解决现有传统的表情特征提取方法效率低、资源浪费严重，特征提取不完全的问题。过程为：一、对人脸表情图像数据集进行预处理；二、构建多分支跨连接卷积神经网络，用于提取人脸表情图像特征，过程为：多分支跨连接卷积神经网络由第一卷积层、模块1、模块2和模块3、第四十卷积层、批量标准化BN和Relu激活函数构成；三、采用Softmax分类算法对网络提取的图像特征分类，过程为：在构建的多分支跨连接卷积神经网络后连接全局均值池化，在全局均值池化层后用了Softmax函数进行多分类。本发明用于表情识别领域。

Description

基于多分支跨连接卷积神经网络的表情识别方法

技术领域

本发明涉及表情识别方法。

背景技术

面部表情识别(FER)主要通过面部的外观变化来预测基本的面部表情。面部表情是最直接、最有效的情感识别模式^[1][2]([1]C.Darwin and P.Prodger,The expressionofthe emotions in man and animals.Oxford University Press,USA,1998.[2]Y.-I.Tian,T.Kanade,and J.F.Cohn,“Recognizing action units for facial expressionanalysis,”IEEE Transactions on pattern analysis and machine intelligence,vol.23,no.2,pp.97–115,2001.)，面部表情识别作为人脸识别的重要分支，它有很多人机交互方面的应用，例如疲劳驾驶检测和手机端实时表情识别。同时，在教育监控、医学检测等各个领域也有着重要的发展^[3-5]([3]Li S,Deng W.Deep facial expressionrecognition:A survey[J].arXiv preprint arXiv:1804.08348,2018.[4]M.Z.Uddin,M.M.Hassan,A.Almogren,A.Alamri,M.Alrubaian,G.Fortino,"Facial expressionrecognition utilizing local direction-based robust features and deepbeliefnetwork",IEEE Access,vol.5,pp.4525-4536,2017.[5]F.Ren,Z.Huang,"Automatic facial expression learning method based on humanoid robot XIN-REN",IEEE Trans.Human-Mach.Syst.,vol.46,pp.810-821,Dec.2016.)。近年来，由于人脸表情识别的实际应用价值和前景，成为众多学者的研究热点，同时也取得了重大进展。

表情识别的过程大致可分为：图像选取、图像预处理、图像特征提取，以及图像识别^[6-7]([6]R.Gross,V.Brajovic,"An image preprocessing algorithm forillumination invariant face recognition",Proc.Int.Conf.Audio-Video-BasedBiometric Person Authentication,pp.10-18,2003.[7]S.Abe,"Feature selection andextraction"in Support Vector Machines for Pattern Classification,London,U.K.:Springer,pp.331-341,2010.)。通常先对采集到的图像进行预处理，例如面部检测和旋转校正。面部检测是用级联分类器实现的，例如Adaboost^[8](C.-R.Chen,W.-S.Wong,C.-T.Chiu,"A 0.64mm 2real-time cascade face detection design based on reducedtwo-field extraction",IEEE Trans.Very Large Scale Integr.(VLSI)Syst.,vol.19,pp.1937-1948,Nov.2011.)和Viola-Jones frameworks^[9](Y.Q.Wang,"An analysis oftheViola-Jones face detection algorithm",ImageProcess.Line,vol.4,pp.128-148,Jun.2014.)。人脸校正可以借助如眼睛、嘴巴等特征来实现。人脸表情识别的关键是人脸图像特征的提取。目前，人脸图像的描述方法主要有两类：基于几何特征的方法和基于纹理特征的方法。几何特征的方法是通过对感兴趣区域进行编码，也就是对嘴、眉毛、鼻子、眼睛等这些人脸图像的显著特征的形状和位置变化进行定位和测量。但感兴趣区域只能利用少量特征来描述人脸图像。纹理特征的方法具有旋转不变性和良好的抗噪性能，但其只能反映物体表面的特性，无法完全反映出物体的本质属性，无法获得图像的高层次内容。

目前，人脸识别的研究越来越成熟，但表情识别作为人脸识别的分支，仍然具有挑战性，如光照变化、面部遮挡等原因都会导致面部表情识别率低。这就导致传统的手工提取特征方法不再适合易受干扰的FER识别。与此同时，传统的表情特征提取方法效率低、资源浪费严重，特征提取不完全。随着深度学习的迅速发展，深度学习在模式识别方面取得了巨大进展。大量的研究者利用深度神经网络进行表情识别^[10-15]([10]P.Liu,S.Han,Z.Meng,Y.Tong,"Facial expression recognition via a boosted deep beliefnetwork",Proc.IEEE Conf.Comput.Vis.Pattern Recognit.,pp.1805-1812,Jun.2014.[11]Z.Yu,C.Zhang,"Image based static facial expression recognition with multiple deepnetwork learning",Proc.ACM Int.Conf.Multimodal Interact.,pp.435-442,2015.[12]A.Mollahosseini,D.Chan,M.H.Mahoor,"Going deeper in facial expressionrecognition using deep neural networks",Proc.IEEE WinterConf.Appl.Comput.Vis.(WACV),pp.1-10,Mar.2016.[13]Shao J,Qian Y.Threeconvolutional neural network models for facial expression recognition in thewild[J].Neurocomputing,2019,355:82-92.[14]Xie S,Hu H,Wu Y.Deep multi-pathconvolutional neural network joint with salient region attention for facialexpression recognition[J].Pattern Recognition,2019,92:177-191.[15]Jain D K,Shamsolmoali P,Sehdev P.Extended deep neural network for facial emotionrecognition[J].Pattern Recognition Letters,2019,120:69-74.)，得到了较好的表情识别结果。目前，如何运用卷积神经网络进行有效表情识别仍然是一个值得研究的问题。

发明内容

本发明的目的是为了解决现有传统的表情特征提取方法效率低、资源浪费严重，特征提取不完全的问题，而提出基于多分支跨连接卷积神经网络的表情识别方法。

基于多分支跨连接卷积神经网络的表情识别方法具体过程为：

步骤一、对人脸表情图像数据集进行预处理；

步骤二、构建多分支跨连接卷积神经网络(MBCC-CNN)，用于提取人脸表情图像特征；

步骤三、采用Softmax分类算法对MBCC-CNN提取的图像特征分类。

本发明的有益效果为：

针对表情识别分类，本发明结合深度学习和经典分类算法，提出一种新的方法—MBCC-CNN，它融合了残差连接、网络中的网络和树形多分支结构的思想，用于表情识别。本发明提出的基于MBCC-CNN的分类框架首先对输入MBCC-CNN的图像进行预处理，然后利用MBCC-CNN对表情图像进行特征提取。由于本发明提出的MBCC-CNN融合了残差连接、Networkin Network和树形结构的思想，因此可以提取更有效的特征用于分类。每个特征通过不同的网络分支进行提取后再组合在一起，有效的弥补了不同网络分支遗漏的图像特征，不同的网络分支之间的互补提高了MBCC-CNN的特征提取能力。最后，全局均值池化对最后一层的特征图进行平均池化，得到的结果向量直接输入Softmax层进行分类。本发明利用MBCC-CNN对CK+和Fer2013数据集进行了实验验证，并与相关方法进行了比较，实验结果表明，本发明提出的多分支跨连接卷积神经网络具有很好的面部表情分类性能，为人脸表情识别技术提供了坚实的基础。

本发明提出一种新的表情识别方法—多分支跨连接卷积神经网络(MBCC-CNN)。该方法的创新之处在于，它能够将不同网络分支的特征融合在一起，以有效的提取图像特征。这克服了不同网络分支遗漏图像特征的问题，并利用提取到的特征准确进行图像识别。具体来说，本发明提出的基于MBCC-CNN的分类框架主要包括以下三个步骤：首先，选用人脸表情数据集Fer2013和CK+作为算法评估对象，并对数据集进行数据增强等预处理；其次，构建MBCC-CNN用于人脸表情分类，构建的MBCC-CNN基于残差连接、Network in Network和树形结构的思想，增加了卷积层输出求和的捷径跨连接，使得网络间的数据流通更为顺畅，增加了每个感受视野的特征提取能力，避免了有用信息的遗漏。接下来，在MBCC-CNN后采用全局均值池化(GAP)大幅度减少网络参数，从而避免了过拟合。最后，利用MBCC-CNN所提取到的图像特征用于人脸表情识别。在Fer2013和CK+数据集上进行的实验结果表明，本发明提出的MBCC-CNN在Fer2013和CK+数据集分别达到了71.52％和98.48％的准确率。相比于现有的多数表情识别方法，本发明提出的MBCC-CNN方法能够提供更高的人脸表情识别精度，且具有很好的鲁棒性和泛化能力。

本发明提出一种新的多分支跨连接卷积神经网络(MBCC-CNN)方法，能够避免遗漏有用信息，更有效的进行图像特征提取，从而提高人脸表情识别性能。首先，先预处理表情数据集，使其更有利于网络对图像特征进行学习。然后，构建MBCC-CNN有效的提取图像特征。构建的MBCC-CNN基于残差连接、Network inNetwork和树形结构的思想，增加了卷积层输出求和的捷径跨连接，使得网络间的数据流通更为顺畅，增加了每个感受视野的特征提取能力，避免了有用信息的遗漏。同时，全局均值池化大大减少了网络参数，避免了过拟合。最后，基于MBCC-CNN提取到的特征，利用Softmax进行人脸表情识别。解决了现有传统的表情特征提取方法效率低、资源浪费严重，特征提取不完全的问题。

附图说明

图1为本发明提出方法总体框架图；图2为本发明MBCC-CNN网络模块图；图3为本发明MBCC-CNN网络结构图；图4Aa为本发明CK+数据集生气样本图；图4Ab为本发明CK+数据集正常样本图；图4Ac为本发明CK+数据集厌恶样本图；图4Ad为本发明CK+数据集恐惧样本图；图4Ae为本发明CK+数据集高兴样本图；图4Af为本发明CK+数据集伤心样本图；图4Ag为本发明CK+数据集惊讶样本图；图4Ba为本发明Fer2013数据集生气样本图；图4Bb为本发明Fer2013数据集厌恶样本图；图4Bc为本发明Fer2013数据集恐惧样本图；图4Bd为本发明Fer2013数据集高兴样本图；图4Be为本发明Fer2013数据集伤心样本图；图4Bf为本发明Fer2013数据集惊讶样本图；图4Bg为本发明Fer2013数据集正常样本图；图5a为Fer2013数据集混淆矩阵图；图5b为CK+数据集混淆矩阵图；图6a为Fer2013数据集anger负样本图；图6b为Fer2013数据集disgust负样本图；图6c为Fer2013数据集fear负样本图；图6d为Fer2013数据集sad负样本图；图6e为Fer2013数据集surprise负样本图；图6f为Fer2013数据集neutral负样本图；图7a为精确率对比图；图7b为回归率对比图；图7c为F1-score值对比图；图7d为准确率对比图；图8a为CK+数据集的可视化热力图；图8b为Fer2013数据集的可视化热力图；图9a为人脸表情惊讶实时识别结果图；图9b为人脸表情伤心实时识别结果图；图9c为人脸表情正常实时识别结果图；图9d为人脸表情惊讶实时识别结果图；图9e为人脸表情厌恶实时识别结果图；图9f为人脸表情生气实时识别结果图；图9g为人脸表情恐惧实时识别结果图；图9h为人脸表情厌恶实时识别结果图；图9i为人脸表情高兴实时识别结果图；图9j为人脸表情厌恶实时识别结果图；图9k为人脸表情伤心实时识别结果图；图9l为人脸表情正常实时识别结果图；图10Fer2013混淆矩阵对比图；图11CK+数据集混淆矩阵对比图。

具体实施方式

具体实施方式一：本实施方式基于多分支跨连接卷积神经网络的表情识别方法具体过程为：

表情识别作为计算机视觉领域的一个经典研究课题。现有的表情识别方法大致可分为三类：基于传统方法的表情识别、基于卷积神经网络的表情识别、基于传统方法和卷积神经网络融合的表情识别方法。

对于基于传统方法的表情识别中，手工制作的特征，如Gabor小波系数^[16](TianYL,Cohn J F.Evaluation of Gabor-Wavelet-Based Facial Action Unit Recognitionin Image Sequences of Increasing Complexity[C]//Automatic Face and GestureRecognition,2002.Proceedings.Fifth IEEE International Conference on.IEEE,2002.)、局部二值模式(LBP)^[17](Zhong L,Liu Q,Yang P,et al.Learning MultiscaleActive Facial Patches for Expression Analysis[C]//Computer Vision and PatternRecognition(CVPR),2012IEEE Conference on.IEEE,2012.)和有向梯度直方图(HOG)^[18](R.Girshick,J.Donahue,T.Drrell,J.Malik,”Rich feature hierarchies for accurateobject detection and demantic segmentation”,Proc.IEEE Conf.Comput.Vis.PatternRecogit.,pp.580-587,Jun.2014.)常被用来表示一个特定的表达式。在^[19](Goyani M M,Patel N M.Multi-level haar wavelet based facial expression recognition usinglogistic regression[J].internationaljournal ofnext-generation computing,2018,9(2).)中，Goyani M M等人提出了一种基于多级haar小波的人脸特征提取方法。首先使用AdaBoost^[8]级联目标检测器分割出信息量最大的几何成分，如眼睛、嘴、眉毛等。然后提取分割后成分的Haar特征。最后采用OneVsAll logistic回归模型分类。Palermo R等人^[20](Palermo R,Jeffery L,Lewandowsky J,et al.Adaptive face coding contributes toindividual differences in facial expression recognition independently ofaffective factors[J].Journal of Experimental Psychology:Human Perception andPerformance,2018,44(4):503.)研究了一种关键的面部感知机制，实现了重新校准面部表情系统，提高了对面部表情变化的敏感度。同时，该文证明了自适应编码的感知因素独立于情感因素，这对人脸表情变化的识别做出了重要贡献。在^[21](Pham T T D,Kim S,Lu Y,etal.Facial action units-based image retrieval for facial expressionrecognition[J].IEEEAccess,2019,7:5200-5207.)中，Kim S等人提出一个简单的多层感知器(MLP)分类器来判断当前的情绪识别结果是否可靠。如果不可靠，使用给定的人脸图像作为搜索的相似的图像，通过聚焦查询图像及其检索到的相似图像的分类输出向量，训练另一个MLP来预测最终的情感类别。在^[22](Shi S,Si H,Liu J,et al.Facial expressionrecognition based on Gabor features of salient patches and ACI-LBP[J].Journalof Intelligent&Fuzzy Systems,2018,34(4):2551-2561.)中，Shi S等人利用Gabor小波对人脸进行特征提取，采用多尺度直方图统计方法在ACI-LBP中提取特征，最后将Gabor和ACI-LBP两部分特征融合，重新组成为一个完整的特征向量，对人脸进行分类识别。在^[23](Yan H.Collaborative discriminative multi-metric learning for facialexpression recognition in video[J].Pattern Recognition,2018,75:33-40.)中，YanH提出一种用于视频人脸表情识别的协同判别多尺度学习(CDMML)，首先为每个人脸视频计算多个特征描述子，从不同的角度描述人脸的外观和运动信息。然后，利用这些提取的多个特征协同学习多个距离度量，以利用互补和判别信息进行识别。在Wild(AFEW)4.0和扩展的Cohn–Kanada(CK+)数据集上的实验结果证明了提出的方法的有效性。

传统的表情特征提取方法提取效率低、资源浪费严重，提取不完全。于是利用深度学习进行表情识别越来越常见。对于基于卷积神经网络的表情识别方法中，^[24-27]([24]LiK,JinY,Akram M W,et al.Facial expression recognition with convolutionalneural networks via a new face cropping and rotation strategy[J].The VisualComputer,2020,36(2):391-404.[25]Liu K,Zhang M,Pan Z.Facial expressionrecognition with CNN ensemble[C]//2016international conference on cyberworlds(CW).IEEE,2016:163-166.[26]Salunke,Vibha.V.and C.G.Patil.“ANew Approach forAutomatic Face Emotion Recognition and Classification Based on DeepNetworks.”2017International Conference on Computing,Communication,Control andAutomation(ICCUBEA)(2017):1-5.[27]O.Arriaga,M.Valdenegro-Toro,P.

"Real-time convolutional neural networks for emotion and gender classification",arXiv:1710.07557,2017,[online]Available:https://arxiv.org/abs/1710.07557.)通过构建卷积神经网络，对人脸表情图像数据集进行预处理，利用卷积神经网络训练表情数据集，并进行测试以实现表情识别。在^[28](Y,Zeng J,Shan S,et al.Occlusion awarefacial expression recognition using cnn with attention mechanism[J].IEEETransactions on Image Processing,2018,28(5):2439-2450.)中，Shan S等人提出了一种具有注意机制的卷积神经网络，该网络能够感知人脸的遮挡区域，并聚焦于最具辨别力的非遮挡区域，文中提出的ACNNs在真实和合成遮挡下进行评估，包括一个具有真实遮挡的自收集面部表情数据集、两个最大的野生面部表情数据集(RAF-DB和AffectNet)及其对合成遮挡的修改。实验结果表明，ACNNs在非遮挡和遮挡两种情况下都能提高识别精度。在^{[29]-[31][57]}([29]Sun X,Xia P,Zhang L,et al.A ROI-guided Deep Architecture forRobust Facial Expressions Recognition[J].Information Sciences,2020.[30]MinaeeS,Abdolrashidi A.Deep-emotion:Facial expression recognition using attentionalconvolutional network[J].arXiv preprint arXiv:1902.01019,2019.[31]Sun X,ZhengS,Fu H.ROI-Attention Vectorized CNN Model for Static Facial ExpressionRecognition[J].IEEEAccess,2020,8:7183-7194.[57]Y.Gan,J.Chen,Z.Yang and L.Xu,"Multiple Attention Network for Facial Expression Recognition,"in IEEE Access,vol.8,pp.7383-7393,2020.)中，利用注意力机制构建卷积神经网络，注意力机制对人脸的重要部位非常感兴趣，如眼睛、鼻子和嘴巴等重要部位。将图像输入到卷积神经网络之前，对人脸图像中的感兴趣区域(roi)进行标记。文献^[31](Sun X,Zheng S,Fu H.ROI-Attention Vectorized CNN Model for Static Facial Expression Recognition[J].IEEE Access,2020,8:7183-7194.)在所提出的卷积神经网络的第一层采用注意概念进行ROIs相关卷积计算，通过提取更稳健的特征，提高了ROIs中特定字段的ROIs相关卷积计算结果。在文献^[32-33]中，采用了多通道卷积神经网络进行特征的融合。^[32](Zhang H,Huang B,Tian G.Facial expression recognition based on deep convolution long short-term memory networks of double-channel weighted mixture[J].PatternRecognition Letters,2020,131:128-134.)提出了基于静态图像的双通道加权混合深度卷积神经网络(WMDCNN)和基于图像序列的双通道加权混合深度长短期记忆网络(WMCNN-LSTM)。WMDCNN网络能够快速识别面部表情，为WMCNN-LSTM网络提供静态图像特征。LSTM网络利用静态图像特征进一步获取图像序列的时间特征，从而实现面部表情的精确识别。^[33](SunN,Li Q,Huan R,et al.Deep spatial-temporal feature fusion for facialexpression recognition in static images[J].Pattern Recognition Letters,2019,119:49-61.)提出了一种多通道深度神经网络，该网络能够学习和融合静态图像中人脸表情的时空特征。该方法的基本思想是从峰值表情人脸图像(情绪人脸)和中性人脸图像(中性人脸)之间的变化中提取光流作为某一面部表情的时间信息，并利用情绪人脸的灰度图像作为空间信息。同时，提出了一种多通道深空时特征融合神经网络(MDSTFN)，用于对静态图像进行深空时特征提取和融合。在^[34](Li S,Deng W.Reliable crowdsourcing anddeep locality-preserving learning for unconstrained facial expressionrecognition[J].IEEE Transactions on Image Processing,2018,28(1):356-370.)中，Li S等人提出了一个新的面部表情数据库，真实世界情感脸数据库(RAF-DB)，其中包含大约30000个面部图像，具有不受控制的姿势和照明，来自成千上万个不同年龄和种族的个体。同时，提出了一种新的深部保留卷积神经网络(DLP－CNN)方法，其目的在于通过保持局部封闭性，最大化类间散布来增强深部特征的判别能力。在7类基本表达式和11类复合表达式上的基准实验，以及在CK+、MMI和SFEW2.0数据库上的附加实验表明，所提出的DLP-CNN优于目前最先进的手工特征和基于深度学习的野生表达式识别方法。在^[35](Zhang Z,Luo P,Loy C C,et al.From facial expression recognition to interpersonal relationprediction[J].International Journal of Computer Vision,2018,126(5):550-569.)中，Zhang Z等人首先研究了一种用于面部表情鲁棒识别的深层网络体系结构，能够从丰富的辅助属性中学习，而不仅仅是面部表情数据。该模型能够挖掘人脸的交互上下文，实现精确的细粒度人际预测。在^[36](Alam M,Vidyaratne L S,Iftekharuddin K M.Sparsesimultaneous recurrent deep learning for robust facial expression recognition[J].IEEE transactions on neural networks and learning systems,2018,29(10):4905-4916.)中，Alam M等人提出了一种新的生物相关稀疏深同步递归网络(S-DSRN)用于人脸表情的鲁棒识别。提出的DSRN采用了辍学学习来获得特征稀疏性，得到了更好的分类性能，且计算复杂度低。在进行表情识别时，外部光照、遮挡等因素对面部表情识别的研究产生了很大的干扰。在^[37](Liu Y,Yuan X,Gong X,et al.Conditional convolutionneural network enhanced random forest for facial expression recognition[J].Pattern Recognition,2018,84:251-261.)中，Liu Y等人针对表情识别在无约束环境下的情况，提出一种新的条件卷积神经网络增强随机森林。该方法从显著性的人脸中提取鲁棒的深层显著特征，以减少光照、遮挡、低图像分辨率等各种失真类型的影响。同时，设计了一种条件概念模型，用于增强决策树的表达学习能力，并通过条件概率学习对不同视角的面部表情进行建模。除了构建新型卷积神经网络用于表情识别外，文献^[38][33]([38]Shengtao G,Chao X,Bo F.Facial expression recognition based on global andlocal feature fusion with CNNs[C]//2019IEEE International Conference onSignal Processing,Communications and Computing(ICSPCC).IEEE,2019:1-5.[33]SunN,Li Q,Huan R,et al.Deep spatial-temporal feature fusion for facialexpression recognition in static images[J].Pattern Recognition Letters,2019,119:49-61.)还利用了迁移学习的方法进行表情识别。通过对经典卷积神经网络AlexNet^[39](A.Krizhevsky,I.Sutskever,and G.E.Hinton.“ImageNet classification withdeep convolutional neural network,”in Proc.Conf.Adv.Neural Inf.Process.Syst.,2012,pp.1097-1105.)、VGGNet和ResNet进行微调，利用它们的特征提取能力进行表情识别。文献[40](Sun W,Zhao H,Jin Z.Afacial expression recognition methodbased onensemble of3D convolutional neural networks[J].Neural Computing andApplications,2019,31(7):2795-2812.)提出了三维卷积神经网络的一般框架。该框架定义了卷积层、最大池层、漏层、Gabor层和光流层五种层。在此基于上，设计了四种特定的人脸表情识别网络，将这些网络决策融合在一起进行表情识别。

除了前面的传统方法和卷积神经网络的研究方法，还有研究将传统方法与卷积神经网络相融合进行表情识别。在^[41][42][43]([41]YAN,Yinfa,et al.Design and ExperimentofFacial Expression Recognition Method Based on LBP and CNN.In:201914th IEEEConference on Industrial Electronics and Applications(ICIEA).IEEE,2019.p.602-607.[42]Biao Yang,Jinmeng Cao,et al,Facial Expression Recognition UsingWeighted Mixture Deep Neural Network Based on Double-Channel Facial Images[J].IEEE Access,2018,6:4630-4640.[43]Kim J H,Kim B G,Roy P P,et al.Efficientfacial expression recognition algorithm based on hierarchical deep neuralnetwork structure[J].IEEE Access,2019,7:41273-41285.)中，利用LBP和卷积神经网络融合进行表情识别。文献^[41]YAN等人针对传统人脸表情识别方法稳定性差的问题，提出一种改进的卷积神经网络模型。从人脸表情和局部二值模式图像出发，将原始图像和局部二值化图像合并为训练数据集，通过连续卷积隐式提取表达式特征，然后用最大池化对提取的特征进行二次采样，实验结果表明在数据集加入LBP特征信息后具有较高识别精度和鲁棒性。文献^[42]Biao Yang等人提出一种加权混合深度神经网络，用于自动提取对FER任务有效的特征，实现了人脸检测、旋转校正、数据增强预处理方法，该网络的参数利用在ImageNet数据库上训练的VGG16^[44](Simonyan,Karen,andAndrew Zisserman."Very deepconvolutional networks for large-scale image recognition."arXiv preprintarXiv:1409.1556(2014).)模型进行初始化。利用基于DeepID的浅层卷积神经网络提取LBP人脸图像的特征。两个通道的输出以加权方式融合。最终识别结果使用Softmax分类计算。文献^[43]利用基于外观特征的网络提取LBP人脸特征，基于几何特征的网络学习动作单元(AUs)标记点的变化，最后结合两个特征进行Softmax计算分类。在^[45](Wang S,Pan B,ChenH,et al.Thermal augmented expression recognition[J].IEEE transactions oncybernetics,2018,48(7):2203-2214.)中，利用CNN提取图像特征，然后用SVM进行分类。Wang S等人提出一种新的基于热红外数据作为特权信息的可见表情识别方法。通过学习一个可视化图像和热图像的深层模型，然后利用学习的特征训练支持向量机(SVM^[46](Kadyrova N O,Pavlova L V.Comparative efficiency ofalgorithms based onsupport vector machines for binary classification[J].Biophysics,2015,60(1):13-24.))分类器进行表情分类，在MAHNOB笑声数据库上实现了配对和非配对面部图像的最先进的表情识别性能。在^[47](Zeng,Guohang et al.“Hand-Crafted Feature Guided DeepLearning for Facial Expression Recognition.”201813th IEEE InternationalConference on Automatic Face&Gesture Recognition(FG 2018)(2018):423-430.)中，Guohang Zeng等人提出了一种新的特征丢失方法，将手工特征信息嵌入到网络的训练过程中，以减少两者之间的差异。在特征丢失的基础上，利用CK+、JAFFE和FER2013数据集，开发并测试了一个嵌入传统特征信息的通用框架。在文献^[48](Georgescu M I,Ionescu R T,Popescu M.Local learning with deep and handcrafted features for facialexpression recognition[J].IEEE Access,2019,7:64827-64836.)中，融合了^[45][46]中的方法，提出了一种将卷积神经网络(CNN)学习到的自动特征与视觉文字包(BOVW)模型计算得到的手工特征相结合的方法，以达到人脸表情识别(FER)的最新结果。首先，采用k近邻模型来选择输入测试图像的最近训练样本。其次，在选定的训练样本上训练一对SVM分类器。最后，利用SVM分类器对测试图像进行分类预测。在^[49](Sun X,Lv M.Facial ExpressionRecognition Based on a Hybrid Model Combining Deep and Shallow Features[J].Cognitive Computation,2019,11(4):pp587-597.)中，使用SIFT和CNN模型中提取的不同层次的深度学习特征进行组合，最后利用SVM对混合特征进行分类。在^[50](Bendjillali RI,Beladgham M,Merit K,et al.Improved Facial Expression Recognition Based onDWT Feature for Deep CNN[J].Electronics,2019,8(3):324.)中，使用Viola-Jones^[8]对人脸进行定位，使用CLAHE对人脸进行增强；然后使用DWT对人脸特征进行提取，最后将提取的特征用于训练CNN网络。在^[51](Wang X M,Huang J,Zhu J,et al.Facial expressionrecognition with deep learning[C]//Proceedings of the 10th InternationalConference on Internet Multimedia Computing and Service.ACM,2018:10.)中，WangX M等人提出了一种静态人脸表情识别的新方法，主要任务是利用CNN模型将一组静态图像分成7种基本情绪，然后自动实现有效的分类。对人脸图像进行两次预处理，增强了图像的识别效果。首先，利用标准直方图方程对FER数据集进行预处理。然后利用数据增强对人脸图像进行偏移和旋转，增强模型的鲁棒性。最后，用SVM对Softmax激活函数(也称为多项式logistic回归)的结果进行叠加。

目前，采用卷积神经网络进行表情识别，很多方法还存在着识别率低、复杂度高，以及有用特征损失等问题。本发明针对着这一系列问题，提出一种新的表情识别方法--多分支跨连接卷积神经网络。MBCC-CNN网络融合了残差连接、Network in Network和多分支树形结构的思想。在残差块的构建过程中，增加了卷积层输出求和的捷径跨连接，使得网络间的数据流通更加顺畅。Network in Network和多分支树形结构模块的构建利用网络中的网络和多分支结构的思想，每条分支都采用了网络中的网络，增加了每个感受视野的特征提取能力，每条分支提取不同的图像特征，最后将不同分支提取的不同特征进行组合，有效避免了特征损失。同时，在MBCC-CNN后采用全局均值池化，对最后一层的特征图进行平均池化，将得到的结果特征向量直接输入Softmax层分类。利用MBCC-CNN在Fer2013数据集和CK+数据集上进行实验结果表明，本发明提出的MBCC-CNN具有很好的分类性能，有效的提取了图像的特征，避免了有用特征的损失。

总之，本发明的三大贡献如下。

MBCC-CNN分类模型采用了残差连接的网络模块，增加了卷积层输出求和的捷径跨连接，使得网络间的数据流通更为顺畅，网络性能下降现象得到改善，网络具有良好的性能。为了有效提取图像特征，防止遗漏有用信息，设计的MBCC-CNN分类模型结合了NetworkinNetwork和树形多分支结构的思想，利用网络中的网络学习图像特征，增强了网络提取特征的能力。结合不同分支的图像特征，有效的避免了有用成分的过多遗漏。

在得到有用特征的基础上，采用全局均值池化对特征进行全局池化，在减少网络参数的同时，避免了全局过拟合。

步骤一、对人脸表情图像数据集进行预处理；

步骤三、采用Softmax分类算法对MBCC-CNN提取的图像特征分类。

具体实施方式二：本实施方式与具体实施方式一不同的是：所述步骤一中对人脸表情图像数据集进行预处理；具体过程为：

选取Fer2013和CK+人脸表情数据集，对人脸表情数据集进行归一化处理，对归一化处理后的数据进行数据增强；

对归一化处理后的数据进行数据增强的过程为：

对归一化处理后的数据进行随机缩放、翻转、平移、旋转；

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是：所述步骤二中构建多分支跨连接卷积神经网络(MBCC-CNN)，用于提取人脸表情图像特征；具体过程为：

多分支跨连接卷积神经网络由第一卷积层、模块1、模块2和模块3、第四十卷积层、批量标准化BN(BatchNormalization)和Relu激活函数构成；

模块1包括第二卷积层、第三卷积层和第四卷积层，第二十一卷积层、第二十二卷积层、第二十三卷积层；

人脸数据集图像数据为输入层，输入层数据输入第一卷层积，第一卷积层的输出数据分别输入第二卷积层和第三卷积层，第二卷积层的输出数据输入第四卷积层，第三卷积层和第四卷积层的输出数据输入第五卷积层；

第二十卷积层的输出数据输入第二十一卷积层和第二十二卷积层，第二十二卷积层的输出数据输入第二十三卷积层，第二十一卷积层和第二十三卷积层的输出数据输入第二十四卷积层；

模块2包括第五卷积层、第六卷积层、第七卷积层、第八卷积层、第九卷积层、第十卷积层、第十一卷积层、第十二卷积层、第一最大池化层，第二十四卷积层、第二十五卷积层、第二十六卷积层、第二十七卷积层、第二十八卷积层、第二十九卷积层、第三十卷积层、第三十一卷积层、第四最大池化层；

第三卷积层和第四卷积层的输出数据输入第五卷积层，第五卷积层的输出数据分别输入第八卷积层和第十卷积层，第十卷积层的输出数据分别输入第九卷积层和第十一卷积层，第八卷积层的输出数据分别输入第六卷积层和第七卷积层，第十一卷积层的输出数据输入第十二卷积层，第六卷积层、第七卷积层、第九卷积层、第十二卷积层的输出数据输入第一最大池化层，第一最大池化层的输出数据输入第十三卷积层；

第二十一卷积层和第二十三卷积层的输出数据输入第二十四卷积层，第二十四卷积层的输出数据分别输入第二十五卷积层、第二十六卷积层、第二十七卷积层、第二十九卷积层，第二十七卷积层的输出数据输入第二十八卷积层，第二十九卷积层的输出数据输入第三十卷积层，第三十卷积层的输出数据输入第三十一卷积层，第二十五卷积层、第二十六卷积层、第二十八卷积层、第三十一卷积层的输出数据输入第四最大池化层，第四最大池化层的输出数据输入第三十二卷积层；

模块3包括第十三卷积层、第十四卷积层、第十五卷积层、第十六卷积层、第十七卷积层、第十八卷积层、第十九卷积层、第二十卷积层、第二最大池化层、第三最大池化层，第三十二卷积层、第三十三卷积层、第三十四卷积层、第三十五卷积层、第三十六卷积层、第三十七卷积层、第三十八卷积层、第三十九卷积层、第五最大池化层、第六最大池化层；

第一最大池化层的输出数据输入第十三卷积层，第十三卷积层的输出数据分别输入第十四卷积层和第十五卷积层，第十四卷积层的输出数据输入第二最大池化层，第十五卷积层的输出数据输入第三最大池化层，第二最大池化层的输出数据分别输入第十六卷积层和第十七卷积层，第三最大池化层的输出数据分别输入第十八卷积层和第十九卷积层，第十六卷积层、第十七卷积层、第十八卷积层和第十九卷积层的输出数据输入第二十卷积层；

第四最大池化层的输出数据输入第三十二卷积层，第三十二卷积层的输出数据分别输入第三十三卷积层和第三十四卷积层，第三十三卷积层的输出数据输入第五最大池化层，第三十四卷积层的输出数据输入第六最大池化层，第五最大池化层的输出数据分别输入第三十五卷积层和第三十六卷积层，第六最大池化层的输出数据分别输入第三十七卷积层和第三十八卷积层，第三十五卷积层、第三十六卷积层、第三十七卷积层、第三十八卷积层的输出数据输入第三十九卷积层，第三十九卷积层的输出数据输入第四十卷积层；

每一个卷积层后面都接一个批量标准化BN和一个Relu激活函数(第一卷积层一直到第四十卷积层每层后面都接一个批量标准化BN(BatchNormalization)和一个Relu激活函数)。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是，所述输入层的人脸表情图像大小为48×48×1，第六卷积层和第二十五卷积层使用1×1大小的卷积核对输入数据进行卷积操作，其余卷积层(第一卷积层至第四十卷积层中除第六卷积层和第二十五卷积层)使用3×3大小的卷积核对输入数据进行卷积操作，卷积层的步幅为1，对第一卷积层不采用填充，其余卷积层(第一卷积层至第四十卷积层中除第一卷积层)采用零填充(矩阵，就是在矩阵的外围再加一列、一行0元素进行填充)，每个卷积层都采用均匀分布初始化(he_uniform)作为权重初始化，L2作为正则化，第一最大池化层、第二最大池化层、第三最大池化层、第四最大池化层、第五最大池化层、第六最大池化层都采用3×3大小的池化核，步幅为2。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是：所述步骤三中采用Softmax分类算法对MBCC-CNN提取的图像特征分类；具体过程为：

在构建的多分支跨连接卷积神经网络后连接全局均值池化(GAP)，在全局均值池化(GAP)层后用了Softmax函数进行多分类(多分支跨连接卷积神经网络第四十层卷积层的输出数据输入全局平均池化层(GAP)，GAP的输出数据输入Softmax进行分类)。

其它步骤及参数与具体实施方式一至四之一相同。

具体实施方式六：本实施方式与具体实施方式一至五之一不同的是：所述Softmax函数需要将所有可能的输出归一化(即每个类别的分类概率)，故需要输入一个向量，最后输出一个向量；

假设输入的样本训练集为{(x⁽¹⁾,y⁽¹⁾),...,(x^(m),y^(m))}，样本有k个类别，即y⁽ⁱ⁾∈{1,2,...,k}，i＝1,2,...,m，i为样本个数，x⁽ⁱ⁾表示输入样本的特征向量，y⁽ⁱ⁾表示真实的标签概率分布向量；

对于每个输入x⁽ⁱ⁾都会有对应每个类别的概率，即：

p(y⁽ⁱ⁾＝j|x⁽ⁱ⁾)

式中，j为类别，j＝1,2,...,k；

因为输入输出都为向量，故

其中，h_θ(x⁽ⁱ⁾)为预测类别的概率，θ₁,θ₂,...,θ_k∈θ表示Softmax模型的参数，θ_j为Softmax模型的参数向量，j∈1,2,...,k；T为转置，

对概率分布进行归一化，使得所有概率之和为1；θ相当于函数里面的自变量，θ下角标i和j只是它的某个值，θ为θ_j或θ_l；

Softmax的代价函数为：

其中，I{y⁽ⁱ⁾＝j}为示性函数，

则

其中，θ_j为Softmax模型的参数向量，j∈1,2,...,k；θ_l为Softmax模型的参数向量，l∈1,2,...,k；因为

中总含有

这一项，所以对θ用不同的下标以区分。

其它步骤及参数与具体实施方式一至五之一相同。

本发明提出方法：图1给出了本发明提出的基于多分支跨连接卷积神经网络的分类框架，其中包括以下三个个步骤：首先，对人脸表情图像数据集进行预处理；然后，构建多分支跨连接卷积神经网络(MBCC-CNN)，用于提取人脸表情图像特征；最后，运用经典Softmax分类算法对MBCC-CNN提取的图像特征分类；下面对提出方法的各个步骤进行详细阐述。

数据库预处理：本发明选取了Fer2013和CK+人脸表情数据集作为本发明研究对象。首先，对表情数据集进行归一化处理，对输入卷积神经网络的数据进行归一化处理后利于网络学习数据的分布，避免了训练数据和测试数据的分布不同，提高了网络的泛化能力和训练速度。然后，对归一化处理后的数据进行数据增强。一般而言，比较成功的神经网络需要大量的参数，很多的神经网络的参数都是数以百万计，而使得这些参数正常工作需要大量的数据进行训练，然而实际情况中往往并没有那么多的数据。所以，深度学习中的数据增强就起到了很大的帮助。它不仅能增强训练的数据量，提高模型的泛化能力，还能增加噪声数据，提高模型的鲁棒性。本发明利用了随机缩放、翻转、平移、旋转数据增强技术对数据进行增强。

MBCC-CNN的构建

本发明构建的MBCC-CNN网络主要由三个模块构建，提出的三个模块分别基于残差连接、NetworkinNetwork和树形结构的思想。下文给出了三个模块的设计。图2给出了MBCC-CNN模块结构图，MBCC-CNN由模块1、模块2和模块3按顺序连接构成。

本发明提出的多分支跨连接卷积神经网络主要由图2三个模块组成。模块1基于残差连接的思想^[52](VeitA,WilberM,Belongie S.ResidualNetworks Behave LikeEnsembles of Relatively ShallowNetworks[J].Advances inNeuralInformationProcessing Systems,2016.)。本发明利用残差连接的思想，通过直接将输入信息由捷径(short cut)传到输出，保护了信息的完整性，网络只需要学习输入、输出差别的那一部分，简化了学习特征的目标和难度。假设网络的输入为x，输出为F(x)，则要拟合的目标是H(x)，要训练的目标是F(x)＝H(x)。此时，对于模块1而言，输出为F(x)+x，则拟合的目标是H(x)-x，训练的目标是F(x)+x＝H(x)-x。根据ResNet的想法，需要对浅层网络做恒等变化，即需要训练F(x)＝x，但在模块1中，需要拟合的目标变成了F(x)+x＝x，相当于目标F(x)＝0，这相比于原来的训练目标要简单得多，一般卷积神经网络中每层的参数初始化偏向于0，这样相比于更新该网络的参数来学习H(x)，该网络的冗余层学习F(x)＝0的更新参数能够更快收敛。与此同时，残差连接的结构保证了反向传播更新参数时，很难出现梯度为0的现象，不会导致梯度消失。残差计算如下：

Z^[l+1]＝W^[l+1]a^[l]+b^[l+1] a^[l+1]＝g(Z^[l+1])……

Z^[l+3]＝W^[l+3]a^[l+2]+b^[l+3] a^[l+3]＝g(Z^[l+3]+a^[l])

其中，a^[l]表示残差块的输入，Z^[l+n](n＝1,2,3,…,n；n表示层数)为a^[l]的线性激活。a^[l+n](n＝1,2,3,…,n；n表示层数)为Z^[l+n](n＝1,2,3,…,n；n表示层数)的非线性激活。

本发明提出的模块2基于Network in Network^[53](LinM,ChenQ,YanS.Networkinnetwork[J].arXivpreprintarXiv:1312.4400,2013.)论文中的思想，其结构借鉴了Inception的多分支结构。利用网络中的网络来进行特征提取，在每个感受视野中加入更加复杂的结构进行数据的抽象化，增强模型在感受视野内的辨别能力。增加的分支网络相比于单一的网络而言，可以提取各个不同通道的不同的抽象特征，再利用多分支网络将提取到的不同特征进行组合，进一步增强了网络的特征提取能力。通过构建微型网络Mlpconv，不断地平移微型网络，使其覆盖不同的局部区域，提取到不同的特征，同时，也实现了参数共享(Mlpconv＝conv+(1×1)conv)。本发明构建的多分支微型网络中只采用一个1×1conv，采用1×1conv在所有特征上进行全连接计算，其余全部采用3×3conv，3×3conv进行有选择的特征计算，只提取感受视野内的表情图像特征。相比于InceptionModule采用多个1×1conv而言，避免了冗余特征的过多提取，造成分类精度低。本发明构建更复杂结构的多分支微网络来提取接受域内的特征，可以更好的模拟局部网络，对不同通道提取的不同特征进行组合，提高了卷积层的有效性。Mlpconv的计算公式为：

其中，(i,j)表示图片像素点的位置索引，w表示权重，b表示偏置，f表示提取到的特征图信息，x_i,j表示卷积窗口中的图像块，k表示要提取的特征图索引，n为网络层数，第一层为线性卷积层(卷积核尺寸大于1)，后面的为1×1卷积。

本发明提出的模块3基于树形多分支结构的思想，树形分支结构由多条分支组成、能够处理数值型和类别型的数据、有较高的解释性。树形分支结构需要的数据量不大，且具有层次关系。模块3借鉴了树形分支结构，利用卷积层和最大池化层构建了多分支树形结构，与此同时，也实现了网络中的网络，利用网络中的网络有效的提取图像特征，多分支网络结构提取不同的图像特征，然后将不同的图像特征进行组合，增加了网络的特征提取能力。本发明构建的模块三中卷积层和最大池化层都采用3×3大小的核尺寸。在VGGNet[45]中提出，2个3×3的卷积核具有与1个5×5的卷积核相同的感受视野。同时，2个3×3的卷积层中参数量比1个5×5的卷积层中参数量少。因此，模块3中使用3×3的卷积核，可以保证感受视野不变的前提下，减少卷积层的参数。模块的输入数据经过一层卷积层后分支，分别对不同的图像特征进一步提取，经过分支提取图像特征后，再将提取到的特征组合到一起，避免了特征损失，提高了网络提取特征的能力。

图像分类：在构建的网络模块后运用全局均值池化(GAP)代替传统卷积神经网络中的全连接层。因为全连接层的每一个节点都与上一层的所有结点相连，全连接层的参数一般是卷积神经网络中参数最多的，需要消耗很大的内存。GAP的优势在于，通过增强特征图与类别间的对应关系，使卷积效果更加明显。同时，GAP层中没有参数的设置，作用于整个网络，避免全局过拟合。本发明在GAP层后用了Softmax函数进行多分类。Softmax函数需要将所有可能的输出归一化(即每个类别的分类概率)，故需要输入一个向量，最后输出一个向量。

MBCC-CNN的网络结构如图3所示，其主要由两组模块1、模块2和模块3，以及全局均值池化层组成。MBCC-CNN网络参数配置见表1。

表1网络参数配置

其中，卷积层采用(strides＝1,padding＝”same”)；卷积层中只有conv2d_1采用padding＝”valid”，conv2d_6和conv2d_25为1×1卷积核，其余卷积层的卷积核为3×3，最大池化层(pool_size＝3,strides＝2)。权重初始化为”he_uniform”,正则化为”l2(1e-2)”。卷积层后面依次是BN(BatchNormalization)^[54](Ioffe S,Szegedy C.Batchnormalization:accelerating deep network training by reducing internalcovariate shift[C]//International Conference on International Conference onMachine Learning.JMLR.org,2015.)和Relu激活函数。

采用以下实施例验证本发明的有益效果：

实验结果测试与分析

首先对本发明采用的评估数据集进行介绍。然后，对提出的MBCC-CNN模型进行混淆矩阵分析、分类性能分析、热力图分析。接下来，进行了基于MBCC-CNN模型的表情识别系统的应用；最后，将提出模型与一些先进的方法进行了比较。本发明所有的实验都在JetBrains PyCharm2017.1 x64、Kera2.1.4和GeForce 940MX显卡上完成的。

实验数据集：为了评价提出方法的性能，本发明对两个数据集进行了实验。

(1)CK+人脸表情数据集介绍

CK+数据集^[55](P.Lucey,J.F.Cohn,T.Kanade,J.Saragih,Z.Ambadar,andI.Matthews,“TheExtended Cohn-KanadeDataset(CK+)_A complete dataset for actionunit andemotion-specifiedexpression,”inComputer Vision andPatternRecognitionWorkshops(CVPRW),2010IEEE Computer Society Conference on,2010,pp.94-101.)是在Cohn-Kanade Dataset的基础上扩展来的，发布于2010年。本发明所用CK+数据集包含七类表情，其中，生气有135张、正常有54张、厌恶有177张、恐惧有75张、高兴有207张、伤心有84张、惊讶有249张。本发明将该数据集的20％用于测试模型，80％用于训练模型。

(2)Fer2013人脸表情数据集介绍

该数据集^[56](Ian J.Goodfellow,Dumitru Erhan,Pierre Luc Carrier,AaronCourville,Mehdi Mirza,Ben Hamner,Will Cukierski,Yichuan Tang,David Thaler,Dong Hyun Lee,"Challenges in representation learning:A report on threemachine learning contests",Neural Networks,vol.64,pp.117-124,2014)共包含35887张人脸图片，其中训练集28709张、验证集3589张、测试集3589张。数据集中的图片均为灰度图片，大小为48*48像素，样本被分为0＝anger(生气)、1＝disgust(厌恶)、2＝fear(恐惧)、3＝happy(开心)、4＝sad(伤心)、5＝surprised(惊讶)、6＝normal(中性)七类。值得说明的是，该数据集的测试集存在部分标签的错误，导致在该数据集上测试精度不是很高。而且，人眼在该数据库上的识别率仅为(65±5)％，这使得Fer2013数据集非常具有挑战性。尽管该数据集的识别率不高，但目前绝大多数研究者利用该数据集进行算法评估。为了便于与其它方法在相同条件下比较，本发明在实验中也采用了该数据集。图4Aa、4Ab、4Ac、4Ad、4Ae、4Af、4Ag、4Ba、4Bb、4Bc、4Bd、4Be、4Bf、4Bg给出了两个数据集的一些样本。

混淆矩阵结果分析：图5a、5b为利用本发明提出的MBCC-CNN模型分别在CK+和Fer2013数据集上测试得到的混淆矩阵。混淆矩阵主要用于比较分类结果与实际预测结果，把分类结果的准确度显示在混淆矩阵中。与此同时，混淆矩阵能够更好的展示出分类算法性能，可以从另一个角度给出分类模型的表现以及错误类型。由图5a、5b可以看出，每一类别预测的正确率都集中在对角线上，CK+数据集上的七类预测正确的准确率都较高，Fer2013数据集因测试集存在标签错误，导致分类准确度低，除了happy外。尽管如此，Fer2013数据集在人脸表情识别中是最常用的数据集。为了便于与其他方法在相同条件下比较，本发明在实验中也采用了该数据集进行方法测试。由本发明得到的混淆矩阵可知，本发明提出方法具有很好的分类性能。

图6a、6b、6c、6d、6e、6f给出了Fer2013数据集中存在的负样本，图6a生气类别中加入了漫画负样本；图6b厌恶类别中混入了惊讶样本和非人脸样本；图6c恐惧类别中混入了正常类样本和非人脸样本；图6d伤心类别中加入了正常类样本和非人脸样本；图6e惊讶类别中加入了高兴类样本和遮挡负样本；图6f正常类别中加入了高兴类样本。值得注意的是，对于一些类别，即使用人眼也很难区分。总体来说，本发明方法得到的识别精度较高，这表明提出模型具有较好的识别能力和泛化能力，能够有效地提取图像特征。

分类性能分析：图7a、7b、7c、7d分别给出了利用本发明模型在CK+和Fer2013数据集测试得到的精确率、回归率、F1-score值和准确率。由图7a、7b、7c、7d可以看出，CK+数据集每个类别的数据指标都相对较高，Fer2013数据集除了Happy类别高达90％外，其他类别相对较低，其原因在本发明图6a、6b、6c、6d、6e、6f已解释。Fer2013因数据标签的错误，导致其具有很大的挑战性。总的来说，本发明实验结果表明，本发明模型的分类性能好。其中，回归率(Recall)、精确率(Precision)、F1-score值和准确率(accuracy)可表示为

其中，TP表示将实际正样本数预测为正样本的个数；FN表示将实际正样本数预测为负样本的个数；FP表示将实际负样本预测为正样本的个数；TN表示将实际负样本数预测为负样本的个数。

热力图分析：热力图通常是用来对类别进行划分的图像，它有点像红外成像图。同理，本发明使用热力图可以以权重的形式来展现，神经网络对图片的哪一部分激活值最大，利用热力图的原理可以对面部感兴趣的特征进行颜色深浅展现。本发明利用卷积神经网络进行分类，最后一层采用Softmax层，其最大值对应的就是分类类别。本发明从这个最大概率分类类别的节点出发，进行反向传播，对最后一层卷积层求得梯度，然后对每一张特征图求出均值，最后本发明去除最后一层卷积层的激活值，与前面我们对梯度特征图的均值进行相乘。可以理解为，每个通道的感兴趣部分与卷积激活值进行相乘，相当于一个加权操作。最后根据这个乘积值生成一个热力图，与原图进行叠加。图8a、8b为采用本发明模型在CK+和Fer2013数据集处理得到的可视化热力图。由热力图可以明显看到卷积神经网络对图像的感兴趣程度，图8aCK+数据集的感兴趣部分几乎都集中在人脸重要部位，如：鼻子、眼睛和嘴巴。感兴趣区域多少与卷积神经网络提取图像的特征的多少成正比，这说明本发明提出的模型具有很好的特征提取能力。图8bFer2013数据集的感兴趣部分大多数集中在人脸重要部位，只有少数区域出现兴趣偏移，因为Fer2013数据集有部分标签错误的情况，导致Fer2013数据集的面部表情分类效果相对较差。但从总的分类精度来说，由感兴趣的部位和多少可知，本发明提出的方法在两个数据集上训练得到的分类模型有很好的特征提取能力和分类性能。

表情识别系统应用：本发明为了更好的实现表情识别的实时化和智能化，设计了表情识别系统，通过加载MBCC-CNN分类模型实现。图9a、9b、9c、9d、9e、9f、9g、9h、9i、9j、9k、9l展示了利用本发明模型对人脸表情实时识别的结果图。其中，图9a、9b、9c、9d、9e、9f、9g、9h、9i、9j、9k、9l前三列给出了在没有遮挡的情况下对人脸表情进行识别的结果。除了图9e外，其他都准确的识别出分类结果，并且将人脸进行标记，显示出识别结果的准确率和识别用时。图9e将disgust识别成angry，人眼对这张图片也很难分辨，由每个类别识别的准确率可知，disgust的识别率为54％，angry的识别率为33％，两个表情类别的识别率比较接近。图9d、9h、9l在对人脸进行部分遮挡的情况下，本发明分类模型也准确的识别出结果。实验结果表明，本发明模型具有良好的分类性能和抗干扰能力，能够对人脸图像和实时人脸图像(包含人脸部分遮挡)进行准确的识别分类。同时，实现了对人脸的定位、人脸检测、表情识别分类。表情识别系统的应用，提高了本发明分类模型的智能化、实时化应用。

与相关方法比较：本发明针对表情识别提出一种新的方法--多分支跨连接卷积神经网络。该网络基于残差连接、Network in Network和多分支树形结构的思想。该网络增加了网络间的数据流通捷径，使用的网络中的网络增加了卷积层的感受视野，提高了卷积的有效性，多分支的网络中的网络更是将不同分支提取的不同图像特征组合到一起，有效的避免了过多有用成分的遗漏。本发明提出的MBCC-CNN能够有效的提取图像特征，提高表情分类精度。为了充分的验证本发明提出方法的有效性，本发明在Fer2013和CK+数据集上进行了验证，与19种方法进行比较如表2、表3所示。

表2 Fer2013数据集对比

表3 CK+数据集对比

在相同数据集的条件下，利用本发明提出的MBCC-CNN在Fer2013数据集和CK+数据集训练得到的分类模型与现有的表情分类方法进行比较。上述文献中，有利用传统方法进行表情识别的，文献^[19]使用AdaBoost分割出面部的最大几何成分，然后利用多级Haar小波对分割后的构件进行特征提取。AdaBoost在分割面部成分时对异常样本比较敏感，异常样本在迭代过程中会获得较高的权值，进而影响分割的性能，同时Haar小波基为非连续函数，频域分辨率非常差。导致特征提取效率低、不完全。当然，还有利用卷积神经网络进行表情识别的。文献^{[24]-[26][27]}通过构建卷积神经网络，对人脸表情图像数据集进行预处理，利用卷积神经网络训练表情数据集，构建的卷积神经网络分类效果并不有效，分类精度低。文献^{[29]-[31][57]}利用注意力机制构建卷积神经网络进行表情识别，注意力机制的效果很好，但也存在着一些缺陷，当引入新的参数时，可能会造成过拟合现象，同时会带来计算复杂度的增加。文献^[32][33]采用多通道卷积神经网络进行特征的融合，通过融合不同通道的特征，进而提高分类性能，但并未有效避免有用成分过多遗漏。文献^[38][33]利用了迁移学习进行表情分类，通过微调AlexNet、VGGNet和ResNet等经典卷积神经网络，有效的利用了经典大型网络的特征提取能力，但网络复杂度高，计算量大。文献^[40]采用三维卷积神经网络进行表情识别，定义了卷积层、最大池层、漏层、Gabor层和光流层五种层，设计了四种特定的人脸表情识别网络。将四个网络的决策融合在一起进行表情识别。但得到的表情识别率低，分类性能较差。最后，还有将传统方法和卷积神经网络融合进行表情识别的。文献^[42][43]利用LBP和卷积神经网络融合，在^[42]中，利用在ImageNet数据库上训练的VGG16模型进行初始化。利用基于Deep IDentification(DeepID)的浅层卷积神经网络提取Local Binary Patterns(LBP)人脸图像的特征。然后将两个网络的输出以加权方式融合。该文利用VGG16模型进行初始化，参数量大、复杂度高，而且传统方法LBP提取特征不完全、效率低。文献^[47]将手工特征信息嵌入到网络的训练过程，为了减少两者的差异，实则将手工特征信息的不完整作为负样本嵌入到网络中，并不能得到较好的分类性能。文献^[49]使用SIFT和CNN模型中提取的不同层次的深度学习特征进行组合，最后利用SVM对混合特征进行分类。这里的SIFT对边缘光滑的目标无法提取准确的特征且计算量大。文献^[50]使用Viola-Jones对人脸进行定位，使用CLAHE对人脸进行增强；然后使用DWT对人脸特征进行提取，最后将提取的特征用于训练CNN网络。采用的限制对比自适应直方图均衡(CLAHE)在处理部分区域对比度过大时，将会成为噪点，同时会丢失一些细节信息，影响分类性能。本发明没有利用传统方法、特征融合等方法进行表情分类研究，而是结合了深度学习知识和经典卷积神经网络的思想，提出了一种新的表情识别方法—多分支跨连接卷积神经网络，该网络基于残差连接、网络中的网络和多分支树形结构的思想，残差块的构建增加了卷积层输出求和的捷径跨连接，使得网络间的数据流通更加顺畅，确保了精度不下降，有效的避免了梯度消散和爆炸。NetworkinNetwork和多分支树形结构模块的构建利用网络中的网络和多分支结构的思想，每条分支都采用了网络中的网络，增加了每个感受视野的特征提取能力，每条分支提取不同的图像特征，最后将不同分支提取的不同特征进行组合，有效避免了有用成分的过多遗漏。同时，在MBCC-CNN后采用全局均值池化，对最后一层的特征图进行平均池化，有效的防止了全局过拟合，然后将得到的结果特征向量直接输入Softmax层分类。构建MBCC-CNN能够有效的提取图像特征，并通过Softmax准确分类，最后在Fer2013数据集和CK+数据集上进行了评估。实验结果表明，本发明提出的MBCC-CNN在Fer2013、CK+数据集上取得了有效的表情分类性能，在与上述的表情分类方法的比较中，本发明模型分类性能更好。

与相关文献混淆矩阵对比：在相同数据集下，本发明利用提出的MBCC-CNN方法在Fer2013数据集和CK+数据集上测试得到的混淆矩阵与现有表情识别方法中的混淆矩阵进行对比。

图10为本发明Fer2013数据集混淆矩阵与三种方法中的混淆矩阵对比曲线图，由图可知，除了neutral和sad比文献^[30]低一些外，本发明的其他类别都比其他方法的精度要高。特别地，本发明方法的七个类别的平均精度都比其他两种方法高，表明了本发明提出方法的有效性，整体的分类性能较好。

图11为本发明CK+数据集混淆矩阵与七种方法中的混淆矩阵对比曲线图，由图可知，本发明方法得到的混淆矩阵中除了happy、fear、disgust类别的精度比有的方法精度低之外，其他类别的精度都比其他方法高。其中，文献^[41][42]中混淆矩阵只给出了六个类别，缺少neutral类别。特别地，本发明方法的七个类别平均精度都比其他方法高，总的来说，本发明提出的方法比其他方法的分类效果好，整体的分类性能较好。

图10和图11为本发明与其它相关方法的混淆矩阵比较。对比结果表明，本发明方法得到的混淆矩阵，能够得到较好的单类识别结果，且整体的平均精度最高。这进一步验证了本发明提出方法的有效性，说明提出的MBCC-CNN方法能够有效的提取每个类别的特征，避免了过多有用信息的遗漏。上述实验验证了MBCC-CNN模型用于表情识别的有效性。与传统方法相比，深度学习方法可以自动地提取图像特征，避免了资源浪费、特征提取不完全。与基于传统方法和卷积神经网络融合的方法相比，MBCC-CNN方法复杂度低，避免了不完全的手工信息融入到网络中，进而影响了识别性能。与其他网络模型的比较结果证明，本发明提出的MBCC-CNN识别模型能得到更高的分类精度。首先，残差连接保证了网络可以更深，从而提高识别精度。其次，多分支网络模块利用了网络中的网络，通过不同分支提取图像特征并融合，从而提高了该模型的特征提取能力，避免了有用信息的丢失。最后，全局均值池化的运用，减少了网络参数量，并避免了过拟合。总之，本发明识别模型具有很好的特征提取能力，能够有效的提取图像特征，从而得到较好的表情识别结果。

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.基于多分支跨连接卷积神经网络的表情识别方法，其特征在于：所述方法具体过程为：

步骤一、对人脸表情图像数据集进行预处理；

步骤二、构建多分支跨连接卷积神经网络MBCC-CNN，用于提取人脸表情图像特征；

步骤三、采用Softmax分类算法对MBCC-CNN提取的图像特征分类；

所述步骤一中对人脸表情图像数据集进行预处理；具体过程为：

对归一化处理后的数据进行数据增强的过程为：

对归一化处理后的数据进行随机缩放、翻转、平移、旋转；

所述步骤二中构建多分支跨连接卷积神经网络MBCC-CNN，用于提取人脸表情图像特征；具体过程为：

多分支跨连接卷积神经网络由第一卷积层、模块1、模块2和模块3、第四十卷积层、批量标准化BN和Relu激活函数构成；

每一个卷积层后面都接一个批量标准化BN和一个Relu激活函数。

2.根据权利要求1所述基于多分支跨连接卷积神经网络的表情识别方法，其特征在于：所述输入层的人脸表情图像大小为48×48×1，第六卷积层和第二十五卷积层使用1×1大小的卷积核对输入数据进行卷积操作，其余卷积层使用3×3大小的卷积核对输入数据进行卷积操作，卷积层的步幅为1，对第一卷积层不采用填充，其余卷积层采用零填充，每个卷积层都采用均匀分布初始化作为权重初始化，L2作为正则化，第一最大池化层、第二最大池化层、第三最大池化层、第四最大池化层、第五最大池化层、第六最大池化层都采用3×3大小的池化核，步幅为2。

3.根据权利要求2所述基于多分支跨连接卷积神经网络的表情识别方法，其特征在于：所述步骤三中采用Softmax分类算法对MBCC-CNN提取的图像特征分类；具体过程为：

在构建的多分支跨连接卷积神经网络后连接全局均值池化，在全局均值池化层后用了Softmax函数进行多分类。

4.根据权利要求3所述基于多分支跨连接卷积神经网络的表情识别方法，其特征在于：所述Softmax函数需要将所有的输出归一化，故需要输入一个向量，最后输出一个向量；

对于每个输入x(ⁱ)都会有对应每个类别的概率，即：

p(y⁽ⁱ⁾＝j|x⁽ⁱ⁾)

式中，j为类别，j＝1,2,...,k；

因为输入输出都为向量，故

对概率分布进行归一化，使得所有概率之和为1；

Softmax的代价函数为：

其中，I{y⁽ⁱ⁾＝j}为示性函数，

则

其中，θ_j为Softmax模型的参数向量，j∈1,2,...,k；θ_l为Softmax模型的参数向量，l∈1,2,...,k。