CN112906500B

CN112906500B - 基于深度特权网络的人脸表情识别方法及系统

Info

Publication number: CN112906500B
Application number: CN202110125228.3A
Authority: CN
Inventors: 张通; 刘炳秀; 贾雪; 王雪菡; 陈俊龙
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2023-08-22
Anticipated expiration: 2041-01-29
Also published as: CN112906500A

Abstract

本发明公开了基于深度特权网络的人脸表情识别方法，包括以下步骤：主网络通过输入面部表情图片，并进行预处理，得到预处理面部表情图片；主网络学习其人脸表情特征，得到人脸表情特征信息，进而对人脸表情情绪进行情绪分类，得到情绪分类信息；通过特权网络获取特权信息，进而对损失函数进行特权学习，优化主网络的参数，得到优化深度特权网络；在主网络输入测试的面部表情图片，对测试的面部表情图片进行预处理；采用通过特权学习后的深度特权网络提取表情特征，实现情绪分类，得到人脸表情识别结果；本发明将人脸运动单元作为特权信息，对传统的深度网络进行训练以提取出有利于识别的表情特征，从而提高人脸情绪识别的准确度。

Description

基于深度特权网络的人脸表情识别方法及系统

技术领域

本发明涉及表情识别的研究领域，特别涉及基于深度特权网络的人脸表情识别方法及系统。

背景技术

现有的人脸表情识别算法

面部表情是指通过脸部肌肉、眼部肌肉和口部肌肉的变换而表现出各种情绪状态。人类的六种主要感情：愤怒、高兴、悲伤、惊讶、厌恶、恐惧、轻蔑可由对应的面部表情来体现。人脸表情识别是最直接、最有效的情感识别模式，面部表情识别(Facial expressionrecognition,FER)作为计算机辨别人类情绪状态的重要手段，具有很广阔的应用场景，例如人机交互、游戏体验。

面部表情识别的任务是从静态人脸图片或视频序列中选择出表情状态，将其分类到相应的情绪类别中，从而确定人的情绪与心理变化。现有的人脸表情识别基本有两种方法：一种是提取人工设计特征并使用分类器识别；另一种是通过深度网络学习端到端的特征。

其中基于卷积神经网络(Convolutional Neural Network,CNN)的识别框架在面部表情识别中取得了显著的效果，卷积神经网络可以区分面部整体或局部更高和多层次的特征，具有较好的面部图像特征的分类性能。

现有的卷积神经网络

卷积神经网络由于其端到端的高效学习框架和强大的图像特征提取能力，在处理面部表情图片方面具有很大的优势，被广泛应用与计算机视觉领域，尤其是人脸表情识别方面。卷积神经网络一般由卷积层、激活层、池化层和全连接层组成。卷积层通过使用局部过滤器集来提取图片各部分特征；激活层可以增加非线性度；池化层可以减小特征向量的尺寸，减少过拟合现象。组合多层卷积层、激活层、池化层，将低级特征转化成高级特征。最后，全连接层连接所有的特征以进行最终的分类。现有的卷积神经网络已经有一些非常经典的体系结构，例如VGG、GoogLeNet、ResNet等。

现有的基于面部动作单元的表情识别方法

人脸表情识别还可以通过面部动作编码系统(Facial Action Coding System,FACS)定义不同的脸部肌肉动作和不同表情的对应关系来实现。面部动作编码系统根据人脸的解剖学特点，将人脸划分成若干既相互独立又相互联系的动作单元(Action Unit,AU)。这些面部动作单元的运动特征及其所控制的区域可以反映出人脸表情。由于一些运动单元可以在同一张面部图像中同时出现，所以基于运动单元的识别方法是一种多标签分类的任务。运动单元识别通过搭建卷积神经网络训练运动单元样本后得到运动单元特征识别模型，然后用于运动单元特征识别与分类。基于运动单元的识别方法虽然与面部表情识别相似，但基于运动单元的识别更关注脸部区域和运动单元之间的关系。

现有的利用特权信息学习的方法

利用特权信息学习(Learning Using Privileged Information,LUPI)的方法是通过在训练过程中同时利用特权信息辅助网络进行训练。特权信息是一种辅助信息，提供样本的附加信息以便于模型学习，仅可用于训练阶段，在测试阶段不能获取。对于一些很难获取的信息只能在训练过程中收集，这样有助于学习到更好的模型。现已有一些研究将特权学习用于面部表情识别任务中，帮助学习面部表情，更新训练模型等。

现有技术的客观缺点：

现有的基于卷积神经网络的人脸表情识别算法在处理面部图像数据的时候具有一定的局限性，只利用图片信息，未考虑到人脸的其他信息，如脸部动作单元的信息。然而面部动作编码系统编码可以给出脸部肌肉动作的具体描述，可在原有的基础上更进一步提高模型对脸部特征的学习能力。

现阶段的人脸表情识别技术还很少运用特权信息学习的方法，所以面对有些在训练阶段可以获取但在测试阶段难以获取或需要耗费大量人力物力，成本极高的方法来获取特征的问题上还有待改进。

现有的利用特权信息学习的方法仅仅是将特权信息用于训练过程中，未考虑不同集成特权信息的阶段所造成的影响。

现有的利用特权信息学习在集成时通常会通过相似性约束和不等式正则化损失来监督网络，并进行微调，但却未考虑到不同的损失函数对参数调整的不同影响。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供基于深度特权网络的人脸表情识别方法及系统，一种在深度网络中集成特权信息以进行人脸表情识别的通用体系结构，考虑到运动单元的数据提供了更详细的表情描述，将面部动作单元作为特权信息来帮助学习面部表情识别网络。这有助于完善面部表情识别网络的学习，模型可以更有效地学习特征表示，提高识别的准确率；在训练阶段加入了特权信息，提升模型的性能，使得模型更易获取上述难以在测试阶段获取到的特征，减少了大量人力物力的浪费，同时提高了人脸表情识别的准确率。

本发明的第一目的在于提供基于深度特权网络的人脸表情识别方法。

本发明的第二目的在于提供基于深度特权网络的人脸表情识别系统。

本发明的第一目的通过以下的技术方案实现：

基于深度特权网络的人脸表情识别方法，包括以下步骤：

获取人脸的面部表情图片，主网络通过输入面部表情图片，对面部表情图片进行预处理，得到预处理面部表情图片；

主网络学习预处理面部表情图片的人脸表情特征，得到人脸表情特征信息，通过人脸表情特征信息对人脸表情情绪进行情绪分类，得到情绪分类信息；

通过特权网络获取特权信息，使用特权信息对损失函数进行特权学习，进而优化主网络的参数，得到优化深度特权网络；

在主网络模型输入测试的面部表情图片，对测试的面部表情图片进行预处理，得到预处理的测试面部表情图片；

采用通过特权学习后的深度特权网络提取表情特征，实现情绪分类，得到人脸表情识别结果。

进一步地，所述对具有愤怒、轻蔑、厌恶、恐惧、快乐、悲伤、惊讶七种情感标签之一的面部表情图片进行预处理，具体为：采用加权平均法对面部表情图片进行灰度化，得到灰度化面部表情图片；通过几何变换将灰度化面部表情图片进行裁剪、居中并按要求调整大小；通过中值滤波对所有的面部表情图片进行图像增强，得到预处理面部表情图片。

进一步地，所述通过特权网络获取特权信息，使用特权信息对损失函数进行特权学习，进而优化主网络的参数，得到优化深度特权网络，具体为：根据不同的情况通过运动单元信息分为不同的特权学习优化主网络的参数，包括三种情况：第一种情况为调整主网络模型中的参数；第二种为监督模型特定特征学习；第三种为修正输出空间，损失函数表示如下：

其中，λ_1i，λ_2i，λ_3i是根据概况而定的三种损失函数的系数。分别为三种特权学习方式的损失函数，具体地：x为主网络的输入数据，/>为特权网络输入的特权信息，y为表情的标签；f_s(x)是主网络的一部分，而L(x^*,·)用于衡量特权学习与主网络之间识别结果的差别；f_p(x^*)为特权网络的识别结果，f(x)为主网络的识别情感类别标签，/>用于衡量三种标签之间的差别。

损失函数由三部分组成，分别由上述的三种类型相对应，其中λ_1i，λ_2i，λ_3i是根据概况而定的系数。

进一步地，所述调整主网络模型中的参数，具体过程如下：调整主网络中的参数；在模型训练过程中，输入图像数据x的同时输入np个运动单元识别的特征作为特权信息数据，通过函数f_θ(θ，x^*)，根据x^*和模型中的参数θ来影响网络中的特定的参数，对主网络模型进行修改后，再将模型用来预测情绪标签y。

进一步地，所述监督模型特定特征学习，具体为：通过函数L(x^*，f_s(x))监督主网络的特定特征学习，其中f_s(x)是主网络的一部分，而L(x^*,·)用于衡量特权信息x^*，输入的图像数据通过面部表情识别主网络来提取情感特征；提取面部的运动单元信息作为特权信息，利用特权网络来提取情感特征；将主网络的情感特征与特权网络的情感特征级联起来，识别输出表情标签y。

进一步地，所述监督模型特定特征学习，为运动单元信息辅助输出的深度特权网络；

其中，主网络由三部分组成：整张脸特征提取流，上部分脸特征提取流、下部分脸特征提取流；其中，整张脸特征提取流用于提取整张脸的表情特征，上部分脸特征提取流和下部分脸特征提取流是分别对应上、下两部分的面部表情识别网络f_{s_upper}(·)、f_{s_lower}(·)提取脸部表情特征；f_{s_upper}(·)、f_{s_lower}(·)由两层卷积块组成的面部表情识别网络利用运动单元标签信息提取表情特征，用一层网络级联通过三路网络学习到的特征来预测情绪；

特权网络包括上半张脸的运动单元识别网络、下半张脸的运动单元识别网络，均是由三层卷积块组成的神经网络，提取对应脸部运动单元标签；上半张脸的运动单元识别网络、下半张脸的运动单元识别网络分别识别上、下半张脸的图像数据得到上下部分脸的运动单元信息upper_AU'、lower_AU'后，将运动单元信息作为中间输出，再输入到对应的主网络上下部分面部表情特征提取流中；

运动单元识别的损失函数如下所示：

其中AU'＝(au’₁,au'₂,...,au'_a)是通过网络f_s(·)预测出来的运动单元向量，ω_pos和ω_neg分别代表正负样本的权重；

用F_full表示整张脸的特征，F_upper、F_lower表示上、下半张脸经过面部表情识别提取后得到的特征，最后级联的三种特征用于预测情绪标签y'；

则有：运动单元的损失函数总共包括了面部表情分类的损失、上半张脸运动单元识别的损失和下半张脸运动单元识别的损失，其公式如下：

Loss_AOAU(y,y')＝β₁·cross_entropy(y,y')+β₂·Loss_AU(upper_AU,upper_AU')+β₃·Loss_AU(lower_AU,lower_AU')

其中upper_AU'、lower_AU'是由上下半张脸运动单元识别函数f_{s_upper}(·)、f_{s_lower}(·)预测出的运动单元标签，β₁，β₂,，β₃是三种损失函数的权重系数。

进一步地，所述修正输出空间，具体为：将图像数据x输入面部表情识别主网络中进行表情识别，得到对应的表情标签f(x)；将运动单元作为特权信息，输入特权网络中进行表情识别，得到表情标签f_p(x^*)；通过L(y，f(x)，f_p(x^*))预测情绪标签y，影响主网络的表现来修正输出空间。

进一步地，所述修正输出空间，为运动单元信息作为特权输入的深度特权网络；

其中，主网络为卷积神经网络，包括依次连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、全连接层、softmax层；该主网络以面部表情图像作为输入；

特权网络为多层全连接层，该特权网络以面部运动单元向量特征输入，并通过多层全连接层后得到情绪分类结果；

损失函数构造：

用y_a、y_b表示通过脸部图像网络f(·)和运动单元网络f_p(·)预测的标签，Θ_a、Θ_b分别表示f(·)和f_p(·)的参数矩阵，为了使脸部图像网络学习到运动单元网络的信息，要使标签y_a、y_b尽可能相似，此过程通过不断优化辅助的损失函数来实现；辅助的损失函数Loss_aux(y_a,y_b)通过多种方式计算，例如均方差损失和余弦距离损失，其中，均方差损失的公式为：

余弦距离损失的公式为：

此网络的整个损失函数由脸部图像网络的损失、运动单元网络的损失和辅助损失三部分组成：

Loss_PIAU(y,y_a,y_b)＝α₁·cross_entropy(y,y_a)+α₂·cross_entropy(y,y_b)+α₃·Loss_aux(y_a,y_b)

其中α₁、α₂、α₃权重系数以平衡三种损失，cross_entropy(·)为交叉熵，Loss_aux(·)可为上述均方差损失函数、余弦距离损失函数中的一种。

本发明的第二目的通过以下技术方案实现：

基于深度特权网络的人脸表情识别系统，包括：

输入模块，用于输入获取的人脸面部表情图片；

预处理模块，用于对人脸面部表情图片进行预处理，得到预处理面部表情图片；

深度特权网络模块，其包括主网络和特权网络，其中主网络学习预处理面部表情图片的人脸表情特征，得到人脸表情特征信息，通过人脸表情特征信息对人脸表情情绪进行情绪分类，得到情绪分类信息；

情绪分类模块，用于优化深度特权网络提取表情特征后实现最终的情绪分类，得到最终的情绪分类结果。

本发明的工作过程如下：

训练阶段：分为主网络和特权网络；主网络通过输入面部表情图片，对表情图片进行预处理，采用深度神经网络学习表情特征，实现情绪分类；特权网络通过输入特权信息，并对特权信息进行特权学习，来优化主网络的参数，使主网络能够学习到更有效的情感特征。

测试阶段：只采用主网络；输入测试的面部表情图片，对表情图片进行预处理，采用通过特权学习优化后的深度神经网络提取表情特征，实现情绪分类。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明提供基于深度特权网络的人脸表情识别方法及系统，一种在深度网络中集成特权信息以进行人脸表情识别的通用体系结构，考虑到运动单元的数据提供了更详细的表情描述，将面部动作单元作为特权信息来帮助学习面部表情识别网络。这有助于完善面部表情识别网络的学习，模型可以更有效的学习特征表示，提高识别的准确率；在训练阶段加入了特权信息，提升模型的性能，使得模型更易获取上述难以在测试阶段获取到的特征，减少了大量人力物力的浪费，同时提高了人脸表情识别的准确率。

2、本发明出了一种基于深度特权网络的人脸表情识别方法，集成三种特权学习的方法，不仅利用运动单元信息帮助面部表情识别主网络对人脸图像特征进行特权学习，还将特权学习的三种不同学习方式集成到一个基于深度特权网络的人脸表情识别方法上，总结了通用的特权学习方式。

3、本发明在同种运动单元信息作为特权输入的深度特权网络的训练过程中，运用不同的损失函数进行训练；在训练运动单元信息作为特权输入的深度特权网络时，用不同的损失函数：均方差、余弦损失函数来分别训练，对应主网络参数的调整也有所区别。从训练结果中可以看出不同的损失函数训练出的主网络在测试阶段的准确率也有差别，说明损失函数的选择也会影响特权学习训练的质量。当主函数运用不同的基线模型时，均方差作为损失函数时也有不同的表现，说明均方差并不是适合任何所有情况。

附图说明

图1是本发明所述基于深度特权网络的人脸表情识别方法流程图；

图2是本发明所述实施例1中运动单元信息作为特权输入的深度特权网络结构图；

图3是本发明所述实施例1中运动单元信息辅助输出的深度特权网络结构图；

图4是本发明所述实施例2中基于深度特权网络的人脸表情识别系统结构框图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例1：

基于深度特权网络的人脸表情识别方法，如图1所示，包括以下步骤：

具体如下：

本专利提出了一种基于深度特权网络的人脸表情识别方法，该方法在传统的深度网络中引入特权信息，并将三种集成特权信息数据的方式创造性的集成在一起，使该网络用于表情识别时具有实时、快速、准确率高的优点。此外，本专利详细描述了其中两种集成特权信息数据方式用于人脸表情识别的具体算法和流程，并给出了实验结果。

基于深度特权网络的人脸表情识别方法，其具体方案为：

在特权网络中，为了在不同情况下更好地优化主网络，本发明总结出三种集成特权信息数据的方式，下面分别具体介绍：

设主网络的输入数据为x，特权网络输入的特权信息为x^*，则：

类型一：调整主网络模型中的参数。在模型训练过程中，输入图像数据x的同时输入np个运动单元识别的特征作为特权信息数据，通过函数f_θ(θ，x^*)，根据x^*和模型中的参数θ来影响著网络中的特定的参数，对模型进行修改后，再将模型用来预测情绪标签y。

类型二：监督模型特定特征学习。通过函数L(x^*，f_s(x))监督主网络的特定特征学习，其中f_s(x)是主网络的一部分，而L(x^*,·)用于衡量特权信息x^*。输入的图像数据通过面部表情识别主网络来提取情感特征；提取面部的运动单元信息作为特权信息，利用特权网络来提取情感特征；将主网络的情感特征与特权网络的情感特征级联起来，识别输出表情标签y。

类型三：修正输出空间。将图像数据x输入面部表情识别主网络中进行表情识别，得到对应的表情标签f(x)；将运动单元作为特权信息，输入特权网络中进行表情识别，得到表情标签f_p(x^*)；通过L(y，f(x)，f_p(x^*))预测情绪标签y，影响主网络的表现来修正输出空间。

上述的三种方法可由通用的损失函数表示：

损失函数由三部分组成，分别由上述的三种类型相对应。其中λ_1i，λ_2i，λ_3i是根据概况而定的系数。f(·)，f_θi(·)，f_si(·)，f_pi(·)也会根据情况或数据的形式而变化，应根据实际应用任务进行设计。

在训练过程中，利用特权网络来约束主网络，使主网络能够学习到额外的特权信息，并使模型得到的情绪标签尽可能地与真实的标签相似；模型的损失函数包含特权学习网络与主网络的损失函数，通过不断地训练，减小损失，反向传递参数，更新主网络的参数，增强主网络提取情感特征的能力。在测试过程中，只需要利用主网络即可得到表情的预测结果，不用提取额外信息，具有实时、快速、准确率高的优点。

本申请提出的基于深度特权网络的人脸表情识别方法集成了三种特权信息学习的方法，将人脸运动单元作为特权信息，对传统的深度网络进行训练以提取出有利于识别的表情特征，从而提高人脸情绪识别的准确度。

基于深度特权网络的人脸表情识别方法提出的三种方法实现方式由相似的三个阶段组成。

首先，对输入的表情图片数据进行预处理，采用加权平均法对图像进行灰度化，再通过几何变换将图片裁剪、居中并将大小调整为96×96。最后通过中值滤波对所有的人脸图像进行图像增强。

在训练阶段，网络可分为主网络和特权网络，将经过预处理的数据输入主网络中进行情感识别，将特权信息输入特权网络中同时进行情绪分类，利用特权网络提取的信息为主网络提供额外的信息，通过不断优化损失函数对主网络进行调整，让主网络可以学习到有利于情绪分类的表情特征，以提高主网络的性能。

测试阶段，将预处理后的测试数据输入训练后的主网络来对人脸图像数据进行识别。本专利通过实验数据对特权学习后的人脸情绪识别网络进行了验证。

下面对深度特权网络中的两种集成特权信息数据方式用于人脸表情识别的训练过程及测试结果进行说明：

运动单元信息作为特权输入的深度特权网络：

运动单元信息作为特权输入的深度特权网络，如图2所示，属于上述的第三种类型，将运动单元信息作为特权输入来帮助图像网络的学习。在该方法中人脸情绪识别及运动单元识别训练相同样本，利用两种识别方法分别预测图像数据的情绪标签，并通过添加辅助的损失函数使图像网络的输出结果和运动单元网络的结果要尽可能的相似。在这个训练过程中不断重复上述过程，并通过反向传递的方法，使特权学习不断影响主网络中的特定参数，修正输出空间。以下是网络和损失函数的具体介绍：

主网络构造

运动单元信息作为特权输入的深度特权网络的主网络是一个卷积神经网络，此卷积网络以面部表情图像作为输入，搭建了3层5x5的卷积网络来提取表情特征，之后接一个全连接层，并接softmax层进行表情识别。具体网络结构为：5x5卷积->池化->5x5卷积->池化->5x5卷积->全连接层->softmax分类。

2.特权网络构造

本算法的特权网络为两层全连接，此网络以面部运动单元向量特征输入，并通过两层全连接后得到情绪分类结果。

3.损失函数构造

用y_a、y_b表示通过脸部图像网络f(·)和运动单元网络f_p(·)预测的标签，Θ_a、Θ_b分别表示f(·)和f_p(·)的参数矩阵。为了使脸部图像网络学习到运动单元网络的信息，要使标签y_a、y_b尽可能相似，此过程通过不断优化辅助的损失函数来实现。辅助的损失函数Loss_aux(y_a,y_b)可以通过多种方式计算，例如均方差损失和余弦损失等。均方差(MSE)损失的公式为：

MSE(y_a,y_b)＝||y_a-y_b||²， (2)

余弦距离损失的公式为：

Loss_PIAU(y,y_a,y_b)＝α₁·cross_entropy(y,y_a)+α₂·cross_entropy(y,y_b)+α₃·Loss_aux(y_a,y_b) (4)

其中α₁、α₂、α₃权重系数以平衡三种损失。

运动单元信息辅助输出的深度特权网络：

运动单元信息作为辅助输出的特权学习网络，如图3所示，属于基于深度特权网络的人脸表情识别方法中第二种类型的方法,利用运动单元作为面部表情识别的部分网络f_s(·)的媒介输出，监督主网络对特定特征的学习来提升整体网络的性能。面部表情识别网络可以基于运动单元识别更精确地学习表情特征是运动单元信息辅助输出的深度特权网络实现的基础。在训练过程中通过约束运动单元识别网络的结果与真实的运动单元标签相似，以及让运动单元信息辅助输出的深度特权网络级联面部表情识别网络和两个局部的运动单元识别网络提取的特征后识别得到的情绪标签与真实的情绪标签尽可能相似，并不断重复上述提取特征及分类的步骤，通过反向传递参数，不断地微调主网络的参数设置来提升模型识别的准确率。下面对网络及损失函数进行详细介绍：

1.主网络结构

运动单元信息辅助输出的深度特权网络的主网络由三部分组成：整张脸特征提取流，上部分脸特征提取流、下部分脸特征提取流。其中整张脸特征提取流中，运用的是与上文提及的面部表情识别网络特征提取结构一样的网络结构，用于提取整张脸的表情特征。上下部分脸特征提取流是对应上、下两部分的面部表情识别网络f_{s_upper}(·)、f_{s_lower}(·)提取脸部表情特征。f_{s_upper}(·)、f_{s_lower}(·)由两层卷积块组成的面部表情识别网络利用运动单元标签信息提取表情特征。然后用一层网络级联通过三路网络学习到的特征来预测情绪。

2.特权网络结构

该方法的特征网络为上半张脸、下半张脸的运动单元识别网络。这两部分的运动单元识别网络分别识别上下半张脸的图像数据得到上下部分脸的运动单元信息upper_AU'、lower_AU'后，将运动单元信息作为中间输出，再输入到对应上文所述的主网络上下部分面部表情特征提取流中。

上下部分脸特征提取流中的运动单元识别网络均是由三层卷积块组成的神经网络，提取对应脸部运动单元标签。

3.损失函数构造

运动单元识别是一种多标签分类，考虑到类别的不平衡性，运动单元识别的损失函数用加权二值交叉熵，所以运动单元识别的损失函数写作：

其中AU'＝(au’₁,au’₂,...,au’_a)是通过网络f_s(·)预测出来的运动单元向量，ω_pos和ω_neg分别代表正负样本的权重。

本算法用F_full表示整张脸的特征，F_upper、F_lower表示上、下半张脸经过面部表情识别提取后得到的特征。最后级联的三种特征用于预测情绪标签y'。

所以运动单元的损失函数总共包括了面部表情分类的损失、上半张脸运动单元识别的损失和下半张脸运动单元识别的损失，其公式如下：

Loss_AOAU(y,y')＝β₁·cross_entropy(y,y')+β₂·Loss_AU(upper_AU,upper_AU')+β₃·Loss_AU(lower_AU,lower_AU') (8)

其中upper_AU'、lower_AU'是由上下半张脸运动单元识别函数f_{s_upper}(·)、f_{s_lower}(·)预测出的运动单元标签，β₁，β₂,，β₃是权重系数，以强调不同损失的重要性。

进一步地，主网络的基本模型可用VGG16、ResNet20等各种深度网络及其变体代替。

进一步地，表情识别的特权信息除了采用表情运动单元之外，也可以采用其他辅助信息作为特权信息。

进一步地，实验采用的面部表情图像数据集还可以用其他数据集，在实验时进行相同的处理，进行两部分的实验。

实验验证：

本方法在Extended Cohn-Kanade(CK+)人脸表情数据集上进行了实验。CK+的人脸表情序列被分成7类：愤怒，轻蔑，厌恶，恐惧，快乐，悲伤和惊讶。本实验中将数据中每个序列的第一个帧作为中性样本，最后的三个帧被视为对应的情感样本，采用了10折交叉验证进行实验。

本专利算法在CK+数据集上进行了7种表情分类和用8种表情分类(含中性表情)的实验。在7种表情分类实验中，基线网络的准确率为97.67％，在运动单元信息作为特权输入的深度特权网络方法训练的实验中，用均方差作为辅助损失的算法的准确率达到了97.82％，用余弦距离损失作为辅助损失的算法的准确率为98.28％，而运动单元辅助输出的深度特权网络的准确率达到了97.97％。

在8种表情分类实验中基线网络的准确率为95.83％，在运动单元信息作为特权输入的深度特权网络方法训练的实验中，用均方差作为辅助损失的算法的准确率达到了96.06％，用余弦距离损失作为辅助损失的算法的准确率为96.33％，运动单元辅助输出的深度特权网络的准确率到达96.95％。

通过上述结果可以看出运动单元信息作为特权输入的深度特权网络和运动单元辅助输出的深度特权网络的实验结果都较基线网络有所提升。损失函数用余弦距离的性能要优于用均方差的运动单元信息作为特权输入的深度特权网络。

实验结果表明，相比于只采用深度网络，本专利提出的基于深度特权网络的人脸表情识别方法能够有效利用特权信息，使用面部运动单元作为特权信息的特权学习能够提高原模型的特征表征能力，实现更准确的表情识别。

实施例2：

基于深度特权网络的人脸表情识别系统，如图4所示，包括：

输入模块，用于输入获取的人脸面部表情图片；

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于深度特权网络的人脸表情识别方法，其特征在于，包括以下步骤：

通过特权网络获取特权信息，使用特权信息对损失函数进行特权学习，进而优化主网络的参数，得到优化深度特权网络，具体为：根据不同的情况通过运动单元信息分为不同的特权学习优化主网络的参数，包括三种情况：第一种情况为调整主网络模型中的参数；第二种为监督模型特征学习；第三种为修正输出空间，损失函数表示如下：

其中，损失函数由三部分组成，分别由上述的三种类型相对应，其中λ_1i，λ_2i，λ_3i是根据概况而定的系数，分别为三种特权学习方式的损失函数；具体地：x为主网络的输入数据，/>为特权网络输入的特权信息，y为表情的标签；f_s(x)是主网络的一部分，而/>用于衡量特权信息x^*；f_p(x^*)为特权网络的识别结果，f(x)为主网络的识别情感类别标签，/>用于衡量三种标签之间的差别；

所述监督模型特征学习，具体为：通过函数L(x^*，f_s(x))监督主网络的特征学习，其中f_s(x)是主网络的一部分，而L(x^*,·)用于衡量特权信息x^*，输入的图像数据通过面部表情识别主网络来提取情感特征；提取面部的运动单元信息作为特权信息，利用特权网络来提取情感特征；将主网络的情感特征与特权网络的情感特征级联起来，识别输出表情标签y；

所述监督模型特征学习，为运动单元信息辅助输出的深度特权网络；

其中，主网络由三部分组成：整张脸特征提取流、上部分脸特征提取流、下部分脸特征提取流；其中，整张脸特征提取流用于提取整张脸的表情特征，上部分脸特征提取流和下部分脸特征提取流是分别对应上、下两部分的面部表情识别网络f_{s_upper}(·)、f_{s_lower}(·)提取脸部表情特征；f_{s_upper}(·)、f_{s_lower}(·)由两层卷积块组成的面部表情识别网络利用运动单元标签信息提取表情特征，用一层网络级联通过三路网络学习到的特征来预测情绪；

运动单元识别的损失函数如下所示：

其中AU'＝(au′₁,au′₂,...,au′_a)是通过网络f_s(·)预测出来的运动单元向量，ω_pos和ω_neg分别代表正负样本的权重；

其中upper_AU'、lower_AU'是由上下半张脸运动单元识别函数f_{s_upper}(·)、f_{s_lower}(·)预测出的运动单元标签，β₁，β₂，β₃是三种损失函数权重系数；

在优化后的主网络输入测试的面部表情图片，对测试的面部表情图片进行预处理，得到预处理的测试面部表情图片；

2.根据权利要求1所述的基于深度特权网络的人脸表情识别方法，其特征在于，所述对面部表情图片进行预处理，具体为：采用加权平均法对面部表情图片进行灰度化，得到灰度化面部表情图片；通过几何变换将灰度化面部表情图片进行裁剪、居中并按要求调整大小；通过中值滤波对所有的面部表情图片进行图像增强，得到预处理面部表情图片。

3.根据权利要求1所述的基于深度特权网络的人脸表情识别方法，其特征在于，所述进行情绪分类，具体包括愤怒、轻蔑、厌恶、恐惧、快乐、悲伤、惊讶。

4.根据权利要求1所述的基于深度特权网络的人脸表情识别方法，其特征在于，所述调整主网络模型中的参数，具体过程如下：调整主网络中的参数；在模型训练过程中，输入图像数据x的同时输入np个运动单元识别的特征作为特权信息数据，通过函数f_θ(θ，x^*)，根据x^*和模型中的参数θ来影响网络中的参数，对主网络模型进行修改后，再将模型用来预测情绪标签y。

5.根据权利要求1所述的基于深度特权网络的人脸表情识别方法，其特征在于，所述修正输出空间，具体为：将图像数据x输入面部表情识别主网络中进行表情识别，得到对应的表情标签f(x)；将运动单元作为特权信息，输入特权网络中进行表情识别，得到表情标签f_p(x^*)；通过L(y，f(x)，f_p(x^*))预测情绪标签y，影响主网络的表现来修正输出空间。

6.根据权利要求5所述的基于深度特权网络的人脸表情识别方法，其特征在于，所述修正输出空间，为运动单元信息作为特权输入的深度特权网络；

损失函数构造：

用y_a、y_b表示通过脸部图像网络f(·)和运动单元网络f_p(·)预测的标签，Θ_a、Θ_b分别表示f(·)和f_p(·)的参数矩阵，为了使脸部图像网络学习到运动单元网络的信息，要使标签y_a、y_b相似，此过程通过不断优化辅助的损失函数来实现；辅助的损失函数Loss_aux(y_a,y_b)通过多种方式计算，均方差损失和余弦距离损失，其中，均方差损失的公式为：

MSE(y_a,y_b)＝||y_a-y_b||²，

余弦距离损失的公式为：

其中α₁、α₂、α₃权重系数以平衡三种损失，cross_entropy(·)为交叉熵，Loss_aux(·)为上述均方差损失函数、余弦距离损失函数中的一种。

7.基于深度特权网络的人脸表情识别系统，采用上述1-6中任一项所述基于深度特权网络的人脸表情识别方法实现，其特征在于，包括：

输入模块，用于输入获取的人脸面部表情图片；