CN113239833B

CN113239833B - 一种基于双分支干扰分离网络的人脸表情识别方法

Info

Publication number: CN113239833B
Application number: CN202110551957.5A
Authority: CN
Inventors: 严严; 莫榕云; 王菡子
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2023-08-29
Anticipated expiration: 2041-05-20
Also published as: CN113239833A

Abstract

一种基于双分支干扰分离网络的人脸表情识别方法，涉及计算机视觉技术。提供可以处理表情图像中多种干扰因素的一种基于双分支干扰分离网络的人脸表情识别方法。首先设计一个双分支网络来分开学习表情特征和干扰特征，再根据干扰特征的不同类型在干扰分支中设计标签感知子分支和无标签子分支。在标签感知子分支中，利用辅助数据集的标签信息和迁移学习的方式学习常见干扰特征。在无标签子分支中，引入印度自助餐过程理论学习潜在干扰特征。最后，通过对抗学习，进一步分离干扰特征和表情特征，从而获得更有判别力的表情特征进行分类预测，有效地提升表情识别的性能。

Description

一种基于双分支干扰分离网络的人脸表情识别方法

技术领域

本发明涉及计算机视觉技术，尤其是涉及一种基于双分支干扰分离网络的人脸表情识别方法。

背景技术

近年来，基于深度学习的人脸表情识别算法取得重大进展。但是，人脸表情图像中存在许多种干扰因素，例如身份、头部姿态、光照等。这些干扰因素严重影响表情特征的提取，降低表情识别算法的性能。因此，分离干扰因素对提升表情识别的性能非常重要。

表情图像中存在一些常见的干扰因素，例如身份和头部姿态变换。因为部分数据集包含这些因素的标注，所以大多数算法利用现有的标签信息来显式地学习常见干扰特征。比如Can Wang等人(Can Wang,Shangfei Wang,and Guang Liang.2019.Identity-andpose-robust facial expression recognition through adversarial featurelearning.In Proceedings of the ACM International Conference onMultimedia.238–246.)利用身份和姿态的标签信息来抑制身份变换和姿态变换的影响；Jiawei Chen等人(Jiawei Chen,Janusz Konrad,and Prakash Ishwar.2018.Vgan-basedimage representation learning for privacy-preserving facial expressionrecognition.In Proceedings of the IEEE Conference on Computer Vision andPattern Recognition Workshops.1570–1579.)利用生成对抗网络来合成不同身份和姿态的图像，进而帮助模型学习身份不变特征和姿态不变特征；Delian Ruan等人(DelianRuan,Yan Yan,Si Chen,Jing-Hao Xue,and Hanzi Wang.2020.Deep disturbance-disentangled learning for facial expression recognition.In Proceedings of theACM International Conference on Multimedia.2833–2841)采用对抗迁移学习的方式，同时学习多种干扰因素。但是这些方法需要借助干扰因素的标签，导致学到的常见干扰因素类型是有限的，因此忽略一些潜在的干扰因素，例如发型、遮挡和配饰等。近年来，有些方法不使用干扰因素的标签信息，隐式地分离干扰因素。比如Marah Halawa等人(MarahHalawa,ManuelEduardo Vellasques,Urko SánchezSanz,and OlafHellwich.2020.Learning disentangled expression representations from facialimages.arXiv preprint arXiv:2008.07001(2020).)使用对抗学习来区分干扰特征和表情特征；Huiyuan Yang等人(Huiyuan Yang,Umur Ciftci,and Lijun Yin.2018.Facialexpression recognition by de-expression residue learning.In Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition.2168–2177)通过学习中性脸图像和表情图像之间的差异信息作为表情相关信息，排除表情无关的干扰特征。但是这些方法没有对常见干扰因素和潜在干扰因素加以区分，而是用相同的方式来学习。对于常见干扰因素而言，由于缺少先验信息，导致它们的学习效果不够理想。

发明内容

本发明的目的在于针对现有技术存在的上述难题，提供可以处理表情图像中多种干扰因素的一种基于双分支干扰分离网络的人脸表情识别方法。

本发明包括以下步骤：

1)收集人脸表情识别数据集，并划分为训练集和测试集，然后进行图像预处理；

2)预训练骨干网络，提取共享特征，再分别送入干扰分支和表情分支；

3)将干扰分支细化成两个子分支，对不同类型的干扰因素进行特征提取；

4)在干扰分支的标签感知子分支中，利用迁移学习的方式提取常见干扰特征；

5)在干扰分支的无标签子分支中，利用印度自助餐过程的理论模拟潜在干扰特征的分布，学习潜在干扰特征；

6)将步骤4)和步骤5)得到的干扰特征，分别送入相应的对抗分类器中进行对抗学习，扩大两类干扰特征与表情特征的差异性；

7)将步骤2)中所得到的共享特征送入表情分支提取表情特征，对表情特征进行分类，得到最后的分类结果，即预测所属类别。

在步骤1)中，所述人脸表情识别数据集采用公开数据集RAF-DB和SFEW。RAF-DB数据集采集互联网中29672张不同的人脸图像，其中15339张图像标注7种不同的表情类别，7种不同的表情为中性、高兴、愤怒、悲伤、惊讶、害怕和厌恶；将标注7种表情类别的图像进行划分，得到12271张训练样本和3068张测试样本；SFEW数据集采集真实场景下的人脸图像，标注7种表情类别，含有958张图像的训练集和436张图像的验证集，通常在测试中使用验证集，然后对训练样本进行随机剪裁、随机翻转、规范化等预处理操作，进一步扩充训练样本的丰富性。

在步骤2)中，所述骨干网络采用ResNet-18网络进行改造；ResNet-18由一个卷积层、八个残差模块、一个平均池化操作和一个全连接层组成；但由于骨干网络只涉及共享特征的提取，不涉及分类操作；为使其适用于表情识别任务，修改ResNet-18最后的平均池化和全连接操作，使其输出2048维的特征向量作为共享特征；所述骨干网络利用大型人脸数据集MS-Celeb-1M进行预训练，有利于提高模型性能；骨干网络提取的共享特征分别输入到干扰分支和表情分支中。

在步骤3)中，将干扰分支细化成标签感知子分支和无标签子分支；在标签感知子分支中利用常见干扰因素的标签信息作为辅助，学习常见干扰特征；在无标签子分支中，对没有标签信息辅助学习的潜在干扰因素，用无监督的方式学习潜在干扰特征。

在步骤4)中，引入含有M种常见干扰因素标签的辅助数据集，预训练一个参考干扰特征提取网络，可以输出参考干扰特征；然后将步骤2)中得到的共享特征送入干扰分支中的标签感知子分支，提取常见干扰特征；最小化常见干扰特征与参考干扰特征的差异性，让常见干扰特征与参考干扰特征尽可能地相像，使辅助数据集中常见干扰因素的先验知识能够迁移到标签感知子分支中，缓解训练样本缺少常见干扰因素标签的困难。

在步骤5)中，在干扰分支的无标签子分支中，利用印度自助餐过程的理论模拟潜在干扰特征的分布，学习潜在干扰特征，进一步包含以下子步骤：

5.1首先假设用一个存在矩阵和一个权重矩阵来构成潜在干扰特征；假设在N张图像中一共有K种潜在干扰因素，用一个存在矩阵D∈{0,1}^N×K来表示潜在干扰因素在图像中存在的情况，1表示存在，0表示不存在；引入印度自助餐过程(Indian buffet process,IBP)的理论来学习存在矩阵，假设第k种潜在干扰因素出现的概率为π_k，D中的第k列元素值服从概率为π_k的伯努利分布，π_k的计算如下：

其中，v_j来自一组服从贝塔分布的随机向量v，其先验概率密度如下：

p(v_j)＝Beta(α,1) (公式2)

其中，Beta(·)表示贝塔函数，α为其参数；

因此，存在矩阵中关于第i张图像的行向量D_i的先验概率密度为：

5.2假设一个权重矩阵对第i张图像，权重行向量W_i的先验概率密度服从均值为0，方差为1的标准高斯分布，可如下表示：

其中，表示高斯分布，/>表示单位矩阵；

5.3将步骤2)中提取的共享特征送入干扰分支中的无标签子分支，对第i张图像输出均值/>方差/>和噪声/>在后验估计中，分别用Kumaraswamy分布和Concrete分布来近似估计贝塔分布和伯努利分布；因此，随机向量v的后验概率密度计算如下：

q(v_j|a_j,b_j)＝Kumaraswamy(a_j,b_j) (公式5)

其中，a_j和b_j是网络中的可学习参数；

D_i的后验概率密度为：

其中，π＝[π₁,π₂,…,π_K]，λ_q是温度参数；

5.4根据均值μ_i和方差进行高斯采样得到权重向量W_i，所有图像的权重向量构成权重矩阵W；此时，W_i的后验概率密度计算如下：

5.5对v、D和W分别最小化它们各自后验概率密度和先验概率密度之间的差异，约束网络的无标签分支学到近似先验假设的分布，从而实现D和W的准确采样；

5.6通过采样得到D和W，学到的潜在干扰特征可表示为：

f^u＝D⊙W (公式8)

在步骤6)中，分别用两个对抗分类器与标签感知子分支和无标签子分支进行对抗训练；以无标签子分支为例，先将潜在干扰特征送入对抗分类器中，与表情标签计算交叉熵损失，更新对抗分类器的参数，使它能正确预测表情类别；再固定对抗分类器，将潜在干扰特征送入对抗分类器中，最大化分类器输出的熵，更新无标签子分支的参数，目的是使生成的干扰特征无法让对抗分类器正确预测表情标签，从而与表情特征得以区分；标签感知子分支的对抗训练与无标签子分支类似。

在步骤7)中，将步骤2)中得到的共享特征送入表情分支中，提取表情特征；然后将表情特征送入最后的分类层，预测所属的表情类别；在测试阶段，将图像裁剪成与训练样本一致的尺寸，送入双分支干扰分离网络预测表情类别，最后计算预测准确率作为评估结果。

本发明首先设计一个双分支网络来分开学习表情特征和干扰特征，再根据干扰特征的不同类型在干扰分支中设计标签感知子分支和无标签子分支。在标签感知子分支中，利用辅助数据集的标签信息和迁移学习的方式学习常见干扰特征。在无标签子分支中，引入印度自助餐过程理论学习潜在干扰特征。最后，通过对抗学习，进一步分离干扰特征和表情特征，从而获得更有判别力的表情特征进行分类预测，有效地提升表情识别的性能。

本发明采用多任务框架设计双分支网络，包括干扰分支和表情分支；首先利用预训练的骨干网络提取耦合的共享特征；然后将共享特征分别送入干扰分支和表情分支进行解耦；接着将干扰分支细化成标签感知子分支和无标签子分支，分别对常见的干扰因素和潜在的干扰因素进行特征提取；再通过对抗训练，扩大两类干扰特征和表情特征的差异性，从而分离干扰特征；最后对表情特征进行分类，得到最终的预测结果。本发明采用不同的子分支来分离干扰特征，可以抑制更多类型的干扰因素，有利于学习到更有效的表情特征，从而提升表情识别的性能。

附图说明

图1为本发明实施例的整个网络结构图。

图2为在人脸表情识别数据集SFEW上，原始样本的类别分布图。

图3为在人脸表情识别数据集SFEW上，本发明提出的方法即双分支干扰分离网络与基准方法的样本类别分布效果对比图。在图3中，a为基准方法，b为本发明的方法。

具体实施方式

以下实施例将结合附图对本发明作进一步的说明，本实施例在以本发明技术方案为前提下进行实施，给出实施方式和具体操作过程，但本发明的保护范围不限于下述的实施例。

本发明实施例的实施方式包括以下步骤：

1)收集人脸表情识别数据集，并划分为训练集和测试集，然后进行图像预处理。

所用的人脸表情识别数据集采用公开数据集RAF-DB和SFEW。RAF-DB数据集采集互联网中29672张不同的人脸图像，其中15339张图像标注7种不同的表情类别。将标注7种表情类别的图像进行划分，得到12271张训练样本和3068张测试样本。SFEW数据集采集真实场景下的人脸图像，标注7种表情类别，含有958张图像的训练集和436张图像的验证集，通常在测试中使用验证集。两个数据集的7种表情类别分别为中性、高兴、愤怒、悲伤、惊讶、害怕和厌恶。然后对训练样本进行随机剪裁、随机翻转、规范化等预处理操作，进一步扩充训练样本的丰富性。

2)预训练骨干网络，提取共享特征，分别送入干扰分支和表情分支。

骨干网络采用ResNet-18图像分类网络进行改造。ResNet-18由一个卷积层、八个残差模块、一个平均池化操作和一个全连接层组成。在残差模块中，采用跳跃连接结构，有利于保护信息的完整性。但由于骨干网络只涉及共享特征的提取，不涉及分类操作，为使其适用于表情识别任务，修改ResNet-18最后的平均池化和全连接操作，使其输出2048维的特征向量作为共享特征。该骨干网络利用大型人脸数据集MS-Celeb-1M进行预训练，有利于提高模型对人脸关键区域的特征提取能力。骨干网络提取的共享特征随后输入到干扰分支和表情分支中。

3)将干扰分支细化成两个子分支，对不同类型的干扰因素进行特征提取。

因为共享特征是耦合的，除表情信息以外，还包含常见干扰因素和潜在干扰因素的信息，所以将干扰分支细化成标签感知子分支和无标签子分支，来处理不同类型的干扰因素。在标签感知子分支中利用常见干扰因素的标签信息作为辅助，学习常见干扰特征。在无标签子分支中，对没有标签信息辅助学习的潜在干扰因素，用无监督的方式学习潜在干扰特征。

4)在干扰分支的标签感知子分支中，利用迁移学习的方式提取常见干扰特征。

对于一些常见的干扰因素，比如身份、姿态、光照等，如果利用一些先验知识，会帮助模型更好地学到常见干扰特征。首先，引入含有M种常见干扰因素标签的辅助数据集，预训练一个参考干扰特征提取网络，可以输出参考干扰特征。然后将步骤2)中得到的共享特征送入干扰分支中的标签感知子分支，提取常见干扰特征。最小化常见干扰特征与参考干扰特征的差异性，让常见干扰特征与参考干扰特征尽可能地相像，使辅助数据集中常见干扰因素的先验知识能够迁移到标签感知子分支中，缓解训练样本缺少常见干扰因素标签的困难。

5)在干扰分支的无标签子分支中，利用印度自助餐过程的理论来模拟潜在干扰特征的分布，学习潜在干扰特征。

5.1首先假设用一个存在矩阵和一个权重矩阵来构成潜在干扰特征。假设在N张图像中一共有K种潜在干扰因素，用一个存在矩阵D∈{0,1}^N×K来表示潜在干扰因素在图像中存在的情况，1表示存在，0表示不存在。引入印度自助餐过程的理论来学习存在矩阵。假设第k种潜在干扰因素出现的概率为π_k，D中的第k列元素值服从概率为π_k的伯努利分布。π_k的计算如下：

p(v_j)＝Beta(α,1) (公式2)

其中，Beta(·)表示贝塔函数，α为其参数。

其中，表示高斯分布，/>表示单位矩阵。

5.3将步骤2)中提取的共享特征送入干扰分支中的无标签子分支，对第i张图像输出均值/>方差/>和噪声/>在后验估计中，分别用Kumaraswamy分布和Concrete分布来近似估计贝塔分布和伯努利分布。因此，随机向量v的后验概率密度计算如下：

q(v_j|a_j,b_j)＝Kumaraswamy(a_j,b_j) (公式5)

其中，a_j和b_j是网络中的可学习参数。

D_i的后验概率密度为：

其中，π＝[π₁,π₂,…,π_K]，λ_q是温度参数。

5.4根据均值μ_i和方差进行高斯采样得到权重向量W_i，所有图像的权重向量构成权重矩阵W。此时，W_i的后验概率密度计算如下：

5.5对v，D和W，分别最小化它们各自后验概率密度和先验概率密度之间的差异，约束网络的无标签分支学到近似先验假设的分布，从而实现D和W的准确采样。

5.6通过采样得到D和W，最后学到的潜在干扰特征可表示为：

f^u＝D⊙W (公式8)

6)将步骤4)和步骤5)得到的干扰特征，分别送入相应的对抗分类器中进行对抗学习，扩大两类干扰特征与表情特征的差异性。

如图1所示，为进一步区分干扰特征和表情特征，分别用两个对抗分类器与标签感知子分支和无标签子分支进行对抗训练。以无标签子分支为例，先将潜在干扰特征送入对抗分类器中，与表情标签计算交叉熵损失，更新对抗分类器的参数，使它能正确预测表情类别。再固定对抗分类器，将潜在干扰特征送入对抗分类器中，最大化分类器输出的熵，更新无标签子分支的参数，目的是使生成的干扰特征无法让对抗分类器正确预测表情标签，从而与表情特征得以区分。标签感知子分支的对抗训练与无标签子分支类似。

将步骤2)中得到的共享特征送入表情分支中，通过两个全连接层提取表情特征。然后将表情特征送入最后的分类层，预测所属的表情类别。

在测试阶段，将图像裁剪成与训练样本一致的尺寸，送入双分支干扰分离网络预测表情类别，最后计算预测准确率作为评估结果。

如图2所示，在SFEW数据集的原始样本分布中，所有类别混合在一起，难以区分。比较图2、图3a和图3b，可以发现：本发明的方法和基准方法可以区分不同类别的样本，并且本发明的分类效果比基准方法更加准确，有效地拉近同类样本的间距，扩大不同类别样本的距离，减小类间相似性和类内差异性。

表1为本发明与其它一些表情识别方法在RAF-DB和SFEW的测试数据上的准确率对比。

从表1可以看出，本发明在两个数据集上都取得最高的表情识别准确率。

表1

DLP-CNN对应为Shan Li等人提出的方法(Shan Li,Weihong Deng,and JunPingDu.2017.Reliable crowdsourcing and deep locality-preserving learning forexpression recognition in the wild.In Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.2852–2861.)；

IACNN对应为Zibo Meng等人提出的方法(Zibo Meng,Ping Liu,Jie Cai,Shizhong Han,and Yan Tong.2017.Identity-aware convolutional neural networkfor facial expression recognition.In Proceedings of the IEEE InternationalConference on Automatic Face and Gesture Recognition.558–565.)；

SPDNet对应于Dinesh Acharya等人提出的方法(Dinesh Acharya,Zhiwu Huang,Danda Pani Paudel,and Luc Van Gool.2018.Covariance pooling for facialexpression recognition.In Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition Workshops.367–374.)；

IPA2LT对应为Jiabei Zeng等人提出的方法(Jiabei Zeng,Shiguang Shan,andXilin Chen.2018.Facial expression recognition with inconsistently annotateddatasets.In Proceedings of the European Conference on Computer Vision.222–237.)；

IPFR对应为Can Wang等人提出的方法(Can Wang,Shangfei Wang,and GuangLiang.2019.Identity-and pose-robust facial expression recognition throughadversarial feature learning.In Proceedings of the ACM InternationalConference on Multimedia.238–246.)；

RAN对应为Kai Wang等人提出的方法(Kai Wang,Xiaojiang Peng,Jianfei Yang,Debin Meng,and Yu Qiao.2020.Region attention networks for pose and occlusionrobust facial expression recognition.IEEE Transactions on Image Processing29,1(2020),4057–4069.)；

SCN对应为Kai Wang等人提出的方法(Kai Wang,Xiaojiang Peng,Jianfei Yang,Shijian Lu,and Yu Qiao.2020.Suppressing uncertainties for large-scale facialexpression recognition.In Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition.6896–6905.)；

DDL对应为Delian Ruan等人提出的方法(Delian Ruan,Yan Yan,Si Chen,Jing-Hao Xue,and Hanzi Wang.2020.Deep disturbance-disentangled learning for facialexpression recognition.In Proceedings of the ACM International Conference onMultimedia.2833–2841.)。

Claims

1.一种基于双分支干扰分离网络的人脸表情识别方法，其特征在于包括以下步骤：

将干扰分支细化成标签感知子分支和无标签子分支；在标签感知子分支中利用常见干扰因素的标签信息作为辅助，学习常见干扰特征；在无标签子分支中，对没有标签信息辅助学习的潜在干扰因素，用无监督的方式学习潜在干扰特征；

引入含有M种常见干扰因素标签的辅助数据集，预训练一个参考干扰特征提取网络，输出参考干扰特征；然后将步骤2)中得到的共享特征送入干扰分支中的标签感知子分支，提取常见干扰特征；最小化常见干扰特征与参考干扰特征的差异性，让常见干扰特征与参考干扰特征尽可能地相像，使辅助数据集中常见干扰因素的先验知识能够迁移到标签感知子分支中，缓解训练样本缺少常见干扰因素标签的困难；

所述利用印度自助餐过程的理论模拟潜在干扰特征的分布，学习潜在干扰特征，进一步包含以下子步骤：

5.1假设在N张图像中一共有K种潜在干扰因素，用一个存在矩阵D∈{0,1}^N×K来表示潜在干扰因素在图像中存在的情况，1表示存在，0表示不存在；引入印度自助餐过程的理论来学习存在矩阵，假设第k种潜在干扰因素出现的概率为π_k，D中的第k列元素值服从概率为π_k的伯努利分布，π_k的计算如下：

p(v_j)＝Beta(α,1)

其中，Beta(·)表示贝塔函数，α为其参数；

存在矩阵中关于第i张图像的行向量D_i的先验概率密度为：

5.2假设一个权重矩阵对第i张图像，权重行向量W_i的先验概率密度服从均值为0，方差为1的标准高斯分布，由下式表示：

其中，表示高斯分布，/>表示单位矩阵；

5.3将步骤2)中提取的共享特征送入干扰分支中的无标签子分支，对第i张图像输出均值/>方差/>和噪声/>在后验估计中，分别用Kumaraswamy分布和Concrete分布来近似估计贝塔分布和伯努利分布；随机向量v的后验概率密度计算如下：

q(v_j|a_j,b_j)＝Kumaraswamy(a_j,b_j)

其中，a_j和b_j是网络中的学习参数；

D_i的后验概率密度为：

其中，π＝[π₁,π₂,…,π_K]，λ_q是温度参数；

5.5对v、D和W分别最小化它们各自后验概率密度和先验概率密度之间的差异，约束网络的无标签分支学到近似先验假设的分布，以实现D和W的准确采样；

5.6通过采样得到D和W，最后学到的潜在干扰特征表示为：

f^u＝D⊙W

其中，⊙表示点乘；

分别用两个对抗分类器与标签感知子分支和无标签子分支进行对抗训练；以无标签子分支为例，先将潜在干扰特征送入对抗分类器中，与表情标签计算交叉熵损失，更新对抗分类器的参数，使它能正确预测表情类别；再固定对抗分类器，将潜在干扰特征送入对抗分类器中，最大化分类器输出的熵，更新无标签子分支的参数，目的是使生成的干扰特征无法让对抗分类器正确预测表情标签，从而与表情特征得以区分；标签感知子分支的对抗训练与无标签子分支类似；

7)将步骤2)中所得到的共享特征送入表情分支提取表情特征，对表情特征进行分类，得到最后的分类结果，预测所属类别。

2.如权利要求1所述一种基于双分支干扰分离网络的人脸表情识别方法，其特征在于在步骤1)中，所述人脸表情识别数据集采用RAF-DB数据集和SFEW数据集。

3.如权利要求2所述一种基于双分支干扰分离网络的人脸表情识别方法，其特征在于所述RAF-DB数据集采集互联网中29672张不同的人脸图像，其中15339张图像标注7种不同的表情类别，7种不同的表情为中性、高兴、愤怒、悲伤、惊讶、害怕和厌恶；将标注7种表情类别的图像进行划分，得到12271张训练样本和3068张测试样本。

4.如权利要求2所述一种基于双分支干扰分离网络的人脸表情识别方法，其特征在于所述SFEW数据集采集真实场景下的人脸图像，标注7种表情类别，含有958张图像的训练集和436张图像的验证集，通常在测试中使用验证集，然后对训练样本进行随机剪裁、随机翻转、规范化预处理操作，进一步扩充训练样本的丰富性。

5.如权利要求1所述一种基于双分支干扰分离网络的人脸表情识别方法，其特征在于在步骤2)中，所述骨干网络采用ResNet-18网络进行改造；ResNet-18由一个卷积层、八个残差模块、一个平均池化操作和一个全连接层组成；但由于骨干网络只涉及共享特征的提取，不涉及分类操作；为使其适用于表情识别任务，修改ResNet-18最后的平均池化和全连接操作，使其输出2048维的特征向量作为共享特征；所述骨干网络利用大型人脸数据集MS-Celeb-1M进行预训练，有利于提高模型性能；骨干网络提取的共享特征分别输入到干扰分支和表情分支中。

6.如权利要求1所述一种基于双分支干扰分离网络的人脸表情识别方法，其特征在于在步骤7)中，将步骤2)中得到的共享特征送入表情分支中，提取表情特征；然后将表情特征送入最后的分类层，预测所属的表情类别；在测试阶段，将图像裁剪成与训练样本一致的尺寸，送入双分支干扰分离网络预测表情类别，最后计算预测准确率作为评估结果。