CN110738102B

CN110738102B - 一种人脸表情识别方法及系统

Info

Publication number: CN110738102B
Application number: CN201910832294.7A
Authority: CN
Inventors: 谢圆; 陈添水; 蒲韬
Original assignee: DMAI Guangzhou Co Ltd
Current assignee: DMAI Guangzhou Co Ltd
Priority date: 2019-09-04
Filing date: 2019-09-04
Publication date: 2023-05-12
Anticipated expiration: 2039-09-04
Also published as: CN110738102A

Abstract

本发明公开了一种人脸表情识别方法及系统，方法包括：获取待识别的人脸图像，人脸图像包括多个动作单元，动作单元与表情之间及动作单元之间存在依赖关系；利用神经网络的主干网络获取表征人脸图像全局特性的第一特征；根据预设动作单元与表情之间关系在第一特征的基础上，提取表征动作单元局部特性的第二特征；将第一特征与第二特征进行融合后，根据动作单元之间的依赖关系得到第三特征；将第三特征与第一特征进行拼接得到第四特征，根据第四特征进行人脸表情预测。本发明实施例通过引入表情‑动作单元的关系和动作单元自身的关系，结合表情和动作单元知识交互来辅助特征的提取，从而做到对人脸表情的更准确的识别。

Description

一种人脸表情识别方法及系统

技术领域

本发明涉及图像识别技术领域，具体涉及一种人脸表情识别方法及系统。

背景技术

人脸表情是传达人的情绪的重要信号，自动化的表情识别可以辅助机器人交互，智慧医疗，用户解析等应用，因而长期以来存在大量的研究工作，主要集中于受控环境中七类基本表情(平静，高兴，生气，悲伤，讨厌，惊讶，害怕)的自动化识别。相关地，动作单元定义的是人脸特定区域肌肉的运动，如嘴角肌肉上扬，下巴下落。根据动作单元编码系统，每个基本表情都能精确地被定义为一系列动作单元的组合，因而动作单元在自动化表情识别中也起到了重要作用。

近年来，研究领域开始出现了反映真实场景的大规模数据集。同之前在实验室场景下收集的数据相比，这些数据集由于在姿势，场景，光照等条件下都有很大的变化，所以对识别的方法带来了很大的挑战。以前手工标识的特征由于难以捕捉到真实场景下巨大的差异性信息，特征表达能力不足，在新出现的数据集上的效果比较差。

发明内容

因此，本发明提供的一种人脸表情识别方法及系统，克服了现有技术中对多样的数据集进行人脸表情识别效果差的缺陷。

第一方面，本发明实施例提供一种人脸表情识别方法，包括如下步骤：获取待识别的人脸图像，所述人脸图像包括多个面部动作单元，所述面部动作单元与表情之间及面部动作单元之间存在依赖关系；利用神经网络的主干网络获取表征所述人脸图像全局特性的第一特征；根据预设人脸动作单元与表情之间关系利用神经网络的局部分支网络在所述第一特征的基础上，提取表征面部动作单元局部特性的第二特征；将所述第一特征与第二特征进行融合后，根据面部动作单元之间的依赖关系得到第三特征；将所述第三特征与所述第一特征进行拼接得到第四特征，根据所述第四特征进行人脸表情预测。

在一实施例中，所述利用神经网络获取表征所述人脸图像全局特性的第一特征的步骤，包括：将待识别的人脸图像的输入神经网络的主干网络，将不同层输出的不同分辨率的特征进行拼接，将得到的初步全局特征作为第一特征。

在一实施例中，所述根据预设人脸动作单元与表情之间关系利用神经网络的局部分支网络在所述第一特征的基础上，提取表征面部动作单元局部特性的第二特征的步骤，包括：根据先验知识建立动作单元与表情的关系矩阵；利用所述关系矩阵获取与输入表情概率之间的对应关系，得到动作单元的概率分布；将所述动作单元概率作为伪标签对第一局部分支网络进行训练；将第一特征输入训练好的第一局部分支网络得到第二特征。

在一实施例中，所述将所述第一特征与第二特征进行融合后，根据面部动作单元之间的依赖关系得到第三特征的步骤，包括：将所述第一特征与第二特征通过低秩化的双线性池化操作进行融合，生成融合特征；将面部动作单元之间的依赖关系作为约束条件，利用表情标签对所述融合特征进行训练，得到特定表情对应的面部动作单元的概率向量；将所述概率向量作为权重对所述第二特征进行加权融合，得到第三特征。

在一实施例中，所述将面部动作单元之间的依赖关系作为约束条件，利用表情标签对所述融合特征进行训练，得到特定表情对应的面部动作单元的概率向量的步骤，包括：设置损失函数，所述损失函数包括表情分类的交叉熵损失及动作单元相关性损失；根据所述损失函数训练第二局部分支网络；将满足所述损失函数约束的第二局部分支网络的输出值作为动作单元的概率向量。

在一实施例中，所述概率向量通过以下公式计算：

其中，tanh(·)是非线性激活函数，⊙是像素级别的点乘操作、

P∈R^d×1均是可学习的参数矩阵，f^e为第一特征，f_i ^a为第二特征，b为偏差值，d_e是表情的种类数量，d_a是面部动作单元的种类数量，d是中间维度参数。

在一实施例中，所述将所述概率向量作为权重对所述第二特征进行加权融合，得到第三特征的步骤通过以下公式计算：

其中，f^a是第三特征，

是概率向量，f_i ^a是第二特征。

第二方面，本发明实施例提供一种人脸表情识别系统，包括：人脸图像获取模块，用于获取待识别的人脸图像，所述人脸图像包括多个面部动作单元，所述面部动作单元与表情之间及面部动作单元之间存在依赖关系；第一特征获取模块，用于利用神经网络的主干网络获取表征所述人脸图像全局特性的第一特征；第二特征获取模块，根据预设人脸动作单元与表情之间关系利用神经网络的局部分支网络在所述第一特征的基础上，提取表征面部动作单元局部特性的第二特征；第三特征获取模块，将所述第一特征与第二特征进行融合后，根据面部动作单元之间的依赖关系得到第三特征；人脸表情预测模块，将所述第三特征与所述第一特征进行拼接得到第四特征，根据所述第四特征进行人脸表情预测。

第三方面，本发明实施例提供一种计算机设备，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行本发明实施例第一方面所述的人脸表情识别方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行本发明实施例第一方面所述的人脸表情识别方法。

本发明技术方案，具有如下优点：

本发明实施例提供的一种人脸表情识别方法及系统，获取待识别的人脸图像，人脸图像包括多个面部动作单元，面部动作单元与表情之间及面部动作单元之间存在依赖关系；利用神经网络的主干网络获取表征人脸图像全局特性的第一特征；根据预设人脸动作单元与表情之间关系在第一特征的基础上，提取表征面部动作单元局部特性的第二特征；将第一特征与第二特征进行融合后，根据面部动作单元之间的依赖关系得到第三特征；将第三特征与第一特征进行拼接得到第四特征，根据第四特征进行人脸表情预测。本发明实施例通过引入表情-动作单元的关系和动作单元自身的关系，结合表情和动作单元知识交互来辅助特征的提取，从而做到对人脸表情的更准确的识别。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的人脸表情识别方法的一个具体示例的流程图；

图2为本发明实施例提供的表情-动作单元之间的关系的一个示意图；

图3为本发明实施例提供的动作单元之间的关系的一个示意图；

图4为本发明实施例提供的利用神经网络进行特征提取及表情识别过程的示意图；

图5为本发明实施例提供的提取表征面部动作单元局部特性的第二特征的一个具体示例的流程图；

图6为本发明实施例提供的获取第三特征的一个具体示例的流程图；

图7为本发明实施例提供的获取动作单元的概率向量一个具体示例的流程图；

图8为本发明实施例提供的人脸表情识别系统的一个具体示例的组成图；

图9为本发明实施例提供的计算机设备一个具体示例的组成图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例1

本发明实施例提供的人脸表情识别方法，可以应用于有人脸表情识别需求的应用领域，例如：智慧医疗，智能交通等，通过终端在获取到人脸图像后对人脸的表情进行识别。如图1所示，该人脸表情识别方法包括如下步骤：

步骤S1：获取待识别的人脸图像，所述人脸图像包括多个面部动作单元，所述面部动作单元与表情之间及面部动作单元之间存在依赖关系。

本发明实施例中，涉及的人脸表情包括：平静，高兴，生气，悲伤，讨厌，惊讶，害怕等；面部动作单元是人脸特定区域肌肉的运动，本发明实施例涉及人脸的17个面部动作单元。人脸相关的研究指出，如图2所示，每个表情都和几个动作单元有关，即每个基本表情都能精确地被定义为一系列动作单元的组合(例如，嘴角上扬和脸颊上提的面部动作组合可以对应“高兴”的表情，例如眉毛下压和嘴巴下拉的面部动作组合可以对应“生气”的表情，等等，以上仅以此举例，不以此为限)，因此动作单元在自动化表情识别中起到了重要作用。另外，如图3所示，不同的动作单元AU之间也存在着很强的依赖关系，有一些面部动作单元为正相关关系会经常同时出现(例如，脸颊上提和嘴角上扬)，而有的面部动作单元是负相关关系会互斥性出现的(例如，眉毛上扬和嘴角下垂)。

步骤S2:利用神经网络的主干网络获取表征所述人脸图像全局特性的第一特征。

本发明实施例中，如图4所示，将待识别的人脸图像的输入神经网络的主干网络，将不同层输出的不同分辨率的特征进行拼接，将得到的初步全局特征作为第一特征。

在一具体实施例中，人脸图像的输入大小为224x224，包括RGB三个通道。本发明选取了101层的残差网络作为主干网络。该网络的训练方式上使用表情标签作为监督，交叉熵函数作为损失函数，随机梯度下降作为优化器进行训练。根据分辨率的不同，残差网络的输出特征可以分为四组，分辨率分别：A组特征56x56，B组特征28x28，C组特征14x14，D组特征7x7，将这四组特征做两种处理：

1.A、B、C三组特征下采样到7x7的大小，然后和D组特征拼接在一起，作为全局的表情特征f^e；

2.B、C、D组特征上采样到56x56大小，和A组特征拼接在一起，作为输入步骤S3的初始特征f^e′。

步骤S3:根据预设人脸动作单元与表情之间关系利用神经网络的局部分支网络在所述第一特征的基础上，提取表征面部动作单元局部特性的第二特征。

本发明实施例中，选取了17个和表情任务最相关的动作单元，用17个结构相同，但是不共享权重的局部分支网络进行特征的提取。其中：

网络的结构：卷积层64-3x3，全连接层。

输入：每个动作单元都有对应的区域，可以通过脸部关键点进行定位，根据坐标映射的关系，为每个动作单元在步骤一生成的f^e′上截取出对应区域的特征。

训练：用自动生成的动作单元概率伪动作单元标签进行局部分支网络的训练，训练过程中，固定住主干网络的权重，只训练局部分支网络。

步骤S4:将所述第一特征与第二特征进行融合后，根据面部动作单元之间的依赖关系得到第三特征。本发明实施例中，引入知识约束的注意力机制对面部动作单元的特征进行有加强效果的融合，基于不同的面部动作单元之间存在的依赖关系的约束得到第三特征。

步骤S5：将所述第三特征与所述第一特征进行拼接得到第四特征，根据所述第四特征进行人脸表情预测。

本发明实施例中，将加强后的动作单元特征与步骤S2的表情特征进行拼接，基于拼接后的特征进行最终的表情预测。

本发明实施例提供的人脸表情识别方法，通过引入表情-动作单元的关系和动作单元自身的关系，结合表情和动作单元知识交互来辅助特征的提取，从而做到对人脸表情的更准确的识别。

在一实施例中，执行步骤S3的具体过程，如图5所示，可以包括以下步骤：

步骤S31:根据先验知识建立动作单元与表情的关系矩阵。

由于每个表情都和几个动作单元有关，这种相关关系可以进一步分为主相关关系和次相关关系。如果出现了某个表情，和该表情有主相关关系的动作单元有极高的出现概率，和该表情有次相关关系的动作单元有较高出现概率，而和该表情无关的动作单元的出现概率较低。根据这样的关系可以建立一个动作单元和表情的关系矩阵W_EA，由于涉及的表情为7个，面部动作单元为17个，所以W_EA为7*17的矩阵。

步骤S32:利用所述关系矩阵获取所述与输入表情概率之间的对应关系，得到动作单元的概率分布。

通过动作单元和表情的关系矩阵，可以在不需要额外动作单元标注的情况下，对输入的表情概率p_e得到比较合理的动作单元的概率分布p_a。

p_a＝p_eW_EA

其中p_a＝{p_a0,p_a1,…,p_A-1},每个元素p_ai表示对应的动作单元AU_i的出现概率。本发明实施例中的表情概率p_e是事先通过先验知识的统计结果及表情专家知识库进行标记训练得到的，根据表情概率p_e和表情概率p_e即可得到动作单元的概率分布。

步骤S33:将所述动作单元概率作为伪标签对第一局部分支网络进行训练。

本发明实施例将动作单元概率作为伪标签对局部分支网络进行训练，从而实现对动作单元表达形式领域自适应的学习，经过这个步骤训练后的局部分支网络可以用于动作单元特征的提取。

步骤S34:将第一特征输入训练好的第一局部分支网络得到第二特征。

本发明实施例，将得到的初始全局特征输入到训练好的局部分支网络后可以得到动作单元特征。

在一实施例中，执行步骤S4的具体过程，如图6所示，可以包括以下步骤：

步骤S41:将所述第一特征与第二特征通过低秩化的双线性池化操作进行融合，生成融合特征。

本发明实施例将全局表情特征f^e和局部分支网络得到的动作单元特征

通过低秩化的双线性池化操作进行融合，在其他实施例中也可以采用其他融合方式，采用本实施例的融合方式效果更优。

步骤S42:将面部动作单元之间的依赖关系作为约束条件，利用表情标签对所述融合特征进行训练，得到特定表情对应的面部动作单元的概率向量。在一实施中，如图7所示，可以具体包括以下步骤：

步骤S421：设置损失函数，所述损失函数包括表情分类的交叉熵损失及动作单元相关性损失。

由于不同的动作单元之间也存在着很强的依赖关系，有一些动作单元会经常同时出现，而有的动作单元是互斥性出现的。因此，学习的注意力系数也应该符合这样的依赖关系才具有合理性，因此需要制定一个损失函数来进行约束：

其中，

是交叉熵损失，

是本发明提出的动作单元相关性损失。具体地，考虑了动作单元的成对的正相关关系和负相关关系来定义

对于正相关的动作单元对i，j，它们出现的概率可以通过建模如下：

p(i_i|i₁)＞p(i₀|j₁)

p(i_i|i₁)＞p(i₁|j₀)

通过贝叶斯不等式和一系列变换转换后，上述概率公式等价为如下表示：

p(i₁，j₁)＞p(i₀，j₁)

p(i₁，j₁)＞p(i₁，j₀)

p(i₁，j₁)＞p(i_i)p(j₁)

为了使参数模型符合上述关系的约束，正相关关系的损失可以定义为：

类似地，负相关关系的损失可以定义为：

进而动作单元相关性损失可以定义为以上两种约束的和：

步骤S422:根据所述损失函数训练第二局部分支网络。

步骤S423:将满足所述损失函数约束的第二局部分支网络的输出值作为动作单元的概率向量。

所述概率向量通过以下公式计算：

步骤S43:将概率向量作为权重对所述第二特征进行加权融合，得到第三特征。

其中，f^a是第三特征，

是概率向量，f_i ^a是第二特征。所有动作单元特征进行加权融合，得到加强后的动作单元特征，即第三特征。

最终将上述过程得到的加强后的动作单元特征和全局特征通过以下公式进行拼接，进行表情的预测：

p^e＝fun([f^a，f^e])

其中，f^a加强后的动作单元特征，f^e为全局特征。

为了验证本发明实施例提供的人脸表情识别方法的有效性，选取了现有公开数据集中两个具有挑战性的数据集进行评测。这两个数据集是在非受控场景下收集的，难度较大，分别是RAF-DB(Real-world Affective Face Database,真实场景情感相关的人脸数据集)，以及SFEW数据集(Static Facial Expressions in the Wild，自然环境下的静态人脸表情)。RAF-DB是现在学术界最大的自然场景的表情数据集之一，包括了29672张差异极大的人脸图片，图片来源于网络。作为最早的一批自然场景表情数据集，被学术界广泛使用，图片总量为1766张。以下对比实验基于这两个数据集的验证集进行评测。和该领域普遍采取的评测指标相同，本方法选择了所有表情类别的平均准确率进行方法之间的对比。

本发明分别在这两个数据集上现在最新的几个达到世界领先水平的方法进行对比。在RAF-DB的基本表情数据上，对比方法有CP(Covariance Pooling,协方差池化法)，DLP-CNN(Deep Locality-Preserving Learning,深度局部性保持学习法)，MRE-CNN(Multi-Region Ensemble CNN,基于多区域整合的卷积神经网络法)。表1展示了本发明提供的方法和上述对比方法在RAF-DB的基本表情上的预测的准确率的比较。

表1

除了基本表情，本发明还在RAF-DB上难度更高的复合表情数据进行上进行评测，对比的方法有BaseDCNN(基础深度卷积神经网络模型)，CenterLoss(中心损失函数法)，DLP-CNN(Deep Locality-Preserving Learning,深度局部性保持学习法)。表2展示了本发明提供的方法和上述对比方法在RAF-DB的复合表情数据上的预测的准确率的比较。

表2

方法	BaseDCNN	CenterLoss	DLP-CNN	本发明
					平均准确率	40.2	40.0	44.6	51.1

在SFEW数据集上，对比方法有CP(Covariance Pooling,协方差池化法)，DLP-CNN(Deep Locality-Preserving Learning,深度局部性保持学习法)，IA-CNN(Identity-Aware Convolutional Neural Network,结合身份信息的卷积神经网络模型)，MDNL(Multiple Deep Network Learning，多个深度网络模型结合法)。表3展示了本发明提供的方法和上述对比方法在SFEW的表情数据上的预测的准确率的比较。

表3

本发明在两个数据集和其他方法对比准确率都有较大提高，其中，特别是对于困难样本的识别的提升作用更明显。如表3的数据所示，对于其他方法都预测不好的类别，如“厌恶”，“害怕”(准确率特别低，分别不超过5％和15％)，本发明的识别效果都有了大幅度的提高(17.4％和25.5％)。另外，复合表情相对于简单表情的识别难度更大，由表2可见本发明的方法和其他方法的准确率相比有大幅度提升。可见，针对现有方法的不足，本发明由于加入了先验的知识，在动作单元信息的辅助下，可以做到更精细化的表情识别。

实施例2

本发明实施例提供一种人脸表情识别系统，如图8所示，包括：

人脸图像获取模块1，用于获取待识别的人脸图像，所述人脸图像包括多个面部动作单元，所述面部动作单元与表情之间及面部动作单元之间存在依赖关系。此模块执行实施例1中的步骤S1所描述的方法，在此不再赘述。

第一特征获取模块2，用于利用神经网络的主干网络获取表征所述人脸图像全局特性的第一特征；此模块执行实施例1中的步骤S2所描述的方法，在此不再赘述。

第二特征获取模块3，根据预设人脸动作单元与表情之间关系利用神经网络的局部分支网络在所述第一特征的基础上，提取表征面部动作单元局部特性的第二特征；此模块执行实施例1中的步骤S3所描述的方法，在此不再赘述。

第三特征获取模块4，将所述第一特征与第二特征进行融合后，根据面部动作单元之间的依赖关系得到第三特征；此模块执行实施例1中的步骤S4所描述的方法，在此不再赘述。

人脸表情预测模块5，将所述第三特征与所述第一特征进行拼接得到第四特征，根据所述第四特征进行人脸表情预测。此模块执行实施例1中的步骤S5所描述的方法，在此不再赘述。

本发明实施例提供的人脸表情识别系统，通过引入表情-动作单元的关系和动作单元自身的关系，结合表情和动作单元知识交互来辅助特征的提取，从而做到对人脸表情的更准确的识别。

实施例3

本发明实施例提供一种计算机设备，如图9所示，包括：至少一个处理器401，例如CPU(Central Processing Unit，中央处理器)，至少一个通信接口403，存储器404，至少一个通信总线402。其中，通信总线402用于实现这些组件之间的连接通信。其中，通信接口403可以包括显示屏(Display)、键盘(Keyboard)，可选通信接口403还可以包括标准的有线接口、无线接口。存储器404可以是高速RAM存储器(Ramdom Access Memory，易挥发性随机存取存储器)，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器404可选的还可以是至少一个位于远离前述处理器401的存储装置。其中处理器401可以执行实施例1中的人脸表情识别方法。存储器404中存储一组程序代码，且处理器401调用存储器404中存储的程序代码，以用于执行实施例1中的人脸表情识别方法其中，通信总线402可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。通信总线402可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条线表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器404可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)，硬盘(英文：hard diskdrive，缩写：HDD)或固降硬盘(英文：solid-state drive，缩写：SSD)；存储器404还可以包括上述种类的存储器的组合。

其中，处理器401可以是中央处理器(英文：central processing unit，缩写：CPU)，网络处理器(英文：network processor，缩写：NP)或者CPU和NP的组合。

其中，处理器401还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文：application-specific integrated circuit，缩写：ASIC)，可编程逻辑器件(英文：programmable logic device，缩写：PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文：complex programmable logic device，缩写：CPLD)，现场可编程逻辑门阵列(英文：field-programmable gate array，缩写：FPGA)，通用阵列逻辑(英文：generic arraylogic,缩写：GAL)或其任意组合。

可选地，存储器404还用于存储程序指令。处理器401可以调用程序指令，实现如本申请执行实施例1中的人脸表情识别方法。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机可执行指令，该计算机可执行指令可执行实施例1中的人脸表情识别方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固降硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种人脸表情识别方法，其特征在于，包括如下步骤：

获取待识别的人脸图像，所述人脸图像包括多个动作单元，所述动作单元与表情之间及动作单元之间存在依赖关系；

利用神经网络的主干网络获取表征所述人脸图像全局特性的第一特征；

根据预设动作单元与表情之间关系利用神经网络的局部分支网络在所述第一特征的基础上，提取表征动作单元局部特性的第二特征；

将所述第一特征与第二特征进行融合后，根据动作单元之间的依赖关系得到第三特征，包括：

将所述第一特征与第二特征通过低秩化的双线性池化操作进行融合，生成融合特征；

将动作单元之间的依赖关系作为约束条件，利用表情标签对所述融合特征进行训练，得到特定表情对应的动作单元的概率向量；

将所述概率向量作为权重对所述第二特征进行加权融合，得到第三特征；

将所述第三特征与所述第一特征进行拼接得到第四特征，根据所述第四特征进行人脸表情预测。

2.根据权利要求1所述的人脸表情识别方法，其特征在于，所述利用神经网络的主干网络获取表征所述人脸图像全局特性的第一特征的步骤，包括：

将待识别的人脸图像的输入神经网络的主干网络，将不同层输出的不同分辨率的特征进行拼接，将得到的初步全局特征作为第一特征。

3.根据权利要求1所述的人脸表情识别方法，其特征在于，所述根据预设动作单元与表情之间关系利用神经网络的局部分支网络在所述第一特征的基础上，提取表征动作单元局部特性的第二特征的步骤，包括：

根据先验知识建立动作单元与表情的关系矩阵；

利用所述关系矩阵获取与输入表情概率之间的对应关系，得到动作单元的概率分布，通过以下公式计算：

其中,每个元素表示对应的动作单元的出现概率，表情概率是事先通过先验知识的统计结果及表情专家知识库进行标记训练得到的；

将所述动作单元的出现概率作为伪标签对第一局部分支网络进行训练；

将第一特征输入训练好的第一局部分支网络得到第二特征。

4.根据权利要求1所述的人脸表情识别方法，其特征在于，所述将动作单元之间的依赖关系作为约束条件，利用表情标签对所述融合特征进行训练，得到特定表情对应的动作单元的概率向量的步骤，包括：

设置损失函数，所述损失函数包括表情分类的交叉熵损失及动作单元相关性损失；

根据所述损失函数训练第二局部分支网络；

将满足所述损失函数约束的第二局部分支网络的输出值作为动作单元的概率向量。

5.根据权利要求1所述的人脸表情识别方法，其特征在于，

所述概率向量通过以下公式计算：

其中，是非线性激活函数，是像素级别的点乘操作、,均是可学习的参数矩阵，为第二特征，b为偏差值，是表情的种类数量，是动作单元的种类数量，是中间维度参数。

6.根据权利要求1所述的人脸表情识别方法，其特征在于，所述将所述概率向量作为权重对所述第二特征进行加权融合，得到第三特征的步骤通过以下公式计算：

其中，是第三特征，概率向量，第二特征。

7.一种人脸表情识别系统，其特征在于，包括：

人脸图像获取模块，用于获取待识别的人脸图像，所述人脸图像包括多个动作单元，所述动作单元与表情之间及动作单元之间存在依赖关系；

第一特征获取模块，用于利用神经网络的主干网络获取表征所述人脸图像全局特性的第一特征；

第二特征获取模块，根据预设动作单元与表情之间关系利用神经网络的局部分支网络在所述第一特征的基础上，提取表征动作单元局部特性的第二特征；

第三特征获取模块，将所述第一特征与第二特征进行融合后，根据动作单元之间的依赖关系得到第三特征，包括：

人脸表情预测模块，将所述第三特征与所述第一特征进行拼接得到第四特征，根据所述第四特征进行人脸表情预测。

8.一种计算机设备，其特征在于，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求1-6任一所述的人脸表情识别方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行权利要求1-6任一所述的人脸表情识别方法。