CN113822183B

CN113822183B - 基于au-emo关联与图神经网络的零样本表情识别方法及系统

Info

Publication number: CN113822183B
Application number: CN202111052158.XA
Authority: CN
Inventors: 支瑞聪; 万菲
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2021-09-08
Filing date: 2021-09-08
Publication date: 2024-02-27
Anticipated expiration: 2041-09-08
Also published as: CN113822183A

Abstract

本发明公开了一种基于AU‑EMO关联与图神经网络的零样本表情识别方法及系统，该方法包括：获取提取表情图像视觉特征的视觉特征提取器；生成具有内在AU关联的AU语义特征；建立表情类别的语义特征向量；同时建模各表情类别间的转移关系，并衡量这些转移关系的权重；将二者结合，构建AU‑EMO关联图谱；通过图卷积神经网络在AU‑EMO关联图谱上进行消息传播，生成分类器权重；针对待预测表情类别的表情图像，通过视觉特征提取器提取视觉特征，并以内积的形式与分类器权重融合，预测图像所属表情类别。本发明在不增加标注训练图片的情况下可以推广判别任意一种表情类别，降低了使用成本。

Description

基于AU-EMO关联与图神经网络的零样本表情识别方法及系统

技术领域

本发明涉及人工智能技术领域，特别涉及一种基于AU(Action Unit,面部运动单元)-EMO(Emotion,表情)关联与图神经网络的零样本表情识别方法及系统。

背景技术

面部表情是人类情感的重要载体，表达了情绪、状态等丰富的内在信息。现有的表情识别方法大多关注Ekman定义的7种基本表情：开心、悲伤、惊讶、恐惧、厌恶、生气和中性表情。但随着情感心理学的发展，越来越多的情绪类别被纳入衡量人类内在状态表达的范畴。2012年，Martinez等人提出了情绪连续模型的概念；2014年，Du等人在基本表情类别的基础上，以两两组合的方式提出了复合表情的概念，由此将表情类别扩展到21类，并使用计算模型证明了这些复合表情在视觉上是可区分的；2017年，心理学家Alan和Dacher通过自我报告(self-report)的方式观察被试者在观看不同影片时的情绪体验，提出人的情感状态可以平滑的分布为27种不同的类别。在智能感知领域，通常通过捕获人的面部图片，并通过自动表情识别系统来推理对应的情绪状态。

除了通过增加定义离散表情标签来表示人类的情绪体验，另外一种扩展表情识别的情感维度的方式是使用Ekman和Friesen提出的面部表情编码系统(Facial ActionCoding System,FACS)，通过系列面部运动单元(Action Unit，AUs)分别对不同面部区域的肌肉群运动进行描述。由于每种表情发生时，被激活的面部肌肉动作，也就是面部运动单元AU是不相同的，FACS通过组合不同的AU来对不同的表情进行描述，从而降低固定情感模式分类的局限。但FACS是一种专业化的描述方法，需要大量的相关训练才能准确辨别使用AU组合描述的情感类别，因此难以在实际应用中推广。

图卷积神经网络(Graph Convolutional Network，GCN)最初是为解决自然语言处理领域中的半监督学习问题而提出的。在这种半监督学习的设置中，目标是通过部分已知的节点标签和图拓扑结构，以及图中包含的辅助信息，推理余下节点的标签内容。GCN能够较好的从不规则邻域中聚合节点消息，因此常被应用于知识信息推理任务。

面部表情是观察评估中最直观且重要的行为指标，在人机交互、智能控制、安全、医疗、通信等领域有着十分重要的研究。早期的表情识别模型通常是一个二步法，即先进行面部特征提取，再利用模式识别进行匹配分类。随着深度学习的不断发展，在端到端的模型下，特征提取与表情分类可以同时进行。Fasel等人首先发现浅层的卷积神经网络(Convolutional Neutral Network,CNN)特征能够反映出脸部姿势和比例。针对表情数据集中标签的不确定现象，Wang等人通过小批量的自注意机制和仔细的重标签机制设计了一种能够给予确定标签更大权重的表情识别模型，从而在RAF-DB数据集上将基本表情识别准确率提高到了88.14％，达到了无辅助信息下基本表情识别任务的最优解。在利用AU信息作为辅助任务的自动表情识别的模型设计中，Yang等人使用三种方法来完成AU到表情的映射，并在CK+和Oulu CASIA两个数据集上证明了将AU信息引入表情识别任务的有效性。Liu等人提出的DAUGN模型首先将图片分解成多个AU相关的区域，然后提取对应的局部特征并计算特征间的距离建立AU面部图，最后使用GCN来结合面部外观特征和图几何结构，从而完成表情识别任务。DAUGN分别在CK+、MMI和SFEW数据集上达到了97.67％、80.11％和55.36％的准确率。Wang等人则针对感兴趣区域(Region of Interest，RoI)设计了一种注意机制，并添加预定义的专家知识来加强表情特征的表示，在AffectNet和SFEW数据集上分别获得了60.95％和55.97％的准确率。Zhi等人则通过对AU与情绪间的关系概率进行建模，并通过测量AU序列间的相似性构建了将AU映射到情绪的推理方案，在BP4D数据集上达到了86.3％的表情识别准确率。

而在零样本识别技术中，Changpinyo等人将二部图的思想引入零样本识别，通过建立幻影类(phantom class)来对齐语义空间和图像特征空间，在ImageNet数据集上达到了1.5％的Top-1准确率(Hit@1)；Wang等人通过使用类别名称语义向量和图神经网络，同时引入WordNet作为ImageNet数据集中类别的显式关联知识图谱，将ImageNet数据集上的零样本识别任务的Top-1准确率提高到了1.8％，Kampffmeyer等人针对图卷积操作中涉及到的拉普拉斯平滑会稀释节点信息，进而干扰节点回归的问题，通过对其中的图结构进行改进，仍然使用WordNet作为类别关联知识图谱，但以更少的GCN网络层数在ImageNet数据集上达到了3.0％的Top-1准确率

由以上分析可知，目前自动表情识别模型与零样本识别技术的结合中存在以下三方面的不足：

(1)目前的自动表情识别模型大多针对7种传统的基本表情类别，然而情感心理学已经证明，在实际情况中，人的情感类别并不能简单的使用这些类别进行区分，因此现有的表情识别方法大大限制了对人类情感测量的维度。

(2)目前大多数的表情识别模型都是基于监督学习范式提出的，因此只能推理判断和训练阶段完全一样的表情类别，这意味着对于新的表情类别，不仅对样本数量的需求增多，还需要重新训练识别模型，耗费大量的时间和精力。同时，受到人脸图像采集和类别标注的限制，很难为这些新扩充的情感状态收集大量对应的人脸标注数据，这也为重新训练表情自动识别模型带来了困难。因此，现有的表情识别系统很难对新扩充的表情类别进行分析。

(3)已有的零样本识别技术通常采用通用词网络WordNet作为类别间的显式知识图谱，然而WordNet是根据词汇之间的上下义语义关系提出的，并不适用于表情分析任务。如果简单的将WordNet引入表情识别模型中，会难以把握表情类别在消息传递过程中的准确信息。

因此，如何设计一种自动表情识别模型，在不需要增加海量标注训练数据的前提下，完成对扩展表情类别的分析任务，在实际任务应用中具有重要意义。

发明内容

本发明提供了一种基于AU-EMO关联与图神经网络的零样本表情识别方法及系统，以解决现有表情识别方法无法完成对扩展表情类别分析的技术问题。

为解决上述技术问题，本发明提供了如下技术方案：

一方面，本发明提供了一种基于AU-EMO关联与图神经网络的零样本表情识别方法，该基于AU-EMO关联与图神经网络的零样本表情识别方法包括：

采用卷积神经网络对输入的表情图像进行深度视觉特征自学习，得到可见类别的分类器权重和用于提取表情图像视觉特征的视觉特征提取器；

基于各种不同面部运动单元AU的定义，根据AU动作因为受到面部肌肉的牵引而在视觉空间产生的关联关系，生成具有内在AU关联的AU语义特征；

基于AU语义特征以及AU与表情EMO之间的关联关系，建立表情类别的语义特征向量；同时建模各表情类别间的转移关系并衡量所述转移关系的权重；

将表情类别的语义特征向量和所述转移关系的权重结合，构建AU-EMO关联图谱；其中，在所述AU-EMO关联图谱中，节点嵌入为表情类别的语义特征向量，每一对节点间的边权重则为对应的所述转移关系的权重；

通过图卷积神经网络在所述AU-EMO关联图谱上进行消息传播，并结合所述可见类别的分类器权重，得到所述图卷积神经网络对所有类别的权重预测；

针对待预测表情类别的表情图像，通过所述视觉特征提取器提取视觉特征，并将提取的视觉特征以内积形式与所述权重预测融合，预测图像所属表情类别。

进一步地，所述采用卷积神经网络对输入的表情图像进行深度视觉特征自学习，得到可见类别的分类器权重和用于提取表情图像视觉特征的视觉特征提取器，包括：

采用卷积神经网络对输入的表情图像进行深度视觉特征自学习，并将所述卷积神经网络的最后一层全连接层的权重视作可见类别的分类器权重，其余隐藏层的权重视作卷积特征提取权重，从而得到视觉特征提取器。

进一步地，在将表情图像输入卷积神经网络之前，所述方法还包括：

将待输入的图像预处理成224×224的大小，并使用大型数据集ImageNet的图像参数归一化；对于训练时期的图像，将其变形，以缓解模型过拟合问题。

进一步地，所述基于各种不同面部运动单元AU的定义，根据AU动作因为受到面部肌肉的牵引而在视觉空间产生的关联关系，生成具有内在AU关联的AU语义特征，包括：

根据各种不同AU的定义，首先将其转化成动词形式表达的词组向量；

采用预训练好的词向量模型，根据所述词组向量得到AU的初始语义特征；

根据AU发生时在面部上展现出的肌肉动作关联关系，根据各种AU能否同时发生的概率建立AU关联图；其中，在所述AU关联图中，节点是各个AU的初始语义特征，边的权重是数学建模出的AU关联关系；

在所述AU关联图的基础上，使用编码器-解码器格式重构所述AU关联图，并将编解码器产生的中间向量作为最终的AU语义特征向量。

进一步地，所述采用预训练好的词向量模型，根据所述词组向量得到AU的初始语义特征，包括：

当AU描述短语中包含人造词时，将AU描述短语中所有包含的人造词用动词形式改写，以使描述短语符合所述词向量模型的语料库范畴；对于以词组形式出现的AU描述，以平均词向量的方式来聚合获得其对应的初始语义特征。

进一步地，在所述AU关联图的基础上，使用编码器-解码器格式重构AU关联图并将编解码器产生的中间向量作为最终的AU语义特征向量，包括：

使用图卷积网络作为编码器结构：

其中，B表示AU关联图的邻接矩阵，D是B相应的度矩阵，W_θ是可学习的投影权重矩阵参数，Z是AU的初始语义特征；

将经过所述编码器得到的中间向量的输出作为最终的AU语义特征向量；使用内积形式的解码器：

其中，是使用中间向量重构出来的AU关联图的邻接矩阵。

进一步地，所述建立表情类别的语义特征向量，包括：

从AU-EMO关联关系的角度出发，利用AU的语义特征来为每一种表情类别生成语义特征向量，每个表情类别y的语义特征向量T^y用下式计算：

其中，表示一般平均池化，P(AU_i|y)表示当y发生时，第i个面部运动单元AU_i发生的概率，embedding(AU_i)表示AU_i的语义特征向量。

进一步地，衡量所述转移关系的权重，包括：

以表情对应的不同AU发生概率为基础，计算表情间的转移概率，假设y₁是源表情，y₂是目标表情，则从y₁转移到y₂的概率通过下式计算：

其中，P(y₂|y₁)表示从y₁转移到y₂的概率，P(AU_i|y₂)表示当y₂发生时，第i个面部运动单元AU_i发生的概率，#AU_i occurs in both y₁&y₂表示对同时发生在y₁和y₂中的面部运动单元AU_i的计数，#AU_j occurs in y₂表示对发生在y₂中的面部运动单元AU_i的计数。

进一步地，所述通过图卷积神经网络在所述AU-EMO关联图谱上进行消息传播，并结合所述可见类别的分类器权重，得到所述图卷积神经网络对所有类别的权重预测，包括：

通过图卷积神经网络为AU-EMO关联图谱每个节点迭代的聚集邻域信息：

其中，H^(l+1)表示本层的传播结果；δ(·)表示非线性激活函数；H^(l)为上一层图卷积传播的输出，将作为本层传播的输入，其维度为(N_s+N_u)×k^(l)，k^(l)表示上一层传播结果的维度；将表情类别的语义特征向量作为第一层图卷积传播的输入；是AU-EMO关联图谱对应的归一化邻接矩阵，其维度为(N_s+N_u)×(N_s+N_u)；N_s和N_u分别表示可见类别和未见类别集合大小；W_θ表示可学习的投影权重矩阵参数，其维度为k^(l)×k^(l+1)；经过最后一次图卷积后，输出为图卷积神经网络对所有类别的权重预测/> 和/>分别表示可见类别的分类器权重，k^(l+1)表示本层传播结果的维度。

另一方面，本发明还提供了一种基于AU-EMO关联与图神经网络的零样本表情识别系统，该基于AU-EMO关联与图神经网络的零样本表情识别系统包括：

视觉特征提取模块，用于采用卷积神经网络对输入的表情图像进行深度视觉特征自学习，得到可见类别的分类器权重和用于提取表情图像视觉特征的视觉特征提取器；

AU语义特征提取模块，用于基于各种不同面部运动单元AU的定义，根据AU动作因为受到面部肌肉的牵引而在视觉空间产生的关联关系，生成具有内在AU关联的AU语义特征；

AU-EMO关联特征提取模块，用于基于所述AU语义特征提取模块获取的AU语义特征以及AU与表情EMO之间的关联关系，建立表情类别的语义特征向量；同时建模各表情类别间的转移关系并衡量所述转移关系的权重；将表情类别的语义特征向量和所述转移关系的权重结合，构建AU-EMO关联图谱；其中，在所述AU-EMO关联图谱中，节点嵌入为表情类别的语义特征向量，每一对节点间的边权重则为对应的所述转移关系的权重；

分类器权重生成模块，用于通过图卷积神经网络在所述AU-EMO关联特征提取模块构建的AU-EMO关联图谱上进行消息传播，并结合所述可见类别的分类器权重，得到所述图卷积神经网络对所有类别的权重预测；

特征融合与预测模块，用于针对待预测表情类别的表情图像，通过所述视觉特征提取模块得到的视觉特征提取器提取视觉特征，并将提取的视觉特征以内积形式与分类器权重生成模块生成的权重预测融合，预测图像所属表情类别。

再一方面，本发明还提供了一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

又一方面，本发明还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

本发明提供的技术方案带来的有益效果至少包括：

本发明利用AU-EMO间的关联关系，建立表情类别的语义特征向量，进而作为表情范畴的通用描述符，同时建模各表情类别间的转移关系，并衡量这些关系的权重，最后将两者结合得到AU-EMO关联图谱。与此同时，通过图卷积神经网络在AU-EMO关联图谱上进行消息传播，从而扩展已有的表情分类器。本发明有效利用了AU作为连接各种不同类别的表情的桥梁，深度挖掘了AU和EMO的关联关系，并将这种关系加工并推广到语义特征空间和视觉特征空间两个不同的维度，通过特征融合的方式对面部图片所代表的表情进行自动分析和判别。本发明作为一种在不增加标注训练图片的情况下可推广判别任意一种表情类别的智能自动表情识别方案，能很大程度上降低专业表情标注人员的时间成本和人力成本，并提供具有客观性和可解释性的扩展表情识别的检测与分析。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于AU-EMO关联与图神经网络的零样本表情识别方法的执行流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

第一实施例

请参阅图1，本实施例提供了一种基于AU-EMO关联与图神经网络的零样本表情识别方法，该方法可以由电子设备实现，该电子设备可以是终端或者服务器。该基于AU-EMO关联与图神经网络的零样本表情识别方法包括以下步骤：

S1，采用卷积神经网络对输入的表情图像进行深度视觉特征自学习，得到可见类别的分类器权重和用于提取表情图像视觉特征的视觉特征提取器；

需要说明的是，表情图片是进行自动表情类别识别的重要输入数据，挖掘精细的视觉特征可更好的实现表情识别。对此，本实施例首先采用卷积神经网络对输入的表情图像进行深度视觉特征自学习，并将该卷积神经网络最后一层全连接层的权重视作基本表情类别的参考分类器权重W^cls，其余隐藏层的权重视作卷积特征提取权重W^VF。对于后续的面部图片输入，其视觉特征可以被表示为：

其中，x_i表示图片输入，φ(x_i)表示对应提取的图片视觉特征。

此外，对于所有的输入图像，在将其输入卷积神经网络前，可以先将其预处理成224×224的大小，并使用大型数据集ImageNet的图像参数归一化。对于训练时期的图片，可以适当将其变形，以缓解模型过拟合问题。

S2，基于各种不同AU的定义，根据AU动作因为受到面部肌肉的牵引而在视觉空间产生的关联关系，生成具有内在AU关联的AU语义特征；

需要说明的是，AU语义特征是可见表情类别(在训练阶段能够接触的实例类别)和未见表情类别(在训练阶段未能够接触的实例类别)的通用语义描述符，用于统一的描述各个表情发生时面部肌肉动作的变化。

对此，本实施例首先用预训练好的语料库初始化AU的语义特征，其次，根据AU发生时在面部上展现出的肌肉动作关联关系，建立AU动作关联图，并使用图自动编码器来编码最终的AU语义嵌入。具体方法如下：

S21，初始化AU语义特征

根据各种不同AU的定义，首先将其转化成动词形式表达的词组向量；采用预训练好的词向量模型，根据所述词组向量得到AU的初始语义特征。由于原始的AU描述短语大多使用人造词(如“brow raiser”中的“raiser”)，这些词语都是人为创造的，因此不被一般的语料库所收录。考虑到如果单独为这些人造词训练对应的词向量，需要重新收集大量相关的语料并训练模型。为了减少系统所需要的计算资源和计算时间消耗，在本实施例中，首先将AU描述短语中所有包含的人造词用动词形式改写(如将上个例子改写成“raise brow”)，使其符合常见词向量模型的语料库范畴。对于以词组形式出现的AU描述，以平均词向量的方式来聚合获得初始化的AU语义特征，表达式如下：

其中，Z(AU_i)表示第i个AU的初始语义向量，表示平均池化操作，V(·)表示预先训练好的词向量模型。

S22，AU动作关联图的建立

根据AU发生时在面部上展现出的肌肉动作关联关系，根据各种AU能否同时发生的概率建立AU关联图；

其中，在所述AU关联图中，节点是各个AU的初始语义特征，边的权重是数学建模出的AU关联关系。包含激活的AU间存在正相关关系，激活的AU间存在负相关关系，以及激活的AU不存在明显的相关关系三种不同的形式。

需要说明的是，每种表情发生时，总有部分AU被激活，其余AU未被激活的情况发生。这不仅是因为不同的面部表情需要不同的肌肉来组织，也是因为面部肌肉作为整体，其互相之间存在牵引作用，使得一些面部动作容易同时发生，而一些面部动作难以同时发生。因此当某一AU已经确定发生的时候，可能存在某些AU有很大的概率同时发生，以及某些AU有很大概率无法同时发生的现象，这些都可以在视觉空间下被观察到。然而，视觉特征空间和语义特征空间天然的存在着鸿沟(多数情况下，视觉特征和语义特征是通过不同的神经网络提取的，这直接导致了他们的特征空间不同)，一些在视觉特征空间中具有较远距离的特征可能由于描述词的相近而导致了它们在语义特征空间中相近。

根据AU动作在视觉空间上的关联关系，本实施例首先在一张图上同时建模AU间的正相关关系、负相关关系、非明显关联关系。在这张AU动作关联图上，节点是各个AU的初始语义特征，边的权重是数学建模出的AU关联关系。

S23，在所述AU关联图的基础上，使用编码器-解码器格式重构所述AU关联图，并将编解码器产生的中间向量作为最终的AU语义特征向量。

为了获得精确化的AU语义表达，本实施例使用编码器-解码器的结构，以中间向量表示作为最终的AU语义嵌入。考虑到AU间不规则的关联关系，本实施例使用图卷积网络作为编码器结构：

其中，B表示AU动作关联图的邻接矩阵，D是B相应的度矩阵，W_θ是可学习的投影权重矩阵参数，Z是AU的初始化语义特征。经过这样形式的编码器，得到中间向量的输出，即为可以利用的微调过的AU语义特征向量。

而为了系统整体的轻量化，本实施例使用了内积形式的解码器：

其中，是使用中间向量重构出来的AU关联关系图的邻接矩阵，它应该尽可能的接近系统利用先验知识所定义的AU动作关联图B的邻接矩阵。

经过编解码器结构，中间向量可以被对应到每一个AU的语义表达上，即

S3，基于AU语义特征以及AU与EMO之间的关联关系，建立表情类别的语义特征向量；同时建模各表情类别间的转移关系并衡量所述转移关系的权重；

为了能够将已知类别的知识推广到未见类别上，需要将不同的表情类别联系起来。AU是连接不同表情类别的桥梁，通过AU知识的连接，能够分别在语义特征空间和视觉特征空间中将不同的表情类别联系起来。令表示当表情y发生时，每一AU发生的概率，其中N_AU表示人脸面部AU的数量。

基于上述，在本实施例中，S3包括以下步骤：

S31，表情知识转移权重生成

由于AU是一种通用的面部动作描述方法，使用AU分析面部表情分析不受固定情感模式分类的局限，且每一种类别的表情可以被定义为不同AUs的结合，并且不同的表情可能包含相同的AU。对此，本实施例提出以表情对应的不同AU发生概率为基础计算表情间的转移概率，假设表情y₁是源表情，y₂是目标表情，则从源表情转移到目标表情的概率可以通过下式计算：

其中，P(y₂|y₁)表示从表情y₁转移到y₂的概率；P(AU_i|y₂)表示当y₂发生时，第i个面部运动单元AU_i发生的概率，#AU_i occurs in both y₁&y₂表示对同时发生在y₁和y₂中的面部运动单元AU_i的计数，#AU_j occurs in y₂表示对发生在y₂中的面部运动单元AU_i的计数。

上式首先通过同时发生在y₁和y₂里的AU数量和y₂中发生的AU数量的比值建立两者间粗略的关联关系，随后通过共同发生的AU_i在y₂中的概率在精确化最终的转移权重。可以说，式(5)计算了在表情y₁已经发生的情况下，表情y₂在y₁所占的比例(或者说，表情y₂作为共现表情发生的概率)。

这种权重方案与图卷积神经网络中的注意机制有关，这种转移权重的生成方法不仅从数学上建模了各个表情类别间的关系，也从图卷积神经网络中的注意机制角度为本系统提出的模型带来了可解释性。

注意机制的目的是为每个节点的邻接节点分配不同的权重，也就是说注意机制倾向于关注作用比较大的节点，而对一些作用较小的节点关注较少。而在本实施例的设置中，当两种表情共同发生的AU越多，且共同发生的AU在目标表情里发生的可能性越高，这种表情就越有可能向对方表情转移。这种权重策略使得GCN在进行消息传播的时候会更加注重从具有更高转移权重的邻接节点上聚集信息，从而完成表情知识的转移。同时，这种权重计算方式并不需要额外增加参数和存储开销。

S32，类别原型生成

为了减少人力标注类别属性的消耗，现有的零样本识别技术大多数采用类别原型，也就是类别名称的语义向量来代替作为知识的通用描述符。这种通用描述符的来源通常是在Wikipedia等大型语料库上预训练好的词向量模型。然而，虽然这种大型语料库能够尽量全面的训练模型表达，并使其能适应更多的应用场景。但在表情识别任务中，由于这些大型语料库是在通用场景下收集的，因而缺乏相关的表情知识。如果直接使用这些词向量模型，则会损坏表情类别的知识传递。因此，受AU-EMO间关联关系的启发，为了能够以一种更适用于表情描述的方式对表情类别的语义进行嵌入，本实施例提出使用AU文本表示的凸结合来替代一般word2vec模型中对表情类别标签词汇的嵌入作为隐式知识。

在使用AU语义特征提取得到每个AU的向量表示后，从AU-表情关联关系的角度出发，利用AU的语义特征向量来为每一种表情类别生成语义原型，每个表情类别y的类别原型T^y可以用下式计算：

其中，表示一般平均池化，P(AU_i|y)表示当y发生时，第i个面部运动单元AU_i发生的概率，embedding(AU_i)表示AU的语义特征。

S4，将表情类别的语义特征向量和所述转移关系的权重结合，构建AU-EMO关联图谱；其中，在所述AU-EMO关联图谱中，节点嵌入为表情类别的语义特征向量，每一对节点间的边权重则为对应的所述转移关系的权重；

需要说明的是，AU-EMO关联图的建立建模了原本离散的表情类别的关联性，也使得知识信息的传播成为了可能。

令A表示AU-EMO关联图。则图中的每一个节点v表示一种表情类别，节点嵌入就是表情类别的类别原型：

Embed(v_y)＝T^y (7)

同时，每一对节点间的边权重则有它们之间的转移概率给出：

S5，通过图卷积神经网络在AU-EMO关联图谱上进行消息传播，并结合可见类别的分类器权重，得到图卷积神经网络对所有类别的权重预测；

需要说明的是，通过S2至S4，我们得到了描述表情类别知识转移关系的AU-EMO关联图，但是这张图的知识组织形式依然十分松散，且具有较高的特征冗余性，很难直接通过这张图将已知的知识信息推广到未知类别上。为了能够更好的利用AU-EMO关联图的拓扑结构，本实施例使用图卷积神经网络在AU-EMO关联图谱上进行消息传播，为每个节点(也就是表情类别)迭代的聚集邻域信息，以扩展已有的表情分类器：

其中，H^(l+1)表示本层的传播结果；δ(·)表示非线性激活函数；H^(l)为上一层图卷积传播的输出，将作为本层传播的输入，其维度为(N_s+N_u)×k^(l)，k^(l)表示上一层传播结果的维度。特别的，本实施例将表情类别的语义嵌入T作为第一层图卷积传播的输入；是对应AU-EMO关联图谱对应的归一化邻接矩阵，其维度为(N_s+N_u)×(N_s+N_u)。N_s和N_u分别表示可见类别和未见类别集合大小。W_θ表示可学习的投影权重矩阵参数，其维度为k^(l)×k^(l+1)。经过最后一次图卷积后，输出为图卷积神经网络对所有类别的权重预测/> 和/>分别表示可见类别的分类器权重；k^(l+1)表示本层传播结果的维度。

S6，针对待预测表情类别的表情图像，通过视觉特征提取器提取视觉特征，并将提取的视觉特征以内积形式与权重预测融合，预测图像所属表情类别。

对于新输入的要预测的表情图像，首先使用S1中得到的图像特征提取权重获得带预测的表情图像的视觉特征，之后将提取的视觉特征以内积的形式与S5得到的分类器权重融合，从而预测待预测表情图像所属的表情类别：

下面，对本实施例所提出的零样本表情识别方法的性能进行验证。

本实施例对两种不同类型的零样本表情识别(一般零样本表情识别和广义零样本表情识别)进行设置，并分别对其结果进行分析，具体如下：

一般零样本表情识别：

在一般零样本表情识别设置下，训练类别和测试类别不相交，在RAF-DB数据集上单项的识别结果如表1所示，针对整体数据集的评价则如表2所示。将本实施例的识别方法称为GraphNet-FER，同时和三种通用零样本识别方法进行了比较，包括GCNZ、Sync和ConSE。

表1单项一般零样本表情识别方法预测结果(％)比较

表2整体一般零样本表情识别方法预测结果(％)比较

首先，相比于Sync和ConSE，本实施例的方法在所有表情类别上具有更高和更均匀的Top-k准确率表现，不至于出现多数类别只能取得零预测准确率的窘境，这是因为GrapNet-FER不仅可以捕获两个不同流形空间中图片表示之间的相关性，还可以通过AU-EMO相关性捕获面部表情中的复杂空间模式。

其次，对于大部分的Top-k准确率，本实施例方法的表现优于GCNZ。在RAF-DB数据集上，GraphNet-FER在“angrily disgusted”上达到了最高了54.13％的Top-1准确率，而在相同的类别中，GCNZ也达到了它的最高Top-1准确率，但相比之下要低了4.32％。从整体来看，GraphNet-FER的Top-1准确率表现一直优于GCNZ，并且在单类别表现上，GraphNet-FER至少比GCNZ的高出0.45％(在“happily disgusted”类别上)，最高能够高出38.34％(在“fearfully surprised”类别上)。随着对评价标准的逐渐宽松(从Top-1准确率到Top-5准确率)，GraphNet-FER的表现稳步上升，并一直优于对比方法。

对于针对数据集整体的评价标准，GraphNet-FER也取得了出色的性能，并在平均准确率(表格中的“Average”)比排名第二的模型高出12.92％。对于指标F1-score，GraphNet-FER在RAF-DB上依然表现出色，比第二名高出11.51％，同时在类平均准确率(表格中的“mAP”)上，GraphNet-FER领先了7.04％。

值得一提的是，RAF-DB上的实验中，本实施例方法所设置的未见类别要远多于可见类别，在这种情况下，GraphNet-FER取得了远好于比较方法的预测效果，这说明了本实施例方法所提出的所有策略的有效性，体现了本实施例方法在不增加标准训练数据的前提下，对扩展表情类别自动分析的优势。

广义零样本表情识别：

在广义零样本表情识别设置中，预测的类别不仅有训练阶段没有见过的类别，还包括训练类别本身，在RAF-DB数据集上的单个类别识别结果如表3所示，针对整体数据集的评价结果则如表4所示。

表3单项广义零样本表情识别方法预测结果(％)比较

表4整体广义零样本表情识别方法预测结果(％)比较

第一，GraphNet-FER在未见类别的平均预测准确率(表格中的Average_u)上以3.85％、优于排名第二的GCNZ模型。特别是，与Sync和ConSE对未见类的预测几乎为零的有偏见的性能相比，GraphNet-FER的Top-1准确率在已见类预测和未见类识别方面都具有良好的效果。

第二，对于未见类别的单项Top-1准确率，GraphNet-FER也有所提高。从表2可以看出，GraphNet-FER在“angrily disgusted”上获得了39.11％的Top-1准确率，这也是所有模型在未见类别上能够达到的最高分。而在同一类别上，GCNZ却只有33.53％，相比之下低了5.58％。即便考察GCNZ能够达到的最高未见类别的单项Top-1准确率，也只有34.55％(在“happily surprised”类别上)。

第三，当对Top-k精度的限制逐渐放松(从Hit@1到Hit@5)时，GraphNet-FER的性能显着提高。横向比较所有模型的表现，可以发现本实施例方法使用的GraphNet-FER的速度更快，这表明GraphNet-FER在更紧凑的空间中聚合了可能的预测。

对于评价整体数据集表现的指标而言，GraphNet-FER取得了很好的预测效果，在可见类别和未见类别上分别达到了近32％和22％的平均准确率，数据集整体预测准确率达到32.28％。虽然GraphNet-FER在可见类别的类平均准确率(表中的mAP_s)上略逊一筹，正确预测的图像数量也不是最多，但是在未见类别的类平均准确率(表中的mAP_u)上有出色的表现，比第二名高出了1.35％。

上述分析表明，本实施例的表情识别方法对传统设置的零样本表情识别任务和广义零样本表情识别任务设置都具有显着的有效性。针对目前最流形的广义零样本学习指标H值。GraphNet-FER也得到了具有区分性的结果。这表明本实施例的表情识别方法极大地缓解了GZSL中常见的偏差问题。同时考虑到这种设置下，本实施例只使用了9747张训练图像，而测试图像却足有6342张，这也说明了本实施例的表情识别方法在缺乏训练数据的情况下表现的鲁棒性。

以上结果证明了本实施例提出的表情识别方法在广义零样本设置上的优越性。AU-EMO知识的引入不仅可以提高单个类别的预测结果，还可以有效缓解广义零样本中最大的挑战之一：强偏问题(意味着预测结果偏向于可见类别，即使样本本身应该是在未见类别的)。

综上，本实施例针对扩展表情自动识别的任务，基于零样本学习思想，利用图卷积神经网络，研制了一种利用AU和EMO之间的关联关系，在不增加训练样本的情况下，对不包含在训练类别中的扩展表情类别自动识别的方法。

本实施例的表情识别方法主要贡献包括以下四个方面：

(1)将零样本学习范式引入自动表情识别任务中，并提出了一种基于图结构的零样本学习模型在不增加标注训练样本的前提下，对从未见过的表情类别进行自动分析。零样本学习范式为识别从未见过的数据类别提供了可能，而图结构的利用则提供了一种可解释的知识传播方法。两种模型的结合使用为合理的表情知识信息传播模型提供了基础。

(2)以AU-EMO之间的关联关系为基础，以表情共现现象为背景，构造了隐式知识和显式知识相结合的表情转移知识图谱。从AU语义嵌入出发，结合AU-EMO关联关系为所有表情类别生成对应名称的语义嵌入(又称类别原型)作为知识图谱中的隐式知识；根据不同表情发生时激活的AU不同为所有表情对间进行类别转移的概率进行统计，作为知识图谱中的显式知识。

(3)同时考虑AU在语义空间和视觉空间的存在形式，将AU在视觉表达上存在的关联关系引入AU语义嵌入，为AU生成了具有内在关联关系的语义表示向量。

(4)使用GCN在AU-EMO知识图谱上进行消息传播，完成语义特征向视觉特征空间的投影操作。一方面可弥补不同流形空间的鸿沟，以一种较为统一的方式从不同角度描述表情图片，另一方面针对黑盒模型做出了改善，提高了模型的可解释性和结果的可信度，并且能够推广到更多的表情类别识别任务上。

第二实施例

本实施例提供了一种基于AU-EMO关联与图神经网络的零样本表情识别系统，该基于AU-EMO关联与图神经网络的零样本表情识别系统包括以下模块：

本实施例的基于AU-EMO关联与图神经网络的零样本表情识别系统与上述第一实施例的基于AU-EMO关联与图神经网络的零样本表情识别方法相对应；其中，本实施例的基于AU-EMO关联与图神经网络的零样本表情识别系统中的各功能模块所实现的功能与上述第一实施例的基于AU-EMO关联与图神经网络的零样本表情识别方法中的各流程步骤一一对应；故，在此不再赘述。

第三实施例

本实施例提供一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行，以实现第一实施例的方法。

该电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)和一个或一个以上的存储器，其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行上述方法。

第四实施例

本实施例提供一种计算机可读存储介质，该存储介质中存储有至少一条指令，所述指令由处理器加载并执行，以实现上述第一实施例的方法。其中，该计算机可读存储介质可以是ROM、随机存取存储器、CD-ROM、磁带、软盘和光数据存储设备等。其内存储的指令可由终端中的处理器加载并执行上述方法。

此外，需要说明的是，本发明可提供为方法、装置或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

最后需要说明的是，以上所述是本发明优选实施方式，应当指出，尽管已描述了本发明优选实施例，但对于本技术领域的技术人员来说，一旦得知了本发明的基本创造性概念，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

Claims

1.一种基于AU-EMO关联与图神经网络的零样本表情识别方法，其特征在于，所述基于AU-EMO关联与图神经网络的零样本表情识别方法包括：

针对待预测表情类别的表情图像，通过所述视觉特征提取器提取视觉特征，并将提取的视觉特征以内积形式与所述权重预测融合，预测图像所属表情类别；

所述建立表情类别的语义特征向量，包括：

其中，表示一般平均池化，P(AU_i|y)表示当y发生时，第i个面部运动单元AU_i发生的概率，embedding(AU_i)表示AU_i的语义特征向量；

衡量所述转移关系的权重，包括：

2.如权利要求1所述的基于AU-EMO关联与图神经网络的零样本表情识别方法，其特征在于，所述采用卷积神经网络对输入的表情图像进行深度视觉特征自学习，得到可见类别的分类器权重和用于提取表情图像视觉特征的视觉特征提取器，包括：

3.如权利要求2所述的基于AU-EMO关联与图神经网络的零样本表情识别方法，其特征在于，在将表情图像输入卷积神经网络之前，所述方法还包括：

4.如权利要求1所述的基于AU-EMO关联与图神经网络的零样本表情识别方法，其特征在于，所述基于各种不同面部运动单元AU的定义，根据AU动作因为受到面部肌肉的牵引而在视觉空间产生的关联关系，生成具有内在AU关联的AU语义特征，包括：

5.如权利要求4所述的基于AU-EMO关联与图神经网络的零样本表情识别方法，其特征在于，所述采用预训练好的词向量模型，根据所述词组向量得到AU的初始语义特征，包括：

6.如权利要求4所述的基于AU-EMO关联与图神经网络的零样本表情识别方法，其特征在于，在所述AU关联图的基础上，使用编码器-解码器格式重构AU关联图并将编解码器产生的中间向量作为最终的AU语义特征向量，包括：

使用图卷积网络作为编码器结构：

将经过所述编码器得到的中间向量的输出作为最终的AU语义特征向量；

使用内积形式的解码器：

其中，是使用中间向量重构出来的AU关联图的邻接矩阵。

7.如权利要求1所述的基于AU-EMO关联与图神经网络的零样本表情识别方法，其特征在于，所述通过图卷积神经网络在所述AU-EMO关联图谱上进行消息传播，并结合所述可见类别的分类器权重，得到所述图卷积神经网络对所有类别的权重预测，包括：

8.一种基于AU-EMO关联与图神经网络的零样本表情识别系统，其特征在于，所述基于AU-EMO关联与图神经网络的零样本表情识别系统包括：

特征融合与预测模块，用于针对待预测表情类别的表情图像，通过所述视觉特征提取模块得到的视觉特征提取器提取视觉特征，并将提取的视觉特征以内积形式与分类器权重生成模块生成的权重预测融合，预测图像所属表情类别；

所述建立表情类别的语义特征向量，包括：

衡量所述转移关系的权重，包括：