CN114926886B

CN114926886B - 一种微表情动作单元识别方法及系统

Info

Publication number: CN114926886B
Application number: CN202210599268.6A
Authority: CN
Inventors: 曹叶文; 周冠群; 蒋友军; 袁树森; 邢红波
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-05-30
Filing date: 2022-05-30
Publication date: 2023-04-25
Anticipated expiration: 2042-05-30
Also published as: CN114926886A

Abstract

本发明公开一种微表情动作单元识别方法及系统，包括：获取微表情视频的连续帧图像，对连续帧图像经预处理后，提取动态图；对动态图采用空间金字塔提取多层特征图，每层特征图经区域划分后，提取每个区域的局部特征图，根据每个区域的局部特征图及区域所在位置得到各层特征图的区域特征图；对各层特征图的区域特征图进行注意力特征提取，根据得到的注意力特征图确定面部动作单元，从而以此获取微表情类型。使用空间金字塔网络提取不同层的细微特征，使用区域特征网络捕获不同面部区域的局部外观变化，更加准确的识别微表情的动作单元。

Description

一种微表情动作单元识别方法及系统

技术领域

本发明涉及计算机视觉技术领域，特别是涉及一种微表情动作单元识别方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

微表情相较于普通表情而言，持续时间很短，仅为1/25～1/5秒。微表情出现快速、短暂，且不易被察觉，在很多领域都具有应用价值，比如身份识别、实时表情动画、跟踪技术，故而有必要对微表情的识别展开研究。

在计算机视觉领域，微表情识别是全自动微表情分析系统不可或缺的模块。微表情识别是指给定一个已经检测出的微表情间隔，通过计算机视觉算法，识别出该微表情的情感类别或动作单元。

微表情识别包括两个重要的分支，分别是表情识别和动作单元识别。大多数现有研究集中在微表情的表情识别上，而很少研究如何识别微表情的动作单元。表情识别只能对表情进行简单的划分，如开心、生气、厌恶、恐惧、悲伤和惊讶等6种人类基本表情，但这是笼统的划分。由于人类的表情是复杂的，为了识别到完整的表情就需要使用面部动作单元(Action Unit，AU)进行划分。AU是单个肌肉或肌肉群的基本动作，不同的AU组合可以描述大部分表情。

目前，有许多关于宏表情的AU识别的研究方法。传统的AU识别方法使用手工特征，如Haar特征、梯度直方图(Histogram of Oriented Gradients，HOG)特征、局部二进制模式特征(Local Binary Pattern，LBP)、Garbor小波特征以及尺度不变特征变换(ScaleInvariant Feature Transform，SIFT)。

然而，手工制作的特征仍不能很好的表现面部的变化。

近年来，深度学习方法由于其强大的非线性表示能力，在宏表情的AU识别中得到了广泛的研究。与宏表情的AU识别研究相比，对于微表情的AU识别研究相对较少。这是因为存在如下问题：

①微表情AU识别的强度要低得多，发生AU的持续时间要短得多，导致定位困难；

②与宏表情AU数据集(例如BP4D数据集)(328个视频和总共约140000帧)相比，微表情AU数据集包含的样本数量非常少；

③微表情中并没有几个AU共存，即相关性较弱，也就是说，在宏表情中常见的多标签学习框架不适合微表情AU识别；

④微表情各个AU样本的数量不平衡，有的AU样本有很多，如AU4(眉毛下压)，有的AU样本只有几个，如AU10(上嘴唇提起)。

所以，目前在微表情识别中存在动作单元强度低、不易被捕捉、AU样本数量不平衡等问题。

发明内容

为了解决上述问题，本发明提出了一种微表情动作单元识别方法及系统，使用空间金字塔网络提取不同层的细微特征，使用区域特征网络捕获不同面部区域的局部外观变化，更加准确的识别微表情的动作单元。

为了实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种微表情动作单元识别方法，包括：

获取微表情视频的连续帧图像，对连续帧图像经预处理后，提取动态图；

对动态图采用空间金字塔提取多层特征图，每层特征图经区域划分后，提取每个区域的局部特征图，根据每个区域的局部特征图及区域所在位置得到各层特征图的区域特征图；

对各层特征图的区域特征图进行注意力特征提取，根据得到的注意力特征图确定面部动作单元，从而以此获取微表情类型。

作为可选择的实施方式，所述预处理包括，对连续帧图像进行像素值的归一化处理，对像素值归一化后的连续帧图像进行人脸检测、人脸对齐、图像裁剪和大小归一化处理。

作为可选择的实施方式，对连续帧图像经预处理后得到图像序列，对图像序列像素采用排序池化法提取动态图。

作为可选择的实施方式，所述空间金字塔包括多层卷积，将每层卷积的最后一个残差块的输出作为空间金字塔的一层特征图，由此提取多层特征图。

作为可选择的实施方式，每个区域采用2个1×1的卷积和1个3×3的卷积进行局部特征图的提取，3×3的卷积位于2个1×1的卷积之间，在每个卷积后使用批量归一化和ReLU激活函数。

作为可选择的实施方式，注意力特征提取的过程包括：

对区域特征图沿通道轴采用最大池化操作和平均池化操作获取每个位置处各个通道的最大值和平均值，分别生成最大特征图和平均特征图；

分别提取最大特征图和平均特征图的特征向量，并获取每个位置的特征在整个面部空间的重要程度，并将得到特征图调整大小后拼接成组合特征图，将组合特征图降维后，采用sigmoid函数将数值限制到0～1范围内，得到空间注意力特征图；

将区域特征图和空间注意力特征图做乘积，将乘积结果与区域特征图相加，得到注意力特征图。

作为可选择的实施方式，所述微表情动作单元识别方法还包括采用焦点损失函数进行网络训练。

第二方面，本发明提供一种微表情动作单元识别系统，包括：

动态图提取模块，被配置为获取微表情视频的连续帧图像，对连续帧图像经预处理后，提取动态图；

区域特征提取模块，被配置为对动态图采用空间金字塔提取多层特征图，每层特征图经区域划分后，提取每个区域的局部特征图，根据每个区域的局部特征图及区域所在位置得到各层特征图的区域特征图；

动作单元识别模块，被配置为对各层特征图的区域特征图进行注意力特征提取，根据得到的注意力特征图确定面部动作单元，从而以此获取微表情类型。

第三方面，本发明提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述的方法。

第四方面，本发明提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

与现有技术相比，本发明的有益效果为：

本发明提出一种微表情动作单元识别方法及系统，针对微表情动作单元的识别，使用空间金字塔网络提取不同层的细微特征，区别于一般方法只使用最后一个网络层的高级特征进行最终的识别，会因为感受野的局限性，只能收集一种范围大小的局部区域特征信息，无法从多个范围大小的局部区域特征信息中综合定位微表情。

本发明提出一种微表情动作单元识别方法及系统，使用区域特征网络捕获不同面部区域的局部外观变化，这些区域信息提供了识别AU和整体表情的重要线索。

本发明提出一种微表情动作单元识别方法及系统，使用焦点损失函数训练网络，以解决AU样本数量不平衡的问题。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例1提供的微表情动作单元识别方法流程图；

图2为本发明实施例1提供的微表情动作单元识别模型结构图；

图3为本发明实施例1提供的空间金字塔特征提取示意图；

图4为本发明实施例1提供的区域特征提取示意图；

图5为本发明实施例1提供的注意力特征提取示意图。

具体实施方式

下面结合附图与实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例1

如图1所示，本实施例提出一种基于动态图和空间金字塔的微表情动作单元识别方法，具体包括：

如图1所示，在本实施例中，首先对微表情视频流进行解析分帧后，得到连续帧图像，并对帧图像进行像素值的归一化处理，将帧图像的像素值归一化至0～1的范围内，归一化如公式(1)所示。

其中，g为变换前的帧图像，g′为归一化后的帧图像，g_max为变换前的帧图像中像素最大值，g_min为变换前的帧图像中像素最小值。

然后，对像素值归一化后的帧图像进行人脸检测、人脸对齐、图像裁剪以及帧图像大小归一化处理；具体包括：

(1)使用Dlib工具包中的人脸检测器检测每一帧的人脸，并裁剪获得人脸框；

(2)由于人的头部会有轻微的偏移，这会影响提取的图像特征；所以为了消除影响，使用仿射变换将每一帧与第一帧进行人脸对齐。

(3)人脸对齐后，人脸的周围仍有背景噪声，如头发、衣服和耳机等；因此对人脸进一步裁剪；

(4)最后，将所有帧图像大小都归一化为224×224的大小。

在本实施例中，对经上述预处理后得到的图像序列，生成动态图；动态图是单个RGB图像，相当于静止图像，动态图可以捕捉整个视频序列或子序列的动态和外观的特征，可以产生一种长期、稳定的运动表示。通过对图像序列像素直接应用排序池化提取动态图，是求解RankSVM最终获得的排序函数的参数，如公式(2)所示；

其中，x_t∈R^3×224×224是第t帧图像，t＝1,…,K；K是微表情图像序列的总帧数；ψ(x_t)是第t帧x_t的特征表示，使用原始RGB图像表示，即ψ(x_t)＝x_t；

是帧图像x_t平滑处理后的结果；α_t＝2(K-t+1)-(K+1)(H_K-H_t-1)，

α_t、H_t为中间参量；参数值w^*是微表情图像序列的动态图。

由于微表情动作单元AU之间共存的情况少，故本实施例对每个动作单元AU分别训练相同网络结构的识别模型，识别模型包括特征提取模块和注意力模块，并使用焦点损失函数进行训练，如图2所示。

在本实施例中，特征提取模块包括：空间金字塔模块和区域特征模块；对动态图采用空间金字塔提取多层特征图，每层特征图采用区域特征模块提取区域特征图。

如图3所示，空间金字塔模块以ResNet50网络为主体网络，包括4层卷积层，将四个卷积部分的每个部分的最后一个残差块的输出特征作为空间金字塔的一层特征图，由此提取多层特征图；

由于不同层的感受野大小的不同，所能观察到的含有重要特征的局部区域上下文范围也不同，所以本实施例综合考虑多层特征图有助于定位特征变化区域。

如图4所示，在区域特征模块中，将提取的多层特征图分别进行区域划分，分割成7×7的网格，每一个网格代表一个区域；然后对每个区域提取局部特征；

具体地，每一个区域使用2个1×1的卷积和1个3×3的卷积，3×3的卷积位于2个1×1的卷积之间，前一个1×1的卷积用于降维，后一个1×1的卷积用于升维，保证输出和输入大小一致，在每一个卷积后使用批量归一化(BN)和ReLU激活函数；局部卷积用于捕获局部的外观变化，并且每个区域的学习权重是独立更新的。

经过区域特征模块后的输出大小和输入大小是一致的，图像位置也是一致的，所以将生成的每个区域的局部特征图放置到区域所在位置处，以此输出区域特征图。

此外，如果在局部的区域中并没有学习到关于AU的有用信息，则使用残差直接输出原始局部区域特征。通过上述方式实现在稀疏的面部局部区域识别AU。

为了突出重要的特征，本实施例通过对区域特征图进行注意力特征提取，强调决定性特征，并抑制无效特征，然后利用残差提高对人脸部分遮挡或相机视点变化的鲁棒性，如图5所示。

输入的区域特征图为F∈R^C×H×W，为了计算空间注意力，首先，对区域特征图沿通道轴采用最大池化操作和平均池化操作获取每个位置(i,j)处各个通道的最大值和平均值，用于表示该位置的显著特征，分别生成平均特征图F_Avg∈R^1×H×W和最大特征图F_Max∈R^1×H×W；最大池化操作和平均池化操作如式(3)-式(4)所示；

F_Max(i,j)＝max(F¹(i,j),…,F^C(i,j)) (4)

其中，n是通道索引，指代第n个通道；C是总通道数；Fⁿ(i,j)表示F的第n个通道特征图的(i,j)位置处的特征值；F_Avg(i,j)是F的所有通道特征图在(i,j)位置处的特征平均值；F_Max(i,j)是F的所有通道特征图在(i,j)位置处的特征最大值。

然后，将平均特征图和最大特征图展平成长度为H×W的特征向量，并采用softmax函数获取每个位置点的特征在整个面部空间的重要程度，得到特征图

和

将特征图

和

重新调整大小为F′_Avg和F′_Max，然后组合成组合特征图F′∈R^2×H×W，将组合特征图F′经1×1的卷积核卷积降维后，再使用sigmoid函数将所有的数值限制到0～1范围内，得到空间注意力特征图F_Att∈R^1×H×W；

最后，将区域特征图F和空间注意力特征图F_Att做乘积，并将乘积结果与区域特征图F再相加，得到最终的注意力特征图F^sp；

F^sp＝F·F_Att+F (7)

同时，形成一个残差块，有助于避免在训练网络期间出现消失梯度问题。

对于每一个微表情AU模型来说都是二分类任务；但是由于AU的样本分布很不平衡，有的AU的样本数很多，有的AU的样本数很少，导致模型更容易识别样本数多的AU，更难识别样本数少的AU。因此本实施例使用焦点损失函数(Focal Loss)训练识别模型，用于解决样本分布不平衡的问题。损失函数如公式(8)所示；

其中，M是总样本数，y_i是第i个样本的真实标签，若出现AU则为1，否则为0；

是第i个样本的预测标签，是一个大小在0～1之间的数值，表示AU出现的概率；

γ为难分样本权重，用来降低易分样本的损失贡献，常取2；一般将当前识别AU认为是正样本，其余AU是负样本。这样，对于正样本来说，预测概率

越大表示该样本是易分样本，预测概率

越小表示该样本是难分样本，负样本相反。正类的易分样本的

权重会很小，负类的易分样本

权重也会很小，这样易分样本的损失值会变小，而难分样本的损失值会变大，网络训练过程就会更加关注难分样本；

α为类别权重，常取0.25，用来权衡正负样本不均衡问题，若负样本越多，给负样本的α权重就越小，这样可以降低负样本的影响。

实施例2

本实施例提供一种微表情动作单元识别系统，包括：

此处需要说明的是，上述模块对应于实施例1中所述的步骤，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1中所述的方法。

实施例1中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种微表情动作单元识别方法，其特征在于，包括：

对各层特征图的区域特征图进行注意力特征提取，根据得到的注意力特征图确定面部动作单元，从而以此获取微表情类型；

所述注意力特征提取的过程包括：

分别提取最大特征图和平均特征图的特征向量，并获取每个位置的特征在整个面部空间的重要程度，得到特征图

和

其中，F为输入的区域特征图，F_Avg(,j)是F的所有通道特征图在(,j)位置处的特征平均值，F_Max(,j)是F的所有通道特征图在(,j)位置处的特征最大值；

并将得到的特征图

和

调整大小后拼接成组合特征图，将组合特征图降维后，采用sigmoid函数将数值限制到0～1范围内，得到空间注意力特征图；

2.如权利要求1所述的一种微表情动作单元识别方法，其特征在于，所述预处理包括，对连续帧图像进行像素值的归一化处理，对像素值归一化后的连续帧图像进行人脸检测、人脸对齐、图像裁剪和大小归一化处理。

3.如权利要求1所述的一种微表情动作单元识别方法，其特征在于，对连续帧图像经预处理后得到图像序列，对图像序列像素采用排序池化法提取动态图。

4.如权利要求1所述的一种微表情动作单元识别方法，其特征在于，所述空间金字塔包括多层卷积，将每层卷积的最后一个残差块的输出作为空间金字塔的一层特征图，由此提取多层特征图。

5.如权利要求1所述的一种微表情动作单元识别方法，其特征在于，每个区域采用2个1×1的卷积和1个3×3的卷积进行局部特征图的提取，3×3的卷积位于2个1×1的卷积之间，在每个卷积后使用批量归一化和ReLU激活函数。

6.如权利要求1所述的一种微表情动作单元识别方法，其特征在于，所述微表情动作单元识别方法还包括采用焦点损失函数进行网络训练。

7.一种微表情动作单元识别系统，其特征在于，包括：

动作单元识别模块，被配置为对各层特征图的区域特征图进行注意力特征提取，根据得到的注意力特征图确定面部动作单元，从而以此获取微表情类型；

所述注意力特征提取的过程包括：

和

并将得到的特征图

和

8.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-6任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-6任一项所述的方法。