CN112001241A

CN112001241A - 基于通道注意力机制的微表情识别方法及系统

Info

Publication number: CN112001241A
Application number: CN202010687230.5A
Authority: CN
Inventors: 周元峰; 王杰; 李新雨
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-07-16
Filing date: 2020-07-16
Publication date: 2020-11-27
Anticipated expiration: 2040-07-16
Also published as: CN112001241B

Abstract

本公开提出了一种基于通道注意力机制的微表情识别方法及系统，通过数据预处理获取微表情序列仅包含面部区域的起始帧与顶点帧；估算顶点帧与起始帧之间由于面部运动所产生的光流并计算光流强度并对光流水平分量、垂直分量以及光流强度进行标准化以突出面部的关键变化；将标准化后的光流水平分量、垂直分量以及光流强度输入到通道注意力模块增加网络对关键信息的关注度；使用浅层特征提取模块与多尺度模块进行特征的提取，其中，多尺度模块可以捕获不同强度的微表情所产生的多尺度特征；使用全连接层完成特征映射并输出分类结果；所设计的通道注意力模块通过对输入数据进行通道加权操作以提高模型对网络输入数据中关键信息的关注度，从而有利于网络学习更有效的特征。

Description

基于通道注意力机制的微表情识别方法及系统

技术领域

本公开涉及计算机视觉和模式识别技术领域，特别是涉及一种基于通道注意力机制的微表情识别方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

微表情是一种人类在试图隐藏某种真实情感时无意识做出的、短暂的面部表情，通常会在人们经历得失、情势危急的时候出现；一个完整的微表情序列包含了三个重要的时间点，起始帧、顶点帧和终止帧。微表情具有以下特点：持续时间短暂，一个标准的微表情持续1/25到1/5秒，另外，微表情通常只出现在面部的特定部位，而且面部肌肉变化强度十分微弱，近年来，随着自发微表情数据集的建立以及计算机视觉技术的发展，微表情识别相关问题受到了越来越多研究者的关注；近几年越来越多的识别方法被提出并取得了不错的识别效果，远远超过了专业裸眼识别，微表情识别方法依据特征的提取方式可以将其划分为两类：手工特征方法和深度学习方法。

手工特征方法是早期的微表情识别方法的尝试，该类方法是指根据微表情的特点设计可以描述不同微表情时空特征的特征描述算子并将微表情的时空特征转化为特征向量的形式，然后使用机器学习分类器进行特征的分类以完成微表情的识别工作，特征描述算子可以加入更多的先验知识并且研究者可以依据人类的主观感受设计选择与任务相关度强的特征，具有计算简单和易于解释的优点，但是，手工特征方法通常需要建立复杂的特征工程，获得良好的分类结果需要经过冗长的参数调整过程。

深度学习方法所面临的困难主要有以下两点，一是现存的自发微表情数据集数量较少且每一个数据集中的样本数量十分有限；二是在单个数据集中存在类别不均衡的问题，即不同类别的样本之间数量相差较大，在微表情识别领域，手工特征方法与深度学习方法各有利弊且均能获得优于人工识别的准确率。但是由于微表情自身的面部运动特点以及数据的缺乏，使得如何充分学习微表情的关键特征仍然是微表情识别亟待解决的问题。

发明人发现，在微表情识别的深度学习方法中，网络的输入数据以及分类网络的设计决定了微表情识别的性能；一方面，在以多通道信息为网络输入的情况下，现存方法中并没有考虑每个通道的差异性，这在一定程度上限制了网络对关键信息的学习能力。另一方面，在设计网络结构时，如果网络过深会引入大量的参数使得模型较为复杂，并且会导致浅层信息的损失较多，限制了分类性能的提升；如果网络过浅，将难以充分的提取微表情的特征；另外，在微表情发生时，面部肌肉的变化强度因人而异导致了微表情特征具有多尺度的特点，这也给微表情特征的提取带来了挑战。

发明内容

本公开为了解决上述问题，提出了一种基于通道注意力机制的微表情识别方法及系统，本公开所述方案通过注意力模块赋予网络输入信息不同的权重，使得深度模型能够更加关注网络输入中更加重要的通道，用来突出各类微表情的关键特征，增强了深度模型的鲁棒性，同时提出的多尺度模块能够捕获不同强度微表情的多尺度特征，有利于提高深度模型的特征提取能力，增强了模型的泛化能力，有效提高了微表情的识别精度和效率。

根据本公开实施例的第一个方面，提供了一种基于通道注意力机制的微表情识别方法，包括：

获取训练样本中微表情图像序列的起始帧和顶点帧；

根据起始帧的面部关键点位置，对所述起始帧和顶点帧进行面部区域裁剪；

估算裁剪后的起始帧与顶点帧图像之间的光流水平分量、垂直分量以及光流强度并对其进行标准化，使用标准化后的光流水平分量、垂直分量以及标准化后的光流强度形成的三维张量作为微表情序列的信息表示；

构建基于通道注意力机制的微表情识别网络模型，利用所述三维张量对所述网络模型进行训练；

将作为待测微表情图像序列信息表示的的所述三维张量输入到训练好的网络模型，得到微表情识别结果。

进一步的，所述基于通道注意力机制的微表情识别网络模型的训练，具体步骤包括：

利用所述三维张量作为网络模型的三通道输入数据，经过通道注意力模块后输出三通道特征张量(w_x*F′_x，w_y*F′_y，w_mag*F′_mag)；

利用浅层特征提取模块对通道注意力模块输出的三通道特征张量提取浅层特征，并输出53*53*64的特征图；

利用多尺度模块对所述特征图提取不同尺度的空间运动特征；

利用特征分类模块对当前样本的所属类别进行预测。

根据本公开实施例的第二个方面，提供了一种基于通道注意力机制的微表情识别系统，包括：

训练样本预处理模块，用于获取训练样本中微表情图像序列的起始帧和顶点帧；根据起始帧的面部关键点位置，对所述起始帧和定点帧进行面部区域裁剪；估算裁剪后的起始帧与顶点帧图像之间的光流水平分量、垂直分量以及光流强度并对其进行标准化，使用标准化后的光流水平分量、垂直分量以及标准化后的光流强度形成的三维张量作为微表情序列的信息表示；

模型构建模块，用于构建基于通道注意力机制的微表情识别网络模型，并利用作为训练样本中微表情图像序列信息表示的所述三维张量对所述网络模型进行训练；

微表情识别模块，用于将作为待测微表情图像序列信息表示的所述三维张量输入到训练好的网络模型，得到微表情识别结果。

根据本公开实施例的第三个方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上运行的计算机程序，所述处理器执行所述程序时实现所述的基于通道注意力机制的微表情识别方法。

根据本公开实施例的第四个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述的基于通道注意力机制的微表情识别方法。

与现有技术相比，本公开的有益效果是：

(1)本公开提出了一种新颖的用于微表情识别的卷积神经网络，可以提取更丰富的微表情特征，有利于微表情识别精度的提升；

(2)本公开提出的注意力模块能够赋予网络输入信息不同的权重，使得深度模型能够更加关注网络输入中更加重要的通道以此突出各类微表情的关键特征，增强了深度模型的鲁棒性；

(3)本公开提出的多尺度模块能够捕获不同强度微表情的多尺度特征，有利于提高深度模型的特征提取能力，增强了模型的泛化能力。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本公开实施例一中的方法框架图；

图2为本公开实施例一中的通道注意力结构图；

图3为本公开实施例一中的多尺度模块结构图；

图4本公开实施例一中的方法流程图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一：

本实施例的目的是提供一种基于通道注意力机制的微表情识别方法。

如图1和图4所示，分别展示了本公开基于通道注意力机制的微表情识别方法框架图和流程图，一种基于通道注意力机制的微表情识别方法，包括：

步骤(1)：获取训练样本中微表情图像序列的起始帧和顶点帧；

步骤(2)：根据起始帧的面部关键点位置，对所述起始帧和顶点帧进行面部区域裁剪；

步骤(3)：估算裁剪后的起始帧与顶点帧图像之间的光流水平分量、垂直分量以及光流强度并对其进行标准化，使用标准化后的光流水平分量、垂直分量以及标准化后的光流强度形成的三维张量作为微表情序列的信息表示；

步骤(4)：构建基于通道注意力机制的微表情识别网络模型，利用作为微表情图像序列信息表示的所述三维张量对所述网络模型进行训练；

步骤(5)：将作为待测微表情图像序列信息表示的所述三维张量输入到训练好的网络模型，得到微表情识别结果。

在一些可能的实现方式中，首先需要获取训练样本集合，所述训练样本集合包含一定数量的微表情序列，所述获取训练样本中微表情序列的起始帧与顶点帧包括：

步骤(1.1)：计算微表情序列中每一帧T_i(i＝1，...，n)与起始帧T₁之间的光流F_i(i＝1，...，n)，其可以表示为F_i＝(F_i，x，F_i，y)，其中，F_i，x表示光流的水平分量，F_i，y表示光流的垂直分量；

步骤(1.2)：利用水平分量F_i，x与垂直分量F_i，y得到第T_i帧与起始帧T₁之间的光流强度矩阵

步骤(1.3)：求矩阵F_i，mag的均值得到

步骤(1.4)：找到该微表情序列中第T_i帧与起始帧T₁之间的光流强度矩阵均值的最大值

选取

所对应的帧为该微表情序列的顶点帧T_apex。

在一些可能的实现方式中，通过起始帧的面部关键点位置，对起始帧与顶点帧进行裁剪包括：

步骤(2.1)：使用Dlib提供的面部关键点检测算法检测当前微表情序列起始帧中的关键点位置(x_i，y_i)，i∈(0，...，67)，并将68个点依次编号0，...，67；

步骤(2.2)：找到左侧内眼角坐标E_left(x₃₉，y₃₉)与右侧内眼角坐标E_right(x₄₂，y₄₂)，两内眼角的中心点位置M(x_m，y_m)可计算如下：

M(x_m，y_m)＝((x₃₉+x₄₂)/2，(y₃₉+y₄₂)/2)

步骤(2.3)：确定裁剪方案，包括裁剪区域的位置及大小，计算方式如下：

其中，p表示裁剪区域的起始位置，即裁剪区域左上角坐标。width与height分别为裁剪区域的宽高。裁剪区域的起始位置和裁剪区域的大小构成了裁剪方案；

步骤(2.4)：使用上述裁剪方案对微表情序列的起始帧与顶点帧进行裁剪，得到大小为width*height的面部区域图像；

步骤(2.5)：循环执行上述步骤n(n为数据集中样本的个数)次，完成数据集中全部样本的裁剪，使得每个样本中的起始帧与顶点帧图像仅包含面部。

在一些可能的实现方式中，估算起始帧与顶点帧之间的光流与光流强度，将光流水平分量、垂直分量以及光流强度标准化后形成三维张量作为微表情序列的信息表示包括：

步骤(3.1)：对裁剪后的起始帧与顶点帧进行灰度化处理并将大小重新调整为224*224；灰度化处理公式如下：

GrayImg＝R*0.299+G*0.587+B*0.114

其中，GrayImg为灰度化后的图像，R、G、B分别为裁剪后的起始帧或顶点帧的三个通道。

步骤(3.2)：使用光流法估算顶点帧相对于起始帧由于面部运动所产生的光流(F_x，F_y)，其中，F_x、F_y分别指光流在水平方向和垂直方向上的分量。

光流法可以利用图像之间亮度的变化来推断两帧之间物体的运动信息。具体的讲，在一个图像序列中，E(x，y，t)表示在t时刻像素点(x，y)的亮度值，E(x+Δx，y+Δy，t+Δt)表示在t+Δt时刻运动到像素点(x+Δx，y+Δy)的亮度值，根据亮度不变性的约束条件，可得：

E(x，y，t)＝E(x+Δx，y+Δy，t+Δt)

等式右边根据泰勒公式展开可得：

ε为高阶无穷小，可忽略不计。因此，继续推导可得：

即

至此，可得在t时刻的光流(F_x，F_y)。在本实例中，我们使用的光流法为TV-L1算法，该算法具有更好的噪声鲁棒性和流动连续性。

步骤(3.3)：计算光流强度F_mag，光流强度是指光流的变化幅度，可以衡量物体运动的快慢，其计算公式为：

步骤(3.4)：对光流与光流强度进行标准化，所用标准化公式如下：

其中，f_i为任一像素点的水平或垂直光流分量，T为过滤阈值，其作用是消除异常光流的影响，[0，255]为标准化后的新范围。

步骤(3.5)：叠加标准化后的光流(F′_x，F′_y)与标准化后的光流强度F′_mag得到作为微表情序列信息表示的三维张量(F′_x，F′_y，F′_mag)，其大小为224*224*3。

在一些可能的实现方式中，构建微表情识别网络模型，将所述三维张量作为网络的三通道输入数据输入到分类网络中进行模型的训练，完成微表情特征的学习与分类包括：

步骤(4.1)：网络的三通道输入数据经过图2所示的通道注意力模块后输出(w_x*F′_x，w_y*F′_y，w_mag*F′_mag)；

步骤(4.2)：浅层特征提取模块对通道注意力模块的输出继续进行特征提取并输出大小为53*53*64的特征图；

步骤(4.3)：利用图3所示的多尺度模块来获取不同尺度的空间运动特征。该模块可以更充分的学习微表情发生时所产生的面部运动特征；

步骤(4.4)：使用由全连接层组成的特征分类模块将学习到的特征映射到样本标记空间，预测出当前样本所属类别。

在一些可能的实现方式中，所述步骤(4.1)的具体操作为：

步骤(4.11)：设网络的三通道输入数据为X∈R^W*H*3，对每一个通道进行全局平均池化处理，表示为：

其中，a^k代表每个通道的全局平局池化结果，W、H分别表示通道的宽、高。

步骤(4.12)：对步骤(4.11)得到的输出使用激活函数为ReLU的全连接层进行特征映射，其公式如下：

其中，

为该层输入特征，该激活函数通过单侧抑制实现特征的稀疏化，有助于模型泛化能力的提升。

步骤(4.13)：对步骤(4.12)得到的输出使用激活函数为Sigmoid的全连接层进行特征映射，其中Sigmoid的公式如下：

为该层输入特征，Sigmoid函数的非线性增加了模型的拟合能力，利于分类结果的提升。

步骤(4.14)：步骤(4.13)得到的输出经过激活函数为Softmax的全连接层获得通道关注度W＝{w_x，w_y，w_mag}，W中每个元素的计算公式如下：

步骤(4.15)：将W＝{w_x，w_y，w_mag}分别与对应的通道相乘得到通道注意力模块后输出特征(w_x*F′_x，w_y*F′_y，w_mag*F′_mag)。

在一些可能的实现方式中，所述步骤(4.3)的具体操作为：

步骤(4.31)：使用空洞率为1、2、3的卷积单元对浅层特征提取模块的输出进行特征提取。设空洞率为r∈{1，2，3}的卷积核W对通道数为C＝64的特征图X进行卷积运算，于是，输出通道c中的第i个结果

可以表示为：

其中，

是在第j个输入通道中对区域

进行卷积的结果，K表示卷积核W的filter的大小。

由此，可以得到空洞卷积单元的输出：

其中，C_out＝48表示输出特征的通道数。

步骤(4.32)：堆叠特征张量Y(1)、Y(2)、Y(3)，得到：

Z＝concat[Y(1)，Y(2)，Y(3)，0]

步骤(4.33)：使用1*1卷积对不同尺度的特征进行线性变换，并进一步降低特征Z的维度，提高网络学习效率。

步骤(4.34)：使用flatten函数改变特征结构以得到多尺度模块的输出特征F_after。设转化前的特征F_before的维度为S*S*C，则转化后的特征F_after的维度为1*N，N＝S*S*C。

在一些可能的实现方式中，所述步骤(4.4)的具体操作为：

步骤(4.41)：顺次连接两个激活函数为ReLU的全连接层FCL1、FCL2对多尺度模块的输出特征F_after进行特征映射以增加模型的拟合能力。此外，为了实现特征稀疏化防止过拟合问题的发生，我们将这两个全连接层的dropowt均设置为0.5。每一个全连接层的输出为：

m_i～Bernoulli(β)

这里，W，x和b分别表示全连接层的权重、输入和偏置。m是dropout掩膜，m中的每个变量m_i遵循参数为β＝0.5的伯努利分布。

步骤(4.42)：使用激活函数为softmax的全连接层对FCL2的输出特征进行特征映射以获得预测结果：

其中，n表示类别数目，p_j表示当前样本被预测为第j类的概率。

步骤(4.43)：选取最大预测值所对应的类别作为最终的识别结果输出。

所述模型的训练，本实施例中所使用的损失函数为交叉熵损失函数；所使用的参数优化器为Adam优化器；所设置的学习率与衰减率分别为0.0001、0.0001。

实施例二：

本实施例的目的是提供了一种基于通道注意力机制的微表情识别系统。

一种基于通道注意力机制的微表情识别系统，包括：

训练样本预处理模块，用于获取训练样本中微表情图像序列的起始帧和顶点帧；根据起始帧的面部关键点位置，对所述起始帧和顶点帧进行面部区域裁剪；估算裁剪后的起始帧与顶点帧图像之间的光流水平分量、垂直分量以及光流强度并对其进行标准化，使用标准化后的光流水平分量、垂直分量以及标准化后的光流强度形成的三维张量作为微表情序列的信息表示；

模型构建模块，用于构建基于通道注意力机制的微表情识别网络模型，并利用作为训练样本中微表情图像序列信息表示的三维张量对所述网络模型进行训练；

实施例三：

本实施例的目的是提供一种电子设备。

一种电子设备，包括存储器、处理器及存储在存储器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤，包括：

获取训练样本中微表情图像序列的起始帧和顶点帧；

将作为待测微表情图像序列信息表示的所述三维张量输入到训练好的网络模型，得到微表情识别结果。

实施例四：

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤，包括：

获取训练样本中微表情图像序列的起始帧和顶点帧；

上述实施例提供的一种基于通道注意力机制的微表情识别方法及系统完全可以实现，具有广阔应用前景。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种基于通道注意力机制的微表情识别方法，其特征在于，包括：

获取训练样本中微表情图像序列的起始帧和顶点帧；

2.如权利要求1所述的一种基于通道注意力机制的微表情识别方法，其特征在于，所述顶点帧的获取步骤包括：计算微表情序列中每一帧与所述起始帧之间的光流强度，光流强度均值最大的对应帧作为该序列的顶点帧。

3.如权利要求1所述的一种基于通道注意力机制的微表情识别方法，其特征在于，所述根据起始帧的面部关键点位置，对所述起始帧和顶点帧进行面部区域裁剪，包括：

检测所述微表情序列中起始帧的面部关键点；

根据起始帧中面部关键点的位置信息确定裁剪方案，包括裁剪区域的起始位置与裁剪区域的大小；

依照裁剪方案对起始帧与顶点帧进行裁剪以获得仅包含面部的图像。

4.如权利要求1所述的一种基于通道注意力机制的微表情识别方法，其特征在于，所述作为微表情序列信息表示的三维张量的获取包括：

对裁剪后的起始帧图像与顶点帧图像进行灰度化处理并将大小重新调整为224*224；

估算顶点帧相对于起始帧的光流水平分量与垂直分量；

计算光流的模得到光流强度；

对光流与光流强度进行标准化处理，叠加标准化后的光流水平分量、垂直分量以及标准化后的光流强度得到大小为224*224*3的三维张量作为微表情序列信息表示。

5.如权利要求1所述的一种基于通道注意力机制的微表情识别方法，其特征在于，所述基于通道注意力机制的微表情识别网络模型的训练，具体步骤包括：

利用作为微表情序列信息表示的三维张量作为模型的三通道输入数据，经过通道注意力模块后输出三通道特征张量(w_x*F′_x，w_y*F′_y，w_mag*F′_mag)；

利用浅层特征提取模块对通道注意力模块的三通道特征张量提取浅层特征，并输出53*53*64的特征图；

利用特征分类模块对当前样本的所属类别进行预测。

6.如权利要求5所述的一种基于通道注意力机制的微表情识别方法，其特征在于，所述通道注意力模块包括全局池化单元和全连接层，首先通过全局池化单元对所述模型的三通道输入数据进行全局平均池化，进而通过多个全连接层对池化结果进行多次特征映射得到三个通道的关注度，最后将得到的三个通道的关注度与模型的三通道输入数据的对应通道相乘输出三通道特征张量。

7.如权利要求5所述的一种基于通道注意力机制的微表情识别方法，其特征在于，所述多尺度模块包括三个并联的卷积单元、融合层以及一个1X1的卷积层，首先利用三个空洞卷积率分别为1、2、3的卷积单元对浅层特征提取模块的输出进行特征提取，以此来捕获不同尺度下的微表情特征，进而对三个卷积单元的输出进行堆叠，经过1*1的卷积层实现不同尺度的特征融合并控制特征的维度，最后将特征张量进行拉平操作，得到一维特征张量作为多尺度模块的输出。

8.一种基于通道注意力机制的微表情识别系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1-7任一项所述的基于通道注意力机制的微表情识别方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-7任一项所述的基于通道注意力机制的微表情识别方法。