CN112329683A

CN112329683A - 一种基于注意力机制融合的多通道卷积神经网络人脸表情识别方法

Info

Publication number: CN112329683A
Application number: CN202011276595.5A
Authority: CN
Inventors: 杨彪; 范福成; 徐黎明; 陈阳; 吕继东; 毕卉
Original assignee: Changzhou University
Current assignee: Changzhou University
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2021-02-05
Anticipated expiration: 2040-11-16
Also published as: CN112329683B

Abstract

本发明涉及一种基于注意力机制融合的多通道卷积神经网络人脸表情识别方法，首先通过Viola‑Jones人脸检测器和旋转校正从输入的灰度图像中检测出人脸区域，尽可能减少无关区域对人脸表情识别准确性的影响；其次将检测得到的人脸区域应用到深度图像和局部二值模式图像，得到三种具有互补性的人脸区域数据；然后采用单通道‑特征提取网络分别从三种类型的人脸区域数据中自动提取与表情相关的特征，并将提取得到的特征送入交互注意力融合模块中进行融合，该模块基于交互注意力机制提取任意两种人脸区域特征的空间相关性，从而实现了不同类型人脸区域的有效特征融合；最后将交互注意力融合模块输出的特征再次拼接融合后，通过全连接层进行特征变换，并通过softmax操作最后得到表情识别结果。

Description

一种基于注意力机制融合的多通道卷积神经网络人脸表情识别方法

技术领域

本发明涉及计算机视觉技术领域，尤其是一种基于注意力机制融合的多通道卷积神经网络人脸表情识别方法。

背景技术

人脸识计算机视觉技术应用的重要阵地，随着人脸识别技术的日益完善，面部表情识别技术得到了越来越多的关注。面部表情识别指利用计算机视觉技术从包含人脸的图片中预测出其中人的表情，一般指高兴、愤怒、悲伤、恐惧、沮丧、惊讶等六种基本表情。该技术在揭示人的情感、意图及其他内在状态方面发挥着极大的作用，是机器感知人类情绪变化并与人类进行沟通的重要手段，在人机交互、健康监控、辅助驾驶等方面获得了广泛应用。

面部表情识别的一般流程包括面部区域检测、表情相关的特征提取以及分类器设计。面部区域检测的发展已较为成熟，包括传统的Viola-Jones人脸检测器、Adaboost人脸检测器以及基于深度神经网络的人脸检测器，如DeepID。检测得到面部区域后，可以根据表情识别的需要进行特征加工，譬如检测嘴、眼睛、眉毛、鼻子等典型区域的位置与形状、提取面部区域的纹理特征以及使用深度网络自动进行特征提取；最后，设计分类器进行表情的分类识别，常用的分类器包括支持向量机、随机森林分类器以及Softmax进行分类。

近年来，面部表情识别取得了一定的进展，但是表情作为一种主观因素较强的事物，在检测时仍然存在以下难点：(1)不同被试的相同表情在外观上可能存在较大差异；(2)相同被试的不同表情之间的外观差异可能不明显；(3)相同被试的同一表情受其情绪强弱程度的影响可能在外表上存在较大差异。因此，准确的面部表情识别不仅需要排除非人脸区域，更需要能够准确描述不同表情差异的特征，并据此设计强鲁棒的分类器。

发明内容

本发明要解决的技术问题是：为了克服现有技术中之不足，本发明提供一种基于注意力机制融合的多通道卷积神经网络人脸表情识别方法，以其能够结合多种人脸图像的互补性，较为准确地识别高兴、悲伤、沮丧、恐惧、愤怒和惊讶六种基本表情。

本发明解决其技术问题所采用的技术方案是：一种基于注意力机制融合的多通道卷积神经网络人脸表情识别方法，具有以下步骤：

S1、基于灰度图进行人脸检测，并根据多种人脸图像之间的关联对其进行预处理；

S2、利用单通道-特征提取网络从不同种类的人脸区域中自动提取与表情相关的特征；

S3、利用注意力融合网络对不同种类的人脸表情相关特征进行融合，对融合后的特征进一步处理得到人脸表情识别结果。

所述步骤S1具体包括：

(1)、人脸区域检测

首先对输入图像进行处理，提取其中的人脸区域，以减少非人脸区域噪声对人脸表情识别的影响。使用Viola-Jones人脸检测器(使用Haar特征)在灰度图像上进行人脸检测，得到准确的人脸区域用于后续分析。

(2)、人脸区域的旋转校正

由于进行灰度图人脸检测得到的人脸区域存在角度差异，影响后续人脸表情识别算法的效果，因此采用旋转变换矩阵对检测到的人脸进行对齐，旋转变换矩阵定义如下：

其中(x,y)表示原始坐标，(x’,y’)表示旋转校正后的坐标，θ表示旋转角度，θ通过两眼连线与水平线的角度确定。对于旋转校正后的灰度人脸图像上的人脸区域，将其映射到与灰度人脸图像相关联的深度人脸图像，从而得到关于人脸区域的灰度数据和深度数据。

(3)、人脸区域的局部二值模式计算

得到人脸区域的灰度数据和深度数据后，需要进一步计算该区域的局部二值模式以提供细节信息。通过在灰度人脸区域计算局部二值模式数据，图像的局部二值模式可表示为一串0/1序列，其中每一位的取值通过比较当前像素点及其邻域像素点的大小关系得到，图像的局部二值模式计算公式如下：

其中S()表示符号函数，N表示当前像素点的邻域像素数目，一般采用8邻域，即令N为8，g_c和g_n分别表示当前像素点的值和对应的邻域像素点的值。如此，在预处理之后就得到了关于人脸区域的灰度数据G、局部二值模式数据L和深度数据D，分别可以描述人脸的全局信息、细节信息以及距离信息。

所述步骤S2具体包括：

(1)、基于单通道的人脸表情相关特征提取网络

采用基于卷积神经网络的单通道人脸表情相关特征提取网络，用于从人脸区域的灰度数据G、局部二值模式数据L和深度数据D中提取与表情识别相关的特征。该神经网络由4个3×3的卷积层构成，每个卷积层后接2×2的最大池化层、批量标准化(BatchNorm)层以及线性整流函数(Rectified Linear Unit，ReLU)层。四层卷积的滤波器数目分别为16、32、64以及128，滤波器数目设计的准则是保证特征分辨率减小的同时增加特征通道的数目，以提高网络的特征表达能力。对于人脸区域的灰度数据G、局部二值模式数据L和深度数据D采用相同结构的卷积神经网络，得到三种人脸图像的特征分别表示为f_G、f_L以及f_D。

(2)：增加残差连接提取多尺度特征，缓减梯度消失现象

在所提出的单通道人脸表情相关特征提取网络的基础上增加残差连接，赋予卷积神经网络提取多尺度特征的能力，并在一定程度上缓和梯度消失现象。残差连接跨接了每一层卷积层的输入和输出，假设某一层卷积层的输入信号为X，序列的卷积、池化、批量标准化以及线性整流操作用函数f()表示，那么对于该卷积层的残差连接表示如下：

X’＝f(X)+X

其中，X’表示表示卷积层的输出信号。通过残差连接，输出信号X’中包含了其本身信号X以及对X进行卷积、池化、批量标准化以及线性整流操作的结果。由于对X进行卷积操作可以得到更高尺度的特征，因此在每一个卷积层上跨接残差连接可以提取到目标的多尺度特征。在误差反传过程中，误差梯度不仅可以通过卷积层反传，也可以通过残差连接反传，避免了在卷积层反传中可能出现的梯度消失现象，提高了深度神经网络训练的稳定性与收敛性。

所述步骤S3具体包括：

(1)、基于交互注意力机制的单通道融合特征提取

对于不同种类的人脸数据，对于某个表情，其脸部激活区域不尽相同，弱激活区域可能会被强激活区域所掩盖。为了确保在人脸表情识别的过程中完整地考虑这些区域，采用一种基于交互注意力机制的融合方法，该融合方法每次可处理任意两种类型的人脸数据，并将其中一种设定为主要数据，另一种设定为辅助数据，通过交互注意力机制得到主要数据和辅助数据在空间上的关联，从而使主要数据的特征描述更多的信息。假设任意两种类型的人脸数据在某个与表情识别相关的区域上有较强关联，从而利用交互注意力机制计算两种类型的人脸数据的空间关联。

假设人脸灰度数据G和深度数据D经过两个单通道的人脸表情相关特征提取网络后的输出特征为f_G与f_D，其维度为C×H×W，其中C表示特征通道数目，H表示特征图的高度，W表示特征图的宽度。首先利用1×1的卷积子分别对f_G与f_D进行卷积操作，得到维度为C×H×W的特征G₁与D₁，将G₁的转置与D₁进行矩阵相乘，然后利用softmax运算计算f_D与f_G的交互注意力Att_GD,Att_GD的维度为N×N，其中N＝H×W。此时f_G为主，f_D为辅，因此再次利用1×1的卷积子对f_G进行卷积得到C×H×W的特征G₂，然后与交互注意力Att_GD的转置进行矩阵乘法，加上自身特征f_G后得到在f_D辅助下f_G的表情相关特征f_GD，该计算过程如下所示：

f_GD＝G₂×Att_GD ^T+f_GD

Att_GD＝σ(G₁ ^T×D₁)

其中σ()表示softmax函数，利用相同的方法，可以得到在f_L辅助下f_G的表情相关特征f_GL，那么对于灰度人脸图像，其融合后特征f_AG就是f_GD与f_GL的拼接结果；按照同样的方法可以得到深度人脸图像的融合后特征f_AD与局部二值模式人脸图像的融合后特征f_AL。

(2)、基于三通道融合特征进行表情识别

对于三种人脸图像的特征分别为f_G、f_L以及f_D进行基于双通道特征进行基于注意力机制的融合后，分别得到灰度人脸图像的融合后特征f_AG、深度人脸图像的融合后特征f_AD与局部二值模式人脸图像的融合后特征f_AL。对于灰度人脸图像的融合后特征f_AG，利用自适应平均池化操作得到向量f_G1，利用自适应最大池化操作得到向量f_G2；对于深度人脸图像的融合后特征f_AD，利用自适应平均池化操作得到向量f_D1，利用自适应最大池化操作得到向量f_D2；对于局部二值模式人脸图像的融合后特征f_AL，利用自适应平均池化操作得到向量f_L1，利用自适应最大池化操作得到向量f_L2；将六个向量拼接起来得到f_v(f_v＝concatenate(f_G1，f_G2，f_D1，f_D2，f_L1，f_L2))，然后连接两层全连接层(第一层全连接层后接ReLU层)进行特征处理操作，最后利用softmax操作得到人脸表情的识别结果，其过程如下式所示：

F＝σ(Fc1(Relu(Fc2(f_v))))

其中，F表示人脸六种基本表情的识别结果，σ()表示softmax函数，Fc1表示第一层全连接层的可学习参数，其中输入参数为768，输出参数为64；Fc2表示第二层全连接层的可学习参数，其中输入参数为64，输出参数为6。

本发明的有益效果是：

(1)、利用Viola-Jones人脸检测器及旋转校正限制人脸表情分析区域，并分别使用人脸区域的灰度数据、局部二值模式数据和深度数据来挖掘全局、细节以及距离信息。

(2)、基于卷积神经网络搭建单通道人脸表情相关特征提取网络，来自动从不同类型的人脸数据中提取与表情相关的特征，并通过增加残差连接提取多尺度特征、缓减梯度消失现象。

(3)、利用交互注意力机制提取单通道融合特征，该特征包含了本通道本身的信息以及其它两个通道与它的空间关联信息，有效利用了不同种类人脸图像的互补特性。

(4)、对三个通道的融合特征进行进一步融合，通过全连接层和softmax操作的匹配得到最终的人脸表情识别结果。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是的系统流程图。

图2是本发明中提出的单通道-特征提取网络的示意图。

图3是本发明中提出的交互注意力融合机制示意图。

图4是本发明中提出的注意力融合网络示意图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

如图1所示的一种基于注意力机制融合的多通道卷积神经网络人脸表情识别方法，考虑到人脸区域对人脸表情分析有较大的贡献，因此首先在面部灰度图像上进行人脸检测，并通过旋转矩阵对人脸检测区域进行校正；考虑到不同种类的人脸区域可以提供互补的信息，本实施例同时对面部灰度区域、面部深度区域以及面部局部二值模式区域进行了处理，以期从全局、细节、深度等不同角度对人脸区域进行描述，从而得到准确的人脸表情识别结果。对于任意种类的面部区域，使用单通道-特征提取网络自动从该区域内提取与面部表情相关的特征，考虑到不同种类面部区域的互补性，利用注意力融合网络挖掘不同种类人脸区域的空间关联，并将特征进行融合，最后通过处理后得到人脸表情的识别结果。

本发明的具体操作步骤如下：

图2给出了单通道-特征提取网络的示意图。

1)、基于单通道的人脸表情相关特征提取网络。

采用基于卷积神经网络的单通道人脸表情相关特征提取网络，用于从人脸区域的灰度数据G、局部二值模式数据L和深度数据D中提取与表情识别相关的特征，该神经网络由4个3×3的卷积层构成，每个卷积层后接2×2的最大池化层、批量标准化(BatchNorm)层以及线性整流函数(Rectified Linear Unit，ReLU)层。四层卷积的滤波器数目分别为16、32、64以及128，滤波器数目设计的准则是保证特征分辨率减小的同时增加特征通道的数目，以提高网络的特征表达能力。对于人脸区域灰度数据G、局部二值模式数据L和深度数据D采用相同结构的卷积神经网络，得到三种人脸图像的特征分别表示为f_G、f_L以及f_D。

2)、增加残差连接提取多尺度特征，缓减梯度消失现象。

在上述单通道人脸表情相关特征提取网络的基础上增加了残差连接，赋予了卷积神经网络提取多尺度特征的能力，并在一定程度上缓和了梯度消失现象。残差连接跨接了每一层卷积层的输入和输出，假设某一层卷积层的输入信号为X，序列的卷积、池化、批量标准化以及线性整流操作用函数f()表示，那么对于该卷积层的残差连接表示如下：

X’＝f(X)+X

图3给出了交互注意力融合机制示意图。

3)、基于交互注意力机制的单通道融合特征提取。

对于不同种类的人脸数据，对于某个表情，其脸部激活区域不尽相同，弱激活区域可能会被强激活区域所掩盖。为了确保在人脸表情识别的过程中完整地考虑这些区域，采用一种基于注意力机制的融合方法，该融合方法每次可处理任意两种类型的人脸数据，并将其中一种设定为主要数据，另一种设定为辅助数据，通过交互注意力机制得到主要数据和辅助数据在空间上的关联，从而使主要数据的特征描述更多的信息。假设任意两种类型的人脸数据在某个与表情识别相关的区域上有较强关联，从而利用交互注意力机制计算两种类型的人脸数据的空间关联。

假设人脸灰度数据G和深度数据D经过两个单通道的人脸表情相关特征提取网络后的输出特征为f_G与f_D，其维度为C×H×W，其中C表示特征通道数目，H表示特征图的高度，W表示特征图的宽度。首先利用1×1的卷积子分别对f_G与f_D进行卷积操作，得到维度为C×H×W的特征G₁与D₁，将G₁的转置与D₁进行矩阵相乘，然后利用softmax运算计算f_D与f_G的交互注意力Att_GD,Att_GD的维度为N×N，其中N＝H×W。此时f_G为主，f_D为辅，因此再次利用1×1的卷积子对f_G进行卷积得到C×H×W的特征G₂，然后与交互注意力Att_GD的转置进行矩阵乘法，加上自身特征f_G后得到在f_D辅助下f_G的表情相关特征f_GD，该计算过程如下所示：G₁ ^T

f_GD＝G₂×Att_GD ^T+f_GD

Att_GD＝σ(G₁ ^T×D₁)

其中σ()表示softmax函数。利用相同的方法，可以得到在f_L辅助下f_G的表情相关特征f_GL，那么对于灰度人脸图像，其融合后特征f_AG就是f_GD与f_GL的拼接结果。按照同样的方法可以得到深度人脸图像的融合后特征f_AD与局部二值模式人脸图像的融合后特征f_AL。

图4给出了注意力融合网络示意图。

4)、基于三通道融合特征进行表情识别。

F＝σ(Fc1(Relu(Fc2(f_v))))

本发明主要考虑面部表情特征的提取与表情识别问题，提出从三种互补的面部图像(灰度、深度以及局部二值模式)中提取特征，并利用不同面部图像在空间上的关联设计基于交互注意力的融合算法，准确识别人脸面部六种基本面部表情(高兴、愤怒、悲伤、恐惧、沮丧、惊讶)。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种基于注意力机制融合的多通道卷积神经网络人脸表情识别方法，其特征是：具有以下步骤：

S1、基于灰度图人脸检测的预处理研究；

S2、基于单通道-特征提取网络的人脸表情相关特征提取；

S3、基于注意力融合网络的多通道人脸表情识别。

2.根据权利要求1所述的基于注意力机制融合的多通道卷积神经网络人脸表情识别方法，其特征是，所述步骤S1中，具体包括以下步骤：

(1)、人脸区域检测：首先对输入图像进行处理，提取其中的人脸区域，以减少非人脸区域噪声对人脸表情识别的影响；

(2))、人脸区域的旋转校正：通过旋转变换矩阵对检测到的人脸进行对齐，对于旋转校正后的灰度人脸图像上的人脸区域，将其映射到与灰度人脸图像相关联的深度人脸图像，从而得到关于人脸区域的灰度数据和深度数据；

(3)、人脸区域的局部二值模式计算：得到人脸区域的灰度数据和深度数据后，进一步计算该区域的局部二值模式以提供细节信息。

3.根据权利要求1所述的基于注意力机制融合的多通道卷积神经网络人脸表情识别方法，其特征是，所述步骤S2中，具体包括以下步骤：

(1)、基于单通道的人脸表情相关特征提取网络：

采用基于卷积神经网络的单通道人脸表情相关特征提取网络，用于从人脸区域的灰度数据G、局部二值模式数据L和深度数据D中提取与表情识别相关的特征；

(2)、增加残差连接提取多尺度特征，缓减梯度消失现象：在单通道人脸表情相关特征提取网络的基础上增加残差连接，赋予卷积神经网络提取多尺度特征的能力，在一定程度上缓和梯度消失现象。

4.根据权利要求1所述的基于注意力机制融合的多通道卷积神经网络人脸表情识别方法，其特征是，所述步骤S3中，具体包括以下步骤：

(1)、基于交互注意力机制的单通道融合特征提取：对于不同种类的人脸数据，对于某个表情，其脸部激活区域不尽相同，弱激活区域可能会被强激活区域所掩盖，采用基于注意力机制的融合方法以确保在人脸表情识别的过程中完整地考虑上述区域；

(2)、基于三通道融合特征进行表情识别：对于三种人脸图像的特征分别为f_G、f_L以及f_D进行基于双通道特征进行基于注意力机制的融合后，分别得到灰度人脸图像的融合后特征f_AG、深度人脸图像的融合后特征f_AD与局部二值模式人脸图像的融合后特征f_AL。