CN117496567A

CN117496567A - 基于特征增强的面部表情识别方法及系统

Info

Publication number: CN117496567A
Application number: CN202311037808.2A
Authority: CN
Inventors: 于霞; 武家逸; 杨海波; 赵鑫峰; 孙佳毓; 李明扬; 屈绍龙; 刘鼎歆; 朱哿
Original assignee: Shenyang University of Technology
Current assignee: Shenyang University of Technology
Priority date: 2023-08-16
Filing date: 2023-08-16
Publication date: 2024-02-02

Abstract

本发明提供一种基于特征增强的面部表情识别方法及系统。该方法包括：获取表情图像数据集，表情图像数据集为进行标记和分类后的N类表情图像数据集；对表情图像数据集中的每张表情图像进行数据增强；搭建以ResNet为骨干网络的卷积神经网络；将数据增强后的表情图像数据集输入到训练好的卷积神经网络进行特征提取；通过最后一层全连接层输出N种表情类别；卷积神经网络的损失函数采用将softmax损失函数与特征增强提取损失函数进行联合优化后的损失函数。本发明提供的面部表情识别方法，注重特征提取过程中的可分离性与可辨别性，填补了现有技术中忽略人脸表情图像存在的类间相似性与类内差异性的技术空白。

Description

基于特征增强的面部表情识别方法及系统

技术领域

本发明涉及图像处理的技术领域，具体而言，涉及一种基于特征增强的面部表情识别方法及系统。

背景技术

面部表情是人类交流中的重要组成部分，它们传达了丰富的情感和意图信息。面部表情识别在许多领域中具有广泛的应用，包括人机交互、情感分析、心理健康等。然而，由于面部表情的复杂性和多样性，准确地识别面部表情仍然是一个具有挑战性的问题。

随着计算机视觉和人工智能的迅速发展，面部表情识别取得了一些进展。传统的面部表情识别方法主要基于手工设计的特征提取和分类器，但这些方法往往依赖于领域专家的经验，并且对于面部表情的多样性和变化性有一定的限制。近年来，深度学习技术的兴起为面部表情识别带来了新的机遇。通过利用深度卷积神经网络(Convolutional NeuralNetworks，CNN)等模型，可以自动地学习和提取面部图像中的特征，从而提高面部表情识别的准确性。

然而，现有的面部表情识别方法仍然存在一些挑战。首先，在真实世界的环境中，收集到的人脸图像数据往往会受到多种因素的影响，如面部区域存在遮挡、采集过程光照强度发生变化、面部姿态不一、表情图片分辨率过低等等，这些因素会使表情识别变得更加困难。其次，人脸表情还具有明显的类间相似性与类内差异性。类间相似性可以理解为不同类别的面部表情之间存在着强烈的共同特征，如当人们表达不同种表情时，面部细微的变化就代表两种完全不同的类别。类内差异性可以理解为由于不同人群、文化、地域之间的巨大差异，对于同一类别表情，人们的外在表达存在明显区别。再者，人脸的面部表情变化并不是单一位置影响，通常涉及到多个面部区域变化以及协同作用。

此外，先前的大多数表情识别研究都是建立在实验室受控环境中，无法反映现实生活中的复杂场景，具有一定的局限性。因此，在真实世界场景下进行的表情识别，可以使模型的泛化性更强，具有更好的现实意义。

发明内容

本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。

为此，本发明的第一目的在于提出一种基于特征增强的面部表情识别方法。

本发明的第二目的在于提出一种基于特征增强的面部表情识别系统。

本发明的第三目的在于提出一种计算机装置。

本发明的第四目的在于提出一种计算机可读存储介质。

为了实现上述目的，本发明的第一方面的技术方案，提供了一种基于特征增强的面部表情识别方法，包括：获取表情图像数据集，其中，所述表情图像数据集为进行标记和分类后的N类表情图像数据集；对所述表情图像数据集中的每张表情图像进行数据增强；搭建以ResNet为骨干网络的卷积神经网络；将数据增强后的表情图像数据集输入到训练好的卷积神经网络进行特征提取，以提取数据增强后的每张表情图像中的形态特征、纹理特征以及颜色特征；通过最后一层全连接层输出N种表情类别；其中，所述卷积神经网络的损失函数采用的是将softmax损失函数与特征增强提取损失函数进行联合优化后的损失函数；

所述softmax损失函数的公式如下：

其中，y_i∈{1,...,K}，是在d维空间上的输入；m是小批量中的样本总数；是最后一个全连接层的权重；/>是偏置参数；

所述特征增强提取损失函数的公式如下：

其中，表示深度特征的第y_i个类中心从d维高斯分布中随机采样；x_i∈X，表示第i个输入向量，X是输入向量空间；y_i∈Y，Y是标签空间；M是Y的维度；σ_c表示类中心的标准差；

所述联合优化后的损失函数的公式如下：

其中，λ₁是的超参数。

优选地，将数据增强后的表情图像数据集输入到训练好的卷积神经网络进行特征提取，以提取数据增强后的每张表情图像中的形态特征、纹理特征以及颜色特征的步骤之后，还包括：构造空间注意力模块；构造通道注意力模块；搭建基于空间和通道注意力融合学习的深度网络；将所述卷积神经网络提取到的特征送入训练好的所述深度网络中的空间注意力模块进行提取空间特征；将提取到的空间特征送入训练好的所述深度网络中的通道注意力模块进行提取通道特征；使用log-softmax函数对提取到的所述空间特征和所述通道特征进行归一化处理；以及通过最后一层全连接层输出N种表情类别的步骤之前，还包括：通过BN层加快所述深度网络的训练和收敛速度；其中，所述深度网络的损失函数采用的是将softmax损失函数、特征增强提取损失函数、以及融合损失函数进行联合优化后的网络总损失函数；

所述融合损失函数的公式如下：

其中，N为每一批次的数据大小，C为注意力图的通道大小，k为注意力分支的数量，为第i个样本在第j个通道上的方差；

所述网络总损失函数的公式如下：

其中，λ₂是的超参数。

优选地，对所述表情图像数据集中的每张表情图像进行数据增强的步骤之前，还包括：对所述表情图像数据集中的每张表情图像进行裁剪得到对应的人脸图像；对每个人脸图像进行缩放，按原图像的长宽比例缩放至长边长度为m像素；若图像并非正方形，则在缩放后，用灰度值为0的像素填充短边至长度为m像素，以得到边长为m像素的正方形图像。

本发明的第二方面的技术方案，还提供了一种基于特征增强的面部表情识别系统，包括：获取单元，用于获取表情图像数据集，其中，所述表情图像数据集为进行标记和分类后的N类表情图像数据集；数据增强单元，用于对所述表情图像数据集中的每张表情图像进行数据增强；卷积神经网络搭建单元，用于搭建以ResNet为骨干网络的卷积神经网络；特征提取单元，用于将数据增强后的表情图像数据集输入到训练好的卷积神经网络进行特征提取，以提取数据增强后的每张表情图像中的形态特征、纹理特征以及颜色特征；表情类别输出单元，用于通过最后一层全连接层输出N种表情类别；其中，所述卷积神经网络的损失函数采用的是将softmax损失函数与特征增强提取损失函数进行联合优化后的损失函数；

所述softmax损失函数的公式如下：

所述特征增强提取损失函数的公式如下：

所述联合优化后的损失函数的公式如下：

其中，λ₁是的超参数。

优选地，所述基于特征增强的面部表情识别系统还包括：空间注意力模块构造单元，用于构造空间注意力模块；通道注意力模块构造单元，用于构造通道注意力模块；深度网络搭建单元，用于搭建基于空间和通道注意力融合学习的深度网络；空间特征提取单元，用于将所述卷积神经网络提取到的特征送入所述空间注意力模块进行提取空间特征；通道特征提取单元，用于将提取到的空间特征送入所述通道注意力模块进行提取通道特征；归一化处理单元，用于使用log-softmax函数对提取到的所述空间特征和所述通道特征进行归一化处理；BN单元，用于通过BN层加快所述深度网络的训练和收敛速度；其中，所述基于空间和通道注意力融合学习的深度网络的损失函数采用的是将softmax损失函数、特征增强提取损失函数、以及融合损失函数进行联合优化后的网络总损失函数；

所述融合损失函数的公式如下：

所述网络总损失函数的公式如下：

其中，λ₂是的超参数。

优选地，所述基于特征增强的面部表情识别系统还包括：裁剪单元，用于对所述表情图像数据集中的每张表情图像进行裁剪得到对应的人脸图像；缩放单元，用于对每个人脸图像进行缩放，按原图像的长宽比例缩放至长边长度为m像素；若图像并非正方形，则在缩放后，用灰度值为0的像素填充短边至长度为m像素，以得到边长为m像素的正方形图像。

本发明的第三方面的技术方案，还提供了一种计算机装置，该计算机装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一技术方案中的基于特征增强的面部表情识别方法的步骤。

本发明的第四方面的技术方案，还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一技术方案中的基于特征增强的面部表情识别方法的步骤。

本发明的有益效果：

(1)本发明提供的基于特征增强的面部表情识别方法及系统，通过搭建以ResNet为骨干网络的卷积神经网络，实现了采用残差学习办法帮助解决神经网络中的梯度消失和梯度爆炸等问题。

(2)本发明提供的基于特征增强的面部表情识别方法及系统，通过设计特征增强提取损失函数，用来有效增强卷积神经网络对深度特征的识别能力。具体地，卷积神经网络的损失函数采用的是将softmax损失函数与特征增强提取损失函数进行联合优化后的损失函数，实现了达到适应表情图像的特异性的目的，注重特征提取过程中的可分离性与可辨别性，填补了先前大多数研究在进行特征提取时只关注特征的单个表示，忽略了人脸表情图像存在的类间相似性与类内差异性的技术空白。

(3)本发明提供的基于特征增强的面部表情识别方法及系统，在实现特征增强的基础上提出多头注意力网络，通过将卷积神经网络提取到的特征经过不同分支的注意力模块，得到不同注意力区域，来学习影响表情变化的关键区域，进一步地，合并多分支注意力网络，强制注意力网络关注不同区域并进行融合，最后输出人脸表情类别，达到了学习影响表情变化的多个关键区域特征的目的。

本发明的附加方面和优点将在下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1示出了本发明的一个实施例的基于特征增强的面部表情识别方法的示意流程图；

图2示出了现有技术中的面部表情识别方法的整体示意流程图；

图3示出了本发明的一个实施例的基于特征增强的面部表情识别方法的示意过程图；

图4示出了本发明的一个实施例的骨干网络ResNet中的残差块的结构示意图；

图5示出了本发明的另一个实施例的基于特征增强的面部表情识别方法的示意流程图；

图6示出了本发明的一个实施例的融合特征增强和多头注意力的网络结构示意图；

图7示出了本发明的一个实施例的真实世界场景下的表情灰度图像；

图8示出了本发明的一个实施例的经过数据处理后的表情图像；

图9示出了本发明的一个实施例的基于特征增强的面部表情识别系统的示意框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互结合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不限于下面公开的具体实施例的限制。

图2示出了现有技术中的面部表情识别方法的整体示意流程图。如图2所示，举例说明，当使用常规的卷积神经网络进行表情识别时，它的主要思路为特征学习和标签预测，首先输入表情图像，对表情图像进行数据增强和归一化处理，经过卷积特征提取到深度特征后，最后经过全连接层作为一个线性分类器，输出为表情类别标签。

进一步地，在卷积神经网络中构造用于鉴别特征的高效损失函数非常重要，本发明创新性地设计了特征增强提取损失函数。

图1示出了本发明的一个实施例的基于特征增强的面部表情识别方法的示意流程图。如图1所示，一种基于特征增强的面部表情识别方法，包括：

步骤102，获取表情图像数据集，其中，表情图像数据集为进行标记和分类后的N类表情图像数据集；

步骤104，对表情图像数据集中的每张表情图像进行数据增强；

步骤106，搭建以ResNet为骨干网络的卷积神经网络，卷积神经网络的损失函数采用的是将softmax损失函数与特征增强提取损失函数进行联合优化后的损失函数；

步骤108，将数据增强后的表情图像数据集输入到训练好的卷积神经网络进行特征提取，以提取数据增强后的每张表情图像中的形态特征、纹理特征以及颜色特征；

步骤110，通过最后一层全连接层输出N种表情类别；

softmax损失函数的公式如下：

特征增强提取损失函数的公式如下：

联合优化后的损失函数的公式如下：

其中，λ₁是的超参数。

本发明提供的基于特征增强的面部表情识别方法，通过搭建以ResNet为骨干网络的卷积神经网络，实现了采用残差学习办法帮助解决神经网络中的梯度消失和梯度爆炸等问题。

进一步地，本发明提供的基于特征增强的面部表情识别方法，通过设计特征增强提取损失函数，用来有效增强卷积神经网络对深度特征的识别能力。具体地，卷积神经网络的损失函数采用的是将softmax损失函数与特征增强提取损失函数进行联合优化后的损失函数，实现了达到适应表情图像的特异性的目的，注重特征提取过程中的可分离性与可辨别性，填补了先前大多数研究在进行特征提取时只关注特征的单个表示，忽略了人脸表情图像存在的类间相似性与类内差异性的技术空白。

进一步地，在充分提取特征后，进行标签预测，经由分类器输出表情标签，即通过最后一层全连接层输出N种表情类别。

图3示出了本发明的一个实施例的基于特征增强的面部表情识别方法的示意过程图。如图3所示，输入表情图像数据，经过进行卷积特征提取，并通过设计的将softmax损失函数与特征增强提取损失函数进行联合优化后的损失函数，达到了进行深度特征提取的目的，进一步地，在充分提取特征后，进行标签预测，经由分类器输出表情标签。这里面的深度特征提取主要是指特征提取过程中的可分离性与可辨别性。

在本实施例中，可以直接获取RAF-DB公开数据集，里面含有15337张表情图片，共有七种表情标签，分别是惊讶、高兴、悲伤、恐惧、愤怒、厌恶和中立。

在本实施例中，采用ResNet-18作为搭建的卷积神经网络的主干网络进行特征提取，该网络结构在图像识别领域广泛应用，特别适用于表情识别这类任务。ResNet-18网络结构包含多个关键组件，包括输入层、卷积层、残差块、全局平均池化层和全连接层。如图4所示，残差块是由两个卷积层和一个跨层连接组成，其中跨层连接将前一层网络的神经元输出直接加到当前层的输出上。残差块中的基本思想是，每个块不仅包括常规的卷积层和激活函数，而且还有一个跳过连接(shortcut connection)。在训练过程中，这种跳过连接可以使网络轻松地学习恒等映射，从而可以更快地收敛，并且可以在更深的网络中获得更好的性能，能够使信息直接传递到后面的层中，避免了在传播过程中的丢失。同时，跨层连接还能够保证梯度信息的正常传递。

ResNet-18的第一个残差块是由两个卷积层组成的。其中，每个卷积层之后都有一个批量归一化层，这样的结构有助于提高网络的稳定性和收敛速度。批量归一化层的后面是一个ReLU激活函数层，用于引入非线性特征。最后，将跨层连接的结果添加到最后一个卷积层的输出上，这样可以实现将前面层的信息直接传递到后面的层，避免信息丢失和梯度消失问题。剩下的三个残差块的结构与第一个残差块类似。每个残差块包括两个卷积层和一个跨层连接。这种跨层连接的设计允许网络更深，同时保持梯度的有效传播，从而更好地学习图像中的特征。

ResNet-18中的每个残差块的输入和输出的通道数是相同的，这样可以保持特征的一致性。第一个残差块的输入通道数为64，这是因为ResNet-18的第一层卷积层输出64个特征图。接下来的每个残差块后面的卷积层中的通道数分别为64、128、256和512，这样可以逐渐增加特征的抽象程度和表达能力。

ResNet-18中每个残差块的步长不同。第一个残差块的步长为1，这样可以保持输入特征图的空间尺寸不变。而后面的残差块的步长为2，这有助于逐渐减小特征图的空间尺寸，从而增加感受野的大小。

最后的全局平均池化层用于将最后一个残差块的输出转换为全局特征向量。这是通过对每个特征图进行平均池化操作来实现的，将特征图的尺寸压缩为1x1。全局平均池化层可以捕捉到整体图像的特征信息，减少了参数数量和计算量，同时保留了重要的上下文信息。

最后的全连接层用于分类任务，根据表情识别的需要，ResNet-18在最后的全连接层输出7种不同的表情类别。通过对全局特征向量进行分类，网络能够将输入图像准确地分为不同的表情类别。

具体地，在特征提取过程中，将输入数据转换为可以送入卷积神经网络的特征向量，属于同一表情类别的数据具有共同的特征中心，随着网络层数的加深，图像特征的提取，特征中心是不断变化的。通过学习每个类的深层特征中心，在训练过程中，更新中心并最小化深度特征与其对应的类中心之间的距离，使属于同一个的特征更加紧凑，如公式(2)所示。

其中，表示深度特征的第y_i个类中心从d维高斯分布中随机采样；x_i∈X，表示第i个输入向量，X是输入向量空间；y_i∈Y，Y是标签空间；M是Y的维度；σ_c表示类中心的标准差；随着训练的进行，特征中心/>的特征点x_i之间的距离不断减小，特征中心之间距离不断变大，类中心标准差变大，以此最小化类内间距，最大化类间间距。

进一步地，在表情分类任务中，如果仅通过特征提取损失来训练卷积神经网络，学习到的深度特征和特征中心有可能产生退化问题。另一方面，如果仅使用softmax损失作为监督信号，得到的深度特征具有较大的类内变化，不能实现类的可辨别性。因此，使用特征增强损失训练CNN进行表情特征学习，将softmax函数与特征增强损失函数进行联合优化，进行表情分类。

给定一个具有m个样本的k类图像分类任务。y_i∈{1,...,K}，是在d维空间上的输入。传统的损失函数结合了全连接层、softmax函数和交叉熵损失来共同衡量模型的预测误差。全连接层接受输入x_i并通过线性变换输出向量z_i，线性变换如公式(6)所示。

z_i＝W^Tx_i+B (6)

其中，是最后一个全连接层的权重，/>是偏置参数。然后通过softmax函数计算所有类的概率分布，如公式(7)所示。

最后使用交叉熵计算预测值和真实值之间的差异，softmax损失函数可以用公式(1)表示。

其中，m是小批量中的样本总数，通过随机梯度下降将softmax损失函数最小化，优化网络参数并实现更好的分类。最终卷积神经网络的损失函数采用的是将softmax损失函数与特征增强提取损失函数进行联合优化后的损失函数，如公式(3)所示。

其中，λ₁是用于平衡两个损失函数的超参数，适当的λ₁可以显著增强深度特征的辨别能力。

图5示出了本发明的另一个实施例的基于特征增强的面部表情识别方法的示意流程图。如图5所示，一种基于特征增强的面部表情识别方法，包括：

步骤502，获取表情图像数据集，其中，表情图像数据集为进行标记和分类后的N类表情图像数据集；

步骤504，对表情图像数据集中的每张表情图像进行数据增强；

步骤506，搭建以ResNet为骨干网络的卷积神经网络；

步骤508，将数据增强后的表情图像数据集输入到训练好的卷积神经网络进行特征提取，以提取数据增强后的每张表情图像中的形态特征、纹理特征以及颜色特征；

步骤510，构造空间注意力模块；

步骤512，构造通道注意力模块；

步骤514，搭建基于空间和通道注意力融合学习的深度网络，深度网络的损失函数采用的是将softmax损失函数、特征增强提取损失函数、以及融合损失函数进行联合优化后的网络总损失函数；

步骤516，将卷积神经网络提取到的特征送入训练好的深度网络中的空间注意力模块进行提取空间特征；

步骤518，将提取到的空间特征送入训练好的深度网络中的通道注意力模块进行提取通道特征；

步骤520，使用log-softmax函数对提取到的所述空间特征和所述通道特征进行归一化处理；

步骤522，通过BN层加快深度网络的训练和收敛速度；

步骤524，通过最后一层全连接层输出N种表情类别。

融合损失函数的公式如下：

网络总损失函数的公式如下：

其中，λ₂是的超参数。

在本实施例中，通过卷积神经网络学习图像中的特征，设计特征增强损失函数更好地学习人脸表情图像存在的类间相似性与类内差异性，实现特征增强。进一步地，由于人脸的面部表情变化并不是单一位置影响，通常涉及到多个面部区域变化以及协同作用。为了学习影响表情变化的多个关键区域，在特征增强的基础上，本发明提出了多头注意力网络，将卷积神经网络提取到的特征经过不同分支的注意力模块，得到不同注意力区域，来学习影响表情变化的关键区域。具体地，本发明构建多个平行的注意力头，由空间注意力模块和通道注意力模块两部分组成。首先，将卷积神经网络提取到的特征送入空间注意力模块提取空间特征，再将提取到的特征送入通道注意力模块提取通道特征。根据每个通道重要程度的不同赋予不同的权重值，对表情识别具有关键作用的特征图的通道进行提升，相反进行抑制。进一步地，合并多分支注意力网络，强制注意力网络关注不同区域并进行融合，最后输出人脸表情类别。

图6示出了本发明的一个实施例的融合特征增强和多头注意力的网络结构示意图。具体实施例中，空间注意力模块由四个卷积模块和一个激活函数组成，构建了1×1，1×3，3×1，3×3四种卷积核，用于捕获不同关键区域的局部特征。然后使用ReLU激活函数来实现网络的非线性化。

对于通道注意力模块，首先采用自适应平均池化对输入进行下采样，减少特征图的尺寸，从而减少模型的参数数量和计算量，相比于常规的平均池化和最大池化，自适应平均池化通过对每个位置的特征图进行加权平均来计算池化输出，自适应平均池化不需要指定池化窗口大小，而是通过指定输出的特征图大小来动态计算池化窗口大小，这样可以保留更多的特征信息。

然后利用两个线性层和一个激活函数实现一个小型自动编码器来编码通道信息。空间注意力的输出可以表示为公式(8)：

s_i＝x_i×H_i(ω_s,x') (8)

其中，H_i∈{H₁,...,H_k}是空间注意力头，i∈{1,...,k}，k是多头注意力的头数，S_i∈{S₁,...,S_k}是输出的空间注意力特征，ω_s是H_i的网络参数。类似的，经过通道注意力模块得到的最后输出可以表示为公式(9)：

c_i＝s_i×H_i'(ω_c,s_i) (9)

其中，i∈{1,...,k}，ω_c是H_i'的网络参数。

经由多头注意力网络输出的特征图能够捕捉来自人脸表情的关键区域，但是也存在一定问题。随着注意力头数的增加，多头结构可能学习到重叠的面部区域，例如多个注意力头集中在眼睛或者嘴巴等相同区域，无法协调学习注意力分布区域，造成网络资源的浪费。针对上述问题，本发明构造了注意力融合网络来改进学习到的特征。

首先，考虑到网络计算速度和梯度稳定性，应用log-softmax函数对注意力特征进行归一化。假设V_q表示第i个注意力头c_i的输出向量，v_m表示c_i的第m个向量，经过归一化处理之后的结果可以表示为公式(10)：

然后，为了避免多头注意力发生重叠，提出融合损失函数，指导网络将注意力集中于不同关键区域，将归一化的多头注意力进行合并。

最后，经过全连接层将学习到的分布式特征表示映射到样本标记空间，加入BN层加快网络的训练和收敛速度，输出表情类别分数。

通过应用融合损失函数，最大化多头注意力关注的区域，由公式(4)表示。

其中，N为每一批次的数据大小，C是注意力图的通道大小，k是注意力分支的数量，表示第i个样本在第j个通道上的方差。

网络总损失函数的公式如下：

其中，λ₁和λ₂分别是和/>的超参数，在实验中将其均设置为1。

在本发明的一个实施例中，对表情图像数据集中的每张表情图像进行数据增强的步骤之前，还包括：对表情图像数据集中的每张表情图像进行裁剪得到对应的人脸图像；对每个人脸图像进行缩放，按原图像的长宽比例缩放至长边长度为m像素；若图像并非正方形，则在缩放后，用灰度值为0的像素填充短边至长度为m像素，以得到边长为m像素的正方形图像。

真实世界场景下的表情灰度图像如图7所示，未经过处理的真实世界场景下的表情图像是不能直接输入卷积神经网络的。

在本实施例中，对表情图像数据集中的每张表情图像进行数据增强前，通过统一对表情图像数据集中的每张表情图像进行归一化处理，使得后面的网络能更好地学习到表情图像中的特征。

具体地，对表情图像数据集中的每张表情图像进行裁剪得到对应的人脸图像，即以人脸为中心将人脸表情从图像上裁剪出来，窗口的尺寸应大到能够将整个人脸包含在裁剪图像中，并且小到能够防止在同一裁剪图像中出现多个人脸，再将每个人脸图像进行缩放至同样的尺寸。经过数据处理后的表情图像如图8所示。

图9示出了本发明的一个实施例的基于特征增强的面部表情识别系统的示意框图。如图9所示，基于特征增强的面部表情识别系统900，包括：

获取单元902，用于获取表情图像数据集，其中，表情图像数据集为进行标记和分类后的N类表情图像数据集；

数据增强单元904，用于对表情图像数据集中的每张表情图像进行数据增强；

卷积神经网络搭建单元906，用于搭建以ResNet为骨干网络的卷积神经网络；

特征提取单元908，用于将数据增强后的表情图像数据集输入到训练好的卷积神经网络进行特征提取，以提取数据增强后的每张表情图像中的形态特征、纹理特征以及颜色特征；

表情类别输出单元910，用于通过最后一层全连接层输出N种表情类别；

其中，卷积神经网络的损失函数采用的是将softmax损失函数与特征增强提取损失函数进行联合优化后的损失函数；

softmax损失函数的公式如下：

特征增强提取损失函数的公式如下：

联合优化后的损失函数的公式如下：

其中，λ₁是的超参数。

本发明提供的基于特征增强的面部表情识别系统，通过搭建以ResNet为骨干网络的卷积神经网络，实现了采用残差学习办法帮助解决神经网络中的梯度消失和梯度爆炸等问题。

进一步地，本发明提供的基于特征增强的面部表情识别系统，通过设计特征增强提取损失函数，用来有效增强卷积神经网络对深度特征的识别能力。具体地，卷积神经网络的损失函数采用的是将softmax损失函数与特征增强提取损失函数进行联合优化后的损失函数，实现了达到适应表情图像的特异性的目的，注重特征提取过程中的可分离性与可辨别性，填补了先前大多数研究在进行特征提取时只关注特征的单个表示，忽略了人脸表情图像存在的类间相似性与类内差异性的技术空白。

在本发明的一个实施例中，如图9所示，基于特征增强的面部表情识别系统900，还包括：空间注意力模块构造单元912，用于构造空间注意力模块；通道注意力模块构造单元914，用于构造通道注意力模块；深度网络搭建单元916，用于搭建基于空间和通道注意力融合学习的深度网络；空间特征提取单元918，用于将所述卷积神经网络提取到的特征送入所述空间注意力模块进行提取空间特征；通道特征提取单元920，用于将提取到的空间特征送入所述通道注意力模块进行提取通道特征；归一化处理单元922，用于使用log-softmax函数对提取到的所述空间特征和所述通道特征进行归一化处理；BN单元924，用于通过BN层加快所述深度网络的训练和收敛速度；其中，所述基于空间和通道注意力融合学习的深度网络的损失函数采用的是将softmax损失函数、特征增强提取损失函数、以及融合损失函数进行联合优化后的网络总损失函数；

融合损失函数的公式如下：

所述网络总损失函数的公式如下：

其中，λ₂是的超参数。

在本发明的一个实施例中，如图9所示，所述基于特征增强的面部表情识别系统900，还包括：裁剪单元926，用于对所述表情图像数据集中的每张表情图像进行裁剪得到对应的人脸图像；缩放单元928，用于对每个人脸图像进行缩放，按原图像的长宽比例缩放至长边长度为m像素；若图像并非正方形，则在缩放后，用灰度值为0的像素填充短边至长度为m像素，以得到边长为m像素的正方形图像。

具体地，对表情图像数据集中的每张表情图像进行裁剪得到对应的人脸图像，即以人脸为中心将人脸表情从图像上裁剪出来，窗口的尺寸应大到能够将整个人脸包含在裁剪图像中，并且小到能够防止在同一裁剪图像中出现多个人脸，再将每个人脸图像进行缩放至同样的尺寸。

本发明还提出了一种计算机装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上述任一实施例中的基于特征增强的面部表情识别方法的步骤。

本发明提供的计算机装置，处理器执行计算机程序时，通过搭建以ResNet为骨干网络的卷积神经网络，实现了采用残差学习办法帮助解决神经网络中的梯度消失和梯度爆炸等问题。

本发明还提出了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上述任一实施例中的基于特征增强的面部表情识别方法的步骤。

本发明提供的计算机可读存储介质，计算机程序被处理器执行时，通过搭建以ResNet为骨干网络的卷积神经网络，实现了采用残差学习办法帮助解决神经网络中的梯度消失和梯度爆炸等问题。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于特征增强的面部表情识别方法，其特征在于，包括：

获取表情图像数据集，其中，所述表情图像数据集为进行标记和分类后的N类表情图像数据集；

对所述表情图像数据集中的每张表情图像进行数据增强；

搭建以ResNet为骨干网络的卷积神经网络；

将数据增强后的表情图像数据集输入到训练好的卷积神经网络进行特征提取，以提取数据增强后的每张表情图像中的形态特征、纹理特征以及颜色特征；

通过最后一层全连接层输出N种表情类别；

其中，所述卷积神经网络的损失函数采用的是将softmax损失函数与特征增强提取损失函数进行联合优化后的损失函数；

所述softmax损失函数的公式如下：

所述特征增强提取损失函数的公式如下：

所述联合优化后的损失函数的公式如下：

其中，λ₁是的超参数。

2.根据权利要求1所述的基于特征增强的面部表情识别方法，其特征在于，将数据增强后的表情图像数据集输入到训练好的卷积神经网络进行特征提取，以提取数据增强后的每张表情图像中的形态特征、纹理特征以及颜色特征的步骤之后，还包括：

构造空间注意力模块；

构造通道注意力模块；

搭建基于空间和通道注意力融合学习的深度网络；

将所述卷积神经网络提取到的特征送入训练好的所述深度网络中的空间注意力模块进行提取空间特征；

将提取到的空间特征送入训练好的所述深度网络中的通道注意力模块进行提取通道特征；

使用log-softmax函数对提取到的所述空间特征和所述通道特征进行归一化处理；以及

通过最后一层全连接层输出N种表情类别的步骤之前，还包括：

通过BN层加快所述深度网络的训练和收敛速度；

其中，所述深度网络的损失函数采用的是将softmax损失函数、特征增强提取损失函数、以及融合损失函数进行联合优化后的网络总损失函数；

所述融合损失函数的公式如下：

所述网络总损失函数的公式如下：

其中，λ₂是的超参数。

3.根据权利要求1或2所述的基于特征增强的面部表情识别方法，其特征在于，对所述表情图像数据集中的每张表情图像进行数据增强的步骤之前，还包括：

对所述表情图像数据集中的每张表情图像进行裁剪得到对应的人脸图像；

对每个人脸图像进行缩放，按原图像的长宽比例缩放至长边长度为m像素；若图像并非正方形，则在缩放后，用灰度值为0的像素填充短边至长度为m像素，以得到边长为m像素的正方形图像。

4.一种基于特征增强的面部表情识别系统，其特征在于，包括：

获取单元，用于获取表情图像数据集，其中，所述表情图像数据集为进行标记和分类后的N类表情图像数据集；

数据增强单元，用于对所述表情图像数据集中的每张表情图像进行数据增强；

卷积神经网络搭建单元，用于搭建以ResNet为骨干网络的卷积神经网络；

特征提取单元，用于将数据增强后的表情图像数据集输入到训练好的卷积神经网络进行特征提取，以提取数据增强后的每张表情图像中的形态特征、纹理特征以及颜色特征；

表情类别输出单元，用于通过最后一层全连接层输出N种表情类别；

所述softmax损失函数的公式如下：

所述特征增强提取损失函数的公式如下：

所述联合优化后的损失函数的公式如下：

其中，λ₁是的超参数。

5.根据权利要求4所述的基于特征增强的面部表情识别系统，其特征在于，还包括：

空间注意力模块构造单元，用于构造空间注意力模块；

通道注意力模块构造单元，用于构造通道注意力模块；

深度网络搭建单元，用于搭建基于空间和通道注意力融合学习的深度网络；

空间特征提取单元，用于将所述卷积神经网络提取到的特征送入所述空间注意力模块进行提取空间特征；

通道特征提取单元，用于将提取到的空间特征送入所述通道注意力模块进行提取通道特征；

归一化处理单元，用于使用log-softmax函数对提取到的所述空间特征和所述通道特征进行归一化处理；

BN单元，用于通过BN层加快所述深度网络的训练和收敛速度；

其中，所述基于空间和通道注意力融合学习的深度网络的损失函数采用的是将softmax损失函数、特征增强提取损失函数、以及融合损失函数进行联合优化后的网络总损失函数；

所述融合损失函数的公式如下：

所述网络总损失函数的公式如下：

其中，λ₂是的超参数。

6.根据权利要求4或5所述的基于特征增强的面部表情识别系统，其特征在于，还包括：

裁剪单元，用于对所述表情图像数据集中的每张表情图像进行裁剪得到对应的人脸图像；

缩放单元，用于对每个人脸图像进行缩放，按原图像的长宽比例缩放至长边长度为m像素；若图像并非正方形，则在缩放后，用灰度值为0的像素填充短边至长度为m像素，以得到边长为m像素的正方形图像。

7.一种计算机装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至3中任一项所述的基于特征增强的面部表情识别方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的基于特征增强的面部表情识别方法的步骤。