CN112613479A

CN112613479A - 基于轻量流式网络和注意力机制的表情识别方法

Info

Publication number: CN112613479A
Application number: CN202110001577.4A
Authority: CN
Inventors: 柯逍; 林艳; 王俊强
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2021-01-04
Filing date: 2021-01-04
Publication date: 2021-04-06
Anticipated expiration: 2041-01-04
Also published as: CN112613479B

Abstract

本发明涉及一种基于轻量流式网络和注意力机制的表情识别方法，包括以下步骤：步骤S1：获取表情图像数据集，并预处理；步骤S2:构建包含注意力机制的轻量流式网络，并在网络的最后通过交叉熵损失函数进行分类；步骤S3根据预处理后的表情图像数据集训练包含注意力机制的轻量流式网络；步骤S4:将待测图像数据输入训练后的包含注意力机制的轻量流式网络，得到识别结果。本发明能够有效地对表情图像进行分类，提升了表情图像分类的效果。

Description

基于轻量流式网络和注意力机制的表情识别方法

技术领域

本发明涉及模式识别与计算机视觉领域,具体涉及一种基于轻量流式网络和注意力机制的表情识别方法。

背景技术

随着信息科技和现代社会的高速发展，人工智能技术已经渗透到了社会生活的各个细枝末节，例如智能翻译、智能音箱、智能识别等技术。人类作为信息社

会价值交换的主体，对自身行为的智能分析和研究应用在当今社会条件下显得尤

为重要，人类的面部作为人类身体部位上传达信息最为丰富的区域，更是科学家

们研究的重中之重。除了目前已经被作为生物密码的人脸识别之外，人脸的面部表情也是人类面部可以传达出的重要信息，人脸面部的表情表达通常比语言的表达更具感染力和表现力，而且来自于表情的情感表达历史远远早于语言的兴起。自动的面部表情识别在社交机器人、情感计算和医药医疗领域都有着十分重要的研究意义。因此，近年来人们提出了许多利用计算机视觉和机器学习算法来实现表情自动识别的工作。

发明内容

有鉴于此，本发明的目的在于提供一种基于轻量流式网络和注意力机制的表情识别方法，能够有效地微表情图像进行分类。

为实现上述目的，本发明采用如下技术方案：

一种基于轻量流式网络和注意力机制的表情识别方法，包括以下步骤：

步骤S1：获取表情图像数据集，并预处理；

步骤S2：构建包含注意力机制的轻量流式网络，根据预处理后的表情图像数据集训练包含注意力机制的轻量流式网络；

步骤S3：在网络的最后，通过交叉熵损失函数进行分类；

步骤S4：将待测图像数据输入训练后的包含注意力机制的轻量流式网络，得到识别结果。

进一步的，所述步骤S1具体为：

步骤S11：获取表情图像数据集，并使用级联卷积神经网络进行人脸对齐；

步骤S12：根据步骤S11处理后得到人脸对齐之后的图像，然后进图像进行灰度归一化；

步骤S13：采用增强操作，对归一化后的图像数据进行数据增强，得到预处理后的表情图像数据集。

进一步的，所述级联卷积神经网络包含若干阶段，每个阶段都包含前一阶段的输出作为输入，输出偏置，加上偏置并摆正人脸关键点和输入图，用输出的点生成热力图、最后一层卷积输出的特征图以及摆正后的原图作为下一个阶段的输入，具体的：

第一级的输入是一张人脸的原始图像I，将面部关键点初始化为S⁰，S⁰由所有关键点取平均得到，经过卷积神经网络后加上平均形状S⁰，得到该级的形状估计S¹；

在第二级中，首先利用S⁰对人脸原始图像I和S¹进行矫正变化，即计算S¹相对于S⁰的仿射矩阵并作用与二者之上，得到矫正后的人脸图像I'和形状S¹'，并根据S¹'生成关键点热力图M'；

之后的级联都可以看作是第二级模块的堆叠，即将上一级的全连接层，输出的关键点人力图和校正后的人脸图像作为输入，输出该级的估计。

进一步的，所述图像归一化具体为：

其中V_before表示转换前的值，V_after表示转换后的值，MinValue表示样本的最小值，MaxValue表示样本的最大值。

进一步的，所述增强操作具体为：

将图像的随机区域进行剪裁，然后将剪裁出的部分调整为灰度归一化后的大小；

以预设概率对灰度归一化后的图像进行水平翻转；

对灰度归一化后图像进行顺时针或者逆时针的旋转；

在图像中随机加入预设的噪声。

进一步的，所述轻量流式网络构建，具体为：基于MobileNetV2基本块和shuffleNet基本块构建轻量流式网络中的基本构建块，堆叠构成轻量流式网络的主体；在轻量流式网络中加入注意力机制模块；并引入一个流式模块来替代全局平均池化的操作。

进一步的，所述基于MobileNetV2基本块和shuffleNet基本块构建轻量流式网络中的基本构建块具体为：

所述MobileNetV2基本块Inverted Residual Block先使用一个1×1的卷积进行维度的扩张，再使用深度可分离卷积进行特征的提取，最后再使用一个1×1的卷积进行降维；

所述ShuffleNet的构建形式为一个步长为2的基本单元，该基本单元在左侧增加了一个平均池化的操作，平均池化的操作能够嵌入多尺度的信息并且聚合不同感受野的特征，通过3×3的卷积使得左右两个分支的输出形状相同；

所述轻量流式网络的基本单元，借鉴上述MobileNetV2基本块和shuffleNet的基本单，在shortcut部分增加3×3的平均池化操作和1×1的卷积操作。

进一步的，所述注意力机制模块包括通道模块的注意力模块和空间模块的注意力模块；

所述通道注意力模块，输入是一个H×W×C的特征F，先分别进行一个空间的全局平均池化和最大池化得到两个1×1×C的通道描述；接着，再将它们分别送入一个两层的神经网络，第一层激活函数为Relu，第二层神经元个数为C；然后，再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重系数Mc；最后，拿权重系数和原来的特征F相乘即可得到缩放后的新特征；

所述空间注意力模块，给定一个H×W×C的特征F'，先分别进行一个通道维度的平均池化和最大池化得到两个H×W×1的通道描述，并将这两个描述按照通道拼接在一起；然后经过一个7×7的卷积层，激活函数为Sigmoid，得到权重系数Ms；最后拿权重系数和特征F'相乘即可得到缩放后的新特征。

进一步的，所述交叉熵损失函数计算公式如下：

其中

表示第i个样本标签为1的概率，y⁽ⁱ⁾表示第i个样本标签不为1的概率，Loss表示损失山函数最终的值。

将待测图像数据输入训练后的包含注意力机制的轻量流式网络，得到识别结果。

本发明与现有技术相比具有以下有益效果：

1、本发明能够有效地对表情图像进行分类，提升了表情图像分类的效果。

2、本发明通过引入流式模块，相比传统全局平均池化方法，对人脸相关的任务效果更具鲁棒性，性能更佳。

3、本发明可以在较小的参数代价和计算量下完成一个可用于宏表情识别的轻量模型。

附图说明

图1是本发明方法流程图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图1，本发明提供一种基于轻量流式网络和注意力机制的表情识别方法，包括以下步骤：

步骤S1：获取表情图像数据集，并进行人脸对齐、人脸归一化、数据增强等预处理；

步骤S2:构建包含注意力机制的轻量流式网络，根据预处理后的表情图像数据集训练包含注意力机制的轻量流式网络；

步骤S3:在网络的最后，通过交叉熵损失函数进行分类；

步骤S4:将待测图像数据输入训练后的包含注意力机制的轻量流式网络，得到识别结果。

在本实施例中，步骤S1具体为：

获取表情数据集，使用级联卷积神经网络进行人脸对齐，级联卷积神经网络包含多个阶段，每个阶段都包含前一阶段的输出作为输入，输出偏置，加上偏执并摆正人脸关键点和输入图，用输出的点生成热力图、最后一层卷积输出的特征图以及摆正后的原图作为下一个阶段的输入，通过这种手段不断地修正，以达到鲁棒性的效果；

优选的，第一级的输入是一张人脸的原始图像I，将面部关键点初始化为S⁰，S⁰由所有关键点取平均得到，经过卷积神经网络后加上平均形状S⁰，得到该级的形状估计S¹；

在第二级中，首先利用S⁰对人脸原始图像I和S¹进行矫正变化，即计算S¹相对于S⁰的仿射矩阵并作用与二者之上，得到矫正后的人脸图像I'和形状S^1'，并根据S^1'生成关键点热力图M'。

之后的级联都可以看作是第二级模块的堆叠，即将上一级的全连接层，输出的关键点人力图和校正后的人脸图像作为输入，输出该级的估计。初次之外级联卷积神经网络的每一级采用的网络结构都是一样的，即为VGG16的迷你版本，各级的输入是112×112的灰度图，输出的是1×136的关键点坐标。

步骤S12:根据步骤S11处理后得到人脸对齐之后的图像，然后进图像进行灰度归一化，使其像素的灰度值分布在0到255之间，避免图像对比度不足，即图像像素亮度分布不平衡对后续表情识别带来的干扰。图像归一化的原理为：

步骤S13:采用增强操作，对归一化后的图像数据进行数据夸大，得到预处理后的表情图像数据集。例如翻转，旋转，切割等，上述操作称为数据增强。数据增强操作另一大好处是扩大数据库的数据量，使得训练的网络鲁棒性更强。在训练阶段使用到的数据增强方法有：剪裁，将图像的随机区域进行剪裁，然后将剪裁出的部分调整为灰度归一化后的大小；翻转，以0.5的概率对灰度归一化后的图像进行水平翻转；旋转，对灰度归一化后图像进行顺时针或者逆时针的旋转，旋转度为5度；高斯噪声，在图像中随机加入少量的噪声，引入噪声数据能够去除高频特征有效防止过拟合。

在测试阶段，采用一种集成的方法来减少异常值。将图片在左上角，左下角，右上角，右下角，中心进行切割和并做镜像操作，这样的操作使得数据库扩大了10倍，再将这10张图片送入模型。然后将得到的概率取平均，最大的输出分类即为对应表情，这种方法有效地降低了分类错误。

在本实施例中，轻量流式网络构建，具体为：

设计轻量流式网络中的基本构建块，堆叠构成轻量流式网络的主体。基本构建块主要借鉴了MobileNetV2基本块和shuffleNet基本块的思想，ResNe中一个基本构建块BottleNeck，因为中间3×3的空间卷参数的计算量很大，所以其主要通过首端和尾端1×1的卷积降维通道和恢复通道的方式来减少计算量，MobileNetV2基本块Inverted ResidualBlock先使用一个1×1的卷积进行维度的扩张，再使用深度可分离卷积进行特征的提取，最后再使用一个1×1的卷积进行降维，因为引入的深度可分离卷积有效地减少了参数的计算量，所以即使提升了维度仍然不会带来太大参数计算，反而在提升维度之后能够获得更多特征。ShuffleNet的构建形式为一个步长为2的基本单元，该基本单元在左侧增加了一个平均池化的操作，平均池化的操作能够嵌入多尺度的信息并且聚合不同感受野的特征，通过3×3的卷积使得左右两个分支的输出形状相同。借鉴上述MobileNetV2基本块和shuffleNet的基本单元构建轻量流式网络的基本单元，通过结合两种轻量架构的优点，在shortcut部分增加3×3的平均池化操作和1×1的卷积操作，有效地降低了网络的计算量和参数大小，扩大了参数的尺寸；

设计流式模块：虽然全局平均池化的操作拥有良好的降维和防止网络过拟合的能力，被用在很多先进的深度神经网络中，但是在一些人脸相关的问题上，拥有全局平均池化操作的网络通常表现地比那些没有全局平均池化的网络要差。本专利中在网络的最后引入一个流式模块来替代全局平均池化的操作，在不引入更多参数的情况下使得网络能够更加适用于人脸相关的任务。在流式模块的前部有一个步长大于1的深度可分离卷积用于下采样，接着再进行一个1×1的卷积操作，该卷积之后跟一个拉平的操作，将结果展平成一个一维向量。通过该模块就能有效避免全局平均池化带来的相同权重问题，同时与常规的卷积操作相比，有效减少了参数数量和运算成本；

在本实施例中，在轻量流式网络中加入注意力机制模块。该注意力机制模块是一种轻量级的通用模块，主要包含两部分的注意力，分别为通道模块的注意力和空间模块的注意力。

对于通道注意力模块，输入是一个H×W×C的特征F，我们先分别进行一个空间的全局平均池化和最大池化得到两个1×1×C的通道描述。接着，再将它们分别送入一个两层的神经网络，第一层激活函数为Relu，第二层神经元个数为C。然后，再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重系数Mc。最后，拿权重系数和原来的特征F相乘即可得到缩放后的新特征。

对于空间注意力模块，给定一个H×W×C的特征F'，我们先分别进行一个通道维度的平均池化和最大池化得到两个H×W×1的通道描述，并将这两个描述按照通道拼接在一起。然后经过一个7×7的卷积层，激活函数为Sigmoid，得到权重系数Ms。最后拿权重系数和特征F'相乘即可得到缩放后的新特征；

在本实施中，所述交叉熵损失函数计算公式如下：

其中

最后，将待测图像数据输入训练后的包含注意力机制的轻量流式网络，得到识别结果。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于轻量流式网络和注意力机制的表情识别方法，其特征在于，包括以下步骤：

步骤S1：获取表情图像数据集，并预处理；

步骤S3：在网络的最后，通过交叉熵损失函数进行分类；

2.根据权利要求1所述的基于轻量流式网络和注意力机制的表情识别方法，其特征在于，所述步骤S1具体为：

3.根据权利要求2所述的基于轻量流式网络和注意力机制的表情识别方法，其特征在于，所述级联卷积神经网络包含若干阶段，每个阶段都包含前一阶段的输出作为输入，输出偏置，加上偏置并摆正人脸关键点和输入图，用输出的点生成热力图、最后一层卷积输出的特征图以及摆正后的原图作为下一个阶段的输入，具体的：

在第二级中，首先利用S⁰对人脸原始图像I和S¹进行矫正变化，即计算S¹相对于S⁰的仿射矩阵并作用与二者之上，得到矫正后的人脸图像I'和形状S^1'，并根据S^1'生成关键点热力图M'；

4.根据权利要求2所述的基于轻量流式网络和注意力机制的表情识别方法，其特征在于，所述图像归一化具体为：

5.根据权利要求2所述的基于轻量流式网络和注意力机制的表情识别方法，其特征在于，所述增强操作具体为：

以预设概率对灰度归一化后的图像进行水平翻转；

对灰度归一化后图像进行顺时针或者逆时针的旋转；

在图像中随机加入预设的噪声。

6.根据权利要求1所述的基于轻量流式网络和注意力机制的表情识别方法，其特征在于，所述轻量流式网络构建，具体为：基于MobileNetV2基本块和shuffleNet基本块构建轻量流式网络中的基本构建块，堆叠构成轻量流式网络的主体；在轻量流式网络中加入注意力机制模块；并引入一个流式模块来替代全局平均池化的操作。

7.根据权利要求6所述的基于轻量流式网络和注意力机制的表情识别方法，其特征在于，所述基于MobileNetV2基本块和shuffleNet基本块构建轻量流式网络中的基本构建块具体为：

8.根据权利要求6所述的基于轻量流式网络和注意力机制的表情识别方法，其特征在于，所述注意力机制模块包括通道模块的注意力模块和空间模块的注意力模块；

9.根据权利要求1所述的基于轻量流式网络和注意力机制的表情识别方法，其特征在于，所述交叉熵损失函数计算公式如下：

其中