CN109583406A

CN109583406A - 基于特征关注机制的人脸表情识别方法

Info

Publication number: CN109583406A
Application number: CN201811489068.5A
Authority: CN
Inventors: 胡海峰; 陈奕臻
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-12-06
Filing date: 2018-12-06
Publication date: 2019-04-05
Anticipated expiration: 2038-12-06
Also published as: CN109583406B

Abstract

本发明提出一种基于特征关注机制的人脸表情识别方法，包括以下步骤：收集数据集并进行预处理；输入特征提取模块中，输出特征图并复制；将复制的特征图输入特征关注模块中，输出关注图；将关注图和原特征图进行相乘，得到关注特征图，并计算L1范数损失；将关注特征图输入分类器中输出表情标签，并计算分类损失；计算损失函数，并更新优化模型的参数值；重复上述步骤至模型参数收敛；将待识别图片输入特征提取模块，输出特征图并复制，将复制的特征图输入特征关注模块中，输出关注图，将关注图和原特征图进行相乘，得到关注特征图，最后将关注特征图输入分类器中输出表情标签，即完成表情的识别。本发明具有较强鲁棒性，能有效提升表情识别效果。

Description

基于特征关注机制的人脸表情识别方法

技术领域

本发明涉及计算机视觉识别技术领域，更具体地，涉及一种基于特征关注机制的人脸表情识别方法。

背景技术

作为人脸识别中的一个重要分支，表情识别也在越来越多的学者关注下蓬勃发展，现今大多应用于多媒体、监控、安全驾驶等人机交互的场景。传统的表情识别方法一般是先通过一些数学方法提取表情图像的几何特征，包括LBP、LDP等，再根据所提取的几何特征进行分类。但是，由于通过数学方法提取的几何特征通常不具有较强的鲁棒性，对旋转、光照等干扰因素都比较敏感，所以传统的表情识别模型的性能都不能满足高表情识别准确率的要求。

随着深度学习逐渐成为近年来的研究热点，深度网络能够提取具有较强鲁棒性的图像非线性特征，从而可以对图像进行精准的分类。有研究证明深度网络的深度、宽度都会影响网络的性能，而且更深、更宽的网络能够进一步地提高深度网络在图像分类上的性能。因此可以看出，深度网络在表情识别领域中逐渐成为了主流的人脸表情识别方法。但是相比一般的图像分类，对人脸表情图片的表情进行分类的类别是较少的，一般为6～8类，因此并不需要太深的网络。而关注机制也是近几年的研究热点，它提出图片中每个像素点对分类结果的影响是不同的，这一观点改变了网络应该平等对待每个像素的传统思路。就表情识别而言，一般根据人脸的某些关键的特殊部位，如嘴角、眼睛、眉头等就能判断其表情，而不需要过多关注其他的与表情相关性较低的部位。然而，现有的基于关注机制的人脸表情识别方法尚未成熟，对人脸表情识别分类的效果还需进一步提高。

发明内容

本发明为克服上述现有技术所述的人脸表情分类效果不好等至少一种缺陷，提供一种基于特征关注机制的人脸表情识别方法，有效提高对人脸表情识别分类能力，同时具有较强的鲁棒性。

为解决上述技术问题，本发明的技术方案如下：

基于特征关注机制的人脸表情识别方法，包括以下步骤：

S1：从公开表情数据集以及真实环境下采集的表情图片中收集数据集，对数据集中的图片进行预处理；

S2：将数据集中任意一张图片输入特征提取模块中，输出特征图并对其进行复制；

S3：将复制的特征图输入特征关注模块中，输出相应的关注图；

S4：将所述关注图和原特征图进行相乘，得到关注特征图，并计算关注图与全零矩阵之间的L1范数距离；

S5：将关注特征图输入分类器中输出表情标签，并计算分类损失；

S6：计算损失函数，并利用随机梯度下降算法更新特征提取模块、特征关注模块和分类器的参数值；

S7：重复S2～S6步骤，对特征提取模块、特征关注模块和分类器进行训练及参数值更新至模型参数收敛；

S8：将待识别的表情图片输入特征提取模块中，输出特征图并对其进行复制，然后将复制的特征图输入特征关注模块中，输出相应的关注图，将所述关注图和原特征图进行相乘，得到关注特征图，最后将关注特征图输入分类器中输出表情标签，即完成表情的识别。

本技术方案提出一种基于特征关注机制的人脸表情识别方法，通过构建和训练特征提取模块、特征关注模块和分类器，构建基于特征关注机制的人脸表情识别模型。其中所采集的数据集来自多个不同的公开表情数据集以及真实环境下采集的表情图片，使数据集中的图片之间存在差异性；建立特征提取模块对输入图片进行特征提取，引用特征关注模块，并采用多尺度特征融合的方法得到关注特征图，对图片的深度特征进行逐像素关注；计算计算关注图与全零矩阵之间的L1范数距离，使得特征关注模块得到的关注图是尽量“稀疏”的，即权值较大的像素点更多地集中在某个区域，而不是分开的。当每一个训练图片通过模型后，通过计算损失函数，进一步优化模型。完成模型建立后即可输入待识别的人脸表情图片，依次通过特征提取模块、特征关注模块和分类器完成表情识别。本技术方案通过训练数据来源的丰富性提升模型对复杂环境的处理能力，同时通过引用关注机制提高深度特征与表情的相关性，提升了模型对表情的识别能力和识别效果。

优选地，S1步骤中的预处理包括对数据集中的图片进行裁剪、去噪和阈值处理，并对数据集中的图片进行表情标签标记，使图片的特征分布尽量相似，从而提高识别效果。

优选地，S2步骤中的特征提取模块采用ResNet50的结构，特征提取模块依次设置有一个卷积层、一个步长为2的池化层和四个相连的残差模块；所述残差模块包括有若干个基本残差连接单元，所述残差连接单元包括主分支和副分支，主分支包括有卷积核大小为1×1、3×3、1×1的三层卷积层，副分支用于连接每个残差连接单元的输入和输出。当输入通道数不同时，需要利用副分支1×1的卷积核进行修改匹配，且该特征提取网络结构由一系列的残差模块组成，能够有效缓解随网络深度增加带来的梯度消失。

优选地，S3步骤中的特征关注模块包括三个并联的卷积层，其中第一个卷积层的卷积核大小为7×7，卷积操作的步长为1，填充为3；第二个卷积层的卷积核大小为5×5，卷积操作的步长为1，填充为2；第三个卷积层的卷积核大小为3×3，卷积操作的步长为1，填充为1，该特征关注模块中的三个卷积层均可使输出的特征图大小与输入的特征图大小相同。

优选地，S3步骤的具体步骤如下：将S2步骤输出的特征图分别输入特征关注模块中并联设置的三个卷积层，分别得到三个大小相同的关注图，将这三个关注图进行逐像素相加得到最终输出的关注图。

优选地，S4步骤中的L1范数距离的计算公式如下：

L₁＝||A-Z||₁，

其中A为关注图，Z为相同大小的全零矩阵。

优选地，S5步骤中的分类器包括两个全连接层，其中第一个全连接层输出的特征通道数为1024，第二个全连接层输出的通道数为人为设定的表情的类别数目。

优选地，S5步骤中的分类损失通过计算分类器输出的表情标签和输入图片的标记标签之间的交叉熵损失得到，其计算公式如下：

其中yⁱ为输入图片的标记标签，为分类器输出的表情标签，K为人为设定的表情类别数目。

优选地，S6步骤中的损失函数由L1范数距离和分类损失加权求和计算得到，其计算公式如下：

L＝L_c+λL₁，

其中λ为数值为0～1的权重值，用于平衡L1约束损失和分类损失。

与现有技术相比，本发明技术方案的有益效果是：提高了深度特征与表情的相关性，具有较强的鲁棒性，显著提高了图片中深度特征与表情的相关性，从而提升了对多干扰因素人脸表情图片的处理能力以及处理效果。

附图说明

图1为本实施例的基于特征关注机制的人脸表情识别方法的流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

如图1所示，为本实施例的基于特征关注机制的人脸表情识别方法的流程图。

本实施例为将数据集的图片统一处理为224×224大小规格的图片，并进行表情分类，设定分类器的输出通道数，即表情的类别数目为7。本实施例的流程如下：

步骤一：从公开表情数据集以及真实环境下采集的表情图片中收集数据集，对数据集中的图片进行预处理。

本步骤通过选定某几类特定的表情，从多个数据集中进行采集，同时也从真实环境中收集对应的表情图片，并将收集好的图片经过去噪、阈值处理、裁剪等处理后，对数据集中的图片人工进行表情标签标记。

步骤二：将数据集中任意一张图片输入特征提取模块中，输出特征图并进行复制。

本步骤中的特征提取模块采用ResNet50的结构，依次设置有一个卷积层、一个步长为2的池化层和四个相连的残差模块，其中残差模块包括有若干个基本残差连接单元，残差连接单元包括主分支和副分支，主分支包括有卷积核大小为1×1，3×3，1×1的三层卷积层，副分支连接每个残差连接单元的输入和输出，当输入通道数不同时，可以利用1×1的卷积核进行修改匹配。

其具体的实施流程如下：

S2.1：将步骤一中数据集的任意图片以mini-batch的形式输入特征模块中的第一个卷积层中，得到大小为112×112的特征；

S2.2：输入步长为2的池化层，得到56×56的特征；

S2.3：输入四个相连的残差模块，其中四个相连的残差模块分别包含了3，4，6，3个残差连接单元，经过四个残差模块后，输出大小为7×7的表情特征，并对输出的特征图进行复制。

步骤三：将复制的特征图输入特征关注模块中，输出相应的关注图。

本步骤中的特征关注模块采用多尺度特征融合的方法输出相应的关注图，在特征关注过程中采用对深度特征进行逐像素关注。具体地，特征关注模块包括三个并联的卷积层，其中第一个卷积层的卷积核大小为7×7，卷积操作的步长为1，填充为3；第二个卷积层的卷积核大小为5×5，卷积操作的步长为1，填充为2；第三个卷积层的卷积核大小为3×3，卷积操作的步长为1，填充为1。

其具体的实施流程如下：

将S2.3步骤输出的大小为7×7的表情特征分别通过并联设置的三个卷积层，得到了三个大小仍为7×7的关注图，将这三个关注图进行逐像素的相加得到特征关注模块最终输出的关注图，其大小为7×7。

步骤四：将关注图和原特征图进行相乘，得到关注特征图，并计算关注图与全零矩阵之间的L1范数距离，得到特征关注模块的L1范数损失。本步骤中将关注图和原特征图进行相乘，具体是通过一个1×1的卷积层实现相乘，得到关注特征图。

本步骤中的L1范数距离的计算公式如下：

L₁＝||A-Z||₁，

其中A为关注图，Z为相同大小的全零矩阵。

步骤五：将关注特征图输入分类器中进行表情分类，输出表情标签，并计算分类损失。

本步骤中的分类器包括两个全连接层，其中第一个全连接层输出的特征通道数为1024，第二个全连接层输出的通道数为为人为设定的表情的类别数目，本实施例中第二个全连接层输出的通道数设定为7。具体地，将关注特征图输入模型的分类器中输出表情标签，得到分类结果，然后计算分类器输出的表情标签和输入图片的标记标签之间的交叉熵损失，得到分类损失。其中，分类损失的具体计算公式如下：

其中yⁱ为输入图片的标记标签，为分类器输出的表情标签，K为人为设定的表情类别数目，本实施例中的K设定为7。

步骤六：计算损失函数，并利用随机梯度下降算法更新特征提取模块、特征关注模块和分类器的参数值。

本步骤中的损失函数由特征关注模块的L1范数损失和分类损失加权求和得到，然后利用反向传播计算模型参数的梯度值，利用随机梯度下降算法更新模型参数值，从而对模型参数进行优化。其中，损失函数的计算公式如下：

L＝L_c+λL₁，

其中λ为权重值，用于平衡L1约束损失和分类损失，本实施例中的λ设定为0.1。

步骤七：重复步骤二～六，对模型中的特征提取模块、特征关注模块和分类器进行训练，并对各个模块的参数值进行更新至模型的参数值收敛。此时即完成基于特征关注机制的人脸表情识别模型的训练。

步骤八：将待识别的表情图片输入模型中，依次通过完成训练的特征提取模块、特征关注模块和分类器，最终输出表情标签。

本步骤的具体实施过程如下：将待识别的表情图片输入特征提取模块中，输出特征图并对其进行复制，然后将复制的特征图输入特征关注模块中，输出相应的关注图，再将关注图和原特征图进行相乘，得到关注特征图，最后将关注特征图输入分类器中进行表情分类，最终输出表情标签，即表情分类结果，完成人脸表情识别。

本实施例中的基于特征关注机制的人脸表情识别方法，通过训练数据来源的丰富性提升模型对复杂环境的处理能力，而且通过引用特征关注机制，显著提高了深度特征与表情的相关性，提高了对表情的识别能力，且具有较强的鲁棒性，能满足现有需求对于表情识别准确率的要求。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.基于特征关注机制的人脸表情识别方法，其特征在于，包括以下步骤：

S6：计算损失函数，利用随机梯度下降算法更新特征提取模块、特征关注模块和分类器的参数值；

2.根据权利要求1所述的基于特征关注机制的人脸表情识别方法，其特征在于：所述S1步骤中的预处理包括对数据集中的图片进行裁剪、去噪和阈值处理，并对数据集中的图片进行表情标签标记。

3.根据权利要求2所述的基于特征关注机制的人脸表情识别方法，其特征在于：所述S2步骤中的特征提取模块采用ResNet50的结构，所述特征提取模块依次设置有一个卷积层、一个步长为2的池化层和四个相连的残差模块；所述残差模块包括有若干个基本残差连接单元，所述残差连接单元包括主分支和副分支，所述主分支包括有卷积核大小为1×1、3×3、1×1的三层卷积层，所述副分支用于连接每个残差连接单元的输入和输出。

4.根据权利要求3所述的基于特征关注机制的人脸表情识别方法，其特征在于：所述S3步骤中的特征关注模块包括三个并联的卷积层，其中第一个卷积层的卷积核大小为7×7，卷积操作的步长为1，填充为3；第二个卷积层的卷积核大小为5×5，卷积操作的步长为1，填充为2；第三个卷积层的卷积核大小为3×3，卷积操作的步长为1，填充为1。

5.根据权利要求4所述的基于特征关注机制的人脸表情识别方法，其特征在于：所述S3步骤的具体步骤如下：将S2步骤输出的特征图分别输入特征关注模块中并联设置的三个卷积层，分别得到三个大小相同的关注图，将这三个关注图进行逐像素相加得到最后输出的关注图。

6.根据权利要求2所述的基于特征关注机制的人脸表情识别方法，其特征在于：所述S4步骤中的L1范数距离的计算公式如下：

L₁＝||A-Z||₁，

其中A为关注图，Z为相同大小的全零矩阵。

7.根据权利要求6所述的基于特征关注机制的人脸表情识别方法，其特征在于：所述S5步骤中的分类器包括两个全连接层，其中第一个全连接层输出的特征通道数为1024，第二个全连接层输出的通道数为人为设定的表情的类别数目。

8.根据权利要求7所述的基于特征关注机制的人脸表情识别方法，其特征在于：所述S5步骤中的分类损失通过计算分类器输出的表情标签和输入图片的标记标签之间的交叉熵损失得到，其计算公式如下：

9.根据权利要求8所述的基于特征关注机制的人脸表情识别方法，其特征在于：所述S6步骤中的损失函数由L1范数距离和分类损失加权求和计算得到，其计算公式如下：

L＝L_c+λL₁，