CN111563417A

CN111563417A - 一种基于金字塔结构卷积神经网络的人脸表情识别方法

Info

Publication number: CN111563417A
Application number: CN202010284959.8A
Authority: CN
Inventors: 邓楚婕; 丁长兴; 李新鹏
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-04-13
Filing date: 2020-04-13
Publication date: 2020-08-21
Anticipated expiration: 2040-04-13
Also published as: CN111563417B

Abstract

本发明涉及一种基于金字塔结构卷积神经网络的人脸表情识别方法，包括：S1，获取图像数据集并构建图像数据列表；S2，对图像数据集中的原始图片进行人脸识别得到人脸框位置信息、关键点位置信息和仅包含面部的参考人脸数据，所述关键点包括鼻子、眼睛和嘴巴；S3，利用关键点位置信息对仅包含面部的参考人脸数据进行预处理，同时利用关键点位置信息作为先验合成手动掩码；S4，将手动掩码和自动掩码结合后赋予特征图不同区域以相应权重，输出优化后的特征。本发明中手动注意力模型与自动注意力模型相结合，更加注重表情细节特征，这样能解决了表情类别相近、表情强度低导致识别率低的问题，使微弱表情、易混淆表情识别的准确率更加高。

Description

一种基于金字塔结构卷积神经网络的人脸表情识别方法

技术领域

本发明涉及图像处理与识别技术领域，特别是涉及一种基于金字塔结构卷积神经网络的人脸表情识别方法。

背景技术

人脸表情是表达人们情感的一种有效方式。表情是一门世界语言，不分国界、种族以及性别，可以说是所有人都有着通用的表情。人脸表情识别在机器人、医疗、驾驶员驾驶疲劳检测和人机交互系统中都有广泛应用，最早在20世纪，Ekman和Friesen通过跨文化研究，定义了6种基础表情：生气、害怕、厌恶、开心、悲伤和吃惊，随后又加入了“蔑视”这一表情。生气、开心和吃惊相对来说容易区分。害怕、厌恶和悲伤这三种表情本身会有许多的相似，现有的表情识别系统对表情类别相近、表情强度低的问题没有很好的解决方法。现有的表情识别系统不容易将害怕、厌恶和悲伤区分开来，导致错分率很高，平均准确率低下；与此同时，不同图像中，人脸表情强度也不同，现有的表情识别系统识别强度低或是微弱表情图片能识别力不强，这局限了人脸表情识别的发展。

发明内容

针对现有技术存在的表情类别相近、表情强度低导致的识别率低的问题，本发明提供一种基于金字塔结构卷积神经网络的人脸表情识别方法。

本申请的具体方案如下：

一种基于金字塔结构卷积神经网络的人脸表情识别方法，包括：

S1，获取图像数据集并构建图像数据列表，所述图像数据列表包括图片路径以及表情类别标识；

S2，对图像数据集中的原始图片进行人脸识别得到人脸框位置信息、关键点位置信息和仅包含面部的参考人脸数据，所述关键点包括鼻子、眼睛和嘴巴；

S3，利用关键点位置信息对仅包含面部的参考人脸数据进行预处理，同时利用关键点位置信息作为先验合成手动掩码；

S4，将预处理后的参考人脸数据输入预先训练好的神经网络中得到特征图，将预处理后的参考人脸数据输入CBAM卷积块注意模块得到自动掩码，将手动掩码和自动掩码结合后赋予特征图不同区域以相应权重，输出优化后的特征；其中优化后的特征包括关键点所在位置特征、面部关键区域特征和完整人脸图像特征；

S5，依次利用关键点所在位置特征、面部关键区域特征、完整人脸图像特征对表情进行分类，形成金字塔结构的卷积神经网络，融合分类结果得到最终表情类别。步骤S5中分类器是属于金字塔结构的神经网络的一部分。

优选地，步骤S2包括：通过人脸识别算法定位原始图片中的人脸框位置，裁剪出仅包含面部的图片，并且获取人脸关键点位置。

优选地，步骤S2还包括：通过人脸识别算法检测原始图片中的人脸框，若检测出原始图片中不存在人脸框，则跳过并且忽略图像数据列表中此原始图片信息；若检测出原始图片中存在一个人脸框，则裁剪出人脸框内的参考人脸数据，保留关键点位置信息；若检测出原始图片中存在N个人脸框，则裁剪出人脸面积最大的人脸框内的参考人脸数据，保留对应人脸的关键点位置信息，N≥2。

优选地，利用关键点位置信息对仅包含面部的参考人脸数据进行预处理包括：将人脸识别所得关键点坐标信息和参考人脸数据进行非反射性仿射变换，使得参考人脸数据位置与预设位置一致，实现人脸图像对齐，保证训练中人脸相同部分会落在同一个位置；其中预设位置为根据经验预先设定的包括眼睛、鼻子、嘴巴在内的5个关键点坐标位置。

优选地，利用关键点位置信息作为先验合成手动掩码包括：利用关键点位置信息生成高斯分布图，将高斯分布图作为空间注意力手动掩码；其中关键点位置的权值大小符合高斯分布：

其中μ为均值，σ为方差，x为随机变量。

优选地，步骤S4中的将预处理后的参考人脸数据输入CBAM卷积块注意模块得到自动掩码包括：所述CBAM卷积块注意模块利用特征图的空间关系，映射得到空间注意力自动掩码；其中特征图有四个维度：样本、通道、高度、宽度，在通道维度上对特征图运用平均值池化和最大值池化，有效地压缩输入特征图的空间维数和保留特征图的重要信息，将两个池化得到的特征图输入一系列卷积层，产生空间注意力自动掩码，加强面部重点区域的纹理特征信息权重。

优选地，步骤S5中的利用关键点所在位置特征对表情进行分类包括：根据人脸识别得到的51个面部关键点位置信息，在神经网络输出的特征图上取出与51个关键点坐标对应的特征柱，根据关键点处的特征直接对表情进行分类。

优选地，步骤S5中的利用关键点所在位置特征对表情进行分类还包括：人脸识别中输出包括轮廓在内的68个关键点，将轮廓信息剔除后，保留仅包含眼、眉、鼻、嘴在内的51个关键点坐标；输入图像大小为224x224，输出特征图大小为14x14，将坐标信息按比例缩小后对应到特征图相应的位置，采取双线性差值的方式得到该位置上的特征柱。

优选地，步骤S5中的利用面部关键区域特征对表情进行分类包括：根据人脸识别所得的面部关关键点坐标，确定面部眼睛、嘴巴和左右脸颊区域坐标，根据四个区域特征直接对表情进行分类；输入图像大小为224x224，输出特征图大小为14x14，坐标按比例缩放得到输出特征中相对应位置，分别利用眼睛、嘴巴和左右脸颊坐标提取出区域特征。

优选地，所述预先训练好的神经网络为用MS-Celeb-1M数据集预训练的ResNet34深度神经网络。

与现有技术相比，本发明具有如下有益效果：

(1)本发明提出一种基于金字塔结构卷积神经网络的人脸表情识别方法，系统中手动注意力模型与自动注意力模型相结合，更加有侧重的学习人脸表情特征，更加注重表情细节特征，这样能解决了表情类别相近、表情强度低导致识别率低的问题，使微弱表情、易混淆表情识别的准确率更加高。

(2)本发明从点状(关键点所在位置特征)、块状(面部关键区域特征)、面状(完整人脸图像特征)这三个方面进行表情分类，点状注重捕捉关键点产生的表情特征，块状注重学习不同面部区域块的表情特征变化，面状着重学习完整表情特征表达，由点到面，从小到大系统地针对不同表情的不同特征进行学习和判别。

附图说明

图1为本发明的基于金字塔结构卷积神经网络的人脸表情识别方法的流程示意性图。

图2为本实施例的基于金字塔结构卷积神经网络的人脸表情识别方法的结构示意图。

图3为本实施例的基于金字塔结构卷积神经网络的人脸表情识别方法的数据列表示意图。

图4(a)为本实施例的基于金字塔结构卷积神经网络的人脸表情识别方法的人脸参考人脸数据示意图。

图4(b)为本实施例的基于金字塔结构卷积神经网络的人脸表情识别方法的68个关键点示意图。

图4(c)为本实施例的基于金字塔结构卷积神经网络的人脸表情识别方法的面部关键区域划分示意图。

图5(a)为本实施例的基于金字塔结构卷积神经网络的人脸表情识别方法的空间注意力手动掩码图。

图5(b)为本实施例的基于金字塔结构卷积神经网络的人脸表情识别方法的自动掩码图。

图6为本实施例的基于金字塔结构卷积神经网络的人脸表情识别方法的实验结果对比图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

本发明公开的一种基于金字塔结构卷积神经网络的人脸表情识别方法和系统，该方法包括以下步骤：筛选符合标准且公开的表情数据集，通过人脸识别得到仅包含面部的参考人脸数据、人脸框以及关键点；利用关键点进行表情图片(参考人脸数据)预处理，同时利用关键点生成高斯分布图，作为基于关键点的空间注意力手动掩码；将预处理图像输入至预训练的网络得到特征图，其中CBAM注意力卷积模块得到空间注意力自动掩码，手动掩码和自动掩码共同赋予特征图不同区域以相应权重；分别利用关键点所在位置特征、面部关键区域特征、完整人脸图像特征进行表情分类，形成金字塔结构的模型进行人脸表情识别；本发明针对人脸上变化相似、强度微弱的表情，采用具有金字塔结构的卷积神经网络，利用手动掩码和自动掩码结合的空间注意力模型加强有效区域的关注，从点状、块状、面状三个方面特征进行分类，解决了表情类别相近、表情强度低识别率低的问题，使微弱表情、易混淆表情识别的准确率更加高。具体如下：

参见图1-2、一种基于金字塔结构卷积神经网络的人脸表情识别方法，其特征在于，包括：

S1，获取图像数据集并构建图像数据列表，所述图像数据列表包括图片路径以及表情类别标识；表情类别标识为预先设定的用于区别不同类别表情的数字编号；可选地以0为开始且逐渐递增的整数作为区别表情类别的数字标签；如图3所示，数据列表示意图中，每一行对应一个实验数据，前者为图片路径，后面是表情图片类别，用制表符‘\t’作为间隔；

S2，对图像数据集中的原始图片进行人脸识别得到人脸框位置信息、关键点位置信息和仅包含面部的参考人脸数据，所述关键点包括鼻子、眼睛和嘴巴；进一步地，步骤S2包括：通过人脸识别算法定位原始图片中的人脸框位置，裁剪出仅包含面部的图片，并且获取人脸关键点位置。在未经过识别之前，数据包括人脸数据和非人脸数据，本实施例进行的初步清洗工作是剔除非人脸数据。其中人脸检测算法可以采用但不限于Dlib等深度学习方法，Dlib等深度学习方法包括人脸识别、人脸框检测、人脸关键点检测等系列步骤，其中人脸识别可以剔除掉一些非人脸数据。

更进一步地，步骤S2还包括：通过人脸识别算法检测原始图片中的人脸框，若检测出原始图片中不存在人脸框，则跳过并且忽略图像数据列表中此原始图片信息；若检测出原始图片中存在一个人脸框，则裁剪出人脸框内的参考人脸数据，保留关键点位置信息；若检测出原始图片中存在N个人脸框，则裁剪出人脸面积最大的人脸框内的参考人脸数据，保留对应人脸的关键点位置信息，N≥2。

S3，利用关键点位置信息对仅包含面部的参考人脸数据进行预处理，同时利用关键点位置信息作为先验合成手动掩码；手动掩码如图5(a)所示。进一步地，利用关键点位置信息对仅包含面部的参考人脸数据进行预处理包括：将人脸识别所得关键点坐标信息和参考人脸数据进行非反射性仿射变换，使得参考人脸数据位置与预设位置一致，实现人脸图像对齐，保证训练中人脸相同部分会落在同一个位置，便于模型进行快速学习。其中预设位置为根据经验预先设定的包括眼睛、鼻子、嘴巴在内的5个关键点坐标位置。

经过对齐后的面部图像，在每次训练过程中，会通过随机裁剪和均衡上采样的方式，以便增加训练数据量和缓解类别不均衡问题。

利用关键点位置信息作为先验合成手动掩码包括：利用关键点位置信息生成高斯分布图，将高斯分布图作为空间注意力手动掩码；空间注意力手动掩码是代表像素重要性的权值图，以68个人脸关键点位置为坐标中心，各个关键点位置的权值大小符合高斯分布：

其中μ为均值，σ为方差，x为随机变量。

直观意义上，表情所带来的纹理扭曲最主要体现在关键点附近，因此权值在关键点处最大并向外减小，此处选择高斯分布作为权值大小的分布。

在训练过程中，将空间注意力手动掩码与原特征图作点乘，再与原特征图相加，加强面部重点区域的纹理特征信息权重。

S4，将预处理后的参考人脸数据输入预先训练好的神经网络中得到特征图，将预处理后的参考人脸数据输入CBAM卷积块注意模块得到自动掩码，将手动掩码和自动掩码结合后赋予特征图不同区域以相应权重，输出优化后的特征；自动掩码如图5(b)所示。其中优化后的特征包括关键点所在位置特征、面部关键区域特征和完整人脸图像特征；图4(a)、图4(b)和图4(b)分别展示了本实施例的人脸参考人脸数据、68个关键点和面部关键区域划分。

步骤S4中的将预处理后的参考人脸数据输入CBAM卷积块注意模块得到自动掩码包括：所述CBAM卷积块注意模块利用特征图的空间关系，映射得到空间注意力自动掩码；其中特征图有四个维度：样本、通道、高度、宽度，在通道维度上对特征图运用平均值池化和最大值池化，有效地压缩输入特征图的空间维数和保留特征图的重要信息，将两个池化得到的特征图输入一系列卷积层，产生空间注意力自动掩码，加强面部重点区域的纹理特征信息权重。

S5，依次利用关键点所在位置特征、面部关键区域特征、完整人脸图像特征对表情进行分类，形成金字塔结构的卷积神经网络，融合分类结果得到最终表情类别。参见图2，其中步骤S5中的利用关键点所在位置特征对表情进行分类包括：根据人脸识别得到的51个面部关键点位置信息，在神经网络输出的特征图上取出与51个关键点坐标对应的特征柱，根据关键点处的特征直接对表情进行分类。由于表情所带来的纹理扭曲能够在关键点附近体现，所以大胆假设关键点处的特征能用于直接分类，并且可以对微弱、易混淆表情进行有效分类；

步骤S5中的利用关键点所在位置特征对表情进行分类还包括：人脸识别中输出包括轮廓在内的68个关键点，将轮廓信息剔除后，保留仅包含眼、眉、鼻、嘴在内的51个关键点坐标；输入图像(预处理后的参考人脸数据)大小为224x224，输出特征图大小为14x14，将坐标信息按比例缩小后对应到特征图相应的位置，采取双线性差值的方式得到该位置上的特征柱。

步骤S5中的利用面部关键区域特征对表情进行分类包括：根据人脸识别所得的面部关关键点坐标，确定面部眼睛、嘴巴和左右脸颊区域坐标，根据四个区域特征直接对表情进行分类；面部眼睛、嘴巴和左右脸颊区域坐标，是表情发生时面部运动最为明显的区域，同时也是用于判断表情类别最常见的区域；所以大胆假设以上区域特征能用于直接分类，并且可以对微弱、易混淆表情进行有效分类；输入图像大小为224x224，输出特征图大小为14x14，坐标按比例缩放得到输出特征中相对应位置，分别利用眼睛、嘴巴和左右脸颊坐标提取出区域特征。

在本实施例，所述预先训练好的神经网络为用MS-Celeb-1M数据集预训练的ResNet34深度神经网络。

图2为本方案的人脸表情识别方法的结构示意图。如图2所示，经过预处理后的人脸图像，分别输入框1和框2进行操作，输入1的图像利用关键点信息生成手动掩码，按照比例进行缩放，如框1中上半部份；图像进入框2后，卷积层开始学习，第二个卷机层输出特征图输入到CBAM卷积块注意模块中生成自动掩码，将自动掩码与框1中相对应的手动掩码相结合对输出特征图赋予相应的权重后，输入到下一层卷积中，以此类推。最终输出网络学习特征，将特征分为图中框3-5三个层次进行分类，框3中提取关键点所在位置的特征，框4中提取面部关键区域特征，框5是完整输出特征图，分别进行分类，融合后得到最终分类结果

综上，本发明针对相似、相近、强度微弱的表情，加入注意力卷积块以及空间注意力模型，采用具有金字塔结构的卷积神经网络分点、块、面这三个方面进行不同程度的表情细节特征进行学习，解决了表情类别相近、表情强度低导致的识别率低的问题，使微弱表情、易混淆表情的识别准确率更加高，如图6所示。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于金字塔结构卷积神经网络的人脸表情识别方法，其特征在于，包括：

S5，依次利用关键点所在位置特征、面部关键区域特征、完整人脸图像特征对表情进行分类，形成金字塔结构的卷积神经网络，融合分类结果得到最终表情类别。

2.根据权利要求1所述的基于金字塔结构卷积神经网络的人脸表情识别方法，其特征在于，步骤S2包括：

通过人脸识别算法定位原始图片中的人脸框位置，裁剪出仅包含面部的图片，并且获取人脸关键点位置。

3.根据权利要求2所述的基于金字塔结构卷积神经网络的人脸表情识别方法，其特征在于，步骤S2还包括：通过人脸识别算法检测原始图片中的人脸框，若检测出原始图片中不存在人脸框，则跳过并且忽略图像数据列表中此原始图片信息；

若检测出原始图片中存在一个人脸框，则裁剪出人脸框内的参考人脸数据，保留关键点位置信息；

若检测出原始图片中存在N个人脸框，则裁剪出人脸面积最大的人脸框内的参考人脸数据，保留对应人脸的关键点位置信息，N≥2。

4.根据权利要求1所述的基于金字塔结构卷积神经网络的人脸表情识别方法，其特征在于，利用关键点位置信息对仅包含面部的参考人脸数据进行预处理包括：

将人脸识别所得关键点坐标信息和参考人脸数据进行非反射性仿射变换，使得参考人脸数据位置与预设位置一致，实现人脸图像对齐，保证训练中人脸相同部分会落在同一个位置；其中预设位置为预先设定的包括眼睛、鼻子、嘴巴在内的5个关键点坐标位置。

5.根据权利要求1所述的基于金字塔结构卷积神经网络的人脸表情识别方法，其特征在于，利用关键点位置信息作为先验合成手动掩码包括：利用关键点位置信息生成高斯分布图，将高斯分布图作为空间注意力手动掩码；其中关键点位置的权值大小符合高斯分布：

其中μ为均值，σ为方差。

6.根据权利要求1所述的基于金字塔结构卷积神经网络的人脸表情识别方法，其特征在于，步骤S4中的将预处理后的参考人脸数据输入CBAM卷积块注意模块得到自动掩码包括：

所述CBAM卷积块注意模块利用特征图的空间关系，映射得到空间注意力自动掩码；其中特征图有四个维度：样本、通道、高度、宽度，在通道维度上对特征图运用平均值池化和最大值池化，有效地压缩输入特征图的空间维数和保留特征图的重要信息，将两个池化得到的特征图输入一系列卷积层，产生空间注意力自动掩码，加强面部重点区域的纹理特征信息权重。

7.根据权利要求6所述的基于金字塔结构卷积神经网络的人脸表情识别方法，其特征在于，步骤S5中的利用关键点所在位置特征对表情进行分类包括：

根据人脸识别得到的51个面部关键点位置信息，在神经网络输出的特征图上取出与51个关键点坐标对应的特征柱，根据关键点处的特征直接对表情进行分类。

8.根据权利要求7所述的基于金字塔结构卷积神经网络的人脸表情识别方法，其特征在于，步骤S5中的利用关键点所在位置特征对表情进行分类还包括：

人脸识别中输出包括轮廓在内的68个关键点，将轮廓信息剔除后，保留仅包含眼、眉、鼻、嘴在内的51个关键点坐标；输入图像大小为224x224，输出特征图大小为14x14，将坐标信息按比例缩小后对应到特征图相应的位置，采取双线性差值的方式得到该位置上的特征柱。

9.根据权利要求1所述的基于金字塔结构卷积神经网络的人脸表情识别方法，其特征在于，步骤S5中的利用面部关键区域特征对表情进行分类包括：

根据人脸识别所得的面部关键点坐标，确定面部眼睛、嘴巴和左右脸颊区域坐标，根据四个区域特征直接对表情进行分类；

其中输入图像大小为224x224，输出特征图大小为14x14，坐标按比例缩放得到输出特征中相对应位置，分别利用眼睛、嘴巴和左右脸颊坐标提取出区域特征。

10.根据权利要求1所述的基于金字塔结构卷积神经网络的人脸表情识别方法，其特征在于，所述预先训练好的神经网络为用MS-Celeb-1M数据集预训练的ResNet34深度神经网络。