CN113221698A

CN113221698A - 一种基于深度学习和表情识别的面部关键点定位方法

Info

Publication number: CN113221698A
Application number: CN202110477263.1A
Authority: CN
Inventors: 胡四泉; 张超; 石志国
Original assignee: University of Science and Technology Beijing USTB; Shunde Graduate School of USTB
Current assignee: University of Science and Technology Beijing USTB; Shunde Graduate School of USTB
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2021-08-06
Anticipated expiration: 2041-04-29
Also published as: CN113221698B

Abstract

本发明公开了一种基于深度学习和表情识别的面部关键点定位方法，包括：选取特定的多种表情的人脸图像，根据人脸图像中脸部特征进行表情建模；将表情模型中脸部各个器官的轮廓作为关键点数据进行标注，构建数据集；对构建的数据集进行预处理；搭建深度学习网络模型；将预处理后的数据集输入所述深度学习网络模型中进行训练；将训练后的面部关键点数据集用于表情分类与识别预测。本发明所述方法无需处理整张图像的信息，只需要处理定位出的关键点信息用来充当各类场景下表情识别的数据集，即可进行快速表情分类与识别预测，有效减少了计算量，提高了表情关键点识别的鲁棒性。

Description

一种基于深度学习和表情识别的面部关键点定位方法

技术领域

本发明涉及人工智能与表情识别技术领域，特别涉及一种基于深度学习和表情识别的面部关键点定位方法。

背景技术

随着科学技术的不断深究，人脸关键点定位技术成为了研究表情识别系统的主要核心问题之一，也是必不可少的一个预处理的过程。即使我们使用简单的人脸对齐技术对图像进行仿射矩阵计算并裁剪使得人脸双眼处于水平状态，也可以有效的提高表情识别系统的准确率。

人脸关键点定位也称人脸关键点检测(Facial Landmark Detection)，即对利用某种方法例如人脸检测器、CNN(Convolution Neural Network，CNN)进行人脸检测获取得到的人脸框，将人脸至关重要的部分，例如眼睛、嘴巴、鼻子、眉毛、脸型轮廓等定位出来。需要说明的是：英文文献中常常将人脸对齐(Face Alignment)和人脸关键点检测混用，而实际上人脸对齐是将两个形状各异的人脸进行归一化处理的过程，使得其中一个的人脸形状更加贴近另一个。此外，人脸特征点定位除了应用在人脸识别任务上，还有很多应用场景，例如：人脸跟踪、姿态估计、面部表情分析及识别、年龄估计、脸型识别、性别区分、人脸老化、疲劳度检测、3D人脸漫画以及人脸素描生成等众多视觉领域。

因此，研究人脸关键点定位具有重要的意义及现实价值，符合人类价值观理念。虽然现研究深入且落地实用，但仍然面临着各种困难和挑战，主要难点是在非限制性复杂环境条件下由于不同姿态、不同光照、不同程度遮挡、复杂表情、人脸检测等内在因素和外在因素对它的影响。因此提升算法在以上情况下的鲁棒性，以及关键点定位精度和准确度成为研究的重点攻克方向。

现有的人脸关键点定位算法大致可以分为两类：基于搜索空间的人脸成份定位方法(分类法)和直接预测法。

分类法主要是依据区域分割来进行判定关键点，即先对人脸进行关键点区域分割，然后对区域单独训练分类器，再通过对局部窗口下的图像进行分类来寻找候选区域，随后通过形态约束在这些候选区域中估计最优关键点。这种方法计算量大且是一种判定人脸局部区域是否为关键区域的方法，容易受模糊区域的影响，并不适合用在表情识别系统中。

直接预测法经过细分主要包括：模型匹配的方法、基于回归的方法和基于深度学习的方法。它们首先从人脸样本集合中学习出关键点模型，利用训练学习得出的模型对测试样本进行预测。例如传统的关键点定位方法包括：主动形状模型(ASM)、鲁棒级联形状回归算法(RCPR)。这些方法的思想是将已经手工标注好的人脸形状的人脸关键点信息形成学习集，测试时，对任意给定的新的人脸图像形状，估计该图像与学习集中训练图像之间的相似度，并将同样的相似度用于人脸形状的重构来进行预测分类。目前最受研究者们欢迎的还是深度学习的方法，深度学习的建模和表征能力很好的推进了表情识别、关键点等研究进程。特别的，深度卷积神经网络在特征提取方面表现出很大的优势。因此，本发明就是在卷积神经网络的基础上提出了一种新的面部关键点定位算法。

发明内容

本发明的目的在于提供一种基于深度学习和表情识别的面部关键点定位方法，解决在复杂表情识别系统中计算量大及表情关键点鲁棒性低的问题。

为解决上述技术问题，本发明的实施例提供如下方案：

一种基于深度学习和表情识别的面部关键点定位方法，包括以下步骤：

选取特定的多种表情的人脸图像，根据人脸图像中脸部特征进行表情建模；

将表情模型中脸部各个器官的轮廓作为关键点数据进行标注，构建数据集；

对构建的数据集进行预处理；

搭建深度学习网络模型；

将预处理后的数据集输入所述深度学习网络模型中进行训练；

将训练后的面部关键点数据集用于表情分类与识别预测。

优选地，所述特定的多种表情包括：悲伤、高兴、惊讶、愤怒、恐惧和中性。

优选地，所述对构建的数据集进行预处理包括：

对输入的数据从图像的四个顶点和中心处进行随即裁剪，之后进行水平翻转，对原始数据集进行扩充；

利用Opencv库的resize函数调整数据，统一图像数据的大小；

对数据集进行动态数据增强，减轻过拟合情况；

利用数据归一化方法减轻由于照明和头部姿态变化在图像测试中产生的误差。

优选地，所述深度学习网络模型依次包括：第一卷积层、第一堆叠模块、第二堆叠模块、第二卷积层和全连接层；其中，所述第一堆叠模块和所述第二堆叠模块均包括基于并联卷积的瓶颈残差模块和平均池化层。

优选地，所述第一卷积层采用3x3的卷积核，用于提取输入数据的基础特征；所述第二卷积层采用4x4的卷积核，用于将数据的分辨率变为1x1；卷积的计算过程表示为公式：

y_i(x)＝f(x^Tw_ij+b_i)

式中y_i表示当前层第i个特征图，W表示卷积核，ij表示卷核的位置下标；x表示上一层的特征图；b_i表示当前层第i个特征图的偏置，f(·)表示激活函数。

优选地，所述基于并联卷积的瓶颈残差模块中，采用3个3x3的卷积核进行并联操作，其中第一个卷积核输入的是整张人脸，第二个卷积核输入的是从鼻尖水平分开后的上半部人脸，第三个卷积核输入的是对应的下半部人脸；三个卷积核分别提取不同感受野的特征，之后将三个特征结果进行连接；

三个卷积核使用空洞率分别为d＝[1,2,3]的空洞卷积，对应卷积核f的大小分别为3、5、7，步长s＝1，通过设置填充函数使得每个卷积核输出尺寸与该卷积层输入尺寸一致；其中填充函数为：

p_i＝(f-1)/2*d_i

并且，增加非线性激活函数ReLU以增加网络的非线性特性。

优选地，所述平均池化层为3x3的池化层，步长为2，填充为1，取池化窗口的均值作为池化特征值。

优选地，在Keras+Tensorflow的平台上进行深度学习网络模型的搭建和训练，具体包括：

训练过程中将输入数据集的80％作为训练集，10％作为测试集，另外10％作为验证集；

采用hold-out的方法，在验证集上计算准确率，一旦准确率达到饱和就停止训练；

采用有监督的训练方式，在并联卷积的瓶颈残差模块中最后三个并联的卷积核提取的特征采用表达式：

进行均值加权融合，其中n为某一个特征点所检测到的数目，x_n为该特征点的坐标位置。

本发明实施例提供的技术方案带来的有益效果至少包括：

本发明基于表情识别系统提出一种新颖的关键点定位算法，区别于现有的表情识别数据集，本发明仅保留定位出的表情关键点信息就可以直接作为一个全新的数据集用于表情识别系统。具体地，根据各个表情下脸部特征区域所出现的频率高低进行筛选打点，即先对人脸表情进行漫画建模，接着对人脸表情下的特征区域进行分析筛选，然后依据模型拟定具体的表情特征关键点对统一化的人脸数据进行打点标注，构建数据集；之后使用基于并联卷积的瓶颈残差模块神经网络来训练关键点模型，可以很好的提高关键点的鲁棒性。此外，本发明通过定位出的表情关键点即可直观地看出人脸的表情，使得表情识别时无需处理整张图像的信息，只需要处理定位出的关键点信息即可，能够有效减少表情识别过程中的计算量。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于深度学习和表情识别的面部关键点定位方法的流程图；

图2是本发明实施例提供的深度学习网络模型示意图；

图3是本发明实施例提供的残差模块的示意图；

图4是本发明实施例提供的基于并联卷积的瓶颈残差模块的示意图；

图5是本发明实施例提供的平均池化过程示意图；

图6是本发明实施例提供的应用场景示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明的实施例提供了一种基于深度学习和表情识别的面部关键点定位方法，如图1所示，所述方法包括以下步骤：

对构建的数据集进行预处理；

搭建深度学习网络模型；

将训练后的面部关键点数据集用于表情分类与识别预测。

本发明实施例中，根据各个表情下脸部特征区域所出现的频率高低进行筛选打点，先对人脸表情进行漫画建模，接着对人脸表情下的特征区域进行分析筛选，然后依据模型拟定具体的表情特征关键点对统一化的人脸数据进行打点标注，构建数据集；之后利用深度学习网络模型进行训练，能够有效提高关键点的鲁棒性。

此外，本发明通过定位出的表情关键点即可直观地看出人脸的表情，使得表情识别时无需处理整张图像的信息，只需要处理定位出的关键点信息即可，能够有效减少计算量。

在本发明的实施例中，所述特定的多种表情包括：悲伤、高兴、惊讶、愤怒、恐惧和中性等六种基本表情。对关键点定位后所获得的数据图像可以作为关键特征对上述六种基本表情进行识别。

进一步地，所述对构建的数据集进行预处理包括：

对输入的数据从图像的四个顶点和中心处进行随即裁剪，之后进行水平翻转，对原始数据集进行扩充；本步骤可以产生比原始数据大十倍的数据集；

利用Opencv库的resize函数调整数据，统一图像数据的大小，使其大小保持一致；

对数据集进行动态数据增强，减轻过拟合情况，提高数据的泛化能力；

进一步地，本发明实施例搭建的深度学习网络模型如图2所示，依次包括：第一卷积层conv、第一堆叠模块conv1、第二堆叠模块conv2、第二卷积层conv3和全连接层fc；其中，第一堆叠模块conv1和第二堆叠模块conv2均包括基于并联卷积的瓶颈残差模块(ResidualModule)和平均池化层(Average Pooling)。

数据在conv层进行完卷积操作后再通过一个基于并联卷积的瓶颈残差模块进行前向操作，接着通过平均池化层对数据特征图进行降维。整个网络结构采用了两次平均池化，图像发生了2次尺寸变化。网络最后再经过一个普通卷积层conv3将特征图进行降维，接着通过全连接层fc输出人脸标记的关键点的横纵坐标信息。

进一步地，第一卷积层采用3x3的卷积核，用于提取输入数据的基础特征；第二卷积层采用4x4的卷积核，用于将数据的分辨率变为1x1。通常随着卷积层数量的增加，提取的特征会越来越复杂，拥有多个卷积层的神经网络能够在迭代中提取更多的数据特征。卷积的计算过程表示为公式：

y_i(x)＝f(x^Tw_ij+b_i)

残差模块是残差网络的重要组成部分，利用残差网络可以很好地解决在机器学习中因网络层数增加而出现的退化问题，有效地学习更深层次的网络。残差模块的主要特点为采用短链接的连接方式，实现了恒等映射。这种连接方式不会产生多余的参数和计算复杂度。残差块的这种恒等映射的能力是通过使用跳跃连接来实现的，即至少需要跨越两层网络结构才有效。如图3所示。其中X是输入，H(X)是输出，该结构拟合恒等映射H(X)＝X很困难，利用短链接的方式使得结构相当于拟合残差函数F(X)＝H(X)—X，这样比直接拟合更加简单，而且当F(X)趋向于0时，将会实现恒等映射。

本发明实施例中，基于并联卷积的瓶颈残差模块如图4所示，并联卷积处用到了空洞卷积能扩大感受野且不丢失图像空间信息的性质，对比于普通卷积来说可以减少学习参数，提高计算效率。然后借鉴了残差网络的“短链接”的连接方式，引入恒等映射，可以节省计算复杂度进而缩短整个模型的训练时间。所述基于并联卷积的瓶颈残差模块中，采用3个3x3的卷积核进行并联操作，其中第一个卷积核F1输入的是整张人脸，第二个卷积核F2输入的是从鼻尖水平分开后的上半部人脸，第三个卷积核F3输入的是对应的下半部人脸；三个卷积核分别提取不同感受野的特征，之后将三个特征结果进行连接；

p_i＝(f-1)/2*d_i

其中第一个1x1的卷积起到了降维的作用来提高计算效率，最后一个1x1的卷积起到升维的作用，同时实现不同通道上像素点的线性组合变化即通道信息交互。并且增加了非线性激活函数ReLU来增加网络的非线性特性。

池化层主要用来压缩数据和参数的量，减小过拟合。简而言之，如果输入是图像的话，那么池化层的最主要作用就是压缩图像。池化一般有最大池化和平均池化两种，池化层一般放在卷积层后面，是卷积层的输出。本发明采用平均池化，平均池化是取池化窗口的均值作为池化特征值，能更好地保留图像的背景特征。本发明实施例中，所述平均池化层为3x3的池化层，步长为2，填充为1，如图5所示。

进一步地，本发明在Keras+Tensorflow的平台上进行深度学习网络模型的搭建和训练，涉及到一个数据坐标定位的问题，具体包括：

为了防止训练误差随着时间的推移慢慢降低，而验证集的误差逐渐升高产生的过拟合现象，采用hold-out的方法，在验证集上计算准确率，一旦准确率达到饱和就停止训练，被称为提前停止策略；

为了更好的获取及修正关键点坐标，采用有监督的训练方式，在并联卷积的瓶颈残差模块中最后三个并联的卷积核提取的特征采用表达式：

本发明所定位出来的表情关键点经过处理后可以用来充当教学、会议等其他场景下表情识别的数据集，来进行快速表情的分类与识别预测，能够较好的反应学生的学习状态或者参会人员的工作状态，如图6所示。这种基于关键点进行表情识别的机制可以直接通过识别出来的关键点来判断当前的表情，提供了一种比较新颖的表情识别的方式。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习和表情识别的面部关键点定位方法，其特征在于，包括以下步骤：

对构建的数据集进行预处理；

搭建深度学习网络模型；

将训练后的面部关键点数据集用于表情分类与识别预测。

2.根据权利要求1所述的基于深度学习和表情识别的面部关键点定位方法，其特征在于，所述特定的多种表情包括：悲伤、高兴、惊讶、愤怒、恐惧和中性。

3.根据权利要求1所述的基于深度学习和表情识别的面部关键点定位方法，其特征在于，所述对构建的数据集进行预处理包括：

利用Opencv库的resize函数调整数据，统一图像数据的大小；

对数据集进行动态数据增强，减轻过拟合情况；

4.根据权利要求1所述的基于深度学习和表情识别的面部关键点定位方法，其特征在于，所述深度学习网络模型依次包括：第一卷积层、第一堆叠模块、第二堆叠模块、第二卷积层和全连接层；其中，所述第一堆叠模块和所述第二堆叠模块均包括基于并联卷积的瓶颈残差模块和平均池化层。

5.根据权利要求4所述的基于深度学习和表情识别的面部关键点定位方法，其特征在于，所述第一卷积层采用3x3的卷积核，用于提取输入数据的基础特征；所述第二卷积层采用4x4的卷积核，用于将数据的分辨率变为1x1；卷积的计算过程表示为公式：

y_i(x)＝f(x^Tw_ij+b_i)

6.根据权利要求4所述的基于深度学习和表情识别的面部关键点定位方法，其特征在于，所述基于并联卷积的瓶颈残差模块中，采用3个3x3的卷积核进行并联操作，其中第一个卷积核输入的是整张人脸，第二个卷积核输入的是从鼻尖水平分开后的上半部人脸，第三个卷积核输入的是对应的下半部人脸；三个卷积核分别提取不同感受野的特征，之后将三个特征结果进行连接；

p_i＝(f-1)/2*d_i

并且，增加非线性激活函数ReLU以增加网络的非线性特性。

7.根据权利要求4所述的基于深度学习和表情识别的面部关键点定位方法，其特征在于，所述平均池化层为3x3的池化层，步长为2，填充为1，取池化窗口的均值作为池化特征值。

8.根据权利要求4所述的基于深度学习和表情识别的面部关键点定位方法，其特征在于，在Keras+Tensorflow的平台上进行深度学习网络模型的搭建和训练，具体包括：