CN110427892A

CN110427892A - 基于深浅层自相关融合的cnn人脸表情特征点定位方法

Info

Publication number: CN110427892A
Application number: CN201910720503.9A
Authority: CN
Inventors: 陆建华; 张袁; 姚潇; 刘小峰; 徐宁; 张婷婷; 霍冠英; 张学武
Original assignee: Changzhou Campus of Hohai University
Current assignee: Changzhou Campus of Hohai University
Priority date: 2019-08-06
Filing date: 2019-08-06
Publication date: 2019-11-08
Anticipated expiration: 2039-08-06
Also published as: CN110427892B

Abstract

本发明公开了基于深浅层自相关融合的CNN人脸表情特征点定位方法，S1，构建人脸样本数据集，S2，定位人脸眼睛、眉毛、嘴等区域，随后利用旋转、平移、翻转拓展数据集，S3，利用数据集训练深浅层自相关融合的卷积神经网络，完成对区域内的特征点的精确定位。本发明在样本人脸数据集的基础上，实现了人眼、眉毛、嘴巴等与表情相关较大的区域的特征点精确定位，解决了由于人脸表情变化大造成特征点定位不准等问题，并可藉由此方法完成表情识别的相关操作。

Description

基于深浅层自相关融合的CNN人脸表情特征点定位方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及基于深浅层自相关融合的卷积神经网络表情特征点定位法。

背景技术

随着计算机和网络技术的不断发展，如何保证信息安全成为人们关心的重点，人脸信息作为一种生物特征可以被用来进行身份鉴定已经有了长足的研究。而人脸特征点定位作为人脸识别的重要步骤也受到越来越多的关注。但是目前人脸特征点定位还存在着一些问题，使用经典的卷积神经网络结构如AlexNet进行特征点定位时会陷入过拟合的情况，同时当人脸表情变化较大时，特征点定位的准确性就会大幅下降。

发明内容

发明目的：为了克服现有技术的不足，本发明提供了基于深浅层自相关融合的CNN(卷积神经网络)人脸表情特征点定位方法。

本发明采用的技术方案为：

一种基于深浅层自相关融合的CNN人脸表情特征点定位方法，具体包括以下步骤：

S1，构建样本人脸的图像数据集；

S2，定位人脸相关器官区域，通过旋转、平移、翻转进行拓展所获取的数据集；

S3，利用样本数据集训练深浅层自相关融合的卷积神经网络，通过卷积神经网络对区域内的特征点进行精确定位，完成人脸表情特征点的定位。

在所述步骤S2中，获取并拓展人脸眼睛、眉毛、嘴区域的数据集，包括以下过程：

S21，构建人眼、眉毛、嘴巴方差滤波器；

S22，通过方差滤波器完成人眼、眉毛、嘴巴的区域定位。

在所述步骤S3中，深浅层自相关融合的卷积神经网络的融合层由池化层4、池化层5与池化层2进行融合操作得来的，包括以下过程：

首先将池化层5进行上采样至池化层4尺寸相同，对这两个池化层的特征图进行融合，然后再进行一次上采样和融合操作得到最终的融合层。融合操作首先设X(p，n)和Y(q，n)分别表示两个特征图的特征矩阵，n表示特征数量，p、q表示特征的维度，同时定义：

其中，X^*和Y^*表示原特征矩阵投影到一维的结果，和分别表示两个矩阵对应的投影向量的转置，其维度与矩阵的维度相同；

然后最大化相关系数：

其中，C_xx和C_yy分别表示各自的协方差矩阵，C_xy表示集合间的协方差矩阵，W_x和W_y分别表示两个矩阵对应的投影向量，和分别表示两个矩阵对应的投影向量的转置。使用拉格朗日乘子法来求解协方差的最大化问题，约束条件var(X^*)＝var(Y^*)＝1。

最后的融合矩阵Z可由下列公式得出：

在所述步骤S3中，深浅层自相关融合的卷积神经网络全连接层1、全连接层2后进行Dropout操作，提高泛化能力。

在所述步骤S3中，深浅层自相关融合的卷积神经网络包括五组卷积层，分别为卷积层1、卷积层2、卷积层3、卷积层4、卷积层5，所述卷积层2、卷积层3、卷积层4、卷积层5均由两个级联的卷积层组成，所述卷积神经网络还包括池化层1、池化层2、池化层3、池化层4、池化层5、全连接层1、全连接层2、全连接层3和一个融合层。

在所述步骤S3中，深浅层自相关融合的卷积神经网络的卷积层的卷积核为3×3，池化核为2×2，卷积神经网络采用Leaky ReLu激活函数。

有益效果：

1.本发明所使用的卷积神经网络基于AlexNet卷积神经网络，并在此基础上加深了网络结构，用以提高特征学习的能力，同时使用Leaky ReLu激活函数提高了收敛速度。

2.本发明所使用的卷积神经网络增加了融合层，将深层和浅层的特征进行融合后再和全连接层相连，减少了卷积神经网络在由于层数增加造成的信息丢失的问题。

3.在全连接层1和全连接层2后增加Dropout操作，提高了泛化能力，同时降低了过拟合。

附图说明

如图1所示为本发明的流程图。

如图2所示为深浅层自相关融合的卷积神经网络结构图。

具体实施方法

下面结合附图对本发明作更进一步的说明。

下面结合实例对本发明作更进一步的说明。

如图1所示，基于深浅层自相关融合的CNN人脸表情特征点定位方法，首先构建人脸样本数据集，然后定位人脸眼睛、眉毛、嘴等区域，随后利用旋转、平移、翻转拓展数据集，再通过卷积神经网络对区域内的特征点进行精确定位，完成人脸表情特征点的定位。具体包括以下步骤：

S1，构建样本人脸的图像数据集

从现有的人脸表情数据库中获取人脸表情图像数据集，并进行数据集预处理，具体包括以下过程：

获取ibug网站提供的LFPW、AFW等样本人脸数据集。

S2，获取并拓展人脸眼睛、眉毛、嘴区域的数据集

在样本人脸数据中，定位到人眼、眉毛、嘴的区域，并进行拓展，具体包括以下步骤：

S21，训练人眼方差滤波器；

首先，由于眼睛区域内灰度强度的变化比面部其他区域更明显，域上的方差被用作灰度强度变化的指标，并将面部区域Ω上的眼睛图像I(x，y)的方差被定义为

其中，A_Ω和I_Ω分别表示的是人脸眼部区域Ω的面积和平均灰度。

选择30幅不同人眼图像I_i(x，y)，i＝1，2，…，30，将图像划分成3×3非重叠子块，对于图像I_i(x，y)，有定义如下：

V_σ(i，j)＝σ_Ω (2)

Ω_ij＝{(i-1)l+1≤x≤il，(j-1)l+1≤y≤jl} (3)

其中，1和Ω_ij分别表示的是宽度(高度)和每个子块的面积。

通过等式1计算每个子块上的方差图像，每个子块具有不同的灰度强度特征。然后计算所有眼睛图像的方差图像平均值来构造人眼方差滤波，

其中[V_σ(i，j)]_k代表第k个眼睛图像上的(i，j)子块的方差V_σ(i，j)，N是样本眼睛图像的数量。

眼睛方差分类器用于检测最有可能的眼睛区域，在面部上的分类器和眼睛与非眼部之间的相关性为：

其中，和是按行展开后得到的向量，D(·)和E(·)分别表示方差和数学期望。

眼睛区域图像具有大于0.32的相关值，而非眼部区域图像具有小于0.32的相关值。因此0.32可以作为眼睛方差分类器阈值。

S22，分别构建眉毛和嘴部的方差分类器

S23，将样本人脸数据通过方差分类器获得眼部、眉毛、嘴巴区域的图像

S24，对所得到的图像进行旋转、平移、翻转等处理，拓展数据集，降低过拟合的风险。

S3，利用表情区域的数据集训练深浅层自相关融合的卷积神经网络。

改进的卷积神经网络基于经典的Alexnet，包括卷积层1、卷积层2、卷积层3、卷积层4、卷积层5、池化层1、池化层2、池化层3、池化层4、池化层5、全连接层1、全连接层2、全连接层3和一个融合层。最后一个全连接层输出两倍的特征点数，如嘴巴的特征点的数目为8，则输出为16。

深浅层自相关融合的卷积神经网络的融合层由池化层4、池化层5与池化层2进行融合操作得来的，首先将池化层5进行上采样至与池化层4尺寸相同，对这两个池化层的特征图进行融合。得到上述特征图的融合后。再进行一次上采样与池化层2尺寸相同，并通过相同的方法得到最终的融合层。设X(p，n)和Y(q，n)分别表示两个特征图的特征矩阵，n表示特征数量，p、q表示特征的维度，定义：

其中，X^*和Y^*表示原特征矩阵投影到一维的结果，和分别表示两个矩阵对应的投影向量的转置，其维度与矩阵的维度相同。

然后最大化相关系数：

其中，C_xx和C_yy分别表示各自的协方差矩阵，C_xy表示集合间的协方差矩阵，W_x和W_y分别表示两个矩阵对应的投影向量，和分别表示两个矩阵对应的投影向量的转置。然后使用拉格朗日乘子法来求解协方差的最大化问题，约束条件var(X^*)＝var(Y^*)＝1。

最后的融合矩阵Z可由下列公式得出：

深浅层自相关融合的卷积神经网络的融合层具体结构如图2所示。

卷积层和池化层进行信息的提取和筛除，卷积层的卷积核为3×3，步长设置为1，最大池化层的池化核为2×2。在卷积层2、3、4、5中包括两个堆叠的卷积层，两个3×3卷积层的串联相当于1个5×5的卷积层，同时卷积层参数量远少于5×5的卷积层，能够减少整个网络的训练时间。

在全连接层1、2后进行Dropout操作，提高泛化能力。激活函数选择LeakyReLu：

LeakyReLu函数相较于传统的ReLu函数，收敛速度更快。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深浅层自相关融合的CNN人脸表情特征点定位方法，其特征在于包括以下步骤：

S1，构建样本人脸的图像数据集；

2.根据权利要求1所述的基于深浅层自相关融合的CNN人脸表情特征点定位方法，其特征是，S2中，获取并拓展人脸眼睛、眉毛、嘴区域的数据集，包括以下过程：

S21，构建人眼、眉毛、嘴巴方差滤波器；

S22，通过方差滤波器完成人眼、眉毛、嘴巴的区域定位。

3.根据权利要求1所述的基于深浅层自相关融合的CNN人脸表情特征点定位方法，其特征在于所述步骤S3中，深浅层自相关融合的卷积神经网络包括五组卷积层，分别为卷积层1、卷积层2、卷积层3、卷积层4、卷积层5，所述卷积层2、卷积层3、卷积层4、卷积层5均由两个级联的卷积层组成，所述卷积神经网络还包括池化层1、池化层2、池化层3、池化层4、池化层5、全连接层1、全连接层2、全连接层3和一个融合层。

4.根据权利要求3所述的基于深浅层自相关融合的CNN人脸表情特征点定位方法，其特征在于所述深浅层自相关融合的卷积神经网络的融合层由池化层4、池化层5与池化层2进行融合操作得来的，首先将池化层5进行上采样至池化层4尺寸相同，对这两个池化层的特征图进行融合，然后再进行一次上采样、融合操作得到融合层图像。

5.根据权利要求4所述的基于深浅层自相关融合的CNN人脸表情特征点定位方法，其特征是在于所述深浅层自相关融合的卷积神经网络的融合操作为首先设X(p，n)和Y(q，n)分别表示两个特征图的特征矩阵，n表示特征数量，p、q表示特征的维度，同时定义：

然后最大化相关系数：

其中，C_xx和C_yy分别表示各自的协方差矩阵，C_xy表示集合间的协方差矩阵，W_x和W_y分别表示两个矩阵对应的投影向量，和分别表示两个矩阵对应的投影向量的转置，然后使用拉格朗日乘子法来求解协方差最大化问题，约束条件为var(X^*)＝var(Y^*)＝1；

最后的融合特征矩阵Z可由下列公式得出：

6.根据权利要求3所述的基于深浅层自相关融合的CNN人脸表情特征点定位方法，其特征是在于所述深浅层自相关融合的卷积神经网络在全连接层1、全连接层2后进行Dropout操作，提高泛化能力。

7.根据权利要求3所述的基于深浅层自相关融合的卷积神经网络表情特征点定位法，其特征在于所述深浅层自相关融合的卷积神经网络的卷积层的卷积核为3×3，池化核为2×2，卷积神经网络采用Leaky ReLu激活函数。