CN112232184B

CN112232184B - 一种基于深度学习和空间转换网络的多角度人脸识别方法

Info

Publication number: CN112232184B
Application number: CN202011095551.2A
Authority: CN
Inventors: 张晖; 赵上辉; 赵海涛; 孙雁飞; 朱洪波
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2022-08-26
Anticipated expiration: 2040-10-14
Also published as: CN112232184A

Abstract

本发明公开了一种基于深度学习和空间转换网络的多角度人脸识别方法，首先，构建卷积神经网络模型，改进其损失函数，并用预先获取的图片对模型进行训练；其次，基于空间转换网络的人脸对齐：利用变换矩阵对预先获取的图片进行数据采集并生成与模板相同角度大小的对应人脸；最后，基于YOLOV2对人脸进行检测。本发明通过在海量的人脸数据上进行训练提取泛化的人脸特征表示，突出特征之间的可区分度，使人脸识别准确度显著提高，可以发展为自然非配合场景下的人脸识别；且本发明能将人脸对齐和人脸识别网络统一起来，构成一个端到端的学习系统，极大地提高了人脸对齐的灵活性。

Description

一种基于深度学习和空间转换网络的多角度人脸识别方法

技术领域

本发明属于人工智能人脸识别领域，涉及在多角度情况下对人脸的判定，具体涉及一种基于深度学习和空间转换网络的多角度人脸识别方法。

背景技术

人脸识别能够根据人脸图像获取对应人物的身份信息。人脸识别因为其方便快捷的易用性和普遍性，在金融、刑侦和国防等领域有着广泛的应用。由于深度学习的迅猛发展，使得人脸识别技术不断普遍化，获得了学术界的广泛关注。随着计算机性能提升和数据库的增多，人脸识别的的精度已经不断地增高，目前最高的准确率已经接近100％，但这并不意味着人脸识别的问题已经完全解决，仍然在很多方面存在问题。

人脸识别系统由三个部分组成，分别是人脸对齐，人脸特征提取和人脸检测。在这三个部分中，人脸对齐起到的是数据预处理的步骤，在整个系统中起到重要的作用，目的是减少人脸姿态的多样性带来的特征变化，能便于系统识别固定人脸。这种人脸对齐目前存在两个问题，第一是对特征点的准确性很依赖，由偏差或者没检测出特征点都会极大的影响对其的效果。训练一个性能优秀的特征点检测网络需要大量特征点数据，收集这样的数据库成本十分巨大。第二是固定的几何形状的对齐方式会产生人脸几何信息的失真。这种信息的丢失对于某些重要的人来说是非常严重的。在大规模人脸识别场景下，由于光照和姿态等不确定因素带来的人脸差异，很难定义一个固定的集和模板来适应所有的状态。目前，运用子网络来学习图片的变换参数成为研究的热点，其中关键技术是空间转换网络，运用网络自适应的学习能力，以多姿态人脸(例如侧脸，低头等)为输入，生成并输出一张正面人脸图像，解决大姿态场景下一些大角度图片无法对齐的问题。

多角度人脸识别一般分为两种：一种是用人脸矫正的方法生成衣服正面人脸，在此基础上用人脸识别的方法，另一种是在不同角度的人脸上用CNN模型提取特征。到目前为止，深度学习在人脸检测和多角度人脸识别方面取得巨大进展。其中YOLO(You Only LookOnce)是一种基于深度神经网络的对象识别和定位算法，其最大的特点是运行速度很快，可以用于实时系统。

发明内容

发明目的：本发明提出一种基于深度学习和空间转换网络的多角度人脸识别方法，通过在海量的人脸数据上进行训练提取泛化的人脸特征表示，突出特征之间的可区分度，使人脸识别准确度显著提高。

发明内容：

(1)构建卷积神经网络模型，改进其损失函数，并用预先获取的图片对模型进行训练；

(2)基于空间转换网络的人脸对齐：利用变换矩阵对预先获取的图片进行数据采集并生成与模板相同角度大小的对应人脸；

(3)基于YOLOV2对人脸进行检测。

进一步地，步骤(1)所述的卷积神经网络包括卷积层、激活函数层、池化层、BN层、全连接层和softmax损失函数；所述池化层被嵌入到卷积层之间，包括最大池化和平均池化。

进一步地，步骤(1)所述的损失函数的改进如下：

L-sofmax损失函数表达式如下：

Angular softmax损失函数：

Additive margin softmax损失函数：

改进后的损失函数为：

其中，θ_i代表权重W_i和特征x_i的夹角，m代表角度边缘值，k为常数，取值范围在0到m-1之间，s表示偏移量。

进一步地，所述步骤(2)实现过程如下：

将大小为H×W×C特征图输入至空间转换网络终的定位网络，经过定位网络的处理后输出向量θ表示变换系数；以输入特征图的任意点为中心，用采样核进行采样，输出的某一个点为某一个规则网络G上的点G_i，其坐标为

对于G上的每一个点G_i，都能通过变换矩阵T找到其在输入特征图上的对应点，变换矩阵T_θ为：

变换矩阵T_θ包含了图片变换的角度，缩放和坐标移动的信息。

进一步地，所述步骤(3)包括以下步骤：

(31)将输入图像划分为S×S的单元格，若图像中物体存在于某单元格中，那么该单元格需要检测相应的物体，每个单元格生成B个预测边界框和对应的置信度；

(32)引入BN层和使用高分辨率分类器；

(33)用带有锚点框的卷积和维度聚类：去掉全连接层，用锚点框来预测边界框：首先去除一个池化层，让网络卷积层输出图像的分辨率提高，然后缩减输入层分辨率，用卷积层进行下层采样，固定住最终特征图尺寸，让宽和高都为奇数；

(34)用直接预测的方法对边界框进行预测；

(35)在网络中增加细粒度特征，提升模型对小物体定位的准确性，引入与恒等映射相类似的方法，增加一个pass through层。

有益效果：与现有技术相比，本发明的有益效果：

1、和传统的人脸识别方法相比，基于深度学习的人脸识别方法通过在海量的人脸数据上进行训练提取泛化的人脸特征表示，突出特征之间的可区分度，使人脸识别准确度显著提高，可以发展为自然非配合场景下的人脸识别；

2、利用提取出的人脸，可以利用空间转换网络来进行人脸对齐，空间转换网络结合了人脸的特征点，是一个完全可监督的网络，空间转换网络可以自适应的学习针对人脸识别网络结构和分类目标函数的对齐方式，用这种方式来进行人脸对齐不仅不需要人脸的特征点标注信息和图像变换方式，还能将人脸对齐和人脸识别网络统一起来，构成一个端到端的学习系统，极大地提高了人脸对齐的灵活性。

附图说明

图1为本发明流程图；

图2为空间转换网络原理图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

本发明提出一种基于深度学习和空间转换网络的多角度人脸识别方法，如图 1所示，具体包括以下步骤：

步骤1：构建卷积神经网络模型，改进其损失函数，并用预先获取的图片对模型进行训练。

卷积神经网络近年来在计算机视觉领域取得巨大成就，主要包括卷积层、池化层、BN层、全连接层和Softmax损失函数。

(1)卷积神经网络基础结构

卷积层通过卷积实现，用两个函数f和g生成第三个函数，连续函数卷积：

其中f(x)和g(x)是两个可积分函数。

离散型序列卷积：

其中f(m)，g(n)是长度为N的两个离散信号。图像为二维信号，图像卷积操作定义为：

其中A(m,n)代表一幅m×n的单通道图像，B(S,T)表示S×T的二维卷积核。

先在原始图像里选取和卷积核相同大小的区域，将其和卷积核对应的元素先相乘后相加，得到对应图像区域经过卷积运算的特征图数值，当上一块图像处理完后转移到下一个像素，重复上述操作直到结束。卷积层的构建过程中要对四个参数进行赋值，分别为：步长、卷积核尺寸、深度和零值填充。输出特征图的大小和输入特征图的大小、卷积层的四个参数之间的关系如下：

其中W₂和H₂表示输出特征图的尺寸，W₁和H₁表示输入特征图的尺寸，F表示卷积核尺寸，P表示进行零值填充的次数，S表示步长

本文采用Sigmoid激活函数，能够弥补线性函数表达特征能力不足的问题。公式如下：

池化层一般被嵌入到卷积层之间，通过降低特征图尺寸来减少网络参数计算量，一般包括最大池化操作和平均池化操作。

最大池化层是对某一像素点邻近矩形区域内取最大值来代表某一区域，一般选尺寸大小2×2，步长为2的滤波器来进行最大池化操作。

平均池化层是对某一像素点邻近矩形区域qu3平均值来代表某一区域，依旧是选取尺寸大小2×2，步长为2的滤波器来进行平均池化操作。

神经网络在训练阶段会出现协方差偏移，即网络中每一层输入值分布随着参数更新而发生改变，所以参数需要利用BN层进行精心的选择。

BN层通过对输入数据归一化并固定数据分布，使其均值为0，方差为1，满足正态分布，防止协方差偏移，对数据做归一化操作的计算公式如下：

其中x＝(x⁽¹⁾...x^(d))表示维度为d的向量x，E(x)表示输入数据的期望， Var[x]表示数据的方差。在方法中引入两个可学习参数γ^(k)和β^(k)进行平移和缩放。

y^(k)＝γ^(k)x^(k)+β^(k)

BN操作要对每一批输入数据进行归一化，具体操作如下：

计算输入数据均值：

计算输入数据的方差：

进行归一化：

得到输出值：

γx_i+β＝BN_γ,β(x_i)

BN层可以进行网正则化，引入Sigmoid等激活函数，避免网络进入饱和状态。

全连接层是一层特殊的卷积层，一般放置在网络的最后一层用于网络分类。全连接层的神经元和前一层所有神经元相连，把特征映射岛类别空间中。

Softmax损失函数通过真实标签值的最大化后验概率来区分不同类别间的特征确定输入向量x_i和对应的标签值y_i，Softmax损失函数公式如下:

其中x_i表示第i^th个图像的特征，y_i表示第i^th个图像的类别标签，W_j表示类别权重，b_j表示类别方差，m和n表示样本数量和类别数。f_j表示全连接层处于激活状态时，权重W_j和偏置值b_j之间的内积关系。

在人脸识别的过程中，损失函数时一个非常重要的指标，需要损失函数的类内距离尽可能小，类间距离尽可能大。下文提出四种损失函数，各有优缺点，将其求和并取平均值，使其能适配人脸识别人物的特殊性。

(1)Large-Marginsoftmax(L-softmax)损失函数

L-sofmax损失函数将softmax函数转换成角度的形式，其计算出的类内距离有较高的紧凑性，并且可以让人脸特征的类内距离有较高的可区分性。表达式如下：

其中，θ_i代表权重W_i和特征x_i的夹角，m代表角度边缘值，k为常数，取值范围在0到m-1之间，s表示偏移量将其权重值归一化，设置b_j＝0，||W_j||＝1，

(2)Angular softmax(A-softmax)损失函数

A-softmax函数和L-sofmax函数类似，用角度值做乘法从而在损失函数里引入角度边缘值m，并且进行归一化处理：

其中

的取值范围被限定在

之间。为了能扩大

的取值，使得其能更好的被优化，所以把其取值范围扩展成一个和角度相关的单调递减函数

i。于是A-softmax的定义为：

其中m为正数，用于控制角度边缘值的大小。在训练当中，Softmax打的监督信息可保证网络的收敛性，权重由动态的λ控制。于是

(3)Additive margin softmax(AM-softmax)损失函数

AM-softmax函数将角度余量值从cosθ种删除，表达了一种基于余弦余量值的函数：

AM-softmax函数的几何解释较为清晰，不需要Softmax监督也可以让网络达到收敛状态。

损失函数可以优化神经网络参数，据此来减少神经网络的损失，让实际值和预测值进行匹配，上述三种损失函数均有优劣，本文将其相加并求均值，得出最终的损失函数：

步骤2：基于空间转换网络的人脸对齐：利用变换矩阵对预先获取的图片进行数据采集并生成与模板相同角度大小的对应人脸。

在实际场景中人脸的姿态有非常多的变化，给人脸识别带来许多困难，如左右旋转脸部和外头等，摄像也会有角度方面的变化，因为放大和缩小的的原因，人脸的大小也会不一样，如果能把所有人的人脸都固定为面朝屏幕的角度以及同样的大小，则极大的提升机器运算的便利程度。

通常把人脸对齐变化和人脸特征点定位统称为人脸对齐，人脸特征点定位是找到人脸特殊点位置，例如眼睛和口鼻等，如何准确的判断特征点是一大难题。一般来说，特征点定位会选取一些关键点定位，将其作为仿射变换的定位点，与固定模板进行对比。一些特殊属性和人脸部位相关，例如是否戴眼镜，是否化淡妆，是否留胡子等，人脸大概有20到40个特征点与表情相关，表情可以辅助判断特征点位置。人脸对齐变换时人脸预处理的关键步骤，按照规则计算几何变换矩阵，利用变换矩阵对图片进行数据采集并生成与模板相同角度大小的对应人脸。人脸对齐分为两个步骤，一是计算对齐模板，集中训练左眼中心，右眼中心，鼻尖和左右嘴角这五个特征点的坐标均值。二是计算几何变换矩阵，常用的人脸对齐变换方式有两种，一种是仿射变换，另一种是相似变换。

仿射变换是一种二维空间里的线性变换，变换过程中保留点或者直线的性质，两条平行直线经过仿射变换后依旧会保持平行，包括平移变换，剪切变换，缩放变换和旋转变换，主要解决人脸大小不均的问题。

在仿射变换的变换矩阵里，t_x和t_y代表坐标在x，y轴两个方向的平移量，矩阵参数A中也包括图像剪切，缩放和旋转等变换。

相似变换是仿射变换的一个特例，并不会对图片进行拉升，只会进行平移，旋转和缩放。

其中s是缩放因子，θ是图片旋转角度，t_x和t_y表示图片平移量。在一般的人脸对齐任务中，采用和固定模板对其的方式。可以理解为对其模板是一组人脸特征点的位置坐标，而人脸对齐模板是一组认为确定好的位置坐标，一般选取数据集上的平均坐标，计算方式为：

所有图片经过人脸特征点定位网络后得到特征点的坐标，计算特征点坐标映射到模板所需的几何变换矩阵，用几何变换矩阵把人脸图片映射到适合机器处理的固定的某种状态。

本文具体利用空间转换网络法来进行人脸对齐。空间转换网络的本质是用一个子网络来学习图片的映射变换参数，再对图片进行几何变换，使得变换后的形态更利于后续流程的识别，这个子网络就叫做空间转换网络。它一般会以一个结构简单的网络形态嵌入到原始任务网络中，依赖于任务网络的监督信息，结合反向传播算法和最小梯度下降算法，对网络参数进行优化，总结出一个最优于目标的图片转换方式，如图2所示。

空间转换网络的第一个核心是定位网络，用于生成变换矩阵参数。定位网络的输入是一个H×W×C大小的特征图，经过定位网络的处理后输出向量θ表示变换系数。以输入特征图的任意点为中心，用采样核进行采样，输出的某一个点可以解释为某一个规则网络G上的点G_i，其坐标为

对于G上的每一个点G_i，都能通过变换矩阵T找到其在输入特征图上的对应点。变换矩阵T为：

变换矩阵T_θ包含了图片变换的角度，缩放和坐标移动的信息，因为其属于不同量纲，所以空间转换网络也起到了归一化的作用，将坐标归一化到[-1,1]的范围，方便神经模型训练。任务网络是一个人脸识别的网络，用人脸的身份标签作为监督信息，再加上Softmax等损失函数进行约束，可以产生较为准确的空间转换网络的参数。空间转换网络可以直接嵌入到网络中间层，因为它是对某一部分的图片进行变换学习，处理后再丢回任务网络中。处理中间特征图的好处在于计算量更少，主要集中在几何投影部分，特征图越大，运算量也会跟着增大。

步骤3：基于YOLOV2的人脸检测。

YOLO(You Only Look Once)是一种基于深度神经网络的对象识别和定位算法，是深度学习的一个分支，最大的特点是运行速度很快，可以用于实时系统，本文采取其V2版本。基于YOLOV2的目标检测模型是一个把目标检测任务当作回归任务处理的深度学习模型，用卷积神经网络在一整个图像上得到目标边界框的位置和所属的类别，方法如下：

(1)数据初步处理：

首先将输入图像划分为S×S的单元格，若图像中物体存在于某单元格中，那么该单元格需要检测相应的物体，每个单元格生成B个预测边界框和对应的置信度。置信度表示边界框中是否包含物体的准确性，定义如下：

其中Pr(Object)表示边界框中是否包含物体，若包含物体，则值为1，若不包含物体，值为0。

代表网络预测的边界框和图片中实际边界框的重合率：

每个边界框包含5个预测信息：x,y,w,h和置信度。x,y表示边界框中心坐标偏移值，w,h表示边界框的宽和高，置信度表示预测边界框和真实边界框的重合率。每个单元格预测包含物体所属类别概率值：Pr(Class_i|Object)，表示在每个单元格包含物体的前提下，此物体属于某个类别的概率。

切分成S×S个单元格后，每个单元格预测得到B个边界框和对应的置信度以及C个类别的概率值。所以每一幅图经过初步处理后得到S×S×(B×5+C)个参数值，损失函数参考上文求出的L_*。

(2)引入BN层和使用高分辨率分类器：

BN层有利于提高网络的收敛性，能防止模型产生过拟合现象。ImageNet数据集上训练可以得到性能较好的目标检测模型，分辨率为224*224，将其提高到 448*448后，可使得准确度有所提升。

(3)用带有锚点框的卷积和维度聚类：

去掉全连接层，用锚点框来预测边界框。首先去除一个池化层，让网络卷积层输出图像的分辨率提高，然后缩减输入层分辨率，用卷积层进行下层采样，固定住最终特征图尺寸，让宽和高都为奇数，特征图只有一个中心点，可以有效提升准确率。

用K-均值的放屎对训练数据集中的边界框进行聚类分析，找到最优锚点框，用以下方式进行距离度量：

d(box,centroid)＝1-IQU(box,entroid)

(4)边界框位置的预测：

为了预防预测机制引起模型训练不稳定的问题，用直接预测的方法对边界框进行预测，每个边界框预测5个值：t_x,t_y,t_W,t_h和t₀，假设此单元格距离图像左上角的偏移量为c_x,c_y，先验框的宽和高为p_w,p_h，则预测结果如下所示：

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

Pr(Object)×IQU(b,object)＝σ(t₀)

(5)增加细粒度特征和多尺度训练：

在网络中增加细粒度特征，提升模型对小物体定位的准确性，引入与恒等映射相类似的方法，增加一个pass through层。

为了增加容错率，采用多尺度训练的策略。在训练阶段，针对10个batch，网络改变一次输入图像分辨率，因为采样比例是32，所以输入图像分辨率要求是32的整数倍：{320...640}，在高分辨率的图像上运行可以取得较高的准确率，可以在实时性和定位精度上视线简单权衡。

Claims

1.一种基于深度学习和空间转换网络的多角度人脸识别方法，其特征在于，包括以下步骤：

(3)基于YOLOV2对人脸进行检测；

步骤(1)所述的损失函数的改进如下：

L-sofmax损失函数表达式如下：

Angular softmax损失函数：

Additive margin softmax损失函数：

改进后的损失函数为：

其中，θ_i代表权重W_i和特征x_i的夹角，m代表角度边缘值，k为常数，取值范围在0到m-1之间，s表示偏移量；

所述步骤(2)实现过程如下：

2.根据权利要求1所述的基于深度学习和空间转换网络的多角度人脸识别方法，其特征在于，步骤(1)所述的卷积神经网络包括卷积层、激活函数层、池化层、BN层、全连接层和softmax损失函数；所述池化层被嵌入到卷积层之间，包括最大池化和平均池化。

3.根据权利要求1所述的基于深度学习和空间转换网络的多角度人脸识别方法，其特征在于，所述步骤(3)包括以下步骤：

(32)引入BN层和使用高分辨率分类器；

(34)用直接预测的方法对边界框进行预测；