CN106909905B

CN106909905B - 一种基于深度学习的多模态人脸识别方法

Info

Publication number: CN106909905B
Application number: CN201710122193.1A
Authority: CN
Inventors: 张�浩; 韩琥; 山世光; 陈熙霖
Original assignee: In Extension (beijing) Technology Co Ltd
Current assignee: In Extension (beijing) Technology Co Ltd
Priority date: 2017-03-02
Filing date: 2017-03-02
Publication date: 2020-02-14
Anticipated expiration: 2037-03-02
Also published as: CN106909905A

Abstract

本发明公开了一种基于深度学习的多模态人脸识别方法，包括(1)对RGB人脸图像进行人脸检测和对齐，根据模态之间的映射关系裁切制作RGB模态和其他模态的人脸数据集S0，S1，S2……；(2)设计一个多模态融合的深度卷积神经网络结构N1，并训练N1网络；(3)设计一个多模态共享的深度卷积神经网络结构N2，并训练N2网络；(4)提取特征阶段、(5)相似度计算阶段和(6)相似度融合阶段。本发明采用多模态系统，通过进行多种人脸模态数据的采集，利用多种模态信息各自的优点，通过融合策略来克服单模态系统的某些内在弱点，同时充分的利用多种模态信息，有效地提升了人脸识别系统的性能，使得人脸识别更加快捷准确。

Description

一种基于深度学习的多模态人脸识别方法

技术领域

本发明涉及一种人脸识别方法，尤其涉及一种基于深度学习的多模态人脸识别方法。

背景技术

三维人脸识别相对于二维人脸识别，有着其对光照鲁棒、受姿态以及表情等因素影响较小等优点，因此在三维数据采集技术飞速发展以及三维数据的质量和精度大大提升之后，很多学者都将他们的研究投入到该领域中。

人脸不同模态的图像容易受到不同因素等的影响，这些因素在一定程度上影响了单模态人脸识别系统的稳定性及准确性。CN104778441A提出了一种融合灰度信息和深度信息的多模态人脸识别装置及方法，其核心方法是通过提取多模态的人脸特征后(发明中所使用的特征为手工设计的特征)，拼接起来形成一个特征池，为特征池的每一个特征构建一个弱分类器，然后利用Adaboost算法，在特征池中挑选出对于分类最为有效的特征，最后基于多模态特征层融合得到的特征，利用最近邻分类器计算出匹配分数，以此实现多模态人脸识别。但是该发明所使用的特征均为人工设计的特征，表达能力不够强；且该发明的特征利用Adaboost算法进行特征融合和特征选择，效率较低；且该发明是为特定两种模态设计的，具有局限性。

发明内容

为了解决上述问题中的不足之处，本发明提供了一种基于深度学习的多模态人脸识别方法。

为了解决以上技术问题，本发明采用的技术方案是：一种基于深度学习的多模态人脸识别方法，包括以下步骤：

(1)对RGB人脸图像进行人脸检测，特征点定位，对齐，裁切，制作裁切后的RGB模态人脸数据集S0；根据RGB模态和其他模态之间的坐标映射关系，找到其他模态人脸的特征点，并裁切制作其他模态的人脸数据集S1，S2……；

(2)设计一个多模态融合的深度卷积神经网络结构N1，在这个结构中，前半部分是几个独立的神经网络分支，每个分支的输入对应一个模态，然后用特定的网络结构把多个模态分支融合成一个分支，再连接一系列神经网络结构单元；然后将S0，S1，S2……送入到N1的不同分支中，训练N1网络，训练好的模型用M1来表示；

上述神经网络结构单元包括但不限于卷积层、归一化层、非线性层、池化层和全连接层和分布归一化层；模态包括但不限于RGB模态、深度模态和近红外模态；特定的网络结构中，每个分支有各自的分类损失作为各个模态各自的监督信号，结构融合方法采用特征拼接；

(3)设计一个多模态共享的深度卷积神经网络结构N2，将S0，S1，S2……不加区分的一起送入N2中，训练N2网络，训练好的模型用M2来表示；

(4)提取特征阶段，对于注册集和查询集的图像，其模态范围在训练集模态范围内。某图像的不同模态可以表示为I0，I1，I2……，然后把I0，I1，I2……分别在模型M1和M2上提取特征，特征可用F0，F0C，F1，F1C，F2，F2C……表示，C表示是从M2上提取的特征；

(5)分别计算GF0和PF0之间的相似度S00，GF1和PF1的相似度S11，GF2和PF2的相似度S22；计算GF0C和PF1C之间的相似度S01，类似的计算出跨模态相似度S02，S03，S12，S13，S23……；

上述GF0表示注册集图像的F0，PF0表示查询集图像的F0，GF0C表示注册集图像的F0C，PF1C表示查询集图像的F1C；

(6)对所有的注册集和查询集相似度进行加权求和融合，得到最终的融合相似度S，在融合相似度S构成的相似度矩阵上进行人脸识别和人脸确认。

步骤(2)中，训练N1网络的时候，损失层可以使用softmax with loss或者使用其他损失层。

步骤(3)中，将S0，S1，S2……不加区分的送入N2中的时候，如果它们的通道数不同，则可以采取全部变为单通道的方式归一化为相同通道，或者重复单通道至通道数相同，然后再送入网络结构中进行训练。

步骤(4)中，对于注册集和查询集的图像，其模态范围在训练集模态范围以内。

本发明采用多模态系统，通过进行多种人脸模态数据的采集，利用多种模态信息各自的优点，通过融合策略来克服单模态系统的某些内在弱点，同时充分的利用多种模态信息，有效地提升了人脸识别系统的性能，使得人脸识别更加快捷准确。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明人脸识别算法的流程图。

图2是本发明多模态融合的深度卷积神经网络的结构框图。

图3是图2中Loss4的具体结构框图。

具体实施方式

如图1所示，本发明具体包括以下步骤：

(1)对RGB人脸图像进行人脸检测，特征点定位，对齐，裁切，制作裁切后的RGB模态人脸数据集S0；然后根据RGB模态和其他模态(如深度信息，近红外信息等)之间的坐标映射关系，找到其他模态人脸的特征点，并裁切制作其他模态的人脸数据集S1，S2……；

(2)设计一个多模态融合的深度神经网络结构N1，在这个结构中，前半部分是几个独立的神经网络分支，每个分支的输入对应一个模态(如RGB模态，深度模态，近红外模态等)，然后用特定的网络结构把多个模态分支融合为一个合成的神经网络分支(例如把这些特征连接起来，或按通道堆叠起来，或其他的连接结构，例如附图3那样的结构等)，再连接一系列神经网络结构单元(如卷积层、归一化层、非线性层、池化层、全连接层等)；然后将S0，S1，S2……送入到N1的不同分支中，训练N1网络，训练好的模型用M1来表示；

(3)设计一个多模态共享的深度神经网络结构N2，将S0，S1，S2……不加区分的一起送入N2中，训练N2网络，训练好的模型用M2来表示；

(4)提取特征阶段，对于注册集和查询集的图像，其模态范围在训练集模态范围内，某图像的不同模态可以表示为I0，I1，I2……，然后把I0，I1，I2……分别在模型M1和M2上提取特征，特征可用F0，F0C，F1，F1C，F2，F2C……表示，C表示是从M2上提取的特征；

(5)计算GF0和PF0(分别表示注册集图像的F0和查询集图像的F0)之间的相似度S00，GF1和PF1的相似度S11，GF2和PF2的相似度S22；计算GF0C和PF1C(分别表示注册集图像的F0C和查询集图像的F1C)之间的相似度S01，类似的计算出跨模态相似度S02，S03，S12，S13，S23……；

(6)对所有的注册集和查询集的相似度进行加权求和融合，得到最终的融合相似度S，在融合相似度S构成的相似度矩阵上进行人脸识别和人脸确认。

上述加权求和融合的公式可以表示为：S＝p1*S1+p2*S2+p3*S3……，其中p1:p2:p3可以是S1，S2，S3单独进行人脸识别实验得到的识别正确率(r1，r2，r3)的反比(1/r1:1/r2:1/r3)。

在步骤(2)中的深度神经网络结构N1中，网络结构单元可以包括但不限于卷积层，池化层，非线性函数层，全连接层，分布归一化层等，并且包括但不限于这些层的任意组合；网络结构单元的简单组合可以是全新设计的，也可以是基于已有的公开网络结构修改的，网络结构单元的简单组合本身不是保护的范围，但凡是符合本发明所叙述的，前半部分是几个独立的神经网络分支，通过特定结构融合为一个合成的分支，且特定结构中每个模态分支都有各自的独立监督信号，合成后的分支之后再接一系列神经网络结构单元的结构形式，则属于保护的范围。

如图2所示给出了一个基于谷歌Inception-v2(谷歌所提出的一种深度网络结构)依照上述规则修改而来的网络结构，在该网络结构中，若去掉Loss4损失结构，去掉深度模态和近红外模态分支，只剩下RGB分支直接接到3*Inception结构(*表示多个类似的结构串联，如此处，为3个Inception结构串联，Inception结构为谷歌定义的一种子网络结构，在[2]中的Figure 3中有对Inception结构的表示)上，则完全就是谷歌Inception-v2网络结构本身，[1]的Figure 5中，附图2的2*(卷积+池化)对应Figure 5的convolution(卷积层)，max pool(最大池化层)，convolution(卷积层)，max pool(最大池化层)这四层，而从下向上的第一个3*Inception则对应[1]中的inception(3a),inception(3b),inception(3c)，其上的4*Inception则对应[1]中的inception(4a),inception(4b),inception(4c),inception(4d)，再其上的3*Inception则对应[1]中的inception(4e),inception(5a),inception(5b)，Loss3池化层则对应[1]中的avg pool(平均池化层)。

在我们的网络结构中，我们先让不同模态的数据(RGB，深度信息，近红外信息等)通过一系列神经网络结构，学习到模态特有的特征(融合结构中各模态各自的监督信号可以保证和促使模态特有特征的学习)，然后融合连接起来经过一系列神经网络结构，以帮助网络进行模态互补的特征学习，融合连接的时候可以使用按通道(channel)堆叠的方式将特征图堆叠起来。对于Loss4结构而言，其为特殊设计的结构，除了可以促进网络收敛，也可以促进网络学习模态互补特征，附图3中示出了Loss4的一种结构，三个分支分别对应三个模态，从附图2的三个分支接出去，结构中FC是表示全连接层，FC之后或之下的数字是表示该全连接层的结点数量；平均池化层池化区间为5*5，间隔步长为3；卷积层卷积核大小为1*1，间隔步长为1；训练集的总人数，是标签(label)的类别数量；+表示输入到其中的三个512结点的全连接层按结点求平均(fc3[i]＝(fcc3[i]+fcd3[i]+fcn3[i])/3,i＝1,2,3…512)，显然得到的还是一个512结点的全连接层，也即fc3；FC2048即是三个模态的512全连接层和三模态融合的512全连接层串接起来以后得到的2048维的全连接层；

本发明训练N1网络的时候，损失层可以使用softmax with loss(经典的分类损失层)，也可以使用其他损失层。训练所采用的算法是Back Propagation反向回传算法，通过回传损失层的误差来更新每一层的参数，使得网络参数得到更新，最终得到收敛。其具体的训练步骤，以本发明实验时所使用的数据集(非公开，与合作方合作采集的)为例，该数据集的训练集规模为约五十万样本，约五百人。使用32的batch(数据块)规模，基础学习率0.045，每6400迭代学习率乘以0.9，weight decay(权值衰减)为0.0002，momentum(动量参数)为0.9.训练约四十万次迭代。

本发明在深度神经网络结构N2中，同样的，网络结构单元可以包括但不限于卷积层，池化层，非线性函数层，全连接层，分布归一化层等，并且包括但不限于这些层的任意组合；在该步骤中，网络结构不是保护的范围，通过不区分模态的方式训练多模态公共特征空间的方法是保护的范围，网络结构可以全新设计，也可以使用学术界公开的网络结构如AlexNet，GoogleNet，ResNet等网络。将S0，S1，S2等不加区分的一起送入N2中的时候，如果它们的通道数不同，则可以采取全部变为单通道的方式归一化为相同通道(如RGB三通道变为灰度图单通道)，或者重复单通道至通道数相同(如重复近红外单通道图三次至三通道)，然后再送入网络结构中进行训练。

本实施例以RGB，深度信息，近红外信息为例，由于深度信息和近红外信息均为单通道，可以把所有样本的RGB图转为单通道灰度图，再送入N2网络中训练。以谷歌Inception-v2[1]为例，将五十万训练集的所有样本不分模态的看作一百五十万样本(RGB，深度，近红外三种模态，其中RGB在此转为灰度图)，输入Inception-v2中进行训练学习，使用32的batch数据块规模，基础学习率0.045，每19200次迭代学习率乘以0.9，weight decay(权值衰减)为0.0002，momentum(动量参数)为0.9，训练约一百二十万次迭代。得到的模型设为M2。则对于模型的特征，可认为是跨模态的特征，一个样本的RGB(已转为灰度图)特征可与其深度信息特征相比，查询集的RGB特征可与注册集的深度信息特征进行相似度比较，这是本发明跨模态识别部分的基本算法。

在提取特征阶段，对于注册集和查询集图像的模态范围可以是训练集模态范围的全集，也可以是真子集，但不能超出训练集模态范围以外；提取特征的位置可以在模型M1和M2的顶层，也可以在非顶层(如中间的某一层等)。

在上述的步骤(5)中，计算相似度的距离度量方法可以是余弦距离，也可以是欧式距离，或者马氏距离等其他距离度量。本发明以余弦距离为例，对于两个特征向量x1,x2，其余弦距离d＝x1’*x2/(|x1|*|x2|)。其中，假设x1,x2均为列向量，x1’为x1的转置，x1’*x2为x1’与x2的点乘，|x1|,|x2|为x1,x2的模长，其中模长满足|x1|2＝x1’*x1。

本发明人脸识别实验指的是给定一个注册集，注册集中有一系列不同的人脸图像，当给定一张查询图像时，找到该查询图像是注册集中的哪一个人，方法可以是认为注册集图像与查询图像相似度最高的那个人；人脸确认实验指的是，给定两张查询图像，确定这两张图像是否是同一个人，方法可以是确定一个阈值，若两张图像相似度高于阈值，则认为是同一个人，否则认为不是同一个人。

本发明具有几个关键技术点：1)使用网络结构进行多模态融合，融合位置在网络的中部，既非底层输入位置也非顶层损失层位置，融合的模态数量可以是两个，也可以是多个，融合结构中为每个模态提供了单独的监督信号，以使得每个模态自身的特征可以被充分挖掘而不至于被其他模态特征湮没。因此可以获得对于人脸识别而言的最充分泛化性能的特征表达和融合效果，并且不局限于两个模态，可以适应多个模态，更加灵活。2)对于跨模态公共特征空间的学习方式，把多种模态的人脸图像数据不加区分的作为输入加入到深度神经网络中进行训练，模态数量可以是两个，也可以是多个，图像的标签是人的标签，不对模态做区分，训练得到的公共特征空间可以选取网络的顶层，也可以选择网络的非顶层；技术效果是可以获得多种人脸模态之间跨模态的识别效果。3)对所有多模态模态内部相似度和跨模态模态之间相似度进行加权求和融合的方式，得到最终两个图像的多模态融合相似度，对于测试图像而言模态可以完整也可以不完整，其模态类型集合可以是训练集合模态类型集合的全集也可以是真子集；技术效果是使得多模态人脸识别获得很强的灵活性和适用性，可以适用于多模态人脸识别的很多场景(如仅注册集多模态，查询图像单模态等)。

因此，本发明通过设计多模态和跨模态的深度学习网络，充分的挖掘和学习人脸多模态之间的互补特征，极大的提高了人脸识别的性能，并提供了很强的多模态和跨模态人脸识别应用的灵活性和适用性。

上述实施方式并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的技术方案范围内所做出的变化、改型、添加或替换，也均属于本发明的保护范围。

Claims

1.一种基于深度学习的多模态人脸识别方法，其特征在于，包括以下步骤：

(2)设计一个多模态融合的深度卷积神经网络结构N1，在这个结构中，前半部分是几个独立的神经网络分支，每个分支的输入对应一个模态，然后用特定的网络结构把多个模态分支融合成一个分支，再连接一系列神经网络结构单元；然后将S0，S1，S2……送入到N1的对应分支中，训练N1网络，训练好的模型用M1来表示；

上述模态包括但不限于RGB模态、深度模态和近红外模态；特定的网络结构中，每个分支有各自的分类损失作为各个模态各自的监督信号，结构融合方法采用特征拼接；

2.根据权利要求1所述的基于深度学习的多模态人脸识别方法，其特征在于：所述神经网络结构单元包括但不限于卷积层、归一化层、非线性层、池化层和全连接层和分布归一化层。

3.根据权利要求1所述的基于深度学习的多模态人脸识别方法，其特征在于：所述步骤(2)中，训练N1网络的时候，损失层可以使用softmax with loss或者使用其他损失层。

4.根据权利要求1所述的基于深度学习的多模态人脸识别方法，其特征在于：所述步骤(3)中，将S0，S1，S2……不加区分的送入N2中的时候，如果它们的通道数不同，则可以采取全部变为单通道的方式归一化为相同通道，或者重复单通道至通道数相同，然后再送入网络结构中进行训练。

5.根据权利要求1所述的基于深度学习的多模态人脸识别方法，其特征在于：所述步骤(4)中，对于注册集和查询集的图像，其模态范围在训练集模态范围以内。