CN111339869A

CN111339869A - 一种人脸识别方法、装置、计算机可读存储介质及设备

Info

Publication number: CN111339869A
Application number: CN202010098944.2A
Authority: CN
Inventors: 温建伟; 王宇杰; 袁潮; 方璐; 赵月峰
Original assignee: Beijing Zhuohe Technology Co Ltd
Current assignee: Shenzhen Zhuohe Technology Co ltd
Priority date: 2020-02-18
Filing date: 2020-02-18
Publication date: 2020-06-26

Abstract

本发明公开了一种人脸识别方法、装置、计算机可读存储介质及设备，其中方法包括如下步骤：提取图像的第一特征图；获取所述第一特征图中包含单个人脸的区域对应的边框坐标值；根据所述第一特征图和所述边框坐标值，将所述第一特征图中包含单个人脸的区域转化为第二特征图；获取第二特征图中的人脸关键点坐标值；根据所述第二特征图及所述人脸关键点坐标值，获取与标准人脸模板对齐的第三特征图；获取所述第三特征图对应的特征向量，计算所述特征向量与人脸模板库里的标准特征向量的相似度，输出相似度在预定阈值范围内的标准特征向量对应的身份。在训练过程中可以实现通过对整体神经网络进行端对端的训练，有效地提升了人脸识别的效率。

Description

一种人脸识别方法、装置、计算机可读存储介质及设备

技术领域

本发明涉及图形处理与机器深度学习的技术领域，尤其涉及一种人脸识别方法、装置、计算机可读存储介质及设备。

背景技术

人脸识别技术是基于人的脸部特征，对输入的人脸视频流进行检测和分类。现有人脸识别的技术中，人脸检测部件进行查找人脸、人脸对齐部件提取人脸的特征信息以及人脸识别部件进行识别的过程中，三个部件是相互独立的，三者之间仅实现结果数据的传输，未实现连接，因此其各个步骤需要进行独立训练，最终再对三个部件进行并行化设计，流程及训练过程复杂，效率低。

发明内容

为了解决现有技术中人脸识别效率低的问题，提出了一种人脸识别方法、装置、计算机可读存储介质及设备。

根据本发明的一个方面，提供了一种人脸识别方法，包括如下步骤：

提取图像的第一特征图；

获取所述第一特征图中包含单个人脸的区域对应的边框坐标值；

根据所述第一特征图和所述边框坐标值，将所述第一特征图中包含单个人脸的区域转化为第二特征图；

获取第二特征图中的人脸关键点坐标值；

根据所述第二特征图及所述人脸关键点坐标值，获取与标准人脸模板对齐的第三特征图；

获取所述第三特征图对应的特征向量，计算所述特征向量与人脸模板库里的标准特征向量的相似度，输出相似度在预定阈值范围内的标准特征向量对应的身份。

进一步地，所述根据所述第一特征图和所述边框坐标值，将所述第一特征图中包含单个人脸的区域转化为第二特征图，包括：

根据所述边框坐标值提取所述第一特征图中对应的单个人脸的区域，得到一个或一个以上的单个人脸区域；

将一个或一个以上所述单个人脸区域分别转化成固定大小的第二特征图。

进一步地，所述根据所述第二特征图及所述人脸关键点坐标值，获取与标准人脸模板对齐的第三特征图，包括：

将第二特征图由初始状态经过仿射变换，使得第二特征图的边框与标准人脸模板的边框对齐，且所述人脸关键点坐标值与标准人脸模板的对应关键点坐标值对齐，得到第三特征图。

进一步地，所述方法还包括：优化所述特征向量的步骤，所述优化所述特征向量的步骤包括：

构建损失函数，以所述第三特征图对应的特征向量作为所述损失函数的输入，得到分类概率；利用反向传播算法计算各神经网络层梯度，并更新每个神经网络层对应的权重值，直至所述特征向量能够得到预定范围的分类概率。

根据本发明的另一个方面，提供了一种人脸识别装置，包括：

人脸检测模块，用于提取图像的第一特征图；获取所述第一特征图中包含单个人脸的区域对应的边框坐标值；

人脸对齐模块，用于根据所述第一特征图和所述边框坐标值，将所述第一特征图中包含单个人脸的区域转化为第二特征图；获取第二特征图中的人脸关键点坐标值；根据所述第二特征图及所述人脸关键点坐标值，获取与标准人脸模板对齐的第三特征图；

人脸识别模块，用于获取所述第三特征图对应的特征向量，计算所述特征向量与人脸模板库里的标准特征向量的相似度，输出相似度在预定阈值范围内的标准特征向量对应的身份。

进一步地，所述人脸检测模块包括区域生成网络；

所述区域生成网络用于从所述第一特征图中获取包含单个人脸的区域对应的边框坐标值。

进一步地，所述人脸对齐模块包括感兴趣区域池化层；

所述感兴趣区域池化层用于接收所述第一特征图和所述边框坐标值，并将所述第一特征图中包含单个人脸的区域转化为第二特征图。

进一步地，所述人脸对齐模块包括仿射投影层；

所述仿射投影层用于接收所述第二特征图及所述人脸关键点坐标值，并对所述第二特征图进行旋转及平移，获取与标准人脸模板对齐的第三特征图。

根据本发明的另一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被执行时实现任意一项所述方法的步骤。

根据本发明的另一个方面，提供了一种计算机设备，包括处理器、存储器和存储于所述存储器上的计算机程序，所述处理器执行所述计算机程序时实现任意一项所述方法的步骤。

本发明中的人脸识别方法、装置、计算机可读存储介质及设备具有如下技术效果：上述方法中的各步骤之间形成一个整体的神经网络，各步骤之间不仅能够实现各自处理结果的传递，上一步输出的中间数据还可作为下一步的输入进一步进行数据处理，最终得到人脸特征图对应的特征向量；在训练过程中可以实现通过对整体神经网络进行端对端的训练，有效地提升了人脸识别的效率。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例提供的人脸识别方法的流程图；

图2是本发明另一实施例提供的人脸识别方法的流程图；

图3是本发明实施例提供的人脸识别方法的装置的示意图；

图4是本发明实施例提供的基于端对端的神经网络架构图；

图5是本发明实施例提供的人脸识别方法的传输示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

本发明实施例一提供的一种人脸识别方法，如图1及图4所示，该方法包括如下步骤：

S101、提取图像的第一特征图；

将包含人脸的图像(图片或视频流)输入到第一卷积神经网络(ConvolutionalNeural Networks，CNN)，通过第一卷积神经网络提取图像对应的第一特征图；其中，第一特征图可视为将图像按一定比例的缩小图，第一特征图中可能包含多个人像及图像部分背景。

例如，输入的图像是一张包含10个人的集体照，经过步骤S101提取得到的第一特征图中同时包含这10个人像。

S102、获取所述第一特征图中包含单个人脸的区域对应的边框坐标值；

将第一特征图输入到人脸区域提案的子网络，本示例采用区域生成网络(RegionProposal Network)，以区域生成网络从第一特征图中获取第一特征图中包含单个人脸的区域对应的边框坐标值；由于第一特征图中可能包含多个人像，因此此步骤中可能得到多个包含单个人脸的区域，以及多组单个人脸各自对应的边框坐标值。

当第一特征图中包含10个人像，步骤S102中从第一特征图中提取每个人脸区域对应的边框坐标值，会得到与10个人脸一一对应的10组边框坐标值。其中，每个边框坐标值可以通过各人脸所在矩形框的任一点坐标及其长宽值表示。

S103、根据所述第一特征图和所述边框坐标值，将所述第一特征图中包含单个人脸的区域转化为第二特征图；

将第一特征图和边框坐标值输入至感兴趣区域池化层(ROI Pool)，感兴趣区域池化层根据各边框坐标值定位各对应的单个人脸所在区域，提取第一特征图中各单个人脸的区域，得到一个或一个以上的单个人脸区域；将一个或一个以上所述单个人脸区域分别转化成固定大小的第二特征图。

对于步骤S102中得到的与10个人脸一一对应的10组边框坐标值，每个边框坐标值都能够对应出一个人脸在第一特征图中的位置，步骤S103则可以对每个人脸区域进行提取，得到10个包含单个人脸的区域；将这10个包含单个人脸的区域均转化成同一固定大小的第二特征图，由此得到10个规格统一的且对应不同人脸的第二特征图。

S104、获取第二特征图中的人脸关键点坐标值；

其中，人脸关键点可以是五官对应的多个点的坐标。具体的，将固定大小的第二特征图输入到第二卷积神经网络，通过第二卷积神经网络从固定大小的第二特征图中获取人脸关键点的坐标值。步骤S103得到的10个第二特征图中，步骤S104进行获取每个第二特征图的人脸关键点坐标值，得到10组人脸关键点坐标值。

S105、根据所述第二特征图及所述人脸关键点坐标值，获取与标准人脸模板对齐的第三特征图；

将固定大小的第二特征图和人脸关键点坐标值输入给仿射投影层(Affinewarping layer)，仿射投影层将第二特征图由初始状态经过仿射变换，使得第二特征图的边框与标准人脸模板的边框对齐，且所述人脸关键点坐标值与标准人脸模板的对应关键点坐标值对齐，得到第三特征图。

步骤S105根据10组人脸关键点坐标值，对10个第二特征图均进行仿射变换，得到10个与标准人脸模板对齐的第三特征图。

S106、获取所述第三特征图对应的特征向量，计算所述特征向量与人脸模板库里的标准特征向量的相似度，输出相似度在预定阈值范围内的标准特征向量对应的身份。

将对齐后的人脸特征图输入到第三卷积神经网络，通过第三卷积神经网络获取所述对齐的人脸特征图对应的特征向量，每张特征图最后对应一个512维的特征向量。特征向量与人脸模板库里的标准特征向量的相似度可采用人脸识别中的常用算法，如采用欧式距离法表示相似度，欧式距离可表示为：

其中，d表示特征向量与标准特征向量的欧式距离，N表示特征向量或标准特征向量的维数，x_1i表示特征向量的第i维分量，x_2i表示标准特征向量的第i维分量。欧式距离法能够衡量特征向量与标准特征向量的各个对应维数的分量之间差的平方和，平方和越接近0，即d(距离)越小，特征向量与标准特征向量的特征越相似。本实施例中，当欧式距离(可视为相似度)在0-1.5这一预定阈值范围内时，则认为特征向量对应的人脸对应该标准特征向量代表的身份。

步骤S105得到10个第三特征图，则在步骤S106中，获取10个特征向量，利用网络计算这10个特征向量与人脸模板库的标准向量的相似度，输出这10个特征向量对应的识别结果，完成对最初输入的10个人的集体照的人脸识别。

本发明实施例二提供的一种基于端对端神经网络的人脸识别方法，如图2及图5所示，该方法包括如下步骤：

S201、提取图像的第一特征图；具体实施可参照步骤S101；

S202、获取所述第一特征图中包含单个人脸的区域对应的边框坐标值；具体实施可参照步骤S201；

步骤S201及步骤S202实质是人脸检测过程。

S203、根据所述第一特征图和所述边框坐标值，将所述第一特征图中包含单个人脸的区域转化为第二特征图；具体实施可参照步骤S103；

S204、获取第二特征图中的人脸关键点坐标值；具体实施可参照步骤S104；

S205、根据所述第二特征图及所述人脸关键点坐标值，获取与标准人脸模板对齐的第三特征图；具体实施可参照步骤S105；

步骤S203-205实质是人脸对齐过程。

S206、获取所述第三特征图对应的特征向量，计算所述特征向量与人脸模板库里的标准特征向量的相似度，输出相似度在预定阈值范围内的标准特征向量对应的身份；具体实施可参照步骤S106；

步骤S206实质是人脸识别过程。

S207、构建损失函数，以所述第三特征图对应的特征向量作为所述损失函数的输入，得到分类概率；利用反向传播算法(backpropagation)计算各神经网络层梯度，并更新每个神经网络层对应的权重值，直至所述特征向量能够得到预定范围的分类概率。

构建整个神经网络的训练损失函数，本实施例中可采用基于softmax分类的损失函数，将得到的特征向量输入到全连接层(fully connected layer)以及softmax层得到分类概率，目的是促使训练学到的人脸表示(特征向量)具有较小的类内距离，同时具有较大的类间距离，即不同人的人脸特征向量之间的距离尽量大，相同人的人脸特征向量之间的距离则尽量小，从而保证利用特征向量进行人脸识别的结果准确快速，优化特征向量。其中，全连接层与第三卷积神经网络的卷积层连接，softmax层与全连接层连接。

具体的，利用softmax层的输出构建损失函数，可表示为：

其中，N表示训练的batch size(即一次训练所选取的样本数量)，n表示类别总数，x_i表示输出的人脸特征向量，y_i表示样本xi的真实类别，W表示全连接层的权重，b表示全连接层的偏置(偏移量)。

本申请中，人脸识别是在一个整体网络下进行的，因此基于损失函数的优化可以对整体网络实现端对端的训练。

本实施例中，包含了多个网络层级(如人脸检测过程、人脸对齐过程及人脸识别过程可以视为三个子神经网络层，每个子神经网络层还包含多个神经网络层)，各层权重的大小会影响损失函数的大小，并且各个神经网络层均满足可微分的条件，比如设置的人脸检测过程中的RPN网络、人脸对齐过程中的ROI Pooling层和Affine warp层。

为进一步优化损失函数，进行反向传播的过程中，逐层求出损失函数对各个神经网络层权重的偏导数，视为损失函数对各权重的梯度，以梯度更新各神经网络层的权重，直至得到预定范围的损失函数。

不同于现有技术中对人脸检测、对齐、识别三个结构进行分别独立训练、再整体优化，较复杂。本申请是对包含人脸检测、对齐、识别三个层级的整体神经网络进行端对端训练，能够对各个神经层之间实现联合训练，并通过反向传播更新各层级的权重，对各神经网络层之间实现联合优化，求得最优解；提高整体效果，从而能有效地提升了效率和精度，简化计算流程。例如，以人脸检测步骤为例，现有技术中人脸检测结构得到从输入图像中截出来的人脸区域或特征图(相当于处理结果)，将得到的处理结果进行传递。而在本方法中还会得到人脸的边框坐标值，边框坐标值也能够传递至下一层级中。在对整个网络的训练及利用反向传播算法更新权重的过程中，由于有边框坐标值作为中间变量，因此边框坐标会得到优化，修正子神经网络的误差，从而保证人脸检测过程中得到更精确的人脸截图，进而提高了整个装置的精度。

下面给出基于端对端神经网络的人脸识别方法的一个具体示例：

S1：输入一张包含N个人脸的原始图片，其大小为600*1000*3；经过第一CNN网络提取特征后得到第一特征图，第一特征图大小为40*60*512，其中512表示使用了512个卷积核。

S2、将第一特征图输入到RPN网络，得到第一特征图中每个人脸的边框坐标值，输出边框坐标值的数据可表示为N*40*60*9*4，其中N表示在第一特征图中找到了N个人脸，9表示对于每一个找到的人脸对应有9个人脸模板可选(为了更好地拟合人脸)，4表示边框坐标值(x,y,w,h)；其中，x、y可表示包含单个人脸的任一边框上任一点的坐标，w、h可以表示这个边框的长和宽。例如，第一个人脸对应的边框坐标值可表示为：1*40*60*9*(x₁,y₁,w₁,h₁)。

S3：将得到的第一特征图和边框坐标值输入到ROI层，得到固定大小的N个第二特征图，第二特征图大小可表示为N*7*7*512，其中固定大小为7*7。例如，第一个人脸对应的第二特征图可表示为：1*7*7*512。

S4、将固定大小的第二特征图其再输入到第二CNN网络中进行人脸关键点坐标提取，得到N组人脸关键点坐标值，大小可表示为N*7*7*5*2，其中5表示提取每个人脸上的5个人脸关键点(如五官)，2表示该关键点的横纵坐标值；例如，第一个人脸对应的某一关键点的坐标值可表示为：1*7*7*1*(x₁,y₁)。

S5、接下来，将固定大小的第二特征图和人脸关键点坐标值输入到Affinewarping层，得到与标准人脸模板对齐后的N个第三特征图，大小可表示为N*7*7*512。例如，第一个人脸对应的第三特征图可表示为：1*7*7*512。

S6：将第三特征图输入到第三CNN网络中，得到对齐的第三特征图的特征向量，大小为N*512，表示每个人脸的特征向量维度为512维；

将得到的人脸特征向量与人脸模板库里的特征向量计算相似度，根据预定阈值来判断各个人脸是否为人脸模板库中的人脸，实现人脸识别。

本发明实施例三提供的一种基于端对端神经网络的人脸识别装置，如图3所示，包括：

人脸检测模块301，接收输入的图像，并用于提取图像的第一特征图；获取所述第一特征图中包含单个人脸的区域对应的边框坐标值；；

人脸对齐模块302，接收第一特征图和边框坐标值，并用于根据所述第一特征图和所述边框坐标值，将所述第一特征图中包含单个人脸的区域转化为第二特征图；获取第二特征图中的人脸关键点坐标值；根据所述第二特征图及所述人脸关键点坐标值，获取与标准人脸模板对齐的第三特征图；

人脸识别模块303，接收第三特征图，并用于获取所述第三特征图对应的特征向量，计算所述特征向量与人脸模板库里的标准特征向量的相似度，输出相似度在预定阈值范围内的标准特征向量对应的身份。

本发明实施例中提供的基于端对端神经网络的人脸识别装置，人脸检测模块301、人脸对齐模块302、人脸识别模块303之间可以共享网络中学到的特征，使得前后结果具有一致性，可以达到相互补充与改进的作用。

在一个示例中，所述人脸对齐模块302包括感兴趣区域池化层3021；

感兴趣区域池化层3021用于接收所述第一特征图和所述边框坐标值，并将所述第一特征图中包含单个人脸的区域转化为第二特征图。

在一个示例中，所述人脸对齐模块302包括仿射投影层3022；

仿射投影层3022用于接收所述第二特征图及所述人脸关键点坐标值，并对所述第二特征图进行旋转及平移，获取与标准人脸模板对齐的第三特征图。

在一个示例中，所述人脸检测模块301包括区域生成网络3011；

区域生成网络3011用于从所述第一特征图中获取包含单个人脸的区域对应的边框坐标值。

本发明实施例四提供的计算机可读存储介质，其上存储有计算机程序，所述计算机程序被执行时实现实施例一或实施例二所述方法的步骤。

本发明实施例五提供的一种计算机设备，包括处理器、存储器和存储于所述存储器上的计算机程序，所述处理器执行所述计算机程序时实现实施例一或实施例二所述方法的步骤。

上面描述的内容可以单独地或者以各种方式组合起来实施，而这些变型方式都在本发明的保护范围之内。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案而非限制，仅仅参照较佳实施例对本发明进行了详细说明。本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的权利要求范围当中。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、装置、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

Claims

1.一种人脸识别方法，其特征在于，包括如下步骤：

提取图像的第一特征图；

获取第二特征图中的人脸关键点坐标值；

2.根据权利要求1所述的人脸识别方法，其特征在于，所述根据所述第一特征图和所述边框坐标值，将所述第一特征图中包含单个人脸的区域转化为第二特征图，包括：

3.根据权利要求1所述的人脸识别方法，其特征在于，所述根据所述第二特征图及所述人脸关键点坐标值，获取与标准人脸模板对齐的第三特征图，包括：

4.根据权利要求1所述的人脸识别方法，其特征在于，所述方法还包括：

优化所述特征向量的步骤，所述优化所述特征向量的步骤包括：

构建损失函数，以所述第三特征图对应的特征向量作为所述损失函数的输入，得到分类概率；利用反向传播算法计算各神经网络层梯度，并更新每个神经网络层对应的权重值，直至所述特征向量得到预定范围的分类概率。

5.一种人脸识别装置，其特征在于，包括：

6.根据权利要求5所述的人脸识别装置，其特征在于，所述人脸检测模块包括区域生成网络；

7.根据权利要求5所述的人脸识别装置，其特征在于，所述人脸对齐模块包括感兴趣区域池化层；

8.根据权利要求5所述的人脸识别装置，其特征在于，所述人脸对齐模块包括仿射投影层；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被执行时实现如权利要求1-7中任意一项所述方法的步骤。

10.一种计算机设备，包括处理器、存储器和存储于所述存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-7中任意一项所述方法的步骤。