CN111898465B

CN111898465B - 一种人脸识别模型的获取方法和装置

Info

Publication number: CN111898465B
Application number: CN202010653428.1A
Authority: CN
Inventors: 雷军; 李健; 武卫东
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2020-07-08
Filing date: 2020-07-08
Publication date: 2024-05-14
Anticipated expiration: 2040-07-08
Also published as: CN111898465A

Abstract

本发明实施例提供了一种人脸识别模型的获取方法和装置，涉及人脸识别技术领域。本发明提供的人脸识别模型的获取方法和装置，对人脸识别网络架构中的不同特征层采用自适应权重进行加权处理，得到融合层；在人脸识别网络架构中的第一特征层增加辅助网络；根据辅助网络和融合层，更新人脸识别网络架构，获取更新后的目标人脸识别网络架构；根据目标人脸识别网络架构，获取目标损失函数；通过目标人脸识别网络架构以及目标损失函数，对人脸样本数据集进行训练，获取训练后的人脸识别模型，可以让人脸识别模型学习人脸的角度特征信息，使得后续的网络层在进行人脸识别的过程中能够不受同一人脸不同角度的干扰，提高人脸识别模型的辨识度和稳定性。

Description

一种人脸识别模型的获取方法和装置

技术领域

本发明涉及人脸识别技术领域，尤其涉及一种人脸识别模型的获取方法和装置。

背景技术

目前人脸识别的方法常用基准baseline网络，如一种开源的神经网络：深度残差网络(Residual Network，ResNet)来进行特征提取操作，在部分复杂应用场景下，会存在特征提取效果欠佳的问题，其可能的原因包括多角度人脸未经校准、人脸存在部分遮挡以及人脸特征提取能力不够等。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种人脸识别模型的获取方法和装置。

依据本发明的第一方面，提供了人脸识别模型的获取方法，该方法包括：

对人脸识别网络架构中的不同特征层采用自适应权重进行加权处理，得到融合层；

在所述人脸识别网络架构中的第一特征层增加辅助网络；

根据所述辅助网络和所述融合层，更新所述人脸识别网络架构，获取更新后的目标人脸识别网络架构；

根据所述目标人脸识别网络架构，获取目标损失函数；

通过所述目标人脸识别网络架构以及所述目标损失函数，对人脸样本数据集进行训练，获取训练后的人脸识别模型。

可选的，所述辅助网络连接全连接层，所述全连接层的输出值为人脸多个位姿角度。

可选的，所述人脸样本数据集包含多个人脸样本数据，每一所述人脸样本数据为包含人脸位姿角度的数据。

可选的，所述根据所述目标人脸识别网络架构，获取目标损失函数，包括：

获取所述人脸识别网络架构中采用的第一损失函数，以及所述辅助网络中采用的第二损失函数；

将所述第一损失函数和所述第二损失函数进行结合，获取结合后的目标损失函数。

可选的，所述通过所述目标人脸识别网络架构以及所述目标损失函数，对人脸样本数据集进行训练，获取训练后的人脸识别模型，包括：

对所述人脸样本数据集进行数据增强处理；

通过所述目标人脸识别网络架构以及所述目标损失函数，对数据增强之后的人脸样本数据集进行训练，获取训练后的人脸识别模型。

依据本发明的第二方面，提供了一种人脸识别模型的获取装置，该装置包括：

第一处理模块，用于对人脸识别网络架构中的不同特征层采用自适应权重进行加权处理，得到融合层；

第二处理模块，用于在所述人脸识别网络架构中的第一特征层增加辅助网络；

第一获取模块，用于根据所述辅助网络和所述融合层，更新所述人脸识别网络架构，获取更新后的目标人脸识别网络架构；

第二获取模块，用于根据所述目标人脸识别网络架构，获取目标损失函数；

第三获取模块，用于通过所述目标人脸识别网络架构以及所述目标损失函数，对人脸样本数据集进行训练，获取训练后的人脸识别模型。

可选的，所述第二获取模块，包括：

第一获取单元，用于获取所述人脸识别网络架构中采用的第一损失函数，以及所述辅助网络中采用的第二损失函数；

第二获取单元，用于将所述第一损失函数和所述第二损失函数进行结合，获取结合后的目标损失函数。

可选的，所述第三获取模块，包括：

第一处理单元，用于对所述人脸样本数据集进行数据增强处理；

第二处理单元，用于通过所述目标人脸识别网络架构以及所述目标损失函数，对数据增强之后的人脸样本数据集进行训练，获取训练后的人脸识别模型。

本发明实施例提供的一种人脸识别模型的获取方法和装置，通过对人脸识别网络架构中的不同特征层采用自适应权重进行加权处理，得到融合层，可以提升特征提取的效果；并且，在所述人脸识别网络架构中的第一特征层增加辅助网络，根据所述辅助网络和所述融合层，更新所述人脸识别网络架构，获取更新后的目标人脸识别网络架构，根据所述目标人脸识别网络架构，获取目标损失函数，通过所述目标人脸识别网络架构以及所述目标损失函数，对人脸样本数据集进行训练，获取训练后的人脸识别模型，可以让人脸识别模型学习人脸的角度特征信息，使得后续的网络层在进行人脸识别的过程中能够不受同一人脸不同角度的干扰，提高人脸识别模型的辨识度和稳定性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的人脸识别模型的获取方法的流程示意图；

图2为本发明实施例提供的人脸识别模型的获取装置的框图；

图3为本发明实施例提供的电子设备的框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解的是，还可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

如图1所示，本发明实施例提供了一种人脸识别模型的获取方法，所述方法具体可以包括：

步骤101，对人脸识别网络架构中的不同特征层采用自适应权重进行加权处理，得到融合层。

具体的，步骤101相当于是修改人脸识别网络架构的过程中，网络前期特征层的提取方式，不同的大小scale特征层之间的融合采用自适应的权重进行加权，类似一种空间注意力机制的特征。

需要说明的是，空间注意力的本质就是定位目标并进行变化或获取权重。

目前人脸识别网络架构中可以得出整个网络始终保持这图像高分辨率表征，逐步引入低分辨率卷积是为了获取相应的高语义信息，高分辨率与低分辨率通道并行连接的同时也不断进行特征融合，相互促进，从而提升高分辨率和低分辨率表征的表达能力。但是原始的特征提取一般都是一个特征层先改变尺寸resize，然后再和另一层的特征直接相加的方式，但是上述方式其实并不合理，因为这样默认了不同空间scale的特征层同等重要，更合理的方式应该是每个融合层都需要有一个可学习的自适应权重，然后进行加权，这样相当于加入了不同scale的空间注意力机制，从而提升特征提取的效果。

步骤102，在所述人脸识别网络架构中的第一特征层增加辅助网络。

具体的，在所述人脸识别网络架构中的第一特征层后可以添加辅助网络，换句话说，在第一特征层新开一个网络分支作为辅助网络，添加辅助网络的目的是为了让人脸识别模型学习人脸的角度特征信息，使得后续的网络层在进行人脸识别的过程中能够不受同一人脸不同角度的干扰，即辅助网络用于辅助人脸识别。其中，第一特征层为所述人脸识别网络架构中的其中一个特征层，例如：1/4特征层。

步骤103，根据所述辅助网络和所述融合层，更新所述人脸识别网络架构，获取更新后的目标人脸识别网络架构。

具体的，根据添加的辅助网络和加权之后得到的融合层修改所述人脸识别网络架构，可以获得修改后的人脸识别网络架构，即目标人脸识别网络架构，可以用于训练人脸识别模型。

具体的，所述辅助网络连接一个输出值为人脸多个位子角度的全连接层，例如：目标人脸识别网络架构中的主网络可以在1/2特征层处接入一个512维的全连接层，即人脸特征层，最后接上一个softmax层。全连接层的输出值为人脸3个位姿角度摇头yaw、点头pitch、歪头roll，可以只在训练模型阶段使用，可以起到辅助训练人脸识别模型的作用。

需要说明的是，人脸位子角度指的是头部在三维立体空间的三个角度，包括yaw、pitch、roll三个方位。

步骤104，根据所述目标人脸识别网络架构，获取目标损失函数。

具体的，根据所述目标人脸识别网络架构可以优化损失函数，得到优化后的目标损失函数，从而提升人脸识别的效果。

步骤105，通过所述目标人脸识别网络架构以及所述目标损失函数，对人脸样本数据集进行训练，获取训练后的人脸识别模型。

具体的，收集多个人脸样本数据作为人脸样本数据集，通过所述目标人脸识别网络架构以及所述目标损失函数，对收集的人脸样本数据集进行训练，可以得到训练之后的人脸识别模型，可以提高人脸识别模型的辨识度和稳定性。

例如：人脸样本数据的采集可以为：准备10000个人，每个人包含100张人脸图片，在进行训练时可以将图片大小归一化到640*640*3的彩图。

本发明上述实施例中，通过对人脸识别网络架构中的不同特征层采用自适应权重进行加权处理，得到融合层，可以提升特征提取的效果；并且，在所述人脸识别网络架构中的第一特征层增加辅助网络，根据所述辅助网络和所述融合层，更新所述人脸识别网络架构，获取更新后的目标人脸识别网络架构，根据所述目标人脸识别网络架构，获取目标损失函数，通过所述目标人脸识别网络架构以及所述目标损失函数，对人脸样本数据集进行训练，获取训练后的人脸识别模型，可以让人脸识别模型学习人脸的角度特征信息，使得后续的网络层在进行人脸识别的过程中能够不受同一人脸不同角度的干扰，提高人脸识别模型的辨识度和稳定性。

可选的，在整个人脸识别系统中，人脸检测后更重要的一个环节就是人脸识别。人脸识别的基本功能就是对比两个输入的人脸图片是否为同一个人，给出两个人脸图片的相似程度。在所述步骤105之后，所述方法还可以包括人脸识别步骤：

获取人脸数据；

将所述人脸数据输入训练后的人脸识别模型，得到最终特征层输出的人脸特征值。后续可以直接使用人脸特征值进行不同人脸的比对，从而进行人脸识别。

需要说明的是，最终特征层输出的人脸特征值可以为512维向量或者128维向量等，在此不做具体限定。

具体的，如果所述人脸样本数据集中的人脸样本数据不包含位姿角度标签，则需要进行处理从而获取相应的头部位姿数据，即人脸位姿角度。例如：对于每张人脸图片，如果没有位姿角度标签，可以利用开源软件(如：OpenFace等)计算得出人脸位姿角度的相关信息，也可以在人脸样本数据集中准备多角度的人脸样本数据。

可选的，所述步骤104具体可以包括：

具体的，在第一损失函数的基础上添加第二损失函数得到目标损失函数，可以在对人脸高效提取特征的同时，减少一定范围内，不同位姿人脸产生的不良影响。

目前，传统的人脸识别函数主要是损失函数triplet以及损失函数softmax及其变体，如电弧损失arc loss或者余弦损失cosine loss等，其目的基本上都在于要提高人脸的类内相似度，减少类间相似度，这样的人脸识别模型对不同人的区分能力会更强更稳定。针对特征学习任务，综合triplet和softmax的优势，圆弧损失circle loss更具有辨识度。因此，可以将损失函数circle loss作为第一损失函数，在损失函数circle loss的基础上，再添加上加权后的人脸头部位姿角度损失(即第二损失函数)，力求在对人脸高效提取特征的同时，减少一定范围内，不同位姿人脸产生的不良影响。例如：第一损失函数可以为circleloss损失函数，所述辅助网络采用的损失函数可以为L2loss。

可选的，所述步骤105具体可以包括：

对所述人脸样本数据集进行数据增强处理；

通过所述人脸识别网络架构以及所述目标损失函数，对数据增强之后的人脸样本数据集进行训练，获取训练后的人脸识别模型。

具体的，在训练过程中，可以对人脸样本数据集进行数据增强处理，如：随机遮挡处理、色度变化处理、亮度变化处理、模糊处理等，通过所述人脸识别网络架构以及所述目标损失函数，对数据增强之后的人脸样本数据集进行训练，可以有限提高人脸识别模型的效果，减少人脸位姿角度以及遮挡等条件的不良影响，提高人脸识别系统的辨识度，增强了人脸识别模型的稳定性。

下面通过一具体的实施例对上述方法进行详细说明：

人脸样本数据集的准备：准备10000个人，每个人包含100张图片，魔心给训练时图片大小归一化到640*640*3的彩图。对于每张人脸图片，如果没有位姿角度标签，可以利用开源软件(如：OpenFace等)计算得出人脸位姿角度的相关信息，也可以在人脸样本数据集中准备多角度的人脸样本数据。

数据增强处理：对人脸样本数据中的人脸样本数据进行部分遮挡处理，可以提高人脸识别在多角度及部分遮挡情况下的效果。

人脸识别模型训练：将人脸图片改变尺寸到640*640的彩图，进行一定程度的随机遮挡；采用TensorFlow框架进行模型训练，第一损失函数使用circle loss，第二损失函数使用L2loss，优化器使用自适应矩估计(Adaptivemoment estimation，Adam)，初始化学习率为0.01，每1000轮学习率衰减十分之一。其中，张量Tensor意味着N维数组，流Flow意味着基于数据流图的计算，TensorFlow为张量从流图的一端流动到另一端计算过程，TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。Adam是一种有效的随机优化方法，它只需要一阶的梯度，并且只需要很小的内存。该方法通过第一、第二梯度的估计，计算不同参数的自适应学习速率。

人脸识别测试：将待测试的人脸图片改变大小为640*640的彩图，获得512维的特征向量。

需要说明的是，arc loss、cosine loss、L2loss、circle loss均为多种神经网络的损失函数中的其中一种。

综上所述，本发明实施例中，融合了自适应权重的高分辨率特征提取模块加入到人脸识别网络中，利用辅助网络获取人脸位姿角度信息，对人脸识别网络进行改造优化，提升网络特征提取能力；并且加入部分随机遮挡等数据增强处理，结合更具辨识能力的目标损失函数训练神经网络，从而更有效地提取人脸特征，增加了人脸识别模型对不同位姿角度及遮挡等复杂应用场景的稳定性。

如图2所示，本发明实施例提供了一种人脸识别模型的获取装置200，所述装置包括：

第一处理模块201，用于对人脸识别网络架构中的不同特征层采用自适应权重进行加权处理，得到融合层；

第二处理模块202，用于在所述人脸识别网络架构中的第一特征层增加辅助网络；

第一获取模块203，用于根据所述辅助网络和所述融合层，更新所述人脸识别网络架构，获取更新后的目标人脸识别网络架构；

第二获取模块204，用于根据所述目标人脸识别网络架构，获取目标损失函数；

第三获取模块205，用于通过所述目标人脸识别网络架构以及所述目标损失函数，对人脸样本数据集进行训练，获取训练后的人脸识别模型。

本发明上述实施例中，第一处理模块201对人脸识别网络架构中的不同特征层采用自适应权重进行加权处理，得到融合层，可以提升特征提取的效果；并且，第二处理模块202在所述人脸识别网络架构中的第一特征层增加辅助网络，第一获取模块203根据所述辅助网络和所述融合层，更新所述人脸识别网络架构，获取更新后的目标人脸识别网络架构，第二获取模块204根据所述目标人脸识别网络架构，获取目标损失函数，第三获取模块205通过所述目标人脸识别网络架构以及所述目标损失函数，对人脸样本数据集进行训练，获取训练后的人脸识别模型，可以让人脸识别模型学习人脸的角度特征信息，使得后续的网络层在进行人脸识别的过程中能够不受同一人脸不同角度的干扰，提高人脸识别模型的辨识度和稳定性。

可选的，所述第二获取模块204，包括：

可选的，所述第三获取模块205，包括：

第二处理单元，用于通过所述人脸识别网络架构以及所述目标损失函数，对数据增强之后的人脸样本数据集进行训练，获取训练后的人脸识别模型。

需要说明的是，该人脸识别模型的获取装置实施例是与上述人脸识别模型的获取方法相对应的装置，上述方法实施例的所有实现方式均适用于该装置实施例中，也能达到与其相同的技术效果，在此不再赘述。

本发明实施例还提供了一种电子设备，如图3所示，包括处理器301、通信接口302、存储器303和通信总线304，其中，处理器301，通信接口302，存储器303通过通信总线304完成相互间的通信。

存储器303，用于存放计算机程序。

在电子设备为终端设备时，所述处理器301用于执行存储器303上所存放的程序时，实现如下步骤：

在所述人脸识别网络架构中的第一特征层增加辅助网络；

根据所述目标人脸识别网络架构，获取目标损失函数；

对所述人脸样本数据集进行数据增强处理；

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中所述的语音分割点的确定方法。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域技术人员易于想到的是：上述各个实施例的任意组合应用都是可行的，故上述各个实施例之间的任意组合都是本发明的实施方案，但是由于篇幅限制，本说明书在此就不一一详述了。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种人脸识别模型的获取方法，其特征在于，所述方法包括：

对人脸识别网络架构中的不同特征层采用自适应权重进行加权处理，得到融合层，具体包括：修改人脸识别网络架构的过程中，不同的大小scale特征层之间的融合采用自适应的权重进行加权；

在所述人脸识别网络架构中的第一特征层增加辅助网络，具体包括：在第一特征层新开一个网络分支作为辅助网络；

根据所述辅助网络和所述融合层，更新所述人脸识别网络架构，获取更新后的目标人脸识别网络架构；所述辅助网络连接全连接层，所述全连接层的输出值为人脸多个位姿角度；

根据所述目标人脸识别网络架构，获取目标损失函数；

通过所述目标人脸识别网络架构以及所述目标损失函数，对人脸样本数据集进行训练，获取训练后的人脸识别模型；所述人脸样本数据集包含多个人脸样本数据，每一所述人脸样本数据为包含人脸位姿角度的数据。

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标人脸识别网络架构，获取目标损失函数，包括：

3.根据权利要求1所述的方法，其特征在于，所述通过所述目标人脸识别网络架构以及所述目标损失函数，对人脸样本数据集进行训练，获取训练后的人脸识别模型，包括：

对所述人脸样本数据集进行数据增强处理；

4.一种人脸识别模型的获取装置，其特征在于，所述装置包括：

第一处理模块，用于对人脸识别网络架构中的不同特征层采用自适应权重进行加权处理，得到融合层，具体包括：修改人脸识别网络架构的过程中，不同的大小scale特征层之间的融合采用自适应的权重进行加权；

第二处理模块，用于在所述人脸识别网络架构中的第一特征层增加辅助网络，具体包括：在第一特征层新开一个网络分支作为辅助网络；

第一获取模块，用于根据所述辅助网络和所述融合层，更新所述人脸识别网络架构，获取更新后的目标人脸识别网络架构；所述辅助网络连接全连接层，所述全连接层的输出值为人脸多个位姿角度；

第三获取模块，用于通过所述目标人脸识别网络架构以及所述目标损失函数，对人脸样本数据集进行训练，获取训练后的人脸识别模型；所述人脸样本数据集包含多个人脸样本数据，每一所述人脸样本数据为包含人脸位姿角度的数据。

5.根据权利要求4所述的装置，其特征在于，所述第二获取模块，包括：

6.根据权利要求4所述的装置，其特征在于，所述第三获取模块，包括：