CN112329617B

CN112329617B - 基于单张源域样本的新场景人脸识别模型构建方法、系统

Info

Publication number: CN112329617B
Application number: CN202011216042.0A
Authority: CN
Inventors: 雷震; 朱翔昱; 刘浩
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2022-10-21
Anticipated expiration: 2040-11-04
Also published as: CN112329617A

Abstract

本发明提供了一种基于单张源域样本的新场景人脸识别模型构建方法、系统。本发明方法包括：基于源域图像样本构成的第一样本集训练人脸识别模型得到第一模型；基于第一模型对第一样本集进行样本特征提取，对各类样本分别基于距离其类别中心的预设距离选取一个源域图像样本作为保留样本加入目标域样本集，得到第二样本集；基于第一模型对第二样本集中各样本进行特征提取，分别计算第二样本集中各类样本的类别特征模板，并扩展到第一模型的分类层中，得到第二模型；基于第二样本集，通过硬标签和软标签的共同约束训练第二模型，得到新场景人脸识别模型。本发明解决了人脸识别方法在应对新场景数据时存在的灾难性遗忘性问题，并减少了训练时间。

Description

基于单张源域样本的新场景人脸识别模型构建方法、系统

技术领域

本发明属于人脸识别领域，具体涉及一种基于单张源域样本的新场景人脸识别模型构建方法、系统。

背景技术

在目前大多数的人脸识别方法中，基本都是单个场景下的数据进行的理论研究。然而在实际情况中，常常面对的是众多特定场景下的人脸识别问题。为了解决这一问题，通常的方法是需要针对每个特定的场景来训练得到专门针对该场景的人脸识别模型。这种多模型的方式显然十分费时费力。那么如何使用一个模型就能快速应对不同的场景就是本发明所要解决的问题。为此，之前常用的方法一是直接使用目标域场景的数据在源域的模型下进行微调，但是这会使得最终的模型在源域场景下的识别性能急剧下降，即灾难性遗忘现象。另一种方法是采用全部的源域数据和目标域数据进行联合训练。这样虽然能够保证源域和目标域的性能都很高，但是会消耗大量的训练时间和数据存储空间。因为每当遇到一个新的场景时，就需要重新使用之前场景的所有数据和当前目标场景的新数据来从头训练模型才能保证最终的模型在各个场景下的性能都很高。因此，如果通过保留一定数量的源域样本便可能既达到保留源域性能的目的又可节省训练时间且只需少量数据存储空间。考虑到实际的人脸识别数据一般拥有大规模的类别，如果每个类别保留过多样本，同样仍会消耗较大的数据存储空间，因此，如果要求源域每个类别只保留单样本就能够达到既保留源域性能又节省训练时间和数据存储空间的目的。这时，对于如何选择每类保留的单样本就是问题的关键点，毕竟单样例相比多样例具有明显的信息局限性，因此更需要选择那些对于之后目标域训练更具价值、能够更多地保留源域信息的样本。

为了解决上述问题，本发明提出了一种单张源域样例的新场景快速匹配且防遗忘的人脸识别方法，在仅保留源域每类一张样例的情况下，来让模型能够快速的适配新场景的同时，还能保证之前的源域场景的识别性能基本不下降。

本方法主要提出了三个单元来使得模型不仅能快速提高新场景下的识别性能，同时能保留之前场景的识别性能基本不下降。在样例选择单元提出了一种新的基于裕量的样例选择方法，在分类层扩展单元提出了基于样本质量因子的类别模板扩展方案。在知识蒸馏单元使用硬标签和软标签的两种监督信号来对模型进行训练。本方法可以较为高效地应对不断出现的新场景，使得模型能够快速提高新场景下的识别性能，同时保留之前场景下的识别性能基本不下降。

发明内容

为了解决现有技术中的上述问题，即为了解决现有人脸识别方法在应对新场景数据时存在灾难性遗忘、训练时间长的问题，本发明的一方面提出了一种基于单张源域样本的新场景人脸识别模型构建方法，包括以下步骤：

步骤S100，基于第一样本集进行人脸识别模型的训练，得到第一模型；所述第一样本集为源域图像样本集；所述人脸识别模型基于神经网络构建；

步骤S200，基于所述第一模型，对所述第一样本集中各样本进行特征提取，基于所提取的特征，对所述第一样本集中各类样本，分别基于距离其类别中心的预设距离选取一个源域图像样本作为保留样本，加入目标域样本集，得到第二样本集；

步骤S300，基于所述第一模型，对所述第二样本集中各样本进行特征提取，分别计算所述第二样本集中各类样本的类别特征模板，并扩展到所述第一模型的分类层中，得到第二模型；

步骤S400，基于所述第二样本集，通过硬标签和软标签的共同约束进行第二模型的训练，得到新场景人脸识别模型。

在一些优选实施方式中，步骤S100的源域图像样本集在用于人脸识别模型的训练前需要进行预处理，对源域图像样本集中任一源域图像样本预处理方法为：

通过人脸检测和人脸关键点检测得到二十五个人脸关键点；

基于所述人脸关键点的位置对齐人脸，并按照预设尺寸进行裁剪。

在一些优选实施方式中，步骤S100中对人脸识别模型训练所采用的损失函数为分类损失函数。

在一些优选实施方式中，步骤S200中所述类别中心，其获取方法为：

对一类样本中各样本的特征求平均，将其平均值作为该类样本的类别中心。

在一些优选实施方式中，步骤S200中，所述第一样本集中每类样本中的保留样本，其选择方法为：

距离类别中心的预设距离为单值，将每类样本中与其类别中心距离最接近所述预设距离的样本作为保留样本；

或者，

距离类别中心的预设距离为区间，从每类样本中与其类别中心距离落入该预设距离范围样本中选取一个样本作为保留样本。

在一些优选实施方式中，步骤S300中每类样本的类别特征模板，其获取方法为：

基于样本所提取的特征，计算每个样本的特征的模表征样本的质量因子；

将对应类样本中每个样本的质量因子进行加权平均，作为对应类样本的类别特征模板。

在一些优选实施方式中，步骤S400中“通过硬标签和软标签的共同约束进行第二模型的训练”，其方法为：

依据所述第二样本集构成的训练样本，通过预构建的包含硬标签知识蒸馏和软标签知识蒸馏的损失函数，对所述第二模型的训练。

本发明的第二方面，提出了一种基于单张源域样本的新场景人脸识别模型构建系统，包括预训练单元、样例选择单元、分类层扩展单元、知识蒸馏单元；

所述预训练单元，配置为基于第一样本集进行人脸识别模型的训练，得到第一模型；所述第一样本集为源域图像样本集；所述人脸识别模型基于神经网络构建；

所述样例选择单元，配置为基于所述第一模型，对所述第一样本集中各样本进行特征提取，基于所提取的特征，对所述第一样本集中各类样本，分别基于距离其类别中心的预设距离选取一个源域图像样本作为保留样本，加入目标域样本集，得到第二样本集；

所述分类层扩展单元，配置为基于所述第一模型，对所述第二样本集中各样本进行特征提取，分别计算所述第二样本集中各类样本的类别特征模板，并扩展到所述第一模型的分类层中，得到第二模型；

所述知识蒸馏单元，配置为基于所述第二样本集，通过硬标签和软标签的共同约束进行第二模型的训练，得到新场景人脸识别模型。

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于单张源域样本的新场景人脸识别模型构建方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于单张源域样本的新场景人脸识别模型构建方法。

本发明的有益效果：

本发明以卷积神经网络网络为基础，针对现有方法在快速适配新场景并且防遗忘的人脸识别问题上存在的缺陷，提出了一种全新的样例选择方式、新的分类层扩展方法，使得模型不仅能快速提高目标域的性能，同时还能保持源域的性能基本不变，解决了现有人脸识别方法在应对新场景数据时存在的灾难性遗忘性问题，并减少了训练时间。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明一种实施例的基于单张源域样本的新场景人脸识别模型构建方法流程示意图；

图2是本发明一种实施例中的样例选择方法流程示意图；

图3是本发明一种实施例中的分类层扩展方法流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明的一种基于单张源域样本的新场景人脸识别模型构建方法，如图1所示，包括以下步骤：

为了更清晰地对本发明进行说明，下面结合附图对本方发明一种实施例中各部分内容进行展开详述。

本发明一种实施例的基于单张源域样本的新场景人脸识别模型构建方法，包括四个步骤：模型的预训练、样例选择、分类层扩展、知识蒸馏。

步骤S100，模型的预训练。基于第一样本集进行人脸识别模型的训练，得到第一模型；所述第一样本集为源域图像样本集；所述人脸识别模型基于神经网络构建。

该步骤可具体包括：

步骤S101，对源域图像样本集中所有源域图像，通过人脸检测和人脸关键点检测得到二十五个人脸关键点；

步骤S102，基于上述人脸关键点的位置对齐人脸，并按照预设尺寸进行裁剪，得到对齐后的图像；其中，对齐人脸操作包括旋转、缩放、平移等；预设尺寸在本实施例中可以采用120*120；

步骤S103，使用对齐后的图像来对神经网络模型(人脸识别模型)进行训练，使用的损失函数为分类损失函数(如softmax loss)，训练收敛即得到预训练好的源域人脸识别模型(第一模型)。

步骤S200，样例选择。基于所述第一模型，对所述第一样本集中各样本进行特征提取，基于所提取的特征，对所述第一样本集中各类样本，分别基于距离其类别中心的预设距离选取一个源域图像样本作为保留样本，加入目标域样本集，得到第二样本集。

该步骤如图2所示，可具体包括：

步骤S201，用步骤S100训练得到的第一模型，对第一样本集中各样本进行特征提取；

步骤S202，对每类样本，分别对对应类中各样本的特征求平均，将其平均值作为该类样本的类别中心；

步骤S203，基于设定的距离阈值h，找到每类样本中与对应类的类别中心距离与h最接近的样本作为该类样本中的保留样本；

步骤S204，将各类样本中提取的保留样本，加入目标域样本集，得到第二样本集。

本实施例中，步骤S203确定保留样本的方法还可以为：设定距离区间[h1,h2],找到每类样本中与对应类的类别中心距离落入[h1,h2]的样本作为候选样本，并从候选样本中随机选择一个作为保留样本；还可以按照预设的选择规则从候选样本中选取，例如对候选样本与对应类的类别中心距离进行排序，选择位于中间的一个样本作为保留样本。

该步骤不同于之前的方法保留与类中心最近的样本作为该类别的样例，采用与类中心具有一定距离的样本，即更难的样本，能够在后续目标域训练的时候提供更多的源域信息，使得模型能够尽可能地保留源域的性能。

步骤S300，分类层扩展。基于所述第一模型，对所述第二样本集中各样本进行特征提取，分别计算所述第二样本集中各类样本的类别特征模板，并扩展到所述第一模型的分类层中，得到第二模型。

该步骤如图3所示，可具体包括：

步骤S301，用步骤S100训练得到的第一模型，对第二样本集中各样本进行特征提取；

步骤S302，基于样本所提取的特征，计算每个样本的特征的模表征样本的质量因子；

步骤S303，将第二样本集中每一类样本，分类进行样本的质量因子进行加权平均，作为对应类样本的类别特征模板。

步骤S304，将步骤S303中得到的每一类样本的类别特征模板扩展到第一模型的分类层中。

步骤S400，知识蒸馏。基于所述第二样本集，通过硬标签和软标签的共同约束进行第二模型的训练，得到新场景人脸识别模型。

该步骤中，通过硬标签和软标签的共同约束进行第二模型的训练，可具体包括：依据所述第二样本集构成的训练样本，通过预构建的包含硬标签知识蒸馏和软标签知识蒸馏的损失函数，对所述第二模型的训练。

硬标签知识蒸馏部分为：将样本自身类别标签作为监督信号，使用人脸识别中常用的分类损失函数(如CosFace、ArcFace)。

软标签知识蒸馏部分为：训练样本经过预训练模型(即第一模型)的前向传播得到该样本在源域类别上的激活值，以此作为该样本的软标签监督信号，将其与当前模型(即第二模型)得到的对应激活值进行拟合，从而达到保留源域性能的效果。

通过硬标签和软标签的共同约束来训练模型，最终得到的模型既能够在目标域上取得很高的性能，同时又能保留源域上的性能基本不变。

本发明第二实施例的一种基于单张源域样本的新场景人脸识别模型构建系统，包括预训练单元、样例选择单元、分类层扩展单元、知识蒸馏单元；

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于单张源域样本的新场景人脸识别模型构建系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于单张源域样本的新场景人脸识别模型构建方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于单张源域样本的新场景人脸识别模型构建方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于单张源域样本的新场景人脸识别模型构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于单张源域样本的新场景人脸识别模型构建方法，其特征在于，步骤S100的源域图像样本集在用于人脸识别模型的训练前需要进行预处理，对源域图像样本集中任一源域图像样本预处理方法为：

通过人脸检测和人脸关键点检测得到二十五个人脸关键点；

3.根据权利要求1所述的基于单张源域样本的新场景人脸识别模型构建方法，其特征在于，步骤S100中对人脸识别模型训练所采用的损失函数为分类损失函数。

4.根据权利要求1所述的基于单张源域样本的新场景人脸识别模型构建方法，其特征在于，步骤S200中所述类别中心，其获取方法为：

5.根据权利要求1所述的基于单张源域样本的新场景人脸识别模型构建方法，其特征在于，步骤S200中，所述第一样本集中每类样本中的保留样本，其选择方法为：

或者，

6.根据权利要求1所述的基于单张源域样本的新场景人脸识别模型构建方法，其特征在于，步骤S300中每类样本的类别特征模板，其获取方法为：

7.根据权利要求1所述的基于单张源域样本的新场景人脸识别模型构建方法，其特征在于，步骤S400中“通过硬标签和软标签的共同约束进行第二模型的训练”，其方法为：

8.一种基于单张源域样本的新场景人脸识别模型构建系统，其特征在于，包括预训练单元、样例选择单元、分类层扩展单元、知识蒸馏单元；

9.一种存储装置，其中存储有多条程序，其特征在于，所述程序适于由处理器加载并执行以实现权利要求1-7任一项所述的基于单张源域样本的新场景人脸识别模型构建方法。

10.一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；其特征在于，所述程序适于由处理器加载并执行以实现权利要求1-7任一项所述的基于单张源域样本的新场景人脸识别模型构建方法。