CN109271970A

CN109271970A - 人脸检测模型训练方法及装置

Info

Publication number: CN109271970A
Application number: CN201811276843.9A
Authority: CN
Inventors: 王剑锋; 李作新; 俞刚; 袁野
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2018-10-30
Filing date: 2018-10-30
Publication date: 2019-01-25

Abstract

本发明涉及人脸检测技术领域，提供一种人脸检测模型训练方法及装置。该方法包括：利用特征提取网络提取训练图像的特征图并确定训练样本；取i为1至M，将特征图输入至第i个人脸检测网络，获得训练样本对应的预测框以位置及预测框中存在人脸的概率；根据训练样本的分类标签计算第i个人脸检测网络的损失；在i小于M时，根据预测框与训练样本对应的真实框之间的位置关系，确定在计算第i+1个人脸检测网络的损失时训练样本的分类标签；在i为M时，获得M个人脸检测网络的总损失并更新人脸检测模型的参数；继续训练人脸检测模型直至满足训练结束条件。该方法训练出的人脸检测模型的人脸检测精度优于现有的单阶段人脸检测模型。

Description

人脸检测模型训练方法及装置

技术领域

本发明涉及人脸检测技术领域，具体而言，涉及一种人脸检测模型训练方法及装置。

背景技术

人脸检测是面部分析算法的基石，在人脸对齐、人脸建模、人脸重新照明、人脸识别、人脸美妆、人脸AR、人脸验证/认证、头部姿态跟踪、面部表情跟踪/识别、性别/年龄识别等任务中具有应用。人脸检测的目标是，给定任意图像，确定图像中是否存在人脸，如果存在，返回每个人脸在图像中的位置，通常用预测框表示(左上角坐标、长、宽)。

现有的人脸检测方法大体上可以分为单阶段检测和两阶段检测两种。其中，单阶段检测方法能够直接在图像上输出人脸的预测框，检测效率较高，因而在工业界应用更加广泛。然而，目前的单阶段检测方法中所使用的模型预测精度较低。

发明内容

有鉴于此，本发明实施例提供一种人脸检测模型训练方法及装置，训练一种级联结构的人脸检测模型，以改善人脸检测的精度。

为实现上述目的，本发明提供如下技术方案：

第一方面，本发明实施例提供一种人脸检测模型训练方法，人脸检测模型包括特征提取网络以及M个人脸检测网络，其中，M为大于或等于2的整数，方法包括：

利用特征提取网络提取训练图像的特征图，并基于特征图确定训练样本；

取i为1至M，将特征图输入至第i个人脸检测网络，利用第i个人脸检测网络预测获得训练样本在训练图像中对应的预测框位置以及预测框中存在人脸的概率；

根据训练样本的分类标签计算第i个人脸检测网络在预测后产生的损失；

在i小于M时，根据预测框与训练样本在训练图像中对应的真实框之间的位置关系，确定在计算第i+1个人脸检测网络预测后产生的损失时训练样本应当使用的分类标签；

在i为M时，获得将M个人脸检测网络的损失累加后得到的总损失，基于总损失更新人脸检测模型的参数；

获取新的训练图像继续训练人脸检测模型，直至满足训练结束条件。

在现有的单阶段人脸检测方法中，所使用的模型通常由一个特征提取网络和一个人脸检测网络构成，而在上述方法中使用的人脸检测模型则包括多个级联的人脸检测网络。所谓级联具体是指，前一个人脸检测网络针对训练样本输出的预测框位置，能够决定训练样本在后一个人脸检测网络计算预测后产生的损失时应当使用的分类标签，也就是说在训练后一个人脸检测网络时，样本的分类标签是根据前一个人脸检测网络的预测结果重新定义的，从而后一个人脸检测网络在训练完成后，预测的精度相对于前一个人脸检测网络会有所提升。

因此，若人脸检测模型中的第一个人脸检测网络为现有的单阶段人脸检测模型中的人脸检测网络，则在训练好的人脸检测模型中，除第一个以外的人脸检测网络的预测精度均应当现有的单阶段人脸检测模型。

结合第一方面，在第一方面的第一种可能的实现方式中，利用第i个人脸检测网络预测获得每个训练样本在训练图像中对应的预测框位置以及预测框中存在人脸的概率，包括：

利用第i个人脸检测网络的回归分支预测获得每个训练样本在训练图像中对应的预测框位置，以及利用第i个人脸检测网络的分类分支预测获得预测框中存在人脸的概率。

结合第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，根据训练样本的分类标签计算第i个人脸检测网络在预测后产生的损失，包括：

若分类标签为正样本，基于预测框与真实框计算回归分支在预测后产生的回归损失，以及基于预测框中存在人脸的概率与分类标签计算分类分支在预测后产生的分类损失，并将回归损失与分类损失的加权和确定为第i个人脸检测网络在预测后产生的损失；

若分类标签为负样本，基于预测框中存在人脸的概率与分类标签计算分类分支在预测后产生的分类损失，并将分类损失确定为第i个人脸检测网络在预测后产生的损失。

其中，正样本是指包括人脸的训练样本，负样本是指不包括人脸的训练样本，针对不同的分类标签，计算预测损失的方式是不同的，这正是前一个人脸检测网络的预测结果能够影响后一个人脸检测网络的损失计算的原因，而预测损失在训练过程中将直接决定网络的参数如何更新，从而后一个人脸检测网络的训练可以视为是在前一个人脸检测网络的预测结果的基础上进行的，是对前一个人脸检测网络的预测结果的进一步优化，因而预测精度将优于前一个人脸检测网络。

结合第一方面的第二种可能的实现方式，在第一方面的第三种可能的实现方式中，根据训练样本的分类标签计算第i个人脸检测网络在预测后产生的损失，还包括：

若分类标签为忽略样本，不计算第i个人脸检测网络在预测后产生的损失。

有一部分训练样本，处于正样本和负样本之间，难以界定，无论将其作为正样本还是负样本计算损失都不合适，可以单独为其分配一类标签，即忽略样本，对于忽略样本会进行预测，但不计算预测损失。

结合第一方面的第三种可能的实现方式，在第一方面的第四种可能的实现方式中，根据预测框与训练样本在训练图像中对应的真实框之间的位置关系，确定在计算第i+1个人脸检测网络预测后产生的损失时训练样本应当使用的分类标签，包括：

计算预测框与真实框之间的交并比；

若交并比不小于阈值t1_i，将在计算第i+1个人脸检测网络预测后产生的损失时训练样本应当使用的分类标签确定为正样本；

若交并比不大于阈值t2_i，将在计算第i+1个人脸检测网络预测后产生的损失时训练样本应当使用的分类标签确定为负样本；

若交并比小于阈值t1_i且大于阈值t2_i，将在计算第i+1个人脸检测网络预测后产生的损失时训练样本应当使用的分类标签确定为忽略样本。

每个人脸检测网络可以单独设置针对分类标签的阈值，具有较高的灵活性。

结合第一方面的第三种可能的实现方式，在第一方面的第五种可能的实现方式中，方法还包括：

计算训练样本与真实框之间的交并比；

若交并比不小于阈值t1₁，将在计算第一个人脸检测网络预测后产生的损失时训练样本应当使用的分类标签确定为正样本；

若交并比不大于阈值t2₁，将在计算第一个人脸检测网络预测后产生的损失时训练样本应当使用的分类标签确定为负样本；

若交并比小于阈值t1₁且大于阈值t2₁，将在计算第一个人脸检测网络预测后产生的损失时训练样本应当使用的分类标签确定为忽略样本。

对于第一个人脸检测网络，由于不存在前一个人脸检测网络，因此可以作特殊处理，直接利用训练样本与真实框之间的位置关系确定样本的分类标签。

结合第一方面的第五种可能的实现方式，在第一方面的第六种可能的实现方式中，计算训练样本与真实框之间的交并比，包括：

将真实框映射到特征图中，计算训练样本与映射后真实框之间的交并比，或，将训练样本映射到训练图像中，计算映射后的训练样本与真实框的交并比。

特征图可以视为训练图像缩放后获得的，因此二者之间存在比例关系，可以相互映射，将训练样本和真实框映射到同一尺度上后，可以计算交并比。

结合第一方面或第一方面的第一种至第六种中的任意一种可能的实现方式，在第一方面的第七种可能的实现方式中，方法还包括：

在人脸检测模型训练好后，将M个人脸检测网络中除要保留的人脸检测网以外的其他人脸检测网络删除，获得结构简化后的人脸检测模型。

结构简化后的人脸检测模型在执行人脸检测任务时，效率会有所提高。

结合第一方面的第七种可能的实现方式，在第一方面的第八种可能的实现方式中，要保留的人脸检测网络为第M个人脸检测网络。

通常而言，后一个人脸检测网络的预测精度优于前一个人脸检测网络，因此第M个人脸检测网络通常具有最优的人脸检测能力，从而在该实现方式中，最终的人脸检测模型仅保留第M个人脸检测网络。同时，由于此时的人脸检测模型仅包括一个特征提取网络和一个人脸检测网络，因此其执行效率和现有的单阶段人脸检测模型相当。

结合第一方面的第七种可能的实现方式，在第一方面的第九种可能的实现方式中，在获得结构简化后的人脸检测模型之后，方法还包括：

利用结构简化后的人脸检测模型检测输入图像中的人脸。

利用简化后的人脸检测模型检测人脸，既提升了检测精度，同时检测效率也能够得到保障，适于实际工业应用。

第二方面，本发明实施例提供一种人脸检测模型训练装置，人脸检测模型包括特征提取网络以及M个人脸检测网络，其中，M为大于或等于2的整数，装置包括：

特征提取模块，用于利用特征提取网络提取训练集中的训练图像的特征图，并基于特征图确定训练样本；

训练模块，用于取i为1至M，分别执行以下步骤：将特征图输入至第i个人脸检测网络，利用第i个人脸检测网络预测获得每个训练样本在训练图像中对应的预测框位置以及预测框中存在人脸的概率；根据训练样本的分类标签计算第i个人脸检测网络在预测后产生的损失；在i小于M时，根据预测框与训练样本在训练图像中对应的真实框之间的位置关系，确定在计算第i+1个人脸检测网络预测后产生的损失时训练样本应当使用的分类标签；在i为M时，获得将M个人脸检测网络的损失累加后得到的总损失，基于总损失更新人脸检测模型的参数；

迭代模块，用于获取新的训练图像继续训练人脸检测模型，直至满足训练结束条件。

第三方面，本发明实施例提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序指令，计算机程序指令被处理器读取并运行时，执行第一方面或第一方面的任意一种可能的实现方式提供的方法的步骤。

第四方面，本发明实施例提供一种电子设备，包括存储器以及处理器，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器读取并运行时，执行第一方面或第一方面的任意一种可能的实现方式提供的方法的步骤。

为使本发明的上述目的、技术方案和有益效果能更明显易懂，下文特举实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了一种可应用于本发明实施例中的电子设备的结构框图；

图2示出了本发明实施例提供的一种人脸检测模型的结构示意图；

图3示出了本发明实施例提供的一种人脸检测网络的结构示意图；

图4示出了本发明实施例提供的人脸检测模型训练方法的流程图；

图5示出了本发明第实施例提供的人脸检测模型训练装置的功能模块图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于将一个实体或者操作与另一个实体或操作区分开来，而不能理解为指示或暗示相对重要性，也不能理解为要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

图1示出了一种可应用于本发明实施例中的电子设备的结构框图。参照图1，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106以及输出装置108，这些组件通过总线系统112和/或其他形式的连接机构(未示出)互连。

处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备100中的其他组件以执行期望的功能。

存储装置104可以各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行计算机程序指令，以实现本发明实施例中的方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据，例如应用程序使用和/或产生的各种数据等。

输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

可以理解，图1所示的结构仅为示意，电子设备100还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。于本发明实施例中，电子设备100可以是，但不限于台式机、笔记本电脑、智能手机、智能穿戴设备、车载设备等。

本发明实施例提供的人脸检测模型训练方法用于训练人脸检测模型，人脸检测模型为可以是，但不限于是一个卷积神经网络，图2示出了模型的一种实现方式。参照图2，人脸检测模型包括特征提取网络以及M(M≥2)个人脸检测网络(图2中人脸检测网络1至人脸检测网络M)。

其中，特征提取网络用于提取原始图像中的特征，输出原始图像的特征图。在实际中，特征提取网络不一定需要完全重新构建，例如可以使用迁移学习的方法，直接将一些预训练的、用于图像分类任务的卷积神经网络(例如VGG16、resnet等)删除最后用于分类输出的全连接层后的部分作为特征提取网络。

人脸检测网络用于基于特征图进行人脸检测，输出预测结果。预测结果包含两部分，其一是原始图像中的一个预测框，其二是预测框中存在人脸的概率。

事实上，现有的单阶段人脸检测模型通常也包括特征提取网络和人脸检测网络，但现有模型中的人脸检测网络一般只有一个，而在本实施例中，人脸检测网络共有M个，且从第一个至第M个依次级联。所谓级联，是指前一个人脸检测网络的预测结果会影响后一个人脸检测网络的训练，具体将在后文中阐述。

在一种实现方式中，图2所示的人脸检测模型也可以直接基于一个现有的单阶段人脸检测模型构建，直接将现有模型的特征提取网络作为图2中的特征提取网络，将现有模型中的人脸检测网络作为图2中的第一个人脸检测网络，而第二个人脸检测网络至第M个人脸检测网络则需要另外设计并与第一个人脸检测网络构成级联结构。每个人脸检测网络可以针对不同的检测场景单独设计，图3示出了本发明实施例提供的一种人脸检测网络的结构示意图。参照图3，在一种常见的实现方式中，人脸检测网络包括两个分支，分别是分类分支以及回归分支，前者用于输出人脸框中存在人脸的概率，在训练时以训练样本中是否存在人脸为监督信号，后者用于输出预测框位置，在训练时以训练样本对应的人脸真实位置为监督信号。

图4示出了本发明实施例提供的一种人脸检测模型训练方法的流程图。为简化阐述，在后文中均以该方法应用于电子设备100的处理器102为例进行说明，即方法的步骤均由处理器102执行。参照图4，该方法包括：

步骤S10：从训练集中获取训练图像。

训练集中包括多幅训练图像，通常每幅训练图像上都包括一个或多个人脸，人脸的位置已经事先用边界框(左上角坐标、长、宽)进行了标注，称为真实框(groundtruth)。

步骤S11：利用特征提取网络提取训练图像的特征图，并将特征图中每个特征点处的基准框确定为训练样本。

以特征图中的每个特征点为中心点，可以定义多个基准框(anchor)，这些基准框的通常具有预设的面积和长宽比，每个基准框即为一个训练样本。例如，特征图的尺寸为WxHxC(宽x高x通道数)，每个特征点处定义A个基准框，则共有WxHxA个基准框，或者说WxHxA个训练样本。其中，每个训练样本会与一个真实框关联，由于训练样本的数量通常远多于真实框的数量，所以多个训练样本可以关联到同一个真实框。

步骤S12：将特征图输入至第i个人脸检测网络，利用第i个人脸检测网络预测获得训练样本在训练图像中对应的预测框位置以及预测框中存在人脸的概率。

在图2中，共有M个人脸检测网络，若取i为1至M，则第i个人脸检测网络可以代表其中的任意一个人脸检测网络，下面以第i个人脸检测网络为例，阐述步骤S12至步骤S16。

每个人脸检测网络都能够独立地基于特征图进行人脸检测，并输出训练样本在训练图像中对应的预测框位置以及预测框中存在人脸的概率，其中，每个训练样本对应输出一个预测框位置。对一幅特征图中的多个训练样本，预测过程是一次完成的，例如第i个人脸检测网络在预测时将一次性地输出所有训练样本对应的预测框位置。

步骤S13：根据训练样本的分类标签计算第i个人脸检测网络在预测后产生的损失。

训练样本的分类标签应当在计算第i个人脸检测网络的预测损失之前确定好。分类标签至少应当包括正样本以及负样本两种标签，其中，正样本是指包括人脸的训练样本，负样本是指不包括人脸的训练样本。应当指出的是，一个训练样本使用何种分类标签并不是固定的，在不同的判断准则下，同一个训练样本可以具有不同的分类标签。

训练样本的分类标签不同，第i个人脸检测网络的预测损失的计算方式也不同。以图3示出的人脸检测网络结构为例，在人脸检测中涉及两类损失，一类是由预测获得的概率和分类标签的差异产生的损失，称为分类损失，在图3中由分类分支在预测后产生；一类是由预测获得的预测框和真实框的位置差异产生的损失，称为回归损失，在图3中由回归分支在预测后产生，对于预测损失可以通过损失函数进行衡量。第i个人脸检测网络在计算预测损失时，以上两种损失并不一定都会计算，需要视训练样本的分类标签而定。

步骤S14：判断i是否小于M。

若i小于M，执行步骤S15，若i等于M，执行步骤S16，其原因在于步骤S15中涉及第i+1个人脸检测网络，显然在i等于M时，并不存在这样的人脸检测网络。

步骤S15：根据预测框与训练样本在训练图像中对应的真实框之间的位置关系，确定在计算第i+1个人脸检测网络预测后产生的损失时训练样本应当使用的分类标签。

训练样本对应的预测框与真实框之间的位置关系，反映二者位置的接近程度，可以通过交并比(IntersectionoverUnion，缩写为IoU)等方式进行计算。根据该位置关系，可以确定在计算第i+1个人脸检测网络的预测损失时训练样本应当使用的分类标签。例如，由于真实框中必然包含人脸，因此预测框和真实框位置接近的，可以将对应的样本标记为正样本，预测框和真实框位置远离的，可以将对应的样本标记为负样本。新的分类标签可以和步骤S13中使用的分类标签不同，也就是说根据第i个人脸检测网络的预测结果，可以在计算第i+1个人脸检测网络的预测损失时对训练样本的分类标签进行重新定义。

通过步骤S13可知，第i个人脸检测网络的预测结果只影响第i+1个人脸检测网络的损失计算，并不影响第i+1个人脸检测网络的预测(对当前训练图像而言)，因此只需要确保在计算第i+1个人脸检测网络的损失之前能够获得第i个人脸检测网络的预测结果(用于重新确定分类标签)就可以了，对于第i个人脸检测网络的预测结果和第i+1个人脸检测网络的预测结果在获取上的时间先后顺序并不作限定。

例如，可以先将特征图输入至第i个人脸检测网络，待获得第i个人脸检测网络的预测结果以及计算第i个人脸检测网络的损失后，再将其输入至第i+1个人脸检测网络，获得第i+1个人脸检测网络的预测结果以及计算第i+1个人脸检测网络的损失。

又例如，可以将特征图同时输入至第i个人脸检测网络以及第i+1个人脸检测网络进行并行计算，获得i个人脸检测网络的预测结果以及第i+1个人脸检测网络的预测结果，然后再计算第i个人脸检测网络的损失以及第i+1个人脸检测网络的损失。

可以理解的，以上仅为两种可能的实现方式，而并不是全部可能的实现方式。

步骤S16：获得将M个人脸检测网络的损失累加后得到的总损失，基于总损失更新人脸检测模型的参数。

每个人脸检测网络的损失包括所有训练样本在经该人脸检测网络预测后产生的损失，总损失则是将每个人脸检测网络的损失累加后获得的，其具体实现方式有多种，例如可以每计算出一个人脸检测网络的损失后就立即进行累加，也可以计算出所有的人脸检测网络的损失后再进行累加。需要指出，这里所称的累加并不仅仅包括简单的求和，还可以包括加权求和，求和后取均值等方式。

在获得针对当前训练图像的总损失后，可以基于总损失更新人脸检测模型的参数，例如可以采用反向传播算法，参数的更新过程为现有技术，这里不再详细阐述。

步骤S17：判断是否满足训练结束条件。

每处理完一幅训练图像以后，可以判断是否满足训练结束条件，若满足条件则结束训练，训练好的人脸检测模型即可作为人脸检测模型。若不满足条件则跳转至S10继续训练。常见的训练结束条件包括训练集中的训练图像已经用尽、模型已经收敛等等。

综上所述，在上述方法中使用了和现有的单阶段人脸检测模型不同的人脸检测模型，该模型包括多个级联的人脸检测网络。所谓级联具体是指，前一个人脸检测网络针对训练样本输出的预测框位置，能够决定训练样本在后一个人脸检测网络计算预测后产生的损失时应当使用的分类标签，进而决定后一个人脸检测网络损失的计算方式，而预测损失的计算将直接影响人脸检测网络的训练效果，从而后一个人脸检测网络的训练可以视为是在前一个人脸检测网络的预测结果的基础上进行的，是对前一个人脸检测网络的预测结果的进一步优化，因而预测精度将优于前一个人脸检测网络。

若人脸检测模型中的第一个人脸检测网络为现有的单阶段人脸检测模型中的人脸检测网络，则在训练好的人脸检测模型中，除第一个以外的人脸检测网络的预测精度均优于现有的单阶段人脸检测模型。获得的人脸检测模型具体如何使用可以有多种方式，下面列举部分常见的实现方式。

一方面，之前已经提到，后一个人脸检测网络的预测精度通常优于前一个人脸检测网络，因此第M个人脸检测网络有极大概率具有最高的人脸检测精度，在一种实现方式中，可以将人脸检测模型中除第M个人脸检测网络以外的其他人脸检测网络删除，将结构简化后的人脸检测模型用于人脸检测任务，以获得较好的检测结果。同时，在结构简化后，人脸检测模型仅包括一个特征提取网络和一个人脸检测网络，因此其执行效率和现有的单阶段人脸检测模型相当，适于实际的工业应用。

可以理解的，作为不同的实现方式，在最终的人脸检测模型中仅保留一个其他的人脸检测网络(除第M个以外的)也是可以的。可以根据不同的策略选择要保留的人脸检测网络，例如在设计人脸检测网络时根据不同的检测场景进行设计，在选择要保留的人脸检测网络时也根据实际使用的检测场景进行选择相应的人脸检测网络。

另一方面，在一种不太看重执行效率的实现方式中，可以将M个人脸检测网络全部保留，即直接将训练好的人脸检测模型用于人脸检测。由于每个人脸检测网络都会输出预测结果，因此最终的人脸检测结果需要对这些预测结果进行融合，例如可以采用非极大值抑制等方式进行融合。上述实现方式由于要进行多次预测，执行效率有所降低，但由于融合了多个预测结果，因而可能会获得更高的预测精度。

可以理解的，作为不同的实现方式，也可以从M个人脸检测网络中选择一部分保留，将其余的人脸检测网络删除，然后将结构简化后的人脸检测模型用于人脸检测任务，在一定程度上提高了执行效率，同时保留较高的预测精度。

在本发明的一个实施例中，样本的分类标签包括正样本以及负样本，步骤S13中第i个人脸检测网络在预测后产生的损失可以通过如下方式计算，在计算时以图3示出的人脸检测网络为例：

若分类标签为正样本，分别计算回归分支在预测后产生的回归损失以及分类分支在预测后产生的分类损失，并将回归损失与分类损失的加权和确定为第i个人脸检测网络在预测后产生的损失；若分类标签为负样本，只需要计算分类分支在预测后产生的分类损失，并将分类损失确定为第i个人脸检测网络在预测后产生的损失。

进一步的，在一种实现方式中，考虑有一部分训练样本处于正样本和负样本之间，难以界定，无论将其作为正样本还是负样本计算损失都可能导致损失计算不合理，可以单独为其分配一类标签，称为忽略样本，对于忽略样本人脸检测网络会进行预测，但不计算预测损失。

进一步的，基于上述三种分类标签，步骤S15中的位置关系可以用交并比和阈值的大小关系来表示，具体如下：

计算第i个人脸检测网络在预测后生成的预测框与真实框之间的交并比。若交并比不小于阈值t1_i，表明预测框的位置与真实框的位置接近，将在计算第i+1个人脸检测网络预测后产生的损失时训练样本应当使用的分类标签确定为正样本；若交并比不大于阈值t2_i，表明预测框的位置与真实框的位置远离，将在计算第i+1个人脸检测网络预测后产生的损失时训练样本应当使用的分类标签确定为负样本；若交并比小于阈值t1_i且大于阈值t2_i，表明预测框的位置与真实框的位置处于接近和远离之间，将在计算第i+1个人脸检测网络预测后产生的损失时训练样本应当使用的分类标签确定为忽略样本。

其中，t1_i、t2_i都是针对第i个人脸检测网络设置的阈值，也就是说每个人脸检测网络都可以单独设置针对分类标签的阈值，具有较高的灵活性。根据交并比的定义，t1_i、t2_i应当设置为[0，1]之间的常数。特别地，t1_i和t2_i可以设置为相同的，表明此时训练样本的分类标签只有正样本以及负样本两类，不设置忽略样本。

在本发明实施例提供的人脸检测模型训练方法中，后一个人脸检测网络在计算损失时训练样本使用的分类标签是由前一个人脸检测网络决定的，但第一个人脸检测网络由于不存在前一个人脸检测网络，因此可以进行特殊处理，具体如下：

首先计算训练样本与真实框之间的交并比，由于基准框(训练样本)在特征图中，而真实框在训练图像中，由于特征图可以视为训练图像缩放后得到的，因此可以将真实框映射到特征图中计算交并比，或者也可以将基准框映射到训练图像中计算交并比。

若交并比不小于阈值t1₁，将在计算第一个人脸检测网络预测后产生的损失时训练样本应当使用的分类标签确定为正样本；若交并比不大于阈值t2₁，将在计算第一个人脸检测网络预测后产生的损失时训练样本应当使用的分类标签确定为负样本；若交并比小于阈值t1₁且大于阈值t2₁，将在计算第一个人脸检测网络预测后产生的损失时训练样本应当使用的分类标签确定为忽略样本。

其中，t1₁、t2₁都是针对第一个人脸检测网络设置的阈值。根据交并比的定义，t1₁、t2₁应当设置为[0，1]之间的常数。特别地，t1₁和t2₁可以设置为相同的，表明此时训练样本的分类标签只有正样本以及负样本两类，不设置忽略样本。

本发明实施例还提供一种人脸检测模型训练装置200，如图5所示。其中，人脸检测模型包括特征提取网络以及M(M≥2)个人脸检测网络。参照图5，该装置包括：

特征提取模块210，用于利用特征提取网络提取训练集中的训练图像的特征图，并基于特征图确定训练样本；

训练模块220，用于取i为1至M，分别执行以下步骤：将特征图输入至第i个人脸检测网络，利用第i个人脸检测网络预测获得每个训练样本在训练图像中对应的预测框以及预测框中存在人脸的概率；根据训练样本的分类标签计算第i个人脸检测网络在预测后产生的损失；在i小于M时，根据预测框与训练样本在训练图像中对应的真实框之间的位置关系，确定在计算第i+1个人脸检测网络预测后产生的损失时训练样本应当使用的分类标签；在i为M时，获得将M个人脸检测网络的损失累加后得到的总损失，基于总损失更新人脸检测模型的参数；

迭代模块230，用于获取新的训练图像继续训练人脸检测模型，直至满足训练结束条件。

本发明实施例提供的人脸检测模型训练装置200，其实现原理及产生的技术效果在前述方法实施例中已经介绍，为简要描述，装置实施例部分未提及之处，可参考方法施例中相应内容。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序指令，计算机程序指令被处理器读取并运行时，执行本发明实施例提供的人脸检测模型训练方法的步骤。这种计算机可读存储介质可以是，但不限于图1示出的存储装置104。

本发明实施例还提供一种电子设备，包括存储器以及处理器，存储器中存储有计算机程序指令，计算机程序指令被处理器读取并运行时，执行本发明实施例提供的人脸检测模型训练方法的步骤。该电子设备可以是，但不限于图1示出的电子设备100。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其他的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得计算机设备执行本发明各个实施例所述方法的全部或部分步骤。前述的计算机设备包括：个人计算机、服务器、移动设备、智能穿戴设备、网络设备、虚拟设备等各种具有执行程序代码能力的设备，前述的存储介质包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟、磁带或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种人脸检测模型训练方法，其特征在于，所述人脸检测模型包括特征提取网络以及M个人脸检测网络，其中，M为大于或等于2的整数，所述方法包括：

利用所述特征提取网络提取训练图像的特征图，并将所述特征图中的每个特征点处的基准框确定为训练样本；

取i为1至M，将所述特征图输入至第i个人脸检测网络，利用所述第i个人脸检测网络预测获得所述训练样本在所述训练图像中对应的预测框位置以及所述预测框中存在人脸的概率；

根据所述训练样本的分类标签计算所述第i个人脸检测网络在预测后产生的损失；

在i小于M时，根据所述预测框与所述训练样本在所述训练图像中对应的真实框之间的位置关系，确定在计算第i+1个人脸检测网络预测后产生的损失时所述训练样本应当使用的分类标签；

在i为M时，获得将所述M个人脸检测网络的损失累加后得到的总损失，基于所述总损失更新所述人脸检测模型的参数；

获取新的训练图像继续训练所述人脸检测模型，直至满足训练结束条件。

2.根据权利要求1所述的人脸检测模型训练方法，其特征在于，所述利用所述第i个人脸检测网络预测获得每个训练样本在所述训练图像中对应的预测框位置以及所述预测框中存在人脸的概率，包括：

利用所述第i个人脸检测网络的回归分支预测获得每个训练样本在所述训练图像中对应的预测框位置，以及利用所述第i个人脸检测网络的分类分支预测获得所述预测框中存在人脸的概率。

3.根据权利要求2所述的人脸检测模型训练方法，其特征在于，所述根据所述训练样本的分类标签计算所述第i个人脸检测网络在预测后产生的损失，包括：

若所述分类标签为正样本，基于所述预测框与所述真实框计算所述回归分支在预测后产生的回归损失，以及基于所述预测框中存在人脸的概率与所述分类标签计算所述分类分支在预测后产生的分类损失，并将所述回归损失与所述分类损失的加权和确定为所述第i个人脸检测网络在预测后产生的损失；

若所述分类标签为负样本，基于所述预测框中存在人脸的概率与所述分类标签计算所述分类分支在预测后产生的分类损失，并将所述分类损失确定为所述第i个人脸检测网络在预测后产生的损失。

4.根据权利要求3所述的人脸检测模型训练方法，其特征在于，所述根据所述训练样本的分类标签计算所述第i个人脸检测网络在预测后产生的损失，还包括：

若所述分类标签为忽略样本，不计算所述第i个人脸检测网络在预测后产生的损失。

5.根据权利要求4所述的人脸检测模型训练方法，其特征在于，所述根据所述预测框与所述训练样本在所述训练图像中对应的真实框之间的位置关系，确定在计算第i+1个人脸检测网络预测后产生的损失时所述训练样本应当使用的分类标签，包括：

计算所述预测框与所述真实框之间的交并比；

若所述交并比不小于阈值t1_i，将在计算第i+1个人脸检测网络预测后产生的损失时所述训练样本应当使用的分类标签确定为所述正样本；

若所述交并比不大于阈值t2_i，将在计算第i+1个人脸检测网络预测后产生的损失时所述训练样本应当使用的分类标签确定为所述负样本；

若所述交并比小于所述阈值t1_i且大于所述阈值t2_i，将在计算第i+1个人脸检测网络预测后产生的损失时所述训练样本应当使用的分类标签确定为所述忽略样本。

6.根据权利要求4所述的人脸检测模型训练方法，其特征在于，所述方法还包括：

计算所述训练样本与所述真实框之间的交并比；

若所述交并比不小于阈值t1₁，将在计算第一个人脸检测网络预测后产生的损失时所述训练样本应当使用的分类标签确定为所述正样本；

若所述交并比不大于阈值t2₁，将在计算第一个人脸检测网络预测后产生的损失时所述训练样本应当使用的分类标签确定为所述负样本；

若所述交并比小于所述阈值t1₁且大于所述阈值t2₁，将在计算第一个人脸检测网络预测后产生的损失时所述训练样本应当使用的分类标签确定为所述忽略样本。

7.根据权利要求6所述的人脸检测模型训练方法，其特征在于，所述计算所述训练样本与所述真实框之间的交并比，包括：

将所述真实框映射到所述特征图中，计算所述训练样本与映射后真实框之间的交并比，或，将所述训练样本映射到所述训练图像中，计算映射后的训练样本与所述真实框的交并比。

8.根据权利要求1－7中任一项所述的人脸检测模型训练方法，其特征在于，所述方法还包括：

在所述人脸检测模型训练好后，将所述M个人脸检测网络中除要保留的人脸检测网以外的其他人脸检测网络删除，获得结构简化后的人脸检测模型。

9.根据权利要求8所述的人脸检测模型训练方法，其特征在于，所述要保留的人脸检测网络为第M个人脸检测网络。

10.根据权利要求8所述的人脸检测模型训练方法，其特征在于，在所述获得结构简化后的人脸检测模型之后，所述方法还包括：

利用所述结构简化后的人脸检测模型检测输入图像中的人脸。

11.一种人脸检测模型训练装置，其特征在于，所述人脸检测模型包括特征提取网络以及M个人脸检测网络，其中，M为大于或等于2的整数，所述装置包括：

特征提取模块，用于利用所述特征提取网络提取训练集中的训练图像的特征图，并基于所述特征图确定训练样本；

训练模块，用于取i为1至M，分别执行以下步骤：将所述特征图输入至第i个人脸检测网络，利用所述第i个人脸检测网络预测获得每个训练样本在所述训练图像中对应的预测框以及所述预测框中存在人脸的概率；根据所述训练样本的分类标签计算所述第i个人脸检测网络在预测后产生的损失；在i小于M时，根据所述预测框与所述训练样本在所述训练图像中对应的真实框之间的位置关系，确定在计算第i+1个人脸检测网络预测后产生的损失时所述训练样本应当使用的分类标签；在i为M时，获得将所述M个人脸检测网络的损失累加后得到的总损失，基于所述总损失更新所述人脸检测模型的参数；

迭代模块，用于获取新的训练图像继续训练所述人脸检测模型，直至满足训练结束条件。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器读取并运行时，执行权利要求1－10中任一项所述的方法的步骤。

13.一种电子设备，包括存储器以及处理器，所述存储器中存储有计算机程序指令，其特征在于，所述计算机程序指令被所述处理器读取并运行时，执行权利要求1－10中任一项所述的方法的步骤。