CN113486807B

CN113486807B - 脸部的检测模型训练方法、识别方法、装置、介质和设备

Info

Publication number: CN113486807B
Application number: CN202110771168.2A
Authority: CN
Inventors: 陈裕潮
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2021-07-08
Filing date: 2021-07-08
Publication date: 2024-02-27
Anticipated expiration: 2041-07-08
Also published as: CN113486807A

Abstract

本公开提供了一种脸部的检测模型训练方法、识别方法、装置、介质和设备，涉及人工智能技术领域。该脸部的检测模型训练方法是分别基于目标动物的正脸和非正脸的样本图像训练得到的，可以对待检测图像中目标动物的正脸与非正脸进行全面识别，从而解决了现有技术中存在的目前的宠物脸部检测模型针对宠物的正脸识别效果较佳，而对于非正脸图像的识别并不理想的技术问题，达到了从宠物脸部识别的全面性与精准性两个维度来提高宠物脸部识别的识别效果。

Description

脸部的检测模型训练方法、识别方法、装置、介质和设备

技术领域

本公开涉及人工智能技术领域，尤其涉及一种脸部的检测模型训练方法、识别方法、装置、介质和设备。

背景技术

美颜拍摄一直深受年轻人的喜爱，近些年也不断推出一些针对性的美颜模式，例如宠物美颜等。在进行美颜前必须先进行脸部识别，目前主要是通过脸部检测模型对宠物的脸部进行识别。

但是由于宠物一般都比较活泼好动，表情变换丰富，因此在进行脸部识别时，很容易出现大量的侧脸、半脸、俯角或者仰角等非正脸图像。但是，目前的宠物脸部检测模型针对宠物的正脸识别效果较佳，而对于非正脸图像的识别并不理想。

发明内容

本公开提供了一种脸部的检测模型训练方法、识别方法、装置、介质和设备，进而提高对于宠物脸部识别的效果。

第一方面，本公开一个实施例提供了一种脸部的检测模型训练方法，用于对动物脸部检测模型进行训练，该方法包括：

基于第一样本集对初始脸部检测模型进行训练，得到第一预训练模型；其中，第一样本集包括目标动物的正脸样本图像；

基于第二样本集对初始脸部检测模型进行训练，得到第二预训练模型；其中，第二样本集包括目标动物的非正脸样本图像；

基于第一样本集中样本图像的数量与第二样本集中样本图像的数量对第一预训练模型与第二预训练模型中每个卷积层的权重进行反比加权叠加，得到每个卷积层的目标权重；

根据每个卷积层的目标权重对初始脸部检测模型进行修正，得到第三预训练模型；

基于第一样本集与第二样本集对第三预训练模型进行训练，得到目标脸部检测模型。

在本公开的一个可选实施例中，基于第一样本集中样本图像的数量与第二样本集中样本图像的数量对第一预训练模型与第二预训练模型中每个卷积层的权重进行反比加权叠加，得到每个卷积层的目标权重，包括：

确定第一样本集与第二样本集中样本图像数量的数量比值；

分别计算数量比值中第一样本集对应的第一比例参数与第二预训练模型中各卷积层权重的第一乘积；

分别计算数量比值中第二样本集对应的第二比例参数与第一预训练模型中各卷积层权重的第二乘积；

计算第一预训练模型与第二预训练模型，位于同一卷积层中的第一乘积与第二乘积的加和，得到当前卷积层的目标权重。

在本公开的一个可选实施例中，根据每个卷积层的目标权重对初始脸部检测模型进行修正，得到第三预训练模型，包括：

将初始脸部检测模型中各卷积层的权重设定为与各卷积层分别对应的卷积层的目标权重，以得到第三预训练模型。

在本公开的一个可选实施例中，在基于第一样本集与第二样本集对第三预训练模型进行训练之前，该方法还包括：

获取训练样本集；其中，训练样本集包括多张含有目标动物的样本图像；

获取每张样本图像中针对目标动物的标注数据；其中，标注数据至少包括目标动物的五官数据；

根据各样本图像中的标注数据将多张样本图像划分为第一样本集与第二样本集。

在本公开的一个可选实施例中，根据各样本图像中的标注数据将多张样本图像划分为第一样本集与第二样本集，包括：

根据当前样本图像中的五官数据确定目标动物的双眼分别距离目标动物中心轴的第一距离与第二距离；

若第一距离与第二距离相等，则将当前样本图像划分至第一样本集。

在本公开的一个可选实施例中，根据各样本图像中的标注数据将多张样本图像划分为第一样本集与第二样本集，还包括：

若第一距离与第二距离不等，则将当前样本图像划分至第二样本集。

在本公开的一个可选实施例中，在根据各样本图像中的标注数据将多张样本图像划分为第一样本集与第二样本集之前，该方法还包括：

对多张样本图像进行数据增强处理。

第二方面，提供了一种脸部的识别方法，包括：

将待识别图像输入至如上的目标脸部检测模型，得到多个脸部候选框；

基于非极大值抑制算法确定多个脸部候选框中的目标指示框；其中，目标指示框用于指示待识别图像中目标脸部的位置。

第三方面，本公开一个实施例提供了一种脸部的检测模型训练装置，该装置包括：

第一训练模块，用于基于第一样本集对初始脸部检测模型进行训练，得到第一预训练模型；其中，第一样本集包括目标动物的正脸样本图像；

第二训练模块，用于基于第二样本集对初始脸部检测模型进行训练，得到第二预训练模型；其中，第二样本集包括目标动物的非正脸样本图像；

处理模块，用于基于第一样本集中样本图像的数量与第二样本集中样本图像的数量对第一预训练模型与第二预训练模型中每个卷积层的权重进行反比加权叠加，得到每个卷积层的目标权重；

第三训练模块，用于根据每个卷积层的目标权重对初始脸部检测模型进行修正，得到第三预训练模型；

处理模块，还用于基于第一样本集与第二样本集对第三预训练模型进行训练，得到目标脸部检测模型。

第四方面，本公开一个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上的方法。

第五方面，本公开一个实施例提供了一种电子设备，包括：处理器；以及存储器，用于存储处理器的可执行指令；其中，处理器配置为经由执行可执行指令来执行如上的方法。

本公开的技术方案具有以下有益效果：

上述脸部的检测模型训练方法是分别基于目标动物的正脸和非正脸的样本图像训练得到的，可以对待检测图像中目标动物的正脸与非正脸进行全面识别，从而解决了现有技术中存在的目前的宠物脸部检测模型针对宠物的正脸识别效果较佳，而对于非正脸图像的识别并不理想的技术问题，达到了从宠物脸部识别的全面性与精准性两个维度来提高宠物脸部识别的识别效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施方式，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出本示例性实施方式中一种脸部的检测模型训练方法的应用场景示意图；

图2示出本示例性实施方式中一种脸部的检测模型训练方法的流程图；

图3示出本示例性实施方式中一种脸部的检测模型训练方法的流程图；

图4示出本示例性实施方式中一种脸部的检测模型训练方法的流程图；

图5示出本示例性实施方式中一种脸部的检测模型训练方法的流程图；

图6示出本示例性实施方式中一种脸部的检测模型训练方法中的判断目标动物正脸的示意图；

图7示出本示例性实施方式中一种脸部的检测模型训练方法中的判断目标动物非正脸的示意图；

图8示出本示例性实施方式中一种脸部的检测模型训练方法的流程图；

图9示出本示例性实施方式中一种脸部的检测模型训练装置结构示意图；

图10示出本示例性实施方式中一种电子设备的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例性实施方式。然而，示例性实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例性实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的步骤。例如，有的步骤还可以分解，而有的步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

相关技术中，美颜拍摄一直深受年轻人的喜爱，近些年也不断推出一些针对性的美颜模式，例如宠物美颜等。在进行美颜前必须先进行脸部识别，目前主要是通过脸部检测模型对宠物的脸部进行识别。但是由于宠物一般都比较活泼好动，表情变换丰富，因此在进行脸部识别时，很容易出现大量的侧脸、半脸、俯角或者仰角等非正脸图像。但是，目前的宠物脸部检测模型针对宠物的正脸识别效果较佳，而对于非正脸图像的识别并不理想。

鉴于上述问题，本公开实施例提供了一种脸部的检测模型训练方法，基于包含有目标动物正脸样本图像的第一样本集和包含目标动物的非正脸样本图像的第二样本集分别对初始脸部检测模型进行训练，以得到第一预训练模型和第二预训练模型。然后基于第一样本集中样本图像的第一数量与第二样本集中样本图像的第二数量对第一预训练模型与第二预训练模型中每个卷积层的权重进行反比加权叠加，得到每个卷积层的目标权重。接着再根据每个卷积层的目标权重对初始脸部检测模型进行修正，得到第三预训练模型，最后基于第一样本集与第二样本集中的所有的样本图像对第三预训练模型进行训练，以得到目标脸部检测模型。

本公开实施例提供的脸部的检测模型训练方法是分别基于目标动物的正脸和非正脸的样本图像训练得到的，可以对待检测图像中目标动物的正脸与非正脸进行全面识别，从而解决了现有技术中存在的目前的宠物脸部检测模型针对宠物的正脸识别效果较佳，而对于非正脸图像的识别并不理想的技术问题，达到了从宠物脸部识别的全面性与精准性两个维度来提高宠物脸部识别的识别效果。

以下对本公开实施例提供的脸部的检测模型训练方法的应用环境作简单介绍：

请参见图1，本公开实施例提供的脸部的检测模型训练方法的应用环境包括：终端设备101和服务器102。终端设备101用于采集图像，例如样本图像，待识别图像等，以及对采集到的图像进行预处理，例如进行数据标注等；服务器102用于存储初始脸部检测模型，并对初始脸部检测模型进行处理，例如基于终端设备101发送的样本图像对该初始脸部检测模型进行训练，并将训练得到的目标脸部检测模型发送至终端设备101进行对目标脸部识别。其中，本公开实施例中的目标脸部为猫脸、狗脸等任意动物的脸部。

下面以上述服务器102为执行主体，将该脸部的检测模型训练方法应用于上述的服务器102，对服务器中存储的初始脸部检测模型进行训练为例进行举例说明。请参见图2，本公开实施例提供的脸部的检测模型训练方法包括如下步骤201-步骤205：

步骤201、服务器基于第一样本集对初始脸部检测模型进行训练，得到第一预训练模型。

终端设备内部存储有至少两个样本集：第一样本集和第二样本集。其中，第一样本集包括目标动物的正脸样本图像，例如附图3中的大量猫的正脸图像；第二样本集包括目标动物的非正脸样本图像，例如附图4中的大量猫的非正脸图像。服务器从终端设备中获取得到第一样本集，然后基于第一样本集中的正脸样本图像对初始脸部检测模型进行训练，当达到训练结束条件时，将当前的训练模型确定为第一预训练模型。其中，该初始脸部检测模型可以为SqueezeNet，MobileNet，ShuffleNet，Xception等任意轻量化脸部检测模型，本公开实施例不作具体限定，可根据实际情况具体选择或者设定。

步骤202、服务器基于第二样本集对初始脸部检测模型进行训练，得到第二预训练模型。

其中，第二样本集包括目标动物的非正脸样本图像，例如附图4中的大量猫的非正脸图像。服务器从终端设备中获取得到第二样本集，然后基于第二样本集中的非正脸样本图像对初始脸部检测模型进行训练，当达到训练结束条件时，将当前的训练模型确定为第二预训练模型。需要指出的是，本实施中确定第二预训练模型与确定第一预训练模型所使用的为同一个初始脸部检测模型，区别仅在于训练过程中使用的样本集合不同。

步骤203、服务器基于第一样本集中样本图像的数量与第二样本集中样本图像的数量对第一预训练模型与第二预训练模型中每个卷积层的权重进行反比加权叠加，得到每个卷积层的目标权重。

其中，反比加权叠加是指，按照各预训练模型训练时所使用的样本图像数量的反比例对各对应的预训练模型中卷积层的权重进行权重加和。例如，第一样本集中样本图像的第一数量A与第二样本集中样本图像的第二数量B的比值为a：b，则服务器按照b：a的比例对第一预训练模型与第二预训练模型中各卷积层的权重进行权重加和，以得到各卷积层对应的目标权重。

步骤204、服务器根据每个卷积层的目标权重对初始脸部检测模型进行修正，得到第三预训练模型。

一个检测模型包括例如第一卷积层、第二卷积层等多个卷积层，本实施例中的第一预训练模型与第二预训练模型均是在初始脸部检测模型的基础上训练得到的，因此，第一预训练模型、第二预训练模型与初始脸部检测模型中的卷积层结构均相同，且一一对应。例如，第一预训练模型中的第一卷积层、第二预训练模型中的第一卷积层与初始脸部检测模型中的第一卷积层相对应，且结构完全相同，以此类推，其他各卷积层均一一对应。服务器在得到各卷积层的目标权重后，可以通过如下方式对初始脸部检测模型进行修正：

第一种方式，服务器对初始脸部检测模型中各卷积层的权重进行重新赋值，也就是将得到的各卷积层的目标权重赋予至初始脸部检测模型中对应的卷积层的权重，以得到第三预训练模型。例如，将第一卷积层的目标权重赋予至初始脸部检测模型中的第一卷积层，作为初始脸部检测模型第一卷积层的权重。

第二种方式，服务器在得到各卷积层的目标权重后，基于多个目标权重与初始脸部检测模型的模型结构以及网格参数重新定义一个脸部检测模型，以得到第三预训练模型。其中，需要指出的是，该重新定义的脸部检测模型中除各卷积层的权重之外的其他例如模型结构、网格参数等均与初始脸部检测模型一致。重新构建一个新的第三预训练模型，可以有效避免对模型中各卷积层的权重进行修正调整时会出现对其他网格参数甚至内部的网络结构造成的影响，从而保证得到的目标脸部检测模型的精准性，以及通过该目标脸部检测模型对动物脸部检测的效果。

当然，本公开实施例中根据每个卷积层的目标权重对初始脸部检测模型进行修正的方式包括但不限于如上两种方式，可根据实际情况具体选择或者设定，只需要根据每个卷积层的目标权重对初始脸部检测模型进行修正，得到第三预训练模型即可。

步骤205、服务器基于第一样本集与第二样本集对第三预训练模型进行训练，得到目标脸部检测模型。

服务器在通过上述步骤204得到第三预训练模型后，基于步骤201与步骤202中第一样本集合与第二样本集合中的所有样本图像，即包括所有正脸样本图像与所有非正脸样本图像对该第三预训练模型，以同步骤201与步骤202中相同的训练方式进行再次训练，直至当前的模型状态满足训练结束条件，则确定当前的训练模型为目标脸部检测模型。其中，该目标脸部检测模型可以直接用于检测待识别图像中的目标动物的脸部，例如上述的猫脸、狗脸等。

本公开实施例提供的脸部的检测模型训练方法是分别基于目标对象的正脸和非正脸样本图像训练得到的，可以对待检测图像中目标动物的正脸与非正脸进行全面识别，从而解决了现有技术中存在的目前的宠物脸部检测模型针对宠物的正脸识别效果较佳，而对于非正脸图像的识别并不理想的技术问题，达到了从宠物脸部识别的全面性与精准性两个维度来提高宠物脸部识别的识别效果。

请参见图3，在本公开的一个可选实施例中，步骤203服务器基于第一样本集中样本图像的数量与第二样本集中样本图像的数量对第一预训练模型与第二预训练模型中每个卷积层的权重进行反比加权叠加，得到每个卷积层的目标权重，包括如下步骤301-步骤304：

步骤301、服务器确定第一样本集与第二样本集中样本图像数量的数量比值。

第一样本集中的正脸样本图像的数量为A，第二样本集中的非正脸样本图像的数量为B，则服务器确定A与B的数量比值为a：b。例如，第一样本集中的正脸样本图像的数量为20，第二样本集中的非正脸样本图像的数量为10，则服务器确定A与B的数量比值为2：1。

步骤302、服务器分别计算数量比值中第一样本集对应的第一比例参数与第二预训练模型中各卷积层权重的第一乘积。

如上，在数量比值a：b中第一样本集对应的第一比例参数为a，例如第二预训练模型中的第一卷积层的权重为P_B，则服务器计算a与P_B的乘积，即可得到该第一卷积层对应的第一乘积a P_B。以此类推，得到其他各卷积层对应的其他第一乘积。

步骤303、服务器分别计算数量比值中第二样本集对应的第二比例参数与第一预训练模型中各卷积层权重的第二乘积。

同步骤302，在数量比值a：b中第二样本集对应的第二比例参数为b，例如第一预训练模型中的第一卷积层的权重为P_A，则服务器计算b与P_A的乘积，即可得到该第一卷积层对应的第二乘积b P_A。以此类推，得到其他各卷积层对应的其他第二乘积。

步骤304、服务器计算第一预训练模型与第二预训练模型，位于同一卷积层中的第一乘积与第二乘积的加和，得到当前卷积层的目标权重。

如上，服务器得到了第一卷积层对应的第一乘积a P_B与第二乘积b P_A，然后计算该第一乘积a P_B与第二乘积b P_A的加和，即可得到第一卷积层的目标权重P。例如，服务器可以基于如下公式(1)计算得到第一卷积层的目标权重：

P_i ＝ a P _i，_B + b P_i，A (1)

(1)式中，i表示第i个卷积层，P_i表示第i个卷积层的目标权重，a表示在数量比值中第一样本集对应的第一比例参数，b表示在数量比值中第二样本集对应的第二比例参数，P_i，_A表示第一预训练模型中第i个卷积层的权重，P_i，_B表示第二预训练模型中第i个卷积层的权重。

本公开实施例提供的脸部的检测模型训练方法是基于第一样本集与第二样本集中样本图像数量的数量比值计算得到每个卷积层的目标权重的，也就是通过简单的计算方式引入第一预训练模型与第二预训练模型中的权重参数，从而使得通过最终得到的目标权重确定的目标脸部检测模型对目标动物的正脸与非正脸均具有优异的检测效果。

在本公开的一个可选实施例中，步骤204服务器根据每个卷积层的目标权重对初始脸部检测模型进行修正，得到第三预训练模型，包括如下步骤A：

步骤A、服务器将初始脸部检测模型中各卷积层的权重设定为与各卷积层分别对应的卷积层的目标权重，以得到第三预训练模型。

例如，服务器可以先对初始脸部检测模型中各卷积层的权重进行初始化，然后再对初始化后的初始脸部检测模型中各卷积层的权重重新赋值。也就是将步骤203中得到的各卷积层的目标权重赋予至初始脸部检测模型对应的卷积层，以得到新的训练模型，即得到第三训练模型。

本公开实施例是直接将步骤203中得到的目标权重作为初始脸部检测模型中各卷积层的权重，无需进行其他的修正计算，同时，目标权重是基于第一预训练模型与第二预训练模型确定得到的，因此，本公开实施例可以在保证检测效果的前提下大大提高模型训练的效率。

请参见图4，在本公开的一个可选实施例中，在步骤205服务器基于第一样本集与第二样本集对第三预训练模型进行训练之前，脸部的检测模型训练方法还包括如下步骤401-步骤403：

步骤401、服务器获取训练样本集。

其中，训练样本集包括多张含有目标动物的样本图像，也就是说，该训练样本集是上述第一样本集与第二样本集的集合，包含有目标动物的大量的正脸样本图像，与非正脸样本图像。

步骤402、服务器获取每张样本图像中针对目标动物的标注数据。

本实施中的标注数据是指用于表征目标动物的位置信息，例如耳朵的位置信息、眼睛的位置信息、鼻子的位置信息、嘴巴的位置信息、脸部外轮廓的位置信息等。需要指出的是，该标注数据至少包括目标动物的五官数据，例如耳朵数据、眼睛数据、鼻子数据、嘴巴数据、脸部外轮廓数据等。其中，每个器官或者特征区域可以由多个带有坐标信息的特征点构成，第一方面，可以通过工作人员对该特征点进行人工标注，然后将标注后得到的标注数据输入至服务器中，从而使得服务器得到关于目标动物的标注数据；第二方面，可以基于一些数据标注软件，例如vatic等对样本图像中的目标动物进行自动数据标注。本实施例对该标注方式不作具体限定，可根据实际情况具体选择或者设定，只需要可以获取样本图像中针对目标动物的标注数据即可。

步骤403、服务器根据各样本图像中的标注数据将多张样本图像划分为第一样本集与第二样本集。

服务器针对训练样本集中每一张样本图像中的标注数据进行一一分析，以确定当前的样本图像中的目标动物是正脸还是非正脸，若确定当前的样本图像中的目标动物是正脸，则将当前的样本图像划分至第一样本集中，若确定当前的样本图像中的目标动物是非正脸，则将当前的样本图像划分至第二样本集中。以此类推，对训练样本集中的所有样本图像进行一一分析，将各样本图像分别划分至第一样本集或第二样本集。

本公开实施例提供的脸部的检测模型训练方法是先获取各样本图像中针对目标动物的标注数据，然后基于样本图像中针对目标动物的标注数据对各样本图像进行一一分析。本公开实施例处理对象是标注数据，而非原始图像，针对数据的处理相对于图像处理效率更高，可以进一步提高本公开实施例提供的脸部的检测模型训练方法的训练效率。同时，由于动物的品种繁多，即使是同一种动物，其五官、毛发、体型等也差别较大，因此，本公开实施例通过对样本图像中目标动物的五官进行数据标注，可以大大提高样本的针对性，进而提高训练得到的目标脸部检测模型针对目标动物的脸部识别效果。这也正是本公开实施例提供的动物脸部检测模型针对例如人脸检测模型等普通脸部检测模型所作出的又一改进之一。

请参见图5，在本公开的一个可选实施例中，步骤403服务器根据各样本图像中的标注数据将多张样本图像划分为第一样本集与第二样本集，包括如下步骤501-步骤503：

步骤501、服务器根据当前样本图像中的五官数据确定目标动物的双眼分别距离目标动物中心轴的第一距离与第二距离。

目标动物中心轴是指位于目标动物脸部中心的一条直线，例如，鼻子、眉心双耳中点、眼睛中点等的连线。服务器可以在目标动物中心轴上任意定义一个中心点(x₀，y₀)，然后基于目标动物左眼坐标数据(x₁，y₁)与右眼的坐标数据(x₂，y₂)分别计算得到第一距离d₁与第二距离d₂。其中，

第一距离

第二距离

步骤502、若第一距离与第二距离相等，服务器则将当前样本图像划分至第一样本集。

如图6，若第一距离d₁与第二距离d₂相等，则意味着当前样本图像中的目标动物的双眼沿目标动物中心轴对称，即当前样本图像中的目标动物为正脸，则将当前的样本图像划分至包含有所有目标正脸的第一样本集。

步骤503、若第一距离与第二距离不等，服务器则将当前样本图像划分至第二样本集。

如图7，若第一距离d₁与第二距离d₂不相等，则意味着当前样本图像中的目标动物的双眼沿目标动物中心轴不对称，即当前样本图像中的目标动物为非正脸，则将当前的样本图像划分至包含有所有目标非正脸的第二样本集。

本公开实施例提供的脸部的检测模型训练方法是基于目标动物的双眼标注数据分别距离目标动物中心轴的第一距离与第二距离，来确定当前样本图像中的目标动物为正脸还是非正脸，相对于其他的图像处理方法，效率更高，且判断结果更为准确。

在本公开的一个可选实施例中，在步骤403服务器根据各样本图像中的标注数据将多张样本图像划分为第一样本集与第二样本集之前，脸部的检测模型训练方法还包括如下步骤B：

步骤B、服务器对多张样本图像进行数据增强处理。

例如，可以根据如下几种方式对样本图像进行数据增强：第一种方式，对样本图像进行例如翻转、旋转、色彩抖动、随机剪裁、随机对比度调整、模糊处理等。第二种方式，更换背景，例如从COCO，VOC等数据集中抽取大量无目标动物的图作为背景，形成多种不同背景样本图。第三种方式，采用生成对抗网络生成大量的不同姿态、不同表情的目标动物的样本图。当然，本公开实施例中对样本图像的数据增强处理不限于如上三种方式，可根据实际情况具体设定，只需要可以实现对多张样本图像进行数据增强处理即可。本公开实施例基于数据增强处理来增加样本的丰富性，从而提高模型训练的困难度，从而提高训练得到的脸部检测模型针对目标动物的识别效率与识别效果。

请参见图8，本公开一个实施例提供了一种脸部的识别方法，用于对动物脸部进行识别，包括如下步骤801-步骤802：

步骤801、服务器将待识别图像输入至目标脸部检测模型，得到多个脸部候选框。

其中，该目标脸部检测模型的有益效果已经在上述实施例中详细阐述，在此不再赘述。

步骤802、服务器基于非极大值抑制算法确定多个脸部候选框中的目标指示框。

其中，目标指示框用于指示待识别图像中目标脸部的位置非极大值抑制(Non-Maximum Suppression，简称NMS)算法，先通过抑制不是极大值的元素，然后提取置信度高的候选框，而抑制置信度低的候选框。最后再在置信度高的候选框中确定目标指示框，可以大大提高图像识别的效率。

在一个具体的实施例中，初始脸部检测模型至少包括三个模块：特征提取模块，上下文模块和预测模块。其中，特征提取模块输入为样本图像，输出为两张或两张以上的特征图，用于提取样本图像中的特征；上下文模块的输入为特征提取模块输出的特征图，输出是不同分辨率的特征图；预测模块至少包括检测框回归分支、分数预测分支和特征点回归分支，将输入的不同分别率特征图合并起来作为输出。

在一个可选的实施例中，可以先对样本图像进行预处理后再进行训练，以提高模型训练效率。例如可以包括如下方式：第一种方式，将样本图像的尺寸处理为初始脸部检测模型可兼容的尺寸，例如初始脸部检测模型为MobileNet，则对应可以将样本图像处理为300*300分辨率。第二种方式，将样本图像的RGB图像转换为YUV通道，然后只取Y通道的图像输入模型，以提高模型训练效率。

在一个可选的实施例中，在对第三预训练模型进行训练时，可以基于损失函数对当前的训练模型进行进一步优化，例如本实施中的损失函数可为如下式(4)：

(4)式中，N表示候选框总数，α和β表示权重，L_loc表示候选框坐标的损失函数，L_conf表示候选框置信度的损失函数，L_landmarks表示候选框特征点坐标的损失函数。其中，L_loc、L_conf和L_landmarks可以通过如下公式(5)-(7)计算得到：

(5)式中，L_loc表示候选框坐标的损失函数，N表示候选框总数，Pos表示正样本候选框的数量，i为预测候选框的序号，j为真实目标框的序号，x_i,j表示第i个预测目标框与第j个真实目标目标框是否匹配，匹配为1，不匹配为0，l_i-g_j为第i个预测目标框与第j个真实目标目标框之间的位置偏差。

(6)式中，L_conf表示候选框置信度的损失函数，N表示候选框总数，Pos表示正样本候选框的数量，i为预测候选框的序号，j为真实目标框的序号，x_i,j表示第i个预测目标框与第j个真实目标框是否匹配，匹配为1，不匹配为0，c表示预测的类别置信度，表示第i个预测目标框猫脸的置信度，Neg表示训练图像中负样本候选框的数量，/>表示第i个预测框是背景的置信度。

(7)式中，L_landmarks表示候选框特征点坐标的损失函数，N表示候选框总数，K表示特征点总数，Pos表示正样本候选框的数量，i为预测候选框的序号，j为真实目标框的序号，x_i,j表示第i个预测目标框与第j个真实目标框是否匹配，匹配为1，不匹配为0，为第i个预测框的特征点与第j个真实目标框之间的第k个特征点的位置偏差，wing的确定方式如下式(8)：

其中，w和∈为经验值，w一般取10，∈一般取2，ε为经验值，可根据实际情况具体设定。

为了实现上述业务处理方法，本公开的一个实施例中提供一种脸部的检测模型训练装置。图9示出了脸部的检测模型训练装置900的示意性架构图。其中，该脸部的检测模型训练装置900包括：第一训练模块910、第二训练模块920、处理模块930和第三训练模块940。

该第一训练模块910，用于基于第一样本集对初始脸部检测模型进行训练，得到第一预训练模型；其中，第一样本集包括目标动物的正脸样本图像；

该第二训练模块920，用于基于第二样本集对初始脸部检测模型进行训练，得到第二预训练模型；其中，第二样本集包括目标动物的非正脸样本图像；

该处理模块930，用于基于第一样本集中样本图像的数量与第二样本集中样本图像的数量对第一预训练模型与第二预训练模型中每个卷积层的权重进行反比加权叠加，得到每个卷积层的目标权重；

该第三训练模块940，用于根据每个卷积层的目标权重对初始脸部检测模型进行修正，得到第三预训练模型；

该处理模块930，还用于基于第一样本集与第二样本集对第三预训练模型进行训练，得到目标脸部检测模型。

在本公开一个可选的实施例中，该处理模块930具体用于，确定第一样本集与第二样本集中样本图像数量的数量比值；分别计算数量比值中第一样本集对应的第一比例参数与第二预训练模型中各卷积层权重的第一乘积；分别计算数量比值中第二样本集对应的第二比例参数与第一预训练模型中各卷积层权重的第二乘积；计算第一预训练模型与第二预训练模型，位于同一卷积层中的第一乘积与第二乘积的加和，得到当前卷积层的目标权重。

在本公开一个可选的实施例中，该第三训练模块940具体用于，将初始脸部检测模型中各卷积层的权重设定为与各卷积层分别对应的卷积层的目标权重，以得到第三预训练模型。

在本公开一个可选的实施例中，该处理模块930还用于，获取训练样本集；其中，训练样本集包括多张含有目标动物的样本图像；获取每张样本图像中针对目标动物的标注数据；其中，标注数据至少包括目标动物的五官数据；根据各样本图像中的标注数据将多张样本图像划分为第一样本集与第二样本集。

在本公开一个可选的实施例中，该处理模块930具体用于，根据当前样本图像中的五官数据确定目标动物的双眼分别距离目标动物中心轴的第一距离与第二距离；若第一距离与第二距离相等，则将当前样本图像划分至第一样本集。

在本公开一个可选的实施例中，该处理模块930具体用于，若第一距离与第二距离不等，则将当前样本图像划分至第二样本集。

在本公开一个可选的实施例中，该处理模块930还用于，对多张样本图像进行数据增强处理。

本公开的示例性实施方式还提供了一种计算机可读存储介质，可以实现为一种程序产品的形式，其包括程序代码，当程序产品在电子设备上运行时，程序代码用于使电子设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。在一种实施方式中，该程序产品可以实现为便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在电子设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本公开的示例性实施方式还提供了一种电子设备，可以是信息平台的后台服务器。下面参考图10对该电子设备进行说明。应当理解，图10显示的电子设备1000仅仅是一个示例，不应对本公开实施方式的功能和使用范围带来任何限制。

如图10所示，电子设备1000以通用计算设备的形式表现。电子设备1000的组件可以包括但不限于：至少一个处理单元1010、至少一个存储单元1020、连接不同系统组件(包括存储单元1020和处理单元1010)的总线1030。

其中，存储单元存储有程序代码，程序代码可以被处理单元1010执行，使得处理单元1010执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，处理单元1010可以执行如图2所示的方法步骤等。

存储单元1020可以包括易失性存储单元，例如随机存取存储单元(RAM)1021和/或高速缓存存储单元1022，还可以进一步包括只读存储单元(ROM)1023。

存储单元1020还可以包括具有一组(至少一个)程序模块1025的程序/实用工具1024，这样的程序模块1025包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1030可以包括数据总线、地址总线和控制总线。

电子设备1000也可以与一个或多个外部设备1100(例如键盘、指向设备、蓝牙设备等)通信，这种通信可以通过输入/输出(I/O)接口1040进行。电子设备1000还可以通过网络适配器1050与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1050通过总线1030与电子设备1000的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1000使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的示例性实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施方式。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施方式仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限定。

Claims

1.一种脸部的检测模型训练方法，其特征在于，用于对动物脸部检测模型进行训练，所述方法包括：

基于第一样本集对初始脸部检测模型进行训练，得到第一预训练模型；其中，所述第一样本集包括目标动物的正脸样本图像；

基于第二样本集对所述初始脸部检测模型进行训练，得到第二预训练模型；其中，所述第二样本集包括所述目标动物的非正脸样本图像，所述第一预训练模型与所述第二预训练模型的卷积层结构均与所述初始脸部检测模型的卷积层结构相同；

确定所述第一样本集与所述第二样本集中样本图像数量的数量比值，分别计算所述数量比值中所述第一样本集对应的第一比例参数与所述第二预训练模型中各卷积层权重的第一乘积，分别计算所述数量比值中所述第二样本集对应的第二比例参数与所述第一预训练模型中各卷积层权重的第二乘积，并计算所述第一预训练模型与所述第二预训练模型，位于同一卷积层中的所述第一乘积与所述第二乘积的加和，得到每个卷积层的目标权重；

根据每个卷积层的所述目标权重对所述初始脸部检测模型进行修正，得到第三预训练模型；

基于所述第一样本集与所述第二样本集对所述第三预训练模型进行训练，得到目标脸部检测模型。

2.根据权利要求1所述的脸部的检测模型训练方法，其特征在于，所述根据每个卷积层的所述目标权重对所述初始脸部检测模型进行修正，得到第三预训练模型，包括：

将所述初始脸部检测模型中各卷积层的权重设定为与各卷积层分别对应的卷积层的所述目标权重，以得到所述第三预训练模型。

3.根据权利要求1所述的脸部的检测模型训练方法，其特征在于，在所述基于所述第一样本集与所述第二样本集对所述第三预训练模型进行训练之前，所述方法还包括：

获取训练样本集；其中，所述训练样本集包括多张含有所述目标动物的样本图像；

获取每张所述样本图像中针对所述目标动物的标注数据；其中，所述标注数据至少包括所述目标动物的五官数据；

根据各所述样本图像中的所述标注数据将多张所述样本图像划分为所述第一样本集与所述第二样本集。

4.根据权利要求3所述的脸部的检测模型训练方法，其特征在于，所述根据各所述样本图像中的所述标注数据将多张所述样本图像划分为所述第一样本集与所述第二样本集，包括：

根据当前样本图像中的所述五官数据确定所述目标动物的双眼分别距离所述目标动物中心轴的第一距离与第二距离；

若所述第一距离与所述第二距离相等，则将所述当前样本图像划分至所述第一样本集。

5.根据权利要求4所述的脸部的检测模型训练方法，其特征在于，所述根据各所述样本图像中的所述标注数据将多张所述样本图像划分为所述第一样本集与所述第二样本集，还包括：

若所述第一距离与所述第二距离不等，则将所述当前样本图像划分至所述第二样本集。

6.根据权利要求3所述的脸部的检测模型训练方法，其特征在于，在所述根据各所述样本图像中的所述标注数据将多张所述样本图像划分为所述第一样本集与所述第二样本集之前，所述方法还包括：

对多张所述样本图像进行数据增强处理。

7.一种脸部的识别方法，其特征在于，包括：

将待识别图像输入至如权利要求1-6任一项所述脸部的检测模型训练方法得到的目标脸部检测模型，得到多个脸部候选框；

基于非极大值抑制算法确定所述多个脸部候选框中的目标指示框；其中，所述目标指示框用于指示所述待识别图像中目标脸部的位置。

8.一种脸部的检测模型训练装置，其特征在于，所述装置包括：

第一训练模块，用于基于第一样本集对初始脸部检测模型进行训练，得到第一预训练模型；其中，所述第一样本集包括目标动物的正脸样本图像；

第二训练模块，用于基于第二样本集对所述初始脸部检测模型进行训练，得到第二预训练模型；其中，所述第二样本集包括所述目标动物的非正脸样本图像，所述第一预训练模型与所述第二预训练模型的卷积层结构均与所述初始脸部检测模型的卷积层结构相同；

处理模块，用于确定所述第一样本集与所述第二样本集中样本图像数量的数量比值，分别计算所述数量比值中所述第一样本集对应的第一比例参数与所述第二预训练模型中各卷积层权重的第一乘积，分别计算所述数量比值中所述第二样本集对应的第二比例参数与所述第一预训练模型中各卷积层权重的第二乘积，并计算所述第一预训练模型与所述第二预训练模型，位于同一卷积层中的所述第一乘积与所述第二乘积的加和，得到每个卷积层的目标权重；

第三训练模块，用于根据每个卷积层的所述目标权重对所述初始脸部检测模型进行修正，得到第三预训练模型；

处理模块，还用于基于所述第一样本集与所述第二样本集对所述第三预训练模型进行训练，得到目标脸部检测模型。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的方法。

10.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至7任一项所述的方法。