CN114445884B

CN114445884B - 训练多目标检测模型的方法、检测方法及相关装置

Info

Publication number: CN114445884B
Application number: CN202210003066.0A
Authority: CN
Inventors: 曾梦萍
Original assignee: Shenzhen Shuliantianxia Intelligent Technology Co Ltd
Current assignee: Shenzhen Shuliantianxia Intelligent Technology Co Ltd
Priority date: 2022-01-04
Filing date: 2022-01-04
Publication date: 2024-04-30
Anticipated expiration: 2042-01-04
Also published as: CN114445884A

Abstract

本申请实施例涉及目标检测技术领域，公开了一种训练多目标检测模型的方法，训练集包括M个图像子集，一图像子集中各图像标注有对应的单个目标的真实标签(细分类别和位置)。从而，训练集中图像不需要完整标注多个目标的真实标签，对标签完整性要求较低，从而，能够减少开发成本。将训练集输入特征提取网络，得到特征图集，然后将特征图集分别输入M个分支检测网络进行训练，得到构成该多目标检测模型的特征提取子模型和M个分支检测子模型。通过上述训练方式，能够实现用一个包括主干部分(特征提取子模型)和多个分支部分(分支检测子模型)的多目标检测模型即可检测多个目标的分类及定位，通过多分支的子模型合并，有效减少模型部署成本。

Description

训练多目标检测模型的方法、检测方法及相关装置

技术领域

本申请实施例涉及目标检测技术领域，尤其涉及一种训练多目标检测模型的方法、检测方法及相关装置。

背景技术

脸部皮肤检测技术越来地应用在多个领域中。例如，在化妆品研发领域中，需要针对脸部皮肤问题，例如皱纹、黑头或黑眼圈等，设计化妆产品或推荐用户相应的化妆品。又例如，在照片美化特效领域中，需要针对不同脸部皮肤情况进行不同程度的美化特效。

当前较为常见的脸部皮肤检测技术，主要利用训练好的目标检测模型对脸部皮肤进行检测，自动检测脸部某单一皮肤问题，例如，单独检测出皱纹、单独检测出黑头或单独检测出黑眼圈。所以一张待预测的图片，需要分别经过多个模型才能获得多个维度的结果，这导致服务输出结果慢，模型部署占用的内存多，资源开销大，部署费用高体验差等缺点。

发明内容

本申请实施例主要解决的技术问题是提供一种训练多目标检测模型的方法、检测方法及相关装置，能够实现用一个模型检测多个目标的分类及定位，有效减少模型部署成本，并且训练集的标注对标签完整性要求较低，能够减少开发成本。

为解决上述技术问题，第一方面，本申请实施例中提供给了一种训练多目标检测模型的方法，所述多目标检测模型包括特征提取子模型和M个分支检测子模型；

所述方法包括：

获取训练集，所述训练集包括M个图像子集，一个所述图像子集具有多个包括人脸的图像，一个所述图像子集对应一种人脸中可识别的目标，其中，目标图像子集中的图像标注有所述目标图像子集对应的目标的真实标签，所述真实标签包括所述目标的细分类别和位置，所述目标图像子集为所述M个图像子集中的任一图像子集，M是大于或等于2的整数；

将所述训练集输入所述特征提取网络，得到特征图集；

将所述特征图集分别输入M个分支检测网络进行学习，得到所述训练集中各图像的预测标签；

根据所述训练集中各图像的预测标签和真实标签之间的差异，反向迭代调节所述M个分支检测网络的模型参数和所述特征提取网络的模型参数，得到所述特征提取子模型和所述M个分支检测子模型，一个所述分支检测子模型用于对应检测一种人脸中可识别的目标。

在一些实施例中，在所述将所述训练集输入所述特征提取网络，得到特征图集之前，还包括：

对所述M个图像子集进行图像数量平衡处理，以使所述M个图像子集中图像的数量相同。

在一些实施例中，所述根据所述训练集中各图像的预测标签和真实标签之间的差异，反向迭代调节所述M个分支检测网络的模型参数和所述特征提取网络的模型参数，得到所述特征提取子模型和所述M个分支检测子模型，包括：

计算目标图像的预测标签和真实标签之间的损失，其中，所述目标图像为所述训练集中任意一个图像；

对所述损失进行压缩处理，得到压缩损失；

根据所述训练集中各图像对应的压缩损失，反向迭代调节所述M个分支检测网络的模型参数和所述特征提取网络的模型参数，得到所述特征提取子模型和所述M个分支检测子模型。

在一些实施例中，所述对所述损失进行压缩处理，得到压缩损失，包括：

采用以下公式计算所述压缩损失；

其中，i为所述目标图像的标号，N为所述训练集中图像的数量，Loss_i为所述压缩损失，loss_i为所述损失。

在一些实施例中，目标分支检测网络包括依次连接的多个特征提取模块、池化层和全连接层，其中，所述目标分支检测网络为所述M个分支检测网络中的任意一个；

其中，所述多个特征提取模块的数量是根据所述目标分支检测网络对应的目标的粒度确定的。

在一些实施例中，各所述特征提取模块包括依次连接的第一卷积层、深度可分卷积层和第二卷积层，所述第一卷积层和所述第二卷积层后均配置有激活函数；

所述激活函数是根据所述目标分支检测网络对应的目标的粒度确定的。

在一些实施例中，在所述将所述训练集输入所述特征提取网络，得到特征图集的步骤之前，所述方法还包括：

截取所述训练集中各图像的人脸区域，以去除所述训练集中各图像的背景。

为解决上述技术问题，第二方面，本申请实施例中提供给了一种检测多目标的方法，包括：

获取待检测人脸图像；

将所述待检测人脸图像输入多目标检测模型，输出M个目标的检测结果，其中，所述多目标检测模型是采用如上权利要求1-7中任意一项所述的方法训练得到的。

为解决上述技术问题，第三方面，本申请实施例中提供给了一种电子设备，包括存储器以及一个或多个处理器，所述一个或多个处理器用于执行存储在所述存储器中的一个或多个计算机程序，所述一个或多个处理器在执行所述一个或多个计算机程序时，使得所述电子设备实现如上第一方面所述的方法。

为解决上述技术问题，第四方面，本申请实施例中提供给了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如上第一方面所述的方法。

本申请实施例的有益效果：区别于现有技术的情况，本申请实施例提供的训练多目标检测模型的方法，训练集包括M个图像子集，一图像子集中各图像标注有对应的单个目标的真实标签(细分类别和位置)，例如单个目标可以为黑眼圈、黑头、皱纹、肤质或毛孔等中的一个。从而，训练集中图像不需要完整标注多个目标的真实标签，对标签完整性要求较低，即无需将各类别的目标的细分类别和位置标注在同一个图像上，从而，能够减少开发成本。

基于上述训练集的特点，将训练集输入特征提取网络，得到特征图集，然后将特征图集分别输入M个分支检测网络进行学习，得到训练集中各图像的预测标签，最后，根据训练集中各图像的预测标签和真实标签之间的差异，反向回传，迭代调节M个分支检测网络的模型参数和特征提取网络的模型参数，得到构成该多目标检测模型的特征提取子模型和M个分支检测子模型。通过上述训练方式，使得在多目标检测模型中，M个分支检测子模型共用一个特征提取子模型，特征提取子模型对图像进行特征粗提取(例如提取比较明显直观的特征)，得到分辨率适中的特征图，然后将特征图分别输入M个分支检测子模型进行特征细提取并分类定位，每个分支检测子模型负责各自对应的目标的分类与定位，从而，可以得到图像上M个目标的分类与定位。因此，能够实现用一个包括主干部分(特征提取子模型)和多个分支部分(分支检测子模型)的多目标检测模型即可检测多个目标的分类及定位，通过多分支的子模型合并，有效减少模型部署成本。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1为本申请一些实施例提供的一种训练多目标检测模型的方法的运行环境示意图；

图2为本申请一些实施例提供的电子设备的结构示意图；

图3为本申请一些实施例提供的训练多目标检测模型的方法的流程示意图；

图4为本申请一些实施例中各图像子集中图像的标注示意图；

图5为本申请一些实施例中图像截取示意图；

图6为本申请一些实施例中特征提取网络的结构示意图；

图7为本申请一些实施例中多目标检测模型的训练过程示意图；

图8为本申请一些实施例中分支检测网络的结构示意图；

图9为图3所示方法中步骤S70的一子流程示意图；

图10为本申请一些实施例中分支检测网络的结构示意图；

图11为本申请一些实施例中检测多目标的方法的流程示意图。

具体实施方式

下面结合具体实施例对本申请进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本申请，但不以任何形式限制本申请。应当指出的是，对本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进。这些都属于本申请的保护范围。

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，如果不冲突，本申请实施例中的各个特征可以相互结合，均在本申请的保护范围之内。另外，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。此外，本文所采用的“第一”、“第二”、“第三”等字样并不对数据和执行次序进行限定，仅是对功能和作用基本相同的相同项或相似项进行区分。

除非另有定义，本说明书所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本说明书中在本申请的说明书中所使用的术语只是为了描述具体的实施方式的目的，不是用于限制本申请。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

此外，下面所描述的本申请各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

图1是本发明实施例提供的训练多目标检测模型的方法的运行环境示意图。请参照图1，包括电子设备10和图像获取装置20，电子设备10和图像获取装置20通信连接。

通信连接可以是有线连接，例如：光纤电缆，也可以是无线通信连接，例如：WIFI连接、蓝牙连接、4G无线通信连接，5G无线通信连接等等。

图像获取装置20用于获取包括人脸的若干个图像，也可用于获取待检测人脸图像，图像获取装置20可为能够拍摄图像的终端，例如：具有拍摄功能的手机、平板电脑、录像机或摄像头等。

电子设备10是能够按照程序运行，自动、高速处理海量数据的设备，其通常是由硬件系统和软件系统所组成，例如：计算机、智能手机等等。电子设备10可以是本地设备，其直接与图像获取装置20连接；也可以是云设备，例如：云服务器、云主机、云服务平台、云计算平台等，云设备通过网络与图像获取装置20连接，并且两者通过预定的通信协议通信连接，在一些实施例，该通信协议可以是TCP/IP、NETBEUI和IPX/SPX等协议。

可以理解的是：图像获取装置20和电子设备10也可以集成在一起，作为一体式的设备，例如，带有摄像头的计算机或智能手机等。

电子设备10接收图像获取装置20发送的若干个包括人脸的图像，从而，可以对这若干个图像进行标注真实标签。例如，电子设备10上装载有Labelme或LabelHub等标注软件，从而，本领域技术人员可以采用标注软件对这若干个图像进行标注，获得训练集。电子设备10采用训练集对预先设置的神经网络进行训练，得到多目标检测模型。

其中，训练集包括M个图像子集，一个图像子集对应一种人脸中可识别的目标，不同图像子集对应不同类型的目标，不同类型的目标分别反映不同的人脸皮肤评价维度，例如，不同类型的目标可以为黑眼圈、黑头、皱纹、肤质或毛孔等。其中，目标图像子集中的图像标注有目标图像子集对应的类型的目标的真实标签，该真实标签包括目标的细分类别和位置，目标图像子集为M个图像子集中的任一图像子集。

预设的神经网络包括特征提取网络(相当于主干网络)和M个分支检测网络(相当于M个分支网络)，首先，将训练集输入特征提取网络，得到特征图集，然后将特征图集分别输入M个分支检测网络进行学习，得到训练集中各图像的预测标签，最后，根据训练集中各图像的预测标签和真实标签之间的差异，反向回传，迭代调节M个分支检测网络的模型参数和特征提取网络的模型参数，得到构成该多目标检测模型的特征提取子模型和M个分支检测子模型。通过上述训练方式，使得在多目标检测模型中，M个分支检测子模型共用一个特征提取子模型，特征提取子模型对图像进行特征粗提取(例如提取比较明显直观的特征)，得到分辨率适中的特征图，然后将特征图分别输入M个分支检测子模型进行特征细提取并分类定位，每个分支检测子模型负责各自对应的目标的分类与定位，从而，可以得到图像上M个目标的分类与定位。因此，能够实现用一个包括主干部分(特征提取子模型)和多个分支部分(分支检测子模型)的多目标检测模型即可检测多个目标的分类及定位，通过多分支的子模型合并，有效减少模型部署成本。

此外，电子设备10还能利用多目标检测模型检测该图像获取装置20发送的待检测人脸图像，输出所述待检测人脸图像中的M种类型的目标的细分类别和位置。

可以理解的是，上述对多目标检测模型的训练和对待检测人脸图像的检测也可以在不同的电子设备上执行。

在上述图1的基础上，本发明的其他实施例提供了一种电子设备10，请参阅图2，为本发明实施例提供的一种电子设备10的硬件结构图，具体的，如图2所示，电子设备10包括通信连接的至少一个处理器11和存储器12(图2中以总线连接、一个处理器为例)。

其中，处理器11用于提供计算和控制能力，以控制电子设备10执行相应任务，例如，控制电子设备10执行下述发明实施例提供的任意一种训练多目标检测模型的方法或下述发明实施例提供的任意一种检测多目标的方法。

可以理解的是，处理器11可以是通用处理器，包括中央处理器(CentralProcessing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

存储器12作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态性计算机可执行程序以及模块，如本发明实施例中的训练多目标检测模型的方法对应的程序指令/模块，或本发明实施例中的检测多目标的方法对应的程序指令/模块。处理器11通过运行存储在存储器12中的非暂态软件程序、指令以及模块，可以实现下述任一方法实施例中的训练多目标检测模型的方法，以及可以实现下述任一方法实施例中的检测多目标的方法。具体地，存储器12可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器12还可以包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

以下，对本发明实施例提供的训练多目标检测模型的方法进行详细说明，请参阅图3，方法S100包括但不限制于以下步骤：

S10：获取训练集；

其中，训练集包括M个图像子集，一个图像子集具有多个包括人脸的图像，一个图像子集对应一种人脸中可识别的目标，其中，目标图像子集中的图像标注有目标图像子集对应的目标的真实标签，真实标签包括目标的细分类别和位置，目标图像子集为M个图像子集中的任一图像子集，M是大于或等于2的整数。

各图像子集中的图像包括人脸，可由上述图像获取装置获取，例如，训练集可以为由图像获取装置采集到的证件照或自拍照等。可以理解的是，各图像子集也可以是现有的开源人脸库中的数据，其中，开源人脸库可以为FERET人脸数据库、CMU Multi-PIE人脸数据库或YALE人脸数据库等。在此，对各图像子集的来源不做限制，只要包括人脸即可。

图像子集的个数M可以由本领域技术人员根据目标的类别个数确定，一个图像子集对应一种人脸中可识别的目标。在一些实施例中，训练集可以包括5个图像子集(M＝5)，图像子集1#对应的人脸中可识别的目标为黑眼圈，图像子集2#对应的人脸中可识别的目标为黑头，图像子集3#对应的人脸中可识别的目标为皱纹，图像子集4#对应的人脸中可识别的目标为肤质，图像子集5#对应的人脸中可识别的目标为毛孔。

对于M个图像子集中的任意一个图像子集，即目标图像子集，目标图像子集中的图像标注有目标图像子集对应的目标的真实标签，真实标签包括目标的细分类别和位置。例如，上述图像子集1#标注有黑眼圈的真实标签，具体包括黑眼圈的细分类别和位置，其中，黑眼圈的细分类别包括无、血管型或色素型，能反映黑眼圈的属性以及造成黑眼圈的因素。如图4(a)所示，对于图像子集1#中的任一图像1#，其标注的真实标签包括黑眼圈的细分类别和黑眼圈的位置，其中，黑眼圈的细分类别由文字示出，黑眼圈位置由相应的标记框示出。在该图像1#中，其标注的黑眼圈的细分类别为色素型黑眼圈。可以理解的是，黑眼圈的细分类别也可以由相应的代号示出。

例如，上述图像子集2#标注有黑头的真实标签，具体包括黑头的细分类别和位置，其中，黑头的细分类别包括无、轻度、中度或重度，能反映黑头的严重程度。如图4(b)所示，对于图像子集2#中的任一图像2#，其标注的真实标签包括黑头的细分类别和黑头位置，其中，黑头的细分类别由文字示出，黑头位置由相应的标记框示出。在图像2#中，其标注的黑头的细分类别包括轻度黑头。可以理解的是，黑头的细分类别也可以由相应的代号示出。

例如，上述图像子集3#标注有皱纹类型的真实标签，具体包括皱纹的细分类别和位置。其中，皱纹的细分类别包括皱纹种类和皱纹种类对应的严重程度，皱纹种类包括抬头纹、眉间纹、鱼尾纹或法令纹，严重程度包括无、轻度、中度或重度。每种皱纹种类对应无、轻度、中度或重度这4种严重程度。由此，将皱纹的细分类别分为了16类，能精细化反映面部衰老情况。如图4(c)所示，对于图像子集3#中的任一图像3#，其标注的真实标签包括皱纹的细分类别和皱纹位置，其中，皱纹的细分类别由文字示出，皱纹位置由相应的标记框示出。在图像3#中，其标注的皱纹的细分类别包括：中度抬头纹、轻度眉间纹、轻度鱼尾纹和轻度法令纹。可以理解的是，皱纹的细分类别也可以由相应的代号示出。

例如，上述图像子集4#标注有肤质的真实标签，具体包括肤质的细分类别和位置，其中，肤质的细分类别包括油性、中性、干性或混合性。如图4(d)所示，对于图像子集4#中的任一图像4#，其标注的真实标签包括肤质的细分类别和肤质位置，其中，肤质的细分类别由文字示出，肤质位置由相应的标记框示出。在图像4#中，其标注的肤质的细分类别包括油性。可以理解的是，肤质的细分类别也可以由相应的代号示出。

例如，上述图像子集5#标注有毛孔的真实标签，具体包括毛孔的细分类别和位置，其中，毛孔的细分类别包括无、轻度、中度或重度，能反映毛孔的严重程度。如图4(e)所示，对于图像子集5#中的任一图像5#，其标注的真实标签包括毛孔的细分类别和毛孔位置，其中，毛孔的细分类别由文字示出，毛孔位置由相应的标记框示出。在图像5#中，其标注的毛孔的细分类别包括轻度毛孔。可以理解的是，毛孔的细分类别也可以由相应的代号示出。

在一些实施例中，在步骤S30之前还包括：

截取训练集中各图像的人脸区域，以去除训练集中各图像的背景。

可以理解的是，训练集中的图像包括人脸和背景，其中，人脸是检测用于反映人脸皮肤评价维度的目标的区域。为了减小背景对目标检测的干扰，以及减小后续算法模型的训练时间，在一些实施例中，截取训练集中的图像的人脸区域，以去除图像的背景。如图5所示，可先通过现有的dlib工具包获取人脸框，再结合图像自身的宽高比例，将人脸框的宽高比例调整至图像自身的宽高比例，从而，可截取所述人脸区域。其中，dlib工具包是用于图像中的对象检测的工具，例如，将dlib工具包用于人脸检测。

在此实施例中，训练集中的图像为去除背景后的人脸区域图像。因此，可以有效减小背景对目标检测的干扰，以及，有效减少后续算法模型的训练时间。

S30：将训练集输入特征提取网络，得到特征图集。

其中，特征提取网络包括多个卷积层和池化层，以用于对输入的图像进行下采样，得到特征图。可以理解的是，卷积层和池化层是神经网络的基本组件，在于它们对图像的处理过程在此不详细叙述。

在特征提取网络进行下采样的过程中，一卷积层或一池化层均输出特征图。基于卷积层或池化层中卷积核个数和步长的配置，各层输出的特征图的分辨率呈从大到小的趋势，以进行特征粗提取。可以理解的是，特征图分辨率越大，提取的特征粒度越小，特征图分辨率越小，提取的特征粒度越大。

特征提取网络对训练集中的图像进行特征粗提取，提取比较明显直观的特征，例如边缘轮廓、颜色信息或五官特征等，得到分辨率适中的特征图，将特征提取网络针对训练集中各图像最后输出的特征图作为特征图集。

可以理解的是，特征提取网络可以是现有神经网络的前段部分，例如，若神经网络为SSD-MobilenetV2网络。当神经网络为SSD-MobilenetV2网络时，如图6所示，特征提取网络包括依次连接的卷积层(Conv2D)和4个特征提取模块(block)，其中，卷积层输出的特征图大小为112*112*32，第1个特征提取模块输出的特征图大小为112*112*64，第2个特征提取模块输出的特征图大小为56*56*64，第3个特征提取模块输出的特征图大小为28*28*128，第4个特征提取模块输出的特征图大小为28*28*256，从而，在此实施例中，特征图集中各特图的大小为28*28*256。该分辨率大小的特征图，不仅能够反映比较明显直观的特征，还不影响后续分支检测网络在特征图的基础上继续学习。

在图6所示的实施例中，特征提取模块(block)包括依次连接的第一卷积层(Conv2D)、深度可分离卷积层(DepthWise)和第二卷积层(Conv2D)，第一卷积层(Conv2D)和第二卷积层(Conv2D)后均配置有归一化层(BN)和激活函数(Rel)，例如，输入该特征提取模块的图像x，经第一卷积层、深度可分离卷积层和第二卷积层处理后，输出图像y，将图像x和图像y进行融合处理后，再输入网络的下一层。

可以理解的是，在其它实施例中，特征提取模块可以包括卷积层、深度可分卷积层、归一化层、池化层或激活函数中的至少两个，具有可由本领域技术人员进行具体设置。

S50：将特征图集分别输入M个分支检测网络进行学习，得到训练集中各图像的预测标签。

请参阅图7，以M为5，人脸中可识别的目标包括黑眼圈、黑头、皱纹、肤质和毛孔为例进行示意性说明。如图7所示，将特征提取网络输出的特征图集分别输入5个分支检测网络进行学习处理，第1个分支检测网络输出训练集中各图像对应的黑眼圈预测标签，第2个分支检测网络输出训练集中各图像对应的黑头预测标签，第3个分支检测网络输出训练集中各图像对应的皱纹预测标签，第4个分支检测网络输出训练集中各图像对应的肤质预测标签，第5个分支检测网络输出训练集中各图像对应的毛孔预测标签。

可以理解的是，分支检测网络包括多个特征提取模块、池化层、全连接层和softmax层，从而，可以输出目标的细分类别和位置，即预测标签。在一些实施例中，分支检测网络可以是SSD-MobilenetV2网络的后段部分或其改进。如图8所示，图8示出了一分支检测网络的结构示意图，分支检测网络可以包括4个特征提取模块和池化层、权连接层。可以理解的是，M个分支检测网络的结构可以不完全相同，具体可根据实际情况进行调整。

特征图集中的特征图输入至分支检测网络后先进行下采样特征提取，然后映射至全连接层，进行细分类型分类和定位，得到相应的预测标签。

S70：根据训练集中各图像的预测标签和真实标签之间的差异，反向迭代调节M个分支检测网络的模型参数和特征提取网络的模型参数，得到特征提取子模型和M个分支检测子模型，一个分支检测子模型用于对应检测一种人脸中可识别的目标。

这里，预测标签是由特征提取网络和分支检测网络预测到的，因此，预测标签和真实标签之间的差异，能够反映初始模型的精度。基于差异不断调节M个分支检测网络的模型参数和特征提取网络的模型参数使得训练集中各图像的预测标签不断逼近于真实标签，从而，可以得到收敛后的M个分支检测网络的模型参数和特征提取网络，即得到特征提取子模型和M个分支检测子模型，该特征提取子模型和M个分支检测子模型构成多目标检测模型。

通过上述训练方式，使得在多目标检测模型中，M个分支检测子模型共用一个特征提取子模型，特征提取子模型对图像进行特征粗提取(例如提取比较明显直观的特征)，得到分辨率适中的特征图，然后将特征图分别输入M个分支检测子模型进行特征细提取并分类定位，每个分支检测子模型负责各自对应的目标的分类与定位，从而，可以得到图像上M个目标的分类与定位。因此，能够实现用一个包括主干部分(特征提取子模型)和多个分支部分(分支检测子模型)的多目标检测模型即可检测多个目标的分类及定位，通过多分支的子模型合并，有效减少模型部署成本。

在一些实施例中，在步骤S30之前还包括：

S20：对M个图像子集进行图像数量平衡处理，以使M个图像子集中图像的数量相同。

为了防止各图像子集的图像数量差异过大，导致整个网络偏向于图像数量多的图像子集对应的分支检测网络，其它分支检测网络得不到充分的训练，使得多目标检测模型在各目标之间检测失衡。例如，若训练集中标注黑头真实标签的图像过多，那么除去用于学习黑头的分支检测网络2#外，其他几个分支检测网络根本没有损失回传，这也导致了其他几个分支无法学习，无法得到训练。

通过对M个图像子集进行图像数量平衡处理，以使M个图像子集中图像的数量相同。让网络在学习M个维度的时候，能平均学习各个维度，避免模型“偏科”。例如，标注黑头真实标签的图像有1w个，而标注毛孔真实标签的图像只有1000张(毛孔真实标签标注困难，成本高)，所以就需要对数据少的毛孔维度做十倍的复制，也扩增到1w张，对齐黑头数据量。

在此实施例中，通过对各图像子集进行图像数量平衡处理，可以有效防止训练得到的多目标检测模型偏科，即对各不同的目标均有较好的检测效果。

对于不同维度的目标，学习难易程度不同，会导致损失大小不同，从而导致特征提取网络偏向于损失大的分支。由于特征提取网络学到的更多是轮廓、细节和颜色特征，所以不同维度的目标对特征提取网络的需求大体相同，但是侧重点可能不同，例如黑眼圈维更加侧重于眼睛部位的高维信息，皱纹更加注重额头部分的高维信息，如果任由某一个维度目标的损失太大，那么特征提取网络就会偏向于该维度的高维信息。

针对这个问题，设计了损失自适应策略，具体地，请参阅图9，在一些实施例中，步骤S70具体包括：

S71：计算目标图像的预测标签和真实标签之间的损失，其中，所述目标图像为所述训练集中任意一个图像。

S72：对所述损失进行压缩处理，得到压缩损失。

S73：根据所述训练集中各图像对应的压缩损失，反向迭代调节所述M个分支检测网络的模型参数和所述特征提取网络的模型参数，得到所述特征提取子模型和所述M个分支检测子模型。

对于训练集中的任意一个图像，即目标图像，首先计算目标图像的预测标签和真实标签之间的损失。具体地，可由各分支检测网络配置的损失函数进行计算。损失函数可以是本领域常用的交叉熵损失函数，具体计算过程是本领域常规基础技术，在此不再详细说明

为了防止因学习难度大的目标的损失太大而导致模型偏科，对损失均进行压缩处理，得到压缩损失。然后，根据训练集中各图像对应的压缩损失，反向迭代调节所述M个分支检测网络的模型参数和所述特征提取网络的模型参数，得到所述特征提取子模型和所述M个分支检测子模型。

可以理解的是，训练集中各图像对应的损失均进行压缩得到相应的压缩损失。可以理解的是，比较大的损失，经压缩处理后，得到的压缩损失也相应较大，但是各压缩损失之间的相对差距能够减小，从而，压缩损失既能体现各目标的损失，还能缩小差距，以避免影响网络偏科。

在一些实施例中，步骤S72具体包括：

采用以下公式计算所述压缩损失；

其中，i为目标图像的标号，N为训练集中图像的数量，Loss_i为压缩损失，loss_i为损失。

在此实施例中，先将损失进行归一化，然后，在对数函数上去进行量化，可以保证相对较大的损失在处理后压缩损失依然大，还能缩小各压缩损失之间的差距，以避免影响网络偏科。

基于多个目标的学习难度不同，例如毛孔的学习难度大于黑眼圈、皱纹的学习难度，为了更好地学习具有微小特征的目标，可以根据目标分支检测网络对应的目标的粒度确定多个特征提取模块的数量，即网络深度。可以理解的是，对于粒度小的目标，可以加深对应的分支检测网络的深度。例如，在图7所示的实施例中，人脸中可识别的目标包括黑眼圈、黑头、皱纹、肤质和毛孔，从而，可以根据黑眼圈、黑头、皱纹、肤质和毛孔的粒度特征，确定对应的分支检测网络的深度(即所包括的特征提取模块的数量)，例如，黑眼圈、黑头、皱纹和肤质可以采用如图8所示的4个特征提取模块，而毛孔的特征粒度相对较小，则可以在图8所示的分支检测网络结构的基础上增加2个特征提取模块。

如图10所示，图10示出了用于学习毛孔的分支检测网络的结构示意图，包括6个特征提取模块，相比于图8所示的网络结构，增加输出14*14*1024大小特征图的特征提取模块和输出14*14*512大小特征图的特征提取模块，加深网络深度，使得该用于学习毛孔的分支检测网络能够学习到更小粒度的特征，有利于毛孔检测的准确性。

在此实施例中，根据目标分支检测网络对应的目标的粒度确定目标分支检测网络中特征提取模块的数量(即网络深度)，使得各分支检测网络与对应的目标粒度相适应，更好地学习目标的特征，使得训练得到的多目标检测模型具有更好的检测精度。

可以理解的是，各分支检测网络中的特征提取模块的结构可以与图6所示的特征提取模块的结构相同，因此，关于第一卷积层、深度可分卷积层和第二卷积层的处理不再详细赘述。

可以理解的是，在激活函数映射的过程中，可能会削弱特征图中提取到的特征的粒度，为了使得小粒度的目标能够得到充分学习，对于M个分支检测网络中的任意一个分支检测网络，即目标分支检测网络，根据目标分支检测网络对应的目标的粒度确定激活函数。

例如，对于黑眼圈、黑头、肤质和皱纹对应的分支检测网络，特征提取模块中可以采用Relu激活函数，而对于毛孔对应的分支检测网络，特征提取模块中可以采用PRelu激活函数，PRelu激活函数能够减少对毛孔等微小特征的消耗。

在此实施例中，通过根据目标分支检测网络对应的目标的粒度确定激活函数，使得各分子检测网络能够充分学习对应的目标的特征，进一步，能够提高多目标检测模型的准确性。

综上所述，本申请实施例提供的训练多目标检测模型的方法，训练集包括M个图像子集，一图像子集中各图像标注有对应的单个目标的真实标签(细分类别和位置)，例如单个目标可以为黑眼圈、黑头、皱纹、肤质或毛孔等中的一个。从而，训练集中图像不需要完整标注多个目标的真实标签，对标签完整性要求较低，即无需将各类别的目标的细分类别和位置标注在同一个图像上，从而，能够减少开发成本。

以下，对本发明实施例所提供的检测多目标的方法进行详细说明，请参阅图11，该方法S30包括但不限制于以下步骤：

S31：获取待检测人脸图像；

S32：将待检测人脸图像输入多目标检测模型，输出M个目标的检测结果，其中，多目标检测模型是采用如上实施例中任意一项训练多目标检测模型的方法训练得到。

待检测人脸图像为人脸面部图像，可由上述图像获取装置20获取，例如，待检测人脸图像可以为对图像获取装置20采集到的证件照或自拍照等(初始待检测图像)进行截取人脸区域后获取的人脸面部图像。在此，不对待检测人脸图像的来源做任何限制，为人脸面部图像即可。

可以理解的是，当初始待检测图像还包括背景时，例如上述证件照或自拍照还包括背景，可先通过现有的dlib工具包获取人脸框，再结合初始待检测图像自身的宽高比例，将人脸框的宽高比例调整至初始待检测图像自身的宽高比例，从而，截取人脸面部图像，并作为最终的待检测人脸图像。通过上述方式，截取人脸面部图像，去除待检测人脸图像的背景，能够减小背景对皱纹检测的干扰，提高检测的准确率。

将待检测人脸图像输入多目标检测模型，即可获取待检测人脸图像中的不同目标的细分类别和位置，其中，不同类型的目标分别反映不同的人脸皮肤评价维度。

可以理解的是，多目标检测模型是通过上述实施例中训练多目标检测模型的方法训练得到的，与上述实施例中的多目标检测模型的结构和功能均相同，在此不再一一赘述。

本申请一些实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被处理器执行时使处理器执行如上任意方法实施例中训练多目标检测模型的方法或检测多目标的方法。

本申请一些实施例还提供了一种计算机程序产品，包括存储在非易失性计算机可读存储介质上的计算程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行如上任意方法实施例中训练多目标检测模型的方法或检测多目标的方法。

需要说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OMly Memory,ROM)或随机存储记忆体(RaMdom Access Memory,RAM)等。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；在本申请的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请的不同方面的许多其它变化，为了简明，它们没有在细节中提供；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种训练多目标检测模型的方法，其特征在于，所述多目标检测模型包括特征提取子模型和M个分支检测子模型；

所述方法包括：

将所述训练集输入所述特征提取网络，得到特征图集；

2.根据权利要求1所述的方法，其特征在于，在所述将所述训练集输入所述特征提取网络，得到特征图集之前，还包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述训练集中各图像的预测标签和真实标签之间的差异，反向迭代调节所述M个分支检测网络的模型参数和所述特征提取网络的模型参数，得到所述特征提取子模型和所述M个分支检测子模型，包括：

对所述损失进行压缩处理，得到压缩损失；

4.根据权利要求3所述的方法，其特征在于，所述对所述损失进行压缩处理，得到压缩损失，包括：

采用以下公式计算所述压缩损失；

5.根据权利要求1-4任意一项所述的方法，其特征在于，目标分支检测网络包括依次连接的多个特征提取模块、池化层和全连接层，其中，所述目标分支检测网络为所述M个分支检测网络中的任意一个；

6.根据权利要求5所述的方法，其特征在于，各所述特征提取模块包括依次连接的第一卷积层、深度可分卷积层和第二卷积层，所述第一卷积层和所述第二卷积层后均配置有激活函数；

7.根据权利要求1所述的方法，其特征在于，在所述将所述训练集输入所述特征提取网络，得到特征图集的步骤之前，所述方法还包括：

8.一种检测多目标的方法，其特征在于，包括：

获取待检测人脸图像；

9.一种电子设备，其特征在于，包括存储器以及一个或多个处理器，所述一个或多个处理器用于执行存储在所述存储器中的一个或多个计算机程序，所述一个或多个处理器在执行所述一个或多个计算机程序时，使得所述电子设备实现如权利要求1-8任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-8任一项所述的方法。