CN116189269A

CN116189269A - 一种多任务人脸检测方法、装置、电子设备及存储介质

Info

Publication number: CN116189269A
Application number: CN202310250509.0A
Authority: CN
Inventors: 曹一波; 刘顺; 胡伊斐
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2023-03-15
Filing date: 2023-03-15
Publication date: 2023-05-30

Abstract

本发明涉及一种多任务人脸检测方法、装置、电子设备及存储介质。本发明所述的多任务人脸检测方法包括：获取待检测的图像，并将所述图像处理至固定大小；将所述固定大小的图像输入训练好的YOLO v7改进模型中进行处理，所述YOLO v7改进模型包括顺次连接的主干网络、颈部网络、由并行的人脸区域检测头和人脸关键点检测头组成的检测网络、结果融合输出网络；当所述待检测的图像中包含人脸，输出结果为人脸检测候选框和标记的人脸关键点。本发明所述的多任务人脸检测方法，通过形成以人脸区域检测为主，人脸关键点检测为辅的多任务框架，来实现对人脸检测精度提升的同时，保证其检测速度。

Description

一种多任务人脸检测方法、装置、电子设备及存储介质

技术领域

本发明涉及人脸检测技术领域，特别是涉及一种多任务人脸检测方法、装置、电子设备及存储介质。

背景技术

随着当前社会信息化程度的不断提高，深度学习算法的应用，作为计算机视觉领域中重要的研究方向之一的目标检测已广泛应用于虚拟世界与现实世界的交互、无人驾驶、智能感知、机器人定位等产业领域。而人脸检测技术作为目标检测中的子任务之一，也越来越受到学者们的关注和研讨。

早期的人脸检测就是查找一张给定图像中是否含有人脸，若有则需要确定人脸在图像上的分布位置。人脸检测最初来源人脸识别，它是人脸识别过程的早期步骤，现也是关键点定位、人脸属性、表情识别等任务必不可少的早期步骤，直接关系到这些问题能否得到很好的解决。

在现有的传统人脸检测方法和结合深度学习的人脸检测方法中，传统的人脸检测方法一般为基于手工特征的人脸检测算法，如基于人脸肤色模型，或是基于人脸形状模型与模板匹配的。但是这类基于手工特征的传统人脸检测算法需要事先对人脸特征进行手工标注。虽具有较高的精确度，但手工标注太过费时，不适应于大量样本的检测。尤其是身在大数据、信息化时代中，基于手工特征的传统的人脸检测算法显然不太现实。

另外，人脸在不同的场景下，表现的形式可能不同，在信息采集时，如过安检时，是单个人脸的大目标，而在摄像头下捕获的图像会出现数个人且人脸较小的情况，这需要我们在设计网络时考虑到人脸大小变化的问题，增强改进模型的泛化性。

发明内容

基于此，本发明的目的在于，提供一种多任务人脸检测方法、装置、电子设备及存储介质，通过形成以人脸区域检测为主，人脸关键点检测为辅的多任务框架，来实现对人脸检测精度提升的同时，保证其检测速度。

第一方面，本发明提供一种多任务人脸检测方法，包括以下步骤：

获取待检测的图像，并将所述图像处理至固定大小；

将所述固定大小的图像输入训练好的YOLO v7改进模型中进行处理，所述YOLO v7改进模型包括顺次连接的主干网络、颈部网络、由并行的人脸区域检测头和人脸关键点检测头组成的检测网络、结果融合输出网络；

当所述待检测的图像中包含人脸，输出结果为人脸检测候选框和标记的人脸关键点。

进一步地，所述YOLO v7改进模型中，人脸区域检测头采用最小二乘法作为损失函数，人脸关键点检测头使用交叉熵损失函数。

进一步地，所述颈部网络采用SPPCSPC模块，包括CBS块和四个不同的maxpool分支；

所述CBS块由卷积层、批标准化层和激活函数sliu组成；

其中，卷积核k＝1，步长s＝1的CBS块用于改变通道数；卷积核k＝3，步长s＝1CBS块用于特征提取；卷积核k＝3，步长s＝2的CBS块用于下采样。

进一步地，所述人脸关键点检测头为PFLD网络模型，包括主网络和辅助网络；

所述主网络用于预测特征点的位置，包括采用mobilenet v2的多个bottleneck层，3个并行的多尺度卷积层，和将多个尺度的特征连接起来的全连接层；

所述辅网络用于在训练时预测人脸姿态。

进一步地，所述YOLO v7改进模型的损失函数为：

其中，

表示多任务共享特征空间中的一组特征向量，并且对应标签为

为二进制属性，代表人脸检测区域，/>

表示人脸98个关键点的二维坐标；线性函数f(x_i；W^f)＝(W^f)^Tx_i；softmax函数/>

表示矩阵的第j列；惩罚大权重W＝{W^f,{W^a}}；{W^a}表示人脸关键点任务的权重；W^f为主任务人脸区域检测的权重。

进一步地，将所述图像处理至640*640大小。

进一步地，所述人脸关键点数量为98。

第二方面，本发明还提供一种多任务人脸检测装置，包括：

图像获取模块，用于获取待检测的图像，并将所述图像处理至固定大小；

人脸检测模块，用于将所述固定大小的图像输入训练好的YOLO v7改进模型中进行处理，所述YOLO v7改进模型包括顺次连接的主干网络、颈部网络、由并行的人脸区域检测头和人脸关键点检测头组成的检测网络、结果融合输出网络；

结果输出模块，用于当所述待检测的图像中包含人脸，输出结果为人脸检测候选框和标记的人脸关键点。

第三方面，本发明还提供一种电子设备，包括：

至少一个存储器以及至少一个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如本发明第一方面任一所述的一种多任务人脸检测方法的步骤。

第四方面，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如本发明第一方面任一所述的一种多任务人脸检测方法的步骤。

本发明提供的一种多任务人脸检测方法、装置、电子设备及存储介质，在改进YOLOv7模型中形成以人脸区域检测为主，人脸关键点检测为辅的多任务框架，针对人脸检测环境的复杂性，提高了在不同环境下，如室内、搭乘公共交通等场所等，对人脸检测准确性。同时进一步改进了模型的泛化性，在提高检测精度的同时，保持了检测速度优势，在检测精度和检测速度上做好相应的平衡。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本发明提供的一种多任务人脸检测方法的步骤示意图；

图2为一个优选实施例中使用的YOLO v7改进网络模型结构示意图；

图3为SPPCSPC模块的结构示意图；

图4为CBS模块的结构示意图；

图5为PFLD网络模型的结构示意图；

图6为PFLD主干网络部分的结构示意图；

图7为使用数据集WFLW对本发明所提供的YOLO v7改进网络模型和现有YOLO v7网络模型的验证对比结果；

图8为本发明提供的一种多任务人脸检测装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

应当明确，所描述的实施例仅仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请实施例保护的范围。

在本申请实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中，需要理解的是，术语“第一”、“第二”、“第三”等仅用于区别类似的对象，而不必用于描述特定的顺序或先后次序，也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

针对背景技术中的问题，本申请实施例提供一种多任务人脸检测方法，如图1所示，该方法包括以下步骤：

S01：获取待检测的图像，并将所述图像处理至固定大小。

在一个具体的应用场景中，待检测图像为通过摄像头捕获的单张图像。在其他的验证、测试、对比等场景中，也可以为数据集中的单张图像。例如，在本发明前期验证算法可行性时，输入数据为WFLW数据集中单张图像。

用于人脸检测的数据集WFLW包含了10000张人脸图像，其中7500张用于训练，2500张用于测试，且在人脸图像上标注了98个关键点。WFLW数据集中的图片大小尺寸不一致，导致输入的图片有大有小，根据所查阅的文献资料来看，大小一致的图片有助于提高检测精度和检测速度。因此本专利将图片大小先处理为640*640大小。本发明专利使用PyTorch框架，在Win10平台上完成。

由于WFLW数据集中存在10000张图片，考虑到如果手动进行裁剪的话，将浪费大量不必要的时间和精力，得不偿失。因此使用Python代码来实现批量更改图尺寸统一大小。本发明专利通过Python的第三方图像处理工具PIL(Python Image Library)中的Image类来对图像进行处理，通过os类来对图像进行修改和保存。

S02：将所述固定大小的图像输入训练好的YOLO v7改进模型中进行处理，所述YOLO v7改进模型包括顺次连接的主干网络、颈部网络、由并行的人脸区域检测头和人脸关键点检测头组成的检测网络、结果融合输出网络。

在一个具体的实施例中，本发明所使用的YOLO v7改进模型的结构如图2所示，改进的YOLO v7网络模型本质还是原YOLO v7网络模型一样没有改变Encoder-Decoder的模式。Encoder由主干网络(backbone)和颈部网络(neck)构成。YOLO v7在backbone中选择采用ELAN模块，ELAN模块是一个高效的网络结构，它通过控制最短和最长的梯度路径，使网络能够学习到更多的特征，并且具有更强的鲁棒性，且支持特征传播和特征重用，从而减少参数和计算量，因此保证了实时检测的能力。在neck用来融合backbone产生的特征，采用了SPPCSPC模块。SPP的作用是能够增大感受野，使得算法适应不同的分辨率图像；CSP模块则能减少计算量，在保证速度的同时，提升检测精度。在Decoders中，则创新性的另加了一个人脸关键点检测头，使其两个任务使用特定的两个Decoder。人脸区域检测头使用了PAN结构，自下而上的特征金字塔网络，对位置特征从下到上迁移。然后直接PAN结构的不同尺度融合特征图进行预测。人脸关键点检测头则采用级联回归的思想，从粗到精地逐步精确关键点位置，最终的检测结果是3个网络的融合。

S03：当所述待检测的图像中包含人脸，输出结果为人脸检测候选框和标记的人脸关键点。

在本发明的前期训练和验证中，使用的是在人脸图像上标注了98个关键点的数据集WFLW，因此，输出结果为人脸检测候选框并标记98个人脸关键点。

针对人脸检测环境的复杂性，如遮挡、姿态变化、光照变化等，提高在不同环境下，如室内、搭乘公共交通等场所等，对人脸检测准确性，在一个优选的实施例中，本申请在YOLO v7改进模型中形成以人脸区域检测为主，人脸关键点检测为辅的任务。在多任务学习中，由于学习难易程度不同，若采用相同的损失权重，会导致学习任务难以收敛，因此在次改进的YOLO v7的模型中，本发明专利采用对主任务——人脸区域检测采用最小二乘法作为损失函数，对辅助任务——人脸关键点检测使用交叉熵损失函数，如下：

在模型的颈部网络处采用了SPPCSPC模块，SPP的作用是能够增大感受野，使得算法适应不同的分辨率图像，它是通过最大池化来获得不同感受野。具体的，如图3所示，存在maxpool四条分支，分别是5，9，13，1，这四个不同的maxpool就代表着他能够处理不同的对象，即这四个不同尺度的最大池化有四种感受野，用来区别于大目标和小目标。

CSP模块，首先将特征分为两部分，其中的一个部分进行常规的处理，另外一个部分进行SPP结构的处理，最后把这两个部分合并在一起，能减少计算量，在保证速度的同时提升检测精度。其中，如图4所示，SPPCSPC模块中的CBS块，由卷积层(conv)、批标准化层(BN)和激活函数sliu组成。激活函数sliu是是swish激活函数的变体，其计算公式为：

sliu＝x·sigmoid(x)

不同颜色的CBS块的卷积核(k)和步长(s)不同，如图4所示，它们分别用于改变通道数(k＝1，s＝1)、特征提取(k＝3，s＝1)和下采样(k＝3，s＝2)。

为在加入关键点检测做多任务之后，在提高精度的同时，保持检测速度，在图2所示的人脸关键点检测头部分，本文参考了PFLD模型框架，如图5所示。PFLD模型是一个轻量级网络且具有实时性和较高的精度，符合本发明专利提出的目的。人脸关键点检测头采用级联回归的思想，从粗到精地逐步精确关键点位置，最终的检测结果是3个网络的融合。融合如图6所示，如果输入图片大小为640×640×3，经过MobileNet v2模块后变为80×80×16，在经过一个3×3的卷积网络，变为40×40×32，最后经过一个20×20的卷积网络变为1×1×128的大小，将依次所得到3个输出数据80×80×16、40×40×32、1×1×128输入全连接层中，得到最后的输出。

在具体的模型训练和改进过程中发现，多任务学习的困难在于：不同的任务有不同的特点，有不同的收敛速度。针对这两个问题，本发明专利参考TCNDN作者提出的tasks-constrained deep model和task-wise early stopping方法进行解决。tasks-constrained deep model用于解决权重分配问题，采用对主任务——人脸区域检测采用最小二乘法作为损失函数，对辅助任务——人脸关键点检测使用交叉熵损失函数，如下：

表示多任务共享特征空间中的一组特征向量，并且对应标签为/>

为二进制属性，代表人脸检测区域，/>

表示人脸98个关键点的二维坐标。线性函数f(x_i；W^f)＝(W^f)^Tx_i；softmax函数/>

表示矩阵的第j列。惩罚大权重W＝{W^f,{W^a}}。{W^a}表示所有辅任务权重的集合，在本发明专利中辅任务只有人脸关键点检测，即{W^a}为人脸关键点任务的权重。W^f为主任务人脸区域检测的权重。

task-wise early stopping则是解决不同任务的收敛速度难以统一的问题，当辅助任务达到最好，即对主任务没有帮助时，则将其停止。如下式所示，前一部分表示训练误差的趋势，后一部分表示跟训练误差相比的泛化误差。如果两式乘积超过了某个阈值，则终止该任务。

/>

和/>

是验证集和训练集上任务a的损失函数的值，t代表当前迭代次数，k代表训练长度，med代表计算中值，λ^a是第a个任务误差的重要系数，可以通过梯度下降来学习。

在一个具体的实施例中，本申请提供的一种多任务人脸检测方法和YOLO v7改进模型经过下述方式进行评价：

人脸检测作为目标检测任务的一种，通常使用二分类中的精确率(Precision)和召回率(Recall)作为评价指标。精准率代表着预测为正的样本中有多少是正确的，在人脸检测中一般指的是检测出的人脸检测框中有多少人脸；召回率代表着总的正样本中有多少正样本被成功预测出来，在人脸检测中代表人脸检测率，指的是在总的人脸中有多少人脸被检测出来。

精确率和召回率的值通过TP(True Positive)、TN(True Negative)、FP(FalsePositive)、FN(False Negative)来计算得出。TP代表预测为正样本，且预测是正确的；TN代表预测为负样本，且预测是正确的；FP代表预测是正样本，且预测是错误的；FN代表预测为负样本，且预测是错误。详请如表1所示：

表1样本分类

真实情况	预测为真	预测为反
			正	TP(真正)	FN(假反)
反	FP(假正)	TN(真反)

AP平均精度(Average Precision)，即准确率和召回率所画曲线下围成的面积是人脸检测算法的评价标准之一。mAP平均精度均值(mean Average Precision)，指各类计算出AP在不同类别上或不同难度下的均值。由于人脸检测中只区分人脸区域和非人脸区域，因此这里AP＝mAP。mAP计算公式即可简化为如下所示：

除此之外，在人脸检测算法的实际应用中还应考虑检测的实时性，即检测速度FPS，每秒传输帧数(Frames Per Second)。

具体的，如图7所示，在于人脸检测且在人脸图像上标注了98个关键点的数据集WFLW对本发明专利提出的人脸检测算法进行了验证。改进后的模型对比YOLO v7在检测速度的时间上有轻微提高，而对其他现有的其他算法相比更快；在检测精度方面对比现有算法则有一定提升。其中，y轴越大，检测精度越好；x轴越小，检测速度越好。

本申请实施例还提供一种多任务人脸检测装置，如图8所示，该多任务人脸检测装置400包括：

图像获取模块401，用于获取待检测的图像，并将所述图像处理至固定大小；

人脸检测模块402，用于将所述固定大小的图像输入训练好的YOLO v7改进模型中进行处理，所述YOLO v7改进模型包括顺次连接的主干网络、颈部网络、由并行的人脸区域检测头和人脸关键点检测头组成的检测网络、结果融合输出网络；

结果输出模块403，用于当所述待检测的图像中包含人脸，输出结果为人脸检测候选框和标记的人脸关键点。

优选的，所述YOLO v7改进模型中，人脸区域检测头采用最小二乘法作为损失函数，人脸关键点检测头使用交叉熵损失函数。

优选的，所述颈部网络采用SPPCSPC模块，包括CBS块和四个不同的maxpool分支；

所述CBS块由卷积层、批标准化层和激活函数sliu组成；

优选的，所述人脸关键点检测头为PFLD网络模型，包括主网络和辅助网络；

所述辅网络用于在训练时预测人脸姿态。

优选的，所述YOLO v7改进模型的损失函数为：

其中，

为二进制属性，代表人脸检测区域，/>

优选的，将所述图像处理至640*640大小。

优选的，所述人脸关键点数量为98。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供一种电子设备，包括：

至少一个存储器以及至少一个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如前所述的一种多任务人脸检测方法的步骤。

对于设备实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的设备实施例仅仅是示意性的，其中所述作为分离部件说明的组件可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如前所述的一种多任务人脸检测方法的步骤。

计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(R A M)、只读存储器(RO M)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。