CN113837015A

CN113837015A - 一种基于特征金字塔的人脸检测方法及系统

Info

Publication number: CN113837015A
Application number: CN202111013977.3A
Authority: CN
Inventors: 吴俊军; 杜俊志; 路松峰; 方波; 姜鹭; 周军龙; 周力; 易王画
Original assignee: Epic Hust Technology Wuhan Co ltd
Current assignee: Epic Hust Technology Wuhan Co ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2021-12-24

Abstract

本发明涉及一种基于特征金字塔的人脸检测方法及系统，首先获取行人样本图像，进行预处理后，构建第一样本图像数据集；对第一样本图像数据集中的行人图像随机添加不同类别的遮罩模板，得到第二样本图像数据集；将所述第一样本图像数据集和第二样本图像数据集组合形成第三样本图像数据集，并将所述第三样本图像数据集作为输入，对基于特征金字塔的人脸检测网络进行训练；将目标行人图像输入训练好的基于特征金字塔的人脸检测网络，得到人脸信息识别结果。本发明能够有效解决现有技术对有遮挡人脸检测不准确的问题。

Description

一种基于特征金字塔的人脸检测方法及系统

技术领域

本发明涉及图像识别技术领域，具体涉及一种基于特征金字塔的人脸检测方法及系统。

背景技术

人脸检测技术通过监控场景预测行人人脸的具体位置信息，在身份识别、安防领域有着重要的应用和研究价值。人脸检测可以根据特征提取方式的不同分为两种：传统的人脸检测识别方法和基于深度学习的人脸检测识别方法。

传统的人脸检测方法使用支持向量机、Boosting算法、决策树等方法作为分类器用于多标签学习。这些方法大都基于手工特征，不能准确提取出行人图像中隐含的图像特征。

基于深度学习的方法通过卷积神经网络对监控场景中的行人图像进行深度特征提取，能够更好地分析行人的人脸信息。目前，基于深度学习的人脸检测方法主要包括：1)两阶段检测模型，在第一阶段发现预测对象的潜在位置，在第二阶段对这些潜在的目标进行剔除和分类。2)单阶段检测模型，通过一系列预先定义先验框(锚)在图像上滑动，直接给出目标的分类信息和位置信息。3)基于注意力机制的人脸检测方法。通过注意力模块，提取多尺度的注意力特征，可以得到更全面的行人人脸信息。4)基于局部特征的人脸检测方法。根据人体结构的先验知识，通过结合全局和细粒度特征部件的特征，得到多尺度部件检测特征。

现在对于行人人脸检测网络的学习，为了保证人脸识别的准确率，需要大量带有标注的样本图像进行学习训练网络模型。然而，在现实场景中很难收集到各种场景、各种情况的人脸图像，这就导致行人人脸检测网络在跨数据集识别表现效果不佳。

发明内容

本发明针对现有技术中存在的技术问题，提供一种基于特征金字塔的人脸检测方法及系统。

本发明解决上述技术问题的技术方案如下：

第一方面，本发明提供一种基于特征金字塔的人脸检测方法，包括：

获取行人样本图像，进行预处理后，构建第一样本图像数据集，所述第一样本图像数据集中包括已标注人脸所在区域的行人图像；

对第一样本图像数据集中的行人图像随机添加不同类别的遮罩模板，得到第二样本图像数据集；

将所述第一样本图像数据集和第二样本图像数据集随机组合形成第三样本图像数据集，并将所述第三样本图像数据集作为输入，对基于特征金字塔的人脸检测网络进行训练；

将目标行人图像输入训练好的基于特征金字塔的人脸检测网络，得到人脸信息识别结果。

进一步的，对第一样本图像数据集中的行人图像随机添加不同类别的遮罩模板，得到第二样本图像数据集，包括：

步骤一、构建形状模型，构建脸部关键点的训练样本，所述训练样本为已标记脸部关键点的人脸图像及关键点坐标构成的特征向量；

步骤二、对形状特征进行归一化和对齐处理，采用梯度特征为每个关键点构建局部特征，以便在迭代搜索过程中每个关键点可以寻找新的位置；

步骤三、计算脸部部件的位置，做简单的尺度和旋转变化对齐人脸，并匹配每个关键点位置得到初步形状，通过人脸形状模型迭代修正匹配结果直至模型收敛，得到最终的人脸关键点位置；

步骤四、根据所述人脸关键点位置，估计人脸部件具体位置，并利用自定义算法检测旋转角度，得到人脸倾斜角度；根据人脸倾斜度和关键点位置，选择方向一致的、合适的遮罩模板；

步骤五、将原始图像转换为灰度图，并计算灰度均值预估图像光照亮度，根据亮度对遮罩模板进行亮度调节，并覆盖到原始图像上，形成第二样本图像数据集。

进一步的，所述不同类别的遮罩模板从遮罩模板库中获取；所述遮罩模板库的构建方法包括：

获得遮罩图像，根据人脸关键点位置对所述遮罩图像进行对齐标注，并对遮罩图像进行几何变换，生成不同方向、角度、色彩的遮罩模版，构建遮罩模版库。

进一步的，所述基于特征金字塔的人脸检测网络，包括：基础特征提取层、特征金字塔、多个亚像素卷积模块以及深度指导模块；

所述基础特征提取层用于对所述当前输入图像做卷积操作，得到输入图像在不同层的特征信息，并以自上而下的方式构建特征金字塔；

所述亚像素卷积模块用于在特征金字塔构建的融合过程中，用于代替图像的上采样部分；

所述深度指导模块，其输入为基础特征提取层的最后一级特征信息，用于将骨干网络的深层特征融合到特征金字塔的每一级别特征输出中；

所述特征金字塔的相邻层之间设有一个亚像素卷积模块，亚像素卷积模块的输入为基础特征提取层上一层的输出、特征金字塔上一层的输出以及深度指导模块的输出，亚像素卷积模块的输出为特征金字塔下一层的输入。

进一步的，所述深度指导模块包括一个1×1的扩展瓶颈卷积层和一个3×3的标准瓶颈卷积层。

第二方面，本发明提供一种基于特征金字塔的人脸检测系统，包括：

第一数据集构建模块，用于获取行人样本图像，进行预处理后，构建第一样本图像数据集，所述第一样本图像数据集中包括已标注人脸所在区域的行人图像；

第二数据集构建模块，用于对第一样本图像数据集中的行人图像随机添加不同类别的遮罩模板，得到第二样本图像数据集；

数据融合及训练模块，用于将所述第一样本图像数据集和第二样本图像数据集组合形成第三样本图像数据集，并将所述第三样本图像数据集作为输入，对基于特征金字塔的人脸检测网络进行训练；

检测识别模块，用于将目标行人图像输入训练好的基于特征金字塔的人脸检测网络，得到人脸信息识别结果。

进一步的，所述第二数据集构建模块，包括：

构建形状模型，构建脸部关键点的训练样本，所述训练样本为已标记脸部关键点的人脸图像及关键点坐标构成的特征向量；

对形状特征进行归一化和对齐处理，采用梯度特征为每个关键点构建局部特征，以便在迭代搜索过程中每个关键点可以寻找新的位置；

计算脸部部件的位置，做简单的尺度和旋转变化对齐人脸，并匹配每个关键点位置得到初步形状，通过人脸形状模型迭代修正匹配结果直至模型收敛，得到最终的人脸关键点位置；

根据所述人脸关键点位置，估计人脸部件具体位置，并利用自定义算法检测旋转角度，得到人脸倾斜角度；根据人脸倾斜度和关键点位置，选择方向一致的、合适的遮罩模板；

将原始图像转换为灰度图，并计算灰度均值预估图像光照亮度，根据亮度对遮罩模板进行亮度调节，并覆盖到原始图像上，形成第二样本图像数据集。

第三方面，本发明提供一种电子设备，包括：

存储器，用于存储计算机软件程序；

处理器，用于读取并执行所述存储器中存储的计算机软件程序，进而实现本发明第一方面所述的一种基于特征金字塔的人脸检测方法。

第四方面，本发明提供一种非暂态计算机可读存储介质，该存储介质中存储有用于实现本发明第一方面所述的一种基于特征金字塔的人脸检测方法的计算机软件程序。

本发明的有益效果是：通过对原始行人数据做数据处理，随机添加不同类别的遮罩模板，并基于处理后的数据训练人脸检测模型，能够有效提升模型对有遮挡人脸进行检测的准确率，并在人脸检测过程中使用亚像素融合以及深度指导模块方法使不同特征之间关联起来，进一步提升人脸检测识别的准确率。本发明提供的技术方案，能够有效解决现有技术对有遮挡人脸检测不准确的问题。

附图说明

图1为本发明实施例提供的人脸检测方法的流程示意图。

图2为本发明实施例提供的第二样本图像数据集构建方法的流程示意图。

图3为本发明实施例提供的遮罩模板库生成方法的流程示意图。

图4为本发明实施例提供的基于特征金字塔的人脸检测网络结构示意图。

图5为本发明实施例提供的深度指导模块的结构示意图。

图6为本发明实施例提供的行人人脸检测系统的结构示意图。

图7为本发明实施例提供的电子设备结构示意图。

图8为本发明提供的一种计算机可读存储介质结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

本发明旨在提出一种基于特征金字塔的人脸检测方法，在人脸识别上达到较高的精度。针对现有的人脸检测方法在遮挡人脸上识别准确率低等问题，本发明实施例提出通过对原始数据集进行数据增强并结合原始数据构建新的样本数据集，利用构建的新的样本数据集训练人脸检测模型，能够有效提升模型对有遮挡人脸进行检测的准确率。本发明实施例通过在人脸检测模型中使用亚像素融合以及深度指导模块提取深层特征的通道信息，进一步提升人脸检测的准确率。

如图1所示，本发明实施例提供的人脸检测识别方法包括以下步骤：

S1，获取行人样本图像，进行预处理后，构建第一样本图像数据集，所述第一样本图像数据集中包括已标注人脸所在区域的行人图像。

对于原始样本图像数据集，在输入模型训练之前，需要对图像进行预处理，所述预处理包括缩放处理、翻转操作、均值处理。

S2，对第一样本图像数据集中的行人图像随机添加不同类别的遮罩模板，得到第二样本图像数据集。

这里的对第一样本图像数据集中的行人图像随机添加不同类别的遮罩模板的方法，如图2所示，包括以下步骤：

步骤一，构建脸部关键点的训练样本并初始化形状模型，所述训练样本为已标记脸部关键点的人脸图像及关键点坐标构成的特征向量；这里的训练样本可以是在网上下载的用于人脸形状模型训练的开源数据集。

步骤二，对训练样本进行归一化和对齐处理后训练所述形状模型，在形状模型训练过程中，采用梯度特征为每个关键点构建局部特征，并计算局部特征之间的相似性度量，以便在迭代搜索过程中每个关键点可以寻找新的位置；

步骤三，对第一样本图像数据集中的人脸图像进行尺度和旋转变化，对齐人脸，并匹配关键点位置得到初步人脸形状，通过训练好的形状模型迭代修正匹配结果直至模型收敛，得到最终的人脸关键点位置；

步骤四，根据所述人脸关键点位置，估计人脸部件具体位置以及人脸倾斜角度；根据人脸部件具体位置及人脸倾斜角度，选择方向一致的、合适的遮罩模板；人脸部件如眼、鼻、嘴巴。人脸关键点标定的位置诸如眼角、眉毛边缘、嘴巴边缘。得到这些关键点可以估算人脸器官的位置。

步骤五，将第一样本图像数据集中的人脸图像转换为灰度图，并计算灰度均值预估图像光照亮度，根据亮度对遮罩模板进行亮度调节，并覆盖到第一样本图像数据集中的人脸图像上，形成第二样本图像数据集。

通过随机添加不同类别的遮罩模板的方法，可以在步骤三进行随机组合时生成样本比例更加均衡的第三样本数据集。

所述不同类别的遮罩模板从遮罩模板库中获取；所述遮罩模板库的构建方法，如图3所示，包括：

这里所述的遮罩图像可以的从网上选取的一些不同类型的口罩、眼镜等图片。

S3，将所述第一样本图像数据集和第二样本图像数据集随机组合形成第三样本图像数据集，并将所述第三样本图像数据集作为输入，对基于特征金字塔的人脸检测网络进行训练。

将所述第一样本图像数据集和第二样本图像数据集随机组合形成第三样本图像数据集，其使得人脸检测识别模型的训练样本图像的到扩充，从而提升模型在小样本数据集上的拟合能力。

基于特征金字塔的人脸检测网络的结构如图4所示，包括：基础特征提取层、特征金字塔、多个亚像素卷积模块以及深度指导模块。图中F代表亚像素融合模块，DGM为深度指导模块。

所述基础特征提取层用于对所述当前输入图像做卷积操作，得到输入图像在不同层的特征信息，并以自上而下的方式构建特征金字塔。

基础特征提取层，以多分支网络作为主干网络，每个分支网络包含5个卷积模块，每个卷积模块都由不同参数的卷积层和归一化层构成。

所述基础特征提取层的输入特征图尺寸大小，可以将骨干网络换分成不同阶段。由于处于深层的网络结构拥有更多的语义信息，在每个阶段中的最深层具有更强的表现力，为了丰富特征金字塔结构，将每个阶段的最后一层的特征表示作为金字塔结构的输入。所提取的不同阶段特征图分别对应输入图像步长为4、8、16、32的下采样。

将得到的各个等级的特征输入到各个等级的亚像素融合模块，将当级特征与上一层特征金字塔输出以及深度指导模块的输出在同一维度上，将特征图的输出进行叠加。

所述亚像素卷积模块用于在特征金字塔构建的融合过程中，用于代替图像的上采样部分，充分利用特征的通道信息。通过洗牌不同通道的像素对原有特征图进行放大，不同于反卷积会引入过多的参数需要进行优化，亚像素卷积不会增加额外的参数负担。

亚像素卷积是一种图像上采样的方式，它通过洗牌不同通道的像素对原有特征图进行放大，不同于反卷积会引入过多的参数需要进行优化，亚像素卷积不会增加额外的参数负担。若原有的特征图尺寸为H*W*(rC)2，需要将特征图转换为rH*rW*C2，则坐标为(x,y,c)的输出特征像素计算公式为：

在特征金字塔的构造过程中，每次特征融合操作通过亚像素卷积模块进行，第一路为与当前融合模块输出尺度相同的主干网络的卷积模块最后一层的输出经过一个卷积核为1的卷积层融合通道特征并调整通道之后的输出，第二路为金字塔上与当前融合模块输出尺度的1/2尺度对应的特征融合模块的输出，即上一层金字塔的输出，经过亚像素卷积融合充分利用通道信息代替倍数为2的上采样的输出，第三路为特征金字塔中从主干网络的最后一个卷积模块的相连接的深度指导模块连接到亚像素卷积模块，开始连续做三个尺度的融合。

在特征金字塔模块中，每一个神经元可以利用当前神经层非当前部分神经元的信息。首先使用一个1×1的卷积核对输入的特征映射做正则化，然后将当前层级特征、上一层等级特征以及深度指导模块的特征进行融合，最终连接得到经过特征增强后的图像特征。

所述深度指导模块包括一个1×1的扩展瓶颈卷积层和一个3×3的标准瓶颈卷积层。其输入为基础特征提取层的最后一级特征信息，用于将骨干网络的深层特征融合到特征金字塔的每一级别特征输出中。

所述深度指导模块由骨干网络深层剩余的特征改变而来，网络的底层特征具有更大的感受野和丰富的语义信息。具体的，如图5所示，在深度指导模块中，通过不同空洞率的空洞卷积对输入的图像特征扩大感受野，使得提取到的特征信息更加丰富，得到处理后的深层语义特征。高层的语义信息在向下传递的过程中，会出现特征的稀释问题，即顶层的特征传递到底层，出现的信息丢失问题，深度指导模块用于提取网络的深层信息，并在金字塔构建过程中参与到每一层的特征融合中。

将所述第三样本数据集输入至人脸检测模型进行学习，经过卷积神经网络得到所述每个图像的特征矩阵，对输出进行解码处理生成人脸候选区域并获取候选区域的特征表示，对所述候选区域进一步解码生成对应检测框并根据对应损失值对模型进行优化，最后通过输出层对人脸区域进行裁剪输出人脸图像。

S4，将目标行人图像输入训练好的基于特征金字塔的人脸检测网络，得到人脸信息识别结果。

系统加载完训练完毕的人脸检测模型后，即可从提供的图像接口中接收待检测图像，将待检测图像进行缩放处理成模型要求的输入大小，并对待检测图像做降噪、平滑等预处理操作。

本申请实施例提供的方法中，因为人脸检测模型皆是在第三样本数据集上进行训练得到的，待检测图像中既可包含人脸有遮挡的行人图像，例如佩戴口罩、眼镜等等，也可包含人脸无遮挡的行人图像。

将预处理完毕的图像输入人脸检测模型，通过当前人脸检测模型检测出输入图像中包含的所有人脸位置，经过裁剪后得到人脸图像。

在上述实施例的基础上，本发明实施例还提供一种基于特征金字塔的人脸检测系统，如图6所示，包括：

其中，所述第二数据集构建模块，包括数据增强模块，用于：

构建脸部关键点的训练样本并初始化形状模型，所述训练样本为已标记脸部关键点的人脸图像及关键点坐标构成的特征向量；

对形状特征进行归一化和对齐处理后训练所述形状模型，并采用梯度特征为每个关键点构建局部特征，以便在迭代搜索过程中每个关键点可以寻找新的位置；

对第一样本图像数据集中的人脸图像进行尺度和旋转变化，对齐人脸，并匹配关键点位置得到初步人脸形状，通过训练好的形状模型迭代修正匹配结果直至模型收敛，得到最终的人脸关键点位置；

根据所述人脸关键点位置，估计人脸部件具体位置以及人脸倾斜角度；根据人脸部件具体位置及人脸倾斜角度，选择方向一致的、合适的遮罩模板；

将第一样本图像数据集中的人脸图像转换为灰度图，并计算灰度均值预估图像光照亮度，根据亮度对遮罩模板进行亮度调节，并覆盖到第一样本图像数据集中的人脸图像上，形成第二样本图像数据集。

请参阅图7，图7为本发明实施例提供的电子设备的实施例示意图。如图7所示，本发明实施例提了一种电子设备，包括存储器510、处理器520及存储在存储器520上并可在处理器520上运行的计算机程序511，处理器520执行计算机程序511时实现以下步骤：

请参阅图8，图8为本发明实施例提供的一种计算机可读存储介质的实施例示意图。如图8所示，本实施例提供了一种计算机可读存储介质600，其上存储有计算机程序611，该计算机程序611被处理器执行时实现如下步骤：

需要说明的是，在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其它实施例的相关描述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种基于特征金字塔的人脸检测方法，其特征在于，包括：

将所述第一样本图像数据集和第二样本图像数据集组合形成第三样本图像数据集，并将所述第三样本图像数据集作为输入，对基于特征金字塔的人脸检测网络进行训练；

2.根据权利要求1所述的方法，其特征在于，对第一样本图像数据集中的行人图像随机添加不同类别的遮罩模板，得到第二样本图像数据集，包括：

步骤一、构建脸部关键点的训练样本并初始化形状模型，所述训练样本为已标记脸部关键点的人脸图像及关键点坐标构成的特征向量；

步骤二、对训练样本进行归一化和对齐处理后训练所述形状模型；

步骤三、对第一样本图像数据集中的人脸图像进行尺度和旋转变化，对齐人脸，并匹配关键点位置得到初步人脸形状，通过训练好的形状模型迭代修正匹配结果直至模型收敛，得到最终的人脸关键点位置；

步骤四、根据所述人脸关键点位置，估计人脸部件具体位置以及人脸倾斜角度；根据人脸部件具体位置及人脸倾斜角度，选择方向一致的、合适的遮罩模板；

步骤五、将第一样本图像数据集中的人脸图像转换为灰度图，并计算灰度均值预估图像光照亮度，根据亮度对遮罩模板进行亮度调节，并覆盖到第一样本图像数据集中的人脸图像上，形成第二样本图像数据集。

3.根据权利要求2所述的方法，其特征在于，所述不同类别的遮罩模板从遮罩模板库中获取；所述遮罩模板库的构建方法包括：

4.根据权利要求1所述的方法，其特征在于，所述基于特征金字塔的人脸检测网络，包括：基础特征提取层、特征金字塔、多个亚像素卷积模块以及深度指导模块；

5.根据权利要求4所述的方法，其特征在于，所述深度指导模块包括一个1×1的扩展瓶颈卷积层和一个3×3的标准瓶颈卷积层。

6.一种基于特征金字塔的人脸检测系统，其特征在于，包括：

7.根据权利要求6所述的系统，其特征在于，所述第二数据集构建模块，包括：

8.根据权利要求7所述的系统，其特征在于，所述不同类别的遮罩模板从遮罩模板库中获取；所述遮罩模板库的构建方法包括：

9.一种电子设备，其特征在于，包括：

存储器，用于存储计算机软件程序；

处理器，用于读取并执行所述存储器中存储的计算机软件程序，进而实现权利要求1-5任一项所述的一种基于特征金字塔的人脸检测方法。

10.一种非暂态计算机可读存储介质，其特征在于，该存储介质中存储有用于实现权利要求1-5任一项所述的一种基于特征金字塔的人脸检测方法的计算机软件程序。