CN114930409A

CN114930409A - 多任务人脸检测器和特征点检测器

Info

Publication number: CN114930409A
Application number: CN202080092454.XA
Authority: CN
Inventors: J.弗贝克; D.亚舒宁; T.I.贝达索夫; R.乌拉索夫
Original assignee: Harman International Industries Inc
Current assignee: Harman International Industries Inc
Priority date: 2020-01-17
Filing date: 2020-06-24
Publication date: 2022-08-19
Also published as: WO2021145920A1; EP4091090A1; US20230082834A1

Abstract

提供了用于图像处理神经网络的人脸检测技术的方法和系统。在一个示例中，一种方法可以包括收集一组上下文模块的多通道输出，将所述多通道输出提供给神经网络的人脸检测头和特征点定位头两者。然后，人脸检测头可以生成边界框，所述边界框也被提供给特征点定位头。基于上下文模块的输出和边界框，特征点定位头可以提供包括一组特征点指示符的输出。

Description

多任务人脸检测器和特征点检测器

相关申请的交叉引用

本申请要求于2020年1月17日提交的题为“MULTI-TASK FACE AND LANDMARKDETECTOR”的俄罗斯专利申请第2020101638号的优先权。上述申请的整体在此以引用的方式并入以用于所有目的。

技术领域

本公开总体涉及用于进行人脸检测的系统和方法。

背景技术

人脸图像分析技术在汽车、安全、零售商业和社交网络中有许多实际应用。人脸分析通常从诸如边界框检测和特征点(landmark)定位等基本任务开始。一种正在使用的技术是循序地应用单任务模型来独立解决人脸检测问题和特征点(或“关键点”)检测问题。这些单任务模型可能并入有或可能以其他方式基于卷积神经网络(CNN)的应用。

然而，由许多循序地应用的CNN组成的软件系统的开发可能极具挑战性，因为最好单独地训练每个CNN并处理先前模型所产生的错误。可以应用不同的启发式方法和特殊的训练程序来实现整个系统的鲁棒性，但单任务CNN无法从多个任务提供的共享深度表示和额外监督中受益。

同时，最近的研究表明，与单任务对应物相比，生成多个预测输出的多任务CNN可能会提供改进的准确性和/或改进的速度，但可能难以正确训练。然而，尽管最近多任务模型在人脸分析领域取得了成效，但与竞争的单任务模型相比，此类模型的准确性仍不理想。

最流行的多任务模型，即MTCNN，使用级联的浅层CNN，但不共享特征表示。现代的端到端多任务方法主要以单次(single-shot)方法为代表。对于特征点定位，所述模型使用回归头或关键点热图。基于热图的方法的人脸检测准确性较低，而基于回归的方法的特征点定位较差。这是因为基于回归的方法无法承受强大的特征点预测头。此外，激活图的空间离散特征与人脸特征点的连续位置之间可能存在未对准。浅层卷积层无法正确处理未对准。

发明内容

考虑到其他技术的缺点，本文公开了一种准确的多任务人脸检测和特征点检测模型，称为“MaskFace”。MaskFace模型通过采用MaskR-CNN模型(He、Gkioxari、Dollar和Girshick，“Maskr-cnn”，2017年)的理念部分地扩展了现有的人脸检测方法，诸如RetinaFace模型(Guo、Zhou、Yu、Kotsia和Zafeiriou，“Retinaface:Single-stage denseface localisation in the wild”，2019年)和SSH模型(Najibi、Samanguei、Chellappa和Davis，“Ssh:Single stage headless face detector”，2017年)。在第一阶段，MaskFace模型预测边界框，并且在第二阶段，预测的边界框用于从共享表示中提取人脸特征。

MaskFace设计具有两个预测头：一个人脸检测头和一个特征点定位头(例如，人脸特征点定位头)。人脸检测头输出人脸的边界框。然后使用预测的边界框从高分辨率层中提取人脸特征，从而实现特征点的精确定位。为了在特征提取期间实现良好的像素到像素对准，我们在Mask R-CNN模型(“Maskr-cnn”，2017年)的基础上采用了RoIAlign层。提取的人脸特征用于预测特征点的定位掩码。

与MaskR-CNN和其他多阶段方法不同，MaskFace在单次前向传递中预测边界框，这有利于提高性能。对于特征提取，MaskFace使用感兴趣区域(RoI)对准(RoIAlign)层(“Maskr-cnn”，2017年)，这可有利地在预测的边界框和离散特征图之间提供良好的像素到像素对准。MaskFace使用特征金字塔(Lin、Dollar、Girshick、He、Hariharan、Belongie，“Feature pyramid networks for object detection”，2017年)和上下文模块(“Retinaface:Single-stage dense face localisation in the wild”，2019年)，这有利地改进了对微小人脸的检测。特征金字塔将深度特征传输到浅层，而上下文模块增加了感受野并使预测层更强。MaskFace的特征点头与最初的Mask R-CNN头一样快，并且对于图像中人脸较少的情况，特征点预测增加的计算开销可以忽略不计。

应理解，为了以简化的形式介绍在具体实施方式中进一步描述的概念选择，提供了以上概述。这并不意在确定所要求保护的主题的关键或基本特征，所要求保护的主题的范围由随附于具体实施方式的权利要求书唯一地限定。此外，所要求保护的主题并不限于解决以上或本公开的任何部分中指出的任何缺点的实现方式。

附图说明

通过参考附图阅读对非限制性实施方案的以下描述，可更好地理解本公开，其中：

图1示出了根据本公开的一个或多个实施方案的用于人脸检测图像处理的神经网络架构；

图2示出了根据本公开的一个或多个实施方案的上下文模块设计；以及

图3至图5示出了根据本公开的一个或多个实施方案的用于处理用于人脸检测的输入图像的方法的流程图。

具体实施方式

本文公开了用于图像处理的系统和方法。图1描绘了可以由各种图像处理系统使用的MaskFace模型的神经网络架构，所述神经网络架构并入有特征金字塔网络、上下文模块、人脸检测头和特征点定位头。图2描绘了与图1的神经网络架构兼容的上下文模块设计。图3至图5描绘了神经网络架构(诸如图1的架构)处理图像以改进人脸检测可以采用的方法。

图1示出了根据本公开的一个或多个实施方案的用于人脸检测图像处理的神经网络架构100。神经网络架构100可以处理诸如输入图像105的图像(例如，照片或图片)，所述图像可以潜在地包括一个或多个人脸。神经网络架构100包括特征金字塔网络(FPN)(例如，根据2017年的“Feature pyramid networks for object detection”中描述的FPN)。FPN的输出提供给上下文模块阶段(例如，所述上下文模块阶段可以类似于Szegedy、Liu、Jia、Sermanet、Reed、Anguelov、Erhan、Vanhoucke和Rabinovich在2015年的“Going deeperwith convolutions”中描述的inception模块)。上下文模块阶段的输出转而提供给神经网络架构100的第一头140，并且还提供给神经网络架构100的第二头150。在神经网络架构100中，第一头140(例如，人脸检测头)有利地向第二头150(例如，特征点定位头)提供边界框。然后，神经网络架构100可以输出一组特征点指示符155，所述一组特征点指示符155可以通过多种方式使用。

FPN的第一部分110可以包括最后层111的各个特征图，所述特征图可以编号为C2到CN。例如，神经网络架构100描绘为包括最后层111的编号为C2到C6的特征图。

最后层111的特征图可以基于输入图像105计算得出。例如，在诸如所描绘的实施方案的实施方案中，C2可以基于输入图像105计算得出；C3可以基于C2计算得出；C4可以基于C3计算得出；C5可以基于C4计算得出；并且C6可以基于C5计算得出。

在一些实施方案中，最后层111的从C2到C6的特征图可以分别使用步幅4、8、16、32和64计算得出，例如，步幅为以2为底数以索引数为指数的幂值。(在其他实施方案中，最后层111的特征图可以具有跨度从2到任何数字的步幅，并且/或者所述特征图的步幅可以不是以2为底数以索引数为指数的幂值所得的数字，例如，可以是以3为底数以索引数为指数的幂值。)

FPN的第二部分120可以包括个体特征图121，所述特征图的编号为P2至PN。例如，神经网络架构100描绘为包括编号为P2到P6的特征图121。

特征图121可以基于最后层111的特征图计算得出。例如，在诸如所描绘的实施方案的实施方案中，P5可以基于C5计算得出；P4可以基于C4和P5计算得出；P3可以基于C3和P4计算得出；并且P2可以基于C2和P3计算得出。在一些实施方案中，P6可以通过将步幅为2的最大池化层应用到C5计算得出。

从P2到P5的特征图121可以分别使用步幅为4、8、16、32和64的最后层111的特征图计算得出，例如，步幅为以2为底数以索引数为指数的幂值。(在其他实施方案中，特征图121可以具有跨度从2到任何数字的步幅，并且/或者所述特征图的步幅可以不是以2为底数以索引数为指数的幂值所得的数字，例如，可以是以3为底数以索引数为指数的幂值。)各种特征图121可以具有与最后层111的对应特征图相同的空间大小。

FPN的第一部分110和第二部分120可以相应地进行交互操作以生成从P2到P6的特征图121，然后所述特征图可以是FPN的一组输出。在一些实施方案中，特征图121各自可以具有256个通道。

FPN的使用可以通过自上而下的路径和横向连接将低分辨率、语义强的特征与高分辨率、语义弱的特征组合起来。结果是在所有级别都具有丰富语义的特征金字塔，这可有利于促进微小人脸的检测。

然后，将FPN的所述一组多通道输出(例如，编号为P2到P6的特征图121)提供给上下文模块阶段130的输入，所述上下文模块阶段130具有分别对应的一组上下文模块131，所述上下文模块可以编号为M2到MN。(上下文模块的实现在图2中描绘并在本文中进一步讨论。)所述一组上下文模块131然后可以提供分别对应的一组多通道输出，所述一组多通道输出可以被收集并提供给第一头140和第二头150两者。例如，在诸如所描绘的实施方案的实施方案中，上下文模块M2的输出可以基于特征图P2计算得出；上下文模块M3的输出可以基于特征图P3计算得出；上下文模块M4的输出可以基于特征图P4计算得出；上下文模块M5的输出可以基于特征图P5计算得出；并且上下文模块M6的输出可以基于特征图P6计算得出。

第一头140(其可以是人脸检测头)可以基于所述一组上下文模块131的所述一组多通道输出来预测一组边界区域145。边界区域145可以对应于输入图像105，并且可以例如指示输入图像105的可对应于检测到的人脸的部分、面积和/或区域。在一些实施方案中，边界区域145可以是矩形边界框。对于一些实施方案，边界区域145可以具有其他形状(例如圆形、六边形或任何其他规则或不规则形状)。第一头140可以使用1×1滤波器。所述一组边界框的预测可以在单次前向传递中完成。

在一些实施方案中，可以将具有共享权重的1×1卷积层应用于所述一组上下文模块131的所述一组多通道输出，以用于锚框回归和分类。神经网络架构100可以使用平移不变的锚框(例如，所述锚框可能类似于Ren、He、Girshick和Sun在2015年的“Faster r-cnn:Towards real-time object detection with region proposal networks”中描述的锚框)。基础锚框可以在对应于上下文模块M2到M6的级别分别具有{16²,32²,64²,128²,256²}的面积。对于M2到M6中的每个级别，神经网络架构100可以使用基本锚框大小为{2⁰,2^1/3,2^2/3}的锚框，这可以有利地提供密集的尺度覆盖。部分或全部锚框的纵横比可以是1.0。在一些实施方案中，M2到M6级别中的每一个级别都可以有三个锚框，所述锚框可以跨级别覆盖大约16到406像素的尺度范围。对于640×640像素的输入图像，总共可能有大约112,000个锚框。

如果锚框与真实框的交并比(IoU)重叠度大于0.5，则可以将所述锚框视为正样本(以及/或者为所述锚框分配正标签)。如果重叠度小于0.3，则可以将所述锚框视为负样本以及/或者为所述锚框分配负标签。在训练期间可能会忽略重叠度在0.3到0.5之间的部分或全部锚框。此外，低质量匹配策略可用于锚框分配。对于每个真实框，可能会找到与所述真实框重叠度最大的一组锚框。对于所述一组锚框中的每个锚框，如果所述锚框不匹配，可能会匹配到具有最高IoU的真实框。实验表明，使用低质量匹配策略可以有利地改进准确性。

然后可以将由第一头140预测的边界区域145提供给第二头150，第二头150可以是特征点定位头(例如，人脸特征点定位头)。第二头150可以将来自第一头140的预测(例如，边界区域145)视为感兴趣区域(RoI)，用于提取特征以进行特征点定位(例如，进行人脸特征点定位)。第二头150可以使用RoI对准(RoIAlign)层进行特征提取(所述层可以类似于2017年的“Maskr-cnn”中描述的层)，并且可以基于上下文模块131和边界区域145的多通道输出相应地为输入图像105提取一组特征点指示符。

可以过滤预测提案。例如，置信度小于约0.02的预测可能会被忽略。在一些实施方案中，可以将阈值为约0.7的非最大抑制应用于其余的预测。随后，提案可以与真实框进行匹配。如果提案与真实框的IoU重叠度高于约0.5，则提案可用于从FPN的对应于M2到M6的相应层中提取特征点特征。

通过下面的等式1，可以将宽度为w_roi且高度为h_roi的post-FPNRoI分配给FPN的与MN对应的层：

其中k₀＝4。在这个等式中，如果预测的边界框的面积小于112²，则可以将所述边界框分配给与M2对应的FPN层；如果所述面积介于112²到224²之间，则可以将所述边界框分配给与M3对应的FPN层；以此类推。FPH的与M2对应的相对高分辨率层可以使用步幅4来进行特征提取。实验表明，高分辨率特征图可以有利地提高输入图像内相对较小人脸的特征点定位精度。

如本文所讨论的，神经网络架构100可以使用RoIAlign层来从分配的特征图中提取特征。RoIAlign层可以促进提取的特征与输入RoI的正确对准。RoIAlign层可以输出14×14分辨率特征，然后可以将所述特征馈入多个后续卷积层(例如，卷积3×3，采用256个滤波器，并且步幅为1)、单个转置卷积层(例如，卷积转置4×4、采用K个滤波器，并且步幅为2)以及双线性插值层，所述插值层可将掩码上采样到56×56分辨率。输出掩码张量的大小可为K×56×56。K可以是人脸特征点的数量。

与用于整体特征提取的计算量相比，本文公开的神经网络架构100与特征点定位头相关联的计算量可能略有增加，因此可以有利地以非常低的相对成本使用，同时提供了特征点定位的改进的精度。

可以将特征点的位置建模为独热掩码，并且可以采用本文公开的神经网络架构来预测K个掩码，分别对应于K个特征点(例如，诸如左眼、右眼等人脸特征点)中的每一个。

对于神经网络架构100，图像的多任务损失可以定义为下面的等式2：

L＝Lcls+Lbox+λkpLkp

(2)

其中：

L_cls可以是锚框二元分类损失(人脸与背景)；

L_box可以是锚框位置的回归损失；并且

L_kp可以是使用参数λ_kp加权的关键点的定位损失。

对于神经网络架构100，锚框分类可以使用根据以下等式3得出的焦点损失：

附加地，其中：

N_pos可以是应被归类为人脸的正锚框数(p_i应该等于1)；

N_neg可以是应被归类为背景的负锚框数(p_i应该等于0)；

Pos可以是正锚框的一组索引；

Neg可以是负锚框的一组索引；

p_i可以是锚框i为人脸的预测概率；

α可以是正锚框和负锚框的分类损失之间的平衡参数；并且

γ可以是减少分类良好的样本的损失的聚焦参数。

对于神经网络架构100，边界框回归可以根据下面的等式4采用平滑L₁损失(smooth_L1)：

附加地，其中：

t_i可以是表示预测边界框的4个参数化坐标的向量(例如，与正锚框i相关联的向量)；

可以是表示与负锚框i相关联的真实框的4个参数化坐标的向量。

对于神经网络架构100，特征点位置的预测可以根据下面的等式5和等式6应用每个特征点掩码的交叉熵损失：

附加地，其中：

L_{i，k，j，l}可以是正样本i的特征点k的预测分对数(logit)；

M_{i，k，j，l}可以是正样本i的特征点k的掩码；

可以是正样本i中的真实特征点k所在的掩码像素的索引；并且

可以是正样本i中的真实特征点k所在的掩码像素的索引。

对于人脸的K个关键点中的每一个，训练目标可能是独热m×m二元掩码，所述二元掩码中只有一个像素被标记为前景。在一些实施方案中，参数α和γ可以分别设置为0.25和2。根据实验结果，神经网络架构100可以选择关键点损失权重λ_kp等于约0.25的最佳值，这可以有利地在人脸检测的准确性和特征点定位的准确性之间进行很好地权衡。

然后，第二头150可以输出特征点指示符155。在一些实施方案中，特征点指示符155可以包括与输入图像105上人脸的边界框相对应的一个或多个坐标。对于一些实施方案，特征点指示符155可以包括与输入图像105上人脸的特征点(例如，诸如与人脸结构和/或人脸特征相关的位置等人脸特征点)相对应的一个或多个坐标。在各种实施方案中，特征点指示符155可用于改变输入图像105的副本(诸如通过标记所述副本)。在各种实施方案中，特征点指示符155可以呈现为与输入图像105相对应的单独数据文件，或者呈现为嵌入在输入图像105的带注释副本中的元数据。

在一些实施方案中，客户可以使用基于云的计算服务来将输入图像提供给诸如神经网络架构100的神经网络架构，然后可以以某种方式(例如，作为输入图像副本上的直接注释、作为单独数据文件，以及/或者作为元数据)接收特征点指示符155。对于一些实施方案，人脸可以在输入图像的副本中被裁剪，也可以在输入图像的副本内模糊处理。在一些实施方案中，按照本文讨论的改进后的人脸检测技术，可以执行人脸识别技术。在各种实施方案中，特征点指示符155的提取可以实现各种后续应用，所述应用可以利用在图像内检测到的人脸的位置。

转到图2，上下文模块200包括输入205、输出260和从输入205到输出260的各种分支，其中卷积滤波器(或层)的各种序列沿着各种分支执行处理。上下文模块200的设计基本上类似于图1的上下文模块131的设计。当将独立权重应用于上下文模块的输入特征图时，此类上下文模块可以有利地增加感受野以及/或者为预测增添上下文。实验结果表明，此类上下文模块也有利于改进准确性。

如所描绘，输入205和输出260都可以具有256个通道。在从输入205到输出260的第一分支上，输入205的通道的第一部分(例如，128个通道)可以仅通过第一卷积滤波器210进行处理。在第二分支和第三分支上，输入205的通道的第二部分(例如，128个通道)可以通过第二卷积滤波器220进行处理。在第二分支上，这些通道的第一子组(例如，64个通道)然后可以通过第三卷积滤波器230进行处理；而在第三分支上，这些通道的第二子组(例如，64个通道)然后可以通过第四卷积滤波器240和第五卷积滤波器250进行处理。在各种实施方案中，可以在每个卷积滤波器(或层)之后应用修正线性单元(ReLU)处理。

随后，输出260可以将第一卷积滤波器210的输出(例如，128个通道)、第三卷积滤波器230的输出(例如，64个通道)和第五卷积滤波器250的输出(例如，64个通道)串联起来。因此，输出260可以包括通过各个卷积滤波器来自各个分支的总共256个通道。

上下文模块200的卷积滤波器被描绘为包括3×3卷积滤波器。与较大的卷积滤波器相比，3×3卷积滤波器可以有利地减少上下文模块200中的计算次数。在一些实施方案中，上下文模块200的部分或全部卷积滤波器可以包括其他尺寸的卷积滤波器。

此外，虽然输入205和输出260被描绘为各自具有256个通道，但是在各种实施方案中，输入205和输出260可以具有其他数量的通道。类似地，虽然描绘为在特定配置中具有特定数量的分支和特定数量的卷积滤波器，但是替代实施方案可以在不同配置中具有从输入到输出的不同分支和/或不同的卷积滤波器处理序列。

图3至图5示出了用于处理输入图像以进行人脸检测的方法的流程图。如图3所示，方法300可以包括第一部分310、第二部分330、第三部分330、第四部分340、第五部分350、第六部分360和/或第七部分370。

在第一部分310中，可以将输入图像提供给神经网络以进行人脸检测。输入图像可以基本上类似于输入图像105，并且神经网络可以具有基本上类似于神经网络架构100的架构。

在第二部分320中，可以将输入图像提供给具有一组特征图的FPN。例如，FPN可以基本上类似于神经网络架构100的FPN，并且可以具有包括最后层的特征图(其可以基本上类似于最后层111的特征图)的第一部分和包括基于最后层的特征图计算出的特征图(其可以基本上类似于特征图121)的第二部分。在各种实施方案中，FPN可以具有分别对应于一组上下文模块的输入的一组输出(参见下文)。对于一些实施方案，一组特征图可以基于步幅为2的幂的一组最后层特征图计算得出。

在第三部分330中，可以收集神经网络的分别对应的一组上下文模块的一组多通道输出。一组多通道输出可以对应于输入图像。一组多通道输出可以基本上类似于神经网络架构100的上下文模块131的输出。在一些实施方案中，上下文模块可以使用3×3滤波器。

在第四部分340中，可以将一组多通道输出提供给神经网络的第一头和神经网络的第二头两者。第一头可以基本上类似于第一头140，并且第二头可以基本上类似于第二头150。第一头可以是人脸检测头；并且第二头可以是特征点定位头。

在第五部分350中，可以基于一组多通道输出用第一头预测输入图像的一组边界框。在一些实施方案中，第一头可以使用1×1滤波器(例如，卷积滤波器)。例如，如本文所讨论的，预测可以使用应用于一组上下文模块的多通道输出的1×1卷积共享权重，并且可以使用如本文讨论的锚框回归和分类。在一些实施方案中，一组边界框的预测可以在单次前向传递中完成。

在第六部分360中，可以基于一组多通道输出和一组边界框用第二头提取输入图像的一组特征点指示符。在各种实施方案中，第二头可以包括RoIAlign层。第二头可以将来自第一头的边界框视为用于提取特征以进行特征点定位的RoI，并且可以使用RoIAlign层进行特征提取，如本文所讨论的。

在第七部分370中，可以提供包括一组特征点指示符的输出。输出可以被呈现为输入图像的更改后副本，即不同于输入图像的另一个数据文件，或者呈现为嵌入输入图像中的元数据，如本文所讨论的。

转到图4，用神经网络处理图像的方法400可以包括第一部分410、第二部分420、第三部分430、第四部分440和/或第五部分450。在第一部分410中，可以将输入图像提供给神经网络的FPN阶段。例如，神经网络可以具有基本上类似于神经网络架构105的架构，并且FPN可以基本上类似于神经网络架构100的FPN。FPN可以具有包括最后层的特征图(其可以基本上类似于最后层111的特征图)的第一部分和包括基于最后层的特征图计算出的特征图(其可以基本上类似于特征图121)的第二部分。在各种实施方案中，FPN可以具有分别对应于一组上下文模块的输入的一组输出(参见下文)。对于一些实施方案，一组特征图基于步幅为2的幂的一组最后层特征图计算得出。FPN阶段可以是分别对应于上下文模块阶段的一组输入的一组输出(参见下文)。

在第二部分420中，可以将神经网络的上下文模块阶段的一组多通道输出提供给神经网络的人脸检测阶段和神经网络的人脸特征点定位阶段。一组多通道输出可以基本上类似于神经网络架构100的上下文模块131的输出。人脸检测阶段可以基本上类似于第一头140，并且人脸特征点定位阶段可以基本上类似于第二头150。一组多通道输出可以对应于神经网络的输入图像。在一些实施方案中，上下文模块可以使用3×3滤波器。

在第三部分430中，可以在人脸检测阶段基于上下文模块阶段的一组多通道输出来预测输入图像的一组边界框。在一些实施方案中，人脸检测阶段可以使用1×1滤波器(例如，卷积滤波器)。例如，如本文所讨论的，预测可以使用应用于一组上下文模块的多通道输出的1×1卷积共享权重，并且可以使用如本文讨论的锚框回归和分类。在一些实施方案中，一组边界框的预测可以在单次前向传递中完成。

在第四部分440中，可以在人脸特征点定位阶段基于上下文模块阶段的一组多通道输出和在人脸检测阶段预测的一组边界框来提取输入图像的一组人脸特征点指示符。在各种实施方案中，人脸特征点定位阶段可以包括RoIAlign层。人脸特征点定位阶段可以将来自第一头的边界框视为用于提取特征以进行特征点定位的RoI，并且可以使用RoIAlign层进行特征提取，如本文所讨论的。

在第五部分450中，可以提供包括一组人脸特征点指示符的输出。输出可以被呈现为输入图像的更改后副本，即不同于输入图像的另一个数据文件，或者呈现为嵌入输入图像中的元数据，如本文所讨论的。

转到图5，用于图像处理的基于神经网络的系统的方法500可以包括第一部分510、第二部分520、第三部分530、第四部分540、第五部分550、第六部分560、第七部分570和第八部分580。

在第一部分510中，可以将图像提供给神经网络的FPN。图像可以在基本上类似于输入图像105，并且神经网络可以具有基本上类似于神经网络架构100的架构。

在第二部分520中，可以基于图像用FPN计算最后层的一组特征图C2到CN。FPN可以基本上类似于神经网络架构100的FPN，并且可以具有包括最后层的特征图(其可以基本上类似于最后层111的特征图)的第一部分。在各种实施方案中，FPN可以具有分别对应于一组上下文模块的输入的一组输出(参见下文)。对于一些实施方案，一组特征图基于步幅为2的幂的一组最后层特征图计算得出。

在第三部分530中，可以用FPN基于最后层的一组特征图C2到CN来计算一组特征图P2到PN。FPN可以具有包括基于最后层的特征图计算的特征图(其可以基本上类似于特征图121)的第二部分。

在第四部分540中，可以将一组输入提供给分别对应的一组上下文模块，所述一组输入是基于如本文所讨论的一组特征图P2到PN。

在第五部分550中，可以基于到上下文模块的一组输入来生成上下文模块的一组多通道输出。一组多通道输出可以基本上类似于神经网络架构100的上下文模块131的输出。在一些实施方案中，上下文模块可以使用3×3滤波器。

在第六部分560中，可以在神经网络的第一头处基于上下文模块的一组多通道输出来预测图像的一组边界框。第一头可以是人脸检测头。在一些实施方案中，第一头可以使用1×1滤波器(例如，卷积滤波器)。例如，如本文所讨论的，预测可以使用应用于一组上下文模块的多通道输出的1×1卷积共享权重，并且可以使用如本文讨论的锚框回归和分类。在一些实施方案中，一组边界框的预测可以在单次前向传递中完成。

在第七部分570中，可以基于上下文模块的一组多通道输出和在第一头处预测的一组边界框，在神经网络的第二头处提取图像的一组人脸特征点指示符。第二头可以是特征点定位头。在各种实施方案中，第二头可以包括RoIAlign层。第二头可以将来自第一头的边界框视为用于提取特征以进行特征点定位的RoI，并且可以使用RoIAlign层进行特征提取，如本文所讨论的。

在第八部分580中，可以提供包括一组人脸特征点指示符的输出。输出可以被呈现为输入图像的更改后副本，即不同于输入图像的另一个数据文件，或者呈现为嵌入输入图像中的元数据，如所讨论的。

用于执行方法300、方法400和/或方法500的指令可以由具有一个或多个处理器的控制单元基于存储在控制器的存储器(例如，诸如磁存储介质、光存储介质或非易失性存储介质等非暂时性存储器)中的指令来执行。控制单元和存储器可以是计算系统的部分，计算系统对于用户来说可以是本地的，也可以是远程的。对于一些实施方案，计算系统可以在远离用户的位置(例如，在基于云的服务器中)，并且用户可以通过合适的通信接口(例如，到互联网的有线或无线通信接口)与计算系统交互(并由此起始方法300、方法400和/或方法500中的一者或多者)。

已出于说明及描述目的而呈现对实施方案的描述。可鉴于以上描述来执行对实施方案的适合修改及改变，或者可通过实践方法来获取所述适合修改及改变。例如，除非另外指出，否则可通过适合装置和/或装置的组合(诸如，关于图1至图5讨论的计算系统和/或基于云的计算系统)来执行所描述方法中的一者或多者。所述方法可以通过利用一个或多个逻辑装置(例如，处理器)与一个或多个附加的硬件元件(诸如存储装置、存储器、图像传感器/透镜系统、光传感器、硬件网络接口/天线、开关、致动器、时钟电路等)相结合执行所存储的指令来执行。所描述方法及相关联动作还可以以除在本申请案中描述的次序之外的各种次序、并行地及/或同时地执行。所描述系统在本质上是示例性的，且可包含额外元件及/或省略元件。本公开的主题包括所公开的各种系统和配置与其他特征、功能和/或性质的所有新颖和非明显的组合和子组合。

如本申请案中所使用，通过单数形式并且继以词语“一个(a或an)”叙述的元件或步骤应理解为不排除多个所述元件或步骤，除非规定此类排除。此外，本公开对“一个实施方案”或“一个示例”的引用不旨在被解释为排除也并入有所述特征的额外实施方案的存在。诸如“第一”、“第二”及“第三”等术语仅用作标签，并且无意对其对象强加数值要求或特定位置次序。

如本文所用，其中引用“一个实施方案”、“一些实施方案”或“各种实施方案”的术语表示所描述的相关联特征、结构或特性在至少一些实施方案中，但不一定在所有实施方案中。此外，这些术语在各处的出现不一定都是指相同的实施方案。而且，使用“和/或”语言在列表中呈现元素的术语意指所列元素的任何组合。例如，“A、B和/或C”可以表示以下任何一种：单独的A；单独的B；单独的C；A和B；A和C；B和C；或A、B和C。

所附权利要求特别指出来自以上公开内容的被视为新颖和非明显的主题。

Claims

1.一种方法，其包括：

将输入图像提供给神经网络以进行人脸检测；

收集所述神经网络的分别对应的一组上下文模块的一组多通道输出，所述一组多通道输出对应于所述输入图像；

将所述一组多通道输出提供给所述神经网络的第一头和所述神经网络的第二头两者；

基于所述一组多通道输出，用所述第一头预测所述输入图像的一组边界区域；

基于所述一组多通道输出和所述一组边界区域，用所述第二头提取所述输入图像的一组特征点指示符；以及

提供包括所述一组特征点指示符的输出。

2.根据权利要求1所述的方法，其中所述第二头包括RoIAlign层。

3.根据权利要求1所述的方法，其中对所述一组边界区域的所述预测是在单次前向传递中完成的。

4.根据权利要求1所述的方法，其还包括：

将所述输入图像提供给具有一组特征图的特征金字塔网络。

5.根据权利要求4所述的方法，其中所述特征金字塔网络具有一组输出，所述一组输出分别对应于所述一组上下文模块的输入。

6.根据权利要求4所述的方法，其中所述一组特征图基于步幅为2的幂的一组最后层特征图计算得出。

7.根据权利要求1所述的方法，其中所述上下文模块使用3×3滤波器。

8.根据权利要求1所述的方法，其中所述第一头使用1×1滤波器。

9.根据权利要求1所述的方法，其中所述第一头为人脸检测头；并且其中所述第二头为特征点定位头。

10.一种用神经网络处理图像的方法，所述方法包括：

将所述神经网络的上下文模块阶段的一组多通道输出提供给所述神经网络的人脸检测阶段和所述神经网络的人脸特征点定位阶段两者，所述一组多通道输出对应于所述神经网络的输入图像；

在所述人脸检测阶段基于所述上下文模块阶段的所述一组多通道输出来预测所述输入图像的一组边界框；

在所述人脸特征点定位阶段基于所述上下文模块阶段的所述一组多通道输出和在所述人脸检测阶段预测的所述一组边界框来提取所述输入图像的一组人脸特征点指示符；以及

提供包括所述一组人脸特征点指示符的输出。

11.根据权利要求9所述的用神经网络处理图像的方法，其中所述一组人脸特征点指示符使用RoIAlign层提取。

12.根据权利要求9所述的用神经网络处理图像的方法，其中对所述一组边界框的所述预测是在单次前向传递中完成的。

13.根据权利要求9所述的用神经网络处理图像的方法，其还包括：

将所述输入图像提供给所述神经网络的特征金字塔网络阶段，所述特征金字塔网络阶段具有一组特征图。

14.根据权利要求13所述的用神经网络处理图像的方法，其中所述特征金字塔网络阶段具有一组输出，所述一组输出分别对应于所述上下文模块阶段的一组输入。

15.根据权利要求13所述的用神经网络处理图像的方法，其中所述一组特征图基于步幅为2的幂的一组最后层特征图计算得出。

16.根据权利要求9所述的用神经网络处理图像的方法，其中所述上下文模块阶段包括3×3滤波器；并且其中所述人脸检测头使用1×1滤波器。

17.一种用于图像处理的神经网络系统，其包括：

控制单元，所述控制单元具有一个或多个处理器；以及

非暂时性存储器，所述非暂时性存储器中存储有可执行指令，所述可执行指令在由所述控制单元执行时使所述控制单元：

向神经网络的特征金字塔网络提供图像；

用所述特征金字塔网络基于所述图像计算一组最后层特征图C2到CN；

用所述特征金字塔网络基于所述一组最后层特征图C2到CN计算一组特征图P2到PN；

基于所述一组特征图P2到PN，向分别对应的一组上下文模块提供一组输入；

用所述一组上下文模块基于所述上下文模块的所述一组输入生成一组多通道输出；

在所述神经网络的第一头处，基于所述上下文模块的所述一组多通道输出预测所述图像的一组边界区域；

在所述神经网络的第二头处，基于所述上下文模块的所述一组多通道输出和在所述第一头处预测的所述一组边界区域提取所述图像的一组人脸特征点指示符；以及

提供包括所述一组人脸特征点指示符的输出。

18.根据权利要求16所述的用于图像处理的神经网络系统，其中所述一组人脸特征点指示符使用RoIAlign层提取。

19.根据权利要求16所述的用于图像处理的神经网络系统，其中对所述一组边界区域的所述预测是在单次前向传递中完成的。

20.根据权利要求16所述的用于图像处理的神经网络系统，其中所述最后层特征图C₂到C_N的步幅为2的幂；其中所述上下文模块使用3×3滤波器；并且其中所述第一头使用1×1滤波器。