CN109919097A

CN109919097A - 基于多任务学习的人脸和关键点联合检测系统、方法

Info

Publication number: CN109919097A
Application number: CN201910175223.4A
Authority: CN
Inventors: 雷震; 庄楚斌; 张士峰; 朱翔昱
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2019-03-08
Filing date: 2019-03-08
Publication date: 2019-06-21

Abstract

本发明属于图像处理与模式识别技术领域，具体涉及一种基于多任务学习的人脸和关键点联合检测系统、方法，旨在为了解决人脸和关键点联合检测的问题。本发明系统包括人脸检测模块、特征融合模块、多任务检测模块；所述人脸检测模块基于单步法检测模型构建的轻型网络结构，用于对输入待检测图像进行人脸检测；所述特征融合模块，用于对所述人脸检测模块中三个网络分支的人脸检测输出进行特征融合；所述多任务检测模块用于将所述特征融合模块输出的融合后的特征图映射到三个不同的特征子空间，分别进行分类、人脸框回归、关键点回归。本发明能同步进行人脸和关键点检测两个任务，提升了检测速度的同时，保证了较高的精度。

Description

基于多任务学习的人脸和关键点联合检测系统、方法

技术领域

本发明属于图像处理与模式识别技术领域，具体涉及一种基于多任务学习的人脸和关键点联合检测系统、方法。

背景技术

人脸检测是一种在任意输入图像中自动搜索人脸位置和大小的技术，人脸关键点检测则是在给定的人脸框中正确定位出关键点位置的过程。人脸和关键点检测技术是许多人脸相关应用中基础和核心的一个环节，在基于人脸的计算机视觉、模式识别等领域有着极为广泛的应用，例如自动驾驶，视频监控和生物特征识别等。对于大部分与人脸相关的应用中，都首先要求对人脸和关键点的位置进行精确的定位。

目前大多数人脸和关键点检测方法都是分步实施的，即先进行人脸检测，再进行关键点检测，此类方法忽略了这两个任务之间的内在联系，整体的检测效率不高。也有一些方法如MTCNN使用级联卷积神经网络来联合预测人脸和关键点的位置，但这种级联结构存在着如检测速度会随着图片中人脸数目的增加而急剧变慢，训练过程繁琐，无法实现端到端训练的问题。因此，针对人脸和关键点的实时检测目前仍是一个极具挑战的问题，特别是对于CPU这种计算资源受限的硬件平台。存在的挑战主要如下：1)复杂背景下，因光照、尺度、姿势变化等因素带来的人脸检测问题要求检测器需要更加鲁棒；2)检测器的实时性需求在一定程度上限制了网络结构的设计空间，对检测器在效率和精度上面的平衡提出了更高的要求；3)尽管人脸检测和关键点检测任务具有一定的相关性，但是他们在训练数据集的模态和模型结构设计等方面存在着较大的差别。因此，设计一个CPU实时的人脸和关键点联合检测器仍是一个亟待解决的问题。

发明内容

为了解决现有技术中的上述问题，即为了解决人脸和关键点联合检测的问题，本发明的第一方面，提出了一种基于多任务学习的人脸和关键点联合检测系统，该系统包括人脸检测模块、特征融合模块、多任务检测模块；

所述人脸检测模块基于单步法检测模型构建的轻型网络结构，用于对输入待检测图像进行人脸检测；

所述特征融合模块，用于对所述人脸检测模块中三个网络分支的人脸检测输出进行特征融合；

所述多任务检测模块用于将所述特征融合模块输出的融合后的特征图映射到三个不同的特征子空间，分别进行分类、人脸框回归、关键点回归。

在一些优选实施方式中，所述特征融合模块中“对所述人脸检测模块中三个网络分支的人脸检测输出进行特征融合”，其方法为：

对三个网络分支的人脸检测输出的特征图以自上至下的方式进行融合，在融合过程中采用双线性插值对特征图进行放大处理，并在特征图融合之前，使用了卷积核大小为1×1的卷积层将特征图的通道数进行缩减。

在一些优选实施方式中，所述多任务检测模块中，采用关键点锚点框同时对人脸框和关键点的位置进行回归；所述关键点锚点框依据预设宽高比进行设计，并以所述人脸检测模块中人脸检测输出的三个网络分支的网络层为锚点框关联层。

在一些优选实施方式中，所述关键点锚点框的预设宽高比为预设训练数据中人脸标注框的宽高比平均值。

在一些优选实施方式中，所述关键点锚点框设置有5个关键点初始回归点LE、RE、NT、LM、RM，分别用于对人脸的左眼、右眼、鼻尖、左嘴角、右嘴角的位置进行回归计算。

在一些优选实施方式中，该系统优化训练所采用的多任务损失函数L(p,x,y)为

其中，i是锚点框的标号；p_i是i号锚点框被预测是人脸的概率；为训练标注，锚点框是正样本时训练标注是1，锚点框是负样本时训练标注是0；分类函数为二分类softmax损失函数；检测窗口回归函数和关键点回归函数均为smooth L1损失函数；表示检测窗口回归函数只对正样本锚点框进行计算；表示关键点损失函数值只针对于具有关键点标注信息的正样本锚点框，其中训练数据为关键点检测数据集时q_i为1，训练数据为人脸检测数据集时q_i为0；N_cls为正负锚点框总和，N_box为正锚点框数，N_lan为正锚点框中存在关键点标注的数目；λ₁、λ₂、λ₃为三个超参数；b_i是所预测人脸边界框的坐标；是与正锚点框关联的b_i的标注；l_i是预测的关键点坐标；是与正锚点框关联的l_i的标注。

在一些优选实施方式中，该系统优化训练的训练数据包括人脸检测数据集、关键点检测数据集；

关键点检测数据集中每张图片上只有一张人脸；

人脸检测数据集基于关键点检测数据集构造，其方法为：

对关键点检测数据集中每一张图中的人脸框进行标定，并通过虚拟重构生成包含多个不同尺度人脸信息的图片，获取与关键点检测数据集对应的人脸检测数据集。

在一些优选实施方式中，“通过虚拟重构生成包含多个不同尺度人脸信息的图片”，其方法为：

对图片按照预设的比例1/2ⁿ(n＝0,…,N)进行不同尺度的缩放；

对生成的缩放子图进行随机水平翻转后进行拼接后获得最终的图片；

其中，缩放因子N按照以下公式进行计算：

N＝min(2,floor(min(face_w,face_h)/50))

face_w和face_h分别表示人脸框的宽度和高度，floor为向下取整函数。

在一些优选实施方式中，基于所述多任务损失函数进行每次训练前，对所述训练数据进行增广处理和困难样本挖掘，构建当前轮次训练数据集。

在一些优选实施方式中，“对所述训练数据进行增广处理和困难样本挖掘，构建当前轮次训练数据集”，其方法为：

对训练数据中每张训练图片，依次进行颜色抖动、随机裁剪、水平翻转扩充后，进行图片的尺寸归一化；

对所有负样本，计算其分类预测的误差值，并选取误差值最大的预设数量的负样本作为当前轮次训练数据集中的负样本。

在一些优选实施方式中，当前轮次训练数据集中的负样本的数量与正样本数量的比值为7:1。

本发明的第二方面，提出了一种基于多任务学习的人脸和关键点联合检测方法，基于上述的基于多任务学习的人脸和关键点联合检测系统，包括以下步骤：

步骤S10，基于训练好的基于多任务学习的人脸和关键点联合检测系统，检测人脸和关键点，输出关键点锚点框集合作为第一锚点框集合；

步骤S20，对所述第一锚点框集合中锚点框进行去重操作，并选择置信度最大的预设数量的锚点框作为检测输出。

在一些优选实施方式中，步骤S20“对所述第一锚点框集合中锚点框进行去重操作，并选择置信度最大的预设数量的锚点框作为检测输出”，其方法为：

去除所述第一锚点框集合中低于预设置信度值的锚点框，得到第二锚点框集合；

根据所述第二锚点框集合中锚点框的置信度排序，选出置信度最大的预设数量的锚点框，得到第三锚点框集合；

采用非极大值抑制对所述第三锚点框集合进行去重，并选出置信度最大的预设数量的锚点框，得到检测输出的锚点框集合。

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于多任务学习的人脸和关键点联合检测方法。

本发明的第三方面，提出了一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于多任务学习的人脸和关键点联合检测方法。

本发明的有益效果：

本发明提出的人脸和关键点联合检测器避免了现有方法将人脸检测和关键点两个任务分步骤进行的缺点，能同步进行两个任务，提升了检测速度的同时，保证了较高的精度，具有较广的使用范围。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明一种实施例的基于多任务学习的人脸和关键点联合检测系统框架示意图；

图2是本发明一种实施例的基于多任务学习的人脸和关键点联合检测系统网络架构示意图；

图3是本发明实施例的任务分离模块和关键点锚点框示意图；

图4为本发明实施例中的图像金字塔示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明基于一步法构建轻型的检测模型，保证CPU实时检测速度的同时，实现模型端到端的训练和测试；提出关键点锚点框，实现人脸和关键点的联合检测；通过联合异构训练集解决训练样本(同时标注人脸框和关键点坐标)稀缺的问题。

主要创新点包括：1)在检测网络中，针对融合之后的特征图使用任务分离模块将特征映射到三个不同的特征子空间中，分别用于分类，人脸框回归和关键点回归三个子任务，实现对提取特征在不同任务上的解耦，提高每个任务的检测精度；2)提出关键点锚点框用于同时对人脸和关键点的位置进行回归，并对锚点框的尺寸和关联层进行设计，显著提升人脸框和关键点的联合检测精度；3)对关键点数据使用虚拟样本生成，将重新制作的关键点数据集和人脸数据集进行融合，生成人脸/关键点共同标注数据，提高网络训练的准确性和推广性。

本发明的一种基于多任务学习的人脸和关键点联合检测系统，如图1所示，该系统包括人脸检测模块、特征融合模块、多任务检测模块；

所述多任务检测模块中，采用关键点锚点框同时对人脸框和关键点的位置进行回归；所述关键点锚点框依据预设宽高比进行设计，并以所述人脸检测模块中人脸检测输出的三个网络分支的网络层为锚点框关联层。

通过构建多任务损失函数对本发明基于多任务学习的人脸和关键点联合检测系统进行训练，以用于同步进行人脸和关键点联合检测。

为了更清晰地对本发明进行说明，下面从系统构建、系统训练、联合检测三个方面对本方发明进行展开详述。

1、系统构建

本发明实施例的基于多任务学习的人脸和关键点联合检测系统，包括人脸检测模块、特征融合模块、多任务检测模块；人脸检测模块基于单步法检测模型构建的轻型网络结构，用于对输入待检测图像进行人脸检测；特征融合模块，用于对人脸检测模块中三个网络分支的人脸检测输出进行特征融合；多任务检测模块用于将特征融合模块输出的融合后的特征图映射到三个不同的特征子空间，分别进行分类、人脸框回归、关键点回归。

(1)人脸检测模块

为了满足CPU实时的需求，本发明选择常用的单步法检测模型作为基础框架，并对网络的部分卷积层的通道数和卷积核的大小进行了调整，在保证精度基本不丢失的前提下，使网络的整体计算速度得到了进一步提升。具体来说，相比于深层特征图，浅层特征图的尺寸较大，使用大卷积核对其进行特征提取会耗费大量的运算时间。为了减少网络在浅层特征图上进行特征提取的耗时，如图2所示，本发明将最开始的两个卷积层的卷积核大小分别设置成为5和3，整个网络输出通道数不超过128，构建出一个轻型的网络结构，以满足CPU实时的需求。本实施例的单步法检测模型为FaceBoxes网络。

(2)特征融合模块

为了增加浅层特征的语义信息和特征丰富度，本发明进一步设计了轻型特征融合模块用于对检测层的特征以自上至下的方式进行高效融合，克服了传统FPN在实现上的低效性，丰富了浅层特征语义信息的同时，只产生了极少的额外时间开销。具体实现上，考虑到反卷积操作在CPU硬件上的低效性，如图2所示的特征融合模块，本发明使用了双线性插值代替传统的反卷积操作来实现对特征图的放大处理，并在进行特征图融合之前，经通道缩减模块将特征图的通道数从原来的128减少为64，以进一步提升网络的运算速度。在本实施例中，该通道缩减模块由简单的卷积核大小为1×1的卷积层构成，以减少特征通道缩减步骤的耗时。之后，对这些经通道缩减之后的特征图按从上到下的方式进行特征的融合，增强检测层的特征丰富度。在本实施例中，本发明提取基础网络FaceBoxes的Inception3，Conv3_2和Conv4_2的特征进行融合，得到P_inception，P3_2和P4_2作为最终的锚点框关联层。

(3)多任务检测模块

在检测任务中，包含着物体分类和检测窗口回归两个子任务，常规的检测模型都是直接在共享的特征图上同时对物体的类别和位置进行预测。但物体分类和检测窗口回归本质上是两个不同的任务，前者更加关注于分类的准确度，而后者则更关心定位的精度。直接在共享的特征图上进行这两个不同任务的预测，会存在着不同任务之间互相干扰的问题，使得所提取的共享特征对于各个子任务来说都是次优的，模型难以学习到全局最优解。特别是针对多任务检测模型，如人脸和关键点联合检测任务，这个问题更加突出。因此，如图2所示，本发明设计使用任务分离模块来实现不同任务的解耦以提高整体的检测性能。具体实现如图3左图所示，该任务分离模块由三个卷积核大小为1×1的卷积层组成，这些独立的卷积层将融合之后的检测层特征映射到三个不同的64维特征子空间(64-d)中，然后对映射后的这三组特征图后接不同的检测模块以进行不同任务的预测，分别输出预设置k个锚点框对应的人脸/背景的2k个分类预测概率(2k scores)、人脸窗口回归(2点)的4k个回归参数值(4kcoordinates)和关键点坐标回归(5点)的10k个回归参数值(10k coordinates)。通过这样的处理，使每个特征子空间独自负责一种任务的特征学习，实现了所提取特征在不同任务上的解耦，使得每种任务都有独立的与之相适应的特征进行匹配，有助于提升整体的检测精度。并且，这个额外增加的任务分离模块结构简单，只产生极少的额外时间开销，不影响到最终检测器的实时性。本实施例中的多任务检测模块如图2所示。

(4)关键点锚点框和对应的关联层

多任务检测模块中，采用关键点锚点框同时对人脸框和关键点的位置进行回归；关键点锚点框依据预设宽高比进行设计，并以人脸检测模块中人脸检测输出的三个网络分支的网络层为锚点框关联层。

不同尺度的人脸，其特征在不同的卷积层上，丰富程度有所不同。卷积神经网络低层的特征能够很好地表达小尺度的人脸，但由于感受野较小，因而对大尺度的人脸没有鉴别能力；相反的，卷积神经网络高层的特征对大尺度人脸的响应强烈，而对小尺度人脸的响应会因为特征被压缩会消失。本发明在设计锚点框的关联层时，为了确保不同尺度的人脸都有丰富的特征用于检测，如图2所示的锚点框设计示意图中，本发明选取经过特征融合之后的低层P_inception、中层P3_2和高层P4_2作为锚点框关联层。其中，P_inception主要用于小尺度人脸的检测，P3_2和P4_2则分别负责中尺度和大尺度人脸的检测。此外，为了使预设置的锚点框能够与人脸标注框更好的匹配，本发明将锚点框的宽高比设置为训练数据中人脸标注框的平均值，在本实施例中为0.75。P_inception有三种尺度的锚点框，分别为32、64和128像素，对应的特征缩放尺度为32；而P3_2和P4_2的锚点框大小分别为256和512像素，对应的特征缩放尺度为64和128。

目前大多数人脸和关键点检测方法都是分步实施的，即先进行人脸检测，再进行关键点检测，此类方法忽略了这两个任务之间的内在联系，整体的检测效率不高。为了将这两个任务融合在同一模型中，本发明设计了一种新型的关键点锚点框用于对人脸和关键点的位置进行同步回归。具体来说，如图3所示，该关键点锚点框在传统锚点框的基础上，在卷积层特征图上通过滑动窗口获取的k个锚点框中每个锚点框添加了5个关键点初始回归点(LE、RE、NT、LM、RM)，这5个点分别位于锚点框的5个不同位置，分别用于对人脸的5个关键点(左眼、右眼、鼻尖、左嘴角、右嘴角)的位置进行回归计算，在图3中，锚点框的高为h、宽为w，LM距离最近的两个相邻锚点边的距离分别为w/4、h/4，RE、LM、RM三个点与邻近锚点框的边的距离与LM点进行同样设置，NT距离两个相邻锚点边的距离分别为w/2、h/2。具体来说，点LE和RE负责左眼和右眼的关键点回归任务，NT用于对鼻尖位置进行预测，点LM和RM则负责左嘴角和右嘴角的关键点回归。在对初始回归点进行设计时，本发明将锚点框预想为一个标准的正面人脸，则这5个预设点分别位于五个方位，表征了该正面人脸对应关键点的预想位置。这5个预设点在锚点框中的位置如图3所示，其中点NT位于锚点框的正中心位置，点LE位于锚点框左上顶点和中心点连线的二分之一处，点RE位于锚点框右上顶点和中心点连线的二分之一处，点LM位于锚点框左下顶点和中心点连线的二分之一处，点RM位于锚点框右下顶点和中心点连线的二分之一处。需要注意的，该关键点锚点框并不局限与对这5个关键点的检测，可以通过对锚点框按照上述方式预设更多的关键点初始回归点来扩展到更多关键点的检测任务中，如50点，68点和101点等。通过这样的设计，很好地将原先复杂的人脸和关键点联合检测任务转化为了一个统一的坐标回归任务，从而将原先需要依序进行的检测任务转为可同步进行，相互独立的任务。

本发明系统的训练过程中，在进行锚点框关联时，先计算每个锚点框和所有目标人脸标注框的IoU(Intersection over Union，是一种测量在特定数据集中检测相应物体准确度的一个标准)，然后针对每个目标人脸，将它与IoU最大的锚点框进行匹配，最后再将IoU值大于0.35的锚点框与对应的人脸标注框进行匹配。

2、系统训练

本发明系统的训练包括两个关键内容，一是训练数据的构建，二是损失函数的构建。

(1)训练数据

该系统优化训练的训练数据包括人脸检测数据集、关键点检测数据集；关键点检测数据集中每张图片上只有一张人脸；人脸检测数据集基于关键点检测数据集构造，其方法为：对关键点检测数据集中每一张图中的人脸框进行标定，并通过虚拟重构生成包含多个不同尺度人脸信息的图片，获取与关键点检测数据集对应的人脸检测数据集。

目前公开的训练数据中，没有专门针对非受限环境下人脸和关键点联合检测任务的数据集。常用的人脸检测数据集WIDER FACE包含大量复杂背景下的人脸图片；而关键点检测数据集CelebA都是非常清晰的大尺寸简单人脸图片，且每张图片上只有一张人脸出现。鉴于这两组数据集之间存在如上描述明显的数据模态差异性，本发明对CelebA数据集中的人脸框位置进行了重新标定，并对数据集其进行了虚拟重构，使得重新生成的训练图片包含着多个，多尺度的人脸信息。然后将重构的关键点数据集与人脸检测数据集WIDERFACE进行融合，构造出具有人脸/关键点共同标注信息的训练数据。具体实现上，本发明将选自CelebA数据集中的图片按照比例因子1/2ⁿ(n＝0,…,N)进行了不同尺度的缩放处理，然后对这些缩放子图进行随机水平翻转并拼接成为一个图像金字塔作为最终的训练图片，如图4所示为构建的一个图像金字塔示例图。缩放因子N取决于图像中原始人脸框的最小边长度，按照以下公式进行计算：

N＝min(2,floor(min(face_w,face_h)/50))

其中，face_w和face_h分别表示人脸框的宽度和高度，floor为向下取整函数。通过上述公式，可以保证经过缩放处理之后的图片中的人脸框尺寸仍然大于25像素值，因为太小的人脸图像不利于关键点定位分支的训练。通过这样的处理，就将选自CelebA数据集中的图片转化为了类似于WIDER FACE形式的图片，即数据集中的每张图片都包含着多个不同尺度的人脸图像。如此，可在一定程度上减少这两个训练集数据模态的差异性，从而提升整体检测性能。

训练过程中，所构建的类似WIDER FACE的数据集只用于人脸检测分支的网络参数更新，而选自CelebA数据集同时参与人脸检测和关键点检测两分支的参数更新。

(2)损失函数

该系统优化训练所采用的多任务损失函数L(p,x,y)为

其中，i是锚点框的标号；p_i是i号锚点框被预测是人脸的概率；为训练标注，锚点框是正样本时训练标注是1，锚点框是负样本时训练标注是0；分类函数为二分类softmax损失函数；检测窗口回归函数和关键点回归函数均为smooth L1损失函数；表示检测窗口回归函数只对正样本锚点框进行计算；表示关键点损失函数值只针对于具有关键点标注信息的正样本锚点框，其中训练数据为关键点检测数据集时q_i为1，训练数据为人脸检测数据集时q_i为0；B_cls为正负锚点框总和，N_box为正锚点框数，N_lan为正锚点框中存在关键点标注的数目；λ₁、λ₂、λ₃为三个超参数；b_i是所预测人脸边界框的坐标；是与正锚点框关联的b_i的标注；l_i是预测的关键点坐标；是与正锚点框关联的l_i的标注。

其中，b_i参数化为一个4维的向量，l_i参数化为一个10维的向量，参数化方法为：

其中，i是锚点框的标号,j为关键点的标号，j＝0,...,4。x,y,w和h分别表示框中心的坐标和它的宽长，X和Y表示关键点坐标位置。变量x,x^a以及x^*分别代表人脸预测框、锚点框、人脸标注框的x轴坐标，在上述公式中采用同样的定义方式用于变量y，X，Y，w和h的定义。

(3)训练过程

(A)对训练数据进行增广处理和困难样本挖掘。

基于多任务损失函数进行每次训练前，对所述训练数据进行增广处理和困难样本挖掘，构建当前轮次训练数据集。

对于输入的每张训练图像，依次进行颜色抖动、随机裁剪、水平翻转操作来扩充训练数据集，并进行图片的尺寸归一化(本实施例中调整大小为1024×1024)用于后续的网络训练。但这样生成的数据集中负样本的数量远远大于正样本的数量。为了使训练过程更加稳定，加快网络的收敛速度，我们使用困难负样本挖掘技术，选出部分负样本参与训练。具体来说，对于所有的负样本，分别计算出它们的分类预测值和标签之间的分类损失函数值，损失函数为二分类softmax损失函数。之后根据损失值进行降序排序，选取损失值最大的一批负样本作为训练数据集的负样本，其余负样本全部抛弃，所选取的负样本的数量可以预先设定，也可以预先设定正负样本比例来确定所保留负样本的数量，本实施例中预设的正样本与负样本的数量比例为1:7。这样正负样本之间有着比较平衡的数量关系，有利于网络训练的平稳进行。

(B)基于当前轮次训练数据集、多任务损失函数进行系统训练，并更新网络参数。

损失函数计算完成后，利用随机梯度下降法，反向传播误差，更新网络参数，完成一次训练。

(C)重复执行(A)、(B)直至网络收敛，得到最终的系统网络模型。

3、联合检测

在测试阶段，把测试图像输入训练好的网络模型进行人脸和关键点检测，输出检测结果框集合(即锚点框集合)。由于输出的检测框的数量非常多，需要对得到检测结果框进行进一步的筛选。

本发明的基于多任务学习的人脸和关键点联合检测方法，基于上述的基于多任务学习的人脸和关键点联合检测系统，包括以下步骤：

在一些优选实施例中，步骤S20“对所述第一锚点框集合中锚点框进行去重操作，并选择置信度最大的预设数量的锚点框作为检测输出”，其方法为：

去除所述第一锚点框集合中低于预设置信度值的锚点框，得到第二锚点框集合；本实施例中预设的置信度值为T＝0.05；

根据所述第二锚点框集合中锚点框的置信度排序，选出置信度最大的预设数量(本实施例的预设数量为N_a＝2000)的锚点框，得到第三锚点框集合；

采用非极大值抑制对所述第三锚点框集合进行去重，并选出置信度最大的预设数量(本实施例的预设数量为N_b＝300)的锚点框，得到检测输出的锚点框集合。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的方法的具体工作过程及有关说明，可以参考前述系统构建、系统训练中的对应内容，在此不再赘述。

本发明实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于多任务学习的人脸和关键点联合检测方法。

本发明实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于多任务学习的人脸和关键点联合检测方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于多任务学习的人脸和关键点联合检测系统，其特征在于，该系统包括人脸检测模块、特征融合模块、多任务检测模块；

2.根据权利要求1所述的基于多任务学习的人脸和关键点联合检测系统，其特征在于，所述特征融合模块中“对所述人脸检测模块中三个网络分支的人脸检测输出进行特征融合”，其方法为：

3.根据权利要求1所述的基于多任务学习的人脸和关键点联合检测系统，其特征在于，所述多任务检测模块中，采用关键点锚点框同时对人脸框和关键点的位置进行回归；所述关键点锚点框依据预设宽高比进行设计，并以所述人脸检测模块中人脸检测输出的三个网络分支的网络层为锚点框关联层。

4.根据权利要求3所述的基于多任务学习的人脸和关键点联合检测系统，其特征在于，所述关键点锚点框的预设宽高比为预设训练数据中人脸标注框的宽高比平均值。

5.根据权利要求3所述的基于多任务学习的人脸和关键点联合检测系统，其特征在于，所述关键点锚点框设置有5个关键点初始回归点LE、RE、NT、LM、RM，分别用于对人脸的左眼、右眼、鼻尖、左嘴角、右嘴角的位置进行回归计算。

6.根据权利要求3所述的基于多任务学习的人脸和关键点联合检测系统，其特征在于，该系统优化训练所采用的多任务损失函数L(p，x，y)为

其中，i是锚点框的标号；p_i是i号锚点框被预测是人脸的概率；为训练标注，锚点框是正样本时训练标注是1，锚点框是负样本时训练标注是0；分类函数为二分类softmax损失函数；检测窗口回归函数和关键点回归函数均为smooth L1损失函数；表示检测窗口回归函数只对正样本锚点框进行计算；表示关键点损失函数值只针对于具有关键点标注信息的正样本锚点框，其中训练数据为关键点检测数据集时q_i为1，训练数据为人脸检测数据集时q_i为0；N_cls为正负样本锚点框总和，N_box为正样本锚点框数，N_lan为正样本锚点框中存在关键点标注的数目；λ₁、λ₂、λ₃为三个超参数；b_i是所预测人脸边界框的坐标；是与正样本锚点框关联的b_i的标注；l_i是预测的关键点坐标；是与正样本锚点框关联的l_i的标注。

7.根据权利要求6所述的基于多任务学习的人脸和关键点联合检测系统，其特征在于，该系统优化训练的训练数据包括人脸检测数据集、关键点检测数据集；

关键点检测数据集中每张图片上只有一张人脸；

人脸检测数据集基于关键点检测数据集构造，其方法为：

8.根据权利要求7所述的基于多任务学习的人脸和关键点联合检测系统，其特征在于，“通过虚拟重构生成包含多个不同尺度人脸信息的图片”，其方法为：

对图片按照预设的比例1/2ⁿ(n＝0，...，N)进行不同尺度的缩放；

其中，缩放因子N按照以下公式进行计算：

N＝min(2，floor(min(face_w，face_h)/50))

9.根据权利要求8所述的基于多任务学习的人脸和关键点联合检测系统，其特征在于，基于所述多任务损失函数进行每次训练前，对所述训练数据进行增广处理和困难样本挖掘，构建当前轮次训练数据集。

10.根据权利要求9所述的基于多任务学习的人脸和关键点联合检测系统，其特征在于，“对所述训练数据进行增广处理和困难样本挖掘，构建当前轮次训练数据集”，其方法为：

11.根据权利要求10所述的基于多任务学习的人脸和关键点联合检测系统，其特征在于，当前轮次训练数据集中的负样本的数量与正样本数量的比值为7∶1。

12.一种基于多任务学习的人脸和关键点联合检测方法，其特征在于，基于权利要求1-11任一项所述的基于多任务学习的人脸和关键点联合检测系统，包括以下步骤：

13.根据权利要求12所述的基于多任务学习的人脸和关键点联合检测方法，其特征在于，步骤S20“对所述第一锚点框集合中锚点框进行去重操作，并选择置信度最大的预设数量的锚点框作为检测输出”，其方法为：

14.一种存储装置，其中存储有多条程序，其特征在于，所述程序适于由处理器加载并执行以实现权利要求12或13所述的基于多任务学习的人脸和关键点联合检测方法。

15.一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；其特征在于，所述程序适于由处理器加载并执行以实现权利要求12或13所述的基于多任务学习的人脸和关键点联合检测方法。