CN109344789A

CN109344789A - 人脸跟踪方法及装置

Info

Publication number: CN109344789A
Application number: CN201811202488.0A
Authority: CN
Inventors: 鲍平; 鲍一平; 何琦; 俞刚
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2018-10-16
Filing date: 2018-10-16
Publication date: 2019-02-15
Anticipated expiration: 2038-10-16
Also published as: CN109344789B

Abstract

本发明涉及人脸跟踪技术领域，提供一种人脸跟踪方法及装置。其中，人脸跟踪方法包括：对图像帧序列中的当前帧进行人脸检测，获得至少一个第一人脸框以及每个第一人脸框的置信度；基于图像帧序列中的上一帧在人脸跟踪后获得的至少一个第二人脸框与每个第一人脸框的位置关系更新每个第一人脸框的置信度；基于更新后的置信度对至少一个第一人脸框进行筛选，利用筛选出的第一人脸框进行人脸跟踪。该方法有效利用了帧间信息来修正第一人脸框的置信度，可以使获得的置信度更为准确地反映第一人脸框中是否存在人脸，相当于提高了人脸检测的精度，进而能够改善后续的人脸跟踪的效果。

Description

人脸跟踪方法及装置

技术领域

本发明涉及人脸跟踪技术领域，具体而言，涉及一种人脸跟踪方法及装置。

背景技术

人脸跟踪指的是对于给定的视频图像序列，识别出其中人脸的运动轨迹和大小变化。人脸跟踪技术对于很多人脸应用是非常基础并且至关重要的，比如安防人像抓拍，安防报警，视频结构化等。目前基于人脸检测的人脸跟踪技术，一般是通过对视频图像序列逐帧进行人脸检测，然后进行各帧中检测出的人脸框的匹配和跟踪。然而，目前的人脸检测方法检测精度不高，直接影响到后续的匹配跟踪过程的性能。

发明内容

有鉴于此，本发明实施例提供一种人脸跟踪方法及装置，在检测人脸时充分利用图像帧序列中的帧间信息，以改善上述问题。

为实现上述目的，本发明提供如下技术方案：

第一方面，本发明实施例提供一种人脸跟踪方法，包括：

对图像帧序列中的当前帧进行人脸检测，获得至少一个第一人脸框以及每个第一人脸框的置信度，其中，第一人脸框的置信度表示第一人脸框中存在人脸的概率；

基于图像帧序列中的上一帧在人脸跟踪后获得的至少一个第二人脸框与每个第一人脸框的位置关系更新每个第一人脸框的置信度；

基于更新后的置信度对至少一个第一人脸框进行筛选，利用筛选出的第一人脸框进行人脸跟踪。

上述方法在检测出当前帧内的第一人脸框后，利用第一人脸框和上一帧中的第二人脸框的位置关系更新第一人脸框的置信度，然后基于新的置信度对第一人脸框进行筛选，最后利用筛选出的第一人脸框进行人脸跟踪。其中，在进行跟踪之前的步骤都可以视为人脸检测的过程，该方法有效利用了帧间信息来修正第一人脸框的置信度，可以使获得的置信度更为准确地反映第一人脸框中是否存在人脸，相当于提高了人脸检测的精度，进而能够改善后续的人脸跟踪的结果。

结合第一方面，在第一方面的第一种可能的实现方式中，基于图像帧序列中的上一帧在人脸跟踪后获得的至少一个第二人脸框与每个第一人脸框的位置关系更新每个第一人脸框的置信度，包括：

针对每一个第一人脸框，计算每个第二人脸框与第一人脸框的交并比；

判断交并比是否大于交并比阈值；

若是，增大第一人脸框的置信度。

发明人经长期研究发现，若上一帧中的某个位置存在人脸框，则当前帧中的人脸框有更大的概率出现在该人脸框的附近而不是离该人脸框较远的位置。基于这一发现，由于第二人脸框是人脸跟踪后获得的，基本可以确定其中是包含人脸的，若第一人脸框和第二人脸框的重叠比例较高，则有理由相信第一人脸框中也包含人脸，因此可以适当增大第一人脸的置信度，第一人脸框的置信度增大后能够有效降低跟踪漏检率，提高人脸跟踪的性能。

结合第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，增大第一人脸框的置信度，包括：

利用如下公式增大第一人脸框的置信度：

p_new＝p_cur+IoU(bbox_cur，bbox_pre)

其中，p_cur表示第一人脸框的当前的置信度，p_new表示第一人脸框更新后的置信度，bbox_cur表示第一人脸框，bbox_pre表示第二人脸框，IoU表示计算交并比。

结合第一方面，在第一方面的第三种可能的实现方式中，方法还包括：

对图像帧序列中的第一帧进行人脸检测，获得至少一个第三人脸框以及每个第三人脸框的置信度；

基于每个第三人脸框的置信度对至少一个第三人脸框进行筛选。

对于图像帧序列中的第一帧，由于其并不存在前一帧，因此在处理方法上特殊一些，无需利用帧间信息更新第三人脸框的置信度。并且可以认为第三人脸框就是第一帧的在人脸跟踪后获得人脸框。

结合第一方面或第一方面的第一种至第三种中的任意一种可能的实现方式，在第一方面的第四种可能的实现方式中，基于更新后的置信度对至少一个第一人脸框进行筛选，包括：

基于更新后的置信度，利用非极大值抑制算法对至少一个第一人脸框进行筛选。

结合第一方面或第一方面的第一种至第三种中的任意一种可能的实现方式，在第一方面的第五种可能的实现方式中，利用筛选出的第一人脸框进行人脸跟踪，包括：

在筛选出的第一人脸框以及至少一个第二人脸框之间进行匹配，以实现当前帧和上一帧之间的人脸跟踪。

结合第一方面或第一方面的第一种至第三种中的任意一种可能的实现方式，在第一方面的第六种可能的实现方式中，对图像帧序列中的当前帧进行人脸检测，包括：

利用卷积神经网络对当前帧进行人脸检测。

卷积神经网络可以通过大量样本训练获得，因而具有较好的检测效果。

结合第一方面的第六种可能的实现方式，在第一方面的第七种可能的实现方式中，卷积神经网络包括特征提取网络以及人脸检测网络，利用卷积神经网络对当前帧进行人脸检测，包括：

利用特征提取网络提取当前帧的不同分辨率的特征图，并将不同分辨率的特征图经重新采样后拼接为统一分辨率的特征图；

利用检测网络针对统一分辨率的特征图中的每个空间点在当前帧中生成至少一个第四人脸框以及每个第四人脸框的置信度；

获得至少一个第一人脸框以及每个第一人脸框的置信度，包括：

判断每个第四人脸框的置信度是否大于置信度阈值；

若大于置信度阈值，将第四人脸框确定为第一人脸框。

卷积神经网络输出的第四人脸框的数量可能较多，可以先通过置信度阈值删除掉一些对应的置信度较小的第四人脸框，以减小后续步骤中的运算量。

结合第一方面的第七种可能的实现方式，在第一方面的第八种可能的实现方式中，特征提取网络为预训练的用于图像分类任务的卷积神经网络删除全连接层后的部分。

目前，在图像处理领域，有很多预训练的用于图像分类任务的卷积神经网络可供使用，例如VGG16、resnet等，可以直接使用这些网络的一部分作为卷积神经网络中的特征提取网络，进行迁移学习。

第二方面，本发明实施例提供一种人脸跟踪装置，包括：

人脸检测模块，用于对图像帧序列中的当前帧进行人脸检测，获得至少一个第一人脸框以及每个第一人脸框的置信度，其中，第一人脸框的置信度表示第一人脸框中存在人脸的概率；

置信度更新模块，用于基于图像帧序列中的上一帧在人脸跟踪后获得的至少一个第二人脸框与每个第一人脸框的位置关系更新每个第一人脸框的置信度；

人脸跟踪模块，用于基于更新后的置信度对至少一个第一人脸框进行筛选，利用筛选出的第一人脸框进行人脸跟踪。

第三方面，本发明实施例提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序指令，计算机程序指令被处理器读取并运行时，执行第一方面或第一方面的任意一种可能的实现方式提供的方法的步骤。

第四方面，本发明实施例提供一种电子设备，包括存储器以及处理器，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器读取并运行时，执行第一方面或第一方面的任意一种可能的实现方式提供的方法的步骤。

为使本发明的上述目的、技术方案和有益效果能更明显易懂，下文特举实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了一种可应用于本发明实施例中的电子设备的结构框图；

图2示出了本发明实施例提供的一种人脸跟踪方法的流程图；

图3示出了本发明实施例提供的一种特征提取网络的结构图；

图4示出了本发明实施例提供的一种人脸跟踪装置的功能模块图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于将一个实体或者操作与另一个实体或操作区分开来，而不能理解为指示或暗示相对重要性，也不能理解为要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

图1示出了一种可应用于本发明实施例中的电子设备的结构框图。参照图1，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106以及输出装置108，这些组件通过总线系统112和/或其他形式的连接机构(未示出)互连。

处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备100中的其他组件以执行期望的功能。

存储装置104可以各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行计算机程序指令，以实现本发明实施例中的方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据，例如应用程序使用和/或产生的各种数据等。

输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

可以理解，图1所示的结构仅为示意，电子设备100还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。于本发明实施例中，电子设备100可以是，但不限于台式机、笔记本电脑、智能手机、智能穿戴设备、车载设备等。

图2示出了本发明实施例提供的一种人脸跟踪方法的流程图。为简化阐述，在后文中均以该方法应用于电子设备100的处理器102为例进行说明，即方法的步骤均由处理器102执行。参照图2，该方法包括：

步骤S10：对图像帧序列中的当前帧进行人脸检测，获得至少一个第一人脸框以及每个第一人脸框的置信度。

图像帧序列可以是指视频，也可以是指具有时间顺序的图像序列，视频或图像序列中的每幅图像称为一帧，当前帧是指目前正在进行人脸跟踪的一帧。针对图像帧序列的视频跟踪，可以是实时的，例如直接处理视频流数据，也可以是非实时的，例如在开始处理之前，将视频文件从外部(如数据库、文件系统等)导入至实现了人脸跟踪方法的计算机程序中。

在当前帧中进行人脸检测可以采用现有的人脸检测方法，例如基于卷积神经网络的人脸检测方法(R－CNN、FastR－CNN、Faster R－CNN等)，这些方法会在当前帧中预测产生大量的人脸框(通常是当前帧中的一个矩形区域)，不妨称为第一人脸框，和每个第一人脸框同时输出的还有一个置信度，置信度表示对应的第一人脸框中存在人脸的概率。

步骤S11：基于图像帧序列中的上一帧在人脸跟踪后获得的至少一个第二人脸框与每个第一人脸框的位置关系更新每个第一人脸框的置信度。

在处理当前帧时，当前帧在图像帧序列中的上一帧必然已经完成了跟踪，其跟踪的结果是上一帧中的至少一个人脸框，不妨称为第二人脸框，由于第二人脸框是上一帧在执行完人脸跟踪后的最终结果，因此基本可以确定其中是包含人脸的。

发明人经长期研究发现，由于各帧之间在时间上的连续性，若上一帧中的某个位置存在人脸框，则当前帧中的人脸框有更大的概率出现在该人脸框的附近而不是离该人脸框较远的位置，因此可以通过第二人脸框与第一人脸框的位置关系修正第一人脸框的置信度，相当于在计算置信度时既考虑了当前帧内的信息又考虑了当前帧与上一帧之间的信息，从而可以获得更为可靠的置信度。

需要指出，由于此时尚不清楚第二人脸框与第一人脸框的对应关系，因此在修正某个第一人脸框的置信度时，上一帧中的每个第二人脸框和该第一人脸框之间的位置关系都要纳入修正置信度时的考虑范围。

此外，步骤S11并不限定具体如何根据第二人脸框与第一人脸框的位置关系修正第一人脸框的置信度，例如，可以在第二人脸框与第一人脸框的位置接近时，适当增加第一人脸框的置信度，又例如，可以在第二人脸框与第一人脸框的位置远离时，适当减少第一人脸框的置信度，当然还可以采取其他方式。

步骤S12：基于更新后的置信度对至少一个第一人脸框进行筛选，利用筛选出的第一人脸框进行人脸跟踪。

在步骤S10中已经提到过，第一人脸框的数量通常远多于当前帧中实际人脸的数量，如果将这些人脸框都用于人脸跟踪是不合适的，在置信度更新后，可以根据新的置信度对步骤S10检测出的至少一个第一人脸框进行筛选，筛选出的第一人脸框有很大的概率包含人脸，从而可以根据筛选出的第一人脸框进行人脸跟踪。

具体的筛选方法可以有不同的实现方式，例如，可以通过设置置信度的阈值进行筛选，又例如，可以通过非极大值抑制(Non－Maximum Suppression，简称NMS)算法进行筛选，当然还可以采取其他方式。其中，非极大值抑制算法用于在某个集合中有效地搜索并保留局部极大值元素，排除掉其他元素，其本身是一种现有方法，这里不再详细阐述原理。

利用筛选出的第一人脸框进行人脸跟踪，常用的方法是在筛选出的第一人脸框以及上一帧的至少一个第二人脸框之间进行匹配，寻找其对应关系，最终确定当前帧中人脸框的位置，当然也不排除使用其他方法。实际上，在现有技术中，在相邻的两帧已经确定了人脸框的情况下，对两帧中的人脸框进行匹配及跟踪已经有不少方法，例如等距离衡量方法。

综上所述，本实施例提供的人脸跟踪方法在检测出当前帧内的第一人脸框后，利用第一人脸框和上一帧中的第二人脸框的位置关系更新第一人脸框的置信度，然后基于新的置信度对第一人脸框进行筛选，最后利用筛选出的第一人脸框进行人脸跟踪。其中，在进行跟踪之前的步骤都可以视为人脸检测的过程，该方法有效利用了帧间信息来修正第一人脸框的置信度，从而可以使获得的置信度能够更为准确地反映第一人脸框中是否存在人脸，相当于提高了人脸检测的精度，进而能够改善后续的人脸跟踪的结果。

在本发明的一个实施例中，基于上一帧在人脸跟踪后获得的至少一个第二人脸框与每个第一人脸框的位置关系更新每个第一人脸框的置信度，具体可以采取如下的做法：

先确定一个第一人脸框，然后计算每个第二人脸框与该第一人脸框的交并比(Intersection over Union，简称IoU)，接着判断交并比是否大于交并比阈值，若大于阈值，则适当增大该第一人脸框的置信度的数值，对于每个第一人脸框都按上述方式处理。

其中，交并比定义为两个人脸框交集与并集之间的比值，是一个0至1之间的数值，越大表示两个人脸框的重叠程度越高，也即使两个人脸框的位置越接近。之前已经提到过，第二人脸框作为上一帧的跟踪结果，其有很大概率包含人脸，因此若某个第二人脸框和当前正在处理的第一人脸框的交并比较大，表明该第一人脸框中很有可能也存在人脸，因此适当提高其置信度是合理的。在人脸检测算法精度有限的情况下，根据帧间信息适当增大某些第一人脸框的置信度，对于降低跟踪漏检率(漏检人脸的概率)，提高人脸跟踪的性能具有积极意义。

需要指出的是，若有多个第二人脸框和某个第一人脸框的交并比都超过交并比阈值，则需要对该第一人脸框的置信度进行多次修正。

进一步的，修正第一人脸框的置信度可以采用如下公式：

p_new＝p_cur+IoU(bbox_cur，bbox_pre)

其中，p_cur表示第一人脸框当前的的置信度，p_new表示第一人脸框当前的置信度，p_new表示第一人脸框更新后的置信度，bbox_cur表示第一人脸框，bbox_pre表示第二人脸框，IoU表示计算交并比。该公式计算方式简单快速，能够很好地体现第二人脸框与第一人脸框的位置关系对置信度的影响。需要特别指出，采用上述公式计算可能会导致置信度大于1，但在后续步骤中，通常只需要用到置信度大小的相对关系(如步骤S12中的筛选)，因此虽然此时置信度的数值已经不能再解释为概率，但并不影响跟踪的结果。

在某些实现方式中，上述公式也可以以某些变形的形式出现，例如，加入一个比例系数λ：

p_new＝p_cur+λIoU(bbox_cur，bbox_pre)

其中，λ为正常数。

在阐述步骤S10至步骤S12时，考虑的都是当前帧存在上一帧的情况，但对于图像帧序列中的第一帧而言，并不存在上一帧这个概念，此时可以采取特殊的做法。在本发明的一个实施例中，可以对图像帧序列中的第一帧进行人脸检测，检测方法可以使用和步骤S10中相同的方法，检测后获得至少一个人脸框，不妨称为第三人脸框，同时获得的还有每个第三人脸框的置信度，然后根据置信度对第三人脸框进行筛选，其具体的筛选方法，也可以采用之前提到的非极大值抑制等方法。筛选出的第三人脸框可以作为第一帧的在人脸跟踪后获得人脸框，也即是在处理第二帧时，要从前一帧中获取的第二人脸框。

当然，要确定第一帧中的人脸框也可以采用其他的方法，例如直接通过人工标定。

在本发明的一个实施例中，步骤S10中的人脸检测可以通过卷积神经网络实现，该卷积神经网络可以通过大量样本训练获得，因而具有较好的检测效果。

具体而言，用于检测人脸的卷积神经网络可以分为两个部分，分别是特征提取网络以及人脸检测网络。

其中，特征提取网络主要由一些卷积层构成，用于提取当前帧中的特征图，图3示出了本发明实施例提供的一种特征提取网络的结构图。参照图3，该网络包括4个卷积层，每个卷积层都可以视为对待检测图像的下采样，因此每个卷积层输出的特征图的空间分辨率是逐渐减小的。特征提取网络输出的特征图由卷积层2、3、4输出的特征图拼接而成，其分辨率与卷积层3输出的特征图相同。从而，在拼接之前需要对卷积层2输出的特征图进行下采样，同时需要对卷积层4输出的特征图进行上采样。

总之，特征提取网络的作用在于提取当前帧的不同分辨率的特征图，并将不同分辨率的特征图经重新采样后拼接为统一分辨率的特征图。可以理解的，图3仅为示例，真实的特征提取网络通常会比图3更复杂一些。

在具体实施时，特征提取网络并不一定需要完全重新构建，可以直接将一些预训练的、用于图像分类任务的卷积神经网络(例如VGG16、resnet等)删除最后用于分类输出的全连接层后的部分作为特征提取网络，然后进行针对人脸检测的训练，这实际上是一个迁移学习的过程，可以有效节省训练时间，避免出现数据过拟合等问题。

人脸检测网络针对统一分辨率的特征图中的每个空间点在当前帧中都会生成至少一个人脸框作为人脸检测的候选，不妨称为第四人脸框，同时输出的还有每个第四人脸框的置信度。其中，特征图通常具有一定的通道数，例如50x30x3的特征图通道数为3，特征图中的每个点是指50x30中的每个点，实际上对应一个1x3的向量，因此称为空间点。

人脸检测网络输出的第四人脸框的数量可能非常大，因此在一种实现方式中，可以设置一个置信度阈值，将置信度不超过该阈值的第四人脸框删掉，将剩余的第四人脸框作为人脸检测的初步结果，即步骤S10中的第一人脸框，在后续步骤中再进行置信度调整以及进一步筛选，这在前文中已经阐述过了。这种实现方式可以减少人脸框的数量，有效节约计算资源。当然，作为一种可选的方式，采用非极大值抑制算法对第四人脸候选框进行筛选也是可以的。

本发明实施例还提供一种人脸跟踪装置200，如图4所示。参照图4，该装置包括：

人脸检测模块210，用于对图像帧序列中的当前帧进行人脸检测，获得至少一个第一人脸框以及每个第一人脸框的置信度，其中，第一人脸框的置信度表示第一人脸框中存在人脸的概率；

置信度更新模块220，用于基于图像帧序列中的上一帧在人脸跟踪后获得的至少一个第二人脸框与每个第一人脸框的位置关系更新每个第一人脸框的置信度；

人脸跟踪模块230，用于基于更新后的置信度对至少一个第一人脸框进行筛选，利用筛选出的第一人脸框进行人脸跟踪。

本发明实施例提供的人脸跟踪装置200，其实现原理及产生的技术效果在前述方法实施例中已经介绍，为简要描述，装置实施例部分未提及之处，可参考方法施例中相应内容。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序指令，计算机程序指令被处理器读取并运行时，执行本发明实施例提供的人脸跟踪方法的步骤。这种计算机可读存储介质可以是，但不限于图1示出的存储装置104。

本发明实施例还提供一种电子设备，包括存储器以及处理器，存储器中存储有计算机程序指令，计算机程序指令被处理器读取并运行时，执行本发明实施例提供的人脸跟踪方法的步骤。该电子设备可以是，但不限于图1示出的电子设备100。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其他的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得计算机设备执行本发明各个实施例所述方法的全部或部分步骤。前述的计算机设备包括：个人计算机、服务器、移动设备、智能穿戴设备、网络设备、虚拟设备等各种具有执行程序代码能力的设备，前述的存储介质包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟、磁带或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种人脸跟踪方法，其特征在于，包括：

对图像帧序列中的当前帧进行人脸检测，获得至少一个第一人脸框以及每个第一人脸框的置信度，其中，所述第一人脸框的置信度表示所述第一人脸框中存在人脸的概率；

基于所述图像帧序列中的上一帧在人脸跟踪后获得的至少一个第二人脸框与每个第一人脸框的位置关系更新每个第一人脸框的置信度；

基于更新后的置信度对所述至少一个第一人脸框进行筛选，利用筛选出的第一人脸框进行人脸跟踪。

2.根据权利要求1所述的人脸跟踪方法，其特征在于，所述基于所述图像帧序列中的上一帧在人脸跟踪后获得的至少一个第二人脸框与每个第一人脸框的位置关系更新每个第一人脸框的置信度，包括：

针对每一个第一人脸框，计算每个第二人脸框与所述第一人脸框的交并比；

判断所述交并比是否大于交并比阈值；

若是，增大所述第一人脸框的置信度。

3.根据权利要求2所述的人脸跟踪方法，其特征在于，所述增大所述第一人脸框的置信度，包括：

利用如下公式增大所述第一人脸框的置信度：

p_new＝p_cur+IoU(bbox_cur，bbox_pre)

其中，p_cur表示所述第一人脸框当前的置信度，p_new表示所述第一人脸框更新后的置信度，bbox_cur表示所述第一人脸框，bbox_pre表示所述第二人脸框，IoU表示计算交并比。

4.根据权利要求1所述的人脸跟踪方法，其特征在于，所述方法还包括：

基于每个第三人脸框的置信度对所述至少一个第三人脸框进行筛选。

5.根据权利要求1－4中任一项所述的人脸跟踪方法，其特征在于，所述基于更新后的置信度对所述至少一个第一人脸框进行筛选，包括：

基于更新后的置信度，利用非极大值抑制算法对所述至少一个第一人脸框进行筛选。

6.根据权利要求1－4中任一项所述的人脸跟踪方法，其特征在于，所述利用筛选出的第一人脸框进行人脸跟踪，包括：

在筛选出的第一人脸框以及所述至少一个第二人脸框之间进行匹配，以实现所述当前帧和所述上一帧之间的人脸跟踪。

7.根据权利要求1－4中任一项所述人脸跟踪方法，其特征在于，所述对图像帧序列中的当前帧进行人脸检测，包括：

利用卷积神经网络对所述当前帧进行人脸检测。

8.根据权利要求7所述的人脸跟踪方法，其特征在于，所述卷积神经网络包括特征提取网络以及人脸检测网络，所述利用卷积神经网络对所述当前帧进行人脸检测，包括：

利用所述特征提取网络提取所述当前帧的不同分辨率的特征图，并将所述不同分辨率的特征图经重新采样后拼接为统一分辨率的特征图；

利用所述检测网络针对所述统一分辨率的特征图中的每个空间点在所述当前帧中生成至少一个第四人脸框以及每个第四人脸框的置信度；

所述获得至少一个第一人脸框以及每个第一人脸框的置信度，包括：

判断每个第四人脸框的置信度是否大于置信度阈值；

若大于置信度阈值，将所述第四人脸框确定为所述第一人脸框。

9.根据权利要求8所述的人脸跟踪方法，其特征在于，所述特征提取网络为预训练的用于图像分类任务的卷积神经网络删除全连接层后的部分。

10.一种人脸跟踪装置，其特征在于，包括：

人脸检测模块，用于对图像帧序列中的当前帧进行人脸检测，获得至少一个第一人脸框以及每个第一人脸框的置信度，其中，所述第一人脸框的置信度表示所述第一人脸框中存在人脸的概率；

置信度更新模块，用于基于所述图像帧序列中的上一帧在人脸跟踪后获得的至少一个第二人脸框与每个第一人脸框的位置关系更新每个第一人脸框的置信度；

人脸跟踪模块，用于基于更新后的置信度对所述至少一个第一人脸框进行筛选，利用筛选出的第一人脸框进行人脸跟踪。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器读取并运行时，执行权利要求1－9中任一项所述的方法的步骤。

12.一种电子设备，包括存储器以及处理器，所述存储器中存储有计算机程序指令，其特征在于，所述计算机程序指令被所述处理器读取并运行时，执行权利要求1－9中任一项所述的方法的步骤。