CN110705478A

CN110705478A - 人脸跟踪方法、装置、设备及存储介质

Info

Publication number: CN110705478A
Application number: CN201910945462.3A
Authority: CN
Inventors: 彭瑾龙; 翁昕钰; 甘振业; 曹赟; 王文全; 陈超; 罗泽坤; 王亚彪; 汪铖杰; 李季檩
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2020-01-17

Abstract

本申请公开了一种人脸跟踪方法、装置、设备及存储介质。所述方法包括：对视频的待处理图像帧进行人脸检测，得到待处理图像帧对应的人脸检测框集合；对于第i个目标对象，获取第i个目标对象的人脸检测框的位置信息，以及第i个目标对象的人脸姿态角信息和人脸特征信息；根据上述信息以及视频中已检测到的n个历史对象的人脸轨迹信息，确定n个历史对象中是否存在与第i个目标对象相匹配的目标历史对象；若存在，则更新目标历史对象的人脸轨迹。本申请提供了一种基于人脸特征信息和人脸姿态角信息的人脸跟踪方案，通过引入人脸姿态角信息可以有效降低人脸跟踪的中断率，从而使得跟踪得到的人脸轨迹更加具完整性和准确性。

Description

人脸跟踪方法、装置、设备及存储介质

技术领域

本申请实施例涉及图像处理技术领域，特别涉及一种人脸跟踪方法、装置、设备及存储介质。

背景技术

人脸跟踪的目的是对视频中出现的所有人脸进行跟踪，以得到完整的人脸轨迹。人脸跟踪算法在安防监控、智慧商超、人脸建档等领域都有着重要的作用。

目前，主流的人脸跟踪方法是先对视频的每一帧都进行人脸检测，然后通过相邻帧中人脸检测框之间的位置关系，对人脸检测框进行时域上的关联，以达到人脸跟踪的目的。

但上述相关技术提供的人脸跟踪方法，错误率较高。

发明内容

本申请实施例提供了一种人脸跟踪方法、装置、设备及存储介质，可用于解决相关技术提供的人脸跟踪方法，错误率较高的技术问题。所述技术方案如下：

一方面，本申请实施例提供了一种人脸跟踪方法，所述方法包括：

对视频的待处理图像帧进行人脸检测，得到所述待处理图像帧对应的人脸检测框集合，所述人脸检测框集合包括m个目标对象的人脸检测框，所述m为正整数；

对于所述m个目标对象中的第i个目标对象，获取所述第i个目标对象的人脸检测框的位置信息，以及所述第i个目标对象的人脸检测框中人脸图像的人脸姿态角信息和人脸特征信息，所述i为小于或等于所述m的正整数；

根据所述第i个目标对象的人脸检测框的位置信息、所述第i个目标对象的人脸姿态角信息和人脸特征信息，以及所述视频中已检测到的n个历史对象的人脸轨迹信息，确定所述n个历史对象中是否存在与所述第i个目标对象相匹配的目标历史对象，所述n为正整数；

若存在所述目标历史对象，则根据所述第i个目标对象的人脸检测框的位置信息，更新所述目标历史对象的人脸轨迹。

另一方面，本申请实施例提供了一种人脸跟踪装置，所述装置包括：

人脸检测模块，用于对视频的待处理图像帧进行人脸检测，得到所述待处理图像帧对应的人脸检测框集合，所述人脸检测框集合包括m个目标对象的人脸检测框，所述m为正整数；

信息获取模块，用于对于所述m个目标对象中的第i个目标对象，获取所述第i个目标对象的人脸检测框的位置信息，以及所述第i个目标对象的人脸检测框中人脸图像的人脸姿态角信息和人脸特征信息，所述i为小于或等于所述m的正整数；

匹配确定模块，用于根据所述第i个目标对象的人脸检测框的位置信息、所述第i个目标对象的人脸姿态角信息和人脸特征信息，以及所述视频中已检测到的n个历史对象的人脸轨迹信息，确定所述n个历史对象中是否存在与所述第i个目标对象相匹配的目标历史对象，所述n为正整数；

轨迹更新模块，用于当存在所述目标历史对象时，根据所述第i个目标对象的人脸检测框的位置信息，更新所述目标历史对象的人脸轨迹。

再一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述人脸跟踪方法。

又一方面，本申请实施例提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述人脸跟踪方法。

还一方面，本申请实施例提供了一种计算机程序产品，当所述计算机程序产品在计算机设备上运行时，使得计算机设备执行上述人脸跟踪方法。

本申请实施例提供的技术方案可以带来如下有益效果：

通过获取目标对象的人脸检测框的位置信息，以及该目标对象的人脸姿态角信息和人脸特征信息，根据上述信息以及视频中已检测到的历史对象的人脸轨迹信息，确定已检测到的历史对象中是否存在与目标对象相匹配的目标历史对象，并当存在目标历史对象时，对该目标历史对象的人脸轨迹进行更新；提供了一种基于人脸特征信息和人脸姿态角信息的人脸跟踪方案，通过引入人脸特征信息可以有效降低人脸跟踪的错误率，通过引入人脸姿态角信息可以避免同一个对象的人脸以不同姿态出现在视频中时，判定为是两个不同对象的情况发生，能够有效降低人脸跟踪的中断率，从而使得跟踪得到的人脸轨迹更加具完整性和准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的实施环境的示意图；

图2是本申请一个实施例提供的计算机设备的功能模块的示意图；

图3是本申请一个实施例提供的检测框和人脸轨迹标注的示意图；

图4是本申请一个实施例提供的人脸跟踪方法的流程图；

图5是本申请一个实施例提供的人脸姿态角的示意图；

图6是本申请另一个实施例提供的人脸跟踪方法的流程图；

图7是本申请一个实施例提供的人脸配准模型的示意图；

图8是本申请一个实施例提供的人脸特征提取模型的示意图；

图9是本申请一个实施例提供的几组人脸特征相似度的示意图；

图10是本申请另一个实施例提供的人脸跟踪方法的流程图；

图11是本申请一个实施例提供的人脸跟踪装置的框图；

图12是本申请另一个实施例提供的人脸跟踪装置的框图；

图13是本申请一个实施例提供的计算机设备的结构框图。

具体实施方式

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)：计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition，光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请实施例提供的方案涉及人工智能的计算机视觉技术，具体通过如下实施例进行说明。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

请参考图1，其示出了本申请实施例涉及的一种实施环境的示意图。该实施环境可以包括：摄像头10和计算机设备20。

摄像头10用于拍摄其视野范围内的图像，生成视频流。在本申请实施例中，摄像头10的数量可以是一个，也可以是多个。例如，如图1所示，在某一个现实场景的不同位置，布设多个摄像头10，每个摄像头10用于对该现实场景的一部分区域进行监控，得到相应的视频流。

计算机设备20是指具备对数据进行处理和存储功能的设备，如PC(PersonalComputer，个人计算机)、服务器或者其它具有计算能力的电子设备，本申请实施例对此不作限定。计算机设备20可以接收摄像头10的视频流，并且可以将该视频流解码形成图像帧，然后做后续的处理，如进行人脸跟踪。

摄像头10与计算机设备20之间可以通过有线或者无线的方式进行通信。例如，摄像头10与计算机设备20之间的数据传送可以采用设备到设备(Ad-Hoc)的方式，也可以在基站或无线访问点(Access Point，AP)的协调下进行，本申请实施例对此不作限定。

采用相关技术提供的人脸跟踪方案，直接根据人脸检测框的位置信息，对人脸检测框进行时域上的关联，这种人脸跟踪方法在行人密度较高或者行人之间的遮挡较为严重的复杂场景中，往往会产生跟踪错误，即轨迹从一个人脸错误地跟踪到了另一个人脸。

这个问题的一个直观解决方法就是在做人脸检测框关联时，加入人脸特征信息，若两个人脸检测框中图像的人脸特征信息的相似度较低，则不对其进行关联。但这会引入一个新的问题，当同一个人在视频中的人脸朝向发生变化的时候，人脸跟踪得到的轨迹往往会发生中断，因为即使是同一个人，其正脸和侧脸的特征相似度往往也比较低。

为了降低人脸跟踪的错误率，提升人脸跟踪的准确性，在本申请实施例提供的技术方案中，提供了一种基于人脸特征信息和人脸姿态角信息的人脸跟踪方案，通过引入人脸特征信息可以有效降低人脸跟踪的错误率，通过引入人脸姿态角信息可以有效降低人脸跟踪的中断率，从而提升人脸跟踪的准确性。

对于任意一个视频来说，首先对待处理图像帧(或称为“当前图像帧”)进行人脸检测，得到该待处理图像帧对应的人脸检测框集合，该人脸检测框集合中包括至少一个目标对象的人脸检测框。然后，对每个目标对象的人脸检测框进行人脸配准，得到目标对象的人脸关键点信息和人脸姿态角信息，再通过人脸特征提取模型提取目标对象的人脸特征信息。在得到目标对象的人脸检测框的位置信息，以及该目标对象的人脸姿态角信息和人脸特征信息之后，可以将其与视频中已检测到的至少一个历史对象的人脸轨迹进行关联，计算出一个相似度矩阵，该相似度矩阵包括各个目标对象与各个历史对象两两之间的相似度。最后，通过相关算法求解即可得到最优的关联结果，然后根据该关联结果对各个对象的人脸轨迹进行更新。逐帧执行上述流程，即可得到视频中的各个对象的完整人脸轨迹。

为实现本申请实施例提供的人脸跟踪方案，如图2所示，计算机设备可以包括如下几个功能模块：人脸检测模块21、人脸配准模块22、人脸特征提取模块23、相似度计算模块24、目标关联模块25和轨迹更新模块26。

人脸检测模块21对视频的待处理图像帧(或称为“当前图像帧”)进行人脸检测，得到该待处理图像帧对应的人脸检测框集合。

人脸配准模块22对每个目标对象的人脸检测框进行人脸配准，得到目标对象的人脸关键点信息和人脸姿态角信息。人脸关键点信息用于人脸特征提取模块23进行人脸特征提取，人脸姿态角信息用于相似度计算模块24进行相似度计算。

人脸特征提取模块23通过人脸特征提取模型提取目标对象的人脸特征信息。

相似度计算模块24根据目标对象的人脸检测框的位置信息，以及该目标对象的人脸姿态角信息和人脸特征信息，将其与视频中已检测到的至少一个历史对象的人脸轨迹进行关联，计算出一个相似度矩阵。

目标关联模块25通过相关算法求解即可得到最优的关联结果，也即确定出从待处理图像帧中检测到的每一个目标对象是否存在与之匹配的历史对象。

轨迹更新模块26根据上述关联结果对各个对象的人脸轨迹进行更新，如记录各个对象的人脸位置在时域上的变化情况。

在对待处理图像帧执行上述流程完成之后，判断视频是否结束(也即判断视频中是否还存在未处理的图像帧)，若视频没有结束，则对于下一个待处理图像帧，再次执行上述流程，直至视频结束时，结束整个流程。

另外，如图3所示，在确定出从待处理图像帧30中检测到的每一个目标对象的标识信息之后，可以将每个目标对象的人脸检测框和人脸轨迹在待处理图像帧中标注出来。以图3中标识信息为①的对象为例，其人脸检测框31在待处理图像帧30中标注如图3所示，其人脸轨迹32在待处理图像帧30中标注如图3所示。

下面，将通过几个方法实施例对本申请技术方案进行详细的介绍说明。

请参考图4，其示出了本申请一个实施例提供的人脸跟踪方法的流程图。该方法可应用于图1所示实施环境的计算机设备中。该方法可以包括如下几个步骤(401～404)：

步骤401，对视频的待处理图像帧进行人脸检测，得到该待处理图像帧对应的人脸检测框集合，人脸检测框集合包括m个目标对象的人脸检测框，m为正整数。

目标对象的人脸检测框是指包含该目标对象人脸区域的最小的、且为预设形状的框，例如可以是包含该目标对象人脸区域的最小矩形框。

例如，计算机设备从视频的指定图像帧开始，使用目标检测算法对视频逐帧进行检测，得到每个图像帧对应的人脸检测框集合。上述待处理图像帧可以是视频中的任意一个图像帧。

上述目标检测算法可以是YOLO(You Only Look Once)算法、SSD(Single ShotMultiBox Detector)算法、DPM(Deformable Part Model)算法等，本申请实施例对此不作限定。

步骤402，对于m个目标对象中的第i个目标对象，获取第i个目标对象的人脸检测框的位置信息，以及第i个目标对象的人脸检测框中人脸图像的人脸姿态角信息和人脸特征信息，i为小于或等于m的正整数。

第i个目标对象可以是上述m个目标对象中的任意一个目标对象。对于视频中的每一帧中检测到的每一个目标对象，均可以采用本实施例提供的方法，确定该目标对象的标识信息。

第i个目标对象的人脸检测框的位置信息，用于指示该第i个目标对象的人脸检测框在上述待处理图像帧中的位置。可选地，人脸检测框的位置信息包括人脸检测框的中心点的位置坐标。可选地，人脸检测框的位置信息还包括人脸检测框的宽度和高度。

第i个目标对象的人脸姿态角信息和人脸特征信息，可以对该第i个目标对象的人脸检测框中人脸图像进行分析处理得到。其中，第i个目标对象的人脸姿态角信息用于指示该第i个目标对象的人脸姿态，第i个目标对象的人脸特征信息用于指示该第i个目标对象的人脸外观特征。

可选地，人脸姿态角信息包括以下至少一项：俯仰角(pitch)、偏航角(yaw)和翻滚角(roll)。如图5所示，俯仰角是围绕X轴旋转，偏航角是围绕Y轴旋转，翻滚角是围绕Z轴旋转。在一个示例中，人脸姿态角信息包括偏航角，偏航角可以用于描述人脸的侧脸程度，偏航角的取值范围是[-90,90]，偏航角＝0代表完全正脸，偏航角>0代表脸往右侧偏，偏航角<0代表脸往左侧偏，偏航角的取值对人脸特征相似度的计算有重要作用。

步骤403，根据第i个目标对象的人脸检测框的位置信息、第i个目标对象的人脸姿态角信息和人脸特征信息，以及视频中已检测到的n个历史对象的人脸轨迹信息，确定n个历史对象中是否存在与第i个目标对象相匹配的历史对象，n为正整数。

历史对象是指视频中已经检测到的对象，历史对象已经被分配有标识信息。计算机设备可以通过计算第i个目标对象与各个历史对象之间的相似度，来确定上述n个历史对象中是否存在与第i个目标对象相匹配的历史对象。第i个目标对象与某一个历史对象之间的相似度，是指该第i个目标对象与该历史对象之间的匹配程度，也即表征了该第i个目标对象与该历史对象是同一个对象的概率。如果第i个目标对象与某一个历史对象之间的相似度较高，则说明该第i个目标对象和该历史对象匹配，两者是同一个对象；如果第i个目标对象与某一个历史对象之间的相似度较低，则说明该第i个目标对象和该历史对象不匹配，两者不是同一个对象。

历史对象的人脸轨迹信息用于指示该历史对象的人脸运动轨迹。可选地，历史对象的人脸轨迹信息，包括从视频的已处理图像帧中检测到的该历史对象的人脸检测框的位置信息、该历史对象的人脸姿态角信息、以及该历史对象的人脸特征信息等。

在一种可能的实现方式中，可以计算第i个目标对象和历史对象之间的位置相似度和人脸特征相似度，然后综合上述这两方面的相似度以及人脸姿态角信息，确定出第i个目标对象和历史对象之间最终的相似度。其中，位置相似度根据人脸检测框的位置信息计算得到，用于表征从人脸检测框位置的角度体现两个对象是否为同一对象的概率。人脸特征相似度根据人脸特征信息计算得到，用于表征从人脸外观特征的角度体现两个对象是否为同一对象的概率。人脸姿态角信息用于对人脸特征相似度的判定起到修正作用，以使得最终得到的相似度更加准确，从而解决在计算人脸特征相似度时如果仅考虑人脸特征，导致人脸跟踪的中断率高的问题。

步骤404，若存在目标历史对象，则根据第i个目标对象的人脸检测框的位置信息，更新该目标历史对象的人脸轨迹。

在计算得到第i个目标对象与各个历史对象之间的相似度之后，可以根据该相似度计算结果，查找上述n个历史对象中是否存在与第i个目标对象相匹配的目标历史对象。其中，上述目标历史对象是指与第i个目标对象之间的相似度满足条件的历史对象。可选地，上述条件为在n个历史对象中，与第i个目标对象之间的相似度最大，且该相似度的最大值大于预设门限值。该预设门限值可以结合实际情况预先设定，本申请实施例对此不作限定。

在上述n个历史对象中存在目标历史对象的情况下，计算机设备可以对该目标历史对象的人脸轨迹进行更新。目标历史对象的人脸轨迹中可以包括该目标历史对象的人脸位置在时域上的变化情况。上述人脸位置可以是人脸检测框的中心点坐标。在上述n个历史对象中存在目标历史对象的情况下，计算机设备可以获取第i个目标对象的人脸检测框的中心点坐标，在目标历史对象的人脸轨迹中，添加目标时域信息与中心点坐标之间的对应关系；其中，目标时域信息用于指示上述待处理图像帧在时间维度的信息。例如，目标时域信息可以是待处理图像帧的帧号，也可以是待处理图像帧在视频中的时间戳，或者其它可以表征该待处理图像帧在时间维度的信息，本申请实施例对此不作限定。可选地，目标历史对象的人脸轨迹可以包括检测到该目标历史对象的各个图像帧的时域信息与人脸检测框的中心点坐标之间的对应关系。在本申请实施例中，通过引入人脸姿态角信息对人脸特征相似度的判定起到修正作用，以降低人脸跟踪的中断率，从而使得跟踪得到的人脸轨迹更加完整、准确。

可选地，若存在目标历史对象，则为第i个目标对象分配该目标历史对象的标识信息；若不存在目标历史对象，则为第i个目标对象分配新的标识信息。标识信息用于对不同的对象进行区分，不同的对象被分配有不同的标识信息。例如，假设有3个历史对象，包括历史对象1、历史对象2和历史对象3，其标识信息分别为1、3和4。假设根据相似度计算结果，确定历史对象1为目标历史对象，则为该第i个目标对象分配的标识信息即为1；假设根据相似度计算结果，确定不存在目标历史对象，则为该第i个目标对象分配新的标识信息，如分配6作为该目标对象的标识信息。其中，新的标识信息是指未被分配使用的标识信息。

综上所述，在本申请实施例提供的技术方案中，通过获取目标对象的人脸检测框的位置信息，以及该目标对象的人脸姿态角信息和人脸特征信息，根据上述信息以及视频中已检测到的历史对象的人脸轨迹信息，确定已检测到的历史对象中是否存在与目标对象相匹配的目标历史对象，并当存在目标历史对象时，对该目标历史对象的人脸轨迹进行更新；提供了一种基于人脸特征信息和人脸姿态角信息的人脸跟踪方案，通过引入人脸特征信息可以有效降低人脸跟踪的错误率，通过引入人脸姿态角信息可以避免同一个对象的人脸以不同姿态出现在视频中时，判定为是两个不同对象的情况发生，能够有效降低人脸跟踪的中断率，从而使得跟踪得到的人脸轨迹更加具完整性和准确性。

请参考图6，其示出了本申请另一个实施例提供的人脸跟踪方法的流程图。该方法可应用于图1所示实施环境的计算机设备中。该方法可以包括如下几个步骤(601～607)：

步骤601，对视频的待处理图像帧进行人脸检测，得到该待处理图像帧对应的人脸检测框集合，人脸检测框集合包括m个目标对象的人脸检测框，m为正整数。

本步骤与图4实施例中的步骤401相同或类似，具体可参见图4实施例中的相关介绍说明，此处不再赘述。

步骤602，对于m个目标对象中的第i个目标对象，获取第i个目标对象的人脸检测框的位置信息，以及第i个目标对象的人脸检测框中人脸图像的人脸姿态角信息和人脸特征信息，i为小于或等于m的正整数。

可选地，通过如下步骤获取第i个目标对象的人脸姿态角信息和人脸特征信息：

1、获取第i个目标对象的人脸检测框中的图像；

2、通过人脸配准模型根据上述图像，确定第i个目标对象的人脸关键点信息、人脸置信度信息和人脸姿态角信息；

其中，人脸关键点信息包括人脸关键点在上述图像中的位置，人脸关键点的数量可以预先设定，例如人脸关键点的数量预先设定为5，包括眼球2点、鼻尖1点和嘴角2点。当然，上述关于人脸关键点的数量和选择仅是示例性和解释性的，可以结合实际需求进行设定，本申请实施例对此不作限定。

人脸置信度信息用于表征该图像中的内容是人脸的可信度。如果人脸置信度信息较低，则说明该图像并不是人脸图像，不再执行后续流程。如果人脸置信度信息较高，则说明该图像是人脸图像，执行后续流程。

人脸姿态角信息包括以下至少一项：俯仰角(pitch)、偏航角(yaw)和翻滚角(roll)。具体可参见上文图4实施例中的介绍说明。

可选地，通过人脸配准模型对第i个目标对象的人脸检测框中的图像进行处理，得到该第i个目标对象的人脸关键点信息、人脸置信度信息和人脸姿态角信息。人脸配准模型可以是采用机器学习算法对神经网络进行训练得到的模型。

可选地，如图7所示，人脸配准模型70包括：基础公共网络71、关键点提取网络72、置信度提取网络73和姿态角提取网络74。其中，基础公共网络71用于从图像中提取特征信息；关键点提取网络72用于根据特征信息计算人脸关键点信息，置信度提取网络73用于根据特征信息计算人脸置信度信息，姿态角提取网络74用于根据特征信息计算人脸姿态角信息。

示例性地，在人脸配准模型70中，输入的图像首先会经过基础公共网络71，该基础公共网络71的结构可以是一个缩减版的VGG(Visual Geometry Group，视觉几何图形组)网络结构，由该基础公共网络71从图像中提取特征信息。基础公共网络71提取得到的特征信息，会分别进入关键点提取网络72、置信度提取网络73和姿态角提取网络74，以分别得到人脸关键点信息、人脸置信度信息和人脸姿态角信息。在训练时，关键点提取网络72的损失函数可以采用欧几里得损失函数(Euclidean Loss)，置信度提取网络73的损失函数可以采用平滑L1损失函数(Smooth L1 Loss)，姿态角提取网络74的损失函数可以采用柔性最大化损失函数(Softmax Loss)。当然，上述关于网络结构和损失函数的介绍仅是示例性和解释性的，在实际应用中，还可以根据实际需求选择其它网络结构(如ResNet18、ShuffleNet等网络结构)，或者其它损失函数，本申请实施例对此不作限定。

3、若第i个目标对象的人脸置信度信息满足预设条件，则根据第i个目标对象的人脸关键点信息对图像进行修正，得到修正后的图像；

上述预设条件可以是预先设定的用于判定该图像是人脸图像的条件。例如，预设条件可以是第i个目标对象的人脸置信度信息大于某个门限值。

为了得到更加准确的人脸特征信息，消除人脸检测框带来的误差，在本申请实施例中，通过人脸关键点信息对图像进行修正，以使得人脸的位置处于图像的中间部位，然后再将修正后的图像输入到人脸特征提取模型中。

4、通过人脸特征提取模型根据修正后的图像，提取第i个目标对象的人脸特征信息。

人脸特征提取模型是用于提取人脸特征信息的机器学习模型。示例性地，如图8所示，人脸特征提取模型可以是卷积神经网络(Convolutional Neural Networks，CNN)模型，包括输入层、卷积层、池化层、全连接层和输出层。在对人脸特征提取模型进行训练时，可以当做一个分类问题来训练，训练数据中每个人脸身份当做一个类别，训练网络时采用的损失函数可以是Softmax Loss。人脸特征信息可以包括多个维度的人脸特征，如包括512维的人脸特征。

步骤603，对于n个历史对象中的第j个历史对象，根据第i个目标对象的人脸检测框的位置信息，以及第j个历史对象在待处理图像帧中的预测人脸检测框的位置信息，计算第i个目标对象与j个历史对象之间的位置相似度，j为小于或等于n的正整数。

第j个历史对象在待处理图像帧中的预测人脸检测框的位置信息，是指根据该第j个历史对象的人脸轨迹信息，预测得到的该第j个历史对象在当前的待处理图像帧中的人脸检测框的位置信息。第j个历史对象可以是n个历史对象中的任意一个历史对象。

可选地，通过如下步骤得到该第j个历史对象在待处理图像帧中的预测人脸检测框的位置信息：

1、根据第j个历史对象的人脸轨迹信息，计算第j个历史对象对应的轨迹运动速度；

在示例性实施例中，按照如下公式计算第j个历史对象对应的轨迹运动速度v_l：

其中，l代表人脸轨迹信息的长度，即人脸轨迹信息中包含的人脸检测框的个数，p_l代表轨迹末端的人脸检测框的中心点坐标，p_l-1代表轨迹末端的人脸检测框的上一个人脸检测框的中心点坐标，f_l代表轨迹末端的人脸检测框所在帧的帧号，f_l-1代表轨迹末端的人脸检测框的上一个人脸检测框所在帧的帧号，v_l-1代表上一次计算得到的轨迹运动速度。

2、根据第j个历史对象在轨迹末端的人脸检测框的位置信息、第j个历史对象对应的轨迹运动速度，以及待处理图像帧与轨迹末端的人脸检测框所在的图像帧之间的间隔，计算第j个历史对象在待处理图像帧中的预测人脸检测框的位置信息。

在示例性实施例中，按照如下公式计算第j个历史对象在待处理图像帧中的预测人脸检测框的位置信息(中心点坐标)p_i'：

p_i'＝p_l+v_l(i-f_l)；

其中，i代表待处理图像帧的帧号。

另外，第j个历史对象在待处理图像帧中的预测人脸检测框的宽和高，等于该第j个历史对象在轨迹末端的人脸检测框的宽和高。

在计算得到第j个历史对象在待处理图像帧中的预测人脸检测框的位置信息之后，便可以结合第i个目标对象的人脸检测框的位置信息，计算第i个目标对象与j个历史对象之间的位置相似度。该位置相似度即为上述第j个历史对象在待处理图像帧中的预测人脸检测框，与第i个目标对象的人脸检测框的位置之间的相似度。

在示例性实施例中，按照如下公式计算第i个目标对象与j个历史对象之间的位置相似度S_p：

其中，exp()代表以自然常数e为底的指数函数，x'和y'代表第j个历史对象的预测人脸检测框在待处理图像帧中的中心点坐标，x和y代表第i个目标对象的人脸检测框在待处理图像帧中的中心点坐标，w和h代表第i个目标对象的人脸检测框的宽度和高度。

步骤604，根据第i个目标对象的人脸特征信息，以及第j个历史对象的人脸特征信息，计算第i个目标对象与第j个历史对象之间的人脸特征相似度。

除了计算位置相似度之外，还需要计算人脸特征相似度，以解决两个不同的人在相近位置容易跟踪错误的情况。在示例性实施例中，按照如下公式计算第i个目标对象与第j个历史对象之间的人脸特征相似度S_a：

其中，F代表第i个目标对象的人脸特征信息，F'代表第j个历史对象的人脸特征信息，如从该第j个历史对象在轨迹末端的人脸检测框的图像中提取的人脸特征信息。

需要说明的一点是，上述步骤604可以在步骤603之后执行，也可以在步骤603之前执行，或者和步骤603同时执行，本申请实施例对此不作限定。

步骤605，根据位置相似度、人脸特征相似度以及第i个目标对象的人脸姿态角信息，确定第i个目标对象与第j个历史对象之间的相似度。

在计算得到位置相似度和人脸特征相似度之后，便可以综合这两方面信息，计算得到两个对象综合的相似度。若人脸特征相似度大于第一阈值且位置相似度大于第二阈值，则根据位置相似度和人脸特征相似度，确定第i个目标对象与第j个历史对象之间的相似度，例如将位置相似度和人脸特征相似度的平均值，确定为第i个目标对象与第j个历史对象之间的相似度；若人脸特征相似度小于或等于第一阈值，或者位置相似度小于或等于第二阈值，则确定第i个目标对象与第j个历史对象之间的相似度为预设值，如0。

在示例性实施例中，按照如下公式计算第i个目标对象与第j个历史对象之间的相似度S：

其中，T_a表示人脸特征相似度对应的阈值(本申请实施例中称为“第一阈值”)，T_p表示位置相似度对应的阈值(本申请实施例中称为“第二阈值”)。上述第一阈值和第二阈值的取值可以结合实际情况进行设计，本申请实施例对此不作限定。例如，第二阈值为0.5，第一阈值与人脸姿态角信息有关，请参见下文介绍说明。

如图9所示，其示出了几组人脸图像之间的人脸特征相似度的示意图。假设图像A和图像B是两个不同的人的人脸图像，则这两个人脸图像之间的人脸特征相似度较低，如为0.25；假设图像A和图像C是同一个人的人脸图像，且这两个人脸图像中的人脸姿态较为接近(如均为正脸)，则这两个人脸图像之间的人脸特征相似度较高，如为0.98；假设图像A和图像D是同一个人的人脸图像，但这两个人脸图像中的人脸姿态相差甚远(如一个为正脸一个为侧脸)，则这两个人脸图像之间的人脸特征相似度也会较低，如为0.23。

由上述示例可以看出，如果第一阈值设置的过低，容易导致人脸轨迹产生跟踪错误，如果第一阈值设置的过高，容易导致人脸轨迹产生跟踪中断。在本申请实施例中，根据人脸姿态角信息(如偏航角)对人脸特征相似度对应的第一阈值进行调整。可选地，根据第i个目标对象的人脸姿态角信息以及第j个历史对象的人脸姿态角信息，确定人脸特征相似度对应的第一阈值，包括如下几个子步骤：

1、若第i个目标对象的人脸姿态角信息的绝对值小于第一门限值，且第j个历史对象的人脸姿态角信息的绝对值小于第二门限值，则将第一数值确定为第一阈值；

2、若第i个目标对象的人脸姿态角信息的绝对值大于或等于第一门限值，或者第j个历史对象的人脸姿态角信息的绝对值大于或等于第二门限值，则将第二数值确定为第一阈值；

其中，第一数值大于第二数值。

示例性地，按照如下公式计算第一阈值T_a：

其中，Y表示第i个目标对象的人脸姿态角信息，Y'表示第j个历史对象的人脸姿态角信息。上述人脸姿态角信息可以是偏航角，用于描述人脸的侧脸程度。

由上述公式可以看出，当|Y|<60且|Y'|<60时，表示第i个目标对象和第j个历史对象的人脸均较正，因此第一阈值T_a取值可以大一些，如0.5；当|Y|≥60或|Y'|≥60时，表示第i个目标对象和/或第j个历史对象的人脸为侧脸，因此第一阈值T_a取值可以小一些，如0.1。

若某个人脸检测框中人脸图像的侧脸角度较大，其与同一个人的其他人脸检测框中人脸图像之间的人脸特征相似度往往较低，若人脸特征相似度对应的阈值(也即上述第一阈值)设定为一个固定值(如0.5)，会导致同一个人的两个不同人脸角度的人脸检测框的最终相似度S为0，反映在跟踪效果中就是轨迹中断比较严重。而通过本申请实施例提供的技术方案，根据人脸姿态角信息动态确定人脸特征相似度对应的阈值(也即上述第一阈值)，能够有效降低人脸跟踪的中断率。

步骤606，将n个历史对象中与第i个目标对象之间的相似度满足条件的历史对象，确定为与第i个目标对象相匹配的目标历史对象。

可选地，上述条件为在n个历史对象中，与第i个目标对象之间的相似度最大，且该相似度的最大值大于预设门限值。预设门限值的取值，可以根据实际应用场景进行设定，如在对目标检测跟踪精度要求较高的场景下，可以设置较高的取值，本申请实施例对此不作限定。

可选地，生成相似度矩阵，相似度矩阵包括m个目标对象与n个历史对象两两之间的相似度；对于第i个目标对象，根据相似度矩阵查找n个历史对象中是否存在与第i个目标对象相匹配的目标历史对象。在示例性实施例中，可以采用一定的算法从相似度矩阵中查找目标对象和历史对象之间的最佳关联结果，如KM(Kuhn－Munkres)算法、带权重的匈牙利算法、或者其它二分图匹配算法(如贪婪法)等，本申请实施例对此并不作限定。可选地，如果为第i个目标对象匹配关联上的历史对象与该第i个目标对象之间的相似度大于目标值(如0.5)，则确定该第i个目标对象和该历史对象是同一个对象；如果为第i个目标对象匹配关联上的历史对象与该第i个目标对象之间的相似度小于或等于目标值(如0.5)，则确定该第i个目标对象和该历史对象不是同一个对象。

步骤607，若存在目标历史对象，则根据第i个目标对象的人脸检测框的位置信息，更新目标历史对象的人脸轨迹。

本步骤与图4实施例中的步骤404相同或类似，具体可参见图4实施例中的相关介绍说明，此处不再赘述。

可选地，如果某个历史对象的人脸轨迹超过预设帧数(如5帧)没有匹配到目标对象，则可以终止对该历史对象的人脸轨迹进行跟踪。如果某个目标对象没有找到相匹配的历史对象，则作为新轨迹的开端。逐帧执行上述流程，即可得到视频中的各个对象的完整人脸轨迹。当然，在一些其它示例中，也可以不是对视频中的每一帧都进行处理，如每隔若干帧处理一次，本申请实施例对此不作限定。

请参考图10，其示出了本申请另一个实施例提供的人脸跟踪方法的流程图。该方法可应用于图1所示实施环境的计算机设备中。该方法可以包括如下几个步骤(1001～1007)：

步骤1001，对视频的待处理图像帧进行人脸检测，得到该待处理图像帧对应的人脸检测框集合，人脸检测框集合包括m个目标对象的人脸检测框，m为正整数。

步骤1002，对于m个目标对象中的第i个目标对象，获取第i个目标对象的人脸检测框的位置信息，以及第i个目标对象的人脸检测框中人脸图像的人脸姿态角信息和人脸特征信息，i为小于或等于m的正整数。

步骤1003，对于n个历史对象中的第j个历史对象，根据第i个目标对象的人脸检测框的位置信息，以及第j个历史对象在待处理图像帧中的预测人脸检测框的位置信息，计算第i个目标对象与j个历史对象之间的位置相似度，j为小于或等于n的正整数。

上述步骤1001-1003与图6实施例中的步骤601-603相同或类似，具体可参见图6实施例中的相关介绍说明，此处不再赘述。

步骤1004，根据第i个目标对象的人脸特征信息和人脸姿态角信息，以及第j个历史对象的人脸特征信息和人脸姿态角信息，计算第i个目标对象与第j个历史对象之间的人脸特征相似度。

与图6实施例所不同的是，在本实施例中，在计算人脸特征相似度时，除了考虑人脸特征信息之外，还考虑了人脸姿态角信息，通过人脸姿态角信息对人脸特征相似度的计算结果进行修正，从而最终输出一个考虑了人脸姿态的人脸特征相似度。

可选地，本步骤可以包括如下几个子步骤：

1、计算第i个目标对象的人脸姿态角信息的绝对值与第j个历史对象的人脸姿态角信息的绝对值之间的差值；

上述人脸姿态角信息可以是偏航角，用于描述人脸的侧脸程度。当两个对象的人脸的偏航角的绝对值之间的差值越大，表明这两个对象的侧脸程度相差越大；反之，当两个对象的人脸的偏航角的绝对值之间的差值越小，表明这两个对象的侧脸程度相差越小。例如，第i个目标对象的人脸偏航角为0(表示完全正脸)，第j个历史对象的人脸偏航角为30(表示脸往右侧偏30度)，则这两个对象的人脸的偏航角的绝对值之间的差值为30。再例如，第i个目标对象的人脸偏航角为10(表示脸往右侧偏10度)，第j个历史对象的人脸偏航角为-30(表示脸往左侧偏30度)，则这两个对象的人脸的偏航角的绝对值之间的差值为20。

2、根据该差值计算人脸特征相似度对应的加权系数；

该加权系数与上述差值的绝对值呈正相关关系，也即上述差值的绝对值越大，则该加权系数也就越大；反之，上述差值的绝对值越小，则该加权系数也就越小。计算机设备可以通过查找预设对应关系获取与上述差值的绝对值相对应的加权系数，也可以通过预设公式计算与上述差值的绝对值相对应的加权系数，本申请实施例对此不作限定。

3、根据第i个目标对象的人脸特征信息，以及第j个历史对象的人脸特征信息，计算第i个目标对象与第j个历史对象之间的人脸特征相似度；

在示例性实施例中，按照如下公式计算第i个目标对象与第j个历史对象之间的人脸特征相似度S_a：

4、根据加权系数对上述人脸特征相似度进行修正，得到修正后的人脸特征相似度。

在计算得到人脸特征相似度S_a之后，采用上述加权系数对该人脸特征相似度进行修正，得到修正后的人脸特征相似度。可选地，修正后的人脸特征相似度等于上述人脸特征相似度S_a与加权系数的乘积。

需要说明的一点是，上述步骤1004可以在步骤1003之后执行，也可以在步骤1003之前执行，或者和步骤1003同时执行，本申请实施例对此不作限定。

步骤1005，根据位置相似度和人脸特征相似度，确定第i个目标对象与第j个历史对象之间的相似度。

在本步骤中，根据上述位置相似度以及修正后的人脸特征相似度，确定第i个目标对象与第j个历史对象之间的相似度。

若人脸特征相似度大于第三阈值且位置相似度大于第四阈值，则根据位置相似度和修正后的人脸特征相似度，确定第i个目标对象与第j个历史对象之间的相似度，例如将位置相似度和修正后的人脸特征相似度的平均值，确定为第i个目标对象与第j个历史对象之间的相似度；若修正后的人脸特征相似度小于或等于第三阈值，或者位置相似度小于或等于第四阈值，则确定第i个目标对象与第j个历史对象之间的相似度为预设值，如0。上述第三阈值和第四阈值可以结合实际情况进行设定，例如均设定为0.5，本申请实施例对此不作限定。

步骤1006，将n个历史对象中与第i个目标对象之间的相似度满足条件的历史对象，确定为与第i个目标对象相匹配的目标历史对象。

步骤1007，若存在目标历史对象，则根据第i个目标对象的人脸检测框的位置信息，更新目标历史对象的人脸轨迹。

上述步骤1006-1007与图6实施例中的步骤606-607相同或类似，具体可参见图6实施例中的相关介绍说明，此处不再赘述。

综上所述，本实施例提供的技术方案，还提供了另一种通过引入人脸姿态角信息对人脸特征相似度的计算进行修正的方法，同样能够解决在计算人脸特征相似度时如果仅考虑人脸特征，导致人脸跟踪的中断率高的问题，使得跟踪得到的人脸轨迹更加具完整性和准确性。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图11，其示出了本申请一个实施例提供的人脸跟踪装置的框图。该装置具有实现上述方法示例的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是计算机设备，也可以设置在计算机设备中。该装置1100可以包括：人脸检测模块1110、信息获取模块1120、匹配确定模块1130和轨迹更新模块1140。

人脸检测模块1110，用于对视频的待处理图像帧进行人脸检测，得到所述待处理图像帧对应的人脸检测框集合，所述人脸检测框集合包括m个目标对象的人脸检测框，所述m为正整数。

信息获取模块1120，用于对于所述m个目标对象中的第i个目标对象，获取所述第i个目标对象的人脸检测框的位置信息，以及所述第i个目标对象的人脸检测框中人脸图像的人脸姿态角信息和人脸特征信息，所述i为小于或等于所述m的正整数。

匹配确定模块1130，用于根据所述第i个目标对象的人脸检测框的位置信息、所述第i个目标对象的人脸姿态角信息和人脸特征信息，以及所述视频中已检测到的n个历史对象的人脸轨迹信息，确定所述n个历史对象中是否存在与所述第i个目标对象相匹配的目标历史对象，所述n为正整数。

轨迹更新模块1140，用于当存在所述目标历史对象时，根据所述第i个目标对象的人脸检测框的位置信息，更新所述目标历史对象的人脸轨迹。

在示例性实施例中，所述轨迹更新模块1140，用于：

获取所述第i个目标对象的人脸检测框的中心点坐标；

在所述目标历史对象的人脸轨迹中，添加目标时域信息与所述中心点坐标之间的对应关系；

其中，所述目标时域信息用于指示所述待处理图像帧在时间维度的信息。

在示例性实施例中，如图12所示，所述匹配确定模块1130，包括：位置相似度计算子模块1131、特征相似度计算子模块1132、综合相似度确定子模块1133和匹配确定子模块1134。

位置相似度计算子模块1131，用于对于所述n个历史对象中的第j个历史对象，根据所述第i个目标对象的人脸检测框的位置信息，以及所述第j个历史对象在所述待处理图像帧中的预测人脸检测框的位置信息，计算所述第i个目标对象与所述j个历史对象之间的位置相似度，所述j为小于或等于所述n的正整数。

特征相似度计算子模块1132，用于根据所述第i个目标对象的人脸特征信息，以及所述第j个历史对象的人脸特征信息，计算所述第i个目标对象与所述第j个历史对象之间的人脸特征相似度。

综合相似度确定子模块1133，用于根据所述位置相似度、所述人脸特征相似度以及所述第i个目标对象的人脸姿态角信息，确定所述第i个目标对象与所述第j个历史对象之间的相似度。

匹配确定子模块1134，用于将所述n个历史对象中与所述第i个目标对象之间的相似度满足条件的历史对象，确定为与所述第i个目标对象相匹配的所述目标历史对象。

在示例性实施例中，如图12所示，所述综合相似度确定子模块1133，包括：

阈值确定单元1133a，用于根据所述第i个目标对象的人脸姿态角信息以及所述第j个历史对象的人脸姿态角信息，确定所述人脸特征相似度对应的第一阈值；

第一确定单元1133b，用于若所述人脸特征相似度大于所述第一阈值且所述位置相似度大于第二阈值，则根据所述位置相似度和所述人脸特征相似度，确定所述第i个目标对象与所述第j个历史对象之间的相似度；

第二确定单元1133c，用于若所述人脸特征相似度小于或等于所述第一阈值，或者所述位置相似度小于或等于所述第二阈值，则确定所述第i个目标对象与所述第j个历史对象之间的相似度为预设值。

在示例性实施例中，所述阈值确定单元1133a，用于：

若所述第i个目标对象的人脸姿态角信息的绝对值小于第一门限值，且所述第j个历史对象的人脸姿态角信息的绝对值小于第二门限值，则将第一数值确定为所述第一阈值；

若所述第i个目标对象的人脸姿态角信息的绝对值大于或等于所述第一门限值，或者所述第j个历史对象的人脸姿态角信息的绝对值大于或等于所述第二门限值，则将第二数值确定为所述第一阈值；

其中，所述第一数值大于所述第二数值。

特征相似度计算子模块1132，用于根据所述第i个目标对象的人脸特征信息和人脸姿态角信息，以及所述第j个历史对象的人脸特征信息和人脸姿态角信息，计算所述第i个目标对象与所述第j个历史对象之间的人脸特征相似度。

综合相似度确定子模块1133，用于根据所述位置相似度和所述人脸特征相似度，确定所述第i个目标对象与所述第j个历史对象之间的相似度。

在示例性实施例中，所述特征相似度计算子模块1132，用于：

计算所述第i个目标对象的人脸姿态角信息的绝对值与所述第j个历史对象的人脸姿态角信息的绝对值之间的差值；

根据所述差值计算所述人脸特征相似度对应的加权系数，所述加权系数与所述差值的绝对值呈正相关关系；

根据所述第i个目标对象的人脸特征信息，以及所述第j个历史对象的人脸特征信息，计算所述第i个目标对象与所述第j个历史对象之间的人脸特征相似度；

根据所述加权系数对所述人脸特征相似度进行修正，得到修正后的所述人脸特征相似度。

在示例性实施例中，如图12所示，所述相似度确定模块1130，还包括：运动速度计算子模块1135和检测框位置预测子模块1136。

运动速度计算子模块1135，用于根据所述第j个历史对象的人脸轨迹信息，计算所述第j个历史对象对应的轨迹运动速度。

检测框位置预测子模块1136，用于根据所述第j个历史对象在轨迹末端的人脸检测框的位置信息、所述第j个历史对象对应的轨迹运动速度，以及所述待处理图像帧与所述轨迹末端的人脸检测框所在的图像帧之间的间隔，计算所述第j个历史对象在所述待处理图像帧中的预测人脸检测框的位置信息。

在示例性实施例中，如图12所示，所述装置1100还包括：标识分配模块1150，用于：若所述n个历史对象中存在所述目标历史对象，则为所述第i个目标对象分配所述特定历史对象的标识信息；若所述n个历史对象中不存在所述目标历史对象，则为所述第i个目标对象分配新的标识信息。

在示例性实施例中，所述信息获取模块1120，用于：

获取所述第i个目标对象的人脸检测框中的图像；

通过人脸配准模型根据所述图像，确定所述第i个目标对象的人脸关键点信息、人脸置信度信息和人脸姿态角信息；

若所述第i个目标对象的所述人脸置信度信息满足预设条件，则根据所述第i个目标对象的人脸关键点信息对所述图像进行修正，得到修正后的图像；

通过人脸特征提取模型根据所述修正后的图像，提取所述第i个目标对象的人脸特征信息。

在示例性实施例中，所述人脸配准模型包括：基础公共网络、关键点提取网络、置信度提取网络和姿态角提取网络；

其中，所述基础公共网络用于从所述图像中提取特征信息；所述关键点提取网络用于根据所述特征信息计算所述人脸关键点信息，所述置信度提取网络用于根据所述特征信息计算所述人脸置信度信息，所述姿态角提取网络用于根据所述特征信息计算所述人脸姿态角信息。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图13，其示出了本申请实施例提供的计算机设备的结构框图。该计算机设备可以用于实施上述实施例中提供的人脸跟踪方法。例如，该计算机设备可以是图1所示实施环境中的计算机设备20。具体来讲：

该计算机设备1300包括处理单元(如CPU(Central Processing Unit，中央处理器)、GPU(Graphics Processing Unit，图形处理器)和FPGA(Field Programmable GateArray，现场可编程逻辑门阵列)等)1301、包括RAM(Random-Access Memory，随机存储器)1302和(Read-Only Memory，只读存储器)1303的系统存储器1304，以及连接系统存储器1304和中央处理单元1301的系统总线1305。该计算机设备1300还包括帮助计算计算机设备内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1306，和用于存储操作系统1313、应用程序1314和其他程序模块1315的大容量存储设备1307。

该基本输入/输出系统1306包括有用于显示信息的显示器1308和用于用户输入信息的诸如鼠标、键盘之类的输入设备1309。其中，该显示器1308和输入设备1309都通过连接到系统总线1305的输入输出控制器1310连接到中央处理单元1301。该基本输入/输出系统1306还可以包括输入输出控制器1310以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1310还提供输出到显示屏、打印机或其他类型的输出设备。

该大容量存储设备1307通过连接到系统总线1305的大容量存储控制器(未示出)连接到中央处理单元1301。该大容量存储设备1307及其相关联的计算机可读介质为计算机设备1300提供非易失性存储。也就是说，该大容量存储设备1307可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory，只读光盘)之类的计算机可读介质(未示出)。

不失一般性，该计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory，电可擦写可编程只读存储器)、闪存或其他固态存储其技术，CD-ROM、DVD(Digital Video Disc，高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知该计算机存储介质不局限于上述几种。上述的系统存储器1304和大容量存储设备1307可以统称为存储器。

根据本申请实施例，该计算机设备1300还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1300可以通过连接在该系统总线1305上的网络接口单元1311连接到网络1312，或者说，也可以使用网络接口单元1311来连接到其他类型的网络或远程计算机系统(未示出)。

该存储器还包括至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、至少一段程序、代码集或指令集存储于存储器中，且经配置以由一个或者一个以上处理器执行，以实现上述人脸跟踪方法。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被计算机设备的处理器执行时以实现上述人脸跟踪方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。

在示例性实施例中，还提供一种计算机程序产品，所述计算机程序产品被计算机设备的处理器执行时，用于实现上述人脸跟踪方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外，本文中描述的步骤编号，仅示例性示出了步骤间的一种可能的执行先后顺序，在一些其它实施例中，上述步骤也可以不按照编号顺序来执行，如两个不同编号的步骤同时执行，或者两个不同编号的步骤按照与图示相反的顺序执行，本申请实施例对此不作限定。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种人脸跟踪方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第i个目标对象的人脸检测框的位置信息，更新所述目标历史对象的人脸轨迹，包括：

获取所述第i个目标对象的人脸检测框的中心点坐标；

3.根据权利要求1所述的方法，其特征在于，所述根据所述第i个目标对象的人脸检测框的位置信息、所述第i个目标对象的人脸姿态角信息和人脸特征信息，以及所述视频中已检测到的n个历史对象的人脸轨迹信息，确定所述n个历史对象中是否存在与所述第i个目标对象相匹配的目标历史对象，包括：

对于所述n个历史对象中的第j个历史对象，根据所述第i个目标对象的人脸检测框的位置信息，以及所述第j个历史对象在所述待处理图像帧中的预测人脸检测框的位置信息，计算所述第i个目标对象与所述j个历史对象之间的位置相似度，所述j为小于或等于所述n的正整数；

根据所述位置相似度、所述人脸特征相似度以及所述第i个目标对象的人脸姿态角信息，确定所述第i个目标对象与所述第j个历史对象之间的相似度；

将所述n个历史对象中与所述第i个目标对象之间的相似度满足条件的历史对象，确定为与所述第i个目标对象相匹配的所述目标历史对象。

4.根据权利要求3所述的方法，其特征在于，所述根据所述位置相似度、所述人脸特征相似度以及所述第i个目标对象的人脸姿态角信息，确定所述第i个目标对象与所述第j个历史对象之间的相似度，包括：

根据所述第i个目标对象的人脸姿态角信息以及所述第j个历史对象的人脸姿态角信息，确定所述人脸特征相似度对应的第一阈值；

若所述人脸特征相似度大于所述第一阈值且所述位置相似度大于第二阈值，则根据所述位置相似度和所述人脸特征相似度，确定所述第i个目标对象与所述第j个历史对象之间的相似度；

若所述人脸特征相似度小于或等于所述第一阈值，或者所述位置相似度小于或等于所述第二阈值，则确定所述第i个目标对象与所述第j个历史对象之间的相似度为预设值。

5.根据权利要求4所述的方法，其特征在于，所述根据所述第i个目标对象的人脸姿态角信息以及所述第j个历史对象的人脸姿态角信息，确定所述人脸特征相似度对应的第一阈值，包括：

其中，所述第一数值大于所述第二数值。

6.根据权利要求1所述的方法，其特征在于，所述根据所述第i个目标对象的人脸检测框的位置信息、所述第i个目标对象的人脸姿态角信息和人脸特征信息，以及所述视频中已检测到的n个历史对象的人脸轨迹信息，确定所述n个历史对象中是否存在与所述第i个目标对象相匹配的目标历史对象，包括：

根据所述第i个目标对象的人脸特征信息和人脸姿态角信息，以及所述第j个历史对象的人脸特征信息和人脸姿态角信息，计算所述第i个目标对象与所述第j个历史对象之间的人脸特征相似度；

根据所述位置相似度和所述人脸特征相似度，确定所述第i个目标对象与所述第j个历史对象之间的相似度；

7.根据权利要求6所述的方法，其特征在于，所述根据所述第i个目标对象的人脸特征信息和人脸姿态角信息，以及所述第j个历史对象的人脸特征信息和人脸姿态角信息，计算所述第i个目标对象与所述第j个历史对象之间的人脸特征相似度，包括：

8.根据权利要求3或6所述的方法，其特征在于，所述根据所述第i个目标对象的人脸检测框的位置信息，以及所述第j个历史对象在所述待处理图像帧中的预测人脸检测框的位置信息，计算所述第i个目标对象与所述j个历史对象之间的位置相似度之前，还包括：

根据所述第j个历史对象的人脸轨迹信息，计算所述第j个历史对象对应的轨迹运动速度；

根据所述第j个历史对象在轨迹末端的人脸检测框的位置信息、所述第j个历史对象对应的轨迹运动速度，以及所述待处理图像帧与所述轨迹末端的人脸检测框所在的图像帧之间的间隔，计算所述第j个历史对象在所述待处理图像帧中的预测人脸检测框的位置信息。

9.根据权利要求3或6所述的方法，其特征在于，所述方法还包括：

若存在所述目标历史对象，则为所述第i个目标对象分配所述目标历史对象的标识信息；

若中不存在所述目标历史对象，则为所述第i个目标对象分配新的标识信息。

10.根据权利要求1至7任一项所述的方法，其特征在于，所述获取所述第i个目标对象的人脸检测框中人脸图像的人脸姿态角信息和人脸特征信息，包括：

获取所述第i个目标对象的人脸检测框中的图像；

11.根据权利要求10所述的方法，其特征在于，所述人脸配准模型包括：基础公共网络、关键点提取网络、置信度提取网络和姿态角提取网络；

12.一种人脸跟踪装置，其特征在于，所述装置包括：

13.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至11任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至11任一项所述的方法。