CN112614168B

CN112614168B - 一种目标人脸跟踪方法、装置、电子设备及存储介质

Info

Publication number: CN112614168B
Application number: CN202011515838.6A
Authority: CN
Inventors: 马康
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2023-08-29
Anticipated expiration: 2040-12-21
Also published as: WO2022135056A1; CN112614168A

Abstract

本发明公开了一种目标人脸跟踪方法、装置、电子设备及存储介质，在不确定是否因为目标人脸角度的差异导致了类别特征相似度较低时，判断所述第一图像下一帧的第二图像中的是否存在与所述待跟踪的目标人脸角度差异大于设定角度阈值的第二人脸，若不存，此时确定所述第二图像中的目标人脸并跟踪；若存在，将所述第二图像作为第一图像，返回判断所述第一图像下一帧的第二图像中的是否存在与所述待跟踪的目标人脸角度差异大于设定角度阈值的第二人脸的步骤。在不确定是否因为目标人脸角度的差异导致了类别特征相似度较低的问题时，跟踪第一图像中的第一候选人脸，结合第一图像之后的图像继续判断，从而排除人脸角度差异带来的问题。

Description

一种目标人脸跟踪方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种目标人脸跟踪方法、装置、电子设备及存储介质。

背景技术

人脸跟踪技术在监控安防领域用途广泛，例如社区、公司或商场中的人工智能摄像头，通常都具备行人检测，人脸检测以及人脸跟踪技术。近些年来人工智能技术飞速发展，并快速应用在计算机视觉研究领域，基于深度学习的人脸检测跟踪算法层出不穷。

现有技术在进行目标人脸跟踪时，首先通过深度学习算法确定出人脸库中待跟踪的目标人脸的目标人脸类别特征，然后确定视频的每帧图像中每个人脸的人脸类别特征，确定与目标人脸类别特征的余弦相似度最大的人脸，如果最大的余弦相似度超过预设的阈值，将确定出的人脸作为目标人脸进行跟踪，如果最大的余弦相似度不超过预设的阈值，则确定图像中不存在目标人脸，跟踪目标丢失。下一帧再继续根据人脸类别特征判断是否存在目标人脸。

现有技术存在的问题是，如果在跟踪过程中，如果目标人脸出现例如转头等操作，导致图像中的人脸角度与人脸库中待跟踪的目标人脸的角度差异较大时，会使得两个人脸的人脸类别特征的余弦相似度较低，此时会误认为图像中不存在目标人脸，导致跟踪目标丢失。

发明内容

本发明实施例提供了一种目标人脸跟踪方法、装置、电子设备及存储介质，用以解决现有技术中有可能因为人脸角度差异，造成目标人脸跟踪不准确的问题。

本发明实施例提供了一种目标人脸跟踪方法，所述方法包括：

确定第一图像中的每个第一人脸的类别特征，并确定所述每个第一人脸的类别特征和预先确定的待跟踪的目标人脸的目标类别特征的第一相似度，并选取最大的第一相似度；

若所述最大的第一相似度小于预设的第一阈值，确定所述第一图像中不存在目标人脸；若所述最大的第一相似度大于预设的第二阈值，确定所述第一图像中最大的第一相似度对应的第一人脸为目标人脸并跟踪；

若所述最大的第一相似度不小于所述预设的第一阈值，且不大于所述预设的第二阈值，确定所述最大的第一相似度对应的第一人脸为第一候选人脸并跟踪；判断所述第一图像下一帧的第二图像中的是否存在与所述待跟踪的目标人脸角度差异大于设定角度阈值的第二人脸，若否，确定所述第二图像中的目标人脸并跟踪；若是，将所述第二图像作为第一图像，返回判断所述第一图像下一帧的第二图像中的是否存在与所述待跟踪的目标人脸角度差异大于设定角度阈值的第二人脸的步骤。

进一步地，所述判断所述第一图像下一帧的第二图像中的是否存在与所述待跟踪的目标人脸角度差异大于设定角度阈值的第二人脸包括：

确定所述第二图像中的每个第二人脸的角度特征，并确定所述每个第二人脸的角度特征和预先确定的待跟踪的目标人脸的目标角度特征的第二相似度，判断是否存在小于预设的第三阈值的第二相似度。

进一步地，所述判断所述第一图像下一帧的第二图像中的是否存在与所述待跟踪的目标人脸角度差异大于设定角度阈值的第二人脸之前，所述方法还包括：

确定第一图像下一帧的第二图像中的每个第二人脸与所述第一候选人脸的第一交并比，并选取最大的第一交并比对应的第二人脸为第二候选人脸；

所述确定所述第二图像中的目标人脸并跟踪包括：

将所述第二候选人脸作为目标人脸并跟踪；

所述返回判断所述第一图像下一帧的第二图像中的是否存在与所述待跟踪的目标人脸角度差异大于设定角度阈值的第二人脸的步骤之前，所述方法还包括：

跟踪所述第二候选人脸，并将所述第二候选人脸作为第一候选人脸。

进一步地，所述确定第一图像中的每个第一人脸的类别特征之前，所述方法还包括：

判断所述第一图像上一帧的第三图像中是否存在目标人脸，如果否，进行后续确定第一图像中的每个第一人脸的类别特征的步骤；

如果所述第三图像中存在目标人脸，所述方法还包括：

确定所述第一图像中的每个第一人脸与所述目标人脸的第二交并比，并选取最大的第二交并比；

若所述最大的第二交并比不大于预设的交并比阈值，确定所述第一图像中不存在目标人脸；

若所述最大的第二交并比大于预设的交并比阈值，确定所述最大的第二交并比对应的第一人脸为目标人脸并跟踪。

进一步地，所述确定第一图像下一帧的第二图像中的每个第二人脸与所述第一候选人脸的第一交并比之后，并选取最大的第一交并比对应的第二人脸为第二候选人脸之前，所述方法还包括：

判断最大的第一交并比是否大于预设的交并比阈值，如果是，进行后续选取最大的第一交并比对应的第二人脸为第二候选人脸的步骤；

如果所述最大的第一交并比不大于预设的交并比阈值，所述方法还包括：

确定所述第二图像中不存在目标人脸。

进一步地，判断最大的第一交并比大于预设的交并比阈值之后，所述确定第一图像后的第二图像中的每个第二人脸的角度特征之前，所述方法还包括：

确定所述每个第二人脸的类别特征和所述目标类别特征的第三相似度，并选取最大的第三相似度；

判断所述最大的第三相似度是否大于预设的第二阈值，如果否，进行后续确定第一图像后的第二图像中的每个第二人脸的角度特征的步骤；

如果所述最大的第三相似度大于预设的第二阈值，所述方法还包括：

确定所述最大的第三相似度对应的第二人脸为目标人脸并跟踪。

进一步地，确定存在小于预设的第三阈值的第二相似度之后，跟踪所述第二候选人脸之前，所述方法还包括：

判断所述第二图像是否为所述第一图像后播放的预设帧数内的图像，如果是，进行后续跟踪所述第二候选人脸的步骤；

如果所述第二图像不是所述第一图像后播放的预设帧数内的图像，所述方法还包括：

将所述第二候选人脸作为目标人脸并跟踪。

进一步地，预先确定人脸的类别特征和角度特征的过程包括：

通过人脸检测算法，检测图像中的每个人脸图像，将每个人脸图像输入预先训练完成的人脸特征提取模型，基于所述人脸特征提取模型，确定所述每个人脸的类别特征和角度特征。

进一步地，确定图像中不存在目标人脸之后，所述方法还包括：

采用最近一次确定出的目标人脸，对所述待跟踪的目标人脸进行更新。

本发明实施例提供了一种人脸特征提取模型训练方法，所述方法包括：

针对训练集中的每个人脸样本图像，将该人脸样本图像和该人脸样本图像对应的标签输入人脸特征提取模型，对所述人脸特征提取模型进行训练，其中，标签中包含对应的人脸样本图像中人脸的类别标签和角度标签，训练过程中，同时计算人脸类别分类任务的损失函数以及人脸角度分类任务的损失函数，通过调整损失函数的权重系数来平衡两种任务对网络的作用程度。

另一方面，本发明实施例提供了一种目标人脸跟踪装置，所述装置包括：

第一确定模块，用于确定第一图像中的每个第一人脸的类别特征，并确定所述每个第一人脸的类别特征和预先确定的待跟踪的目标人脸的目标类别特征的第一相似度，并选取最大的第一相似度；

第二确定模块，用于若所述最大的第一相似度小于预设的第一阈值，确定所述第一图像中不存在目标人脸；若所述最大的第一相似度大于预设的第二阈值，确定所述第一图像中最大的第一相似度对应的第一人脸为目标人脸并跟踪；

第三确定模块，用于若所述最大的第一相似度不小于所述预设的第一阈值，且不大于所述预设的第二阈值，确定所述最大的第一相似度对应的第一人脸为第一候选人脸并跟踪；判断所述第一图像下一帧的第二图像中的是否存在与所述待跟踪的目标人脸角度差异大于设定角度阈值的第二人脸，若否，确定所述第二图像中的目标人脸并跟踪；若是，将所述第二图像作为第一图像，返回判断所述第一图像下一帧的第二图像中的是否存在与所述待跟踪的目标人脸角度差异大于设定角度阈值的第二人脸的步骤。

进一步地，所述第三确定模块，具体用于确定所述第二图像中的每个第二人脸的角度特征，并确定所述每个第二人脸的角度特征和预先确定的待跟踪的目标人脸的目标角度特征的第二相似度，判断是否存在小于预设的第三阈值的第二相似度。

进一步地，所述第三确定模块，还用于确定第一图像下一帧的第二图像中的每个第二人脸与所述第一候选人脸的第一交并比，并选取最大的第一交并比对应的第二人脸为第二候选人脸；

所述第三确定模块，具体用于将所述第二候选人脸作为目标人脸并跟踪；

所述第三确定模块，还用于跟踪所述第二候选人脸，并将所述第二候选人脸作为第一候选人脸。

进一步地，所述装置还包括：

第一判断模块，用于判断所述第一图像上一帧的第三图像中是否存在目标人脸，如果否，触发所述第一确定模块；

如果所述第一判断模块的判断结果为是，触发第四确定模块；

所述第四确定模块，用于确定所述第一图像中的每个第一人脸与所述目标人脸的第二交并比，并选取最大的第二交并比；若所述最大的第二交并比不大于预设的交并比阈值，确定所述第一图像中不存在目标人脸；若所述最大的第二交并比大于预设的交并比阈值，确定所述最大的第二交并比对应的第一人脸为目标人脸并跟踪。

进一步地，所述装置还包括：

第二判断模块，用于判断最大的第一交并比是否大于预设的交并比阈值，如果是，触发所述第三确定模块；

如果所述第二判断模块的判断结果为否，触发第五确定模块；

所述第五确定模块，用于确定所述第二图像中不存在目标人脸。

进一步地，所述装置还包括：

第三判断模块，用于确定所述每个第二人脸的类别特征和所述目标类别特征的第三相似度，并选取最大的第三相似度；判断所述最大的第三相似度是否大于预设的第二阈值，如果否，触发所述第三确定模块；

如果所述第三判断模块的判断结果为是，触发第六确定模块；

所述第六确定模块，用于确定所述最大的第三相似度对应的第二人脸为目标人脸并跟踪。

进一步地，所述装置还包括：

第四判断模块，用于判断所述第二图像是否为所述第一图像后播放的预设帧数内的图像，如果是，触发所述第三确定模块；

如果所述第四判断模块的判断结果为否，触发第七确定模块；

所述第七确定模块，用于将所述第二候选人脸作为目标人脸并跟踪。

进一步地，所述装置还包括：

第八确定模块，用于通过人脸检测算法，检测图像中的每个人脸图像，将每个人脸图像输入预先训练完成的人脸特征提取模型，基于所述人脸特征提取模型，确定所述每个人脸的类别特征和角度特征。

进一步地，所述装置还包括：

更新模块，用于采用最近一次确定出的目标人脸，对所述待跟踪的目标人脸进行更新。

另一方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现所述任一项所述的方法步骤。

另一方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法步骤。

本发明实施例提供了一种目标人脸跟踪方法、装置、电子设备及存储介质，所述方法包括：确定第一图像中的每个第一人脸的类别特征，并确定所述每个第一人脸的类别特征和预先确定的待跟踪的目标人脸的目标类别特征的第一相似度，并选取最大的第一相似度；若所述最大的第一相似度小于预设的第一阈值，确定所述第一图像中不存在目标人脸；若所述最大的第一相似度大于预设的第二阈值，确定所述第一图像中最大的第一相似度对应的第一人脸为目标人脸并跟踪；若所述最大的第一相似度不小于所述预设的第一阈值，且不大于所述预设的第二阈值，确定所述最大的第一相似度对应的第一人脸为第一候选人脸并跟踪；判断所述第一图像下一帧的第二图像中的是否存在与所述待跟踪的目标人脸角度差异大于设定角度阈值的第二人脸，若否，确定所述第二图像中的目标人脸并跟踪；若是，将所述第二图像作为第一图像，返回判断所述第一图像下一帧的第二图像中的是否存在与所述待跟踪的目标人脸角度差异大于设定角度阈值的第二人脸的步骤。

上述的技术方案具有如下优点或有益效果：

在本发明实施例中，确定第一图像中的每个第一人脸的类别特征和预先确定的待跟踪的目标人脸的目标类别特征的第一相似度，并选取最大的第一相似度。如果最大的第一相似度小于预设的第一阈值，此时说明第一图像中最大的第一相似度对应的第一人脸与目标人脸的相似度也很低，确定第一图像中不存在目标人脸。如果最大的第一相似度大于预设的第二阈值，此时说明第一图像中最大的第一相似度对应的第一人脸与目标人脸的相似度很高，确定第一图像中最大的第一相似度对应的第一人脸为目标人脸并跟踪。如果最大的第一相似度位于预设的第一阈值和预设的第二阈值之间，则说明有可能因为目标人脸角度的差异导致了类别特征相似度较低，此时判断所述第一图像下一帧的第二图像中的是否存在与所述待跟踪的目标人脸角度差异大于设定角度阈值的第二人脸，若不存，则排除了人脸角度差异带来的问题，此时确定所述第二图像中的目标人脸并跟踪；若存在，此时仍不能排除人脸角度差异带来的问题，因此将所述第二图像作为第一图像，返回判断所述第一图像下一帧的第二图像中的是否存在与所述待跟踪的目标人脸角度差异大于设定角度阈值的第二人脸的步骤。本发明实施例中，在不确定是否因为目标人脸角度的差异导致了类别特征相似度较低的问题时，跟踪第一图像中的第一候选人脸，并结合第一图像之后的图像继续判断，从而排除人脸角度差异带来的问题，使得目标人脸跟踪更准确。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1提供的目标人脸跟踪过程示意图；

图2为本发明实施例7提供的目标人脸跟踪过程示意图；

图3为本发明实施例8提供的目标人脸跟踪装置结构示意图；

图4为本发明实施例9提供的电子设备结构示意图。

具体实施方式

下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1：

图1为本发明实施例提供的目标人脸跟踪过程示意图，该过程包括以下步骤：

S101：确定第一图像中的每个第一人脸的类别特征，并确定所述每个第一人脸的类别特征和预先确定的待跟踪的目标人脸的目标类别特征的第一相似度，并选取最大的第一相似度。

S102：若所述最大的第一相似度小于预设的第一阈值，确定所述第一图像中不存在目标人脸；若所述最大的第一相似度大于预设的第二阈值，确定所述第一图像中最大的第一相似度对应的第一人脸为目标人脸并跟踪。

S103：若所述最大的第一相似度不小于所述预设的第一阈值，且不大于所述预设的第二阈值，确定所述最大的第一相似度对应的第一人脸为第一候选人脸并跟踪；判断所述第一图像下一帧的第二图像中的是否存在与所述待跟踪的目标人脸角度差异大于设定角度阈值的第二人脸，若否，确定所述第二图像中的目标人脸并跟踪；若是，将所述第二图像作为第一图像，返回判断所述第一图像下一帧的第二图像中的是否存在与所述待跟踪的目标人脸角度差异大于设定角度阈值的第二人脸的步骤。

本发明实施例提供的目标人脸跟踪方法应用于电子设备，该电子设备可以是PC、平板电脑等设备。

电子设备获取到视频之后，针对视频中的每帧图像依次进行目标人脸跟踪。本发明实施例中，将当前处理的图像称为第一图像。电子设备根据目标检测算法可以确定出第一图像中的每个第一人脸。电子设备中保存有预先训练完成的人脸特征提取模型，将第一图像中的每个第一人脸对应的图像输入到预先训练完成的人脸特征提取模型中，确定每个第一人脸的类别特征。另外，电子设备保存有待跟踪的目标人脸图像，待跟踪的目标人脸图像可以是人脸库中的目标人脸图像。将待跟踪的目标人脸图像输入到预先训练完成的人脸特征提取模型中，确定待跟踪的目标人脸的目标类别特征。然后电子设备可以计算每个第一人脸的类别特征和预先确定的待跟踪的目标人脸的目标类别特征的第一余弦值，第一余弦值即为本发明实施例中的第一相似度。然后选取最大的第一相似度。

电子设备中保存有预设的第一阈值和预设的第二阈值，其中，预设的第一阈值小于预设的第二阈值。例如，预设的第一阈值为0.5，预设的第二阈值为0.7等。电子设备判断最大的第一相似度小于预设的第一阈值时，确定第一图像中不存在目标人脸，并将第一图像下一帧的第二图像作为第一图像，并进行确定第一图像中的每个第一人脸的类别特征的步骤。电子设备判断最大的第一相似度大于预设的第二阈值时，确定第一图像中最大的第一相似度对应的第一人脸为目标人脸并跟踪。

若最大的第一相似度不小于所述预设的第一阈值，且不大于所述预设的第二阈值，确定最大的第一相似度对应的第一人脸为第一候选人脸并跟踪。所述判断所述第一图像下一帧的第二图像中的是否存在与所述待跟踪的目标人脸角度差异大于设定角度阈值的第二人脸包括：确定所述第二图像中的每个第二人脸的角度特征，并确定所述每个第二人脸的角度特征和预先确定的待跟踪的目标人脸的目标角度特征的第二相似度，判断是否存在小于预设的第三阈值的第二相似度。

根据预先训练完成的人脸特征提取模型确定第二图像中的每个第二人脸的角度特征，并且预先根据预先训练完成的人脸特征提取模型确定出了待跟踪的目标人脸的目标角度特征。计算每个第二人脸的角度特征和预先确定的待跟踪的目标人脸的目标角度特征的第二余弦值，第二余弦值即为本发明实施例中的第二相似度。

确定第一图像下一帧的第二图像中的每个第二人脸与所述第一候选人脸的第一交并比，并选取最大的第一交并比对应的第二人脸为第二候选人脸，判断第二图像中是否存在小于预设的第三阈值的第二相似度，若不存在，则说明第二图像中不存在与待跟踪的目标人脸角度差异较大的人脸，此时将第二候选人脸作为目标人脸并跟踪。若存在小于预设的第三阈值的第二相似度，此时仍然不能准确确定出目标人脸，因此跟踪第二候选人脸，并将第二图像作为第一图像，将第二候选人脸作为第一候选人脸，返回判断所述第一图像下一帧的第二图像中的是否存在与所述待跟踪的目标人脸角度差异大于设定角度阈值的第二人脸的步骤。其中，预设的第三阈值与所述预设的第一阈值、预设的第二阈值之间没有严格的大小关系，预设的第三阈值例如是0.6、0.8等。

实施例2：

在上述实施例的基础上，在本发明实施例中，所述确定第一图像中的每个第一人脸的类别特征之前，所述方法还包括：

如果所述第三图像中存在目标人脸，所述方法还包括：

在本发明实施例中，为了降低目标人脸跟踪过程的功耗，提高目标人脸跟踪效率，所述确定第一图像中的每个第一人脸的类别特征之前，首先判断第一图像上一帧的第三图像中是否存在目标人脸。如果第三图像中不存在目标人脸，则进行确定第一图像中的每个第一人脸的类别特征的步骤。如果第三图像中存在目标人脸，确定第一图像中的每个第一人脸与所述目标人脸的第二交并比，并选取最大的第二交并比。如果最大的第二交并比不大于预设的交并比阈值，确定第一图像中不存在目标人脸，否则确定最大的第二交并比对应的第一人脸为目标人脸并跟踪。

实施例3：

在上述各实施例的基础上，在本发明实施例中，所述确定第一图像下一帧的第二图像中的每个第二人脸与所述第一候选人脸的第一交并比之后，并选取最大的第一交并比对应的第二人脸为第二候选人脸之前，所述方法还包括：

确定所述第二图像中不存在目标人脸。

在本发明实施例中，为了进一步降低目标人脸跟踪过程的功耗，提高目标人脸跟踪效率，确定第一图像下一帧的第二图像中的每个第二人脸与所述第一候选人脸的第一交并比之后，首先判断最大的第一交并比是否大于预设的交并比阈值，如果否，则确定第二图像中不存在目标人脸，如果是，进行后续选取最大的第一交并比对应的第二人脸为第二候选人脸的步骤。

由于在本发明实施例中，确定第一图像下一帧的第二图像中的每个第二人脸与所述第一候选人脸的第一交并比之后，并选取最大的第一交并比对应的第二人脸为第二候选人脸之前，如果判断最大的第一交并比不大于预设的交并比阈值，确定所述第二图像中不存在目标人脸，不再需要进行后续步骤，因此进一步降低目标人脸跟踪过程的功耗，提高目标人脸跟踪效率。

实施例4：

在上述各实施例的基础上，在本发明实施例中，判断最大的第一交并比大于预设的交并比阈值之后，所述确定第一图像后的第二图像中的每个第二人脸的角度特征之前，所述方法还包括：

在本发明实施例中，为了进一步降低目标人脸跟踪过程的功耗，提高目标人脸跟踪效率，判断最大的第一交并比大于预设的交并比阈值之后，所述确定第一图像后的第二图像中的每个第二人脸的角度特征之前，确定所述每个第二人脸的类别特征和所述目标类别特征的第三相似度，并选取最大的第三相似度；判断所述最大的第三相似度是否大于预设的第二阈值，如果是，则确定所述最大的第三相似度对应的第二人脸为目标人脸并跟踪，如果否，再进行后续确定第一图像后的第二图像中的每个第二人脸的角度特征的步骤。

由于在本发明实施例中，判断最大的第一交并比大于预设的交并比阈值之后，确定所述每个第二人脸的类别特征和所述目标类别特征的第三相似度，并选取最大的第三相似度；如果最大的第三相似度大于预设的第二阈值，则确定所述最大的第三相似度对应的第二人脸为目标人脸并跟踪，不需要进行确定第一图像后的第二图像中的每个第二人脸的角度特征的步骤，因此进一步降低目标人脸跟踪过程的功耗，提高目标人脸跟踪效率。

实施例5：

为了在不确定图像中是否存在目标人脸的情况下，无限循环影响目标人脸跟踪效率，在上述各实施例的基础上，在本发明实施例中，确定存在小于预设的第三阈值的第二相似度之后，跟踪所述第二候选人脸之前，所述方法还包括：

将所述第二候选人脸作为目标人脸并跟踪。

在本发明实施例中，确定存在小于预设的第三阈值的第二相似度之后，跟踪所述第二候选人脸之前，判断所述第二图像是否为所述第一图像后播放的预设帧数内的图像，如果是，进行后续跟踪所述第二候选人脸的步骤，如果否，将所述第二候选人脸作为目标人脸并跟踪。其中，预设帧数可以是8帧、10帧等。

实施例6：

确定图像中不存在目标人脸之后，为了使下一帧图像中确定出的目标人脸更准确，在上述各实施例的基础上，在本发明实施例中，确定图像中不存在目标人脸之后，所述方法还包括：

在目标人脸跟踪的过程中，人脸的角度，形态等特征有可能出现逐步的变化，当确定图像中不存在目标人脸之后，采用最近一次确定出的目标人脸，对所述待跟踪的目标人脸进行更新。这样更新后的待跟踪的目标人脸与下一帧中存在的目标人脸的相似度更高，因此能够更容易并且更准确的确定出下一帧图像中的目标人脸并跟踪。

实施例7：

在上述各实施例的基础上，在本发明实施例中，本发明实施例提供了一种人脸特征提取模型训练方法，所述方法包括：

标签为数字，例如，10000人的分类，那么输入的图像对应的标签为0到9999，代表他是第几类人。角度标签为3分类，正脸为0，侧脸为2，介于正脸侧脸之前的标签为1。

最终，将训练好的人脸特征提取模型文件以及对应的算法流程链接库存储在电子设备中的人工智能芯片上。即可自动化处理外部输入的视频流信息，并完成整个目标人脸跟踪流程。

所述人脸特征提取模型依次包括：第一卷积层、第一ReLU层、第二卷积层、第二ReLU层、第三卷积层、第三ReLU层、第四卷积层、第四ReLU层、第五卷积层、第五ReLU层、第六卷积层、第六ReLU层、第七卷积层、第七ReLU层、第八卷积层、第八ReLU层、第一全连接层、第二全连接层；其中，所述第一卷积层输入的是人脸图像，第一全连接层输出的是人脸的类别特征，第二全连接层输出的是人脸的角度特征。

下面结合附图对本发明实施例提供的目标人脸跟踪方法进行详细说明。

a、基于预先训练完成的人脸特征提取模型，对待跟踪的目标人脸进行特征提取，得到目标类别特征，记为fea_mould。

b、参数初始化，获取视频流的起始帧为当前帧，记为第k帧，计数器T＝0。

c、通过人脸检测算法，对第k帧进行人脸检测。

d、基于人脸特征提取模型，对所有没有id的候选人脸框提取特征，得到每个人脸的类别特征，进行全局搜索找到与fea_mould具有最大余弦相似度的人脸框。

e、若余弦相似度小于0.5，确定图像中不存在目标人脸，获取视频流的下一帧并作为第k帧，跳转到步骤c。

f、若余弦相似度大于0.7，确定最大的余弦相似度对应的人脸为目标人脸并跟踪，进行步骤g。

g、计数器T＝0，获取视频流的下一帧，记为k+1帧，进行人脸检测，设人脸框共计N个，将第k+1帧中的N个人脸框逐个与前一帧的目标人脸框进行交并比iou计算，并记录最大的交并比max_iouⁿ，其中n表示第k+1帧图片中的第n个人脸框，若max_iouⁿ>＝阈值，则确定第k+1帧中第n个人脸框为目标人脸，并重复步骤g，若max_iouⁿ<阈值，则表示在第k+1帧中目标人脸丢失，采用最近一次确定出的目标人脸，对所述待跟踪的目标人脸进行更新，获取视频流的下一帧并作为第k帧，进行步骤c。

h、若余弦相似度大于0.5，小于0.7，判断计数器T是否大于10，若是，进行步骤g，若否，判断候选人脸框中是否存在与目标人脸角度差异过大的人脸，若否，进行步骤g，否则，计数器T加1，并获取视频流的下一帧作为第k帧，进行步骤c。

其中，所述的人脸特征提取与人脸角度判断由同一个多任务卷积神经网络实现，具体结构为：第一卷积层→第一ReLU层→第二卷积层→第二ReLU层→第三卷积层→第三ReLU层→第四卷积层→第四ReLU层→第五卷积层→第五ReLU层→第六卷积层→第六ReLU层→第七卷积层→第七ReLU层→第八卷积层→第八ReLU层→第一全连接层→第二全连接层。第一卷积层输入的是人脸图像，第一全连接层输出的是人脸类别的特征，第二全连接层输出的是人脸角度的特征。通过计算人脸类别特征的余弦距离，可以判断两张人脸图像的相似度，通过计算人脸角度特征的余弦距离，可以判断两张人脸图像角度的相似度。当两张人脸图像的角度相似度较低，则说明当前两张人脸图像的人脸角度相差较大，则得出的人脸图像相似度的置信度较低。

图2为本发明实施例提供的目标人脸跟踪过程示意图，如图2所示，将目标人脸地库照片作为模板照片。起始帧为第k帧，计数器T＝0。对第k帧进行FD(人脸全局特征提取)。与模板进行全局特征匹配。判断Max_cos_sim＜0.5是否成立，如果成立，获取视频流下一帧为第k帧，并返回对第k帧进行FD的步骤，如果不成立，判断Max_cos_sim＜0.7是否成立，如果不成立，赋id给最大余弦相似度/交并比的候选人脸框，下一帧为k+1帧，计数器T＝0。对k+1帧进行FD，计算max_iou(最大交并比)，判断max_iou＞阈值是否成立，如果成立，返回赋id给最大余弦相似度/交并比的候选人脸框，下一帧为k+1帧，计数器T＝0的步骤，如果不成立，更新模板图片为k+1帧的上一帧中的目标人脸作为模板，并返回对第k帧进行FD的步骤。如果Max_cos_sim＜0.7成立，判断计数器T＞10是否成立，如果成立，进行赋id给最大余弦相似度/交并比的候选人脸框，下一帧为k+1帧，计数器T＝0的步骤，如果不成立，判断是否存在与模板人脸角度差异大的候选人脸，如果否，进行赋id给最大余弦相似度/交并比的候选人脸框，下一帧为k+1帧，计数器T＝0的步骤，如果是，更新计数器T＝T+1，获取视频流下一帧为第k帧，返回对第k帧进行FD的步骤。

本发明实施例在SphereFaceNet网络模型中增加新的人脸角度分类层，变为多任务进行训练。在对人脸候选框进行特征提取时，网络不仅能够输出人脸分类特征，还能额外输出人脸角度特征。通过计算两张图片的人脸角度特征的余弦距离即可获得人脸角度相似度。以人脸角度相似度为辅助，帮助判断当前获得的人脸类别相似度是否可信。如果当前帧中存在一些与模板图片的人脸角度相似度较低的候选人脸框，且当前最大人脸类别余弦相似度小于0.7，则认为可能正确的人脸目标因为暂时转头而没有被召回。因此，继续对固定数量的后续几帧图像进行全局特征匹配，直到最大人脸类别余弦相似度大于0.7或计数器T大于10。

本发明实施例采用多任务神经网络处理人脸图像，只需前向传播一次即可得到人脸类别特征与人脸角度特征。实验结果显示前向耗时仅为1.8ms，可以部署在移动端进行多目标跟踪。相比专利1同时使用人脸验证网络与人脸关键点网络，本文方法更加简单快速且具有卓越的性能。

针对在每一个视频帧的人脸框中提取特征会耗费大量时间和内存问题，本发明实施例使用计算交并比iou与特征匹配相结合的方式提高效率。当目标没有被遮挡或走出画面时，采用iou跟踪的方式更加快速；当目标消失后，则将消失前最后一帧图像中的目标人脸存为特征模板，在接下来几帧图像中进行全局特征匹配。

本发明实施例融合人脸角度信息进行辅助判断当前人脸类别相似度的可信度，避免了由于人脸目标转头而导致的误判；采用两个人脸类别相似度阈值，选择性进行人脸角度信息的辅助判断。如果当前候选框的人脸类别余弦相似度大于0.7，则直接赋id并进入iou跟踪。如果人脸类别余弦相似度小于0.7且大于0.5，则进入人脸角度信息的辅助判断。通过上述双阈值的判断方法，可以节省更多时间，减少耗时；采用多任务神经网络进行前向处理，避免使用多个神经网络，能够大幅度减少耗时，同时保持卓越的性能。

实施例8：

图3为本发明实施例提供的目标人脸跟踪装置结构示意图，该装置包括：

第一确定模块31，用于确定第一图像中的每个第一人脸的类别特征，并确定所述每个第一人脸的类别特征和预先确定的待跟踪的目标人脸的目标类别特征的第一相似度，并选取最大的第一相似度；

第二确定模块32，用于若所述最大的第一相似度小于预设的第一阈值，确定所述第一图像中不存在目标人脸；若所述最大的第一相似度大于预设的第二阈值，确定所述第一图像中最大的第一相似度对应的第一人脸为目标人脸并跟踪；

第三确定模块33，用于若所述最大的第一相似度不小于所述预设的第一阈值，且不大于所述预设的第二阈值，确定所述最大的第一相似度对应的第一人脸为第一候选人脸并跟踪；判断所述第一图像下一帧的第二图像中的是否存在与所述待跟踪的目标人脸角度差异大于设定角度阈值的第二人脸，若否，确定所述第二图像中的目标人脸并跟踪；若是，将所述第二图像作为第一图像，返回判断所述第一图像下一帧的第二图像中的是否存在与所述待跟踪的目标人脸角度差异大于设定角度阈值的第二人脸的步骤。

所述第三确定模块33，具体用于确定所述第二图像中的每个第二人脸的角度特征，并确定所述每个第二人脸的角度特征和预先确定的待跟踪的目标人脸的目标角度特征的第二相似度，判断是否存在小于预设的第三阈值的第二相似度。

所述第三确定模块33，还用于确定第一图像下一帧的第二图像中的每个第二人脸与所述第一候选人脸的第一交并比，并选取最大的第一交并比对应的第二人脸为第二候选人脸；

所述第三确定模块33，具体用于将所述第二候选人脸作为目标人脸并跟踪；

所述第三确定模块33，还用于跟踪所述第二候选人脸，并将所述第二候选人脸作为第一候选人脸。

所述装置还包括：

第一判断模块34，用于判断所述第一图像上一帧的第三图像中是否存在目标人脸，如果否，触发所述第一确定模块31；

如果所述第一判断模块的判断结果为是，触发第四确定模块35；

所述第四确定模块35，用于确定所述第一图像中的每个第一人脸与所述目标人脸的第二交并比，并选取最大的第二交并比；若所述最大的第二交并比不大于预设的交并比阈值，确定所述第一图像中不存在目标人脸；若所述最大的第二交并比大于预设的交并比阈值，确定所述最大的第二交并比对应的第一人脸为目标人脸并跟踪。

所述装置还包括：

第二判断模块36，用于判断最大的第一交并比是否大于预设的交并比阈值，如果是，触发所述第三确定模块33；

如果所述第二判断模块的判断结果为否，触发第五确定模块37；

所述第五确定模块37，用于确定所述第二图像中不存在目标人脸。

所述装置还包括：

第三判断模块38，用于确定所述每个第二人脸的类别特征和所述目标类别特征的第三相似度，并选取最大的第三相似度；判断所述最大的第三相似度是否大于预设的第二阈值，如果否，触发所述第三确定模块33；

如果所述第三判断模块的判断结果为是，触发第六确定模块39；

所述装置还包括：

第四判断模块310，用于判断所述第二图像是否为所述第一图像后播放的预设帧数内的图像，如果是，触发所述第三确定模块33；

如果所述第四判断模块的判断结果为否，触发第七确定模块311；

所述第七确定模块311，用于将所述第二候选人脸作为目标人脸并跟踪。

所述装置还包括：

第八确定模块312，用于通过人脸检测算法，检测图像中的每个人脸图像，将每个人脸图像输入预先训练完成的人脸特征提取模型，基于所述人脸特征提取模型，确定所述每个人脸的类别特征和角度特征。

所述装置还包括：

更新模块313，用于采用最近一次确定出的目标人脸，对所述待跟踪的目标人脸进行更新。

实施例9：

在上述各实施例的基础上，本发明实施例中还提供了一种电子设备，如图4所示，包括：处理器301、通信接口302、存储器303和通信总线304，其中，处理器301，通信接口302，存储器303通过通信总线304完成相互间的通信；

所述存储器303中存储有计算机程序，当所述程序被所述处理器301执行时，使得所述处理器301执行如下步骤：

基于同一发明构思，本发明实施例中还提供了一种电子设备，由于上述电子设备解决问题的原理与目标人脸跟踪相似，因此上述电子设备的实施可以参见方法的实施，重复之处不再赘述。

本发明实施例提供的电子设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、网络侧设备等。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口302用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

在本发明实施例中处理器执行存储器上所存放的程序时，实现确定第一图像中的每个第一人脸的类别特征，并确定所述每个第一人脸的类别特征和预先确定的待跟踪的目标人脸的目标类别特征的第一相似度，并选取最大的第一相似度；若所述最大的第一相似度小于预设的第一阈值，确定所述第一图像中不存在目标人脸；若所述最大的第一相似度大于预设的第二阈值，确定所述第一图像中最大的第一相似度对应的第一人脸为目标人脸并跟踪；若所述最大的第一相似度不小于所述预设的第一阈值，且不大于所述预设的第二阈值，确定所述最大的第一相似度对应的第一人脸为第一候选人脸并跟踪；判断所述第一图像下一帧的第二图像中的是否存在与所述待跟踪的目标人脸角度差异大于设定角度阈值的第二人脸，若否，确定所述第二图像中的目标人脸并跟踪；若是，将所述第二图像作为第一图像，返回判断所述第一图像下一帧的第二图像中的是否存在与所述待跟踪的目标人脸角度差异大于设定角度阈值的第二人脸的步骤。实施例10：

在上述各实施例的基础上，本发明实施例还提供了一种计算机存储可读存储介质，所述计算机可读存储介质内存储有可由电子设备执行的计算机程序，当所述程序在所述电子设备上运行时，使得所述电子设备执行时实现如下步骤：

基于同一发明构思，本发明实施例中还提供了一种计算机可读存储介质，由于处理器在执行上述计算机可读存储介质上存储的计算机程序时解决问题的原理与目标人脸跟踪方法相似，因此处理器在执行上述计算机可读存储介质存储的计算机程序的实施可以参见方法的实施，重复之处不再赘述。

上述计算机可读存储介质可以是电子设备中的处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器如软盘、硬盘、磁带、磁光盘(MO)等、光学存储器如CD、DVD、BD、HVD等、以及半导体存储器如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD)等。

在本发明实施例中提供的计算机可读存储介质内存储计算机程序，计算机程序被处理器执行时实现确定第一图像中的每个第一人脸的类别特征，并确定所述每个第一人脸的类别特征和预先确定的待跟踪的目标人脸的目标类别特征的第一相似度，并选取最大的第一相似度；若所述最大的第一相似度小于预设的第一阈值，确定所述第一图像中不存在目标人脸；若所述最大的第一相似度大于预设的第二阈值，确定所述第一图像中最大的第一相似度对应的第一人脸为目标人脸并跟踪；判断所述第一图像下一帧的第二图像中的是否存在与所述待跟踪的目标人脸角度差异大于设定角度阈值的第二人脸，若否，确定所述第二图像中的目标人脸并跟踪；若是，将所述第二图像作为第一图像，返回判断所述第一图像下一帧的第二图像中的是否存在与所述待跟踪的目标人脸角度差异大于设定角度阈值的第二人脸的步骤。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种目标人脸跟踪方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述判断所述第一图像下一帧的第二图像中的是否存在与所述待跟踪的目标人脸角度差异大于设定角度阈值的第二人脸包括：

3.如权利要求2所述的方法，其特征在于，所述判断所述第一图像下一帧的第二图像中的是否存在与所述待跟踪的目标人脸角度差异大于设定角度阈值的第二人脸之前，所述方法还包括：

所述确定所述第二图像中的目标人脸并跟踪包括：

将所述第二候选人脸作为目标人脸并跟踪；

4.如权利要求1所述的方法，其特征在于，所述确定第一图像中的每个第一人脸的类别特征之前，所述方法还包括：

如果所述第三图像中存在目标人脸，所述方法还包括：

5.如权利要求3所述的方法，其特征在于，所述确定第一图像下一帧的第二图像中的每个第二人脸与所述第一候选人脸的第一交并比之后，并选取最大的第一交并比对应的第二人脸为第二候选人脸之前，所述方法还包括：

确定所述第二图像中不存在目标人脸。

6.如权利要求5所述的方法，其特征在于，判断最大的第一交并比大于预设的交并比阈值之后，所述确定第一图像后的第二图像中的每个第二人脸的角度特征之前，所述方法还包括：

7.如权利要求3所述的方法，其特征在于，确定存在小于预设的第三阈值的第二相似度之后，跟踪所述第二候选人脸之前，所述方法还包括：

将所述第二候选人脸作为目标人脸并跟踪。

8.如权利要求2所述的方法，其特征在于，预先确定人脸的类别特征和角度特征的过程包括：

9.如权利要求1至8任一项所述的方法，其特征在于，确定图像中不存在目标人脸之后，所述方法还包括：

10.如权利要求8所述的方法，其特征在于，所述人脸特征提取模型的训练过程包括：

11.一种目标人脸跟踪装置，其特征在于，所述装置包括：

12.如权利要求11所述的装置，其特征在于，所述第三确定模块，具体用于确定所述第二图像中的每个第二人脸的角度特征，并确定所述每个第二人脸的角度特征和预先确定的待跟踪的目标人脸的目标角度特征的第二相似度，判断是否存在小于预设的第三阈值的第二相似度。

13.如权利要求12所述的装置，其特征在于，所述第三确定模块，还用于确定第一图像下一帧的第二图像中的每个第二人脸与所述第一候选人脸的第一交并比，并选取最大的第一交并比对应的第二人脸为第二候选人脸；

14.如权利要求11所述的装置，其特征在于，所述装置还包括：

15.如权利要求13所述的装置，其特征在于，所述装置还包括：

16.如权利要求15所述的装置，其特征在于，所述装置还包括：

17.如权利要求13所述的装置，其特征在于，所述装置还包括：

18.如权利要求12所述的装置，其特征在于，所述装置还包括：

19.如权利要求11至18任一项所述的装置，其特征在于，所述装置还包括：

20.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-10任一项所述的方法步骤。

21.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-10任一项所述的方法步骤。