CN109063593A

CN109063593A - 一种人脸跟踪方法及装置

Info

Publication number: CN109063593A
Application number: CN201810767364.0A
Authority: CN
Inventors: 李志国; 刘洋; 苏静静
Original assignee: Beijing Zhi Xinyuandong Science And Technology Ltd
Current assignee: Beijing Zhi Xinyuandong Science And Technology Ltd
Priority date: 2018-07-13
Filing date: 2018-07-13
Publication date: 2018-12-21

Abstract

本发明提供了一种人脸跟踪方法，该方法包括：输入视频图像，采用基于卷积神经网络的人脸检测方法，获取图像中的检测人脸框的位置、宽度和高度；采用双向金字塔光流跟踪法，对图像中的人脸框进行跟踪，获取预测人脸框的位置、宽度和高度；对检测人脸框和预测人脸框进行人脸框匹配，获取跟踪框；采用基于卷积神经网络的跟踪框后处理网络，对跟踪框进行过滤和位置修正处理，输出跟踪框。与现有技术相比，本发明能实现复杂场景的人脸跟踪，并且能够解决光流跟踪方法中难以处理遮挡及漂移的问题。

Description

一种人脸跟踪方法及装置

技术领域

本发明涉及图像处理、视频监控以及安防，特别涉及人脸跟踪方法及装置。

背景技术

人脸跟踪作为运动分析的关键技术之一，已受到国内外的科研机构和众多学者的广泛关注。

经典的人脸跟踪方法主要包括：Mean shift、Kalman滤波及光流等方法。在经典跟踪方法的基础上，研究者们也进行了相关的改进和结合，但当前的跟踪方法中主要关注对跟踪效果上的提升，难以实现跟踪效果及效率的平衡。

金字塔光流跟踪方法作为多目标跟踪的经典方法之一，其跟踪效果较好且效率较高，得到了广泛的应用。但金字塔光流跟踪方法不能很好的处理人脸遮挡的问题，当人脸出现遮挡时，预测框会出现在遮挡物上造成误判及跟踪漂移的问题。

为了解决光流跟踪方法中难以处理遮挡及漂移的问题，需要提出一种结合双向金字塔光流和卷积神经网络的人脸跟踪方法。

发明内容

有鉴于此，本发明的主要目的在于解决光流跟踪方法中难以处理遮挡及漂移的问题，有效地提高人脸跟踪的准确性。

为达到上述目的，按照本发明的第一个方面，提供了一种人脸跟踪方法，该方法包括：

第一步骤，输入视频图像，采用基于卷积神经网络的人脸检测方法，获取图像中的检测人脸框的位置、宽度和高度；

第二步骤，采用双向金字塔光流跟踪法，对图像中的人脸框进行跟踪，获取预测人脸框的位置、宽度和高度；

第三步骤，对检测人脸框和预测人脸框进行人脸框匹配，获取跟踪框；

第四步骤，采用基于卷积神经网络的跟踪框后处理网络，对跟踪框进行过滤和位置修正处理，输出跟踪框。

进一步地，所述第二步骤包括：

金字塔图像获取步骤，设置金字塔的层数，获取对应金字塔层数的金字塔图像，并获取金字塔图像中的人脸框；

光流点跟踪步骤，根据金字塔图像，从人脸框中选取T₁个光流点，记为第一点集，从前一帧人脸框到当前帧人脸框，对第一点集进行金字塔光流正向跟踪，得到跟踪的第二点集；从当前帧人脸框到前一帧人脸框，对第二点集进行金字塔光流反向跟踪，得到跟踪的第三点集；

光流点过滤步骤，计算第一点集与第三点集对应点的欧氏距离和中值，计算第一点集与第三点集对应点在N×N领域内的归一化相关系数和归一化中值，如果欧氏距离大于中值或者归一化相关系数小于归一化中值，则删除第一点集、第二点集和第三点集中的对应点；

人脸跟踪判断步骤：如果第二点集中点的个数大于T₂，则转入人脸框位置预测步骤，否则返回跟踪失败；

人脸框位置预测步骤，计算前一帧人脸框与当前帧人脸框的尺度变换系数，根据前一帧人脸框的位置和尺度变换系数，获取当前帧预测人脸框的位置、宽度和高度。

进一步地，所述人脸框位置预测步骤包括：

尺度变换系数计算步骤，分别计算第一点集与第二点集对应点在x方向和y 方向的位移，计算所有点在x方向、y方向位移的平均值d_x、d_y；计算第二点集中任意两点在x方向和y方向上的间距D_x1和D_y1，计算第一点集中对应的两点在x方向和y方向上的间距D_x2和D_y2，计算对应两点在第二点集与第一点集之间的尺度变换系数计算第一点集与第二点集对应的所有两点的尺度变换系数的平均值，标记为前一帧人脸框与当前帧人脸框的尺度变换系数R；

尺度变换系数判断步骤，如果前一帧人脸框与当前帧人脸框的尺度变换系数 R∈[λ₁,λ₂]，则转入尺度变换正常位置预测步骤，否则转入尺度变换过大位置预测步骤；

尺度变换正常位置预测步骤，计算宽度上的尺度变换系数 RW＝0.5×(R-1)×W_P，计算高度上的尺度变换系数RH＝0.5×(R-1)×H_P，计算预测的当前帧人脸框的X坐标B_x′＝B_x+d_x-RW、Y坐标B_y′＝B_y+d_y-RH，计算预测的当前帧人脸框的宽度W_C＝W_P×R、高度H_C＝H_P×R，其中B_x、B_y、W_P、 H_P分别为前一帧人脸框的X坐标、Y坐标、宽度和高度；

尺度变换过大位置预测步骤，计算预测的当前帧人脸框的X坐标 B_x′＝B_x+d_x、Y坐标B_y′＝B_y+d_y，预测的当前帧人脸框的宽度和高度与前一帧人脸框的宽度和高度相同，其中B_x、B_y分别为前一帧人脸框的X坐标、Y坐标；

预测人脸框输出步骤，将预测的当前帧人脸框作为当前帧的预测人脸框，输出预测人脸框的X坐标B_x′、Y坐标B_y′、宽度W_C和高度H_C。

进一步地，所述第三步骤包括：

检测人脸框与预测人脸框匹配步骤，计算当前帧的所有预测人脸框和检测人脸框的交并比值，如果交并比值小于T₃，则认为未检测到人脸框，不更新跟踪框，否则选取交并比值最大对应的预测人脸框和检测人脸框作为匹配对，转入跟踪框更新步骤；

跟踪框更新步骤，针对匹配对的预测人脸框与检测人脸框，如果检测人脸框的面积小于预测人脸框面积×λ₃，并且检测人脸框的置信度小于预测人脸框的置信度，则认为检测人脸框不完整，不更新跟踪框，否则跟踪框更新为检测人脸框；

跟踪框删除步骤，如果连续T₄帧的跟踪框处于图像边缘并且相邻的跟踪框交并比值大于T₅，则删除跟踪框。

进一步地，所述跟踪框删除步骤包括：统计连续T₄帧的跟踪框的边界，如果跟踪框存在至少一个边界位于图像的边界上，则计算连续T₄帧的每相邻两个跟踪框的交并比值，如果交并比值大于T₅，则删除跟踪框。

进一步地，所述交并比值为两个的交叠区域与两个框的合并区域的面积比值。

进一步地，所述第四步骤包括：

交并比值计算步骤，选取标注的真实人脸框，计算真实人脸框与对应跟踪框的交并比值；

网络训练步骤，将交并比值大于T₆的跟踪框作为正样本，标记为分类标签1、以及样本与真实人脸框的偏差值；将交并比值位于[T₇,T₆]的跟踪框作为part样本，标记为分类标签-1、以及样本与真实人脸框的偏差值；将交并比值小于T₈的跟踪框作为负样本，标记为分类标签0；根据正样本、part样本和负样本，对基于卷积神经网络的跟踪框后处理网络进行训练，获取训练好的分类偏差值识别网络模型；

网络模型识别步骤，对于连续T₉帧未检测到人脸框，将未检测到的人脸框对应的跟踪框输入分类偏差值识别网络模型，获取分类分数和偏差值，如果分类分数大于T₁₀，则认为跟踪框有效，则根据偏差值修正跟踪框的位置，否则删除跟踪框；

跟踪框输出步骤，输出所有的跟踪框。

进一步地，所述网络训练步骤中样本与真实人脸框的偏差值包括：左上角X 坐标偏差值(x1-nx1)/WH_R、左上角Y坐标偏差值(y1-ny1)/WH_R、右下角X坐标偏差值(x2-nx2)/WH_R、右下角Y坐标偏差值(y2-ny2)/WH_R，其中 WH_R＝(W_R+H_R)/2，x1、y1、x2、y2分别为真实人脸框的左上角X坐标、左上角Y坐标、右下角X坐标、右下角Y坐标，nx1、ny1、nx2、ny2分别为样本的左上角X坐标、左上角Y坐标、右下角X坐标、右下角Y坐标。

进一步地，所述基于卷积神经网络的跟踪框后处理网络包括：至少2个卷积层、至少2个池化层和至少3个全连接层；其中全连接层包括：第一全连接层、第二全连接层和第三全连接层，第二全连接层和第三全连接层属于同一层，与上一层的第一全连接层相连接。

进一步地，所述第二全连接层和所述第三全连接层，分别输出分类分数和偏差值。

进一步地，所述网络模型识别步骤中偏差值为根据分类偏差值识别网络模型输出的左上角X坐标偏差值、左上角Y坐标偏差值、右下角X坐标偏差值、右下角Y坐标偏差值；

进一步地，所述网络模型识别步骤中根据偏差值修正跟踪框的位置为：分别将跟踪框的左上角X坐标加上左上角X坐标偏差值、左上角Y坐标加上左上角 Y坐标偏差值、右下角X坐标加上右下角X坐标偏差值、右下角Y坐标加上右下角Y坐标偏差值，作为修正后的跟踪框的左上角X坐标、左上角Y坐标、右下角X坐标、右下角Y坐标。

按照本发明的另一个方面，提供了一种人脸跟踪装置，该装置包括：

人脸框检测模块，用于输入视频图像，采用基于卷积神经网络的人脸检测方法，获取图像中的检测人脸框的位置、宽度和高度；

人脸框预测模块，用于采用双向金字塔光流跟踪法，对图像中的人脸框进行跟踪，获取预测人脸框的位置、宽度和高度；

跟踪框获取模块，用于对检测人脸框和预测人脸框进行人脸框匹配，获取跟踪框；

跟踪框后处理模块，用于采用基于卷积神经网络的跟踪框后处理网络，对跟踪框进行过滤和位置修正处理，输出跟踪框。

进一步地，所述人脸框预测模块包括：

金字塔图像获取模块，用于设置金字塔的层数，获取对应金字塔层数的金字塔图像，并获取金字塔图像中的人脸框；

光流点跟踪模块，用于根据金字塔图像，从人脸框中选取T₁个光流点，记为第一点集，从前一帧人脸框到当前帧人脸框，对第一点集进行金字塔光流正向跟踪，得到跟踪的第二点集；从当前帧人脸框到前一帧人脸框，对第二点集进行金字塔光流反向跟踪，得到跟踪的第三点集；

光流点过滤模块，用于计算第一点集与第三点集对应点的欧氏距离和中值，计算第一点集与第三点集对应点在N×N领域内的归一化相关系数和归一化中值，如果欧氏距离大于中值或者归一化相关系数小于归一化中值，则删除第一点集、第二点集和第三点集中的对应点；

人脸跟踪判断模块：用于如果第二点集中点的个数大于T₂，则转入人脸框位置预测模块，否则返回跟踪失败；

人脸框位置预测模块，用于计算前一帧人脸框与当前帧人脸框的尺度变换系数，根据前一帧人脸框的位置和尺度变换系数，获取当前帧预测人脸框的位置、宽度和高度。

进一步地，所述人脸框位置预测模块包括：

尺度变换系数计算模块，用于分别计算第一点集与第二点集对应点在x方向和y方向的位移，计算所有点在x方向、y方向位移的平均值d_x、d_y；计算第二点集中任意两点在x方向和y方向上的间距D_x1和D_y1，计算第一点集中对应的两点在x方向和y方向上的间距D_x2和D_y2，计算对应两点在第二点集与第一点集之间的尺度变换系数计算第一点集与第二点集对应的所有两点的尺度变换系数的平均值，标记为前一帧人脸框与当前帧人脸框的尺度变换系数R；

尺度变换系数判断模块，用于如果前一帧人脸框与当前帧人脸框的尺度变换系数R∈[λ₁,λ₂]，则转入尺度变换正常位置预测模块，否则转入尺度变换过大位置预测模块；

尺度变换正常位置预测模块，用于计算宽度上的尺度变换系数 RW＝0.5×(R-1)×W_P，计算高度上的尺度变换系数RH＝0.5×(R-1)×H_P，计算预测的当前帧人脸框的X坐标B_x′＝B_x+d_x-RW、Y坐标B_y′＝B_y+d_y-RH，计算预测的当前帧人脸框的宽度W_C＝W_P×R、高度H_C＝H_P×R，其中B_x、B_y、W_P、 H_P分别为前一帧人脸框的X坐标、Y坐标、宽度和高度；

尺度变换过大位置预测模块，用于计算预测的当前帧人脸框的X坐标 B_x′＝B_x+d_x、Y坐标B_y′＝B_y+d_y，预测的当前帧人脸框的宽度和高度与前一帧人脸框的宽度和高度相同，其中B_x、B_y分别为前一帧人脸框的X坐标、Y坐标；

预测人脸框输出模块，用于将预测的当前帧人脸框作为当前帧的预测人脸框，输出预测人脸框的X坐标B_x′、Y坐标B_y′、宽度W_C和高度H_C。

进一步地，所述跟踪框获取模块包括：

检测人脸框与预测人脸框匹配模块，用于计算当前帧的所有预测人脸框和检测人脸框的交并比值，如果交并比值小于T₃，则认为未检测到人脸框，不更新跟踪框，否则选取交并比值最大对应的预测人脸框和检测人脸框作为匹配对，转入跟踪框更新模块；

跟踪框更新模块，用于针对匹配对的预测人脸框与检测人脸框，如果检测人脸框的面积小于预测人脸框面积×λ₃，并且检测人脸框的置信度小于预测人脸框的置信度，则认为检测人脸框不完整，不更新跟踪框，否则跟踪框更新为检测人脸框；

跟踪框删除模块，用于如果连续T₄帧的跟踪框处于图像边缘并且相邻的跟踪框交并比值大于T₅，则删除跟踪框。

进一步地，所述跟踪框删除模块包括：用于统计连续T₄帧的跟踪框的边界，如果跟踪框存在至少一个边界位于图像的边界上，则计算连续T₄帧的每相邻两个跟踪框的交并比值，如果交并比值大于T₅，则删除跟踪框。

进一步地，所述跟踪框后处理模块包括：

交并比值计算模块，用于选取标注的真实人脸框，计算真实人脸框与对应跟踪框的交并比值；

网络训练模块，用于将交并比值大于T₆的跟踪框作为正样本，标记为分类标签1、以及样本与真实人脸框的偏差值；将交并比值位于[T₇,T₆]的跟踪框作为part 样本，标记为分类标签-1、以及样本与真实人脸框的偏差值；将交并比值小于T₈的跟踪框作为负样本，标记为分类标签0；根据正样本、part样本和负样本，对基于卷积神经网络的跟踪框后处理网络进行训练，获取训练好的分类偏差值识别网络模型；

网络模型识别模块，用于对于连续T₉帧未检测到人脸框，将未检测到的人脸框对应的跟踪框输入分类偏差值识别网络模型，获取分类分数和偏差值，如果分类分数大于T₁₀，则认为跟踪框有效，则根据偏差值修正跟踪框的位置，否则删除跟踪框；

跟踪框输出模块，用于输出所有的跟踪框。

与现有的人脸跟踪技术相比，本发明的一种人脸跟踪方法及装置一方面采用级联卷积神经网络进行人脸检测，有效地提高了人脸检测的准确率；另一方面采用双向金字塔光流法进行人脸框跟踪，同时采用基于卷积神经网络的跟踪后处理网络对跟踪框进行过滤和位置修正，解决了光流跟踪方法中难以处理遮挡及漂移的问题，有效地提高了人脸跟踪的准确性。

附图说明

图1示出了按照本发明的一种人脸跟踪方法的流程图。

图2示出了按照本发明的一种人脸跟踪装置的框架图。

具体实施方式

为使本领域的技术人员能进一步了解本发明的结构、特征及其他目的，现结合所附较佳实施例详细说明如下，所说明的较佳实施例仅用于说明本发明的技术方案，并非限定本发明。

图1给出了按照本发明的一种人脸跟踪方法的流程图。如图1所示，按照本发明的一种人脸跟踪方法包括：

第一步骤S1，输入视频图像，采用基于卷积神经网络的人脸检测方法，获取图像中的检测人脸框的位置、宽度和高度；

第二步骤S2，采用双向金字塔光流跟踪法，对图像中的人脸框进行跟踪，获取预测人脸框的位置、宽度和高度；

第三步骤S3，对检测人脸框和预测人脸框进行人脸框匹配，获取跟踪框；

第四步骤S4，采用基于卷积神经网络的跟踪框后处理网络，对跟踪框进行过滤和位置修正处理，输出跟踪框。

进一步地，所述第一步骤S1可以替换为：输入视频图像，如果当前帧是奇数帧，则采用基于卷积神经网络的人脸检测方法，获取视频图像中的人脸框，否则转入第二步骤S2。

所述基于卷积神经网络的人脸检测方法可以采用现有的基于卷积神经网络的人脸检测方法或者技术实现。示例性地，采用公开号为CN107633229A，专利名称为“基于卷积神经网络的人脸检测方法及装置”中的方法，从图像中检测出人脸框，获取检测人脸框的位置、宽度和高度。

进一步地，所述第二步骤S2包括：

金字塔图像获取步骤S21，设置金字塔的层数，获取对应金字塔层数的金字塔图像，并获取金字塔图像中的人脸框；

光流点跟踪步骤S22，根据金字塔图像，从人脸框中选取T₁个光流点，记为第一点集，从前一帧人脸框到当前帧人脸框，对第一点集进行金字塔光流正向跟踪，得到跟踪的第二点集；从当前帧人脸框到前一帧人脸框，对第二点集进行金字塔光流反向跟踪，得到跟踪的第三点集；

光流点过滤步骤S23，计算第一点集与第三点集对应点的欧氏距离和中值，计算第一点集与第三点集对应点在N×N领域内的归一化相关系数和归一化中值，如果欧氏距离大于中值或者归一化相关系数小于归一化中值，则删除第一点集、第二点集和第三点集中的对应点；

人脸跟踪判断步骤S24：如果第二点集中点的个数大于T₂，则转入人脸框位置预测步骤S25，否则返回跟踪失败；

人脸框位置预测步骤S25，计算前一帧人脸框与当前帧人脸框的尺度变换系数，根据前一帧人脸框的位置和尺度变换系数，获取当前帧预测人脸框的位置、宽度和高度。

所述光流点过滤步骤S23中N可以人工设置或者自适应获取。示例性地，获取检测人脸框的宽度或者高度作为N。

进一步地，所述人脸框位置预测步骤S25包括：

尺度变换系数计算步骤S251，分别计算第一点集与第二点集对应点在x方向和y方向的位移，计算所有点在x方向、y方向位移的平均值d_x、d_y；计算第二点集中任意两点在x方向和y方向上的间距D_x1和D_y1，计算第一点集中对应的两点在x方向和y方向上的间距D_x2和D_y2，计算对应两点在第二点集与第一点集之间的尺度变换系数计算第一点集与第二点集对应的所有两点的尺度变换系数的平均值，标记为前一帧人脸框与当前帧人脸框的尺度变换系数R；

尺度变换系数判断步骤S252，如果前一帧人脸框与当前帧人脸框的尺度变换系数R∈[λ₁,λ₂]，则转入尺度变换正常位置预测步骤S253，否则转入尺度变换过大位置预测步骤S254；

尺度变换正常位置预测步骤S253，计算宽度上的尺度变换系数 RW＝0.5×(R-1)×W_P，计算高度上的尺度变换系数RH＝0.5×(R-1)×H_P，计算预测的当前帧人脸框的X坐标B_x′＝B_x+d_x-RW、Y坐标B_y′＝B_y+d_y-RH，计算预测的当前帧人脸框的宽度W_C＝W_P×R、高度H_C＝H_P×R，其中B_x、B_y、W_P、 H_P分别为前一帧人脸框的X坐标、Y坐标、宽度和高度；

尺度变换过大位置预测步骤S254，计算预测的当前帧人脸框的X坐标 B_x′＝B_x+d_x、Y坐标B_y′＝B_y+d_y，预测的当前帧人脸框的宽度和高度与前一帧人脸框的宽度和高度相同，其中B_x、B_y分别为前一帧人脸框的X坐标、Y坐标；

预测人脸框输出步骤S255，将预测的当前帧人脸框作为当前帧的预测人脸框，输出预测人脸框的X坐标B_x′、Y坐标B_y′、宽度W_C和高度H_C。

进一步地，所述金字塔的层数的取值范围为3～5，所述T₁的取值范围为 36～100，所述T₂的取值范围为3～6，所述λ₁的取值范围为0.7～0.98，所述λ₂的取值范围为1.02～1.09。

所述金字塔光流正向跟踪和所述金字塔反向跟踪可以采用现有的金字塔跟踪方法实现。示例性地，所述光流点跟踪步骤S22为：针对相邻的两帧人脸框，从前一帧人脸框中均匀选取60个光流点，标记为第一点集P₁；以第一点集P₁为特征点，采用“一种基于图像金字塔光流的特征跟踪方法.江志军，易华蓉.《武汉大学学报:信息科学版》,2007,32(8):680-683”中的金字塔光流跟踪方法，得到在当前帧人脸框中的特征点，标记为第二点集P₂；以第二点集P₂为特征点，采用 “一种基于图像金字塔光流的特征跟踪方法.江志军，易华蓉.《武汉大学学报: 信息科学版》,2007,32(8):680-683”中的金字塔光流跟踪方法，得到在前一帧人脸框中的特征点，标记为第三点集P₃。

示例性地，所述尺度变换系数判断步骤S252为：选取λ₁为0.9，λ₂为1.05，如果前一帧人脸框与当前帧人脸框的尺度变换系数R∈[0.9,1.05]，则转入尺度变换正常位置预测步骤S253，否则转入尺度变换过大位置预测步骤S254。

进一步地，所述前一帧人脸框的X坐标B_x、Y坐标B_y可以选取前一帧人脸框内任意点的X坐标和Y坐标，包括但不限于：前一帧人脸框的左上角点、左下角点、右上角点、右下角点、中心点的X坐标和Y坐标。

示例性地，选取前一帧人脸框的中心点的X坐标和Y坐标或者左上角点的 X坐标和Y坐标作为前一帧人脸框的X坐标B_x、Y坐标B_y。

进一步地，所述第三步骤S3包括：

检测人脸框与预测人脸框匹配步骤S31，计算当前帧的所有预测人脸框和检测人脸框的交并比值，如果交并比值小于T₃，则认为未检测到人脸框，不更新跟踪框，否则选取交并比值最大对应的预测人脸框和检测人脸框作为匹配对，转入跟踪框更新步骤S32；

跟踪框更新步骤S32，针对匹配对的预测人脸框与检测人脸框，如果检测人脸框的面积小于预测人脸框面积×λ₃，并且检测人脸框的置信度小于预测人脸框的置信度，则认为检测人脸框不完整，不更新跟踪框，否则跟踪框更新为检测人脸框；

跟踪框删除步骤S33，如果连续T₄帧的跟踪框处于图像边缘并且相邻的跟踪框交并比值大于T₅，则删除跟踪框。

进一步地，所述跟踪框删除步骤S33包括：统计连续T₄帧的跟踪框的边界，如果跟踪框存在至少一个边界位于图像的边界上，则计算连续T₄帧的每相邻两个跟踪框的交并比值，如果交并比值大于T₅，则删除跟踪框。

进一步地，所述交并比值为两个框的交叠区域与两个框的合并区域的面积比值。

进一步地，所述T₃的取值范围为0.4～0.8，所述λ₃的取值范围为0.7～0.8，所述T₄的取值范围为3～8，所述T₅的取值范围为0.75～0.95。

所述检测人脸框的置信度和预测人脸框的置信度可以采用现有的基于分类器或者神经网络的人脸检测方法实现。

示例性地，所述检测人脸框与预测人脸框匹配步骤S31为：对于当前帧的检测人脸框，T₃选为0.6，分别计算检测人脸框和所有预测人脸框的交叠区域的面积S_OR，计算检测人脸框和预测人脸框的合并区域的面积S_CR，计算交并比值 S_OR/S_CR，如果S_OR/S_CR＜0.6，返回跟踪失败，否则将合并比值最大对应的预测人脸框和检测人脸框作为匹配对。

进一步地，所述第四步骤S4包括：

交并比值计算步骤S41，选取标注的真实人脸框，计算真实人脸框与对应跟踪框的交并比值；

网络训练步骤S42，将交并比值大于T₆的跟踪框作为正样本，标记为分类标签1、以及样本与真实人脸框的偏差值；将交并比值位于[T₇,T₆]的跟踪框作为part 样本，标记为分类标签-1、以及样本与真实人脸框的偏差值；将交并比值小于T₈的跟踪框作为负样本，标记为分类标签0；根据正样本、part样本和负样本，对基于卷积神经网络的跟踪框后处理网络进行训练，获取训练好的分类偏差值识别网络模型；

网络模型识别步骤S43，对于连续T₉帧未检测到人脸框，将未检测到的人脸框对应的跟踪框输入分类偏差值识别网络模型，获取分类分数和偏差值，如果分类分数大于T₁₀，则认为跟踪框有效，则根据偏差值修正跟踪框的位置，否则删除跟踪框；

跟踪框输出步骤S44，输出所有的跟踪框。

进一步地，所述网络训练步骤S42中样本与真实人脸框的偏差值包括：左上角X坐标偏差值(x1-nx1)/WH_R、左上角Y坐标偏差值(y1-ny1)/WH_R、右下角 X坐标偏差值(x2-nx2)/WH_R、右下角Y坐标偏差值(y2-ny2)/WH_R，其中 WH_R＝(W_R+H_R)/2，x1、y1、x2、y2分别为真实人脸框的左上角X坐标、左上角Y坐标、右下角X坐标、右下角Y坐标，nx1、ny1、nx2、ny2分别为样本的左上角X坐标、左上角Y坐标、右下角X坐标、右下角Y坐标。

进一步地，所述网络模型识别步骤S43中偏差值为根据分类偏差值识别网络模型输出的左上角X坐标偏差值、左上角Y坐标偏差值、右下角X坐标偏差值、右下角Y坐标偏差值；

进一步地，所述网络模型识别步骤S43中根据偏差值修正跟踪框的位置为：分别将跟踪框的左上角X坐标加上左上角X坐标偏差值、左上角Y坐标加上左上角Y坐标偏差值、右下角X坐标加上右下角X坐标偏差值、右下角Y坐标加上右下角Y坐标偏差值，作为修正后的跟踪框的左上角X坐标、左上角Y坐标、右下角X坐标、右下角Y坐标。

进一步地，所述T₆的取值范围为0.6～0.7，所述T₇的取值范围为0.35～0.45，所述T₈的取值范围为0.25～0.35，所述T₉的取值范围为2～5，所述T₁₀的取值范围为0.45～0.65。

示例性地，所述基于卷积神经网络的跟踪框后处理网络为包括：

第一层：第一卷积层、第一激活函数、第一池化层；

第二层：第二卷积层、第二激活函数、第二池化层；

第三层：第三卷积层、第三激活函数；

第四层：第一全连接层、第四激活函数；

第五层：第二全连接层、第三全连接层。

其中，第二全连接层输出分类分数，第三全连接层输出偏差值。

图2给出了按照本发明的一种人脸跟踪装置的框架图。如图2所示，按照本发明的一种人脸跟踪装置包括：

人脸框检测模块1，用于输入视频图像，采用基于卷积神经网络的人脸检测方法，获取图像中的检测人脸框的位置、宽度和高度；

人脸框预测模块2，用于采用双向金字塔光流跟踪法，对图像中的人脸框进行跟踪，获取预测人脸框的位置、宽度和高度；

跟踪框获取模块3，用于对检测人脸框和预测人脸框进行人脸框匹配，获取跟踪框；

跟踪框后处理模块4，用于采用基于卷积神经网络的跟踪框后处理网络，对跟踪框进行过滤和位置修正处理，输出跟踪框。

进一步地，所述人脸框检测模块1可以替换为：用于输入视频图像，如果当前帧是奇数帧，则采用基于卷积神经网络的人脸检测方法，获取视频图像中的人脸框，否则转入人脸框预测模块2。

进一步地，所述人脸框预测模块2包括：

金字塔图像获取模块21，用于设置金字塔的层数，获取对应金字塔层数的金字塔图像，并获取金字塔图像中的人脸框；

光流点跟踪模块22，用于根据金字塔图像，从人脸框中选取T₁个光流点，记为第一点集，从前一帧人脸框到当前帧人脸框，对第一点集进行金字塔光流正向跟踪，得到跟踪的第二点集；从当前帧人脸框到前一帧人脸框，对第二点集进行金字塔光流反向跟踪，得到跟踪的第三点集；

光流点过滤模块23，用于计算第一点集与第三点集对应点的欧氏距离和中值，计算第一点集与第三点集对应点在N×N领域内的归一化相关系数和归一化中值，如果欧氏距离大于中值或者归一化相关系数小于归一化中值，则删除第一点集、第二点集和第三点集中的对应点；

人脸跟踪判断模块24：用于如果第二点集中点的个数大于T₂，则转入人脸框位置预测模块25，否则返回跟踪失败；

人脸框位置预测模块25，用于计算前一帧人脸框与当前帧人脸框的尺度变换系数，根据前一帧人脸框的位置和尺度变换系数，获取当前帧预测人脸框的位置、宽度和高度。

进一步地，所述人脸框位置预测模块25包括：

尺度变换系数计算模块251，用于分别计算第一点集与第二点集对应点在x 方向和y方向的位移，计算所有点在x方向、y方向位移的平均值d_x、d_y；计算第二点集中任意两点在x方向和y方向上的间距D_x1和D_y1，计算第一点集中对应的两点在x方向和y方向上的间距D_x2和D_y2，计算对应两点在第二点集与第一点集之间的尺度变换系数计算第一点集与第二点集对应的所有两点的尺度变换系数的平均值，标记为前一帧人脸框与当前帧人脸框的尺度变换系数R；

尺度变换系数判断模块252，用于如果前一帧人脸框与当前帧人脸框的尺度变换系数R∈[λ₁,λ₂]，则转入尺度变换正常位置预测模块253，否则转入尺度变换过大位置预测模块254；

尺度变换正常位置预测模块253，用于计算宽度上的尺度变换系数 RW＝0.5×(R-1)×W_P，计算高度上的尺度变换系数RH＝0.5×(R-1)×H_P，计算预测的当前帧人脸框的X坐标B_x′＝B_x+d_x-RW、Y坐标B_y′＝B_y+d_y-RH，计算预测的当前帧人脸框的宽度W_C＝W_P×R、高度H_C＝H_P×R，其中B_x、B_y、W_P、 H_P分别为前一帧人脸框的X坐标、Y坐标、宽度和高度；

尺度变换过大位置预测模块254，用于计算预测的当前帧人脸框的X坐标 B_x′＝B_x+d_x、Y坐标B_y′＝B_y+d_y，预测的当前帧人脸框的宽度和高度与前一帧人脸框的宽度和高度相同，其中B_x、B_y分别为前一帧人脸框的X坐标、Y坐标；

预测人脸框输出模块255，用于将预测的当前帧人脸框作为当前帧的预测人脸框，输出预测人脸框的X坐标B_x′、Y坐标B_y′、宽度W_C和高度H_C。

进一步地，所述跟踪框获取模块3包括：

检测人脸框与预测人脸框匹配模块31，用于计算当前帧的所有预测人脸框和检测人脸框的交并比值，如果交并比值小于T₃，则认为未检测到人脸框，不更新跟踪框，否则选取交并比值最大对应的预测人脸框和检测人脸框作为匹配对，转入跟踪框更新模块32；

跟踪框更新模块32，用于针对匹配对的预测人脸框与检测人脸框，如果检测人脸框的面积小于预测人脸框面积×λ₃，并且检测人脸框的置信度小于预测人脸框的置信度，则认为检测人脸框不完整，不更新跟踪框，否则跟踪框更新为检测人脸框；

跟踪框删除模块33，用于如果连续T₄帧的跟踪框处于图像边缘并且相邻的跟踪框交并比值大于T₅，则删除跟踪框。

进一步地，所述跟踪框删除模块33包括：用于统计连续T₄帧的跟踪框的边界，如果跟踪框存在至少一个边界位于图像的边界上，则计算连续T₄帧的每相邻两个跟踪框的交并比值，如果交并比值大于T₅，则删除跟踪框。

进一步地，所述跟踪框后处理模块4包括：

交并比值计算模块41，用于选取标注的真实人脸框，计算真实人脸框与对应跟踪框的交并比值；

网络训练模块42，用于将交并比值大于T₆的跟踪框作为正样本，标记为分类标签1、以及样本与真实人脸框的偏差值；将交并比值位于[T₇,T₆]的跟踪框作为part样本，标记为分类标签-1、以及样本与真实人脸框的偏差值；将交并比值小于T₈的跟踪框作为负样本，标记为分类标签0；根据正样本、part样本和负样本，对基于卷积神经网络的跟踪框后处理网络进行训练，获取训练好的分类偏差值识别网络模型；

网络模型识别模块43，用于对于连续T₉帧未检测到人脸框，将未检测到的人脸框对应的跟踪框输入分类偏差值识别网络模型，获取分类分数和偏差值，如果分类分数大于T₁₀，则认为跟踪框有效，则根据偏差值修正跟踪框的位置，否则删除跟踪框；

跟踪框输出模块44，用于输出所有的跟踪框。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围，应当理解，本发明并不限于这里所描述的实现方案，这些实现方案描述的目的在于帮助本领域中的技术人员实践本发明。任何本领域中的技术人员很容易在不脱离本发明精神和范围的情况下进行进一步的改进和完善，因此本发明只受到本发明权利要求的内容和范围的限制，其意图涵盖所有包括在由所附权利要求所限定的本发明精神和范围内的备选方案和等同方案。

Claims

1.一种人脸跟踪方法，其特征在于，该方法包括：

2.如权利要求1所述的方法，其特征在于，所述第二步骤包括：

3.如权利要求2所述的方法，其特征在于，所述人脸框位置预测步骤包括：

尺度变换系数计算步骤，分别计算第一点集与第二点集对应点在x方向和y方向的位移，计算所有点在x方向、y方向位移的平均值d_x、d_y；计算第二点集中任意两点在x方向和y方向上的间距D_x1和D_y1，计算第一点集中对应的两点在x方向和y方向上的间距D_x2和D_y2，计算对应两点在第二点集与第一点集之间的尺度变换系数计算第一点集与第二点集对应的所有两点的尺度变换系数的平均值，标记为前一帧人脸框与当前帧人脸框的尺度变换系数R；

尺度变换系数判断步骤，如果前一帧人脸框与当前帧人脸框的尺度变换系数R∈[λ₁,λ₂]，则转入尺度变换正常位置预测步骤，否则转入尺度变换过大位置预测步骤；

尺度变换正常位置预测步骤，计算宽度上的尺度变换系数RW＝0.5×(R-1)×W_P，计算高度上的尺度变换系数RH＝0.5×(R-1)×H_P，计算预测的当前帧人脸框的X坐标B_x′＝B_x+d_x-RW、Y坐标B_y′＝B_y+d_y-RH，计算预测的当前帧人脸框的宽度W_C＝W_P×R、高度H_C＝H_P×R，其中B_x、B_y、W_P、H_P分别为前一帧人脸框的X坐标、Y坐标、宽度和高度；

尺度变换过大位置预测步骤，计算预测的当前帧人脸框的X坐标B_x′＝B_x+d_x、Y坐标B_y′＝B_y+d_y，预测的当前帧人脸框的宽度和高度与前一帧人脸框的宽度和高度相同，其中B_x、B_y分别为前一帧人脸框的X坐标、Y坐标；

4.如权利要求3所述的方法，其特征在于，所述前一帧人脸框的X坐标B_x、Y坐标B_y包括以下一种点的坐标：前一帧人脸框的左上角点、左下角点、右上角点、右下角点、中心点的X坐标和Y坐标。

5.如权利要求1所述的方法，其特征在于，所述第三步骤包括：

6.如权利要求5所述的方法，其特征在于，所述跟踪框删除步骤包括：统计连续T₄帧的跟踪框的边界，如果跟踪框存在至少一个边界位于图像的边界上，则计算连续T₄帧的每相邻两个跟踪框的交并比值，如果交并比值大于T₅，则删除跟踪框；

所述交并比值为两个框的交叠区域与两个框的合并区域的面积比值。

7.如权利要求1所述的方法，其特征在于，所述第四步骤包括：

网络模型识别步骤，对于连续T₉帧未检测到人脸框，将未检测到的人脸框对应的跟踪框输入分类偏差值识别网络模型，获取分类分数和偏差值，如果分类分数大于T₁₀，则认为跟踪框有效，则根据偏差值修正跟踪框的位置，否则删除跟踪框；跟踪框输出步骤，输出所有的跟踪框。

8.如权利要求7所述的方法，其特征在于，所述网络训练步骤中样本与真实人脸框的偏差值包括：左上角X坐标偏差值(x1-nx1)/WH_R、左上角Y坐标偏差值(y1-ny1)/WH_R、右下角X坐标偏差值(x2-nx2)/WH_R、右下角Y坐标偏差值(y2-ny2)/WH_R，其中WH_R＝(W_R+H_R)/2，x1、y1、x2、y2分别为真实人脸框的左上角X坐标、左上角Y坐标、右下角X坐标、右下角Y坐标，nx1、ny1、nx2、ny2分别为样本的左上角X坐标、左上角Y坐标、右下角X坐标、右下角Y坐标；

所述网络模型识别步骤中偏差值为根据分类偏差值识别网络模型输出的左上角X坐标偏差值、左上角Y坐标偏差值、右下角X坐标偏差值、右下角Y坐标偏差值；

所述网络模型识别步骤中根据偏差值修正跟踪框的位置为：分别将跟踪框的左上角X坐标加上左上角X坐标偏差值、左上角Y坐标加上左上角Y坐标偏差值、右下角X坐标加上右下角X坐标偏差值、右下角Y坐标加上右下角Y坐标偏差值，作为修正后的跟踪框的左上角X坐标、左上角Y坐标、右下角X坐标、右下角Y坐标。

9.如权利要求7所述的方法，其特征在于，基于卷积神经网络的跟踪框后处理网络包括：至少2个卷积层、至少2个池化层和至少3个全连接层；其中全连接层包括：第一全连接层、第二全连接层和第三全连接层，第二全连接层和第三全连接层属于同一层，与上一层的第一全连接层相连接；

10.如权利要求1～7所述的方法，所述金字塔的层数的取值范围为3～5，所述T₁的取值范围为36～100，所述T₂的取值范围为3～6，所述λ₁的取值范围为0.7～0.98，所述λ₂的取值范围为1.02～1.09；所述T₃的取值范围为0.4～0.8，所述λ₃的取值范围为0.7～0.8，所述T₄的取值范围为3～8，所述T₅的取值范围为0.75～0.95；所述T₆的取值范围为0.6～0.7，所述T₇的取值范围为0.35～0.45，所述T₈的取值范围为0.25～0.35，所述T₉的取值范围为2～5，所述T₁₀的取值范围为0.45～0.65。

11.一种人脸跟踪装置，其特征在于，该装置包括：

12.如权利要求11所述的装置，其特征在于，所述人脸框预测模块包括：

13.如权利要求11所述的装置，其特征在于，所述人脸框位置预测模块包括：尺度变换系数计算模块，用于分别计算第一点集与第二点集对应点在x方向和y方向的位移，计算所有点在x方向、y方向位移的平均值d_x、d_y；计算第二点集中任意两点在x方向和y方向上的间距D_x1和D_y1，计算第一点集中对应的两点在x方向和y方向上的间距D_x2和D_y2，计算对应两点在第二点集与第一点集之间的尺度变换系数计算第一点集与第二点集对应的所有两点的尺度变换系数的平均值，标记为前一帧人脸框与当前帧人脸框的尺度变换系数R；

尺度变换正常位置预测模块，用于计算宽度上的尺度变换系数RW＝0.5×(R-1)×W_P，计算高度上的尺度变换系数RH＝0.5×(R-1)×H_P，计算预测的当前帧人脸框的X坐标B_x′＝B_x+d_x-RW、Y坐标B_y′＝B_y+d_y-RH，计算预测的当前帧人脸框的宽度W_C＝W_P×R、高度H_C＝H_P×R，其中B_x、B_y、W_P、H_P分别为前一帧人脸框的X坐标、Y坐标、宽度和高度；

尺度变换过大位置预测模块，用于计算预测的当前帧人脸框的X坐标B_x′＝B_x+d_x、Y坐标B_y′＝B_y+d_y，预测的当前帧人脸框的宽度和高度与前一帧人脸框的宽度和高度相同，其中B_x、B_y分别为前一帧人脸框的X坐标、Y坐标；预测人脸框输出模块，用于将预测的当前帧人脸框作为当前帧的预测人脸框，输出预测人脸框的X坐标B_x′、Y坐标B_y′、宽度W_C和高度H_C。

14.如权利要求11所述的装置，其特征在于，所述跟踪框获取模块包括：

15.如权利要求11所述的装置，其特征在于，所述跟踪框后处理模块包括：

网络训练模块，用于将交并比值大于T₆的跟踪框作为正样本，标记为分类标签1、以及样本与真实人脸框的偏差值；将交并比值位于[T₇,T₆]的跟踪框作为part样本，标记为分类标签-1、以及样本与真实人脸框的偏差值；将交并比值小于T₈的跟踪框作为负样本，标记为分类标签0；根据正样本、part样本和负样本，对基于卷积神经网络的跟踪框后处理网络进行训练，获取训练好的分类偏差值识别网络模型；

跟踪框输出模块，用于输出所有的跟踪框。

16.如权利要求15所述的装置，其特征在于，所述基于卷积神经网络的跟踪框后处理网络包括：至少2个卷积层、至少2个池化层和至少3个全连接层；其中全连接层包括：第一全连接层、第二全连接层和第三全连接层，第二全连接层和第三全连接层属于同一层，与上一层的第一全连接层相连接；