CN109711332A

CN109711332A - 一种基于回归算法的人脸跟踪方法及应用

Info

Publication number: CN109711332A
Application number: CN201811597050.7A
Authority: CN
Inventors: 尚凌辉; 张兆生; 王弘玥; 应乐斌; 丁连涛
Original assignee: ZHEJIANG ICARE VISION TECHNOLOGY Co Ltd
Current assignee: Hangzhou Jieshang Safety Equipment Co ltd
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2019-05-03
Anticipated expiration: 2038-12-26
Also published as: CN109711332B

Abstract

本发明公开了一种基于回归算法的人脸跟踪方法及应用。本发明充分利用了待跟踪的目标是人脸这个先验信息，使得跟踪算法更具针对性，跟踪框的结果可以更加准确。所设计的人脸跟踪算法，主要由一个人脸跟踪网络和一组策略构成，能同时完成人脸框的跟踪以及跟踪结果是否依然为人脸的判断。所设计的人脸跟踪网络，采用一个单一、小型的神经网络，实现了端到端的训练以及快速的预测。所设计的人脸跟踪网络的输入仅与当前帧图像信息及上一帧的人脸框位置有关，而与上一帧及之前帧的人脸图像均无关。另外本发明还将跟踪算法和人脸检测算法进行结合，构成了一个完整的人脸检测跟踪算法，可实现视频中人脸的实时检测跟踪应用。

Description

一种基于回归算法的人脸跟踪方法及应用

技术领域

本发明属于计算机视觉技术领域，涉及一种基于回归算法的人脸跟踪方法及应用。

背景技术

嵌入式视频人脸识别等应用（如人脸考勤机等）中，人脸跟踪手段的应用，对于视频的实时处理等具备重要意义；跟踪结果的准确性也可进一步降低后续分析模块（如人脸质量判断）的难度。

现有的跟踪方法，主要有基于相关滤波的方法（如KCF等）、基于卷积神经网络的方法以及其他方法。这些方法，存在以下问题：

1. 没有利用待跟踪的目标是人脸这个先验信息，而是仅仅跟踪的是指定（或者事先框好）的一个视觉目标（可能是人眼，可能是嘴巴，可能是一只猫等等）。

2. 当目标发生旋转、形变，现有的跟踪方法往往难以得到位置准确的跟踪框（如，人脸从正面变成侧面等情况时）。

3. 对于跟踪目标消失、跟踪目标被遮挡、跟踪的人脸目标变成了后脑勺等，一般的跟踪算法（如KCF）只能给出图像中跟踪目标最可能的位置（跟踪框），而无法很好得给出跟踪框是否已经不再是一个原本要跟踪的目标这样的非常有效判断（尤其是当这种目标消失、遮挡、转向到后脑勺的过程是缓慢的）。（如专利CN108765470A，一种针对目标遮挡改进的KCF跟踪算法）

4. 类似KCF等单尺度的目标跟踪方法，当目标发生尺度变化时，难以得到准确的跟踪框，在这些算法基础上添加多尺度也难以包含所有尺度，同时还会带来耗时的快速增加。

5. 类似TLD（全称：Tracking-Learning-Detection，一种单目标长时跟踪算法），将传统跟踪算法和传统检测算法相结合来解决跟踪过程中目标发生遮挡等问题。TLD包含3个模块：跟踪模块、检测模块、学习模块，通过在线学习机制对检测模块和跟踪模块的内部参数不断更新，同时，检测模块和跟踪模块是相互独立且并行运行。整体上，TLD存在耗时大的问题。（如专利CN108765455A，一种基于TLD算法的目标稳定跟踪方法）（TLD的论文：Tracking-Learning-Detection，发表信息：IEEE Transactions on Pattern Analysisand Machine Intelligence，Volume：34，Issue：7，July 2012）。

总的来说，如何快速、准确得完成人脸框的跟踪以及准确判断出跟踪结果是否依然为人脸，是人脸跟踪所需要解决的问题。

发明内容

本发明针对现有技术的不足，一种基于回归算法的人脸跟踪方法及应用

本发明充分利用了待跟踪的目标是人脸这个先验信息，并设计小型的神经网络，完成人脸目标的快速准确跟踪。进一步，将该人脸跟踪算法和人脸检测算法进行结合，构成了一个完整的人脸检测跟踪方法（人脸检测器的引入，一方面是为人脸跟踪器提供了初始跟踪框，也为切换跟踪不同的人脸提供了可能），可实现视频中人脸的实时检测跟踪应用。

本发明的方法具体是：

1. 该人脸跟踪方法的输入输出为：

输入：上一帧中的人脸框位置和当前帧的图像。

输出：是否成功跟踪到人脸框的标记，更新后的人脸框位置（如果成功跟踪到人脸框）。

2. 人脸跟踪算法的算法流程为：

Step1. 根据提供的上一帧人脸框位置trk_face_bbx_old（由四个数值构成：cx_old，cy_old，wid_old，hei_old，分别为框的中心点的坐标以及框的宽高）和当前帧的图像，制作人脸跟踪网络的输入图像数据trknet_in_img（一个C*H*W的图片，C为通道数，H为高，W为宽）。具体包括如下过程：人脸框成比例外扩（上下左后分别外扩宽高的某个固定倍数），外扩后人脸框中的图像缩放成固定大小（C*H*W）的图像，并进一步进行像素值的归一化。

Step2. 将trknet_in_img输入到人脸跟踪网络，得到属于人脸的概率trknet_out_face_prob和指示人脸框位置的数据（或称为，相对人脸框）trknet_out_face_rel_bbx（由4个数值构成：dcx，dcy，sw，sh）。trknet_out_face_rel_bbx的4个数值含义为：目标人脸框中心点的相对偏移量（dxc，dcy）、目标人脸框的宽高的相对变化量的log值（sw，sh），均相对于trk_face_bbx_old的宽高。

Step3. 当trknet_out_face_prob大于某个事先设定的阈值thresh_face_prob，则认为跟踪到的结果是“人脸”，否则为“非人脸”。

Step4. 根据网络的输出trknet_out_face_rel_bbx，计算当前帧图像中的人脸框位置trk_face_bbx（cx，cy，wid，hei）

cx=cx_old+ dcx* wid_old

cy=cy_old+dcy*hei_old

wid=wid_old*exp(sw)

hei=hei_old*exp(sh)

Step5. 计算trk_face_bbx_old和trk_face_bbx之间的IOU（两个矩形框交集区域面积除以两个矩形框并集区域面积，用于度量两个矩形框之间的重叠度）。

Step6. 如果IOU值大于某个事先设定的阈值thresh_iou，且跟踪结果判断为人脸，则表示跟踪成功，否则表示跟踪失败（表明很有可能不是同一个人脸）。

Step7. 输出跟踪成功与否的标志及跟踪到的人脸框位置。

其中人脸跟踪网络，是设计出来的一个小型卷积网络，输入trknet_in_img是固定大小的图片，输出是属于人脸的概率trknet_out_face_prob和指示人脸框位置的数据（或称为，相对人脸框）trknet_out_face_rel_bbx（由4个数值构成：dcx，dcy，sw，sh）。

跟踪结果框的准确性主要取决于人脸跟踪网络的训练：训练样本、网络结构、训练机制。

人脸跟踪网络的训练样本：

1.1原始图片集（单张图片上可能有多个人脸）是一系列进行了准确的人脸框标注的图片集合。

1.2从已经标好人脸框的原始图片集中采集人脸跟踪网络训练所需的样本（正样本和负样本）。基于人脸标注框label_bbx，制作人脸跟踪网络所需的正负样本。

1.2.1 正样本：对label_bbx进行一定程度的随机缩放、平移，得到扰动后的框init_bbx，如果init_bbx与label_bbx之间的IOU值大于某个事先设定的阈值，则当前这个扰动框就可以作为一个正样本框；并进一步生成该正样本的跟踪框位置相关的待回归目标值trknet_gt_rel_bbx。trknet_gt_rel_bbx由4个数值构成：dcx，dcy，sw，sh，分别为label_bbx的中心点相对于init_bbx的中心点的相对偏移量，以及，label_bbx的宽高相对于init_bbx的宽高的相对变化量。并控制最终生成的正样本的IOU分布。如，根据IOU值将正样本分为3类，IOU属于(iou_p1, iou_p2]的为一类，IOU属于(iou_p2, iou_p3]的为一类，IOU属于(iou_p3, 1]的为一类，其中iou_p1< iou_p2< iou_p3<1。并控制这三类正样本之间的比例大致为某种事先设置好的比例ratio_p1:ratio_p2:ratio_p3。

1.2.2负样本：在人脸标注框的周围及原始图片集的图片中随机选定人脸初始框init_bbx，根据IOU的值（与当前图像中的所有人脸标注框进行比较得到的最大的IOU值）分为2类，IOU属于[0,iou_n1)的为一类，IOU为[iou_n1, iou_n2)的为一类，其中0<iou_n1<iou_n2，并控制这两类负样本之间的比例大致为某种事先设置好的比例ratio_n1:ratio_n2。

1.2.3 正负样本小图的制作：对init_bbx成比例外扩（上下左后分别外扩宽高的某个固定倍数），外扩后人脸框中的图像缩放成固定大小（C*H*W）的图像，并进行像素值的归一化，作为后续神经网络的输入。

人脸跟踪网络的网络结构：为实现快速的跟踪，基于SqueezeNet设计了一个小型有效的卷积网络，同时回归出了框位置信息trknet_out_face_rel_bbx（由4个数值构成：dcx，dcy，sw，sh）和属于人脸的概率trknet_out_face_pro（根据是否大于事先设置的阈值，可完成是否属于人脸的判断）。其中，框位置的回归值在共有特征的基础上再连接一个卷积层和一个全连接层得到，属于人脸的概率回归则是在共有特征的基础上再连接一个卷积层、一个全连接层、一个softmax层得到。

人脸跟踪网络训练机制：

训练所使用的损失函数：由框位置的回归损失（记为loss_bbx，采用Smooth L1 Loss）和属于人脸的概率的回归损失（记为loss_face_prop，采用Softmax Loss）进行加权构成，具体为loss_bbx+weight*loss_face_prop，其中weight为事先设置的权重。

整个人脸跟踪网络均是线下训练，不存在在线训练相关工作。通过线下大规模样本的训练，可以得到一个较好的跟踪模型。

本发明还可以与人脸检测算法结合，从而构成实时的人脸检测跟踪算法，完成对人脸框的准确跟踪及跟踪目标的切换（单帧最多跟踪一个人脸时），且不产生人脸框的滞留情况。在该方法中，跟踪的人脸框的定义是和检测的人脸框定义相同的，所以检测算法得到的人脸框位置和跟踪算法得到的人脸框位置，从定义上是一样的。使得本跟踪算法和检测算法结合一起使用时，整体的输出框定义是一致的。人脸跟踪算法和具体的人脸检测算法结合的一种方式，如下所示（人脸跟踪算法结合人脸检测算法实现的人脸检测跟踪流程图）：

如果当前帧还没有待跟踪的目标：

判断当前帧是否满足调用人脸检测算法的条件（如必须偶数帧才进行检测等，以减少耗时），如满足则调用人脸检测算法进行检测：

Step1. 检测算法检测出当前帧上的人脸（可能是多个）。

Step2. 通过一定的规则（如，最大的人脸）选择一个人脸赋予ID，作为当前帧的输出人脸目标。

Step3. 输出跟踪/检测的结果：是否有检测到的人脸目标，有的话继续输出相应的人脸框、ID及其他附加信息（如跟踪持续帧数）。

如果有待跟踪的目标：

Step1. 判断是否要继续跟踪，还是需要重新启动人脸检测算法。（如果存在多个人脸，该操作提供了切换到其他跟踪目标的可能）。

Step2. 如果继续跟踪，则采用人脸跟踪算法进行跟踪，得到跟踪成功与否的判断以及跟踪到的人脸框位置。

Step3. 如果在当前帧重启人脸检测算法，则通过一定的规则选择一个检测出来的人脸赋予ID，作为当前帧的输出人脸目标。（如果选择出来的人脸框和待跟踪目标框的IOU大于某值，则ID不变（表明为同一人），否则ID进行更新）。

Step4. 输出跟踪/检测的结果：是否有检测到/跟踪到的人脸目标，有的话继续输出相应的人脸框、ID及其他附加信息（如跟踪持续帧数）。

本发明的有益效果：

1. 本发明针对人脸设计，保证跟踪的始终是人脸。

2. 本发明采用了小型的神经网络，耗时低，能够实时。

3. 本发明具有跟踪结果是否为人脸的判断，使得其跟踪持续性好（不需要人脸检测算法定期介入）。

4. 人脸跟踪网络采用单一的神经网络模型结构，同时实现人脸跟踪框的回归以及跟踪结果属于人脸的概率的回归。

5. 人脸跟踪网络基于大规模样本的线下训练，使得跟踪框足够准确，以及对人脸非人脸的判断也足够准确。

6. 采用本发明，由于其含有跟踪框是否为人脸的判断功能且准确，所以，即使人脸离开了图像，也不会出现跟踪框滞留现象（跟踪框滞留现象是指：目标已经不在图像中，但是目标的跟踪框依然存在的情况）。

7. 整个方法的耗时小，在和人脸检测算法结合构成一个完整的人脸检测跟踪方法（检测方法的引入为目标切换提供了可能）时，可以达到很好的实时效果（实际上在嵌入式设备上使用，可以达到非常好的实时效果）。

附图说明

图1. 人脸跟踪网络的网络结构图；

图2. 人脸跟踪算法的流程图；

图3. 人脸跟踪结合人脸检测实现的人脸检测跟踪流程图（单帧上的流程图）。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他的实施例，都属于本发明保护的范围。

如图2所示，本实施例的输入输出：

输入：上一帧中的人脸框位置trk_face_bbx_old（由四个数值构成：cx_old，cy_old，wid_old，hei_old，分别为框的中心点的坐标以及框的宽高）和当前帧的图像cur_image。

输出：是否成功跟踪到人脸框的标志（1：跟踪成功；0跟踪失败），更新后的人脸框位置trk_face_bbx（由四个数值构成：cx，cy，wid，hei，分别为框的中心点的坐标以及框的宽高）（如果成功跟踪到人脸框）。

人脸跟踪算法的算法流程为：

Step1. 根据提供的上一帧人脸框位置（也即，待跟踪人脸框）trk_face_bbx_old和当前帧的图像，制作人脸跟踪网络的输入数据trknet_in_img（一个C*H*W的图片，C为通道数，H为高，W为宽，其中，C=3（3为bgr彩色图像），H=32，W=32）。具体包括如下过程：人脸框成比例外扩（上下左后分别外扩宽高的0.3倍），外扩后人脸框中的图像缩放成固定大小（3*32*32）的图像，并进一步进行像素值的归一化（各像素值除以255）。

Step2. 将trknet_in_img输入到人脸跟踪网络，得到属于人脸的概率trknet_out_face_prob和指示人脸框位置的数据trknet_out_face_rel_bbx（由4个数值构成：dcx，dcy，sw，sh，该4个数值的含义可参见人脸跟踪网络正样本制作的相关内容进行类推，整体含义是中心点的相对偏移量以及宽高的相对变化量的log值）。

Step3. 当trknet_out_face_prob大于0.4，则认为跟踪到的结果是“人脸”，否则为“非人脸”。

Step4. 根据网络的输出trknet_out_face_rel_bbx，换算出当前帧图像中的人脸框位置trk_face_bbx（cx，cy，wid，hei）

cx=cx_old+ dcx* wid_old

cy=cy_old+dcy*hei_old

wid=wid_old*exp(sw)

hei=hei_old*exp(sh)

其中，exp()是以e为底的指数运算。

Step5. 计算trk_face_bbx_old和trk_face_bbx之间的IOU（两个矩形框交集区域面积除以两个矩形框并集区域面积，用于衡量2个矩形框之间的重叠度）。

Step6. 如果IOU值大于0.33，且跟踪结果判断为人脸，则表示跟踪成功，否则表示跟踪失败（表明很有可能不是同一个人脸）。

Step7. 输出跟踪成功与否的标志及跟踪到的人脸框位置。

上述实施例中的人脸跟踪网络

人脸跟踪网络的输入输出：

输入：固定大小的图片trknet_in_img（图像大小为：3*32*32）

输出：属于人脸的概率trknet_out_face_prob和指示人脸框位置的数据trknet_out_face_rel_bbx（由4个数值构成：dcx，dcy，sw，sh）。

人脸跟踪网络的训练

人脸跟踪网络的训练样本：

原始图片集（单张图片上可能有多个人脸）是一系列进行了准确的人脸框标注的图片集合（准确的标注，可以使得人脸跟踪网络所回归出来的人脸框比较精确），其图片数目约50万，标注的人脸约为60万。从已经标好人脸框的原始图片集中采集人脸跟踪网络训练所需的样本（正样本和负样本）。基于人脸标注框label_bbx（由中心点坐标和宽高构成），制作人脸跟踪网络所需的正负样本。

正样本：对label_bbx（含四个数值：cx_label, cy_label, wid_label, hei_label）进行一定程度（扰动程度最大为：如相对于label_bbx宽高的0.3）的随机缩放、平移，得到扰动后的框init_bbx（含四个数值：cx_init，cy_init，wid_init ,hei_init），如果init_bbx与label_bbx之间的IOU（框的交集面积/框的并集面积）值大于0.33，则当前这个扰动框就可以作为一个正样本框；并进一步生成该正样本的跟踪框位置相关的待回归目标值trknet_gt_rel_bbx。trknet_gt_rel_bbx由4个数值构成：dcx_gt，dcy_gt，sw_gt，sh_gt，分别为label_bbx的中心点相对于init_bbx的中心点的相对偏移量，以及，label_bbx的宽高相对于init_bbx的宽高的相对变化量的log值，具体计算公式：

dcx_gt = (cx_label- cx_init)/ wid_init

dcy_gt = (cy_label- cy_init)/hei_init

sw_gt = log(wid_label/ wid_init)

sh_gt = log(hei_label/hei_init)

其中，log()为以e为底的对数运算

同时，根据IOU值将正样本分为3类，IOU属于(0.33,0.55]的为一类，IOU属于(0.55,0.77]的为一类，IOU属于(0.77, 1]的为一类。并控制这三类正负样本之间的比例大致为0.8:1:0.8。如此控制，可以使得人脸跟踪网络可以对这些IOU值上的样本回归都尽可能好，且略有侧重点。如果对正样本的分布不加控制，则可能会存在生成的样本在各IOU值上的样本非常不均匀，如可能会出现主要集中在了IOU属于(0.55, 0.77]上，而其他段上的样本极少的问题。

负样本：人脸框的周围及在大图中随机出来的框init_bbx，根据IOU的值（与当前图像中的所有人脸标注框进行比较的得到的最大的IOU值）分为2类，IOU属于[0,0.1)的为一类，IOU为[0.1,0.33)的为一类，并控制这两类负样本之间的比例大致为0.3:1。

另外正样本与负样本之间的比例控制在1:1。

正负样本小图的制作：对init_bbx成比例外扩（上下左后分别外扩宽高的0.3倍），外扩后人脸框中的图像缩放成固定大小（3*32*32）的图像，并进行像素值的归一化（各像素值除以255处理），作为后续神经网络的输入。最后制作出来的正负样本数目可能是：正样本200万个，负样本200万个。

人脸跟踪网络的网络结构：参见附图1.人脸跟踪网络的网络结构图，图中卷基层的默认参数为：stride=1，pad=0。图中卷积层（Conv）中的第二行为：输出通道数*卷积核宽*卷积核高N*H*W：N为通道数，H为图片高度，W为图片宽度。训练所使用的损失函数：由框位置的回归损失（记为loss_bbx，采用Smooth L1 Loss）和属于人脸的概率的回归损失（记为loss_face_prop，采用Softmax Loss）进行加权构成，具体为loss_bbx+0.1*loss_face_prop。整个人脸跟踪网络均是线下caffe训练，不存在在线训练相关工作。通过线下大规模样本的训练，可以得到一个较好的跟踪模型。

人脸跟踪器结合人脸检测器实现人脸检测跟踪应用：设计了一组策略，将该人脸跟踪算法和具体的人脸检测算法结合，从而构成实时的人脸检测跟踪算法，完成对人脸框的准确跟踪及跟踪目标的切换（单帧最多跟踪一个人脸时），且不产生人脸框的滞留情况。在本实施例中，跟踪的人脸框的定义是和检测的人脸框定义相同的，所以检测算法得到的人脸框位置和跟踪算法得到的人脸框位置，从定义上是一样的。使得本跟踪算法和检测算法结合一起使用时，整体的输出框定义是一致的。人脸跟踪算法和具体的人脸检测算法结合的一种方式，如下所示（另外，也可参见附图3. 人脸跟踪算法结合人脸检测算法实现的人脸检测跟踪流程图；附图是单帧上的流程图，连续帧上，当前帧的输入为：当前帧的图像，上一帧上的跟踪结果（人脸框和ID））：

如果当前帧还没有待跟踪的目标：

Step1. 检测算法检测出当前帧上的人脸（可能是多个）。

Step2. 选择最大的人脸赋予ID，作为当前帧的输出人脸目标。

Step3. 输出跟踪/检测的结果：是否有检测到的人脸目标，有的话继续输出相应的人脸框、ID及当前目标持续跟踪帧数。

如果有待跟踪的目标：

Step1. 判断是否要继续跟踪，还是需要重新启动人脸检测算法（如果当前目标连续跟踪帧数为50的倍数，则重启人脸检测算法）。（如果存在多个人脸，该操作提供了切换到其他跟踪目标的可能）。

Step3. 如果在当前帧重启人脸检测算法，则选择最大的人脸赋予ID，作为当前帧的输出人脸目标。（如果选择出来的人脸框和待跟踪目标框的IOU大于某值（如0.33），则ID不变（表明为同一人），否则ID进行更新）

Step4. 输出跟踪/检测的结果：是否有检测到/跟踪到的人脸目标，有的话继续输出相应的人脸框、ID及当前目标持续跟踪帧数。

综上，本发明充分利用了待跟踪的目标是人脸这个先验信息，使得跟踪算法更具针对性，跟踪框的结果可以更加准确。（充分利用了待跟踪目标是人脸的这个先验信息，直接设计针对于人脸目标的跟踪算法。具体的是直接根据上一帧的人脸框，直接回归出在当前帧中的位置。具体的回归模型，则是采用了神经网络模型。）所设计的人脸跟踪算法，主要由一个人脸跟踪网络和一组策略构成，能同时完成人脸框的跟踪以及跟踪结果是否依然为人脸的判断。（进一步，基于人脸在帧间没有出现大的位移的假设，采用一些通用的策略判断是否为同一个人脸）。所设计的人脸跟踪网络，采用一个单一、小型的神经网络，实现了端到端的训练以及快速的预测。所设计的人脸跟踪网络，基于大规模且有准确人脸框标注的人脸样本的进行离线训练，网络模型无需在线更新。这样训练出来的网络，所回归得到的跟踪框可以非常精确，且对属于人脸的概率回归值也非常有效。所设计的人脸跟踪网络的输入仅与当前帧图像信息及上一帧的人脸框位置有关，而与上一帧及之前帧的人脸图像均无关。另外本发明还将跟踪算法和人脸检测算法进行结合，构成了一个完整的人脸检测跟踪算法，可实现视频中人脸的实时检测跟踪应用。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围，应当理解，本发明并不限于这里所描述的实现方案，这些实现方案描述的目的在于帮助本领域中的技术人员实践本发明。

Claims

1.一种基于回归算法的人脸跟踪方法，其特征在于该方法包括以下步骤：

步骤1. 确定人脸跟踪方法的输入和输出：

输入：上一帧中的人脸框位置和当前帧的图像；

输出：是否成功跟踪到人脸框的标记，如果成功跟踪到人脸框，则更新后的人脸框位置；

步骤2. 执行人脸跟踪算法，具体是：

2-1. 根据提供的上一帧人脸框位置trk_face_bbx_old和当前帧的图像，制作人脸跟踪网络的输入图像数据trknet_in_img；

2-2. 将输入图像数据trknet_in_img输入到人脸跟踪网络，得到属于人脸的概率trknet_out_face_prob和指示人脸框位置的数据trknet_out_face_rel_bbx；

2-3. 当人脸的概率trknet_out_face_prob大于某个设定的阈值thresh_face_prob时，则认为跟踪到的结果是“人脸”，否则为“非人脸”；

2-4. 根据网络的输出指示人脸框位置的数据trknet_out_face_rel_bbx，计算当前帧图像中的人脸框位置trk_face_bbx；

2-5. 计算上一帧人脸框位置trk_face_bbx_old和当前帧图像中的人脸框位置trk_face_bbx之间的重叠度IOU；

2-6. 如果重叠度IOU值大于某个设定的阈值thresh_iou，且跟踪结果判断为人脸，则表示跟踪成功，否则表示跟踪失败；

2-7. 输出跟踪成功与否的标志及跟踪到的人脸框位置。

2.根据权利要求1所述的一种基于回归算法的人脸跟踪方法，其特征在于：步骤2.1中制作人脸跟踪网络的输入图像数据trknet_in_img具体是：人脸框成比例外扩，外扩后人脸框中的图像缩放成固定大小的图像，并进一步进行像素值的归一化。

3.根据权利要求1所述的一种基于回归算法的人脸跟踪方法，其特征在于：步骤2.2中所述的人脸跟踪网络是一个基于SqueezeNet设计的小型有效的卷积网络，其中，指示人脸框位置的数据trknet_out_face_rel_bbx是在共有特征的基础上再连接一个卷积层和一个全连接层得到；属于人脸的概率trknet_out_face_prob是在共有特征的基础上再连接一个卷积层、一个全连接层、一个softmax层得到；

所述的人脸跟踪网络在使用前需要先进行训练，其训练样本的获取过程为：采集原始图片集，该原始图片集是一系列进行了准确的人脸框标注的图片集合；从已经标好人脸框的原始图片集中采集人脸跟踪网络训练所需的样本，包括正样本和负样本，基于人脸标注框label_bbx，制作人脸跟踪网络所需的正负样本；

所述的人脸跟踪网络的训练机制为：该训练所使用的损失函数由指示人脸框框位置的回归损失和属于人脸的概率的回归损失进行加权构成。

4.根据权利要求3所述的一种基于回归算法的人脸跟踪方法，其特征在于：正样本的制作过程为：对人脸标注框label_bbx进行一定程度的随机缩放、平移，得到扰动后的人脸初始框init_bbx，如果扰动后的人脸标注框与之前的人脸标注框之间的重叠度IOU大于某个设定的阈值，则当前这个扰动后的人脸标注框框就作为一个正样本框；并进一步生成该正样本的跟踪框位置相关的待回归目标值trknet_gt_rel_bbx；待回归目标值trknet_gt_rel_bbx由4个数值构成：dcx，dcy，sw，sh，分别为扰动后的人脸标注框label_bbx的中心点相对于扰动后的人脸初始框init_bbx的中心点的相对偏移量，以及，扰动后的人脸标注框label_bbx的宽高相对于人脸初始框init_bbx的宽高的相对变化量，并控制最终生成的正样本的重叠度分布。

5.根据权利要求3所述的一种基于回归算法的人脸跟踪方法，其特征在于：负样本的制作过程为：在人脸标注框的周围及原始图片集的图片中随机选定人脸初始框init_bbx。

6.一种基于回归算法的人脸跟踪方法在人脸检测跟踪方法中的应用：

判断当前帧有无待跟踪的目标，有待跟踪的目标，则判断是否要继续跟踪，还是需要重新启动人脸检测算法；

如果继续跟踪，则采用人脸跟踪算法进行跟踪，得到跟踪成功与否的判断以及跟踪到的人脸框位置；

如果在当前帧重启人脸检测算法，则通过选择一个检测出来的人脸赋予ID，作为当前帧的输出人脸目标；

输出跟踪或检测的结果：是否有检测到或跟踪到的人脸目标，有的话继续输出相应的人脸框、ID及其他附加信息；

如果当前帧还没有待跟踪的目标，判断当前帧是否满足调用人脸检测算法的条件，如满足则调用人脸检测算法进行检测：

人脸检测算法检测出当前帧上的人脸，选择一个人脸赋予ID，作为当前帧的输出人脸目标；

输出跟踪或检测的结果：是否有检测到的人脸目标，有的话继续输出相应的人脸框、ID及其他附加信息。