CN110991287A

CN110991287A - 一种实时视频流人脸检测跟踪方法及检测跟踪系统

Info

Publication number: CN110991287A
Application number: CN201911162102.2A
Authority: CN
Inventors: 黄永; 方志威
Original assignee: Shenzhen Anytec Holdings Co ltd
Current assignee: Shenzhen Anytec Holdings Co ltd
Priority date: 2019-11-23
Filing date: 2019-11-23
Publication date: 2020-04-10

Abstract

本发明属于人脸检测技术领域，公开了一种实时视频流人脸检测跟踪方法及检测跟踪系统，从视频帧中获取每一帧图像作为待检测图像；根据前一帧图像检测结果选择待检测图像的处理方式，当待检测图像中包含人脸且满足人脸跟踪条件，则对待检测图像进行人脸跟踪处理，否则，对待检测图像进行人脸检测处理；根据处理结果输出是否包含人脸，若包含人脸则输出人脸位置坐标和人脸概率值，根据人脸位置坐标画出人脸框，并将下一帧作为待检测图像。本发明在对目标进行跟踪过程中，用人脸检测对目标跟踪丢失或目标偏移重新校正，用人脸跟踪对视频人脸进行实时检测，将人脸检测和人脸跟踪相结合，从而快速准确的检测出人脸。

Description

一种实时视频流人脸检测跟踪方法及检测跟踪系统

技术领域

本发明属于人脸检测技术领域，尤其涉及一种实时视频流人脸检测跟踪方法及检测跟踪系统。

背景技术

目前，最接近的现有技术：

随着科学技术的快速发展，基于计算机视觉的相关技术得以广泛应用，其中人脸检测技术和人脸跟踪技术被广泛应用到视频安防、门禁系统、迎宾系统等场景，同样在数码相机、智能手机等端上的设备也已经大量使用人脸检测技术实现成像时对人脸的对焦、图集整理分类等功能，各种虚拟美颜相机也需要人脸检测技术定位人脸，然后才能根据人脸对齐的技术确定人脸皮肤、五官的范围然后进行美颜。同时在人脸识别的流程中，人脸检测是整个人脸识别算法的第一步。

然而传统的人脸检测算法采用模板匹配技术，检测速度很快，但在人脸检测准确率尚不高；基于深度学习框架的人脸检测算法如Cascade CNN、Face R-CNN和PyramidBox等人脸检测算法在人脸检测时准确度较高，但检测速度比较慢，不适合实时视频流检测和移动端人脸检测。同样在人脸跟踪技术上传统的人脸跟踪会出现跟踪目标丢失或者跟踪目标偏移，但目标跟踪的速度较快；而基于深度学习的人脸跟踪技术在跟踪的准确率上比较准确，速度上无法达到实时的要求。总的来说，在视频人脸的检测和跟踪时无法达到实时准确的效果，不利于快速的从视频人脸中准确的检测出人脸。

综上所述，现有技术存在的问题是：

(1)现有的人脸检测及跟踪的准确性不高且不能达到实时准确检测跟踪。

(2)传统的人脸检测技术，不利于快速的从视频人脸中准确的检测出人脸。

发明内容

针对现有技术存在的问题，本发明提供了一种实时视频流人脸检测跟踪方法及检测跟踪系统。

本发明是这样实现的，一种实时视频流人脸检测跟踪方法，所述实时视频流人脸检测跟踪方法包括：

步骤一，从视频帧中获取每一帧图像作为待检测图像；

步骤二，对待检测图像进行图像处理，根据前一帧图像检测结果选择待检测图像的处理方式，当待检测图像中包含人脸且满足人脸跟踪条件，则对待检测图像进行人脸跟踪处理，否则，对待检测图像进行人脸检测处理；

步骤三，根据处理结果输出是否包含人脸，若包含人脸则输出人脸位置坐标和人脸概率值，根据人脸位置坐标画出人脸框，并将下一帧作为待检测图像，否则，直接获取下一帧。

进一步，步骤一中，对待检测图像进行图像处理的方法包括：

获取视频流的每一帧图像，并将每一帧转为图片格式，同时获取每帧的尺寸大小，对每一帧图像做相应的图像缩放处理。

进一步，步骤二中，根据前一帧图像检测结果选择待检测图像的处理方式包括：

当获取的帧图像帧是视频流的起始帧，也即没有前一帧，此时前一帧图像检测结果应为未检测到人脸，否则，若前一帧图像检测含有人脸，则前一帧图像检测结果应为前一帧图像通过人脸检测轻量级神经网络，加载训练好的人脸检测模型，计算得到的人脸位置坐标和人脸概率值，若前一帧图像未含有人脸，则前一帧图像检测结果为空。

进一步，所述前一帧图像通过人脸检测轻量级神经网络，包括用于构建人脸检测的卷积神经网络中的MP-Net网络、MR-Net网络和MO-Net网络；

MP-Net网络用于从输入的图像中获取大量的人脸候选区域；

MR-Net网络用于从MP-Net人脸候选区域中过滤掉部分人脸区域；

MO-Net网络用于进一步过滤MR-Net中候选区域中的人脸，得到最终的人脸位置坐标和人脸概率值。

进一步，MP-Net网络包括普通卷积核深度分离卷积，具体包括：

第一卷积层：普通卷积输入：20x20x3,卷积核：2x2；

第二卷积层：深度可分离卷积输入：19x19x8,深度卷积核：2x2；

第三卷积层：深度可分离卷积输入：9x9x16,深度卷积核：3x3；

第四卷积层：深度可分离卷积输入：4x4x24,深度卷积核：2x2；

第五卷积层：深度可分离卷积输入：3x3x24,深度卷积核：3x3；

第六卷积层：普通卷积输入：1x1x24,卷积核：1x1；

MR-Net网络包括普通卷积核深度分离卷积，具体包括：

第一卷积层：普通卷积输入：24x24x3,卷积核：2x2；

第二卷积层：深度可分离卷积输入：23x23x32,深度卷积核：2x2；

第三卷积层：深度可分离卷积输入：11x11x32,深度卷积核：3x3；

第四卷积层：深度可分离卷积输入：5x5x64,深度卷积核：3x3；

第五卷积层：深度可分离卷积输入：3x3x128,深度卷积核：3x3；

全连接层：输入：1x1x128；

MO-Net网络包括普通卷积和深度分离卷积，具体包括：

第一卷积层：普通卷积输入：48x48x3,卷积核：2x2；

第二卷积层：深度可分离卷积输入：47x47x32,深度卷积核：3x3；

第三卷积层：深度可分离卷积输入：23x23x32,深度卷积核：3x3；

第四卷积层：深度可分离卷积输入：11x11x64,深度卷积核：3x3；

第五卷积层：深度可分离卷积输入：5x5x64,深度卷积核：3x3；

第六卷积层：深度可分离卷积输入：3x3x128,深度卷积核：3x3；

全连接层：输入：1x1x128；

所述加载训练好的人脸检测模型包括：

从人脸检测数据集中获取大量的人脸数据并根据每个网络的输入图像尺寸的要求缩放人脸数据，设置每个网络的初始权重、学习率和迭代次数参数，并依次训练构建的轻量级神经网络，不断地调整参数优化权重参数，直到损失函数不在收敛，得到最优的权重参数，所述最优的权重参数为训练的最优人脸检测模型；

加载训练的最优人脸检测模型，调整一些参数用图片或者视频流测试人脸检测，输出人脸框和人脸概率值。

进一步，所述调整一些参数用图片或者视频流测试人脸检测的方法包括：

从视频流或者图片获取待检测图像，将图像转换为输入格式并输入到人脸检测轻量级神经网络结构中，加载人脸检测模型，在轻量级深度神经网络中计算一遍，输出待检测图像的检测结果，若包含人脸则输出人脸框和人脸概率值。

进一步，步骤二中，所述当待检测图像中包含人脸且满足人脸跟踪条件，包括：

在人脸跟踪过程中引用KCF目标跟踪，当待检测图像中含有多张目标人脸时，对目标人脸KCF进行人脸跟踪；

用人脸检测对人脸跟踪进行校正，条件包括：统计跟踪人脸的视频帧数，人脸跟踪帧数是否超过预设帧数或者跟踪的目标人脸是否发生丢失；

对待检测图像进行人脸跟踪处理的方法包括：

人脸跟踪激活时，前一帧的人脸区域对跟踪器进行初始化，当人脸跟踪帧数小于预设帧数且跟踪的目标人脸未发生丢失，对目标人脸进行持续跟踪，否则，使用人脸检测重新检测人脸，若检测到人脸对人脸跟踪器进行重新初始化跟踪校正。

本发明的另一目的在于提供一种实时视频流人脸检测跟踪系统，包括：

图像获取模块，用于从待检测的视频流中读取每一帧图像作为待检测图像，并获取图片或获取视频流，视频流为手机拍摄的视频、监控视频或者网络下载的视频；

条件判别模块，从图像获取模块获取的视频流中根据当前帧的前一帧人脸检测的结果作为条件判别的依据，选择当前帧的图像处理方式，若检测到前一帧中包含人脸区域则输出结果为是，否则，则输出结果为否；若当前帧是视频流的第一帧，当前帧没有前一帧，则认为前一帧不包含人脸区域，输出结果为否；

人脸检测处理模块，在条件判别模块输出为否的情况下启动，对当前帧进行人脸检测处理；将当前帧作为待检测图像，并将图像进行相应的缩放处理，将处理后的图像输入到人脸检测轻量级神经网络并加载训练好的人脸检测模型，通过轻量级神经网络的快速计算得到待检测图像的检测结果；

人脸跟踪处理模块，是在条件判别模块输出为是的情况下启动，对当前帧进行人脸跟踪处理；在对人脸跟踪过程中，从多种目标跟踪算法中选择KCF对目标人脸进行跟踪，在使用KCF人脸跟踪时，进行目标跟踪的校正，通过对人脸跟踪的帧数与设定的帧数阈值比较，若超过设定帧数阈值，则对待检测图像进行人脸检测处理输出人脸区域初始化目标跟踪器，在跟踪过程中，目标遮挡时，丢失对所述目标的跟踪，比较当前帧目标跟踪的数目与前一帧目标跟踪的数目，若两者数目不相等，则对待检测图像进行人脸检测处理输出人脸区域初始化目标跟踪器；

结果输出模块，将选择人脸检测及跟踪处理的结果输出，输出结果包括人脸位置坐标框和人脸概率值。

本发明的另一目的在于提供一种实现所述实时视频流人脸检测跟踪方法的信息数据处理终端。

本发明的另一目的在于提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-7任意一项所述的实时视频流人脸检测跟踪方法。

综上所述，本发明的优点及积极效果为：

本发明在对人脸检测过程中用到轻量级神经网络，能够在复杂的外界环境条件下，仍能够快速准确的检测出人脸。

本发明在对目标进行跟踪过程中，用人脸检测对目标跟踪丢失或目标偏移重新校正，用人脸跟踪对视频人脸进行实时检测，将人脸检测和人脸跟踪相结合，从而快速准确的检测出人脸。

本发明通过人脸检测及人脸跟踪实现对人脸的精准检测及对视频人脸的实时检测跟踪。

附图说明

图1是本发明实施例提供的实时视频流人脸检测跟踪方法流程图。

图2是本发明实施例提供的实时视频流人脸检测跟踪系统示意图。

图中：1、图像获取模块；2、条件判别模块；3、人脸检测处理模块；4、人脸跟踪处理模块；5、结果输出模块。

图3是本发明实施例提供的实时视频流人脸检测跟踪方法原理图。

图4是本发明实施例提供的人脸检测训练模型过程流程图。

图5是本发明实施例提供的MP-Net网络结构图。

图6是本发明实施例提供的MR-Net网络结构图。

图7是本发明实施例提供的MO-Net网络结构图。

图8是本发明实施例提供的深度分离卷积结构图。

图9是本发明实施例提供的人脸检测模型测试过程图。

图10是采用本发明的FDDB人脸检测数据集进行人脸检测验证，并与其他几种人脸检测算法做比对的效果图。

图11是在地铁站附近采集的视频流进行实时视频流人脸检测及跟踪验证的效果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

现有的人脸检测及跟踪的准确性不高且不能达到实时准确检测跟踪。传统的人脸检测技术，不利于快速的从视频人脸中准确的检测出人脸。

针对现有技术存在的问题，本发明提供了一种实时视频流人脸检测跟踪方法，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的实时视频流人脸检测跟踪方法方法，包括：

S101，从视频帧中获取每一帧图像作为待检测图像。

S102，对待检测图像进行图像处理，根据前一帧图像检测结果选择待检测图像的处理方式，当待检测图像中包含人脸且满足人脸跟踪条件，则对待检测图像进行人脸跟踪处理，否则，则对待检测图像进行人脸检测处理。

S103，根据处理结果输出是否包含人脸，若包含人脸则输出人脸位置坐标和人脸概率值，根据人脸位置坐标画出人脸框，并将下一帧作为待检测图像，否则，直接获取下一帧。

步骤S101中，所述对待检测图像进行图像处理，包括：

步骤S102中，所述根据前一帧图像检测结果选择待检测图像的处理方式，包括：

作为优选实施例，所述前一帧图像通过人脸检测轻量级神经网络，包括：用于构建人脸检测的卷积神经网络的三个网络，包括MP-Net网络、MR-Net网络和MO-Net网络。

在本发明实施例中，第一个网络结构(MP-Net)包括普通卷积核深度分离卷积：

第一卷积层：普通卷积输入：20x20x3,卷积核：2x2。

第二卷积层：深度可分离卷积输入：19x19x8,深度卷积核：2x2。

第三卷积层：深度可分离卷积输入：9x9x16,深度卷积核：3x3。

第四卷积层：深度可分离卷积输入：4x4x24,深度卷积核：2x2。

第五卷积层：深度可分离卷积输入：3x3x24,深度卷积核：3x3。

第六卷积层：普通卷积输入：1x1x24,卷积核：1x1。

MP-Net网络从输入的图像中获取大量的人脸候选区域。

在本发明实施例中，第二个网络结构(MR-Net)包括普通卷积核深度分离卷积：

第一卷积层：普通卷积输入：24x24x3,卷积核：2x2。

第二卷积层：深度可分离卷积输入：23x23x32,深度卷积核：2x2。

第三卷积层：深度可分离卷积输入：11x11x32,深度卷积核：3x3。

第四卷积层：深度可分离卷积输入：5x5x64,深度卷积核：3x3。

第五卷积层：深度可分离卷积输入：3x3x128,深度卷积核：3x3。

全连接层：输入：1x1x128。

MR-Net网络从MP-Net人脸候选区域中过滤掉部分人脸区域。

在本发明实施例中，第三个网络结构(MO-Net)网络包括普通卷积和深度分离卷积：

第一卷积层：普通卷积输入：48x48x3,卷积核：2x2。

第二卷积层：深度可分离卷积输入：47x47x32,深度卷积核：3x3。

第三卷积层：深度可分离卷积输入：23x23x32,深度卷积核：3x3。

第四卷积层：深度可分离卷积输入：11x11x64,深度卷积核：3x3。

第五卷积层：深度可分离卷积输入：5x5x64,深度卷积核：3x3。

第六卷积层：深度可分离卷积输入：3x3x128,深度卷积核：3x3。

全连接层：输入：1x1x128。

MO-Net网络进一步过滤MR-Net中候选区域中的人脸，得到最终的人脸位置坐标和人脸概率值。

在本发明实施例中，所述普通卷积核深度分离卷积中，普通卷积一般包括卷积层和激活层，深度分离卷积包括深度卷积、激活和1x1的逐点卷积、激活，使用深度分离卷积能够减少训练的参数，压缩模型。

步骤S102中，作为优选实施例，所述加载训练好的人脸检测模型，包括：

从人脸检测数据集中获取大量的人脸数据并根据每个网络的输入图像尺寸的要求缩放人脸数据，设置每个网络的初始权重、学习率和迭代次数等参数，并依次训练构建的轻量级神经网络，不断地调整参数来优化权重参数，直到损失函数不在收敛，从而得到最优的权重参数，即训练的最优人脸检测模型。

加载训练好的的人脸检测模型，调整一些参数用图片或者视频流测试人脸检测，输出人脸框和人脸概率值。

所述调整一些参数用图片或者视频流测试人脸检测，包括：

所述当待检测图像中包含人脸且满足人脸跟踪条件，包括：

在人脸跟踪过程中引用KCF目标跟踪，当待检测图像中含有多张目标人脸时，需要对目标人脸KCF进行人脸跟踪。

为了使人脸跟踪更加准确，用人脸检测对人脸跟踪进行校正，其条件包括：统计跟踪人脸的视频帧数，人脸跟踪帧数是否超过预设帧数或者跟踪的目标人脸是否发生丢失。

所述对待检测图像进行人脸跟踪处理，包括：

下面结合具体实施例对本发明作进一步描述。

实施例

本发明实施例提供一种实时视频流人脸检测跟踪系统，如图2所示：其中包括图像获取模块1、条件判别模块2、人脸检测处理模块3、人脸跟踪处理模块4和结果输出模块5。

其中，图像获取模块1用于从待检测的视频流中读取每一帧图像作为待检测图像，图像获取模块既可以获取图片也可以获取视频流，视频流可以是手机拍摄的视频、监控视频或者网络下载的视频等。

条件判别模块2是从该视频流中根据当前帧的前一帧人脸检测的结果作为条件判别的依据，来选择当前帧的图像处理方式，若之前检测到前一帧中包含人脸区域则输出结果为是，否则，则输出结果为否，需要说明一下，若当前帧是视频流的第一帧，也即当前帧没有前一帧，则认为前一帧不包含人脸区域，输出结果为否。

人脸检测处理模块3是在条件判别模块输出为否的情况下启动，此时对当前帧进行人脸检测处理。将当前帧作为待检测图像，并将图像进行相应的缩放处理，将处理后的图像输入到人脸检测轻量级神经网络并加载训练好的人脸检测模型，通过轻量级神经网络的快速计算得到待检测图像的检测结果。

人脸跟踪处理模块4是在条件判别模块输出为是的情况下启动，此时对当前帧进行人脸跟踪处理。在对人脸跟踪过程中，从多种目标跟踪算法中选择KCF对目标人脸进行跟踪，是因为KCF做的就是将循环矩阵在傅立叶空间的性质与图像中目标的循环移位采样结合，大大减少计算量，加快跟踪速度，但它对快速运动的目标和快速变形的目标鲁棒性不好，为了解决这一缺点，本发明在使用KCF人脸跟踪时，进行目标跟踪的校正，通过对人脸跟踪的帧数与设定的帧数阈值比较，若超过设定帧数阈值，则需要对待检测图像进行人脸检测处理输出人脸区域用来初始化目标跟踪器，同时为了使跟踪更加精准，避免在跟踪过程中，部分目标由于遮挡，丢失对该目标的跟踪，比较当前帧目标跟踪的数目与前一帧目标跟踪的数目，若两者数目不相等，则同样对待检测图像进行人脸检测处理输出人脸区域用来初始化目标跟踪器。

结果输出模块5是将选择人脸检测及跟踪处理的结果输出，输出结果包括人脸位置坐标框和人脸概率值。

本发明实施例提供一种实时视频流人脸检测跟踪方法原理图3所示。

在人脸检测处理模块中，为了进一步准确的检测到人脸位置，需要准备大量的人脸数据集，并使用收集的数据集进行人脸检测模型的训练和测试。

在对人脸检测模型训练过程如图4所示，具体流程包括：从互联网上获取大量的人脸检测开源数据集或爬取人脸图片进行清洗标注，生成训练数据格式，搭建人脸检测的轻量级神经网络结构，并将生成的数据传入到轻量级神经网络中训练模型，通过不断地迭代优化训练参数，最终输出最优的人脸检测模型。其中构建的人脸检测轻量级神经网络结构是由三个轻量级网络结构级联而成的，包括：MP-Net网络，MR-Net网络和MO-Net网络。

MP-Net网络如图5所示，是由多个普通卷积和深度分离卷积组成，包括：第一卷积层：普通卷积输入：20x20x3,卷积核：2x2，第二卷积层：深度可分离卷积输入：19x19x8,深度卷积核：2x2，第三卷积层：深度可分离卷积输入：9x9x16,深度卷积核：3x3，第四卷积层：深度可分离卷积输入：4x4x24,深度卷积核：2x2，第五卷积层：深度可分离卷积输入：3x3x24,深度卷积核：3x3，第六卷积层：普通卷积输入：1x1x24,卷积核：1x1，MP-Net网络从输入的图像中获取大量的人脸候选区域，并进行边界框回归和对人脸候选框进行分类。

MR-Net网络如图6所示，是由多个普通卷积和深度分离卷积组成，包括：第一卷积层：普通卷积输入：24x24x3,卷积核：2x2,第二卷积层：深度可分离卷积输入：23x23x32,深度卷积核：2x2,第三卷积层：深度可分离卷积输入：11x11x32,深度卷积核：3x3,第四卷积层：深度可分离卷积输入：5x5x64,深度卷积核：3x3,第五卷积层：深度可分离卷积输入：3x3x128,深度卷积核：3x3,全连接层：输入：1x1x128,MR-Net网络从MP-Net人脸候选区域中过滤掉部分人脸区域，并进行边框回归和对人脸候选框进行分类。

MO-Net网络如图7所示，是由多个普通卷积和深度分离卷积组成，包括：第一卷积层：普通卷积输入：48x48x3,卷积核：2x2，第二卷积层：深度可分离卷积输入：47x47x32,深度卷积核：3x3，第三卷积层：深度可分离卷积输入：23x23x32,深度卷积核：3x3，第四卷积层：深度可分离卷积输入：11x11x64,深度卷积核：3x3，第五卷积层：深度可分离卷积输入：5x5x64,深度卷积核：3x3，第六卷积层：深度可分离卷积输入：3x3x128,深度卷积核：3x3，全连接层：输入：1x1x128，MO-Net网络进一步过滤MR-Net中候选区域中的人脸，得到最终的人脸位置坐标和人脸概率值。

本发明通过深度可分卷积能够大幅降低参数量和计算量，大大减小模型的大小，减少人脸检测所需时间，同时引入深度神经网络能够提升人脸检测的精度。

对于深度可分离卷积如图8所示，包括：深度卷积和逐点卷积，在这里采用卷积核为3x3或2x2卷积对深度方向进行卷积，主要负责滤波作用。逐点卷积采用1x1的卷积，主要负责转换通道。在深度卷积和逐点卷积之后用Prelu激活函数用于非线性激活。

为了进一步了解模型精度，需要对训练好的人脸检测模型进行测试，如图9所示，包括：

从视频流中获取待测试的图像，将该待测试图像转换为输入格式，传入人脸检测轻量级神经网络中，同时加载人脸检测模型，对传入的待检测图像进行计算，根据计算的结果输出最终检测的结果是否包含人脸框，若包含人脸则输出人脸框位置坐标和人脸概率值。

本发明的实时视频流人脸检测跟踪方法，通过使用轻量级神经网络能够快速准确的检测人脸，相比于传统的人脸检测，准确率上得到很大提升，结合KCF人脸跟踪，在提升人脸检测的同时能够有效避免目标人脸在跟踪时的丢失，实现对人脸的精准检测及对视频人脸的实时检测跟踪。

采用本发明的FDDB人脸检测数据集进行人脸检测验证，并与其他几种人脸检测算法做比对，召回率(TPR)要优于其他几种算法，如图10所示。

网上下载一张包含多张人脸的图片，用本发明的人脸检测算法进行检测，能够准确的检测出全部人脸。

同时，在地铁站附近采集的视频流进行实时视频流人脸检测及跟踪验证，该视频是1920x1080的视频且场景环境比较复杂，人流量较大，在进行人脸检测及跟踪时，帧率达到每秒10帧以上，如图11所示。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种实时视频流人脸检测跟踪方法，其特征在于，所述实时视频流人脸检测跟踪方法包括：

步骤一，从视频帧中获取每一帧图像作为待检测图像；

2.如权利要求1所述的实时视频流人脸检测跟踪方法，其特征在于，步骤一中，对待检测图像进行图像处理的方法包括：

3.如权利要求1所述的实时视频流人脸检测跟踪方法，其特征在于，步骤二中，根据前一帧图像检测结果选择待检测图像的处理方式包括：

当获取的帧图像是视频流的起始帧，此时前一帧图像检测结果应为未检测到人脸；否则，若前一帧图像检测含有人脸，则前一帧图像检测结果应为前一帧图像通过人脸检测轻量级神经网络，加载训练好的人脸检测模型，计算得到的人脸位置坐标和人脸概率值；若前一帧图像未含有人脸，则前一帧图像检测结果为空。

4.如权利要求3所述的实时视频流人脸检测跟踪方法，其特征在于，所述前一帧图像通过人脸检测轻量级神经网络，包括用于构建人脸检测的卷积神经网络中的MP-Net网络、MR-Net网络和MO-Net网络；

MP-Net网络用于从输入的图像中获取大量的人脸候选区域；

MR-Net网络用于从MP-Net人脸候选区域中过滤掉部分人脸区域；

5.如权利要求4所述的实时视频流人脸检测跟踪方法，其特征在于，MP-Net网络包括普通卷积核深度分离卷积，具体包括：

第一卷积层：普通卷积输入：20x20x3,卷积核：2x2；

第三卷积层：深度可分离卷积输入：9x9x16,深度卷积核：3x3；

第四卷积层：深度可分离卷积输入：4x4x24,深度卷积核：2x2；

第五卷积层：深度可分离卷积输入：3x3x24,深度卷积核：3x3；

第六卷积层：普通卷积输入：1x1x24,卷积核：1x1；

MR-Net网络包括普通卷积核深度分离卷积，具体包括：

第一卷积层：普通卷积输入：24x24x3,卷积核：2x2；

第四卷积层：深度可分离卷积输入：5x5x64,深度卷积核：3x3；

全连接层：输入：1x1x128；

MO-Net网络包括普通卷积和深度分离卷积，具体包括：

第一卷积层：普通卷积输入：48x48x3,卷积核：2x2；

第五卷积层：深度可分离卷积输入：5x5x64,深度卷积核：3x3；

全连接层：输入：1x1x128；

所述加载训练好的人脸检测模型包括：

6.如权利要求5所述的实时视频流人脸检测跟踪方法，其特征在于，所述调整一些参数用图片或者视频流测试人脸检测的方法包括：

7.如权利要求1所述的实时视频流人脸检测跟踪方法，其特征在于，步骤二中，所述当待检测图像中包含人脸且满足人脸跟踪条件，包括：

对待检测图像进行人脸跟踪处理的方法包括：

8.一种实时视频流人脸检测跟踪系统，其特征在于，所述实时视频流人脸检测跟踪系统包括：

9.一种实现权利要求1～7任意一项所述实时视频流人脸检测跟踪方法的信息数据处理终端。

10.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-7任意一项所述的实时视频流人脸检测跟踪方法。