CN110110649B

CN110110649B - 基于速度方向的可选择性人脸检测方法

Info

Publication number: CN110110649B
Application number: CN201910365668.9A
Authority: CN
Inventors: 曾勇; 葛瑞; 金楷; 汪芳羽; 董通
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-05-02
Filing date: 2019-05-02
Publication date: 2023-04-07
Anticipated expiration: 2039-05-02
Also published as: CN110110649A

Abstract

本发明公开了一种基于速度方向的可选择性人脸检测方法，主要解决现有技术检测效果差的问题。其实现方案是：1.采集摄像头拍摄的实时监控视频，对视频中所有行人进行目标检测，获取所有行人的检测框；2.构建并训练深度特征提取网络，将所有行人的检测框输入到该网络，得到所有检测框的特征向量；3.预测跟踪目标的状态向量，利用特征向量和预测的状态向量对跟踪目标进行关联匹配，得到最佳匹配检测框；4.获取行人最佳匹配检测框的速度方向，标注所有面向摄像头移动的行人；5.对所有带标注的行人提取其人脸区域，并将此作为最终检测结果。本发明的检测效果好，且适应性强，可用于摄像视频监控。

Description

基于速度方向的可选择性人脸检测方法

技术领域

本发明属于人脸识别技术领域，特别涉及一种可选择性的人脸检测方法，可用于摄像视频监控。

背景技术

目前，国际安全形势日益严峻，视频监控正在快速普及，众多的视频监控应用迫切需要一种用户非配合状态下的快速身份识别技术，实现智能预警。人脸识别是当前最具有潜力的可视化身份识别技术，符合人类的生理视觉习惯，有巨大的应用前景。

人脸检测是人脸识别过程中非常关键的一个环节，人脸检测的效果直接影响着人脸识别的精度，所以需要不断优化人脸检测算法，以提高人脸识别的效率。当前已出现了许多基于视频监控的人脸检测算法，例如：中国专利号CN201710386007.5提出了一种基于监控视频多目标跟踪和人脸识别的隐私保护方法。其通过卡尔曼滤波技术与匈牙利算法的结合，实现社区监控视频中社区内部人员与社区外来人员的持续跟踪和身份识别。该方法由于在目标追踪匹配成功后，仍然需要通过检测所有视频帧中匹配成功的行人区域得到人脸信息，并不是选择性的剔除视频帧中的部分行人区域以减少检测的图像数量，因而人脸检测效果差。

发明内容

本发明的目的在于针对上述视频中行人的人脸检测方法的不足，提出一种基于速度方向的可选择性人脸检测方法，以选择性的剔除运动目标的无效视频帧，减少图像检测数量，提高人脸检测效果。

为实现上述目的，本发明的技术方案包括如下：

1)对视频中所有行人生成目标检测边框；

2)跟踪预测所有行人下一帧的轨迹预测框：

2a)利用Kalman滤波预测每个跟踪目标下一帧的状态向量；

2b)基于目标检测算法YOLOv3，利用预测出的状态向量得到相应的轨迹预测框；

3)构建一个依次由两个卷积层、一个池化层、6个残差学习块、一个全连接层、一个BN层组成的深度特征提取网络；

4)从github网站上获取MARS视频数据集，用该视频数据集对3)构建的深度特征提取网络进行训练，得到训练好的深度特征提取网络；

5)对跟踪目标的轨迹预测框和下一帧中的所有检测框进行关联匹配，得到最佳匹配的检测框：

5a)基于预测框与每个检测框状态向量之间的马氏距离，评价预测框和所有检测框的运动状态关联程度；

5b)利用步骤4)训练好的深度特征提取网络，提取下一帧中的所有检测框的特征向量，基于跟踪目标的特征集与每个检测框的特征向量之间的余弦距离，评价当前跟踪目标和所有检测框的表观信息关联程度；

5c)将5a)得到的运动状态关联程度与5b)得到的表观信息关联程度这两种度量进行融合，得出跟踪目标的最佳匹配检测框；

6)利用步骤5)所得的最佳匹配检测框，计算最佳匹配检测框的移动速度，依据移动速度的正负判断行人是否面向摄像头移动：若行人的纵向移动速度为负，则判断为行人面向摄像头移动，标注面向摄像头的行人检测框；

7)对所有带标注的行人检测框，利用人脸检测算法SSH检测出所有的人脸区域。

本发明与现有技术相比具有以下优点：

(1)检测效果好。

传统的基于视频流的人脸检测方法直接对视频流中的所有目标进行检测，本发明是基于速度方向选择性地剔除运动目标的无效视频帧，使得检测效果更好。

(2)适应性强。

本发明在实时目标追踪过程中，提取目标的表观特征进行最近邻匹配，可以改善有遮挡情况下的目标追踪效果，适应性较强。

附图说明

图1为本发明的实现流程图；

图2为本发明中背向摄像头移动的人脸检测结果示意图；

图3为本发明中朝向摄像头移动的人脸检测结果示意图。

具体实施方式

下面结合附图对本发明的实例和效果进行详细说明。

参照图1，本发明的实现步骤如下：

步骤1，对视频中所有行人生成目标检测边框：

1a)采集摄像头拍摄的实时监控视频,如图2a和3a所示；

1b)利用目标检测算法YOLOv3对实时监控视频中进行目标检测，获取每一帧中每个行人的检测框：

1b1)从github网站上下载PASCAL VOC数据集及对应的标签文件；

1b2)从github网站上下载Darknet-53网络结构模型及训练参数文件，利用PASCALVOC数据集及标签文件训练Darknet-53网络，得到该网络最后一个残差学习块输出的特征图，下载的Darknet-53网络模型，其结构由52个卷积层、23个残差学习块，一个全连接层组成，其中有24个卷积层的卷积核大小为3*3、步长为1，5个卷积层的卷积核大小为3*3、步长为2，22个卷积层的卷积核大小为1*1、步长为1，所有残差学习块的内部结构由卷积核大小为1*1和3*3的卷积层连接而成，所有卷积层的内部结构由conv2d、BN、LeakyRelu三个子层组成；

1b3)将1b2)得到的特征图分为13×13、26×26、52×52这3种尺度的网格，对每个尺度的网格预测出多个边界框，每个边界框的预测结果包括中心点坐标、宽度、高度、objectness分数和类别；

1b4)根据objectness分数的阈值筛选边界框，并使用非极大值抑制NMS方法清除部分冗余的边界框，将所有被保留下来的边界框作为目标的检测框；

1c)提取实时监控视频第一帧的检测框信息，得到第一帧所有行人检测框的中心位置、纵横比、高度。

步骤2，跟踪预测所有行人下一帧的轨迹预测框。

2a)利用Kalman滤波方法预测每个跟踪目标下一帧的状态向量：

2a1)设当前帧中跟踪目标的集合为T＝{tra₁,tra₂,...,tra_i,...,tra_m}，其中，tra_i表示第i个跟踪目标，i的取值范围为0≤i≤m，m表示当前帧中跟踪目标的数量；

2a2)取跟踪目标集合T的一个元素，设置此跟踪目标第t帧的状态向量为X_t：

其中，(v_t,u_t)表示跟踪目标所在的检测框的位置坐标，s_t表示其检测框的纵横比，h_t表示其检测框的高度，

表示与(v_t,u_t,s_t,h_t)相对应的速度信息，速度信息初始值全设为0；

2a3)提取下一帧中跟踪目标的检测框信息，得到下一帧的状态向量测量值y_t+1；

2a4)计算跟踪目标下一帧的状态向量预测值

其中，F表示状态转移矩阵，

表示当前帧状态向量的最终预测值，u_t表示跟踪目标运动状态的加速度，B表示加速度u_t对当前状态的作用效果矩阵；

2a5)计算下一帧的误差协方差矩阵的预测值

其中，Σ_t表示当前帧的误差协方差矩阵，Q表示预测噪声的协方差矩阵；

2a6)根据2a5)所得的误差协方差矩阵的预测值，计算下一帧的卡尔曼增益K_t+1：

其中，H表示状态变量到测量值的转移矩阵，R表示测量噪声的协方差矩阵，H^T表示H的转置矩阵；

2a7)利用2a6)所得的卡尔曼增益和2a5)所得的误差协方差矩阵的预测值，更新修正下一帧的误差协方差矩阵Σ_t+1：

其中，I表示单位矩阵，并将Σ_t+1作为下一帧的最终的误差协方差矩阵；

2a8)依据2a3)所得的状态向量测量值、2a4)所得的状态向量预测值和2a6)所得的卡尔曼增益，修正下一帧的状态向量预测值

并将

作为跟踪目标下一帧的状态向量最终预测值；

2a9)重复2a2)，直到跟踪目标集合T的每个目标都已经计算出下一帧的状态向量最终预测值；

2b)基于目标检测算法YOLOv3，利用预测出的状态向量得到相应的轨迹预测框。

步骤3，构建深度特征提取网络。

该深度特征提取网络依此由第一卷积层conv1、第二卷积层conv2、池化层maxp、6个残差学习块、全连接层fc、BN层组成，其中：

第一残差学习块，包括第一BN层、第一Relu层、第三卷积层conv3、第二BN层、第二Relu层、第四卷积层conv4；

第二残差学习块，包括第三BN层、第三Relu层、第五卷积层conv5、第四BN层、第四Relu层、第六卷积层conv6；

第三残差学习块，包括第五BN层、第五Relu层、第七卷积层conv7、第六BN层、第六Relu层、第八卷积层conv8；

第四残差学习块，包括第七BN层、第七Relu层、第九卷积层conv9、第八BN层、第八Relu层、第是卷积层conv10；

第五残差学习块包括第九BN层、第九Relu层、第十一卷积层conv11、第十BN层、第十Relu层、第十二卷积层conv12；

第六残差学习块包括第十一BN层、第十一Relu层、第十三卷积层conv13、第十二BN层、第十二Relu层、第十四卷积层conv14。

步骤4，从github网站上获取MARS视频数据集，用该视频数据集对3)构建的深度特征提取网络进行训练，得到训练好的深度特征提取网络。

4a)从github网站上下载MARS视频数据集，并将其划分为训练数据集和测试数据集；

4b)设置深度特征提取网络的训练参数，其中，第一卷积层conv1、第二卷积层conv2的卷积核尺寸为3*3、步长为1；池化层maxp的卷积核大小为3*3、步长为2；6个残差学习块res1-res6的卷积层大小均为3*3、步长分别为1、1、2、1、2、1；学习率为衰减指数为0.1的指数衰减学习率；

4c)输入训练数据集到深度特征提取网络，反复迭代更新权值参数，最终得到训练好的深度特征提取网络。

步骤5，对跟踪目标的轨迹预测框和下一帧中的所有检测框进行关联匹配，得到最佳匹配的检测框，如图2b和3b所示。

5a)基于预测框与每个检测框状态向量之间的马氏距离，评价预测框和所有检测框的运动状态关联程度：

5a1)计算第i个跟踪目标的预测框与第j个检测框的马氏距离的平方d⁽¹⁾(i,j)：

其中，d_j表示第j个检测框的状态向量，0≤j≤n，n为当前帧中检测框的总数，y_i表示第i个跟踪目标的状态向量预测值，0≤i≤m，m为跟踪目标的总数，S_i表示检测框与平均追踪位置之间的协方差矩阵，(d_j-y_i)^T表示(d_j-y_i)的转置，S_i ^-1表示S_i的逆矩阵；

5a2)利用给定的阈值τ⁽¹⁾＝0.9877对5a1)的所有距离d⁽¹⁾(i,j)进行评价：若存在k，使得d⁽¹⁾(i,k)＜τ⁽¹⁾成立，则认为当前预测框与第k个检测框关联成功；反之，无关联；

5b)利用步骤4)训练好的深度特征提取网络，提取下一帧中的所有检测框的特征向量，基于跟踪目标的特征集与每个检测框的特征向量之间的余弦距离，评价当前跟踪目标和所有检测框的表观信息关联程度：

5b1)将跟踪目标所有检测框的信息输入到4)所得的深度特征提取网络中，得到所有检测框相应的128维特征向量；

5b2)对当前跟踪目标i构建一个特征集合

此集合由最近L_k帧跟踪目标成功关联的特征向量组成，当已跟踪成功的视频流不满100帧时，L_k取跟踪目标已成功关联的帧数，否则L_k＝100，其中，

表示第i个跟踪目标最近关联成功的第k帧的特征向量，k的取值范围为[1,L_k]；

5b3)计算第i个跟踪目标的特征集R_i与第j个检测框的特征向量r_j间的最小余弦距离d⁽²⁾(i,j)：

其中，j的取值范围为0≤j≤n，n为当前帧中检测框的总数；

5b4)依据给定的表观信息余弦阈值τ⁽²⁾，对表观信息的关联程度进行评价：若存在k使得d⁽²⁾(i,k)＜τ⁽²⁾成立，则当前跟踪目标与第k个检测框的表观信息关联成功；反之，无关联；

5b5)重复5b3)，直到所有的检测框都进行了表观信息关联评价；

5c)将5a)得到的运动状态关联程度与5b)得到的表观信息关联程度这两种度量进行融合，得出跟踪目标的最佳匹配检测框：

5c1)计算综合度量距离c_i,j：

c_i,j＝λd⁽ⁱ⁾(i,j)+(1-λ)d⁽²⁾(i,j)，

其中，λ取值范围为[0,1]；

5c2)当综合度量距离c_i,j为运动状态信息阈值τ⁽¹⁾和表观信息余弦阈值τ⁽²⁾的交集时，认为最终关联成功；反之，无关联；

5c3)将最终关联成功的检测框，作为跟踪目标的最佳匹配检测框。

步骤6，根据行人最佳匹配检测框的速度方向，标注面向摄像头的行人检测框。

6a)依据步骤5所得的最佳匹配检测框，获取其状态向量X_t，得到行人的纵向移动速度为X_t[-3]，即状态向量X_t的倒数第三个元素；

6b)依据行人的纵向移动速度X_t[-3]判断行人是否面向摄像头移动：若行人的移动速度X_t[-3]为负，则判断为行人面向摄像头移动，标注所有面向摄像头移动的行人检测框，如图3b所示；否则，判断为行人面向摄像头移动，并忽略此帧的目标跟踪结果，如图2c所示。

步骤7，对所有带标注的行人检测框，利用人脸检测算法SSH检测出所有的人脸区域，如图3c所示。

以上描述仅是本发明的一个具体实例，并未构成对本发明的任何限制，显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修改和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims

1.基于速度方向的可选择性人脸检测方法，其特征在于，包括：

1)对视频中所有行人生成目标检测边框；

2)跟踪预测所有行人下一帧的轨迹预测框：

2a)利用Kalman滤波预测每个跟踪目标下一帧的状态向量，按如下步骤进行：

2a4)计算跟踪目标下一帧的状态向量预测值

其中，F表示状态转移矩阵，

2a5)计算下一帧的误差协方差矩阵的预测值

并将

作为跟踪目标下一帧的状态向量最终预测值；

5a)基于预测框与每个检测框状态向量之间的马氏距离，评价预测框和所有检测框的运动状态关联程度，按如下步骤进行：

5a2)利用给定的阈值τ⁽¹⁾＝9.4877对5a1)的所有距离d⁽¹⁾(i,j)进行评价：若存在k，使得d⁽¹⁾(i,k)＜τ⁽¹⁾成立，则认为当前预测框与第k个检测框关联成功；反之，无关联；

5b)利用步骤4)训练好的深度特征提取网络，提取下一帧中的所有检测框的特征向量，基于跟踪目标的特征集与每个检测框的特征向量之间的余弦距离，评价当前跟踪目标和所有检测框的表观信息关联程度，按如下步骤进行：

5b2)对当前跟踪目标i构建一个特征集合

其中，j的取值范围为0≤j≤n，n为当前帧中检测框的总数；

5c)将5a)得到的运动状态关联程度与5b)得到的表观信息关联程度这两种度量进行融合，得出跟踪目标的最佳匹配检测框；按如下步骤进行：

5c1)计算综合度量距离c_i,j：

c_i,j＝λd⁽¹⁾(i,j)+(1-λ)d⁽²⁾(i,j)，

其中，λ取值范围为[0,1]；

5c3)将最终关联成功的检测框，作为跟踪目标的最佳匹配检测框；

2.根据权利要求1所述的方法，其特征在于，1)中对视频中所有行人生成目标检测边框，按如下步骤进行：

1a)采集摄像头拍摄的实时监控视频；

1b1)从github网站上下载PASCAL VOC数据集及对应的标签文件；

1b2)从github网站上下载Darknet-53网络结构模型及训练参数文件，利用PASCAL VOC数据集及标签文件训练Darknet-53网络，得到该网络最后一个残差学习块输出的特征图；

1b4)根据objectness分数的阈值筛选边界框，并使用非极大值抑制NMS清除部分冗余的边界框，将所有被保留下来的边界框作为目标的检测框；

1c)提取实时监控视频第一帧的检测框信息，得到所有行人检测框的中心位置、纵横比、高度。

3.根据权利要求1所述的方法，其特征在于，1b2)中下载的Darknet-53网络模型，其结构由52个卷积层、23个残差学习块，一个全连接层组成，其中有24个卷积层的卷积核大小为3*3、步长为1，5个卷积层的卷积核大小为3*3、步长为2，22个卷积层的卷积核大小为1*1、步长为1。

4.根据权利要求1所述的方法，其特征在于，步骤3)中构建的深度特征提取网络，其结构依此由第一卷积层conv1、第二卷积层conv2、池化层maxp、6个残差学习块res1-res6、全连接层fc、BN层组成，且每个残差学习块均依此由BN层、Relu层、卷积层、BN层、Relu层和卷积层构成。

5.根据权利要求1所述的方法，其特征在于，4)对深度特征提取网络进行训练，按如下步骤进行：

4b)设置深度特征提取网络的训练参数，其中，第一卷积层conv1、第二卷积层conv2的卷积核尺寸为3*3、步长为1；池化层maxp的卷积核大小为3*3、步长为2；6个残差学习块的卷积层大小均为3*3、步长分别为1、1、2、1、2、1；学习率为衰减指数为0.1的指数衰减学习率；

6.根据权利要求1所述的方法，其特征在于，6)中依据状态向量中移动速度的正负判断行人是否面向摄像头移动，标注面向摄像头的行人检测框，按如下步骤进行：

6a)依据步骤5)所得的最佳匹配检测框，获取其状态向量X_t，得到行人的纵向移动速度X_t[-3]；

6b)依据行人的纵向移动速度X_t[-3]判断行人是否面向摄像头移动：若行人的移动速度X_t[-3]为负，则判断为行人面向摄像头移动，标注所有面向摄像头移动的行人检测框；否则，忽略此帧的目标跟踪结果。