CN110110649B - 基于速度方向的可选择性人脸检测方法 - Google Patents

基于速度方向的可选择性人脸检测方法 Download PDF

Info

Publication number
CN110110649B
CN110110649B CN201910365668.9A CN201910365668A CN110110649B CN 110110649 B CN110110649 B CN 110110649B CN 201910365668 A CN201910365668 A CN 201910365668A CN 110110649 B CN110110649 B CN 110110649B
Authority
CN
China
Prior art keywords
frame
detection
tracking target
target
pedestrian
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910365668.9A
Other languages
English (en)
Other versions
CN110110649A (zh
Inventor
曾勇
葛瑞
金楷
汪芳羽
董通
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201910365668.9A priority Critical patent/CN110110649B/zh
Publication of CN110110649A publication Critical patent/CN110110649A/zh
Application granted granted Critical
Publication of CN110110649B publication Critical patent/CN110110649B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于速度方向的可选择性人脸检测方法,主要解决现有技术检测效果差的问题。其实现方案是:1.采集摄像头拍摄的实时监控视频,对视频中所有行人进行目标检测,获取所有行人的检测框;2.构建并训练深度特征提取网络,将所有行人的检测框输入到该网络,得到所有检测框的特征向量;3.预测跟踪目标的状态向量,利用特征向量和预测的状态向量对跟踪目标进行关联匹配,得到最佳匹配检测框;4.获取行人最佳匹配检测框的速度方向,标注所有面向摄像头移动的行人;5.对所有带标注的行人提取其人脸区域,并将此作为最终检测结果。本发明的检测效果好,且适应性强,可用于摄像视频监控。

Description

基于速度方向的可选择性人脸检测方法
技术领域
本发明属于人脸识别技术领域,特别涉及一种可选择性的人脸检测方法,可用于摄像视频监控。
背景技术
目前,国际安全形势日益严峻,视频监控正在快速普及,众多的视频监控应用迫切需要一种用户非配合状态下的快速身份识别技术,实现智能预警。人脸识别是当前最具有潜力的可视化身份识别技术,符合人类的生理视觉习惯,有巨大的应用前景。
人脸检测是人脸识别过程中非常关键的一个环节,人脸检测的效果直接影响着人脸识别的精度,所以需要不断优化人脸检测算法,以提高人脸识别的效率。当前已出现了许多基于视频监控的人脸检测算法,例如:中国专利号CN201710386007.5提出了一种基于监控视频多目标跟踪和人脸识别的隐私保护方法。其通过卡尔曼滤波技术与匈牙利算法的结合,实现社区监控视频中社区内部人员与社区外来人员的持续跟踪和身份识别。该方法由于在目标追踪匹配成功后,仍然需要通过检测所有视频帧中匹配成功的行人区域得到人脸信息,并不是选择性的剔除视频帧中的部分行人区域以减少检测的图像数量,因而人脸检测效果差。
发明内容
本发明的目的在于针对上述视频中行人的人脸检测方法的不足,提出一种基于速度方向的可选择性人脸检测方法,以选择性的剔除运动目标的无效视频帧,减少图像检测数量,提高人脸检测效果。
为实现上述目的,本发明的技术方案包括如下:
1)对视频中所有行人生成目标检测边框;
2)跟踪预测所有行人下一帧的轨迹预测框:
2a)利用Kalman滤波预测每个跟踪目标下一帧的状态向量;
2b)基于目标检测算法YOLOv3,利用预测出的状态向量得到相应的轨迹预测框;
3)构建一个依次由两个卷积层、一个池化层、6个残差学习块、一个全连接层、一个BN层组成的深度特征提取网络;
4)从github网站上获取MARS视频数据集,用该视频数据集对3)构建的深度特征提取网络进行训练,得到训练好的深度特征提取网络;
5)对跟踪目标的轨迹预测框和下一帧中的所有检测框进行关联匹配,得到最佳匹配的检测框:
5a)基于预测框与每个检测框状态向量之间的马氏距离,评价预测框和所有检测框的运动状态关联程度;
5b)利用步骤4)训练好的深度特征提取网络,提取下一帧中的所有检测框的特征向量,基于跟踪目标的特征集与每个检测框的特征向量之间的余弦距离,评价当前跟踪目标和所有检测框的表观信息关联程度;
5c)将5a)得到的运动状态关联程度与5b)得到的表观信息关联程度这两种度量进行融合,得出跟踪目标的最佳匹配检测框;
6)利用步骤5)所得的最佳匹配检测框,计算最佳匹配检测框的移动速度,依据移动速度的正负判断行人是否面向摄像头移动:若行人的纵向移动速度为负,则判断为行人面向摄像头移动,标注面向摄像头的行人检测框;
7)对所有带标注的行人检测框,利用人脸检测算法SSH检测出所有的人脸区域。
本发明与现有技术相比具有以下优点:
(1)检测效果好。
传统的基于视频流的人脸检测方法直接对视频流中的所有目标进行检测,本发明是基于速度方向选择性地剔除运动目标的无效视频帧,使得检测效果更好。
(2)适应性强。
本发明在实时目标追踪过程中,提取目标的表观特征进行最近邻匹配,可以改善有遮挡情况下的目标追踪效果,适应性较强。
附图说明
图1为本发明的实现流程图;
图2为本发明中背向摄像头移动的人脸检测结果示意图;
图3为本发明中朝向摄像头移动的人脸检测结果示意图。
具体实施方式
下面结合附图对本发明的实例和效果进行详细说明。
参照图1,本发明的实现步骤如下:
步骤1,对视频中所有行人生成目标检测边框:
1a)采集摄像头拍摄的实时监控视频,如图2a和3a所示;
1b)利用目标检测算法YOLOv3对实时监控视频中进行目标检测,获取每一帧中每个行人的检测框:
1b1)从github网站上下载PASCAL VOC数据集及对应的标签文件;
1b2)从github网站上下载Darknet-53网络结构模型及训练参数文件,利用PASCALVOC数据集及标签文件训练Darknet-53网络,得到该网络最后一个残差学习块输出的特征图,下载的Darknet-53网络模型,其结构由52个卷积层、23个残差学习块,一个全连接层组成,其中有24个卷积层的卷积核大小为3*3、步长为1,5个卷积层的卷积核大小为3*3、步长为2,22个卷积层的卷积核大小为1*1、步长为1,所有残差学习块的内部结构由卷积核大小为1*1和3*3的卷积层连接而成,所有卷积层的内部结构由conv2d、BN、LeakyRelu三个子层组成;
1b3)将1b2)得到的特征图分为13×13、26×26、52×52这3种尺度的网格,对每个尺度的网格预测出多个边界框,每个边界框的预测结果包括中心点坐标、宽度、高度、objectness分数和类别;
1b4)根据objectness分数的阈值筛选边界框,并使用非极大值抑制NMS方法清除部分冗余的边界框,将所有被保留下来的边界框作为目标的检测框;
1c)提取实时监控视频第一帧的检测框信息,得到第一帧所有行人检测框的中心位置、纵横比、高度。
步骤2,跟踪预测所有行人下一帧的轨迹预测框。
2a)利用Kalman滤波方法预测每个跟踪目标下一帧的状态向量:
2a1)设当前帧中跟踪目标的集合为T={tra1,tra2,...,trai,...,tram},其中,trai表示第i个跟踪目标,i的取值范围为0≤i≤m,m表示当前帧中跟踪目标的数量;
2a2)取跟踪目标集合T的一个元素,设置此跟踪目标第t帧的状态向量为Xt
Figure BDA0002048095440000031
其中,(vt,ut)表示跟踪目标所在的检测框的位置坐标,st表示其检测框的纵横比,ht表示其检测框的高度,
Figure BDA0002048095440000032
表示与(vt,ut,st,ht)相对应的速度信息,速度信息初始值全设为0;
2a3)提取下一帧中跟踪目标的检测框信息,得到下一帧的状态向量测量值yt+1
2a4)计算跟踪目标下一帧的状态向量预测值
Figure BDA0002048095440000041
Figure BDA0002048095440000042
其中,F表示状态转移矩阵,
Figure BDA0002048095440000043
表示当前帧状态向量的最终预测值,ut表示跟踪目标运动状态的加速度,B表示加速度ut对当前状态的作用效果矩阵;
2a5)计算下一帧的误差协方差矩阵的预测值
Figure BDA0002048095440000044
Figure BDA0002048095440000045
其中,Σt表示当前帧的误差协方差矩阵,Q表示预测噪声的协方差矩阵;
2a6)根据2a5)所得的误差协方差矩阵的预测值,计算下一帧的卡尔曼增益Kt+1
Figure BDA0002048095440000046
其中,H表示状态变量到测量值的转移矩阵,R表示测量噪声的协方差矩阵,HT表示H的转置矩阵;
2a7)利用2a6)所得的卡尔曼增益和2a5)所得的误差协方差矩阵的预测值,更新修正下一帧的误差协方差矩阵Σt+1
Figure BDA0002048095440000047
其中,I表示单位矩阵,并将Σt+1作为下一帧的最终的误差协方差矩阵;
2a8)依据2a3)所得的状态向量测量值、2a4)所得的状态向量预测值和2a6)所得的卡尔曼增益,修正下一帧的状态向量预测值
Figure BDA0002048095440000048
Figure BDA0002048095440000049
并将
Figure BDA00020480954400000410
作为跟踪目标下一帧的状态向量最终预测值;
2a9)重复2a2),直到跟踪目标集合T的每个目标都已经计算出下一帧的状态向量最终预测值;
2b)基于目标检测算法YOLOv3,利用预测出的状态向量得到相应的轨迹预测框。
步骤3,构建深度特征提取网络。
该深度特征提取网络依此由第一卷积层conv1、第二卷积层conv2、池化层maxp、6个残差学习块、全连接层fc、BN层组成,其中:
第一残差学习块,包括第一BN层、第一Relu层、第三卷积层conv3、第二BN层、第二Relu层、第四卷积层conv4;
第二残差学习块,包括第三BN层、第三Relu层、第五卷积层conv5、第四BN层、第四Relu层、第六卷积层conv6;
第三残差学习块,包括第五BN层、第五Relu层、第七卷积层conv7、第六BN层、第六Relu层、第八卷积层conv8;
第四残差学习块,包括第七BN层、第七Relu层、第九卷积层conv9、第八BN层、第八Relu层、第是卷积层conv10;
第五残差学习块包括第九BN层、第九Relu层、第十一卷积层conv11、第十BN层、第十Relu层、第十二卷积层conv12;
第六残差学习块包括第十一BN层、第十一Relu层、第十三卷积层conv13、第十二BN层、第十二Relu层、第十四卷积层conv14。
步骤4,从github网站上获取MARS视频数据集,用该视频数据集对3)构建的深度特征提取网络进行训练,得到训练好的深度特征提取网络。
4a)从github网站上下载MARS视频数据集,并将其划分为训练数据集和测试数据集;
4b)设置深度特征提取网络的训练参数,其中,第一卷积层conv1、第二卷积层conv2的卷积核尺寸为3*3、步长为1;池化层maxp的卷积核大小为3*3、步长为2;6个残差学习块res1-res6的卷积层大小均为3*3、步长分别为1、1、2、1、2、1;学习率为衰减指数为0.1的指数衰减学习率;
4c)输入训练数据集到深度特征提取网络,反复迭代更新权值参数,最终得到训练好的深度特征提取网络。
步骤5,对跟踪目标的轨迹预测框和下一帧中的所有检测框进行关联匹配,得到最佳匹配的检测框,如图2b和3b所示。
5a)基于预测框与每个检测框状态向量之间的马氏距离,评价预测框和所有检测框的运动状态关联程度:
5a1)计算第i个跟踪目标的预测框与第j个检测框的马氏距离的平方d(1)(i,j):
Figure BDA0002048095440000051
其中,dj表示第j个检测框的状态向量,0≤j≤n,n为当前帧中检测框的总数,yi表示第i个跟踪目标的状态向量预测值,0≤i≤m,m为跟踪目标的总数,Si表示检测框与平均追踪位置之间的协方差矩阵,(dj-yi)T表示(dj-yi)的转置,Si -1表示Si的逆矩阵;
5a2)利用给定的阈值τ(1)=0.9877对5a1)的所有距离d(1)(i,j)进行评价:若存在k,使得d(1)(i,k)<τ(1)成立,则认为当前预测框与第k个检测框关联成功;反之,无关联;
5b)利用步骤4)训练好的深度特征提取网络,提取下一帧中的所有检测框的特征向量,基于跟踪目标的特征集与每个检测框的特征向量之间的余弦距离,评价当前跟踪目标和所有检测框的表观信息关联程度:
5b1)将跟踪目标所有检测框的信息输入到4)所得的深度特征提取网络中,得到所有检测框相应的128维特征向量;
5b2)对当前跟踪目标i构建一个特征集合
Figure BDA0002048095440000061
此集合由最近Lk帧跟踪目标成功关联的特征向量组成,当已跟踪成功的视频流不满100帧时,Lk取跟踪目标已成功关联的帧数,否则Lk=100,其中,
Figure BDA0002048095440000062
表示第i个跟踪目标最近关联成功的第k帧的特征向量,k的取值范围为[1,Lk];
5b3)计算第i个跟踪目标的特征集Ri与第j个检测框的特征向量rj间的最小余弦距离d(2)(i,j):
Figure BDA0002048095440000063
其中,j的取值范围为0≤j≤n,n为当前帧中检测框的总数;
5b4)依据给定的表观信息余弦阈值τ(2),对表观信息的关联程度进行评价:若存在k使得d(2)(i,k)<τ(2)成立,则当前跟踪目标与第k个检测框的表观信息关联成功;反之,无关联;
5b5)重复5b3),直到所有的检测框都进行了表观信息关联评价;
5c)将5a)得到的运动状态关联程度与5b)得到的表观信息关联程度这两种度量进行融合,得出跟踪目标的最佳匹配检测框:
5c1)计算综合度量距离ci,j
ci,j=λd(i)(i,j)+(1-λ)d(2)(i,j),
其中,λ取值范围为[0,1];
5c2)当综合度量距离ci,j为运动状态信息阈值τ(1)和表观信息余弦阈值τ(2)的交集时,认为最终关联成功;反之,无关联;
5c3)将最终关联成功的检测框,作为跟踪目标的最佳匹配检测框。
步骤6,根据行人最佳匹配检测框的速度方向,标注面向摄像头的行人检测框。
6a)依据步骤5所得的最佳匹配检测框,获取其状态向量Xt,得到行人的纵向移动速度为Xt[-3],即状态向量Xt的倒数第三个元素;
6b)依据行人的纵向移动速度Xt[-3]判断行人是否面向摄像头移动:若行人的移动速度Xt[-3]为负,则判断为行人面向摄像头移动,标注所有面向摄像头移动的行人检测框,如图3b所示;否则,判断为行人面向摄像头移动,并忽略此帧的目标跟踪结果,如图2c所示。
步骤7,对所有带标注的行人检测框,利用人脸检测算法SSH检测出所有的人脸区域,如图3c所示。
以上描述仅是本发明的一个具体实例,并未构成对本发明的任何限制,显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修改和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims (6)

1.基于速度方向的可选择性人脸检测方法,其特征在于,包括:
1)对视频中所有行人生成目标检测边框;
2)跟踪预测所有行人下一帧的轨迹预测框:
2a)利用Kalman滤波预测每个跟踪目标下一帧的状态向量,按如下步骤进行:
2a1)设当前帧中跟踪目标的集合为T={tra1,tra2,...,trai,...,tram},其中,trai表示第i个跟踪目标,i的取值范围为0≤i≤m,m表示当前帧中跟踪目标的数量;
2a2)取跟踪目标集合T的一个元素,设置此跟踪目标第t帧的状态向量为Xt
Figure FDA0004042268320000011
其中,(vt,ut)表示跟踪目标所在的检测框的位置坐标,st表示其检测框的纵横比,ht表示其检测框的高度,
Figure FDA0004042268320000012
表示与(vt,ut,st,ht)相对应的速度信息,速度信息初始值全设为0;
2a3)提取下一帧中跟踪目标的检测框信息,得到下一帧的状态向量测量值yt+1
2a4)计算跟踪目标下一帧的状态向量预测值
Figure FDA0004042268320000013
Figure FDA0004042268320000014
其中,F表示状态转移矩阵,
Figure FDA0004042268320000015
表示当前帧状态向量的最终预测值,ut表示跟踪目标运动状态的加速度,B表示加速度ut对当前状态的作用效果矩阵;
2a5)计算下一帧的误差协方差矩阵的预测值
Figure FDA0004042268320000016
Figure FDA0004042268320000017
其中,Σt表示当前帧的误差协方差矩阵,Q表示预测噪声的协方差矩阵;
2a6)根据2a5)所得的误差协方差矩阵的预测值,计算下一帧的卡尔曼增益Kt+1
Figure FDA0004042268320000018
其中,H表示状态变量到测量值的转移矩阵,R表示测量噪声的协方差矩阵,HT表示H的转置矩阵;
2a7)利用2a6)所得的卡尔曼增益和2a5)所得的误差协方差矩阵的预测值,更新修正下一帧的误差协方差矩阵Σt+1
Figure FDA0004042268320000021
其中,I表示单位矩阵,并将Σt+1作为下一帧的最终的误差协方差矩阵;
2a8)依据2a3)所得的状态向量测量值、2a4)所得的状态向量预测值和2a6)所得的卡尔曼增益,修正下一帧的状态向量预测值
Figure FDA0004042268320000022
Figure FDA0004042268320000023
并将
Figure FDA0004042268320000024
作为跟踪目标下一帧的状态向量最终预测值;
2a9)重复2a2),直到跟踪目标集合T的每个目标都已经计算出下一帧的状态向量最终预测值;
2b)基于目标检测算法YOLOv3,利用预测出的状态向量得到相应的轨迹预测框;
3)构建一个依次由两个卷积层、一个池化层、6个残差学习块、一个全连接层、一个BN层组成的深度特征提取网络;
4)从github网站上获取MARS视频数据集,用该视频数据集对3)构建的深度特征提取网络进行训练,得到训练好的深度特征提取网络;
5)对跟踪目标的轨迹预测框和下一帧中的所有检测框进行关联匹配,得到最佳匹配的检测框:
5a)基于预测框与每个检测框状态向量之间的马氏距离,评价预测框和所有检测框的运动状态关联程度,按如下步骤进行:
5a1)计算第i个跟踪目标的预测框与第j个检测框的马氏距离的平方d(1)(i,j):
Figure FDA0004042268320000025
其中,dj表示第j个检测框的状态向量,0≤j≤n,n为当前帧中检测框的总数,yi表示第i个跟踪目标的状态向量预测值,0≤i≤m,m为跟踪目标的总数,Si表示检测框与平均追踪位置之间的协方差矩阵,(dj-yi)T表示(dj-yi)的转置,Si -1表示Si的逆矩阵;
5a2)利用给定的阈值τ(1)=9.4877对5a1)的所有距离d(1)(i,j)进行评价:若存在k,使得d(1)(i,k)<τ(1)成立,则认为当前预测框与第k个检测框关联成功;反之,无关联;
5b)利用步骤4)训练好的深度特征提取网络,提取下一帧中的所有检测框的特征向量,基于跟踪目标的特征集与每个检测框的特征向量之间的余弦距离,评价当前跟踪目标和所有检测框的表观信息关联程度,按如下步骤进行:
5b1)将跟踪目标所有检测框的信息输入到4)所得的深度特征提取网络中,得到所有检测框相应的128维特征向量;
5b2)对当前跟踪目标i构建一个特征集合
Figure FDA0004042268320000031
此集合由最近Lk帧跟踪目标成功关联的特征向量组成,当已跟踪成功的视频流不满100帧时,Lk取跟踪目标已成功关联的帧数,否则Lk=100,其中,
Figure FDA0004042268320000032
表示第i个跟踪目标最近关联成功的第k帧的特征向量,k的取值范围为[1,Lk];
5b3)计算第i个跟踪目标的特征集Ri与第j个检测框的特征向量rj间的最小余弦距离d(2)(i,j):
Figure FDA0004042268320000033
其中,j的取值范围为0≤j≤n,n为当前帧中检测框的总数;
5b4)依据给定的表观信息余弦阈值τ(2),对表观信息的关联程度进行评价:若存在k使得d(2)(i,k)<τ(2)成立,则当前跟踪目标与第k个检测框的表观信息关联成功;反之,无关联;
5b5)重复5b3),直到所有的检测框都进行了表观信息关联评价;
5c)将5a)得到的运动状态关联程度与5b)得到的表观信息关联程度这两种度量进行融合,得出跟踪目标的最佳匹配检测框;按如下步骤进行:
5c1)计算综合度量距离ci,j
ci,j=λd(1)(i,j)+(1-λ)d(2)(i,j),
其中,λ取值范围为[0,1];
5c2)当综合度量距离ci,j为运动状态信息阈值τ(1)和表观信息余弦阈值τ(2)的交集时,认为最终关联成功;反之,无关联;
5c3)将最终关联成功的检测框,作为跟踪目标的最佳匹配检测框;
6)利用步骤5)所得的最佳匹配检测框,计算最佳匹配检测框的移动速度,依据移动速度的正负判断行人是否面向摄像头移动:若行人的纵向移动速度为负,则判断为行人面向摄像头移动,标注面向摄像头的行人检测框;
7)对所有带标注的行人检测框,利用人脸检测算法SSH检测出所有的人脸区域。
2.根据权利要求1所述的方法,其特征在于,1)中对视频中所有行人生成目标检测边框,按如下步骤进行:
1a)采集摄像头拍摄的实时监控视频;
1b)利用目标检测算法YOLOv3对实时监控视频中进行目标检测,获取每一帧中每个行人的检测框:
1b1)从github网站上下载PASCAL VOC数据集及对应的标签文件;
1b2)从github网站上下载Darknet-53网络结构模型及训练参数文件,利用PASCAL VOC数据集及标签文件训练Darknet-53网络,得到该网络最后一个残差学习块输出的特征图;
1b3)将1b2)得到的特征图分为13×13、26×26、52×52这3种尺度的网格,对每个尺度的网格预测出多个边界框,每个边界框的预测结果包括中心点坐标、宽度、高度、objectness分数和类别;
1b4)根据objectness分数的阈值筛选边界框,并使用非极大值抑制NMS清除部分冗余的边界框,将所有被保留下来的边界框作为目标的检测框;
1c)提取实时监控视频第一帧的检测框信息,得到所有行人检测框的中心位置、纵横比、高度。
3.根据权利要求1所述的方法,其特征在于,1b2)中下载的Darknet-53网络模型,其结构由52个卷积层、23个残差学习块,一个全连接层组成,其中有24个卷积层的卷积核大小为3*3、步长为1,5个卷积层的卷积核大小为3*3、步长为2,22个卷积层的卷积核大小为1*1、步长为1。
4.根据权利要求1所述的方法,其特征在于,步骤3)中构建的深度特征提取网络,其结构依此由第一卷积层conv1、第二卷积层conv2、池化层maxp、6个残差学习块res1-res6、全连接层fc、BN层组成,且每个残差学习块均依此由BN层、Relu层、卷积层、BN层、Relu层和卷积层构成。
5.根据权利要求1所述的方法,其特征在于,4)对深度特征提取网络进行训练,按如下步骤进行:
4a)从github网站上下载MARS视频数据集,并将其划分为训练数据集和测试数据集;
4b)设置深度特征提取网络的训练参数,其中,第一卷积层conv1、第二卷积层conv2的卷积核尺寸为3*3、步长为1;池化层maxp的卷积核大小为3*3、步长为2;6个残差学习块的卷积层大小均为3*3、步长分别为1、1、2、1、2、1;学习率为衰减指数为0.1的指数衰减学习率;
4c)输入训练数据集到深度特征提取网络,反复迭代更新权值参数,最终得到训练好的深度特征提取网络。
6.根据权利要求1所述的方法,其特征在于,6)中依据状态向量中移动速度的正负判断行人是否面向摄像头移动,标注面向摄像头的行人检测框,按如下步骤进行:
6a)依据步骤5)所得的最佳匹配检测框,获取其状态向量Xt,得到行人的纵向移动速度Xt[-3];
6b)依据行人的纵向移动速度Xt[-3]判断行人是否面向摄像头移动:若行人的移动速度Xt[-3]为负,则判断为行人面向摄像头移动,标注所有面向摄像头移动的行人检测框;否则,忽略此帧的目标跟踪结果。
CN201910365668.9A 2019-05-02 2019-05-02 基于速度方向的可选择性人脸检测方法 Active CN110110649B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910365668.9A CN110110649B (zh) 2019-05-02 2019-05-02 基于速度方向的可选择性人脸检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910365668.9A CN110110649B (zh) 2019-05-02 2019-05-02 基于速度方向的可选择性人脸检测方法

Publications (2)

Publication Number Publication Date
CN110110649A CN110110649A (zh) 2019-08-09
CN110110649B true CN110110649B (zh) 2023-04-07

Family

ID=67488032

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910365668.9A Active CN110110649B (zh) 2019-05-02 2019-05-02 基于速度方向的可选择性人脸检测方法

Country Status (1)

Country Link
CN (1) CN110110649B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110490910A (zh) * 2019-08-13 2019-11-22 顺丰科技有限公司 目标检测方法、装置、电子设备及存储介质
CN110929567B (zh) * 2019-10-17 2022-09-27 北京全路通信信号研究设计院集团有限公司 基于单目相机监控场景下目标的位置速度测量方法及系统
CN111161320B (zh) * 2019-12-30 2023-05-19 浙江大华技术股份有限公司 一种目标跟踪方法、目标跟踪装置及计算机可读介质
CN111242025B (zh) * 2020-01-13 2023-06-06 佛山科学技术学院 一种基于yolo的动作实时监测方法
CN111681264A (zh) * 2020-06-05 2020-09-18 浙江新再灵科技股份有限公司 一种监控场景的实时多目标跟踪方法
CN111815496A (zh) * 2020-06-11 2020-10-23 浙江大华技术股份有限公司 关联检测方法以及相关设备、装置
CN112016445B (zh) * 2020-08-27 2022-04-19 重庆科技学院 一种基于监控视频的遗留物检测方法
CN112330715A (zh) * 2020-10-09 2021-02-05 深圳英飞拓科技股份有限公司 一种跟踪方法、跟踪装置、终端设备及可读存储介质
CN112257587B (zh) * 2020-10-22 2023-12-22 无锡禹空间智能科技有限公司 目标对象的检测效果评估方法、装置、存储介质及设备
CN112800864B (zh) * 2021-01-12 2024-05-07 北京地平线信息技术有限公司 目标跟踪方法及装置、电子设备和存储介质
CN116563769B (zh) * 2023-07-07 2023-10-20 南昌工程学院 一种视频目标识别追踪方法、系统、计算机及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103500456A (zh) * 2013-10-22 2014-01-08 北京大学 一种基于动态贝叶斯模型网络的对象跟踪方法和设备
CN104915970A (zh) * 2015-06-12 2015-09-16 南京邮电大学 一种基于轨迹关联的多目标跟踪方法
CN107291910A (zh) * 2017-06-26 2017-10-24 图麟信息科技(深圳)有限公司 一种视频片段结构化查询方法、装置及电子设备
CN107563313A (zh) * 2017-08-18 2018-01-09 北京航空航天大学 基于深度学习的多目标行人检测与跟踪方法
CN108053427A (zh) * 2017-10-31 2018-05-18 深圳大学 一种基于KCF与Kalman的改进型多目标跟踪方法、系统及装置
CN108052859A (zh) * 2017-10-31 2018-05-18 深圳大学 一种基于聚类光流特征的异常行为检测方法、系统及装置
CN108257158A (zh) * 2018-03-27 2018-07-06 福州大学 一种基于循环神经网络的目标预测与跟踪方法
CN108363997A (zh) * 2018-03-20 2018-08-03 南京云思创智信息科技有限公司 一种在视频中对特定人的实时跟踪方法
CN108509859A (zh) * 2018-03-09 2018-09-07 南京邮电大学 一种基于深度神经网络的无重叠区域行人跟踪方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2359159B1 (en) * 2008-11-11 2019-05-15 Saab AB Sar radar system
US10628961B2 (en) * 2017-10-13 2020-04-21 Qualcomm Incorporated Object tracking for neural network systems

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103500456A (zh) * 2013-10-22 2014-01-08 北京大学 一种基于动态贝叶斯模型网络的对象跟踪方法和设备
CN104915970A (zh) * 2015-06-12 2015-09-16 南京邮电大学 一种基于轨迹关联的多目标跟踪方法
CN107291910A (zh) * 2017-06-26 2017-10-24 图麟信息科技(深圳)有限公司 一种视频片段结构化查询方法、装置及电子设备
CN107563313A (zh) * 2017-08-18 2018-01-09 北京航空航天大学 基于深度学习的多目标行人检测与跟踪方法
CN108053427A (zh) * 2017-10-31 2018-05-18 深圳大学 一种基于KCF与Kalman的改进型多目标跟踪方法、系统及装置
CN108052859A (zh) * 2017-10-31 2018-05-18 深圳大学 一种基于聚类光流特征的异常行为检测方法、系统及装置
CN108509859A (zh) * 2018-03-09 2018-09-07 南京邮电大学 一种基于深度神经网络的无重叠区域行人跟踪方法
CN108363997A (zh) * 2018-03-20 2018-08-03 南京云思创智信息科技有限公司 一种在视频中对特定人的实时跟踪方法
CN108257158A (zh) * 2018-03-27 2018-07-06 福州大学 一种基于循环神经网络的目标预测与跟踪方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Dynamic Hand Gesture Recognition Algorithm Based on CSI and YOLOv3;Qiang Zhang等;《2019 3rd International Conference on Artifical Intelligence,Automation and Control Technologies(AIACT 2019)》;20190425;第1-9页 *
基于高阶图跨时域关联的多目标跟踪算法的设计与实现;余小意;《硕士电子期刊信息科技辑》;20190215;第I138-1855页 *

Also Published As

Publication number Publication date
CN110110649A (zh) 2019-08-09

Similar Documents

Publication Publication Date Title
CN110110649B (zh) 基于速度方向的可选择性人脸检测方法
JP6759474B2 (ja) 深層学習ネットワーク及び平均シフトに基づく船舶自動追跡方法及びシステム
CN109492581B (zh) 一种基于tp-stg框架的人体动作识别方法
CN108710868B (zh) 一种基于复杂场景下的人体关键点检测系统及方法
CN107016357B (zh) 一种基于时间域卷积神经网络的视频行人检测方法
CN105069434B (zh) 一种视频中人体动作行为识别方法
CN102831618B (zh) 基于霍夫森林的视频目标跟踪方法
CN109064484B (zh) 基于子群组划分与动量特征融合的人群运动行为识别方法
CN112001339A (zh) 一种基于YOLO v4的行人社交距离实时监测方法
CN109934127B (zh) 基于视频图像与无线信号的行人识别与跟踪方法
CN111598066A (zh) 一种基于级联预测的安全帽佩戴识别方法
CN109977895B (zh) 一种基于多特征图融合的野生动物视频目标检测方法
CN111738218B (zh) 人体异常行为识别系统及方法
CN111767847B (zh) 一种集成目标检测和关联的行人多目标跟踪方法
CN108985204A (zh) 行人检测跟踪方法及装置
CN104680559A (zh) 基于运动行为模式的多视角室内行人跟踪方法
CN111353448A (zh) 基于相关性聚类和时空约束的行人多目标跟踪方法
CN106296743A (zh) 一种自适应运动目标跟踪方法及无人机跟踪系统
CN112052802A (zh) 一种基于机器视觉的前方车辆行为识别方法
CN113409252B (zh) 一种架空输电线路巡检机器人障碍物检测方法
CN111862145A (zh) 一种基于多尺度行人检测的目标跟踪方法
CN108734109A (zh) 一种面向图像序列的视觉目标跟踪方法及系统
CN113092807B (zh) 基于多目标跟踪算法的城市高架道路车辆测速方法
CN109448024B (zh) 利用深度数据构建约束相关滤波器的视觉跟踪方法、系统
CN109615007B (zh) 基于粒子滤波的深度学习网络目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant