CN112836640A - 一种单摄像头多目标行人跟踪方法 - Google Patents

一种单摄像头多目标行人跟踪方法 Download PDF

Info

Publication number
CN112836640A
CN112836640A CN202110152400.4A CN202110152400A CN112836640A CN 112836640 A CN112836640 A CN 112836640A CN 202110152400 A CN202110152400 A CN 202110152400A CN 112836640 A CN112836640 A CN 112836640A
Authority
CN
China
Prior art keywords
pedestrian
tracker
detection
adopting
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110152400.4A
Other languages
English (en)
Other versions
CN112836640B (zh
Inventor
张江鑫
徐加斌
郑天悦
沈科纳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110152400.4A priority Critical patent/CN112836640B/zh
Publication of CN112836640A publication Critical patent/CN112836640A/zh
Application granted granted Critical
Publication of CN112836640B publication Critical patent/CN112836640B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4007Interpolation-based scaling, e.g. bilinear interpolation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

一种单摄像头多目标行人跟踪方法,首先利用安装于监控区域的摄像头采集行人视频图像,然后对采集到的图像大小进行相应的调整,然后将调整后的图像输入到经训练的改进后的YoloV4‑Tiny行人检测网络中,采用分箱法去除检测结果中的异常行人检测框,然后将筛选后的检测结果输入到DeepSort算法中进行行人的跟踪并记录跟踪信息,最后采用基于行人未匹配帧数和预测位置的矫正算法矫正异常消失的行人目标。本发明基于改进后的YoloV4‑Tiny、分箱法、改进后的DeepSort及行人未匹配帧数和预测位置的矫正方法,实现基本达到适用于现实场景所需的较高性能,具有多目标同时定位、定位准确、实时性强及稳定性高的优点。

Description

一种单摄像头多目标行人跟踪方法
技术领域
本发明涉及计算机视觉领域,具体是一种基于改进后的YoloV4-Tiny、分箱法、改进后的DeepSort及基于行人未匹配帧数和预测位置的矫正算法的单摄像头多目标行人跟踪方法。
背景技术
计算机视觉是指用摄像机和计算机代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理以获得需要的结果。近年来,随着计算机视觉技术的不断发展,计算机视觉已经是各个应用领域,如制造业、智能监控、虚拟现实、医院诊断和军事等领域中各种智能系统中不可分割的一部分。
行人跟踪作为当前计算机视觉中非刚性运动目标跟踪领域的热点问题,其目的是持续稳定地跟踪视频中的行人。然而,行人跟踪算法面临诸多挑战,如行人目标视点变化、目标尺度变换、目标遮挡、目标姿态多样化及光照条件突变等等,这些难点制约着行人跟踪技术的发展。
单摄像头多目标行人跟踪作为行人跟踪技术的一种具体形式,有着巨大的现实意义。例如,在医院,外科医生在手术前需要对手部进行严格的清洗,而现阶段监督这项工作主要还是靠人眼来判断并追责,通过单摄像头多目标的行人跟踪可以代替人眼锁定监控区域所有目标从而大大解放人的工作量。然而大部分现实应用场景下的行人跟踪需要达到高稳定性、高准确率以及高实时性的水平,因此如何研究出一种高性能的跟踪算法成为当前最为迫切的问题。
发明内容
为了克服已有技术的不足,本发明提供了一种基于改进后的YoloV4-Tiny、分箱法、改进后的DeepSort及基于行人未匹配帧数和预测位置的矫正方法,实现基本达到适用于现实场景所需的较高性能,具有多目标同时定位、定位准确、实时性强及稳定性高的优点。
本发明解决其技术问题所采用的技术方案是:
一种单摄像头多目标行人跟踪方法,所述方法包括以下步骤:
S1,利用安装于监控区域的摄像头采集行人视频图像,采用双三次插值算法调整视频图像大小;
S2,将调整后的行人视频图像输入到经训练后的改进的YoloV4-Tiny行人检测网络,得到每一帧的行人检测结果;
S3,采用分箱法去除YoloV4-Tiny检测到的异常行人检测框;
S4,采用改进后的DeepSort算法对单摄像头下检测到的所有行人目标的跟踪,并记录行人入场、出场时间以及轨迹;
S5,采用基于行人未匹配帧数和预测位置的矫正算法,矫正异常消失的行人目标。
进一步,所述步骤S1的过程为:
将摄像头固定安装于监控区域,确保能够完整拍摄到行人正常活动的区域,同时尽可能避免重叠视角;
根据计算机硬件情况及检测帧率的要求,将摄像头的拍摄帧率进行调整;
对摄像头拍摄到的视频图像采用双三次插值算法调整到416*416大小。
再进一步,所述步骤S2的过程为:
截取VOC2007中包含行人部分的数据集,并去除图片中非行人部分的标注框得到用于训练的数据集;
采用FCM算法对数据集进行候选框聚类,并将得到的6个候选框输入YoloV4-Tiny网络中用于检测模型的训练;
将YoloV4-Tiny中的轻量级激活函数由LeakyReLU改进为无上界有下界、平滑、非单调的hard-swish激活函数,以及将特征融合模块由FPN改进为自适应的ASFF模块;
采用Mosaic算法对数据集进行数据扩展,然后将扩展后的数据集放入YoloV4-Tiny网络中,并采用模拟余弦退火算法控制学习率进行训练,得到训练好的检测模型;
利用训练好的检测模型对处理后的视频图像中的所有行人目标进行检测。
更进一步,所述步骤S3的过程为:
将检测到的视频图像中的所有行人目标按其在图片上的位置等间距划分为3*3共9类,每类记录1000个行人目标检测框;
采用分箱法分别对每类检测框进行计算,得到各类检测框宽高的最大阈值和最小阈值;
去除检测到的行人检测框宽或高大于对应最大阈值或小于对应最小阈值的部分。
所述步骤S4的过程为:
使用卡尔曼滤波器对YoloV4-Tiny模型获取到的当前帧检测结果进行预测,得到下一帧的人物运动信息,并利用训练好的深度特征网络计算当前帧中所有人物的128维深度特征信息;
将DeepSort算法中计算深度特征余弦距离的算法由求当前检测框中人物的128维深度特征信息与跟踪器库中人物的128维深度特征信息之间的最小余弦距离改进为求检测框中人物的128维深度特征信息与跟踪器库中最近添加的人物的128维深度特征信息的余弦距离与最小余弦距离之间的平均值;
利用基于外观信息的马氏距离计算所有跟踪器和检测结果之间的代价矩阵,然后相继进行级联匹配和IOU匹配,最后得到当前帧的所有匹配对、未匹配的跟踪器以及未匹配的检测结果;
记录每个匹配成功的跟踪器的轨迹,用其对应的检测结果更新卡尔曼滤波器,当跟踪器匹配成功次数等于3时,记录该跟踪器所代表的行人编号以及此刻时间。并处理未匹配的跟踪器和检测结果,当跟踪器未匹配次数大于20时,记录该跟踪器所代表的行人编号以及此刻时间。
所述步骤S5的过程为:
记录未成功匹配达到10帧的跟踪器Tmiss及其预测的行人位置
Figure BDA0002932920630000041
和代表的行人编号
Figure BDA0002932920630000042
同时记录当前帧中小于5帧未成功匹配的跟踪器且该跟踪器预测的位置与
Figure BDA0002932920630000043
之间的欧式距离大于所设阈值,记为
Figure BDA0002932920630000044
当所记录的Tmiss未成功匹配帧数达到20时,开始计算后续帧中满足未成功匹配帧数小于3且代表的行人编号不在
Figure BDA0002932920630000045
中的跟踪器所预测的位置与
Figure BDA0002932920630000046
之间的欧式距离;
若计算得到的欧式距离小于阈值且该跟踪器所代表的行人编号不在
Figure BDA0002932920630000047
中,则将该跟踪器编号替换为已经确定消失的跟踪器Tmiss所代表的行人编号
Figure BDA0002932920630000048
反之则将Tmiss未成功匹配次数加1,当未成功匹配次数达到35时,不再对该跟踪器Tmiss进行匹配。
本发明的有益效果主要表现在:通过在YoloV4-Tiny特征融合网络部分加入自适应的ASFF模块,解决FPN多层间不同特征尺度之间的不一致性问题,更好地融合不同尺度的特征;将激活函数由Leakyrule改进为无上界有下界、平滑、非单调的hard-swish激活函数,以提高模型精度;采用FCM算法聚类,从而得到类内距离更小、类间距离更大的候选框;进一步,采用分箱法去除异常行人检测框,从而提高输入DeepSort中数据的准确性;改进DeepSort中深度特征余弦距离的计算方法,从而提高获得的深度特征距离的准确性;采用基于行人未匹配帧数和预测位置的矫正算法矫正异常消失的行人目标,使得行人跟踪具有更高的准确率以及稳定性。
附图说明
图1为本发明所采用的单摄像头多目标行人跟踪方法的整体结构示意图。
图2为本发明所采用的改进后的YoloV4-Tiny行人检测网络训练的流程示意图。
图3为本发明所采用的hard-swish激活函数的曲线图。
图4为本发明所采用的ASFF向上融合部分的网络结构图。
图5为本发明所采用的ASFF向下融合部分的网络结构图。
图6为本发明所采用的分箱法异常数据检测的原理示意图。
图7为本发明所采用的跟踪结果矫正的流程示意图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图7,一种单摄像头多目标行人跟踪方法,首先利用安装于监控区域的摄像头采集行人视频图像,然后对采集到的图像大小进行相应的调整,然后将调整后的图像输入到经训练的改进后的YoloV4-Tiny行人检测网络中,采用分箱法去除检测结果中的异常行人检测框,然后将筛选后的检测结果输入到DeepSort算法中进行行人的跟踪并记录跟踪信息,最后采用基于行人未匹配帧数和预测位置的矫正算法矫正异常消失的行人目标。
本实施例的单摄像头多目标行人跟踪方法,包括以下步骤:
S1,利用安装于监控区域的摄像头采集行人视频图像,采用双三次插值算法调整视频图像大小;
S2,将调整后的行人视频图像输入到经训练后的改进的YoloV4-Tiny行人检测网络,得到每一帧的行人检测结果;
S3,采用分箱法去除YoloV4-Tiny检测到的异常行人检测框;
S4,采用改进后的DeepSort算法对单摄像头下检测到的所有行人目标的跟踪,并记录行人入场、出场时间以及轨迹;
S5,采用基于行人未匹配帧数和预测位置的矫正算法,矫正异常消失的行人目标。
本申请实施例中,所述步骤S1中,根据所述利用安装于监控区域的摄像头采集行人视频图像,采用双三次插值算法调整视频图像大小,过程为:
将摄像头固定安装于监控区域,确保能够完整拍摄到行人正常活动的区域,同时尽可能避免重叠视角。
根据计算机硬件情况及检测帧率的要求,将摄像头的拍摄帧率进行适当调整。
对摄像头拍摄到的视频图像采用双三次插值算法调整到416*416大小,双三次插值算法流程如下:
构造BiCubic函数,如式(1)所示:
Figure BDA0002932920630000061
其中x表示像素点坐标,a取-0.5。
对待插值的像素点,取其附近的4*4邻域点,按式(2)进行插值计算。
Figure BDA0002932920630000062
其中x、y分别表示待插值像素点的横轴纵坐标,i、j分别表示邻域点距待插值像素点的横轴间隔像素点,w表示BiCubic函数。
本申请实施例中,所述步骤S2中,根据所述将调整后的行人视频图像输入到经训练后的改进的YoloV4-Tiny行人检测网络,得到每一帧的行人检测结果,过程为:
根据VOC2007的xml文件中所标注的类别信息,筛选其中包含行人部分的数据集,并利用labelImg标签制作工具去除筛选得到的图片中非行人部分的标注框得到用于训练的数据集。
采用FCM算法对所有标签文件中的标注框大小进行聚类,得到6个用于YoloV4-Tiny网络检测行人的候选框,实现过程如下所述:
将所有标注框定义为xj,所需聚类的6个聚类中心为ci。FCM的目标函数如式(3)所示:
Figure BDA0002932920630000071
其中,
Figure BDA0002932920630000072
指的就是隶属度值,即标注框xj对类别ci的隶属程度,所有标注框xj对任一类别ci的隶属度的和总等于1,如式(4)所示;
Figure BDA0002932920630000073
表示元素xj跟聚类中心ci之间的距离,J表示各个标注框到各个类的加权距离的和,m表示模糊化程度的参数。
Figure BDA0002932920630000074
聚类要达到的最终效果就是类内相似度最小,类间相似度最大,这个时候点和中心的加权距离之和就是最小的,因此目标函数取最小值,所以最优解的的表达式如式(5)所示:
Figure BDA0002932920630000075
综合上述约束条件,最后构造拉格朗日函数求极小值,如式(6)所示:
Figure BDA0002932920630000076
其中F表示约束条件下各个标注框到各个类的加权距离的和,λj表示引入的拉格朗日超参数。
对上述拉格朗日函数求偏导,最后得到关于聚类中心位置ci以及隶属度值uij的两个等式,分别如式(7)、式(8)所示:
Figure BDA0002932920630000077
Figure BDA0002932920630000078
利用式(7)、式(8)对所有标注框进行多次迭代,最后得到6个候选框。
将YoloV4-Tiny中的激活函数改进为hard-swish激活函数,该函数的曲线图如图3所示,其具体计算方式如式(9)所示。
Figure BDA0002932920630000079
其中y表示输出,x表示输入,RELU6表示将上限设置为6的RELU激活函数。
hard-swish激活函数相比YoloV4-Tiny采用的LeakyReLU激活函数具有更平滑的曲线,可以进一步的加速模型的训练以及防止模型在训练的过程中产生过拟合现象。
在YoloV4-Tiny特征融合网络部分加入自适应的ASFF模块,其具体网络结构如图4、图5所示,以此解决FPN多层间不同特征尺度之间的不一致性问题,更好地融合不同尺度的特征,其具体原理如式(10)所示:
Figure BDA0002932920630000081
其中i、j分别表示对应特征图上横纵坐标,l表示特征图的序号,x表示需要融合的特征图,y表示融合后的结果,α和β表示0-1的权重,两者的和为1。
通过对式(10)近似和偏导数的链式法则计算后可以得到训练过程中梯度下降式(11):
Figure BDA0002932920630000082
如式(11)所示,ASFF在训练过程对参数进行梯度下降时,有参数α和β来控制下降的方向,以此解决在不同特征图相同位置上表示的样本极性不同而导致梯度下降出现干扰的情况。
采用Mosaic算法对数据集进行扩充,实现思路如下:
首先读取四张图片,接着分别对四张图片进行翻转、缩放、色域变化等,并且按照四个方向位置摆好,最后将处理后的图片和图片中包含的标注框进行组合,从而得到新的图片。
将FCM算法聚类得到的6个候选框以及Mosaic算法扩充后的数据集输入到YoloV4-Tiny网络中进行行人检测模型的训练,训练的Loss函数如式(12)所示。
Figure BDA0002932920630000083
其中,
Figure BDA0002932920630000084
为预测框坐标误差,
Figure BDA0002932920630000085
为预测框与标注框之间的IOU误差,
Figure BDA0002932920630000091
为分类误差。
训练过程中采用模拟余弦退火算法对学习率进行动态控制,具体控制方法如式(13)所示:
Figure BDA0002932920630000092
其中,
Figure BDA0002932920630000093
Figure BDA0002932920630000094
表示第i次重启后的最小学习率和最大学习率,Tcur表示当前训练epoch中的iteration数,Ti表示第i个epoch中共含有的iteration数,nt表示当前学习率大小。
利用上述学习率控制算法,首先冻结YoloV4-Tiny网络的前60层,在预训练权重的基础上进行50个epoch的迁移学习,接着在网络的所有层上再进行170个epoch的学习,最后保留验证集上损失最低的训练结果,得到训练好的用于检测行人的模型,具体流程如图2所示。
利用训练好的检测模型对处理后的视频图像中的所有行人目标进行检测。
本申请实施例中,所述步骤S3中,根据所述采用分箱法去除YoloV4-Tiny检测到的异常行人检测框,过程为:
将检测到的视频图像中的所有行人目标按其在图片上的位置等间距划分为3*3共9类,每类记录1000个行人目标检测框。
采用分箱法分别对每类检测框进行计算,得到各类检测框宽高的最大阈值和最小阈值。分箱法的原理如图6所示,其具体策略如下所述:
对所有的数据进行统计,得到上四分位数QU及下四分位数QL,分别表示全部数据中有四分之一的数据取值比它大和全部数据中有四分之一的数据取值比它小。
计算上四分位数QU与下四分位数QL的差值,得到四分位数间距IQR。
最后将上四分位数QU加上1.5倍的四分位数间距IQR即所求最大阈值;将下四分位数QL减去1.5倍的四分位数间距IQR即所求最小阈值。
采用分箱法分别对9类检测框的宽高进行统计,得出对应的最大阈值和最小阈值。
去除检测到的行人检测框宽或高大于对应最大阈值或小于对应最小阈值的部分。
本申请实施例中,所述步骤S4中,根据所述采用改进后的DeepSort算法对单摄像头下检测到的所有行人目标的跟踪,并记录行人入场、出场时间以及轨迹,过程为:
根据处理后的行人检测结果,截取原图中包含行人的部分,然后利用训练好的深度特征网络计算该画面中行人目标的128维深度特征信息。
使用一个基于匀速模型和线性观测模型的标准卡尔曼滤波器进行目标状态的预测,具体预测流程如下所述:
预测指基于跟踪器在视频中前一帧的状态来预测其在当前帧的状态,如式(14)、式(15)所示:
x′t=Fxt-1 (14)
其中x′t表示跟踪器在t帧的预测均值,xt-1表示跟踪器在t-1帧中的均值,F表示对应的状态转移矩阵。均值由8维向量表示[cx,cy,r,h,vx,vy,vr,vh],分别是框中心点x轴大小,框中心点y轴大小,宽高比r,高h,以及各自的速度变化值。
P′t=FPt-1FT+Q (15)
其中P′t为跟踪器在第t帧中的预测协方差;Pt-1为跟踪器在第t-1帧中的协方差;Q为系统的噪声矩阵,代表整个系统的可靠程度;
将跟踪器的预测结果与检测结果进行级联匹配,流程如下所述:
首先使用检测框和跟踪器的预测框之间的马氏距离来进行运动信息的关联,如式(16)所示:
Figure BDA0002932920630000101
其中dj表示第j个检测框的位置,yi表示第i个跟踪器的预测框位置,Si表示检测位置与平均跟踪位置之间的协方差矩阵。
若计算得到的d(1)(i,j)小于指定的阈值t(1),则表示运动状态关联成功,一般设阈值为9.4877。
其次计算当前帧第j个检测结果与第i个跟踪器的最近100个成功关联的特征集的特征向量间的最小余弦距离与最新添加进特征集的特征向量间的余弦距离和的平均值,如式(17)所示:
d(2)(i,j)=(min{1-rj Trk (i)|rk (i)∈Ri}+1-rj Trlast (i))/2 (17)
其中rj表示第j个检测结果的特征向量,rk (i)表示第i个跟踪器的第k个特征向量,rlast (i)表示第i个跟踪器最新添加近特征集的特征向量,Ri表示第i个跟踪器的最近100个成功关联的特征集。
若所得平均余弦距离小于设定的阈值,则表示外观信息关联成功。
利用公式(18)将公式(16)与公式(17)通过阈值处理后的计算结果结合起来,即以外观距离为主,将运动距离作为门限矩阵进一步过滤代价矩阵。
Figure BDA0002932920630000111
其中bij (1)表示式(16)通过阈值处理后的门限矩阵,bij (2)表示式(17)通过阈值处理后的代价矩阵,bi,j表示通过过滤后的代价矩阵。
为解决由于轨迹被遮挡较长的时间卡尔曼滤波器在不断预测中导致的概率弥散问题,采用级联匹配的思想,即按跟踪器未成功匹配次数从小到大的顺序对过滤后的代价矩阵进行匈牙利匹配。
最后对未匹配上的跟踪器进行基于IOU的匹配,缓解因为表观突变或者部分遮挡导致的较大变化。
IOU匹配即计算未匹配上的跟踪器和检测结果这些框两两之间的iou,再由1-iou得到代价矩阵并作为匈牙利算法输入,得到线性匹配结果。
记录每个匹配成功的跟踪器的轨迹,用其对应的检测结果更新卡尔曼滤波器的参数,当跟踪器匹配成功次数等于3时,记录该跟踪器所代表的行人编号以及此刻时间即入场时间。对于未匹配成功的跟踪器,若其匹配成功次数小于3,直接删去该跟踪器;若其匹配成功次数大于3,将其未匹配成功次数加1,当累计到20时,记录该跟踪器所代表的行人编号以及此刻时间即出场时间。
本申请实施例中,所述步骤S5中,根据所述采用基于行人未匹配帧数和预测位置的矫正算法,矫正异常消失的行人目标,过程为:
需要说明的是,由于行人走动容易产生重叠,从而导致行人跟踪编号丢失、交换,对跟踪结果的矫正可有效解决此类现象从而提高跟踪的稳定性及准确率,跟踪结果的矫正流程如图7所示,其具体策略如下所述:
记录未成功匹配达到10帧的跟踪器Tmiss及其预测的行人位置
Figure BDA0002932920630000121
和代表的行人编号
Figure BDA0002932920630000122
同时记录当前帧中小于5帧未成功匹配的跟踪器且该跟踪器预测的位置与
Figure BDA0002932920630000123
之间的欧式距离大于所设阈值,记为
Figure BDA0002932920630000124
若Tmiss在未达到20帧时成功匹配检测到的行人,则将该Tmiss删除,不再对其进行后续操作。
当所记录的Tmiss未成功匹配帧数达到20时,开始计算后续帧中满足未成功匹配帧数小于3且代表的行人编号不在
Figure BDA0002932920630000125
中的跟踪器所预测的位置与
Figure BDA0002932920630000126
之间的欧式距离。
若计算得到的欧式距离小于阈值且该跟踪器所代表的行人编号不在
Figure BDA0002932920630000127
中,则将该跟踪器编号替换为已经确定消失的跟踪器Tmiss所代表的行人编号
Figure BDA0002932920630000128
反之则将Tmiss未成功匹配次数加1,当未成功匹配次数达到35时,不再对该跟踪器Tmiss进行匹配。
根据上述步骤,即可实现一种单摄像头多目标实时行人跟踪方法。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;对本领域的普通技术人员来说,可以根据上述说明加以改进,或者对其中部分或者全部技术特征进行等同变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (6)

1.一种单摄像头多目标行人跟踪方法,其特征在于,所述方法包括以下步骤:
S1,利用安装于监控区域的摄像头采集行人视频图像,采用双三次插值算法调整视频图像大小;
S2,将调整后的行人视频图像输入到经训练后的改进的YoloV4-Tiny行人检测网络,得到每一帧的行人检测结果;
S3,采用分箱法去除YoloV4-Tiny检测到的异常行人检测框;
S4,采用改进后的DeepSort算法对单摄像头下检测到的所有行人目标的跟踪,并记录行人入场、出场时间以及轨迹;
S5,采用基于行人未匹配帧数和预测位置的矫正算法,矫正异常消失的行人目标。
2.如权利要求1所述的一种单摄像头多目标行人跟踪方法,其特征在于,所述步骤S1的过程为:
将摄像头固定安装于监控区域,确保能够完整拍摄到行人正常活动的区域,同时尽可能避免重叠视角;
根据计算机硬件情况及检测帧率的要求,将摄像头的拍摄帧率进行调整;
对摄像头拍摄到的视频图像采用双三次插值算法调整到416*416大小。
3.如权利要求1或2所述的一种单摄像头多目标行人跟踪方法,其特征在于,所述步骤S2的过程为:
截取VOC2007中包含行人部分的数据集,并去除图片中非行人部分的标注框得到用于训练的数据集;
采用FCM算法对数据集进行候选框聚类,并将得到的6个候选框输入YoloV4-Tiny网络中用于检测模型的训练;
将YoloV4-Tiny中的轻量级激活函数由LeakyReLU改进为无上界有下界、平滑、非单调的hard-swish激活函数,以及将特征融合模块由FPN改进为自适应的ASFF模块;
采用Mosaic算法对数据集进行数据扩展,然后将扩展后的数据集放入YoloV4-Tiny网络中,并采用模拟余弦退火算法控制学习率进行训练,得到训练好的检测模型;
利用训练好的检测模型对处理后的视频图像中的所有行人目标进行检测。
4.如权利要求1或2所述的一种单摄像头多目标行人跟踪方法,其特征在于,所述步骤S3的过程为:
将检测到的视频图像中的所有行人目标按其在图片上的位置等间距划分为3*3共9类,每类记录1000个行人目标检测框;
采用分箱法分别对每类检测框进行计算,得到各类检测框宽高的最大阈值和最小阈值;
去除检测到的行人检测框宽或高大于对应最大阈值或小于对应最小阈值的部分。
5.如权利要求1或2所述的一种单摄像头多目标行人跟踪方法,其特征在于,所述步骤S4的过程为:
使用卡尔曼滤波器对YoloV4-Tiny模型获取到的当前帧检测结果进行预测,得到下一帧的人物运动信息,并利用训练好的深度特征网络计算当前帧中所有人物的128维深度特征信息;
将DeepSort算法中计算深度特征余弦距离的算法由求当前检测框中人物的128维深度特征信息与跟踪器库中人物的128维深度特征信息之间的最小余弦距离改进为求检测框中人物的128维深度特征信息与跟踪器库中最近添加的人物的128维深度特征信息的余弦距离与最小余弦距离之间的平均值;
利用基于外观信息的马氏距离计算所有跟踪器和检测结果之间的代价矩阵,然后相继进行级联匹配和IOU匹配,最后得到当前帧的所有匹配对、未匹配的跟踪器以及未匹配的检测结果;
记录每个匹配成功的跟踪器的轨迹,用其对应的检测结果更新卡尔曼滤波器,当跟踪器匹配成功次数等于3时,记录该跟踪器所代表的行人编号以及此刻时间,并处理未匹配的跟踪器和检测结果,当跟踪器未匹配次数大于20时,记录该跟踪器所代表的行人编号以及此刻时间。
6.如权利要求1或2所述的一种单摄像头多目标行人跟踪方法,其特征在于,所述步骤S5的过程为:
记录未成功匹配达到10帧的跟踪器Tmiss及其预测的行人位置
Figure FDA0002932920620000021
和代表的行人编号
Figure FDA0002932920620000022
同时记录当前帧中小于5帧未成功匹配的跟踪器且该跟踪器预测的位置与
Figure FDA0002932920620000023
之间的欧式距离大于所设阈值,记为
Figure FDA0002932920620000024
当所记录的Tmiss未成功匹配帧数达到20时,开始计算后续帧中满足未成功匹配帧数小于3且代表的行人编号不在
Figure FDA0002932920620000025
中的跟踪器所预测的位置与
Figure FDA0002932920620000026
之间的欧式距离;
若计算得到的欧式距离小于阈值且该跟踪器所代表的行人编号不在
Figure FDA0002932920620000027
中,则将该跟踪器编号替换为已经确定消失的跟踪器Tmiss所代表的行人编号
Figure FDA0002932920620000028
反之则将Tmiss未成功匹配次数加1,当未成功匹配次数达到35时,不再对该跟踪器Tmiss进行匹配。
CN202110152400.4A 2021-02-04 2021-02-04 一种单摄像头多目标行人跟踪方法 Active CN112836640B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110152400.4A CN112836640B (zh) 2021-02-04 2021-02-04 一种单摄像头多目标行人跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110152400.4A CN112836640B (zh) 2021-02-04 2021-02-04 一种单摄像头多目标行人跟踪方法

Publications (2)

Publication Number Publication Date
CN112836640A true CN112836640A (zh) 2021-05-25
CN112836640B CN112836640B (zh) 2024-04-19

Family

ID=75931841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110152400.4A Active CN112836640B (zh) 2021-02-04 2021-02-04 一种单摄像头多目标行人跟踪方法

Country Status (1)

Country Link
CN (1) CN112836640B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743260A (zh) * 2021-08-23 2021-12-03 北京航空航天大学 一种地铁站台密集人流情况下的行人跟踪方法
CN113962282A (zh) * 2021-08-19 2022-01-21 大连海事大学 一种基于改进YOLOv5L+DeepSort的船舶机舱火灾实时检测系统及方法
CN114067564A (zh) * 2021-11-15 2022-02-18 武汉理工大学 一种基于yolo的交通状况综合监测方法
CN115242421A (zh) * 2022-03-28 2022-10-25 清华大学 基于网络空间地图的网络异常检测方法及装置
CN115375736A (zh) * 2022-10-25 2022-11-22 威海市博华医疗设备有限公司 一种基于图像的行人轨迹跟踪方法和装置
CN117475135A (zh) * 2023-10-30 2024-01-30 北京中电联达信息技术有限公司 一种目标图像识别和稳定跟踪方法与系统
CN113627497B (zh) * 2021-07-27 2024-03-12 武汉大学 一种基于时空约束的跨摄像头行人轨迹匹配方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111127513A (zh) * 2019-12-02 2020-05-08 北京交通大学 一种多目标跟踪方法
CN111476817A (zh) * 2020-02-27 2020-07-31 浙江工业大学 一种基于yolov3的多目标行人检测跟踪方法
CN111488795A (zh) * 2020-03-09 2020-08-04 天津大学 应用于无人驾驶车辆的实时行人跟踪方法
CN111860282A (zh) * 2020-07-15 2020-10-30 中国电子科技集团公司第三十八研究所 地铁断面客流量统计和行人逆行检测方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111127513A (zh) * 2019-12-02 2020-05-08 北京交通大学 一种多目标跟踪方法
CN111476817A (zh) * 2020-02-27 2020-07-31 浙江工业大学 一种基于yolov3的多目标行人检测跟踪方法
CN111488795A (zh) * 2020-03-09 2020-08-04 天津大学 应用于无人驾驶车辆的实时行人跟踪方法
CN111860282A (zh) * 2020-07-15 2020-10-30 中国电子科技集团公司第三十八研究所 地铁断面客流量统计和行人逆行检测方法及系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627497B (zh) * 2021-07-27 2024-03-12 武汉大学 一种基于时空约束的跨摄像头行人轨迹匹配方法
CN113962282A (zh) * 2021-08-19 2022-01-21 大连海事大学 一种基于改进YOLOv5L+DeepSort的船舶机舱火灾实时检测系统及方法
CN113962282B (zh) * 2021-08-19 2024-04-16 大连海事大学 一种基于改进YOLOv5L+DeepSort的船舶机舱火灾实时检测系统及方法
CN113743260A (zh) * 2021-08-23 2021-12-03 北京航空航天大学 一种地铁站台密集人流情况下的行人跟踪方法
CN113743260B (zh) * 2021-08-23 2024-03-05 北京航空航天大学 一种地铁站台密集人流情况下的行人跟踪方法
CN114067564A (zh) * 2021-11-15 2022-02-18 武汉理工大学 一种基于yolo的交通状况综合监测方法
CN114067564B (zh) * 2021-11-15 2023-08-29 武汉理工大学 一种基于yolo的交通状况综合监测方法
CN115242421A (zh) * 2022-03-28 2022-10-25 清华大学 基于网络空间地图的网络异常检测方法及装置
CN115375736A (zh) * 2022-10-25 2022-11-22 威海市博华医疗设备有限公司 一种基于图像的行人轨迹跟踪方法和装置
CN117475135A (zh) * 2023-10-30 2024-01-30 北京中电联达信息技术有限公司 一种目标图像识别和稳定跟踪方法与系统

Also Published As

Publication number Publication date
CN112836640B (zh) 2024-04-19

Similar Documents

Publication Publication Date Title
CN109800689B (zh) 一种基于时空特征融合学习的目标跟踪方法
CN112836640B (zh) 一种单摄像头多目标行人跟踪方法
CN108830252B (zh) 一种融合全局时空特征的卷积神经网络人体动作识别方法
Li et al. Robust visual tracking based on convolutional features with illumination and occlusion handing
CN109816689A (zh) 一种多层卷积特征自适应融合的运动目标跟踪方法
CN111932583A (zh) 一种基于复杂背景下的时空信息一体化智能跟踪方法
EP2345999A1 (en) Method for automatic detection and tracking of multiple objects
CN108573496B (zh) 基于lstm网络和深度增强学习的多目标跟踪方法
CN110765906A (zh) 一种基于关键点的行人检测算法
CN110533695A (zh) 一种基于ds证据理论的轨迹预测装置及方法
CN107358623A (zh) 一种基于显著性检测和鲁棒性尺度估计的相关滤波跟踪算法
CN111627050B (zh) 一种目标跟踪模型的训练方法和装置
CN106803265A (zh) 基于光流法和卡尔曼滤波的多目标跟踪方法
CN107784291A (zh) 基于红外视频的目标检测跟踪方法和装置
CN111582349B (zh) 一种基于YOLOv3和核相关滤波改进的目标跟踪算法
CN112241969A (zh) 基于交通监控视频的目标检测跟踪方法、装置及存储介质
CN113312973B (zh) 一种手势识别关键点特征提取方法及系统
CN112926522B (zh) 一种基于骨骼姿态与时空图卷积网络的行为识别方法
CN111161309A (zh) 一种车载视频动态目标的搜索与定位方法
CN106570490A (zh) 一种基于快速聚类的行人实时跟踪方法
CN111199556A (zh) 基于摄像头的室内行人检测和跟踪方法
CN111127519A (zh) 一种双模型融合的目标跟踪控制系统及其方法
CN114708300A (zh) 一种可抗遮挡的自适应目标跟踪方法及系统
CN116311063A (zh) 监控视频下基于人脸识别的人员细粒度跟踪方法及系统
Ali et al. Deep Learning Algorithms for Human Fighting Action Recognition.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant