CN112836640B - 一种单摄像头多目标行人跟踪方法 - Google Patents
一种单摄像头多目标行人跟踪方法 Download PDFInfo
- Publication number
- CN112836640B CN112836640B CN202110152400.4A CN202110152400A CN112836640B CN 112836640 B CN112836640 B CN 112836640B CN 202110152400 A CN202110152400 A CN 202110152400A CN 112836640 B CN112836640 B CN 112836640B
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- detection
- frame
- tracker
- adopting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000001514 detection method Methods 0.000 claims abstract description 70
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 42
- 230000002159 abnormal effect Effects 0.000 claims abstract description 15
- 238000012937 correction Methods 0.000 claims abstract description 13
- 238000012544 monitoring process Methods 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 16
- 230000004913 activation Effects 0.000 claims description 12
- 238000002372 labelling Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 4
- 238000000137 annealing Methods 0.000 claims description 3
- 230000003121 nonmonotonic effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 230000000875 corresponding effect Effects 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 9
- 239000013598 vector Substances 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/32—Normalisation of the pattern dimensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30232—Surveillance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30241—Trajectory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
一种单摄像头多目标行人跟踪方法,首先利用安装于监控区域的摄像头采集行人视频图像,然后对采集到的图像大小进行相应的调整,然后将调整后的图像输入到经训练的改进后的YoloV4‑Tiny行人检测网络中,采用分箱法去除检测结果中的异常行人检测框,然后将筛选后的检测结果输入到DeepSort算法中进行行人的跟踪并记录跟踪信息,最后采用基于行人未匹配帧数和预测位置的矫正算法矫正异常消失的行人目标。本发明基于改进后的YoloV4‑Tiny、分箱法、改进后的DeepSort及行人未匹配帧数和预测位置的矫正方法,实现基本达到适用于现实场景所需的较高性能,具有多目标同时定位、定位准确、实时性强及稳定性高的优点。
Description
技术领域
本发明涉及计算机视觉领域,具体是一种基于改进后的YoloV4-Tiny、分箱法、改进后的DeepSort及基于行人未匹配帧数和预测位置的矫正算法的单摄像头多目标行人跟踪方法。
背景技术
计算机视觉是指用摄像机和计算机代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理以获得需要的结果。近年来,随着计算机视觉技术的不断发展,计算机视觉已经是各个应用领域,如制造业、智能监控、虚拟现实、医院诊断和军事等领域中各种智能系统中不可分割的一部分。
行人跟踪作为当前计算机视觉中非刚性运动目标跟踪领域的热点问题,其目的是持续稳定地跟踪视频中的行人。然而,行人跟踪算法面临诸多挑战,如行人目标视点变化、目标尺度变换、目标遮挡、目标姿态多样化及光照条件突变等等,这些难点制约着行人跟踪技术的发展。
单摄像头多目标行人跟踪作为行人跟踪技术的一种具体形式,有着巨大的现实意义。例如,在医院,外科医生在手术前需要对手部进行严格的清洗,而现阶段监督这项工作主要还是靠人眼来判断并追责,通过单摄像头多目标的行人跟踪可以代替人眼锁定监控区域所有目标从而大大解放人的工作量。然而大部分现实应用场景下的行人跟踪需要达到高稳定性、高准确率以及高实时性的水平,因此如何研究出一种高性能的跟踪算法成为当前最为迫切的问题。
发明内容
为了克服已有技术的不足,本发明提供了一种基于改进后的YoloV4-Tiny、分箱法、改进后的DeepSort及基于行人未匹配帧数和预测位置的矫正方法,实现基本达到适用于现实场景所需的较高性能,具有多目标同时定位、定位准确、实时性强及稳定性高的优点。
本发明解决其技术问题所采用的技术方案是:
一种单摄像头多目标行人跟踪方法,所述方法包括以下步骤:
S1,利用安装于监控区域的摄像头采集行人视频图像,采用双三次插值算法调整视频图像大小;
S2,将调整后的行人视频图像输入到经训练后的改进的YoloV4-Tiny行人检测网络,得到每一帧的行人检测结果;
S3,采用分箱法去除YoloV4-Tiny检测到的异常行人检测框;
S4,采用改进后的DeepSort算法对单摄像头下检测到的所有行人目标的跟踪,并记录行人入场、出场时间以及轨迹;
S5,采用基于行人未匹配帧数和预测位置的矫正算法,矫正异常消失的行人目标。
进一步,所述步骤S1的过程为:
将摄像头固定安装于监控区域,确保能够完整拍摄到行人正常活动的区域,同时尽可能避免重叠视角;
根据计算机硬件情况及检测帧率的要求,将摄像头的拍摄帧率进行调整;
对摄像头拍摄到的视频图像采用双三次插值算法调整到416*416大小。
再进一步,所述步骤S2的过程为:
截取VOC2007中包含行人部分的数据集,并去除图片中非行人部分的标注框得到用于训练的数据集;
采用FCM算法对数据集进行候选框聚类,并将得到的6个候选框输入YoloV4-Tiny网络中用于检测模型的训练;
将YoloV4-Tiny中的轻量级激活函数由LeakyReLU改进为无上界有下界、平滑、非单调的hard-swish激活函数,以及将特征融合模块由FPN改进为自适应的ASFF模块;
采用Mosaic算法对数据集进行数据扩展,然后将扩展后的数据集放入YoloV4-Tiny网络中,并采用模拟余弦退火算法控制学习率进行训练,得到训练好的检测模型;
利用训练好的检测模型对处理后的视频图像中的所有行人目标进行检测。
更进一步,所述步骤S3的过程为:
将检测到的视频图像中的所有行人目标按其在图片上的位置等间距划分为3*3共9类,每类记录1000个行人目标检测框;
采用分箱法分别对每类检测框进行计算,得到各类检测框宽高的最大阈值和最小阈值;
去除检测到的行人检测框宽或高大于对应最大阈值或小于对应最小阈值的部分。
所述步骤S4的过程为:
使用卡尔曼滤波器对YoloV4-Tiny模型获取到的当前帧检测结果进行预测,得到下一帧的人物运动信息,并利用训练好的深度特征网络计算当前帧中所有人物的128维深度特征信息;
将DeepSort算法中计算深度特征余弦距离的算法由求当前检测框中人物的128维深度特征信息与跟踪器库中人物的128维深度特征信息之间的最小余弦距离改进为求检测框中人物的128维深度特征信息与跟踪器库中最近添加的人物的128维深度特征信息的余弦距离与最小余弦距离之间的平均值;
利用基于外观信息的马氏距离计算所有跟踪器和检测结果之间的代价矩阵,然后相继进行级联匹配和IOU匹配,最后得到当前帧的所有匹配对、未匹配的跟踪器以及未匹配的检测结果;
记录每个匹配成功的跟踪器的轨迹,用其对应的检测结果更新卡尔曼滤波器,当跟踪器匹配成功次数等于3时,记录该跟踪器所代表的行人编号以及此刻时间。并处理未匹配的跟踪器和检测结果,当跟踪器未匹配次数大于20时,记录该跟踪器所代表的行人编号以及此刻时间。
所述步骤S5的过程为:
记录未成功匹配达到10帧的跟踪器Tmiss及其预测的行人位置和代表的行人编号/>同时记录当前帧中小于5帧未成功匹配的跟踪器且该跟踪器预测的位置与/>之间的欧式距离大于所设阈值,记为/>
当所记录的Tmiss未成功匹配帧数达到20时,开始计算后续帧中满足未成功匹配帧数小于3且代表的行人编号不在中的跟踪器所预测的位置与/>之间的欧式距离;
若计算得到的欧式距离小于阈值且该跟踪器所代表的行人编号不在中,则将该跟踪器编号替换为已经确定消失的跟踪器Tmiss所代表的行人编号/>反之则将Tmiss未成功匹配次数加1,当未成功匹配次数达到35时,不再对该跟踪器Tmiss进行匹配。
本发明的有益效果主要表现在:通过在YoloV4-Tiny特征融合网络部分加入自适应的ASFF模块,解决FPN多层间不同特征尺度之间的不一致性问题,更好地融合不同尺度的特征;将激活函数由Leakyrule改进为无上界有下界、平滑、非单调的hard-swish激活函数,以提高模型精度;采用FCM算法聚类,从而得到类内距离更小、类间距离更大的候选框;进一步,采用分箱法去除异常行人检测框,从而提高输入DeepSort中数据的准确性;改进DeepSort中深度特征余弦距离的计算方法,从而提高获得的深度特征距离的准确性;采用基于行人未匹配帧数和预测位置的矫正算法矫正异常消失的行人目标,使得行人跟踪具有更高的准确率以及稳定性。
附图说明
图1为本发明所采用的单摄像头多目标行人跟踪方法的整体结构示意图。
图2为本发明所采用的改进后的YoloV4-Tiny行人检测网络训练的流程示意图。
图3为本发明所采用的hard-swish激活函数的曲线图。
图4为本发明所采用的ASFF向上融合部分的网络结构图。
图5为本发明所采用的ASFF向下融合部分的网络结构图。
图6为本发明所采用的分箱法异常数据检测的原理示意图。
图7为本发明所采用的跟踪结果矫正的流程示意图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图7,一种单摄像头多目标行人跟踪方法,首先利用安装于监控区域的摄像头采集行人视频图像,然后对采集到的图像大小进行相应的调整,然后将调整后的图像输入到经训练的改进后的YoloV4-Tiny行人检测网络中,采用分箱法去除检测结果中的异常行人检测框,然后将筛选后的检测结果输入到DeepSort算法中进行行人的跟踪并记录跟踪信息,最后采用基于行人未匹配帧数和预测位置的矫正算法矫正异常消失的行人目标。
本实施例的单摄像头多目标行人跟踪方法,包括以下步骤:
S1,利用安装于监控区域的摄像头采集行人视频图像,采用双三次插值算法调整视频图像大小;
S2,将调整后的行人视频图像输入到经训练后的改进的YoloV4-Tiny行人检测网络,得到每一帧的行人检测结果;
S3,采用分箱法去除YoloV4-Tiny检测到的异常行人检测框;
S4,采用改进后的DeepSort算法对单摄像头下检测到的所有行人目标的跟踪,并记录行人入场、出场时间以及轨迹;
S5,采用基于行人未匹配帧数和预测位置的矫正算法,矫正异常消失的行人目标。
本申请实施例中,所述步骤S1中,根据所述利用安装于监控区域的摄像头采集行人视频图像,采用双三次插值算法调整视频图像大小,过程为:
将摄像头固定安装于监控区域,确保能够完整拍摄到行人正常活动的区域,同时尽可能避免重叠视角。
根据计算机硬件情况及检测帧率的要求,将摄像头的拍摄帧率进行适当调整。
对摄像头拍摄到的视频图像采用双三次插值算法调整到416*416大小,双三次插值算法流程如下:
构造BiCubic函数,如式(1)所示:
其中x表示像素点坐标,a取-0.5。
对待插值的像素点,取其附近的4*4邻域点,按式(2)进行插值计算。
其中x、y分别表示待插值像素点的横轴纵坐标,i、j分别表示邻域点距待插值像素点的横轴间隔像素点,w表示BiCubic函数。
本申请实施例中,所述步骤S2中,根据所述将调整后的行人视频图像输入到经训练后的改进的YoloV4-Tiny行人检测网络,得到每一帧的行人检测结果,过程为:
根据VOC2007的xml文件中所标注的类别信息,筛选其中包含行人部分的数据集,并利用labelImg标签制作工具去除筛选得到的图片中非行人部分的标注框得到用于训练的数据集。
采用FCM算法对所有标签文件中的标注框大小进行聚类,得到6个用于YoloV4-Tiny网络检测行人的候选框,实现过程如下所述:
将所有标注框定义为xj,所需聚类的6个聚类中心为ci。FCM的目标函数如式(3)所示:
其中,指的就是隶属度值,即标注框xj对类别ci的隶属程度,所有标注框xj对任一类别ci的隶属度的和总等于1,如式(4)所示;/>表示元素xj跟聚类中心ci之间的距离,J表示各个标注框到各个类的加权距离的和,m表示模糊化程度的参数。
聚类要达到的最终效果就是类内相似度最小,类间相似度最大,这个时候点和中心的加权距离之和就是最小的,因此目标函数取最小值,所以最优解的的表达式如式(5)所示:
综合上述约束条件,最后构造拉格朗日函数求极小值,如式(6)所示:
其中F表示约束条件下各个标注框到各个类的加权距离的和,λj表示引入的拉格朗日超参数。
对上述拉格朗日函数求偏导,最后得到关于聚类中心位置ci以及隶属度值uij的两个等式,分别如式(7)、式(8)所示:
利用式(7)、式(8)对所有标注框进行多次迭代,最后得到6个候选框。
将YoloV4-Tiny中的激活函数改进为hard-swish激活函数,该函数的曲线图如图3所示,其具体计算方式如式(9)所示。
其中y表示输出,x表示输入,RELU6表示将上限设置为6的RELU激活函数。
hard-swish激活函数相比YoloV4-Tiny采用的LeakyReLU激活函数具有更平滑的曲线,可以进一步的加速模型的训练以及防止模型在训练的过程中产生过拟合现象。
在YoloV4-Tiny特征融合网络部分加入自适应的ASFF模块,其具体网络结构如图4、图5所示,以此解决FPN多层间不同特征尺度之间的不一致性问题,更好地融合不同尺度的特征,其具体原理如式(10)所示:
其中i、j分别表示对应特征图上横纵坐标,l表示特征图的序号,x表示需要融合的特征图,y表示融合后的结果,α和β表示0-1的权重,两者的和为1。
通过对式(10)近似和偏导数的链式法则计算后可以得到训练过程中梯度下降式(11):
如式(11)所示,ASFF在训练过程对参数进行梯度下降时,有参数α和β来控制下降的方向,以此解决在不同特征图相同位置上表示的样本极性不同而导致梯度下降出现干扰的情况。
采用Mosaic算法对数据集进行扩充,实现思路如下:
首先读取四张图片,接着分别对四张图片进行翻转、缩放、色域变化等,并且按照四个方向位置摆好,最后将处理后的图片和图片中包含的标注框进行组合,从而得到新的图片。
将FCM算法聚类得到的6个候选框以及Mosaic算法扩充后的数据集输入到YoloV4-Tiny网络中进行行人检测模型的训练,训练的Loss函数如式(12)所示。
其中,为预测框坐标误差,/>为预测框与标注框之间的IOU误差,/>为分类误差。
训练过程中采用模拟余弦退火算法对学习率进行动态控制,具体控制方法如式(13)所示:
其中,及/>表示第i次重启后的最小学习率和最大学习率,Tcur表示当前训练epoch中的iteration数,Ti表示第i个epoch中共含有的iteration数,nt表示当前学习率大小。
利用上述学习率控制算法,首先冻结YoloV4-Tiny网络的前60层,在预训练权重的基础上进行50个epoch的迁移学习,接着在网络的所有层上再进行170个epoch的学习,最后保留验证集上损失最低的训练结果,得到训练好的用于检测行人的模型,具体流程如图2所示。
利用训练好的检测模型对处理后的视频图像中的所有行人目标进行检测。
本申请实施例中,所述步骤S3中,根据所述采用分箱法去除YoloV4-Tiny检测到的异常行人检测框,过程为:
将检测到的视频图像中的所有行人目标按其在图片上的位置等间距划分为3*3共9类,每类记录1000个行人目标检测框。
采用分箱法分别对每类检测框进行计算,得到各类检测框宽高的最大阈值和最小阈值。分箱法的原理如图6所示,其具体策略如下所述:
对所有的数据进行统计,得到上四分位数QU及下四分位数QL,分别表示全部数据中有四分之一的数据取值比它大和全部数据中有四分之一的数据取值比它小。
计算上四分位数QU与下四分位数QL的差值,得到四分位数间距IQR。
最后将上四分位数QU加上1.5倍的四分位数间距IQR即所求最大阈值;将下四分位数QL减去1.5倍的四分位数间距IQR即所求最小阈值。
采用分箱法分别对9类检测框的宽高进行统计,得出对应的最大阈值和最小阈值。
去除检测到的行人检测框宽或高大于对应最大阈值或小于对应最小阈值的部分。
本申请实施例中,所述步骤S4中,根据所述采用改进后的DeepSort算法对单摄像头下检测到的所有行人目标的跟踪,并记录行人入场、出场时间以及轨迹,过程为:
根据处理后的行人检测结果,截取原图中包含行人的部分,然后利用训练好的深度特征网络计算该画面中行人目标的128维深度特征信息。
使用一个基于匀速模型和线性观测模型的标准卡尔曼滤波器进行目标状态的预测,具体预测流程如下所述:
预测指基于跟踪器在视频中前一帧的状态来预测其在当前帧的状态,如式(14)、式(15)所示:
x′t=Fxt-1 (14)
其中x′t表示跟踪器在t帧的预测均值,xt-1表示跟踪器在t-1帧中的均值,F表示对应的状态转移矩阵。均值由8维向量表示[cx,cy,r,h,vx,vy,vr,vh],分别是框中心点x轴大小,框中心点y轴大小,宽高比r,高h,以及各自的速度变化值。
P′t=FPt-1FT+Q (15)
其中P′t为跟踪器在第t帧中的预测协方差;Pt-1为跟踪器在第t-1帧中的协方差;Q为系统的噪声矩阵,代表整个系统的可靠程度;
将跟踪器的预测结果与检测结果进行级联匹配,流程如下所述:
首先使用检测框和跟踪器的预测框之间的马氏距离来进行运动信息的关联,如式(16)所示:
其中dj表示第j个检测框的位置,yi表示第i个跟踪器的预测框位置,Si表示检测位置与平均跟踪位置之间的协方差矩阵。
若计算得到的d(1)(i,j)小于指定的阈值t(1),则表示运动状态关联成功,一般设阈值为9.4877。
其次计算当前帧第j个检测结果与第i个跟踪器的最近100个成功关联的特征集的特征向量间的最小余弦距离与最新添加进特征集的特征向量间的余弦距离和的平均值,如式(17)所示:
d(2)(i,j)=(min{1-rj Trk (i)|rk (i)∈Ri}+1-rj Trlast (i))/2 (17)
其中rj表示第j个检测结果的特征向量,rk (i)表示第i个跟踪器的第k个特征向量,rlast (i)表示第i个跟踪器最新添加近特征集的特征向量,Ri表示第i个跟踪器的最近100个成功关联的特征集。
若所得平均余弦距离小于设定的阈值,则表示外观信息关联成功。
利用公式(18)将公式(16)与公式(17)通过阈值处理后的计算结果结合起来,即以外观距离为主,将运动距离作为门限矩阵进一步过滤代价矩阵。
其中bij (1)表示式(16)通过阈值处理后的门限矩阵,bij (2)表示式(17)通过阈值处理后的代价矩阵,bi,j表示通过过滤后的代价矩阵。
为解决由于轨迹被遮挡较长的时间卡尔曼滤波器在不断预测中导致的概率弥散问题,采用级联匹配的思想,即按跟踪器未成功匹配次数从小到大的顺序对过滤后的代价矩阵进行匈牙利匹配。
最后对未匹配上的跟踪器进行基于IOU的匹配,缓解因为表观突变或者部分遮挡导致的较大变化。
IOU匹配即计算未匹配上的跟踪器和检测结果这些框两两之间的iou,再由1-iou得到代价矩阵并作为匈牙利算法输入,得到线性匹配结果。
记录每个匹配成功的跟踪器的轨迹,用其对应的检测结果更新卡尔曼滤波器的参数,当跟踪器匹配成功次数等于3时,记录该跟踪器所代表的行人编号以及此刻时间即入场时间。对于未匹配成功的跟踪器,若其匹配成功次数小于3,直接删去该跟踪器;若其匹配成功次数大于3,将其未匹配成功次数加1,当累计到20时,记录该跟踪器所代表的行人编号以及此刻时间即出场时间。
本申请实施例中,所述步骤S5中,根据所述采用基于行人未匹配帧数和预测位置的矫正算法,矫正异常消失的行人目标,过程为:
需要说明的是,由于行人走动容易产生重叠,从而导致行人跟踪编号丢失、交换,对跟踪结果的矫正可有效解决此类现象从而提高跟踪的稳定性及准确率,跟踪结果的矫正流程如图7所示,其具体策略如下所述:
记录未成功匹配达到10帧的跟踪器Tmiss及其预测的行人位置和代表的行人编号/>同时记录当前帧中小于5帧未成功匹配的跟踪器且该跟踪器预测的位置与/>之间的欧式距离大于所设阈值,记为/>
若Tmiss在未达到20帧时成功匹配检测到的行人,则将该Tmiss删除,不再对其进行后续操作。
当所记录的Tmiss未成功匹配帧数达到20时,开始计算后续帧中满足未成功匹配帧数小于3且代表的行人编号不在中的跟踪器所预测的位置与/>之间的欧式距离。
若计算得到的欧式距离小于阈值且该跟踪器所代表的行人编号不在中,则将该跟踪器编号替换为已经确定消失的跟踪器Tmiss所代表的行人编号/>反之则将Tmiss未成功匹配次数加1,当未成功匹配次数达到35时,不再对该跟踪器Tmiss进行匹配。
根据上述步骤,即可实现一种单摄像头多目标实时行人跟踪方法。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;对本领域的普通技术人员来说,可以根据上述说明加以改进,或者对其中部分或者全部技术特征进行等同变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (4)
1.一种单摄像头多目标行人跟踪方法,其特征在于,所述方法包括以下步骤:
S1,利用安装于监控区域的摄像头采集行人视频图像,采用双三次插值算法调整视频图像大小;
S2,将调整后的行人视频图像输入到经训练后的改进的YoloV4-Tiny行人检测网络,得到每一帧的行人检测结果;
所述步骤S2的过程为:
截取VOC2007中包含行人部分的数据集,并去除图片中非行人部分的标注框得到用于训练的数据集;
采用FCM算法对数据集进行候选框聚类,并将得到的6个候选框输入YoloV4-Tiny网络中用于检测模型的训练;
将YoloV4-Tiny中的轻量级激活函数由LeakyReLU改进为无上界有下界、平滑、非单调的hard-swish激活函数,以及将特征融合模块由FPN改进为自适应的ASFF模块;
采用Mosaic算法对数据集进行数据扩展,然后将扩展后的数据集放入YoloV4-Tiny网络中,并采用模拟余弦退火算法控制学习率进行训练,得到训练好的检测模型;
利用训练好的检测模型对处理后的视频图像中的所有行人目标进行检测;
S3,采用分箱法去除YoloV4-Tiny检测到的异常行人检测框;
S4,采用改进后的DeepSort算法对单摄像头下检测到的所有行人目标的跟踪,并记录行人入场、出场时间以及轨迹;
所述步骤S4的过程为:
使用卡尔曼滤波器对YoloV4-Tiny模型获取到的当前帧检测结果进行预测,得到下一帧的人物运动信息,并利用训练好的深度特征网络计算当前帧中所有人物的128维深度特征信息;
将DeepSort算法中计算深度特征余弦距离的算法由求当前检测框中人物的128维深度特征信息与跟踪器库中人物的128维深度特征信息之间的最小余弦距离改进为求检测框中人物的128维深度特征信息与跟踪器库中最近添加的人物的128维深度特征信息的余弦距离与最小余弦距离之间的平均值;
利用基于外观信息的马氏距离计算所有跟踪器和检测结果之间的代价矩阵,然后相继进行级联匹配和IOU匹配,最后得到当前帧的所有匹配对、未匹配的跟踪器以及未匹配的检测结果;
记录每个匹配成功的跟踪器的轨迹,用其对应的检测结果更新卡尔曼滤波器,当跟踪器匹配成功次数等于3时,记录该跟踪器所代表的行人编号以及此刻时间,并处理未匹配的跟踪器和检测结果,当跟踪器未匹配次数大于20时,记录该跟踪器所代表的行人编号以及此刻时间;
S5,采用基于行人未匹配帧数和预测位置的矫正算法,矫正异常消失的行人目标。
2.如权利要求1所述的一种单摄像头多目标行人跟踪方法,其特征在于,所述步骤S1的过程为:
将摄像头固定安装于监控区域,确保能够完整拍摄到行人正常活动的区域,同时尽可能避免重叠视角;
根据计算机硬件情况及检测帧率的要求,将摄像头的拍摄帧率进行调整;
对摄像头拍摄到的视频图像采用双三次插值算法调整到416*416大小。
3.如权利要求1或2所述的一种单摄像头多目标行人跟踪方法,其特征在于,所述步骤S3的过程为:
将检测到的视频图像中的所有行人目标按其在图片上的位置等间距划分为3*3共9类,每类记录1000个行人目标检测框;
采用分箱法分别对每类检测框进行计算,得到各类检测框宽高的最大阈值和最小阈值;
去除检测到的行人检测框宽或高大于对应最大阈值或小于对应最小阈值的部分。
4.如权利要求1或2所述的一种单摄像头多目标行人跟踪方法,其特征在于,所述步骤S5的过程为:
记录未成功匹配达到10帧的跟踪器Tmiss及其预测的行人位置和代表的行人编号同时记录当前帧中小于5帧未成功匹配的跟踪器且该跟踪器预测的位置与/>之间的欧式距离大于所设阈值,记为/>
当所记录的Tmiss未成功匹配帧数达到20时,开始计算后续帧中满足未成功匹配帧数小于3且代表的行人编号不在中的跟踪器所预测的位置与/>之间的欧式距离;
若计算得到的欧式距离小于阈值且该跟踪器所代表的行人编号不在中,则将该跟踪器编号替换为已经确定消失的跟踪器Tmiss所代表的行人编号/>反之则将Tmiss未成功匹配次数加1,当未成功匹配次数达到35时,不再对该跟踪器Tmiss进行匹配。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110152400.4A CN112836640B (zh) | 2021-02-04 | 2021-02-04 | 一种单摄像头多目标行人跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110152400.4A CN112836640B (zh) | 2021-02-04 | 2021-02-04 | 一种单摄像头多目标行人跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112836640A CN112836640A (zh) | 2021-05-25 |
CN112836640B true CN112836640B (zh) | 2024-04-19 |
Family
ID=75931841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110152400.4A Active CN112836640B (zh) | 2021-02-04 | 2021-02-04 | 一种单摄像头多目标行人跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112836640B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657422A (zh) * | 2021-06-25 | 2021-11-16 | 上海师范大学 | 基于自适应空间特征融合的排爆机器人危险品检测方法 |
CN113627497B (zh) * | 2021-07-27 | 2024-03-12 | 武汉大学 | 一种基于时空约束的跨摄像头行人轨迹匹配方法 |
CN113962282B (zh) * | 2021-08-19 | 2024-04-16 | 大连海事大学 | 一种基于改进YOLOv5L+DeepSort的船舶机舱火灾实时检测系统及方法 |
CN113743260B (zh) * | 2021-08-23 | 2024-03-05 | 北京航空航天大学 | 一种地铁站台密集人流情况下的行人跟踪方法 |
CN114067564B (zh) * | 2021-11-15 | 2023-08-29 | 武汉理工大学 | 一种基于yolo的交通状况综合监测方法 |
CN114332909B (zh) * | 2021-11-16 | 2024-08-23 | 南京行者易智能交通科技有限公司 | 一种监控场景下的双目行人识别方法及装置 |
CN115242421B (zh) * | 2022-03-28 | 2024-06-04 | 清华大学 | 基于网络空间地图的网络异常检测方法及装置 |
CN114881982A (zh) * | 2022-05-19 | 2022-08-09 | 广州敏视数码科技有限公司 | 一种减少adas目标检测误检的方法、装置及介质 |
CN115316982B (zh) * | 2022-09-02 | 2024-08-20 | 中国科学院沈阳自动化研究所 | 一种基于多模态传感的肌肉形变智能检测系统及方法 |
CN115375736A (zh) * | 2022-10-25 | 2022-11-22 | 威海市博华医疗设备有限公司 | 一种基于图像的行人轨迹跟踪方法和装置 |
CN117475135A (zh) * | 2023-10-30 | 2024-01-30 | 北京中电联达信息技术有限公司 | 一种目标图像识别和稳定跟踪方法与系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111127513A (zh) * | 2019-12-02 | 2020-05-08 | 北京交通大学 | 一种多目标跟踪方法 |
CN111476817A (zh) * | 2020-02-27 | 2020-07-31 | 浙江工业大学 | 一种基于yolov3的多目标行人检测跟踪方法 |
CN111488795A (zh) * | 2020-03-09 | 2020-08-04 | 天津大学 | 应用于无人驾驶车辆的实时行人跟踪方法 |
CN111860282A (zh) * | 2020-07-15 | 2020-10-30 | 中国电子科技集团公司第三十八研究所 | 地铁断面客流量统计和行人逆行检测方法及系统 |
-
2021
- 2021-02-04 CN CN202110152400.4A patent/CN112836640B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111127513A (zh) * | 2019-12-02 | 2020-05-08 | 北京交通大学 | 一种多目标跟踪方法 |
CN111476817A (zh) * | 2020-02-27 | 2020-07-31 | 浙江工业大学 | 一种基于yolov3的多目标行人检测跟踪方法 |
CN111488795A (zh) * | 2020-03-09 | 2020-08-04 | 天津大学 | 应用于无人驾驶车辆的实时行人跟踪方法 |
CN111860282A (zh) * | 2020-07-15 | 2020-10-30 | 中国电子科技集团公司第三十八研究所 | 地铁断面客流量统计和行人逆行检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112836640A (zh) | 2021-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112836640B (zh) | 一种单摄像头多目标行人跟踪方法 | |
Liu et al. | Overview and methods of correlation filter algorithms in object tracking | |
CN109800689B (zh) | 一种基于时空特征融合学习的目标跟踪方法 | |
CN111127513B (zh) | 一种多目标跟踪方法 | |
CN111627050B (zh) | 一种目标跟踪模型的训练方法和装置 | |
CN112883819A (zh) | 多目标跟踪方法、装置、系统及计算机可读存储介质 | |
CN111932583A (zh) | 一种基于复杂背景下的时空信息一体化智能跟踪方法 | |
CN112884742B (zh) | 一种基于多算法融合的多目标实时检测、识别及跟踪方法 | |
CN113807187A (zh) | 基于注意力特征融合的无人机视频多目标跟踪方法 | |
EP2345999A1 (en) | Method for automatic detection and tracking of multiple objects | |
CN111582349B (zh) | 一种基于YOLOv3和核相关滤波改进的目标跟踪算法 | |
CN107545256B (zh) | 一种结合时空和网络一致性的摄像机网络行人重识别方法 | |
CN111931603B (zh) | 基于竞合网络的双流卷积网络的人体动作识别系统及方法 | |
CN111353448A (zh) | 基于相关性聚类和时空约束的行人多目标跟踪方法 | |
CN111161309A (zh) | 一种车载视频动态目标的搜索与定位方法 | |
CN112085765A (zh) | 结合粒子滤波及度量学习的视频目标跟踪方法 | |
CN116311063A (zh) | 监控视频下基于人脸识别的人员细粒度跟踪方法及系统 | |
CN113312973A (zh) | 一种手势识别关键点特征提取方法及系统 | |
CN115035159A (zh) | 一种基于深度学习和时序特征增强的视频多目标跟踪方法 | |
CN114707604A (zh) | 一种基于时空注意力机制的孪生网络跟踪系统及方法 | |
CN116824641B (zh) | 姿态分类方法、装置、设备和计算机存储介质 | |
US20230076241A1 (en) | Object detection systems and methods including an object detection model using a tailored training dataset | |
CN115063443A (zh) | 一种实时多目标跟踪方法及系统 | |
CN112446355B (zh) | 一种公共场所行人识别方法及人流统计系统 | |
CN112069997B (zh) | 一种基于DenseHR-Net的无人机自主着陆目标提取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |