CN117274314A - 一种特征融合的视频目标跟踪方法及系统 - Google Patents
一种特征融合的视频目标跟踪方法及系统 Download PDFInfo
- Publication number
- CN117274314A CN117274314A CN202311331021.7A CN202311331021A CN117274314A CN 117274314 A CN117274314 A CN 117274314A CN 202311331021 A CN202311331021 A CN 202311331021A CN 117274314 A CN117274314 A CN 117274314A
- Authority
- CN
- China
- Prior art keywords
- target
- tracking
- frame
- algorithm
- maximum response
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000004927 fusion Effects 0.000 title claims abstract description 28
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 100
- 238000001514 detection method Methods 0.000 claims abstract description 83
- 238000001914 filtration Methods 0.000 claims abstract description 25
- 230000004044 response Effects 0.000 claims description 45
- 238000010586 diagram Methods 0.000 claims description 35
- 230000007246 mechanism Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 230000009191 jumping Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 241000251468 Actinopterygii Species 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000005316 response function Methods 0.000 description 2
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 1
- DBVJJBKOTRCVKF-UHFFFAOYSA-N Etidronic acid Chemical compound OP(=O)(O)C(O)(C)P(O)(O)=O DBVJJBKOTRCVKF-UHFFFAOYSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006911 nucleation Effects 0.000 description 1
- 238000010899 nucleation Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种特征融合的视频目标跟踪方法及系统,提出了将目标检测算法和相关滤波相结合的方法,通过目标检测算法识别目标的目标检测框,通过局部和全局多特征融合的相关滤波器得到目标跟踪边缘框,利用匈牙利匹配算法对目标检测框和目标跟踪边缘框进行匹配,解决了单独的相关滤波跟踪算法或神经网络的目标检测算法对目标检测跟踪存在的精确率和成功率低的问题,实现了电力场景等复杂场景下目标跟踪稳定性,提高了目标检测跟踪的实时性、精确率和成功率。
Description
技术领域
本发明属于目标检测跟踪技术领域,尤其涉及一种特征融合的视频目标跟踪方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
视频目标追踪是指视频序列第一帧指定目标后,在后续帧中对目标进行自动识别,通过边界框实现目标持续定位,并能预估性进行尺度变化。视频目标追踪主要面临的挑战为目标追踪过程中目标及背景发生复杂变化,包括目标失踪、目标遮挡、目标形变、背景切换、目标移动等,导致视频序列中目标跟踪特征如外观、颜色、形状等信息呈现出时间维度的不一致性,导致跟踪器不能正确追踪。
近年来相关滤波和孪生网络成为视频目标跟踪领域两大主流算法框架,其中相关滤波算法框架识别精度良好,运行速度极高,涉及的强化特征提取方法、构建高鲁棒滤波器成为重点提升思路。Henriques等提出的著名CSK和KCF算法,CSK算法是扩展密集采样和核化相关滤波,KCF算法又进一步增加多通道梯度特征,实现算法运行速度提升;Danelljan等提出了多通道颜色特征,利用颜色空间提升算法获取特征效果;由于深度卷积特征优越性,Danelljan等在DeepSRDCF算法引入VGG网络单层卷积深度特征,大幅提升目标精度,Li等提出的SAMF算法对待检测区域进行多次多尺度采样,并利用滤波器进行各尺度的目标检测,取最大响应值作为估计结果。
为降低算法复杂度并提高检测速度,部分学者提出了SSD、YOLO等one-stage类检测算法,Jo等基于YOLO-v2解决多目标检测实时精度低的问题;Kong等提出了FoveaBox模型,解决了检测网络中多尺度anchorbox自适应不足的问题。
在电力作业实时监控中,往往存在施工范围内设备种类繁琐,作业危险程度高的情况,需要对作业人员进行实时汇总,并对遮挡、尺度变换、快速移动、背景变换等影响因素具备较高鲁棒。因此,提出一种目标跟踪方法以满足电力领域在复杂作业环境下对现场作业人员、施工车辆等实时跟踪的要求,并且提高检测跟踪的准确度,是目前亟须解决的问题。
发明内容
为克服上述现有技术的不足,本发明提供了一种特征融合的视频目标跟踪方法及系统,提出了将目标检测算法和相关滤波相结合的方法,将目标检测算法和相关滤波相结合,实现了电力场景等复杂场景下目标跟踪稳定性,提高了目标检测跟踪的实时性、精确率和成功率。
为实现上述目的,本发明的第一个方面提供一种特征融合的视频目标跟踪方法,包括:
利用目标检测算法对所获取的当前视频帧中的目标进行检测,得到目标检测框;
通过局部相关滤波器和全局相关滤波器分别对所获取的上一视频帧提取第一最大响应图和第二最大响应图;
根据所述第一最大响应图和所述第二最大响应图,得到当前视频帧的目标跟踪边缘框;
利用匈牙利匹配算法对所述目标检测框和所述目标跟踪边缘框的重叠度进行匹配,得到所述目标最终的目标框。
本发明的第二个方面提供一种特征融合的视频目标跟踪系统,包括:
目标检测模块,其被配置为:利用目标检测算法对所获取的当前视频帧中的目标进行检测,得到目标检测框;
相关滤波模块,其被配置为:通过局部相关滤波器和全局相关滤波器分别对所获取的上一视频帧提取第一最大响应图和第二最大响应图;
目标跟踪模块,其被配置为:根据所述第一最大响应图和所述第二最大响应图,得到当前视频帧的目标跟踪边缘框;
匹配模块,其被配置为:利用匈牙利匹配算法对所述目标检测框和所述目标跟踪边缘框的重叠度进行匹配,得到所述目标最终的目标框。
本发明的第三个方面提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行一种特征融合的视频目标跟踪方法。
本发明的第四个方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行一种特征融合的视频目标跟踪方法。
以上一个或多个技术方案存在以下有益效果:
本发明创造性提出了一种特征融合的视频目标跟踪方法及系统,提出了将目标检测算法和相关滤波相结合的方法,通过目标检测算法识别目标的目标检测框,通过局部和全局多特征融合的相关滤波器得到目标跟踪边缘框,利用匈牙利匹配算法对目标检测框和目标跟踪边缘框进行匹配,解决了单独的相关滤波跟踪算法或神经网络的目标检测算法对目标检测跟踪存在的精确率和成功率低的问题,实现了电力场景等复杂场景下目标跟踪稳定性,提高了目标检测跟踪的实时性、精确率和成功率。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例一中YOLO-v8网络结构图;
图2为本发明实施例一中CA模块结构图;
图3为本发明实施例一中相关滤波的基本流程;
图4为本发明实施例一中多特征融合的相关滤波跟踪算法流程图;
图5为本发明实施例一中目标检测边缘框与目标跟踪边缘框;
图6为本发明实施例一中检测与跟踪融合流程;
图7为本发明实施例一中OPE精度图;
图8为本发明实施例一中OPE成功率图;
图9为本发明实施例一中jumping视频帧序列跟踪对比图;
图10为本发明实施例一中woman频帧序列跟踪对比图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本实施例使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
本实施例公开了一种特征融合的视频目标跟踪方法,包括:
利用目标检测算法对所获取的当前视频帧中的目标进行检测,得到目标检测框;
通过局部相关滤波器和全局相关滤波器分别对所获取的上一视频帧提取第一最大响应图和第二最大响应图;
根据所述第一最大响应图和所述第二最大响应图,得到当前视频帧的目标跟踪边缘框;
利用匈牙利匹配算法对所述目标检测框和所述目标跟踪边缘框的重叠度进行匹配,得到所述目标最终的目标框。
本实施提出的一种特征融合的视频目标跟踪方法的整体思路为:首先基于YOLO算法进行目标特征的提取,通过增加CA模块,有效增强了神经网络对前程特征信息的提取,解决目标尺度包换导致小目标信息丢失的问题;其次利用相关滤波算法进行目标追踪,通过结合目标检测边缘框与跟踪边缘框的重叠度及相关性,采用匈牙利匹配算法对目标检测与跟踪的结果进行最优匹配,使用跟踪结果修正检测结果,缩短了检测时间,同时提升了网络检测能力。
在本实施例中,YOLO系列算法采用FPN+PAN的主框架,是一种轻量化的检测网络,模拟结构简单、检测速度更快。主体思想是将图像分割为多个待检测网格块,通过遍历预测每个网格块中所包含的物体类别,并采用非极大值抑制策略消除重叠边界框。
YOLO-v8算法是在v5版本基础上进行改动,引入DPM网络模块,通过高维特征图进行密集预测,保留更多特征信息,提升检测准确率,增加了SGSC技术,动态调整不同特征图之间相互关系,从而更好地获取检测目标的多尺度特征。
如图1所示,为现有YOLO-v8的整体网络结构,其中,输入侧部分使用Mosaic高阶数据增强策略,并增加自适应图像调整策略,骨干网络部分由CBS、C2f和SPPF三模块构成,C2f模块的梯度流更丰富,还可以增强卷积网络特征融合效果;SPPF模块通过空间池化实现局部与全局提升的融合;Head部分更换为解耦头结构,将分类与检测分离;在损失函数部分,使用DFLLoss+CIOU Loss作为回归损失;在配合策略方面,采用使用了Task-AlignedAssigner匹配方式。
如图2所示,本实施例基于YOLO-v8算法进行改进,通过在YOLO-v8算法骨干网络末端增加坐标注意力模块CA,增强浅层和细粒度特征提取,提高检测精准度。与传统注意力机制相比,SE注意力机制只关注通道直接依赖关系而忽略空间特征,CBAM注意力机制因卷积核尺度大、参数量众多导致算力资源依赖较高。而CA注意力机制可同时获取通道信息和空间位置信息,可对水平和垂直方向特征进行长距离关联,实现模型对感兴趣目标对象的精准指向。
相关滤波的基本流程如图3所示,使用初始化样本得到原始相关滤波器,随后的每一帧都从上一帧的目标位置区域提取图像块进行检测,利用傅里叶变换代替卷积操作,提升计算效率,得到响应频谱,最大的响应值的位置即为目标位置,提取当前帧的目标外观,根据模型更新策略的反馈更新相关滤波器。
和滤波目标跟踪算法遵循相关滤波的基本流程,采用了岭回归方法即正则化的最小二乘法来预测目标位置,以目标为中心,采用循环移位的方法,选取目标周围m×n的矩形区域像素块。xi(i∈{0,…m-1}×{0,…n-1})作为训练样本,来训练分类器采用正则化最小二乘RLS分类器模型,并引入核函数
其中,表示原始输入空间到hilbert特征空间的映射,yi为xi对应的已知的回归值,λ为控制过拟合的正则参数,此时求解分类器权重W。
优化目标转化为求解α={α1,α2,…}T,利用核函数可得:
α=(K+λI)-1y (3)
其中I是单位矩阵;K为核矩阵:
利用循环矩阵和离散傅里叶变换(DFT),得到核化正则最小二乘的最优解为
其中,F表示离散傅里叶变换,kxx=k(x,x)为核k的输出,采用高斯核作为核函数,计算公式为
在下一目标帧中,用训练好的分类器预测运动目标的位置,即搜索区域内所有测试样本,找到分类器响应值最大的位置,候选窗口图像块Z可得到分类器的输出响应为:
求得最大的响应位置即为目标的预测位置。
其中,和/>分别表示学习得到的目标外观模板和分类器参数,一般采用线性内插法来更新参数:
其中,n为当前帧的序列号,γ为学习速率。
多特征融合能够更加丰富表观模型,提高算法在复杂场景下的稳定性,因此在本实施例提出一种特征融合方法,将局部特征与全局特征在决策层面合理的分配权重融合在一起,进而提高跟踪性能。
局部特征选择HOG特征,对图像轮廓和形状有较好的描述,全局特征选择颜色特征,对目标形形变和运动模糊有着良好的稳定性,两者相互独立相互补充,能够实现目标的有效表示,为跟踪提供稳定的特征描述。
设当前帧为I以及相关滤波函数表示为f,可以得到HOG特征对应的目标响应函数f(thog)和颜色特征对应的目标响应函数f(tcolor),经过加权后可得到最终的目标最大响应值max(fi(t)):
max(fi(t))=λ”hogmax(fi(thog))+λ”colormax(fi(tcolor)) (10)
其中,λ”hog为HOG特征的设定权值,根据需求设定,λ”color为颜色特征的设定权值,根据需求设定;最大响应值的位置就是目标所在的位置。通过最大响应值确定目标位置时,以上一帧目标尺寸的2倍大小的目标跟踪边缘框来框定下一帧目标,然后进行的目标框的尺度调整。
如图4所示,在本实施例中,针对跟踪过程中的尺度变化问题,利用HOG特征训练一个独立的一维尺度相关滤波器。以当前检测到的中心位置为中心点,采集不同尺度的候选区域,其尺度选择方法为:
其中,P,R分别是上一帧的宽、高,a=1.02为尺度因子,S=33为尺度的数量。因此每一帧的候选区域可得到33个不同尺度的样本。anP和anR是尺度系数为底数大于1的指数函数,所以采集的33个样本的尺度增长是非线性的。比当前尺度越大的尺度级,步长越大;比当前尺度越小的尺度级,步长越小,即对较大的尺度进行粗检测,对较小的尺度进行细检测。
具体的,首先在检测出的目标周围采集一系列不同尺度的图像块xsl,提取不同尺度的每个图像块中的31维HOG特征,d代表HOG特征的维度,对应的高斯函数标签为ysl,γS为学习速率,F为离散傅里叶变换。利用这些图像块训练RLS分类器,并在线性空间进行求解,获得一维的尺度相关滤波器,通过寻找这个滤波器的最大输出响应完成尺度检测,得到尺度相关模板Bnum,Bden的计算和更新公式为:
最终求解输出响应值fs(xsi):
其中,λ为非零极小值,i表示图像块;不同尺度的采样块输入,求得max(fs(xsl))值最大的采样块的尺度即为新一帧中目标的尺度。
多特征融合的相关滤波跟踪算法流程如下,首先在第一帧给出人工标定的目标初始框,通过第一帧训练出HOG特征和颜色特征各自的局部相关滤波和全局相关滤波器。通过局部相关滤波和全局相关滤波器分别得到第一最大响应图和第二最大响应图,基于第一最大响应图确定的目标中心位置和第二最大响应图确定的目标中心位置进行加权平均,进而得到确定的最终的目标中心位置。之后利用尺度滤波器实现尺度更新,再分别对相关滤波器进行模型更新。
基于YOLO-v8目标检测算法与多特征融合的相关滤波跟踪算法分别输出目标检测边缘框和目标跟踪边缘框,利用匈牙利算法进行检测边缘框与跟踪边缘框进行IOU重叠区域匹配,通过三种方式的先后筛选后,取代价矩阵最小的目标即为当前正在追踪的目标。
目标检测边缘框与跟踪目标边缘框的相关性越大,表明当前检测的效果越好。
其中,SABCD为目标检测框的面积,SEFGH为目标跟踪边缘框的面积,SEHDP为目标检测框和目标跟踪边缘框重叠区域面积。
匈牙利匹配算法根据IOU的先验关系,建立目标检测边缘框与目标跟踪边缘框之间的匹配关系:
始终i为目标检测边缘框与目标跟踪边缘框匹配的对数,di为第i对匹配中的目标检测边缘框,ti为第i对匹配中的目标跟踪边缘框。
公式(15)应该同时满足IOU≤threash。
本实施例在使用YOLO-v8改进目标检测算法实现目标检测,基于多特征融合的核滤波算法实现目标跟踪的条件下,以目标检测边缘框为基准,目标跟踪边缘框作为修正,从而使目标检测结果更加准确。融合了跟踪算法的检测模型工作流程如图6所示。
本实施例采用如下实验验证本实施例方法的有效性:本实验从视频跟踪基准视频库(Visual Tracker Benchmark)中的标准测试视频中挑选了9个视频序列进行测试,这些视频序列涵盖了跟踪过程中的常见快速运动、旋转、遮挡、背景干扰等问题,所有的实验全部采用基准库提供的标准初始框的大小和位置,保持和所有对比算法初始条件一致。其中对比的跟踪算法有:压缩跟踪算法(Compressive Tracking,CT);在线实时跟踪算法(Real-Time Tracking via On-line Boosting,OAB);长目标跟踪算法(Tracking-Learning-Detection,TLD);局部无序跟踪(Locally Orderless Tracking,LOT)。
对上述9组视频序列进行分别进行了精确度、成功率以及速度三个方面的定量实验测试,其结果如下表所示。
由表1可以看出本实施例算法的中心误差均值仅有6.9个像素,因此精确度表现优于其他算法,本实施例算法在各个序列中都没有出现跟踪失败的情况,而其他算法在不同的序列帧中都出现了跟丢目标的情况。说明本实施例算法的精确度性能稳定,多种场景下都能实现目标跟踪。
表1目标中心误差(像素):
sequence | CT | OAB | TLD | LOT | OURS |
fish | 10.7 | 87.0 | 6.5 | 33.6 | 5.8 |
david2 | 76.7 | 33.8 | 5.0 | 4.1 | 3.4 |
girl | 18.9 | 3.7 | 9.8 | 22.8 | 6.9 |
boy | 9.0 | 2.9 | 4.5 | 66 | 4.1 |
jumping | 47.7 | 45.3 | 5.9 | 5.6 | 3.0 |
singer1 | 15.5 | 12.9 | 8.0 | 141 | 4.9 |
sylvester | 8.6 | 14.8 | 7.3 | 11.3 | 6.9 |
woman | 114 | 31.4 | 139 | 117 | 9.6 |
mhyang | 13.3 | 7.4 | 9.5 | 113 | 1.5 |
Average | 52.8 | 25.1 | 41.1 | 54.0 | 6.0 |
表2给出了各组视频序列中目标框的重叠率,可以看出在光照变化强烈的singer1序列中,本实施例算法的重叠率83%,说明光照不变特征有效地抑制了光照变化的影响。在有遮挡情况的woman序列中重叠率64%超过了其他算法,本实施例算法避免了由遮挡导致的模型漂移问题,取得了良好的跟踪效果。本实施例算法的重叠率均值达到75%,基本实现了所有序列的稳定跟踪。
表2目标框重叠率:
sequence | CT | OAB | TLD | LOT | OURS |
fish | 0.72 | 0.04 | 0.81 | 0.23 | 0.8 |
david2 | 0.50 | 0.32 | 0.69 | 0.6 | 0.78 |
girl | 0.31 | 0.72 | 0.57 | 0.42 | 0.62 |
boy | 0.59 | 0.79 | 0.66 | 0.53 | 0.84 |
jumping | 0.04 | 0.07 | 0.66 | 0.58 | 0.79 |
Singer1 | 0.54 | 0.52 | 0.8 | 0.21 | 0.83 |
sylvester | 0.67 | 0.56 | 0.67 | 0.57 | 0.73 |
woman | 0.13 | 0.48 | 0.13 | 0.09 | 0.64 |
mhyang | 0.60 | 0.75 | 0.63 | 0.22 | 0.83 |
Average | 0.37 | 0.49 | 0.58 | 0.40 | 0.75 |
表3中给出了各算法在所有视频序列中的跟踪速度的平均值,本实施例算法在对比算法中排名第三,CT算法采用稀疏矩阵表示因此速度快,但这种算法由于特征表示简单在鲁棒性方面表现略差。本实施例算法速度达到56帧每秒,速度低于上述两种算法,但是可以保证实时性要求,且高于大多数同类型的生成式算法。
表3跟踪速率
sequence | CT | OAB | TLD | LOT | OURS |
平均帧速 | 87 | 13 | 23 | 35 | 56 |
根据所有视频序列帧实验得到的数据,对算法整体鲁棒性进行评估,采用OPE评估方法,根据初始帧的准确位置进行初始化,然后在一个测试序列中执行算法,最后得出平均精度和成功率结果。
如图7所示,精度图根据中心误差值绘制,从图中可以看出误差在给定阈值之内的帧数占总帧数的百分比。并根据阈值为20像素的结果对算法进行排名。可以看出本实施例算法的精确度最高。
如图8所示,成功率图根据重叠率绘制,表示的是重叠率大于给定阈值的帧数占总帧数的百分比。使用某一特定阈值(比如to=0.5)下的一个成功率来评估跟踪器可能并不公平或具有代表性。因此使用每一个成功率图的曲线下面积(AUC)作为替代,用于给跟踪算法进行排名。可以看出,本实施例算法的成功率也是最高的。
定性评估实验中,为了能够直观清晰地看到不同算法的跟踪效果,本实施例给出了5种算法在不同视频帧中的跟踪得到目标框的结果图,其中不同算法的跟踪结果用不同颜色的矩形框标准出来,如图9所示。
图9中jumping视频包含了快速运动及运动模糊的情况,并且视频中跟踪的人脸范围较小,能提取的特征点较少,再加上持续的快速运动,以及出现的图像模糊现象给跟踪带来了较大的困难,因此大部分跟踪器都会出现跟踪失败的现象,从图中给出的五帧可以看出,在目标经过数次上下运动后OAB和CT以及完全跟踪失败,TLD和LOT跟踪器发生了部分偏移以及尺度误差,但是本文算法仍能够基本框定目标。
图10的woman的整个图像序列552帧中,目标出现多次的不同程度的局部遮挡,在141帧截图中可以看到,在经过第一次遮挡后,只有本文算法能够稳定的框中目标,OAB算法发生了偏移,而剩余的TLD,LOT,CT跟踪器已经跟踪失败。在目标发生第二遮挡次,OAB跟踪器的目标框也完全偏移,在349和547帧中可以看到目标遮挡消除,OAB重新找回目标,而其他三个算法的目标框仍处在丢失状态,在564帧目标发生了尺度变化并且目标变模糊,此时OAB算法再次偏移,本文算法根据尺度调整目标框,仍然准确地跟踪。因此可以看出,在目标出现部分遮挡和运动模糊时,本文算法仍然能够根据仍有的部分特征点通过聚类找到目标中心,以及及时调整尺度大小,准确跟踪到目标。
本实施例所提出的视频轨迹跟踪方法,一方面通过在YOLO-V8算法骨干网络末端增加CA模块的注意力机制实现特征增强,提升模型对目标的精准检测能力,另一方面利用局部特征与全局特征构建相关滤波器,提升在跟踪稳定性,最后利用匈牙利匹配算法对目标跟踪边缘框与目标检测边缘框的相关性与重叠度进行最优匹配,根据跟踪结果纠正目标检测结果,输出最终目标框。相较于单独的相关滤波跟踪算法,融合了深度学习模型的跟踪算法在精确度、成功率上均得到了有效提升,尤其是针对小目标跟踪效果提升明显。在电力领域应用方面,使用大量变电站监控图像进行模型训练,再结合实时的相关滤波算法,能够有效地实现在复杂作业环境下对现场作业人员、施工车辆的实时跟踪。
实施例二
本实施例的目的是提供一一种特征融合的视频目标跟踪系统,包括:
目标检测模块,其被配置为:利用目标检测算法对所获取的当前视频帧中的目标进行检测,得到目标检测框;
相关滤波模块,其被配置为:通过局部相关滤波器和全局相关滤波器分别对所获取的上一视频帧提取第一最大响应图和第二最大响应图;
目标跟踪模块,其被配置为:根据所述第一最大响应图和所述第二最大响应图,得到当前视频帧的目标跟踪边缘框;
匹配模块,其被配置为:利用匈牙利匹配算法对所述目标检测框和所述目标跟踪边缘框的重叠度进行匹配,得到所述目标最终的目标框。
实施例三
本实施例的目的是提供一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
实施例四
本实施例的目的是提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行上述方法的步骤。
以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (10)
1.一种特征融合的视频目标跟踪方法,其特征在于,包括:
利用目标检测算法对所获取的当前视频帧中的目标进行检测,得到目标检测框;
通过局部相关滤波器和全局相关滤波器分别对所获取的上一视频帧提取第一最大响应图和第二最大响应图;
根据所述第一最大响应图和所述第二最大响应图,得到当前视频帧的目标跟踪边缘框;
利用匈牙利匹配算法对所述目标检测框和所述目标跟踪边缘框的重叠度进行匹配,得到所述目标最终的目标框。
2.如权利要求1所述的一种特征融合的视频目标跟踪方法,其特征在于,所述目标检测算法以YOLO-v8网络为主网络,在所述YOLO-v8网络的末端添加坐标注意力机制,利用坐标注意力机制对所述YOLO-v8网络的输出进行特征增强。
3.如权利要求1所述的一种特征融合的视频目标跟踪方法,其特征在于,对上一视频帧利用局部相关滤波器和全局相关滤波器分别提取颜色特征和方向梯度直方图特征,经傅里叶变换后得到第一最大响应图和第二最大响应图;根据第一最大响应图确定的目标中心位置和第二最大响应图确定的目标中心位置,利用自适应加权算法得到最终的目标中心位置,根据所确定的最终的目标中心位置确定目标跟踪边缘框。
4.如权利要求3所述的一种特征融合的视频目标跟踪方法,其特征在于,在目标跟踪过程中,利用尺度滤波器对所确定的目标中心位置进行尺度更新,具体为:
以当前检测到的目标中心位置为中心点,采集不同尺度的候选区域;
对每个尺度的候选区域提取方向梯度直方图特征;
利用提取的所有方向梯度直方图特征训练正则化最小二乘分类器,得到尺度相关模板;
利用相关尺度模板求解输出响应值,输出响应值最大的尺度为下一视频帧中目标的尺度。
5.如权利要求4所述的一种特征融合的视频目标跟踪方法,其特征在于,根据上一视频帧的宽度和高度对尺度选择候选区域的尺度。
6.如权利要求1所述的一种特征融合的视频目标跟踪方法,其特征在于,计算所述目标检测框和所述目标跟踪边缘框的IOU值,匈牙利匹配算法根据所计算得到的IOU值的先验关系,建立所述目标检测边缘框与所述目标跟踪边缘框之间的匹配关系。
7.一种特征融合的视频目标跟踪系统,其特征在于,包括:
目标检测模块,其被配置为:利用目标检测算法对所获取的当前视频帧中的目标进行检测,得到目标检测框;
相关滤波模块,其被配置为:通过局部相关滤波器和全局相关滤波器分别对所获取的上一视频帧提取第一最大响应图和第二最大响应图;
目标跟踪模块,其被配置为:根据所述第一最大响应图和所述第二最大响应图,得到当前视频帧的目标跟踪边缘框;
匹配模块,其被配置为:利用匈牙利匹配算法对所述目标检测框和所述目标跟踪边缘框的重叠度进行匹配,得到所述目标最终的目标框。
8.如权利要求7所述的一种特征融合的视频目标跟踪系统,其特征在于,在所述匹配模块中,计算所述目标检测框和所述目标跟踪边缘框的IOU值,匈牙利匹配算法根据所计算得到的IOU值的先验关系,建立所述目标检测边缘框与所述目标跟踪边缘框之间的匹配关系。
9.一种计算机设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至6任一项所述的一种特征融合的视频目标跟踪方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至6任一项所述的一种特征融合的视频目标跟踪方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311331021.7A CN117274314A (zh) | 2023-10-13 | 2023-10-13 | 一种特征融合的视频目标跟踪方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311331021.7A CN117274314A (zh) | 2023-10-13 | 2023-10-13 | 一种特征融合的视频目标跟踪方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117274314A true CN117274314A (zh) | 2023-12-22 |
Family
ID=89217648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311331021.7A Pending CN117274314A (zh) | 2023-10-13 | 2023-10-13 | 一种特征融合的视频目标跟踪方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117274314A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117893613A (zh) * | 2024-03-15 | 2024-04-16 | 泉州装备制造研究所 | 一种托盘位姿估计方法、系统及存储介质 |
-
2023
- 2023-10-13 CN CN202311331021.7A patent/CN117274314A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117893613A (zh) * | 2024-03-15 | 2024-04-16 | 泉州装备制造研究所 | 一种托盘位姿估计方法、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108550161B (zh) | 一种尺度自适应核相关滤波快速目标跟踪方法 | |
CN108319972B (zh) | 一种针对图像语义分割的端到端差异网络学习方法 | |
CN108986140B (zh) | 基于相关滤波和颜色检测的目标尺度自适应跟踪方法 | |
CN110135500B (zh) | 一种基于自适应深度特征滤波器的多场景下目标跟踪方法 | |
CN109272509B (zh) | 一种连续图像的目标检测方法、装置、设备及存储介质 | |
CN110569782A (zh) | 一种基于深度学习目标检测方法 | |
CN108830196A (zh) | 基于特征金字塔网络的行人检测方法 | |
CN108629783B (zh) | 基于图像特征密度峰值搜索的图像分割方法、系统及介质 | |
KR20080066671A (ko) | 궤적 구간 분석을 사용한 양방향 추적 | |
CN112836639A (zh) | 基于改进YOLOv3模型的行人多目标跟踪视频识别方法 | |
CN108876820B (zh) | 一种基于均值漂移的遮挡条件下移动目标追踪方法 | |
CN111860587B (zh) | 一种用于图片小目标的检测方法 | |
CN110120064A (zh) | 一种基于互强化与多注意机制学习的深度相关目标跟踪算法 | |
CN109166139B (zh) | 一种结合快速背景抑制的尺度自适应目标跟踪方法 | |
CN110175649A (zh) | 一种关于重新检测的快速多尺度估计目标跟踪方法 | |
CN117274314A (zh) | 一种特征融合的视频目标跟踪方法及系统 | |
CN112329784A (zh) | 一种基于时空感知及多峰响应的相关滤波跟踪方法 | |
CN111340019A (zh) | 基于Faster R-CNN的粮仓害虫检测方法 | |
CN115661720A (zh) | 一种被遮挡车辆的目标跟踪识别方法及系统 | |
CN110544267A (zh) | 一种自适应选择特征的相关滤波跟踪方法 | |
CN110555864A (zh) | 基于pspce的自适应目标跟踪方法 | |
CN113516071A (zh) | 一种猪只估重方法 | |
CN110570450B (zh) | 一种基于级联的上下文感知框架的目标跟踪方法 | |
CN110298868B (zh) | 一种高实时性的多尺度目标跟踪方法 | |
CN110751671B (zh) | 一种基于核相关滤波与运动估计的目标跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |