CN117036405A - 一种融合多粒度动态外观的抗遮挡目标跟踪方法 - Google Patents

一种融合多粒度动态外观的抗遮挡目标跟踪方法 Download PDF

Info

Publication number
CN117036405A
CN117036405A CN202311004401.XA CN202311004401A CN117036405A CN 117036405 A CN117036405 A CN 117036405A CN 202311004401 A CN202311004401 A CN 202311004401A CN 117036405 A CN117036405 A CN 117036405A
Authority
CN
China
Prior art keywords
target
track
granularity
appearance
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311004401.XA
Other languages
English (en)
Inventor
付立军
刘晓静
李旭
武靖恺
胡蝶
王兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Zhihe Digital Technology Beijing Co ltd
Original Assignee
Zhongke Zhihe Digital Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Zhihe Digital Technology Beijing Co ltd filed Critical Zhongke Zhihe Digital Technology Beijing Co ltd
Priority to CN202311004401.XA priority Critical patent/CN117036405A/zh
Publication of CN117036405A publication Critical patent/CN117036405A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/759Region-based matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于多目标跟踪领域。提供了一种融合多粒度动态外观的抗遮挡目标跟踪方法。目的在于解决现有技术中存在的目标ID跳变、遮挡场景下跟踪效果受到影响的技术问题。主要方案包括获取原始图像。对原始图像调用目标检测器得到目标检测结果,将目标检测结果中的目标图像提取得到目标外观特征;计算得到视频帧的目标外观贡献度因子α;基于前一帧的目标检测结果,得到当前帧的目标运动特征。对目标外观特征、目标外观贡献度因子α、目标运动特征进行数据融合,得到目标相似度。对两帧中目标进行级联匹配和IOU匹配,并为各目标分配ID。按照同一ID关联目标在各帧中的位置,得到同一目标ID在图像序列中的运行轨迹,从而输出目标跟踪结果。

Description

一种融合多粒度动态外观的抗遮挡目标跟踪方法
技术领域
本申请提案属于计算机视觉中的MOT(mutil-object tracking)多目标跟踪领域。提供了一种融合多粒度动态外观的抗遮挡目标跟踪方法。
背景技术
视频跟踪是计算机视觉中的一项重要任务,是指对视频序列中的目标状态进行持续推断的过程,其任务在于通过对视频中的每一帧中定位目标,以生成目标的运动轨迹。视频跟踪技术在军事和民用方面都有着十分广泛的应用,军事方面包括无人飞行器、空中预警、战场监视等;民用方面包括移动机器人、智能视频监控、智能交通系统、人机交互、虚拟现实等。
当目标被其它物体遮挡、背景干扰、移动至视野外时会造成目标的部分特征损失或全部损失,使前后帧无法关联匹配成功,造成目标丢失和跟踪失败,当遮挡恢复后重新识别造成目标ID跳变,使得跟踪结果受到影响,是目标跟踪任务中的挑战。
与本提案接近的现有技术方案
SORT算法(Simple Online and Realtime Tracking)
SORT的基本原理是基于目标检测算法得到的目标框Detections,利用卡尔曼滤波进行目标行为的预测Tracks,并通过匈牙利算法将Detections和Tracks进行IOU匹配。
(1)卡尔曼滤波
卡尔曼滤波通过目标框当前帧的状态,可以预测下一帧的目标框状态。其中,目标的运动状态定义为8个正态分布的向量。基于当前帧目标的状态对下一帧预测的过程如下:
首先认为预测值和观测值都存在误差,且误差都符合高斯分布;
然后假设预测值的误差为Q,观测值的误差R;
结合Q和R计算卡尔曼增益,并综合预测值和观测值的结果,得到最优估计。
(2)匈牙利算法
匈牙利算法解决的是一个分配问题,通过计算前后两帧的IOU来构建相似度矩阵,然后进行数据匹配,并根据匹配结果确定目标ID。其主要处理过程如下:
将Detect的目标框与Track的预测框进行IOU匹配
再通过IOU匹配的结果计算其代价矩阵
将代价矩阵作为匈牙利算法的输入得到匹配结果,匹配结果包括三种情况:
Unmatched Track:匹配失败,Detection和Track无法进行匹配,如果连续Tost次匹配失败,则该目标ID将从图片中删除。
Unmatched Detections:说明没有任意一个Track能匹配Detection,所以要为这个detection分配一个新的track。
Matched Tracks:表示匹配成功,然后基于Kalman Filter更新匹配的Track。
DeepSORT算法
DeepSORT在SORT的基础上添加了CNN网络模型提取检测框的外观特征,将外观特征和运动特征融合后计算成本矩阵,并采用级联匹配(Matching Cascade)和新轨迹状态确认,减少了目标ID switch次数。
加入CNN网络提取目标外观特征
DeepSORT加入一个深度学习的CNN网络来提取目标框的外观特征,在每帧检测和跟踪后,进行一次目标外观特征的提取并保存。
通过搭建一个CNN来完成训练,使其拥有区分同一类别不同目标的能力,使用网络的中间层来为构建外观特征提取器。在得到各个目标的特征向量后,就可以计算两两之间的最小余弦距离。
将外观特征和运动特征结合后计算相似度
运动特征提供了目标可能的位置信息,这在短期预测中非常有效;外观特征更多考虑的是预测信息和轨迹信息的外观特征差异,当跟踪对象位移较少时,对恢复遮挡后的目标判定比较有效。故计算相似度矩阵时使用到了外观模型(ReID的Cosine Distance余弦距离)和运动模型(Mahalanobis Dinstance马氏距离)通过加权方式来计算相似度。
增加级联匹配Matching Cascade和状态确认
级联匹配过程是一个循环过程,从missing age=0到missage age=70的轨迹和Detection进行匹配,对没有丢失过的轨迹优先被匹配,丢失较为较为久远的靠后匹配,并且在匹配时增加了状态确认的判断,减少目标跳变的问题。
现有技术方案的缺点:
SORT:在Sort算法中,仅仅通过IOU进行匹配虽然速度非常快,但是ID Switch(对于同一目标,由于跟踪算法误判,导致的目标ID跳变)非常大。特别是在遮挡场景下,卡尔曼滤波一直不断的预测,但是却不进行更新,造成代价矩阵变小,容易导致未指定的Track错误匹配其他的detect,所以ID Switch比较频繁。
Deep-SORT:
1.跟踪算法效果高度依赖于检测器,但未对检测器所输出目标框的置信度进行算法上的相关判断和处理,这会使得某些场景(如,遮挡)时的跟踪效果受到影响。
2.提取目标特征时引入了外观特征,但所采用的是CNN网络,用到的参数量大且性能不高。
发明内容
本发明的目的在于解决现有技术中存在的目标ID跳变、遮挡场景下跟踪效果受到影响的技术问题。
为了实现上述目的本发明采用以下技术方案:
一种融合多粒度动态外观的抗遮挡目标跟踪方法,包括以下步骤:
步骤1:对视频流中的图像逐帧读取得到原始图像。
步骤2:对原始图像调用目标检测器得到目标检测结果,包括:置信度、目标图像。
步骤3:将目标检测结果中的目标图像送入预训练的多粒度网络模型,提取得到目标外观特征;
步骤4:基于目标检测结果中的置信度,计算得到视频帧的目标外观贡献度因子α;
步骤5:基于前一帧的目标检测结果,采用卡尔曼滤波进行预测和更新得到当前帧的目标运动特征。
步骤6:对目标外观特征、目标外观贡献度因子α、目标运动特征进行数据融合,综合计算相邻两帧中的目标相似度。
步骤7:基于得到的相邻两帧中的目标相似度采用匈牙利算法,对两帧中的所有目标进行级联匹配和IOU匹配,并为各目标分配ID。
步骤8:按照同一ID关联目标在各帧中的位置,得到同一目标ID在图像序列中的运行轨迹,从而输出目标跟踪结果。
上述技术方案中,步骤3包括以下步骤:
步骤3.1、多粒度网络模型的预训练过程,包括如下步骤:
3.1.1:对ReID数据集进行数据增强处理得到仿遮挡的ReID数据集,其中ReID数据集是指已经按目标框扣图的数据集;
步骤3.1.1具体包括如下步骤:输入对象:ReID原始数据集,采用GridMask方法对ReID数据集中的目标框进行网格化删除,并控制删除区域的密度、大小和形状,从而使得图像区域不被过度遮罩和保留,达到合理的平衡;
将ReID数据集中的一部分区域按步骤3.1.1删除后,随机提取其它ReId数据集中图像的像素值填充到删除区域中,得到仿遮挡ReID数据集。
3.1.2将仿遮挡的ReID数据集划分为测试集和训练集;
3.1.3构建多粒度网络模型的多粒度特征融合网络,具体包括如下步骤:
3.1.3.1、使用Resnet50作为骨干网络,前三层通过卷积提取图像基础特征;
3.1.3.2、在主干网络的第三层之后,构建四个多粒度特征分支,分别为:全局粗粒度特征提取分支、横向分割的细粒度特征提取分支、纵向分割的细粒度特征提取分支、通道分割的细粒度特征提取分支,基于图像基础特征,通过各粒度分支提取得到图像的图像多粒度特征;
3.1.3.3、将图像多粒度特征连接至最大池化层,计算最大值后得到融合了全局特征和局部特征的图像外观特征;
3.1.3.4、最大池化处理后连接至全连接层,基于图像外观特征,输出图像重识别分类结果。
3.1.4、使用训练集对多粒度网络模型进行训练,训练过程中使用损失函数作为监督学习的信号,其中,全局粗粒度特征提取分支采用Softmax Loss交叉熵损失函数和Triplet Loss三元组损失函数计算损失,三个局部细粒度特征提取分支采用Softmax Loss交叉熵函数计算损失,训练得到模型权重,即得到训练好的多粒度网络模型。
3.1.5、使用测试集图像作为输入,验证多粒度网络模型的输出效果,主要是用测试集验证模型效果,防止模型对于训练集效果好而测试集不适用的过拟合现象。
3.2、在线跟踪时的调用过程
由于在线跟踪时只需要获取图像外观特征,故调用时剥离掉全连接层,将目标检测结果中的目标图像作为输入,调用训练好的多粒度网络模型得到目标外观特征。
上述技术方案中,步骤4中目标外观贡献度因子α:
其中Sdet为某一时刻视频帧中目标检测结果的置信度,Ω为过滤噪声检测的置信度阈值,当Sd叶=1时,a为1即动态因子取得最大值,Sdet≤Ω时取得最小值0。
上述技术方案中,步骤5中:
目标运动特征:卡尔曼滤波该算法将目标的运动特征定义为8个正态分布的向量,分别为:(u,v,γ,h,u·,v·,γ·,h·),分别表示bounding box中心点的位置坐标(u,v)、纵横比γ、高h以及求导后得到的速度信息(u·,v·,γ·,h·);
预测过程:当目标移动时,卡尔曼滤波通过前一帧的目标图像位置和速度参数计算预测得出当前帧目标的运动特征,即位置和速度;
更新过程:将基于前一帧的预测值和当前帧实际的观测值进行线性加权计算得到当前帧最优的运动状态估计结果,其中观测值是本帧实际观测到的运动特征。
上述技术方案中,步骤6中:目标相似度采用距离进行度量,属于同一目标时距离较小,不同目标时距离较大:
目标外观特征采用余弦距离,记为d1
目标外观贡献度因子由步骤4得到,记为a;
目标运动特征采用马氏距离,记为d2
将外观特征和运动特征进行加权,计算目标相似度D:
D=(θ*a)*d1+(1-θ*a)*d2
其中,θ为超参数,取值范围为0,1,用于设置外观特征和运动特征的影响度;a为每帧的动态参数用于对置信度不同的目标赋予不同的权重。
上述技术方案中,步骤7中:匈牙利算法基于当前帧目标检测的所有检测目标集和通过卡尔曼滤波预测得到的当前帧的所有的轨迹集,采用目标相似度计算方法构建相似度矩阵,对检测目标集和轨迹集进行级联匹配,当级联匹配未成功时再采用IOU匹配,从而解决目标的ID分配问题;
其中,轨迹集中的每个轨迹都包含一个轨迹id,用以表示分配给这个轨迹的目标的ID,state表示轨迹的状态。
检测目标与轨迹的级联匹配:使用相似度矩阵进行匹配时采用级联匹配的优先级策略,对没有丢失过的轨迹优先匹配,丢失较为久远的就靠后匹配;
匹配结果:检测检测目标集和轨迹集匹配结果共有如下几种情况:
(1)检测目标和轨迹匹配,也就是Matched Tracks,指匹配成功;
(2)检测目标没找到匹配的轨迹,也就是Unmatched Detections,指图像中突然出现新的目标,检车目标无法在之前的轨迹找到匹配的目标;
(3)轨迹没有找到匹配的检测目标,也就是Unmatched Tracks,指连续跟踪的目标从图像区域中移出,轨迹无法与当前任意一个检测目标匹配。
轨迹状态确认:为使算法具有更强的鲁棒性,对于新轨迹的创建、丢失轨迹的删除均需确认后再执行,以轨迹删除为例说明:对于之前已确定匹配成功的情况,当不能连续匹配时仍然保留,超过阈值时再进行删除;确认过程通过在轨迹的信息中的State状态实现,State共包含如下三种状态:
(1)Tentative:不确定状态,这种状态会在初始化一个轨迹的时候分配,只有在连续匹配上n_init帧之后才会转变为确定态,如果在处于不确定态的情况下没有匹配上任何检测目标,那么将转变为删除状态,n_init是一个算法参数,只有在连续几次都匹配成功的情况下,才给分配ID。这是为了避免误匹配造成ID跳变问题。
(2)Confirmed:确定态,表示轨迹确实处于匹配状态,如果当前轨迹属于确定态,但是失配连续达到max_age次数的时候就会转变为删除态。max_age一般默认值为70,可以人工调整阈值。设置此参数的问题是为了避免目标在一段时间内被遮挡的情况下而造成匹配失败,误删除后目标再次出现时重新分配ID而造成的ID跳变问题。
(3)Deleted:删除态,说明该轨迹已经失效。
更新轨迹集:根据轨迹匹配结果,通过卡尔曼滤波器更新轨迹集中每个轨迹的状态。
分配目标的ID:按照轨迹匹配结果为识别到的目标分配唯一ID。
因为本发明采用以上技术方案,因此具备以下有益效果:
一、基于置信度的外观贡献度因子
本发明设置了基于置信度的目标外观贡献度因子,在计算目标相似度时能够对外观权重进行适应性动态调整,当置信度低时降低外观特征所占权重,置信度高时提升权重,提升目标跟踪算法的鲁棒性。
二、多粒度特征融合网络模型
本发明将原DeepSORT算法中的CNN网络替换为多粒度特征融合网络MGN,充分利用全局粗粒度特征、横向分割的细粒度特征、纵向分割的细粒度特征,通道分割的细粒度特征,可以有效提取结构性全局信息和辨识度强的局部信息,显著提升遮挡情况下的特征提取效果。
三、仿遮挡数据集
本发明融合了GridMask和Cutmix两种数据增强技术得到仿遮挡数据集,为优化算法提供了数据基础。GridMask通过网格化删除得到新数据时对删除区域的密度、大小、形状进行控制,使得图像区域不被过度遮罩和保留,达到合理的平衡。Cutmix采取其它图像填充的方式能够模拟目标遮叠的效果,同时可让模型同时学习两个目标的特征更为高效。
四、通过深度学习网络模型提取目标外观特征,并将外观特征和基于运动的线索相结合,从而建立目标之间的关联。目标关联任务被建模为查询匹配问题。
附图说明
图1为本发明流程图;
图2为多粒度网络模型的预训练过程图;
图3为本发明检测结果示例图。
具体实施方式
以下将对本发明的实施例给出详细的说明。尽管本发明将结合一些具体实施方式进行阐述和说明,但需要注意的是本发明并不仅仅只局限于这些实施方式。相反,对本发明进行的修改或者等同替换,均应涵盖在本发明的权利要求范围当中。
另外,为了更好的说明本发明,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员将理解,没有这些具体细节,本发明同样可以实施。
一种融合多粒度动态外观的抗遮挡目标跟踪方法,包括以下步骤:
步骤1:对视频流中的图像逐帧读取得到原始图像。
步骤2:对原始图像调用目标检测器得到目标检测结果,包括:置信度、目标框、目标图像特征。
步骤3:对目标检测结果按照目标框扣图后,送入预训练的多粒度网络模型,提取得到目标的外观特征。
步骤3具体的包括以下步骤:
步骤3.1多粒度网络模型的预训练过程
3.1.1对ReID原始数据集进行数据增强处理得到仿遮挡的数据集
输入对象:ReID原始数据集
手段:
采用GridMask方法对目标框进行网格化删除,并控制删除区域的密度、大小和形状。从而使得图像区域不被过度遮罩和保留,达到合理的平衡。
将目标框数据集的一部分区域按步骤1删除后,再借鉴Cuxmix技术的思想,随机提取其它目标框图像数据集中的像素值填充到删除的区域中,从而得到仿遮挡的预训练数据集。
得到结果:仿遮挡的目标框数据集。
3.1.2将仿遮挡的ReID数据集划分为测试集和训练集。
3.1.3构建多粒度特征融合网络
3.1.3.1、使用Resnet50作为骨干网络,前三层用于提取目标图像的基础特征。
3.1.3.2、使用多粒度特征分支层提取目标图像的多粒度特征。在主干网络ResNeSt-50的第三层之后,划分为四个分支。分别为:
全局粗粒度特征提取分支
横向分割的细粒度特征提取分支
纵向分割的细粒度特征提取分支
通道分割的细粒度特征提取分支
3.1.3.3、多粒度特征的各个分支输出之后连接至最大池化层,提取最值得到图像的特征表示。
3.1.3.4、最大池化处理后连接至全连接层,识别最终结果。
3.1.3.5、为了获取综合的识别能力,最终将全局信息和局部信息串接形成综合的目标外观特征。使用损失函数作为监督学习的信号。全局分支采用Softmax Loss交叉熵损失函数和Triplet Loss三元组损失函数计算损失,三个局部细粒度分支采用Softmax Loss交叉熵函数计算损失。
3.1.4使用训练集对模型进行训练,得到模型权重。
使用ReID测试集图像作为输入,输入多粒度网络模型,得到与测试图像匹配的图像列表。
步骤3.2在线跟踪时的调用过程
由于在线跟踪时只需要获取图像外观特征,故调用时剥离掉全连接层,将目标检测结果中的目标图像作为输入,调用训练好的多粒度网络模型得到目标外观特征。
步骤4:基于目标检测结果中的置信度,计算得到视频帧的目标外观贡献度因子α
其中Sdet为某一时刻视频帧中目标检测结果的置信度,Ω为过滤噪声检测的置信度阈值,当Sdet=1时,α为1即动态因子取得最大值,Sdet<Ω时取得最小值0。
步骤5:基于前一帧的目标检测结果,卡尔曼滤波进行预测和更新得到当前帧的目标运动特征。
目标运动特征:卡尔曼滤波该算法将目标的运动特征定义为8个正态分布的向量。分别为:(u,v,γ,h,u·,v·,γ·,h·),分别表示boundingbox中心的位置、纵横比、高度以及在图像坐标中对应的速度信息。
预测过程:当目标移动时,卡尔曼滤波通过上一帧的目标框和速度等参数计算预测得出当前帧目标框的位置和速度等运行状态。
更新过程:将预测值和观测值进行线性加权计算得到最优的状态估计结果。
目标外观特征采用余弦距离,记为d1
目标外观贡献度因子由步骤4得到,记为a;
目标运动特征采用马氏距离,记为d2
将外观特征和运动特征进行加权,计算目标相似度D:
D=(θ*a)*d1+(1-θ*α)*d2
其中,θ为超参数,取值范围为0,1,用于设置外观特征和运动特征的影响度;a为每帧的动态参数用于对置信度不同的目标赋予不同的权重。
步骤7:基于得到的相邻两帧中的目标相似度采用匈牙利算法,对两帧中的所有目标进行级联匹配和IOU匹配,并为各目标分配ID。
步骤7中:匈牙利算法基于当前帧目标检测的所有检测目标集和通过卡尔曼滤波预测得到的当前帧的所有的轨迹集,采用目标相似度计算方法构建相似度矩阵,对检测目标集和轨迹集进行级联匹配,当级联匹配未成功时再采用IOU匹配,从而解决目标的ID分配问题;
其中,轨迹集中的每个轨迹都包含一个轨迹id,用以表示分配给这个轨迹的目标的ID,state表示轨迹的状态。
检测目标与轨迹的级联匹配:使用相似度矩阵进行匹配时采用级联匹配的优先级策略,对没有丢失过的轨迹优先匹配,丢失较为久远的就靠后匹配;
匹配结果:检测检测目标集和轨迹集匹配结果共有如下几种情况:
(1)检测目标和轨迹匹配,也就是Matched Tracks,指匹配成功;
(2)检测目标没找到匹配的轨迹,也就是Unmatched Detections,指图像中突然出现新的目标,检车目标无法在之前的轨迹找到匹配的目标;
(3)轨迹没有找到匹配的检测目标,也就是Unmatched Tracks,指连续跟踪的目标从图像区域中移出,轨迹无法与当前任意一个检测目标匹配。
轨迹状态确认:为使算法具有更强的鲁棒性,对于新轨迹的创建、丢失轨迹的删除均需确认后再执行,以轨迹删除为例说明:对于之前已确定匹配成功的情况,当不能连续匹配时仍然保留,超过阈值时再进行删除;确认过程通过在轨迹的信息中的State状态实现,State共包含如下三种状态:
(1)Tentative:不确定状态,这种状态会在初始化一个轨迹的时候分配,只有在连续匹配上n_init帧之后才会转变为确定态,如果在处于不确定态的情况下没有匹配上任何检测目标,那么将转变为删除状态,n_init是一个算法参数,只有在连续几次都匹配成功的情况下,才给分配ID。这是为了避免误匹配造成ID跳变问题。
(2)Confirmed:确定态,表示轨迹确实处于匹配状态,如果当前轨迹属于确定态,但是失配连续达到max_age次数的时候就会转变为删除态。max_age一般默认值为70,可以人工调整阈值。设置此参数的问题是为了避免目标在一段时间内被遮挡的情况下而造成匹配失败,误删除后目标再次出现时重新分配ID而造成的ID跳变问题。
(3)Deleted:删除态,说明该轨迹已经失效。
更新轨迹集:根据轨迹匹配结果,通过卡尔曼滤波器更新轨迹集中每个轨迹的状态。
分配目标的ID:按照轨迹匹配结果为识别到的目标分配唯一ID。
步骤8:输出目标跟踪结果,即目标在图像序列中的运行轨迹。

Claims (6)

1.一种融合多粒度动态外观的抗遮挡目标跟踪方法,其特征在于,包括以下步骤:
步骤1:对视频流中的图像逐帧读取得到原始图像;
步骤2:对原始图像调用目标检测器得到目标检测结果,包括:置信度、目标图像;
步骤3:将目标检测结果中的目标图像送入预训练的多粒度网络模型,提取得到目标外观特征;
步骤4:基于目标检测结果中的置信度,计算得到视频帧的目标外观贡献度因子α;
步骤5:基于前一帧的目标检测结果,采用卡尔曼滤波进行预测和更新得到当前帧的目标运动特征;
步骤6:对目标外观特征、目标外观贡献度因子α、目标运动特征进行数据融合,综合计算相邻两帧中的目标相似度;
步骤7:基于得到的相邻两帧中的目标相似度采用匈牙利算法,对两帧中的所有目标进行级联匹配和IOU匹配,并为各目标分配ID;
步骤8:按照同一ID关联目标在各帧中的位置,得到同一目标ID在图像序列中的运行轨迹,从而输出目标跟踪结果。
2.根据权利要求1所述的一种融合多粒度动态外观的抗遮挡目标跟踪方法,其特征在于,步骤3包括以下步骤:
步骤3.1、多粒度网络模型的预训练过程,包括如下步骤:
3.1.1:对ReID数据集进行数据增强处理得到仿遮挡的ReID数据集,其中ReID数据集是指已经按目标框扣图的数据集;
步骤3.1.1具体包括如下步骤:输入对象:ReID原始数据集,采用GridMask方法对ReID数据集中的目标框进行网格化删除,并控制删除区域的密度、大小和形状,从而使得图像区域不被过度遮罩和保留,达到合理的平衡;
将ReID数据集中的一部分区域按步骤3.1.1删除后,随机提取其它ReId数据集中图像的像素值填充到删除区域中,得到仿遮挡ReID数据集。
3.1.2将仿遮挡的ReID数据集划分为训练集和测试集;
3.1.3构建多粒度网络模型的多粒度特征融合网络,具体包括如下步骤:
3.1.3.1、使用Resnet50作为骨干网络,前三层通过卷积提取图像基础特征;
3.1.3.2、在主干网络的第三层之后,构建四个多粒度特征分支,分别为:全局粗粒度特征提取分支、横向分割的细粒度特征提取分支、纵向分割的细粒度特征提取分支、通道分割的细粒度特征提取分支,基于图像基础特征,通过各粒度分支提取得到图像的图像多粒度特征;
3.1.3.3、将图像多粒度特征连接至最大池化层,计算最大值后得到融合了全局特征和局部特征的图像外观特征;
3.1.3.4、最大池化处理后连接至全连接层,基于图像外观特征,输出图像重识别分类结果。
3.1.4、使用训练集对多粒度网络模型进行训练,训练过程中使用损失函数作为监督学习的信号,其中,全局粗粒度特征提取分支采用Softmax Loss交叉熵损失函数和TripletLoss三元组损失函数计算损失,三个局部细粒度特征提取分支采用Softmax Loss交叉熵函数计算损失,训练得到模型权重,即得到训练好的多粒度网络模型;
3.1.5、使用测试集图像作为输入,验证多粒度网络模型的输出效果;(主要是用测试集验证模型效果,防止模型对于训练集效果好而测试集不适用的过拟合现象。)
3.2、在线跟踪时的调用过程
由于在线跟踪时只需要获取图像外观特征,故调用时剥离掉全连接层,将目标检测结果中的目标图像作为输入,调用训练好的多粒度网络模型得到目标外观特征。
3.根据权利要求1所述的一种融合多粒度动态外观的抗遮挡目标跟踪方法,其特征在于,步骤4中目标外观贡献度因子a:
其中Sdet为某一时刻视频帧中目标检测结果的置信度,Ω为过滤噪声检测的置信度阈值,当Sdet=1时,α为1即动态因子取得最大值,Sdet≤Ω时取得最小值0。
4.根据权利要求1所述的一种融合多粒度动态外观的抗遮挡目标跟踪方法,其特征在于,步骤5中:
目标运动特征:卡尔曼滤波该算法将目标的运动特征定义为8个正态分布的向量,分别为:(u,v,γ,hu·,v·,γ·,h·),分别表示bounding box中心点的位置坐标(u,v)、纵横比γ、高h以及求导后得到的速度信息(u·,v·,γ·,h·),其中u·,v·,γ·,h·分别指u,v,γ,h的导数;
预测过程:当目标移动时,卡尔曼滤波通过前一帧的目标图像位置和速度参数计算预测得出当前帧目标的运动特征,即位置和速度;
更新过程:将基于前一帧的预测值和当前帧实际的观测值进行线性加权计算得到当前帧最优的运动状态估计结果,其中观测值是本帧实际观测到的运动特征。
5.根据权利要求1所述的一种融合多粒度动态外观的抗遮挡目标跟踪方法,其特征在于,步骤6中:目标相似度采用距离进行度量,属于同一目标时距离较小,不同目标时距离较大:
目标外观特征采用余弦距离,记为d1
目标外观贡献度因子由步骤4得到,记为a;
目标运动特征采用马氏距离,记为d2
将外观特征和运动特征进行加权,计算目标相似度D:
D=(θ*a)*d1+(1-θ*a)*d2
其中,θ为超参数,取值范围为0,1,用于设置外观特征和运动特征的影响度;a为每帧的动态参数用于对置信度不同的目标赋予不同的权重。
6.根据权利要求1所述的一种融合多粒度动态外观的抗遮挡目标跟踪方法,其特征在于,步骤7中:匈牙利算法基于当前帧目标检测的所有检测目标集和通过卡尔曼滤波预测得到的当前帧的所有的轨迹集,采用目标相似度计算方法构建相似度矩阵,对检测目标集和轨迹集进行级联匹配,当级联匹配未成功时再采用IOU匹配,从而解决目标的ID分配问题;
其中,轨迹集中的每个轨迹都包含一个轨迹id,用以表示分配给这个轨迹的目标的ID,state表示轨迹的状态。
检测目标与轨迹的级联匹配:使用相似度矩阵进行匹配时采用级联匹配的优先级策略,对没有丢失过的轨迹优先匹配,丢失较为久远的就靠后匹配;
匹配结果:检测检测目标集和轨迹集匹配结果共有如下几种情况:
(1)检测目标和轨迹匹配,也就是Matched Tracks,指匹配成功;
(2)检测目标没找到匹配的轨迹,也就是Unmatched Detections,指图像中突然出现新的目标,检车目标无法在之前的轨迹找到匹配的目标;
(3)轨迹没有找到匹配的检测目标,也就是Unmatched Tracks,指连续跟踪的目标从图像区域中移出,轨迹无法与当前任意一个检测目标匹配。
轨迹状态确认:为使算法具有更强的鲁棒性,对于新轨迹的创建、丢失轨迹的删除均需确认后再执行,以轨迹删除为例说明:对于之前已确定匹配成功的情况,当不能连续匹配时仍然保留,超过阈值时再进行删除;确认过程通过在轨迹的信息中的State状态实现,State共包含如下三种状态:
(1)Tentative:不确定状态,这种状态会在初始化一个轨迹的时候分配,只有在连续匹配上n_init帧之后才会转变为确定态,如果在处于不确定态的情况下没有匹配上任何检测目标,那么将转变为删除状态,n_init是一个算法参数,只有在连续几次都匹配成功的情况下,才给分配ID。这是为了避免误匹配造成ID跳变问题。
(2)Confirmed:确定态,表示轨迹确实处于匹配状态,如果当前轨迹属于确定态,但是失配连续达到max_age次数的时候就会转变为删除态。max_age一般默认值为70,可以人工调整阈值。设置此参数的问题是为了避免目标在一段时间内被遮挡的情况下而造成匹配失败,误删除后目标再次出现时重新分配ID而造成的ID跳变问题。
(3)Deleted:删除态,说明该轨迹已经失效。
更新轨迹集:根据轨迹匹配结果,通过卡尔曼滤波器更新轨迹集中每个轨迹的状态。
分配目标的ID:按照轨迹匹配结果为识别到的目标分配唯一ID。
CN202311004401.XA 2023-08-10 2023-08-10 一种融合多粒度动态外观的抗遮挡目标跟踪方法 Pending CN117036405A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311004401.XA CN117036405A (zh) 2023-08-10 2023-08-10 一种融合多粒度动态外观的抗遮挡目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311004401.XA CN117036405A (zh) 2023-08-10 2023-08-10 一种融合多粒度动态外观的抗遮挡目标跟踪方法

Publications (1)

Publication Number Publication Date
CN117036405A true CN117036405A (zh) 2023-11-10

Family

ID=88633120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311004401.XA Pending CN117036405A (zh) 2023-08-10 2023-08-10 一种融合多粒度动态外观的抗遮挡目标跟踪方法

Country Status (1)

Country Link
CN (1) CN117036405A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117495917A (zh) * 2024-01-03 2024-02-02 山东科技大学 基于jde多任务网络模型的多目标跟踪方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117495917A (zh) * 2024-01-03 2024-02-02 山东科技大学 基于jde多任务网络模型的多目标跟踪方法
CN117495917B (zh) * 2024-01-03 2024-03-26 山东科技大学 基于jde多任务网络模型的多目标跟踪方法

Similar Documents

Publication Publication Date Title
CN110516556A (zh) 基于Darkflow-DeepSort的多目标追踪检测方法、装置及存储介质
CN106778712B (zh) 一种多目标检测与跟踪方法
CN111488795A (zh) 应用于无人驾驶车辆的实时行人跟踪方法
CN112288773A (zh) 基于Soft-NMS的多尺度人体跟踪方法及装置
CN111767847B (zh) 一种集成目标检测和关联的行人多目标跟踪方法
CN112734775A (zh) 图像标注、图像语义分割、模型训练方法及装置
Borkar et al. Defending against universal attacks through selective feature regeneration
KR102132722B1 (ko) 영상 내 다중 객체 추적 방법 및 시스템
Mohtavipour et al. A multi-stream CNN for deep violence detection in video sequences using handcrafted features
CN112651995A (zh) 基于多功能聚合和跟踪模拟训练的在线多目标跟踪方法
CN110047096B (zh) 一种基于深度条件随机场模型的多目标跟踪方法和系统
CN117036405A (zh) 一种融合多粒度动态外观的抗遮挡目标跟踪方法
CN111626194A (zh) 一种使用深度关联度量的行人多目标跟踪方法
CN113743509B (zh) 一种基于不完全信息的在线作战意图识别方法及装置
CN114240997B (zh) 一种智慧楼宇在线跨摄像头多目标追踪方法
KR102349854B1 (ko) 표적 추적 시스템 및 방법
CN110688940A (zh) 一种快速的基于人脸检测的人脸追踪方法
Tao et al. Object detection with class aware region proposal network and focused attention objective
CN111582091A (zh) 基于多分支卷积神经网络的行人识别方法
Bashar et al. Multiple object tracking in recent times: A literature review
CN114926859A (zh) 一种结合头部跟踪的密集场景下行人多目标跟踪方法
CN116883457B (zh) 一种基于检测跟踪联合网络和混合密度网络的轻量化多目标跟踪方法
CN113012193A (zh) 一种基于深度学习的多行人跟踪方法
CN116245913A (zh) 基于层次化上下文引导的多目标跟踪方法
CN115147385A (zh) 一种航空孔探视频中重复损伤的智能检测和判定方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
CB03 Change of inventor or designer information

Inventor after: Fu Lijun

Inventor after: Lin Xiaojing

Inventor after: Li Xu

Inventor after: Wu Jingkai

Inventor after: Hu Die

Inventor after: Wang Xing

Inventor before: Fu Lijun

Inventor before: Liu Xiaojing

Inventor before: Li Xu

Inventor before: Wu Jingkai

Inventor before: Hu Die

Inventor before: Wang Xing

CB03 Change of inventor or designer information
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination