CN116051601A - 一种深度时空关联的视频目标跟踪方法及系统 - Google Patents
一种深度时空关联的视频目标跟踪方法及系统 Download PDFInfo
- Publication number
- CN116051601A CN116051601A CN202211720383.0A CN202211720383A CN116051601A CN 116051601 A CN116051601 A CN 116051601A CN 202211720383 A CN202211720383 A CN 202211720383A CN 116051601 A CN116051601 A CN 116051601A
- Authority
- CN
- China
- Prior art keywords
- target
- video
- sequence
- search
- regression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000001914 filtration Methods 0.000 claims abstract description 39
- 230000000007 visual effect Effects 0.000 claims abstract description 13
- 238000012360 testing method Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 11
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 8
- 238000009825 accumulation Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 230000001373 regressive effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000008859 change Effects 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims description 2
- 230000004044 response Effects 0.000 claims description 2
- 230000036299 sexual function Effects 0.000 claims description 2
- 230000003993 interaction Effects 0.000 claims 2
- 230000002596 correlated effect Effects 0.000 claims 1
- 230000000875 corresponding effect Effects 0.000 claims 1
- 230000000306 recurrent effect Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Abstract
本申请公开了一种深度时空关联的视频目标跟踪方法及系统,实现逐视频序列的目标跟踪,同时保证获得精确的视频目标跟踪结果。首先设计一个时空特征提取器,提取模板序列和搜索序列的时空特征。其次,引入特征匹配模块,由分类分支和回归分支组成。将抽取的模板时空特征和搜索时空特征通过相关滤波进行相似匹配,分别获得多通道相关滤波特征。然后,部署一个目标跟踪模块,包括分类头和回归头,分别根据输入的多通道相关滤波特征计算分类得分图和回归得分图,用于预测目标位置和估计目标的尺度。最后,通过最小化定义的联合损失优化时空关联视觉跟踪模型。在目标跟踪测试中,提出置信区域估计策略,从而在视频序列中保持鲁棒和准确的目标跟踪。
Description
技术领域
本发明涉及计算机视觉领域,具体而言,涉及一种深度时空关联的视频目标跟踪方法及系统。
背景技术
视频目标跟踪是指利用视频或者图像序列的上下文信息,对目标的外观和运动信息进行建模,从而对目标运动状态进行预测并标定位置的技术。通常情况下,根据视频第一帧中指定的目标,在后续视频帧中持续跟踪该特定目标,实现目标的定位和目标尺度估计。视频目标跟踪具有广泛的应用价值,可用于视频监控、无人驾驶、精确制导等领域。
近年来,随着深度学习和卷积网络的快速发展,出现了越来越多基于卷积网络的视频目标跟踪器。研究者们更加青睐基于孪生网络的跟踪器,其不仅在跟踪速度上占据了优势,而且还取得了不错的精度。这种基于孪生网络的跟踪器把视觉跟踪看作是相似性匹配问题。2016年,Bertinetto等提出用于视觉跟踪的SiamFC跟踪器(Luca Bertinetto,JackValmadre,F.Henriques,Andrea Vedaldi,Philip H.S.Torr:Fully-ConvolutionalSiamese Networks for Object Tracking.ECCV Workshops(2)2016:850-865.),借助孪生网络提取模板和搜索特征,并利用相关滤波计算目标模板和搜索区域之间的互相关程度。随后,Held等提出GOTURN跟踪器(David Held,Sebastian Thrun,Silvio Savarese:Learning to Track at 100FPS with Deep Regression Networks.ECCV(1)2016:749-765.),对上一帧预测的目标框进行回归得到当前帧的目标框。
为了进一步提高精度,2018年,Li等将孪生网络和区域建议网络结合,提出SiamRPN跟踪器(Bo Li,Junjie Yan,Wei Wu,Zheng Zhu,Xiaolin Hu:High PerformanceVisual Tracking With Siamese Region Proposal Network.CVPR 2018:8971-8980.),通过引入区域候选网络,更准确地估计目标框尺度。然而,锚框的引入容易导致相似性匹配的二义性,从而影响跟踪精度,造成误差累积,降低目标跟踪器的鲁棒性,并且带来了更多的超参数。2020年,Chen等人设计一个简单而高效的无锚框跟踪器SiamBAN(Zedu Chen,Bineng Zhong,Guorong Li,Shengping Zhang,Rongrong Ji:Siamese Box AdaptiveNetwork for Visual Tracking.CVPR 2020:6667-6676.),通过添加特征组合模块分支和质量评估分支提高跟踪器的性能。这些跟踪器在大部分视频场景中具有比较出色的性能和实时的跟踪速度,但是现有方法往往将视频目标跟踪看作逐视频帧的目标检测问题,忽略了视频帧之间丰富的时空信息。基于孪生网络的视觉跟踪方法应该有效利用跨时间帧的丰富信息,并且可以更好地学习时空观特征进行目标外观建模,以提高跟踪定位的准确度。
发明内容
针对上述现有技术存在的不足,本发明提供了一种深度时空关联的视频目标跟踪方法及系统。跟踪器通过利用时空信息,不仅能够保留时空关联的特征信息,且通过利用模板序列存储不同模板帧的特征,能够更好地建模视频目标外观,提高跟踪器的准确性;同时,以模板序列和搜索序列作为输入,能够得到搜索序列中目标预测结果。这种以逐个序列处理视频目标跟踪的方式,极大地提升了视频目标跟踪的速度。
为了实现上述目的,本发明提供了一种深度时空关联的视频目标跟踪方法,包括以下步骤:
S1、构建网络架构,该网络由时空特征提取器、特征匹配子网络以及目标预测子网络组成;
S2、分别给定模板序列视频帧和搜索序列视频帧,并将其裁剪成模板序列块和搜索序列块,作为整个网络架构的输入;
S3、构建时空特征提取器,该子网络是一个3D孪生全卷积网络,包括模板分支和搜索分支,以3D全卷积网络作为基础网络且权值共享。将模板序列块和搜索序列块作为输入,时空特征提取器从其中提取模板时空特征和搜索时空特征;
S4、构建特征匹配子网络,包括分类分支和回归分支。将得到的模板时空特征和搜索时空特征作为这两个分支的输入,利用相关滤波操作进行特征相似度匹配,使得分类分支和回归分支分别输出多通道相关滤波特征;
S5、构建目标预测子网络,主要由分类头和回归头组成。将分类分支和回归分支输出的多通道相关滤波特征输入到对应的分类头和回归头,得到分类得分图和回归得分图;
S6、根据分类得分图定位序列中每一视频帧目标的位置;根据回归得分图,对序列中每一视频帧的目标尺度进行估计,得到搜索序列中每一视频帧的目标预测框;
S7、通过最小化联合损失优化网络模型,包括分类的交叉熵损失和回归的交并比损失,最终得到视频目标跟踪器模型;
S8、以训练的网络模型为视觉跟踪器,对给定的视频进行逐视频序列的目标跟踪。为了保证稳定和准确的跟踪,定义置信搜索区域估计策略,根据当前视频序列中不同的目标状态裁剪下一个序列的搜索区域,减少误差累积,准确地定位搜索序列中每一视频帧的目标。
本发明提供了一种用于视频目标跟踪的端到端可训练的神经网络架构和系统,包括视频序列输入模块,用于裁剪模板序列块和和搜索序列块;模型训练模块,用于训练一种基于3D孪生网络的视频目标跟踪器,通过最小化组合损失对目标跟踪进行训练,包括交叉熵和交并比损失,最终实现逐视频序列的目标跟踪;视频目标跟踪模块,利用模型输出的分类图和回归图,分别进行搜索序列视频帧中目标状态的估计和尺度的预测,计算得到搜索序列中的目标预测框;利用当前视频序列的目标预测框,计算得到下一组视频序列的置信搜索区域,并将其输入到搜索分支以进行后续视频序列的目标跟踪。
与现有技术相比,具备以下有益效果:
本发明利用3D孪生全卷积网络提取模板时空特征和搜索时空特征,学习跨连续多个视频帧之间丰富的时空信息。将抽取的模板时空特征和搜索时空特征输入到特征匹配子网络,得到多通道相关滤波特征。利用分类头和回归头处理多通道相关滤波特征,预测目标的定位并估计目标尺度。在目标跟踪阶段,为了得到较为准确的搜索序列区域,定义置信搜索区域估计策略,根据当前视频序列中目标的不同状态对下一搜索序列区域进行估计,确保目标跟踪的稳定性和准确性。本方法不再是传统的单帧处理,而是直接处理视频序列,保证跟踪精度的同时提高了跟踪速度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明专利中网络整体结构图。
图2是本发明专利中模板序列块和搜索序列块示意图。
图3是本发明专利中时空特征提取器结构示意图。
图4是本发明专利中置信搜索区域估计图。
图5是本发明专利中部分视频帧示意图。
图6是本发明专利中视频目标跟踪结果示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。下面结合说明书附图以及具体的实施方式对本发明作详细说明。
下面结合说明书附图以及具体的实施方式对本发明作详细说明,一种深度时空关联的视频目标跟踪方法,包含步骤S1~S8:
S1、构建网络架构,该网络由时空特征提取器、特征匹配子网络以及目标预测子网络组成;
S2、分别给定模板序列视频帧和搜索序列视频帧,并将其裁剪成模板序列块和搜索序列块,作为整个网络架构的输入;
S3、构建时空特征提取器,该子网络是一个3D孪生全卷积网络,包括模板分支和搜索分支,以3D全卷积网络作为基础网络且权值共享。将模板序列块和搜索序列块作为输入,时空特征提取器从其中提取模板时空特征和搜索时空特征;
S4、构建特征匹配子网络,包括分类分支和回归分支。将得到的模板时空特征和搜索时空特征作为这两个分支的输入,利用相关滤波操作进行特征相似度匹配,使得分类分支和回归分支分别输出多通道相关滤波特征;
S5、构建目标预测子网络,主要由分类头和回归头组成。将分类分支和回归分支输出的多通道相关滤波特征输入到对应的分类头和回归头,得到分类得分图和回归得分图;
S6、根据分类得分图定位序列中每一视频帧目标的位置;根据回归得分图,对序列中每一视频帧的目标尺度进行估计,得到搜索序列中每一视频帧的目标预测框;
S7、通过最小化联合损失优化网络模型,包括分类的交叉熵损失和回归的交并比损失,最终得到视频目标跟踪模型;
S8、以训练的网络模型为视觉跟踪器,对给定的视频进行逐视频序列的目标跟踪。为了保证稳定和准确的跟踪,定义置信搜索区域估计策略,根据当前视频序列中不同的目标状态裁剪下一个序列的搜索区域,减少误差累积,准确地定位搜索序列中每一视频帧的目标。下面对各个步骤进行详细描述。
在步骤S1中,构建网络架构,如图1所示,该网络由时空特征提取器、特征匹配子网络以及目标预测子网络组成。其步骤具体为:
S11、构建一个基于3D孪生网络的时空特征提取器,包括模板分支和搜索分支,以3D全卷积神经网络作为基础网络且权值共享,用于从输入的视频序列块中提取模板时空特征和搜索时空特征。
S12、特征匹配子网络由分类分支和回归分支组成,分别以模板时空特征和搜索时空特征作为输入,利用相关滤波操作进行特征相似性匹配,获得多通道相关滤波特征。
S13、目标预测子网络包括分类头和回归头,以多通道相关滤波特征作为输入,通过分类头和回归头,分别得到分类得分图和回归得分图。
在步骤2中,分别给定模板序列视频帧和搜索序列视频帧,并将其裁剪成模板序列块和搜索序列块,如图2所示,并作为整个网络架构的输入。其步骤具体为:
S21、给定模板序列,根据模板序列中每一视频帧中目标的真实值信息,获取目标的中心位置和宽度、高度信息,并表示为(x,y,w,h)。
S211、根据S21给定的每一真实目标框信息,计算目标框宽和高的扩充值p=(w+h)/2,并计算缩放因子用于缩放扩充后的目标框区域。如果加上扩充值后的目标框区域超出了视频帧的边界值,则使用当前视频帧的平均RGB值进行填充。最终,模板序列中的每一视频帧剪裁为127×127大小的模板块。
S22、给定搜索序列,根据模板序列中第一帧视频帧目标的真实值信息,获取目标的中心位置和宽度、高度信息,并表示为(X,Y,W,H)。
S221、根据S22给定的真实目标框信息,计算目标框宽和高的扩充值P=(W+H)/2,并计算缩放因子来用于缩放扩充后的目标框区域。如果加上扩充值后的目标框区域超出了视频帧的边界值,则使用当前视频帧的平均RGB值来填充,最终,搜索序列中每一视频帧裁剪为255×255大小的搜索块。
在步骤S3中,时空特征提取器是一个3D孪生全卷积网络,包括模板分支和搜索分支,以3D全卷积网络做为基础网络且权值共享。将模板序列块和搜索序列块作为输入,时空特征提取器从其中提取模板时空特征和搜索时空特征。其步骤具体为:
S31、构建特征提取网络,如图3所示,其中每一分支是一个由五个残差块组成的Res3D网络。
S32、将Res3D的第一块残差块中的padding属性修改为1×4×4,stride调整为1×1×1,分别将第四块残差块输出通道和第五块的输入通道修改为128,去掉第五块残差块的下采样和最终分类层。由此,输出的时空特征和输入的视频序列具有相同的时间长度。
在步骤4中,特征匹配子网络包括分类分支和回归分支,将得到的模板时空特征和搜索时空特征作为这两个分支的输入,利用相关滤波操作进行特征相似度匹配,使得分类分支和回归分支分别输出多通道相关滤波特征。其步骤具体为:
在步骤5中,目标预测模块包括分类头和回归头,将分类分支和回归分支输出的多通道相关滤波特征输入到分类头和回归头,分别得到分类得分图和回归得分图。其步骤具体为:
在步骤6中,根据分类得分图定位序列中每一视频帧目标的位置;根据回归得分图,对序列中每一视频帧的目标尺度进行估计,得到搜索序列中每一视频帧的目标预测框。其步骤具体为:
S62、回归得分图是一个四通道向量,大小为:k×4×17×17,使用li,ti,ri,bi表示回归目标的偏移量,目标的坐标信息可以表示为:
在步骤7中,通过最小化联合损失优化网络模型,包括分类的交叉熵损失和回归的交并比损失,最终得到快速且精准的视频目标跟踪器。其步骤具体为:
S71、训练总损失定义为:
S72、训练损失Li包括分类的交叉熵损失和回归的交并比损失,定义为:
其中,1{·}是指示性函数,表示是否属于目标,属于则赋值为1,否则赋值0。Lcls表示分类的交叉熵损失。Lreg表示回归的交并比损失。如果当前位置(xi,yi)属于正样本,即当前位置属于目标,则将赋值为1;如果是负样本,则将赋值为0。表示在第i个搜索块中真实目标的中心位置(xi,yi)距离边界框四周的偏移量。
在步骤8中,以训练的网络模型为视觉跟踪器,对给定的视频进行逐视频序列的目标跟踪。为了保证稳定和准确的跟踪,定义置信搜索区域估计策略,根据当前视频序列中不同的目标状态裁剪下一个序列的搜索区域,减少误差累积,准确地定位搜索序列中每一视频帧的目标。其步骤具体为:
S81、由于目标在视频序列中可能出现较大位置变化的情况,根据当前搜索序列的预测框结果{Bt-k,..,Bt-1,Bt},其中Bt是搜索序列中第t帧的目标预测框,根据每一目标框的左上角点坐标和右下角点坐标计算得到最小包围框bm,如图4所示。
S82、对最小包围框bm进行扩展,用于裁剪下一组视频序列的搜索区域bs,保证搜索区域能够覆盖搜索序列每一视频帧中的目标。视频目标跟踪结果如图6所示。
根据本申请的另一方面,还提供了一种深度时空关联的视频目标跟踪系统,包括以下几个模块:
视频序列输入模块:给定一组模板序列视频帧和搜索序列视频帧,将其按照S2中形式裁剪成指定大小的模板序列块和和搜索序列块。
模型训练模块,用于训练一种基于3D孪生网络的视频目标跟踪器。该目标跟踪器包括由时空特征提取器模块、特征匹配模块以及目标预测模块。时空特征提取器以模板序列块和和搜索序列块作为输入,从中提取模板时空特征和搜索时空特征;将这些时空特征输入到特征匹配模块中,利用相关滤波操作进行相似性匹配,得到多通道相关滤波特征;再依次输入到目标预测模块中的分类头和回归头中,最终得到分类得分图和回归图;通过最小化分类的交叉熵损失和回归的交并比损失对目标跟踪进行训练。
视频目标跟踪模块,在测试阶段,利用模型输出的分类图和回归图,分别进行搜索序列视频帧中目标状态的估计和尺度的预测,从而得到搜索序列中的目标预测框,再利用这组目标预测框,得到一组置信搜索区域,并将其输入到搜索分支以进行后续序列帧的目标跟踪。
该系统用于实现上述的实施例中方法的功能,该系统模块中所涉及方法的具体实施步骤已经在方法中进行过说明的,在此不再赘述。
在本申请实施例中,首先设计一个时空特征提取器,从输入的模板序列和搜索序列中提取时空特征,学习强辨别的目标外观表示;其次,设计一个特征匹配模块,由分类分支和回归分支组成。通过利用相关滤波操作,将抽取的模板时空特征和搜索时空特征在高维特征空间中进行相似匹配,分别获得多通道相关滤波特征。然后,部署一个目标跟踪模块,包括分类头和回归头,分别根据输入的多通道相关滤波特征计算分类得分图和回归得分图,用于预测目标位置和估计目标的尺度。最后,通过最小化定义的联合损失优化时空关联视觉跟踪模型,并用于视频目标跟踪预测。在目标跟踪测试中,定义置信区域估计策略,根据当前视频序列的目标跟踪结果计算下一视频序列的搜索区域,尽量减少误差累积,从而在视频序列中保持鲁棒和准确的目标跟踪。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。
Claims (10)
1.一种深度时空关联的视频目标跟踪方法,其特征在于,所述方法由计算机执行,包括以下步骤:
S1、构建网络架构,该网络由时空特征提取器、特征匹配子网络以及目标预测子网络组成;
S2、分别给定模板序列视频帧和搜索序列视频帧,并将其裁剪成模板序列块和搜索序列块,作为整个网络架构的输入;
S3、构建时空特征提取器,该子网络是一个3D孪生全卷积网络,包括模板分支和搜索分支,以3D全卷积网络作为基础网络且权值共享;将模板序列块和搜索序列块作为输入,时空特征提取器从其中提取模板时空特征和搜索时空特征;
S4、构建特征匹配子网络,包括分类分支和回归分支;将得到的模板时空特征和搜索时空特征作为这两个分支的输入,利用相关滤波操作进行特征相似度匹配,使得分类分支和回归分支分别输出多通道相关滤波特征;
S5、构建目标预测子网络,主要由分类头和回归头组成;将分类分支和回归分支输出的多通道相关滤波特征输入到对应的分类头和回归头,得到分类得分图和回归得分图;
S6、根据分类得分图定位序列中每一视频帧目标的位置;根据回归得分图,对序列中每一视频帧的目标尺度进行估计,得到搜索序列中每一视频帧的目标预测框;
S7、通过最小化联合损失优化网络模型,包括分类的交叉熵损失和回归的交并比损失,最终得到视频目标跟踪器模型;
S8、以训练的网络模型为视觉跟踪器,对给定的视频进行逐视频序列的目标跟踪;为了保证稳定和准确的跟踪,定义置信搜索区域估计策略,根据当前视频序列中不同的目标状态裁剪下一个序列的搜索区域,减少误差累积,准确地定位搜索序列中每一视频帧的目标。
2.如权利要求1所述的一种深度时空关联的视频目标跟踪方法,其特征在于构建深度时空关联的视频目标跟踪网络结构,其具体实现过程如下:
S11、构建一个基于3D孪生网络的时空特征提取器,包括模板分支和搜索分支,以3D全卷积神经网络作为基础网络且权值共享,用于从输入的视频序列块中提取模板时空特征和搜索时空特征;
S12、特征匹配子网络由分类分支和回归分支组成,分别以模板时空特征和搜索时空特征作为输入,利用相关滤波操作进行特征相似性匹配,获得多通道相关滤波特征;
S13、目标预测子网络包括分类头和回归头,以多通道相关滤波特征作为输入,通过分类头和回归头,分别得到分类得分图和回归得分图。
3.如权利要求1所述的一种深度时空关联的视频目标跟踪方法,其特征在于构建模板序列块和搜索序列块,其具体实现过程如下:
S21、给定模板序列,根据模板序列中每一视频帧中目标的真实值信息,获取目标的中心位置和宽度、高度信息,并表示为(x,y,w,h);
S211、根据S21给定的每一真实目标框信息,计算目标框宽和高的扩充值p=(w+h)/2,并计算缩放因子用于缩放扩充后的目标框区域;如果加上扩充值后的目标框区域超出了视频帧的边界值,则使用当前视频帧的平均RGB值进行填充;最终,模板序列中的每一视频帧剪裁为127×127大小的模板块;
S22、给定搜索序列,根据模板序列中第一帧视频帧目标的真实值信息,获取目标的中心位置和宽度、高度信息,并表示为(X,Y,W,H);
S221、根据S22给定的真实目标框信息,计算目标框宽和高的扩充值P=(W+H)/2,并计算缩放因子来用于缩放扩充后的目标框区域;如果加上扩充值后的目标框区域超出了视频帧的边界值,则使用当前视频帧的平均RGB值来填充,最终,搜索序列中每一视频帧裁剪为255×255大小的搜索块;
8.如权利要求1所述的一种深度时空关联的视频目标跟踪方法,其特征在于训练视觉跟踪模型,其具体实现过程如下:
S71、训练总损失定义为:
S72、训练损失Li包括分类的交叉熵损失和回归的交并比损失,定义为:
10.一种深度时空关联的视频目标跟踪系统,其特征在于,包括以下几个模块:
图像标记模块:给定一张图片作为输入,根据该图片的真实标签进行随机像素点标注,其中包括前景和背景的标记,以此产生大量的交互信息来模拟用户的交互;
视频序列输入模块:给定一组模板序列视频帧和搜索序列视频帧,将其按照S2中形式裁剪成指定大小的模板序列块和和搜索序列块;
模型训练模块:用于训练一种基于3D孪生网络的视频目标跟踪器;该目标跟踪器包括由时空特征提取器模块、特征匹配模块以及目标预测模块;时空特征提取器以模板序列块和和搜索序列块作为输入,从中提取模板时空特征和搜索时空特征;将这些时空特征输入到特征匹配模块中,利用相关滤波操作进行相似性匹配,得到多通道相关滤波特征;再依次输入到目标预测模块中的分类头和回归头中,最终得到分类得分图和回归图;通过最小化分类的交叉熵损失和回归的交并比损失对目标跟踪进行训练;
视频目标跟踪模块:在测试阶段,利用模型输出的分类图和回归图,分别进行搜索序列视频帧中目标状态的估计和尺度的预测,从而得到搜索序列中的目标预测框,再利用这组目标预测框,得到一组置信搜索区域,并将其输入到搜索分支以进行后续序列帧的目标跟踪。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211720383.0A CN116051601A (zh) | 2022-12-30 | 2022-12-30 | 一种深度时空关联的视频目标跟踪方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211720383.0A CN116051601A (zh) | 2022-12-30 | 2022-12-30 | 一种深度时空关联的视频目标跟踪方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116051601A true CN116051601A (zh) | 2023-05-02 |
Family
ID=86125998
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211720383.0A Pending CN116051601A (zh) | 2022-12-30 | 2022-12-30 | 一种深度时空关联的视频目标跟踪方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116051601A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116977905A (zh) * | 2023-09-22 | 2023-10-31 | 杭州爱芯元智科技有限公司 | 目标跟踪方法、装置、电子设备及存储介质 |
-
2022
- 2022-12-30 CN CN202211720383.0A patent/CN116051601A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116977905A (zh) * | 2023-09-22 | 2023-10-31 | 杭州爱芯元智科技有限公司 | 目标跟踪方法、装置、电子设备及存储介质 |
CN116977905B (zh) * | 2023-09-22 | 2024-01-30 | 杭州爱芯元智科技有限公司 | 目标跟踪方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111462175B (zh) | 时空卷积孪生匹配网络目标跟踪方法、装置、介质及设备 | |
US20220366576A1 (en) | Method for target tracking, electronic device, and storage medium | |
CN111144364B (zh) | 一种基于通道注意更新机制的孪生网络目标跟踪方法 | |
CN110120064B (zh) | 一种基于互强化与多注意机制学习的深度相关目标跟踪算法 | |
CN111898504B (zh) | 一种基于孪生循环神经网络的目标跟踪方法及系统 | |
CN109977774B (zh) | 一种基于自适应卷积的快速目标检测方法 | |
CN113706581B (zh) | 基于残差通道注意与多层次分类回归的目标跟踪方法 | |
CN111832514A (zh) | 基于软多标签的无监督行人重识别方法及装置 | |
CN113744311A (zh) | 基于全连接注意力模块的孪生神经网络运动目标跟踪方法 | |
CN109934846A (zh) | 基于时间和空间网络的深度集成目标跟踪方法 | |
CN111598928B (zh) | 一种基于具有语义评估和区域建议的突变运动目标跟踪方法 | |
CN110909741A (zh) | 一种基于背景分割的车辆再识别方法 | |
CN113034545A (zh) | 一种基于CenterNet多目标跟踪算法的车辆跟踪方法 | |
CN111640138A (zh) | 一种目标跟踪方法、装置、设备及存储介质 | |
CN112785626A (zh) | 一种基于多尺度特征融合的孪生网络小目标跟踪方法 | |
CN112927264A (zh) | 一种无人机跟踪拍摄系统及其rgbd跟踪方法 | |
CN111429485B (zh) | 基于自适应正则化和高信度更新的跨模态滤波跟踪方法 | |
CN110968711A (zh) | 一种基于序列图像特征的自主无人系统位置识别定位方法 | |
CN115908500A (zh) | 一种基于3d孪生卷积网络的高性能视频跟踪方法及系统 | |
CN113344971A (zh) | 一种融合卡尔曼滤波的孪生红外目标跟踪方法 | |
CN116051601A (zh) | 一种深度时空关联的视频目标跟踪方法及系统 | |
CN112767450A (zh) | 一种基于多损失学习的相关滤波目标跟踪方法及系统 | |
CN112396036A (zh) | 一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法 | |
CN116934796A (zh) | 基于孪生残差注意力聚合网络的视觉目标跟踪方法 | |
CN111612802A (zh) | 一种基于现有图像语义分割模型的再优化训练方法及应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |