CN117670940A - 基于相关性峰值距离分析的单流卫星视频目标跟踪方法 - Google Patents
基于相关性峰值距离分析的单流卫星视频目标跟踪方法 Download PDFInfo
- Publication number
- CN117670940A CN117670940A CN202410135782.3A CN202410135782A CN117670940A CN 117670940 A CN117670940 A CN 117670940A CN 202410135782 A CN202410135782 A CN 202410135782A CN 117670940 A CN117670940 A CN 117670940A
- Authority
- CN
- China
- Prior art keywords
- tracking
- target
- frame
- image
- correlation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000004458 analytical method Methods 0.000 title claims abstract description 21
- 230000004044 response Effects 0.000 claims abstract description 50
- 238000010586 diagram Methods 0.000 claims abstract description 34
- 238000001914 filtration Methods 0.000 claims abstract description 30
- 238000012545 processing Methods 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 21
- 238000010606 normalization Methods 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 7
- 230000000873 masking effect Effects 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 3
- 230000000903 blocking effect Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000005945 translocation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/277—Analysis of motion involving stochastic approaches, e.g. using Kalman filters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10032—Satellite or aerial image; Remote sensing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30241—Trajectory
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及目标跟踪技术领域,尤其涉及一种基于相关性峰值距离分析的单流卫星视频目标跟踪方法。包括:S1:获取目标模板和搜索区域;S2:将目标模板和搜索区域输入至基于联合特征建模的单流跟踪网络,获得跟踪结果及相关性建模响应图;S3:计算欧氏距离;S4:利用卡尔曼跟踪模型获得卡尔曼滤波的跟踪结果;S5:根据判断结果将卡尔曼滤波的跟踪结果或单流跟踪网络的跟踪结果作为目标跟踪结果;S6:令m=m+1,重复步骤S1‑S5完成目标跟踪。本发明提出的相关性峰值距离判扰方法提高了目标跟踪的准确率和成功率。
Description
技术领域
本发明涉及目标跟踪技术领域,尤其涉及一种基于相关性峰值距离分析的单流卫星视频目标跟踪方法。
背景技术
人工智能技术的快速发展带动了遥感领域图像处理技术的进步,遥感视频目标跟踪作为目前遥感领域的研究热点之一,区别于通用的单目标跟踪,存在目标特征弱、背景复杂信息多等的特有难点。在延续通用的单目标跟踪流程的基础上,如何提升弱小目标的特征提取能力、抑制复杂背景对目标的影响等特有问题亟待解决。现有算法为解决上述问题,在目标特征提取和运动轨迹预测的方面对算法进行了改进。新的融合卡尔曼滤波和运动轨迹平均的CFME算法是基于卡尔曼滤波的运动估计策略来缓解相关滤波的边界效应,但这种方法无法有效的应对目标周围出现的干扰目标的情况。利用深、浅层特征图逐级融合以强化小目标的表达的方法能够有效的提升算法对小目标的特征提取,但算法仍缺少目标与背景间的信息交互,不能充分利用搜索区域的全部信息。而学习联合特征的单流跟踪网络通过将目标模板和搜索区域相结合后送入网络,同时进行特征提取和相关性建模,有效提升了目标模板和搜索区域间的上下文信息交互,但该算法在遥感视频领域的有效性还未得到验证,同时也缺乏面对干扰目标的跟踪约束。
发明内容
本发明为解决针对遥感视频中目标特征弱及背景复杂信息多的问题,现有技术很难对弱小目标进行有效特征的提取,因而缺乏弱小目标与背景间的信息交互,另外,背景出现遮挡物时会致使跟踪器丢失跟踪目标,在遇到相似物体时会出现跟踪器的跟踪易位等的问题,提供一种基于相关性峰值距离分析的单流卫星视频目标跟踪方法,通过对目标模板与搜索区域进行相关性建模以增强弱小目标的特征有效性,并通过提出相关性峰值距离判扰方法来抑制相似物体的干扰,提高了遥感视频目标跟踪的准确率和成功率。
本发明提出的基于相关性峰值距离分析的单流卫星视频目标跟踪方法,具体包括如下步骤:
S1:对包含跟踪目标的视频帧中的第1帧图像进行处理,获得目标模板,以视频帧中的第m-1帧图像的跟踪目标所在的跟踪框为基准,对第m帧图像进行处理,获得搜索区域;
S2:将目标模板和搜索区域输入至基于联合特征建模的单流跟踪网络,获得跟踪结果及目标模板和搜索区域的相关性建模响应图;
S3:重复步骤S1-S2,获得第m-1帧图像的搜索区域,并计算第m帧图像和第m-1帧图像的搜索区域与目标模板的相关性建模响应图的最大值坐标的欧氏距离;
S4:建立卡尔曼跟踪模型,并利用卡尔曼跟踪模型获得卡尔曼滤波的跟踪结果;
S5:根据欧氏距离判定跟踪目标是否受相似物体的干扰,并根据判断结果将卡尔曼滤波的跟踪结果或单流跟踪网络的跟踪结果作为目标跟踪结果;
S6:令m=m+1,重复步骤S1-S5持续对跟踪目标进行跟踪,直至m为视频帧的最后一帧响应图,完成对视频帧的目标跟踪。
优选地,步骤S1具体包括如下步骤:
S11:获取视频大小为(H,W)的视频帧,以及第1帧图像的跟踪目标所在的跟踪框;
S12:通过下式计算目标模板的剪裁缩放系数:
(1);
(2);
其中,sz为目标模板的裁剪区间,和/>分别为在第1帧图像中覆盖跟踪目标的跟踪框的左上角坐标,/>和/>分别为在第1帧图像中覆盖跟踪目标的跟踪框的宽度与高度;H和W代表视频帧的长度与宽度,/>为目标模板的剪裁缩放系数;
S13:根据式(1)-式(2),通过下式计算目标模板的左上角坐标与右下角坐标/>:
(3);
(4);
(5);
(6);
S14:利用左上角坐标和右下角坐标/>对第1帧图像进行裁切,并根据剪裁缩放系数/>对裁切图像进行缩放操作,获得目标模板;
S15:获取视频帧的第m-1帧图像的跟踪目标所在的跟踪框;
S16:通过下式计算第m帧图像的搜索区域的剪裁缩放系数:
(7);
(8);
其中,sx为搜索区域的裁剪区间,和/>为在第m帧图像中覆盖跟踪目标的跟踪框的左上角坐标,/>和/>分别为在第m帧图像中覆盖跟踪目标的跟踪框的宽度与高度,/>为搜索区域的剪裁缩放系数;
S17:根据式(7)-式(8),通过下式计算搜索区域的左上角坐标与右下角坐标/>:
(9);
(10);
(11);
(12);
S18:利用左上角坐标和右下角坐标/>对第m帧图像进行裁切,并根据剪裁缩放系数/>对裁切图像进行缩放操作,获得搜索区域。
优选地,步骤S2具体包括如下步骤:
S21:将目标模板和搜索区域均进行分块处理,对应获得目标模板分块图像和搜索区域分块图像,将目标模板分块图像和搜索区域分块图像进行拼贴操作,获得拼贴图像;
S22:将拼贴图像输入至自注意力模块,分别获得Q向量、K向量和V向量,通过下式对Q向量、K向量进行交叉注意力操作,获得注意力图T:
(13);
其中,Q为Q向量,K为K向量;
S23:在注意力图中划分出目标模板与搜索区域的相关性建模响应图,相关性建模响应图/>与搜索区域的尺寸相同,对相关性建模响应图/>进行两次掩码操作,获得聚焦目标的相关性建模响应图/>;
S24:通过下式对相关性建模响应图进行自注意力操作,获得全局注意力图/>:
(14);
其中,V为V向量,为常数,防止/>值过大,/>为激活函数;
S25:将全局注意力图和拼贴图像相加后所得到的特征图进行处理,获得与搜索区域分块图像尺寸相同的搜索目标图像;
S26:将搜索目标图像输入至预测头模块进行处理,获得单流跟踪网络的跟踪结果。
优选地,步骤S23具体包括如下步骤:
S231:将相关性建模响应图的像素值位于后30%的像素点进行掩码处理;
S232:将经步骤S231处理后的相关性建模响应图的第0至/>行,第/>至/>行,第0至/>列,第/>至/>列的像素点进行掩码处理,其中,/>为经步骤S231处理后的相关性建模响应图/>的长和宽。
优选地,基于联合特征建模的单流跟踪网络包括自注意力模块和预测头模块,其中,自注意力模块包括批归一化层和线性层,预测头模块包括2d卷积层、批归一化层和Relu激活函数,目标模板分块图像与搜索区域分块图像相加后,获得拼贴图像,将拼贴图像输入至自注意力模块,获得Q向量、K向量和V向量,将Q向量和K向量相乘后,再与V向量相乘,获得全局注意力图A,全局注意力图A与拼贴图相加后经批归一化层进行归一化处理后,获得特征图A1,特征图A1经线性层进行线性层操作,获得特征图A2,特征图A1和特征图A2相加后进行归一化操作,获得搜索目标图像,搜索目标图像输入至预测头模块经2d卷积层进行卷积及相应的归一化和Relu激活操作后,获得单流跟踪网络的跟踪结果以及目标模板和搜索区域的相关性建模响应图。
优选地,步骤S3具体包括如下步骤:
S31:将相关性建模响应图的最大值坐标记为/>,重复步骤S1-S2,将以视频帧中的第m-2帧图像的跟踪目标所在的跟踪框为基准,对第m-1帧图像进行处理所获得搜索区域和目标模板的相关性建模响应图/>的最大值坐标记为/>;
S32:通过下式计算相关性建模响应图的最大值坐标和相关性建模响应图/>的最大值坐标的欧氏距离/>:
(15)。
优选地,步骤S4具体包括如下步骤:
S41:通过下式对跟踪目标的运动状态进行建模,获得目标运动状态模型:
(16);
(17);
其中,为第/>帧图像的跟踪目标所在跟踪框的左上角坐标,/>为第/>帧图像的跟踪目标所在跟踪框的左上角坐标的变化率,/>为第/>-1帧图像的跟踪目标所在跟踪框的左上角坐标;
S42:根据目标运动状态模型,通过下式建立卡尔曼跟踪模型:
(18);
(19);
(20);
(21);
(22);
其中,为卡尔曼滤波输出的跟踪目标的左上角坐标和左上角坐标的变化速度,/>为目标运动状态模型的状态矩阵的估计值,/>为目标运动状态模型在前一时刻的状态矩阵,/>为状态矩阵观测量,/>为状态估计协方差,/>为状态估计协方差的估计值,A为状态转移矩阵,B为控制输入矩阵,/>为控制量,I为单位矩阵,H为状态观测矩阵,K为卡尔曼增益,R和Q为误差矩阵;
S43:将卡尔曼跟踪模型输出的第m帧图像的跟踪目标的左上角坐标和第m-1帧图像的跟踪目标所在的跟踪框长宽/>进行结合,获得卡尔曼滤波的跟踪结果。
优选地,步骤S5的具体步骤为:
S51:若,判定第m帧图像的跟踪目标存在相似物体的干扰,则将卡尔曼滤波的跟踪结果作为目标跟踪结果,执行步骤S6,否则执行步骤S52;
S52:若第m-1帧图像将卡尔曼滤波的跟踪结果作为目标跟踪结果,则执行步骤S53,否则将单流跟踪网络的跟踪结果作为目标跟踪结果,执行步骤S6;
S53:若连续10帧图像的,则将单流跟踪网络的跟踪结果作为目标跟踪结果,否则将卡尔曼滤波的跟踪结果作为目标跟踪结果。
与现有技术相比,本发明能够取得如下有益效果:
(1)本发明提出了一种基于联合特征建模的单流跟踪网络用来对遥感视频中的弱小目标进行相关性建模与特征提取,并针对遥感视频中的背景相对静止的特点采取了两步掩码操作,能够有效抑制复杂的背景信息。
(2)本发明提出了一种相关性峰值距离分析的方法,通过计算相关性峰值距离实现对目标周围是否出现相似物体的判断,并在目标周围出现相似物体时采用卡尔曼滤波进行目标跟踪的方法,来避免深度学习网络进行错误的目标跟踪所带来的影响。
附图说明
图1是根据本发明实施例提供的基于相关性峰值距离分析的单流卫星视频目标跟踪方法的流程示意图;
图2是根据本发明实施例提供的基于相关性峰值距离分析的单流卫星视频目标跟踪方法的结构示意图;
图3是根据本发明实施例提供的基于联合特征建模的单流跟踪网络的网络结构示意图。
具体实施方式
在下文中,将参考附图描述本发明的实施例。在下面的描述中,相同的模块使用相同的附图标记表示。在相同的附图标记的情况下,它们的名称和功能也相同。因此,将不重复其详细描述。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,而不构成对本发明的限制。
本发明通过对目标模板与搜索区域进行相关性建模以增强弱小目标的特征有效性,并通过提出相关性峰值距离判扰方法来抑制相似物体干扰,最终提高了遥感视频目标跟踪的准确率和成功率。
图1示出了根据本发明实施例提供的基于相关性峰值距离分析的单流卫星视频目标跟踪方法的流程,图2示出了根据本发明实施例提供的基于相关性峰值距离分析的单流卫星视频目标跟踪方法的结构。
如图1-图3所示,本发明实施例提出的基于相关性峰值距离分析的单流卫星视频目标跟踪方法,具体包括如下步骤:
S1:对包含跟踪目标的视频帧中的第1帧图像进行处理,获得目标模板,以视频帧中的第m-1帧图像的跟踪目标所在的跟踪框为基准,对第m帧图像进行处理,获得搜索区域。
步骤S1具体包括如下步骤:
S11:获取视频大小为(H,W)的视频帧,以及第1帧图像的跟踪目标所在的跟踪框。
S12:通过下式计算目标模板的剪裁缩放系数:
(1);
(2);
其中,sz为目标模板的裁剪区间,和/>分别为在第1帧图像中覆盖跟踪目标的跟踪框的左上角坐标,/>和/>分别为在第1帧图像中覆盖跟踪目标的跟踪框的宽度与高度;H和W代表视频帧的长度与宽度,/>为目标模板的剪裁缩放系数。
S13:根据式(1)-式(2),通过下式计算目标模板的左上角坐标与右下角坐标/>:
(3);
(4);
(5);
(6);
S14:利用左上角坐标和右下角坐标/>对第1帧图像进行裁切,并根据剪裁缩放系数/>对裁切图像进行缩放操作,获得目标模板。
S15:获取视频帧的第m-1帧图像的跟踪目标所在的跟踪框。
S16:通过下式计算第m帧图像的搜索区域的剪裁缩放系数:
(7);
(8);
其中,sx为搜索区域的裁剪区间,和/>为在第m帧图像中覆盖跟踪目标的跟踪框的左上角坐标,/>和/>分别为在第m帧图像中覆盖跟踪目标的跟踪框的宽度与高度,/>为搜索区域的剪裁缩放系数。
S17:根据式(7)-式(8),通过下式计算搜索区域的左上角坐标与右下角坐标/>:
(9);
(10);
(11);
(12);
S18:利用左上角坐标和右下角坐标/>对第m帧图像进行裁切,并根据剪裁缩放系数/>对裁切图像进行缩放操作,获得搜索区域。
S2:将目标模板和搜索区域输入至基于联合特征建模的单流跟踪网络,获得跟踪结果及目标模板和搜索区域的相关性建模响应图。
步骤S2具体包括如下步骤:
S21:将目标模板和搜索区域均进行分块处理,对应获得目标模板分块图像和搜索区域分块图像,将目标模板分块图像和搜索区域分块图像进行拼贴操作,获得拼贴图像。
S22:将拼贴图像输入至自注意力模块,分别获得Q向量、K向量和V向量,通过下式对Q向量、K向量进行交叉注意力操作,获得注意力图T:
(13);
其中,Q为Q向量,K为K向量。
S23:在注意力图中划分出目标模板与搜索区域的相关性建模响应图,相关性建模响应图/>与搜索区域的尺寸相同,对相关性建模响应图/>进行两次掩码操作,获得聚焦目标的相关性建模响应图/>。
步骤S23具体包括如下步骤:
S231:将相关性建模响应图的像素值位于后30%的像素点进行掩码处理;
S232:将经步骤S231处理后的相关性建模响应图的第0至/>行,第/>至/>行,第0至/>列,第/>至/>列的像素点进行掩码处理,其中,/>为经步骤S231处理后的相关性建模响应图/>的长和宽。
S24:通过下式对相关性建模响应图进行自注意力操作,获得全局注意力图/>:
(14);
其中,V为V向量,为常数,防止/>值过大,/>为激活函数。
S25:将全局注意力图和拼贴图像相加后所得到的特征图进行处理,获得与搜索区域分块图像尺寸相同的搜索目标图像。
S26:将搜索目标图像输入至预测头模块进行处理,获得单流跟踪网络的跟踪结果。
S3:重复步骤S1-S2,获得第m-1帧图像的搜索区域,并计算第m帧图像和第m-1帧图像的搜索区域与目标模板的相关性建模响应图的最大值坐标的欧氏距离。
步骤S3具体包括如下步骤:
S31:将相关性建模响应图的最大值坐标记为/>,重复步骤S1-S2,将以视频帧中的第m-2帧图像的跟踪目标所在的跟踪框为基准,对第m-1帧图像进行处理所获得搜索区域和目标模板的相关性建模响应图/>的最大值坐标记为/>。
S32:通过下式计算相关性建模响应图的最大值坐标和相关性建模响应图/>的最大值坐标的欧氏距离/>:
(15)。
S4:建立卡尔曼跟踪模型,并利用卡尔曼跟踪模型获得卡尔曼滤波的跟踪结果。(基于卡尔曼滤波的运动轨迹约束)
步骤S4具体包括如下步骤:
S41:通过下式对跟踪目标的运动状态进行建模,获得目标运动状态模型:
(16);
(17);
其中,为第/>帧图像的跟踪目标所在跟踪框的左上角坐标,/>为第/>帧图像的跟踪目标所在跟踪框的左上角坐标的变化率,/>为第/>-1帧图像的跟踪目标所在跟踪框的左上角坐标。
S42:根据目标运动状态模型,通过下式建立卡尔曼跟踪模型:
(18);
(19);
(20);
(21);
(22);
其中,为卡尔曼滤波输出的跟踪目标的左上角坐标和左上角坐标的变化速度,/>为目标运动状态模型的状态矩阵的估计值,/>为目标运动状态模型在前一时刻的状态矩阵,/>为状态矩阵观测量,/>为状态估计协方差,/>为状态估计协方差的估计值,A为状态转移矩阵,B为控制输入矩阵,/>为控制量,I为单位矩阵,H为状态观测矩阵,K为卡尔曼增益,R和Q为误差矩阵。
S43:将卡尔曼跟踪模型输出的第m帧图像的跟踪目标的左上角坐标和第m-1帧图像的跟踪目标所在的跟踪框长宽/>进行结合,获得卡尔曼滤波的跟踪结果。
S5:根据欧氏距离判定跟踪目标是否受相似物体的干扰,并根据判断结果将卡尔曼滤波的跟踪结果或单流跟踪网络的跟踪结果作为目标跟踪结果。
步骤S5的具体步骤为:
S51:若,判定第m帧图像的跟踪目标存在相似物体的干扰,则将卡尔曼滤波的跟踪结果作为目标跟踪结果,执行步骤S6,否则执行步骤S52。
S52:若第m-1帧图像将卡尔曼滤波的跟踪结果作为目标跟踪结果,则执行步骤S53,否则将单流跟踪网络的跟踪结果作为目标跟踪结果,执行步骤S6。
S53:若连续10帧图像的,则将单流跟踪网络的跟踪结果作为目标跟踪结果,否则将卡尔曼滤波的跟踪结果作为目标跟踪结果。
S6:令m=m+1,重复步骤S1-S5持续对跟踪目标进行跟踪,直至m为视频帧的最后一帧响应图,完成对视频帧的目标跟踪。
图3示出了根据本发明实施例提供的基于联合特征建模的单流跟踪网络的网络结构。
如图3所示,基于联合特征建模的单流跟踪网络包括自注意力模块和预测头模块,其中,自注意力模块包括批归一化层和线性层,预测头模块包括2d卷积层、批归一化层和Relu激活函数,目标模板分块图像与搜索区域分块图像相加后,获得拼贴图像,将拼贴图像输入至自注意力模块,获得Q向量、K向量和V向量,将Q向量和K向量相乘后,再与V向量相乘,获得全局注意力图A,全局注意力图A与拼贴图相加后经批归一化层进行归一化处理后,获得特征图A1,特征图A1经线性层进行线性层操作,获得特征图A2,特征图A1和特征图A2相加后进行归一化操作,获得搜索目标图像,搜索目标图像输入至预测头模块经2d卷积层进行卷积及相应的归一化和Relu激活操作后,获得单流跟踪网络的跟踪结果以及目标模板和搜索区域的相关性建模响应图。
本发明实施例提出的相关性峰值距离分析方法中采用卡尔曼滤波进行目标跟踪,其中,卡尔曼滤波(EKF)可替换为无迹卡尔曼滤波(UKF)算法。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (8)
1.一种基于相关性峰值距离分析的单流卫星视频目标跟踪方法,其特征在于,具体包括如下步骤:
S1:对包含跟踪目标的视频帧中的第1帧图像进行处理,获得目标模板,以所述视频帧中的第m-1帧图像的跟踪目标所在的跟踪框为基准,对第m帧图像进行处理,获得搜索区域;
S2:将所述目标模板和所述搜索区域输入至基于联合特征建模的单流跟踪网络,获得跟踪结果及所述目标模板和所述搜索区域的相关性建模响应图;
S3:重复步骤S1-S2,获得第m-1帧图像的搜索区域,并计算所述第m帧图像和所述第m-1帧图像的搜索区域与所述目标模板的相关性建模响应图的最大值坐标的欧氏距离;
S4:建立卡尔曼跟踪模型,并利用所述卡尔曼跟踪模型获得卡尔曼滤波的跟踪结果;
S5:根据所述欧氏距离判定所述跟踪目标是否受相似物体的干扰,并根据判断结果将卡尔曼滤波的跟踪结果或所述单流跟踪网络的跟踪结果作为目标跟踪结果;
S6:令m=m+1,重复所述步骤S1-S5持续对所述跟踪目标进行跟踪,直至m为所述视频帧的最后一帧响应图,完成对所述视频帧的目标跟踪。
2.根据权利要求1所述的基于相关性峰值距离分析的单流卫星视频目标跟踪方法,其特征在于,所述步骤S1具体包括如下步骤:
S11:获取视频大小为(H,W)的视频帧,以及所述第1帧图像的跟踪目标所在的跟踪框;
S12:通过下式计算所述目标模板的剪裁缩放系数:
(1);
(2);
其中,sz为所述目标模板的裁剪区间,和/>分别为在所述第1帧图像中覆盖所述跟踪目标的跟踪框的左上角坐标,/>和/>分别为在所述第1帧图像中覆盖所述跟踪目标的跟踪框的宽度与高度;H和W代表所述视频帧的长度与宽度,/>为所述目标模板的剪裁缩放系数;
S13:根据式(1)-式(2),通过下式计算所述目标模板的左上角坐标与右下角坐标/>:
(3);
(4);
(5);
(6);
S14:利用所述左上角坐标和所述右下角坐标/>对所述第1帧图像进行裁切,并根据所述剪裁缩放系数/>对裁切图像进行缩放操作,获得目标模板;
S15:获取所述视频帧的第m-1帧图像的跟踪目标所在的跟踪框;
S16:通过下式计算所述第m帧图像的搜索区域的剪裁缩放系数:
(7);
(8);
其中,sx为所述搜索区域的裁剪区间,和/>为在所述第m帧图像中覆盖所述跟踪目标的跟踪框的左上角坐标,/>和/>分别为在所述第m帧图像中覆盖所述跟踪目标的跟踪框的宽度与高度,/>为所述搜索区域的剪裁缩放系数;
S17:根据式(7)-式(8),通过下式计算所述搜索区域的左上角坐标与右下角坐标/>:
(9);
(10);
(11);
(12);
S18:利用所述左上角坐标和所述右下角坐标/>对所述第m帧图像进行裁切,并根据所述剪裁缩放系数/>对裁切图像进行缩放操作,获得搜索区域。
3.根据权利要求2所述的基于相关性峰值距离分析的单流卫星视频目标跟踪方法,其特征在于,所述步骤S2具体包括如下步骤:
S21:将所述目标模板和所述搜索区域均进行分块处理,对应获得目标模板分块图像和搜索区域分块图像,将所述目标模板分块图像和所述搜索区域分块图像进行拼贴操作,获得拼贴图像;
S22:将所述拼贴图像输入至自注意力模块,分别获得Q向量、K向量和V向量,通过下式对所述Q向量、所述K向量进行交叉注意力操作,获得注意力图T:
(13);
其中,Q为Q向量,K为K向量;
S23:在所述注意力图中划分出所述目标模板与所述搜索区域的相关性建模响应图,所述相关性建模响应图/>与所述搜索区域的尺寸相同,对所述相关性建模响应图/>进行两次掩码操作,获得聚焦目标的相关性建模响应图/>;
S24:通过下式对所述相关性建模响应图进行自注意力操作,获得全局注意力图/>:
(14);
其中,V为V向量,为常数,防止/>值过大,/>为激活函数;
S25:将所述全局注意力图和所述拼贴图像相加后所得到的特征图进行处理,获得与所述搜索区域分块图像尺寸相同的搜索目标图像;
S26:将所述搜索目标图像输入至预测头模块进行处理,获得所述单流跟踪网络的跟踪结果。
4.根据权利要求3所述的基于相关性峰值距离分析的单流卫星视频目标跟踪方法,其特征在于,所述步骤S23具体包括如下步骤:
S231:将所述相关性建模响应图的像素值位于后30%的像素点进行掩码处理;
S232:将经所述步骤S231处理后的相关性建模响应图的第0至/>行,第/>至/>行,第0至/>列,第/>至/>列的像素点进行掩码处理,其中,/>为经所述步骤S231处理后的相关性建模响应图/>的长和宽。
5.根据权利要求4所述的基于相关性峰值距离分析的单流卫星视频目标跟踪方法,其特征在于,所述基于联合特征建模的单流跟踪网络包括自注意力模块和预测头模块,其中,所述自注意力模块包括批归一化层和线性层,所述预测头模块包括2d卷积层、批归一化层和Relu激活函数,所述目标模板分块图像与所述搜索区域分块图像相加后,获得拼贴图像,将所述拼贴图像输入至所述自注意力模块,获得所述Q向量、所述K向量和所述V向量,将所述Q向量和所述K向量相乘后,再与所述V向量相乘,获得全局注意力图A,所述全局注意力图A与所述拼贴图相加后经所述批归一化层进行归一化处理后,获得特征图A1,所述特征图A1经所述线性层进行线性层操作,获得特征图A2,所述特征图A1和所述特征图A2相加后进行归一化操作,获得搜索目标图像,所述搜索目标图像输入至所述预测头模块经所述2d卷积层进行卷积及相应的归一化和Relu激活操作后,获得所述单流跟踪网络的跟踪结果以及所述目标模板和所述搜索区域的相关性建模响应图。
6.根据权利要求5所述的基于相关性峰值距离分析的单流卫星视频目标跟踪方法,其特征在于,所述步骤S3具体包括如下步骤:
S31:将所述相关性建模响应图的最大值坐标记为/>,重复步骤S1-S2,将以所述视频帧中的第m-2帧图像的跟踪目标所在的跟踪框为基准,对所述第m-1帧图像进行处理所获得搜索区域和所述目标模板的相关性建模响应图/>的最大值坐标记为/>;
S32:通过下式计算所述相关性建模响应图的最大值坐标和所述相关性建模响应图的最大值坐标的欧氏距离/>:
(15)。
7.根据权利要求6所述的基于相关性峰值距离分析的单流卫星视频目标跟踪方法,其特征在于,所述步骤S4具体包括如下步骤:
S41:通过下式对所述跟踪目标的运动状态进行建模,获得目标运动状态模型:
(16);
(17);
其中,为第/>帧图像的跟踪目标所在跟踪框的左上角坐标,/>为第/>帧图像的跟踪目标所在跟踪框的左上角坐标的变化率,/>为第/>-1帧图像的跟踪目标所在跟踪框的左上角坐标;
S42:根据所述目标运动状态模型,通过下式建立卡尔曼跟踪模型:
(18);
(19);
(20);
(21);
(22);
其中,为卡尔曼滤波输出的跟踪目标的左上角坐标和左上角坐标的变化速度,/>为目标运动状态模型的状态矩阵的估计值,/>为目标运动状态模型在前一时刻的状态矩阵,/>为状态矩阵观测量,/>为状态估计协方差,/>为状态估计协方差的估计值,A为状态转移矩阵,B为控制输入矩阵,/>为控制量,I为单位矩阵,H为状态观测矩阵,K为卡尔曼增益,R和Q为误差矩阵;
S43:将所述卡尔曼跟踪模型输出的第m帧图像的跟踪目标的左上角坐标和第m-1帧图像的跟踪目标所在的跟踪框长宽/>进行结合,获得卡尔曼滤波的跟踪结果。
8.根据权利要求7所述的基于相关性峰值距离分析的单流卫星视频目标跟踪方法,其特征在于,所述步骤S5的具体步骤为:
S51:若,判定第m帧图像的跟踪目标存在相似物体的干扰,则将卡尔曼滤波的跟踪结果作为目标跟踪结果,执行所述步骤S6,否则执行步骤S52;
S52:若第m-1帧图像将卡尔曼滤波的跟踪结果作为目标跟踪结果,则执行步骤S53,否则将所述单流跟踪网络的跟踪结果作为目标跟踪结果,执行所述步骤S6;
S53:若连续10帧图像的,则将所述单流跟踪网络的跟踪结果作为目标跟踪结果,否则将卡尔曼滤波的跟踪结果作为目标跟踪结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410135782.3A CN117670940B (zh) | 2024-01-31 | 2024-01-31 | 基于相关性峰值距离分析的单流卫星视频目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410135782.3A CN117670940B (zh) | 2024-01-31 | 2024-01-31 | 基于相关性峰值距离分析的单流卫星视频目标跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117670940A true CN117670940A (zh) | 2024-03-08 |
CN117670940B CN117670940B (zh) | 2024-04-26 |
Family
ID=90082915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410135782.3A Active CN117670940B (zh) | 2024-01-31 | 2024-01-31 | 基于相关性峰值距离分析的单流卫星视频目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117670940B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101324956A (zh) * | 2008-07-10 | 2008-12-17 | 上海交通大学 | 基于均值漂移的抗遮挡运动目标跟踪方法 |
CN104091349A (zh) * | 2014-06-17 | 2014-10-08 | 南京邮电大学 | 基于支持向量机的鲁棒目标跟踪方法 |
CN104200485A (zh) * | 2014-07-10 | 2014-12-10 | 浙江工业大学 | 一种面向视频监控的人体跟踪方法 |
CN109816692A (zh) * | 2019-01-11 | 2019-05-28 | 南京理工大学 | 一种基于Camshift算法的运动目标跟踪方法 |
CN110782487A (zh) * | 2019-09-05 | 2020-02-11 | 杭州视鑫科技有限公司 | 一种基于改进的粒子滤波算法的目标跟踪方法 |
CN113344971A (zh) * | 2021-05-21 | 2021-09-03 | 河南科技大学 | 一种融合卡尔曼滤波的孪生红外目标跟踪方法 |
CN114399533A (zh) * | 2022-01-17 | 2022-04-26 | 中南大学 | 一种基于多层次注意力机制的单目标追踪方法 |
CN115471525A (zh) * | 2022-08-25 | 2022-12-13 | 中国科学院自动化研究所 | 基于融合孪生网络与卡尔曼滤波的目标跟踪方法及系统 |
CN116704368A (zh) * | 2023-06-05 | 2023-09-05 | 中国科学院长春光学精密机械与物理研究所 | 基于卫星视频数据关联的多目标跟踪方法、系统及存储介质 |
CN117036980A (zh) * | 2023-08-31 | 2023-11-10 | 中国科学院长春光学精密机械与物理研究所 | 基于高分辨率特征自注意的卫星遥感图像小目标检测方法 |
-
2024
- 2024-01-31 CN CN202410135782.3A patent/CN117670940B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101324956A (zh) * | 2008-07-10 | 2008-12-17 | 上海交通大学 | 基于均值漂移的抗遮挡运动目标跟踪方法 |
CN104091349A (zh) * | 2014-06-17 | 2014-10-08 | 南京邮电大学 | 基于支持向量机的鲁棒目标跟踪方法 |
CN104200485A (zh) * | 2014-07-10 | 2014-12-10 | 浙江工业大学 | 一种面向视频监控的人体跟踪方法 |
CN109816692A (zh) * | 2019-01-11 | 2019-05-28 | 南京理工大学 | 一种基于Camshift算法的运动目标跟踪方法 |
CN110782487A (zh) * | 2019-09-05 | 2020-02-11 | 杭州视鑫科技有限公司 | 一种基于改进的粒子滤波算法的目标跟踪方法 |
CN113344971A (zh) * | 2021-05-21 | 2021-09-03 | 河南科技大学 | 一种融合卡尔曼滤波的孪生红外目标跟踪方法 |
CN114399533A (zh) * | 2022-01-17 | 2022-04-26 | 中南大学 | 一种基于多层次注意力机制的单目标追踪方法 |
CN115471525A (zh) * | 2022-08-25 | 2022-12-13 | 中国科学院自动化研究所 | 基于融合孪生网络与卡尔曼滤波的目标跟踪方法及系统 |
CN116704368A (zh) * | 2023-06-05 | 2023-09-05 | 中国科学院长春光学精密机械与物理研究所 | 基于卫星视频数据关联的多目标跟踪方法、系统及存储介质 |
CN117036980A (zh) * | 2023-08-31 | 2023-11-10 | 中国科学院长春光学精密机械与物理研究所 | 基于高分辨率特征自注意的卫星遥感图像小目标检测方法 |
Non-Patent Citations (2)
Title |
---|
XIAOWEN ZHANG ETAL: ""High-Resolution Network with Transformer Embedding Parallel Detection for Small Object Detection in Optical Remote Sensing Images"", 《REMOTE SENSING》, 13 September 2023 (2023-09-13), pages 1 - 20 * |
江山 等: ""复杂背景灰度图像下的多特征融合运动目标跟踪"", 《中国光学》, 30 June 2016 (2016-06-30), pages 320 - 328 * |
Also Published As
Publication number | Publication date |
---|---|
CN117670940B (zh) | 2024-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220366576A1 (en) | Method for target tracking, electronic device, and storage medium | |
CN107452015B (zh) | 一种具有重检测机制的目标跟踪系统 | |
CN108550162B (zh) | 一种基于深度强化学习的物体检测方法 | |
EP3690811A1 (en) | Learning method and learning device for removing jittering on video acquired through shaking camera by using a plurality of neural networks for fault tolerance and fluctuation robustness in extreme situations, and testing method and testing device using the same | |
JP2011243194A (ja) | 対応点探索のための画像処理方法 | |
CN110570453A (zh) | 一种基于双目视觉的闭环式跟踪特征的视觉里程计方法 | |
KR20180102639A (ko) | 화상 처리 장치, 화상 처리 방법, 화상 처리 프로그램 및 기억 매체 | |
CN111091582A (zh) | 一种基于深度神经网络的单视觉目标跟踪算法及系统 | |
CN112396036A (zh) | 一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法 | |
CN113763427A (zh) | 一种基于从粗到精遮挡处理的多目标跟踪方法 | |
CN113255429A (zh) | 一种视频中人体姿态估计与跟踪方法及系统 | |
CN115565130A (zh) | 一种无人值守系统及其基于光流的监控方法 | |
CN117670940B (zh) | 基于相关性峰值距离分析的单流卫星视频目标跟踪方法 | |
CN117036238A (zh) | 基于视频目标跟踪的田间水果计数方法及系统 | |
CN115880573A (zh) | 一种基于神经网络获取海草面积的方法、装置及设备 | |
CN115953431A (zh) | 面向无人机航拍视频的多目标跟踪方法与系统 | |
CN113112523B (zh) | 基于无锚点孪生网络的目标跟踪方法及装置 | |
CN109934853B (zh) | 基于响应图置信区域自适应特征融合的相关滤波跟踪方法 | |
CN114066942A (zh) | 一种基于流形背景感知的相关滤波目标跟踪方法 | |
CN117274636A (zh) | 一种基于孪生神经网络的遥感卫星视频目标跟踪方法 | |
Ma et al. | Video Stabilization for Sea Scenes via Low-Rank Alignment and effective Visual Cues | |
CN111539988B (zh) | 一种视觉里程计实现方法、装置和电子设备 | |
CN117889867B (zh) | 一种基于局部自注意力移动窗口算法的路径规划方法 | |
JP2918667B2 (ja) | 移動車の環境認識装置 | |
CN117830349A (zh) | 基于运动感知和相关滤波的卫星视频单目标跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |