CN114022510A - 一种基于内容检索的目标长时跟踪方法 - Google Patents
一种基于内容检索的目标长时跟踪方法 Download PDFInfo
- Publication number
- CN114022510A CN114022510A CN202111222912.XA CN202111222912A CN114022510A CN 114022510 A CN114022510 A CN 114022510A CN 202111222912 A CN202111222912 A CN 202111222912A CN 114022510 A CN114022510 A CN 114022510A
- Authority
- CN
- China
- Prior art keywords
- target
- image
- classification
- regression
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000004044 response Effects 0.000 claims abstract description 61
- 230000007774 longterm Effects 0.000 claims abstract description 25
- 238000010586 diagram Methods 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 7
- 238000011176 pooling Methods 0.000 claims description 17
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于内容检索的目标长时跟踪方法,该方法对每一帧搜索图像执行如下步骤:S1、采用离线目标跟踪网络进行目标跟踪处理,得到分类特征图,跟踪时记录初始帧目标内容,作为目标模板;S2、如果分类特征图最大响应值大于预设阈值,则重复步骤S1~步骤S2,如果分类特征图最大响应值小于等于预设阈值,则采用长时跟踪方法对整幅搜索图像进行全局搜索,得到L个候选目标区域;S3、将L个候候选目标输入到内容检索网络中,得到L个候选区域的特征向量,步骤S1记录的目标模板输入内容检索网路中得到匹配向量z;S4、分别计算L个候选区域的特征向量和匹配向量z的余弦相似度,如果余弦相似度的最大值超过预设阈值,余弦相似度最大值对应的候选目标区域作为目标跟踪对象,重复执行步骤S1~步骤S4。
Description
技术领域
本发明涉及一种基于内容检索的目标长时跟踪方法,旨在应对被跟踪物体短暂消失又出现在视野的情况下这一目标跟踪难题。
背景技术
目标跟踪是计算机视觉中一个长期的、基础的且具有挑战性的问题,人们已经在该领域研究长达几十年。目标跟踪分为单目标跟踪和多目标跟踪。单目标跟踪的任务定义为:给定某视频序列初始帧的目标大小与位置,预测后续帧中该目标的大小与位置。多目标跟踪的定义为:给定一个图像序列,找到图像序列中运动的物体,并将不同帧中的运动物体一一对应,然后给出物体的运动轨迹。
根据目标模型的建模方式差异,可将目标跟踪模型分成两类:生成式模型和判别式模型。基于生成式模型的目标跟踪算法,使用生成式模型描述目标的表观特征,通过采样搜索出来的候选目标实现重构误差最小化,再对比候选目标和模型的相似程度,找到最大相似目标作为跟踪结果。这类算法通常从目标前景区域学习目标外观,忽略了更有效的背景信息,所以在跟踪过程中算法很容易受到背景中相似物体的影响而产生漂移。判别式表观模型则是通过训练各种各样的分类器来区分被跟踪的目标物体和背景区域,将目标跟踪看作一个二分类问题,把图像分为前景图像和背景图像,利用最适合实际场景的图像特征和最佳的分类方法,将目标从背景区域中区分出来,期间不断的在线更新分类器来估计目标的位置。其中最具代表的是基于相关滤波的Staple算法,该算法采用两种互补特征建立目标外观模型,分别转化为两个独立的岭回归问题求解。该算法在更好的适应目标外观变化以及光照的不连续性的同时保持较高的执行速率。但是当跟踪目标发生部分遮挡或者完全遮挡时,算法容易丢失目标,出现模型漂移的情况。
基于深度学习的跟踪器,能有效利用目标的深度特征对目标进行语义级抽象,并拟合目标的运动过程,这大大提高了跟踪精度;且模型的特征提取器在离线时得到了大量标记图片的端到端预训练,这进一步提高了跟踪器在线跟踪速度,使深度学习在目标跟踪领域的应用成为可能。SiamFC等孪生网络模型利用同样结构的CNN网络对初始帧目标和当前帧搜索域提取深度特征,然后通过卷积操作进行相似性计算,得到目标在搜索域位置的响应。
然而长时跟踪时目标不可避免地会出现形变、遮挡和出视野等情况, SiamFC等网络只对初始帧目标和当前帧搜索域提取深度特征,难以在面对长时跟踪时目标外观形变、被遮挡或目标出视野等情况下保持鲁棒跟踪。
发明内容
本发明解决的技术问题是:克服现有技术的不足,提出了一种基于内容检索的目标长时跟踪方法,以解决长时跟踪时的目标遮挡和目标出视野问题。
本发明解决技术问题的方案是:一种基于内容检索的目标长时跟踪方法,该方法对每一帧搜索图像执行如下步骤:
S1、采用离线目标跟踪网络进行目标跟踪处理,得到分类特征图,跟踪时记录初始帧目标内容,作为目标模板;
S2、如果分类特征图最大响应值大于长时跟踪阈值,则重复步骤S1~步骤 S2,如果分类特征图最大响应值小于等于长时跟踪阈值,则采用长时跟踪方法对整幅搜索图像进行全局搜索,得到L个候选目标区域;
S3、将L个候候选目标输入到内容检索网络中,得到L个候选区域的特征向量,步骤S1记录的目标模板输入内容检索网路中得到匹配向量z;
S4、分别计算L个候选区域的特征向量和匹配向量z的余弦相似度,如果余弦相似度的最大值超过预设阈值,余弦相似度最大值对应的候选目标区域作为目标跟踪对象,重复执行步骤S1~步骤S4。
优选地,所述步骤S1采用离线目标跟踪网络进行目标跟踪处理,得到分类特征图的具体步骤如下:
S1.1、获取模板图像和当前帧搜索图像;
S1.2、将模板图像和当前帧搜索图像分别送入训练好的卷积神经网络特征提取层,得到模板图像特征图和搜索图像特征图;
S1.3、将模板图像特征图和搜索图像特征图均先后送入训练好的卷积神经网络分类层和回归层,得模板图像的分类特征图和回归特征图、搜索图像的分类特征图和回归特征图;
S1.4、对模板图像的分类特征图和搜索图像的分类特征图进行互相关操作,得到模板图像与搜索图像的分类层响应图;对模板图像的回归特征图和搜索图像的回归特征图进行互相关操作,得到模板图像与搜索图像的回归层响应图;
S1.5、对模板图像与搜索图像的分类层响应图进行最大池化操作;
S1.6、取出池化之后的分类层响应图中响应值从高到低前N个特征点,并计算这N个特征点对应的回归层输出,根据回归层输出得到当前帧搜索图像中目标的N个预测坐标值;
S1.7、计算分类层响应图中最大响应值对应的回归层输出,根据该回归层输出对应的目标框中心点坐标为目标预测坐标值。
优选地,所述步骤S1.4中的互相关操作如下:
F(z,x)=z*x+b
其中,b为偏差,*表示卷积操作,Z为模板图像的分类层回归层特征图或者回归层特征图,x为搜索图像的分类层回归层特征图或者回归层特征图,F 为模板图像与搜索图像的分类层响应图或者模板图像与搜索图像的回归层响应图。
优选地,所述步骤S1.5中池化操作前后特征图的维度一致。
优选地,所述采用长时跟踪方法对整幅搜索图像进行全局搜索,得到疑似候选目标的具体步骤如下:
S2.1、使用固定大小的滑动窗口按照预设步长在整幅搜索图像上滑动,得到N幅滑动图像;
S2.2、将N幅滑动图像和模板图像分别输入到目标跟踪网络中得到N个滑动图像的分类特征图和回归层响应;
S2.3、将N个滑动图像的分类特征图依次和模板图像的分类特征图进行相关操作,得到N个滑动图像与模板图像的分类层响应图,并对得到的N个分类层响应图进行最大池化操作;
S2.4、将N个滑动图像的回归特征图依次和模板图像的回归特征图进行相关操作,得到N个滑动图像与模板图像的回归层响应图;
S2.5、取N个池化后的分类响应图中响应值较大的前M个响应点对应的回归层输出,进而得到M个候选目标区域,也就是总计M×N个候选目标区域。
优选地,所述内容检索网络采用resnet18神经网络。
优选地,所述内容检索网络采用Goolelandmarks-v2数据集训练,训练时的损失函数选用triplet-loss函数。
本发明与现有技术相比的有益效果是:
本发明的长时跟踪时目标不可避免地会出现形变、遮挡和出视野等情况,利用本发明的全局搜索策略和基于内容检索的特征提取网络可以有效应对跟踪目标出现的形变、遮挡和出视野情况,提高长时跟踪鲁棒性和高效性。
附图说明
图1为本发明实施例基于内容检索的目标长时跟踪方法流程图
图2为本发明实施例目标跟踪结构图;
图3为本发明实施例内容检索网络结构图。
具体实施方式
下面结合实施例对本发明作进一步阐述。
实施例1
以下结合附图和具体实施方式对本发明提出的结合历史轨迹信息的单目标跟踪方法作进一步说明。根据下面说明和权利要求书,本发明的优点和特征将更加清楚。
本发明提供的一种基于内容检索的目标长时跟踪方法,该方法对每一帧搜索图像执行如下步骤:
S1、采用离线目标跟踪网络进行目标跟踪处理,得到分类特征图,跟踪时记录初始帧目标内容,作为目标模板;
采用离线目标跟踪网络进行目标跟踪处理,得到分类特征图的具体步骤如下:
S1.1、获取模板图像和当前帧搜索图像;模板图像由人工在初始帧图像中选择,一般,模板图像大小为127*127。搜索图像大小为255*255。
S1.2、将模板图像和当前帧搜索图像分别送入训练好的卷积神经网络特征提取层,得到模板图像特征图和搜索图像特征图;训练好的卷积神经网络特征提取层采用Alexnet网络实现,该该网络包含五个卷积层,2个最大池化层。随机初始化网络,并在LaSOT数据集上面训练调优该网络。
S1.3、将模板图像特征图和搜索图像特征图均先后送入训练好的卷积神经网络分类层和回归层,得模板图像的分类特征图和回归特征图、搜索图像的分类特征图和回归特征图;
S1.4、对模板图像的分类特征图和搜索图像的分类特征图进行互相关操作,得到模板图像与搜索图像的分类层响应图;对模板图像的回归特征图和搜索图像的回归特征图进行互相关操作,得到模板图像与搜索图像的回归层响应图;
互相关操作如下:
F(z,x)=z*x+b
其中,b为偏差,*表示卷积操作,Z为模板图像的分类层回归层特征图或者回归层特征图,x为搜索图像的分类层回归层特征图或者回归层特征图,F 为模板图像与搜索图像的分类层响应图或者模板图像与搜索图像的回归层响应图。
S1.5、对模板图像与搜索图像的分类层响应图进行最大池化操作;池化操作前后特征图的维度一致。
S1.6、取出池化之后的分类层响应图中响应值从高到低前N个特征点,并计算这N个特征点对应的回归层输出,根据回归层输出得到当前帧搜索图像中目标的N个预测坐标值;
S1.7、计算分类层响应图中最大响应值对应的回归层输出,根据该回归层输出对应的目标框中心点坐标为目标预测坐标值。
上述步骤将模板图像输入目标跟踪网络中得到6*6大小的分类特征图Z,将搜索图像输入SiamFC网络中得到19*19大小的回归特征图X。
S2、如果分类特征图最大响应值大于长时跟踪阈值δ,则重复步骤S1~步骤S2,如果分类特征图最大响应值小于等于长时跟踪阈值δ,则采用长时跟踪方法对整幅搜索图像进行全局搜索,得到L个候选目标区域;所述长时跟踪阈值δ在vot2019测试集上面测试,记录每一帧图像的最大响应点值,将这些响应点值从大到小排序,在0.95切分点选择阈值。
所述采用长时跟踪方法对整幅搜索图像进行全局搜索,得到疑似候选目标的具体步骤如下:
S2.1、使用固定大小的滑动窗口按照预设步长在整幅搜索图像上滑动,得到N幅滑动图像;本发明某一具体实施例中,滑动窗口大小为255*255;滑动步长为s=64,参照S型曲线滑动;
S2.2、将N幅滑动图像和模板图像分别输入到目标跟踪网络中得到N个滑动图像的分类特征图和回归层响应;
S2.3、将N个滑动图像的分类特征图依次和模板图像的分类特征图进行相关操作,得到N个滑动图像与模板图像的分类层响应图,并对得到的N个分类层响应图进行最大池化操作;
S2.4、将N个滑动图像的回归特征图依次和模板图像的回归特征图进行相关操作,得到N个滑动图像与模板图像的回归层响应图;
S2.5、取N个池化后的分类响应图中响应值较大的前M个响应点对应的回归层输出,进而得到M个候选目标区域,也就是总计M×N个候选目标区域。
S3、将L个候候选目标输入到内容检索网络中,得到L个候选区域的特征向量,步骤S1记录的目标模板输入内容检索网路中得到匹配向量z;
内容搜索网络采用resnet18神经网络模型,在Goolelandmarks-v2数据集上面训练调优该模型。
S4、分别计算L个候选区域的特征向量和匹配向量z的余弦相似度,如果余弦相似度的最大值超过预设阈值,余弦相似度最大值对应的候选目标区域作为目标跟踪对象,重复执行步骤S1~步骤S4。
所述内容检索网络采用resnet神经网络。
所述内容检索网络采用Goolelandmarks-v2数据集训练,训练时的损失函数选用triplet-loss函数。
实施例:
本发明某一具体实施例给出了上述神经网络的训练过程以及本发明所提供的基于内容检索的目标长时跟踪方法的使用过程。
(1)、数据集的获取及预处理
选取训练数据集,并对输入网络的图像进行尺寸归一化及数据增强处理。
具体实施方式,采用单目标跟踪领域常用数据集ILVSRC2015以及自主实际拍摄和标注的800条视频作为训练数据。其中尺寸归一化和数据增强方式如下:
根据模板图像第一帧得到真实目标框(xmin,ymin,w,h),其中xmin和ymin分别表示真实框左上角的点位置坐标。w和h表示目标框的宽和高。然后根据目标框的中心点为中心,裁取127*127大小的图片作为模板图像。裁取255*255大小的图片作为搜索图像。如果模板图像或搜索图像在原图像中不够裁剪时,将不足的部分按照RGB通道的均值进行填充。
对模板图像进行数据增强操作包括对模板图像进行旋转、添加噪声、色彩抖动等。
(2)、搭建目标跟踪网络模型
使用图像分类领域的Alexnet的通用网络作为构建Siamese卷积神经网络的骨架。
参考图2,该单目标跟踪网络有两路完全相同的子网络组成,两路子网络共享参数。即单目标跟踪网络分为搜索分支和模板分支;其中模板分支输入模板图像,例如127*127*3的模板图像,127*127表示输入图像分辨率,3表示输入图像的通道数,通常为RGB图像。搜索分支输入搜索图像,例如输入 255*255*3大小的图像。
本发明使用的网络结构包括特征提取层、分类层和回归层。
其中特征提取层的两个分支网络都是基于Alexnet的卷积神经网络,网络结构和参数完全相同,均包含依次连接的第一卷积层Conv1、第一池化层Pool1、第二池化层Pool2、第三卷积层Conv3、第四卷积层Conv4、第五卷积层Conv5。具体参数为:Conv1的卷积核大小为11×11,步长为2,输出通道数为96; Pool1的卷积核大小为3×3,步长为2,输出通道数为96;Pool2的卷积核大小为3×3,步长为2,输出通道数为256;Conv3和Conv4的卷积核大小均为 3×3,步长均为1,输出通道数均为192;Conv5的卷积和大小为3×3,步长为1,输出通道数为128。
在分类层,首先使用卷积核大小为3*3,输出通道数为256,然后紧接着是卷积核1*1大小的卷积,输出通道数是128。
以输入127*127*3的模板图像和输入255*255*3的搜索图像为例,分别得到6*6*128的模板图像分类特征图和23*23*128的搜索图像分类特征图,然后以6*6*128为卷积核,以23*23*128为输入特征图,设置步长s=1,pad=0进行卷积,输出17*17*1大小的分类响应特征图。
在回归层,首先使用卷积核大小为3*3,输出通道数为256,然后紧接着是卷积核1*1大小的卷积,输出通道数是128。
以输入127*127*3的模板图像和输入255*255*3的搜索图像为例,分别得到6*6*128的模板图像回归特征图和23*23*128的搜索图像回归特征图,然后以6*6*128为卷积核,以23*23*128为输入特征图,设置步长s=1,pad=0进行卷积,输出17*17*1大小的特征图。最后使用1*1的卷积,,输出通道数是4,得到17*17*4的回归响应特征图。
(3)、损失函数
在分类层,本发明使用二元交叉熵函数作为损失函数。在正负样本设定时,将分类层映射回原图时落入真实框的样本点设为正样本,其它设置为负样本。
在回归层,得到17*17*4的特征图,其中回归分数即每个样本的位置回归值,分别表示到预测框的距离。损失函数采用smoothL1损失函数。
其中,x为回归分数。
最终的loss如下:
是分类损失φcls和回归损失φreg的总和,λ表示超参数,控制回归损失函数的权重。
(4)、搭建图像检索网络
使用图像分类领域的resnet的通用网络作为构建图像检索卷积神经网络的骨架。
参考图3,该网络由卷积层、最大池化层和平均池化层组成。训练该网络使用Goolelandmarks-v2数据集,其损失函数采用triplet-loss:
其中
本发明在LaSOT数据集上面训练离线目标跟踪网络,在
Goolelandmarks-v2数据集上面训练内容检索网络。跟踪时保留初始帧目标内容,并设置特定阈值,当目标跟踪网络达到特定阈值时,启动长时跟踪机制,对整幅图片进行全局搜索,根据全局搜索结果得到疑似候选目标,结合内容检索网络计算最相似的目标。如果最相似目标达到特定阈值,则跟踪目标。
本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。
Claims (7)
1.一种基于内容检索的目标长时跟踪方法,其特征在于对每一帧搜索图像执行如下步骤:
S1、采用离线目标跟踪网络进行目标跟踪处理,得到分类特征图,跟踪时记录初始帧目标内容,作为目标模板;
S2、如果分类特征图最大响应值大于长时跟踪阈值,则重复步骤S1~步骤S2,如果分类特征图最大响应值小于等于长时跟踪阈值,则采用长时跟踪方法对整幅搜索图像进行全局搜索,得到L个候选目标区域;
S3、将L个候候选目标输入到内容检索网络中,得到L个候选区域的特征向量,步骤S1记录的目标模板输入内容检索网路中得到匹配向量z;
S4、分别计算L个候选区域的特征向量和匹配向量z的余弦相似度,如果余弦相似度的最大值超过预设阈值,余弦相似度最大值对应的候选目标区域作为目标跟踪对象,重复执行步骤S1~步骤S4。
2.根据权利要求1所述的一种基于内容检索的目标长时跟踪方法,其特征在于S2采用离线目标跟踪网络进行目标跟踪处理,得到分类特征图的具体步骤如下:
S1.1、获取模板图像和当前帧搜索图像;
S1.2、将模板图像和当前帧搜索图像分别送入训练好的卷积神经网络特征提取层,得到模板图像特征图和搜索图像特征图;
S1.3、将模板图像特征图和搜索图像特征图均先后送入训练好的卷积神经网络分类层和回归层,得模板图像的分类特征图和回归特征图、搜索图像的分类特征图和回归特征图;
S1.4、对模板图像的分类特征图和搜索图像的分类特征图进行互相关操作,得到模板图像与搜索图像的分类层响应图;对模板图像的回归特征图和搜索图像的回归特征图进行互相关操作,得到模板图像与搜索图像的回归层响应图;
S1.5、对模板图像与搜索图像的分类层响应图进行最大池化操作;
S1.6、取出池化之后的分类层响应图中响应值从高到低前N个特征点,并计算这N个特征点对应的回归层输出,根据回归层输出得到当前帧搜索图像中目标的N个预测坐标值;
S1.7、计算分类层响应图中最大响应值对应的回归层输出,根据该回归层输出对应的目标框中心点坐标为目标预测坐标值。
3.根据权利要求1所述的一种结合历史轨迹信息的单目标跟踪方法,其特征在于所述步骤S1.4中的互相关操作如下:
F(z,x)=z*x+b
其中,b为偏差,*表示卷积操作,Z为模板图像的分类层回归层特征图或者回归层特征图,x为搜索图像的分类层回归层特征图或者回归层特征图,F为模板图像与搜索图像的分类层响应图或者模板图像与搜索图像的回归层响应图。
4.根据权利要求1所述的一种结合历史轨迹信息的单目标跟踪方法,其特征在于所述步骤S1.5中池化操作前后特征图的维度一致。
5.根据权利要求1所述的一种结合历史轨迹信息的单目标跟踪方法,其特征在于所述采用长时跟踪方法对整幅搜索图像进行全局搜索,得到疑似候选目标的具体步骤如下:
S2.1、使用固定大小的滑动窗口按照预设步长在整幅搜索图像上滑动,得到N幅滑动图像;
S2.2、将N幅滑动图像和模板图像分别输入到目标跟踪网络中得到N个滑动图像的分类特征图和回归层响应;
S2.3、将N个滑动图像的分类特征图依次和模板图像的分类特征图进行相关操作,得到N个滑动图像与模板图像的分类层响应图,并对得到的N个分类层响应图进行最大池化操作;
S2.4、将N个滑动图像的回归特征图依次和模板图像的回归特征图进行相关操作,得到N个滑动图像与模板图像的回归层响应图;
S2.5、取N个池化后的分类响应图中响应值较大的前M个响应点对应的回归层输出,进而得到M个候选目标区域,也就是总计M×N个候选目标区域。
6.根据权利要求1所述的一种结合历史轨迹信息的单目标跟踪方法,其特征在于所述内容检索网络采用resnet18神经网络。
7.根据权利要求1所述的一种结合历史轨迹信息的单目标跟踪方法,其特征在于所述内容检索网络采用Goolelandmarks-v2数据集训练,训练时的损失函数选用triplet-loss函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111222912.XA CN114022510A (zh) | 2021-10-20 | 2021-10-20 | 一种基于内容检索的目标长时跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111222912.XA CN114022510A (zh) | 2021-10-20 | 2021-10-20 | 一种基于内容检索的目标长时跟踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114022510A true CN114022510A (zh) | 2022-02-08 |
Family
ID=80056927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111222912.XA Pending CN114022510A (zh) | 2021-10-20 | 2021-10-20 | 一种基于内容检索的目标长时跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114022510A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114821128A (zh) * | 2022-06-24 | 2022-07-29 | 北京科技大学 | 一种尺度自适应的模板匹配方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101770583A (zh) * | 2010-01-15 | 2010-07-07 | 华中科技大学 | 一种基于场景全局特征的模板匹配方法 |
CN109325967A (zh) * | 2018-09-14 | 2019-02-12 | 腾讯科技(深圳)有限公司 | 目标跟踪方法、装置、介质以及设备 |
CN110443827A (zh) * | 2019-07-22 | 2019-11-12 | 浙江大学 | 一种基于改进孪生网络的无人机视频单目标长期跟踪方法 |
CN111179314A (zh) * | 2019-12-30 | 2020-05-19 | 北京工业大学 | 一种基于残差密集孪生网络的目标跟踪方法 |
CN111582062A (zh) * | 2020-04-21 | 2020-08-25 | 电子科技大学 | 一种基于YOLOv3的目标跟踪中的重检测方法 |
CN112446333A (zh) * | 2020-12-01 | 2021-03-05 | 中科人工智能创新技术研究院(青岛)有限公司 | 基于重检测的球类目标跟踪方法及系统 |
KR20210096473A (ko) * | 2020-01-28 | 2021-08-05 | 인하대학교 산학협력단 | 신뢰도 추정을 통한 글로벌 및 로컬 검색을 기반으로 한 견고한 시각적 물체 추적 |
-
2021
- 2021-10-20 CN CN202111222912.XA patent/CN114022510A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101770583A (zh) * | 2010-01-15 | 2010-07-07 | 华中科技大学 | 一种基于场景全局特征的模板匹配方法 |
CN109325967A (zh) * | 2018-09-14 | 2019-02-12 | 腾讯科技(深圳)有限公司 | 目标跟踪方法、装置、介质以及设备 |
CN110443827A (zh) * | 2019-07-22 | 2019-11-12 | 浙江大学 | 一种基于改进孪生网络的无人机视频单目标长期跟踪方法 |
CN111179314A (zh) * | 2019-12-30 | 2020-05-19 | 北京工业大学 | 一种基于残差密集孪生网络的目标跟踪方法 |
KR20210096473A (ko) * | 2020-01-28 | 2021-08-05 | 인하대학교 산학협력단 | 신뢰도 추정을 통한 글로벌 및 로컬 검색을 기반으로 한 견고한 시각적 물체 추적 |
CN111582062A (zh) * | 2020-04-21 | 2020-08-25 | 电子科技大学 | 一种基于YOLOv3的目标跟踪中的重检测方法 |
CN112446333A (zh) * | 2020-12-01 | 2021-03-05 | 中科人工智能创新技术研究院(青岛)有限公司 | 基于重检测的球类目标跟踪方法及系统 |
Non-Patent Citations (2)
Title |
---|
ZITONG YI等: "A Method of Stable Long-Term Single Object Tracking", 《 2021 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME)》, 9 June 2021 (2021-06-09), pages 1 - 6 * |
贾惠: "基于深度学习的目标跟踪算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 1, 15 January 2021 (2021-01-15), pages 1 - 47 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114821128A (zh) * | 2022-06-24 | 2022-07-29 | 北京科技大学 | 一种尺度自适应的模板匹配方法 |
CN114821128B (zh) * | 2022-06-24 | 2022-09-09 | 北京科技大学 | 一种尺度自适应的模板匹配方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111354017B (zh) | 一种基于孪生神经网络及平行注意力模块的目标跟踪方法 | |
CN112184752A (zh) | 一种基于金字塔卷积的视频目标跟踪方法 | |
CN110781924B (zh) | 一种基于全卷积神经网络的侧扫声纳图像特征提取方法 | |
CN104574445B (zh) | 一种目标跟踪方法 | |
CN111179307A (zh) | 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法 | |
CN109101897A (zh) | 水下机器人的目标检测方法、系统及相关设备 | |
CN110120064B (zh) | 一种基于互强化与多注意机制学习的深度相关目标跟踪算法 | |
CN111260688A (zh) | 一种孪生双路目标跟踪方法 | |
CN107680106A (zh) | 一种基于Faster R‑CNN的显著性目标检测方法 | |
CN111860414B (zh) | 一种基于多特征融合检测Deepfake视频方法 | |
CN113706581B (zh) | 基于残差通道注意与多层次分类回归的目标跟踪方法 | |
CN110555868A (zh) | 一种复杂地面背景下运动小目标检测方法 | |
CN111429485B (zh) | 基于自适应正则化和高信度更新的跨模态滤波跟踪方法 | |
CN111931654A (zh) | 一种人员跟踪智能监测方法、系统和装置 | |
John et al. | A comparative study of various object detection algorithms and performance analysis | |
CN118097150B (zh) | 一种小样本伪装目标分割方法 | |
CN112329662B (zh) | 基于无监督学习的多视角显著性估计方法 | |
CN111882581A (zh) | 一种深度特征关联的多目标跟踪方法 | |
CN110751671B (zh) | 一种基于核相关滤波与运动估计的目标跟踪方法 | |
CN114022510A (zh) | 一种基于内容检索的目标长时跟踪方法 | |
CN111951298B (zh) | 一种融合时间序列信息的目标跟踪方法 | |
CN113361329A (zh) | 一种基于实例特征感知的鲁棒单目标跟踪方法 | |
CN108288283A (zh) | 一种基于相关滤波的视频跟踪方法 | |
Gong et al. | Research on an improved KCF target tracking algorithm based on CNN feature extraction | |
CN110580712A (zh) | 一种使用运动信息与时序信息的改进CFNet视频目标追踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |