CN112184752A - 一种基于金字塔卷积的视频目标跟踪方法 - Google Patents
一种基于金字塔卷积的视频目标跟踪方法 Download PDFInfo
- Publication number
- CN112184752A CN112184752A CN202010932565.9A CN202010932565A CN112184752A CN 112184752 A CN112184752 A CN 112184752A CN 202010932565 A CN202010932565 A CN 202010932565A CN 112184752 A CN112184752 A CN 112184752A
- Authority
- CN
- China
- Prior art keywords
- convolution
- target
- image
- pyramid
- tracking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000012549 training Methods 0.000 claims abstract description 31
- 230000008569 process Effects 0.000 claims abstract description 19
- 230000004044 response Effects 0.000 claims description 30
- 238000010586 diagram Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 description 28
- 230000006870 function Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 206010034719 Personality change Diseases 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
Abstract
本发明公开了一种基于金字塔卷积的视频目标跟踪方法,包括以下步骤:根据图像中跟踪目标的位置和大小,裁剪出图像序列训练集中的所有图像对应的目标模板图像和搜索区域图像;构建基于金字塔卷积的全卷积孪生网络;利用所述构建好的图像序列训练集,训练所述的基于金字塔卷积的全卷积孪生网络,获得训练好的全卷积孪生网络;使用训练好的基于金字塔卷积的全卷积孪生网络进行单目标跟踪。本发明在跟踪目标的过程中,通过在传统全卷积孪生网络的基础上加入金字塔卷积,使用不同尺度与深度的卷积核进行多尺度特征的提取和融合,提取到场景中不同层次的细节信息,进而提升跟踪系统的鲁棒性和准确性。
Description
技术领域
本发明属于数字图像处理、深度学习以及图像识别的交叉领域,更具体地说,涉及一种基于金字塔卷积的视频目标跟踪方法。
背景技术
视觉目标跟踪是计算机视觉领域基础性研究课题中的一个研究方向,其广泛应用于智能监控、人机交互、智能交通和无人驾驶等领域,相关的研究工作一直是计算机视觉领域的研究热点。视频目标跟踪的任务是对视频中的每一帧图像的跟踪目标都进行正确的识别和定位,同时保证目标跟踪的一致性。由于自然场景的复杂性,目标对光照变化的敏感性,跟踪对于实时性和鲁棒性的要求,以及遮挡、姿态变化和尺度变化等诸多因素的存在,使得在实际应用中目标跟踪仍是一件极具挑战性的任务。
根据目标跟踪技术的发展进程,可以将目标跟踪相关算法分为传统的跟踪算法、基于相关滤波的高速跟踪算法和基于深度学习的高精度跟踪算法。
传统的目标跟踪算法的关键思想是通过检测目标出现的位置来模拟跟踪的过程,其主要算法过程结合了目标检测中的相关算法,以及其它优化策略对跟踪模型进行优化。这类方法根据目标表征方式,主要分为两类,一是基于生成式的跟踪模型,二是基于判别式的跟踪模型。生成式跟踪算法主要通过提取目标对象的特征,构建出能够表征目标外观的模型,利用模型在搜索图像内进行匹配,匹配度最高的区域即为目标在搜索图像中的位置。常见的基于生成式的目标跟踪算法有meanshift、粒子滤波、卡尔曼滤波和基于特征点的光流算法等。然而基于生成式的目标跟踪模型主要没有考虑到与目标相关的背景信息等关键因素,不能有效解决目标跟踪过程中出现的背景与目标外观相似的情况,因此仅仅通过生成式跟踪模型对跟踪目标进行建模并不能很好地满足目标跟踪的需求。判别式跟踪算法主要把跟踪问题视作二分类问题,通过利用第一帧模板图像中的背景信息构建模型来划分目标与背景的决策边界,最大化地将目标与背景区域划分开。基于判别式的跟踪算法主要有TLD和Struck等,相比于基于生成式的目标跟踪算法,此类算法更能适应背景变化复杂的跟踪场景。
基于相关滤波的目标跟踪算法通过当前帧的信息和之前帧的信息训练出一个相关滤波器,然后将相关滤波器与新输入的视频帧进行相关性计算,得到的响应图中得分最高的点或者块就是最可能的跟踪结果。在整个跟踪过程中,相关滤波器不是固定不变的,而是随着整个目标跟踪进程不断地更新。基于相关滤波的跟踪算法主要有CF、KCF、CSK、DSST、C-COT等,相比于传统的目标跟踪算法,此类算法利用快速傅里叶变换(Fast FourierTransform,FFT)将滤波过程从时域转到频域进行计算,极大地加快了目标跟踪的速度。越来越多的优化模型都是在相关滤波框架的基础上使用更多的特征、充分利用目标信息,解决跟踪过程中出现的遮挡、运动模糊和光照变化等问题,进而提升跟踪器的鲁棒性。
基于深度学习的跟踪模型在近些年得到了大量的研究和广泛的应用。深度学习模型因其强大的特征表达能力能够提取到跟踪目标的鲁棒特征,极大地提高了在复杂背景下目标跟踪算法的精度。将深度学习模型应用到目标跟踪领域的优势是跟踪模型经过大量数据的训练,可以得到更加有效的语义特征表达,进而提高目标跟踪方法的性能。但是将深度学习应用到目标跟踪领域面临着两个难题:(1)仅利用跟踪视频序列初始帧获得的目标大小和位置等先验知识,远不能满足深度学习模型对于数据量的要求;(2)跟踪过程中在线更新模型会导致模型计算的复杂性增加,不能很好地满足目标跟踪的实时性要求。针对上述难题,研究人员通过使用适用于图像分类的大型数据集(例如ILSRVC2015数据集)预训练跟踪模型,解决了数据量不足的问题;通过使用离线预训练、在线微调的策略,缓解了在线更新模型造成的耗时问题,提高了跟踪模型的实时性。通过将不同的优化策略应用到深度模型与目标跟踪算法的结合方式中,基于深度学习的目标跟踪算法,逐步往端到端模型或框架进行发展,获得了比传统跟踪算法更好的精度和速度。
目前比较流行的目标跟踪算法是建立在孪生网络的架构上。基于孪生网络的目标跟踪方法将目标跟踪视为一个相似性度量问题,利用孪生网络得到一张衡量目标模板图像与搜索区域图像之间相似性的响应得分图,得分图中分数最高点对应的位置即为预测的跟踪目标位置。SiamFC等基于孪生网络的方法虽然可以在高性能运算设备上满足实时性的要求,但是由于此类方法在训练和跟踪过程中只提取到了跟踪目标的单尺度信息,当目标发生较大的尺度和姿势变化时,不能有效获取变化后的尺度信息,进而导致跟踪飘移和目标丢失等问题,降低了跟踪算法的精度。
发明内容
本发明的目的在于,针对现有技术存在的不足,提出了一种基于金字塔卷积的视频目标跟踪方法。该方法通过在现有的基于全卷积孪生网络的跟踪模型基础上,通过结合金字塔卷积模块提取到跟踪目标的多尺度信息,进而解决现有技术因尺度变化导致的目标飘移和目标丢失的技术问题。
为了解决上述问题,本发明提供如下的技术方案:
一种基于金字塔卷积的视频目标跟踪方法,该方法包括以下步骤:
(1)选择视觉目标跟踪训练集,根据图像中跟踪目标的位置和大小,裁剪出图像序列训练集中的所有图像对应的目标模板图像和搜索区域图像,将目标模板图像和搜索区域图像组成的图像对构成训练数据集;
(2)搭建基于金字塔卷积的全卷积孪生网络。所述基于金字塔卷积的全卷积孪生网络包含两个完全相同的分支网络,分别是提取目标模板图像特征的目标分支网络和提取搜索区域图像特征的搜索分支网络,两个分支网络都是基于金字塔卷积的卷积神经网络,将提取到的目标模板图像的特征图与搜索区域图像的特征图做互相关运算,得到对应的得分响应图;
(3)使用构建好的训练数据集,训练基于金字塔卷积的全卷积孪生网络,获得训练好的基于金字塔卷积的全卷积孪生网络;
(4)使用训练好的基于金字塔卷积的全卷积孪生网络计算待测图像序列中图像的得分图,基于得分图进行目标跟踪定位。
进一步,所述步骤(1)中,为了与其他跟踪器进行公平的比较,本发明只使用官方网站提供的特定训练集进行训练,常见的用于训练的数据集有:COCO、ImageNet DET、ImageNet VID或者YouTube-BB。本发明使用的是ILSVRC2015数据集。
更进一步,所述步骤(2)中,全卷积孪生网络包括两个分支网络,分别是:a)以目标模板图像Z做为输入的目标分支网络;b)以搜索区域图像X做为输入的搜索分支网络。两个分支的主干网络结构相同、参数共享,使用Φ(Z)和Φ(X)分别表示目标分支和搜索分支输出的特征图,将Φ(Z)做为卷积核在Φ(X)上进行互相关运算,得到嵌有两个分支信息的得分响应图R。两个分支都是将基于金字塔卷积的AlexNet网络做为主干网络。目标模板图像Z输入主干网络后,通过Conv1得到第一层的特征图,接着通过Pool1、金字塔卷积模块得到第二层的特征图,最后通过Pool2、Conv3、Conv4、Conv5得到最终的特征图Φ(Z);同理,搜索区域图像X输入主干网络后,通过Conv1得到第一层的特征图,接着通过Pool1、金字塔卷积模块得到第二层的特征图,最后通过Pool2、Conv3、Conv4、Conv5得到最终的特征图Φ(X)。
金字塔卷积(Pyramidal Convolution,PyConv)可以在多个卷积核尺度上对输入信息进行处理,它包含一个核金字塔,每一层包含不同类型的卷积核,由于卷积核的大小和深度都是可以变化的,所以可以提取到不同尺度的细节信息。除了上述提到的可以提取到多尺度信息外,金字塔卷积为尽可能降低计算量,在内部还进行了分组卷积,相比于标准卷积,金字塔卷积具有与标准卷积相近的参数量和计算复杂度,并且可以通过并行的方式进行计算,因此计算高效。本发明中使用的金字塔卷积模块由两层不同尺寸的卷积核构成,并且每一层的卷积核包含不同的空间尺寸,随着卷积核尺寸的增加而逐渐减低卷积核的深度。第一层卷积核的尺寸为3×3,对应卷积核的深度为192,划分为2组进行卷积;第二层卷积核的尺寸为5×5,对应卷积核的深度是64,划分为2组进行卷积。
更进一步,所述步骤(3)中构建的损失函数计算公式如下:
l(y[u],v[u])=log(1+exp(-y[u]×v[u]))
其中,L(y,v)为得分响应图的损失函数,l(y,v)为得分响应图中每个点对应的损失函数,D表示得分响应图中所有点的集合,u为得分响应图中的样本点,c为得分响应图的中心位置,R为得分响应图对应的半径值,y∈{+1,-1}为样本点对应的真值标签,当样本点u位于以c为中心的半径R范围内时,y的值为+1,否则y的值为+1。v[u]为得分响应图中u点对应的得分值。
更进一步,所述步骤(4)的过程如下:
1)根据待测图像序列初始帧中目标的位置和大小,裁剪出初始帧图像的目标模板图像,图像尺寸为127×127,将初始帧图像的目标模板图像输入到训练好的基于金字塔卷积的全卷积孪生网络的目标分支网络中,获得初始帧图像的目标模板图像的特征图。此时,t=2;
2)根据待测图像序列第t-1帧中目标的位置和大小,裁剪出第t帧图像的搜索区域图像,图像尺寸为255×255,将第t帧图像的搜索区域图像输入到训练好的基于金字塔卷积的全卷积孪生网络的搜索分支网络中,获得第t帧搜索区域图像的特征图;
3)将第t-1帧图像的目标模板特征图与第t帧图像的搜索区域图像特征图进行互相关运算,得到第t帧的得分响应图R;
4)根据第t帧的得分响应图计算出目标在第t帧图像中的位置;
5)令t=t+1,重复执行步骤2)到步骤5),直到结束待测图像序列的目标跟踪过程,即t=N。其中,N为待测视频序列的总帧数。
本发明与其他现有算法模型相比,具有以下显著的优势:
(1)框架简单。所提出的是一种基于金字塔卷积的全卷积孪生网络结构的目标跟踪方法,这种方法结构简单,性能良好;
(2)在跟踪目标的过程中,通过金字塔模块提取不同尺度的特征信息,可以更好地解决跟踪过程中尺度变化的问题,防止跟踪过程中产生的跟踪飘移和目标丢失等问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要的附图作一下简单的介绍。显而易见,下面描述的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他的附图和表。
图1为本发明实施例提供的基于金字塔卷积的视频目标跟踪方法流程图;
图2为本发明实施例提供的基于金字塔卷积的全卷积孪生网络结构示意图;
图3为本发明实施例提供的金字塔卷积模块示意图;
图4(a)为本发明实施例提供的跟踪结果在OTB100数据集上的准确率曲线图;
图4(b)为本发明实施例提供的跟踪结果在OTB100数据集上的成功率曲线图;
图5(a)、图5(b)、图5(c)为本发明实施例提供的使用本发明方法和SiamFC方法对Basketball视频序列进行目标跟踪的第31帧、第60帧、第109帧图像;
图6(a)、图6(b)、图6(c)为本发明实施例提供的使用本发明方法和SiamFC方法对CarScale视频序列进行目标跟踪的第124帧、第159帧、第173帧图像;
图7(a)、图7(b)、图7(c)为本发明实施例提供的使用本发明方法和SiamFC方法对Suv视频序列进行目标跟踪的第49帧、第498帧、第838帧图像。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面结合实验使用的数据集、模型、框架、附图中的模型流程图以及实验结果做进一步的说明。在实验中,使用ILSVRC2015数据集做为训练数据集,OTB100数据集做为测试数据集,将基于金字塔卷积的全卷积孪生网络模型做为本发明方法的模型,采用Pytorch框架编程实现本发明的方法,通过实验将本发明的方法与baseline算法SiamFC在OTB100数据集上进行准确率和成功率的比较。
图1为本发明实施例提供的基于金字塔卷积的视频目标跟踪方法流程图。如图1所示,该方法包括以下步骤:
(1)选择视觉目标跟踪训练集,根据图像中跟踪目标的位置和大小,裁剪出图像序列训练集中的所有图像对应的目标模板图像和搜索区域图像,将目标模板图像和搜索区域图像组成的图像对构成训练数据集;
(2)搭建基于金字塔卷积的全卷积孪生网络。所述基于金字塔卷积的全卷积孪生网络包含两个完全相同的分支网络,分别是提取目标模板图像特征的目标分支网络和提取搜索区域图像特征的搜索分支网络,两个分支网络都是基于金字塔卷积的卷积神经网络,将提取到的目标模板图像的特征图与搜索区域图像的特征图做互相关运算,得到对应的得分响应图;
(3)使用构建好的训练数据集,训练基于金字塔卷积的全卷积孪生网络,获得训练好的基于金字塔卷积的全卷积孪生网络;
(4)使用训练好的基于金字塔卷积的全卷积孪生网络计算待测图像序列中图像的得分图,基于得分图进行目标跟踪定位。
本实施例中,目标模板图像的裁剪方法为:将目标模板原始图像的中心位置作为边界框bounding box的中心位置,在边界框的四条边分别扩充p个像素作为上下文附加边界,若扩充后的区域超出原始图像的边界,则缺失的部分用图像的平均像素填充,最后将裁剪后的目标图像区域缩放到127×127的大小;搜索区域图像的裁剪方法为:将搜索区域原始图像的中心位置作为边界框bounding box的中心位置,在边界框的四条边分别扩充2p个像素作为上下文附加边界,若扩充后的区域超出原始图像的边界,则缺失的部分用图像的平均像素填充,最后将裁剪后的目标图像区域缩放到255×255的大小;其中,p=(w+h)/4,w为目标边界框bounding box的宽度,h为目标边界框bounding box的高度。
图2为本发明实施例提供的基于金字塔卷积的全卷积孪生网络结构示意图。如图2所示,基于金字塔卷积的全卷积孪生网络包含两个完全相同的分支网络,分别是提取目标模板图像特征的目标分支网络和提取搜索区域图像特征的搜索分支网络。
两个分支网络都是基于金字塔卷积的卷积神经网络,网络结构和参数完全相同,均包含依次连接的第一卷积层Conv1、第一池化层Pool1、金字塔卷积模块PyConv、第二池化层Pool2、第三卷积层Conv3、第四卷积层Conv4、第五卷积层Conv5。具体参数为:Conv1的卷积核大小为11×11,步长为2,输出通道数为96;Pool1的卷积核大小为3×3,步长为2,输出通道数为96;PyConv模块由两种不同的卷积核构成,对应的卷积核大小分别为3×3和5×5,步长均为1,输出通道数之和为256;Pool2的卷积核大小为3×3,步长为2,输出通道数为256;Conv3和Conv4的卷积核大小均为3×3,步长均为1,输出通道数均为192;Conv5的卷积和大小为3×3,步长为1,输出通道数为128。
图3为本发明实施例提供的金字塔卷积模块示意图。由图可知,金字塔卷积模块包含一个核金字塔,由多层卷积核组成,每一层的卷积核类型不同,随着卷积核尺寸的增加,卷积核的深度即通道数逐渐减少,正是由于卷积核的大小和深度可以变化,所以金字塔卷积可以提取到不同尺寸的细节信息。除了上述提到的可以提取到多尺度信息外,金字塔卷积为尽可能降低计算量,在内部还进行了分组卷积,相比于标准卷积,金字塔卷积具有与标准卷积相近的参数量和计算复杂度,并且可以通过并行的方式进行计算,因此计算高效。本发明中使用的金字塔卷积模块由两层不同尺寸的卷积核构成,并且每一层的卷积核包含不同的空间尺寸,随着卷积核尺寸的增加而逐渐减低卷积核的深度。第一层卷积核的尺寸为3×3,对应卷积核的深度为192,划分为2组进行卷积;第二层卷积核的尺寸为5×5,对应卷积核的深度是64,划分为2组进行卷积。
目标模板图像Z和搜索区域图像X分别输入到本网络的目标分支和搜索分支,得到目标模板图像的特征图和搜索区域图像的特征图,分别使用Φ(Z)和Φ(X)表示目标分支和搜索分支输出的特征图,将Φ(Z)做为卷积核在Φ(X)上进行互相关运算,得到嵌有两个分支信息的得分响应图R。
基于所述训练数据集,训练基于金字塔卷积的全卷积孪生网络时,对于训练得到的得分图中的每一个样本点,都对应着一个真值标签y∈{+1,-1}。当样本点位于以得分图中心位置为圆点,半径为R的范围内时,样本点为正样本,真值标签y的取值为+1,否则样本点为负样本,真值标签y的取值为-1。对应的公式如下:
其中,c为得分图的中点,k为步长的取值。
本发明实施例使用logistic loss做为训练时每个样本点的损失函数,对于得分图R的整体损失,采用得分图中全部样本点损失值的均值。本发明构建的损失函数L(y,v)为:
l(y[u],v[u])=log(1+exp(-y[u]×v[u]))
其中,L(y,v)为得分响应图的损失函数,l(y,v)为得分响应图中每个点对应的损失函数,D表示得分响应图中所有点的集合,u为得分响应图中的样本点。
本发明实施例采用随机梯度下降算法最小化损失函数L(y,v),通过多次迭代训练得到训练好的基于金字塔卷积的全卷积孪生网络模型。
本发明实施例共训练50个epoch,每个epoch迭代6650次,每次迭代使用8对裁剪好的图像进行训练。在网络训练的过程中,随着迭代过程的进行,网络的学习率从10-2逐渐缩小到10-5。
使用训练好的基于金字塔卷积的全卷积孪生网络测试本跟踪方法的性能时,使用OTB100数据集做为待测图像序列。OTB100数据集包括100个完全标注的序列,每个序列中的目标各不相同,且受到光照变化、尺度变化、遮挡、目标丢失等一种或多种因素的影响,从而增加了跟踪的难度。
本发明实施例在OTB100数据集上对本发明提出的方法进行性能评估,使用准确率和成功率两个评价指标进行评价。图4(a)和图4(b)分别为本发明实施例提供的跟踪结果在OTB100数据集上的准确率曲线图和成功率曲线图。从图4(a)可以看出,本发明提出的方法在准确率上比SiamFC有所提高,跟踪精度上取得了不错的效果;从图4(b)可以看出,本方法提出的方法在成功率上也比SiamFC有所提高。
图5(a)为本发明实施例提供的使用本发明方法对Basketball序列进行目标跟踪的第31帧图像;图5(b)为本发明实施例提供的使用本发明方法对Basketball序列进行目标跟踪的第60帧图像;图5(c)为本发明实施例提供的使用本发明方法对Basketball序列进行目标跟踪的第109帧图像。可以得出,本发明提出的跟踪方法可以有效跟踪到有姿态变化和相似背景干扰的目标。
图6(a)为本发明实施例提供的使用本发明方法对CarScale序列进行目标跟踪的第124帧图像;图6(b)为本发明实施例提供的使用本发明方法对CarScale序列进行目标跟踪的第159帧图像;图6(c)为本发明实施例提供的使用本发明方法对CarScale序列进行目标跟踪的第173帧图像。可以得出,本发明提出的跟踪方法可以有效跟踪到有姿态变化和遮挡的目标。
图7(a)为本发明实施例提供的使用本发明方法对Suv序列进行目标跟踪的第49帧图像;图7(b)为本发明实施例提供的使用本发明方法对Suv序列进行目标跟踪的第498帧图像;图7(c)为本发明实施例提供的使用本发明方法对Suv序列进行目标跟踪的第838帧图像。可以得出,本发明提出的跟踪方法可以有效跟踪到遮挡和相似背景干扰的目标。
Claims (6)
1.一种基于金字塔卷积的视频目标跟踪方法,其特征在于,所述方法包括以下步骤:
步骤S1,选择视觉目标跟踪训练集,根据图像中跟踪目标的位置和大小,裁剪出图像序列训练集中的所有图像对应的目标模板图像和搜索区域图像,将目标模板图像和搜索区域图像组成的图像对构成训练数据集;
步骤S2,搭建基于金字塔卷积的全卷积孪生网络,所述基于金字塔卷积的全卷积孪生网络包含两个完全相同的分支网络,分别提取目标模板图像特征的目标分支网络和提取搜索区域图像特征的搜索分支网络,两个分支网络都是基于金字塔卷积的卷积神经网络,将提取到的目标模板图像的特征图与搜索区域图像的特征图做互相关运算,得到对应的得分响应图;
步骤S3,使用构建好的训练数据集,训练基于金字塔卷积的全卷积孪生网络,获得训练好的基于金字塔卷积的全卷积孪生网络;
步骤S4,使用训练好的基于金字塔卷积的全卷积孪生网络计算待测图像序列中图像的得分图,基于得分图进行目标跟踪定位。
2.如权利要求1所述的一种基于金字塔卷积的视频目标跟踪方法,其特征在于,所述步骤S1中,使用ILSVRC2015数据集。
3.如权利要求1或2所述的一种基于金字塔卷积的视频目标跟踪方法,其特征在于,所述步骤(2)中,全卷积孪生网络包括两个分支网络,分别是:a)以目标模板图像Z做为输入的目标分支网络;b)以搜索区域图像X做为输入的搜索分支网络,两个分支的主干网络结构相同、参数共享,使用Φ(Z)和Φ(X)分别表示目标分支和搜索分支输出的特征图,将Φ(Z)做为卷积核在Φ(X)上进行互相关运算,得到嵌有两个分支信息的得分响应图R,两个分支都是将基于金字塔卷积的AlexNet网络做为主干网络,目标模板图像Z输入主干网络后,通过Conv1得到第一层的特征图,接着通过Pool1、金字塔卷积模块得到第二层的特征图,最后通过Pool2、Conv3、Conv4、Conv5得到最终的特征图;搜索区域图像X输入主干网络后,通过Conv1得到第一层的特征图,接着通过Pool1、金字塔卷积模块得到第二层的特征图,最后通过Pool2、Conv3、Conv4、Conv5得到最终的特征图。
4.如权利要求1或2所述的一种基于金字塔卷积的视频目标跟踪方法,其特征在于,所述步骤S2中,金字塔卷积模块在多个卷积核尺度上对输入信息进行处理,包含一个核金字塔,每一层包含不同类型的卷积核,提取到不同尺度的细节信息。
6.如权利要求1或2所述的一种基于金字塔卷积的视频目标跟踪方法,其特征在于,所述步骤S4的过程如下:
1)根据待测图像序列初始帧中目标的位置和大小,裁剪出初始帧图像的目标模板图像,图像尺寸为127×127,将初始帧图像的目标模板图像输入到训练好的基于金字塔卷积的全卷积孪生网络的目标分支网络中,获得初始帧图像的目标模板图像的特征图,t=2;
2)根据待测图像序列第t-1帧中目标的位置和大小,裁剪出第t帧图像的搜索区域图像,图像尺寸为255×255,将第t帧图像的搜索区域图像输入到训练好的基于金字塔卷积的全卷积孪生网络的搜索分支网络中,获得第t帧搜索区域图像的特征图;
3)将第t-1帧图像的目标模板特征图与第t帧图像的搜索区域图像特征图进行互相关运算,得到第t帧的得分响应图R;
4)根据第t帧的得分响应图计算出目标在第t帧图像中的位置;
5)令t=t+1,重复执行步骤2)到步骤5),直到结束待测图像序列的目标跟踪过程,即t=N,其中,N为待测视频序列的总帧数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010932565.9A CN112184752A (zh) | 2020-09-08 | 2020-09-08 | 一种基于金字塔卷积的视频目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010932565.9A CN112184752A (zh) | 2020-09-08 | 2020-09-08 | 一种基于金字塔卷积的视频目标跟踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112184752A true CN112184752A (zh) | 2021-01-05 |
Family
ID=73925683
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010932565.9A Pending CN112184752A (zh) | 2020-09-08 | 2020-09-08 | 一种基于金字塔卷积的视频目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112184752A (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112785626A (zh) * | 2021-01-27 | 2021-05-11 | 安徽大学 | 一种基于多尺度特征融合的孪生网络小目标跟踪方法 |
CN112785624A (zh) * | 2021-01-18 | 2021-05-11 | 苏州科技大学 | 基于孪生网络的rgb-d特征目标跟踪方法 |
CN112883928A (zh) * | 2021-03-26 | 2021-06-01 | 南通大学 | 一种基于深度神经网络的多目标追踪算法 |
CN112949498A (zh) * | 2021-03-04 | 2021-06-11 | 北京联合大学 | 一种基于异构卷积神经网络的目标关键点检测方法 |
CN113052873A (zh) * | 2021-03-16 | 2021-06-29 | 南京理工大学 | 一种在线自监督学习场景适应的单目标跟踪方法 |
CN113192076A (zh) * | 2021-04-09 | 2021-07-30 | 湖北工业大学 | 联合分类预测和多尺度特征提取的mri脑肿瘤图像分割方法 |
CN113344862A (zh) * | 2021-05-20 | 2021-09-03 | 北京百度网讯科技有限公司 | 缺陷检测方法、装置、电子设备及存储介质 |
CN113344932A (zh) * | 2021-06-01 | 2021-09-03 | 电子科技大学 | 一种半监督的单目标视频分割方法 |
CN113470001A (zh) * | 2021-07-22 | 2021-10-01 | 西北工业大学 | 一种用于红外图像的目标搜索方法 |
CN113610888A (zh) * | 2021-06-29 | 2021-11-05 | 南京信息工程大学 | 一种基于高斯平滑的孪生网络目标跟踪方法 |
CN113610540A (zh) * | 2021-07-09 | 2021-11-05 | 北京农业信息技术研究中心 | 一种河蟹防伪溯源方法及系统 |
CN113628246A (zh) * | 2021-07-28 | 2021-11-09 | 西安理工大学 | 一种基于3d卷积模板更新的孪生网络目标跟踪方法 |
CN113673310A (zh) * | 2021-07-05 | 2021-11-19 | 西安电子科技大学 | 一种基于增强孪生网络的舰船追踪方法 |
CN113723179A (zh) * | 2021-07-19 | 2021-11-30 | 湘潭大学 | 一种使用目标跟踪算法的数显仪表数据记录方法 |
CN113870312A (zh) * | 2021-09-30 | 2021-12-31 | 四川大学 | 基于孪生网络的单目标跟踪方法 |
CN114240996A (zh) * | 2021-11-16 | 2022-03-25 | 灵译脑科技(上海)有限公司 | 一种基于目标运动预测的多目标追踪方法 |
CN114429491A (zh) * | 2022-04-07 | 2022-05-03 | 之江实验室 | 一种基于事件相机的脉冲神经网络目标跟踪方法和系统 |
CN114627154A (zh) * | 2022-03-18 | 2022-06-14 | 中国电子科技集团公司第十研究所 | 一种在频域部署的目标跟踪方法、电子设备及存储介质 |
CN114820709A (zh) * | 2022-05-05 | 2022-07-29 | 郑州大学 | 基于改进UNet网络的单目标跟踪方法、装置、设备及介质 |
CN115375737A (zh) * | 2022-10-25 | 2022-11-22 | 南昌工程学院 | 基于自适应时间与序列化时空特征的目标跟踪方法与系统 |
CN116030095A (zh) * | 2023-02-01 | 2023-04-28 | 西南石油大学 | 一种基于双分支孪生网络结构的视觉目标跟踪方法 |
CN116703980A (zh) * | 2023-08-04 | 2023-09-05 | 南昌工程学院 | 基于金字塔池化Transformer主干网络的目标跟踪方法与系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109191491A (zh) * | 2018-08-03 | 2019-01-11 | 华中科技大学 | 基于多层特征融合的全卷积孪生网络的目标跟踪方法及系统 |
CN111179307A (zh) * | 2019-12-16 | 2020-05-19 | 浙江工业大学 | 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法 |
-
2020
- 2020-09-08 CN CN202010932565.9A patent/CN112184752A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109191491A (zh) * | 2018-08-03 | 2019-01-11 | 华中科技大学 | 基于多层特征融合的全卷积孪生网络的目标跟踪方法及系统 |
CN111179307A (zh) * | 2019-12-16 | 2020-05-19 | 浙江工业大学 | 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法 |
Cited By (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112785624A (zh) * | 2021-01-18 | 2021-05-11 | 苏州科技大学 | 基于孪生网络的rgb-d特征目标跟踪方法 |
CN112785624B (zh) * | 2021-01-18 | 2023-07-04 | 苏州科技大学 | 基于孪生网络的rgb-d特征目标跟踪方法 |
CN112785626A (zh) * | 2021-01-27 | 2021-05-11 | 安徽大学 | 一种基于多尺度特征融合的孪生网络小目标跟踪方法 |
CN112949498B (zh) * | 2021-03-04 | 2023-11-14 | 北京联合大学 | 一种基于异构卷积神经网络的目标关键点检测方法 |
CN112949498A (zh) * | 2021-03-04 | 2021-06-11 | 北京联合大学 | 一种基于异构卷积神经网络的目标关键点检测方法 |
CN113052873A (zh) * | 2021-03-16 | 2021-06-29 | 南京理工大学 | 一种在线自监督学习场景适应的单目标跟踪方法 |
CN112883928A (zh) * | 2021-03-26 | 2021-06-01 | 南通大学 | 一种基于深度神经网络的多目标追踪算法 |
CN113192076A (zh) * | 2021-04-09 | 2021-07-30 | 湖北工业大学 | 联合分类预测和多尺度特征提取的mri脑肿瘤图像分割方法 |
CN113344862A (zh) * | 2021-05-20 | 2021-09-03 | 北京百度网讯科技有限公司 | 缺陷检测方法、装置、电子设备及存储介质 |
CN113344862B (zh) * | 2021-05-20 | 2024-04-12 | 北京百度网讯科技有限公司 | 缺陷检测方法、装置、电子设备及存储介质 |
CN113344932A (zh) * | 2021-06-01 | 2021-09-03 | 电子科技大学 | 一种半监督的单目标视频分割方法 |
CN113344932B (zh) * | 2021-06-01 | 2022-05-03 | 电子科技大学 | 一种半监督的单目标视频分割方法 |
CN113610888B (zh) * | 2021-06-29 | 2023-11-24 | 南京信息工程大学 | 一种基于高斯平滑的孪生网络目标跟踪方法 |
CN113610888A (zh) * | 2021-06-29 | 2021-11-05 | 南京信息工程大学 | 一种基于高斯平滑的孪生网络目标跟踪方法 |
CN113673310A (zh) * | 2021-07-05 | 2021-11-19 | 西安电子科技大学 | 一种基于增强孪生网络的舰船追踪方法 |
CN113610540B (zh) * | 2021-07-09 | 2024-02-02 | 北京农业信息技术研究中心 | 一种河蟹防伪溯源方法及系统 |
CN113610540A (zh) * | 2021-07-09 | 2021-11-05 | 北京农业信息技术研究中心 | 一种河蟹防伪溯源方法及系统 |
CN113723179A (zh) * | 2021-07-19 | 2021-11-30 | 湘潭大学 | 一种使用目标跟踪算法的数显仪表数据记录方法 |
CN113723179B (zh) * | 2021-07-19 | 2023-07-28 | 湘潭大学 | 一种使用目标跟踪算法的数显仪表数据记录方法 |
CN113470001A (zh) * | 2021-07-22 | 2021-10-01 | 西北工业大学 | 一种用于红外图像的目标搜索方法 |
CN113470001B (zh) * | 2021-07-22 | 2024-01-09 | 西北工业大学 | 一种用于红外图像的目标搜索方法 |
CN113628246B (zh) * | 2021-07-28 | 2024-04-12 | 西安理工大学 | 一种基于3d卷积模板更新的孪生网络目标跟踪方法 |
CN113628246A (zh) * | 2021-07-28 | 2021-11-09 | 西安理工大学 | 一种基于3d卷积模板更新的孪生网络目标跟踪方法 |
CN113870312B (zh) * | 2021-09-30 | 2023-09-22 | 四川大学 | 基于孪生网络的单目标跟踪方法 |
CN113870312A (zh) * | 2021-09-30 | 2021-12-31 | 四川大学 | 基于孪生网络的单目标跟踪方法 |
CN114240996A (zh) * | 2021-11-16 | 2022-03-25 | 灵译脑科技(上海)有限公司 | 一种基于目标运动预测的多目标追踪方法 |
CN114627154B (zh) * | 2022-03-18 | 2023-08-01 | 中国电子科技集团公司第十研究所 | 一种在频域部署的目标跟踪方法、电子设备及存储介质 |
CN114627154A (zh) * | 2022-03-18 | 2022-06-14 | 中国电子科技集团公司第十研究所 | 一种在频域部署的目标跟踪方法、电子设备及存储介质 |
CN114429491A (zh) * | 2022-04-07 | 2022-05-03 | 之江实验室 | 一种基于事件相机的脉冲神经网络目标跟踪方法和系统 |
CN114820709B (zh) * | 2022-05-05 | 2024-03-08 | 郑州大学 | 基于改进UNet网络的单目标跟踪方法、装置、设备及介质 |
CN114820709A (zh) * | 2022-05-05 | 2022-07-29 | 郑州大学 | 基于改进UNet网络的单目标跟踪方法、装置、设备及介质 |
CN115375737A (zh) * | 2022-10-25 | 2022-11-22 | 南昌工程学院 | 基于自适应时间与序列化时空特征的目标跟踪方法与系统 |
CN116030095A (zh) * | 2023-02-01 | 2023-04-28 | 西南石油大学 | 一种基于双分支孪生网络结构的视觉目标跟踪方法 |
CN116703980A (zh) * | 2023-08-04 | 2023-09-05 | 南昌工程学院 | 基于金字塔池化Transformer主干网络的目标跟踪方法与系统 |
CN116703980B (zh) * | 2023-08-04 | 2023-10-24 | 南昌工程学院 | 基于金字塔池化Transformer主干网络的目标跟踪方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112184752A (zh) | 一种基于金字塔卷积的视频目标跟踪方法 | |
Zhang et al. | SCSTCF: spatial-channel selection and temporal regularized correlation filters for visual tracking | |
CN108665481A (zh) | 多层深度特征融合的自适应抗遮挡红外目标跟踪方法 | |
CN110334762B (zh) | 一种基于四叉树结合orb和sift的特征匹配方法 | |
CN112750140A (zh) | 基于信息挖掘的伪装目标图像分割方法 | |
CN108846404B (zh) | 一种基于相关约束图排序的图像显著性检测方法及装置 | |
CN111625667A (zh) | 一种基于复杂背景图像的三维模型跨域检索方法及系统 | |
Wang et al. | GKFC-CNN: Modified Gaussian kernel fuzzy C-means and convolutional neural network for apple segmentation and recognition | |
CN112712546A (zh) | 一种基于孪生神经网络的目标跟踪方法 | |
CN108595558B (zh) | 一种数据均衡策略和多特征融合的图像标注方法 | |
CN108830170A (zh) | 一种基于分层特征表示的端到端目标跟踪方法 | |
CN112232134A (zh) | 一种基于沙漏网络结合注意力机制的人体姿态估计方法 | |
CN109146920A (zh) | 一种可嵌入式实现的目标跟踪方法 | |
CN114419732A (zh) | 基于注意力机制优化的HRNet人体姿态识别方法 | |
CN112785626A (zh) | 一种基于多尺度特征融合的孪生网络小目标跟踪方法 | |
Fu et al. | Robust multi-kernelized correlators for UAV tracking with adaptive context analysis and dynamic weighted filters | |
CN110135435B (zh) | 一种基于广度学习系统的显著性检测方法及装置 | |
CN114998890A (zh) | 一种基于图神经网络的三维点云目标检测算法 | |
CN114693923A (zh) | 一种基于上下文和注意力的三维点云语义分割方法 | |
Zhang | Sports action recognition based on particle swarm optimization neural networks | |
Elashry et al. | Feature matching enhancement using the graph neural network (gnn-ransac) | |
Firouznia et al. | Adaptive chaotic sampling particle filter to handle occlusion and fast motion in visual object tracking | |
Guangjing et al. | Research on static image recognition of sports based on machine learning | |
Xia et al. | Lazy texture selection based on active learning | |
CN114067240A (zh) | 一种融合行人特性的在线更新策略行人单目标跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |