CN111797716A - 一种基于Siamese网络的单目标跟踪方法 - Google Patents
一种基于Siamese网络的单目标跟踪方法 Download PDFInfo
- Publication number
- CN111797716A CN111797716A CN202010550201.4A CN202010550201A CN111797716A CN 111797716 A CN111797716 A CN 111797716A CN 202010550201 A CN202010550201 A CN 202010550201A CN 111797716 A CN111797716 A CN 111797716A
- Authority
- CN
- China
- Prior art keywords
- layer
- branch
- regression
- classification
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000001514 detection method Methods 0.000 claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 19
- 238000010586 diagram Methods 0.000 claims description 13
- 239000000126 substance Substances 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 6
- 230000008569 process Effects 0.000 abstract description 6
- 238000013528 artificial neural network Methods 0.000 abstract description 5
- 238000004364 calculation method Methods 0.000 abstract description 3
- 238000005457 optimization Methods 0.000 abstract description 3
- 238000003062 neural network model Methods 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000004873 anchoring Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000004660 morphological change Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/48—Matching video sequences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于Siamese网络的单目标跟踪方法,属于目标跟踪技术领域。本发明首先构建Siamese网络的神经网络部分并训练Siamese卷积神经网络权重,在训练过程中基于嵌入式损失函数的神经网络模型进行,同时将各层特征进行融合,并使用随机梯度下降算法进行损失优化,然后通过RPN得到分类与回归的结果,最后针对分类与回归的结果进行后续帧的跟踪。本发明能够更好的检测定位到跟踪目标,能够有效融合图像检测上的方法到目标跟踪上,使用图像帧的方式代替视频,减少了训练成本和计算开销。从而提升跟踪处理效率,并对相似物体区分上效果更为明显。
Description
技术领域
本发明属于目标跟踪技术领域,具体涉及一种基于Siamese网络预测技术的单目标跟踪技术。
背景技术
随着硬件、软件及人工智能多个领域的迅速发展,目标跟踪成为计算机视觉研究领域的热点之一,并得到广泛应用。相机的跟踪对焦、无人机的自动目标跟踪等都需要用到目标跟踪技术。另外还有特定物体的跟踪,比如人体跟踪,交通监控系统中的车辆跟踪,人脸跟踪和智能交互系统中的手势跟踪等。简单来说,目标跟踪就是在连续的视频序列中,建立所要跟踪物体的位置关系,得到物体完整的运动轨迹。给定图像第一帧的目标坐标位置,计算在下一帧图像中目标的确切位置。在运动的过程中,目标可能会呈现一些图像上的变化,比如姿态或形状的变化、尺度的变化、背景遮挡或光线亮度的变化等。目标跟踪算法的研究也围绕着解决这些变化和具体的应用展开。
目前的单目标跟踪技术主要有:
(1)经典目标跟踪方法:2010年以前,目标跟踪领域大部分采用经典的跟踪方法,比如Meanshift方法、基于特征点的光流跟踪算法等。Meanshift方法是一种基于概率密度分布的跟踪方法,使目标的搜索一直沿着概率梯度上升的方向,迭代收敛到概率密度分布的局部峰值上。基于特征点的光流跟踪算法,首先进行目标特征点提取,然后计算下一帧特征点的光流匹配点,最后统计以得到目标位置。
(2)基于相关滤波的跟踪算法:如:Particle Filter和Kalman Filter等,2012年P.Martins提出基于循环矩阵的核跟踪方法(Circulant Structure of Tracking-by-Detection with Kernels,CSK),从数学上完美解决了密集采样(Dense Sampling)的问题,利用傅立叶变换快速实现了检测的过程。在训练分类器时,一般认为离目标位置较近的是正样本,而离目标较远的认为是负样本。该框架采用密集采样,能够学习到一个区域内所有图像块的特征。而长效跟踪方法(Tracking-Learning-Detection,TLD)仅在每一帧中随机地挑选一些块进行训练,学习到的特征是这些随机子窗口的特征。
3)基于深度学习的跟踪方法:最近几年深度学习技术成功应用在计算机视觉的各个应用领域,跟踪也不例外。在大数据背景下,利用深度学习训练网络模型,得到的卷积特征输出表达能力更强。在目标跟踪上,初期的应用方式是把网络学习到的特征,直接应用到相关滤波或Struck的跟踪框架里面,从而得到更好的跟踪结果。本质上卷积输出得到的特征表达,更优于直方图特征或颜色属性特征,但也带来了计算量的增加。
此外,基于Siamese网络的深度学习成为了近几年的热门,比较流行的SiamRPN不仅在跟踪速度上相比于传统网络有所提高,跟踪精度也比之前的跟踪网络要高出很多。SiamRPN网络由Siamese网络和区域推荐网络(Region Proposal Network,RPN)两部分组成,前者用来提取特征,后者用来产生候选区域。其中,RPN子网络由两个分支组成,一个是用来区分目标和背景的分类分支,另外一个是微调候选区域的回归分支。整个网络实现了端到端的训练。但SiamRPN网络由于修改参数导致结果差异大,容错性较低。
目标跟踪主要是解决形态变化、尺度变化、遮挡与消失、图像模糊等相关问题,提取目标语义信息的精准度直接影响着跟踪效果。传统方法主要存在如下限制:
(1)缺乏必要的模板更新;
(2)跟踪过程中由于窗口宽度大小保持不变,当目标尺度有所变化时,跟踪就会失败;
(3)当目标速度较快时,跟踪效果不好;
(4)直方图特征在目标颜色特征描述方面略显匮乏,缺少空间信息。
发明内容
本发明的发明目的在于:针对上述存在的问题,提供一种基于Siamese网络的单目标跟踪方法。
本发明结合深层卷积神经网络(Deep Layer Convolutional Neural Network,DLCNN)与区域推荐网络实现目标语义特征提取以及目标的检测与回归。通过将数据输入到端到端训练网络后,并进行前景-背景分类和候选框回归操作得到训练权重,实现对单目标的精准追踪。
本发明的基于Siamese网络的单目标跟踪方法包括下列步骤:
步骤一、构建跟踪器模型的网络结构并进行网络参数的训练;
(1)构建跟踪器模型的网络结构:
所述跟踪器模型包括模板分支与搜索分支;
其中,模板分支包括特征提取网络、分类层和回归层;模板分支的特征提取网络的输出分别输入到其分类层和回归层;
搜索分支包括特征提取网络、分类层和回归层;搜索分支的特征提取网络的输出分别输入到其分类层和回归层;
模板分支的特征提取网络与搜索分支的特征提取网络的网络结构相同;
且搜索分支的分类层的输出与模板分支的分类层的输出的卷积结果作为跟踪器模型的分类输出;搜索分支的回归层的输出与模板分支的回归层的输出的卷积结果作为跟踪器模型的回归输出;
所述特征提取网络包括初始层、层Layer1~Layer4;
其中,初始层包括1个卷积层和1个池化层;
Layer1、Layer2和Layer4分别包括3个卷积层;Layer3包括6个卷积层;
并将Layer1、Layer2和Layer3的卷积输出与Layer2、Layer3和Layer4的卷积输出的上采样特征进行特征融合,从而得到特征提取网络的特征输出;
(2)跟踪器模型的网络参数训练:
设置训练数据,包括模板图像和检测图像;
将模板分支的分类层和回归层的输出分别记为特征图[φ(z)]cls和[φ(z)]reg;以及将搜索分支的分类层和回归层的输出分别记为特征图[φ(x)]cls和[φ(x)]reg;
其中,★表示卷积运算,w、h表示跟踪检测框的宽和高;
即,本发明的特征提取网络可以基于ResNet50的通用网络进行设置,通过调整ResNet50的参数提高网络性能,设置比RPN网络小10倍的ResNet50的学习速率,可以使特征表示更适合于跟踪任务。
步骤二、单目标跟踪处理:
将待跟踪的视频分割成图像帧,得到搜索图像帧序列;
将搜索图像帧序列的初始帧输入模板分支,并将模板分支的分类层、回归层的输出分别作为模板帧分类特征图、模板帧回归特征图;即将模板分支的分类层和回归层的输出作为权重,用于后续帧的跟踪检测;
并从搜索图像帧序列的第二帧开始,按序输入搜索分支;并基于搜索分支的分类层、回归层的输出分别作为检测帧分类特征图、检测帧回归特征图;
将检测帧分类特征图以模板分类特征图为卷积核进行卷积处理,得到当前帧的目标检测分类结果;以及将检测帧回归特征图以模板回归特征图为卷积核进行卷积处理,得到当前帧的目标检测的回归输出;从而基于各帧的目标检测信息得到搜索图像帧序列的目标跟踪结果。
综上所述,由于采用了上述技术方案,本发明的有益效果是:能够更好的检测定位到跟踪目标,能够有效融合图像检测上的方法到目标跟踪上,使用图像帧的方式代替视频,减少了训练成本和计算开销。从而提升跟踪处理效率,并对相似物体区分上效果更为明显。
附图说明
图1为做数据增强后的处理结果示意图;
图2为本具体实施方式中,构建的Siamese网络模型;
图3为采用特征金字塔的网络模型;
图4为COCO数据集展示;
图5为OTB2015实验结果。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述。
本发明的基于Siamese网络的单目标跟踪方法,首先构建Siamese网络的神经网络部分并训练Siamese卷积神经网络权重,在训练过程中基于嵌入式损失函数的神经网络模型进行,同时将各层特征进行融合,并使用随机梯度下降算法(Stochastic gradientdescent,SGD)进行损失优化,然后通过RPN得到分类与回归的结果,最后针对分类与回归的结果进行后续帧的跟踪。具体由以下步骤构成:
步骤1.数据集获取及预处理。
选取训练数据集(训练的图像数据集),并对训练数据集中的各图像数据进行尺寸归一化处理及图像增强处理。
本具体实施方式中,选取当前目标跟踪领域中最常用的数据集ILVSRC2015以及目标检测中常用的COCO(Common Objects in Context)数据集作为网络的训练数据集。
其中,尺寸归一化和图像增强处理具体为:
S1.1.根据模板图像第一帧的真实值得到目标的矩形框(xmin,ymin,w,h),其中,xmin,ymin表示矩形框的左下角顶点位置坐标,w,h分别表示矩形框的宽和高;并根据公式 生成模板图像大小,其中,A表示预置的图像大小,本具体实施方式中设置为1272,p表示填充值,是对图像的一种变换,即图像尺寸变换函数。将包含上下文信息的图片扩展,然后调整大小,生成127×127的模板图像。
S1.2.当模板图像和搜索图像不够裁剪时(即模板图像、搜索图像小于预置的裁剪尺寸时),将不足的像素按照RGB通道的均值进行填充,并生成多种大小的图像,如图1所示,其中Z行对应模板图像,X行对应搜索图像。
步骤2.搭建Siamese卷积神经网络模型,如图2所示。
S2.1.使用图像分类领域的深度残差网络ResNet50的通用网络作为构建Siamese卷积神经网络的骨架。
参见图2,Siamese的卷积神经网络包括两路结构相同的Siamese子网络(Siamese特征提取子网络),即Siamese子网络的模板分支与搜索分支;其中模板分支用于输入模板图像,例如127×127×3的模板图像,其中,127×127为模板图像大小,3为图像的颜色通道;而搜索分支用于输入搜索图像,例如图2中所示的256×256×3的搜索图像。
本发明的Siamese子网络包括:初始层,以及第1~第4层,记为Layer1~Layer4;
其中,初始层包括1个卷积层和1个池化层,记为conv1和pool1;
Layer1、Layer2和Layer5分别包括3个卷积层,分别记为conv2_1~conv2_3,conv3_1~conv3_3,conv5_1~conv5_3;并分别将Layer1、Layer2和Layer5的3个卷积层称为卷积块conv2、conv3和conv5;
Layer3包括6个卷积层,记为conv4_1~conv4_6,并将Layer3的6个卷积层称为卷积块conv4。
S2.2.通过修改Siamese卷积神经网络中Layer3的卷积块conv4和Layer4的卷积块conv5,获得单位空间步长(即将conv4和conv5的步长修改为1);从而将最后两个卷积块的有效步幅从16个像素和32个像素减少到8个像素,从而通过扩大卷积增加其感受野范围。
S2.3.分别将模板分支和搜索分支中Layerl、Layer2、Layer3的卷积块conv2、3、4的输出与Layer2、Layer3、Layer4中的conv3、4、5的上采样的特征进行特征融合,从而得到两个分支的最终的特征输出;即conv2的输出与conv3的上采样的特征进行特征融合、conv3的输出与conv4的上采样的特征进行特征融合、conv4的输出与conv5的上采样的特征进行特征融合;
在特征融合处理中,首先将conv2、3、4的输出通过卷积核为1*1的卷积层,从而将通道减少到256,如图3所示。
S2.4.通过调整ResNet50的参数提高网络性能,设置比RPN网络小10倍的ResNet50的学习速率,可以使特征表示更适合于跟踪任务。
步骤3.为了更好的区分相似物体,本发明提出了一个基于嵌入式损失函数,将Siamese子网输出的模版分支z与搜索分支x进行互相关操作得到一个得分,用s(p,x)表示,即定义p表示目标的模板分支
由于在搜索分支中会有除跟踪目标以外的其他物体,因而通过在搜索分支上生成m个锚箱(anchor)对其他目标进行框定。即在搜索分支中跟踪目标周围生成m个与物体相同大小的anchor(即跟踪目标所在的矩形框的近邻矩形检测框),计算所有anchor区域与搜索区域的得分,记为其中,di表示不同的anchor区域,则表示锚箱对应的图像特征信息;并将输出特征送入用于二进制分类的Softmax函数,其确定跟踪目标与周围物体的分类,公式如下:
其中,σinst(·)用于比较跟踪目标与所有产生anchor对象的正分数。对于批次为N的所有数据中,提出了如下判别实例嵌入的损失:
从而实现跟踪目标的独特特征嵌入,并能够有效区分可能出现在跟踪目标周围的类似对象。
步骤4.利用步骤3中的损失函数,使用随机梯度下降算法(Stochastic gradientdescent,SGD)作为优化器来对网络进行端到端训练,并在训练回归分支时采用数据增强,包括放射变换,并且设置在一个训练对中最多有16个负样本和总共有64个样本。
步骤5.在构建完Siamese卷积神经网络骨架后,采用深度互相关RPN来获取分类和回归两个通道,对于k个锚点,网络需要输出2k个通道进行分类,4k个通道进行回归。具体过程如下:
S5.1.通过将搜索区域z中的通道增加到两个分支[φ(z)]cls和[φ(z)]reg,与模版图像x增加的两个分支[φ(x)]cls和[φ(x)]reg对应做卷积运算:
其中,回归分数即每个样本的位置回归值,即检测框的位置回归值,包括中心点位置坐标以及检测框的宽和高。
S5.2.对于分类损失函数,采用交叉熵损失函数用{Ax,Ay,Aw,Ah}表示锚箱的中心点和形状,即(Ax,Ay)表示中心点位置,Aw,Ah分别表示锚箱的宽和高,通过归一化得到{δ[0],δ[1],δ[2],δ[3]},其中{Tx,Ty,Tw,Th}为真实值的中心点和形状。
S5.3.使用多个锚点训练网络时,采用平滑的L1损失和回归的归一化坐标,由如下所示:
其中,σ表示超参数。
优化损失函数为:
一次性学习目的是在从感兴趣的类的单个模板z中学习W,歧视性一次性学习是为了找到一种机制,将类别信息纳入学习,即学习如何学习。为了解决该问题,本具体实施方式中采用一种使用元学习过程从单个模板z学习预测器(跟踪器)的参数W的方法,即将(z;W′)映射到W的前馈函数ω。定义zi表示模板帧,即模板样本,上述表达式可以转换为:
步骤7.设置跟踪器模型并进行单目标跟踪处理。
跟踪器模型的网络结构包括模板分支与搜索分支,其中,模板分支包括特征提取网络、分类层和回归层;模板分支的特征提取网络的输出分别输入到其分类层和回归层;搜索分支包括特征提取网络、分类层和回归层;搜索分支征提取网络的输出分别输入到其分类层和回归层;且搜索分支的分类层的输出与模板分支的分类层的输出的卷积结果作为跟踪器模型的分类输出;搜索分支的回归层的输出与模板分支的回归层的输出的卷积结果作为跟踪器模型的回归输出。
将需要跟踪的视频分割成每一帧的图像集,将步骤4中训练的权重传入跟踪器模型中,得到模板分支、搜索分支的特征提取网络的权重,即网络参数;
将模板分支的输出(分类层和回归层的输出)作为权重,用于后续帧的跟踪,即将第一帧(初始帧)图像信息输入到模板分支,将模板分支的分类层、回归层的输出分别作为模板帧分类特征图、模板帧回归特征图;搜索分支将当前输入的检测帧所获取的搜索分支的分类层、回归层的输出分别作为检测帧分类特征图、检测帧回归特征图;
检测帧分类特征图用模板分类特征图作为卷积核进行卷积处理,得到对应的分类结果;检测帧回归特征图用模板回归特征图作为卷积核进行卷积处理,得到对应的回归输出。
即模板分支中产生的两个内核都在初始帧上预先计算出来,并在整个跟踪期间固定,然后在检测帧中以前向传播获取分类和回归输出,并且产生多个候选框,同时使用正弦窗口和比例变化惩罚来重新排列候选框的得分来获得最佳得分。在丢失异常值后,添加余弦窗口抑制较大位移,并增加时间惩罚项(penalty)来控制大小和比例变化:
其中k为超参数,x表示候选框的高度和宽度比例,x′表示最后一帧的比率。s和s′代表候选框和最后一帧的总体规模,计算如下:
其中,w和h代表目标的宽度和高度,p为填充,是(w+h)/2。在此之后,将分类得分乘以时间惩罚(penalty),对前k个候选框进行重新排序,之后进行非极大抑制(Non-MaximumSuppression,NMS)以获得最终跟踪边界框。选择最终边界框后,通过线性插值更新目标尺寸来保持平滑变化。
实施例
COCO数据集为640×480的RGB图像,从该数据集中随机筛选了100幅图像作为训练数据,所筛选的图像数据如图4所示;然后将筛选的图像裁剪为511×511后送入训练网络。
在COCO数据集上实验,以改进的ResNet50为骨架网络进行训练,设置不同的参数和网络结构。用0TB2015作为评估数据集,具体的实验结果如图5所示,其中,Tracnker name表示训练的不同批次的模型参数权重,Success表示跟踪的成功率,Prectision表示跟踪的准确度。
本实施例中,将Siamese特征提取子网络在ImageNet上预先训练后,在COCO数据集的训练集上训练网络,训练集大小超过20GB。在训练和测试中,使用具有127像素的单比例图像表示模板,255像素用于搜索区域。在使用Imagenet预先训练Siamese特征提取子网络后,使用随机梯度下降算法(SGD)端到端训练网络。
通过注意两个相邻帧中的相同对象不会发生太大变化,在跟踪任务中选择的锚点少于检测任务。因此,只采用不同比例锚的一个尺度,并采用锚固比为[0.33,0.5,1,2,3]。
选择正负训练样本的策略在本发明提出的网络框架中很重要。本实施例中采用对象检测任务中使用的标准,使用交并比IoU和两个阈值thhi和thlo作为度量。正样本定义为具有IoU>thhi及其相应的基本事实的锚。负数被定义为满足IoU<th1o的锚。将thlo设置为0.3,将thhi设置为0.6。并且设置了一个训练对中最多16个负样本和总共64个样本。
基于图5所给出的跟踪实验结果可以得出,本发明提出的单目标跟踪方法具有良好的实现效果,本发明通过顶层编码更多的语义特征并用作类别检测器,而较低层包含更多的判别信息,并且可以更好地将目标与具有相似外观的干扰项分开,从而使网络更具有鲁棒性,达到更好的性能。
本发明相比于现有的Siamese跟踪器在跟踪精度上提高了9%,且速度有一定提高,在相似物体区分上效果更为明显。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。
Claims (3)
1.基于Siamese网络的单目标跟踪方法,其特征在于,包括下列步骤:
步骤一、构建跟踪器模型的网络结构并进行网络参数的训练;
(1)构建跟踪器模型的网络结构:
所述跟踪器模型包括模板分支与搜索分支;
其中,模板分支包括特征提取网络、分类层和回归层;模板分支的特征提取网络的输出分别输入到其分类层和回归层;
搜索分支包括特征提取网络、分类层和回归层;搜索分支的特征提取网络的输出分别输入到其分类层和回归层;
模板分支的特征提取网络与搜索分支的特征提取网络的网络结构相同;
且搜索分支的分类层的输出与模板分支的分类层的输出的卷积结果作为跟踪器模型的分类输出;搜索分支的回归层的输出与模板分支的回归层的输出的卷积结果作为跟踪器模型的回归输出;
所述特征提取网络包括初始层、层Layer1~Layer4;
其中,初始层包括1个卷积层和1个池化层;
Layer1、Layer2和Layer4分别包括3个卷积层;Layer3包括6个卷积层;
并将Layer1、Layer2和Layer3的卷积输出与Layer2、Layer3和Layer4的卷积输出的上采样特征进行特征融合,从而得到特征提取网络的特征输出;
(2)跟踪器模型的网络参数训练:
设置训练数据,包括模板图像和检测图像;
将模板分支的分类层和回归层的输出分别记为特征图[φ(z)]cls和[φ(z)]reg;以及将搜索分支的分类层和回归层的输出分别记为特征图[φ(x)]cls和[φ(x)]reg;
其中,★表示卷积运算,w、h表示跟踪检测框的宽和高;
步骤二、单目标跟踪处理:
将待跟踪的视频分割成图像帧,得到搜索图像帧序列;
将搜索图像帧序列的初始帧输入模板分支,并将模板分支的分类层、回归层的输出分别作为模板帧分类特征图、模板帧回归特征图;即将模板分支的分类层和回归层的输出作为权重,用于后续帧的跟踪检测;
并从搜索图像帧序列的第二帧开始,按序输入搜索分支;并基于搜索分支的分类层、回归层的输出分别作为检测帧分类特征图、检测帧回归特征图;
将检测帧分类特征图以模板分类特征图为卷积核进行卷积处理,得到当前帧的目标检测分类结果;以及将检测帧回归特征图以模板回归特征图为卷积核进行卷积处理,得到当前帧的目标检测的回归输出;从而基于各帧的目标检测信息得到搜索图像帧序列的目标跟踪结果。
2.如权利要求1所述的方法,其特征在于,分类损失函数采用交叉熵损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010550201.4A CN111797716B (zh) | 2020-06-16 | 2020-06-16 | 一种基于Siamese网络的单目标跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010550201.4A CN111797716B (zh) | 2020-06-16 | 2020-06-16 | 一种基于Siamese网络的单目标跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111797716A true CN111797716A (zh) | 2020-10-20 |
CN111797716B CN111797716B (zh) | 2022-05-03 |
Family
ID=72803078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010550201.4A Expired - Fee Related CN111797716B (zh) | 2020-06-16 | 2020-06-16 | 一种基于Siamese网络的单目标跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111797716B (zh) |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270696A (zh) * | 2020-11-05 | 2021-01-26 | 南京邮电大学 | 一种基于融合元分类器的判别性目标跟踪方法 |
CN112270286A (zh) * | 2020-11-09 | 2021-01-26 | 北京机电工程研究所 | 一种抗阴影干扰的单色视频目标跟踪方法 |
CN112489081A (zh) * | 2020-11-30 | 2021-03-12 | 北京航空航天大学 | 一种视觉目标跟踪方法及装置 |
CN112472136A (zh) * | 2020-12-09 | 2021-03-12 | 南京航空航天大学 | 一种基于孪生神经网络的协同分析方法 |
CN112488061A (zh) * | 2020-12-18 | 2021-03-12 | 电子科技大学 | 一种联合ads-b信息的多航空器检测与跟踪方法 |
CN112509008A (zh) * | 2020-12-15 | 2021-03-16 | 重庆邮电大学 | 一种基于交并比引导孪生网络的目标跟踪方法 |
CN112700476A (zh) * | 2021-01-08 | 2021-04-23 | 北京工业大学 | 一种基于卷积神经网络的红外船视频跟踪方法 |
CN112766102A (zh) * | 2021-01-07 | 2021-05-07 | 武汉大学 | 一种基于空谱特征融合的无监督高光谱视频目标跟踪方法 |
CN112862860A (zh) * | 2021-02-07 | 2021-05-28 | 天津大学 | 一种用于多模态目标跟踪的对象感知图像融合方法 |
CN112861652A (zh) * | 2021-01-20 | 2021-05-28 | 中国科学院自动化研究所 | 基于卷积神经网络的视频目标跟踪与分割方法及系统 |
CN112884037A (zh) * | 2021-02-09 | 2021-06-01 | 中国科学院光电技术研究所 | 一种基于模板更新和无锚框方式的目标跟踪方法 |
CN113344932A (zh) * | 2021-06-01 | 2021-09-03 | 电子科技大学 | 一种半监督的单目标视频分割方法 |
CN113362372A (zh) * | 2021-05-25 | 2021-09-07 | 同济大学 | 一种单目标追踪方法及计算机可读介质 |
CN113436227A (zh) * | 2021-06-07 | 2021-09-24 | 南京航空航天大学 | 一种基于倒残差的孪生网络目标跟踪方法 |
CN113592899A (zh) * | 2021-05-28 | 2021-11-02 | 北京理工大学重庆创新中心 | 一种相关滤波目标跟踪深度特征的提取方法 |
CN113610016A (zh) * | 2021-08-11 | 2021-11-05 | 人民中科(济南)智能技术有限公司 | 视频帧特征提取模型的训练方法、系统、设备及存储介质 |
CN113628245A (zh) * | 2021-07-12 | 2021-11-09 | 中国科学院自动化研究所 | 多目标跟踪方法、装置、电子设备和存储介质 |
CN113763417A (zh) * | 2020-12-10 | 2021-12-07 | 四川大学 | 一种基于孪生网络和残差结构的目标跟踪方法 |
CN113808166A (zh) * | 2021-09-15 | 2021-12-17 | 西安电子科技大学 | 基于聚类差分和深度孪生卷积神经网络的单目标跟踪方法 |
CN113807188A (zh) * | 2021-08-20 | 2021-12-17 | 北京工业大学 | 基于锚框匹配和Siamese网络的无人机目标跟踪方法 |
CN113962281A (zh) * | 2021-08-20 | 2022-01-21 | 北京工业大学 | 基于Siamese-RFB的无人机目标跟踪方法 |
CN114155273A (zh) * | 2021-10-20 | 2022-03-08 | 浙江大立科技股份有限公司 | 一种结合历史轨迹信息的视频图像单目标跟踪方法 |
CN114240994A (zh) * | 2021-11-04 | 2022-03-25 | 北京工业大学 | 目标跟踪方法、装置、电子设备及存储介质 |
CN114332151A (zh) * | 2021-11-05 | 2022-04-12 | 电子科技大学 | 一种基于阴影Video-SAR中感兴趣目标跟踪方法 |
CN114359689A (zh) * | 2021-12-08 | 2022-04-15 | 华中光电技术研究所(中国船舶重工集团公司第七一七研究所) | 一种动态目标的检测与跟踪方法 |
CN114359336A (zh) * | 2021-11-30 | 2022-04-15 | 南昌航空大学 | 基于光流和动态级联rpn的目标跟踪算法 |
CN114926498A (zh) * | 2022-04-26 | 2022-08-19 | 电子科技大学 | 一种基于时空约束与可学习特征匹配的快速目标跟踪方法 |
CN115984332A (zh) * | 2023-02-14 | 2023-04-18 | 北京卓翼智能科技有限公司 | 一种无人机跟踪方法、装置、电子设备及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180129934A1 (en) * | 2016-11-07 | 2018-05-10 | Qualcomm Incorporated | Enhanced siamese trackers |
CN108846358A (zh) * | 2018-06-13 | 2018-11-20 | 浙江工业大学 | 一种基于孪生网络进行特征融合的目标跟踪方法 |
CN109191491A (zh) * | 2018-08-03 | 2019-01-11 | 华中科技大学 | 基于多层特征融合的全卷积孪生网络的目标跟踪方法及系统 |
CN110335290A (zh) * | 2019-06-04 | 2019-10-15 | 大连理工大学 | 基于注意力机制的孪生候选区域生成网络目标跟踪方法 |
CN110544269A (zh) * | 2019-08-06 | 2019-12-06 | 西安电子科技大学 | 基于特征金字塔的孪生网络红外目标跟踪方法 |
US20200026954A1 (en) * | 2019-09-27 | 2020-01-23 | Intel Corporation | Video tracking with deep siamese networks and bayesian optimization |
CN110766724A (zh) * | 2019-10-31 | 2020-02-07 | 北京市商汤科技开发有限公司 | 目标跟踪网络训练、跟踪方法及装置、电子设备及介质 |
CN110796679A (zh) * | 2019-10-30 | 2020-02-14 | 电子科技大学 | 一种面向航拍影像的目标跟踪方法 |
CN110942471A (zh) * | 2019-10-30 | 2020-03-31 | 电子科技大学 | 一种基于时空约束的长时目标跟踪方法 |
CN111161311A (zh) * | 2019-12-09 | 2020-05-15 | 中车工业研究院有限公司 | 一种基于深度学习的视觉多目标跟踪方法及装置 |
CN111179307A (zh) * | 2019-12-16 | 2020-05-19 | 浙江工业大学 | 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法 |
-
2020
- 2020-06-16 CN CN202010550201.4A patent/CN111797716B/zh not_active Expired - Fee Related
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180129934A1 (en) * | 2016-11-07 | 2018-05-10 | Qualcomm Incorporated | Enhanced siamese trackers |
CN108846358A (zh) * | 2018-06-13 | 2018-11-20 | 浙江工业大学 | 一种基于孪生网络进行特征融合的目标跟踪方法 |
CN109191491A (zh) * | 2018-08-03 | 2019-01-11 | 华中科技大学 | 基于多层特征融合的全卷积孪生网络的目标跟踪方法及系统 |
CN110335290A (zh) * | 2019-06-04 | 2019-10-15 | 大连理工大学 | 基于注意力机制的孪生候选区域生成网络目标跟踪方法 |
CN110544269A (zh) * | 2019-08-06 | 2019-12-06 | 西安电子科技大学 | 基于特征金字塔的孪生网络红外目标跟踪方法 |
US20200026954A1 (en) * | 2019-09-27 | 2020-01-23 | Intel Corporation | Video tracking with deep siamese networks and bayesian optimization |
CN110796679A (zh) * | 2019-10-30 | 2020-02-14 | 电子科技大学 | 一种面向航拍影像的目标跟踪方法 |
CN110942471A (zh) * | 2019-10-30 | 2020-03-31 | 电子科技大学 | 一种基于时空约束的长时目标跟踪方法 |
CN110766724A (zh) * | 2019-10-31 | 2020-02-07 | 北京市商汤科技开发有限公司 | 目标跟踪网络训练、跟踪方法及装置、电子设备及介质 |
CN111161311A (zh) * | 2019-12-09 | 2020-05-15 | 中车工业研究院有限公司 | 一种基于深度学习的视觉多目标跟踪方法及装置 |
CN111179307A (zh) * | 2019-12-16 | 2020-05-19 | 浙江工业大学 | 一种全卷积分类及回归孪生网络结构的视觉目标跟踪方法 |
Non-Patent Citations (2)
Title |
---|
WANG QIANG ET AL: "Learning Attentions: Residual Attentional Siamese Network for High Performance Online Visual Tracking", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
侯志强等: "基于双模板Siamese网络的鲁棒视觉跟踪算法", 《电子与信息学报》 * |
Cited By (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270696B (zh) * | 2020-11-05 | 2022-09-06 | 南京邮电大学 | 一种基于融合元分类器的判别性目标跟踪方法 |
CN112270696A (zh) * | 2020-11-05 | 2021-01-26 | 南京邮电大学 | 一种基于融合元分类器的判别性目标跟踪方法 |
CN112270286A (zh) * | 2020-11-09 | 2021-01-26 | 北京机电工程研究所 | 一种抗阴影干扰的单色视频目标跟踪方法 |
CN112270286B (zh) * | 2020-11-09 | 2024-05-10 | 北京机电工程研究所 | 一种抗阴影干扰的单色视频目标跟踪方法 |
CN112489081A (zh) * | 2020-11-30 | 2021-03-12 | 北京航空航天大学 | 一种视觉目标跟踪方法及装置 |
CN112472136A (zh) * | 2020-12-09 | 2021-03-12 | 南京航空航天大学 | 一种基于孪生神经网络的协同分析方法 |
CN112472136B (zh) * | 2020-12-09 | 2022-06-17 | 南京航空航天大学 | 一种基于孪生神经网络的协同分析方法 |
CN113763417A (zh) * | 2020-12-10 | 2021-12-07 | 四川大学 | 一种基于孪生网络和残差结构的目标跟踪方法 |
CN113763417B (zh) * | 2020-12-10 | 2023-07-21 | 四川大学 | 一种基于孪生网络和残差结构的目标跟踪方法 |
CN112509008B (zh) * | 2020-12-15 | 2022-05-03 | 重庆邮电大学 | 一种基于交并比引导孪生网络的目标跟踪方法 |
CN112509008A (zh) * | 2020-12-15 | 2021-03-16 | 重庆邮电大学 | 一种基于交并比引导孪生网络的目标跟踪方法 |
CN112488061A (zh) * | 2020-12-18 | 2021-03-12 | 电子科技大学 | 一种联合ads-b信息的多航空器检测与跟踪方法 |
CN112766102B (zh) * | 2021-01-07 | 2024-04-26 | 武汉大学 | 一种基于空谱特征融合的无监督高光谱视频目标跟踪方法 |
CN112766102A (zh) * | 2021-01-07 | 2021-05-07 | 武汉大学 | 一种基于空谱特征融合的无监督高光谱视频目标跟踪方法 |
CN112700476A (zh) * | 2021-01-08 | 2021-04-23 | 北京工业大学 | 一种基于卷积神经网络的红外船视频跟踪方法 |
CN112861652A (zh) * | 2021-01-20 | 2021-05-28 | 中国科学院自动化研究所 | 基于卷积神经网络的视频目标跟踪与分割方法及系统 |
CN112861652B (zh) * | 2021-01-20 | 2023-04-28 | 中国科学院自动化研究所 | 基于卷积神经网络的视频目标跟踪与分割方法及系统 |
CN112862860B (zh) * | 2021-02-07 | 2023-08-01 | 天津大学 | 一种用于多模态目标跟踪的对象感知图像融合方法 |
CN112862860A (zh) * | 2021-02-07 | 2021-05-28 | 天津大学 | 一种用于多模态目标跟踪的对象感知图像融合方法 |
CN112884037A (zh) * | 2021-02-09 | 2021-06-01 | 中国科学院光电技术研究所 | 一种基于模板更新和无锚框方式的目标跟踪方法 |
CN112884037B (zh) * | 2021-02-09 | 2022-10-21 | 中国科学院光电技术研究所 | 一种基于模板更新和无锚框方式的目标跟踪方法 |
CN113362372A (zh) * | 2021-05-25 | 2021-09-07 | 同济大学 | 一种单目标追踪方法及计算机可读介质 |
CN113592899A (zh) * | 2021-05-28 | 2021-11-02 | 北京理工大学重庆创新中心 | 一种相关滤波目标跟踪深度特征的提取方法 |
CN113344932B (zh) * | 2021-06-01 | 2022-05-03 | 电子科技大学 | 一种半监督的单目标视频分割方法 |
CN113344932A (zh) * | 2021-06-01 | 2021-09-03 | 电子科技大学 | 一种半监督的单目标视频分割方法 |
CN113436227A (zh) * | 2021-06-07 | 2021-09-24 | 南京航空航天大学 | 一种基于倒残差的孪生网络目标跟踪方法 |
CN113628245A (zh) * | 2021-07-12 | 2021-11-09 | 中国科学院自动化研究所 | 多目标跟踪方法、装置、电子设备和存储介质 |
CN113628245B (zh) * | 2021-07-12 | 2023-10-31 | 中国科学院自动化研究所 | 多目标跟踪方法、装置、电子设备和存储介质 |
CN113610016B (zh) * | 2021-08-11 | 2024-04-23 | 人民中科(济南)智能技术有限公司 | 视频帧特征提取模型的训练方法、系统、设备及存储介质 |
CN113610016A (zh) * | 2021-08-11 | 2021-11-05 | 人民中科(济南)智能技术有限公司 | 视频帧特征提取模型的训练方法、系统、设备及存储介质 |
CN113962281A (zh) * | 2021-08-20 | 2022-01-21 | 北京工业大学 | 基于Siamese-RFB的无人机目标跟踪方法 |
CN113807188A (zh) * | 2021-08-20 | 2021-12-17 | 北京工业大学 | 基于锚框匹配和Siamese网络的无人机目标跟踪方法 |
CN113807188B (zh) * | 2021-08-20 | 2024-04-09 | 北京工业大学 | 基于锚框匹配和Siamese网络的无人机目标跟踪方法 |
CN113808166A (zh) * | 2021-09-15 | 2021-12-17 | 西安电子科技大学 | 基于聚类差分和深度孪生卷积神经网络的单目标跟踪方法 |
CN114155273B (zh) * | 2021-10-20 | 2024-06-04 | 浙江大立科技股份有限公司 | 一种结合历史轨迹信息的视频图像单目标跟踪方法 |
CN114155273A (zh) * | 2021-10-20 | 2022-03-08 | 浙江大立科技股份有限公司 | 一种结合历史轨迹信息的视频图像单目标跟踪方法 |
CN114240994A (zh) * | 2021-11-04 | 2022-03-25 | 北京工业大学 | 目标跟踪方法、装置、电子设备及存储介质 |
CN114332151B (zh) * | 2021-11-05 | 2023-04-07 | 电子科技大学 | 一种基于阴影Video-SAR中感兴趣目标跟踪方法 |
CN114332151A (zh) * | 2021-11-05 | 2022-04-12 | 电子科技大学 | 一种基于阴影Video-SAR中感兴趣目标跟踪方法 |
CN114359336A (zh) * | 2021-11-30 | 2022-04-15 | 南昌航空大学 | 基于光流和动态级联rpn的目标跟踪算法 |
CN114359689A (zh) * | 2021-12-08 | 2022-04-15 | 华中光电技术研究所(中国船舶重工集团公司第七一七研究所) | 一种动态目标的检测与跟踪方法 |
CN114926498A (zh) * | 2022-04-26 | 2022-08-19 | 电子科技大学 | 一种基于时空约束与可学习特征匹配的快速目标跟踪方法 |
CN115984332A (zh) * | 2023-02-14 | 2023-04-18 | 北京卓翼智能科技有限公司 | 一种无人机跟踪方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111797716B (zh) | 2022-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111797716B (zh) | 一种基于Siamese网络的单目标跟踪方法 | |
CN110675418B (zh) | 一种基于ds证据理论的目标轨迹优化方法 | |
CN109800689B (zh) | 一种基于时空特征融合学习的目标跟踪方法 | |
CN110956094B (zh) | 一种基于非对称双流网络的rgb-d多模态融合人员检测方法 | |
CN110929578B (zh) | 一种基于注意力机制的抗遮挡行人检测方法 | |
CN113506317B (zh) | 一种基于Mask R-CNN和表观特征融合的多目标跟踪方法 | |
CN110689562A (zh) | 一种基于生成对抗网络的轨迹回环检测优化方法 | |
CN111723693B (zh) | 一种基于小样本学习的人群计数方法 | |
CN111476817A (zh) | 一种基于yolov3的多目标行人检测跟踪方法 | |
CN105160310A (zh) | 基于3d卷积神经网络的人体行为识别方法 | |
Geng et al. | Using deep learning in infrared images to enable human gesture recognition for autonomous vehicles | |
CN109543632A (zh) | 一种基于浅层特征融合引导的深层网络行人检测方法 | |
CN113160062B (zh) | 一种红外图像目标检测方法、装置、设备及存储介质 | |
WO2019136591A1 (zh) | 基于弱监督时空级联神经网络的显著目标检测方法及系统 | |
CN113592911B (zh) | 表观增强深度目标跟踪方法 | |
CN112884742A (zh) | 一种基于多算法融合的多目标实时检测、识别及跟踪方法 | |
CN105160649A (zh) | 基于核函数非监督聚类的多目标跟踪方法及系统 | |
CN113762009B (zh) | 一种基于多尺度特征融合及双注意力机制的人群计数方法 | |
CN110334656A (zh) | 基于信源概率加权的多源遥感图像水体提取方法及装置 | |
CN113139602A (zh) | 基于单目相机和激光雷达融合的3d目标检测方法及系统 | |
CN113408584A (zh) | Rgb-d多模态特征融合3d目标检测方法 | |
CN114387195A (zh) | 一种基于非全局预增强的红外图像与可见光图像融合方法 | |
Sun et al. | IRDCLNet: Instance segmentation of ship images based on interference reduction and dynamic contour learning in foggy scenes | |
Duan | [Retracted] Deep Learning‐Based Multitarget Motion Shadow Rejection and Accurate Tracking for Sports Video | |
CN113763417A (zh) | 一种基于孪生网络和残差结构的目标跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220503 |