CN115115667A - 一种基于目标变换回归网络的精确目标跟踪方法 - Google Patents

一种基于目标变换回归网络的精确目标跟踪方法 Download PDF

Info

Publication number
CN115115667A
CN115115667A CN202110289022.4A CN202110289022A CN115115667A CN 115115667 A CN115115667 A CN 115115667A CN 202110289022 A CN202110289022 A CN 202110289022A CN 115115667 A CN115115667 A CN 115115667A
Authority
CN
China
Prior art keywords
frame
regression
layer
target
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110289022.4A
Other languages
English (en)
Inventor
王利民
崔玉涛
蒋承
武港山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202110289022.4A priority Critical patent/CN115115667A/zh
Publication of CN115115667A publication Critical patent/CN115115667A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

一种基于目标变换回归网络的精确目标跟踪方法,包括以下步骤:1)生成训练样例阶段;2)网络的配置阶段;3)离线训练阶段;4)在线跟踪阶段。本发明设计的目标变换回归网络,将待测视频第一帧的目标信息融入待跟踪视频帧的回归分支中,并且在目标框回归中引入了在线更新的机制,实现目标跟踪。相比现有的无锚框跟踪方法,本发明的跟踪方法能对跟踪过程中的物体变形有更好的适应能力,有效地提升目标回归的精度。

Description

一种基于目标变换回归网络的精确目标跟踪方法
技术领域
本发明属于计算机视觉技术领域,涉及单目标跟踪技术,具体为一种基于目标变换回归网络的精确目标跟踪方法。
背景技术
作为计算机视觉中的基本任务,视觉物体跟踪旨在为视频中的一个任意一般物体估计它在每一帧中出现的空间位置并标出物体边框。大体上,目前的视觉物体跟踪可以被分为物体分类和边框回归两个子任务。
为了构建一个精确的跟踪器,边框回归的设计是至关重要的。当前的跟踪方法按照回归分支来进行分类的话主要可以分为两种:简洁的预测和直接回归。对于前一类,早前的相关滤波方法和孪生网络方法例如SiamFC等主要采用了多尺度预测的方法来粗略的估计目标的尺度。接下来,ATOM方法提出了一个特别设计的IoU预测网络来挑选出多个预选框中得分最高的并且进行微调,从而得到比较精确的框。对于第二类直接回归的方法,一系列Siamese方法例如SiamRPN、SiamRPN++等采用了一种基于锚框的RPN(Region ProposalNet)网络来直接回归预设的锚框。另外,近期的一些无锚框跟踪器通过一个简单的网络直接预测每个点的目标大小。无锚框跟踪器不仅简单直接,而且取得了不错的跟踪效果,因此逐渐称为目前比较流行的一种方法。然而,当前的这些无锚框方法例如SiamFC++、Ocean等依然不够精确,这是由于待跟踪的目标在后续帧中可能会发生形变等。
发明内容
本发明要解决的问题是:在视频目标跟踪中,存在如何将视频第一帧中给定的目标信息整合到回归分支中,并保持其精确的边界信息并且及时地处理形变问题。现有跟踪器的回归分支用来承担回归出目标精确的边界框的任务,目前的一些无锚框的回归方法主要采用了逐通道的相关性表达来融合第一帧的目标特征信息,或者基于第一帧目标特征指导的注意力模块来调制回归分支的表达,尽管这些方法将第一帧的目标信息引入了回归分支,然而却没有保留足够充分的目标信息用于精确回归,也缺少了处理目标形变的机制。因此,本发明的设计目标就是将第一帧信息引入回归分支来指导目标框的回归,并且要保留充分的目标信息和处理目标形变的机制用于精确回归。
本发明的技术方案为:一种基于目标变换回归网络的精确目标跟踪方法,构建目标变换回归网络,包括分类分支和回归分支,训练网络时,分别提取训练帧和测试帧的分类特征和回归特征,由分类特征训练对目标特征的识别,由回归特征训练对目标框的的生成,输出的目标框即跟踪结果,其中对测试帧的回归特征先经一个回归目标变换器Transformer增强特征后,再结合训练帧的回归特征训练对目标框的生成;训练好的网络用于在线跟踪,以待跟踪视频的第一帧的目标分类特征信息引入回归分支中,后续视频帧作为测试帧,经目标变换回归网络得到目标框用于跟踪。
作为进一步的改进,在跟踪过程中挑选出部分已经跟踪完的视频帧作为分类分支的在线训练样本以及回归分支的在线更新样本,来更新分类分支和回归分支的网络参数。
作为优选方式,所述回归目标变换器Transformer具体为:首先将测试帧的回归特征经过一个1*1卷积产生查询向量,同时将训练帧的回归特征经过两个1*1卷积分别产生键向量和值向量用作查询,将查询向量经过矩阵转置之后与键向量相乘,再用该相乘结果与值向量进行相乘得到增强特征,最后将测试帧的原始回归特征与增强特征相加,从而在保留初始信息的基础上使特征得到变换增强。
作为优选方式,所述跟踪方法包括生成训练样例阶段、网络配置阶段、离线训练阶段以及在线跟踪阶段:
3)生成训练样例阶段,在离线训练过程中生成训练样例,首先对离线训练数据集中每个视频的每一帧图像进行目标区域抖动处理,然后裁剪出抖动处理后的目标搜索区域,从每个视频帧序列的前半部分抽取三帧作为训练帧,从每个视频帧序列的后半部分抽取一帧作为测试帧,对测试帧标注目标框作为验证帧,对于每个验证帧生成一个以目标框的中心为中心的高斯标签图作为验证集的分类分支标签,并且记录下每帧验证帧中目标框的中心距离目标框的四个边界的距离,作为离线训练过程中回归分支的标签;
4)网络配置阶段,提取测试帧和训练帧的分类特征图和回归特征图,根据训练帧的分类特征图生成分类分支的可适应卷积核fcls,以可适应卷积核fcls作为分类卷积的卷积核,作用于测试帧的分类特征图,经过分类卷积操作之后产生分类得分置信图Mcls;同时将训练帧的回归特征图作为指导回归分支的目标特征样本,测试帧的回归特征图经过一个回归目标变换器Transformer后,回归产生中心点到目标边界距离回归偏置图Mreg,用于表示目标的中心点距离物体的四个边界的距离,根据置信图Mcls找到得分最高的点,然后在Mreg中找出该点对应的四个偏置距离,即输出测试帧上目标的目标框;
3)离线训练阶段,对于分类分支的离线训练使用DiMP提出的类合页损失LBHingeLoss作为损失函数,对于回归分支使用IoU损失函数,结合由验证帧得到的标签,使用SGD优化器,通过反向传播算法来更新整个网络参数,不断重复步骤2),直至达到迭代次数;
4)在线跟踪阶段,首先裁剪出待跟踪视频的第一帧图像中的目标框搜索区域作为模板,然后将模板帧扩充为一个包含30帧图像的在线训练数据集,作为训练帧Ftrain,将待跟踪视频中后续待跟踪的帧作为测试帧Ftest,以Ftrain输入步骤2)的网络,得到Ftest上的目标框,实现目标跟踪。
作为优选方式,步骤4)的跟踪过程中,从已经跟踪完的帧序列中每25帧挑选出一个分类得分最高的帧和已经跟踪得到的目标框作为标签添加到在线训练数据集中,用于更新分类分支的可适应卷积核fcls及回归分支的目标特征样本。
本发明与现有技术相比有如下优点。
本发明提出了一种基于目标变换回归网络的跟踪方法(Target TransformedRegression Tracker,TREG)。这种方法采用了一种基于目标指导回归变换器的边框回归的简洁跟踪框架,在保证物体跟踪效率的同时提升了跟踪的准确度。
本发明设计了一种可在线更新的目标指导的回归变换器来将第一帧的目标信息融入测试帧的回归分支中,并且在边框回归中引入了在线更新的机制。相比现有的无锚框跟踪方法,本发明的跟踪方法能对跟踪过程中的物体变形有更好的适应能力,有效地提升目标回归的精度。
本发明在视觉物体跟踪任务上取得了很好的准确性,提升了物体回归的精度。相较于现有方法,本发明提出的TREG跟踪方法在多个视觉跟踪测试基准数据集中都体现了好的跟踪成功率和定位准确度。
附图说明
图1是本发明所使用的系统框架图。
图2是本发明提出的训练帧分类特征提取模块示意图。
图3是本发明提出的训练帧回归特征提取模块示意图。
图4是本发明提出的测试帧分类特征提取模块示意图。
图5是本发明提出的测试帧回归特征提取模块示意图。
图6是本发明提出的基于目标的回归特征变换器过程示意图。
具体实施方式
本发明的目标是构建一个精确的目标跟踪器使其能够较好地建模目标的形变、姿态和视角等的变化。从现有技术的分析中,可以发现对于构建精确跟踪器的核心是如何将第一帧中给定的目标信息整合到回归分支中从而保持其精确的边界信息并且及时地处理形变问题。受到自然语言处理中比较流行的Transformer机制的启发,本发明提出了一种基于第一帧目标指导的类似于Transformer结构来进行无锚框的目标回归的方法,命名为TREG(Target Transformed Regression Tracker)。本发明在回归分支中设计的目标指导的Transformer回归模块以一种点对点的方式将第一帧的目标特征信息引入边框回归中,从而能提供精确的回归边界框。此外,本发明中提出了一种简洁而有效的在线模板更新策略,能够适应物体的外观和尺度变化,从而实现更精确的跟踪。
本发明提出了一种基于目标变换回归网络的精确目标跟踪方法。经过在TrackingNet-Train、LaSOT-Train、COCO-Train、GOT-10k-Train四个训练数据集上进行离线训练,在OTB100、NFS、UAV123、VOT2018、LaSOT-Test、TrackingNet-Test六个测试集上测试达到了高准确率和追踪成功率,具体使用Python3.7编程语言,Pytorch1.2深度学习框架实施。
图1是本发明所构建的目标变换回归网络示意图,包括分类分支和回归分支,训练网络时,分别提取训练帧和测试帧的分类特征和回归特征,由分类特征训练对目标特征的识别,由回归特征训练对目标框的的生成,输出的目标框即跟踪结果,其中对测试帧的回归特征先经一个回归目标变换器Transformer增强特征后,再结合训练帧的回归特征训练对目标框的生成;训练好的网络用于在线跟踪,以待跟踪视频的第一帧的目标分类特征信息引入回归分支中,后续视频帧作为测试帧,经目标变换回归网络得到目标框用于跟踪。本发明通过设计的完全端到端训练的全卷积网络,生成目标分类和目标回归模板,来指导分类和回归任务以及在线更新分类和回归模板的策略,实现目标追踪任务。
本发明的基于目标的回归目标变换器Transformer如图6所示,首先将测试帧回归特征经过一个1*1卷积产生查询向量,同时将训练帧回归特征经过两个1*1卷积分别产生键向量和值向量用作查询。将查询向量经过矩阵转置之后与键向量相乘,接下来再用该结果与值向量进行相乘,从而使得相关性高的像素得到增强,相关性低的像素被抑制。最后将原始特征与增强后的特征相加,从而在保留初始信息的基础上使特征得到变换增强。
作为一种具体实施方式,本发明的神经网络包括一个通过imagenet预训练好的resnet50骨干网络、一个由图2~5所示子网络组成的分类和回归特征提取网络、一个可学习的分类卷积层和图6所示的基于目标的回归目标变换器Transformer。整个方法包括生成训练样例阶段、网络配置阶段、离线训练阶段以及在线跟踪阶段,具体实施步骤如下:
1)数据的准备阶段,即训练样例阶段。在离线训练过程中,在离线训练过程中生成训练样例,首先对离线训练数据集中每个视频的每一帧图像进行目标区域抖动处理,然后裁剪出抖动处理后的目标搜索区域,从每个视频帧序列的前半部分抽取三帧作为训练帧,从每个视频帧序列的后半部分抽取一帧作为测试帧,对测试帧标注目标框作为验证帧,对于每个验证帧生成一个以目标框的中心为中心的高斯标签图作为验证集的标签,并且记录下每帧验证帧中目标框的中心距离目标框的四个边界的距离,作为离线训练过程中回归分支的标签。
2)模型的配置阶段,即网络配置阶段,具体如下。
2.1)提取测试帧的编码特征:首先使用Resnet-50的Block-1、Block-2、Block-3和Block-4作为编码器进行提取特征,对测试帧Ftest∈RB×3×288×288提取特征得到
Figure BDA0002981677440000051
Figure BDA0002981677440000052
其中上标e2的含义是编码层Block-2提取的特征,e3的含义是编码层Block-3提取的特征,e4的含义是编码层Block-4提取的特征,下标test表示测试帧,B代表batch size的大小,其中包括卷积层和池化层,卷积层是3*3和1*1两种卷积核,分别用来提取更高维度的特征和对特征维度进行变换,每个卷积层的卷积核采取随机初始化的方式进行初始化。
2.2)提取测试帧的解码特征:提取测试帧的解码特征:使用一个卷积核为1*1的卷积层作用于步骤2.1)得到的
Figure BDA0002981677440000053
输入通道数为1024,输出通道数为256,得到了第一层解码特征
Figure BDA0002981677440000054
特征层大小为256*18*18。对步骤2.1)得到的
Figure BDA0002981677440000055
经过一个1*1的卷积层,输入通道数为512,输出通道数为256,使其通道数目变成256;然后用一个双线性插值层对第一层得到的解码特征
Figure BDA0002981677440000056
进行2倍的上采样操作,然后将上面两个特征层,即
Figure BDA0002981677440000057
通道变换后的结果和
Figure BDA0002981677440000058
2倍上采样操作后的结果相加之后进行一次卷积操作,卷积核为1*1,从而得到第二层的解码特征
Figure BDA0002981677440000059
特征层大小为256*36*36。对步骤2.1)得到的
Figure BDA00029816774400000510
经过一个1*1的卷积层,输入通道数为256,输出通道数为256,使其通道数目变成256;然后用一个双线性插值层对第二层的解码特征
Figure BDA00029816774400000511
进行2倍的上采样操作,然后再将这两个特征层,即
Figure BDA00029816774400000512
通道变换后的结果和
Figure BDA00029816774400000513
2倍的上采样后的结果相加之后进行一次卷积操作,卷积核为1*1,从而得到第三层的解码特征
Figure BDA00029816774400000514
特征层大小为256*72*72。
2.3)提取测试帧的分类特征:如图4所示,将步骤2.2)得到的解码特征
Figure BDA00029816774400000515
经过一个卷积层,该卷积层采用3*3的卷积核,步长为1,输入通道数为256,输出通道数为256,接着经过一个组标准化层Group Normalization,该标准化层的组为32,再经过一个ReLU激活层。将得到的特征再经过两个可形变卷积(Deformable Convolution),可形变卷积的卷积核大小为3*3,步长为1,输入通道数和输出通道数都是256,并且在两个可形变卷积之间设有一个组标准化层Group Normalization和一个ReLU激活层,其中组标准化层的组大小为32,从而得到测试帧的分类特征图
Figure BDA0002981677440000061
该特征图的大小为256*72*72。
2.4)提取测试帧的回归特征:如图5所示,将步骤2.2)得到的解码特征
Figure BDA0002981677440000062
经过一个卷积层,该卷积层采用3的卷积核,步长为1,输入通道数为256,输出通道数为256,接着过一个组标准化层Group Normalization,该标准化层的组为32,再经过一个ReLU激活层。将得到的特征再经过两个可形变卷积(Deformable Convolution),可形变卷积的卷积核大小为3,步长为1,输入通道数和输出通道数都是256,并且在第一个可形变卷积之后跟上一个组标准化层Group Normalization和一个ReLU激活层,其中组标准化层的组大小为32,在第二个可形变卷积之后加一个ReLU激活层,输出回归特征,将得到的回归特征2倍上采样,再将
Figure BDA0002981677440000063
和上采样后的结果拼接之后输入到一个1*1的卷积层中变换通道,该卷积层的输入通道数为512,输出通道数为256,得到测试帧的回归特征图
Figure BDA0002981677440000064
特征图的大小为256*72*72。
2.5)提取训练帧的编码特征:同测试帧的方案,首先使用Resnet-50的Block-1、Block-2、Block-3和Block-4作为编码器进行提取特征,对多个训练帧Ftrain∈RB×3×3×288×288提取特征得到
Figure BDA0002981677440000065
其中上标e2的含义是编码层Block-2提取的特征,e3的含义是编码层Block-3提取的特征,e4的含义是编码层Block-4提取的特征,下标train表示训练帧,B代表batch size的大小,其中包括卷积层和池化层,卷积层是3*3和1*1两种卷积核,分别用来提取更高维度的特征和对特征维度进行变换,每个卷积层的卷积核采取随机初始化的方式进行初始化。
2.6)提取训练帧的解码特征:同测试帧提取解码特征的方案,得到第一层解码特征
Figure BDA0002981677440000066
特征层大小为256*18*18,第二层的解码特征
Figure BDA0002981677440000067
特征层大小为256*36*36,以及第三层的解码特征
Figure BDA0002981677440000068
特征层大小为256*72*72。
2.7)提取训练帧的分类特征:如图2所示,将步骤2.6)得到的解码特征
Figure BDA0002981677440000069
经过一个卷积层,该卷积层采用大小3的卷积核,步长为1,输入通道数为256,输出通道数为256,接着过一个组标准化层Group Normalization,该标准化层的组为32,再经过一个ReLU激活层。将得到的特征再经过两个可形变卷积(Deformable Convolution),可形变卷积的卷积核大小为3,步长为1,输入通道数和输出通道数都是256,并且在第一个可形变卷积之后跟上一个组标准化层Group Normalization和一个ReLU激活层,其中组标准化层的组大小为32,从而得到训练帧的分类特征图
Figure BDA00029816774400000610
该特征图的大小为256*72*72。
2.8)提取训练帧的回归特征:如图3所示,将步骤2.6)得到的解码特征
Figure BDA0002981677440000071
经过一个卷积层,该卷积层采用3的卷积核,步长为1,输入通道数为256,输出通道数为256,接着过一个组标准化层Group Normalization,该标准化层的组为32,再经过一个ReLU激活层。将得到的特征再经过两个可形变卷积(Deformable Convolution),可形变卷积的卷积核大小为3,步长为1,输入通道数和输出通道数都是256,并且在第一个可形变卷积之后跟上一个组标准化层Group Normalization和一个ReLU激活层,其中组标准化层的组大小为32,在第二个可形变卷积之后加一个ReLU激活层。同时将步骤2.6)得到的解码特征
Figure BDA0002981677440000072
进行同样的网络,并且将得到的特征上采样,上采样的倍数为2。将上面得到的两个特征图拼接之后输入到一个1*1的卷积层中,该卷积层的输入通道数为512,输出通道数为256,从而得到测试帧的回归特征图
Figure BDA0002981677440000073
该特征图的大小为256*72*72。
2.9)生成分类分支的可适应卷积核:将步骤2.7)得到的分类特征图
Figure BDA0002981677440000074
首先输入到一个卷积层和一个感兴趣区域池化层ROI Pooling中,卷积层的卷积核大小为3*3,步长为1,输入通道和输出通道数都是256,ROI Pooling层的大小为4*4,步长为16,从而得到一个初始的可适应卷积核
Figure BDA0002981677440000075
该卷积核的大小为256*4*4。接下来将
Figure BDA0002981677440000076
用高斯牛顿法进行优化,从而得到最终的分类分支的可适应卷积核fcls
2.10)得到训练帧回归特征样本空间:将步骤2.8)得到的回归特征图
Figure BDA0002981677440000077
首先输入到一个感兴趣区域池化层ROI Pooling中,ROI Pooling层的大小为5*5,从而得到一个用于指导测试帧回归的目标特征样本freg,该目标特征样本空间的大小为7*256*5*5。
2.11)得到分类置信图:以步骤2.9)得到的可适应卷积核fcls作为分类卷积的卷积核,将分类卷积作用于步骤2.3)得到的测试帧的分类特征图
Figure BDA0002981677440000078
经过该卷积操作之后产生最终的分类得分置信图Mcls,该置信图的大小为72*72,得分越高的点表示该点是目标中心的置信度越高。
分类置信图Mcls的具体计算方式为:
记分类卷积为Conv1,其卷积核为步骤2.9)得到的可适应卷积核fcls
Figure BDA0002981677440000079
2.12)通过目标回归变换器Transformer得到回归偏置距离:以步骤2.10)得到的回归特征样本空间freg作为指导,通过一个基于该样本空间的Transformer作用于步骤2.4)得到的测试帧的回归特征图
Figure BDA0002981677440000081
从而将训练样本的回归信息引入到测试帧中,经过卷积操作之后产生最终的中心点到目标边界距离回归偏置图Mreg,该回归图的大小为4*72*72,分别表示目标的中心点距离物体的四个边界的距离,其中,
Mreg∈R4×72×72
根据步骤2.11)得到的置信图Mcls找到得分最高的点,然后在Mreg中找出该点对应的四个偏置距离即可得到最终的目标框。
3)离线训练阶段,对于分类分支的离线训练使用DiMP提出的类合页损失LBHingeLoss作为损失函数,对于回归分支使用IoU损失函数,结合由验真帧得到的标签,使用SGD优化器,通过反向传播算法来更新整个网络参数,不断重复步骤2),直至达到迭代次数;
4)在线跟踪阶段,首先裁剪出待跟踪视频的第一帧图像中的目标框搜索区域作为模板,然后将模板帧扩充为一个包含30帧图像的在线训练数据集,作为训练帧Ftrain,将待跟踪视频中待跟踪的帧作为测试帧Ftest,以Ftrain输入步骤2)的网络,得到Ftest上的目标框。
作为优选方式,在跟踪过程中,从已经跟踪完的帧序列中每25帧挑选出一个分类得分最高的帧和已经跟踪得到的目标框作为标签添加到在线训练数据集中,用于更新分类分支的可适应卷积核fcls及回归分支的目标特征样本内存。
下面以一个实施例具体说明网络配置阶段。使用ResNet-50的前四个Block作为编码层的网络结构提取编码特征,网络中载入ImageNet预训练模型的参数,然后分别对训练帧和测试帧进行解码操作提取解码特征。接下来分别对训练帧和测试帧提取分类特征和回归特征,如图2所示,对训练帧,将经过解码器后得到的解码特征输入到卷积层中,再执行两个可形变卷积操作,每个卷积操作之间有一个组标准化层和ReLU激活层,从而可以得到训练帧的分类特征,分类特征图的大小为256*72*72。同样如图3、图4、图5所示,将训练帧和测试帧经过解码器后得到的特征,经过图中几个卷积层、可形变卷积层、组标准化和激活函数层。训练帧的回归特征图大小为1024*72*72,测试帧的分类特征图和回归特征图的大小都为256*72*72。
在训练帧中生成分类可优化模型,将训练帧的分类特征输入到初始可优化模型生成器中,该初始模型生成器可产生初始的粗略模型。然后将测试帧的分类特征执行一个卷积操作,其卷积核即为上面得到的可优化分类模型,这样即可得到72*72的分类得分图。对于回归分支,将训练帧的回归特征样本空间和测试帧的回归特征输入到图6中设计的基于目标的回归特征变换器Transformer中产生变换的回归特征,最终经过几个卷积层作为前馈网络产生4*72*72的回归偏置距离图。在分类得分图中找出得分最高的点作为目标的中心点,并且在回归偏置距离图中找出该点的四个值即为中心点距离目标四个边界的距离,这样就得到了最终的目标框。
离线训练阶段,对于分类分支的离线训练使用DiMP提出的类合页损失LBHingeLoss作为损失函数,对于回归分支使用了IoU损失函数,使用SGD优化器,设置BatchSize为40,总的训练轮数设置为100,学习率在25,45轮处学习率除以10,衰减率设置为0.2,在8块RTX 2080ti上训练,通过反向传播算法来更新整个网络参数,不断重复步骤2.1)至步骤2.12),直至达到迭代次数。
在线跟踪阶段,将训练帧序列和测试帧输入到网络中,在初始参数的基础上得到最终的目标框。
首先裁剪出待跟踪视频的第一帧图像中的目标框搜索区域作为模板,然后将模板帧扩充为一个包含30帧图像的在线训练数据集,作为训练帧Ftrain,将待跟踪视频中待跟踪的帧作为测试帧Ftest,以Ftrain输入步骤2)的网络,得到Ftest上的目标框,在跟踪过程中,从已经跟踪完的帧序列中每25帧挑选出一个分类得分最高的帧和已经跟踪得到的目标框作为标签添加到在线训练数据集中,用于更新分类分支的可适应卷积核fcls及回归分支的目标特征样本空间freg
根据本发明方法进行跟踪测试,对测试集中每个视频的第一帧进行和训练集相同的操作,首先裁剪出目标大小5倍的区域,然后缩放为288*288,并且对第一帧进行旋转、平移和加噪声等数据增强得到30个训练样本,通过增强后的训练数据进行在线训练和更新,在接下来每一帧进行跟踪的过程中,每隔25帧进行一次在线训练以及回归分支的在线更新,并且挑选出分类得分最高一帧加入到在线训练集中。在测试数据集上,跟踪的效率为30fps,在跟踪精度上,在OTB100数据集上Auc达到了71.4%,Pre达到了94.5%;在NFS数据集上,Auc达到了66.6%;在UAV123数据集上,Auc达到了66.9%,Pre达到了88.4%;在VOT2018数据集上,EAO达到了0.492,Robustness达到了0.098,Accuracy达到了0.612;在TrackingNet数据集上,Succ达到了78.5%,Pre达到了75.0%;在LaSOT数据集上,Suc达到了64.0%,本发明方法在上述测试数据集上的指标超过了当前效果最好的方法。

Claims (7)

1.一种基于目标变换回归网络的精确目标跟踪方法,其特征是构建目标变换回归网络,包括分类分支和回归分支,训练网络时,分别提取训练帧和测试帧的分类特征和回归特征,由分类特征训练对目标特征的识别,由回归特征训练对目标框的的生成,输出的目标框即跟踪结果,其中对测试帧的回归特征先经一个回归目标变换器Transformer增强特征后,再结合训练帧的回归特征训练对目标框的生成;训练好的网络用于在线跟踪,以待跟踪视频的第一帧的目标分类特征信息引入回归分支中,后续视频帧作为测试帧,经目标变换回归网络得到目标框用于跟踪。
2.根据权利要求1所述的一种基于目标变换回归网络的精确目标跟踪方法,其特征是在跟踪过程中挑选出部分已经跟踪完的视频帧作为分类分支的在线训练样本以及回归分支的在线更新样本,来更新分类分支和回归分支的网络参数。
3.根据权利要求1或2所述的一种基于目标变换回归网络的精确目标跟踪方法,其特征是所述回归目标变换器Transformer具体为:首先将测试帧的回归特征经过一个1*1卷积产生查询向量,同时将训练帧的回归特征经过两个1*1卷积分别产生键向量和值向量用作查询,将查询向量经过矩阵转置之后与键向量相乘,再用该相乘结果与值向量进行相乘得到增强特征,最后将测试帧的原始回归特征与增强特征相加,从而在保留初始信息的基础上使特征得到变换增强。
4.根据权利要求1或2所述的一种基于目标变换回归网络的精确目标跟踪方法,其特征是所述跟踪方法包括生成训练样例阶段、网络配置阶段、离线训练阶段以及在线跟踪阶段:
1)生成训练样例阶段,在离线训练过程中生成训练样例,首先对离线训练数据集中每个视频的每一帧图像进行目标区域抖动处理,然后裁剪出抖动处理后的目标搜索区域,从每个视频帧序列的前半部分抽取三帧作为训练帧,从每个视频帧序列的后半部分抽取一帧作为测试帧,对测试帧标注目标框作为验证帧,对于每个验证帧生成一个以目标框的中心为中心的高斯标签图作为验证集的分类分支标签,并且记录下每帧验证帧中目标框的中心距离目标框的四个边界的距离,作为离线训练过程中回归分支的标签;
2)网络配置阶段,提取测试帧和训练帧的分类特征图和回归特征图,根据训练帧的分类特征图生成分类分支的可适应卷积核fcls,以可适应卷积核fcls作为分类卷积的卷积核,作用于测试帧的分类特征图,经过分类卷积操作之后产生分类得分置信图Mcls;同时将训练帧的回归特征图作为指导回归分支的目标特征样本,测试帧的回归特征图经过一个回归目标变换器Transformer后,回归产生中心点到目标边界距离回归偏置图Mreg,用于表示目标的中心点距离物体的四个边界的距离,根据置信图Mcls找到得分最高的点,然后在Mreg中找出该点对应的四个偏置距离,即输出测试帧上目标的目标框;
3)离线训练阶段,对于分类分支的离线训练使用DiMP提出的类合页损失LBHinge Loss作为损失函数,对于回归分支使用IoU损失函数,结合由验证帧得到的标签,使用SGD优化器,通过反向传播算法来更新整个网络参数,不断重复步骤2),直至达到迭代次数;
4)在线跟踪阶段,首先裁剪出待跟踪视频的第一帧图像中的目标框搜索区域作为模板,然后将模板帧扩充为一个包含30帧图像的在线训练数据集,作为训练帧Ftrain,将待跟踪视频中后续待跟踪的帧作为测试帧Ftest,以Ftrain输入步骤2)的网络,得到Ftest上的目标框,实现目标跟踪。
5.根据权利要求4所述的一种基于目标变换回归网络的精确目标跟踪方法,其特征是步骤4)的跟踪过程中,从已经跟踪完的帧序列中每25帧挑选出一个分类得分最高的帧和已经跟踪得到的目标框作为标签添加到在线训练数据集中,用于更新分类分支的可适应卷积核fcls及回归分支的目标特征样本。
6.根据权利要求4所述的一种基于目标变换回归网络的精确目标跟踪方法,其特征是步骤2)网络配置具体为:
2.1)提取测试帧的编码特征:首先使用Resnet-50的Block-1、Block-2、Block-3和Block-4作为编码器进行提取特征,对测试帧Ftest∈RB×3×288×288提取特征得到
Figure FDA0002981677430000021
Figure FDA0002981677430000022
其中上标e2的含义是编码层Block-2提取的特征,e3的含义是编码层Block-3提取的特征,e4的含义是编码层Block-4提取的特征,下标test表示测试帧,B代表batch size的大小,其中包括卷积层和池化层,卷积层是3*3和1*1两种卷积核,分别用来提取更高维度的特征和对特征维度进行变换,每个卷积层的卷积核采取随机初始化的方式进行初始化;
2.2)提取测试帧的解码特征:使用一个卷积核为1*1的卷积层作用于步骤2.1)得到的
Figure FDA0002981677430000023
输入通道数为1024,输出通道数为256,得到第一层解码特征
Figure FDA0002981677430000024
特征层大小为256*18*18,对
Figure FDA0002981677430000025
经过一个1*1的卷积层使其通道数目变成256;用一个双线性插值层对第一层解码特征
Figure FDA0002981677430000026
进行2倍上采样操作,将
Figure FDA0002981677430000027
通道变换后的结果和
Figure FDA0002981677430000028
倍上采样操作后的结果相加之后进行一次卷积操作,卷积核为1*1,得到第二层的解码特征
Figure FDA0002981677430000029
对步骤2.1)得到的
Figure FDA00029816774300000210
经过一个1*1的卷积层变换通道数目为256,用一个双线性插值层对第二层解码特征
Figure FDA00029816774300000211
进行2倍上采样操作,将
Figure FDA00029816774300000212
通道变换后的结果和
Figure FDA00029816774300000213
倍上采样后的结果相加之后进行一次卷积操作,卷积核为1*1,得到第三层解码特征
Figure FDA00029816774300000214
2.3)提取测试帧的分类特征:将步骤2.2)得到的解码特征
Figure FDA00029816774300000215
经过一个卷积层,所述卷积层采用3*3的卷积核,步长为1,接着经过一个组标准化层Group Normalization和一个ReLU激活层,将得到的特征再经过两个可形变卷积,可形变卷积的卷积核大小为3*3,步长为1,并且在两个可形变卷积之间设有一个组标准化层Group Normalization和一个ReLU激活层,得到测试帧的分类特征图
Figure FDA0002981677430000031
其中两处组标准化层的组大小均为32;
2.4)提取测试帧的回归特征:将步骤2.2)得到的解码特征
Figure FDA0002981677430000032
经过一个卷积层,所述卷积层采用3*3的卷积核,步长为1,接着过一个组标准化层Group Normalization和一个ReLU激活层,将得到的特征再经过两个可形变卷积,可形变卷积的卷积核大小为3*3,步长为1,其中在第一个可形变卷积之后具有一个组标准化层Group Normalization和一个ReLU激活层,组标准化层的组大小均为32,在第二个可形变卷积之后具有一个ReLU激活层,输出回归特征,将得到的特征2倍上采样,将
Figure FDA0002981677430000033
和上采样后的结果拼接之后输入到一个1*1的卷积层中变换通道,得到测试帧的回归特征图
Figure FDA0002981677430000034
2.5)提取训练帧的编码特征:同步骤2.1)对测试帧的处理,对多个训练帧Ftrain∈RB ×3×3×288×288提取特征得到
Figure FDA0002981677430000035
Figure FDA0002981677430000036
2.6)提取训练帧的解码特征:同步骤2.2)对测试帧的处理,基于训练帧的编码特征得到第一层解码特征
Figure FDA0002981677430000037
第二层的解码特征
Figure FDA0002981677430000038
和第三层的解码特征
Figure FDA0002981677430000039
2.7)提取训练帧的分类特征:同步骤2.3)对测试帧的处理,由
Figure FDA00029816774300000310
得到训练帧的分类特征图
Figure FDA00029816774300000311
2.8)提取训练帧的回归特征:同步骤2.4)对测试帧的处理,由
Figure FDA00029816774300000312
得到测试帧的回归特征图
Figure FDA00029816774300000313
2.9)生成分类分支的可适应卷积核:将步骤2.7)得到的分类特征图
Figure FDA00029816774300000314
首先输入到一个卷积层和一个感兴趣区域池化层ROI Pooling中,卷积层的卷积核大小为3*3,步长为1,输入通道和输出通道数都是256,ROI Pooling层的大小为4*4,步长为16,从而得到一个初始的可适应卷积核
Figure FDA00029816774300000315
该卷积核的大小为256*4*4,接下来将
Figure FDA00029816774300000316
用高斯牛顿法进行优化,得到最终的分类分支的可适应卷积核fcls
2.10)得到训练帧回归特征样本空间:将步骤2.8)得到的回归特征图
Figure FDA00029816774300000317
输入到一个感兴趣区域池化层ROI Pooling中,ROI Pooling层的大小为5*5,得到一个用于指导测试帧回归的目标特征样本freg
2.11)得到分类置信图:以步骤2.9)得到的可适应卷积核fcls作为分类卷积的卷积核,将分类卷积作用于步骤2.3)得到的测试帧的分类特征图
Figure FDA0002981677430000041
产生分类得分置信图Mcls,得分越高的点表示该点是目标中心的置信度越高;
分类置信图Mcls的具体计算方式为:
记分类卷积为Conv1,其卷积核为可适应卷积核fcls
Figure FDA0002981677430000042
2.12)通过目标回归变换器Transformer得到回归偏置距离:以步骤2.10)得到的回归特征样本空间freg作为指导,通过一个基于该样本空间的目标回归变换器Transformer作用于测试帧的回归特征图
Figure FDA0002981677430000043
从而将训练样本的回归信息引入到测试帧中,经过卷积操作之后产生中心点到目标边界距离回归偏置图Mreg,分别表示目标的中心点距离物体的四个边界的距离,其中,
Mreg∈R4×72×72
根据步骤2.11)得到的置信图Mcls找到得分最高的点,然后在Mreg中找出该点对应的四个偏置距离即得到最终的目标框。
7.根据权利要求5所述的一种基于目标变换回归网络的精确目标跟踪方法,其特征是步骤2)网络配置具体为:
2.1)提取测试帧的编码特征:首先使用Resnet-50的Block-1、Block-2、Block-3和Block-4作为编码器进行提取特征,对测试帧Ftest∈RB×3×288×288提取特征得到
Figure FDA0002981677430000044
Figure FDA0002981677430000045
其中上标e2的含义是编码层Block-2提取的特征,e3的含义是编码层Block-3提取的特征,e4的含义是编码层Block-4提取的特征,下标test表示测试帧,B代表batch size的大小,其中包括卷积层和池化层,卷积层是3*3和1*1两种卷积核,分别用来提取更高维度的特征和对特征维度进行变换,每个卷积层的卷积核采取随机初始化的方式进行初始化;
2.2)提取测试帧的解码特征:使用一个卷积核为1*1的卷积层作用于步骤2.1)得到的
Figure FDA0002981677430000046
输入通道数为1024,输出通道数为256,得到第一层解码特征
Figure FDA0002981677430000047
特征层大小为256*18*18,对
Figure FDA0002981677430000048
经过一个1*1的卷积层使其通道数目变成256;用一个双线性插值层对第一层解码特征
Figure FDA0002981677430000049
进行2倍上采样操作,将
Figure FDA00029816774300000410
通道变换后的结果和
Figure FDA00029816774300000411
倍上采样操作后的结果相加之后进行一次卷积操作,卷积核为1*1,得到第二层的解码特征
Figure FDA0002981677430000051
对步骤2.1)得到的
Figure FDA0002981677430000052
经过一个1*1的卷积层变换通道数目为256,用一个双线性插值层对第二层解码特征
Figure FDA0002981677430000053
进行2倍上采样操作,将
Figure FDA0002981677430000054
通道变换后的结果和
Figure FDA0002981677430000055
倍上采样后的结果相加之后进行一次卷积操作,卷积核为1*1,得到第三层解码特征
Figure FDA0002981677430000056
2.3)提取测试帧的分类特征:将步骤2.2)得到的解码特征
Figure FDA0002981677430000057
经过一个卷积层,所述卷积层采用3*3的卷积核,步长为1,接着经过一个组标准化层Group Normalization和一个ReLU激活层,将得到的特征再经过两个可形变卷积,可形变卷积的卷积核大小为3*3,步长为1,并且在两个可形变卷积之间设有一个组标准化层Group Normalization和一个ReLU激活层,得到测试帧的分类特征图
Figure FDA0002981677430000058
其中两处组标准化层的组大小均为32;
2.4)提取测试帧的回归特征:将步骤2.2)得到的解码特征
Figure FDA0002981677430000059
经过一个卷积层,所述卷积层采用3*3的卷积核,步长为1,接着过一个组标准化层Group Normalization和一个ReLU激活层,将得到的特征再经过两个可形变卷积,可形变卷积的卷积核大小为3*3,步长为1,其中在第一个可形变卷积之后具有一个组标准化层Group Normalization和一个ReLU激活层,组标准化层的组大小均为32,在第二个可形变卷积之后具有一个ReLU激活层,输出回归特征,将得到的回归特征2倍上采样,再将
Figure FDA00029816774300000510
和上采样后的结果拼接之后输入到一个1*1的卷积层中变换通道,得到测试帧的回归特征图
Figure FDA00029816774300000511
2.5)提取训练帧的编码特征:同步骤2.1)对测试帧的处理,对多个训练帧Ftrain∈RB ×3×3×288×288提取特征得到
Figure FDA00029816774300000512
Figure FDA00029816774300000513
2.6)提取训练帧的解码特征:同步骤2.2)对测试帧的处理,基于训练帧的编码特征得到第一层解码特征
Figure FDA00029816774300000514
第二层的解码特征
Figure FDA00029816774300000515
和第三层的解码特征
Figure FDA00029816774300000516
2.7)提取训练帧的分类特征:同步骤2.3)对测试帧的处理,由
Figure FDA00029816774300000517
得到训练帧的分类特征图
Figure FDA00029816774300000518
2.8)提取训练帧的回归特征:同步骤2.4)对测试帧的处理,由
Figure FDA00029816774300000519
得到测试帧的回归特征图
Figure FDA00029816774300000520
2.9)生成分类分支的可适应卷积核:将步骤2.7)得到的分类特征图
Figure FDA00029816774300000521
首先输入到一个卷积层和一个感兴趣区域池化层ROI Pooling中,卷积层的卷积核大小为3*3,步长为1,输入通道和输出通道数都是256,ROI Pooling层的大小为4*4,步长为16,从而得到一个初始的可适应卷积核
Figure FDA0002981677430000061
该卷积核的大小为256*4*4,接下来将
Figure FDA0002981677430000062
用高斯牛顿法进行优化,得到最终的分类分支的可适应卷积核fcls
2.10)得到训练帧回归特征样本空间:将步骤2.8)得到的回归特征图
Figure FDA0002981677430000063
输入到一个感兴趣区域池化层ROI Pooling中,ROI Pooling层的大小为5*5,得到一个用于指导测试帧回归的目标特征样本freg
2.11)得到分类置信图:以步骤2.9)得到的可适应卷积核fcls作为分类卷积的卷积核,将分类卷积作用于步骤2.3)得到的测试帧的分类特征图
Figure FDA0002981677430000064
产生分类得分置信图Mcls,得分越高的点表示该点是目标中心的置信度越高;
分类置信图Mcls的具体计算方式为:
记分类卷积为Conv1,其卷积核为可适应卷积核fcls
Figure FDA0002981677430000065
2.12)通过目标回归变换器Transformer得到回归偏置距离:以步骤2.10)得到的回归特征样本空间freg作为指导,通过一个基于该样本空间的目标回归变换器Transformer作用于测试帧的回归特征图
Figure FDA0002981677430000066
从而将训练样本的回归信息引入到测试帧中,经过卷积操作之后产生中心点到目标边界距离回归偏置图Mreg,分别表示目标的中心点距离物体的四个边界的距离,其中,
Mreg∈R4×72×72
根据步骤2.11)得到的置信图Mcls找到得分最高的点,然后在Mreg中找出该点对应的四个偏置距离即得到最终的目标框。
CN202110289022.4A 2021-03-18 2021-03-18 一种基于目标变换回归网络的精确目标跟踪方法 Pending CN115115667A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110289022.4A CN115115667A (zh) 2021-03-18 2021-03-18 一种基于目标变换回归网络的精确目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110289022.4A CN115115667A (zh) 2021-03-18 2021-03-18 一种基于目标变换回归网络的精确目标跟踪方法

Publications (1)

Publication Number Publication Date
CN115115667A true CN115115667A (zh) 2022-09-27

Family

ID=83323320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110289022.4A Pending CN115115667A (zh) 2021-03-18 2021-03-18 一种基于目标变换回归网络的精确目标跟踪方法

Country Status (1)

Country Link
CN (1) CN115115667A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116091554A (zh) * 2023-04-11 2023-05-09 智洋创新科技股份有限公司 一种用于开放集的运动目标跟踪方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116091554A (zh) * 2023-04-11 2023-05-09 智洋创新科技股份有限公司 一种用于开放集的运动目标跟踪方法
CN116091554B (zh) * 2023-04-11 2023-06-16 智洋创新科技股份有限公司 一种用于开放集的运动目标跟踪方法

Similar Documents

Publication Publication Date Title
CN110490946B (zh) 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN111783705B (zh) 一种基于注意力机制的文字识别方法及系统
CN111079532A (zh) 一种基于文本自编码器的视频内容描述方法
CN110781672B (zh) 基于机器智能的题库生产方法及系统
CN111160343A (zh) 一种基于Self-Attention的离线数学公式符号识别方法
Tripathi et al. Environment sound classification using an attention-based residual neural network
CN111402365B (zh) 一种基于双向架构对抗生成网络的由文字生成图片的方法
CN114398855A (zh) 基于融合预训练的文本抽取方法、系统及介质
CN111242033A (zh) 一种基于视频和文字对判别分析的视频特征学习方法
CN115019143A (zh) 一种基于CNN和Transformer混合模型的文本检测方法
CN115222998B (zh) 一种图像分类方法
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
CN116304984A (zh) 基于对比学习的多模态意图识别方法及系统
CN113160032A (zh) 一种基于生成对抗网络的无监督多模态图像转换方法
CN112836702A (zh) 一种基于多尺度特征提取的文本识别方法
CN117034921B (zh) 一种基于用户数据的提示学习训练方法、装置和介质
CN115115667A (zh) 一种基于目标变换回归网络的精确目标跟踪方法
CN111666375B (zh) 文本相似度的匹配方法、电子设备和计算机可读介质
CN117877460A (zh) 语音合成方法、装置、语音合成模型训练方法、装置
Kišš et al. SoftCTC—semi-supervised learning for text recognition using soft pseudo-labels
CN116226357B (zh) 一种输入中包含错误信息场景下的文档检索方法
CN110458849B (zh) 一种基于特征修正的图像分割方法
CN113538507B (zh) 一种基于全卷积网络在线训练的单目标跟踪方法
Sun et al. ResFPA-GAN: Text-to-image synthesis with generative adversarial network based on residual block feature pyramid attention
CN113792120B (zh) 图网络的构建方法及装置、阅读理解方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination