CN111696136B

CN111696136B - 一种基于编解码结构的目标跟踪方法

Info

Publication number: CN111696136B
Application number: CN202010518310.8A
Authority: CN
Inventors: 王正宁; 曾浩; 潘力立; 赵德明; 曾仪; 刘怡君; 彭大伟
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-06-09
Filing date: 2020-06-09
Publication date: 2023-06-16
Anticipated expiration: 2040-06-09
Also published as: CN111696136A

Abstract

本发明公开了一种基于编解码结构的目标跟踪方法，该方法使用编码器‑解码器与鉴别器组合，构建类似生成对抗网络结构，使得编码器提取的特征更加泛化，学习到被跟踪对象的本质特征。由于对象帧中存在被半遮挡、受到光照、运动模糊影响的对象，使得网络受到这些影响更小，更具鲁棒性。使用Focal Loss使用替代传统的交叉熵损失函数，使得网络减少易分类样本的损失，使得模型更关注于困难的、错分的样本，同时平衡正负样本数量的不均衡。使用Distance‑U loss作为回归损失，不仅关注重叠区域，还关注其他的非重合区域，具有尺度不变性，可以为边界框提供移动方向，同时具有较快的收敛速度。

Description

一种基于编解码结构的目标跟踪方法

技术领域

本发明属于图像处理和计算机视觉领域，具体涉及一种基于编码器-解码器结构的目标跟踪方法。

背景技术

计算机视觉的主要目标之一是使计算机能够复制人类视觉的基本功能，如运动感知和场景理解。为了实现智能运动感知的目标，在视觉物体跟踪方面投入了大量精力，这是计算机视觉中最重要、最具挑战性的研究课题之一。从本质上讲，可视对象跟踪的核心是在输入图像序列的每个帧中可靠估计目标对象的运动状态(即位置、方向、大小等)。目标跟踪算法在现阶段主要有两个大的分支，一个是基于相关滤波算法，一个是基于深度学习算法。本发明所提出的目标跟踪方法属于深度学习这一分支。而基于深度学习主要有：卷积神经网络；循环神经网络；生成对抗网络；孪生神经网络这四种主要方法。

“Fully-convolutional siamese networks for object tracking，L.Bertinetto,J.Valmadre,J.F.Henriques,A.Vedaldi,and P.H.Torr，In ECCVWorkshops,2016”即为典型的基于孪生神经网络目标跟踪深度网络，孪生网络通过两个相同结构、参数共享的卷积神经网络提取区域特征与跟踪目标特征，通过在区域特征中寻找与目标特征相似的位置，确定跟踪目标在区域中的位置。该方法是一种比较原始的孪生网络，总体性能较低。发明专利“一种基于孪生神经网络和注意力模型的无人机跟踪方法，公开号CN110675423A”也使用了孪生网络，其训练中的分类损失选择交叉熵，但普通的交叉熵对于正样本而言，输出概率越大损失越小。对于负样本而言，输出概率越小则损失越小。此时的损失函数在大量简单样本的迭代过程中比较缓慢且可能无法优化至最优，而目标跟踪任务由于锚框的存在，恰恰存在许多简单样本。发明专利“一种基于孪生网络的目标跟踪方法，公开号CN110807793A”也是基于孪生网络的目标跟踪方法，其回归损失选取的L1损失函数。L1损失函数对4个坐标值进行分别回归，但该损失函数存在以下的不足：首先用该损失函数计算目标检测的包围框回归损失时，独立求出4个点的损失，然后进行相加得到最终的包围框回归损失，这种做法的假设是4个点是相互独立，但事实上该四个点存在相关性；其次实际评价框检测的指标是使用交并比，与L1不等价。“Fully-convolutional siamesenetworks for object trac king，L.Bertinetto,J.Valmadre,J.F.Henriques,A.Vedaldi,and P.H.Torr，I n ECCV Workshops,2016”和“一种基于孪生神经网络和注意力模型的无人机跟踪方法，公开号CN110675423A”提取特征的卷积神经网络虽然结构不同，但都是基于ImageNet图片数据库进行的预训练，再对整个网络进行端到端的训练。由于孪生网络具有比较高的复杂性，这种预训练对于整个网络的训练非常必要。但基于ImageNet图片数据库的预训练任务是基于分类任务，其卷积神经网络部分提取的特征也更加适用于分类任务，与适用于跟踪任务的特征提取需要存在不匹配。

“Generative Adversarial Networks for Extreme Learned ImageCompression,Agu stsson,Eirikur,et al.，2018”是一种利用编码器解码器结构与生成对抗结构的生成压缩网络，该网络用于图像的压缩，其编码器用于将图片进行编码，在训练阶段，解码器对编码结果进行解码，鉴别器用于鉴别生成结果。其中该编码器类似于特征提取网络，其目标是提取出该图像的本质特征，这种方法可以不依赖于标签对图像进行特征提取。这种特征获取的方法亦可利用于孪生网络的特征提取部分网络的预训练，且这种预训练完全依赖于使用的目标跟踪数据集，使得整个网络对跟踪数据集有更好的拟合。

针对现有孪生网络算法的不足，本发明综合分析其优缺点，使用编码器解码器与生成对抗网络的混合结构对网络的特征提取部分进行无监督学习的预训练，并使用FocalLoss与D IoU Loss应用于网络的损失函数，使得网络具有更好的鲁棒性。

发明内容

本发明属于计算机视觉和深度学习领域，对视频流中的指定对象进行跟踪，通过改进孪生网络的特征提取机制，利用编码器-解码器结构以及生成对抗网络，对图像进行学习，获得其特征，使得整个目标跟踪网络对目标跟踪数据集有更好的拟合能力以及鲁棒性。该方法具体内容如下：

该方法通过目标跟踪网络模型实现，所述目标跟踪网络模型的结构主要由三部分组成，第一部分是编码器-解码器部分：其中通过由卷积神经网络构成的编码器提取出模板帧(被搜索对象图像)和搜索帧(在该帧中寻找被搜索对象的位置)的深层特征，而解码器在训练部分，将模板帧的深层特征还原回该对象图像；第二部分是鉴别网络，用于鉴别解码器输出的图像与输入解码器的图像是否属于同一对象；第三部分是确定对象位置：通过将提取出的模板帧特征与搜索帧特征送入区域推荐网络，获得被跟踪物体的位置。

所述目标跟踪网络模型的训练过程主要由两个阶段组成，第一个阶段是特征提取预训练：通过编码器-解码器结构与生成对抗网络，学习到训练集中的跟踪对象的深层特征，得到特征提取部分的预训练模型。第二个阶段是所述目标跟踪网络模型的整体训练阶段，通过对整个所述目标跟踪网络进行端到端的训练，完成对区域推荐网络的训练以及对特征提取部分的微调。

本发明使用编码器-解码器与鉴别器组合，构建类似生成对抗网络结构，同时让解码器生成与模板帧属于同一目标的对象帧，而不局限于模板帧本身，使得编码器提取的特征更加泛化，学习到被跟踪对象的本质特征。由于对象帧中存在被半遮挡、受到光照、运动模糊影响的对象，使得网络受到这些影响更小，更具鲁棒性。使用Focal Loss使用替代传统的交叉熵损失函数，可以使得网络减少易分类样本的损失，使得模型更关注于困难的、错分的样本，同时平衡正负样本数量的不均衡。使用Distance-U loss作为回归损失，不仅关注重叠区域，还关注其他的非重合区域，具有尺度不变性，可以为边界框提供移动方向，同时具有较快的收敛速度。

附图说明

图1为本发明的目标跟踪网络整体结构示意图；

图2为本发明鉴别网络结构示意图；

图3为本发明编码器解码器结构示意图；

图4为本发明区域推荐网络示意图；

图5为本发明目标跟踪网络输出结果示意图；

图6为本发明DIoU示意图；

图7为本发明目标跟踪网络训练流程图。

具体实施方式

下面结合附图对本发明的具体实施方式以及工作原理作进一步详细说明。

本发明提出了一种基于编解码结构的目标跟踪方法，该方法通过目标跟踪网络模型实现，所述目标跟踪网络模型的结构主要由三部分组成，第一部分是编码器-解码器部分：其中通过由卷积神经网络构成的编码器提取出模板帧(被搜索对象图像)和搜索帧(在该帧中寻找被搜索对象的位置)的深层特征，而解码器在训练部分，将模板帧的深层特征还原回该对象图像；第二部分是鉴别网络，用于鉴别解码器输出的图像与输入解码器的图像是否属于同一对象；第三部分是确定对象位置：通过将提取出的模板帧特征与搜索帧特征送入区域推荐网络，获得被跟踪物体的位置。

(1)数据集预处理：目标跟踪所使用的数据集是有许多的视频流及其对应的标签所组成，标签标注有每一帧对象的位置以及包围框的长宽。通过标签，将视频流中的每一帧图像进行裁切，以跟踪对象为中心裁切成w_o×h_o像素的对象帧F_o和w_c×h_c像素的搜索帧F_c(w_o<w_c,h_o<h_c),其中属于该视频流中的第一帧对象帧F_o为该视频流的模板帧F_t，且二者尺寸相同。完成裁切后，在每一个视频流中，随机挑选n个对象帧F_o，将模板帧F_t与对象帧F_o做点对点相减，获得残差帧F_r，作为训练鉴别器的样本。

(2)设计编码器：编码器用于图像的特征提取，由深度残差网络组成。特征提取部分为两个经过预训练的编码器E₁、E₂，这两个编码器参数共享，如图1所示，两个编码器分别输入模板帧F_t与搜索帧F_c，通过一系列卷积、下采样、激活函数后，输出模板帧特征Conv(F_t)与搜索帧特征Conv(F_c)，这两个编码器之间参数共享，保证其提取特征具有一致性。其中输入模板帧F_t尺寸为w_t×h_t×3，搜索帧F_c尺寸为w_c×h_c×3；输出模板帧特征Conv(F_t)尺寸为w_t-c _onv×h_t-conv×C_cd，搜索帧特征Conv(F_c)尺寸为w_c-conv×h_c-conv×C_cd。解码器的结构与编码器对称，解码器输入是尺寸为w_t-conv×h_t-conv×C_de的模板帧特征Conv(F_t)，通过一系列卷积、上采样、激活函数后输出尺寸为w_t×h_t×3的解码模板帧对象

(3)设计鉴别网络：鉴别网络为一个卷积神经网络，如图2所示，输入为解码模板帧与模板帧的残差

通过卷积，下采样，全连接层，激活函数，输出模板帧与解码出的模板帧为同一对象的概率。

(4)编码器-解码器预训练：编码器为网络的特征提取部分，同时使用一个对称的解码器，如图3所示，组成编码器-解码器结构，同时与一个鉴别网络一起，组成了一个类生成对抗网络结构。如果解码器使用上述深度残差网络，解码器与编码器网络结构对称，将编码器网络中的所有残差模块按逆序放置，同时将编码器中所用到的步长为2的卷积替换为步长为2的反卷积，池化层替换成上采样层，即为对应的解码器结构。

编码器-解码器结构输入模板帧F_t，编码器输出该对象帧F_o的特征F_e，也就是其深层特征，解码器用于解码F_e，输出解码结果

鉴别网络用于鉴别/>

是否在可接受范围，即判断F_t与/>

是否是同一对象。其整个网络的训练优化目标如下所示：

其中EG对应编码器-解码器，相当于一般生成对抗网络的生成网络，但其输入不再是噪声而是模板帧F_t，D对应鉴别器，其作用与一般生成对抗网络的鉴别器相同，输出范围是0～1，数值越大表示F_t与

是同一对象的可能性越高。/>

表示当x服从F_r的概率分布时，log(D(x))的期望；D(x)表示鉴别器在输入为x时的输出，也就是对x的鉴别结果。/>

表示当z服从F_t的概率分布时,log(1-D(EG(z)-F_t))的期望；EG(z)表示编码器-解码器在输入为z时的输出，D(EG(z)-F_t)表示对EG(z)-F_t的鉴别结果。当达到纳什均衡后，即训练完成，其编码器部分即为该目标模型的特征提取网络。

(5)设计区域推荐网络：区域推荐网络结构如图4所示，此网络输入模板帧特征Conv(F_t)与搜索帧特征Conv(F_c)，输出被跟踪对象的可能位置与其包围框的长宽。输入Conv(F_t)与Conv(F_c)后，首先将Conv(F_t)从中心裁剪为w_t-conv-cut×h_t-conv-cut×256的尺寸，得到Conv(F_t)_cut，之后通过卷积调整Conv(F_t)_cut与Conv(F_c)的尺寸，并进行互相关运算，输出尺寸为w_res×h_res×2k的分类结果CLS与w_res×h_res×4k的回归结果REG，如图5所示，输出的结果的w_res×h_res维度与搜索帧w_c×h_c在空间上对应，每个位置上有k个设置了比例和大小的锚定框。CLS的2k个通道代表了网络预测的k种锚框包含目标的概率P_pos和不包含目标的概率P_neg。REG的4k个通道代表了网络预测的k种锚框与实际目标框的长宽差异和位置差异，分别为dx，dy，d w，dh。其与实际目标框的关系为：

其中A_x、A_y表示参考框的中心点(由其所在位置决定)，A_w、A_h表示参考框的宽高(人为设定)，T_x、T_y、T_w、T_h表示目标的坐标与长宽的真实值。

(6)选取分类损失函数：本文所述目标跟踪网络的输入为模板帧F_t与搜索帧F_c，输出为对应锚定框的分类结果CLS与回归结果REG。目标跟踪网络的损失函数由分类损失L_cls和回归损失L_reg构成，分类损失L_cls使用Focal Loss，公式如下所示：

y表示标签值，

表示实际分类值(即P_pos)，其中α为平衡因子，平衡正负样本本身的数量比例不均，γ用于减少易分类样本的损失，当γ>0时使得该目标跟踪网络更关注于困难的、错分的样本。

(7)选取回归损失函数：回归损失L_reg使用Distance-IoU Loss，其公式为：

L_DIoU＝1-DIoU (4)

其中：

b和

分别代表真实包围框和预测包围框中心点，/>

代表真实包围框和预测包围框中心点这两个中心点距离，c代表能够同时包含预测框和真实框的最小闭包区域的对角线距离，S和/>

分别代表真实包围框和预测包围框的面积，如图6所示。

(8)目标跟踪网络整体训练：完成预训练后，开始整个网络的端到端训练。将分类损失L_cls和回归损失L_reg按照如下公式相加，即为最终的损失函数：

loss＝L_cls+λL_reg (7)

其中λ是一个人为设置的参数，用于平衡分类损失与回归损失的占比。整体训练中，在预训练时作为特征提取的编码器的前3层参数固定，后两层被训练微调。当训练到指定轮数时，经过测试选取指标最好的模型参数作为最终的训练结果。

本发明的一种具体实施例所涉及的关键参数如表1所示，部分图中标注的具体参数是以该实施参数为基准：

表1实施例具体参数

本发明所设计的目标跟踪模型网络具体训练流程如图7所示，其中具体训练过程以及该方案具体实施相关参数如下：

如图2所示，鉴别网络的实际结构可以由任务复杂度来定。一种具体的网络可由七个卷积层与三个全连接层组成，如表2所示，卷积层与池化层后接ReLU激活函数。

表2一种具体的鉴别器结构

在本发明的实施例中，实际训练时，对数据集中的视频序列进行预处理。根据标签信息，裁切获得127×127像素的对象帧F_o以及模板帧F_t，255×255像素的搜索帧F_c。

在每一个视频流中随机选取100个对象帧F_o(如果数量不足100则选取所有对象帧)，将模板帧F_t与对象帧F_o做点对点相减，获得残差帧F_r，作为训练鉴别器的样本，其尺寸为127×127像素。

完成预处理后，进行特征提取的预训练，将模板帧F_t送入编码器-解码器，输出解码结果

优化编码器-解码器损失。将/>

送入鉴别器，优化鉴别器损失。当二者损失达到纳什均衡时结束训练，完成特征提取预训练。

完成特征提取预训练后，进行网络的整体训练，网络整体如图1所示包括两个特征提取网络E₁与E₂以及一个区域推荐网络RPN。其中特征提取网络E₁与E₂与预训练中编码器结构完全一致，并且将预训练中获得的编码器模型作为E₁与E₂的预训练模型，并在整体训练阶段固定E₁与E₂的前3层参数。

将模板帧F_t和搜索帧F_c送入特征提取网络E₁与E₂，获得模板帧特征Conv(F_t)，尺寸为15×15×256；搜索帧特征Conv(F_c)，尺寸为31×31×256。

将模板帧特征Conv(F_t)与搜索帧特征Conv(F_c)送入区域推荐网络RPN。区域推荐网络具体结构如图4所示，包括四个进行卷积操作的卷积层，以及两处进行互相关运算的节点。共设置5种锚框，即k＝5。首先将Conv(F_t)进行裁切，裁切掉周围部分元素，尺寸变为7×7×256，之后通过四个卷积层调整Conv(F_t)与搜索帧的混合特征Conv(F_c)的通道数，分别可以获得：[Conv(F_t)]_c，尺寸为5×5×(10×256)；[Conv(F_t)]_r，尺寸为5×5×(20×256)；[Conv(F_c)]_c，尺寸为29×29×256；[Conv(F_c)]_r，尺寸为29×29×256。

分别将[Conv(F_t)]c与[Conv(F_c)]c、[Conv(F_t)]r与[Conv(F_c)]r进行互相关运算，可以获得分类结果CLS和回归结果REG，其中CLS的尺寸为25×25×10，REG的尺寸为25×25×20。

根据式(3)～(7)计算损失并进行优化。当达到了设定的训练轮数50轮后，即结束训练进行测试。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合；本领域的技术人员根据本发明技术方案的技术特征所做出的任何非本质的添加、替换，均属于本发明的保护范围。

Claims

1.一种基于编解码结构的目标跟踪方法，其特征在于，该方法通过目标跟踪网络模型实现，所述目标跟踪网络模型的结构主要由三部分组成，第一部分是编码器-解码器部分：其中通过由卷积神经网络构成的编码器提取出模板帧和搜索帧的深层特征，其中，模板帧为被搜索的对象图像；搜索帧用于寻找被搜索对象的位置，而解码器在训练部分，将模板帧的深层特征还原回该对象图像；第二部分是鉴别网络，用于鉴别解码器输出的图像与输入解码器的图像是否属于同一对象；第三部分是确定对象位置：通过将提取出的模板帧特征与搜索帧特征送入区域推荐网络，获得被跟踪物体的位置；

所述目标跟踪网络模型的训练过程主要由两个阶段组成，第一个阶段是特征提取预训练：通过编码器-解码器结构与生成对抗网络，学习到训练集中的跟踪对象的深层特征，得到特征提取部分的预训练模型；第二个阶段是所述目标跟踪网络模型的整体训练阶段，通过对整个所述目标跟踪网络进行端到端的训练，完成对区域推荐网络的训练以及对特征提取部分的微调；

具体地，该方法包括以下步骤：

(1)数据集预处理：目标跟踪所使用的数据集是由许多的视频流及其对应的标签所组成，标签标注有每一帧对象的位置以及包围框的长宽，通过标签，将视频流中的每一帧图像进行裁切，以跟踪对象为中心裁切成w_o×h_o像素的对象帧F_o和w_c×h_c像素的搜索帧F_c，w_o<w_c,h_o<h_c,其中属于该视频流中的第一帧对象帧F_o为该视频流的模板帧F_t，且二者尺寸相同；完成裁切后，在每一个视频流中，随机挑选n个对象帧F_o，将模板帧F_t与对象帧F_o做点对点相减，获得残差帧F_r，作为训练鉴别网络的样本；

(2)设计编码器：编码器用于图像的特征提取，由深度残差网络组成，特征提取部分为两个经过预训练的编码器E₁、E₂，这两个编码器参数共享，两个编码器分别输入模板帧F_t与搜索帧F_c，通过一系列卷积、下采样、激活函数后，输出模板帧特征Conv(F_t)与搜索帧特征Conv(F_c)，这两个编码器之间参数共享，保证其提取特征具有一致性，其中输入模板帧F_t尺寸为w_t×h_t×3，搜索帧F_c尺寸为w_c×h_c×3；输出模板帧特征Conv(F_t)尺寸为w_t-conv×h_t-conv×C_cd，搜索帧特征Conv(F_c)尺寸为w_c-conv×h_c-conv×C_cd；解码器的结构与编码器对称，解码器输入是尺寸为w_t-conv×h_t-conv×C_de的模板帧特征Conv(F_t)，通过一系列卷积、上采样、激活函数后输出尺寸为w_t×h_t×3的解码模板帧对象

(3)设计鉴别网络：鉴别网络为一个卷积神经网络，输入为解码模板帧与模板帧的残差

通过卷积，下采样，全连接层，激活函数，输出模板帧与解码出的模板帧为同一对象的概率；

(4)编码器-解码器预训练：编码器为网络的特征提取部分，同时使用一个对称的解码器，组成编码器-解码器结构，同时与一个鉴别网络一起，组成了一个类生成对抗网络结构；如果解码器使用上述深度残差网络，解码器与编码器网络结构对称，将编码器网络中的所有残差模块按逆序放置，同时将编码器中所用到的步长为2的卷积替换为步长为2的反卷积，池化层替换成上采样层，即为对应的解码器结构；

鉴别网络用于鉴别/>

是否在可接受范围，即判断F_t与/>

是否是同一对象；所述类生成对抗网络的训练优化目标如下所示：

其中EG对应编码器-解码器，相当于一般生成对抗网络的生成网络，但其输入不再是噪声而是模板帧F_t，D对应鉴别网络，其作用与一般生成对抗网络的鉴别网络相同，输出范围是0～1，数值越大表示F_t与

是同一对象的可能性越高；/>

表示当x服从F_r的概率分布时，log(D(x))的期望；D(x)表示鉴别器在输入为x时的输出，也就是对x的鉴别结果；/>

表示当z服从F_t的概率分布时,log(1-D(EG(z)-F_t))的期望；EG(z)表示编码器-解码器在输入为z时的输出，D(EG(z)-F_t)表示对EG(z)-F_t的鉴别结果；当达到纳什均衡后，即编码器-解码器预训练完成，其编码器部分即为该目标跟踪网络模型的特征提取网络；

(5)设计区域推荐网络：区域推荐网络输入模板帧特征Conv(F_t)与搜索帧特征Conv(F_c)，输出被跟踪对象的可能位置与其包围框的长宽；输入Conv(F_t)与Conv(F_c)后，首先将Con v(F_t)从中心裁剪为w_t-conv-cut×h_t-conv-cut×256的尺寸，得到Conv(F_t)_cut，之后通过卷积调整Conv(F_t)_cut与Conv(F_c)的尺寸，并进行互相关运算，输出尺寸为w_res×h_res×2k的分类结果CLS与w_res×h_res×4k的回归结果REG，输出的结果的w_res×h_res维度与搜索帧w_c×h_c在空间上对应，每个位置上有k个设置了比例和大小的锚定框；CLS的2k个通道代表了网络预测的k种锚框包含目标的概率P_pos和不包含目标的概率P_neg；REG的4k个通道代表了网络预测的k种锚框与实际目标框的长宽差异和位置差异，分别为dx，dy，dw，dh；其与实际目标框的关系为：

其中A_x、A_y表示参考框的中心点，由其所在位置决定，A_w、A_h表示参考框的宽高，这是人为预先设定的，T_x、T_y、T_w、T_h表示目标的坐标与长宽的真实值；

(6)选取分类损失函数：所述目标跟踪网络的输入为模板帧F_t与搜索帧F_c，输出为对应锚定框的分类结果CLS与回归结果REG；所述目标跟踪网络的损失函数由分类损失L_cls和回归损失L_reg构成，分类损失L_cls使用Focal Loss，公式如下所示：

y表示标签值，

表示实际分类值，即P_pos，其中α为平衡因子，平衡正负样本本身的数量比例不均，γ用于减少易分类样本的损失，当γ>0时使得该目标跟踪网络关注于困难的、错分的样本；

L_DIoU＝1-DIoU (4)

其中：

b和

分别代表真实包围框和预测包围框中心点，/>

分别代表真实包围框和预测包围框的面积；

(8)目标跟踪网络整体训练：完成所述步骤4)的预训练后，开始整个目标跟踪网络的端到端训练，将分类损失L_cls和回归损失L_reg按照如下公式相加，即为最终的损失函数：

loss＝L_cls+λL_reg (7)

其中λ是一个人为预先设置的参数，用于平衡分类损失与回归损失的占比；整体训练中，在编码器-解码器预训练时作为特征提取的编码器的前3层参数固定，后两层被训练微调；当训练到预先指定轮数时，经过测试选取指标最好的模型参数作为最终的训练结果。

2.根据权利要求1所述的基于编解码结构的目标跟踪方法，其特征在于，所述鉴别网络的结构包括依次连接的1层包含64个尺寸为7×7的卷积核，stride＝2的卷积层、1层尺寸为2×2的池化层、3层包含128个尺寸为3×3的卷积核，stride＝1的卷积层、1层尺寸为2×2的池化层、3层包含256个尺寸为3×3的卷积核，stride＝1的卷积层、1层包含4096个神经元节点的全连接层、1层包含1000个神经元节点的全连接层和1层包含1个神经元节点的全连接层，即输出层，并且每层卷积层与池化层后均接ReLU激活函数。

3.根据权利要求2所述的基于编解码结构的目标跟踪方法，其特征在于，所述w_o×h_o像素为127×127，w_c×h_c像素为255×255，w_t-conv×h_t-conv×C_cd为15×15×256，w_c-conv×h_c-conv×C_cd为31×31×256，w_t-conv-cut×h_t-conv-cut×256为7×7×256，w_res×h_res×2k为25×25×10，w_res×h_res×4k为25×25×20。

4.根据权利要求3所述的基于编解码结构的目标跟踪方法，其特征在于，所述步骤8)中所述预先指定轮数为50。