CN110033478A

CN110033478A - 基于深度对抗训练的视觉目标跟踪方法和装置

Info

Publication number: CN110033478A
Application number: CN201910294731.4A
Authority: CN
Inventors: 姬晓晨
Original assignee: Beijing Yingpu Technology Co Ltd
Current assignee: Beijing Yingpu Technology Co Ltd
Priority date: 2019-04-12
Filing date: 2019-04-12
Publication date: 2019-07-19
Also published as: US10970854B2; US20200327680A1

Abstract

本申请公开了一种基于深度对抗训练的视觉目标跟踪方法和装置。其中，方法包括：将视频数据的每一个视频帧划分为若干个搜索区域；对于每一个搜索区域，将目标模板和该搜索区域输入到响应图回归网络中，输出所述目标对应的响应图；对于每一个搜索区域，将目标模板、该搜索区域和响应图输入到判别网络中，输出该搜索区域的得分；将得分最高的搜索区域对应的定位信息作为目标在该视频帧中的定位信息。该方法可以通过构建多个搜索区域对目标进行跟踪，能够对长宽比变化的目标进行有效跟踪。通过判别网络对响应图的回归结果进行打分，能够提高判别的准确性。通过将响应图回归网络和判别网络进行联合，能够实现端到端的处理。

Description

基于深度对抗训练的视觉目标跟踪方法和装置

技术领域

本申请涉及计算机视觉领域，具体涉及一种基于深度对抗训练的视觉目标跟踪方法和装置。

背景技术

视觉目标跟踪作为计算机视觉领域一个基础方向，在智能视频监控、人机交互、自动驾驶、机器人导航等方向具有广泛的应用。但在实际应用场景中，尺度变化、遮挡、运动模糊等因素会对跟踪结果产生很大的负面影响。很多基于手工特征，例如，颜色特征、方向梯度特征、尺度不变特征等的跟踪器在很多情况下不能很好地对目标外观进行有效的建模，造成跟踪器容易发生跟踪失败。

近年来，深度学习算法广泛应用于计算机视觉领域。由于其可以从海量数据中自动的学习鲁棒的特征，可以获得比手工设计的特征更好的效果。

现有的基于深度学习的视觉目标跟踪算法主要具有以下不足：第一，大多数跟踪算法对长宽比可变的目标跟踪性能较差；第二，跟踪过程中需要提取大量的候选区域，造成计算量过大；第三，跟踪过程中响应图的回归结果不够精确，容易造成误差的大量积累；第四，回归和分类任务分别训练，无法在一个统一的框架下进行端到端的训练。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的第一个方面，提供了一种视觉目标跟踪方法，包括：

搜索区域划分步骤：对于视频数据的每一个视频帧，将该视频帧划分为若干个搜索区域；

定位信息计算步骤：对于每一个搜索区域，将目标模板和该搜索区域输入到响应图回归网络中，输出所述目标对应的响应图，所述响应图表示所述目标模板中的目标在该搜索区域中的定位信息；

判别步骤：对于每一个搜索区域，将所述目标模板、该搜索区域和所述响应图输入到判别网络中，输出该搜索区域的得分；

定位步骤：将得分最高的搜索区域对应的定位信息作为目标在该视频帧中的定位信息。

该方法可以通过构建多个搜索区域对目标进行跟踪，即使目标的长宽比变化，也能进行有效跟踪。通过判别网络对响应图的回归结果进行打分，能够提高判别的准确性，减少误差的积累。通过将响应图回归网络和判别网络进行联合，能够实现端到端的处理，操作简单，自动化程度高。

可选地，所述响应图回归网络包括：

第一编码子网络：包括依次相连的第一数量的卷积层，输入为所述目标模板；

第二编码子网络：与所述第一编码子网络结构相同且权值共享，输入为所述搜索区域；

拼接层：分别与所述第一编码子网络的输出端和所述第二编码子网络的输出端连接；

解码器：包括第二数量的依次相连的反卷积层，其输入端与所述拼接层的输出端连接，并且输出所述目标对应的响应图，所述响应图表示所述目标模板中的目标在该搜索区域中的定位信息。

该方法能够通过响应图对搜索区域的特征进行表征，和生成特征值的方式相比，能保留更多的搜索区域的图像信息，采用结构相同参数共享的子网络，能够提高训练和计算的速度，对于视频数据而言，能够满足实时处理的需求。

可选地，所述判别网络包括：

输入模块：将所述目标模板、该搜索区域和所述响应图输入到输入模块中，该输入模块将所述目标模板、该搜索区域和所述响应图在通道数方向上进行合并，输出第一张量；

判别子网络：包括依次相连的第三数量的卷积层、向量处理层和输出层，其中，所述向量处理层将所述判别子网络中最后一个卷积层输出的第二张量处理成一维向量并输出给所述输出层，所述输出层输出该搜索区域的得分。

可选地，所述定位信息包括：位置坐标和尺寸信息。

可选地，该方法还包括：

目标模板更新步骤：每隔预设的时间段，利用该时间段中得分最高的搜索区域中目标所在的图像部分更新目标模板。

可选地，所述响应图回归网络采用以下步骤进行训练：

对于视频序列中的每一个视频帧，利用包围盒坐标对目标物进行标注；

生成训练数据，所述训练数据包括目标模板、搜索区域和响应图，所述训练数据的生成方法包括：从所述视频序列中随机抽取相邻的第一视频帧和第二视频帧，以目标包围框M倍大小从第一视频帧中裁剪出目标模板，分别以K倍大小从第二视频帧中裁剪出搜索区域，其中，M大于1，K大于1；在目标模板中，目标位于中心位置，在所述搜索区域中，目标物均匀分布出现在各个位置，依据目标在所述搜索区域的位置，生成对应的响应图，在所述响应图中，最大响应值位置对应目标中心，目标包围框范围之外的部分响应值为0；利用所述训练数据的集合，训练基于深度自编码结构的响应图回归网络。

可选地，所述判别网络采用以下步骤进行训练：

对于训练数据中的响应图进行打分并对分数进行标记，其中，所述训练数据包括：目标模板、搜索区域和响应图；

利用所述训练数据和响应图的分数，训练判别网络。

可选地，对所述响应图回归网络和所述判别网络进行交替训练。

可选地，所述交替训练包括：训练所述响应图回归网络时，反向传播的误差包括：与真实的响应图之间的均方误差和所述判别网络回传的softmax误差；所述判别网络基于所述反向传播的误差对响应图进行打分。

根据本申请的第二个方面，提供了一种视觉目标跟踪装置，包括：

搜索区域划分模块，其配置成用于对于视频数据的每一个视频帧，将该视频帧划分为若干个搜索区域；

定位信息计算模块，其配置成用于对于每一个搜索区域，将目标模板和该搜索区域输入到响应图回归网络中，输出所述目标对应的响应图，所述响应图表示所述目标模板中的目标在该搜索区域中的定位信息；

判别步骤模块，其配置成用于对于每一个搜索区域，将所述目标模板、该搜索区域和所述响应图输入到判别网络中，输出该搜索区域的得分；和

定位模块，其配置成用于将得分最高的搜索区域对应的定位信息作为目标在该视频帧中的定位信息。

该装置可以通过构建多个搜索区域对目标进行跟踪，即使目标的长宽比变化，也能进行有效跟踪。通过判别网络对响应图的回归结果进行打分，能够提高判别的准确性，减少误差的积累。通过将响应图回归网络和判别网络进行联合，能够实现端到端的处理，操作简单，自动化程度高。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解的是，这些附图未必是按比例绘制的。在附图中：

图1是运行根据本申请一个实施例的视觉目标跟踪方法的计算机装置硬件结构示意图；

图2是根据本申请的一个实施例的视觉目标跟踪方法的示意性流程图；

图3是根据本申请的一个实施例的响应图回归网络的示意性框图；

图4是根据本申请的一个实施例的判别网络的示意性框图；

图5是根据本申请的另一个实施例的视觉目标跟踪方法的示意性流程图；

图6是根据本申请的一个实施例的视觉目标跟踪装置的示意性框图；

图7是本申请的计算设备的一个实施例的框图；

图8是本申请的计算机可读存储介质的一个实施例的框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例，还提供了一种视觉目标跟踪方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1是运行根据本申请一个实施例的视觉目标跟踪方法的计算机装置硬件结构示意图。如图1所示，计算机装置10(或移动设备10)可以包括一个或多个处理器(图中采用102a、102b，……，102n来示出，处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机装置10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机装置10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中视觉目标跟踪方法对应的程序指令/数据存储装置，处理器通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算机装置10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机装置10的通信供应商提供的无线网络。在一个实例中，传输装置包括一个网络适配器(Network Interface Controller,NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机装置10(或移动设备)的用户界面进行交互。

在上述运行环境下，本申请提供了一种视觉目标跟踪方法。图2是根据本申请的一个实施例的视觉目标跟踪方法的示意性流程图。该方法可以包括：

S100搜索区域划分步骤：对于视频数据的每一个视频帧，将该视频帧划分为若干个搜索区域；

S300定位信息计算步骤：对于每一个搜索区域，将目标模板和该搜索区域输入到响应图回归网络中，输出所述目标对应的响应图，所述响应图表示所述目标模板中的目标在该搜索区域中的定位信息；

S500判别步骤：对于每一个搜索区域，将所述目标模板、该搜索区域和所述响应图输入到判别网络中，输出该搜索区域的得分；

S700定位步骤：将得分最高的搜索区域对应的定位信息作为目标在该视频帧中的定位信息。

可选地，所述定位信息包括：位置坐标和尺寸信息。

该方法还可以包括：目标模板更新步骤：每隔预设的时间段，利用该时间段中得分最高的搜索区域中目标所在的图像部分更新目标模板。

该方法能够随着目标的变化进行目标模板的更新，从而能够提高后续对比的准确性。

图3是根据本申请的一个实施例的响应图回归网络的示意性框图。所述响应图回归网络可以包括：依次连接的编码器、拼接层和解码器。

其中，编码器包括：第一编码子网络和第二编码子网络。其中第一编码子网络：包括依次相连的第一数量的卷积层，输入为所述目标模板；第二编码子网络：与所述第一编码子网络结构相同且权值共享，输入为所述搜索区域。

拼接层：分别与所述第一编码子网络的输出端和所述第二编码子网络的输出端连接。

在一个可选实施方案中，两个编码子网络的每个卷积层输出包含32、64、128、256、512、512、512、512个特征图；所述的解码器的反卷积层输出包含512、256、128、64、32、16、8、1个特征图；每个卷积层后接有1个批归一化层和1个ReLU层；每个反卷积层(除最后一个反卷积层)后接有1个批归一化层和1个ReLU层。

所述响应图回归网络采用以下步骤进行训练：对于视频序列中的每一个视频帧，利用包围盒坐标对目标物进行标注；基于该视频帧中包围盒坐标围成的部分生成响应图，将目标模板、搜索区域和响应图组成训练数据；利用所述训练数据的集合，训练基于深度自编码结构的响应图回归网络。

所述训练数据的生成方法包括：从所述视频序列中随机抽取相邻的第一视频帧和第二视频帧，以目标包围框M倍大小从第一视频帧中裁剪出目标模板，以目标模板K倍大小从第二视频帧中裁剪出搜索区域。其中，M大于1，优选为4，例如，分别以目标模板长2倍和宽2倍的大小为从第二视频帧中裁剪出搜索区域。可选地，K大于1，优选地，K范围为1.4至3.6；在目标模板中，目标位于中心位置，在所述搜索区域中，目标物均匀分布出现在各个位置，依据目标在所述搜索区域的位置，生成对应的响应图，可选地，响应图服从高斯分布。在所述响应图中，最大响应值位置对应目标中心，目标包围框范围之外的部分响应值为0。

在训练阶段，可以将目标模板图像和搜索区域图像都缩放到256×256大小，且保证为3个通道，然后再进行归一化操作，即对每个通道进行减均值除方差。

在一个可选实施方案中，响应图回归网络具体可以采用以下步骤进行训练：

步骤A1，收集并标注大量视频序列，作为响应图回归模型的训练数据集。标注方式为在每一个视频序列的每一帧图像上利用矩形最小包围盒标注同一个目标物体，记录包围盒左上角和右下角的坐标值。其中，坐标值根据对应图像的大小归一化到0至1之间。同一个视频序列中只标注同一个目标。

步骤A2，利用标注好的训练数据集，生成用于训练响应图回归网络的训练数据。每组训练数据包含一个目标模板、一个搜索区域图像，以及一个对应的响应图。具体生成方式为：从训练数据中随机抽取最大间隔为10帧的两帧图像，分别为P1和P2。在P1中，以标注的矩形框中点为中心，截取对应长宽分别为2倍的区域为目标模板，相似的，从P2中截取搜索区域。不同点为，搜索区域的位置以目标中心点为中心高斯分布，长宽皆为原目标长宽的1.7至2.3倍。响应图真值图像中，背景区域响应值为0，目标区域响应值为高斯形状分布，目标中心取最大值1。

步骤A3，利用生成的训练数据，训练基于深度自编码结构的响应图回归网络模型，并输出训练好的响应图回归网络。训练过程中对初始学习率为、批量大小为、网络的最大训练轮数进行设置。

所述基于深度自编码结构的响应图回归网络模型的损失为均方差损失。

图4是根据本申请的一个实施例的判别网络的示意性框图。可选地，所述判别网络可以包括：输入模块和判别子网络。

其中，输入模块：将所述目标模板、该搜索区域和所述响应图输入到输入模块中，该输入模块将所述目标模板、该搜索区域和所述响应图在通道数方向上进行合并，输出第一张量。

在一个可选实施方案中，判别子网络可以包含5个卷积层和一个输出层，每个卷积层后面接有一个批归一化层和ReLU层。输出层包含2个神经元。5个卷积层卷积核都为5×5，步长为2.输出特征图通道数分别为32、64、128、256、512。

所述判别网络可以采用以下步骤进行训练：对于训练数据中的响应图进行打分并对分数进行标记，其中，所述训练数据包括：目标模板、搜索区域和响应图；利用所述训练数据和响应图的分数，训练判别网络。分数可以包括多种形式，例如，具体分数值或者分数段。其中，分数段可以分成若干等级。例如，非常相似、比较相似、不相似三个等级；或者相似(真)和不相似(假)两个等级。

在一个可选实施方案中，所述判别网络可以采用以下步骤进行训练：

步骤B1，利用步骤A1生成的训练数据集生成相应的训练数据。训练数据分为三组G1、G2和G3，分别为：G1包含目标模板、搜索区域以及生成的真实响应图；G2包含目标模板、搜索区域以及生成的假响应图；G3包含目标模板、搜索区域以及响应图回归模型预测的对应的响应图。其中，生成的假响应图中，目标区域与真实标注框的交并比小于0.3。

步骤B2，利用生成的训练数据，训练基于深度卷积神将网络的判别网络模型，并输出训练好的判别网络模型。即G1为输入时，判别网络输出为真，G2和G3输入时，判别网络输出为假。且在输入每一组时，将每一组的三幅图像在通道数方向上进行合并，即网络输入为大小为256×256×7的张量，其中，7包含：目标模板通道数3+搜索区域图像通道数3+响应图通道数1。损失函数为softmax损失。训练过程中可以对初始学习率、批量大小为、网络的最大训练轮数进行设置。

可选地，可以对所述响应图回归网络和所述判别网络进行交替训练。所述交替训练包括：训练所述响应图回归网络时，反向传播的误差包括：与真实的响应图之间的均方误差和所述判别网络回传的softmax误差。所述判别网络基于所述反向传播的误差对响应图进行打分，例如，可以将响应图回归网络生成的响应图以及对应的输入(目标模板和搜索区域)判定为真。训练判别网络时，训练方式同步骤B2。训练过程中可以对初始学习率、批量大小为、网络的最大训练轮数进行设置。

在训练好两个模型后，可以进行视觉目标跟踪。图5是根据本申请的另一个实施例的视觉目标跟踪方法的示意性流程图。在一个可选实施方案中，视觉目标跟踪可以包括如下步骤：

步骤C1，在跟踪过程中，保存1个目标模板，每隔10帧进行模板更新，并提取12个高斯分布的搜索区域，利用步骤A3输出的响应图回归网络预测目标模板在每个搜索区域中的位置以及尺度；

步骤C2，利用回归得到的响应图和对应的目标模板和搜索区域输入判别网络，输出每一组的得分；

步骤C3，根据步骤C2预测的得分大小，选取得分最大的一组预测最终目标在当前帧的位置和尺度信息。

本申请的实施例还公开了一种视觉目标跟踪装置。图6是根据本申请的一个实施例的视觉目标跟踪装置的示意性框图。该装置可以包括：

搜索区域划分模块100，其配置成用于对于视频数据的每一个视频帧，将该视频帧划分为若干个搜索区域；

定位信息计算模块300，其配置成用于对于每一个搜索区域，将目标模板和该搜索区域输入到响应图回归网络中，输出所述目标对应的响应图，所述响应图表示所述目标模板中的目标在该搜索区域中的定位信息；

判别步骤模块500，其配置成用于对于每一个搜索区域，将所述目标模板、该搜索区域和所述响应图输入到判别网络中，输出该搜索区域的得分；

定位模块700，其配置成用于将得分最高的搜索区域对应的定位信息作为目标在该视频帧中的定位信息。

该装置还可以包括：目标模板更新模块，其配置成用于每隔预设的时间段，利用该时间段中得分最高的搜索区域中目标所在的图像部分更新目标模板。

本申请的实施例的一个方面提供了一种计算设备，参照图7，该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序，该计算机程序存储于存储器1120中的用于程序代码的空间1130，该计算机程序在由处理器1110执行时实现用于执行任一项根据本申请的方法步骤1131。

本申请的实施例的一个方面还提供了一种计算机可读存储介质。参照图8，该计算机可读存储介质包括用于程序代码的存储单元，该存储单元设置有用于执行根据本申请的方法步骤的程序1131’，该程序被处理器执行。

本申请实施例的一个方面还提供了一种包含指令的计算机程序产品，包括计算机可读代码，当所述计算机可读代码由计算设备执行时，导致所述计算设备执行如上所述的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种视觉目标跟踪方法，包括：

判别步骤：对于每一个搜索区域，将所述目标模板、该搜索区域和所述响应图输入到判别网络中，输出该搜索区域的得分；和

2.根据权利要求1所述的方法，其特征在于，所述响应图回归网络包括：

拼接层：分别与所述第一编码子网络的输出端和所述第二编码子网络的输出端连接；和

3.根据权利要求1或2所述的方法，其特征在于，所述判别网络包括：

输入模块：将所述目标模板、该搜索区域和所述响应图输入到输入模块中，该输入模块将所述目标模板、该搜索区域和所述响应图在通道数方向上进行合并，输出第一张量；和

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述定位信息包括：位置坐标和尺寸信息。

5.根据权利要求1至4中任一项所述的方法，其特征在于，该方法还包括：

6.根据权利要求1至4中任一项所述的方法，其特征在于，所述响应图回归网络采用以下步骤进行训练：

生成训练数据，所述训练数据包括目标模板、搜索区域和响应图，所述训练数据的生成方法包括：从所述视频序列中随机抽取相邻的第一视频帧和第二视频帧，以目标包围框M倍大小从第一视频帧中裁剪出目标模板，以目标模板K倍大小从第二视频帧中裁剪出搜索区域，其中，M大于1，K大于1；在目标模板中，目标位于中心位置，在所述搜索区域中，目标物均匀分布出现在各个位置，依据目标在所述搜索区域的位置，生成对应的响应图，在所述响应图中，最大响应值位置对应目标中心，目标包围框范围之外的部分响应值为0；和

利用所述训练数据的集合，训练基于深度自编码结构的响应图回归网络。

7.根据权利要求1至4中任一项所述的方法，其特征在于，所述判别网络采用以下步骤进行训练：

对于训练数据中的响应图进行打分并对分数进行标记，其中，所述训练数据包括：目标模板、搜索区域和响应图；和

利用所述训练数据和响应图的分数，训练判别网络。

8.根据权利要求1所述的方法，其特征在于，对所述响应图回归网络和所述判别网络进行交替训练。

9.根据权利要求8所述的方法，其特征在于，所述交替训练包括：训练所述响应图回归网络时，反向传播的误差包括：与真实的响应图之间的均方误差和所述判别网络回传的softmax误差；所述判别网络基于所述反向传播的误差对响应图进行打分。

10.一种视觉目标跟踪装置，包括：