CN110060274A

CN110060274A - 基于深度稠密连接的神经网络的视觉目标跟踪方法和装置

Info

Publication number: CN110060274A
Application number: CN201910294717.4A
Authority: CN
Inventors: 姬晓晨
Original assignee: Beijing Yingpu Technology Co Ltd
Current assignee: Beijing Yingpu Technology Co Ltd
Priority date: 2019-04-12
Filing date: 2019-04-12
Publication date: 2019-07-26
Also published as: US10916021B2; US20200327679A1

Abstract

本申请公开了一种基于深度稠密连接的神经网络的视觉目标跟踪方法和装置。其中，方法包括：数据输入步骤：将视频数据中第一视频帧的目标图像和第二视频帧输入深度稠密连接的神经网络；目标跟踪步骤：基于所述目标图像，利用经过训练的所述深度稠密连接的神经网络对所述第二视频帧进行目标检测；和跟踪结果输出步骤：输出所述第二视频帧中目标的包围盒坐标和相似图，基于所述包围盒坐标确定目标的长和宽，基于所述相似图中最大值位置确定目标的中心位置。该方法采用深度稠密连接的神经网络，能够充分利用浅层特征，从而为目标对比和跟踪提供更为精确的位置信息。

Description

基于深度稠密连接的神经网络的视觉目标跟踪方法和装置

技术领域

本申请涉及计算机视觉领域，特别是涉及一种基于深度稠密连接的神经网络的视觉目标跟踪方法和装置。

背景技术

在计算机视觉领域，如何在视频序列中跟踪一个任意目标是一个非常具有挑战性的问题。首先，由于目标类别的不确定性，需要算法具有提取目标鲁棒特征的能力。其次，在跟踪过程中误差的积累会造成跟踪失败，因此需要算法可以对目标进行精确定位。同时，很多应用场景需要跟踪算法可以实时运行。由于传统的手工特征无法满足鲁棒性的要求，即当目标发生非刚体形变、平面外旋转、运动模糊等变化时，基于传统手工特征的跟踪器容易发生跟踪失败。

近年来，随着深度学习算法的发展，基于深度特征的算法取得了巨大的成功。由于可以利用大量的训练数据进行端到端的训练，深度卷积神经网络可以通过学习提取得到目标鲁棒的特征，即可以适应多种跟踪环境(如非刚体形变、平面外旋转、运动模糊等)。同时，通过充分利用不同卷积层提取得到的特征，跟踪算法可以对目标进行更为精确的定位。

现有的基于深度学习的视觉目标跟踪算法尚有如下不足：首先，跟踪器仅利用深度卷积网络的深层特征，而没有充分利用浅层特征。然而，由于浅层特征具有较大的分辨率，其可以提供更为精确的位置信息。其次，大多数跟踪器所利用的卷积神经网络在训练过程中仅考虑回归损失或分类损失中的一种，因而不能对网络进行更为全面的训练。最后，由于不能学习得到鲁棒的特征，很多跟踪器需要通过在线训练对深度卷积神经网络的参数进行微调，这一过程导致此类跟踪器无法实时运行。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的第一个方面，提供了一种基于深度稠密连接的神经网络的视觉目标跟踪方法，包括：

数据输入步骤：将视频数据中第一视频帧的目标图像和第二视频帧输入深度稠密连接的神经网络；

目标跟踪步骤：基于所述目标图像，利用经过训练的所述深度稠密连接的神经网络对所述第二视频帧进行目标检测；

跟踪结果输出步骤：输出所述第二视频帧中目标的包围盒坐标和相似图，基于所述包围盒坐标确定目标的长和宽，基于所述相似图中最大值位置确定目标的中心位置。

该方法采用深度稠密连接的神经网络，能够充分利用浅层特征，从而为目标对比和跟踪提供更为精确的位置信息。

可选地，所述深度稠密连接的神经网络包括：第一子网络、第二子网络和全连接层，其中，所述第一子网络的输入为所述第一视频帧的目标图像，所述第一子网络的输入为所述第二视频帧，所述第一子网络和所述第二子网络均与所述全连接层连接，所述全连接层具有两个输出支路，分别是包围盒坐标输出支路和相似图输出支路。

该方法的卷积神经网络模型采用深度稠密连接，通过各种连接关系的设置，不但能够利用深层特征，还能充分利用浅层特征，通过深层特征和浅层特征的综合利用，能够生成更加精确的目标位置信息，从而使得跟踪结果更稳定。

可选地，所述第一子网络和所述第二子网络结构相同且参数共享。

该方法可以减少权重计算的数据量，每个神经元只关心少数特征，使得需要估算的参数数量减少，从而提高计算速度。

可选地，所述第一子网络和/或第二子网络包括：依次相连的第一卷积层、第一池化层、第一稠密连接块、第一转换层、第二池化层、第二稠密连接块、第二转换层、第三池化层、第三稠密连接块、第三转换层、第四池化层和拼接层。

可选地，所述第一稠密连接块、所述第二稠密连接块和所述第三稠密连接块具有相同的结构，包括：三个卷积层，每个卷积层的卷积核大小为3×3，步长为1，输出特征图的个数为12，每一个卷积层都与其前面的所有卷积层的输出相连。

可选地，所述深度稠密连接的神经网络的损失函数包括：回归损失和相似性损失，其中，所述回归损失采用L1损失，所述相似性损失为交叉熵损失，总的损失函数为所述L1损失和所述交叉熵损失之和。

本申请的方法的损失函数同时考虑了回归损失和相似性损失，从而能够对网络进行更为全面的训练。

可选地，所述深度稠密连接的神经网络采用以下步骤训练：

视频帧选择步骤：从训练视频数据集中随机选择包含同一目标的第三视频帧和第四视频帧；

图像生成步骤：基于所述第三视频帧生成目标模板图像，基于所述第四视频帧生成搜索区域图像；

训练数据生成步骤：根据所述目标模板图像中的目标在所述搜索区域图像的位置生成对应的包围盒坐标的真值和相似图的真值，从而得到训练数据以训练所述深度稠密连接的神经网络。

可选地，在所述图像生成步骤中：以所述第三视频帧中目标的包围盒坐标为中心，从所述第三视频帧中截取部分图像，所述部分图像的长和宽分别为包围盒的长和宽的M倍，M>1，对所述部分图像进行归一化处理得到所述目标模板图像。

可选地，在所述图像生成步骤中：在所述第四视频帧中，依据均匀分布原则确定若干个搜索区域的中心位置，根据包围盒的面积的K倍的面积确定搜索区域的面积，其中，K>2，在所述第四视频帧中搜索目标，对搜索结果进行归一化处理得到所述搜索区域图像。

根据本申请的第二个方面，还提供了一种基于深度稠密连接的神经网络的视觉目标跟踪装置，包括：

数据输入模块，其配置成用于将视频数据中第一视频帧的目标图像和第二视频帧输入深度稠密连接的神经网络；

目标跟踪模块，其配置成用于基于所述目标图像，利用经过训练的所述深度稠密连接的神经网络对所述第二视频帧进行目标检测；

跟踪结果输出模块，其配置成用于输出所述第二视频帧中目标的包围盒坐标和相似图，基于所述包围盒坐标确定目标的长和宽，基于所述相似图中最大值位置确定目标的中心位置。

该装置采用深度稠密连接的神经网络，能够充分利用浅层特征，从而为目标对比和跟踪提供更为精确的位置信息。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解的是，这些附图未必是按比例绘制的。在附图中：

图1是运行根据本申请一个实施例的视觉目标跟踪方法的计算机装置硬件结构示意图；

图2是根据本申请的一个实施例的基于深度稠密连接的神经网络的示意性框图；

图3是根据本申请的一个实施例的神经网络的子网络的示意性框图；

图4是根据本申请的一个实施例的神经网络的稠密连接块的示意性框图；

图5是根据本申请的一个实施例的神基于深度稠密连接的神经网络的视觉目标跟踪方法的示意性流程图；

图6a、图6b、图6c是据本申请的一个实施例的方法得到的目标模板图像的示意图；

图6d、图6e、图6f是据本申请的一个实施例的方法得到的搜索区域图像的示意图；

图7是根据本申请的一个实施例的神基于深度稠密连接的神经网络的视觉目标跟踪装置的示意性框图；

图8是本申请的计算设备的一个实施例的框图；

图9是本申请的计算机可读存储介质的一个实施例的框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请提供了一种基于深度稠密连接的神经网络的视觉目标跟踪方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种运行本申请方法的计算机装置(或移动设备)的硬件结构框图。如图1所示，计算机装置10(或移动设备10)可以包括一个或多个处理器(图中采用102a、102b，……，102n来示出，处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机装置10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机装置10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本申请的方法对应的程序指令/数据存储装置，处理器通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算机装置10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机装置10的通信供应商提供的无线网络。在一个实例中，传输装置包括一个网络适配器(Network Interface Controller,NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机装置10(或移动设备)的用户界面进行交互。

在上述运行环境下，本申请提供了一种基于深度稠密连接的神经网络，该网络是实现视觉目标跟踪方法的基础。

图2是根据本申请的一个实施例的基于深度稠密连接的神经网络的示意性框图。本实施例提供的基于深度稠密连接的神经网络包括：第一子网络、第二子网络和全连接层，其中，所述第一子网络的输入为所述第一视频帧的目标图像，所述第一子网络的输入为所述第二视频帧，所述第一子网络和所述第二子网络均与所述全连接层连接，所述全连接层具有两个输出支路，分别是包围盒坐标输出支路和相似图输入支路。包围盒坐标输出支路，也称包围盒回归支路，直接输出目标在搜索区域中的位置坐标，相似图输入支路输出对应的相似图。

可选地，本申请中两个子网络结构可以相同且参数可以共享。每个子网络包括1个卷积层、3个稠密连接块、3个转换层、4个池化层和1个拼接层。图3是根据本申请的一个实施例的神经网络的子网络的示意性框图。所述第一子网络和/或第二子网络包括：依次相连的第一卷积层、第一池化层、第一稠密连接块、第一转换层、第二池化层、第二稠密连接块、第二转换层、第三池化层、第三稠密连接块、第三转换层、第四池化层和拼接层。所述第一卷积层的卷积核大小为7×7，步长为2，输出特征图的个数为16。其中，第一池化层、第二池化层、第三池化层和第四池化层的输出结果分别输入到拼接层。

图4是根据本申请的一个实施例的神经网络的稠密连接块的示意性框图。三个稠密连接块可以具有相同的结构。每个稠密连接块包含3个卷积层，每个卷积层的卷积核大小为3×3，步长为1，输出特征图的个数为12。在每一个稠密连接块中，每一个卷积层都与其前面的所有卷积层的输出相连。本申请中，三个稠密连接块的转换层可具有相同的网络结构，即都包含2个卷积层。这2个卷积层的卷积核大小分别为1×1和3×3，步长分别为1和2。输出特征图的个数分别为52、88、124。

深度稠密连接的神经网络的拼接层包含4个卷积核大小为1×1、步长为1的卷积层。该4个卷积层分别与第一个卷积层和3个转换层的输出相连。然后将每一个卷积层的输出拉长为一维向量，并拼接为一个向量。拼接层与全连接层连接。本申请中全连接层包括三个全连接层并且依次连接，分别包含4096、2048、2048个神经元。包围盒回归支路包含4个神经元，分别对应输出目标的左上角和右下角的坐标值。相似图输出支路尺寸为19×19，对应搜索区域中与目标模板相似的响应图。在第1个卷积层和每个转换层中的卷积层之后接有一个池化层，步长为2。

深度稠密连接的神经网络的损失函数由两部分构成，即，回归损失和相似性损失。其中，回归损失采用L1损失(平均绝对值误差)，即每个回归的坐标值与其对应的真值计算L1损失。相似性损失为交叉熵损失，即在17×17的输出响应图中，属于目标框范围内的元素真值为1，否则为0，训练时输出的每个元素与真值计算交叉熵损失。总的损失函数为L1损失和交叉熵损失的和。

本申请的实施例还公开了一种基于深度稠密连接的神经网络的视觉目标跟踪方法。图5是根据本申请的一个实施例的神基于深度稠密连接的神经网络的视觉目标跟踪方法的示意性流程图。该方法包括以下步骤：

S200数据输入步骤：将视频数据中第一视频帧的目标图像和第二视频帧输入深度稠密连接的神经网络；

S400目标跟踪步骤：基于所述目标图像，利用经过训练的所述深度稠密连接的神经网络对所述第二视频帧进行目标检测；

S600跟踪结果输出步骤：输出所述第二视频帧中目标的包围盒坐标和相似图，基于所述包围盒坐标确定目标的长和宽，基于所述相似图中最大值位置确定目标的中心位置。

在实际使用过程中，每一帧通过该方法获得的目标图像都可以作为下一帧图像的目标图像的输入，对下一帧进行目标识别和跟踪，从而通过连续帧的分析，得到目标移动的位置，从而实现对目标的连续跟踪。该方法识别准确率高，跟踪稳定性高。

本申请中的深度稠密连接的神经网络可以采用以下方式训练：

视频帧选择步骤：从训练视频数据集中随机选择包含同一目标的第三视频帧和第四视频帧。

图像生成步骤：基于所述第三视频帧生成目标模板图像，基于所述第四视频帧生成搜索区域图像。

应当理解的是，此处的第三视频帧和第四视频帧仅仅是举例说明。在实际训练过程中，是采用大量数据进行模型训练的，包括以下步骤：

收集视频数据，对所述视频数据中的每一视频帧进行目标的包围盒标注，形成目标跟踪训练数据集。其中，包围盒标注能够确定目标最小包围矩形框的坐标，视频数据和包围盒标注形成目标跟踪训练数据集。

利用目标跟踪训练数据集，生成用于训练深度稠密连接的神经网络的训练数据，所述训练数据包括：目标在视频帧中的坐标真值和相似性图的真值。

可选地，该图像生成步骤可以包括：

从目标跟踪训练数据集中随机提取相邻的两帧包含同一目标的图像T1和T2。其中，目标为各个包围盒中的内容。

分别从T1和T2中生成目标模板图像和搜索区域图像，并根据目标在搜索区域中的位置生成对应的坐标真值和相似性图的真值。如图6a至图6f所示，其中，图6a至图6c为目标模板图像T1，图6d至图6f为搜索区域图像T2，图中的包围框表示基于该目标模板图像在搜索区域图像进行搜索得到的结果。

其中，目标模板图像的生成方法为：在T1图像中，以目标框为中心，分别以目标框长和宽的M倍，例如2倍的大小裁剪出目标模板图像。之后对目标模板图像进行减均值、除方差的归一化操作。

搜索区域图像的生成方法为：在T2图像中，依据均匀分布确定搜索区域的中心位置，根据包围盒的面积的K倍的面积确定搜索区域的面积，其中，K>2。例如，可以在目标框长和/或宽1.6至2.4倍的范围内确定搜索区域的长宽，同时保证搜索区域中目标的出现的面积为其自身面积的0.5倍以上，然后对搜索结果进行减均值、除方差的归一化操作得到所述搜索区域图像。

目标坐标真值的生成方法为：目标物实际在搜索区域中的位置坐标，形式为[x0,y0,x1,y1]，分别为目标左上角x坐标、左上角y坐标、右下角x坐标、右下角y坐标，且分别归一化到0至1的区间。

相似性图的真值生成方法为根据目标在搜索区域中的位置，相似性图中位于目标范围内的元素为1，否则为0。相似图大小为17×17。

在得到训练数据后，利用该训练数据对深度稠密连接的卷积神经网络训练进行训练。在训练过程中可以设置初始学习率、批量大、网络的最大训练轮数。

在使用该深度稠密连接的神经网络进行目标识别和跟踪时，通过输入目标模板图像和视频数据中的各个视频帧，就能实现对视频帧逐一进行分析，从而输出视频帧中的目标位置和相似图。

根据本申请实施例，还提供了一种基于深度稠密连接的神经网络的视觉目标跟踪装置。图7是根据本申请的一个实施例的神基于深度稠密连接的神经网络的视觉目标跟踪装置的示意性框图。该装置可以包括：

数据输入模块200，其配置成用于将视频数据中第一视频帧的目标图像和第二视频帧输入深度稠密连接的神经网络；

目标跟踪模块400，其配置成用于基于所述目标图像，利用经过训练的所述深度稠密连接的神经网络对所述第二视频帧进行目标检测；

跟踪结果输出模块600，其配置成用于输出所述第二视频帧中目标的包围盒坐标和相似图，基于所述包围盒坐标确定目标的长和宽，基于所述相似图中最大值位置确定目标的中心位置。

本申请中的装置还包括训练模块，用于对深度稠密连接的神经网络进行训练，所述训练模块包括：

视频帧选择模块，其配置为用于从训练视频数据集中随机选择包含同一目标的第三视频帧和第四视频帧。

图像生成模块，其配置为用于基于所述第三视频帧生成目标模板图像，基于所述第四视频帧生成搜索区域图像。

训练数据生成模块，其配置为用于根据所述目标模板图像中的目标在所述搜索区域图像的位置生成对应的包围盒坐标的真值和相似图的真值，从而得到训练数据以训练所述深度稠密连接的神经网络。

本申请的实施例的一个方面提供了一种计算设备，参照图8，该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序，该计算机程序存储于存储器1120中的用于程序代码的空间1130，该计算机程序在由处理器1110执行时实现用于执行任一项根据本申请的方法步骤1131。

本申请的实施例的一个方面还提供了一种计算机可读存储介质。参照图9，该计算机可读存储介质包括用于程序代码的存储单元，该存储单元设置有用于执行根据本申请的方法步骤的程序1131’，该程序被处理器执行。

本申请实施例的一个方面还提供了一种包含指令的计算机程序产品，包括计算机可读代码，当所述计算机可读代码由计算设备执行时，导致所述计算设备执行如上所述的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于深度稠密连接的神经网络的视觉目标跟踪方法，包括：

目标跟踪步骤：基于所述目标图像，利用经过训练的所述深度稠密连接的神经网络对所述第二视频帧进行目标检测；和

2.根据权利要求1所述的方法，其特征在于，

所述深度稠密连接的神经网络包括：第一子网络、第二子网络和全连接层，其中，所述第一子网络的输入为所述第一视频帧的目标图像，所述第一子网络的输入为所述第二视频帧，所述第一子网络和所述第二子网络均与所述全连接层连接，所述全连接层具有两个输出支路，分别是包围盒坐标输出支路和相似图输出支路。

3.根据权利要求2所述的方法，其特征在于，所述第一子网络和所述第二子网络结构相同且参数共享。

4.根据权利要求2所述的方法，其特征在于，所述第一子网络和/或第二子网络包括：依次相连的第一卷积层、第一池化层、第一稠密连接块、第一转换层、第二池化层、第二稠密连接块、第二转换层、第三池化层、第三稠密连接块、第三转换层、第四池化层和拼接层。

5.根据权利要求4所述的方法，其特征在于，所述第一稠密连接块、所述第二稠密连接块和所述第三稠密连接块具有相同的结构，包括：三个卷积层，每个卷积层的卷积核大小为3×3，步长为1，输出特征图的个数为12，每一个卷积层都与其前面的所有卷积层的输出相连。

6.根据权利要求1所述的方法，其特征在于，所述深度稠密连接的神经网络的损失函数包括：回归损失和相似性损失，其中，所述回归损失采用L1损失，所述相似性损失为交叉熵损失，总的损失函数为所述L1损失和所述交叉熵损失之和。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述深度稠密连接的神经网络采用以下步骤训练：

8.根据权利要求7所述的方法，其特征在于，在所述图像生成步骤中：以所述第三视频帧中目标的包围盒坐标为中心，从所述第三视频帧中截取部分图像，所述部分图像的长和宽分别为包围盒的长和宽的M倍，M>1，对所述部分图像进行归一化处理得到所述目标模板图像。

9.根据权利要求7所述的方法，其特征在于，在所述图像生成步骤中：在所述第四视频帧中，依据均匀分布原则确定若干个搜索区域的中心位置，根据包围盒的面积的K倍的面积确定搜索区域的面积，其中，K>2，在所述第四视频帧中搜索目标，对搜索结果进行归一化处理得到所述搜索区域图像。

10.一种基于深度稠密连接的神经网络的视觉目标跟踪装置，包括：

目标跟踪模块，其配置成用于基于所述目标图像，利用经过训练的所述深度稠密连接的神经网络对所述第二视频帧进行目标检测；和