CN112183675B

CN112183675B - 一种基于孪生网络的针对低分辨率目标的跟踪方法

Info

Publication number: CN112183675B
Application number: CN202011247293.5A
Authority: CN
Inventors: 李迅; 崔恒; 张彦铎; 周覃; 王重九; 尹健南; 王司恺
Original assignee: Wuhan Institute of Technology
Current assignee: Wuhan Institute of Technology
Priority date: 2020-11-10
Filing date: 2020-11-10
Publication date: 2023-09-26
Anticipated expiration: 2040-11-10
Also published as: CN112183675A

Abstract

本发明公开了一种基于孪生网络的针对低分辨率目标的跟踪方法，首先直接对多个低分辨率输入视频帧进行特征提取，并进行多维特征通道融合，接着，为了避免网络中产生零梯度而丢失视频的重要信息，采用参数线性纠正单元作为激活函数，采用更小的滤波器尺寸调整网络结构以进行多层映射；最后，在网络末端添加反卷积层上采样得到重建视频帧。通过对多个标注好的视频帧序列进行预处理构建训练样本，构建跟踪孪生网络，定义损失函数并进行训练，得到训练后跟踪孪生网络；组合重建超分视频帧的精简卷积神经网络和跟踪孪生网络，对图像序列进行跟踪，得到相似度分数矩阵，通过矩阵中最大值计算出目标的位置坐标。本发明提高了在低分辨率环境下的跟踪精度。

Description

一种基于孪生网络的针对低分辨率目标的跟踪方法

技术领域

本发明涉及深度学习和计算机视觉技术，尤其涉及一种基于孪生网络的针对低分辨率目标的跟踪方法。

背景技术

随着科学技术的发展，基于视频帧的跟踪技术在现实社会中取得了广泛的运用，其在人机交互，智能监控，机器人视觉和辅助驾驶系统(ADSD)等领域取得了较好的成果。在计算机视觉领域，基于视频帧的目标跟踪技术一直都是研究的难点。目标跟踪就是在缺少目标先验知识的前提下，在视频序列的第一帧给定目标位置与目标尺寸，并在后续的视频帧中确定待跟踪目标的位置与尺寸，进一步应用在各个领域中，当前的目标跟踪算法主要分为两类：生成模型方法和判别模型方法：生成模型方法是在当前帧中对目标区域进行建模，在下一帧中寻找与模型最相似的区域，该区域就是预测位置。从而进行跟踪。此类方法经常使用卡尔曼滤波、粒子滤波、均值漂移等经典算法；判别模型方法是近年来的主流方法，把单目标跟踪问题转化为一个目标前景与背景环境的二分类问题，提取图像的特征来进行跟踪。此类方法又细分为传统相关滤波，结合了深度特征的相关滤波和仅依赖深度网络的跟踪方法。

传统相关滤波器的算法利用循环相互的特性在傅里叶域中进行运算，此类算法通过更新过滤器的权重从而实现在线跟踪；结合了深度特征的相关滤波跟踪算法将相关滤波算法与深度学习相结合，大幅度提升了跟踪算法的表现；基于深度学习的算法，可以利用强大的深层特性，并且离线训练，跟踪过程不更新模型，从而进行跟踪。如Bertinetto等人提出的SiamFC方法具有很高的实用性。该算法训练一个深度网络，以在初始离线阶段解决更一般的相似性学习问题，然后在跟踪阶段简单进行在线评估。在速度和精度方面都取得了显著的提高，但是由于用于孪生网络框架的特征提取网络都是比较浅层的网络，如AlexNet等。当目标发生剧烈高速运动时，产生的低分辨率视频帧使得被跟踪目标变得不易分辨，浅层网络难以提取到目标的有效特征，使模型极易发生漂移，导致跟踪效果变差，甚至跟踪失败。对于被跟踪目标物体因快速移动产生的低分辨率问题，SiamFC缺少行之有效的调节模块，导致模型的表征能力下降。

近年来，由于超分和跟踪技术在深度学习方向上的发展，将超分技术应用到跟踪领域变成可能。首先，卷积神经网络已经运用到超分重构算法上并取得良好的效果。而孪生网络由于其稳定性、准确性和速度快的优势，在跟踪领域应用很广泛。由于卷积神经网络和孪生网络的优势，我们将超分卷积网络应用到跟踪系统中用以提高对低分辨率目标跟踪的性能。

发明内容

本发明要解决的技术问题在于针对现有技术中的缺陷，提供一种基于孪生网络的针对低分辨率目标的跟踪方法，提高了跟踪器对低分辨率目标跟踪的性能，通过超分卷积重构网络和孪生网络有效结合，提高跟踪器对低分辨率目标跟踪时的精读及鲁棒性，从而有效解决现有技术中存在的问题。。

本发明解决其技术问题所采用的技术方案是：

本发明提供一种基于孪生网络的针对低分辨率目标的跟踪方法，该方法包括以下步骤：

步骤1：建立网络结构，先将低分辨率视频的当前帧、当前帧的前两帧以及当前帧的后两帧，共五帧作为系统的输入量，表示为X_T，索引T∈{t-2，t-1，t，t+1，t+2}，其中的t表示当前时刻，并用Y_t表示重建的当前视频帧；然后将输入量X_T通过特征提取及通道融合法获取到融合输出量，记为H₁，然后将H₁通过特征映射法获取到映射后的输出量，记为H₂，再将H₂通过反卷积重建法得到网络结构中重建的当前视频帧Y_t；

步骤2：训练网络结构，将训练集记为{X_t ^(k)，Z_t ^(k)},其中X_t ^(k)表示t时刻第k个视频样本的低分辨率视频帧训练子图像，Z_t ^(k)表示t时刻第k个视频样本的原始全分辨视频帧训练子图像，N表示训练样本个数,X_t ^(k)，Z_t ^(k)的缩放比例因子s＝2,3,4；用Y_t ^(k)表示重建得到的高分辨率视频帧子图像，采用均方差作为目标函数，最小化Y_t ^(k)与Z_t ^(k)之间的误差，并估计各网络结构中各层的网络参数θ，用随机梯度下降法对网络参数θ进行更新；为了快速得到不同缩放因子s下的重建模型，先从零开始训练s＝3的模型A，再相应地微调网络末端的反卷积层的参数，而保持所有卷积层参数不变，分别得到s＝2和s＝4的模型B和模型C；

步骤3：利用训练得到的模型A、模型B以及模型C对相应缩放因子s下的低分辨率视频帧X_T进行超分辨率重建，最终得到对应缩放因子s下的重建的当前视频帧Y_t；

步骤4：通过多个视频帧序列构建训练样本，通过人工标记法对序列中的图像帧标记目标矩形框；

步骤5：训练样本中每幅图像根据目标区域的图像尺寸进行截取得到目标区域样本，训练样本中每幅图像根据搜索区域的图像尺寸进行截取得到搜索区域样本，将搜索区域样本中每幅图像的像素点标记出是否为目标位置；

步骤6：通过目标区域分支以及搜索区域分支构建孪生网络，根据相似度分数矩阵构建孪生网络的损失函数，通过目标区域样本以及搜索区域样本进行训练得到训练后孪生网络；

步骤7：将待跟踪图像序列通过训练后的重建超分精简卷积神经网络以及训练后跟踪孪生网络进行图像跟踪，得到待跟踪图像序列的目标坐标位置。

进一步地，本发明的所述步骤1中，特征提取及通道融合法的具体步骤为：

(1)：首先采用滤波器对输入量X_T进行卷积提取特征，表示成高维向量，记为H_1T，H_1T＝W_1T*X_T+b_1T，并采用参数线性纠正单元函数对H_1T进行非线性操作:H_1T＝max(H_1T，0)+a_1Tmin(0，H_1T)，其中*表示卷积操作，W_1T表示对应索引T的大小为f_1T*f_1T*c_1T*n_1T的滤波器，f_1T表示滤波器尺寸，c_1T表示输入X_T的通道数，n_1T表示滤波器个数，b_1T表示对应索引T的1*n_1T的偏置项，a_1T表示H_1T的负数部分的系数，该层操作记为Conv(f_1T*f_1T*c_1T*n_1T)+PReLU，其中PReLU表示参数线性纠正单元函数；

(2)：然后采用通道融合层对上述各个索引的H_1T进行融合，融合后的输出记为H₁，表示为:H₁＝[H_1t-2，H_1t-1，H_1t，H_1t+1，H_t+2]，其中[]表示将H_1t在通道维度上进行连接，即经过第一部分特征提取及通道融合层后得到的H₁包含了所有输入的n_1T维特征。

进一步地，本发明的所述步骤1中，特征映射法的具体步骤为：

(1)：首先利用通道收缩模块对融合后的输出量H₁进行降维，降维后的输出记为H_2s，H_2s＝max(W_2S*H₁+b_2s，0)+a_2Smin(0，W_2S*H₁+b_2s)，其中，W_2S表示大小为f_2SX f_2S X c_2SX n_2S的滤波器，b_2s表示1Xn_2S的偏置项，a_2S表示W_2S*H₁+b_2s的负数部分的系数，该层操作记为Conv(f_2SX f_2S X c_2SX n_2S)+PReLU，其中PReLU表示参数线性纠正单元函数；

(2)：然后采用m个大小为f_2MX f_2MX c_2MX n_2M的滤波器W_2M和1Xn_2M的偏置项b_2M对H_2S进行多级映射，并通过PReLU函数进行非线性变换得到特征向量，得到的特征向量记为H_2M，该层操作记为m*[Conv(f_2MX f_2MX c_2MX n_2M)+PReLU]；

(3)：接着采用通道扩展模块对H_2M进行升维，升维后的输出记为H₂，H₂＝max(W_2E*H_2M+b_2E，0)+a_2Emin(0，W_2E*H_2M+b_2E)，其中，W_2E表示大小为f_2EX f_2E X c_2EX n_2E的滤波器，b_2E表示1Xn_2E的偏置项，a_2E表示W_2E*H_2M+b_2E的负数部分的系数，该层操作记为Conv(f_2E*f_2E*c_2E*n_2E)+PReLU，其中PReLU表示参数线性纠正单元函数。

进一步地，本发明的所述步骤1中，反卷积重建法的具体方法为：

对升维后的输出H₂反卷积得到网络结构中重建的当前视频帧Y_t，Y_t＝W_D3 H₂+b_D3其中，/>表示反卷积操作，视为卷积操作的逆运算，W_D3和b_D3分别表示大小为f_D3*f_D3*c_D3*n_D3的反卷积滤波器和1Xn_D3维向量的偏置项，该层操作记为：Deconv(f_D3*f_D3*c_D3*n_D3)。

进一步地，本发明的所述步骤4中的具体方法为：

图像序列的数量为M，每个序列皆包含N幅图像，所以训练样本中图像帧的数量为：M*N幅；对第i个视频帧序列中第j幅图像人工标记其目标矩形框为:(x_i，j，y_i，j，w_i，j，h_i，j)，其中(x_i，j，y_i，j)表示第i个视频帧序列中第j幅图像的目标矩形框左上角的坐标，(w_i，j，h_i，j)表示第i个图像序列中第j幅图像的目标矩形框的尺寸，(x_i，j+w_i，j/2，y_i，j+h_i，j/2)表示第i个图像序列中第j幅图像的目标矩形框的中心坐标。

进一步地，本发明的所述步骤5中的具体方法为：

目标区域的图像尺寸为图像的长、宽，且均为p1；

根据目标区域的图像尺寸进行截取的方法为：以训练样本中每幅图像的目标矩形框为中心，截取长、宽均为p1的图像作为目标区域样本的图像；

截取长、宽均为p1的图像的方法为：训练样本中每幅图像即第i个图像序列中第j幅图像，截取出来的图像矩形框的中心坐标为：(x_i，j+w_i，j/2，y_i，j+h_i，j/2)，左上角坐标位置为:(x_i，j+(w_i，j-p₁)/2，y_i，j+(h_i，j-p₁)/2)，图像矩形框的长、宽均为p₁；

目标区域样本的获取方法为：M个图像序列，每个图像序列有N幅长、宽均为p₁的图像；所述目标区域样本定义为所述目标区域样本中第i个序列中第j幅图像为/>

搜索区域的图像尺寸为图像的长、宽，且均为p₂，p₂>p₁；

根据搜索区域的图像尺寸进行截取的方法为：以训练样本中每幅图像的目标矩形框为中心，截取长、宽均为p₂的图像作为搜索区域样本的图像；所述截取长、宽均为p₂的图像的具体方法为：训练样本中每幅图像即第i个图像序列中第j幅图像，截取出来的图像矩形框的中心坐标为：(x_i，j+w_i，j/2，y_i，j+hi，_j/2)，左上角坐标位置为：(x_i，j+(w_i，j-p₂)/2，y_i，j+(h_i，j-p₂)/2)，右下角坐标为：(x_i，j+(w_i，j+p₂)/2，y_i，j+(h_i，j+p₂)/2)，图像矩形框的长，度均为p₂；若有以下情况之一：(x_i，j+(w_i，j-p₂)/2<0，y_i，j+(h_i，j-p₂)/2<0，x_i，j+(w_i，j+p₂)/2>＝w_i，j，y_i，j+(h_i，j+p₂)/2>＝h_i，j；则图像矩形框超出训练样本中图像的边界，超出部分用图像均值像素；

搜索区域样本的方法为：M个图像序列，每个图像序列有N幅长、宽均为p2的图像；所述目标区域样本定义为所述目标区域样本中第i个序列中第j幅图像为/>对于搜索区域样本中每幅图像均有p₂ ²个像素点，将每个像素点标记出是否为目标位置，其计算公式为：

其中c表示搜索区域图像中目标的中心点，u表示每个要标记的位置；R表示以c为圆心画圆的半径；u与c的距离超过R，则标记为-1，u表示负样本，不是目标位置，否则标记为+1，u表示正样本，是目标位置。

进一步地，本发明的所述步骤6中的具体方法为：

所述目标区域分支由卷积层、最大池化层组成，所述目标区域分支的输出为目标区域图像的特征向量：所述搜索区域分支由卷积层、最大池化层组成，所述搜索区域分支的输出为搜索区域图像的特征向量；

搜索区域分支在网络结构上完全复制目标区域分支网络结构；在训练过程中，搜索区域分支网络每一层的weight值保持和目标区域分支网络相同层的weight值一样；

所述目标区域样本中第i图像序列为：

所述搜索区域样本中第i图像序列为：

训练第i图像序列时，依次将作为目标区域分支的输入；把/>作为目标区域分支的输入，得到尺寸为s2，通道数为c1的卷积核；再依次将作为搜索区域分支的输入进行训练，每个样本经过搜索区域分支后，得到尺寸为s2，通道数也为c1的卷积核；将两个卷积核进行互相关操作，得到尺寸为L1的相似度分数矩阵；即将每个/> 作为一个输入对，其中0<y≤N；都可以得到一个相似度分数矩阵；接着依次将/>作为目标区域分支的输入，每次更换目标区域分支输入时，重复上一步骤操作：即对于每个图像序列，得到N²个相似度分数矩阵，孪生网络用M个图像序列进行训练，得到M*N²个相似度分数矩阵；进一步通过相似度矩阵得到目标在原图像的坐标：若有一个相似度分数矩阵Matrix1，找到矩阵中值最大的点，将Matrix1经过插值操作扩展到尺寸为L2的矩阵Matrix2，这个点在Matrix2中对应的坐标即为目标的位置；训练过程中，损失函数使用log损失；

相似度分数矩阵上每个点单独的损失函数为：

l(v₁，v₂)＝log(1+exp(-v₁·v₂))

其中，v2是Matrix_i，x，y单个点的得分，如果计算出的这个点的v₂越大，则说明这个点越可能是目标，而v₁是该点位置对应的标签，且v₁∈{+1，-1}，如果是正样本，v₁＝+1，否则v₁＝-1；一个点如果标记为v₁＝+1，则这个点为目标，若该点训练时的得分v₂比较大，损失函数的值l(v₁，v₂)也会变大，从而反向传播调整网络的weight值；求出矩阵单个点的损失函数后，则相似度分数矩阵Matrix₁的整体损失函数用全部点损失的均值表示：

其中，D表示整个矩阵，u表示矩阵上的每个点；

由于公式会生成M*N²个相似度分数矩阵Matrix₁，则会得到M*N²个L(y，v)，经加和后，得到最终的损失函数L_all，通过梯度下降法最小化损失函数L_all来进行训练，最终得到跟踪孪生网络的weight。

进一步地，本发明的所述的步骤7中将待跟踪图像序列通过训练后的重建超分精简卷积神经网络以及训练后跟踪孪生网络进行图像跟踪的方法为：

所述待跟踪图像序列为：{η₁，η₂，η₃...η_p}；待跟踪图像序列中第1帧图像为η₁，经过训练后重建超分精简卷积神经网络处理后，输入至训练后孪生网络中目标区域分支的输入图像；待跟踪图像序列中剩余图像用η_i表示，其中i'∈[2，p]；

η_i’经过重建超分精简卷积神经网络处理后，进一步输入至训练后孪生网络中搜索区域分支的输入图像，η_i’通过训练后孪生网络得到η_i’的相似度分数矩阵，并搜索出η_i’的相似度分数矩阵中最大值，通过步骤6中的插值操作，得到待跟踪图像序列中目标坐标位置。

本发明产生的有益效果是：本发明提供了一种基于孪生网络的针对低分辨率目标的跟踪方法，通过结合卷积超分重构网络和孪生网络，提高了在低分辨率场景下的跟踪精度，并在实际的低分辨率场景中表现出良好的鲁棒性。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例的方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明实施例的基于孪生网络的针对低分辨率目标的跟踪方法，该方法包括以下步骤：

所述步骤1中，特征提取及通道融合法的具体步骤为：

所述步骤1中，特征映射法的具体步骤为：

所述步骤1中，反卷积重建法的具体方法为：

所述步骤4中的具体方法为：

所述步骤5中的具体方法为：

目标区域的图像尺寸为图像的长、宽，且均为p1；

截取长、宽均为p1的图像的方法为：训练样本中每幅图像即第i个图像序列中第j幅图像，截取出来的图像矩形框的中心坐标为：(x_i，j+w_i，j/2，y_i，j+hi，_j/2)，左上角坐标位置为:(x_i，j+(w_i，j-p₁)/2，y_i，j+(h_i，j-p₁)/2)，图像矩形框的长、宽均为p₁；

搜索区域的图像尺寸为图像的长、宽，且均为p₂，p₂>p₁；

根据搜索区域的图像尺寸进行截取的方法为：以训练样本中每幅图像的目标矩形框为中心，截取长、宽均为p₂的图像作为搜索区域样本的图像；所述截取长、宽均为p₂的图像的具体方法为：训练样本中每幅图像即第i个图像序列中第j幅图像，截取出来的图像矩形框的中心坐标为：(x_i，j+w_i，j/2，y_i，j+h_i，j/2)，左上角坐标位置为：(x_i，j+(w_i，j-p₂)/2，y_i，j+(h_i，j-p₂)/2)，右下角坐标为：(x_i，j+(w_i，j+p₂)/2，y_i，j+(h_i，j+p₂)/2)，图像矩形框的长，度均为p₂；若有以下情况之一：(x_i，j+(w_i，j-p₂)/2<0，y_i，j+(h_i，j-p₂)/2<0，x_i，j+(w_i，j+p₂)/2>＝w_i，j，y_i，j+(h_i，j+p₂)/2>＝h_i，j；则图像矩形框超出训练样本中图像的边界，超出部分用图像均值像素；

所述步骤6中的具体方法为：

所述目标区域样本中第i图像序列为：

所述搜索区域样本中第i图像序列为：

相似度分数矩阵上每个点单独的损失函数为：

l(v₁，v₂)＝log(1+exp(-v₁·v₂))

其中，D表示整个矩阵，u表示矩阵上的每个点；

所述的步骤7中将待跟踪图像序列通过训练后的重建超分精简卷积神经网络以及训练后跟踪孪生网络进行图像跟踪的方法为：

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于孪生网络的针对低分辨率目标的跟踪方法，其特征在于，该方法包括以下步骤：

所述步骤5中的具体方法为：

目标区域的图像尺寸为图像的长、宽，且均为p1；

搜索区域的图像尺寸为图像的长、宽，且均为p₂，p₂>p₁；

根据搜索区域的图像尺寸进行截取的方法为：以训练样本中每幅图像的目标矩形框为中心，截取长、宽均为p₂的图像作为搜索区域样本的图像；所述截取长、宽均为p₂的图像的具体方法为：训练样本中每幅图像即第i个图像序列中第j幅图像，截取出来的图像矩形框的中心坐标为：(x_i，j+w_i，j/2，y_i，j+h_i，j/2)，左上角坐标位置为：(x_i，j+(w_i，j-p₂)/2，y_i，j+(h_i，j-p₂)/2)，右下角坐标为：(x_i，j+(w_i，j+p₂)/2，y_i，j+(h_i，j+p₂)/2)，图像矩形框的长、宽均为p₂；若有以下情况之一：(x_i，j+(w_i，j-p₂)/2<0，y_i，j+(h_i，j-p₂)/2<0，x_i，j+(w_i，j+p₂)/2>＝w_i，j，y_i，j+(h_i，j+p₂)/2>＝h_i，j；则图像矩形框超出训练样本中图像的边界，超出部分用图像均值像素；

其中c表示搜索区域图像中目标的中心点，u表示每个要标记的位置；R表示以c为圆心画圆的半径；u与c的距离超过R，则标记为-1，u表示负样本，不是目标位置，否则标记为+1，u表示正样本，是目标位置；

2.根据权利要求1所述的基于孪生网络的针对低分辨率目标的跟踪方法，其特征在于，所述步骤1中，特征提取及通道融合法的具体步骤为：

(1)：首先采用滤波器对输入量X_T进行卷积提取特征，表示成高维向量，记为H_1T，H_1T＝W_1T*X_T+b_1T，并采用参数线性纠正单元函数对H_1T进行非线性操作:H_1T＝max(H_1T，0)+a_1T min(0，H_1T)，其中*表示卷积操作，W_1T表示对应索引T的大小为f_1T*f_1T*c_1T*n_1T的滤波器，f_1T表示滤波器尺寸，c_1T表示输入X_T的通道数，n_1T表示滤波器个数，b_1T表示对应索引T的1*n_1T的偏置项，a_1T表示H_1T的负数部分的系数，该层操作记为Conv(f_1T*f_1T*c_1T*n_1T)+PReLU，其中PReLU表示参数线性纠正单元函数；

3.根据权利要求2所述的基于孪生网络的针对低分辨率目标的跟踪方法，其特征在于，所述步骤1中，特征映射法的具体步骤为：

(1)：首先利用通道收缩模块对融合后的输出量H₁进行降维，降维后的输出记为H_2s，H_2s＝max(W_2S*H₁+b_2s，0)+a_2Smin(0，W_2S*H₁+b_2s)，其中，W_2S表示大小为f_2SX f_2S X c_2SX n_2S的滤波器，b_2s表示1Xn_2S的偏置项，a_2S表示W_2S*H₁+b_2s的负数部分的系数，该层操作记为Conv(f_2SXf_2S X c_2SX n_2S)+PReLU，其中PReLU表示参数线性纠正单元函数；

4.根据权利要求3所述的基于孪生网络的针对低分辨率目标的跟踪方法，其特征在于，所述步骤1中，反卷积重建法的具体方法为：

对升维后的输出H₂反卷积得到网络结构中重建的当前视频帧Y_t，其中，/>表示反卷积操作，视为卷积操作的逆运算，W_D3和b_D3分别表示大小为f_D3*f_D3*c_D3*n_D3的反卷积滤波器和1Xn_D3维向量的偏置项，该层操作记为：Deconv(f_D3*f_D3*c_D3*n_D3)。

5.根据权利要求1所述的基于孪生网络的针对低分辨率目标的跟踪方法，其特征在于，所述步骤4中的具体方法为：

6.根据权利要求1所述的基于孪生网络的针对低分辨率目标的跟踪方法，其特征在于，所述步骤6中的具体方法为：

所述目标区域样本中第i图像序列为：

所述搜索区域样本中第i图像序列为：；

相似度分数矩阵上每个点单独的损失函数为：

l(v₁，v₂)＝log(1+exp(-v₁·v₂))

其中，D表示整个矩阵，u表示矩阵上的每个点；

7.根据权利要求1所述的基于孪生网络的针对低分辨率目标的跟踪方法，其特征在于，所述的步骤7中将待跟踪图像序列通过训练后的重建超分精简卷积神经网络以及训练后跟踪孪生网络进行图像跟踪的方法为：

所述待跟踪图像序列为：待跟踪图像序列中第1帧图像为/>经过训练后重建超分精简卷积神经网络处理后，输入至训练后孪生网络中目标区域分支的输入图像；待跟踪图像序列中剩余图像用/>表示，其中i'∈[2，p]；

经过重建超分精简卷积神经网络处理后，进一步输入至训练后孪生网络中搜索区域分支的输入图像，/>通过训练后孪生网络得到/>的相似度分数矩阵，并搜索出/>的相似度分数矩阵中最大值，通过步骤6中的插值操作，得到待跟踪图像序列中目标坐标位置。