CN112069896B

CN112069896B - 一种基于孪生网络融合多模板特征的视频目标跟踪方法

Info

Publication number: CN112069896B
Application number: CN202010771725.6A
Authority: CN
Inventors: 孙力帆; 杨哲; 俞皓芳; 张金锦; 常家顺; 王旭栋; 陶发展; 司鹏举; 付主木
Original assignee: Henan University of Science and Technology
Current assignee: Henan University of Science and Technology
Priority date: 2020-08-04
Filing date: 2020-08-04
Publication date: 2022-12-02
Anticipated expiration: 2040-08-04
Also published as: CN112069896A

Abstract

本发明涉及一种基于孪生网络融合多模板特征的视频目标跟踪方法，提出了一种半监督模板在线更新策略，当视频序列中待跟踪目标出现遮挡、形变和光照变化等复杂情况，通过计算APCE值和模板相似度评估目标变化和被遮挡情况，目标外观产生巨大变化时，利用上一帧图片提取的特征与原始模板特征进行特征融合，得到表达能力更强的新模板，有助于适应多种复杂情况；为提高模型的泛化能力，适应多类目标，训练过程中采用正则化技术防止模型过拟合；为进一步提升算法速度，对于非复杂情形只采用原始模板进行跟踪，大大降低了计算量，使本发明的方法在获得更好跟踪性能的条件下取得了较其他方法更快的运行速度。

Description

一种基于孪生网络融合多模板特征的视频目标跟踪方法

技术领域

本发明涉及视频目标跟踪领域，具体的说是一种基于孪生网络融合多模板特征的视频目标跟踪方法。

背景技术

视频目标跟踪技术是根据视频序列在第一帧给出的任意待跟踪物体边界框信息，对后续帧中同一目标的边界框进行位置和尺度预测，被广泛应用于自动驾驶、视频监控和人机交互等领域。传统的基于相关滤波的方法使用手工特征建立滤波模板并在线更新，如方向梯度直方图(Histogram Of Oriented Gradient, HOG)、Haar-like特征和局部二值特征(Local Binary Pattern,LBP)等，其先给出一系列候选框，然后将所有的候选框与滤波模板作相关运算，得到每个候选框的置信度，置信度最高的候选框即为目标位置。近年来，随着计算机性能飞速提升，深度学习技术快速发展，深度特征被应用到目标跟踪领域中，虽然在跟踪精度上有所提升，但深度网络的反向传播过程计算量巨大，导致计算量剧增，无法满足实时性要求。孪生网络的出现很好的平衡了跟踪精度和速度，基于孪生网络(Siamese Network)的目标跟踪算法已成为视频目标跟踪领域的一个重要研究方向。

孪生网络拥有模板和检测两个分支呈Y型结构，基于孪生网络的目标跟踪方法将视频目标跟踪作为模板匹配问题来处理，先采用卷积神经网络提取两个分支的深度特征，浅层特征主要集中在低层信息上，如颜色、形状等，对定位至关重要；深层特征具有丰富的语义信息，对复杂情况有很强的鲁棒性，比如运动模糊、巨大形变等，但高级别的特征图分辨率很低，丢失了有用的空间细节。在目标跟踪的任务中只给出了第一帧的目标边界框信息，当目标发生遮挡、光照变化、形变、尺度变化等情况时，第一帧提供的原始模板已经无法满足后续帧的跟踪需求，所以适时的进行模板更新是必要的。而在当前基于孪生网络的目标跟踪算法却没有模板更新过程，或者只是把模板进行简单的替换，造成跟踪器不能很好的适应目标外观的变化。要想进一步提升模板的可靠性，

半监督学习(Semi-Supervised Learning，SSL)是模式识别和机器学习领域研究的重点问题，是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据，以及同时使用标记数据，来进行模式识别工作。当使用半监督学习时，可以有效解决小样本问题，同时，又能够带来比较高的准确性，因此，半监督学习正越来越受到人们的重视。

目前需要本领域技术人员迫切解决的一个技术问题是：在出现遮挡、形变和光照变化等复杂情况下，如何快速且准确的对视频序列中出现的任意目标进行跟踪，提高跟踪的准确性、快速性和鲁棒性。

发明内容

针对现有技术的缺陷，本发明提供一种基于孪生网络融合多模板特征的视频目标跟踪方法(A Visual Tracking Algorithm Based on Siamese Network Fusion withMultiple Template Features，SiamFMT)，当视频序列中待跟踪目标出现遮挡、形变和光照变化等复杂情况，目标外观产生巨大变化时，原始模板已经难以适应当下情况，利用上一帧图片提取的特征作为弱模板与原始模板特征进行特征融合，得到表达能力更强的新模板，有助于适应多种复杂情况；为进一步提升算法速度，对于非复杂情形只采用原始模板进行跟踪，大大降低了计算量，使本发明的方法在获得更好跟踪性能的条件下取得了较其他方法更快的运行速度。

为了达到上述目的，本发明所采用的技术方案是：一种基于孪生网络融合多模板特征的视频目标跟踪方法，包括如下步骤：

S1、根据视频序列第一帧输入图片I₁和边界框信息B₁裁剪出原始模板 Z₁，根据后续帧输入图片I_i裁剪出目标区域X_i,i∈[2,n]；

S2、将Z₁和X_i送入离线预训练好的孪生网络提取特征，得到特征φ(Z₁) 和φ(X_i)；

S3、对特征φ(Z₁)和φ(X_i)进行多尺度的卷积运算，得到响应图S；

S4、对响应图S添加余弦窗限制较大位移并进行上采样到原始图片大小，取最大响应值处为预测框中心点，最大响应值对应的尺度为预测框的新尺度；

S5、根据响应图S计算APCE(平均峰值相关能量)和模板相似度，如果二者均符合阈值要求，则先在最大响应值处裁剪新的模板Z_i并提取特征φ(Z_i)，然后对φ(Z₁)和φ(Z_i)进行特征融合，得到新的模板特征φ(Z)，否则不做融合；

S6、若步骤S5计算的APCE值和模板相似度均在一定阈值范围内，则采用步骤S5得到的新的模板特征φ(Z)替换步骤S2得到的φ(Z₁)，否则继续采用上一次融合得到的特征φ(Z)，若φ(Z)不存在，则采用步骤S2得到的φ(Z₁)。

进一步地，步骤S2中所述的孪生网络拥有模板分支和检测分支两大分支，两大分支网络结构均采用修改后的AlexNet，并且网络参数共享，其具体训练步骤为：

S2.1、对ILSRVC2015数据集进行预处理，在同一视频序列中取出间隔为T的两帧，T介于1～5之间；根据标注信息，以目标为中心分别裁剪两帧图片到127×127和255×255尺寸，记为Z和X，作为模板分支和搜索分支的输入；

S2.2、将从S2.1得到的处理后的两帧图片Z和X送入孪生网络中进行特征提取，得到两个特征向量A和特征向量B，将A作为卷积核与B进行卷积操作，得到大小为17*17的响应图S；

S2.3、根据输入图片的标记信息生成大小为17*17的矩阵作为样本标签 S₁，矩阵中的每个元素为{+1，-1}，代表正负样本，距离目标中心小于一定距离的被设定为正样本，反之为负样本，将步骤S2.2得到的响应图S归一化为S'，将S₁和S'作为二进制交叉熵损失函数(Binary Cross Entropy)的两个输入，其中损失函数定义如下：

其中，y为样本标签，是大小为17*17的标签矩阵S₁中的一个元素，取值为{+1，-1}；

x表示响应图S'中的一个元素；

D表示归一化后的响应图S'所包含的整体样本空间；

u表示x在S'中的位置索引；

l(y,x)表示对于单个样本的损失函数，在这里指的是交叉熵损失函数；

L(S,S’)表示总体样本的损失函数，在这里指的是单个样本损失的平均值，同时采用L2正则化来防止过拟合，其中w为各层网络权重，λ为正则化系数，取值为0.01；

S2.4、对网络参数进行符合正态分布的随机初始化，设置批处理大小为 32，学习率为0.01，使用随机梯度下降算法(Stochastic Gradient Descent,SGD) 迭代训练30次优化网络参数并保存每次迭代的结果；

S2.5、对迭代10～30次的结果在OTB数据集上进行测试，选取最优参数作为最终训练结果。

进一步地，步骤S3中的多尺度卷积共分为三个尺度，分别为0.5、1、 1.5，这里的尺度指的是处理后的图片与标准尺寸之间的比值，具体实施步骤为：

S3.1、将模板分支的输入图像Z₁按照以目标为中心裁剪出127×127大小的图像，将裁剪出的图像复制三次并按照第0维度方向拼接成3×3×127×127的矩阵，其经过模板分支特征提取得到φ(Z₁)；

S3.2、将检测分支的输入图像X_i按照以目标为中心分别以127×127， 255×255，382×382三个尺寸进行裁剪，再通过线性插值的方法统一缩放调整到255×255大小,将三张图片按照第0维度方向拼接成3×3×255×255的矩阵，其经过检测分支特征提取得到φ(X_i)。

S3.3、将φ(Z₁)作为卷积核与φ(X_i)进行卷积运算，得到响应图S。

进一步地，步骤S5中APCE值可以表示响应图的波动程度，当目标发生遮挡时，响应图会出现多峰状态，反之则是单峰状态，APCE的具体计算公式为：

其中，(w,h)代表当前元素在响应图中的二维位置索引，其中w代表横坐标，h代表纵坐标，F_max、F_min和F_w,h是响应图中的最大值、最小值和(w,h)处的值，APCE计算公式中分子反应的是当前响应图的可靠程度，分母反映的是响应图的平均波动程度，APCE值越小就表明响应图最大峰值越小或者响应图波峰越多，即目标被遮挡的程度越高。

进一步地，步骤S5中对φ(Z₁)和φ(Z_i)进行特征融合，融合方式为线性加权融合，具体公式为

其中α为加权系数，根据实验确定为0.7。

进一步地，步骤S5中的阈值要求具体为，APCE不小于9，模板相似度位于区间(3000,5000)内。

有益效果：本发明提供的视频目标跟踪方法，基于孪生网络融合多模板特征，为了更适应跟踪过程中目标外观的变化，提出了一种半监督模板在线更新策略，通过计算APCE值和模板相似度，综合评估目标外观发生变化，符合阈值要求时，进行特征融合和模板更新，利用上一帧图片提取的特征作为弱模板与原始模板特征进行特征融合(弱模板是通过模型预测得到，原始模板是根据第一帧标签裁剪得到，模板特征融合时同时使用了有标签样本和无标签样本，构成了半监督学习过程)，得到表达能力更强的新模板，有助于适应多种复杂情况；为提高模型的泛化能力，适应多类目标，训练过程中采用正则化技术防止模型过拟合；对于非复杂情形只采用原始模板进行跟踪，不仅提高了模板跟踪精度，还提升了运行速度，使用本发明的方法能够快速且准确的对视频序列中出现的任意目标进行跟踪，提高跟踪的准确性、快速性和鲁棒性。

附图说明

图1是本发明中的跟踪算法网络结构示意图；

图2是孪生网络中各层参数说明；

图3是在OTB50数据集仿真实验中，本发明方法(SiamFMT)与OTB官

方提供部分方法的精度和成功率对比图；

图4是在OTB100数据集仿真实验中本发明方法(SiamFMT)与OTB官

方提供部分方法的精度和成功率对比图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步详细的说明。

一种基于孪生网络融合多模板特征的视频目标跟踪方法，具体包括以下步骤S1至S6。

S1、根据视频序列第一帧输入图片I₁和边界框信息B₁裁剪出原始模板 Z₁，根据后续帧输入图片I_i裁剪出目标区域X_i,i∈[2,n]。

S2、将Z₁和X_i送入离线预训练好的孪生网络提取特征，得到特征φ(Z₁) 和φ(X_i)，具体离线预训练方法为S2.1至S2.5。

步骤S2中孪生网络拥有模板分支和检测分支两大分支，两大分支网络结构均采用修改后的AlexNet(Alex网络是由Alex Krizhevsky等人在2012年提出的一种卷积神经网络结构，我们在此基础上进行修改，移除原始网络结构中的全连接层和padding操作，调整网络步长为8以获取较大的感受野，使其符合本方法的需求)，并且网络参数共享，网络结构见图1，网络参数可参考图 2。其具体训练步骤为：

S2.1、对ILSRVC2015数据集进行预处理，在同一视频序列中取出间隔为T的两帧，T介于1～5之间；根据标注信息，以目标为中心分别裁剪两帧图片到127×127和255×255尺寸，记为Z和X，作为模板分支和搜索分支的输入。

S2.2、将从S2.1得到的处理后的两帧图片Z和X送入孪生网络中进行特征提取，得到两个特征向量A和特征向量B，将A作为卷积核与B进行卷积操作，得到大小为17*17的响应图S。

S2.3、根据输入图片的标记信息生成大小为17*17的矩阵作为样本标签S₁，矩阵中的每个元素为{+1，-1}，代表正负样本，距离目标中心小于一定距离的被设定为正样本，反之为负样本，将步骤S2.2得到的响应图S归一化为S'，将S₁和S'作为二进制交叉熵损失(Binary Cross Entropy)函数的两个输入，其中损失函数定义如下：

l(y,x)＝log(1+exp(-yx))

在上述公式中，y为样本标签，为矩阵标签S₁中的一个元素，取值为{+1，-1}，以待跟踪目标为中心，在待跟踪图像中距离此中心一定半径范围内的候选框为正样本取值为+1，超出此半径距离范围的候选框为负样本取值为-1，在原始图像上我们选取的半径为16，将其映射到响应图上半径变为2；

x代表响应图S'中的一个元素；

D代表响应图S'所包含的整体样本空间；

u代表x在S'中的索引位置；

l(y,x)代表对于单个样本的损失函数；

L(S,S’)代表总体样本的损失函数，其中w为各层网络权重，λ为正则化系数，取值为0.01。

S2.4、对网络参数进行符合正态分布的随机初始化，设置批处理大小 (batchsize)为32，学习率(learning rate)为0.01，使用随机梯度下降算法 (StochasticGradient Descent,SGD)迭代30次优化网络参数并保存每次迭代的结果。

S3、对特征φ(Z₁)和φ(X_i)进行多尺度的卷积运算，得到响应图S。

步骤S3中的多尺度卷积共分为三个尺度分别为0.5、1、1.5，这里的尺度指的是处理后的图片与标准尺寸(127×127和255×255)之间比值，具体实施步骤为S3.1至S3.3：

S3.3、将φ(Z₁)作为卷积核与φ(X_i)进行卷积运算，得到响应图S；

S3.2、将检测分支的输入图像X按照以目标为中心分别以127.5×127.5，255×255，382.5×382.5三个尺寸进行裁剪，再进行插值后统一缩放调整到 255×255大小,将三张图片按照通道方向拼接成255×255×9的矩阵。

S4、对响应图S添加余弦窗限制较大位移并进行上采样到原始图片大小，取最大响应值处为预测框中心点，最大响应值对应的尺度为预测框的新尺度。

S5、根据响应图S计算平均峰值相关能量APCE值和模板相似度，如果两者均符合阈值要求，则先在最大响应值处裁剪新的模板Z_i并提取特征 φ(Z_i)，然后对φ(Z₁)和φ(Z_i)进行特征融合，得到新的模板特征φ(Z)，否则不做融合；其中，对φ(Z₁)和φ(Z_i)进行特征融合，融合方式为线性加权融合，具体公式为

其中α为加权系数，根据实验确定为 0.7。

模板相似度指的是两个模板的相似程度，具体计算方式为对从模板Z₁提取的特征向量φ(Z₁)和从模板Z_i提取的特征向量φ(Z_i)进行互相关运算，得到一个相似度响应值，响应值越高就证明模板Z₁和模板Z_i的相似程度越高，本发明中模板相似度的阈值要求为在区间(3000，5000)内。

APCE值(Average Peak-to Correlation Energy，平均峰值相关能量)可以表示响应图的波动程度，其可以反映物体发生遮挡的情况。当目标发生遮挡时，响应值会出现多峰状态，反之则是单峰状态，具体计算公式为：

其中F_max、F_min和F_w,h是响应图中的最大值、最小值和(w,h)处的值，(w,h)代表当前元素在响应图中的二维位置索引，其中w代表横坐标，h代表纵坐标；该计算公式中分子反应的是当前响应图的可靠程度，分母反映的是响应图的平均波动程度。

在目标发生遮挡时，搜索区域内匹配不到目标，响应图S会出现多而低的波峰，呈现出多峰状态；而目标未发生遮挡时，搜索区域内可以匹配到目标，目标处的响应值会明显高于其他位置，所以响应图呈现单峰状态；APCE值越小就证明最大峰值越小或者响应图波峰越多，即目标被遮挡的程度越高。为避免被遮挡的目标成为模板，所以我们为APCE值指定一个下限9，即，步骤S5 中APCE的阈值要求为≥9。

APCE和模板相似度是两个独立的指标，APCE反映的是目标被遮挡程度，模板相似度反映的是两个模板的相似程度，只有这两个指标均符合阈值要求才会进行特征融合和模板更新，如果没有新的模板特征则继续采用上一次融合所得到的模板特征。

S6、若步骤S5计算的APCE值和模板相似度均在一定阈值范围内，则采用步骤S5得到的新模板特征φ(Z)替换步骤S2得到的φ(Z₁)，否则，采用上一次融合得到的特征φ(Z)，若φ(Z)不存在，则采用步骤S2得到的φ(Z₁)。

上述S1-S4为目标跟踪过程，S5-S6为模板更新过程，二者合并在一起构成完整的目标跟踪过程，在实际的目标跟踪过程中，通过重复步骤S1-S6，完成整个目标跟踪，目标跟踪的边界框信息由其中的步骤S4得到。

以下通过仿真实验对本发明的效果进行验证，仿真实验采用OTB50和 OTB100数据集，与OTB官方提供的部分开源方法进行对比。

其中，SiamFMT即本发明的方法，本发明仿真实验中用到的OTB官方提供的方法包括以下9种：

1.MUSTer(基于长短期记忆的多集合视频目标跟踪方法)，参见文献 [1].ZhibinH,Chen Z,Wang C,et al.MUlti-Store Tracker(MUSTer):a Cognitive PsychologyInspired Approach to Object Tracking[C]//IEEE Conference on Computer Vision&Pattern Recognition.IEEE,2015；

2.SiamFC(基于孪生网络的全卷积视频目标跟踪方法)，参见文献[2] BertinettoL,Valmadre J,Henriques J F,et al.Fully-Convolutional Siamese Networks forObject Tracking[J].2016；

3.MEEM(基于熵最小化的多专家视频目标跟踪方法)，参见文献[3]. Zhang J,MaS,Sclaroff S.MEEM:Robust Tracking via Multiple Experts Using EntropyMinimization[C]//European Conference on Computer Vision.Springer, Cham,2014；

4.STRUCK(基于结构化输出预测的自适应视觉目标跟踪算法)，参见文献[4].Hare S,Golodetz S,Saffari A,et al.Struck:Structured Output Tracking withKernels[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015:2096-2109；

5.SCM(基于稀疏协作模型的视频目标跟踪方法)，参见文献[5].Zhong W,Lu H,Yang M H.Robust object tracking via sparsity-based collaborative model[C]//Computer Vision&Pattern Recognition.IEEE,2012；

6.TLD(基于检测的在线学习视频目标跟踪方法)，参见文献[6].Kalal Z,Mikolajczyk K,Matas J.Tracking-learning-detection[J].IEEE Transactions onSoftware Engineering,2011,34(7):1409-1422；

7.ASLA(基于自适应结构局部稀疏外观模型的视频目标跟踪方法)，参见文献[7].Jia X,Lu H,Yang M H.Visual tracking via adaptive structural local sparseappearance model[C]//IEEE Conference on Computer Vision&PatternRecognition.IEEE,2012；

8.CXT(基于上下文信息的视频目标跟踪方法)，参见文献[8].Dinh T B,Vo N,Gérard G.Medioni.Context tracker:Exploring supporters and distracters inunconstrained environments[C]//The 24th IEEE Conference on Computer Visionand Pattern Recognition,CVPR 2011,Colorado Springs,CO,USA,20-25June 2011.IEEE,2011；

9.CSK(基于循环结构和相关滤波的视频目标跟踪方法)，参见文献[9].Henriques J F,Caseiro R,Martins P,et al.Exploiting the Circulant Structure ofTracking-by-Detection with Kernels[C]//Proceedings of the 12th Europeanconference on Computer Vision-Volume Part IV.Springer,Berlin,Heidelberg,2012；

仿真实验结果参考附图3和附图4，图3为本方法和部分OTB数据集提供算法在OTB50数据集上的预测精度和成功率对比图，图3中左图横坐标表示算法估计的目标边界框面积与人工标注(ground truth)的目标的边界框的重合率阈值，纵轴表示大于此阈值的帧数所占总帧数比例，即成功率；图3中右图横坐标表示算法估计的目标位置(boundingbox)的中心点与人工标注 (ground truth)的目标的中心点距离阈值，纵轴表示小于此阈值的帧数所占总帧数百分比，即预测精度。图4中横纵坐标物理意义与图3描述相同，结合图 3和图4可以看出，在OTB50和OTB100数据集上，本发明方法(SiamFMT)的预测精度和成功率均优于参与性能对比的其他几种算法。另外本发明对模板更新策略进行了严格限制，跟踪速度最高可达到70FPS，远超实时性要求。综上，本发明在保证跟踪速度下提高了目标的跟踪精度。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于孪生网络融合多模板特征的视频目标跟踪方法，其特征在于，包括如下步骤：

S1、根据视频序列第一帧输入图片I₁和边界框信息B₁裁剪出原始模板Z₁，根据后续帧输入图片I_i裁剪出目标区域X_i,i∈[2,n]；

S2、将Z₁和X_i送入离线预训练好的孪生网络提取特征，得到特征φ(Z₁)和φ(X_i)；

S3、对特征φ(Z₁)和φ(X_i)进行多尺度的卷积运算，得到响应图S，具体实施步骤为：

S3.2、将检测分支的输入图像X_i按照以目标为中心分别以127×127，255×255，382×382三个尺寸进行裁剪，再采用线性插值的方法统一缩放调整到255×255大小，将三张图片按照第0维度方向拼接成3×3×255×255的矩阵，其经过检测分支特征提取得到φ(X_i)；

S5、根据响应图S计算平均峰值相关能量APCE和模板相似度，如果二者均符合阈值要求，则先在最大响应值处裁剪新的模板Z_i并提取特征φ(Z_i)，然后对φ(Z₁)和φ(Z_i)进行特征融合，得到新的模板特征φ(Z)，否则不做融合；

其中模板相似度指的是两个模板的相似程度，具体计算方式为对从模板Z₁提取的特征向量φ(Z₁)和从模板Z_i提取的特征向量φ(Z_i)进行互相关运算，得到一个相似度响应值，响应值越高就证明模板Z₁和模板Z_i的相似程度越高；

2.如权利要求1所述的一种基于孪生网络融合多模板特征的视频目标跟踪方法，其特征在于，步骤S2中所述的孪生网络拥有模板分支和检测分支两大分支，两大分支网络结构均采用修改后的AlexNet，并且网络参数共享，其具体训练步骤为：

S2.3、根据输入图片的标记信息生成大小为17*17的矩阵作为样本标签S₁，矩阵中的每个元素为{+1，-1}，代表正负样本，距离目标中心小于一定距离的被设定为正样本，反之为负样本，将步骤S2.2得到的响应图S归一化为S'，将S₁和S'作为二进制交叉熵损失函数(Binary Cross Entropy)的两个输入，其中损失函数定义如下：

x示响应图S'中的一个元素；

D表示归一化后的响应图S'所包含的整体样本空间；

u表示x在S'中的位置索引；

S2.4、对网络参数进行符合正态分布的随机初始化，设置批处理大小为32，学习率为0.01，使用随机梯度下降算法(Stochastic Gradient Descent,SGD)迭代训练30次优化网络参数并保存每次迭代的结果；

3.如权利要求2所述的一种基于孪生网络融合多模板特征的视频目标跟踪方法，其特征在于，步骤S3中的多尺度卷积共分为三个尺度，分别为0.5、1、1.5，这里的尺度指的是处理后的图片与标准尺寸之间的比值。

4.如权利要求1所述的一种基于孪生网络融合多模板特征的视频目标跟踪方法，其特征在于，步骤S5中APCE值可以表示响应图的波动程度，当目标发生遮挡时，响应图会出现多峰状态，反之则是单峰状态，APCE的具体计算公式为：

5.如权利要求1所述的一种基于孪生网络融合多模板特征的视频目标跟踪方法，其特征在于，步骤S5中对φ(Z₁)和φ(Z_i)进行特征融合，融合方式为线性加权融合，具体公式为

其中α为加权系数，根据实验确定为0.7。

6.如权利要求1所述的一种基于孪生网络融合多模板特征的视频目标跟踪方法，其特征在于，步骤S5中的阈值要求具体为，APCE不小于9，模板相似度位于区间(3000,5000)内。