CN112330719A

CN112330719A - 基于特征图分割和自适应融合的深度学习目标跟踪方法

Info

Publication number: CN112330719A
Application number: CN202011392635.2A
Authority: CN
Inventors: 林树宽; 李川皓; 乔建忠; 涂悦
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2020-12-02
Filing date: 2020-12-02
Publication date: 2021-02-05
Anticipated expiration: 2040-12-02
Also published as: CN112330719B

Abstract

基于特征图分割和自适应融合的深度学习目标跟踪方法，包括：(1)对训练集中的视频进行预处理，生成由模板图像和搜索区域图像构成的训练样本对；生成响应图标签；(2)构建基于特征图分割和自适应融合的深度学习网络模型；(3)对深度学习网络模型进行训练，将模型的结构和训练好的模型参数进行磁盘存储，获得目标跟踪模型；(4)对于待跟踪的视频进行处理，得到第1帧对应的模板图像和后续的待跟踪的每一帧对应的与3个尺度相应的搜索区域图像；(5)加载目标跟踪模型，形成由模板图像和搜索区域图像构成的3对样本，输入到目标跟踪模型中，得到对待跟踪视频后续每一帧跟踪的目标位置。

Description

基于特征图分割和自适应融合的深度学习目标跟踪方法

技术领域

本发明属于人工智能领域，具体涉及一种基于特征图分割和自适应融合的深度学习目标跟踪方法。

背景技术

目标跟踪是指对于给定的视频和其第1帧中的跟踪目标，在后续帧中连续地定位出该目标位置。目标跟踪在安防视频监控、无人机侦察、军事目标跟踪、军事打击、病人监管、智能交通等很多领域具有广泛的应用。传统的目标跟踪方法包括基于均值漂移的目标跟踪方法、基于粒子滤波的目标跟踪方法、基于稀疏编码的目标跟踪方法和基于相关滤波的目标跟踪方法。随着人工智能技术的不断发展，以及深度学习技术在图像处理、语音识别、自然语言处理等一系列应用中取得成功，深度学习逐步引起目标跟踪研究者的关注和重视，出现了基于深度学习的目标跟踪方法。与传统跟踪方法相比，基于深度学习的方法在跟踪准确性上具有较大的优势，但是，当目标被遮挡或发生形变时，容易导致跟踪目标丢失，从而导致整体跟踪性能下降。因此，如何有效地处理遮挡和形变问题，是基于深度学习的目标跟踪中的一项重要挑战。

发明内容

针对现有技术存在的问题，本发明提供一种基于特征图分割和自适应融合的深度学习目标跟踪方法，其目的在于利用深度学习技术以及特征图分割和自适应融合方法，提高对于被遮挡和发生形变的目标进行跟踪的准确性，从而提高目标跟踪的整体性能。

为实现上述目的，本发明采用以下技术方案：

一种基于特征图分割和自适应融合的深度学习目标跟踪方法，包括以下步骤：

(1)对训练集中的视频进行预处理，生成由模板图像和搜索区域图像构成的训练样本对；生成响应图标签；

(2)构建基于特征图分割和自适应融合的深度学习网络模型，用于实现目标跟踪；其中，所述模型的结构包括孪生的模板和搜索区域特征提取器、模板特征图分割器、中心特征图分割单元重构器、连接响应图生成器、自适应融合权重生成器和自适应融合器；

(3)基于步骤(1)获得的训练样本对和响应图标签，对步骤(2)所构建的深度学习网络模型进行训练，得到训练好的模型参数；将所述的深度学习网络模型的结构和训练好的参数在磁盘上进行存储，获得目标跟踪模型；

(4)对于待跟踪的视频，在确定其第1帧中跟踪目标的基础上，处理出模板图像(对于第1帧)和与3个尺度相应的搜索区域图像(对于后续的待跟踪的每一帧)；

(5)加载由步骤(3)获得的目标跟踪模型，并将步骤(4)获得的模板图像的3个拷贝和后续的待跟踪的每一帧对应的与所述3个尺度相应的搜索区域图像形成由模板图像和搜索区域图像构成的3对样本，输入到目标跟踪模型中，得到对待跟踪视频中后续每一帧跟踪的目标位置。

所述的一种基于特征图分割和自适应融合的深度学习目标跟踪方法，其中：

所述步骤(1)，对训练集中的视频进行预处理，生成由模板图像和搜索区域图像构成的训练样本对；生成响应图标签；具体步骤包括：

(1.1)生成由模板图像和搜索区域图像构成的训练样本对；

首先，对每个训练视频进行预处理，对于其每一帧中的每个目标，生成以目标位置为中心的模板图像z和搜索区域图像x；

然后，由来自同一视频中的不同帧且包含同一目标的模板图像和搜索区域图像形成训练样本对，作为用于目标跟踪的深度学习网络模型的输入；

生成模板图像z和搜索区域图像x的具体过程为：

(1.1.1)根据视频帧图像中给定的目标框左上角的坐标(x_o,y_o)及目标框的宽w_b和高h_b，按下式计算目标的中心点坐标(x_b,y_b)，并将该坐标作为目标位置，其中，所涉及的坐标以目标所在的视频帧图像的左上角为坐标原点，以水平向右，即视频帧图像宽的方向为横轴正方向，以垂直向下，即视频帧图像高的方向为纵轴正方向；

(1.1.2)设定模板图像的宽-高尺寸w_z×h_z和搜索区域图像的宽-高尺寸w_x×h_x，其中，w_z和w_x分别表示模板图像和搜索区域图像的宽，h_z和h_x分别表示模板图像和搜索区域图像的高，并且w_z＝h_z，w_x＝h_x；以步骤(1.1.1)中得到的目标位置为中心，从视频帧图像中裁剪出与模板图像相对应的正方形目标区域A_z和与搜索区域图像相对应的正方形目标区域A_x，并按照下列公式计算A_z的边长q_z、A_x的边长q_x以及缩放因子s：

s＝w_z/q_z＝w_x/q_x

式中，w_b和h_b分别为目标框的宽和高，p为目标框周围的背景信息大小，按照下式得出：

若目标区域A_z或A_x超出了视频帧图像的边界，则使用视频帧图像的RGB均值对超出的部分进行填充；

(1.1.3)将目标区域A_z和A_x按照缩放因子s分别缩放至尺寸w_z×h_z和w_x×h_x，分别形成模板图像和搜索区域图像，其宽-高尺寸分别为w_z×h_z和w_x×h_x；如果考虑模板图像和搜索区域图像的RGB通道数量分别为c_z＝3和c_x＝3，则得到的模板图像和搜索区域图像的尺寸分别为w_z×h_z×c_z和w_x×h_x×c_x；

(1.2)生成响应图标签；

响应图是用于目标跟踪的深度学习网络模型的输出；为了进行有监督的训练，需要设置每对训练样本所对应的响应图标签；对于响应图中的任一位置r，按照下式生成其标签值y[r]：

式中，cen为响应图的中心位置，||r-cen||为r与cen之间的偏移距离，T为设定的偏移距离阈值。

所述步骤(2)，构建基于特征图分割和自适应融合的深度学习网络模型，用于实现目标跟踪；具体包括：

(2.1)构建孪生的模板和搜索区域特征提取器；

孪生的模板和搜索区域特征提取器包括上下两条分支，这两条分支是共享参数的孪生卷积神经网络，均由顺序连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层构成；两条分支分别接受模板图像z和搜索区域图像x作为输入，分别输出模板特征图和搜索区域特征图；

(2.2)构建模板特征图分割器；

将模板特征图在宽-高维度上进行分割，将模板特征图分割为上左、上中，上右、中左、中心、中右、下左、下中和下右9个尺寸相同、相互重叠的特征图分割单元，除中心特征图分割单元外，其余8个特征图分割单元均称为边缘特征图分割单元；进行分割时应遵循以下原则：

①每个特征图分割单元的尺寸与分割前原模板特征图尺寸的奇偶性相同；

②对于宽-高尺寸为w_z×h_z的模板图像，分割出的9个特征图分割单元的感受野w_c ^r×h_c ^r应同时满足以下两个不等式：

遵循上述两个原则，确定出每个特征图分割单元的尺寸，表示为w_c×h_c×c_c，其中，w_c和h_c分别为每个特征图分割单元的宽和高，c_c为每个特征图分割单元的通道数，亦即分割前模板特征图的通道数；

(2.3)构建中心特征图分割单元重构器

本发明通过对中心特征图分割单元添加通道注意力对其进行重构，生成重构后的中心特征图分割单元，以提高中心特征图分割单元对目标的表达能力；

中心特征图分割单元重构器由顺序连接的第一编码层、第二编码层、第一解码层、第二解码层、激活层和重构层构成；每层的具体操作步骤为：

(2.3.1)第一编码层：对于尺寸为w_c×h_c×c_c的中心特征图分割单元，第一编码层首先执行全局最大池化，生成一个1×1×c_c的向量；然后，设置一个正整数m，满足c_c mod m²＝0，以该向量中每相邻的m个元素拼接成一个1×1×m的向量，共形成c_c/m个这样的向量；最后，以c_c/m个尺寸为1×1×m的卷积核分别在每个1×1×m的向量上进行卷积操作，生成c_c/m个1×1的标量，将这c_c/m个1×1的标量进行拼接，形成一个1×1×(c_c/m)的向量；

(2.3.2)第二编码层：第二编码层与第一编码层类似；首先，对于第一编码层生成的1×1×(c_c/m)的向量，每相邻的m个元素拼接成一个1×1×m的向量，共形成c_c/m²个这样的向量；然后，以c_c/m²个尺寸为1×1×m的卷积核分别在每个1×1×m的向量上进行卷积操作，生成c_c/m²个1×1的标量，将这c_c/m²个1×1的标量进行拼接，形成一个1×1×(c_c/m²)的向量；

(2.3.3)第一解码层：第一解码层以c_c/m个尺寸为1×1×(c_c/m²)的卷积核在第二编码层形成的1×1×(c_c/m²)的向量上进行卷积操作，生成一个1×1×(c_c/m)的向量；

(2.3.4)第二解码层：第二解码层以c_c个尺寸为1×1×(c_c/m)的卷积核在第一解码层生成的1×1×(c_c/m)的向量上进行卷积操作，生成一个1×1×c_c的向量；

(2.3.5)激活层：激活层对第二解码层生成的1×1×c_c向量的每个元素进行Sigmoid激活，生成每个元素值介于0与1之间的1×1×c_c的向量，即中心特征图分割单元的通道注意力；

(2.3.6)重构层：重构层按照下式在中心特征图分割单元上添加通道注意力，生成重构后的中心特征图分割单元；

f_c'(i,j,k)＝f_c(i,j,k)×C(k)

式中，1≤i≤h_c，1≤j≤w_c，1≤k≤c_c；f_c(i,j,k)为重构前的中心特征图分割单元中第i行、第j列、第k个通道上的元素；C(k)为激活层生成的中心特征图分割单元的通道注意力中的第k个元素；f_c'(i,j,k)为重构后的中心特征图分割单元中第i行、第j列、第k个通道上的元素；

(2.4)构建连接响应图生成器；

连接响应图生成器由顺序连接的互相关层和通道连接层构成；首先由互相关层生成与每个边缘特征图分割单元以及重构后的中心特征图分割单元相对应的响应图单元，然后通过通道连接层生成连接响应图；具体操作步骤包括：

(2.4.1)在互相关层中，首先在步骤(2.1)中得到的搜索区域特征图中，按照特征图分割单元的尺寸进行宽-高维度上的移位采样，得到若干与特征图分割单元尺寸相同的区域，在此称为候选区域；然后，对于步骤(2.2)中得到的8个边缘特征图分割单元以及步骤(2.3)中得到的重构后的中心特征图分割单元，使其分别在搜索区域特征图上滑动，与所有候选区域进行互相关操作，从而得到与每个特征图分割单元相对应的响应图单元，即对于9个特征图分割单元，互相关层共得到9个响应图单元；

(2.4.2)在通道连接层中，将步骤(2.4.1)中得到的9个响应图单元按照上左、上中、上右、中左、中心、中右、下左、下中、下右的顺序进行通道连接，形成一个具有9个通道的连接响应图；

(2.5)构建自适应融合权重生成器；

自适应融合权重生成器由顺序连接的池化层、卷积层、自适应融合权重生成层构成；固定中心特征图分割单元的融合权重为1，这里，中心特征图分割单元的融合权重亦即重构后的中心特征图分割单元的融合权重；自适应融合权重生成器只对边缘特征图分割单元的融合权重进行学习，针对不同的跟踪目标和不同的边缘特征图分割单元，通过顺序连接的池化层、卷积层、自适应融合权重生成层，自适应地生成不同的融合权重，形成自适应融合权重矩阵；具体步骤包括：

(2.5.1)池化层中，针对每个边缘特征图分割单元，分别执行全局最大池化和全局平均池化，提取其典型的特征和整体的特征；对于每个尺寸为w_c×h_c×c_c的边缘特征图分割单元，全局最大池化和全局平均池化分别生成一个1×1×c_c的向量；将这两个向量在通道维度上进行拼接，形成一个1×1×2c_c的向量；

(2.5.2)卷积层中，对于每个边缘特征图分割单元所对应的由步骤(2.5.1)生成的1×1×2c_c的向量，以一个尺寸为1×1×2c_c的卷积核执行卷积操作，生成一个1×1的标量；

(2.5.3)自适应融合权重生成层中，首先在每个边缘特征图分割单元所对应的由步骤(2.5.2)得到的1×1标量上作用Sigmoid激活函数，生成相应边缘特征图分割单元所对应的介于0与1之间的融合权重；然后，8个边缘特征图分割单元所对应的融合权重连同中心特征图分割单元的融合权重1，按照上左、上中、上右、中左、中心、中右、下左、下中、下右的顺序进行拼接，得到一个3×3的自适应融合权重矩阵；

(2.6)构建自适应融合器；

自适应融合器包括融合卷积核生成层和自适应融合层，分别生成融合卷积核和融合后的响应图；具体步骤包括：

(2.6.1)在融合卷积核生成层中，基于步骤(2.5.3)得到的3×3自适应融合权重矩阵，生成具有9个通道的融合卷积核，每个通道只有一个位置被激活为3×3自适应融合权重矩阵中的权重，其余位置均赋值为0；

(2.6.2)在自适应融合层中，利用融合卷积核在步骤(2.4)生成的连接响应图上进行卷积操作，得到融合后的响应图。

所述步骤(3)，训练步骤(2)中构建的深度学习网络模型，获得目标跟踪模型的步骤具体包括：

(3.1)对深度学习网络模型中的参数θ进行初始化，其中，θ为所述深度学习网络模型中需要训练的所有权值和偏置的集合；

(3.2)给定每一批样本的数量，对于每一批训练样本，即由步骤(1.1)生成的由模板图像和搜索区域图像构成的每一批样本对，将其输入到深度学习网络模型，分别通过孪生的模板和搜索区域特征提取器、模板特征图分割器、中心特征图分割单元重构器、连接响应图生成器、自适应融合权重生成器和自适应融合器进行前向传播，计算深度学习网络模型输出的响应图；

(3.3)基于logistic损失函数计算深度学习网络模型输出的响应图相比于步骤(1.2)获得的响应图标签的代价J(θ)：

式中，n是一批样本的数量，y_a是其中第a对样本的响应图标签，

是第a对样本所对应的深度学习网络模型输出的响应图，

是第a对样本的响应图损失，计算如下：

式中，R为响应图中所有位置的集合，y_a[r]为第a对样本的响应图标签中位置r处的标签值，

为第a对样本所对应的深度学习网络模型输出的响应图中位置r处的值，

为第a对样本在位置r处的损失，计算如下：

(3.4)执行反向传播过程，按下式对深度学习网络模型的参数θ进行更新和优化：

式中，η为学习率；

(3.5)上述步骤(3.2)～(3.4)过程不断重复执行，直至达到设定的epoch数量；

(3.6)将深度学习网络模型的结构和训练好的参数进行磁盘存储，得到目标跟踪模型。

所述步骤(4)，对于待跟踪的视频，在确定其第1帧中跟踪目标的基础上，处理出模板图像(对于第1帧)和与3个尺度相应的搜索区域图像(对于后续的待跟踪的每一帧)；具体包括：

(4.1)对于第1帧，按照步骤(1.1.1)～(1.1.3)处理出模板图像，其中，“视频帧图像”为第1帧图像；

(4.2)对于后续的待跟踪的每一帧，从中处理出与3个尺度相应的搜索区域图像；

具体地，对于后续的待跟踪的第t帧(t>1)，从中处理出与3个尺度相应的搜索区域图像的具体过程为：

(4.2.1)设定模板图像的宽-高尺寸w_z×h_z和搜索区域图像的宽-高尺寸w_x×h_x，其中，w_z＝h_z，w_x＝h_x；按下式计算第t帧图像中与搜索区域图像相对应的正方形目标区域的边长q_{x_t}：

式中，q_{z_t}按下式计算得出：

式中，当t＝2时，w_t-1和h_t-1分别为第1帧中目标框的宽和高；当t>2时，w_t-1和h_t-1分别为第(t-1)帧跟踪得到的目标框的宽和高；所述两种情况下，p'均为目标框周围的背景信息大小，按照下式得出：

(4.2.2)设置3个尺度1/scale、1和scale，其中scale为设定的实数，用这3个尺度分别与步骤(4.2.1)中得到的边长q_{x_t}相乘，得到与3个尺度相应的目标区域的边长，分别表示为q_{x_t_1}、q_{x_t_2}和q_{x_t_3}；

(4.2.3)在第t帧图像中裁剪出与3个尺度相应的目标区域；具体包括：

当t＝2时，首先按照步骤(1.1.1)在第1帧中计算目标位置，其中，“视频帧图像”为第1帧图像；然后，在第t帧图像中，以该目标位置为中心，以步骤(4.2.2)中得到的q_{x_t_1}、q_{x_t_2}和q_{x_t_3}为边长，裁剪出与3个尺度相应的正方形目标区域，分别表示为A_{x_t_1}、A_{x_t_2}和A_{x_t_3}；

当t>2时，则在第t帧图像中，以第(t-1)帧跟踪得到的目标位置为中心，以步骤(4.2.2)中得到的q_{x_t_1}、q_{x_t_2}和q_{x_t_3}为边长，裁剪出与3个尺度相应的正方形目标区域，分别表示为A_{x_t_1}、A_{x_t_2}和A_{x_t_3}；

上述两种情况下，若目标区域A_{x_t_1}、A_{x_t_2}或A_{x_t_3}超出了第t帧图像的边界，则使用第t帧图像的RGB均值对超出的部分进行填充；

(4.2.4)将目标区域A_{x_t_1}、A_{x_t_2}和A_{x_t_3}分别缩放至宽-高尺寸w_x×h_x，形成第t帧所对应的与3个尺度相应的搜索区域图像，其宽-高尺寸均为w_x×h_x；如果考虑其RGB通道数量c_x＝3，则与3个尺度相应的3个搜索区域图像的尺寸均为w_x×h_x×c_x。

所述步骤(5)，加载由步骤(3)获得的目标跟踪模型，并将步骤(4)获得的模板图像的3个拷贝和后续的待跟踪的每一帧对应的与所述3个尺度相应的搜索区域图像形成由模板图像和搜索区域图像构成的3对样本，输入到目标跟踪模型中，得到对待跟踪视频中后续每一帧跟踪的目标位置；

具体地，加载由步骤(3)获得的目标跟踪模型，将模板图像的3个拷贝和待跟踪视频中第t帧(t>1)所对应的与3个尺度相应的搜索区域图像形成由模板图像和搜索区域图像构成的3对样本，输入到目标跟踪模型中，得到对第t帧(t>1)进行跟踪的目标位置，其具体过程为：

(5.1)加载由步骤(3)获得的目标跟踪模型，将步骤(4)获得的模板图像的3个拷贝和第t帧所对应的与3个尺度相应的搜索区域图像形成由模板图像和搜索区域图像构成的3对样本，输入到目标跟踪模型中，通过前向传播，得到融合后的与3个尺度相应的响应图；

(5.2)将步骤(5.1)得到的与3个尺度相应的响应图进行16倍的双三次插值，将其放大16倍，分别得到与3个尺度相应的尺寸均为n_r×n_r的响应图M₁、M₂和M₃；按下式分别对这3个响应图进行归一化处理，得到响应图M′₁、M'₂和M′₃；

式中，v＝1,2,3，M_v(ir,jc)和M'_v(ir,jc)分别是M_v和M'_v中第ir行第jc列的元素；1≤ir,jc≤n_r；

(5.3)按照下式，利用矩阵W对响应图M′₁、M'₂和M′₃进行调整，分别得到响应图M″₁、M″₂和M″₃；

M″_v(ir,jc)＝(1-γ)×M'_v(ir,jc)+γ×W(ir,jc)

式中，v＝1,2,3，M″_v(ir,jc)是响应图M″_v中第ir行第jc列的元素；γ为设定的平衡因子；W为按照下式计算的矩阵，W(ir,jc)是其第ir行第jc列的元素；1≤ir,jc≤n_r；

W＝H^T·H

式中，H是一个1×n_r的向量，其第ih个元素值H(ih)(1≤ih≤n_r)按下式计算获得：

(5.4)遍历步骤(5.3)中得到的响应图M″₁、M″₂和M″₃，找到具有最大元素值的响应图，将其作为第t帧的最佳响应图，其相应的尺度则为第t帧跟踪的最佳尺度，表示为bs_t；在第t帧的最佳响应图中计算该最大元素值的位置距离其中心位置的位移，表示为(disp_response_r,disp_response_c)，其中，disp_response_r和disp_response_c分别为宽方向和高方向上的位移；

(5.5)按照下式将步骤(5.4)中获得的位移(disp_response_r,disp_response_c)转换为与最佳尺度相应的搜索区域图像中的位移(disp_search_r,disp_search_c)：

disp_search_r＝disp_response_r×stride/times

disp_search_c＝disp_response_c×stride/times

式中，stride为孪生的模板和搜索区域特征提取器中的网络总步长，times为步骤(5.2)中响应图的放大倍数；

(5.6)按照下式将步骤(5.5)中获得的位移(disp_search_r,disp_search_c)进一步转换为第(t-1)帧图像中的位移(disp_frame_r,disp_frame_c)：

disp_frame_r＝disp_search_r/s

disp_frame_c＝disp_search_c/s

式中，s为步骤(1.1.2)中所述的缩放因子；

(5.7)当t＝2时，根据位移(disp_frame_r,disp_frame_c)和步骤(4.1)处理出模板图像的过程中计算得到的第1帧中的目标位置，即第1帧图像中目标的中心点坐标，计算第t帧跟踪得到的目标位置，即第t帧图像中目标的中心点坐标；当t>2时，根据位移(disp_frame_r,disp_frame_c)和第(t-1)帧跟踪得到的目标位置，计算第t帧跟踪得到的目标位置，即第t帧图像中目标的中心点坐标；上述两种情况下，所有视频帧图像，包括第1帧和第t帧(t>1)图像，其坐标系均为：以视频帧图像的左上角为坐标原点，以水平向右，即视频帧图像宽的方向为横轴正方向，以垂直向下，即视频帧图像高的方向为纵轴正方向；

(5.8)根据下式更新第t帧跟踪得到的目标框的宽w_t和高h_t

w_t＝(1-β)×w_t-1+β×bs_t×w_t-1

h_t＝(1-β)×h_t-1+β×bs_t×h_t-1

式中，当t>2时，w_t-1和h_t-1分别为第(t-1)帧跟踪得到的目标框的宽和高；当t＝2时，w_t-1和h_t-1分别为第1帧中目标框的宽和高；β为设定的调整因子，bs_t为第t帧跟踪的最佳尺度。

本发明技术方案相比于现有技术，具有如下技术特征和优势：

本发明在模型框架中提供了孪生的模板和搜索区域特征提取器、模板特征图分割器、中心特征图分割单元重构器、连接响应图生成器、自适应融合权重生成器和自适应融合器。通过模板特征图分割，增强了对遮挡和形变目标进行跟踪的鲁棒性，并且对于不同的跟踪目标和不同的特征图分割单元，可以自适应地学习到合适的融合权重，从而实现自适应融合，提高了目标跟踪的准确性。

附图说明

图1为本发明方法的整体流程图；

图2为基于特征图分割和自适应融合的目标跟踪模型结构；

图3为模板特征图分割示意图。

具体实施方式

为了使本发明的目的、技术方案及优势更加清楚，下面结合附图及实施例，对本发明的技术方案做进一步的详细说明。

如图1所示，本发明的基于特征图分割和自适应融合的深度学习目标跟踪方法，包括：

(2)构建基于特征图分割和自适应融合的深度学习网络模型，用于实现目标跟踪；模型由孪生的模板和搜索区域特征提取器、模板特征图分割器、中心特征图分割单元重构器、连接响应图生成器、自适应融合权重生成器和自适应融合器组成，如图2所示；

(3)基于步骤(1)获得的训练样本对和响应图标签，对步骤(2)所构建的用于目标跟踪的深度学习网络模型进行训练，得到训练好的模型参数；将深度学习网络模型的结构和训练好的参数在磁盘上进行存储，获得目标跟踪模型；

(4)对于待跟踪的视频，在确定其第1帧中跟踪目标的基础上，从中处理出模板图像(对于第1帧)和与3个尺度相应的搜索区域图像(对于后续的待跟踪的每一帧)；

(5)加载步骤(3)中获得的目标跟踪模型，并将步骤(4)获得的模板图像的3个拷贝和后续的待跟踪的每一帧对应的与所述3个尺度相应的搜索区域图像形成由模板图像和搜索区域图像构成的3对样本，输入到目标跟踪模型中，得到对待跟踪视频中后续每一帧跟踪的目标位置。

以下结合实施例，对本发明提供的基于特征图分割和自适应融合的深度学习目标跟踪方法进行详细的说明。

一种基于特征图分割和自适应融合的深度学习目标跟踪方法，具体步骤如下：

(1)以ImageNet大规模视觉识别竞赛公开的视频目标检测数据集ILSVRC2015-VID作为训练集，对训练集中的视频进行预处理，生成由模板图像和搜索区域图像构成的训练样本对；生成响应图标签；具体包括：

(1.1)生成由模板图像和搜索区域图像构成的训练样本对；

其中，生成模板图像z和搜索区域图像x的具体过程为：

(1.1.1)根据视频帧图像中给定的目标框左上角的坐标(x_o,yo)及目标框的宽w_b和高h_b，按下式计算目标的中心点坐标(x_b,y_b)，并将其作为目标位置，其中，所涉及的坐标以目标所在的视频帧图像的左上角为坐标原点，以水平向右，即视频帧图像宽的方向为横轴正方向，以垂直向下，即视频帧图像高的方向为纵轴正方向；

(1.1.2)设定模板图像的宽-高尺寸w_z×h_z和搜索区域图像的宽-高尺寸w_x×h_x，其中，w_z和w_x分别表示为模板图像和搜索区域图像的宽，h_z和h_x分别表示为模板图像和搜索区域图像的高，在本实施例中，w_z＝h_z＝127，w_x＝h_x＝255；以步骤(1.1.1)中得到的目标位置为中心，从视频帧图像中裁剪出与模板图像相对应的正方形目标区域A_z和与搜索区域图像相对应的正方形目标区域A_x，并按照下列公式计算A_z的边长q_z、A_x的边长q_x以及缩放因子s：

s＝w_z/q_z＝w_x/q_x

(1.1.3)将目标区域A_z和A_x按照缩放因子s分别缩放至尺寸127×127和255×255，分别形成模板图像和搜索区域图像，其宽-高尺寸分别为127×127和255×255；如果考虑模板图像和搜索区域图像的RGB通道数量c_z＝3和c_x＝3，则得到的模板图像和搜索区域图像的尺寸分别为127×127×3和255×255×3；

(1.2)生成响应图标签；

响应图是用于目标跟踪的深度学习网络模型的输出；为了进行有监督的训练，需要设置每对训练样本所对应的响应图标签；本实施例中，用于目标跟踪的深度学习网络模型输出的响应图尺寸是17×17，对于响应图中的任一位置r，按照下式生成其标签值y[r]：

式中，cen为响应图的中心位置，||r-cen||为r与cen之间的偏移距离，T为设定的偏移距离阈值，本实施例中，设置T＝2；

(2)构建基于特征图分割和自适应融合的深度学习网络模型，用于实现目标跟踪；其中，所述模型结构包括孪生的模板和搜索区域特征提取器、模板特征图分割器、中心特征图分割单元重构器、连接响应图生成器、自适应融合权重生成器和自适应融合器；具体步骤包括：

(2.1)构建孪生的模板和搜索区域特征提取器；

孪生的模板和搜索区域特征提取器包括两条分支，这两条分支是共享参数的孪生卷积神经网络，均由顺序连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层构成；两条分支分别接受模板图像z和搜索区域图像x作为输入，分别输出模板特征图和搜索区域特征图；

具体地，第一卷积层中，设置卷积核的尺寸为11×11×3，共设置96个卷积核，步长设置为2，采用valid卷积模式，对尺寸为127×127×3的模板图像和尺寸为255×255×3的搜索区域图像进行卷积操作，分别获得尺寸为59×59×96的模板特征图和尺寸为123×123×96的搜索区域特征图；

第一池化层中，设置卷积核的尺寸为3×3，步长为2，分别对尺寸为59×59×96的模板特征图和尺寸为123×123×96的搜索区域特征图进行池化操作，获得池化后尺寸为29×29×96的模板特征图和尺寸为61×61×96的搜索区域特征图；

第二卷积层中，设置卷积核的尺寸为5×5×96，共设置256个卷积核，步长设置为1，采用valid卷积模式，分别对尺寸为29×29×96的模板特征图和尺寸为61×61×96的搜索区域特征图进行卷积操作，进一步获得尺寸为25×25×256的模板特征图和尺寸为57×57×256的搜索区域特征图；

第二池化层中，设置卷积核的尺寸为3×3，步长为2，分别对尺寸为25×25×256的模板特征图和尺寸为57×57×256的搜索区域特征图进行池化操作，获得池化后尺寸为12×12×256的模板特征图和尺寸为28×28×256的搜索区域特征图；

第三卷积层中，设置卷积核的尺寸为3×3×256，共设置384个卷积核，步长设置为1，采用valid卷积模式，分别对尺寸为12×12×256的模板特征图和尺寸为28×28×256的搜索区域特征图进行卷积操作，进一步获得尺寸为10×10×384的模板特征图和尺寸为26×26×384的搜索区域特征图；

第四卷积层中，设置卷积核的尺寸为3×3×384，共设置384个卷积核，步长设置为1，采用valid卷积模式，分别对尺寸为10×10×384的模板特征图和尺寸为26×26×384的搜索区域特征图进行卷积操作，最终获得尺寸为8×8×384的模板特征图和尺寸为24×24×384的搜索区域特征图，其中384为两种特征图的通道数；

(2.2)构建模板特征图分割器；

模板特征图分割器对步骤(2.1)获得的尺寸为8×8×384的模板特征图在宽-高维度上进行分割，将宽-高尺寸为8×8(不考虑通道)的模板特征图分割为上左、上中，上右、中左、中心、中右、下左、下中和下右9个尺寸相同、相互重叠的特征图分割单元，除中心特征图分割单元外，其余特征图分割单元均称为边缘特征图分割单元，分割时应遵循以下原则：

②对于宽-高尺寸为w_z×h_z的模板图像，分割出的9个特征图分割单元的感受野

应同时满足下述两个不等式：

遵循上述两个原则，以步长2将步骤(2.1)获得的8×8(不考虑通道)的模板特征图分割为9个4×4的特征图分割单元，如图3所示；如果加上通道维度，则每个特征图分割单元的尺寸为4×4×384；

(2.3)构建中心特征图分割单元重构器

中心特征图分割单元重构器由顺序连接的第一编码层、第二编码层、第一解码层、第二解码层、激活层和重构层构成；每层的具体操作为：

(2.3.1)第一编码层：对于尺寸为4×4×384的中心特征图分割单元，第一编码层首先执行全局最大池化，生成一个1×1×384的向量；然后，设置一个正整数m，并使m＝4，以该向量中每相邻的4个元素拼接成一个1×1×4的向量，共形成96个这样的向量；最后，以96个尺寸为1×1×4的卷积核分别在每个1×1×4的向量上进行卷积操作，生成96个1×1的标量，将这96个1×1的标量进行拼接，形成一个1×1×96的向量；

(2.3.2)第二编码层：第二编码层与第一编码层类似；首先，对于第一编码层生成的1×1×96的向量，每相邻的4个元素拼接成一个1×1×4的向量，共形成24个这样的向量；然后，以24个尺寸为1×1×4的卷积核分别在每个1×1×4的向量上进行卷积操作，生成24个1×1的标量，将这24个1×1的标量进行拼接，形成一个1×1×24的向量；

(2.3.3)第一解码层：第一解码层以96个尺寸为1×1×24的卷积核在第二编码层形成的1×1×24的向量上进行卷积操作，生成一个1×1×96的向量；

(2.3.4)第二解码层：第二解码层以384个尺寸为1×1×96的卷积核在第一解码层生成的1×1×96的向量上进行卷积操作，生成一个1×1×384的向量；

(2.3.5)激活层：激活层对第二解码层生成的1×1×384向量的每个元素进行Sigmoid激活，生成每个元素值介于0与1之间的1×1×384的向量，即中心特征图分割单元的通道注意力；

f_c'(i,j,k)＝f_c(i,j,k)×C(k)

式中，1≤i≤4，1≤j≤4，1≤k≤384；f_c(i,j,k)为重构前的中心特征图分割单元中第i行、第j列、第k个通道上的元素；C(k)为激活层生成的中心特征图分割单元的通道注意力中的第k个元素；f_c'(i,j,k)为重构后的中心特征图分割单元中第i行、第j列、第k个通道上的元素；

(2.4)构建连接响应图生成器；

连接响应图生成器由顺序连接的互相关层和通道连接层构成；首先由互相关层生成与每个边缘特征图分割单元以及重构后的中心特征图分割单元相对应的响应图单元，然后通过通道连接层生成连接响应图；具体过程为：

(2.4.1)在互相关层中，首先在步骤(2.1)中得到的尺寸为24×24×384的搜索区域特征图上，按照步骤(2.2)获得的特征图分割单元的尺寸4×4×384，进行宽-高维度上的移位采样，移位采样的步长设置为1，得到21×21个与尺寸为4×4×384的特征图分割单元尺寸相同的候选区域；然后对于步骤(2.2)中得到的8个边缘特征图分割单元以及步骤(2.3)中得到的重构后的中心特征图分割单元，使其分别在搜索区域特征图上滑动，滑动步长设置为1，与所有候选区域进行互相关操作，从而得到与每个特征图分割单元相对应的响应图单元，其尺寸为21×21，即对于9个特征图分割单元，互相关层共得到9个尺寸为21×21的响应图单元；

(2.4.2)在通道连接层中，将步骤(2.4.1)中得到的9个尺寸为21×21的响应图单元按照上左、上中、上右、中左、中心、中右、下左、下中、下右的顺序进行通道连接，形成一个具有9个通道的连接响应图，其尺寸为21×21×9；

(2.5)构建自适应融合权重生成器；

自适应融合权重生成器由顺序连接的池化层、卷积层、自适应融合权重生成层构成；固定中心特征图分割单元的融合权重为1，自适应融合权重生成器只对边缘特征图分割单元的融合权重进行学习，针对不同的跟踪目标和不同的边缘特征图分割单元，通过顺序连接的池化层、卷积层、自适应融合权重生成层，自适应地生成不同的融合权重，形成相应的自适应融合权重矩阵；具体步骤包括：

(2.5.1)池化层中，针对每个边缘特征图分割单元，分别执行全局最大池化和全局平均池化，提取其典型的特征和整体的特征；对于每个尺寸为4×4×384的边缘特征图分割单元，全局最大池化和全局平均池化分别生成一个1×1×384的向量；将这两个向量在通道维度上进行拼接，形成一个1×1×768的向量；

(2.5.2)卷积层中，对于每个边缘特征图分割单元所对应的由步骤(2.5.1)生成的1×1×768的向量，以一个尺寸为1×1×768的卷积核执行卷积操作，生成一个1×1的标量；

(2.6)构建自适应融合器；

(2.6.1)在融合卷积核生成层中，基于步骤(2.5)生成的3×3的自适应融合权重矩阵，生成尺寸为5×5×9的融合卷积核，其中，9为通道数，每个通道只有一个位置被激活为3×3自适应融合权重矩阵中的权重，其余位置均赋值为0；每个通道被激活的位置及权重如下述公式所示：

K(im',jm',km')＝G(im,jm)

im'＝2(im-1)+1

jm'＝2(jm-1)+1

km'＝3(im-1)+jm

式中，G是由步骤(2.5)生成的3×3的自适应融合权重矩阵，G(im,jm)表示其第im行第jm列的权重，其中，im,jm＝1,2,3，K是本步骤要生成的融合卷积核，K(im’,jm’,km’)是其第km’个通道中第im’行第jm’列被激活的权重；

(2.6.2)在自适应融合层中，利用步骤(2.6.1)生成的尺寸为5×5×9的融合卷积核，在步骤(2.4)生成的尺寸为21×21×9的连接响应图上进行卷积操作，步长设置为1，采用valid卷积模式，得到融合后的响应图，其尺寸为17×17；

(3)基于步骤(1)获得的训练样本对和响应图标签，对步骤(2)所构建的深度学习网络模型进行训练，得到训练好的模型参数；将所述的深度学习网络模型的结构和训练好的参数在磁盘上进行存储，获得目标跟踪模型；具体步骤包括：

(3.1)对深度学习网络模型中的参数θ进行高斯分布初始化，其中，θ为所述的深度学习网络模型中需要训练的所有权值和偏置的集合；

(3.2)给定每一批样本的数量，在本实施例中，设置每一批样本的数量为8；对于每一批训练样本，即由步骤(1.1)生成的由模板图像和搜索区域图像构成的每一批样本对，将其输入到步骤(2)所构建的深度学习网络模型中，分别通过孪生的模板和搜索区域特征提取器、模板特征图分割器、中心特征图分割单元重构器、连接响应图生成器、自适应融合权重生成器和自适应融合器进行前向传播，计算深度学习网络模型输出的响应图；

(3.3)基于logistic损失函数计算深度学习网络模型输出的响应图相比于步骤(1.2)获得的响应图标签的代价J(θ)；

式中，n是一批样本的数量，在本实施例中n＝8；y_a是其中第a对样本的响应图标签，

是第a对样本所对应的深度学习网络模型输出的响应图，

是第a对样本的响应图损失，计算如下：

为第a对样本在位置r处的损失，计算如下：

式中，η为学习率，本实施例中，设置初始的学习率为10^-2，其大小随着epoch的增加呈指数衰减至10^-5；

(3.5)上述步骤(3.2)～(3.4)的过程不断重复执行，直至达到设定的epoch数量，本实施例中，设置epoch＝50；

(3.6)将深度学习网络模型的结构和训练好的参数进行磁盘存储，得到目标跟踪模型；

(4)对于待跟踪的视频，在确定其第1帧中跟踪目标的基础上，处理出模板图像(对于第1帧)和与3个尺度相应的搜索区域图像(对于后续的待跟踪的每一帧)；具体步骤包括：

(4.2.1)设定模板图像的宽-高尺寸w_z×h_z和搜索区域图像的宽-高尺寸w_x×h_x，本实施例中，w_z＝h_z＝127，w_x＝h_x＝255；按下式计算第t帧图像中与搜索区域图像相对应的正方形目标区域的边长q_{x_t}：

式中，q_{z_t}按下式计算得出：

(4.2.2)设置3个尺度1/scale、1和scale，本实施例中，设置scale＝1.0375，用这3个尺度分别与步骤(4.2.1)中得到的边长q_{x_t}相乘，得到与3个尺度相应的目标区域的边长，分别表示为q_{x_t_1}、q_{x_t_2}和q_{x_t_3}；

(4.2.4)将目标区域A_{x_t_1}、A_{x_t_2}和A_{x_t_3}分别缩放至宽-高尺寸255×255，形成第t帧所对应的与3个尺度相应的搜索区域图像，其宽-高尺寸均为255×255；如果考虑其RGB通道数量3，则与3个尺度相应的3个搜索区域图像的尺寸均为255×255×3；

(5)加载由步骤(3)获得的目标跟踪模型，并将步骤(4)获得的模板图像的3个拷贝和后续的待跟踪的每一帧对应的与3个尺度相应的搜索区域图像形成由模板图像和搜索区域图像构成的3对样本，输入到目标跟踪模型中，得到对待跟踪视频中后续每一帧跟踪的目标位置；

具体地，加载由步骤(3)获得的目标跟踪模型，将模板图像的3个拷贝和待跟踪视频中第t帧(t>1)所对应的与3个尺度相应的搜索区域图像形成由模板图像和搜索区域图像构成的3对样本，输入到目标跟踪模型中，得到对第t帧(t>1)进行跟踪的目标位置，具体过程为：

(5.1)加载由步骤(3)获得的目标跟踪模型，将步骤(4)获得的模板图像的3个拷贝和第t帧对应的与3个尺度相应的搜索区域图像形成由模板图像和搜索区域图像构成的3对样本，输入到目标跟踪模型中，通过前向传播，得到融合后的与3个尺度相应的响应图；

(5.2)将步骤(5.1)得到的与3个尺度相应的响应图进行16倍的双三次插值，将其放大16倍，分别得到与3个尺度相应的尺寸均为n_r×n_r的响应图M₁、M₂和M₃，本实施例中，n_r＝272；按下式分别对这3个响应图进行归一化处理，得到响应图M′₁、M'₂和M′₃；

M″_v(ir,jc)＝(1-γ)×M'_v(ir,jc)+γ×W(ir,jc)

式中，v＝1,2,3，M″_v(ir,jc)是响应图M″_v中第ir行第jc列的元素；γ为设定的平衡因子，本实施例中，γ＝0.176；W为按照下式计算的矩阵，W(ir,jc)是其第ir行第jc列的元素；1≤ir,jc≤n_r；

W＝H^T·H

式中，H是一个1×n_r的向量，其第ih个元素值H(ih)(1≤ih≤n_r)，按下式计算获得：

disp_search_r＝disp_response_r×stride/times

disp_search_c＝disp_response_c×stride/times

式中，stride为孪生的模板和搜索区域特征提取器中的网络总步长，由步骤(2.1)所构建的孪生的模板和搜索区域特征提取器的结构知：stride＝8；times＝16为步骤(5.2)中响应图的放大倍数；

disp_frame_r＝disp_search_r/s

disp_frame_c＝disp_search_c/s

式中，s为步骤(1.1.2)中所述的缩放因子；

(5.8)根据下式更新第t帧跟踪得到的目标框的宽w_t和高h_t

w_t＝(1-β)×w_t-1+β×bs_t×w_t-1

h_t＝(1-β)×h_t-1+β×bs_t×h_t-1

式中，当t>2时，w_t-1和h_t-1分别为第(t-1)帧跟踪得到的目标框的宽和高；当t＝2时，w_t-1和h_t-1分别为第1帧中目标框的宽和高；β为设定的调整因子，本实施例中，设置β＝0.59；bs_t为第t帧跟踪的最佳尺度；

本发明提供的基于特征图分割和自适应融合的目标跟踪方法，在2017年视觉目标跟踪竞赛中公开的数据集VOT 2017上进行了测试，跟踪速度为67fps，满足实时跟踪的要求。表1给出了VOT 2017上与目前先进的实时跟踪方法CSRDCF++、SiamFC、ECOhc、Staple(是VOT2017目标跟踪竞赛前四名的实时跟踪方法)的跟踪性能比较，其中，EAO(realtime)是综合体现目标跟踪方法的准确性、鲁棒性和实时性的性能指标。可以看出，本发明所提供的基于特征图分割和自适应融合的深度学习目标跟踪方法具有最佳的跟踪性能。

表1几种跟踪方法性能指标

Claims

1.一种基于特征图分割和自适应融合的深度学习目标跟踪方法，其特征在于，包括以下步骤：

(4)对于待跟踪的视频，在确定其第1帧中跟踪目标的基础上，从其第1帧中处理出模板图像，从后续的待跟踪的每一帧中处理出与3个尺度相应的搜索区域图像；

2.根据权利要求1所述的基于特征图分割和自适应融合的深度学习目标跟踪方法，其特征在于，所述步骤(1)对训练集中的视频进行预处理，生成由模板图像和搜索区域图像构成的训练样本对；生成响应图标签，具体包括：

(1.1)生成由模板图像和搜索区域图像构成的训练样本对；

其中，生成模板图像z和搜索区域图像x的具体过程为：

s＝w_z/q_z＝w_x/q_x

(1.2)生成响应图标签；

3.根据权利要求1所述的基于特征图分割和自适应融合的深度学习目标跟踪方法，其特征在于，所述步骤(2)构建基于特征图分割和自适应融合的深度学习网络模型，具体包括：

(2.1)构建孪生的模板和搜索区域特征提取器；

(2.2)构建模板特征图分割器；

应同时满足以下两个不等式：

(2.3)构建中心特征图分割单元重构器

(2.3.1)第一编码层：对于尺寸为w_c×h_c×c_c的中心特征图分割单元，第一编码层首先执行全局最大池化，生成一个1×1×c_c的向量；然后，设置一个正整数m，满足c_cmod m²＝0，以该向量中每相邻的m个元素拼接成一个1×1×m的向量，共形成c_c/m个这样的向量；最后，以c_c/m个尺寸为1×1×m的卷积核分别在每个1×1×m的向量上进行卷积操作，生成c_c/m个1×1的标量，将这c_c/m个1×1的标量进行拼接，形成一个1×1×(c_c/m)的向量；

f_c′(i,j,k)＝f_c(i,j,k)×C(k)

式中，1≤i≤h_c，1≤j≤w_c，1≤k≤c_c；f_c(i,j,k)为重构前的中心特征图分割单元中第i行、第j列、第k个通道上的元素；C(k)为激活层生成的中心特征图分割单元的通道注意力中的第k个元素；f_c′(i,j,k)为重构后的中心特征图分割单元中第i行、第j列、第k个通道上的元素；

(2.4)构建连接响应图生成器；

(2.5)构建自适应融合权重生成器；

(2.6)构建自适应融合器；

4.根据权利要求1所述的基于特征图分割和自适应融合的深度学习目标跟踪方法，其特征在于，所述步骤(3)训练深度学习网络模型，获得目标跟踪模型；具体步骤包括：

(3.1)对所述的深度学习网络模型中的参数θ进行初始化，其中，θ为所述深度学习网络模型中需要训练的所有权值和偏置的集合；

是第a对样本所对应的深度学习网络模型输出的响应图，

是第a对样本的响应图损失，计算如下：

为第a对样本在位置r处的损失，计算如下：

式中，η为学习率；

5.根据权利要求1所述的基于特征图分割和自适应融合的深度学习目标跟踪方法，其特征在于，所述步骤(4)对于待跟踪的视频，在确定其第1帧中跟踪目标的基础上，从第1帧中处理出模板图像，从后续的待跟踪的每一帧中处理出与3个尺度相应的搜索区域图像；具体步骤包括：

(4.2)对于后续的待跟踪的每一帧，从中处理出与3个尺度相应的搜索区域图像；具体过程为：

(4.2.1)设定模板图像的宽-高尺寸w_z×h_z和搜索区域图像的宽-高尺寸w_x×h_x，其中，w_z＝h_z，w_x＝h_x；按下式计算第t帧(t>1)图像中与搜索区域图像相对应的正方形目标区域的边长q_{x_t}：

式中，q_{z_t}按下式计算得出：

式中，当t＝2时，w_t-1和h_t-1分别为第1帧中目标框的宽和高；当t>2时，w_t-1和h_t-1分别为第(t-1)帧跟踪得到的目标框的宽和高；所述两种情况下，p′均为目标框周围的背景信息大小，按照下式得出：

(4.2.3)在第t帧(t>1)图像中裁剪出与3个尺度相应的目标区域；具体包括：

(4.2.4)将目标区域A_{x_t_1}、A_{x_t_2}和A_{x_t_3}分别缩放至宽-高尺寸w_x×h_x，形成第t帧(t>1)所对应的与3个尺度相应的搜索区域图像，其宽-高尺寸均为w_x×h_x；如果考虑其RGB通道数量c_x＝3，则与3个尺度相应的3个搜索区域图像的尺寸均为w_x×h_x×c_x。

6.根据权利要求1所述的基于特征图分割和自适应融合的深度学习目标跟踪方法，其特征在于，所述步骤(5)加载由步骤(3)获得的目标跟踪模型，将步骤(4)获得的模板图像的3个拷贝和待跟踪视频中第t帧(t>1)所对应的与3个尺度相应的搜索区域图像形成由模板图像和搜索区域图像构成的3对样本，输入到目标跟踪模型中，得到对第t帧(t>1)进行跟踪的目标位置，具体过程为：

(5.2)将步骤(5.1)得到的与3个尺度相应的响应图进行16倍的双三次插值，将其放大16倍，分别得到与3个尺度相应的尺寸均为n_r×n_r的响应图M₁、M₂和M₃；按下式分别对这3个响应图进行归一化处理，得到响应图M′₁、M′₂和M′₃；

式中，v＝1,2,3，M_v(ir,jc)和M′_v(ir,jc)分别是M_v和M′_v中第ir行第jc列的元素；1≤ir,jc≤n_r；

(5.3)按照下式，利用矩阵W对响应图M′₁、M′₂和M′₃进行调整，分别得到响应图M″₁、M″₂和M″₃；

M″_v(ir,jc)＝(1-γ)×M′_v(ir,jc)+γ×W(ir,jc)

W＝H^T·H

disp_search_r＝disp_response_r×stride/times

disp_search_c＝disp_response_c×stride/times

disp_frame_r＝disp_search_r/s

disp_frame_c＝disp_search_c/s

式中，s为步骤(1.1.2)中所述的缩放因子；

(5.8)根据下式更新第t帧跟踪得到的目标框的宽w_t和高h_t

w_t＝(1-β)×w_t-1+β×bs_t×w_t-1

h_t＝(1-β)×h_t-1+β×bs_t×h_t-1