CN112348849B

CN112348849B - 一种孪生网络视频目标跟踪方法及装置

Info

Publication number: CN112348849B
Application number: CN202011164003.0A
Authority: CN
Inventors: 胡栋; 张虎; 邱英灿
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2023-06-20
Anticipated expiration: 2040-10-27
Also published as: CN112348849A

Abstract

本发明属于视频分析技术领域，公开了一种基于分层注意力机制的孪生网络视频目标跟踪方法。本发明基于孪生网络框架，将高层次特征与低层次特征融合起来，并且在提取特征的过程中，使用了注意力机制对特征图进行重标定，使用AdaBoost算法对目标特征图进行加权融合。本发明还使用了Inception模块，一方面增加了网络的宽度以及孪生网络对尺度的适应性，另一方面还减少了参数，提高了网络训练的速度。在进行目标尺度估计时，本发明使用了基于区域的快速HOG特征提取算法。相比现有技术，本发明方法既能够精确跟踪目标，又能有效地提高跟踪速度。

Description

一种孪生网络视频目标跟踪方法及装置

技术领域

本发明涉及一种基于分层注意力机制的孪生网络视频目标跟踪方法，属于视频分析领域。

背景技术

视频目标跟踪是计算机视觉的研究热点之一，在人机交互、军事侦察、无人驾驶以及安防等诸多方面有着广泛的应用前景。

相关滤波器由于其计算速度快，可以使目标跟踪达到实时。但相关滤波使用的手工特征，由于特征表达能力有限，在复杂环境下的目标跟踪能力有限。随着深度学习的兴起，研究人员开始将深度网络学习获得的特征应用到相关滤波中。例如，Ma等通过分析VGG-19的网络特征，提出了一种分层卷积特征(Hierarchical Convolutional Features,HCF)方法。该方法研究发现高层特征反映目标的语义信息，对目标更加鲁棒，而低层特征反映目标的细节信息，对目标的定位更加精确，后来，研究人员使用深度学习框架实现了端对端的目标跟踪，跟踪结果不断精确，但由于训练参数巨大，实时性受到影响。

虽然在过去几十年该技术的研究取得了很大的进展，但由于在实际的跟踪环境下，目标会受到背景杂波、尺度变化以及遮挡等复杂情形的影响，因此设计一个准确、高效、鲁棒地跟踪器始终具有重要的应用价值。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种基于分层注意力机制的孪生网络视频目标跟踪方法，解决在视频目标跟踪中，目标受到背景杂波等复杂环境的影响，会出现目标漂移或跟踪实时性下降，并且还要考虑目标尺度变化的技术问题。

为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供了一种基于分层注意力机制的孪生网络视频跟踪方法，所述方法包括以下步骤：

步骤1、读取并预处理网络输入的模板图像和搜索图像；

步骤2、将预处理后的模板图像和搜索图像分别输入到训练好的孪生网络模型中，经过Inception模块以及卷积层的特征提取模块分别得到模板图像和搜索图像的特征图；

所述孪生网络模型包括模板分支和搜索分支，模板分支和搜索分支特征提取模块分别提取特征，模板分支上加入注意力模块进行特征重标定；

步骤3、通过模板分支网络第三卷积层提取低层特征，通过模板分支网络第五卷积层提取高层特征，将所述低层特征与所述高层特征分别通过注意力模块；

步骤4、将模板分支通过注意力模块的特征与搜索分支得到的特征进行相关操作，得到各层对应的响应图，再将各层响应图采用AdaBoost算法进行融合得到最终响应图，进而得到目标位置；

步骤5、在目标位置的基础上利用尺度滤波器进行尺度估计，通过设置尺度池，训练尺度滤波器选出最优尺度大小；

步骤6、根据最优尺度大小更新尺度滤波器；

步骤7、判断当前帧是否是最后一帧，如果是，则结束，否则读取新一帧搜索图像并跳转步骤1。

进一步的，所述方法的步骤还包括：构建并训练孪生网络模型；

所述孪生网络模型的构建方法为：

构建原孪生网络模型，包括模板分支和搜索分支，所述模板分支和搜索分支均包括第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层、第五卷积层，将原孪生网络模型的模板分支的第一卷积层用Inception模块进行替换，然后将第三、第五卷积层之后加上注意力模块，将相关滤波器加到原孪生网络模型的模板分支的第三卷积层之后；

所述孪生网络模型的训练方法包括：用ImageNet数据集进行训练，得到改进后的网络参数。

进一步的，步骤1中，所述预处理网络输入的模板图像和搜索图像的方法包括：

根据给定的初始目标框(μ,ν,w,h)，(μ，ν)代表目标中心位置的横纵坐标，(ω，h)代表目标的宽度和高度；其中目标的位置为pos(μ,ν)，目标的尺度大小为target(w,h)，通过以下公式调整模板图像的大小：

s(w+2p)×s(h+2p)＝A (1)

其中A是模板图像的大小，值为定值127²像素，s是尺度因子，p是上下文边界；

先将包含上下文信息的(w+2p)×(h+2p)的图片扩展，然后进行尺寸调整，生成大小为127×127像素的模板图像；以相同的方式将搜索图像的大小设置为255×255像素。

进一步的，步骤2中，所述特征图的提取方法包括以下步骤：

为样本X的第l层的特征向量，样本X的第l层大小为M×N×D，R^M×N×D表示大小为M×N×D的实数集，M，N和D分别表示样本X的宽度，高度和特征维度；第l层特征的相关滤波器所对应的高斯函数为G_l，样本X的第l层特征的相关滤波器需要最小化按下面公式计算：

其中

为/>

的第d个通道，/>

表示为第d个通道的相关滤波器，*表示为循环卷积运算，λ为正则化系参数(λ≥0)；通过FFT训练相关滤波器，求得第d个通道的相关滤波器为/>

样本X通过第l个相关滤波器产生的相关响应图的计算公式为：

其中，F(·)表示进行傅里叶变换，F^-1表示傅里叶反变换，^-表示复共轭，⊙表示逐像素相乘。

进一步的，步骤3中，将特征图通过注意力模块的方法包括以下步骤：

先将特征图通过通道注意力模块，然后再将特征图通过空间注意力模块；

通过最大池化和平均池化聚合特征图的空间信息，形成两个不同的特征描述

和/>

分别为输入特征X的最大池化特征和平均池化特征；

根据所述最大池化特征和平均池化特征，通过多层感知机网络生成最后的通道注意力图M_c∈R^c×1×1，R表示实数集，通道注意力模块可以用下式来表示：

其中，σ表示激活函数，激活函数使用relu函数，W₀和W₁是多层感知机的两个权重值，W₀∈R^C/r×C，W₁∈R^C×C/r，X是输入特征，

是最大池化特征，/>

是平均池化特征；

重标定通道特征F是由通道注意力输出的特征M_c所构成，然后再通过最大池化和平均池化操作分别得到两个不同的特征描述

和/>

然后使用一个卷积层将两者连接在一起生成最后的二维空间注意力图，用下式来表示重标定通道特征F经过空间注意力模块的计算过程：

其中，σ表示激活函数，

f^7×7表示一个滤波器大小为7×7卷积操作，/>

表示最大池化特征，/>

表示平均池化特征。

进一步的，步骤4中，将通过注意力模块的特征图采用AdaBoost算法进行融合的方法包括以下步骤：

计算出输出响应图与以目标位置为中心的期望高斯分布之间的误差，然后根据这个误差使用AdaBoost算法自适应加权响应图；

在第t-1帧时，设目标响应图位置为(x,y)，期望高斯分布为g^t-1(x,y)，则响应图

相对于高斯分布的误差函数为：

其中,abs(·)表示绝对值操作，Mean(·)表示平均值操作，

表示第t-1帧第i层特征图位置(x,y)的响应值，g^t-1(x,y)表示为目标位置(x,y)的期望高斯分布，然后根据这个误差函数计算出每个响应图在最后的分类器中所占的比例：

其中，ε_i表示第i层特征图的误差；

最终的响应图为：

其中，α_i表示第i层的权重，R_i表示第i层的响应图，R^t表示第t帧特征图的响应值；

所以在t帧时最终的响应图中的目标位置(x,y)为：

R^t表示第t帧特征图的响应值。

进一步的，步骤5中，选出最优尺度大小的方法包括以下步骤：

对得到的目标位置区域进行一个不同尺度的采样，在预测到目标的位置的时候，以这个位置为中心，创建一个多尺度的候选区域：

其中，a是尺度因子，S为候选区域的数量，W×H为上一帧目标框的大小；

并计算其HOG特征o_t(n)，大小为1×U，给定一维高斯样本标签g_s(n)，将特征o_t(n)转换到频域为O_t(n)，其共轭复数为

g_s(n)转换到频域表示为G_s(n)，其共轭复数为

则尺度滤波器K_t(n)：

其中，λ_s表示尺度滤波器的正则化参数；

在随后的第t+1帧中确定目标中心点为p_t+1(n)之后，以p_t+1(n)为中心进行不同尺度的采样，对第n个尺度来说，其HOG特征在频域中表示为V_t(n)，则可得到对应的响应图为：

其中，

表示反傅里叶变换，K_t(n)表示尺度滤波器，V_t(n)表示频域特征；通过寻找响应图中响应值最大所对应的n，即可以求得目标的最佳尺度，即：

得到最终的目标的尺度为

并且按下式更新搜索区域：

其中，a是尺度因子，w_t表示第t帧目标宽度，h_t表示第t帧目标高度。

进一步的，在步骤6中，根据最优尺度大小更新尺度滤波器，所述尺度滤波器的更新公式为：

式中，η表示学习率，O_t(n)表示频域特征，-表示复共轭，G_s(n)表示频域的高斯输出，λ_s表示尺度滤波器的正则化参数。

第二方面，本发明提供了一种基于分层注意力机制的孪生网络视频跟踪装置，包括处理器及存储介质；所述存储介质用于存储指令；所述处理器用于根据所述指令进行操作以执行上述方法的步骤。

第三方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

与现有技术相比，本发明所达到的有益效果：

1、本发明基于孪生网络框架，将高层次特征与低层次特征融合起来，使用了不同层的特征进行融合，并且在提取特征的过程中，使用了注意力机制对特征图进行重标定，使用AdaBoost算法对目标特征图进行加权融合，提高了响应图的可靠性；

2、本发明同时还引入了尺度估计模块，在检测出目标位置的时候，对目标进行多尺度的缩放；在对目标进行尺度缩放的过程中，本发明使用了基于区域的快速HOG特征提取算法对提取过程进行了加速，使孪生网络能够快速的提取HOG特征，从而加速跟踪的速度。所提出的算法既能够精确跟踪目标，又能有效地提高跟踪速度。

3、本发明还使用了Inception模块，一方面增加了网络的宽度以及孪生网络对尺度的适应性，另一方面还减少了参数，提高了网络训练的速度。

附图说明

图1为本发明的算法流程图；

图2为本发明的网络结构图；

图3为Inception模块图；

图4为注意力模块图；

图5为跟踪性能对比图；

图6为部分跟踪结果图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一：

本实施例提供一种基于分层注意力机制的孪生网络视频目标跟踪方法，本方法包括以下步骤：

步骤1、读取并预处理网络输入的模板图像和搜索图像；

所述孪生网络模型分为模板分支和搜索分支，模板分支和搜索分支通过改进后的特征提取模块分别提取特征，模板分支上加入注意力模块进行特征重标定；

步骤3、将模板分支网络第三层提取的低层特征与第五层提取的高层特征分别通过注意力模块；

步骤6、根据最优尺度大小更新尺度滤波器；

优选地，所述方法的步骤还包括：构建并训练孪生网络模型；

孪生网络分为模板分支和搜索分支，模板分支和搜索分支通过改进后的特征提取模块分别提取特征，模板分支上加入注意力模块进行特征重标定，得到目标位置后通过尺度估计模块得到最佳尺度；

所述孪生网络模型的构建方法为：

构建原孪生网络模型，包括模板分支和搜索分支，模板分支和搜索分支均包括第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层、第五卷积层，将原孪生网络的模板分支的第一卷积层用Inception模块进行替换，然后将第三、第五卷积层之后加上注意力模块，将相关滤波器加到网络的第三层之后；

原始孪生网络用的网络类似于AlexNet,固定的，包括卷积层、池化层、卷积层、池化层、卷积层、卷积层、卷积层。

具体的，步骤1中，所述预处理网络输入的模板图像和搜索图像的方法包括：

根据给定的初始目标框(μ,ν,w,h)，(μ，ν)代表目标中心位置的横纵坐标，(ω，h)代表目标的宽度和高度。其中目标的位置为pos(μ,ν)，目标的尺度大小为target(w,h)，通过以下公式调整模板图像的大小：

s(w+2p)×s(h+2p)＝A (1)

具体的，步骤2中，所述特征图的提取方法包括以下步骤：

其中

为/>

的第d个通道，/>

其中，F(·)表示进行傅里叶变换，F^-1表示傅里叶反变换，^-表示复共轭，⊙.表示逐像素相乘。

具体的，步骤3中，将特征图通过注意力模块的方法包括以下步骤：

和/>

分别为输入特征X的最大池化特征和平均池化特征；

根据所述最大池化特征和平均池化特征，通过多层感知机网络生成最后的通道注意力图M_c∈R^c×1×1，通道注意力模块可以用下式来表示：

是最大池化特征，/>

是平均池化特征；

与通道注意力不同，空间注意力主要关注位置信息。重标定通道特征F是由通道注意力输出的特征M_c所构成，然后再通过最大池化和平均池化操作分别得到两个不同的特征描述

和/>

然后使用一个卷积层将两者连接在一起生成最后的二维空间注意力图，用下式来表示重标定通道特征F经过空间注意力模块M_s(F)的计算过程：

其中，σ表示激活函数，

f^7×7表示一个滤波器大小为7×7卷积操作，/>

表示最大池化特征，/>

表示平均池化特征。

具体的，步骤4中，将通过注意力模块的特征图采用AdaBoost算法进行融合的方法包括以下步骤：

相对于高斯分布的误差函数为：

其中,abs(·)表示绝对值操作，Mean(·)表示平均值操作，

其中，ε_i表示第i层特征图的误差；

最终的响应图为：

所以在t帧时最终的响应图中的目标位置(x,y)为：

R^t表示第t帧特征图的响应值。

具体的，步骤5中，选出最优尺度大小的方法包括以下步骤：

g_s(n)转换到频域表示为G_s(n)，其共轭复数为

则尺度滤波器K_t(n)：

其中，λ_s表示尺度滤波器的正则化参数；

其中，

表示反傅里叶变换，K_t(n)表示尺度滤波器，V_t(n)表示频域特征。

通过寻找响应图中响应值最大所对应的n，即可以求得目标的最佳尺度，即：

得到最终的目标的尺度为

并且按下式更新搜索区域：

具体的，在步骤6中，根据最优尺度大小更新尺度滤波器，所述尺度滤波器的更新公式为：

需要说明的是，本申请中R表示实数集，其右上角的字符代表其大小,如R^c×l×l表示大小为C×1×1的实数集，C为特征图的通道数；R^C/r×C为大小为C/r×C的实数集，C为特征图的通道数，r是缩放因子；R^1×H×W表示大小为1×H×W的实数集，H和W代表目标的宽度和高度。

实施例二：

本实施例提供一种基于分层注意力机制的孪生网络视频目标跟踪方法，为使本发明的目的、实现方案和优点更为清晰，下面以公开测试集OTB Benchmark中的序列Singer1为例，对本发明的具体实施结合附图说明作进一步的详细描述，具体阐述如下：

本发明提出了一种基于分层注意力机制的孪生网络跟踪方法。本方法将跟踪过程分成了目标位置估计以及目标尺度估计两个部分。使用卷积神经网络进行特征提取，将第三层的特征与第五层的特征进行加权融合，得到跟踪结果。然后利用尺度滤波器进行尺度估计，通过设置尺度池，训练尺度滤波器选出结果最好的那个尺度作为目标的最终尺度大小。

该方法具有以下步骤：

步骤1、调整孪生网络结构并进行训练：

结构调整：将孪生网络第一层的卷积层用Inception模块进行替换，如图3所示，然后将第三、第五卷积层之后加上注意力模块，如图4所示，将相关滤波器加到网络的第三层之后，改进后的网络结构图如图2所示。改进后的网络模型用ImageNet数据集进行训练，得到改进后的网络参数。

训练过程：使用随机梯度下降法进行优化逻辑回归目标，卷积层初始学习率设置为0.001，训练过程包括50个迭代，每个迭代包括5000个样本对，批量大小设置为8。相关滤波器的正则化系数大小设置为0.1，相关滤波所用高斯函数的标准差设置为4.0。

步骤2、在Singer1的第一帧模板图像中，给定初始目标框为(48,98,40,142)，其中初始目标中心为pos(48,98)，目标的尺度大小target为40×142,目标中心的搜索区域window_sr为40×142。读取网络输入的模板图像以及搜索图像，根据给定的初始目标框(μ,ν,w,h)，其中目标的位置为pos(μ,ν)，目标的尺度大小为target(w,h)。然后通过以下公式可以生成标准模板图像：s(w+2p)×s(h+2p)＝A，

其中A为127²，s是尺度因子，对图片扩展再进行resize，生成127×127的模板图像，以相同的方式生成大小为255×255的搜索图像。

步骤3、将预处理后的模板图像和搜索图像分别输入到网络中，经过Inception模块以及卷积层的特征提取模块得到特征值。设样本X的第l层大小为M×N×D的特征向量为

M，N和D分别表示宽度，高度和特征维度。第l层特征的相关滤波器所对应的高斯函数为G_l，那么第l层特征的相关滤波器需要最小化问题：

其中

为/>

的第d个通道，/>

表示为第d个通道的相关滤波器，*表示为循环卷积运算，λ为正则化系参数(λ≥0)。式中的问题可以转换到频域中，通过FFT训练相关滤波器，可以求得第d个通道的相关滤波器为/>

样本X通过第l个相关滤波器产生的相关响应图为：

其中，F(·)表示进行傅里叶变换，F^-1表示傅里叶反变换，^-表示复共轭，⊙表示逐像素相乘。将标准模板图像与搜索图像分别输入到网络中，标准模板图像经过Inception模块以及卷积层的特征提取，得到特征H1，将特征H1输入到相关滤波器，代入式得到对应的相关滤波器w^h，根据w^h计算得到响应图f_h。标准搜索图像经过相同的结构得到特征H2和响应图f_h2。

步骤4、将低层的特征以及高层的特征通过注意力模块。先是通过通道注意力模块，然后再通过空间注意力模块。输入特征X通过最大池化和平均池化这两个操作来聚合特征图的空间信息，形成两个不同的特征描述

和/>

分别为最大池化特征和平均池化特征。这两个特征通过多层感知机网络生成最后的通道注意力图M_c∈R^c×1×1，R表示大小为C*1*1的实数集，C为特征图的通道数。通道注意力模块可以用式(22)来表示：/>

其中，σ表示激活函数，激活函数使用relu函数，W₀和W₁是多层感知机的两个权重值，W₀∈R^C/r×C，W₁∈R^C×C/r，R^C/r×C为大小为C/r×C的实数集，C为特征图的通道数，r是一个缩放因子。

和/>

然后使用一个卷积层将两者连接在一起生成最后的二维空间注意力图。可以用公式(23)来表示这一计算过程：

其中，σ表示激活函数，

f^7×7表示一个滤波器大小为7×7卷积操作。

将H1特征输入到注意力模块，也就是代入式(3)和式(4)得到重标定特征f_l，响应图的特征f_h输入到注意力模块，然后代入式(3)和式(4)得到的特征为f_h'，将搜索分支上对应层的特征H2及f_h2与重标定之后的特征进行卷积，得到低层响应图R_l和高层响应图R_h。

步骤5、将通过注意力模块的特征图采用AdaBoost算法进行融合。用输出响应图与以目标位置为中心的期望高斯分布计算出它们之间的误差，然后根据这个误差使用AdaBoost算法自适应加权响应图。在第t-1帧时，设目标响应图位置为(x,y)，期望高斯分布为g^t-1(x,y)，则响应图

相对于高斯分布的误差函数为：

其中,abs(·)表示绝对值操作，Mean(·)表示平均值操作，

表示第t-1帧第i层特征图位置(x,y)的响应值，g^t-1(x,y)表示为目标位置(x,y)的期望高斯分布，然后根据式(25)计算出每个响应图在最后的分类器中所占的比例：

最终的响应图为：

所以在t帧时最终的响应图中的目标位置(x,y)为：

步骤6、确定第t帧的目标中心位置为q_t之后，用P_t×R_t表示当前目标的大小，w_t×h_t表示当前搜索区域大小，S表示尺度滤波器的大小，设置为33，a表示尺度因子，设置为1.02，n表示尺度级别，以q_t为中心，创建一个多尺度的候选区域：

g_s(n)转换到频域表示为G_s(n)，其共轭复数为

则尺度滤波器K_t(n)：

其中，λ_s表示尺度滤波器的正则化参数，在随后的第t+1帧中确定目标中心点为p_t+1(n)之后，以p_t+1(n)为中心进行不同尺度的采样，对第n个尺度来说，其HOG特征在频域中表示为V_t(n)，则可得到对应的响应图为：

其中，

表示反傅里叶变换。

可以得到最终的目标的尺度为

并且搜索区域更新为

步骤7、尺度滤波器更新

假设上式的分子和分母分别表示为C_t和D_t，那么尺度滤波器的更新公式为：

其中，η和η_s分别表示位置滤波器和尺度滤波器的学习率。

步骤8、判断当前帧是否是最后一帧，如果是，则结束，否则返回步骤2，读取新一帧搜索图像重新生成标准搜索图像继续进行目标跟踪。

通过计算目标跟踪在不同层的特征组合下的成功率和准确率，我们发现第三层和第五层的特征组合可以得到比较好的成功率和准确率，本发明采用的是第三层和第五层的特征组合。

为验证本发明方法的效果，进行了以下验证实验：

本发明采用OTB(Online Tracking Benchmark)平台上的50个公认的、已标注的视频序列来进行测试，它们模拟真实场景中的各种情况，包含光照变化、尺度变换、部分或严重遮挡、形变等。表1为本发明实验的硬件及软件仿真环境。

表1实验的硬件及软件仿真环境

CPU	Intel(R)Core(TM)i5-8265U CPU@3.4GHz
		内存	8.00GB
操作系统	Windows 10
		开发环境	MATLAB R2017a、Visual Studio 2015
编程语言	Matlab、C++

在OTB测试平台上，主要有两种评价标准：精确度(Precision Plot)和成功率(Success Plot)。

在跟踪过程中，精确度是评价一个算法跟踪器是否能够准确的得出后续帧的目标位置的关键，算法跟踪器得出的目标位置一般称为预测值，人工标注的目标位置称之为真实值(groundtruth)，准确度就是通过计算预测值偏离真实值的偏差，一般使用欧式距离来计算预测值和真实值之间的距离。如果这个距离小于给定的阈值，跟踪就越准确，相反，跟踪就越不准确。用精度曲线反映预测值与真实值的误差在给定阈值距离内占总帧数的百分比，作为这个算法的精确度。一般这个阈值设置为20像素，不同的阈值得到的精确度是不一样的，将所有的阈值情况的精度绘制出来就变成了精确度图。

成功率是目标跟踪器得到的候选目标框与人工标注的真实区域之间的重叠精度来测量。将目标跟踪器得到的候选区域标注为R_a，人工标注的目标真实区域标注为R_b，那么它们的重叠精度为：

其中，R_a∩R_b表示区域R_a与区域R_b的重叠区域，R_a∪R_b表示区域R_a与区域R_b的联合区域。这个重叠精度得分越高，表示跟踪越准确。一般将重叠精度的阈值设置为0.5，不同阈值得到的重叠精度得分也是不一样的，将所有的阈值情况的重叠精度绘制出来就变成了成功率图。

综上所述，精确度和成功率越高，目标跟踪的性能越好。而评价跟踪效率的标准采用每秒的处理帧数(帧/秒)，算法每秒处理的帧数越多，说明跟踪实时性越好。

如图5所示，本发明在20像素的阈值下仍然有着82.6％的准确度，与ECO、SiamFC、SSC和KCF相比，本发明分别提高了0.9％，4.9％，8.2％和10.6％。在图(b)中，我们将重叠精度的阈值设置为0.5，本文的成功率达到了63.3％。相比于ECO、SiamFC、SSC和KCF这几个算法，本发明的成功率分别提高了1.1％，4.7％、9.6％和11.9％。在背景杂波的条件下，本发明仍然保持着比较高的准确度和精确度。图(c)中，本发明在背景杂波条件下的准确度相比于ECO、SiamFC、SSC和KCF分别提高了2.3％，9.4％，12.2％和20.3％。图(d)中，本发明在背景杂波的条件下的成功率对比于ECO、SiamFC、SSC和KCF分别提高了1.9％，9.9％，10.6％和16.6％。

图6为本发明部分跟踪效果图，红色框为本发明的跟踪框，而蓝色为原始SAMF算法的跟踪框，绿色为SiamFC算法的跟踪框，黑色为KCF算法的跟踪框，玫红色为DSST算法的跟踪框。由图可知，三个视频序列都存在明显的尺度变化，在CarScale序列中，目标逐渐靠近摄像头，尺度越来越大，第244帧，HCF、CT、Stuck和KCF都只跟踪到目标的一小部分，本文算法能较好的实现目标尺度自适应。

本发明提出了一种基于分层注意力机制的孪生网络跟踪算法。使用了不同层的特征进行融合，并且在提取特征的过程中，使用了注意力机制对特征图进行重标定，使用AdaBoost算法对目标特征图进行加权融合，提高了响应图的可靠性。同时还引入了尺度估计模块，在检测出目标位置的时候，对目标进行多尺度的缩放。在对目标进行尺度缩放的过程中，本发明使用了基于区域的快速HOG特征提取算法对提取过程进行了加速，使孪生网络能够快速的提取HOG特征，从而加速跟踪的速度。所提出的算法既能够精确跟踪目标，又能有效地提高跟踪速度。

实施例三：

本发明实施例还提供了一种基于分层注意力机制的孪生网络视频跟踪装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行实施例一所述方法的步骤。

实施例四：

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现实施例一所述方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。