CN113744311A

CN113744311A - 基于全连接注意力模块的孪生神经网络运动目标跟踪方法

Info

Publication number: CN113744311A
Application number: CN202111024719.5A
Authority: CN
Inventors: 宋勇; 张子烁; 杨昕; 赵宇飞; 赵晨阳
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2021-12-03

Abstract

本发明公开的基于全连接注意力模块的孪生神经网络运动目标跟踪方法，属于计算机视觉跟踪技术领域。本发明在利用孪生神经网络提取图片特征后，利用全连接注意力模块对模板分支提取的模板特征处理，该模板特征融合原模板特征后作为注意力加强的模板特征与进行相同操作的更新模板特征相结合，得到的新模板特征与搜索特征融合，实现模板特征的自注意和互注意，提升鲁棒性；根据融合加强模板特征和搜索特征的响应图，得到对应搜索图中目标的位置信息和尺寸偏移信息；根据每固定帧的网络预测结果对更新模板分支的输入进行更新，提升跟踪精度。本发明在目标发生剧烈形变、短暂消失后重现或遮挡等条件下，仍然能持续稳定地实现目标跟踪。

Description

基于全连接注意力模块的孪生神经网络运动目标跟踪方法

技术领域

本发明涉及一种图像序列中运动目标的跟踪方法，属于计算机视觉跟踪技术领域。

背景技术

运动目标跟踪技术是计算机视觉科学中重要的研究方向之一，在视频监控、人机交互、智能航行等领域有着广泛的应用。该技术是指在给出视频序列第一帧中的目标边界框后，能够预测后续帧中目标的位置。目前，运动目标跟踪技术主存在的主要问题有光照变化、目标发生遮挡、形状变化、尺寸变化和快速运动等复杂干扰因素的影响，使能够实时跟踪并鲁棒精确的目标跟踪方法难以实现。

近年来，深度学习在计算机视觉领域取得了巨大的成功，基于端到端深度学习训练的优势，研究者提出了多种基于深度学习的目标跟踪算法，使得单目标跟踪算法的精度和速度都取得了极大的提升，其中具有代表性的是孪生神经网络跟踪算法。孪生神经网络因其特性，在经过大量的离线训练后能够学习到不同帧中相同物体的相似性。在线跟踪时，根据第一帧中目标边界框生成的图像区域作为模板，输入网络提取模板特征，用于与后续帧裁剪出的搜索图像区域提取的搜索特征进行相似性匹配，将相似度得分最高的位置作为预测的目标位置。该类方法相较传统的相关滤波跟踪方法，跟踪精度和跟踪速度均有较大提升，是目前运动目标跟踪技术最具代表性的算法框架之一。但同时，孪生神经网络框架的目标跟踪算法仍存在问题，目前较为成熟的SiamFC、SiamRPN、SiamBAN等算法均仅由第一帧获得目标模板，在目标快速移动、被干扰物遮挡、姿势变化等干扰下跟踪器鲁棒性相对较低。仅依靠单帧目标特征作为模板不能让网络适应发生剧烈变化的目标，因此需要模板更新，丰富模板特征，同时通过注意模块让网络提取特征图集中于目标本身，增强模板特征的作用。

发明内容

本发明公开的基于全连接注意力模块的孪生神经网络运动目标跟踪方法目的是：采用基于端到端训练的孪生神经网络，在离线训练后能够实现速度更快的运动目标跟踪；在利用孪生神经网络提取图片特征后，利用全连接注意力模块将模板特征与搜索特征相融合，能够更加关注目标特征信息，提升鲁棒性，即在目标发生剧烈形变、短暂消失后重现或遮挡等条件下，仍然能持续稳定地实现目标跟踪。

本发明的目的是通过下述技术方案实现的：

本发明公开的基于全连接注意力模块的孪生神经网络运动目标跟踪方法，在利用孪生神经网络提取图片特征后，利用全连接注意力模块对模板分支提取的模板特征进行处理，该模板特征融合原模板特征后作为注意力加强的模板特征与进行相同操作的更新模板特征相结合，得到的新模板特征与搜索特征融合，实现模板特征的自注意和互注意，提升鲁棒性。根据融合加强模板特征和搜索特征的响应图，得到对应搜索图中目标的位置信息和尺寸偏移信息。根据每固定帧的网络预测结果对更新模板分支的输入进行更新，提升跟踪精度。

本发明公开的基于全连接注意力模块的孪生神经网络运动目标跟踪方法，包括如下步骤：

步骤1：为了离线训练步骤2基于全连接注意力模块的孪生神经网络，利用目标跟踪图像序列数据集生成用于输入孪生神经网络的训练样本数据组。所述训练样本数据组包括第一帧模板区域Z₀和更新模板区域Z、搜索区域X。

为了离线训练步骤2基于全连接注意力模块的孪生神经网络，根据目标跟踪图片序列中第一帧图像的目标位置及尺寸，将第一帧图像裁剪为包含目标模板特征的模板区域，该模板区域同时作为第一帧模板区域Z₀和更新模板区域Z；第二帧图像作为搜索图片，根据第一帧目标位置信息和尺寸信息，将搜索图片裁剪为包含目标的搜索区域X，后续第t帧搜索图片根据第t-1帧网络预测的目标位置信息和尺寸信息裁剪为包含目标的搜索区域X。所述第一帧模板区域Z₀、更新模板区域Z和搜索区域X三个区域形成训练样本数据组，分别作为孪生神经网络第一帧模板分支、更新模板分支和搜索分支的输入。

步骤2：构建包含共享权重的第一帧模板分支、更新模板分支和搜索分支孪生神经网络，提取步骤1生成的训练样本数据组的特征，分别提取目标第一帧模板区域特征、更新模板区域特征和搜索区域特征。利用所述基于端到端训练的孪生神经网络，在经过大量数据训练后，能够实现输入视频序列后直接得到每一帧图片的跟踪结果，无需对输出的特征图进行再处理，进而提升跟踪效率。

构建包含第一帧模板分支、更新模板分支和搜索分支孪生神经网络，提取步骤1生成的训练样本数据组的特征。上述三分支共享权重，分别提取目标第一帧模板区域特征、更新模板区域特征和搜索区域特征。更新模板分支用于步骤6所述更新模板的特征提取，其结构与第一帧模板分支网络结构相同。利用所述基于端到端训练的孪生神经网络，在经过大量数据训练后，能够实现输入视频序列后直接得到每一帧图片的跟踪结果，无需对输出的特征图进行再处理，进而提升跟踪效率。

步骤3：构建全连接注意力模块；利用全连接注意力模块对步骤2生成的第一帧模板区域特征、更新模板区域特征和搜索区域特征进行处理，生成强化后的模板特征和搜索特征，实现模板特征的自注意和互注意，进而提升鲁棒性。

第一帧模板分支后衔接全连接第一注意力模块，更新模板分支后衔接全连接第二注意力模块，第一全连接注意力模块和全连接注意力模块第二结构相同且共享权重，通过第一全连接注意力模块和全连接注意力模块组成的全连接注意力模块实现两个分支模板特征对自身的注意力增强。增强后的第一帧模板特征融合后与搜索特征结合，得到对第一帧模板和更新模板均加强注意力的搜索特征。

先将第一帧模板分支提取的目标模板特征Z_0f(b，c，h，w)按中心区域裁剪为尺寸(b，c，h′，w′)，再将其空间维度由代表宽高两个维度的(h′，w′)合并为一个空间维度s＝h′×w′，改变维度顺序得到Z_0f1(b，s，c)。其中b代表输入网络的图片数量，c代表图片通道数为256，h代表模板特征图高度，w代表模板特征图宽度，h′代表裁剪后模板特征图，w′代表裁剪后模板特征图宽度，符号×代表数学乘法。

全连接注意力模块首先利用包含全连接层的模块L对原模板特征图Z_0f1的空间维度进行激活，获得的特征图与原模板特征图相加，得到特征图Z_0f2(b，s，c)；再利用模块L对特征Z_0f2的通道维度进行激活，获得的特征图与Z_0f2相加，得到加强后的特征图Z_0f3(b，s，c)。

Z_0f2＝Z_0f1+L(Z_0f1)

Z_0f3＝Z_0f2+L(Z_0f2)

其中，模块L按顺序以此包含：将维度转为隐藏维度的全连接层，GELU激活函数层，Dropout层，将维度转为输入维度的全连接层，Dropout层。符号+代表元素级加法

利用加强后的特征图Z_0f3，对原模板特征和原搜索特征加强模板注意力。

加强后的特征图Z_0f3改变维度顺序为Z′_0f3(b，c，h，w)，与原模板特征图Z_0f相乘，得到新第一帧模板特征Z′_0f。

Z′_0f＝Z′_0f3×Z_0f

其中，符号×代表元素级乘法。

更新模板分支进行相同操作，得到新更新模板特征Z′_f。

融合两分支加强后的特征图Z′_0f、Z′_f，得到最终模板特征图Z″_f。

Z″_f＝Z′_0f+Z′_f

Z″_f经过标准化层(Layer Normalization)，再平均池化并改变维度后得到Z″_f1(b，c，1，1)，与原搜索特征图X_f相乘，得到新搜索特征X′_f。

X′_f＝Z″_f1×X_f

通过生成的强化后模板特征Z″_f实现模板特征的自注意，通过强化后搜索特征X′_f实现搜索特征和模板特征的互注意，进而提升鲁棒性。

步骤4：利用互相关操作将强化后的模板特征和搜索特征融合，生成融合模板特征和搜索特征的响应图。

利用互卷积操作将模板特征Z″_f和搜索特征X′_f融合得到响应图。

步骤5：根据步骤4生成的响应图，经卷积层处理得到分类图和回归图，利用分类图预测目标在响应图上的前景或背景分类概率估计，利用回归图预测目标在响应图上的边界框偏移回归估计；经过叠加偏移和尺寸变换操作得到搜索图片中目标的位置和尺寸。

响应图上每个位置与原输入网络的搜索区域上位置一一映射，前景或背景分类概率估计即网络预测响应图上每个位置是否存在目标，边界框偏移回归估计即响应图上每个位置距离目标框四条边界的距离，经过尺寸转换可以得到原输入网络的搜索区域上目标框的位置和尺寸，经过偏移转换可得到原搜索图上目标框的位置和尺寸。

上述过程的处理过程如下：

分类图通过log softmax计算得到响应图每个位置前景或背景分类概率分布，回归图可直接获得响应图每个位置的预测值

其中

分别代表该位置距离目标边界左边框、上边框、右边框和下边框的距离。

通过以下尺寸转换可以计算得到原输入网络的搜索区域上目标框的位置和尺寸：

其中，(p_x1，p_y1，p_x2，p_y2)是输入网络的搜索区域中目标框左上角和右下角的坐标，(p_i，p_j)是响应图的坐标(i，j)与输入网络的搜索区域内相应位置的尺寸转换量。

经过尺寸转换，第t帧搜索区域中目标框左上角和右下角的坐标转变为目标框的中心点坐标

宽度w和高度h。

w＝p_x2-p_x1

h＝p_y2-p_y1

根据第t帧输入网络的搜索区域与搜索图的偏移量(Δc_x，Δc_y)，得到第t帧原图片上目标框的中心坐标(c_x，c_y)：

最终得到代表原图上目标框尺寸的坐标(c_x，c_y，w，h)。

步骤6：每固定间隔帧数判断网络预测的各结果的跟踪准确性，将与模板相似性最高的结果作为该帧图片跟踪预测结果，利用该结果对该帧图片进行裁剪，作为步骤2中更新模板分支的输入，进行模板更新，丰富模板信息，以进一步提升跟踪精度。

在网络训练过程中，保证网络具有辨别真实目标和相似目标的能力，以便跟踪过程中更新模板能够更准确地进行更新。

对于每一张训练图像，通过非极大值抑制将回归图得到的所有候选框进行分类，并按照各个候选框对应的分类图得分从大到小排序，最终每一帧图像生成n个候选框。用各候选框对X′_f进行裁剪，得到候选框特征区域。用原第一帧模板图像目标框位置对Z′_f进行裁剪，得到目标特征区域。令各候选框特征区域分别与目标特征区域计算欧式距离，选择距离最小的候选框作为正样本，选择除正样本外得分最大的候选框作为负样本，使每一帧图像生成一组训练正负样本对。训练时，令正样本得分高于负样本得分阈值V_t，即

Loss_u＝pos-neg+V_t

其中，pos代表正样本得分，neg代表负样本得分，Loss_u代表模板更新训练目标的损失。当损失趋近于零时，即具备辨别真实目标和相似目标的能力，使模板能够更准确地进行更新。

步骤7：重复步骤2至步骤6，在利用端到端训练的孪生神经网络提取图片特征后，利用全连接注意力模块将模板特征与搜索特征相融合，能够更加关注目标特征信息，提升鲁棒性；每固定帧更新模板特征，丰富网络对目标随时间变化信息的学习，进一步提升跟踪精度。

有益效果：

1、本发明公开的基于全连接注意力模块的孪生神经网络运动目标跟踪方法，利用全连接注意力模块将模板特征与搜索特征相融合，能够在跟踪时更加关注目标特征信息，并增强跟踪器对目标自身变化的学习性，进而提升鲁棒性，即在目标发生剧烈形变、短暂消失后重现或遮挡等条件下，仍然能持续稳定地实现目标高精度跟踪。每固定帧更新模板特征，丰富该网络对目标随时间变化信息的学习，进一步提升跟踪精度。

2、本发明公开的基于全连接注意力模块的孪生神经网络运动目标跟踪方法，基于端到端训练的孪生神经网络，在经过大量数据离线训练后，能够实现输入图像序列后直接得到每一帧图片的跟踪结果，无需对输出的特征图进行再处理，实现高效跟踪。

附图说明

图1是本发明的基于全连接注意力模块的孪生神经网络运动目标跟踪方法的流程示意图；

图2是本发明的基于全连接注意力模块的孪生神经网络运动目标跟踪方法的系统框图；

图3是本发明的基于全连接注意力模块的孪生神经网络运动目标跟踪方法的跟踪结果对比示意图。

具体实施方式

为了更好地说明本发明的目的和优点，下面结合附图和实例对发明内容做进一步说明。

实施例1：

如图1所示，本实施例公开的基于全连接注意力模块的孪生神经网络运动目标跟踪方法，在利用孪生神经网络提取图片特征后，利用全连接注意力模块对模板分支提取的模板特征进行处理，该模板特征融合原模板特征后作为注意力加强的模板特征与进行相同操作的更新模板特征相结合，得到的新模板特征与搜索特征融合，实现模板特征的自注意和互注意，提升鲁棒性。根据融合加强模板特征和搜索特征的响应图，得到对应搜索图中目标的位置信息和尺寸偏移信息。根据每固定帧的网络预测结果对更新模板分支的输入进行更新，提升跟踪精度。本实施例的流程图如图1所示，系统框图如图2所示。

如图1所示，本实施例公开的基于全连接注意力模块的孪生神经网络运动目标跟踪方法，包含以下步骤：

利用目标跟踪图像序列训练数据集生成正负样本组，每组均包含第一帧模板分支、更新模板分支和搜索分支的输入图像。其中，正样本固定为同一跟踪图像序列中的随机不同帧，输入网络的第一帧模板图像和搜索图像最大帧数间隔不能超过100帧，更新模板图像和搜索图像最大帧数间隔不能超过5帧。负样本分为三种类型：①搜索图像与第一帧模板图像相似，与更新模板图像不相似。搜索图像与第一帧模板图像在同一跟踪序列中抽取随机不同帧，最大帧数间隔不超过100帧，更新模板图像在其他跟踪图像序列中抽取随机帧。②搜索图像与更新模板图像相似，与第一帧模板图像不相似。搜索图像与更新模板图像在同一跟踪序列中抽取随机不同帧，最大帧数间隔不超过5帧，第一帧模板图像在其他跟踪序列中抽取随机帧。③搜索图像与第一帧模板图像、更新模板图像均不相似。三幅输入图像从全部训练数据集中随机抽取不同帧图像。

为了让网络更好的辨别搜索区域中的目标，分别令网络学习到搜索图像与第一帧模板图像、更新模板图像的相似性，从而在加强对模板学习的同时，不完全依赖于其中任一分支，从而达到综合结合两个模板分支特征的作用。

确定训练样本组后，根据各图像中的目标位置对该图像进行裁剪，搜索图像裁剪为255×255×3尺寸的搜索区域X，第一帧模板图像裁剪为127×127×3尺寸的第一帧模板区域Z₀，更新模板图像裁剪为127×127×3尺寸的更新模板区域Z。

本实施例构建孪生神经网络特征提取网络模型的各模块输出图像尺寸如表1所示。

表1

其中，模板包含第一帧模板和更新模板，w代表图像宽度，h代表图像高度，channel代表图像通道数。卷积层1包含二维卷积层和最大池化层，残差层分别包含不同数量的残差模块，每个模块中均包含不同的卷积层，且均进行残差操作。第一帧模板图像、更新模板图像和搜索图像三个分支的特征提取网络共享权重，将残差层3、4、5层的输出分别各自经卷积层后相加融合，作为各分支的特征图。第一帧模板区域特征尺寸为15×15×256，更新模板区域特征尺寸为15×15×256，搜索区域特征尺寸为31×31×256。

与第一帧模板分支和更新模板分支分别衔接的全连接注意力模块共享权重，该模块实现两个分支模板特征对自身的注意力增强。增强后的第一帧模板特征融合后与搜索特征结合，得到对第一帧模板和更新模板均加强注意力的搜索特征。

下面详细说明处理过程：

先将第一帧模板分支提取的目标模板特征Z_0f(b，c，h，w)按中心区域裁剪为尺寸(b，c，h′，w′)，再将其空间维度由代表宽高两个维度的(h′，w′)合并为一个空间维度s＝h′×w′，改变维度顺序得到Z_0f1(b，s，c)。其中b代表输入网络的图片数量，训练时设为14，c代表图片通道数为256，h代表模板特征图高度为15，w代表模板特征图宽度为15，h′代表裁剪后模板特征图高度为7，w′代表裁剪后模板特征图宽度为7，符号×代表数学乘法，s为49。

Z_0f2＝Z_0f1+L(Z_0f1)

Z_0f3＝Z_0f2+L(Z_0f2)

其中，模块L按顺序以此包含：将维度转为隐藏维度的全连接层，GELU激活函数层，Dropout层，将维度转为输入维度的全连接层，Dropout层，。符号+代表元素级加法

加强后的特征图Z_0f3改变维度顺序为Z′_0f3(b，c，7，7)，与原模板特征图Z_0f相乘，得到新第一帧模板特征Z′_0f(b，c，7，7)。

Z′_0f＝Z′_0f3×Z_0f

其中，符号×代表元素级乘法。

更新模板分支进行相同操作，得到新更新模板特征Z′_f(b，c，7，7)。

融合两分支加强后的特征图Z′_0f(b，c，7，7)、Z′_f(b，c，7，7)，得到最终模板特征图Z″_f(b，c，7，7)。

Z″_f＝Z′_0f与Z′_f

Z″_f经过标准化层(Layer Normalization)，再平均池化并改变维度后得到Z″_f1(b，c，1，1)，与尺寸为(b，c，31，31)原搜索特征图X_f相乘，得到新搜索特征X′_f(b，c，31，31)。

X′_f＝Z″_f1×X_f

利用互卷积操作将模板特征Z″_f(b，c，7，7)和搜索特征X′_f(b，c，31，31)融合得到尺寸为(b，c，25，25)响应图。

上述过程的处理过程如下：

其中

宽度w和高度h。

w＝p_x2-p_x1

h＝p_y2-p_y1

根据第t帧输入网络的搜索区域与搜索图的偏移量(Δc_x，Δc_y)，得到第t帧原图像上目标框的中心坐标(c_x，c_y)：

最终得到代表原图上目标框尺寸的坐标(c_x，c_y，w，h)。

训练过程中，分类结果利用交叉熵计算损失Loss_cls，回归结果利用与真实目标框的交并比计算损失Loss_loc。

步骤6：每固定间隔帧数判断网络预测的各结果的跟踪准确性，将与模板相似性最高的结果作为该帧图像跟踪预测结果，利用该结果对该帧图像进行裁剪，作为步骤2中更新模板分支的输入，进行模板更新，丰富模板信息，以进一步提升跟踪精度。

对于每一张训练图像，通过非极大值抑制将回归图得到的所有候选框进行分类，并按照各个候选框对应的分类图得分从大到小排序，最终每一帧图像生成10个候选框。用各候选框对X′_f进行裁剪，得到候选框特征区域。用原第一帧模板图像目标框位置对Z′_f进行裁剪，得到目标特征区域。令各候选框特征区域分别与目标特征区域计算欧式距离，选择距离最小的候选框作为正样本，选择除正样本外得分最大的候选框作为负样本，使每一帧图像生成一组训练正负样本对。训练时，令正样本得分高于负样本得分阈值V_t＝10，即

Loss_u＝pos-neg+V_t

其中，pos代表正样本得分，neg代表负样本得分，Loss_u代表模板更新训练目标的损失。当损失趋近于零时，该算法就具备辨别真实目标和相似目标的能力，使模板能够更准确地进行更新。

在网络训练过程中，通过下式计算总损失：

Loss＝Loss_cls+Loss_loc+Loss_u

利用SGD优化器对网络进行优化。

本实施例将从两方面说明本发明的效果。

1.实验条件

本实施例公开的基于全连接注意力模块的孪生神经网络运动目标跟踪方法，在Intel(R)Xeon(R)Silver 4214 CPU 2.20GHz，英伟达RTX 2080Ti GPU的环境下，使用Pytorch深度学习框架进行训练和跟踪。

2.实验结果

本实施例公开的基于全连接注意力模块的孪生神经网络运动目标跟踪方法，在上述实验条件下跟踪速度达到40fps，满足实时跟踪要求，实现高效跟踪。

图3为本实施例公开的运动目标跟踪方法与现有常规网络的跟踪效果对比图。其中，图3中黄框代表目标标注真实框，绿色代表SiamBAN算法，深蓝色代表SiamRPN算法，浅蓝色代表ECO算法，红色代表本实施例公开的目标跟踪方法。图3(a)展示的CarScale序列，在170帧各算法均表现良好，在180、207帧ECO和SiamRPN算法对目标的尺寸适应性明显降低，而本实施例算法仍能精确跟踪。证明在目标快速移动且尺寸发生变化时，本实施例算法表现良好。图3(b)展示的Basketball序列，在177帧各算法均表现良好，从483帧开始SiamRPN和SiamBAN算法结果开始出现明显的位置偏移，490帧完全丢失，而本实施例算法仍能精确跟踪。证明在目标附近出现相似物干扰时，本实施例算法表现良好。图3(c)展示的Soccer序列，在86帧各算法均表现良好，在94帧SiamBAN算法出现位置偏移，在100帧除本实施算法外的所有算法都跟踪失败。证明在出现遮挡时，本实施例仍然能持续稳定地实现目标跟踪。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于全连接注意力模块的孪生神经网络运动目标跟踪方法，其特征在于：包括如下步骤，

步骤1：为了离线训练步骤2基于全连接注意力模块的孪生神经网络，利用目标跟踪图像序列数据集生成用于输入孪生神经网络的训练样本数据组；所述训练样本数据组包括第一帧模板区域Z₀和更新模板区域Z、搜索区域X；

步骤2：构建包含共享权重的第一帧模板分支、更新模板分支和搜索分支孪生神经网络，提取步骤1生成的训练样本数据组的特征，分别提取目标第一帧模板区域特征、更新模板区域特征和搜索区域特征；利用所述基于端到端训练的孪生神经网络，在经过大量数据训练后，能够实现输入视频序列后直接得到每一帧图片的跟踪结果，无需对输出的特征图进行再处理，进而提升跟踪效率；

步骤3：构建全连接注意力模块；利用全连接注意力模块对步骤2生成的第一帧模板区域特征、更新模板区域特征和搜索区域特征进行处理，生成强化后的模板特征和搜索特征，实现模板特征的自注意和互注意，进而提升鲁棒性；

步骤4：利用互相关操作将强化后的模板特征和搜索特征融合，生成融合模板特征和搜索特征的响应图；

步骤5：根据步骤4生成的响应图，经卷积层处理得到分类图和回归图，利用分类图预测目标在响应图上的前景或背景分类概率估计，利用回归图预测目标在响应图上的边界框偏移回归估计；经过叠加偏移和尺寸变换操作得到搜索图片中目标的位置和尺寸；

步骤6：每固定间隔帧数判断网络预测的各结果的跟踪准确性，将与模板相似性最高的结果作为该帧图片跟踪预测结果，利用该结果对该帧图片进行裁剪，作为步骤2中更新模板分支的输入，进行模板更新，丰富模板信息，以进一步提升跟踪精度；

2.如权利要求1所述的基于全连接注意力模块的孪生神经网络运动目标跟踪方法，其特征在于：步骤1实现方法为，

为了离线训练步骤2基于全连接注意力模块的孪生神经网络，根据目标跟踪图片序列中第一帧图像的目标位置及尺寸，将第一帧图像裁剪为包含目标模板特征的模板区域，该模板区域同时作为第一帧模板区域Z₀和更新模板区域Z；第二帧图像作为搜索图片，根据第一帧目标位置信息和尺寸信息，将搜索图片裁剪为包含目标的搜索区域X，后续第t帧搜索图片根据第t-1帧网络预测的目标位置信息和尺寸信息裁剪为包含目标的搜索区域X；所述第一帧模板区域Z₀、更新模板区域Z和搜索区域X三个区域形成训练样本数据组，分别作为孪生神经网络第一帧模板分支、更新模板分支和搜索分支的输入。

3.如权利要求2所述的基于全连接注意力模块的孪生神经网络运动目标跟踪方法，其特征在于：步骤2实现方法为，

构建包含第一帧模板分支、更新模板分支和搜索分支孪生神经网络，提取步骤1生成的训练样本数据组的特征；上述三分支共享权重，分别提取目标第一帧模板区域特征、更新模板区域特征和搜索区域特征；更新模板分支用于步骤6所述更新模板的特征提取，其结构与第一帧模板分支网络结构相同；利用所述基于端到端训练的孪生神经网络，在经过大量数据训练后，能够实现输入视频序列后直接得到每一帧图片的跟踪结果，无需对输出的特征图进行再处理，进而提升跟踪效率。

4.如权利要求3所述的基于全连接注意力模块的孪生神经网络运动目标跟踪方法，其特征在于：步骤3实现方法为，

第一帧模板分支后衔接全连接第一注意力模块，更新模板分支后衔接全连接第二注意力模块，第一全连接注意力模块和全连接注意力模块第二结构相同且共享权重，通过第一全连接注意力模块和全连接注意力模块组成的全连接注意力模块实现两个分支模板特征对自身的注意力增强；增强后的第一帧模板特征融合后与搜索特征结合，得到对第一帧模板和更新模板均加强注意力的搜索特征；

先将第一帧模板分支提取的目标模板特征Z_0f(b，c，h，w)按中心区域裁剪为尺寸(b，c，h′，w′)，再将其空间维度由代表宽高两个维度的(h′，w′)合并为一个空间维度s＝h′×w′，改变维度顺序得到Z_0f1(b，s，c)；其中b代表输入网络的图片数量，c代表图片通道数为256，h代表模板特征图高度，w代表模板特征图宽度，h′代表裁剪后模板特征图，w′代表裁剪后模板特征图宽度，符号×代表数学乘法；

全连接注意力模块首先利用包含全连接层的模块L对原模板特征图Z_0f1的空间维度进行激活，获得的特征图与原模板特征图相加，得到特征图Z_0f2(b，s，c)；再利用模块L对特征Z_0f2的通道维度进行激活，获得的特征图与Z_0f2相加，得到加强后的特征图Z_0f3(b，s，c)；

Z_0f2＝Z_0f1+L(Z_0f1)

Z_0f3＝Z_0f2+L(Z_0f2)

其中，模块L按顺序以此包含：将维度转为隐藏维度的全连接层，GELU激活函数层，Dropout层，将维度转为输入维度的全连接层，Dropout层；符号+代表元素级加法

利用加强后的特征图Z_0f3，对原模板特征和原搜索特征加强模板注意力；

加强后的特征图Z_0f3改变维度顺序为Z′_0f3(b，c，h，w)，与原模板特征图Z_0f相乘，得到新第一帧模板特征Z′_0f；

Z′_0f＝Z′_0f3×Z_0f

其中，符号×代表元素级乘法；

更新模板分支进行相同操作，得到新更新模板特征Z′_f；

融合两分支加强后的特征图Z′_0f、Z′_f，得到最终模板特征图Z″_f；

Z″_f＝Z′_0f+Z′_f

Z″_f经过标准化层(Layer Normalization)，再平均池化并改变维度后得到Z″_f1(b，c，1，1)，与原搜索特征图X_f相乘，得到新搜索特征X′_f；

X′_f＝Z″_f1×X_f

5.如权利要求4所述的基于全连接注意力模块的孪生神经网络运动目标跟踪方法，其特征在于：步骤4中，

6.如权利要求5所述的基于全连接注意力模块的孪生神经网络运动目标跟踪方法，其特征在于：步骤5中，

响应图上每个位置与原输入网络的搜索区域上位置一一映射，前景或背景分类概率估计即网络预测响应图上每个位置是否存在目标，边界框偏移回归估计即响应图上每个位置距离目标框四条边界的距离，经过尺寸转换可以得到原输入网络的搜索区域上目标框的位置和尺寸，经过偏移转换可得到原搜索图上目标框的位置和尺寸；

上述过程的处理过程如下：

其中

分别代表该位置距离目标边界左边框、上边框、右边框和下边框的距离；

其中，(p_x1，p_y1，p_x2，p_y2)是输入网络的搜索区域中目标框左上角和右下角的坐标，(p_i，p_j)是响应图的坐标(i，j)与输入网络的搜索区域内相应位置的尺寸转换量；

宽度w和高度h；

w＝p_x2-p_x1

h＝p_y2-p_y1

最终得到代表原图上目标框尺寸的坐标(c_x，c_y，w，h)。

7.如权利要求6所述的基于全连接注意力模块的孪生神经网络运动目标跟踪方法，其特征在于：步骤6实现方法为，

在网络训练过程中，保证网络具有辨别真实目标和相似目标的能力，以便跟踪过程中更新模板能够更准确地进行更新；

对于每一张训练图像，通过非极大值抑制将回归图得到的所有候选框进行分类，并按照各个候选框对应的分类图得分从大到小排序，最终每一帧图像生成n个候选框；用各候选框对X′_f进行裁剪，得到候选框特征区域；用原第一帧模板图像目标框位置对Z′_f进行裁剪，得到目标特征区域；令各候选框特征区域分别与目标特征区域计算欧式距离，选择距离最小的候选框作为正样本，选择除正样本外得分最大的候选框作为负样本，使每一帧图像生成一组训练正负样本对；训练时，令正样本得分高于负样本得分阈值V_t，即

Loss_u＝pos-neg+V_t

其中，pos代表正样本得分，neg代表负样本得分，Loss_u代表模板更新训练目标的损失；当损失趋近于零时，即具备辨别真实目标和相似目标的能力，使模板能够更准确地进行更新。