CN116934796A

CN116934796A - 基于孪生残差注意力聚合网络的视觉目标跟踪方法

Info

Publication number: CN116934796A
Application number: CN202310894398.7A
Authority: CN
Inventors: 于俊洋; 辛致宜; 李勃翰; 赵宇曦; 李世昌; 何义茹
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2023-07-20
Filing date: 2023-07-20
Publication date: 2023-10-24

Abstract

本发明属于视觉跟踪技术领域，公开一种基于孪生残差注意力聚合网络的视觉目标跟踪方法，包括：提出了一种孪生残差注意力聚合网络框架SiamRAAN，实现了自适应特征隐式更新；首先，SiamRAAN将Self‑RAAN加入骨干网络中，利用残差自注意力提取出目标有效特征；然后，通过加入Cross‑RAAN，使目标模板和搜索图像提取特征时重点关注关联性高的部分，同时实现了模板特征的在线更新；最后，加入了多级特征融合模块，对RAAN增强的特征信息进行融合，提升了网络对于重点特征的感知能力，提高了视觉目标跟踪的准确性。

Description

基于孪生残差注意力聚合网络的视觉目标跟踪方法

技术领域

本发明涉及视觉跟踪技术领域，尤其涉及一种基于孪生残差注意力聚合网络的视觉目标跟踪方法。

背景技术

视觉目标跟踪是计算机视觉领域中的重要研究课题之一。它是计算机视觉中的基础任务，广泛应用于公共安防、人机交互、自动驾驶等领域。视觉目标跟踪算法需要给出目标在视频序列中的初始位置和大小，并在后续帧中实现对目标的连续、稳定跟踪。然而，由于背景光照变化、相似物体等因素的干扰，以及视频对象在复杂背景下经常发生的形变、运动和遮挡等问题，跟踪器难以实现长时间稳定精确的跟踪。尽管近年来在该领域取得了很多进展，但实现长期稳定的目标跟踪仍然是一项具有挑战性的任务。

最近，深度学习在计算机视觉领域展现了强大的性能，基于深度学习的目标跟踪算法也相继问世。其中孪生网络由于相比于其他深度学习算法框架具备较高的计算速度，因此受到更广泛的关注和研究。例如，Bertinetto等人介绍了用于视觉目标跟踪的孪生网络，首次将视觉目标跟踪任务转化为一个目标匹配问题，通过目标模板和搜索区域之间的互相关运算学习通用的相似度映射。Liu等人提出了一种多级相似度模型，以提高跟踪器对语义干扰的识别能力。SiamRPN引入了一个区域提议网络，该网络利用分类和回归分支来区分目标-背景区域，并对候选区域进行微调。最近的DaSiamRPN、SiamRPN++、C-RPN等工作对SiamRPN进行了改进。但由于引入了锚框用于区域提议，所以这些跟踪器对锚框的数量、尺寸和纵横比非常敏感，而这些超参数的设定对于跟踪器进行成功的跟踪至关重要。为此，SiamCAR设计了一个免锚框和免提议的框架，并将跟踪问题分解为像素分类和该像素处的回归两个子问题，以逐像素的方式解决视觉跟踪问题。

基于孪生的跟踪器使用从视频中收集的大量视频帧组合对进行完全离线的训练，因此目标模板存在无法实现在线更新的问题。这使得对外观变化大、存在相似物或被遮挡的目标进行精确跟踪变得困难，不可避免地增加了跟踪漂移的风险。此外，在孪生架构中，目标对象和搜索图像的特征是独立计算的，其中背景上下文信息在目标特征中被完全丢弃，但背景信息对于目标和干扰物的区分非常重要。最近的工作试图通过集成前序目标的特征来增强目标表示，但是忽略了背景中的区分性上下文信息。在现有研究(Wang Q,TengZ,Xing J,et al.Learning attentions:residual attentional siamese network forhigh performance online visual tracking[C]//Proceedings of the IEEEconference on computer vision and pattern recognition.2018:4854-4863.)中，目标模板和搜索图像的注意力和深度特征是分别计算的，同时跟踪过程中模板特征不变，这限制了孪生架构的潜在性能。

发明内容

本发明针对基于孪生网络的跟踪器在跟踪时目标模板和搜索图像独立计算，且模板特征不会在线更新，导致当搜索区域存在背景杂乱，光照变化或部分遮挡等情况时，跟踪器难以适应干扰导致跟踪精度下降的问题，为了有效地应对这些干扰情况，提高定位精度，提出一种基于孪生残差注意力聚合网络的视觉目标跟踪方法，具体提出了一种孪生残差注意力聚合网络框架SiamRAAN(Siamese Residual Attentional Aggregation Network)，实现了自适应特征隐式更新。首先，SiamRAAN将Self-RAAN加入骨干网络中，利用残差自注意力提取出目标有效特征。然后，通过加入Cross-RAAN，使目标模板和搜索图像提取特征时重点关注关联性高的部分，同时实现了模板特征的在线更新。最后，加入了多级特征融合MFF(multi-level feature fusion)模块，对RAAN增强的特征信息进行融合，提升了网络对于重点特征的感知能力，提高了视觉目标跟踪的准确性。

为了实现上述目的，本发明采用以下技术方案：

一种基于孪生残差注意力聚合网络的视觉目标跟踪方法，包括：

构建孪生残差注意力聚合网络作为视觉目标跟踪器，并进行训练；所述孪生残差注意力聚合网络包括：基于残差注意力聚合网络的孪生主干，多级特征融合模块，以及分类回归网络；所述基于残差注意力聚合网络的孪生主干用于计算模板图像与搜索图像的卷积特征图；多级特征融合模块用于计算模板图像与搜索图像特征的互相关响应图；分类回归网络包含分类分支、中心分支和回归分支，分类分支用于预测响应图中每个位置的类别，中心分支用于预测目标的中心，去除离群值，回归分支用于计算该位置的目标边界框，通过对三个分支结果的融合，得到最终的位置和包围框；

基于训练后的视觉目标跟踪器进行视觉目标跟踪，得到目标所在位置和包围框。

进一步地，所述基于残差注意力聚合网络的孪生主干包括Self-RAAN和Cross-RAAN；所述Self-RAAN嵌入在模板分支和搜索分支的骨干网络中，Cross-RAAN以模板分支和搜索分支的骨干网络后三个卷积层的不同深度特征对作为输入，通过对模板分支和搜索分支使用暹罗交叉注意力，对特征的表示进行增强。

进一步地，所述Self-RAAN包括通道注意力模块和空间注意力模块，所述通道注意力模块和空间注意力模块均采用残差结构，Self-RAAN输入的特征依次通过通道注意力模块和空间注意力模块，完成特征自适应增强操作。

进一步地，所述通道注意力模块中通道特征增强的过程如下：

A_cm＝f⁵(MaxPool(X)),

A_ca＝f⁵(AvgPool(X)),

A_c＝σ{A_cm+A_ca},

M_c＝A_c×X+X,

其中表示最大池化的特征图，MaxPool(.)表示最大池化操作，表示平均池化的特征图，AvgPool(.)表示平均池化操作，/>表示输入的图像特征，/>表示通道注意力权值特征图，σ表示sigmoid操作，f⁵表示卷积核大小为5的一维卷积操作，H×W表示特征图的高和宽，C表示特征图的通道数，/>表示输出的通道注意力特征图。

进一步地，所述空间注意力模块中空间特征增强的过程如下：

X_s＝Cat(MaxPool(X),AvgPool(X))

A_s＝σ{f^3×3(X_s)}

M_s＝A_s×X+X,

其中Cat(.)表示将特征图按照通道维度进行拼接，X_s表示按照通道维度对最大池化的特征图和平均池化的特征图拼接后的图像特征，表示空间注意力权值特征图，f^3×3表示卷积核大小为3×3的二维卷积操作，M_s表示输出的空间注意力特征图。

进一步地，所述Self-RAAN在孪生网络的两个分支中共享网络的权重，所述权重包括通道注意力权重和空间注意力权重。

进一步地，所述Cross-RAAN包含模板分支和搜索分支两个分支，其中每个分支包含原始分支、通道注意力分支和交叉注意力分支三个子分支，原始分支保留原始的特征，通道注意力分支根据不同通道的权重生成对应的通道特征，交叉注意力分支通过交叉使用孪生网络两个分支的通道权重生成交叉特征。

进一步地，所述通道注意力分支采用和Self-RAAN中通道注意力模块相同方式计算通道注意力权重。

进一步地，所述交叉注意力分支中交叉特征增强的过程如下：

A_z＝σ{f^k(MaxPool(Z))+f^k(AvgPool(Z))},

A_x＝σ{f^k(MaxPool(X))+f^k(AvgPool(X))},

M_z＝(A_z+A_x)×Z+Z,

M_x＝(A_x+A_z)×X+X,

其中表示通道注意力权值特征，σ表示sigmoid操作，f^k表示卷积核大小为k的一维卷积操作，孪生网络的两个分支在Cross-RAAN中共享一维卷积的参数，MaxPool(.)表示最大池化操作，AvgPool(.)表示平均池化操作，/>表示模板分支的输入特征，/>表示搜索分支的输入特征，/>表示通道注意力权值特征，表示通道注意力权值特征，/>表示输出的交叉注意力特征，H×W表示特征图的高和宽，C表示特征图的通道数。

进一步地，所述多级特征融合模块中多级特征融合过程如下：

R_i＝Z_i⊙X_i,i＝{3,4,5},

其中表示经过Cross-RANN增强的模板分支的后三层特征，表示经过Cross-RANN增强的搜索分支的后三层特征，/>表示使用1×1的卷积核将R_i,i＝{3,4,5}的通道数统一压缩后的特征，⊙表示深度相关操作，和/>表示卷积核大小为1×1的二维卷积操作，Cat(.)表示将特征图按照通道维度进行拼接，R表示综合浅层特征和深层特征的交叉相关响应图。

与现有技术相比，本发明具有的有益效果：

在本发明中，引入了一种新的孪生注意机制，通过在孪生网络中进行自注意力和交叉注意力来将丰富的背景上下文编码到目标表示中，通过强大的抗外观变化的特性提高目标表示能力，并增强目标对干扰物和复杂背景的区分能力，从而实现更稳定、更精确的跟踪。具体提出了孪生残差注意力聚合网络，以提高基于孪生的跟踪器的特征学习能力。另外本发明提出了多级特征融合模块，使用完整的不同深度特征进行互相关操作，再将不同的响应图进行融合，增强了响应图的精确性。

1.设计了一种新的孪生注意力机制，将Self-RAAN和Cross-RAAN嵌入在骨干网络中，实现了对目标特征的有效挖掘。Self-RAAN可以捕捉丰富的上下文信息，同时选择性增强与物体密切相关的特征通道。Cross-RAAN增强了目标特征和搜索图像之间更有关联性的部分，进一步增强了特征表示。

2.设计了一个多级特征融合模块，通过计算不同特征层之间的深度交叉相关，再将多张响应图进行融合压缩，有效的强化了浅层特征的互相关响应图，实现了更加精确的跟踪。

附图说明

图1为本发明实施例所提出的孪生残差注意力聚合网络SiamRAAN框架示意图；

图2为本发明实施例构建的Self-RAAN的架构示意图；

图3为本发明实施例构建的Cross-RAAN的架构示意图。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的解释说明：

具体地，在本节中将详细介绍提出的SiamRAAN框架。如图1所示，SiamRAAN由三个主要部分组成：基于残差注意力聚合网络的孪生主干(Siamese backbone with residualattentional aggregation network，RAAN)、多级特征融合模块(multi-level featurefusion module，MFF)和分类回归网络。基于残差注意力聚合网络的孪生主干(RAAN)负责计算模板部分与搜索区域的卷积特征图。多级特征融合模块(MFF)负责计算模板与搜索图像特征的互相关响应图。分类回归网络包含分类分支、中心分支和回归分支，分类分支用于预测响应图中每个位置的类别，中心分支用于预测目标的中心，去除离群值，回归分支用于计算该位置的目标边界框，通过对三个分支结果的融合，得到最终的位置和包围框。

1整体跟踪框架

所提出的追踪器的孪生骨干网络使用与SiamRPN++[Li B,Wu W,Wang Q,etal.Siamrpn++:Evolution of siamese visual tracking with very deep networks[C]//Proceedings of the IEEE/CVF conference on computer vision and patternrecognition.2019:4282-4291.]相同的改进型五阶段ResNet-50构建，随着层数加深，计算的特征数逐渐增多。该网络包含模板和搜索两个分支，模板分支以模板部分Z为输入，搜索分支以搜索区域X为输入，通过骨干网络提取对应的图像特征，同时两个分支与它们的骨干网络共享相同的未填充卷积架构。为了有效地挖掘模板部分和搜索图像的相关特征，提高定位精度，我们在暹罗骨干网络中引入残差注意力聚合网络residual attentionalaggregation network(RAAN)。设定改进型五阶段ResNet-50的模板分支和搜索分支每个阶段的输出特征为和/>其中第二阶段的输出通过Self-RAAN自增强后送入后续的阶段中，第三、四、五阶段的特征通过三层Cross-RAAN进行交叉增强。模板分支Cross-RAAN输出特征为ψ₃(Z),ψ₄(Z),ψ₅(Z)，搜索分支Cross-RAAN特征输出为ψ₃(X),ψ₄(X),ψ₅(X)。

其中F_Self-RANN(·)和F_Cross-RANN(·)是用于特征增强的残差注意力聚合网络。

为了使用两个分支更加全面的信息并提高识别目标位置和其边界框的准确性，我们的模型使用暹罗骨干网络中最后三个卷积块提取的特征，生成多个不同深度的相关层交叉相关响应图。具体而言，模型执行以下操作：

R＝F_MFF(ψ(Z)_i,ψ(X)_i),i＝{3,4,5},

其中F_MFF(·)是用于融合不同深度相关层特征的多层特征融合模块。

MFF模块通过对两个分支不同深度的特征(Conv3、Conv4、Conv5)进行深度互相关操作，得到分别包含512、1024、2048个通道的响应图后，对这三张响应图进行融合，最终得到综合响应图R。为了减少特征数量，加快计算速度，我们的模型采用1×1的卷积核对综合响应图R进行降维计算，将通道维度降至256，作为回归分类网络的输入。

通过对综合响应图R进行分类和回归，我们的模型可以得到一个六维向量T_(i,j)＝(cls,cen,l,t,r,b)，其中cls代表该位置分类的前景概率，cen代表该位置的中心度得分，l+r和t+b代表当前帧中预测宽度和高度。通过T_(i,j)，我们的模型可以获得当前帧的目标位置和bounding box信息。

2残差注意力聚合网络RAAN

为了提高特征图的表达能力并进一步提高跟踪性能，RAAN在孪生骨干网络中引入了注意力机制进行设计，并分为Self-RAAN和Cross-RAAN两部分。如图1所示，Self-RAAN嵌入在模板分支和搜索分支的骨干网络中，而Cross-RAAN以骨干网络后三个卷积层的不同深度特征对作为输入，通过对模板分支和搜索分支使用暹罗交叉注意力，进一步增强了特征的表示。接下来将详细说明RAAN对于特征部分的自适应增强过程。

图2为Self-RAAN的主要体系结构。该网络包含两个顺序模块：通道和空间模块。以残差的形式补充通道级和空间级的特征，其中原始分支保留原始的特征，通道注意力分支和空间注意力分支根据不同的通道权重和空间权重生成通道特征和空间特征。

Self-RAAN：我们的Self-RAAN关注通道和空间位置两个方面，同时使用最大池化和平均池化来收集对象特征的重要信息。与预定义目标类别的分类或检测等任务不同，视觉目标跟踪是一项不依赖于目标类的任务，并且在整个跟踪过程中，目标的类是固定不变的。高级卷积特征的每一个通道映射出的通常是对特定对象类的响应，在所有的通道中平等地处理特征将会阻碍特征图的表示能力。同时由于感受野的限制，每个空间位置的特征仅能表示图像的局部信息。因此从整个图像中学习全局上下文信息是非常重要的。

具体来说，我们的Self-RAAN包含通道注意力模块和空间注意力模块两个模块。从图2可以看出，通过孪生特征提取网络，在第二阶段中模板分支输入的模板部分Z被转换为31×31×n的模板特征在搜索分支输入的搜索区域X被转换为63×63×n的搜索特征之后模板特征/>和搜索特征/>在各自的孪生分支中被输入共享参数的Self-RAAN中。如图2所示，Self-RAAN输入的特征依次通过通道注意力模块和空间注意力模块，完成特征自适应增强操作。我们使用/>来表示特征图维度，其中H×W表示特征图的高和宽，C表示特征图的通道数。

在通道注意力中，该模块首先使用最大池化和平均池化操作，保留通道信息，将特征图的高和宽H×W压缩为1×1来聚合特征的空间信息，生成两种不同的空间上下文信息。与(Woo S,Park J,Lee J Y,et al.Cbam:Convolutional block attention module[C]//Proceedings of the European conference on computer vision(ECCV).2018:3-19.)不同的是，两个池化处理后的特征被输入至共享参数的一维卷积中，而不是共享的多层感知器(MLP)网络。使用MLP网络虽然取得了较高的精度，但往往带来较高的模型复杂度和较大的计算负担。同时，使用MLP网络先进行降维再计算注意力的方法给通道注意预测带来了副作用，捕获所有通道之间的依赖是低效且不必要的。我们使用卷积核大小为5的一维卷积操作可以更有效的捕捉通道之间的相关性，降低模型参数数量，提高计算效率，同时保持一定的模型表达能力。在共享参数的Conv1D网络之后，通过将最大池化的特征图和平均池化的特征图/>进行元素求和以及sigmoid函数，我们的网络可以得到通道注意力权值特征图/>最后将输入的特征/>与通道注意力权值A_c对应通道相乘之后，可以得到通道注意力特征图/>通道特征增强的过程如下：

A_cm＝f⁵(MaxPool(X)),

A_ca＝f⁵(AvgPool(X)),

A_c＝σ{A_cm+A_ca},

M_c＝A_c×X+X,

其中σ表示sigmoid操作且f⁵表示卷积核大小为5的一维卷积操作。

在空间注意力模块中，该模块采用与通道注意力模块相同的思想，使用最大池化和平均池化操作来聚合信息。对于空间层面，我们首先通过与通道注意力模块相同的两种池化方式将特征图的通道数C压缩至1来聚合特征的通道信息，之后将它们沿着通道方向拼接起来，并使用一个标准的卷积层进行卷积操作，完成对两种池化信息的融合，最后使用sigmoid函数完成空间注意力权值的计算。设定输入为/>输出的空间注意力特征为/>空间特征增强的过程如下所示：

X_s＝Cat(MaxPool(X),AvgPool(X))

A_s＝σ{f^3×3(X_s)}

M_s＝A_s×X+X,

其中σ表示sigmoid操作，f^3×3表示卷积核大小为3×3的二维卷积操作，Cat代表沿着通道维度进行拼接操作。

在通道注意力模块和空间注意力模块中我们都采用了残差结构，分为了原始分支与注意力分支。在得出注意力特征之后将原始分支与注意力分支的特征相加，得出最终的注意力特征。由于注意力分支生成的注意力特征图增强了目标的特征，而原始分支完全保留了原始图像的特征，采用残差结构可以有效增强网络的特征表达能力。

为了获得全面的特征增强，Self-RAAN在孪生网络的两个分支中共享网络的权重，这样可以更有效的探索特征之间的相互依赖关系。通过在孪生骨干网络中引入注意力，Self-RAAN对单个特征图的自语义相关性进行聚合和增强，为进一步聚合不同的特征提供稳定且鲁棒的自注意特征。

图3为Cross-RAAN的主要架构。该网络共包含模板分支和搜索分支两个分支，其中每个分支包含原始分支、通道注意力分支和交叉注意力分支三个子分支。原始分支保留原始的特征，通道注意力分支根据不同通道的权重生成对应的通道特征，交叉注意力分支则通过交叉使用孪生网络两个分支的通道权重生成交叉特征。

Cross-RAAN：孪生网络通常使用最后阶段的特征进行预测，两个分支分别计算特征，而它们共享一个特征提取网络，使用同样的参数进行计算，因此两个分支的特征存在大量等待发掘的相关特征。在目标跟踪过程中，目标出现形变、背景杂波等干扰情况很常见。因此，对于搜索分支，学习模板图像的相关信息非常重要，可以帮助生成更有识别性的特征表示。同时，对于模板分支，将搜索分支的上下文信息编码到目标表示中，可以突出模板图像中与搜索目标更相关的特征，这有助于在各种干扰情况中更准确地定位目标。为此，我们提出了Cross-RAAN，该网络对孪生骨干网络两个分支的特征进行交叉注意力计算，学习二者之间的相关信息，增强两个分支的特征表现。

具体来说，我们的Cross-RAAN嵌入在孪生骨干网络两个分支的末尾，对最后三个阶段不同深度的特征分别进行交叉注意力计算，通过两个孪生分支共享注意力权重以学习相互间的信息，从而使得两个分支在提取特征时表现得更为协同。Cross-RAAN分为三个分支：原始分支、通道注意力分支和交叉注意力分支。其中原始分支保存了特征的原始信息，通道注力意分支用于强化图像特征的重点部分。交叉注意力分支同样使用了通道注意力的思想，但注意力的权重来自另一分支，以此来完成孪生网络中模板分支与搜索分支的协同工作，获得更好的特征提取效果。

由于模板特征与目标特征的空间尺寸不同但拥有相同的通道数，我们使用与Self-RAAN中通道注意力模块相同的通道注意力计算方法来获得注意力权重，同时我们也采用了相同的残差结构。由于我们在Cross-RAAN的通道注意力中使用了一维卷积，而孪生骨干网络的后三层具有不同深度的特征，使用一样大小的卷积核会削弱模型的表达能力，我们针对此问题对不同深度的特征设计了不同大小的卷积核。对于Conv3层和Conv4层对应的Cross-RAAN，我们使用大小为5的卷积核。由于Conv5层产生的通道数为2048，远大于Conv3层的512和Conv4层的1024，继续使用大小为5的卷积核将削弱模型的性能，我们将Conv5层对应的Cross-RAAN的卷积核大小设置为7。设定模板分支的输入特征为通道注意力权值特征为/>输出的交叉注意力特征为/>搜索分支的输入特征为/>通道注意力权值特征为/>输出的交叉注意力特征为/>交叉特征增强的过程如下：

A_z＝σ{f^k(MaxPool(Z))+f^k(AvgPool(Z))},

A_x＝σ{f^k(MaxPool(X))+f^k(AvgPool(X))},

M_z＝(A_z+A_x)×Z+Z,

M_x＝(A_x+A_z)×X+X,

其中σ表示sigmoid操作且f^k表示卷积核大小为k的一维卷积操作。

为了保持模板分支与搜索分支提取特征时保持协同，孪生网络的两个分支在Cross-RAAN中共享一维卷积的参数，进一步增强两个分支的特征表现。Cross-RAAN对孪生网络两个分支的特征图的语义相关性进行聚合和增强，突出了来自复杂特征图的有效信息，并减少来自遮挡等因素的干扰，为之后的回归分类网络提供稳定且鲁棒的交叉注意力特征。

3多级特征融合模块

不同深度的卷积特征代表不同的信息，虽然骨干网络的Conv3、Conv4和Conv5层具有相同的空间分辨率，但是他们的空洞卷积具有不同的扩张率，导致三个卷积层捕捉到的特征信息存在很大的不同。CF(Ma C,Huang J B,Yang X,et al.Hierarchicalconvolutional features for visual tracking[C]//Proceedings of the IEEEinternational conference on computer vision.2015:3074-3082.)提出在不同深度的卷积层中，前期层可以捕获细粒度的信息，如边缘、颜色和形状等底层特征对于定位目标位置是必不可少的，而后期层的特征通道数更多，更有助于编码目标抽象的语义信息，提升了目标外观变化等干扰情况的鲁棒性。

为了有效利用不同深度的互相关特征，挖掘其中最具代表性的信息，我们进一步开发了多级特征融合(MFF)模块。MFF模块首先对经过Cross-RANN增强的后三层特征和/>应用深度相关(Bertinetto L,Valmadre J,Henriques J F,et al.Fully-convolutional siamese networks for object tracking[C]//Computer Vision–ECCV 2016 Workshops:Amsterdam,The Netherlands,October 8-10 and 15-16,2016,Proceedings,Part II 14.Springer International Publishing,2016:850-865.)操作，分别得到包含512、1024、2048个通道的响应图R₃、R₄和R₅。之后使用1×1的卷积核将三张响应图的通道数统一压缩至256得出/>压缩通道维度可以显著减少参数量，加快后续计算速度。最后再次使用1×1的卷积核将三张响应图融合为一张，得出综合了浅层特征和深层特征的交叉相关响应图R，并用作后续分类回归网络的输入，用于边界框预测。

R_i＝Z_i⊙X_i,i＝{3,4,5},

其中⊙表示深度相关操作，和/>表示卷积核大小为1×1的二维卷积操作，Cat(.)表示将特征图按照通道维度进行拼接。

综上，本发明提出了一种基于孪生残差注意力聚合网络的视觉目标跟踪方法，其中提出了一种孪生残差注意力聚合网络(SiamRAAN)的框架。首先，SiamRAAN将Self-RAAN模块加入骨干网络中，利用残差自注意力从图像中提取目标有效特征。然后，加入Cross-RAAN模块，将特征提取的重点集中于目标模板与搜索图像关联性高的部分，并在线更新目标模板特征。最后，加入多级特征融合(MFF)模块对经过RAAN增强的特征信息进行融合，提升网络对于不同特征的感知能力，提高了视觉目标跟踪的准确性。

以上所示仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于孪生残差注意力聚合网络的视觉目标跟踪方法，其特征在于，包括：

2.根据权利要求1所述的基于孪生残差注意力聚合网络的视觉目标跟踪方法，其特征在于，所述基于残差注意力聚合网络的孪生主干包括Self-RAAN和Cross-RAAN；所述Self-RAAN嵌入在模板分支和搜索分支的骨干网络中，Cross-RAAN以模板分支和搜索分支的骨干网络后三个卷积层的不同深度特征对作为输入，通过对模板分支和搜索分支使用暹罗交叉注意力，对特征的表示进行增强。

3.根据权利要求2所述的基于孪生残差注意力聚合网络的视觉目标跟踪方法，其特征在于，所述Self-RAAN包括通道注意力模块和空间注意力模块，所述通道注意力模块和空间注意力模块均采用残差结构，Self-RAAN输入的特征依次通过通道注意力模块和空间注意力模块，完成特征自适应增强操作。

4.根据权利要求3所述的基于孪生残差注意力聚合网络的视觉目标跟踪方法，其特征在于，所述通道注意力模块中通道特征增强的过程如下：

A_cm＝f⁵(MaxPool(X)),

A_ca＝f⁵(AvgPool(X)),

A_c＝σ{A_cm+A_ca},

M_c＝A_c×X+X,

其中表示最大池化的特征图，MaxPool(.)表示最大池化操作，/>表示平均池化的特征图，AvgPool(.)表示平均池化操作，/>表示输入的图像特征，表示通道注意力权值特征图，σ表示sigmoid操作，f⁵表示卷积核大小为5的一维卷积操作，H×W表示特征图的高和宽，C表示特征图的通道数，/>表示输出的通道注意力特征图。

5.根据权利要求4所述的基于孪生残差注意力聚合网络的视觉目标跟踪方法，其特征在于，所述空间注意力模块中空间特征增强的过程如下：

X_s＝Cat(MaxPool(X),AvgPool(X))

A_s＝σ{f^3×3(X_s)}

M_s＝A_s×X+X,

其中Cat(.)表示将特征图按照通道维度进行拼接，X_s表示按照通道维度对最大池化的特征图和平均池化的特征图拼接后的图像特征，表示空间注意力权值特征图，f³ ^×3表示卷积核大小为3×3的二维卷积操作，M_s表示输出的空间注意力特征图。

6.根据权利要求5所述的基于孪生残差注意力聚合网络的视觉目标跟踪方法，其特征在于，所述Self-RAAN在孪生网络的两个分支中共享网络的权重，所述权重包括通道注意力权重和空间注意力权重。

7.根据权利要求2所述的基于孪生残差注意力聚合网络的视觉目标跟踪方法，其特征在于，所述Cross-RAAN包含模板分支和搜索分支两个分支，其中每个分支包含原始分支、通道注意力分支和交叉注意力分支三个子分支，原始分支保留原始的特征，通道注意力分支根据不同通道的权重生成对应的通道特征，交叉注意力分支通过交叉使用孪生网络两个分支的通道权重生成交叉特征。

8.根据权利要求7所述的基于孪生残差注意力聚合网络的视觉目标跟踪方法，其特征在于，所述通道注意力分支采用和Self-RAAN中通道注意力模块相同方式计算通道注意力权重。

9.根据权利要求7所述的基于孪生残差注意力聚合网络的视觉目标跟踪方法，其特征在于，所述交叉注意力分支中交叉特征增强的过程如下：

A_z＝σ{f^k(MaxPool(Z))+f^k(AvgPool(Z))},

A_x＝σ{f^k(MaxPool(X))+f^k(AvgPool(X))},

M_z＝(A_z+A_x)×Z+Z,

M_x＝(A_x+A_z)×X+X,

其中表示通道注意力权值特征，σ表示sigmoid操作，f^k表示卷积核大小为k的一维卷积操作，孪生网络的两个分支在Cross-RAAN中共享一维卷积的参数，MaxPool(.)表示最大池化操作，AvgPool(.)表示平均池化操作，/>表示模板分支的输入特征，表示搜索分支的输入特征，/>表示通道注意力权值特征，/>表示通道注意力权值特征，/>表示输出的交叉注意力特征，H×W表示特征图的高和宽，C表示特征图的通道数。

10.根据权利要求1所述的基于孪生残差注意力聚合网络的视觉目标跟踪方法，其特征在于，所述多级特征融合模块中多级特征融合过程如下：

R_i＝Z_iX_i,i＝{3,4,5},

其中i＝{3,4,5}表示经过Cross-RANN增强的模板分支的后三层特征，i＝{3,4,5}表示经过Cross-RANN增强的搜索分支的后三层特征，/>表示使用1×1的卷积核将R_i,i＝{3,4,5}的通道数统一压缩后的特征，表示深度相关操作，和/>表示卷积核大小为1×1的二维卷积操作，Cat(.)表示将特征图按照通道维度进行拼接，R表示综合浅层特征和深层特征的交叉相关响应图。