CN113643329A

CN113643329A - 一种基于孪生注意力网络的在线更新目标跟踪方法和系统

Info

Publication number: CN113643329A
Application number: CN202111021821.XA
Authority: CN
Inventors: 魏振忠; 肖定坤; 张广军
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-09-01
Filing date: 2021-09-01
Publication date: 2021-11-12
Anticipated expiration: 2041-09-01
Also published as: CN113643329B

Abstract

本发明涉及一种基于孪生注意力网络的在线更新目标跟踪方法和系统。本发明提供的基于孪生注意力网络的在线更新目标跟踪方法，通过采用在线更新模板图片的策略，可以实时获取目标的外观状态，便于跟踪算法适应目标的形变，部分遮挡已经尺度变化。同时采用孪生注意力网络加强了对于跟踪目标重要的特征同时抑制了非重要特征，有利于跟踪器将目标与背景区分开来，进而能够提高目标跟踪的准确性。

Description

一种基于孪生注意力网络的在线更新目标跟踪方法和系统

技术领域

本发明涉及计算机视觉领域，特别是涉及一种基于孪生注意力网络的在线更新目标跟踪方法和系统。

背景技术

目标跟踪是计算机视觉领域的一个重要方向，广泛应用于自动驾驶、无人机导航、监控等方面。目标跟踪任务是在视频序列的第一帧中给定跟踪目标的前提下，在后续帧中确定跟踪目标并尽可能准确的提供其边界框。在跟踪的过程中会出现目标形变、局部遮挡、目标快速移动以及背景干扰等复杂情况，这容易导致跟踪产生漂移甚至跟踪失败，也对跟踪器的性能提出了更高的要求。

目标跟踪算法分为两个主流的方向，早期基于相关滤波的跟踪算法被广泛的应用，随着深度学习的发展，网络有能力提取更深层次的语义信息，极大的增强了特征的表征能力，基于相关滤波的跟踪算法使用卷积神经网络作为特征提取网络，性能得到了进一步提升。但是由于其分类模型需要在线学习并且随着跟踪过程不断更新，速度较满没办法满足实际应用。近年来基于孪生神经网络的跟踪算法成为了主流，其采用了相似度匹配的思想，使用了大量的数据进行离线训练，在跟踪的准确度、鲁棒性以及跟踪速度上都具有较好的表现。但是其仍然存在一些问题，首先物体在跟踪过程中会产生形变，尺度变化以及部分遮挡，其外观信息是不断发生变化的。只使用第一帧中给定的目标信息进行相似度匹配会使跟踪器对目标当前状态的判断产生偏差，从而造成跟踪框的漂移甚至跟踪失败。

发明内容

为解决现有技术中存在的上述问题，本发明提供了一种基于孪生注意力网络的在线更新目标跟踪方法和系统。

为实现上述目的，本发明提供了如下方案：

一种基于孪生注意力网络的在线更新目标跟踪方法，包括：

获取训练好的目标跟踪网络模型、初始模板图片和初始搜索图片；所述目标跟踪网络模型包括：特征提取网络和区域建议网络；所述特征提取网络包括第一输入分支和第二输入分支；所述第一输入分支和第二输入分支均与所述区域建议网络连接；所述区域建议网络与所述分类和回归头网络连接；所述第一输入分支和所述第二输入分支中的第三层网络结构、第四层网络结构和第五层网络结构中均嵌入有孪生注意力网络；所述孪生注意力网络为两输入分支并行结构，孪生注意力网络的每一输入分支均包括全局平均池化器、全局最大平均池化器、3个全连接层、整流层以及激活函数；所述区域建议网络包含分类和回归头网络；所述初始搜索图片为第一帧中的目标区域；

将所述初始模板图片和所述初始搜索图片同时送入所述特征提取网络的输入分支得到全局描述子；所述全局描述子包括全局平均池化描述子和全局最大平均池化描述子；

根据所述全局描述子确定特征通道权重；

根据所述特征通道权重和输入特征得到最终注意力特征；所述输入特征为所述孪生注意力网络中全连接层的输入特征；

根据所述最终注意力特征和与所述最终注意力特征对应的搜索注意力特征确定相似度得分图；

将所述相似度得分图输入至所述区域建议网络中生成锚框；

将所述锚框输入至所述分类和回归头网络得到与每个锚框对应的置信度得分和边界框偏差；

选取置信度得分最高的锚框，并根据与置信度得分最高的锚框对应的边界框偏差生成跟踪目标包围框；

根据所述跟踪目标包围框确定第一帧中的目标，得到第一帧的跟踪结果；

根据所述第一帧的跟踪结果和初始模板图片生成新的模板图片；

采用所述新的模板图片替换所述初始模板图片后，返回步骤“将所述初始模板图片和所述初始搜索图片同时送入所述特征提取网络的输入分支得到全局描述子”。

优选地，所述获取训练好的目标跟踪网络模型、初始模板图片和初始搜索图片，之前还包括：

获取跟踪目标的预设边界框；

以所述预设边界框的中心点坐标为中心在第一帧图片中剪裁出预设边长的正方形区域；

将所述正方形区域重新采样为边长是127×127的图片以作为初始模板图片。

优选地，所述将所述初始模板图片和所述初始搜索图片同时送入所述特征提取网络的输入分支得到全局描述子，具体包括：

将所述初始模板图片送入所述第一输入分支，在所述第一输入分支中依次经过五层特征提取网络，第三层网络、第四层网络和第五层网络提取的特征分别输入所述孪生注意力网络，经所述孪生注意力网络的全局平均池化器和全局最大平均池化器后得到第一全局描述子；所述第一全局描述子包括：第一全局平均池化描述子和第一全局最大平均池化描述子；

将所述初始搜索图片送入所述第二输入分支，在所述第二输入分支中依次经过五层特征提取网络，第三层网络、第四层网络和第五层网络提取的特征分别输入所述孪生注意力网络，经所述孪生注意力网络的全局平均池化器和全局最大平均池化器后得到第二全局描述子；所述第二全局描述子包括：第二全局平均池化描述子和第二全局最大平均池化描述子。

优选地，所述根据所述最终注意力特征和与所述最终注意力特征对应的搜索注意力特征确定相似度得分图，具体包括：

采用相关计算法根据所述最终注意力特征和与所述最终注意力特征对应的搜索注意力特征确定初始相似度得分图；

将所述初始相似度得分图进行逐元素加权求和得到所述相似度得分图。

优选地，所述根据所述第一帧的跟踪结果和初始模板图片生成新的模板图片，具体包括：

对所述第一帧的跟踪结果、过程累积模板图片和初始模板图片进行加权相加得到所述新的模板图片；所述过程累积模板图片为跟踪结构融合得到的图片。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供的基于孪生注意力网络的在线更新目标跟踪方法，通过采用在线更新模板图片的策略，可以实时获取目标的外观状态，便于跟踪算法适应目标的形变，部分遮挡已经尺度变化。同时采用孪生注意力网络加强了对于跟踪目标重要的特征同时抑制了非重要特征，有利于跟踪器将目标与背景区分开来，进而能够提高目标跟踪的准确性。

对应于上述提供的基于孪生注意力网络的在线更新目标跟踪方法，本发明还提供了以下实施系统：

一种基于孪生注意力网络的在线更新目标跟踪系统，包括：

获取模块，用于获取训练好的目标跟踪网络模型、初始模板图片和初始搜索图片；所述目标跟踪网络模型包括：特征提取网络和区域建议网络；所述特征提取网络包括第一输入分支和第二输入分支；所述第一输入分支和第二输入分支均与所述区域建议网络连接；所述区域建议网络与所述分类和回归头网络连接；所述第一输入分支和所述第二输入分支中的第三层网络结构、第四层网络结构和第五层网络结构中均嵌入有孪生注意力网络；所述孪生注意力网络为两输入分支并行结构，孪生注意力网络的每一输入分支均包括全局平均池化器、全局最大平均池化器、3个全连接层、整流层以及激活函数；所述区域建议网络包含分类和回归头网络；所述初始搜索图片为第一帧中的目标区域；

全局描述子确定模块，用于将所述初始模板图片和所述初始搜索图片同时送入所述特征提取网络的输入分支得到全局描述子；所述全局描述子包括全局平均池化描述子和全局最大平均池化描述子；

特征通道权重确定模块，用于根据所述全局描述子确定特征通道权重；

最终注意力特征确定模块，用于根据所述特征通道权重和输入特征得到最终注意力特征；所述输入特征为所述孪生注意力网络中全连接层的输入特征；

相似度得分图确定模块，用于根据所述最终注意力特征和与所述最终注意力特征对应的搜索注意力特征确定相似度得分图；

锚框生成模块，用于将所述相似度得分图输入至所述区域建议网络中生成锚框；

置信度得分和边界框偏差确定模块，用于将所述锚框输入至所述分类和回归头网络得到与每个锚框对应的置信度得分和边界框偏差；

跟踪目标包围框生成模块，用于选取置信度得分最高的锚框，并根据与置信度得分最高的锚框对应的边界框偏差生成跟踪目标包围框；

跟踪结果确定模块，用于根据所述跟踪目标包围框确定第一帧中的目标，得到第一帧的跟踪结果；

模板图片更新模块，用于根据所述第一帧的跟踪结果和初始模板图片生成新的模板图片；

循环模块，用于采用所述新的模板图片替换所述初始模板图片后，返回执行“将所述初始模板图片和所述初始搜索图片同时送入所述特征提取网络的输入分支得到全局描述子”。

优选地，还包括：

预设边界框获取模块，用于获取跟踪目标的预设边界框；

裁剪模块，用于以所述预设边界框的中心点坐标为中心在第一帧图片中剪裁出预设边长的正方形区域；

初始模板图片确定模块，用于将所述正方形区域重新采样为边长是127×127的图片以作为初始模板图片。

优选地，所述全局描述子确定模块包括：

第一全局描述子确定单元，用于将所述初始模板图片送入所述第一输入分支，在所述第一输入分支中依次经过五层特征提取网络，第三层网络、第四层网络和第五层网络提取的特征分别输入所述孪生注意力网络，经所述孪生注意力网络的全局平均池化器和全局最大平均池化器后得到第一全局描述子；所述第一全局描述子包括：第一全局平均池化描述子和第一全局最大平均池化描述子；

第二全局描述子确定单元，用于将所述初始搜索图片送入所述第二输入分支，在所述第二输入分支中依次经过五层特征提取网络，第三层网络、第四层网络和第五层网络提取的特征分别输入所述孪生注意力网络，经所述孪生注意力网络的全局平均池化器和全局最大平均池化器后得到第二全局描述子；所述第二全局描述子包括：第二全局平均池化描述子和第二全局最大平均池化描述子。

优选地，所述相似度得分图确定模块包括：

初始相似度得分图确定单元，用于采用相关计算法根据所述最终注意力特征和与所述最终注意力特征对应的搜索注意力特征确定初始相似度得分图；

相似度得分图确定单元，用于将所述初始相似度得分图进行逐元素加权求和得到所述相似度得分图。

优选地，所述模板图片更新模块包括：

模板图片更新单元，用于对所述第一帧的跟踪结果、过程累积模板图片和初始模板图片进行加权相加得到所述新的模板图片；所述过程累积模板图片为跟踪结构融合得到的图片。

因本发明提供的基于孪生注意力网络的在线更新目标跟踪系统达到的技术效果与上述提供的基于孪生注意力网络的在线更新目标跟踪方法达到的技术效果相同，故在此不再进行赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的基于孪生注意力网络的在线更新目标跟踪方法的流程图；

图2为本发明实施例提供的目标跟踪网络模型的结构示意图；

图3为本发明实施例提供的孪生注意力网络的结构示意图；

图4为本发明实施例提供的实验结果图；其中，图4(a)为成功率对比结果图；图4(b)为精确度对比结果图；

图5为本发明提供的基于孪生注意力网络的在线更新目标跟踪系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种基于孪生注意力网络的在线更新目标跟踪方法和系统，以提高目标跟踪的精确性和实时性。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明提供的基于孪生注意力网络的在线更新目标跟踪方法，包括：

步骤100：获取训练好的目标跟踪网络模型、初始模板图片和初始搜索图片。如图2所示，目标跟踪网络模型包括：特征提取网络和区域建议网络。特征提取网络包括第一输入分支和第二输入分支。第一输入分支和第二输入分支均与区域建议网络连接。区域建议网络与分类和回归头网络连接。第一输入分支和第二输入分支中的第三层网络结构、第四层网络结构和第五层网络结构中均嵌入有孪生注意力网络。如图3所示，孪生注意力网络为两输入分支并行结构，孪生注意力网络的每一输入分支均包括全局平均池化器、全局最大平均池化器、3个全连接层、整流层以及激活函数。区域建议网络包含分类和回归头网络。分类和回归头网络由1×1的卷积层、批量归一化层、线性整流层和激活函数组成。初始搜索图片为第一帧中的目标区域，或搜索图片是在当前帧中根据上一帧跟踪目标位置剪裁出的固定尺寸图片。

步骤101：将初始模板图片和初始搜索图片同时送入特征提取网络的输入分支得到全局描述子。全局描述子包括全局平均池化描述子和全局最大平均池化描述子。该步骤具体包括为：

将初始模板图片送入第一输入分支，在第一输入分支中依次经过五层特征提取网络，第三层网络、第四层网络和第五层网络提取的特征分别输入孪生注意力网络，经孪生注意力网络的全局平均池化器和全局最大平均池化器后得到第一全局描述子。第一全局描述子包括：第一全局平均池化描述子和第一全局最大平均池化描述子。

将初始搜索图片送入第二输入分支，在第二输入分支中依次经过五层特征提取网络，第三层网络、第四层网络和第五层网络提取的特征分别输入孪生注意力网络，经孪生注意力网络的全局平均池化器和全局最大平均池化器后得到第二全局描述子。第二全局描述子包括：第二全局平均池化描述子和第二全局最大平均池化描述子。

该步骤101的具体实施过程可以为：

得到的模板图片和搜索图片同时送入特征提取网络的两个输入分支，依次经过五层特征提取网络，将后三层网络提取的特征F3、F5和F4分别输入孪生注意力网络进行特征加强，输入特征同时经过全局平均池化器和全局最大平均池化器提取全局描述子，全局平均池化描述子g_c是同一通道特征的平均值：

其中，W和H是输入特征的宽和高，F_c是通道特征。

全局最大平均池化描述子h_c为同一通道最大的10个特征值的平均值：

其中，N选取特征值的数量(取值为10)，V_max是最大的特征值。

步骤102：根据全局描述子确定特征通道权重。例如，两个全局描述子同时通过全连接层，线性整流层后进行加权求和，再通过激活函数获得特征通道权重W'：

W'＝σ(αW₂δ(W₁M_gap)+βW₂δ(W₁M_gmap)) (3)

其中，W₁,W₂分别是全连接层函数、σ是激活函数、δ是线性整流函数，α和β均为常数。

步骤103：根据特征通道权重和输入特征得到最终注意力特征。输入特征为孪生注意力网络中全连接层的输入特征。例如，特征通道权重与输入特征进行逐通道相乘得到最终注意力特征为F`：

F'＝W⊙F (4)

其中，F为输入特征，⊙为通道乘法。

步骤104：根据最终注意力特征和与最终注意力特征对应的搜索注意力特征确定相似度得分图。该步骤具体包括：

采用相关计算法根据最终注意力特征和与最终注意力特征对应的搜索注意力特征确定初始相似度得分图。

将初始相似度得分图进行逐元素加权求和得到相似度得分图。

例如，获得的三个模板注意力特征与对应的搜索注意力特征进行互相关计算，得到三个相似度得分图，通过1×1的卷积层将相似度得分图的通道数统一调整为256。将三个相似度得分图逐元素加权求和获得最终相似度得分图。

步骤105：将相似度得分图输入至区域建议网络中生成锚框。

步骤106：将锚框输入至分类和回归头网络得到与每个锚框对应的置信度得分和边界框偏差。

步骤107：选取置信度得分最高的锚框，并根据与置信度得分最高的锚框对应的边界框偏差生成跟踪目标包围框。

例如，区域建议网络以相似度得分图为输入，在得分图每个位置生成一组多个比例和尺度的锚框，通过1×1卷积层，批量归一化层，线性整流层，激活函数组成的分类和回归头网络，得到每个锚框对应的置信度得分和边界框偏差，并以上一帧的跟踪结果为中心在置信度得分图上加入汉宁窗惩罚项，得分最高的锚框根据回归偏差生成最终的跟踪目标包围框。

步骤108：根据跟踪目标包围框确定第一帧中的目标，得到第一帧的跟踪结果。

步骤109：根据第一帧的跟踪结果和初始模板图片生成新的模板图片。该步骤，具体包括：

对第一帧的跟踪结果、过程累积模板图片和初始模板图片进行加权相加得到新的模板图片。过程累积模板图片为跟踪结构融合得到的图片。

例如，将之前的所有跟踪结果融合成过程累积模板(第二帧中使用第一帧的给出的跟踪目标作为累积模板)，当前跟踪结果连同过程累积模板和初始模板进行加权相加生成新的模板图片T_i取代初始模板参与下一帧的跟踪任务：

T_i＝φ(T₀,P_i-1,R_i-1)＝αT₀+βP_i-1+ηR_i-1 (5)

其中T₀是第一帧中给出的目标区域，P_i-1是过程累积模板，R_i-1是上一帧的跟踪结果。

步骤110：采用新的模板图片替换初始模板图片后，返回步骤“将初始模板图片和初始搜索图片同时送入特征提取网络的输入分支得到全局描述子”。

即在本发明中，目标跟踪网络模型优选采用两个共享参数的ResNet50作为特征提取网络，在特征提取网络的后三层中嵌入孪生注意力模型。针对跟踪目标的特性赋予后三层网络提取的特征不同的通道权重，增强网络对于跟踪目标的识别能力，提取的注意力特征通过相似性度度量模块得到置信度得分图，通过区域建议网络生成多个比例和尺度的锚框，由分类和回归网络得到最终的目标位置及其边界框。在跟踪的过程中收集每一帧的跟踪结果并将其中的目标细节信息集成为过程模板，结合第一帧中给出的初始目标区域，以及上一帧的跟踪结果进行在线更新，生成新的模板图片参与下一帧的跟踪任务。

目标跟踪网络模型采用离线训练的方式，训练数据集中的每个样本包含一对模板图片和搜索图片，图片的标记方式为目标边界框的左上和右下角的坐标。设置每次迭代送入网络的图片对数量，每个周期训练的迭代次数以及总训练周期数。网络的损失函数由分类损失和回归损失两部分组成，每送入一批训练样本，使用随机梯度下降法反向传播跟踪结果与真值的损失误差，优化网络参数从而使模型收敛。

进一步，为了进一步提高目标跟踪的准确性，在进行目标表跟踪之前，需要预先确定初始模板图片，在本发明中，初始模板图片的确定过程具体为：

获取跟踪目标的预设边界框。其中，在第一帧中给出跟踪目标的预设边界框为(x,y,w,h)，预设边界框的中心点坐标(x,y)，预设边界框宽和高分别为w、h。

以预设边界框的中心点坐标为中心在第一帧图片中剪裁出预设边长的正方形区域。例如，以(x,y)为中心在第一帧图片中剪裁出边长为

的正方形区域，如果剪裁区域超过图片范围，则用图片的RGB三通道的均值进行像素填充。

将正方形区域重新采样为边长是127×127的图片以作为初始模板图片。后续输入图片根据上一帧的跟踪结果剪裁为256×256大小的搜索图片(第二帧根据第一帧给出的跟踪框进行剪裁)。

为了实现上述跟踪算法，提供了一种目标跟踪装置，该目标跟踪装置包含：图像获取以及存储模块，能够实时获取视场内的图像并保存，具备相应的计算能力，能够使用公开数据集训练跟踪模型并通过存储的视频序列对跟踪模型参数进行微调。手动给定第一帧中的目标区域通过跟踪模型跟踪后续帧中的目标，控制反馈环节能计算跟踪目标与图像中心的脱靶量，并向两轴伺服机构发送响应控制指令，驱动图像获取模块移动从而使跟踪目标时刻位于图像中心位置，保证了跟踪的实时性。

下面以采用的数据集为OTB2015为例，对本发明上述提供的技术方案的优点进行说明。

OTB2015是一个用于测试跟踪算法性能的专业跟踪数据集，包含了100个标记过的视频序列，代表11种跟踪过程经常出现的复杂环境，能够全面评估跟踪算法的性能。一般通过精度和成功率图直观的展示跟踪器在OTB2015上的实验结果。精度图表示跟踪结果中心与真值的距离小于给定阈值的帧数百分比，在给定阈值为20像素时的百分比为算法的精确度。成功率图表示跟踪结果与真值面积的交并比小于给定阈值的帧数百分比，成功率曲线下的面积(AUC)是另一种评价跟踪器的关键参数。如图4所示，实验比较了本发明提出的算法和近年表现优秀的算法，例如SiamBAN,KYS,SiamFCpp,SiamCAR,SiamRPN++,ECO,DiMP,DaSiamRPN,ATOM。其中，本发明提出的跟踪算法的AUC得分为70.0％，超过了其他所有的对比算法，精确度为91.4％也处于顶级的表现。高性能的来源主要有两个方面，跟踪算法采用了在线更新模板图片的策略，可以实时获取目标的外观状态，便于跟踪算法适应目标的形变，部分遮挡已经尺度变化。同时孪生注意力网络加强了对于跟踪目标重要的特征同时抑制了非重要特征，有利于跟踪器将目标与背景区分开来。

此外，对应于上述提供的基于孪生注意力网络的在线更新目标跟踪方法，本发明还提供了一种基于孪生注意力网络的在线更新目标跟踪系统，如图5所示，该系统包括：获取模块1、全局描述子确定模块2、特征通道权重确定模块3、最终注意力特征确定模块4、相似度得分图确定模块5、锚框生成模块6、置信度得分和边界框偏差确定模块7、跟踪目标包围框生成模块8、跟踪结果确定模块9、模板图片更新模块10和循环模块11。

获取模块1用于获取训练好的目标跟踪网络模型、初始模板图片和初始搜索图片。目标跟踪网络模型包括：特征提取网络和区域建议网络。特征提取网络包括第一输入分支和第二输入分支。第一输入分支和第二输入分支均与区域建议网络连接。区域建议网络与分类和回归头网络连接。第一输入分支和第二输入分支中的第三层网络结构、第四层网络结构和第五层网络结构中均嵌入有孪生注意力网络。孪生注意力网络为两输入分支并行结构，孪生注意力网络的每一输入分支均包括全局平均池化器、全局最大平均池化器、3个全连接层、整流层以及激活函数。区域建议网络包含分类和回归头网络。初始搜索图片为第一帧中的目标区域。

全局描述子确定模块2用于将初始模板图片和初始搜索图片同时送入特征提取网络的输入分支得到全局描述子。全局描述子包括全局平均池化描述子和全局最大平均池化描述子。

特征通道权重确定模块3用于根据全局描述子确定特征通道权重。

最终注意力特征确定模块4用于根据特征通道权重和输入特征得到最终注意力特征。输入特征为孪生注意力网络中全连接层的输入特征。

相似度得分图确定模块5用于根据最终注意力特征和与最终注意力特征对应的搜索注意力特征确定相似度得分图。

锚框生成模块6用于将相似度得分图输入至区域建议网络中生成锚框。

置信度得分和边界框偏差确定模块7用于将锚框输入至分类和回归头网络得到与每个锚框对应的置信度得分和边界框偏差。

跟踪目标包围框生成模块8用于选取置信度得分最高的锚框，并根据与置信度得分最高的锚框对应的边界框偏差生成跟踪目标包围框。

跟踪结果确定模块9用于根据跟踪目标包围框确定第一帧中的目标，得到第一帧的跟踪结果。

模板图片更新模块10用于根据第一帧的跟踪结果和初始模板图片生成新的模板图片。

循环模块11用于采用新的模板图片替换初始模板图片后，返回执行“将初始模板图片和初始搜索图片同时送入特征提取网络的输入分支得到全局描述子”。

进一步，为了提高目标跟踪的准确性，本发明上述提供的基于孪生注意力网络的在线更新目标跟踪系统还优选包括：

预设边界框获取模块，用于获取跟踪目标的预设边界框。

裁剪模块，用于以预设边界框的中心点坐标为中心在第一帧图片中剪裁出预设边长的正方形区域。

初始模板图片确定模块，用于将正方形区域重新采样为边长是127×127的图片以作为初始模板图片。

进一步，上述采用的全局描述子确定模块包括：

第一全局描述子确定单元，用于将初始模板图片送入第一输入分支，在第一输入分支中依次经过五层特征提取网络，第三层网络、第四层网络和第五层网络提取的特征分别输入孪生注意力网络，经孪生注意力网络的全局平均池化器和全局最大平均池化器后得到第一全局描述子。第一全局描述子包括：第一全局平均池化描述子和第一全局最大平均池化描述子。

第二全局描述子确定单元，用于将初始搜索图片送入第二输入分支，在第二输入分支中依次经过五层特征提取网络，第三层网络、第四层网络和第五层网络提取的特征分别输入孪生注意力网络，经孪生注意力网络的全局平均池化器和全局最大平均池化器后得到第二全局描述子。第二全局描述子包括：第二全局平均池化描述子和第二全局最大平均池化描述子。

进一步，上述采用的相似度得分图确定模块包括：

初始相似度得分图确定单元，用于采用相关计算法根据最终注意力特征和与最终注意力特征对应的搜索注意力特征确定初始相似度得分图。

相似度得分图确定单元，用于将初始相似度得分图进行逐元素加权求和得到相似度得分图。

进一步，上述采用的模板图片更新模块包括：

模板图片更新单元，用于对第一帧的跟踪结果、过程累积模板图片和初始模板图片进行加权相加得到新的模板图片。过程累积模板图片为跟踪结构融合得到的图片。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于孪生注意力网络的在线更新目标跟踪方法，其特征在于，包括：

根据所述全局描述子确定特征通道权重；

将所述相似度得分图输入至所述区域建议网络中生成锚框；

2.根据权利要求1所述的基于孪生注意力网络的在线更新目标跟踪方法，其特征在于，所述获取训练好的目标跟踪网络模型、初始模板图片和初始搜索图片，之前还包括：

获取跟踪目标的预设边界框；

3.根据权利要求1所述的基于孪生注意力网络的在线更新目标跟踪方法，其特征在于，所述将所述初始模板图片和所述初始搜索图片同时送入所述特征提取网络的输入分支得到全局描述子，具体包括：

4.根据权利要求1所述的基于孪生注意力网络的在线更新目标跟踪方法，其特征在于，所述根据所述最终注意力特征和与所述最终注意力特征对应的搜索注意力特征确定相似度得分图，具体包括：

5.根据权利要求1所述的基于孪生注意力网络的在线更新目标跟踪方法，其特征在于，所述根据所述第一帧的跟踪结果和初始模板图片生成新的模板图片，具体包括：

6.一种基于孪生注意力网络的在线更新目标跟踪系统，其特征在于，包括：

7.根据权利要求6所述的基于孪生注意力网络的在线更新目标跟踪系统，其特征在于，还包括：

预设边界框获取模块，用于获取跟踪目标的预设边界框；

8.根据权利要求6所述的基于孪生注意力网络的在线更新目标跟踪系统，其特征在于，所述全局描述子确定模块包括：

9.根据权利要求6所述的基于孪生注意力网络的在线更新目标跟踪系统，其特征在于，所述相似度得分图确定模块包括：

10.根据权利要求6所述的基于孪生注意力网络的在线更新目标跟踪系统，其特征在于，所述模板图片更新模块包括：