CN112233147A

CN112233147A - 一种基于双路孪生网络的视频运动目标跟踪方法及装置

Info

Publication number: CN112233147A
Application number: CN202011517694.8A
Authority: CN
Inventors: 唐志鸿; 王宏图; 孙迎春; 张超溢; 彭力; 郑长岭; 胡仁龙; 姚洁; 金花; 徐姝婷; 董陵; 赵玮; 徐浩
Original assignee: Jiangsu Mobile Information System Integration Co ltd
Current assignee: Jiangsu Mobile Information System Integration Co ltd
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2021-01-15
Anticipated expiration: 2040-12-21
Also published as: CN112233147B

Abstract

本发明涉及一种基于双路孪生网络的视频运动目标跟踪方法及装置，跟踪方法包括以下步骤：分别搭建语义网络和外观网络，组合构成双路孪生网络，利用语义网络提取语义信息，利用外观网络提取外观信息；对所述语义网络的网络结构进行调整，并在所述语义网络中内嵌注意力模块；在所述外观网络中添加空间掩膜、以提高外观网络提取目标的聚焦能力；对语义网络和外观网络分别单独训练；对目标尺度与旋转角度进行混合预测，最终确定被跟踪目标的位置。本发明针对外观与语义，分而治之，搭建2个不同的网络，让其各司其职，使得模型的学习表现更强，因此可以提升跟踪器的精度，同时，可以减缓跟踪器因为相似目标而导致的漂移问题。

Description

一种基于双路孪生网络的视频运动目标跟踪方法及装置

技术领域

本发明涉及一种基于双路孪生网络的视频运动目标跟踪方法及装置，涉及预测目的的数据处理系统或方法领域。

背景技术

基于双路孪生网络的视频运动目标跟踪技术可以实现对物体的视频跟踪，可以应用于视频监控，安防，目标行为轨迹分析，人机交互，自动驾驶等领域。

现有的基于相关滤波的跟踪器，如果使用深度特征，由于在线模型更新，导致跟踪速度很慢，无法满足实时性要求；而基于单路孪生网络的跟踪算法，普遍使用同一个网络同时学习目标的语义和外观特性，学习的目标不明确。

发明内容

发明目的：提出一种基于双路孪生网络的视频运动目标跟踪方法及装置，以解决现有技术存在的上述问题，提升跟踪器精度的同时减缓跟踪器因为相似目标而导致的漂移问题。

技术方案：第一方面，提供了一种基于双路孪生网络的视频运动目标跟踪方法，该方法包括以下步骤：

分别搭建语义网络和外观网络，组合构成双路孪生网络，利用语义网络提取语义信息，利用外观网络提取外观信息；单路孪生网络使用同一个网络提取目标最后一个卷积层输出的语义特征，忽略了目标的外观信息，然而，目标的外观信息对于目标的识别也有着重要的作用，因此步骤1建立双路孪生网络，分别提取目标的外观信息和语义信息。

对所述语义网络的网络结构进行调整，并在所述语义网络中内嵌注意力模块；使得跟踪器可以受益于深层网络的强力特征，跟踪成功率取得大幅提升；当背景存在许多干扰物导致跟踪器容易漂移时，利用内嵌的注意力模块进一步加强困难场景下特征的鲁棒性。

在所述外观网络中添加空间掩膜、以提高外观网络提取目标的聚焦能力；针对目标长宽比远大于1的模板图像，在经过外观网络提取得到最后一层特征图时添加掩模，以抑制其他干扰物体，使得外观网络提取的目标特征会更聚焦于目标自身，减轻其他显著物体的干扰。

对语义网络和外观网络分别单独训练，只有在跟踪测试的时候才依据各自的APCE值进行加权融合，这样可以保证，在训练时，语义网络负责就只负责目标的学习语义信息，外观网络也只负责学习目标的外观信息，不会相互影响。

对目标尺度与旋转角度进行混合预测，最终确定被跟踪目标的位置。

在第一方面的一些可实现方式中，利用外观网络提取外观信息的过程为：提取被跟踪物体的语义信息和外貌信息，得到两个响应图，分别对应于语义支路的输出响应图和外观分支的输出响应图；利用平均峰值相关能量衡量响应图准确度的指标：

式中，

表示语义支路的输出响应图和外观分支的输出响应图中的最大值，

表示语义支路的输出响应图和外观分支的输出响应图中的最小值，

表示处于语义支路的输出响应图和外观分支的输出响应图中

点的响应值，APCE表示平均峰值相关能量，

表示求括号内的数组平均值；

对语义支路与外观支路得到的2个特征图按各自的APCE指标进行加权相加，得到最终的响应图：

式中，下标A表示外观分支，下表S表示语义分支，

表示外观分支的输出响应图所对应的平均峰值相关能量，

表示语义分支的输出响应图所对应的平均峰值相关能量，f表示融合后的最终响应图，

和

分别表示外观分支与语义分支各自的响应图。

在第一方面的一些可实现方式中，对所述语义网络的网络结构进行调整的过程为：从卷积网络中的填充(padding)和步长(stride)两个参数入手，针对这两个方面对初始的网络进行修改，对于padding来说，在模型训练过程中它可能会带来位置偏差。具体来说，当目标移动到图像的边缘时，假如网络包含padding操作，那么网络提取的特征就会包含原始目标部分以及边缘的填充部分，但是对于搜索图像中的候选区域来说，有一部分是仅包含目标自身的，有一部分是包目标+填充这2个部分的。因此，这就导致了模板图像和搜索区域的不一致性，因此最终的输出响应无法真实地反映输入图像对的相似性。幸运的是，当目标贴近图像中心时，padding不会带来坏的影响。为了解决padding的干扰，本实施例采取的策略是将受padding影响的特征图最外一层裁减掉。对于网络步长来说，跟踪任务更关注的是目标的位置而不是对目标进行分类，因此这么大的步长会导致最后一层特征图的分辨率非常小，小到不足以精确定位目标。考虑到跟踪器的运行效率，本实施例将步长设置为8。

为了进一步加强困难场景下特征的鲁棒性，例如，当背景存在许多干扰物导致跟踪器容易漂移时，提出一个轻量级的通道注意力机制。特征首先经过一个全局均值池化层以获得逐通道的特征描述子，紧跟着一个一维卷积来为相邻通道建立联系，然后使用Sigmoid作为门控单元来计算每一个通道的重要性程度：

式中，

表示因变量，x表示自变量；

将每一个通道的重要性系数按通道维度施加到原有特征上：

式中，

表示施加通道注意力的特征，

表示语义网络提取的初始特征，其中

从

，表示各个特征通道，

表示第i个通道的重要性系数。

在第一方面的一些可实现方式中，在外观网络中添加空间掩膜的过程为：在模板图像分支(z)中，如果待跟踪目标的纵横比或横纵比(高度/宽度，宽度/高度)远离1，那么该图像中有更大的可能存在干扰物体，这些干扰物体容易引发跟踪器漂移。因此，本实施例有选择性的使用空间掩模策略，针对那些目标长宽比远大于1的模板图像，在经过外观网络提取得到最后一层特征图时，添加掩模，以抑制其他干扰物体。

定义目标高度为H，目标宽度为W，当H-W的值在预定范围区间之内，则判定目标宽度高度接近，此时不添加空间掩模，即采用中间部分全为1的方式；当H-W的值超出预定范围区间的最大值，则判定目标高度远大于宽度，此时采用图左边的掩模，抑制左右两边的干扰；当W-H的值超出预定范围区间的最大值，则判定目标宽度远大于高度，此时采用图右边的掩模，抑制上下两边的干扰；最终，外观网络提取的目标特征会更聚焦于目标自身，减轻了其他显著物体的干扰。

在第一方面的一些可实现方式中，对语义网络和外观网络分别单独训练的过程为：采用随机梯度下降的优化算法，进行预定次数迭代，网络的损失函数的构成部分为：

式中，v是网络预测的分数，代表当前片区搜索区域与模板图像的相似度，y是预先定义的标签，

，1表示当前片区与目标是相似的，反之-1表示不相似；搜索图像上不同的候选区域构成一张分数图D，

表示在预定位置的损失函数，定义各子网络模型的总体损失函数为每个子区域的局部损失均值：

式中，

表示总体的损失函数，即包含了全部子区域的总体损失函数，u表示子区域，

表示定义的标签中的u位置的值(0或1)，

表示网络预测的u位置的值。

在第一方面的一些可实现方式中，对目标尺度与旋转角度进行混合预测的过程为：枚举多个潜在的旋转角度样本，找到最合适的样本；在当前帧，采用至少P个候选图像块，其中Q个是原始的既不进行尺度缩放又不进行旋转的图像块，有T个是进行尺度缩放的图像块，剩下P-Q-T个是进行角度估计的图像块；其中，

；

每一个目标块都存在一个

参数对，其中，s表示尺度估计，a表示角度估计；设定当a不等于0的时候s=1，s不等于1的时候a=0；被跟踪的目标根据下式决定：

式中，K=P，表示一共有P个候选图像块，算法从这P个中挑选出最好的那个；

表示被跟踪物体的中心坐标，

表示尺度角度估计对

，

表示第k个候选图像块的最终响应值，x表示被跟踪物体中心的横坐标，y表示被跟踪物体中心的纵坐标，k表示第k个候选图像块，即候选图像块的索引号。

第二方面，提供了一种基于双路孪生网络的视频运动目标跟踪装置，该装置包括双路孪生网络搭建模块、语义网络调整模块、外观网络调整模块、训练模块、混合预测模块、以及注意力模块。其中，双路孪生网络搭建模块用于搭建语义网络和外观网络，利用语义网络提取语义信息，利用外观网络提取外观信息。语义网络调整模块用于对双路孪生网络搭建模块所搭建的语义网络的网络结构进行调整；外观网络调整模块用于在双路孪生网络搭建模块所搭建的外观网络中添加空间掩膜、以提高外观网络提取目标的聚焦能力；训练模块用于对语义网络和外观网络分别单独训练，只有在跟踪测试的时候才依据各自的APCE值进行加权融合，这样可以保证，在训练时，语义网络负责就只负责目标的学习语义信息，外观网络也只负责学习目标的外观信息，不会相互影响；混合预测模块用于对目标尺度与旋转角度进行混合预测，最终确定被跟踪目标的位置；注意力模块内嵌于所述语义网络中，用于加强困难场景下特征的鲁棒性。

在第二方面的一些可实现方式中，双路孪生网络搭建模块用于提取被跟踪物体的语义信息和外貌信息，得到两个响应图，分别对应于语义支路的输出响应图和外观分支的输出响应图；并利用平均峰值相关能量衡量响应图准确度的指标：

式中，

表示处于语义支路的输出响应图和外观分支的输出响应图中

点的响应值，APCE表示平均峰值相关能量，

表示求括号内的数组平均值；

式中，下标A表示外观分支，下表S表示语义分支，

表示外观分支的输出响应图所对应的平均峰值相关能量，

和

分别表示外观分支与语义分支各自的响应图。

语义网络调整模块用于裁减受卷积网络中的填充宽度影响的特征图的最外一层，将步长设置为预定值；特征经过全局均值池化层以获得逐通道的特征描述子；利用一维卷积为相邻通道建立联系，然后使用Sigmoid作为门控单元计算每一个通道的重要性程度：

式中，

表示因变量，x表示自变量；

将每一个通道的重要性系数按通道维度施加到原有特征上：

式中，

表示施加通道注意力的特征，

表示语义网络提取的初始特征，其中

从

，表示各个特征通道，

表示第i个通道的重要性系数。

外观网络调整模块针对目标长宽比大于1的模板图像，在经过外观网络提取得到最后一层特征图时添加掩模；定义目标高度为H，目标宽度为W，当H-W的值在预定范围区间之内，则不添加空间掩模，即采用中间部分全为1的方式；当H-W的值超出预定范围区间的最大值，则采用图左边的掩模，抑制左右两边的干扰；当W-H的值超出预定范围区间的最大值，则采用图右边的掩模，抑制上下两边的干扰；

混合预测模块用于枚举多个潜在的旋转角度样本，找到最合适的样本；在当前帧，采用至少P个候选图像块，其中Q个是原始的既不进行尺度缩放又不进行旋转的图像块，有T个是进行尺度缩放的图像块，剩下P-Q-T个是进行角度估计的图像块；其中，

；每一个目标块都存在一个

表示被跟踪物体的中心坐标，

表示尺度角度估计对

，

第三方面，提供了一种基于双路孪生网络的视频运动目标跟踪设备，该设备包括：处理器，以及存储有计算机程序指令的存储器；所述处理器读取并执行计算机程序指令时实现第一方面或第一方面的一些可实现方式中的运动目标跟踪方法。

第四方面，，提供了一种计算机存储介质，计算机存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现第一方面或第一方面的一些可实现方式中的运动目标跟踪的方法。

有益效果：提出一种基于双路孪生网络的目标跟踪框架，建立2个不同的子网络，分别提被跟踪物体的语义和外观信息，使用平均峰值相关能量这个可变系数自适应的融合双路网络输出的目标响应图，推理出最终的目标中心。在语义分支网络上嵌入轻量级的通道注意力模块，通过建立相邻特征通道的关系模型，从局部到全局，筛选出具有显著意义的特征，进一步提升特征的语义判别能力。并且，给注意力模块具有少量的参数量与计算量，保障了跟踪器的实时性。在外观分支网络引入空间掩模策略，根据被跟踪物体的纵横比，选择性地使用3种不同的空间掩模，有效抑制了画面中除目标外其他显著性的物体，因而降低了这些物体对跟踪器的干扰，提升了跟踪准确率。此外，提出一种新颖的尺寸与角度混合估计的策略，使得跟踪器的跟踪结果不在局限于传统的基于坐标轴对齐的矩形框，而是自带角度可以旋转的矩形框。因此，跟踪的精细度得到了进一步提升。

附图说明

图1是基于单路双路孪生网络的跟踪器结构示意图。

图2是本发明实施例提供的整体网络框架图。

图3是本发明实施例提供的轻量级的通道注意力机制结构示意图。

图4是本发明实施例提供的空间掩模示意图。

图5是本发明实施例提供的尺度与角度混合预测结构示意图。

图6是本发明实施例提供的运动目标跟踪案例实物图。

图7是本发明实施例提供的目标跟踪方法的流程示意图。

具体实施方式

在下文的描述中，给出了大量具体的细节以便提供对本发明更为彻底的理解。然而，对于本领域技术人员而言显而易见的是，本发明可以无需一个或多个这些细节而得以实施。在其他的例子中，为了避免与本发明发生混淆，对于本领域公知的一些技术特征未进行描述。

申请人认为，现有的基于相关滤波的跟踪器，如果使用深度特征，由于在线模型更新，导致跟踪速度很慢，无法满足实时性要求；而基于单路孪生网络的跟踪算法，普遍使用同一个网络同时学习目标的语义和外观特性，学习的目标不明确。

且常规的跟踪器的跟踪结果是一个与坐标轴对齐的矩形框，但是当目标形状不规则或者目标处于倾斜状态时，使用垂直矩形框会引入更多的背景信息，同时也无法准确的描述目标所处的位置。

典型的单路孪生网络如图1所示。首先，在一个图像序列中，选定某一张图像以及待跟踪的目标，根据跟踪目标的中心与宽度高度，裁剪出一块127*127*3的模板图像块(z)，其中127表示裁剪后图像的高度与宽度，3表示特征数，初始化时表示RGB这3个通道数。同时，在剩下图像序列中选取某一张图像，以这个目标为中心划分出255*255*3的搜索图像块(x)，各参数含义同上。然后，将这2个图像块输入进同一个网络

，最后可以得到不同宽高，相同通道数的输出特征图。以图1为例，z分支的特征图为6*6*128，x分支的特征图为22*22*128，然后，将2个特征图进行交叉相关操作，（图中*表示交叉相关操作）：

其中，

使用参数为

的卷积网络提取目标特征，

表示偏置项。公式(1)可以衡量出x上某一块候选区域与模板z的匹配度，所求的结果即为响应图，响应图上最大值的位置即对应了该张图像上目标的预测中心点。

为此，本案旨在设计一种同时兼顾精度与速度的目标跟踪算法。现有的基于相关滤波的跟踪器，如果使用深度特征，由于在线模型更新，导致跟踪速度很慢，无法满足实时性要求；而基于单路孪生网络的跟踪算法，普遍使用同一个网络同时学习目标的语义和外观特性，学习的目标不明确，相对而言，针对外观与语义，分而治之，搭建2个不同的网络，让其各司其职，可以使得模型的学习表现更强，因此可以提升跟踪器的精度，同时，可以减缓跟踪器因为相似目标而导致的漂移问题。

同时，本方案提出一种新颖的尺度与角度混合预测模型。常规的跟踪器的跟踪结果是一个与坐标轴对齐的矩形框，但是当目标形状不规则或者目标处于倾斜状态时，使用垂直矩形框会引入更多的背景信息，同时也无法准确的描述目标所处的位置。因此，本文提出一种新的目标旋转角度预测模型，可以实现目标的精细跟踪。

本提案旨在设计一种同时兼顾精度与速度的目标跟踪算法，针对外观与语义，分而治之，搭建2个不同的网络，让其各司其职，可以使得模型的学习表现更强，提升跟踪器的精度，同时减缓跟踪器因为相似目标而导致的漂移问题，此外本方案设计了一种新的目标旋转角度预测模型，可以实现目标的精细跟踪。如图7所示，是本发明实施例提供的目标跟踪方法的流程示意图。

实施例一：

算法整体设计思路如图2所示，图2中1表示最后一层z响应图，2表示最后一层x响应图，*表示交叉相关。本框架中包含2个子网络分支，语义网络分支与外观网络分支。其中，语义分分支网络采用改进版的CIRes22，网络结构见表1；外观分支网络采用标准的AlexNet。在语义分支网络的模板图像z的最后一层输出特征图上，嵌入通道注意力模块；在外观分支网络的模板图像z的最后一层输出特征图上，加入自适应的空间掩模策略。最后，通过各自分支输出响应图的APCE数值，进行加权平均，得到最终的响应图。最终响应图上最大值对应的位置，对应了目标的预测中心位置。

实施例二：

在实施例一的基础之上，单路孪生网络使用同一个网络提取目标最后一个卷积层输出的语义特征，忽略了目标的外观信息，然而，目标的外观信息对于目标的识别也有着重要的作用。因此，本实施例设计了一种基于多路孪生网络的跟踪器，利用2个不同的网络，分别提取目标的外观信息和语义信息。具体的，使用改进版的CIRes22作为目标语义特征的提取器，使用AlexNet作为目标外观信息的提取器。CIRes22是基于ResNet的改进版，相较于只有5层的AlexNet，其最后一层提取的特征语义判别能力明显优于AlexNet。因此，使用CIRes22与AlexNet分别提取跟踪物体的语义和外貌信息，利用上述的跟踪范式，可以得到2个响应图，分别对应语义支路的输出响应图和外观分支的输出响应图。利用平均峰值相关能量(APCE)这个可以衡量响应图准确度的指标：

式中，

表示处于语义支路的输出响应图和外观分支的输出响应图中

点的响应值，APCE表示平均峰值相关能量，

表示求括号内的数组平均值。

式中，下标A表示外观分支，下表S表示语义分支，

表示外观分支的输出响应图所对应的平均峰值相关能量，

和

分别表示外观分支与语义分支各自的响应图。

实验发现，直接将现有的深度网络，比如VGG, ResNet不经修改的，直接运用到跟踪器上，无法提高跟踪成功率，相反，表现还不如仅仅只有5层的AlexNet。因此，本实施例使用改进版的CIRes22网络，在ResNet的基础上，为跟踪任务单独设计了一种新的网络结构，使得跟踪器可以受益于深层网络的强力特征，跟踪成功率取得大幅提升。

实施例三：

在实施例一的基础之上，本实施例从卷积网络中的填充(padding)和步长(stride)2个参数入手，针对这2个方面对初始的网络进行了修改。

对于padding来说，在模型训练过程中它可能会带来位置偏差。具体来说，当目标移动到图像的边缘时，假如网络包含padding操作，那么网络提取的特征就会包含原始目标部分以及边缘的填充部分，但是对于搜索图像中的候选区域来说，有一部分是仅包含目标自身的，有一部分是包目标+填充这2个部分的。因此，这就导致了模板图像和搜索区域的不一致性，因此最终的输出响应无法真实地反映输入图像对的相似性。幸运的是，当目标贴近图像中心时，padding不会带来坏的影响。为了解决padding的干扰，本实施例采取的策略是将受padding影响的特征图最外一层裁减掉。对于网络步长来说，跟踪任务更关注的是目标的位置而不是对目标进行分类，因此这么大的步长会导致最后一层特征图的分辨率非常小，小到不足以精确定位目标。考虑到跟踪器的运行效率，本实施例将步长设置为8。改进后的CIRes22网络结构见下表1：

表1 CIRes22网络结构

为了进一步加强困难场景下特征的鲁棒性，例如，当背景存在许多干扰物导致跟踪器容易漂移时，我们提出了一个轻量级的通道注意力机制。现有的一些方法是使用全连接层为每一个神经元和其他所有神经元建立复杂的关系，这会带来更高的模型复杂度和计算负担。我们的方法与此不同，我们更关注特征通道与其相邻通道间的关系。如图3所示，图3中

表示按通道逐个元素相乘。

对于一个H×W×C的初始特征图X，H 表示该特征的高度，W表示该特征的宽度，C表示该特征的通道数；初始特征图X首先经过一个全局均值池化层（图中GAP表示全局均值池化层，全称为Global Average Pooling）以获得逐通道的特征描述子，紧跟着一个一维卷积（1×1×C）来为相邻通道建立联系，卷积核大小选择k=5；然后使用Sigmoid作为门控单元（图中所示

表示sigmoid激活函数，即下式4）来计算每一个通道的重要性程度：

式中，

表示因变量，x表示自变量；

将每一个通道的重要性系数按通道维度施加到原有特征上：

式中，

表示施加通道注意力的特征，

表示语义网络提取的初始特征，其中

从

，表示各个特征通道，

表示第i个通道的重要性系数。图中

表示施加注意力机制后的特征图，其宽、高、特征数和输入的初始特征图X一致。

实施例四：

在实施例一的基础之上，本实施例使用一维卷积，施加在语义网络最后一层的模板(z)特征上，特征通道的维度上进行运算，一维卷积核大小为k，这样，仅仅通过k个相邻的通道与卷积中心的通道建立联系，而不是通道间两两建立关系，既抑制了相邻通道间不重要的特征，突出显著的特征，又极大的减少了参数量和运算量，保证了跟踪器的实时性。

实施例五：

在实施例四的基础之上，在模板图像分支(z)中，如果待跟踪目标的纵横比或横纵比(高度/宽度，宽度/高度)远离1，那么该图像中有更大的可能存在干扰物体，这些干扰物体容易引发跟踪器漂移。因此，本实施例有选择性的使用空间掩模策略，针对那些目标长宽比远大于1的模板图像，在经过外观网络提取得到最后一层特征图时，添加掩模，以抑制其他干扰物体。如图4所示，黑色部分表示0，白色部分表示1。如果目标宽度高度接近，那么就不添加空间掩模，即采用中间部分全为1的方式；如果目标高度远大于宽度，那么就采用图左边的掩模，抑制左右两边的干扰；如果目标宽度远大于高度，那么就采用图右边的掩模，抑制上下两边的干扰。最终，外观网络提取的目标特征会更聚焦于目标自身，减轻了其他显著物体的干扰。

实施例六：

在实施例一的基础之上，采用类似多层金字塔的思想，具体的，我们枚举多个潜在的旋转角度，然后找到最合适的那一个。比如现在我们有M个尺度候选和N个角度候选，那么就会产生M*N个尺度与角度相结合的估计值。这样直接会导致跟踪器的速度大幅下降，经试验发现，当M=3与N=3时，跟踪器已无法满足实时性要求。因此，我们采用的策略是，在当前帧，采用5个候选图像块，有1个是原始的既不进行尺度缩放又不进行旋转的，有2个是进行尺度缩放的，剩下2个是进行角度估计的。最终，本实施例提出的采样策略是M=3，N=3。这样，每一帧就会存在M+N-1个对比目标块。

如图5所示，每一个目标块都会存在一个

参数对。图5的左侧表示不同旋转角度与缩放比

下每一个候选图像块，图5的右侧表示不同旋转角度与缩放比

下每一个候选图像块的响应。其中，s表示scale，即尺度估计，a表示angle，即角度估计。本实施例预先设定当a不等于0的时候s=1，s不等于1的时候a=0，预测尺度与预测角度分而治之。因此，被跟踪的目标最后是根据式（6）决定的：

表示被跟踪物体的中心坐标，

表示尺度角度估计对

，

实施例七：

图5表示了整体的尺度与角度估计的流程，在第t帧进行尺度估计与角度的混合估计。按照1.0375的尺寸缩放比构建1.0375，1，0.964这3个不同尺度的候选块，然后与目标块进行相似度计算，响应最大的那个位置即是本帧预测的位置；按照

的旋转角度，分为3个候选块，分别是顺时针旋转，逆时针旋转

和保持角度不变。同样的，根据哪个候选块的响应值最大，可以判断出当前时刻最佳的旋转角度。最后，这5个候选快的响应值哪个最大，哪个就是目标的最佳尺度与角度预测。从图5可以看出，当

参数对为

时，响应值最大。

实施例八：

在实施例一的基础之上，训练模块对语义网络和外观网络分别单独训练，只有在跟踪测试的时候才依据各自的APCE值进行加权融合，这样可以保证，在训练时，语义网络负责就只负责目标的学习语义信息，外观网络也只负责学习目标的外观信息，不会相互影响。

使用Got10K数据集和ILSVRC2015数据集对这2个子网络进行训练，采用随机梯度下降的优化算法，其中，动量为0.9，权重衰减为0.0005，初始学习率为0.01，学习率采用指数衰减的方式，共进行50轮迭代，最后一轮迭代的学习率为0.00001。网络的损失函数的构成部分为：

表示在某个位置的损失函数，定义各子网络模型的总体损失函数为每个子区域的局部损失均值：

式中，

表示定义的标签中的u位置的值(0或1)，

表示网络预测的u位置的值。

实施例九：

实施例九针对具体情况，对在线跟踪的详细过程做出阐述：

<1>第一帧的初始化

输入视频序列或图像序列，第一帧中指定待跟踪的运动目标，具体的提供参数有目标中心坐标以及目标的宽度高度

；根据这个初始信息，以目标为中心裁剪出127*127宽高大小的图像块作为模板图像z，将z输入进训练好的语义网络和外观网络，同时，在语义网络的最后一层输出特征图上采用通道注意力机制，在外观网络的最后一层输出特征图上采用空间掩模，分别得到2个子网络对模板图像z的特征图，分别记为

和

。

<2>第二帧往后的目标位置预测

从第t帧开始，t=2,…T，T表示图像序列一共有多少帧。利用t-1帧估计目标的目标中心，才这个中心裁剪出255*255宽高的搜索图像区域x，将x输入进训练好的语义网络和外观网络，不过，对于搜索图像区域x来说，它的最后一层特征图不需要加注意力机制与空间掩模策略，这样可以分别得到2个子网络对搜索图像x的特征图，分别记为

和

。利用公式(1)，对语义分支的

特征图对以及外观分支的

特征图对进行交叉相关，求出各自的输出响应图，响应图上每一个点表示了该片搜索区域与目标的相似度。根据公式(2)求出，语义支路与外观支路的响应图1PCE指标，最后，根据公式(3)自适应的融合两路支路的响应图，得到最终更为精确的响应图。在最终的响应图上，响应最大点的位置即代表了第t帧预测的目标中心位置。

<3>每一帧的尺度与角度混合估计

在第t帧进行尺度估计与角度的混合估计。按照1.0375的尺寸缩放比构建1.0375, 1,0.964这3个不同尺度的候选块，然后与目标块进行相似度计算，响应最大的那个位置即是本帧预测的位置；按照

的旋转角度，分为3个候选块，分别是顺时针旋转

，逆时针旋转

和保持角度不变。同样的，根据哪个候选块的响应值最大，可以判断出当前时刻最佳的旋转角度。最后，这5个候选快的响应值哪个最大，哪个就是目标的最佳尺度与角度预测。

图6展示了一些本算法的成功应用效果，可用于车辆自动跟踪，行人徘徊分析等应用中，图像中的左上角数字表示当前时刻，单位为毫秒。

综上，本实施例提出一种基于双路孪生网络的目标跟踪框架，建立2个不同的子网络，分别提被跟踪物体的语义和外观信息，使用平均峰值相关能量(APCE)这个可变系数自适应的融合双路网络输出的目标响应图，推理出最终的目标中心；本方案兼顾精度与速度，针对外观与语义分别搭建2个不同的网络，模型的学习表现显著增强，大幅提升跟踪器的精度。

本实施例在语义分支网络上嵌入轻量级的通道注意力模块，通过建立相邻特征通道的关系模型，从局部到全局，筛选出具有显著意义的特征，进一步提升特征的语义判别能力。并且，给注意力模块具有少量的参数量与计算量，保障了跟踪器的实时性。

本实施例在外观分支网络引入空间掩模策略，根据被跟踪物体的纵横比，选择性地使用3种不同的空间掩模，有效抑制了画面中除目标外其他显著性的物体，因而降低了这些物体对跟踪器的干扰，提升了跟踪准确率。

本实施例提出一种新颖的尺寸与角度混合估计的策略，使得跟踪器的跟踪结果不在局限于传统的基于坐标轴对齐的矩形框，而是自带角度可以旋转的矩形框。因此，跟踪的精细度得到了进一步提升。

如上所述，尽管参照特定的优选实施例已经表示和表述了本实施例，但其不得解释为对本实施例自身的限制。在不脱离所附权利要求定义的本实施例的精神和范围前提下，可对其在形式上和细节上做出各种变化。

Claims

1.一种基于双路孪生网络的视频运动目标跟踪方法，其特征在于，所述方法包括：

分别搭建语义网络和外观网络，组合构成双路孪生网络，利用语义网络提取语义信息，利用外观网络提取外观信息；

对所述语义网络的网络结构进行调整，并在所述语义网络中内嵌注意力模块；

在所述外观网络中添加空间掩膜、以提高外观网络提取目标的聚焦能力；

对语义网络和外观网络分别单独训练；

2.根据权利要求1所述的一种基于双路孪生网络的视频运动目标跟踪方法，其特征在于，利用外观网络提取外观信息的过程进一步包括：

提取被跟踪物体的语义信息和外貌信息，得到两个响应图，分别对应于语义支路的输出响应图和外观分支的输出响应图；

利用平均峰值相关能量衡量响应图准确度的指标：

式中，

表示处于语义支路的输出响应图和外观分支的输出响应图中

点的响应值，APCE表示平均峰值相关能量；

表示求括号内的数组平均值；

式中，下标A表示外观分支，下表S表示语义分支，

表示外观分支的输出响应图所对应的平均峰值相关能量，

和

分别表示外观分支与语义分支各自的响应图。

3.根据权利要求1所述的一种基于双路孪生网络的视频运动目标跟踪方法，其特征在于，对所述语义网络的网络结构进行调整的过程进一步包括：

裁减受卷积网络中的填充宽度影响的特征图的最外一层，将步长设置为预定值；

特征经过全局均值池化层以获得逐通道的特征描述子；利用一维卷积为相邻通道建立联系，然后使用Sigmoid作为门控单元计算每一个通道的重要性程度：

式中，

表示因变量，x表示自变量；

将每一个通道的重要性系数按通道维度施加到原有特征上：

式中，

表示施加通道注意力的特征，

表示语义网络提取的初始特征，其中

从

，表示各个特征通道，

表示第i个通道的重要性系数。

4.根据权利要求1所述的一种基于双路孪生网络的视频运动目标跟踪方法，其特征在于，在外观网络中添加空间掩膜的过程进一步包括：针对目标长宽比大于1的模板图像，在经过外观网络提取得到最后一层特征图时添加掩模。

5.根据权利要求4所述的一种基于双路孪生网络的视频运动目标跟踪方法，其特征在于，在经过外观网络提取得到最后一层特征图时添加掩模的过程进一步包括：

定义目标高度为H，目标宽度为W，当H-W的值在预定范围区间之内，则不添加空间掩模，即采用中间部分全为1的方式；

当H-W的值超出预定范围区间的最大值，则采用图左边的掩模，抑制左右两边的干扰；

当W-H的值超出预定范围区间的最大值，则采用图右边的掩模，抑制上下两边的干扰。

6.根据权利要求1所述的一种基于双路孪生网络的视频运动目标跟踪方法，其特征在于，对语义网络和外观网络分别单独训练的过程进一步包括：

采用随机梯度下降的优化算法，进行预定次数迭代，网络的损失函数的构成部分为：

式中，

表示定义的标签中的u位置的值，

表示网络预测的u位置的值。

7.根据权利要求1所述的一种基于双路孪生网络的视频运动目标跟踪方法，其特征在于，对目标尺度与旋转角度进行混合预测的过程进一步包括：

枚举多个潜在的旋转角度样本，找到最合适的样本；在当前帧，采用至少P个候选图像块，其中Q个是原始的既不进行尺度缩放又不进行旋转的图像块，有T个是进行尺度缩放的图像块，剩下P-Q-T个是进行角度估计的图像块；其中，

；

每一个目标块都存在一个

式中，K=P，表示一共有P个候选图像块；

表示被跟踪物体的中心坐标，

表示尺度角度估计对

，

8.一种基于双路孪生网络的视频运动目标跟踪装置，其特征是，所述装置包括：

双路孪生网络搭建模块，用于搭建语义网络和外观网络，利用语义网络提取语义信息，利用外观网络提取外观信息；

语义网络调整模块，用于对双路孪生网络搭建模块所搭建的语义网络的网络结构进行调整；

外观网络调整模块，用于在双路孪生网络搭建模块所搭建的外观网络中添加空间掩膜、以提高外观网络提取目标的聚焦能力；

训练模块，用于对语义网络和外观网络进行训练；

混合预测模块，用于对目标尺度与旋转角度进行混合预测，最终确定被跟踪目标的位置；

注意力模块，内嵌于所述语义网络中，用于加强困难场景下特征的鲁棒性。

9.一种基于双路孪生网络的视频运动目标跟踪设备，其特征在于，所述设备包括：

处理器以及存储有计算机程序指令的存储器；

所述处理器读取并执行所述计算机程序指令，以实现如权利要求1-7任意一项所述的运动目标跟踪方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-7任意一项所述的运动目标跟踪方法。