CN115063445A

CN115063445A - 基于多尺度层次化特征表示的目标跟踪方法与系统

Info

Publication number: CN115063445A
Application number: CN202210993495.7A
Authority: CN
Inventors: 王军; 尹鹏; 王员云; 汪胜前
Original assignee: Nanchang Institute of Technology
Current assignee: Nanchang Institute of Technology
Priority date: 2022-08-18
Filing date: 2022-08-18
Publication date: 2022-09-16
Anticipated expiration: 2042-08-18
Also published as: CN115063445B

Abstract

本发明提出一种基于多尺度层次化特征表示的目标跟踪方法与系统，所述方法包括：对输入图像数据进行增强以得到搜索区域图像；通过将特征识别器模块嵌入在层次化特征提取网络中的前三个卷积块之后，以构建得到层次化特征提取模块；将目标模板图像集与搜索区域图像输入到孪生神经网络框架中，通过层次化特征提取网络分别对模板分支和搜索区域的目标图像特征进行学习，以得到相应的模板特征与搜索特征；将模板特征输入到编码器中，使得单个模板特征进行增强，以获得编码特征；将模板特征与编码特征映射在同一特征空间中，将搜索特征与模板融合特征输入至解码器，以实现鲁棒的目标跟踪。

Description

基于多尺度层次化特征表示的目标跟踪方法与系统

技术领域

本发明涉及计算机视觉与图像处理技术领域，特别涉及一种基于多尺度层次化特征表示的目标跟踪方法与系统。

背景技术

视觉跟踪是计算机视觉的一个基础研究任务，其目的是估计视频序列中每一帧目标的状态。视觉跟踪具有广泛的实际应用，如智能驾驶、人机交互以及视频监控等。目前，由于一些具有挑战性的因素的影响，如形变、光照变化以及运动模糊等因素，导致实现高质量的视觉跟踪仍然是一个亟待解决的问题。

卷积神经网络在特征学习方面具有优越的性能，基于卷积神经网络的强大特征表示，基于孪生神经网络的跟踪器被提出并实现了最先进的跟踪性能。首先，基于孪生神经网络的跟踪器在模板分支与搜索分支上分别提取相应的特征，以得到特征图。然后，跟踪器利用互相关来计算两个分支的相似性。因此，孪生主干网络和相关操作在跟踪器中扮演着重要的角色。

尽管这些跟踪器在跟踪性能上取得了很大的进步，但仍然存在一些不足:（1）、传统的卷积神经网络是通过带有预设大小的卷积核的主干网络来提取输入图像的特征。当模板目标的尺度发生剧烈变化时，模板特征可能会包含一些背景信息或丢失一些前景信息，导致跟踪过程中发生漂移。（2）、相关运算是一种线性融合方式，用于计算模板与搜索区域之间的相似度。因此，相关操作容易丢失语义信息，陷入局部最优。此外，相关操作不能捕获模板和搜索分支之间复杂的非线性交互。

基于此，有必要提出一种基于多尺度层次化特征表示的目标跟踪方法与系统，以解决上述技术问题。

发明内容

鉴于上述状况，本发明的主要目的是为了提出一种基于多尺度层次化特征表示的目标跟踪方法与系统，以解决上述技术问题。

本发明实施例提出一种基于多尺度层次化特征表示的目标跟踪方法，其中，所述方法包括如下步骤：

步骤一、对给定的前三帧目标框中的图像进行初始化以生成目标模板图像集，在除所述前三帧目标框之外的后续帧目标框中，以所述前三帧目标框对应的目标模板图像集中的目标中心坐标作为搜索区域，通过水平翻转与联合增广变换对输入图像数据进行增强以得到搜索区域图像；

步骤二、在孪生神经网络框架中，通过将特征识别器模块嵌入在层次化特征提取网络中的前三个卷积块之后，以构建得到层次化特征提取模块，其中，所述孪生神经网络框架由层次化特征提取网络与多尺度特征融合网络构成，所述特征识别器模块用于通过生成三维注意图以关注重要元素的位置与内容；

步骤三、将所述目标模板图像集与所述搜索区域图像输入到所述孪生神经网络框架中，通过层次化特征提取网络分别对模板分支和搜索区域的目标图像特征进行学习，以得到相应的模板特征与搜索特征；

步骤四、将经过层次化特征提取网络处理后得到的模板特征输入到编码器中，使得单个模板特征进行增强，以获得编码特征；

步骤五、通过所述多尺度特征融合网络分别将所述模板特征与所述编码特征映射在同一特征空间中，其中，编码特征作为查询，模板特征与编码特征进行信息交换以产生鲁棒的模板融合特征，用于使跟踪器更适应目标尺度变化；

步骤六、将经过层次化特征提取网络处理后得到的搜索特征与所述模板融合特征输入至解码器，以得到用于定位目标的得分图，进而实现鲁棒的目标跟踪。

本发明提出一种基于多尺度层次化特征表示的目标跟踪方法，首先通过一个有效的特征识别器模块生成三维注意图，该三维注意图用于关注重要元素的位置与内容；并在实际应用中通过动态调整目标特征的权重，以获得强大的目标特征；此外，将特征识别器模块嵌入在不同的卷积块上，以构建得到层次化特征提取模块，从而提高层次化特征提取网络的表示能力；在此基础上，再构建一个多尺度特征融合网络，通过交叉注意力机制实现模板特征与编码特征的特征融合，从而得到较强的图像特征。本发明提出的基于多尺度层次化特征表示的目标跟踪方法，由于有效融合了模板特征与编码特征，因此可有效规避因模板特征中背景信息丢失时发生的跟踪漂移的问题；此外，也可有效捕获模板特征与搜索特征之间的非线性交互，提高了跟踪效果。

所述一种基于多尺度层次化特征表示的目标跟踪方法，其中，在所述步骤二中，所述特征识别器模块的操作方法包括如下步骤：

对所述模板特征与所述搜索特征采用平均池化操作以聚合每个通道的特征图，其中对每个通道而言，通过可学习尺度变化参数进行批处理归一层；

根据所述可学习尺度变化参数构建得到一个权重矩阵，通过所述权重矩阵进行动态调整目标特征权重值以获得一个通道特征图；

通过特征识别器模块对所述模板特征与所述搜索特征，使用两个3×3大小的扩张卷积用来扩大感受野，然后将经过扩张卷积处理后的所述模板特征与所述搜索特征，通过一个1×1大小的卷积将所述模板特征与所述搜索特征缩减得到空间特征图；

根据所述通道特征图与所述空间特征图计算得到三维注意图。

所述一种基于多尺度层次化特征表示的目标跟踪方法，其中，通过可学习尺度变化参数进行批处理归一层的步骤中，批处理归一层的公式表示为：

其中，

表示第

个通道的批处理归一层的输出特征，

表示第

个通道的可学习尺度变化参数，

表示第

个通道的批处理归一化运算，

表示批处理归一层中可学习的位移变换参数，

表示第

个通道的批处理归一层的输入特征，

表示平均值，

表示变化值，

表示数值稳定性的正值。

所述一种基于多尺度层次化特征表示的目标跟踪方法，其中，在根据所述可学习尺度变化参数构建得到一个权重矩阵，通过所述权重矩阵进行动态调整目标特征权重值以获得一个通道特征图的步骤中，所述通道特征图的公式表示为：

其中，

表示通道特征图，

表示阈值函数，

表示平均池化操作，

表示批处理归一化操作，

表示输入特征，

表示权重矩阵，

表示输入特征

中第

行第

列位置的特征张量，

，

表示第

行的缩放因子值，

表示第

列的缩放因子值。

所述一种基于多尺度层次化特征表示的目标跟踪方法，其中，所述空间特征图的公式表示为：

其中，

表示空间特征图，

表示可学习尺度变换参数矩阵，

表示一个1×1的卷积运算，

表示第一个3×3的卷积运算，

表示第二个3×3的卷积运算，

表示空间分支中的可学习尺度变化参数。

所述一种基于多尺度层次化特征表示的目标跟踪方法，其中，所述三维注意图对应的公式表示为：

其中，

表示三维注意图，

表示sigmoid函数；

其中，

表示特征识别器模块的输出特征，

表示输入特征，

表示局部矩阵乘法。

所述一种基于多尺度层次化特征表示的目标跟踪方法，其中，所述特征识别器模块对应的损失函数表示为：

其中，

表示损失函数值，

表示损失函数，

表示特征识别器模块的预测函数，

表示特征识别器模块的权重，

表示针对

的惩罚函数，

表示针对

的惩罚函数，

表示用于平衡

和

的罚量，

表示空间分支中的可学习尺度变化参数，

表示通道分支中的可学习尺度变化参数。

所述一种基于多尺度层次化特征表示的目标跟踪方法，其中，在所述步骤五中，通过所述多尺度特征融合网络分别将所述模板特征与所述编码特征映射在同一特征空间中，对应的计算公式表示为：

其中，

表示第一可学习参数，

表示第二可学习参数，

表示第三可学习参数，

表示维度对齐投影函数，

表示第一编码特征，

表示模板特征，

表示将多个模板特征进行拼接后所得到的模板特征集，

表示掩码集合。

所述一种基于多尺度层次化特征表示的目标跟踪方法，其中，在得到了第一可学习参数

与第二可学习参数

之后，所述方法还包括：

基于所述第一可学习参数

与所述第二可学习参数

，采用交叉注意力机制计算得到交叉注意图；

所述交叉注意图对应的计算公式表示为：

其中，

表示交叉注意图，

表示归一化函数，

表示嵌入维度，

表示多头数，

表示转置操作。

本发明还提出一种基于多尺度层次化特征表示的目标跟踪系统，其中，所述系统包括：

初始化模块，用于：

对给定的前三帧目标框中的图像进行初始化以生成目标模板图像集，在除所述前三帧目标框之外的后续帧目标框中，以所述前三帧目标框对应的目标模板图像集中的目标中心坐标作为搜索区域，通过水平翻转与联合增广变换对输入图像数据进行增强以得到搜索区域图像；

网络构建模块，用于：

在孪生神经网络框架中，通过将特征识别器模块嵌入在层次化特征提取网络中的前三个卷积块之后，以构建得到层次化特征提取模块，其中，所述孪生神经网络框架由层次化特征提取网络与多尺度特征融合网络构成，所述特征识别器模块用于通过生成三维注意图以关注重要元素的位置与内容；

特征学习模块，用于：

将所述目标模板图像集与所述搜索区域图像输入到所述孪生神经网络框架中，通过层次化特征提取网络分别对模板分支和搜索区域的目标图像特征进行学习，以得到相应的模板特征与搜索特征；

特征增强模块，用于：

将经过层次化特征提取网络处理后得到的模板特征输入到编码器中，使得单个模板特征进行增强，以获得编码特征；

特征映射模块，用于：

通过所述多尺度特征融合网络分别将所述模板特征与所述编码特征映射在同一特征空间中，其中，编码特征作为查询，模板特征与编码特征进行信息交换以产生鲁棒的模板融合特征，用于使跟踪器更适应目标尺度变化；

目标跟踪模块，用于：

将经过层次化特征提取网络处理后得到的搜索特征与所述模板融合特征输入至解码器，以得到用于定位目标的得分图，进而实现鲁棒的目标跟踪。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实施例了解到。

附图说明

图1为本发明第一实施例提出的基于多尺度层次化特征表示的目标跟踪方法的流程图；

图2为本发明第一实施例提出的基于多尺度层次化特征表示的目标跟踪框架的原理架构图；

图3为本发明第一实施例中特征识别器模型的原理图；

图4为本发明第一实施例中多尺度特征融合网络的原理图；

图5为本发明第二实施例中提出的基于多尺度层次化特征表示的目标跟踪系统的结构图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

请参阅图1至图4，本发明提出一种基于多尺度层次化特征表示的目标跟踪方法，其中，所述方法包括如下步骤：

S101、对给定的前三帧目标框中的图像进行初始化以生成目标模板图像集，在除所述前三帧目标框之外的后续帧目标框中，以所述前三帧目标框对应的目标模板图像集中的目标中心坐标作为搜索区域，通过水平翻转与联合增广变换对输入图像数据进行增强以得到搜索区域图像。

S102、在孪生神经网络框架中，通过将特征识别器模块嵌入在层次化特征提取网络中的前三个卷积块之后，以构建得到层次化特征提取模块。

其中，孪生神经网络框架由层次化特征提取网络与多尺度特征融合网络构成，特征识别器模块用于通过生成三维注意图以关注重要元素的位置与内容。

具体的，在步骤S102中，特征识别器模块的操作方法包括如下步骤：

S1021、对所述模板特征与所述搜索特征采用平均池化操作以聚合每个通道的特征图，其中对每个通道而言，通过可学习尺度变化参数进行批处理归一层。

具体而言，请参阅图3，通过可学习尺度变化参数进行批处理归一层的步骤中，批处理归一层的公式表示为：

其中，

表示第

个通道的批处理归一层的输出特征，

表示第

个通道的可学习尺度变化参数，

表示第

个通道的批处理归一化运算，

表示批处理归一层中可学习的位移变换参数，

表示第

个通道的批处理归一层的输入特征，

表示平均值，

表示变化值，

表示数值稳定性的正值。

S1022、根据所述可学习尺度变化参数构建得到一个权重矩阵，通过所述权重矩阵进行动态调整目标特征权重值以获得一个通道特征图。

其中，通道特征图的公式表示为：

其中，

表示通道特征图，

表示阈值函数，

表示平均池化操作，

表示批处理归一化操作，

表示输入特征，

表示权重矩阵，

表示输入特征

中第

行第

列位置的特征张量，

，

表示第

行的缩放因子值，

表示第

列的缩放因子值。

S1023、根据所述通道特征图与空间特征图计算得到三维注意图。

其中，空间特征图的公式表示为：

其中，

表示空间特征图，

表示可学习尺度变换参数矩阵，

表示一个1×1的卷积运算，

表示第一个3×3的卷积运算，

表示第二个3×3的卷积运算，

表示空间分支中的可学习尺度变化参数，

，

表示实数域，

表示坐标维度为

的实数域上的高维张量空间。

在此需要补充说明的是，空间特征图生成原理具体为：特征识别器模块对模板特征与搜索特征使用两个3×3大小的扩张卷积来扩大感受野，有效聚合上下文信息；经过扩张卷积处理后的特征，通过一个1×1大小的卷积将特征减少为

的空间特征图。

对三维注意图而言，三维注意图对应的公式表示为：

其中，

表示三维注意图，

表示sigmoid函数；

其中，

表示特征识别器模块的输出特征，

表示输入特征，

表示局部矩阵乘法，

，

表示坐标维度为

的实数域上的高维张量空间。

在本实施例中，为了抑制不显著的特征，突出目标特征和目标位置，在特征识别器模块中，对应的损失函数表示为：

其中，

表示损失函数值，

表示损失函数，

表示特征识别器模块的预测函数，

表示特征识别器模块的权重，

表示针对

的惩罚函数，

表示针对

的惩罚函数，

表示用于平衡

和

的罚量，

表示空间分支中的可学习尺度变化参数，

表示通道分支中的可学习尺度变化参数。

S103、将所述目标模板图像集与所述搜索区域图像输入到所述孪生神经网络框架中，通过层次化特征提取网络分别对模板分支和搜索区域的目标图像特征进行学习，以得到相应的模板特征与搜索特征。

S104、将经过层次化特征提取网络处理后得到的模板特征输入到编码器中，使得单个模板特征进行增强，以获得编码特征。

S105、通过所述多尺度特征融合网络分别将所述模板特征与所述编码特征映射在同一特征空间中，其中，编码特征作为查询，模板特征与编码特征进行信息交换以产生鲁棒的模板融合特征，用于使跟踪器更适应目标尺度变化。

具体的，多尺度特征融合网络的生成方法包括如下步骤：

S1051、通过多尺度特征融合网络分别将所述模板特征与所述编码特征映射在同一特征空间中。

其中，将所模板特征与编码特征映射在同一特征空间中，对应的计算公式表示为：

其中，

表示第一可学习参数，

表示第二可学习参数，

表示第三可学习参数，

表示维度对齐投影函数，

表示第一编码特征，

表示模板特征，

表示将多个模板特征进行拼接后所得到的模板特征集，

表示掩码集合。

通过构造模板特征的高斯掩码，以减少相似目标对跟踪的干扰，其对应的计算公式如下：

其中，

为真实目标位置，

表示预测目标位置，将重建的掩码

级联，得到一个掩码集合

，

，

。

S1052、基于第一可学习参数

与第二可学习参数

，采用交叉注意力机制计算得到交叉注意图。

交叉注意图对应的计算公式表示为：

其中，

表示交叉注意图，

表示归一化函数，

表示嵌入维度，

表示多头数，

表示转置操作。

多尺度特征融合网络中的交叉注意使用多个头部，并将其表示为多头交叉注意(MCA)，通过计算层归一化和残差结构得到多尺度特征融合网络的输出特征，如下所示：

其中，

表示多尺度特征融合网络的输出特征，

表示维度对齐的反投影函数，

表示维度对齐投影函数，

表示第二编码特征，

表示多头交叉注意函数，

表示自然对数，

表示第三可学参数，

。

S106、将经过层次化特征提取网络处理后得到的搜索特征与所述模板融合特征输入至解码器，以得到用于定位目标的得分图，进而实现鲁棒的目标跟踪。

请参阅图5，本发明还提出一种基于多尺度层次化特征表示的目标跟踪系统，其中，所述系统包括：

初始化模块，用于：

网络构建模块，用于：

特征学习模块，用于：

特征增强模块，用于：

特征映射模块，用于：

目标跟踪模块，用于：

应当理解的，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。