CN113705588B

CN113705588B - 基于卷积自注意力模块的孪生网络目标跟踪方法与系统

Info

Publication number: CN113705588B
Application number: CN202111261942.1A
Authority: CN
Inventors: 王军; 孟晨晨
Original assignee: Nanchang Institute of Technology
Current assignee: Foshan Weilin Qinli Machinery Co ltd
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2022-01-25
Anticipated expiration: 2041-10-28
Also published as: CN113705588A

Abstract

本发明提出一种基于卷积自注意力模块的孪生网络目标跟踪方法与系统，该方法包括：构建特征融合网络模型；通过卷积神经网络模型对模板分支上的目标图像特征以及搜索区域目标图像特征中的局部区域进行学习，以得到对应的局部语义信息，对局部语义信息进行聚合得到全局上下文相关信息；对特征融合网络模型进行预训练；利用预训练后的特征融合网络模型，在模板分支中提取目标图像特征以及搜索区域目标图像特征，并引入到带有锚点的区域建议网络的分类分支与回归分支中；并分别进行深度互相关卷积计算以得到相似度得分；对最大相似度得分的目标候选块进行目标跟踪。本发明可提高目标图像和搜索区域目标图像的全局匹配的准确性，实现更准确的跟踪。

Description

基于卷积自注意力模块的孪生网络目标跟踪方法与系统

技术领域

本发明涉及计算机视觉与图像处理技术领域，特别涉及一种基于卷积自注意力模块的孪生网络目标跟踪方法与系统。

背景技术

在计算机视觉与图像处理领域中，视觉跟踪在计算机视觉中有许多基础应用。例如，自动驾驶、视频监控、交通车辆监控以及人机交互等。因此，随着跟踪的实用性和实时性的提高，越来越多的跟踪相关应用在现实生活中变得越来越常见，这对于视频跟踪技术的研究也变得越来越有价值。

一般来说，由于外观变化、变形、快速运动以及遮挡等诸多原因，视觉跟踪仍然是一项具有挑战性的任务。近年来，基于卷积神经网络(CNN)的孪生网络跟踪器被广泛应用于视觉跟踪领域。具体的，将基于CNN模型的特征信息引入到模板和搜索分支中，通过互关操作得到的一个或多个响应图用于解码提取的特征信息。其中，典型的CNN模型包括AlexNet、VGG和ResNet等。目前，大多数CNN模型主要使用多个卷积算子(如3×3或5×5)，可以有效地捕捉空间局部信息，从而建模图像内容的全局关系。

然而，该方法削弱了模型在处理复杂场景时获取重要全局上下文信息的能力，如目标外观变化和出视野等，导致目标漂移或跟踪失败。基于此，有必要解决现有技术中，部分视觉跟踪算法由于忽略了在连续帧时间维度中生成的上下文相关信息，导致丢失了大量的前景信息，且产生了冗余的背景信息，进而导致很难处理复杂外观变化所带来的影响。

发明内容

鉴于上述状况，有必要解决现有技术中，部分视觉跟踪算法由于忽略了在连续帧时间维度中生成的上下文相关信息，导致丢失了大量的前景信息，且产生了冗余的背景信息，进而导致很难处理复杂外观变化所带来影响的问题。

本发明实施例提供了一种基于卷积自注意力模块的孪生网络目标跟踪方法，其中，所述方法包括如下步骤：

步骤一：在孪生网络框架下，基于卷积神经网络模型以及多头自注意力模块，构建得到特征融合网络模型；其中，所述特征融合网络模型用于分别提取模板分支上的目标图像特征以及搜索分支上的搜索区域目标图像特征，所述特征融合网络模型的第一层与第二层采用的是所述卷积神经网络模型中的深度残差网络，所述特征融合网络模型的第三层采用的是所述多头自注意力模块；

步骤二：通过所述特征融合网络模型中的所述卷积神经网络模型，对所述模板分支上的目标图像特征以及所述搜索区域目标图像特征中的局部区域进行学习，以分别得到对应的局部语义信息，然后通过所述多头自注意力模块对各所述局部语义信息进行聚合以得到全局上下文相关信息；

步骤三：利用大规模数据集，对所述特征融合网络模型进行预训练，并对所述特征融合网络模型中的参数进行调整；

步骤四：利用经预训练后的所述特征融合网络模型，在所述模板分支中提取所述目标图像特征，以及在所述搜索分支中提取所述搜索区域目标图像特征，并将提取后的所述目标图像特征以及所述搜索区域目标图像特征引入到带有锚点的区域建议网络的分类分支与回归分支中；

步骤五：利用区域建议网络分别对提取后的所述目标图像特征以及所述搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算，以得到对应的相似度得分，其中所述深度互相关卷积计算表示在分类分支与回归分支上分别进行卷积；

步骤六：利用在分类分支和回归分支上获取到的最大相似度得分的目标候选块进行目标跟踪。

本发明提出的基于卷积自注意力模块的孪生网络目标跟踪方法，首先在孪生网络框架下，基于卷积神经网络模型以及多头自注意力模块，构建得到特征融合网络模型，其中特征融合网络模型的第一层与第二层采用的是所述卷积神经网络模型中的深度残差网络，所述特征融合网络模型的第三层采用的是所述多头自注意力模块；然后，通过该多头自注意力模块通过全局自注意力的方式，对模板分支上的目标图像特征以及搜索区域目标图像特征中的特征图中的信息进行聚合，最后进行深度互相关卷积计算并实现目标跟踪。在本发明中，通过重构所得到的卷积自注意力模块，可增强给定的目标图像和搜索区域目标图像的全局上下文相关信息，从而提高给定的目标图像和搜索区域目标图像的全局匹配的准确性，最终实现更为准确地跟踪。

所述基于卷积自注意力模块的孪生网络目标跟踪方法，其中，在所述步骤五中，对提取后的所述目标图像特征以及所述搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算，以得到对应的相似度得分的步骤中，相似度得分的公式表述为：

其中，

表示提取后的所述目标图像特征与所述搜索区域目标图像特征在分类分支上进行深度互相关卷积计算的相似度得分值；

表示提取后的所述目标图像特征与所述搜索区域目标图像特征在回归分支上进行深度互相关卷积计算的相似度得分值，k表示锚点数，2k与4k分别表示对应k个锚点的输出特征图的通道数，

表示值

的偏差，

表示实数集，

、

、

以及

表示特征融合网络模型提取模板分支上的目标图像特征与搜索分支上的搜索区域目标图像特征后的输出特性，

分别表示模板分支以及搜索分支上输入的目标图像以及搜索区域目标图像。

所述基于卷积自注意力模块的孪生网络目标跟踪方法，其中，

为一个2k通道向量，在分类分支中，输出特征图有2k个通道，2k通道包括pos与neg，pos与neg分别表示提取后的所述目标图像特征与所述搜索区域目标图像特征上相应位置的每个锚点的正候选块以及负候选块；

为一个4k通道向量，在回归分支中，输出特征图有 4k 个通道，4k通道包括dx、dy、dw以及dh，dx、dy、dw以及dh分别表示提取后的所述目标图像特征与所述搜索区域目标图像特征上相应位置的每个锚点的中心点的横坐标、纵坐标、锚点的宽以及锚点的高分别与与地面之间的距离。

所述基于卷积自注意力模块的孪生网络目标跟踪方法，其中，模板分支上的所述目标图像特征以及搜索分支上的搜索区域目标图像特征输入的2D特征映射为

，

分别表示通道数、高度和宽度，

表示实数；

在所述步骤一中，所述多头自注意力模块的生成方法包括如下步骤：

在所述模板分支与所述搜索分支上分别应用卷积层的嵌入矩阵进行变换，以分别生成查询、键以及值；

通过所述查询以及所述键构建得到局部关系矩阵；

根据引入的相对位置编码对所述局部关系矩阵进行增强以得到增强的局部关系矩阵；

根据所述增强的局部关系矩阵，通过softmax运算以得到相似局部相对矩阵，并将所述相似局部相对矩阵以及多个值聚合起来，通过局部矩阵乘法计算得到聚合后的特征图；

根据所述聚合后的特征图计算得到所述多头注意力模块。

所述基于卷积自注意力模块的孪生网络目标跟踪方法，其中，所述多头自注意力模块的运算方法具体包括如下步骤：

在所述模板分支与所述搜索分支上分别应用具有1×1核卷积层的嵌入矩阵

进行变换，以分别生成查询

，键

和值

；其中，

的尺寸大小为

，

表示减少的信道数，

分别为所输入的三个不同的嵌入矩阵；

通过查询

与键

构建得到局部关系矩阵

，局部关系矩阵

的计算公式为：

其中，

，

表示多头自注意力模块的头数，

表示目标图像特征和搜索区域目标图像特征输入的2D特征图上相对位置区域的高度和宽度的大小，

为局部矩阵乘法；

根据引入的相对位置编码对所述局部关系矩阵

进行增强以得到增强的局部关系矩阵

，所述增强的局部关系矩阵

的计算公式为：

其中，

为所述相对位置编码，相对位置编码

的大小为

，

表示逐元素求和；

根据所述增强的局部关系矩阵

，通过softmax运算以得到相似局部相对矩阵

，并将所述相似局部相对矩阵

以及多个值

聚合起来，通过局部矩阵乘法计算得到聚合后的特征图

，对应的计算公式为；

根据所述聚合后的特征图

计算得到所述多头注意力模块，其中所述多头注意力模块的运算方法表示为：

其中，

，

，

，

均为参数矩阵，

的默认参数为32，

表示头数与通道数，

表示所述多头注意力模块的输出结果，

表示聚合

个头所输出的特征图Y的结果，

表示所有头串联聚合后的特征图，

表示最终输出的所有头串联聚合后的特征图的结果。

本发明提出一种基于卷积自注意力模块的孪生网络目标跟踪系统，其中，所述系统包括：

构建模块，所述构建模块用于在孪生网络框架下，基于卷积神经网络模型以及多头自注意力模块，构建得到特征融合网络模型；其中，所述特征融合网络模型用于分别提取模板分支上的目标图像特征以及搜索分支上的搜索区域目标图像特征，所述特征融合网络模型的第一层与第二层采用的是所述卷积神经网络模型中的深度残差网络，所述特征融合网络模型的第三层采用的是所述多头自注意力模块；

学习模块，用于通过所述特征融合网络模型中的所述卷积神经网络模型，对所述模板分支上的目标图像特征以及所述搜索区域目标图像特征中的局部区域进行学习，以分别得到对应的局部语义信息，然后通过所述多头自注意力模块对各所述局部语义信息进行聚合以得到全局上下文相关信息；

预训练模块，用于利用大规模数据集，对所述特征融合网络模型进行预训练，并对所述特征融合网络模型中的参数进行调整；

提取模块，用于利用经预训练后的所述特征融合网络模型，在所述模板分支中提取所述目标图像特征，以及在所述搜索分支中提取所述搜索区域目标图像特征，并将提取后的所述目标图像特征以及所述搜索区域目标图像特征引入到带有锚点的区域建议网络的分类分支与回归分支中；

计算模块，用于利用区域建议网络分别对提取后的所述目标图像特征以及所述搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算，以得到对应的相似度得分，其中所述深度互相关卷积计算表示在分类分支与回归分支上分别进行卷积；

跟踪模块，用于利用在分类分支和回归分支上获取到的最大相似度得分的目标候选块进行目标跟踪。

所述基于卷积自注意力模块的孪生网络目标跟踪系统，其中，所述计算模块用于：

对提取后的所述目标图像特征以及所述搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算以得到对应的相似度得分；

其中，所述相似度得分的公式表述为：

其中，

表示值

的偏差，

表示实数集，

、

、

以及

所述基于卷积自注意力模块的孪生网络目标跟踪系统，其中，

为一个4k通道向量，4k通道包括dx、dy、dw以及dh，在回归分支中，输出特征图有 4k 个通道，dx、dy、dw以及dh分别表示提取后的所述目标图像特征与所述搜索区域目标图像特征上相应位置的每个锚点的横坐标、纵坐标、锚点的宽以及锚点的高分别与与地面之间的距离。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实施例了解到。

附图说明

图1为本发明第一实施例提出的基于卷积自注意力模块的孪生网络目标跟踪方法的流程图；

图2为本发明第一实施例提出的基于卷积自注意力模块的孪生网络目标跟踪框架的结构图；

图3为本发明第一实施例中多头自注意力模块的原理图；

图4为本发明第二实施例提出的基于卷积自注意力模块的孪生网络目标跟踪系统的结构图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

请参阅图1至图3，本发明第一实施例提出一种基于卷积自注意力模块的孪生网络目标跟踪方法，其中，所述方法包括如下步骤：

S101，在孪生网络框架下，基于卷积神经网络模型以及多头自注意力模块，构建得到特征融合网络模型。

在本步骤中，重新构建所得到的特征融合网络模型用于分别提取模板分支上的目标图像特征以及搜索分支上的搜索区域目标图像特征。在此需要说明的是，如图2所示，特征融合网络模型（在图2中对应为卷积自注意力模块）的第一层（卷积层1，CONV1）与第二层（卷积层2，CONV2）采用的是卷积神经网络模型中的深度残差网络ResNet-22，特征融合网络模型的第三层（包括卷积层3_1、卷积层3_2以及卷积层3_3）采用的是多头自注意力模块。在此还需要指出的是，特征融合网络模型由带有多头自注意力模块的残差网络（ResNet）瓶颈块组成。在残差网络的最后一阶段瓶颈块中，通过利用多头自注意力模块的全局自注意力方式，以消除堆叠多层空间(3×3)卷积算子的局限性。作为补充的，重新构建之后所得到的特征融合网络模型，所包含的卷积神经网络模型以及多头自注意力模块，可统称为卷积自注意力模块。

S102，通过所述特征融合网络模型中的所述卷积神经网络模型，对所述模板分支上的目标图像特征以及所述搜索区域目标图像特征中的局部区域进行学习，以分别得到对应的局部语义信息，然后通过所述多头自注意力模块对各所述局部语义信息进行聚合以得到全局上下文相关信息。

在本步骤中，上述被重新构建得到的特征融合网络模型，利用多头自注意力模块的全局自注意力方式可处理并聚合卷积特征图（包括目标图像特征以及搜索区域目标图像特征）中所包含的信息。其中，特征融合网络模型先利用卷积神经网络模型，从给定的目标图像以及搜索区域目标图像中有效学习局部区域中对应的局部语义信息。然后，通过多头自注意力模块的全局自注意力方式对所捕获的特征图中包含的信息进行处理和聚合。

也即，特征融合网络模型直接在二维特征图上使用卷积神经网络模型以及多头自注意力模块，基于孤立的查询(queries)和每个空间位置上的键对(keys)得到注意矩阵。其中，该特征融合网络模型可增强给定的目标图像与搜索区域目标图像之间的全局上下文相关信息，从而提高给定的目标图像与搜索区域目标图像之间的全局匹配的准确性。

其中，模板分支上的所述目标图像特征以及搜索分支上的搜索区域目标图像特征输入的2D特征映射为

，

分别表示通道数、高度和宽度，

表示实数。

具体而言，如图3所示，从图3中可以看出本发明中多头自注意力模块的生成原理。在本实施例中，该多头自注意力模块的生成方法包括如下步骤：

S1021，在所述模板分支与所述搜索分支上分别应用卷积层的嵌入矩阵进行变换，以分别生成查询、键以及值。

在模板分支与搜索分支上分别应用具有1×1核卷积层的嵌入矩阵

进行变换，以分别生成查询

，键

和值

。

其中，

的尺寸大小为

，

表示减少的信道数，

分别为所输入的三个不同的嵌入矩阵。

S1022，通过所述查询以及所述键构建得到局部关系矩阵。

在本步骤中，通过查询

与键

构建得到局部关系矩阵

，局部关系矩阵

的计算公式为：

其中，

，

表示多头自注意力模块的头数，

为局部矩阵乘法。

S1023，根据引入的相对位置编码对所述局部关系矩阵进行增强以得到增强的局部关系矩阵。

具体的，根据引入的相对位置编码对所述局部关系矩阵

进行增强以得到增强的局部关系矩阵

，所述增强的局部关系矩阵

的计算公式为：

其中，

为所述相对位置编码，相对位置编码

的大小为

，

表示逐元素求和，

和

分别表示特征图上相对位置编码的宽和高。

S1024，根据所述增强的局部关系矩阵，通过softmax运算以得到相似局部相对矩阵，并将所述相似局部相对矩阵以及多个值聚合起来，通过局部矩阵乘法计算得到聚合后的特征图。

具体的，根据增强的局部关系矩阵

，通过softmax运算以得到相似局部相对矩阵

，并将所述相似局部相对矩阵

以及多个值

聚合起来，通过局部矩阵乘法计算得到聚合后的特征图

。

在本步骤中，对应的计算公式为；

。

S1025，根据所述聚合后的特征图计算得到所述多头注意力模块。

在本实施例中，根据聚合后的特征图

计算得到多头注意力模块。其中，所述多头注意力模块的运算方法表示为：

其中，

，

，

，

均为参数矩阵，

的默认参数为32，

表示头数与通道数，

表示所述多头注意力模块的输出结果，

表示聚合

个头所输出的特征图Y的结果，

表示所有头串联聚合后的特征图，

表示最终输出的所有头串联聚合后的特征图的结果。

在此需要补充说明的是，在本实施例中，

，

。

S103，利用大规模数据集，对所述特征融合网络模型进行预训练，并对所述特征融合网络模型中的参数进行调整。

S104，利用经预训练后的所述特征融合网络模型，在所述模板分支中提取所述目标图像特征，以及在所述搜索分支中提取所述搜索区域目标图像特征，并将提取后的所述目标图像特征以及所述搜索区域目标图像特征引入到带有锚点的区域建议网络的分类分支与回归分支中。

S105，利用区域建议网络分别对提取后的所述目标图像特征以及所述搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算，以得到对应的相似度得分，其中所述深度互相关卷积计算表示在分类分支与回归分支上分别进行卷积。

在本步骤中，对提取后的目标图像特征以及搜索区域目标图像特征在分类分支和回归分支上分别进行深度互相关卷积计算，以得到对应的相似度得分。其中，相似度得分的公式表述为：

其中，

表示值

的偏差，

表示实数集，

、

、

以及

需要补充说明的是，在本实施例中，

为一个2k通道向量，在分类分支中，输出特征图有2k个通道，也即2k通道包括pos与neg。其中，pos与neg分别表示提取后的目标图像特征与搜索区域目标图像特征上相应位置的每个锚点的正候选块以及负候选块。

与此同时，

为一个4k通道向量，在回归分支中，输出特征图有 4k 个通道，4k通道包括dx、dy、dw以及dh。也即dx、dy、dw以及dh分别表示提取后的目标图像特征与搜索区域目标图像特征上相应位置的每个锚点的中心点的横坐标、纵坐标、锚点的宽以及锚点的高分别与地面之间的距离。

S106，利用在分类分支和回归分支上获取到的最大相似度得分的目标候选块进行目标跟踪。

本发明提出的基于卷积自注意力模块的孪生网络目标跟踪方法，首先在孪生网络框架下，基于卷积神经网络模型以及多头自注意力模块，构建得到特征融合网络模型；然后，通过该多头自注意力模块通过全局自注意力的方式，对模板分支上的目标图像特征以及搜索区域目标图像特征中的特征图中的信息进行聚合，最后进行深度互相关卷积计算并实现目标跟踪。在本发明中，通过重构所得到的卷积自注意力模块，可增强给定的目标图像和搜索区域目标图像的全局上下文相关信息，从而提高给定的目标图像和搜索区域目标图像的全局匹配的准确性，最终实现更为准确地跟踪。

请参阅图4，本发明第二实施例提出一种基于卷积自注意力模块的孪生网络目标跟踪系统，其中，所述系统包括：

应当理解的，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。