CN114821390B

CN114821390B - 基于注意力和关系检测的孪生网络目标跟踪方法及系统

Info

Publication number: CN114821390B
Application number: CN202210263162.9A
Authority: CN
Inventors: 李爱民; 刘笑含; 刘腾; 李稼川; 刘德琦
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2022-03-17
Filing date: 2022-03-17
Publication date: 2024-02-23
Anticipated expiration: 2042-03-17
Also published as: CN114821390A

Abstract

本发明公开了基于注意力和关系检测的孪生网络目标跟踪方法及系统，获取视频序列，将第一帧作为模板图像，当前帧作为搜索图像；在模板分支和搜索分支中，将模板图像和搜索图像输入到网络中，进行特征提取；采用注意力模块对最后三层提取的特征分别进行特征增强处理，将增强处理得到的模板和搜索注意力特征，对应输入到目标跟踪模块中得到分类和回归结果；将分类和回归结果分别进行加权融合，得到融合后的分类和回归结果；基于融合后的回归结果，输入到关系检测器中以度量回归结果中目标和预测图像的关系，得到回归分支的分数图；将回归分支的分数图与分类分支的分数图进行点乘，将点乘结果经过卷积操作，得到最后的分类得分，并获取的预测框。

Description

基于注意力和关系检测的孪生网络目标跟踪方法及系统

技术领域

本发明涉及计算机视觉技术领域，特别是涉及基于注意力和关系检测的孪生网络目标跟踪方法及系统。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

随着孪生网络引入到目标跟踪领域，基于孪生网络的跟踪器在单目标跟踪方面不断地取得了优异的成绩。由于兼顾了准确率和速度成为主流的方法之一，但依旧存在着很多问题。

首先，目标跟踪结果受多种因素的影响，如光照变化、视频模糊、遮挡、目标快速移动、尺度变化、出视野等等。这些都让目标跟踪变得非常困难，容易导致目标不能被准确的识别，造成跟踪失败，并对后续任务会造成极大的困难。然而注意力机制可以在某种程度上应对这些挑战。最常用的注意力机制主要分为两种：通道注意力和空间注意力，这两种机制都通过用不同的聚集策略、转换和增强功能聚集来自所有位置的相同特征来增强原始特征。但大多数基于注意力机制的目标跟踪算法依赖于单一注意力机制，没有很好的将通道注意力和空间注意力完美的结合起来。

其次，基于孪生网络的目标跟踪器的分类和回归通常是独立优化的，会导致他们之间会存在不匹配的问题。具体来说，分类置信度最高的位置对应的框并不一定是最准确的，甚至可能是错误。

发明内容

为了解决现有技术的不足，本发明提供了基于注意力和关系检测的孪生网络目标跟踪方法及系统；

第一方面，本发明提供了基于注意力和关系检测的孪生网络目标跟踪方法；

基于注意力和关系检测的孪生网络目标跟踪方法，包括：

获取视频序列，将第一帧作为模板图像，当前帧作为搜索图像；

在模板分支中，将模板图像输入到ResNet-50骨干网络中，进行特征提取；采用注意力模块对最后三层提取的特征分别进行特征增强处理，得到三个模板注意力特征；

在搜索分支中，根据前一帧的跟踪结果裁剪出搜索图像，将搜索图像输入到ResNet-50骨干网络中，进行特征提取；采用注意力模块对最后三层提取的特征分别进行特征增强处理，得到三个搜索注意力特征；

将三个模板注意力特征和三个搜索注意力特征，分别对应输入到目标跟踪模块Siamese RPN中得到三个分类结果和三个回归结果；将三个分类结果和三个回归结果分别进行加权融合，得到融合后的分类结果和融合后的回归结果；

基于融合后的回归结果，输入到关系检测器中以度量回归结果中目标和预测图像的关系，得到回归分支的分数图；将回归分支的分数图与分类分支的分数图进行点乘，以过滤掉背景中的干扰；将过滤掉干扰的分数图经过卷积操作，得到最后的分类得分，并获取最大响应位置对应的预测框。

第二方面，本发明提供了基于注意力和关系检测的孪生网络目标跟踪系统；

基于注意力和关系检测的孪生网络目标跟踪系统，包括：

获取模块，其被配置为：获取视频序列，将第一帧作为模板图像，当前帧作为搜索图像；

模板特征提取增强模块，其被配置为：在模板分支中，将模板图像输入到ResNet-50骨干网络中，进行特征提取；采用注意力模块对最后三层提取的特征分别进行特征增强处理，得到三个模板注意力特征；

搜索特征提取增强模块，其被配置为：在搜索分支中，根据前一帧的跟踪结果裁剪出搜索图像，将搜索图像输入到ResNet-50骨干网络中，进行特征提取；采用注意力模块对最后三层提取的特征分别进行特征增强处理，得到三个搜索注意力特征；

分类回归模块，其被配置为：将三个模板注意力特征和三个搜索注意力特征，分别对应输入到目标跟踪模块Siamese RPN中得到三个分类结果和三个回归结果；将三个分类结果和三个回归结果分别进行加权融合，得到融合后的分类结果和融合后的回归结果；

预测跟踪模块，其被配置为：基于融合后的回归结果，输入到关系检测器中以度量回归结果中目标和预测图像的关系，得到回归分支的分数图；将回归分支的分数图与分类分支的分数图进行点乘，以过滤掉背景中的干扰；将过滤掉干扰的分数图经过卷积操作，得到最后的分类得分，并获取最大响应位置对应的预测框。

与现有技术相比，本发明的有益效果是：

本发明加入的注意力模块，将空间注意力和通道注意力融合在一起，空间注意力捕捉丰富的语义信息，通道注意力选择性的增强相关依赖的通道特征，在不影响算法效率的基础上，提高了鲁棒性。

本发明加入的关系检测模块，增强了目标对于干扰和复杂背景的辨别能力，同时解决了分类和回归之间不匹配的问题，从而实现更准确和稳定的跟踪目标。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为实施例一的SiamAR的跟踪模型图；

图2为实施例一的注意力模块；

图3(a)～图3(c)为实施例一的关系检测模型；

图4(a)～图4(i)为实施例一的实验结果；

图5(a)～图5(l)为实施例一的消融实验对比图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本实施例所有数据的获取都在符合法律法规和用户同意的基础上，对数据的合法应用。

实施例一

本实施例提供了基于注意力和关系检测的孪生网络目标跟踪方法；

如图1所示，基于注意力和关系检测的孪生网络目标跟踪方法，包括：

S101：获取视频序列，将第一帧作为模板图像，当前帧作为搜索图像；

S102：在模板分支中，将模板图像输入到ResNet-50骨干网络中，进行特征提取；采用注意力模块对最后三层提取的特征分别进行特征增强处理，得到三个模板注意力特征；

S103：在搜索分支中，根据前一帧的跟踪结果裁剪出搜索图像，将搜索图像输入到ResNet-50骨干网络中，进行特征提取；采用注意力模块对最后三层提取的特征分别进行特征增强处理，得到三个搜索注意力特征；

S104：将三个模板注意力特征和三个搜索注意力特征，分别对应输入到目标跟踪模块Siamese RPN中得到三个分类结果和三个回归结果；将三个分类结果和三个回归结果分别进行加权融合，得到融合后的分类结果和融合后的回归结果；

S105：基于融合后的回归结果，输入到关系检测器中以度量回归结果中目标和预测图像的关系，得到回归分支的分数图；将回归分支的分数图与分类分支的分数图进行点乘，以过滤掉背景中的干扰；将过滤掉干扰的分数图经过卷积操作，得到最后的分类得分，并获取最大响应位置对应的预测框。

示例性地，模板图像为127×127，搜索图像为255×255。

进一步地，所述采用注意力模块对最后三层提取的特征分别进行特征增强处理，得到三个模板注意力特征；具体是指：

对ResNet-50网络中的covn3_x层、covn4_x层、covn5_x层提取的特征f₃(z)、f₄(z)、f₅(z)用注意力模块进行特征增强，生成模板注意力特征f₃(z’)、f₄(z’)、f₅(z’)。

进一步地，所述采用注意力模块对最后三层提取的特征分别进行特征增强处理，得到三个搜索注意力特征；具体包括：

对ResNet-50网络中的covn3_x层、covn4_x层、covn5_x层提取的特征f₃(x)、f₄(x)、f₅(x)用注意力模块进行特征增强，生成搜索注意力特征f₃(x‘)、f₄(x‘)、f₅(x‘)。

进一步地，如图2所示，所述注意力模块，工作原理：

将从ResNet-50骨干网络中提取的的特征图分成多个组，采用通道分离，分成两个分支并行处理各组的子特征；

对于通道注意力分支，使用全局平局池化生成通道统计量，用一对参数来缩放和移动通道向量；

对于空间注意力分支，使用group norm生成空间统计量，用类似于通道注意力分支生成相关特征。然后将两个分支结合起来。随后将所有子特征聚集。使用通道混合实现不同子特征之间的通信；最后输出注意力特征。

示例性地，对于给定的特征映射X∈R^C×H×W,其中C、H、W分别表示通道数、空间高度和宽度。首先将X沿着通道维度划分为G组，即

X＝[X₁,…,X_G],X_k∈R^C/G×H×W

其中,每个子特征X_k在训练过程中逐渐捕获一个语义特征响应。

然后，利用注意力模块为每一个子特征生成对应的系数。具体来说，在每一个注意力模块的开始，沿着通道维度将X_k分成两个分支，即X_k1，X_k2∈R^C/2G×H×W。一个分支利用通道间的相互关系生成通道注意力图，另一个分支利用特征图的空间关系生成空间注意力图。

对于通道注意力分支，首先，利用全局平局池化来嵌入全局信息，从而生成通道统计量s∈R^C/2G×1×1，其中统计量可以通过通道维度H×W来收缩X_k1计算:

此外，还得到了一个特征，通过一个简单门控机制sigmoid函数来实现精确的选择。

然后，获得通道注意力的最终输出：

X′_k1＝σ(F_c(s))·X_k1＝σ(W₁s+b₁)·X_k1 (3)

其中，σ(·)＝sigmoid(·)，F_c(x)＝W_x+b，X_k∈R^C/2G×1×1，b₁∈R^C/2G×1×1是用来缩放和位移s的参数。

对于空间注意力分支，首先，使用Group Norm(GN)来获取空间统计信息X_k2，然后采用F_c(·)来增强的表示，最终空间注意力的输出通过以下方式:

X′_k2＝σ(W₂·GN+b₂)·X_k2 (4)

其中，W₂,b₂∈R^C/2G×1×1

最后，将两个分支链接起来，使通道数和输入数相同，即

X′_k1＝[X′_k1,X′_k2]∈R^C/G×H×W (5)

在此之后，将所有子特征聚集；

最后，采用一个类似于ShuffleNet V2的通道混合实现跨组信息交流。

在单个注意力单元中，每个分支的通道为C/2G，因此总参数为3C/G，其中G通常为32或64，所以更方便计算，获得更高的效率。

进一步地，所述S104：将三个模板注意力特征和三个搜索注意力特征，分别对应输入到目标跟踪模块Siamese RPN中得到三个分类结果和三个回归结果；将三个分类结果和三个回归结果分别进行加权融合，得到融合后的分类结果和融合后的回归结果；是指：

将第i个模板注意力特征和第i搜索注意力特征输入到SiamRPN++中的第i目标跟踪模块Siamese RPN中，得到第i分类结果和第i回归结果；其中，i的取值为1到3；

将三个分类结果和三个回归结果分别进行加权融合，得到融合后的分类结果和融合后的回归结果。

应理解地，将模板注意力特征和搜索注意力特征输入到SiamRPN++中的SiameseRPN模块中，由于三个Siamese RPN模块的输出大小相同，因此直接进行加权融合。组合权重被分开分别用于分类和归回。

进一步地，所述S105：基于融合后的回归结果，输入到关系检测器中以度量回归结果中目标和预测图像的关系，得到回归分支的分数图；具体包括：

先提取模板特征并通过ROI pooling(Region of interest pooling,感兴趣区域池化)提取ROI特征；

后续帧对回归分支响应图的每个位置都预测一个框，提取其ROI特征，与目标模板的ROI特征共同送入到关系检测模块中；

关系检测器是由三个检测器组成，每一个检测器最终生成一个匹配分数来度量回归结果中目标和预测图像的关系分数；

将三个分数进行加权平均得到回归分支的分数图。

进一步地，如图3(a)～图3(c)所示，所述关系检测器，包括：用于学习全局信息的全局检测器，用于捕捉像素级和深度级的局部检测器，以及用来学习深度非线性度量且建立一对多的块检测器；其中，

全局检测器，将目标和预测图像的ROI特征拼接后做全局池化，经过若干层全连接层得到全局分数；

局部检测器，将两个ROI特征做Depth-wise cross correlation(深度互相关)得到局部分数；

块检测器，将两个ROI特征拼接后经过若干卷积得到块分数。

将三个分数进行加权平均得到一个25×25×1的分数图，反映的是每个位置预测框内的物体与目标之间的相似性与目标的相似度，该分数图能够同时考虑全局、局部以及块之间的关系。

进一步地，ResNet-50骨干网络、注意力模块、Siamese RPN模块和关系检测模块共同组成了目标跟踪模型；所提出的目标跟踪模型是以端到端的方式进行训练，训练总损失是分类损失、回归损失、分数匹配回归损失多个函数的加权组合，总的损失函数的数学表示公式为：

L＝λ₁L_cls+λ₂L_reg+λ₃L_matching

其中，λ₁、λ₂、λ₃分别为分类、回归、匹配损失函数的权重。L_cls为分类损失函数，采用交叉熵损失函数。L_reg为回归损失函数，采用了L1损失函数。L_matching为分数匹配回归损失函数，即

L_matching＝(r_i.j-y_i,j)²

其中，r_i.j为该点回归关系得分，y_i,j代表该点的分类结果(目标还是背景)。

实验结果及实验对比如图4(a)～图4(i)、图5(a)～图5(l)所示。

实施例二

本实施例提供了基于注意力和关系检测的孪生网络目标跟踪系统；

基于注意力和关系检测的孪生网络目标跟踪系统，包括：

此处需要说明的是，上述获取模块、模板特征提取增强模块、搜索特征提取增强模块、分类回归模块和预测跟踪模块对应于实施例一中的步骤S101至S105，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于注意力和关系检测的孪生网络目标跟踪方法，其特征是，包括：

在模板分支中，将模板图像输入到ResNet-50骨干网络中，进行特征提取；采用注意力模块对最后三层提取的特征分别进行特征增强处理，得到三个模板注意力特征；所述注意力模块，工作原理：将从ResNet-50骨干网络中提取的的特征图分成多个组，采用通道分离，分成两个分支并行处理各组的子特征；对于通道注意力分支，使用全局平局池化生成通道统计量，用一对参数来缩放和移动通道向量；对于空间注意力分支，使用group norm生成空间统计量，用类似于通道注意力分支生成相关特征；然后将两个分支结合起来；随后将所有子特征聚集；使用通道混合实现不同子特征之间的通信；最后输出注意力特征；

基于融合后的回归结果，输入到关系检测器中以度量回归结果中目标和预测图像的关系，得到回归分支的分数图；将回归分支的分数图与分类分支的分数图进行点乘，以过滤掉背景中的干扰；将过滤掉干扰的分数图经过卷积操作，得到最后的分类得分，并获取最大响应位置对应的预测框；

其中，基于融合后的回归结果，输入到关系检测器中以度量回归结果中目标和预测图像的关系，得到回归分支的分数图；具体包括：

先提取模板特征并通过感兴趣区域池化ROI pooling操作，提取ROI特征；

将三个分数进行加权平均得到回归分支的分数图；

所述关系检测器，包括：用于学习全局信息的全局检测器，用于捕捉像素级和深度级的局部检测器，以及用来学习深度非线性度量且建立一对多的块检测器；其中，

局部检测器，将两个ROI特征做深度互相关Depth-wise cross correlation得到局部分数；

块检测器，将两个ROI特征拼接后经过若干卷积得到块分数。

2.如权利要求1所述的基于注意力和关系检测的孪生网络目标跟踪方法，其特征是，所述采用注意力模块对最后三层提取的特征分别进行特征增强处理，得到三个模板注意力特征；具体是指：

对ResNet-50网络中的covn3_x层、covn4_x层、covn5_x层提取的特征f₃(z)、f₄(z)、f₅(z)用注意力模块进行特征增强，生成模板注意力特征f₃(z^’)、f₄(z^’)、f₅(z^’)。

3.如权利要求1所述的基于注意力和关系检测的孪生网络目标跟踪方法，其特征是，所述采用注意力模块对最后三层提取的特征分别进行特征增强处理，得到三个搜索注意力特征；具体包括：

对ResNet-50网络中的covn3_x层、covn4_x层、covn5_x层提取的特征f₃(x)、f₄(x)、f₅(x)用注意力模块进行特征增强，生成搜索注意力特征f₃(x^‘)、f₄(x^‘)、f₅(x^‘)。

4.如权利要求1所述的基于注意力和关系检测的孪生网络目标跟踪方法，其特征是，对于通道注意力分支，首先，利用全局平局池化来嵌入全局信息，从而生成通道统计量s∈R^C ^/2G×1×1，其中统计量可以通过通道维度H×W来收缩X_k1计算:

然后，获得通道注意力的最终输出：

X_k ^′ ₁＝σ(F_c(s))·X_k1＝σ(W₁s+b₁)·X_k1

其中，σ(·)＝sigmoid(·)，F_c(x)＝W_x+b，X_k∈R^C/2G×1×1，b₁∈R^C/2G×1×1是用来缩放和位移s的参数；

对于空间注意力分支，首先，使用Group Norm来获取空间统计信息X_k2，然后采用F_c(·)来增强的表示，最终空间注意力的输出通过以下方式:

X_k ^′ ₂＝σ(W₂·GN+b₂)·X_k2；

其中，W₂,b₂∈R^C/2G×1×1；

最后，将两个分支链接起来，使通道数和输入数相同：

X_k ^′ ₁＝[X_k ^′ ₁,X_k ^′ ₂]∈R^C/G×H×W；

在此之后，将所有子特征聚集；

5.如权利要求1所述的基于注意力和关系检测的孪生网络目标跟踪方法，其特征是，将三个模板注意力特征和三个搜索注意力特征，分别对应输入到目标跟踪模块Siamese RPN中得到三个分类结果和三个回归结果；将三个分类结果和三个回归结果分别进行加权融合，得到融合后的分类结果和融合后的回归结果；是指：

6.如权利要求1所述的基于注意力和关系检测的孪生网络目标跟踪方法，其特征是，ResNet-50骨干网络、注意力模块、Siamese RPN模块和关系检测模块共同组成了目标跟踪模型；所提出的目标跟踪模型是以端到端的方式进行训练，训练总损失是分类损失、回归损失、分数匹配回归损失多个函数的加权组合，总的损失函数的数学表示公式为：

L＝λ₁L_cls+λ₂L_reg+λ₃L_matching

其中，λ₁、λ₂、λ₃分别为分类、回归、匹配损失函数的权重；

L_cls为分类损失函数，采用交叉熵损失函数；L_reg为回归损失函数，采用了L1损失函数；L_matching为分数匹配回归损失函数：

L_matching＝(r_i.j-y_i,j)²

其中，r_i.j为该点回归关系得分，y_i,j代表该点的分类结果。

7.基于注意力和关系检测的孪生网络目标跟踪系统，其特征是，包括：

搜索特征提取增强模块，其被配置为：在搜索分支中，根据前一帧的跟踪结果裁剪出搜索图像，将搜索图像输入到ResNet-50骨干网络中，进行特征提取；采用注意力模块对最后三层提取的特征分别进行特征增强处理，得到三个搜索注意力特征；所述注意力模块，工作原理：将从ResNet-50骨干网络中提取的的特征图分成多个组，采用通道分离，分成两个分支并行处理各组的子特征；对于通道注意力分支，使用全局平局池化生成通道统计量，用一对参数来缩放和移动通道向量；对于空间注意力分支，使用group norm生成空间统计量，用类似于通道注意力分支生成相关特征；然后将两个分支结合起来；随后将所有子特征聚集；使用通道混合实现不同子特征之间的通信；最后输出注意力特征；

预测跟踪模块，其被配置为：基于融合后的回归结果，输入到关系检测器中以度量回归结果中目标和预测图像的关系，得到回归分支的分数图；将回归分支的分数图与分类分支的分数图进行点乘，以过滤掉背景中的干扰；将过滤掉干扰的分数图经过卷积操作，得到最后的分类得分，并获取最大响应位置对应的预测框；

先提取模板特征并通过感兴趣区域池化ROIpooling操作，提取ROI特征；

将三个分数进行加权平均得到回归分支的分数图；

块检测器，将两个ROI特征拼接后经过若干卷积得到块分数。