CN116091979A

CN116091979A - 一种基于特征融合和通道注意力的目标跟踪方法

Info

Publication number: CN116091979A
Application number: CN202310185680.8A
Authority: CN
Inventors: 黄海涛; 张建明; 谢贤定
Original assignee: Changsha University of Science and Technology
Current assignee: Changsha University of Science and Technology
Priority date: 2023-03-01
Filing date: 2023-03-01
Publication date: 2023-05-09

Abstract

本发明提供了一种基于特征融合和通道注意力的目标跟踪方法，通过给定目标的初始帧，能够在后续的视频中确定该目标在当前帧的位置与尺寸大小。应用基于修改后的残差网络，提取后三层的特征信息；基于高效通道注意力模块增强目标的特征信息，抑制背景和干扰物的影响；通过将增强后的特征图送入自适应特征融合网络，获取到神经网络调优的参数后加权到三层特征图上，再逐点相加得到一层最利于跟踪的特征图；最后将模板分支和搜索分支的特征图进行互相关操作，得到分类和回归的结果；根据结果得出目标在当前帧的准确位置与尺寸大小。本发明通过结合高效通道注意力模块和自适应特征融合网络，有效应对不同场景，提升了跟踪器的性能。

Description

一种基于特征融合和通道注意力的目标跟踪方法

技术领域

本发明涉及计算机视觉中目标跟踪领域，尤其是一种基于特征融合和通道注意力的目标跟踪方法。

背景技术

视觉目标跟踪被定义为在给定视频序列初始帧中的目标的大小和位置的情况下，预测后续帧中目标的尺寸和位置。计算机技术发展日新月异，计算机视觉方向衍生出众多分支，而目标跟踪作为其重要研究领域，在近几年展现出强劲的发展势头。目标跟踪技术应用在我们身边的各种场景，包括交通监控、人机交互、医学诊断和现代军事等许多实际领域。众多研究者投身到了目标跟踪领域并做出诸多贡献和实践，然而面对实际场景中的困难挑战，如光照变化、运动模糊、背景杂波和遮挡等，各式各样的目标跟踪算法仍无法完全精确的实现实时跟踪。因此，研究出更高精度和更加鲁棒的跟踪算法成为这一领域的迫切需求，也是目标跟踪需要达到的最终目的。本学位论文主要以在保证跟踪算法的精度要求下，同时让跟踪算法具备一定的鲁棒性为目标展开研究，对跟踪模型的网络结构进行改进，使得训练出来的跟踪器能够实时并精确跟踪到目标。

发明内容

针对上述现有技术的不足，本发明提供一种基于特征融合和通道注意力的目标跟踪方法。其目的在于解决跟踪过程中出现的背景干扰，以及目标照明和形状变化、尺度变化的问题，提升跟踪方法的精度和鲁棒性。

为了实现上述目的，本发明提供了一种基于特征融合和通道注意力的目标跟踪方法，包括以下步骤：

S1、构建孪生网络；

S2、获取目标的初始帧；

S3、提取模板区域和搜索区域的特征信息；

S4、通过高效通道注意力机制增强目标特征信息；

S5、将增强后的特征送入到特征融合网络，将三层特征融合为一层；

S6、将最终得到的模板分支与搜索分支的特征做一次互相关操作来进行分类和回归。根据分类和回归的结果，得出目标在当前帧的准确位置。

本发明提供了一种基于特征融合和通道注意力的目标跟踪方法。与现有技术相比，具备以下有益效果：

本发明从两个角度提升目标跟踪方法的性能，一方面，通过高效通道注意力机制对提取的特征进行增强，经过一系列的卷积获得不同位置特征的权重，然后将获得的权重作用于输入特征上，以此降低背景和干扰物特征的干扰，使得网络更关注有利于目标分类和回归的信息；另一方面该方法使用特征融合网络对增强后的三层特征信息进行自适应的融合，充分利用到浅层特征中包含的外观和轮廓信息与深层特征中的语义信息，在避免了多次互相关操作带来的计算量的同时，通过网络的自我优化，能够得到最有利于我们跟踪的特征图。结合一次相似度计算的输出结果，最终得到目标在当前帧的准确位置与尺寸大小，大大提高了跟踪的准确性及鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中一种基于特征融合和通道注意力的目标跟踪方法流程图。

图2是本发明实例中高效通道注意力模块的示意图。

图3是本发明实例中特征融合网络结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

下面结合说明书附图以及具体的实施方式对本发明作详细说明。如图1所示，一种基于孪生网络的单目标跟踪方法包括步骤S1～S7：

S1、构建孪生网络；

S2、获取目标的初始帧；

S3、提取模板区域和搜索区域的特征信息；

S4、通过高效通道注意力机制增强目标特征信息；

下面对各个步骤进行详细描述。

在步骤S1中，如图1所示的构建一种基于孪生网络的单目标跟踪方法流程图。其步骤具体为：

S101、该孪生网络由四部分组成；分别为特征提取部分、高效通道注意力模块部分、特征融合网络部分和头部网络。

S102、特征提取部分由模板分支，搜索分支以及骨干网络三部分组成；模板分支用来提取模板图像的特征信息，搜索分支用来提取当前帧搜索区域的特征信息，骨干网络是修改后的深度残差网络，使用的特征是提取到的第三层、第四层和第五层的特征信息。

S103、高效通道注意力模块部分，主要是一种不降维的跨通道交互策略，并且可以自适应选择一维卷积核的大小，以此来得到通道之间的关系，增强特征表达能力，达到增强特征的目的。该模块增加的模型复杂度小，提升效果显著。

S104、特征融合网络部分，通过网络的训练，给三层特征图各分配由神经网络自我学习得到的权重值，自适应的调整浅层与深层特征的重要程度，最后将三层特征信息进行相加，得到最有利于我们跟踪的一层特征图。

S105、头部网络部分主要为一次互相关操作，用来处理来自模板帧和搜索帧不同层融合后的特征信息，计算相似度，最后根据分类和回归的结果，得出目标在当前帧的准确位置。

在步骤S2中，获取目标的初始帧。其步骤具体为：

S201、初始帧的获取是在视频序列的开始阶段，通过划定一个矩形框来选择要跟踪的目标，此目标为后续帧中所要对比的对象。

在步骤S3中，提取模板区域和搜索区域的特征信息。其具体步骤为：

S301、在该方法中使用的骨干网络是修改后的残差网络，提取到的有五块特征信息，我们选择第三层、第四层和第五层特征进行使用。

S302、第三块和第四块的特征经历的卷积层数较少，包含的更多是外观信息，其中只有少量的语义信息。

S303、分别将模板区域图像z和搜索区域图像x输入到残差网络中进行特征提取，输出第三层，第四层和第五层的特征图。用

和

来表示模板分支的特征和搜索分支的特征。

在步骤S4中，如图2所示的高效通道注意力模块，通过高效通道注意力模块分别将三层的特征信息进行特征增强。其步骤具体为：

S401、将提取获得的三块特征信息作为输入，输入高效通道注意力中进行处理。高效通道注意力可以通过卷积核大小为k的一维卷积来实现，达到通道之间的信息交互,通道注意力图权重的获取定义如下：

ω＝σ(C1D_k(t)), (1)

σ表示激活函数sigmoid，C1D表示一维卷积，k为卷积核的大小，t为给定的不进行降维的特征。

S402、由于高效通道注意力模块旨在适当捕获局部通道信息交互，因此需要确定通道交互信息的大致范围(即一维卷积的卷积核大小k)，在k和维度C之间可能存在映射φ，其定义如下：

c＝φ(k), (2)

S403、最简单的映射方式就是线性映射，但由于线性函数对于某些相关特征的局限性，再由于通道维数通常是2的指数倍，所以，这里采用以2为底的指数函数来表示非线性映射关系:

C＝φ(k)＝2^(γ*k-b), (3)

S404、所以，给定通道维数C，那么卷积核大小k便可根据下面公式计算得到：

其中|t|_odd表示最接近t的奇数。我们在所有实验中分别将γ和b设为2和1。显然，通过映射ψ，通过非线性映射，高维通道具有较长的距离相互作用，而低维通道具有较短的距离相互作用。

S405、将归一化权重和原输入特征图逐通道相乘，生成加权后的特征图。

在步骤S5中，如图3所示的特征融合网络结构，将增强后的三层特征送入到特征融合网络进行融合，得到最利于跟踪的一层特征图。其步骤具体为：

S501、由于我们使用的是修改后的残差网络作为骨干网络，所以增强后的三层特征图尺寸大小也是一样的，不需要再进行尺度缩放，直接进行自适应融合，具体为经过网络学习到的参数加权后，再将其特征图进行逐点相加，融合后的特征图定义如下：

F＝αF₃+βF₄+δF₅, (5)

其中α，β和δ分别代表第三层、第四层和第五层特征图对应的空间权重，由网络自适应学习而来。F₃、F₄和F₅分别代表此三层的特征图。

S502、令α+β+δ＝1和α，β，δ∈[0,1],则有：

α,β,δ＝Softmax(λ_α,λ_β,λ_δ), (6)

这里α，β和δ是由λ_α,λ_β和λ_δ这三个softmax函数变量进行控制。标准的反向传播算法能够学习融合参数，通过合理的训练可以生成这些有效系数。

在步骤S6中，将特征送入到头部网络进行分别分类和回归处理。其步骤具体为：

S601、将经过高效通道注意力进行加权并融合的模板区域特征图和搜索区域特征图送入头部网络中，在第一个分支即分类分支进行互相关操作，输出通道数为2的分类图得到分类预测结果；

S602、将经过高效通道注意力进行加权并融合的模板区域特征图和搜索区域特征图送入头部网络中，在第二个分支即回归分支进行互相关操作，输出通道数为4的回归图得到回归预测结果。

S603、前景背景的分类以及边界框的回归，其互相关操作表达式如下：

其中★表示深度互相关操作，F(z)和F(x)是模板区域和搜索区域的特征图。[F(z)]_cls和[F(z)]_reg作为卷积核，

分别代表分类图和回归图。

S604、最后根据分类和回归的结果得到跟踪目标的位置与边界框的尺寸。

S605、计算整个网络的损失，由分类损失和回归损失组成。其表达式如下：

其中N_pos表示正样本的数量。1{…}是指示函数，若大括号中的条件成立则取1，否则取值为0。L_cls表示用于分类结果的交叉熵损失，L_reg表示用于边界框结果的IoU损失。若(x,y)被认为是正样本，我们将1分配给

被认为是负样本则将0分配给它。λ₁和λ₂为用于平衡这些损失的超参数，在我们的方法中均设为1。

其中，分类的交叉熵损失定义如下：

p_x,y代表由学习模型预测的为前景的概率，

代表标签值。

回归损失表达式如下：

B＝(x₀,y₀,x₁,y₁)表示预测的边界框的左上角和右下角坐标。B*为真实值。B可以通过r_x,y＝[l,r,t,b]和位置(x,y)的计算来获得。

S606、根据训练中最小损失的模型权重，输出目标在当前帧的准确位置。

本发明实施例在以往孪生网络跟踪方法上添加了高效通道注意力模块，以及自适应融合了多层特征，增强了特征的表示，有效的抑制了背景和干扰物的影响，充分利用了从骨干网络中提取的特征信息，从而提高了跟踪方法的准确性和鲁棒性。为实际应用中的目标跟踪等工作提供更为高效的框架。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种基于特征融合和通道注意力的目标跟踪方法，其特征在于，所述方法由计算机执行，包括以下步骤：

S1、构建孪生网络；

S2、获取目标的初始帧；

S3、提取模板区域和搜索区域的特征信息；

S4、通过高效通道注意力机制增强目标特征信息；

S6、将最终得到的模板分支与搜索分支的特征做一次互相关操作来进行分类和回归，根据分类和回归的结果，得出目标在当前帧的准确位置。

2.如权利要求1所述的一种基于特征融合和通道注意力的目标跟踪方法，其特征在于，S1的具体实现过程如下：

S101、该孪生网络由四部分组成，分别为特征提取部分、高效通道注意力模块部分、特征融合网络部分和头部网络；

S102、特征提取部分由模板分支，搜索分支以及骨干网络三部分组成；模板分支用来提取模板图像的特征信息，搜索分支用来提取当前帧搜索区域的特征信息，骨干网络是修改后的深度残差网络，使用的特征是提取到的第三层、第四层和第五层的特征信息；

S103、高效通道注意力模块部分，主要是一种不降维的跨通道交互策略，并且可以自适应选择一维卷积核的大小，以此来得到通道之间的关系，增强特征表达能力，达到增强特征的目的，该模块增加的模型复杂度小，提升效果显著；

S104、特征融合网络部分，通过网络的训练，给三层特征图各分配由神经网络自我学习得到的权重值，自适应的调整浅层与深层特征的重要程度，最后将三层特征信息进行相加，得到最有利于我们跟踪的一层特征图；

3.如权利要求1所述的一种基于特征融合和通道注意力的目标跟踪方法，其特征在于，S2的具体实现过程如下：

4.如权利要求1所述的一种基于特征融合和通道注意力的目标跟踪方法，其特征在于，在步骤S3中，提取模板区域和搜索区域的特征信息，其具体步骤为：

S301、在该方法中使用的骨干网络是修改后的残差网络，提取到的有五块特征信息，我们选择第三层、第四层和第五层特征进行使用；

S302、第三块和第四块的特征经历的卷积层数较少，包含的更多是外观信息，其中只有少量的语义信息；

S303、分别将模板区域图像z和搜索区域图像x输入到残差网络中进行特征提取，输出第三层，第四层和第五层的特征图，用

和

来表示模板分支的特征和搜索分支的特征。

5.如权利要求1所述的一种基于特征融合和通道注意力的目标跟踪方法，其特征在于，在步骤S4中，如图2所示的高效通道注意力模块，通过高效通道注意力模块分别将三层的特征信息进行特征增强，其步骤具体为：

S401、将提取获得的三块特征信息作为输入，输入高效通道注意力中进行处理，高效通道注意力可以通过卷积核大小为k的一维卷积来实现，达到通道之间的信息交互,通道注意力图权重的获取定义如下：

ω＝σ(C1D_k(t)), (1)

σ表示激活函数sigmoid，C1D表示一维卷积，k为卷积核的大小，t为给定的不进行降维的特征；

c＝φ(k), (2)

C＝φ(k)＝2^(γ*k-b), (3)

其中|t|_odd表示最接近t的奇数，我们在所有实验中分别将γ和b设为2和1，显然，通过映射ψ，通过非线性映射，高维通道具有较长的距离相互作用，而低维通道具有较短的距离相互作用；

6.如权利要求1所述的一种基于特征融合和通道注意力的目标跟踪方法，其特征在于，在步骤S5中，如图3所示的特征融合网络结构，将增强后的三层特征送入到特征融合网络进行融合，得到最利于跟踪的一层特征图，其步骤具体为：

H＝αH₃+βH₄+δH₅, (5)

其中α，β和δ分别代表第三层、第四层和第五层特征图对应的空间权重，由网络自适应学习而来，H₃、H₄和H₅分别代表此三层的特征图；

S502、令α+β+δ＝1和α，β，δ∈[0,1],则有：

α,β,δ＝Softmax(λ_α,λ_β,λ_δ), (6)

这里α，β和δ是由λ_α,λ_β和λ_δ这三个softmax函数变量进行控制，标准的反向传播算法能够学习融合参数，通过合理的训练可以生成这些有效系数。

7.如权利要求1所述的一种基于特征融合和通道注意力的目标跟踪方法，其特征在于，在步骤S6中，将特征送入到头部网络进行分别分类和回归处理，其步骤具体为：

S602、将经过高效通道注意力进行加权并融合的模板区域特征图和搜索区域特征图送入头部网络中，在第二个分支即回归分支进行互相关操作，输出通道数为4的回归图得到回归预测结果；

其中★表示深度互相关操作，L(z)和L(x)是模板区域和搜索区域的特征图[L(z)]_cls和[L(z)]_reg作为卷积核，

分别代表分类图和回归图；

S604、最后根据分类和回归的结果得到跟踪目标的位置与边界框的尺寸；

S605、计算整个网络的损失，由分类损失和回归损失组成，其表达式如下：

其中N_pos表示正样本的数量，1{…}是指示函数，若大括号中的条件成立则取1，否则取值为0，L_cls表示用于分类结果的交叉熵损失，L_reg表示用于边界框结果的IoU损失；若(x,y)被认为是正样本，我们将1分配给

被认为是负样本则将0分配给它，λ₁和λ₂为用于平衡这些损失的超参数，在我们的方法中均设为1；

其中，分类的交叉熵损失定义如下：

p_x,y代表由学习模型预测的为前景的概率，

代表标签值；

回归损失表达式如下：

B＝(x₀,y₀,x₁,y₁)表示预测的边界框的左上角和右下角坐标，B^*为真实值，B可以通过r_x,y＝[l,r,t,b]和位置(x,y)的计算来获得；