CN112836606A

CN112836606A - 融合目标显著性和在线学习干扰因子的航拍目标跟踪方法

Info

Publication number: CN112836606A
Application number: CN202110095474.9A
Authority: CN
Inventors: 孙锐; 方林凤; 梁启丽; 张旭东
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2021-05-25

Abstract

本发明公开了一种融合目标显著性和在线学习干扰因子的航拍目标跟踪方法，是根据反向传播梯度从预先训练的卷积网络选择最有效的特征通道来生成航拍智能感知特征，在凸显航拍目标特性的同时，大大减少了通道特征量来加快跟踪速度；并充分利用连续视频丰富的上下文信息，引导目标外观模型与当前帧尽可能相似地来在线学习动态目标的干扰因子，从而可以抑制航拍显著性变化所带来的影响，进而实现可靠的自适应匹配跟踪。本发明能缩小预训练的分类深度模型与特定航拍场景的目标跟踪之间的差距，并提高模型的在线适应能力，从而满足航拍视频的实时跟踪需求。

Description

融合目标显著性和在线学习干扰因子的航拍目标跟踪方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于孪生网络的融合显著性和干扰在线学习的航拍目标跟踪方法。

背景技术

随着无人机和计算机视觉的快速发展，基于无人机的智能目标跟踪系统在目标监控、军事反恐侦察等各个领域均有广泛应用。航拍视频具有信息量大，背景复杂，视场不确定，跟踪目标小等特点，而现有目标跟踪算法没有完全针对这些特点进行设计和优化，所以在航拍视频中实现鲁棒且实时的跟踪仍然是一个巨大的挑战。

现有主流的目标跟踪算法都是基于深度学习的，它们主要分为两类：第一类使用用于目标识别任务预先训练的深度模型来提取特征，将目标跟踪问题转化为分类问题。一般视觉识别任务和特定目标跟踪在卷积神经网络提取的特征的有效程度是不同的。第一，预先训练的CNN特征对目标的语义信息和客观信息是不可知的。第二，预先训练的CNN偏向于增加类间目标的差异，提取的深层特征对不同类内目标并不敏感。第三，对于跟踪任务，在较深的卷积网络中仅有几个卷积滤波器在描述目标时是有效的，大部分卷积滤波器包含的都是冗余和无关信息。当使用所有的卷积滤波器来提取特征时，会导致高的计算负载。第二种成熟策略是基于匹配的跟踪策略，将候选样本与目标模板匹配，不需要在线更新。这种跟踪算法最显著的优点是其实时性。通过学习一个通用的匹配函数，以保持实时响应能力。最近成功的模型有全卷积孪生网络跟踪算法，虽然它不仅实现了不错的跟踪精度还满足了实时性，但是其缺乏一个有效的在线更新模型去捕捉航拍场景下目标、背景或成像条件的时间变化。对于单目标跟踪任务来说，目标的外观模型是重要的参考标准，其特征的辨别性尤其重要，丰富的目标姿势变化以及不同程度的背景干扰等跟踪难点都对提取具有辨别力的目标外观模型提出了更高的要求，如何获得更有辨别力的目标模板特征成为跟踪成功的关键。

发明内容

本发明为克服上述现有技术中存在的问题，提出了一种融合目标显著性和在线学习干扰因子的航拍目标跟踪方法，以期能缩小预训练的分类深度模型与特定航拍场景的目标跟踪之间的差距，并提高模型的在线适应能力，从而满足航拍视频的实时跟踪需求。

本发明为解决技术问题采用如下技术方案：

本发明一种融合目标显著性和在线学习干扰因子的航拍目标跟踪方法的特点是按如下步骤进行：

步骤1、对全卷积孪生网络进行通用特征的预训练；

步骤1.1、获取带有标签的航拍数据集，所述航拍数据集包含多个视频序列，每个视频序列包含多帧，选取一个视频序列并作为当前视频序列中抽取任意第i帧图像与相邻T帧图像之内的任意一帧图像组成一个样本对，从而将所述当前视频序列中随机抽取的图像组成若干个样本对，进而构成训练数据集；

步骤1.2、将所述训练数据集的每个样本对中的一帧图像作为模板图像，另一帧图像作为搜索图像；

步骤1.3、采用高斯分布随机初始化全卷积孪生网络的参数后，将每个样本对输入初始化后的全卷积孪生网络中进行训练，得到训练好的最佳跟踪模型；

步骤1.3.1、第i个样本对经过全卷积孪生网络后生成响应图υ[u_i]，u_i表示响应图υ[u_i]中的第i个位置，响应图υ[u_i]中第i个位置对应的真实标签记为y[u_i]；

步骤1.3.2、利用逻辑损失函数计算全卷积孪生网络中每个样本对的损失z(y，v)，其中，v是一个样本对的打分值，y是一个样本对的真实标签，且y∈{+1，-1}；

步骤1.3.3、构建全卷积孪生网络中如式(1)所示的训练数据集的目标函数，并利用梯度下降算法对所述目标函数进行求解，从而得到最佳跟踪模型；

式(1)中，x表示所述训练数据集中所有样本对的搜索图像集；z表示所述训练数据集中所有样本对的模板图像集，θ是模型参数，y是所有样本对的打分值；

步骤2、对目标智能感知特征的预训练；

步骤2.1、从带标签的航拍数据集中选取每个视频序列的第一帧图像组成训练样本集；

步骤2.2、将所述训练样本集中的所有样本以其标签中的目标为中心进行回归处理，得到高斯图，其中一个样本Z的高斯图记为

其中，i，j表示当前像素点与所述中心的偏移量坐标，i≥0且i≤H，H表示垂直像素数，j≥0且j≤W，W表示水平像素数，σ为样本标签的高斯函数标准差；

步骤2.3、构建由卷积层和全局平均池化层组成的深度网络；

采用高斯分布随机初始化所述深度网络的参数后，将所述训练样本集中的每个样本分别输入初始化后的深度网络中，并经过所述卷积层和全局平均池化的处理后，得到的输出预测Z_o再经过岭回归损失函数和梯度传播的处理，从而得到训练好的目标智能感知网络；

步骤2.3.1、利用式(2)构建训练样本集的损失函数J：

J＝||Y-W*Z||²+λ||W||² (2)

式(2)中，*表示卷积运算，W为回归参数，λ为正则化参数；

步骤2.3.2、利用式(3)计算损失函数J的梯度

步骤2.3.3、利用式(4)计算所述深度网络中卷积层的第l个特征通道的重要性M_l并作为智能感知特征的最佳通道参数：

式(4)中，F_ap表示全局平均池化函数，F_l为第l个特征通道的输出特征；

步骤3、将所述当前视频序列中获取的第1帧图像作为模板帧z₁，除所述模板帧z₁之外的所有图像均作为搜索帧，定义t为当前待搜索帧，并初始化t＝2；

步骤4、开始进行第t帧图像的跟踪；

步骤4.1、根据模板帧z₁的标签所表示的目标位置和目标框，以模板帧z₁的目标框为中心进行裁剪作为目标模板x₁；

步骤4.2、当前待搜索帧为第2帧时，将当前待搜索帧的前一帧即为模板帧z₁的标签表示的目标框为中心进行裁剪，得到当前待搜索帧的前一帧的待搜索区域x_t-1；

当前待搜索帧大于第2帧时，以当前待搜索帧的跟踪结果作为预测目标框；将当前待搜索帧的前一帧以预测目标框为中心进行裁剪，得到当前待搜索帧的前一帧的待搜索区域x_t-1；

步骤4.3、当前待搜索帧为第2帧时，将当前待搜索帧以模板帧z₁的标签表示的目标框为中心进行裁剪，得到第t帧图像的待搜索区域x_t；

当前待搜索帧大于第2帧时，是将当前待搜索帧以当前待搜索帧的前一帧的预测目标框为中心进行裁剪，得到第t帧图像的待搜索区域x_t；

步骤4.4、将第1帧图像的目标模板x₁，第t帧图像的待搜索区域x_t和第t-1帧图像的待搜索区域x_t-1分别经过所述最佳跟踪模型进行特征提取，得到所述目标模板的特征O₁，当前待搜索区域特征O_t和第t-1帧图像的待搜索区域特征O_t-1；

步骤4.5、将所述当前待搜索区域特征O_t经过如式(5)所示的目标智能感知特征网络的特征提取，得到目标智能感知特征O′_t：

O′_t＝f(O_t；M_l) (5)

式(5)中，f表示生成目标智能感知特征的函数；

步骤4.6、动态学习干扰因子S_t-1分支在线学习，诣在引导在线学习第一帧的目标与当前帧的前一帧目标的相似性；

步骤4.6.1、使用如式(6)所示的线性回归计算第1帧图像到第t-1帧图像在时域所学习到的目标干扰因子S_t-1：

式(6)中，λ_s为正则化因子；S表示待优化的参数；

步骤4.6.2、利用式(7)计算第1帧图像到第t-1帧图像在频域速所学习到的目标干扰因子S_t′_-1：

式(7)中，

是离散傅里叶变换DFT，

是DFT的逆变换，上标*表示复共轭；⊙表示点积；

步骤4.7、利用式(8)计算目标跟踪响应结果res：

res＝corr(S_t-1*O₁,O′_t) (8)

式(8)中，corr为相似度度量函数；

步骤5、从t＝2,3,......,N开始，按照步骤4.3来重复进行第t+1帧图像中目标的跟踪，N表示当前视频序列的总帧数。

与已有技术相比，本发明有益效果体现在：

1.本发明针对用于分类任务预训练的网络很难学习有差别的深层特征进行航拍目标跟踪的问题，设计了一种新的特征通道回归损失函数来学习目标智能感知的深层特征，从而可以选择出最有效的卷积滤波器来生成航拍目标显著性特征，大大减少了通道特征量，从而加快了跟踪速度。

2.本发明针对全卷积孪生网络算法无法在线更新目标外观变化从而导致目标发生显著变化时跟踪失败的问题，采用目标干扰因子在线学习机制来抑制航拍目标显著变化所带来的影响，从而实现了有效可靠的自适应匹配跟踪；

3.本发明通过将智能感知特征部分和在线学习干扰因子分支嵌入到孪生网络，提高了模型的鲁棒性，实现了端到端的前馈式实时在线跟踪。

4、本发明通用模型预训练的深层特征无法有效地识别航拍目标，能根据反向传播梯度识别每个卷积滤波器的重要性来更好地得选择目标显著性特征，以此凸显航拍目标特性；另外充分利用连续视频丰富的上下文信息，通过引导目标外观模型与当前帧尽可能的相似来在线学习动态目标的干扰因子，从而实现了可靠的自适应匹配跟踪。

附图说明

图1为本发明的航拍目标跟踪方法流程图；

图2为本发明的航拍目标跟踪方法框架图。

具体实施方式

本实施例中，一种融合目标显著性和在线学习干扰因子的航拍目标跟踪方法，如图1所示，是按如下步骤进行：

步骤1、对全卷积孪生网络进行通用特征的预训练；

在本实施例中，采用的是全卷积孪生网络，包括5个卷积层和2个池化层，每一层卷积层后面都跟有归一化层和激活函数层；

步骤1.1、获取带有标签的航拍数据集，航拍数据集包含多个视频序列，每个视频序列包含多帧，选取一个视频序列并作为当前视频序列中抽取任意第i帧图像与相邻T帧图像之内的任意一帧图像组成一个样本对，从而将当前视频序列中随机抽取的图像组成若干个样本对，进而构成训练数据集；

步骤1.2、将训练数据集的每个样本对中的一帧图像作为模板图像，另一帧图像作为搜索图像；

步骤1.3.2、利用逻辑损失函数计算全卷积孪生网络中每个样本对的损失l(y,υ)，其中，υ是一个样本对的打分值，y是一个样本对的真实标签，且y∈{+1,-1}；

步骤1.3.3、构建全卷积孪生网络中如式(1)所示的训练数据集的目标函数，并利用梯度下降算法对目标函数进行求解，从而得到最佳跟踪模型；

式(1)中，x表示训练数据集中所有样本对的搜索图像集；z表示训练数据集中所有样本对的模板图像集，θ是模型参数，V是所有样本对的打分值；

步骤2、对目标智能感知特征的预训练；

一般视觉识别任务和特定目标跟踪在卷积神经网络提取的特征的有效程度是不同的。第一，预先训练的CNN特征对目标的语义信息和客观信息是不可知的。对于分类、检测和分割等视觉任务预训练和测试的目标类别是预先定义且相同的，而在线目标跟踪是需要处理任何类别的目标。第二，预先训练的CNN偏向于增加类间目标的差异，提取的深层特征对不同类内目标并不敏感，因而并不能将真正的目标与具有相同类别标签的对象区分开，所以这些特征对于一般跟踪算法来说不太有效。第三，对于跟踪任务，在较深的卷积网络中仅有几个卷积滤波器在描述目标时是有效的，大部分卷积滤波器包含的都是冗余和无关信息。当使用所有的卷积滤波器来提取特征时，会导致高的计算负载。

步骤2.2、将训练样本集中的所有样本以其标签中的目标为中心进行回归处理，得到高斯图，其中一个样本Z的高斯图记为

其中，i,j表示当前像素点与中心的偏移量坐标，i≥0且i≤H，H表示垂直像素数，j≥0且j≤W，W表示水平像素数，σ为样本标签的高斯函数标准差；

步骤2.3、构建由卷积层和全局平均池化层组成的深度网络；

采用高斯分布随机初始化深度网络的参数后，将训练样本集中的每个样本分别输入初始化后的深度网络中，并经过卷积层和全局平均池化的处理后，得到的输出预测Z_o再经过岭回归损失函数和梯度传播的处理，从而得到训练好的目标智能感知网络模型；

步骤2.3.1、利用式(2)构建训练样本集的损失函数J：

J＝||Y-W*Z||²+λ||w||² (2)

式(2)中，*表示卷积运算，W为回归参数，λ为正则化参数；

步骤2.3.2、利用式(3)计算损失函数J的梯度

当

越小，预测的目标Z_o越接近于真实的目标Y。即输入的特征对正确跟踪目标的贡献越大，所以通过损失函数的梯度找到了卷积神经网络中能够区分目标和背景的目标感知滤波器；

步骤2.3.3、利用式(4)计算深度网络中卷积层的第l个特征通道的重要性M_l并作为智能感知特征的最佳通道参数：

在预训练的分类网络中，卷积神经网络中每个卷积滤波器捕获特定的特征图案，并且所有的滤波器构建包含不同目标的特征空间。经训练的网络主要基于这些滤波器的子集来识别特定目标类别。对于视觉跟踪任务，本发明可以通过识别那些在目标区域活动的对象来获得具有与目标相关信息的特征通道。

步骤3、将当前视频序列中获取的第1帧图像作为模板帧z₁，除模板帧z₁之外的所有图像均作为搜索帧，定义t为当前待搜索帧，并初始化t＝2；

步骤4、开始进行第t帧图像的跟踪；

步骤4.4、将第1帧图像的目标模板x₁，第t帧图像的待搜索区域x_t和第t-1帧图像的待搜索区域x_t-1分别经过最佳跟踪模型进行特征提取，得到目标模板的特征O₁，当前待搜索区域特征O_t和第t-1帧图像的待搜索区域特征O_t-1；

步骤4.5、将当前待搜索区域特征O_t经过如式(5)所示的目标智能感知特征网络的特征提取，得到目标智能感知特征O′_t：

O′_t＝f(O_t；M_l) (5)

式(5)中，f表示生成目标智能感知特征的函数；

在本实施例中，将预训练特征经过卷积层，再经过智能感知特征部分(见图2)，目标智能感知特征部分只在第一帧中训练。在初始训练中，一旦网络收敛，就从每个损失函数(如式(2))中计算梯度。利用梯度，从预先训练好的目标智能感知网络模型中选择具有最高重要性分数的特征通道的固定数目。通过叠加通用特征(见步骤1)和目标智能感知特征(见步骤2)这两种特征，得到最终的目标深度特征。考虑到标量大小问题，这两种类型的特征通过除以它们的最大信道求和(一个信道中所有值的求和)来重新缩放；

与预先训练的深层特征相比，生成的特征具有以下优点：本发明选择一部分特定于目标的特征通道来产生具有判别力的深层特征。这不仅缓解了模型过度拟合的问题，而且减少了特征的数量。目标智能感知特征对于任意目标或看不见的对象是有效的。

SiamFC等大多数孪生网络方法为了达到跟踪的实时性要求，选择在跟踪过程中不更新目标模板和网络权值。但是，在目标实时动态运动时，当目标发生较大形变时，待搜索目标将会产生较大差异，从而造成跟踪失败。孪生网络跟踪算法选择视频序列的第一帧作为跟踪目标的模板帧，然后将模板帧与后续帧进行匹配来确定目标的位置。一般视频第一帧可以清楚地区分目标，例如人的脸部、行人的正面、汽车头部或尾部等，所以可以作为识别目标的有判别力的特征。

然而，航拍视频中的目标是实时动态变化的，且基本上是俯视或侧俯视视角，仅使用第一帧作为固定模板限制了跟踪准确度的提高。视频中经常会出现当前帧中的目标与第一帧中的目标相似度很小甚至不相似，尤其在人数较多的场合，而使用当前帧的前一帧或连续前几帧作为目标模板便可以成功捕获目标的运动变化。然而只使用当前帧的前一帧或连续前几帧实时更新模板，又会带来模板漂移的问题，一旦跟踪错误，将无法再跟踪到正确的目标。针对现有跟踪算法的缺点，本发明在孪生网络网络中加入动态学习干扰因子分支，引导在线学习第一帧的目标与当前帧的前一帧目标的相似性，同时考虑目标的判别力特征和运动变化特征，在实时更新目标模板的同时避免模板漂移问题。