CN114565637A

CN114565637A - 一种基于特征增强和视频历史帧的单目标跟踪方法

Info

Publication number: CN114565637A
Application number: CN202210041658.1A
Authority: CN
Inventors: 庄艳辉; 洪朝群; 郭泽添; 范一庆; 周卉芬
Original assignee: Xiamen University of Technology
Current assignee: Xiamen University of Technology
Priority date: 2022-01-14
Filing date: 2022-01-14
Publication date: 2022-05-31
Anticipated expiration: 2042-01-14
Also published as: CN114565637B

Abstract

本发明提供了一种基于特征增强和视频历史帧的单目标跟踪方法，首先从查询帧之前的视频序列中作为历史帧集合，然后加入标签图进行掩膜处理；随后，与当前查询帧一起送入特征提取网络提取目标特征，对历史帧特征进行拼接后送入历史帧读取和特征增强网络；通过离线训练模型EnhanceNet提供的卷积参数对历史帧特征进行增强，并使用softmax函数计算与查询帧特征的相似度矩阵。最后，将相似度矩阵与查询帧特征拼接送入头部网络，进行分类和回归，从而预测目标位置。本发明方法提高了目标跟踪算法在复杂场景下的鲁棒性和准确率并保持跟踪的实时性要求。

Description

一种基于特征增强和视频历史帧的单目标跟踪方法

技术领域

本发明涉及目标跟踪领域，特别是指一种基于特征增强和视频历史帧的单目标跟踪方法。

背景技术

目标跟踪作为计算机视觉的一部分，在现实生活中得到了广泛的应用，如人机交互、视频监控、无人驾驶等。为了将目标跟踪技术应用到日常生活中，我们做了很多努力。尽管近年来目标跟踪得到了快速发展，取得了许多重要的成果，但在复杂背景、相似目标干扰、变形等复杂跟踪环境下，跟踪器的性能仍难以满足实际需要。

对于目标跟踪算法的实现，目前主流的思路是利用Siamese网络的思想，分别提取模版图像和查询图像的特征，然后进行互相关计算获得互相关响应图，送入分类回归网络预测目标位置。然而，目前基于Siamese的跟踪方法充分利用了跟踪序列第一帧的信息，但跟踪器仅依赖于第一帧的信息，无法应对后续帧中被跟踪目标的变化。这使得基于Siamese网络的跟踪器面临变形、光照变化和遮挡等诸多挑战时，表现不佳。由于目前的跟踪器并没有很好的利用历史帧信息，导致目标在后续帧出现较大变化的情况时，模型没有很好的识别能力，并且现有基于模板更新机制的跟踪器采用复杂的计算策略和耗时的优化来获得良好的跟踪性能，但不能满足实时跟踪的要求。

发明内容

本发明的主要目的在于克服现有技术中的上述缺陷，提出一种基于特征增强和视频历史帧的单目标跟踪方法，通过Siamese网络的思想，分别提取视频历史帧和当前帧的特征，对历史帧特征进行在线特征增强后与当前帧特征计算相似性矩阵，最后将相似性矩阵送入分类回归网络预测目标位置，能够实现目标跟踪在复杂场景下的鲁棒性和准确率并保持跟踪的实时性要求。

本发明采用如下技术方案：

一种基于特征增强和视频历史帧的单目标跟踪方法，包括以下处理步骤：

步骤1：从视频序列中，选取设定数量帧作为历史帧集合，加入二值掩膜mask标签图；

步骤2：将含标签历史帧集合和当前帧，输入特征提取骨干网络进行历史帧特征提取和当前帧特征提取；将历史帧集合和二值掩膜mask标签图输入第一特征提取骨干网络进行历史帧特征提取，将当前帧输入第二特征提取骨干网络进行当前帧特征提取；

步骤3：将提取的历史帧特征沿通道拼接，得到拼接后的历史帧特征；

步骤4：根据自设计的EnhanceNet模块提供的离线训练阶段输出的卷积参数，对拼接后的历史帧特征进行在线特征增强；

步骤5：通过softmax函数计算经过增强后的历史帧特征和当前帧特征的相似性矩阵，并将相似性矩阵与当前帧特征矩阵沿通道拼接，得到相似性响应图；

步骤6：将相似性响应图输入头部网络中，所述头部网络由分类网络和回归网络组成，分类网络预测相似性响应图每个像素点的目标得分，在得分最高的像素点处，通过回归网络预测该像素点对应原图的目标框位置，实现单目标跟踪。

具体地，从视频序列中，选取设定数量帧作为历史帧集合，具体包括：

跟踪过程中，需要每间隔20帧通过随机仿射变换的采样方法重新选择一次历史帧集合，并且将最大帧索引间隙设置为100帧以内。

具体地，所述步骤2，具体为：

采用GoogleNet作为特征提取骨干网络；其中，第一特征提取骨干网络和第二特征提取骨干网络结构相同但参数不同；将历史帧集合和二值掩膜mask标签图输入第一特征提取骨干网络进行历史帧特征提取，其公式如下：

对标签图和历史帧图像中第i个位置进行操作，其中g为额外的卷积层，其作用是与骨干网络

的第一层网络将历史帧m与标签图c重塑为相同尺寸，线性网络层m将特征降维，

表示历史帧特征提取网络的第一层，

表示除第一层外的历史帧特征提取网络。

具体地，步骤4中根据自设计的EnhanceNet模块提供的离线训练阶段输出的卷积参数，对拼接后的历史帧特征进行在线特征增强，具体为：

EnhanceNet模块根据掩膜标签图分别训练用于目标和背景增强的卷积参数，其公式如下：

其中，X_t为对拼接后的历史帧原始特征，

为对拼接后的历史帧增强特征，M_o是目标二值掩膜标签图，W_o是目标区域特征增强卷积参数，W_b是背景区域特征增强卷积参数，这两个卷积参数都由离线网络EnhanceNet训练获得；

将原始特征与增强特征进行混合，混合公式如下：

其中α₁和α₂分别设置为0.1和0.7。

具体地，步骤5通过softmax函数计算经过增强后的历史帧特征和当前帧特征的相似性矩阵，具体为：

利用softmax函数计算像素级的相似度，其公式如下：

其中缩放因子s用于防止exp函数溢出，其值设为

n为图像经过骨干网络输出的特征图通道数；m表示历史帧图像，q表示查询帧图像，i表示图历史帧图像的横坐标，j表示查询帧图像的纵坐标，k表示历史帧图像的横坐标，公式中分母为求和运算。

具体地，步骤6中，所述头部网络中的分类网络和回归网络，都包含7个卷积层，每个卷积层后都采用ReLU作为激活函数。

由上述对本发明的描述可知，与现有技术相比，本发明具有如下有益效果：

本发明提供一种基于特征增强和视频历史帧的单目标跟踪方法，包括以下处理步骤：首先从视频序列中，选取设定数量帧作为历史帧集合，加入二值掩膜mask标签图；将含标签历史帧集合和当前帧，输入特征提取骨干网络进行历史帧特征提取和当前帧特征提取；将历史帧集合和二值掩膜mask标签图输入第一特征提取骨干网络进行历史帧特征提取，将当前帧输入第二特征提取骨干网络进行当前帧特征提取；将提取的历史帧特征沿通道拼接，得到拼接后的历史帧特征；根据自设计的EnhanceNet模块提供的离线训练阶段输出的卷积参数，对拼接后的历史帧特征进行在线特征增强；通过softmax函数计算经过增强后的历史帧特征和当前帧特征的相似性矩阵，并将相似性矩阵与当前帧特征矩阵沿通道拼接，得到相似性响应图；将相似性响应图输入头部网络中，所述头部网络由分类网络和回归网络组成，分类网络预测相似性响应图每个像素点的目标得分，在得分最高的像素点处，通过回归网络预测该像素点对应原图的目标框位置，实现单目标跟踪；本发明提供的方法通过Siamese网络的思想，分别提取视频历史帧和当前帧的特征，对历史帧特征进行在线特征增强后与当前帧特征计算相似性矩阵，最后将相似性矩阵送入分类回归网络预测目标位置，能够实现目标跟踪在复杂场景下的鲁棒性和准确率并保持跟踪的实时性要求。

附图说明

图1为本发明实施例提供的基于特征增强和视频历史帧的单目标跟踪方法流程图；

以下结合附图和具体实施例对本发明作进一步详述。

具体实施方式

本发明提供的一种基于特征增强和视频历史帧的单目标跟踪方法，通过Siamese网络的思想，分别提取视频历史帧和当前帧的特征，对历史帧特征进行在线特征增强后与当前帧特征计算相似性矩阵，最后将相似性矩阵送入分类回归网络预测目标位置，能够实现目标跟踪在复杂场景下的鲁棒性和准确率并保持跟踪的实时性要求。

如图1为本发明实施例提供的一种基于特征增强和视频历史帧的单目标跟踪方法流程图，具体包括：

S101：从视频序列中，选取设定数量帧作为历史帧集合，加入二值掩膜mask标签图；

在初始跟踪阶段，采用传统Siamese的方式提取视频初始帧和当前帧的特征，计算其相似性。在历史帧不足五帧的情况下，选择第一帧作为历史帧，并按照等间隔复制的方式选取剩余的四帧作为历史帧，然后加入二值掩膜mask标签图作为历史帧集合。二值掩膜标签图是一个根据目标框位置而设定的0-1值图像，其作用是突出历史帧的目标区域。在剩余的跟踪任务过程中，需要每间隔20帧通过随机仿射变换的取样方式重新选择一次历史帧集合，并且将最大帧索引间隙设置为100帧以内，采样公式如下：

其中Δ_i是帧在第i段的偏移量。跟踪开始阶段，历史帧序列不足五帧的情况下，通过随机复制的方式补齐历史帧的数量。

S102：将含标签历史帧集合和当前帧，输入特征提取骨干网络进行历史帧特征提取和当前帧特征提取；将历史帧集合和二值掩膜mask标签图输入第一特征提取骨干网络进行历史帧特征提取，将当前帧输入第二特征提取骨干网络进行当前帧特征提取；

分别对历史帧和当前帧用GoogleNet骨干网络进行特征提取，并使用额外的线性卷积层进行特征降维。为了使网络提升目标特征的提取性能，历史帧和当前帧的两个分支使用的是相同架构但不同参数的骨干网络，以适应不同背景特征提取能力。其特征提取公式如下：

的第一层网络将历史帧m与标签图c重塑为相同尺寸。

表示历史帧特征提取网络的第一层，

表示除第一层外的历史帧特征提取网络。然后利用剩余的骨干网络进行特征提取，最后利用线性卷积层m将特征降维。最后，将历史帧特征沿通道拼接。对于跟踪任务，后续每一帧都要返回步骤一进行历史帧选取。

S103：将提取的历史帧特征沿通道拼接，得到拼接后的历史帧特征；

S104：根据自设计的EnhanceNet模块提供的离线训练阶段输出的卷积参数，对拼接后的历史帧特征进行在线特征增强；

其中，X_t为对拼接后的历史帧原始特征，

为对拼接后的历史帧增强特征，M_o是目标二值掩膜标签图，W_o是目标区域特征增强卷积参数，W_b是背景区域特征增强卷积参数，这两个卷积参数都由离线网络EnhanceNet训练获得，用以提供给线跟踪时特征增强阶段使用，这两个卷积参数都由离线网络EnhanceNet训练获得；

将原始特征与增强特征进行混合，混合公式如下：

其中α₁和α₂分别设置为0.1和0.7。

S105：通过softmax函数计算经过增强后的历史帧特征和当前帧特征的相似性矩阵，并将相似性矩阵与当前帧特征矩阵沿通道拼接，得到相似性响应图；

与基于Siamese跟踪算法中的互相关计算不同，本发明方法将相似度计算应用于高斯函数以优化结果，利用softmax函数通过计算历史帧特征和当前帧特征每个像素之间的相似度。

具体地，通过softmax函数计算经过增强后的历史帧特征和当前帧特征的相似性矩阵，具体为：

利用softmax函数计算像素级的相似度，其公式如下：

其中缩放因子s用于防止exp函数溢出，其值设为

S106：将相似性响应图输入头部网络中，所述头部网络由分类网络和回归网络组成，分类网络预测相似性响应图每个像素点的目标得分，在得分最高的像素点处，通过回归网络预测该像素点对应原图的目标框位置，实现单目标跟踪。

回归网络输出一个四维向量，分别表示像素点到目标框四条边的距离。

上述仅为本发明的具体实施方式，但本发明的设计构思并不局限于此，凡利用此构思对本发明进行非实质性的改动，均应属于侵犯本发明保护范围的行为。

Claims

1.一种基于特征增强和视频历史帧的单目标跟踪方法，其特征在于，包括以下处理步骤：

2.如权利要求1所述的基于特征增强和视频历史帧的单目标跟踪方法，其特征在于，从视频序列中，选取设定数量帧作为历史帧集合，具体包括：

3.如权利要求1所述的基于特征增强和视频历史帧的单目标跟踪方法，其特征在于，所述步骤2，具体为：

表示历史帧特征提取网络的第一层，

表示除第一层外的历史帧特征提取网络。

4.如权利要求1所述的基于特征增强和视频历史帧的单目标跟踪方法，其特征在于，步骤4中根据自设计的EnhanceNet模块提供的离线训练阶段输出的卷积参数，对拼接后的历史帧特征进行在线特征增强，具体为：

其中，X_t为对拼接后的历史帧原始特征，

将原始特征与增强特征进行混合，混合公式如下：

其中α₁和α₂分别设置为0.1和0.7。

5.如权利要求1所述的基于特征增强和视频历史帧的单目标跟踪方法，其特征在于，步骤5通过softmax函数计算经过增强后的历史帧特征和当前帧特征的相似性矩阵，具体为：

利用softmax函数计算像素级的相似度，其公式如下：

其中缩放因子s用于防止exp函数溢出，其值设为

6.如权利要求1所述的基于特征增强和视频历史帧的单目标跟踪方法，其特征在于，步骤6中，所述头部网络中的分类网络和回归网络，都包含7个卷积层，每个卷积层后都采用ReLU作为激活函数。