CN113888590B

CN113888590B - 一种基于数据增强和孪生网络的视频目标跟踪方法

Info

Publication number: CN113888590B
Application number: CN202111066330.7A
Authority: CN
Inventors: 田联房; 余陆斌; 杜启亮
Original assignee: South China University of Technology SCUT; Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Current assignee: South China University of Technology SCUT; Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Priority date: 2021-09-13
Filing date: 2021-09-13
Publication date: 2024-04-16
Anticipated expiration: 2041-09-13
Also published as: CN113888590A

Abstract

本发明公开了一种基于数据增强和孪生网络的视频目标跟踪方法，包括步骤：1)设置视频中的跟踪目标模板和待搜索区域；2)利用数据增强模块对跟踪目标进行数据增强得到数据增强后的目标模板；3)使用孪生网络提取数据增强后的目标模板的特征图和提取待搜索区域的特征图；4)利用数据增强后的目标模板的特征图和搜索区域的特征图进行匹配得到响应图；5)获取响应图中响应值最大的位置预测目标位置。本发明利用数据增强模块增加视频中待跟踪目标的多样性后，利用孪生网络对视频序列中的目标进行跟踪，使得在遇到跟踪目标有较大形变、光照变化、背景杂乱等干扰等情况时，仍然能保证优异的性能。

Description

一种基于数据增强和孪生网络的视频目标跟踪方法

技术领域

本发明涉及图像模式识别与目标跟踪的技术领域，尤其是指一种基于数据增强和孪生网络的视频目标跟踪方法。

背景技术

目标跟踪是计算机视觉任务中的重要一环，在视频监控、无人驾驶等任务中有着广泛应用。由于目标检测算法往往存在实时性和稳定性的问题，需要具有较强鲁棒性的目标跟踪算法辅助获得稳定的检测目标。

随着深度学习的发展，基于孪生网络的跟踪凭借着快速性和优异的性能，在目标跟踪领域引起了极大的关注。然而，现有基于孪生网络的跟踪算法都存在一定局限性：某些计算机视觉任务中视频的分辨率有限，当分辨率过低的时候图像会损失部分特征，影响跟踪算法的性能。当跟踪目标出现较大形变、复杂背景的干扰等情况，跟踪性能通常会显著下降。因此设计一种在面对复杂情况时仍然能保持优异性能的跟踪方法有非常大的应用价值。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种基于数据增强和孪生网络的视频目标跟踪方法，在遇到跟踪目标有较大形变、光照变化、背景杂乱等干扰等情况时，仍然能保证优异的性能，可靠性高。

为实现上述目的，本发明所提供的技术方案为：一种基于数据增强和孪生网络的视频目标跟踪方法，主要是利用数据增强模块增加视频中待跟踪目标的多样性后，再利用孪生网络对视频序列中的目标进行跟踪，包括以下步骤：

1)设置视频中的跟踪目标模板和待搜索区域；

2)利用数据增强模块对跟踪目标进行数据增强得到数据增强后的目标模板；

3)使用孪生网络提取数据增强后的目标模板的特征图和提取待搜索区域的特征图；

4)利用数据增强后的目标模板的特征图和搜索区域的特征图进行匹配得到响应图；

5)获取响应图中响应值最大的位置预测目标位置。

进一步，在步骤1)中，将视频中画面的第一帧图像以目标为中心裁剪出a*a大小的图像作为跟踪目标模板z，在后续视频中目标可能出现的区域裁剪出b*b大小的图像作为待搜索区域x。

进一步，在步骤2)中，利用数据增强模块对跟踪目标模板z进行数据增强得到数据增强后的目标模板z₁；所述数据增强模块包含亮度变换操作、随机去除像素操作、对比度调整操作、裁剪图像操作和水平翻转操作；所述亮度变换操作是将输入图像的亮度变化为原始亮度的c倍，所述随机去除像素操作是将输入图像中所有像素以d％的概率替换为黑色像素，所述对比度调整操作是将输入图像的对比度变化为e，所述裁剪图像操作是在输入图像的边缘随机裁剪掉宽度为0-16像素的区域，所述水平翻转操作是使输入图像按水平方向180°翻转。

进一步，在步骤3)中，使用孪生网络提取数据增强后的目标模板的特征图和提取待搜索区域的特征图/>具体如下：

a、构建包含模板分支和搜索分支的孪生网络；模板分支与搜索分支均为卷积神经网络，具体如下：

第一层为卷积层C1，使用11*11*96卷积核，步长为2，对输入图像进行卷积操作，然后使用3*3的最大池化操作和批标准化操作；

第二层为卷积层C2，使用5*5*256、步长为1的卷积核分别进行卷积操作，然后使用3*3的最大池化操作和批标准化操作来提取特征信息；

第三层为卷积层C3，使用3*3*192的卷积核分别进行卷积操作并继续批标准化操作；

第四层为卷积层C4，使用3*3*192的卷积核分别进行操作并继续批标准化操作；

第五层为卷积层C5，仅使用3*3*128的卷积操作，最后输出256维的特征图；

b、将数据增强后的目标模板z₁和待搜索区域x分别输入到模板分支和搜索分支进行特征提取，得到提取数据增强后的目标模板的特征图和待搜索区域的特征图

进一步，在步骤4)中，利用数据增强后的目标模板的特征图和待搜索区域的特征图/>进行匹配得到响应图f(z₁,x)，匹配公式如下：

式中，g为互相关卷积；z₁代表利用数据增强模块对跟踪目标模板z进行数据增强得到数据增强后的目标模板；x为搜索区域，代表后续视频中目标可能出现的区域。

进一步，在步骤5)中，在响应图f(z₁,x)中寻找响应值最高的一点，该点在待搜索区域中的对应位置，就是预测的目标位置。

本发明与现有技术相比，具有如下优点与有益效果：

现有的基于孪生网络的跟踪方法当遇到跟踪目标有较大形变、光照变化、背景杂乱等干扰时，性能往往会大幅度下降，而通过本发明方法，可以增强跟踪目标模板的多样性，当遇到跟踪目标有较大形变、光照变化、背景杂乱等干扰等情况时，仍然能保证优异的性能，可靠性高，具有实际应用价值，值得推广。

附图说明

图1为本发明方法整体框架图。

图2为数据增强模块的数据增强流程图。

图3为模板分支和搜索分支的网络结构图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1所示，本实施例所述的基于数据增强和孪生网络的视频目标跟踪方法，主要是利用数据增强模块增加视频中待跟踪目标的多样性后，再利用孪生网络对视频序列中的目标进行跟踪，包括以下步骤：

1)设置视频中的跟踪目标模板和待搜索区域；

将视频中画面的第一帧图像以目标为中心裁剪出a*a大小的图像作为跟踪目标模板z，在后续视频中目标可能出现的区域裁剪出b*b大小的图像作为待搜索区域x。

本实施例中，通过反复实验以下参数能取得较好的效果，此时：a＝127，b＝255。

利用数据增强模块对跟踪目标模板z进行数据增强得到数据增强后的目标模板z₁；所述数据增强模块包含亮度变换操作、随机去除像素操作、对比度调整操作、裁剪图像操作和水平翻转操作；所述亮度变换操作是将输入图像的亮度变化为原始亮度的c倍，所述随机去除像素操作是将输入图像中所有像素以d％的概率替换为黑色像素，所述对比度调整操作是将输入图像的对比度变化为e，所述裁剪图像操作是在输入图像的边缘随机裁剪掉宽度为0-16像素的区域，所述水平翻转操作是使输入图像按水平方向180°翻转。

数据增强流程如图2所示，本实施例中，通过反复实验以下参数能取得较好的效果，此时：c＝1.4，d＝1，e＝0.7。

3)使用孪生网络提取数据增强后的目标模板的特征图和提取待搜索区域的特征图/>具体如下：

a、构建包含模板分支和搜索分支的孪生网络；如图3所示，模板分支与搜索分支均为卷积神经网络，具体如下：

在本实施例中，对模板分支和搜索分支用COCO数据集进行训练能取得较好的效果。

4)利用数据增强后的目标模板的特征图和待搜索区域的特征图/>进行匹配得到响应图f(z₁,x)，匹配公式如下：

5)在响应图f(z₁,x)中寻找响应值最高的一点，该点在待搜索区域中的对应位置，就是预测的目标位置。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于数据增强和孪生网络的视频目标跟踪方法，其特征在于：利用数据增强模块增加视频中待跟踪目标的多样性后，再利用孪生网络对视频序列中的目标进行跟踪，包括以下步骤：

1)设置视频中的跟踪目标模板和待搜索区域；

将视频中画面的第一帧图像以目标为中心裁剪出a*a大小的图像作为跟踪目标模板z，在后续视频中目标可能出现的区域裁剪出b*b大小的图像作为待搜索区域x；

b、将数据增强后的目标模板z₁和待搜索区域x分别输入到模板分支和搜索分支进行特征提取，得到提取数据增强后的目标模板的特征图和待搜索区域的特征图/>

式中，g为互相关卷积；z₁代表利用数据增强模块对跟踪目标模板z进行数据增强得到数据增强后的目标模板；x为搜索区域，代表后续视频中目标可能出现的区域；

5)获取响应图中响应值最大的位置预测目标位置；

在响应图f(z₁,x)中寻找响应值最高的一点，该点在待搜索区域中的对应位置，就是预测的目标位置。

2.根据权利要求1所述的一种基于数据增强和孪生网络的视频目标跟踪方法，其特征在于：在步骤2)中，利用数据增强模块对跟踪目标模板z进行数据增强得到数据增强后的目标模板z₁；所述数据增强模块包含亮度变换操作、随机去除像素操作、对比度调整操作、裁剪图像操作和水平翻转操作；所述亮度变换操作是将输入图像的亮度变化为原始亮度的c倍，所述随机去除像素操作是将输入图像中所有像素以d％的概率替换为黑色像素，所述对比度调整操作是将输入图像的对比度变化为e，所述裁剪图像操作是在输入图像的边缘随机裁剪掉宽度为0-16像素的区域，所述水平翻转操作是使输入图像按水平方向180°翻转。