CN110349176B

CN110349176B - 基于三重卷积网络和感知干扰学习的目标跟踪方法和系统

Info

Publication number: CN110349176B
Application number: CN201910582872.6A
Authority: CN
Inventors: 韩守东; 夏鑫鑫; 夏晨斐; 黄飘
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2021-04-06
Anticipated expiration: 2039-06-28
Also published as: CN110349176A

Abstract

本发明公开了一种基于三重卷积网络和感知干扰学习的目标跟踪方法和系统，属于图像处理和机器视觉中的目标跟踪研究领域，方法包括：将待跟踪视频输入三重卷积网络得到目标跟踪结果；三重卷积网络的训练包括：构建三重卷积网络，从数据集中获取正样本对与负样本对得到训练集；利用训练集训练三重卷积网络，训练集中每个样本对的两张图像分别输入模板分支与检测分支，或者分别输入第一帧分支与检测分支；模板分支与第一帧分支分别提取表观模型特征图，将两个表观模型特征图分别与检测分支的特征图进行交叉相关，得到两个响应图；分别计算两个响应图的损失进行反向传播，由此得到训练好的三重卷积网络。本发明方法目标跟踪准确性较高。

Description

基于三重卷积网络和感知干扰学习的目标跟踪方法和系统

技术领域

本发明属于图像处理和机器视觉中的目标跟踪研究领域，更具体地，涉及一种基于三重卷积网络和感知干扰学习的目标跟踪方法和系统。

背景技术

作为计算机视觉领域的一个重要研究方向，目标跟踪的主要任务是在给定待跟踪目标初始位置的情况下，在视频的后续帧准确可靠地预测目标的位置和大小。

目前目标跟踪算法存在很多挑战性因素，主要可以分为内在因素和外在因素。内在因素是目标自身的变化，例如目标的快速运动、旋转、形变等。外在因素主要是外部环境的变化，例如目标被部分或者完全遮挡，在目标区域中光照变化剧烈等。

目标跟踪是在视频帧中定位感兴趣的目标的过程，现有的跟踪器可以分为传统的视觉跟踪算法和深度学习跟踪算法。最近几年，深度学习在计算机视觉各大领域都取得了不错的效果，一些基于深度学习的跟踪器应运而生，并且跟踪性能取得了很大改善。现有的基于深度学习的跟踪算法效果较好的是孪生神经网络系列跟踪算法，大部分基于孪生网络的跟踪算法的输入都是上下帧，因此当前一帧跟错的时候后续帧都会受到影响。同时大部分基于孪生网络的跟踪算法对于类内干扰都比较难区分。

由此可见，现有技术存在对于类内干扰都比较难区分、目标跟踪不准确的技术问题。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于三重卷积网络和感知干扰学习的目标跟踪方法和系统，由此解决现有技术存在对于类内干扰都比较难区分、目标跟踪不准确的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于三重卷积网络和感知干扰学习的目标跟踪方法，包括：

将待跟踪视频的第一帧、当前帧和前一帧输入三重卷积网络进行目标跟踪，得到目标跟踪结果；

所述三重卷积网络的训练包括：

构建由第一帧分支，模板分支和检测分支组成的三重卷积网络，第一帧分支与检测分支的输出连接到一个交叉相关网络，模板分支与检测分支的输出连接到另一个交叉相关网络，两个交叉相关网络结构相同；

从数据集中获取正样本对与负样本对得到多个样本对组成的训练集；所述数据集中每个视频中的每一帧含有一个或多个目标；

利用训练集训练三重卷积网络，训练集中每个样本对的两张图像分别输入模板分支与检测分支，或者分别输入第一帧分支与检测分支；模板分支与第一帧分支分别通过各自的相关滤波层提取表观模型特征图，将两个表观模型特征图分别与检测分支的特征图在交叉相关网络进行交叉相关，得到两个响应图；分别计算两个响应图的损失进行反向传播，由此得到训练好的三重卷积网络。

进一步地，数据集中的每一个目标标记track-id和类别，所述正样本对为数据集中同一视频中不同的两帧图像中相同track-id对应的目标图像。

进一步地，负样本对包括：容易区分的负样本对，难区分的负样本对和很难区分的负样本对，

所述容易区分的负样本对为目标图像与其背景图像生成的样本对；

所述难区分的负样本对为不同类别的两个目标图像生成的样本对；

所述很难区分的负样本对为相同类别的两个不同目标图像生成的样本对。

进一步地，训练集中每个样本对的两张图像均进行预处理，所述预处理包括：

将训练集中每个样本对的每张图像扩充为方形图像，再将方形图像根据尺度变换得到固定大小的图像。

进一步地，方形图像的边长为：

其中，sz为方形图像的边长，w和h分别为待扩充图像的宽和高，p为扩充边长。

进一步地，三重卷积网络中第一帧分支网络结构是在检测分支网络后面增加一个相关滤波层，模板分支网络结构与第一帧分支网络结构相同。

进一步地，三重卷积网络的训练还包括：

模板分支通过其相关滤波层提取表观模型特征图，表观模型特征图与检测分支的特征图在交叉相关网络进行交叉相关，得到响应图，利用响应图置信度对模板分支的相关滤波层进行高置信度更新。

所述目标跟踪的具体实现方式为：

将待跟踪视频的第一帧、当前帧和前一帧输入三重卷积网络，得到两个响应图，将两个响应图根据响应图置信度进行加权融合，得到目标跟踪结果。

按照本发明的另一方面，提供了一种基于三重卷积网络和感知干扰学习的目标跟踪系统，包括：

网络构建模块，用于构建由第一帧分支，模板分支和检测分支组成的三重卷积网络，第一帧分支与检测分支的输出连接到一个交叉相关网络，模板分支与检测分支的输出连接到另一个交叉相关网络，两个交叉相关网络结构相同；

训练集组成模块，用于从数据集中获取正样本对与负样本对得到多个样本对组成的训练集；所述数据集中每个视频中的每一帧含有一个或多个目标；

网络训练模块，用于利用训练集训练三重卷积网络，训练集中每个样本对的两张图像分别输入模板分支与检测分支，或者分别输入第一帧分支与检测分支；模板分支与第一帧分支分别通过各自的相关滤波层提取表观模型特征图，将两个表观模型特征图分别与检测分支的特征图在交叉相关网络进行交叉相关，得到两个响应图；分别计算两个响应图的损失进行反向传播，由此得到训练好的三重卷积网络；

目标跟踪模块，用于将待跟踪视频的第一帧、当前帧和前一帧输入三重卷积网络进行目标跟踪，得到目标跟踪结果。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明主要针对孪生网络跟踪算法的缺点，在孪生网络结构基础上增加第一帧分支，网络结构根据模板分支与第一帧分支共同得到跟踪结果，使得前一帧即使跟错，对当前帧跟踪结果的影响也比较小。通过增加第一帧分支和加入感知干扰学习的方法，可以使网络鲁棒性更强，提高跟踪的准确性。同时加入具有语义信息的负样本对网络进行训练，增强网络区分类内干扰的能力。

(2)本发明增加第一帧分支，减少前一帧跟踪不准确或者相关滤波器漂移带来的影响，可以根据新增的交叉相关网络层得到的响应图得到正确的跟踪结果。

(3)本发明增加感知干扰学习策略，加入三种不同难度的负样本对应用于网络的训练，使得网络能够区分类内干扰。本发明增加高置信度更新策略，应用于模板分支的相关滤波层的参数更新，可以减少相关滤波器和外观模型的漂移。

附图说明

图1是本发明实施例提供的一种基于三重卷积网络和感知干扰学习的目标跟踪方法的流程图；

图2(a1)是本发明实施例提供的第一组容易区分的负样本对中的一张图像；

图2(a2)是本发明实施例提供的第一组容易区分的负样本对中的另一张图像；

图2(b1)是本发明实施例提供的第二组容易区分的负样本对中的一张图像；

图2(b2)是本发明实施例提供的第二组容易区分的负样本对中的另一张图像；

图2(c1)是本发明实施例提供的第一组难区分的负样本对中的一张图像；

图2(c2)是本发明实施例提供的第一组难区分的负样本对中的另一张图像；

图2(d1)是本发明实施例提供的第二组难区分的负样本对中的一张图像；

图2(d2)是本发明实施例提供的第二组难区分的负样本对中的另一张图像；

图2(e1)是本发明实施例提供的第一组很难区分的负样本对中的一张图像；

图2(e2)是本发明实施例提供的第一组很难区分的负样本对中的另一张图像；

图2(f1)是本发明实施例提供的第二组很难区分的负样本对中的一张图像；

图2(f2)是本发明实施例提供的第二组很难区分的负样本对中的另一张图像；

图3(a)是本发明实施例提供的第一组正样本对中的一张图像；

图3(b)是本发明实施例提供的第一组正样本对中的另一张图像；

图3(c)是本发明实施例提供的第二组正样本对中的一张图像；

图3(d)是本发明实施例提供的第二组正样本对中的另一张图像。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，一种基于三重卷积网络和感知干扰学习的目标跟踪方法，通过增加第一帧分支和加入感知干扰学习的方法，可以使网络鲁棒性更强，提高跟踪的准确性。包括以下步骤：

步骤1，预处理目标跟踪训练数据集：数据集为VID数据集，数据集中的每个视频中的每一帧含有一个或多个目标，将每个目标标记track-id，并标记类别。输入图像的宽高分别为w和h，扩充边长为：

方形图像边长为：

输入图像通过padding扩充为方形图像，再将方形图像根据尺度变换得到255*255固定大小的图像。

步骤2，样本对的生成：共有正样本对与三种负样本对，样本对的两张图像分别是模板分支与检测分支的输入图像，或者第一帧分支与检测分支的输入图像。负样本对分成三种，分别是：容易区分的负样本对，难区分的负样本对和很难区分的负样本对。

容易区分的负样本对是目标图像与其背景图像生成的样本对，具体方法为：选出同一视频中不同的两帧图像，其中一帧图像随机选择一个track-id生成对应的目标图像，根据步骤1生成一个样本，另一帧图像根据随机选择的track-id对应的目标图像中心分成四部分，随机选择其中一部分背景根据步骤1生成另一个样本，具体地，图2(a1)是第一组容易区分的负样本对中的一张图像，图2(a2)是第一组容易区分的负样本对中的另一张图像，图2(b1)是第二组容易区分的负样本对中的一张图像，图2(b2)是第二组容易区分的负样本对中的另一张图像。

难区分的负样本对为不同类别的两个目标图像生成的负样本对，具体生成做法为：随机选择视频中任意一帧图像中的任意一个track-id对应的目标图像根据步骤1生成一个样本图像，此样本目标类别为class 1，然后随机选择另一个视频中类别不为class 1的另一目标图像，同样根据步骤1生成样本图像，两个样本图像生成难区分的负样本对，具体地，图2(c1)是第一组难区分的负样本对中的一张图像，图2(c2)是第一组难区分的负样本对中的另一张图像，图2(d1)是第二组难区分的负样本对中的一张图像，图2(d2)是第二组难区分的负样本对中的另一张图像。

很难区分的负样本对为相同类别的两个不同目标图像生成的负样本对，具体生成做法如下：随机选择任一视频中任意一帧图像中的任意一个track-id对应的目标图像根据步骤1生成一个样本图像，此样本目标类别为class 1，然后随机选择另一个视频中类别为class 1的另一目标图像，同样根据步骤1生成样本图像，两个样本图像生成很难区分的负样本对，具体地，图2(c1)是第一组难区分的负样本对中的一张图像，图2(c2)是第一组难区分的负样本对中的另一张图像；图2(d1)是第二组难区分的负样本对中的一张图像，图2(d2)是第二组难区分的负样本对中的另一张图像。

同一视频中不同的两帧图像中相同track-id对应的目标图像通过步骤1形成的图片对为正样本对，具体地，图3(a)是第一组正样本对中的一张图像，图3(b)是第一组正样本对中的另一张图像，图3(c)是第二组正样本对中的一张图像，图3(d)是第二组正样本对中的另一张图像。

步骤3，调整训练网络：构建由第一帧分支，模板分支和检测分支组成的三重卷积网络，检测分支网络结构为Alexnet，第一帧分支网络结构是在检测分支网络后面增加一个相关滤波层，模板分支网络结构与第一帧分支网络结构相同。

第一帧分支与检测分支的输出连接到一个交叉相关网络，模板分支与检测分支的输出连接到另一个交叉相关网络，两个交叉相关网络结构相同，它们的输出响应图独立进行训练，分别计算两个响应图的损失进行反向传播，损失都为交叉熵损失。交叉熵损失公式为：

其中v是响应图的实际输出，y是真实标签{+1，-1}，而标签的定义如下：

其中c指的是目标区域中心，k指的是网络最后一层的步长，R为人为设定的距离阈值，u是目标区域，D是某一帧图像。

步骤4，训练网络：使用步骤2中所得到的训练数据集，训练步骤3中的带有相关滤波层的三重卷积网络，利用grad算法对网络中的参数进行优化升级，设置batch_size为8。

步骤5，进行目标跟踪：利用步骤4中训练得到的网络模型，输入跟踪视频的第一帧，前一帧，当前帧图像，输出得到两个响应图v₁和v₂，计算两个跟踪结果的置信度，置信度计算公式如下：

其中，F_max，F_min分别表示响应图的最大值和最小值，F_w，h表示响应图F(s，y∶w)第w行第h列的响应值。根据置信度进行响应图的加权融合，得到最后的跟踪结果。加权融合公式如下：

v＝λ₁v₁+(1-λ₁)v₂

其中，λ₁为加权系数，计算公式如下：

其中，APME{v₁}为根据响应图v₁得到的跟踪结果置信度APME值，APME{v₂}为根据响应图v₂得到的跟踪结果置信度APME值。

同时，模板分支的输出相应图置信度若满足如下公式，则其相关滤波层参数进行相应的更新，外观模型也根据当前跟踪结果进行相应更新。

其中β₁为0.7，β₂为0.45，

为历史帧响应图最大值的均值，

为历史帧响应图APME的均值。

网络的三个输入分别是跟踪视频的第一帧目标、上一帧目标和当前帧搜索区域，经过相同的网络进行卷积后，将模板分支与第一帧分支的卷积特征分别经过各自的相关滤波层提取表观模型特征图，将两个表观模型特征图分别与检测分支的特征图进行交叉相关，得到两个响应图；将两个响应图根据响应图置信度进行加权融合，模板分支的相关滤波层根据它的响应图置信度进行高置信度更新；将两种具有语义信息的负样本对加入网络训练中，使得网络可以有效地区分类内干扰；本发明可以减少分类器的漂移，增强网络区分干扰的能力，并提高目标跟踪的准确度。

综上所述，本发明使用三重卷积网络进行跟踪，并引入感知干扰学习到网络训练中，能有效的提高目标跟踪的准确率。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于三重卷积网络和感知干扰学习的目标跟踪方法，其特征在于，包括：

所述三重卷积网络的训练包括：

利用训练集训练三重卷积网络，训练集中每个样本对的两张图像分别输入模板分支与检测分支，并且分别输入第一帧分支与检测分支；模板分支与第一帧分支分别通过各自的相关滤波层提取表观模型特征图，将两个表观模型特征图分别与检测分支的特征图在交叉相关网络进行交叉相关，得到两个响应图；分别计算两个响应图的损失进行反向传播，由此得到训练好的三重卷积网络；

所述数据集中的每一个目标标记track-id和类别，所述正样本对为数据集中同一视频中不同的两帧图像中相同track-id对应的目标图像；

所述负样本对包括：容易区分的负样本对，难区分的负样本对和很难区分的负样本对，

2.如权利要求1所述的一种基于三重卷积网络和感知干扰学习的目标跟踪方法，其特征在于，所述训练集中每个样本对的两张图像均进行预处理，所述预处理包括：

3.如权利要求1所述的一种基于三重卷积网络和感知干扰学习的目标跟踪方法，其特征在于，所述三重卷积网络中第一帧分支网络结构是在检测分支网络后面增加一个相关滤波层，模板分支网络结构与第一帧分支网络结构相同。

4.如权利要求1所述的一种基于三重卷积网络和感知干扰学习的目标跟踪方法，其特征在于，所述三重卷积网络的训练还包括：

5.如权利要求1所述的一种基于三重卷积网络和感知干扰学习的目标跟踪方法，其特征在于，所述目标跟踪的具体实现方式为：

6.一种基于三重卷积网络和感知干扰学习的目标跟踪系统，其特征在于，包括：

训练集组成模块，用于从数据集中获取正样本对与负样本对得到多个样本对组成的训练集；所述数据集中每个视频中的每一帧含有一个或多个目标；所述数据集中的每一个目标标记track-id和类别，所述正样本对为数据集中同一视频中不同的两帧图像中相同track-id对应的目标图像；所述负样本对包括：容易区分的负样本对，难区分的负样本对和很难区分的负样本对，所述容易区分的负样本对为目标图像与其背景图像生成的样本对；所述难区分的负样本对为不同类别的两个目标图像生成的样本对；所述很难区分的负样本对为相同类别的两个不同目标图像生成的样本对；

网络训练模块，用于利用训练集训练三重卷积网络，训练集中每个样本对的两张图像分别输入模板分支与检测分支，并且分别输入第一帧分支与检测分支；模板分支与第一帧分支分别通过各自的相关滤波层提取表观模型特征图，将两个表观模型特征图分别与检测分支的特征图在交叉相关网络进行交叉相关，得到两个响应图；分别计算两个响应图的损失进行反向传播，由此得到训练好的三重卷积网络；