CN114359336A

CN114359336A - 基于光流和动态级联rpn的目标跟踪算法

Info

Publication number: CN114359336A
Application number: CN202111436816.5A
Authority: CN
Inventors: 赵建军; 潘超林; 储珺
Original assignee: Nanchang Hangkong University
Current assignee: Nanchang Hangkong University
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-04-15
Anticipated expiration: 2041-11-30
Also published as: CN114359336B

Abstract

本发明公开了一种基于光流和动态级联RPN的目标跟踪算法，其步骤依次为：自适应视频采样、构建光流特征模块、多类特征融合、构建动态RPN结构、构建跟踪框架。本发明使用光流特征来获取时序信息，解决局部遮挡问题和相似物干扰问题；通过融合各种特征来提高模型的鲁棒性，完成复杂背景下的目标跟踪；通过增加约束条件来优化算法的运行速度，并且利用动态规划方法进一步提高算法的实时性；自适应视频采样方式，既能解决固定采样间隔方式不能批量训练的问题，又能解决固定采样总帧数方式破坏光流约束的问题；结合光流信息和外观信息建模，融合语义特征、光流特征和低层融合特征，提高模型的判别能力，使其能在复杂背景下成功跟踪目标。

Description

基于光流和动态级联RPN的目标跟踪算法

技术领域

本发明属于计算机视觉技术领域，涉及一种基于光流和动态级联RPN的目标跟踪算法。

背景技术

目标跟踪在智能监控和人机交互中得到广泛的应用，如：银行、超市等场合常常使用目标跟踪分析技术，通过定位物体并对其行为进行分析，一旦发现物体有异常行为，监控系统就发出警报，提醒人们注意并及时处理，改善人工监督注意力分散、反应时间较慢、人力资源浪费等问题。另外，目标跟踪技术在虚拟现实、工业控制、军事设备、医学研究、视频监控、交通流量观测监控等很多领域也有重要的实用价值。特别在军事上，先进的武器导航、军事侦察和监控中都成功运用了自动跟踪技术。

目标跟踪的难点在于如何克服场景中可能出现的一系列问题(如目标遮挡、相似物干扰、目标形变等)，从而快速而准确地在每一帧图像中实现目标定位。现有技术已经提供了很多有效的方法，但是很多算法不能同时满足实时性和精确性的要求，特别是在复杂场景下，当出现相似物干扰、目标形变、遮挡等情况时，目标会发生漂移。因此，现有技术主要存在以下问题：（1）当目标被局部遮挡时会跟踪失败；（2）当背景复杂或者有相似物干扰时会跟踪失败；（3）当目标产生剧烈形变时定位不准确；（4）未充分利用时序信息；（5）算法的速度和性能不能得到很好的平衡等。

发明内容

本发明的目的是针对上述问题，提供一种基于光流和动态级联RPN的目标跟踪算法，通过自适应视频采样方式，既能解决固定采样间隔方式不能批量训练的问题，又能解决固定采样总帧数方式破坏光流约束的问题；结合光流信息和外观信息建模，融合语义特征、光流特征和低层融合特征，旨在提高模型的判别能力，使其能在复杂背景下成功跟踪目标；在级联RPN中加入判断分支，形成动态级联RPN，提前预测简单样本中待跟踪目标的位置。

为实现本发明的目的，本发明采取如下技术方案。

基于光流和动态级联RPN的目标跟踪算法，其特征在于，包括以下步骤：

（1）自适应视频采样，按照视频长度进行聚类，对相同类别的视频使用固定总帧数方式采样，因为固定采样总帧数是动态计算的，所以不同类别的视频采样总帧数一般不一样，这种方式既可以满足小运动，又可以使网络进行批量训练。

（2）构建光流特征模块，将光流信息加入深度网络中，利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧和当前帧之间存在的对应关系。

（3）多类特征融合：将卷积网络输出的语义特征，光流特征模块输出的光流特征和低层特征融合模块输出的低层融合特征通过Concat或者Sum方式融合。语义特征能增强模型的鲁棒性，光流特征不仅包含位置信息，还包含时序信息，低层融合特征能够提供低层空间信息。

（4）构建动态级联RPN结构：先构建动态单元模块，然后通过堆叠动态单元模块和RPN模块构建动态级联RPN结构。通过级联RPN方式，RPN每次输出回归框时，根据置信度过滤简单样本对应的回归框，将剩余的回归框作为下一个RPN的初始框，RPN每次都通过回归分支输出目标位置偏移，通过对目标位置多次回归，可以增加定位精确度。

（5）构建跟踪框架：利用孪生网络设计结构，保持级联结构，使用动态单元模块作为基本模块，并且将光流特征加入网络结构，在级联过程中加入判断分支，用于提前终止跟踪过程。

进一步地，步骤（1）中自适应视频采样将数据集中的所有视频通过聚类算法分成k类，计算该类别中中位数与聚类中心的差值，将这个差值作为采样的总帧数，当差值为0时，就分别计算聚类中心到该类别最大值和最小值的差值，取两者中较小的值作为采样密度；采样方式如下所示：

其中，β表示采样的总帧数，Lcenter表示聚类中心，Lmid表示中位数，Lmax表示该类别最大长度，Lmin表示该类别最小长度，min(a, b)表示取出两者中较小的那个数。

进一步地，步骤（2）中在提取光流特征时，首先使用1x1卷积对第t帧和第t-1帧的语义特征进行降维处理，然后使用Sobel算子提取第t-1帧的空间特征，接着将第t帧和第t-1帧的语义特征相减得到时序信息，最后将两个分支的特征通过Concat连接，连接后的特征为光流特征。

进一步地，步骤（3）中在融合语义特征、光流特征和低层融合特征时，先进行降维处理，然后通过Concat或者Sum方式融合。因为Concat将所有通道合并，即增加描述图像本身的特征，但是不进行降维处理时，会严重影响速度；Sum将对应通道相加，即描述图像本身的特征没有增加，但是增加了每个特征的信息量，并且不会过于影响速度。

进一步地，步骤（3）中在融合语义特征、光流特征和低层融合特征时，将语义特征和光流特征分别通过1x1卷积降维，对低层的融合特征使用3x3卷积进行下采样，使其保持尺寸一致，最后将三类特征通过Concat或者Sum的方式融合，得到融合特征。

进一步地，步骤（4）中动态单元模块由一个卷积层、一个光流特征模块和一个特征融合模块组成，将上一个动态单元模块输出的第t帧目标的语义特征和第t-1帧目标的语义特征输入到当前动态单元模块中，使用卷积细化目标的语义特征，然后将细化后的语义特征输入光流特征模块提取目标的光流特征，最后将提取的光流特征和细化后的第t帧目标的语义特征和上一层特征融合模块输出的特征输入特征融合模块得到目标的融合特征，经过该模块后输出目标第t-1帧和第t帧的语义特征以及第t帧的融合特征。

进一步地，步骤（4）中动态级联RPN是将动态单元模块输出的第t帧的融合特征输入RPN模块进行分类和回归，得到置信度和回归偏移，将它们输入判断分支，当满足一定条件时直接输出跟踪结果，否则根据置信度筛选一些简单的样本，将剩余的样本输入下一个级联模块，形成级联结构。动态级联RPN的每个级联模块后面增加了一个判断分支，在跟踪过程中，有一些跟踪样本是简单样本(背景单一，无相似干扰)，对于这些样本，可能第1个RPN就已经得到结果，所以并不需要进入后续RPN中继续判断。通过这种方式我们可以进一步提高算法的实时性。

进一步地，步骤（5）中跟踪框架分成上中下三部分，其中上部分和下部分是孪生网络结构，上部分得到与目标有关的特征，记为目标分支，下部分得到与搜索区域有关的特征，记为搜索区域分支，中间部分是动态级联RPN，记为跟踪分支。该框架由骨干网络模块和动态级联RPN组成。先将同一个视频序列中的第t帧和t-1帧的目标输入到目标分支中，通过骨干网络为AlexNet的前两层来提取低层空间特征，提取完特征后，将第二层的特征输出至动态单元模块当中；在动态单元模块中，将卷积后得到语义特征输入至光流模块当中提取光流特征，并将得到光流特征与上一个动态单元模块输出的融合特征以及当前帧的语义特征进行特征融合；最后将得到融合特征输入至RPN模块中进行分类和回归，并通过判断分支和堆叠动态单元模块构造动态级联RPN结构，通过判断分支来判断是否直接返回结果还是进行下一次级联。

进一步地，步骤（4）中动态级联RPN结构的级联层数小于或等于3层。

本发明的技术原理是：使用孪生网络提取特征，构建级联结构，在训练过程中加入干扰项，充分学习匹配机制，应用了干扰项训练策略。加入光流，通过光流利用时序信息，学习目标和搜索区域在相邻帧之间的变化，解决目标局部遮挡问题和相似物干扰问题，将光流作为一种特征融入深度网络。不同的特征融合方式，通过特征融合模块融合语义特征，光流特征，低层融合特征，解决复杂背景下目标漂移问题，因为卷积网络的低层可以提供空间特征，高层可以提供语义特征，光流不仅具有空间信息，还具有时序信息，将这些特征融合可以提高模型的判别性。在级联RPN（区域候选网络）中加入判断分支，形成动态级联的RPN模块，提前输出简单样本的跟踪结果，减少时间开销，提高算法速度；对于复杂样本，通过级联RPN能降低正负样本比例，进行多次位置回归，提高定位精确度。不同的训练方式，首先通过采样得到图片对，训练特征提取分支；然后通过另一种采样方式得到视频序列对，训练光流特征模块；最后将它们微调，进行端到端训练。

本发明的有益效果是：1、本发明使用光流特征来获取时序信息，使其能解决局部遮挡问题和相似物干扰问题；通过融合各种特征来提高模型的鲁棒性，使其能完成复杂背景下的目标跟踪；通过增加约束条件来优化算法的运行速度，并且利用动态规划方法进一步提高算法的实时性。2、本发明的自适应视频采样方式，既能解决固定采样间隔方式不能批量训练的问题，又能解决固定采样总帧数方式破坏光流约束的问题。3、本发明结合光流信息和外观信息建模，融合语义特征、光流特征和低层融合特征，可以提高模型的判别能力，使其能在复杂背景下成功跟踪目标。4、本发明在级联RPN中加入判断分支，形成动态级联RPN，提前预测简单样本中待跟踪目标的位置。

附图说明

图1为本发明算法的流程示意图。

图2为本发明实施例的光流特征模块网络结构图。

图3为本发明实施例的特征融合模块网络结构图。

图4为本发明实施例的动态单元模块网络结构图。

图5为本发明实施例的动态级联RPN结构图。

图6为本发明实施例的跟踪算法的框架示意图。

具体实施方式

给出本发明的实施例并结合给出的实施例对本发明加以说明，但所给出的实施例对本发明不构成任何限制。

如图1所示，基于光流和动态级联RPN的目标跟踪算法的主要步骤依次为：自适应视频采样、构建光流特征模块、多类特征融合、构建动态RPN结构、构建跟踪框架。其具体步骤如下：

（1）自适应视频采样，按照视频长度进行聚类，对相同类别的视频使用固定总帧数方式采样（公式1），因为固定采样总帧数是动态计算的，所以不同类别的视频采样总帧数一般不一样，这种方式既可以满足小运动，又可以使网络进行批量训练。

自适应视频采样将数据集中的所有视频通过聚类算法分成k类，计算该类别中中位数与聚类中心的差值，将这个差值作为采样的总帧数，当差值为0时，就分别计算聚类中心到该类别最大值和最小值的差值，取两者中较小的值作为采样密度；采样方式如下公式1所示：

（1）

其中，β表示采样的总帧数，L_center表示聚类中心，L_mid表示中位数，L_max表示该类别最大长度，L_min表示该类别最小长度，min(a, b)表示取出两者中较小的那个数。

如图2所示，图2是该模块的网络结构图，C^L _t-1和C^L _t分别表示第t帧的语义特征以及第t-1帧的语义特征。在提取光流特征时，首先使用1x1卷积对第t帧和第t-1帧的语义特征进行降维处理，然后使用Sobel算子提取第t-1帧的空间特征，接着将第t帧和第t-1帧的语义特征相减得到时序信息，最后将两个分支的特征通过Concat连接，连接后的特征为光流特征，也是该模块的输出。

在融合语义特征、光流特征和低层融合特征时，先进行降维处理，然后通过Concat或者Sum方式融合。因为Concat将所有通道合并，即增加描述图像本身的特征，但是不进行降维处理时，会严重影响速度；Sum将对应通道相加，即描述图像本身的特征没有增加，但是增加了每个特征的信息量，并且不会过于影响速度。

如图3所示，C^L _t，O^L _t，F^L-1 _t分别表示语义特征，光流特征和低层融合特征。它由三个卷积层组成，其中两个是1x1卷积，另外一个是3x3卷积，Concat表示将三个特征通过Concat方式融合。在融合三类特征时，将语义特征和光流特征分别通过1x1卷积降维，对低层的融合特征使用3x3卷积进行下采样，使其保持尺寸一致，最后将三类特征通过Concat或者Sum的方式融合，得到融合特征。

（4）构建动态级联RPN结构：先构建动态单元模块（如图4），然后通过堆叠动态单元模块和RPN模块构建动态级联RPN结构。

通过级联RPN方式，RPN每次输出回归框时，根据置信度过滤简单样本对应的回归框，将剩余的回归框作为下一个RPN的初始框，RPN每次都通过回归分支输出目标位置偏移，通过对目标位置多次回归，可以增加定位精确度。

动态单元模块的网络结构如图4所示，其中C^L-1 _t-1和C^L-1 _t分别表示上一个动态单元模块输出的第t帧的语义特征以及第t-1帧的语义特征。动态单元模块由一个卷积层、一个光流特征模块和一个特征融合模块组成。具体是将上一个动态单元模块输出的第t帧目标的语义特征和第t-1帧目标的语义特征输入到当前动态单元模块中，使用卷积细化目标的语义特征，然后将细化后的语义特征输入光流特征模块提取目标的光流特征，最后将提取的光流特征和细化后的第t帧目标的语义特征和上一层特征融合模块输出的特征输入特征融合模块得到目标的融合特征，经过该模块后输出目标第t-1帧和第t帧的语义特征以及第t帧的融合特征。

图5是动态级联RPN的网络结构图，将动态单元模块输出（如图4）的第t帧的融合特征输入RPN模块进行分类和回归，得到置信度和回归偏移，将它们输入判断分支，当满足一定条件时直接输出跟踪结果，否则根据置信度筛选一些简单的样本，将剩余的样本输入下一个级联模块，形成级联结构。动态级联RPN的每个级联模块后面增加了一个判断分支，在跟踪过程中，有一些跟踪样本是简单样本(背景单一，无相似干扰)，对于这些样本，可能第1个RPN就已经得到结果，所以并不需要进入后续RPN中继续判断。通过这种方式我们可以进一步提高算法的实时性。

如图6所示，图6为跟踪算法框架，该框架分成上中下三部分，其中上部分和下部分是孪生网络结构，上部分得到与目标有关的特征，记为目标分支，下部分得到与搜索区域有关的特征，记为搜索区域分支，中间部分是动态级联RPN，记为跟踪分支。该框架由骨干网络模块和动态级联RPN组成。Z_t，Z_t-1，X_t，X_t-1分别表示第t帧目标，第t-1帧目标，第t帧搜索区域，第t-1帧搜索区域。骨干网络由AlexNet的前两层卷积构成，用来提取低层空间特征。动态级联RPN如步骤（4）。Z表示目标，X表示搜索区域，下标t表示当前帧，t-1表示上一帧，C表示通过卷积直接提取的特征，O表示光流特征，F表示特征融合模块输出的特征，上标L表示第L层级联。例如Z_t表示当前帧目标，X_t-1表示上一帧搜索区域，C_x ^L _t-1表示上一帧的搜索区域经过第L层动态单元模块的卷积层输出的语义特征，O^L-1 _t表示当前帧经过第L-1层动态单元模块的光流特征模块输出的光流特征，F_x ^L _t表示当前帧搜索区域经过第L层动态单元模块的特征融合模块输出的特征。首先，将同一个视频序列中的第t帧和t-1帧的目标输入到目标分支当中，使用骨干网络为AlexNet的前两层来提取低层空间特征。提取完特征后，将第二层的特征输出至动态单元模块当中；同时，在动态单元模块中，在将视频帧输入后，通过卷积层，输出其语义特征，并将其语义特征输入至光流模块当中提取光流特征。在光流特征模块当中，使用1x1卷积对第t帧和第t-1帧的语义特征进行降维处理，然后使用Sobel算子提取第t-1帧的空间特征，并将第t帧和第t-1帧的语义特征相减得到时序信息，最后将这两个分支的特征通过Concat融合连接，连接后的特征被称为光流特征。得到光流特征后，将其输入至特征融合模块，特征融合模块同样接收来自上一个动态单元模块输出的融合特征以及当前帧的语义特征。在特征融合模块中，将光流特征与当前帧的语义特征进行1x1卷积降维，将上一个动态单元模块中输入的特征进行3x3卷积继续提取特征，然后进行Concat或者Sum操作得到融合特征。将第t帧的的融合特征输入至RPN模块中进行分类和回归，将它们输入判断分支，并通过判断分支和堆叠动态单元模块构造动态级联RPN结构。通过判断分支来判断是否直接返回结果还是进行下一次级联。动态级联RPN结构至多存在3层级联结构。

因此，本发明的技术方案，相比已有的技术方案，具有如下优点：

(1) 自适应视频采用方式。传统采样方式只有固定采样间隔方式和固定采样总帧数方式，前者无法批量计算，后者会破坏光流约束条件。因此自适应视频采样方式，可以将视频按照长度聚类，动态选取不同类别采样总帧数。相同类别固定总帧数采样，通过这种方式可以解决上述问题。

(2) 光流计算中的偏导数快速计算。在传统光流法中，需要计算图像中像素点的灰度沿XYT方向的偏导数，速度缓慢。本发明采用Sobel算子对图像进行相关操作，得到XY方向的偏导数，将相邻两帧图像相减得到T方向的偏导数，可以大幅提高计算速度。

(3) 不同类型特征的融合方式。在本发明中，存在多类特征，包括语义特征，低层融合特征，光流特征。先采用降维处理，然后通过Concat或者Sum方式融合这些特征。

以上所述是本发明的优选实施例，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.基于光流和动态级联RPN的目标跟踪算法，其特征在于，包括以下步骤：

（1）自适应视频采样，按照视频长度进行聚类，对相同类别的视频使用固定总帧数方式采样；

（2）构建光流特征模块，将光流信息加入深度网络中，利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧和当前帧之间存在的对应关系；

（3）多类特征融合：将卷积网络输出的语义特征，光流特征模块输出的光流特征和低层特征融合模块输出的低层融合特征通过Concat或者Sum方式融合；

（4）构建动态级联RPN结构：先构建动态单元模块，然后通过堆叠动态单元模块和RPN模块构建动态级联RPN结构；

2.根据权利要求2所述的基于光流和动态级联RPN的目标跟踪算法，其特征在于：步骤（1）中自适应视频采样将数据集中的所有视频通过聚类算法分成k类，计算该类别中中位数与聚类中心的差值，将这个差值作为采样的总帧数，当差值为0时，就分别计算聚类中心到该类别最大值和最小值的差值，取两者中较小的值作为采样密度；采样方式如下所示：

3.根据权利要求1所述的基于光流和动态级联RPN的目标跟踪算法，其特征在于：步骤（2）中在提取光流特征时，首先使用1x1卷积对第t帧和第t-1帧的语义特征进行降维处理，然后使用Sobel算子提取第t-1帧的空间特征，接着将第t帧和第t-1帧的语义特征相减得到时序信息，最后将两个分支的特征通过Concat连接，连接后的特征为光流特征。

4.根据权利要求1所述的基于光流和动态级联RPN的目标跟踪算法，其特征在于：步骤（3）中在融合语义特征、光流特征和低层融合特征时，先进行降维处理，然后通过Concat或者Sum方式融合。

5.根据权利要求1或4所述的基于光流和动态级联RPN的目标跟踪算法，其特征在于：步骤（3）中在融合语义特征、光流特征和低层融合特征时，将语义特征和光流特征分别通过1x1卷积降维，对低层的融合特征使用3x3卷积进行下采样，使其保持尺寸一致，最后将三类特征通过Concat或者Sum的方式融合，得到融合特征。

6.根据权利要求1所述的基于光流和动态级联RPN的目标跟踪算法，其特征在于：步骤（4）中动态单元模块由一个卷积层、一个光流特征模块和一个特征融合模块组成，将上一个动态单元模块输出的第t帧目标的语义特征和第t-1帧目标的语义特征输入到当前动态单元模块中，使用卷积细化目标的语义特征，然后将细化后的语义特征输入光流特征模块提取目标的光流特征，最后将提取的光流特征和细化后的第t帧目标的语义特征和上一层特征融合模块输出的特征输入特征融合模块得到目标的融合特征，经过该模块后输出目标第t-1帧和第t帧的语义特征以及第t帧的融合特征。

7.根据权利要求1所述的基于光流和动态级联RPN的目标跟踪算法，其特征在于：步骤（4）中动态级联RPN是将动态单元模块输出的第t帧的融合特征输入RPN模块进行分类和回归，得到置信度和回归偏移，将它们输入判断分支，当满足一定条件时直接输出跟踪结果，否则根据置信度筛选一些简单的样本，将剩余的样本输入下一个级联模块，形成级联结构。

8.根据权利要求1所述的基于光流和动态级联RPN的目标跟踪算法，其特征在于：步骤（5）中跟踪框架分成上中下三部分，其中上部分和下部分是孪生网络结构，上部分得到与目标有关的特征，记为目标分支，下部分得到与搜索区域有关的特征，记为搜索区域分支，中间部分是动态级联RPN，记为跟踪分支；该框架由骨干网络模块和动态级联RPN组成；先将同一个视频序列中的第t帧和t-1帧的目标输入到目标分支中，通过骨干网络为AlexNet的前两层来提取低层空间特征，提取完特征后，将第二层的特征输出至动态单元模块当中；在动态单元模块中，将卷积后得到语义特征输入至光流模块当中提取光流特征，并将得到光流特征与上一个动态单元模块输出的融合特征以及当前帧的语义特征进行特征融合；最后将得到融合特征输入至RPN模块中进行分类和回归，并通过判断分支和堆叠动态单元模块构造动态级联RPN结构，通过判断分支来判断是否直接返回结果还是进行下一次级联。

9.根据权利要求1所述的基于光流和动态级联RPN的目标跟踪算法，其特征在于：步骤（4）中态级联RPN结构的级联层数小于或等于3层。