CN112785624A

CN112785624A - 基于孪生网络的rgb-d特征目标跟踪方法

Info

Publication number: CN112785624A
Application number: CN202110064596.1A
Authority: CN
Inventors: 胡伏原; 尚欣茹; 李林燕; 高小天; 张玮琪; 程洪福
Original assignee: Suzhou Jiatu Intelligent Drawing Information Technology Co ltd; Suzhou University of Science and Technology
Current assignee: Suzhou Jiatu Intelligent Drawing Information Technology Co ltd; Suzhou University of Science and Technology
Priority date: 2021-01-18
Filing date: 2021-01-18
Publication date: 2021-05-11
Anticipated expiration: 2041-01-18
Also published as: CN112785624B

Abstract

本发明公开了一种基于孪生网络的RGB‑D特征目标跟踪方法，包括以下步骤：构建基于RGB‑D特征的孪生网络模型；模板图像经共享网络处理，获得模板图像的语义特征，将高层语义特征输入至深度卷积网络模块，获得深度图；对深度图进行深度特征提取，获得深度特征信息，通过级联方式将深度特征信息与语义特征进行融合，获得融合后的图像特征；搜索图像经共享网络处理，获得搜索图像的特征，搜索图像的特征经卷积和池化操作，获得搜索图像的上下文信息，通过搜索图像的上下文信息指导融合后的图像特征，生成用于目标定位的自适应特征；将自适应特征与搜索图像通过共享网络处理获得的特征进行互相关操作，对分数图进行插值计算，获得跟踪的结果。其引入深度图，能够实现在复杂场景中高精度跟踪，效果好。

Description

基于孪生网络的RGB-D特征目标跟踪方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于孪生网络的RGB-D特征目标跟踪方法。

背景技术

目标跟踪是计算机视觉领域中具有重要研究意义的课题之一，其是指对图像序列中的运动目标进行检测、提取、识别和跟踪，获得运动目标的参数，从而进行下一步的处理和分析，实现对运动目标的行为理解，以完成更高级的检测任务。基于深度学习的目标跟踪方法按照网络功能可以总结为三种：基于相关滤波的深度目标跟踪方法、基于分类网络的深度目标跟踪方法和基于回归网络的深度目标跟踪方法。

基于相关滤波的深度目标跟踪方法：此方法从第1帧提取的目标区域中训练得到相关滤波器，当有新的视频帧时，相关滤波器与之进行互相关操作，得到的最大响应的位置即代表目标的新位置。有的方法通过结合多层CNN特征，利用相关相关滤波来定位被跟踪的目标。有的方法将相关滤波器设计成一个可微分的层，采用端到端方式训练网络，提取适用于相关滤波器的特征。有的方法使用少量的滤波器参数代替原来大量的过滤器参数，并结合高斯混合模型减少存储的样本数量以及保持样本的差异性。这种基于相关滤波器的深度目标跟踪方法，其本质是通过构造一个滤波器，与视频帧进行互相关操作，得到一个响应图，其中最高的值指示了目标所在的位置。但是在目标发生尺度变化、遮挡等复杂情况下，无法实现准确的跟踪。

基于分类网络的深度目标跟踪方法：此方法通常需要多步完成，首先在目标可能存在的位置产生大量候选框，接着通过分类网络对所有的候选框评估，给出相应的分值，最后所有的候选框都根据得到的分值进行排序，分数最高的候选框就作为目标所在的位置。有的方法将一个视频序列视为一个域，其中共享的部分用来学习目标的特征表达。有的方法采用GAN产生一个权重掩码以选择有判别力的特征，通过掩码与特征图的乘积实现分类。这种基于分类网络的深度目标跟踪方法，其本质将跟踪问题看做是对前景和背景进行二分类的问题。但是候选框产生的方式和数量的选择都直接影响着算法的跟踪结果，此外错误的分类算法也会导致跟踪出现错误。

基于回归网络的深度目标跟踪方法：此方法通过卷积神经网络来构建回归网络，将密集的数据特征X映射到连续的输出矩阵Y，通过搜索输出响应图中最大值的位置来估计目标移动到的位置。有的方法使用结合收缩损失的回归方法将样本映射为一个软标签图，即响应图。有的方法使用带有两个卷积层分支的神经网络，一个是之前视频帧包含的目标区域，另一个是在当前视频帧中包含的以上一帧目标所在位置为中心一定范围内的区域，两者在全连接层进行融合，回归出目标所在的位置。这种基于回归网络的深度目标跟踪方法，其本质是在之前目标所在的位置基础上，使用一个前向网络，直接回归目标所在的位置。但该种方法需要依赖于大规模的训练数据来保证模型的鲁棒性。

发明内容

本发明要解决的技术问题是提供一种基于孪生网络的RGB-D特征目标跟踪方法,其引入深度图，能够实现在复杂场景中高精度跟踪，效果好。

为了解决上述技术问题，本发明提供了一种基于孪生网络的RGB-D特征目标跟踪方法，包括以下步骤：

S1、构建基于RGB-D特征的孪生网络模型，将模板图像与搜索图像分别输入至孪生网络模型；

S2、模板图像经共享网络处理，获得模板图像的语义特征，将高层语义特征输入至深度卷积网络模块，获得深度图；

S3、对所述深度图进行深度特征提取，获得深度特征信息，通过级联方式将所述深度特征信息与模板图像的语义特征进行融合，获得融合后的图像特征；

S4、搜索图像经共享网络处理，获得搜索图像的特征，所述搜索图像的特征经卷积和池化操作，获得搜索图像的上下文信息，通过搜索图像的上下文信息指导S3中的融合后的图像特征，生成用于目标定位的自适应特征；

S5、将自适应特征与搜索图像通过共享网络处理获得的特征进行互相关操作，得到分数图，对所述分数图进行插值计算，获得跟踪的结果。

作为优选的，所述S3中对所述深度图进行深度特征提取，获得深度特征信息，包括：

通过卷积层提取深度图的深度特征；通过深度增强模块从深度特征中进一步提取有效深度特征。

其中，所述深度增强模块包括通道注意力操作和空间注意力操作，

深度增强模块F_DEM(f_i ^d)＝S_att(C_att(f_i ^d))，

其中，C_att(·)表示通道注意力操作，S_att(·)表示空间注意力操作。

所述通道注意力操作

其中，P_max表示最大池化操作，M(·)表示一个多层感知器，f表示输入地深度特征图，

表示逐元素相乘。

所述空间注意力操作S_att(f)＝Conv(R_max(f))⊙f，

其中，R_max(·)表示对特征图每个通道上的点进行全局做大池化操作。

作为优选的，所述S3中通过级联方式将所述深度特征信息与模板图像的语义特征进行融合，包括：

设置多个卷积层和多个深度增强模块；

深度图每经过一个卷积层，就通过深度增强模块进行一次深度信息增强，并与语义信息进行一次融合；

其中，每一层输出的多模态特征f_i ^cm＝f_i ^Z+F_DEM(f_i ^D)，f_i ^Z表示每一层的语义特征，F_DEM表示深度增强模块。

本发明公开了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述方法的步骤。

本发明的有益效果：

1、本发明在传统孪生网络目标跟踪方法的基础上引入了深度图的概念，提出了基于孪生网络的RGB-D特征的目标跟踪的方法，有效地解决了传统孪生网络在复杂场景中无法实现准确跟踪的问题。

2、本发明通过引入深度图，能够实现在复杂场景中高精度跟踪，效果好。

附图说明

图1为传统的孪生网络结构图；

图2为本发明的孪生网络结构图；

图3为DEM结构图；

图4为在VOT2017数据集上实时实验结果排名；

图5为代表性视频序列上的跟踪结果。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

参照图1所示，为传统的孪生网络结构图。其结构为Y形，由两个输入和一个输出组成。其中，输入端z表示模板图像，x表示搜索图像，

表示提取特征的共享网络，输出端为模板图像和搜索图像的相似性分数图。孪生网络将跟踪问题描述为学习一个通用的相似性映射，学习模板图像和搜索图像特征表示之间的相似性：

其中b表示每个位置的偏移量。

参照图2所示，本发明的公开了一种基于孪生网络的RGB-D特征目标跟踪方法，包括以下步骤：

步骤一、构建基于RGB-D特征的孪生网络模型，将模板图像与搜索图像分别输入至孪生网络模型。孪生网络模型包括两个输入端和一个输出端。本发明中，可以分别将大小为127×127×3的模板图像和256×256×3的搜索图像输入到孪生网络中的对应输入端口。

步骤二、模板图像经共享网络φ处理，获得模板图像的语义特征，将高层语义特征输入至深度卷积网络模块(Depth CNN)，获得深度图。

步骤三、对深度图进行深度特征提取，获得深度特征信息，通过级联方式将深度特征信息与模板图像的语义特征进行融合，获得融合后的图像特征，具体包括：通过卷积层提取深度图的深度特征；通过深度增强模块(DEM)从深度特征中进一步提取有效深度特征；通过元素相加的方式将深度特征信息与模板图像的语义特征融合。

在深度信息增强中，DEM添加在特征融合之前，来增强深度特征的兼容性。参照图3所示，而深度增强模块包括通道注意力操作和空间注意力操作，深度增强模块F_DEM(f_i ^d)＝S_att(C_att(f_i ^d))，其中C_att(·)表示通道注意力操作，S_att(·)表示空间注意力操作。通道注意力操作

其中，P_max表示最大池化操作，M(·)表示一个多层(两层)感知器，f表示输入地深度特征图，

表示逐元素相乘。

空间注意力操作S_att(f)＝Conv(R_max(f))⊙f，其中，R_max(·)表示对特征图每个通道上的点进行全局做大池化操作。

其中，通过级联方式将深度特征信息与模板图像的语义特征进行融合，包括：设置多个卷积层和多个深度增强模块；深度图每经过一个卷积层，就通过深度增强模块进行一次深度信息增强，并与语义信息进行一次融合。

具体的，每一层输出的多模态特征f_i ^cm＝f_i ^Z+F_DEM(f_i ^D)，其中，f_i ^Z表示每一层的语义特征，F_DEM表示深度增强模块，最后得到的融合特征即为f₃ ^cm。

步骤四、搜索图像经共享网络φ处理，获得搜索图像的特征，搜索图像的特征经卷积和池化操作，获得搜索图像的上下文信息，通过搜索图像的上下文信息指导步骤三中的融合后的图像特征，生成用于目标定位的自适应特征。

步骤五、将自适应特征与搜索图像通过共享网络处理获得的特征进行互相关操作，得到分数图，对所述分数图进行插值计算，获得跟踪的结果。

本发明还公开了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，处理器执行程序时实现上述方法的步骤。

本发明在目标跟踪中具有广泛的适用性，可以应用在多个方面，例如：

(1)交通监控：实时接收交通数据来指挥交通流动；

(2)机器人视觉导航：有助于计算拍摄物体的运动轨迹；

(3)医学诊断：有助于对超声波和核磁共振检查结果更准确的分析。

通过引入深度图的概念，我们有望改变传统基于孪生网络的目标跟踪方法在复杂场景中跟踪精度低的问题，使得跟踪效果。同时，本发明能够通过在视频的每一帧图像中定位目标，以生成目标运动的轨迹，并在每一时刻提供完整的目标区域，在军事和民用方面都有着十分广泛的应用。

下面，结合具体实施方式，对本发明进行说明。

本发明算法的具体实验使用的是深度学习框架PyTorch，实验环境为ubantu14.04操作系统，使用4块NVIDIA 1080Ti图像处理器(GPU)加速运算。以ResNet-50-FPN网络作为基准网络，将视频目标检测数据集ILSVRC2015(ImageNet Large Scale VisualRecognition Challenge 2015)作为训练数据集，该数据及包含有4500个视频序列，总共大约有130万个人工标注的边界框。实验使用梯度下降法进行训练，其中设置动量系数为0.9，权重衰减系数为0.0005，学习率以指数衰减方式从10-2到10-5。为了验证本发明算法的有效性，分别在具有挑战性的视频跟踪基准数据集OTB-2013[17]和VOT2017上进行了测试跟踪实验，并对一些复杂场景视频序列的跟踪结果进行了详细的定性评估分析。

OTB-2013数据集包括50个标注的视频序列，并且每个视频序列都面临不同的跟踪挑战，包括光照变化(illumination variation，IV)、尺度变化(scale variation，SV)、遮挡(occlusion，OCC)、形变(deformation，DEF)、运动模糊(motion blur，MB)、快速运动(fast motion，FM)、平面内旋转(in-plane rotation，IPR)、平面外旋转(out-of-planerotation，OPR)、目标消失(out-of-view，OV)、背景干扰(background clutters，BC)和低分辨率(low resolution，LR)。本发明采用两个指标进行评估：成功率和精确率。成功率用于衡量跟踪器在一定跟踪误差阈值范围内成功捕捉到目标的能力，其值为捕捉到目标帧数占视频总帧数的比例，误差阈值设置为20像素。精确率是衡量跟踪器捕捉到的目标的精确程度。例如，给定视频序列包括n帧图像，首先计算每帧图像跟踪器的跟踪结果rt与目标标注ra的重叠率l：

然后将l的AUC(area under curve)作为评价指标。表1为本发明在OTB-2013数据集上的测评结果。

表1

从表1中可以看出，本发明算法在OTB-2013数据集上的平均精确率为0.896，位居第一名，与第二名方法相比提高了1.93％；在跟踪成功率方面，本发明算法为0.624，与位居第二名方法HDT相比，提高了3.48％，表明了本发明算法在跟踪性能方面有较好的表现。

表2和表3分别给出了基于视频跟踪属性的定量测评。表2为不同属性视频的准确率测评结果；表3为不同属性视频的成功率测评结果。

表2

表3

从表2和表3可以看出，本发明算法在光照变化(illumination variation，IV)、尺度变化(scale variation，SV)、遮挡(occlusion，OCC)、形变(deformation，DEF)、目标消失(out-of-view，OV)和背景干扰(background clutters，BC)属性的测试中，准确率和成功率都表现出了较好的效果，与排名第二的方法相比较，具有明显的提高，说明了本发明算法在这些复杂场景中的有效性。在平面内旋转(in-plane rotation，IPR)、平面外旋转(out-of-plane rotation，OPR)和低分辨率(low resolution，LR)属性的测试中，准确率和成功率位居第二，仅次于HDF方法，这是因为本发明网络对目标的外观描述不够精确。

VOT2017数据集中包含了60个精细的人工标注的视频序列，与VOT系列数据集不同的是，增加了一项新的实时实验，近几年在目标跟踪领域被广泛应用。实时实验要求所有的跟踪器必须以超过实时的25frame/s的速度处理视频流，如果跟踪算法处理完当前帧的结果，将会显示当前帧的跟踪结果；如果没有处理完当前帧的检测，评估器则会把上一帧的预测结果作为当前帧的跟踪结果，这样就会导致跟踪速度慢的跟踪器在处理结果后失去很多帧，从而导致无法找到跟踪目标，跟踪失败。

为了检测本发明算法的实时性效果，将训练好的网络在VOT2017数据集上进行了实时实验，并与该数据集上排名靠前的几种实时跟踪器进行了比较，结果排名如图4所示。本发明所提出的基于孪生网络的RGB-D特征目标跟踪算法在模板更新时，由于要计算每一帧的像素值，得到更新参数，增加了网络的计算量，但仍然能够表现出一定的实时性。虽然与Siam-RPN跟踪器的实时性相比，有一定的差距，但与居于第三名的CSRDCF++跟踪器相比实时性提高了9.4％。这足以证明本发明算法能够表现出较好的实时性。

本发明对所提出的算法在光照条件较差的shaking视频序列、目标发生形变的bttterfly视频序列、目标发生形变的running视频序列以及目标受到遮挡的tiger视频序列，如图5所示为HDT、FCNT、MEET以及本发明算法在具有代表性的视频序列上的跟踪结果比较，左上角数字表示的是视频序列的帧数：

(a)光照较差视频序列实验结果分析

视频序列shaking中目标发生了遮挡，视频序列butterfly中蝴蝶在飞的过程中不断发生形变，本发明算法的跟踪效果虽不是最好的，但整个过程中仍然能够成功跟踪到目标；第142帧和第151帧中，由于前面跟踪误差的累计，导致算法MEET出现了漂移，不能很好地实现跟踪。

(b)目标形变视频序列实验结果与分析

视频序列running中目标发生了尺度变化，第375帧时目标发生了明显的尺度变化，算法FCNT和MEET不能够准确地跟踪到目标；第576帧时，算法MEET和FCNT出现了轻微的漂移；第614帧时，算法MEET无法跟踪到目标，整个过程中本发明算法都表现了较好的跟踪算法。

(c)目标尺度变化视频序列实验结果与分析

视频序列running中目标发生了尺度变化。在第2帧和第375帧中，对比的四种是算法都能够成功地跟踪到目标，但是算法FCNT和MEET不能准确地框出目标；在第576帧和第614帧中，背景也对目标的跟踪产生了一定的影响，本发明算法依旧能够准确地跟踪到目标，而算法FCNT和MEET都产生了一定的漂移。

(d)目标遮挡视频序列实验结果与分析

视频序列tiger中目标发生了频繁的旋转、遮挡和尺度变化。在第97帧中，目标发生旋转和一定的遮挡，算法FCNT表现较差，只能跟踪到一小部分目标；在第184帧中，目标发生了不同位置的遮挡，算法MEET不能够准确地跟踪到目标，而算法FCNT无法适应目标的变化，出现了轻微的漂移；在第357帧中，目标出现了大面积的遮挡，算法FCNT发生了明显的漂移现象，而本发明算法仍然表现出了较好的跟踪效果。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种基于孪生网络的RGB-D特征目标跟踪方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于孪生网络的RGB-D特征目标跟踪方法，其特征在于，所述S3中对所述深度图进行深度特征提取，获得深度特征信息，包括：

深度增强模块F_DEM(f_i ^d)＝S_att(C_att(f_i ^d))，

所述通道注意力操作

表示逐元素相乘。

所述空间注意力操作S_att(f)＝Conv(R_max(f))⊙f，

3.如权利要求1所述的基于孪生网络的RGB-D特征目标跟踪方法，其特征在于，所述S3中通过级联方式将所述深度特征信息与模板图像的语义特征进行融合，包括：

设置多个卷积层和多个深度增强模块；

4.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1到3任一项所述方法的步骤。