CN108171141B

CN108171141B - 基于注意力模型的级联多模式融合的视频目标跟踪方法

Info

Publication number: CN108171141B
Application number: CN201711426753.9A
Authority: CN
Inventors: 姜明新; 江涛; 安连永; 陈博
Original assignee: Huaiyin Institute of Technology
Current assignee: Xinjiang Hongjin Technology Co.,Ltd.
Priority date: 2017-12-25
Filing date: 2017-12-25
Publication date: 2020-07-14
Anticipated expiration: 2037-12-25
Also published as: CN108171141A

Abstract

本发明公开了一种基于注意力模型的级联多模式融合的视频目标跟踪方法，在VGG‑16网络的基础上构建基于注意力模型的级联多模式融合全卷积神经网络；对构建的网络进行联合训练；提供图像库，图像库包括RGB图像和深度图像，深度图像包括深度通道，对深度图像信息进行HHA编码，将深度通道编码为物体的深度、高度和角度三个通道；将待跟踪的RGB‑D视频输入训练好的网络，在ECO跟踪器中采取更新策略对每一帧图像选择是否更新。本发明首次将全卷积神经网络应用到RGB‑D视频目标跟踪方法中，通过深度学习的方法提取两种模式下级联的深度特征，通过注意力模型分配权重，克服了人工设计特征不够全面的缺点，使追踪结果更加准确。

Description

基于注意力模型的级联多模式融合的视频目标跟踪方法

技术领域

本发明涉及计算机视觉领域，具体为一种基于注意力模型的级联多模式融合的视频目标跟踪方法。

背景技术

视频目标跟踪作为计算机视觉领域的一个热点问题，在很多应用领域扮演着重要的角色，比如：增强现实、自动驾驶、智能视频监控、机器人导航等。随着RGB-D传感器的普及，我们可以获取目标更加准确的深度(Depth)信息，将RGB模式和深度模式信息相融合，将会在很大程度上提高视频目标跟踪的性能。

近年来，出现了一些基于RGB-D数据的视频目标跟踪算法，但遗憾的是这些方法都基于人工设计的特征，存在着很大的局限性。随着深度学习技术在计算机视觉领域的崛起，全卷积神经网络在该领域得到了很广泛的应用，但在RGB-D跟踪方法中还没有相关的研究成果。限制全卷积神经网络在RGB-D跟踪方法中应用的主要原因为：1.在全卷积网络中有效的融合RGB信息和深度信息较为困难；2.RGB信息有3个通道，而深度信息只有一个通道，用RGB图像预训练的全卷积网络来学习深度模式中的特征较为困难；3.训练多模式融合的全卷积网络较为困难。

发明内容

发明目的：为了解决现有技术中视频目标跟踪方法带来的人工设计特征不够全面、结果不够准确的问题，本发明提供一种基于注意力模型的级联多模式融合的视频目标跟踪方法。

技术方案：本发明提供的一种基于注意力模型的级联多模式融合的视频目标跟踪方法，包括以下步骤：

(1)在VGG-16(Visual Geometry Group 16)网络的基础上构建基于注意力模型的级联多模式融合全卷积神经网络：

建立RGB模式的级联全卷积网络，所述RGB模式的级联全卷积网络包括第一级卷积层、第二级卷积层、第三级卷积层、第四级卷积层、第五级卷积层，第一级卷积层、第二级卷积层均各有两层，第三级卷积层、第四级卷积层、第五级卷积层均各有三层，将第三级卷积层、第四级卷积层、第五级卷积层输出的特征作为目标跟踪中RGB模式的表达特征；

建立深度模式的级联全卷积网络，所述深度模式的级联全卷积网络包括也包括第一级卷积层、第二级卷积层、第三级卷积层、第四级卷积层、第五级卷积层，第一级卷积层、第二级卷积层均各有两层，第三级卷积层、第四级卷积层、第五级卷积层均各有三层，将第三级卷积层、第四级卷积层、第五级卷积层的特征作为目标跟踪中深度模式的表达特征；

利用注意力模型对两种模式中每一层的表达特征分配权重；构建基于注意力模型的级联多模式融合全卷积神经网络；

(2)提供图像数据库，所述图像数据库包括RGB图像和深度图像，所述深度图像包括深度通道，对深度图像信息进行HHA编码(HHA，Horizontal disparity，Height aboveground，and the Angle)，将深度通道编码为物体的深度、高度和角度三个通道；使用RGB图像及编码后的深度图像，对构建好的基于注意力模型的级联多模式融合全卷积神经网络进行联合训练；

(3)将待跟踪视频输入训练好的基于注意力模型的级联多模式融合全卷积神经网络中，从待跟踪视频的第一帧图像开始，获得RGB模式和深度模式的表达特征后，利用注意力模型对两种模式中每一层的表达特征分配权重，得到每一层的多模式融合特征，然后将多模式融合特征送入到ECO跟踪器(the Efficient Convolution Operators tracker)中，得到输出结果，并将输出结果置于模板库中；

(4)所述输出结果中包括选中候选目标的跟踪框，将跟踪框所在的位置对应到该帧图像的深度图像中，计算跟踪框中所有空间位置的深度的平均值作为候选目标深度；设定遮挡阈值，计算该帧图像中的候选目标深度以及候选目标的历史平均深度的差值，若差值低于遮挡阈值，判断为没有发生严重遮挡，则每6帧更新一次模板库；若差值高于或等于遮挡阈值，判断为发生严重遮挡，则放弃这一帧的更新。

进一步的，步骤(1)中的注意力模型包括两个卷积层。

进一步的，步骤(1)中，多模式融合特征为：

式中，F_i ^j为第j层中第i个空间位置的多模式融合特征；

表示第k种模式第j层中第i个空间位置的特征值；i为空间位置；j为第j级卷积层；k表示第k种模式，

表示第k种模式第j层中第i个空间位置特征值的权重。

进一步的，步骤(1)中，利用注意力模型对每一层的表达特征分配权重，权重

为：

式中，k取1时表示采用RGB模式，k取2时表示深度模式，K＝2。

进一步的，步骤(3)中的待跟踪视频采用RGB-D传感器进行视频采集。

进一步的，步骤(4)中，令d_t表示第t帧图像中的候选目标深度，d_avg表示候选目标的历史平均深度，η表示遮挡阈值，检测遮挡的判据为：

若|d_t-d_avg|＞η，则occlusion＝0

若|d_t-d_avg|≤η，则occlusion＝1 (3)

式中，occlusion＝0表示未被遮挡，occlusion＝1表示被遮挡，d_avg通过式(4)进行更新：

式中，

表示更新后的候选目标的历史平均深度；α为人为设定的更新系数。候选目标的历史平均深度仅计算前面采集到的所有未被严重遮挡的图像，被严重遮挡的图像不被计算在历史平均深度中，以免造成误差。

有益效果：本发明提供的一种基于注意力模型的级联多模式融合的视频目标跟踪方法，相比较现有技术，首次将全卷积神经网络应用到RGB-D视频目标跟踪方法中，通过深度学习的方法提取两种模式下级联的深度特征，通过注意力模型来分配权重，可以克服人工设计特征不够全面，不够准确的技术缺点，可以更加准确的追踪视频目标。

附图说明

图1为本发明方法的系统框图；

图2(a)为实验中第42帧的RGB图像；

图2(b)为实验中第42帧的深度图像；

图2(c)为实验中第42帧的跟踪结果；

图3(a)为实验中第52帧的RGB图像；

图3(b)为实验中第52帧的深度图像；

图3(c)为实验中第52帧的跟踪结果；

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明。

本发明提供的一种基于注意力模型的级联多模式融合的视频目标跟踪方法，包括以下步骤：

(1)如图1所示，在VGG-16网络的基础上构建基于注意力模型的级联多模式融合全卷积神经网络：

建立RGB模式的级联全卷积网络，所述RGB模式的级联全卷积网络包括第一级卷积层Conv1-2、第二级卷积层Conv2-2、第三级卷积层Conv3-3、第四级卷积层Conv4-3、第五级卷积层Conv5-3，第一级卷积层、第二级卷积层均各有两层，第三级卷积层、第四级卷积层、第五级卷积层均各有三层，将第三级卷积层Conv3-3、第四级卷积层Conv4-3、第五级卷积层Conv5-3输出的特征作为目标跟踪中RGB模式的表达特征；

建立深度模式的级联全卷积网络，所述深度模式的级联全卷积网络包括也包括第一级卷积层HHAConv1-2、第二级卷积层HHAConv1-2、第三级卷积层HHAConv3-3、第四级卷积层HHAConv4-3、第五级卷积层HHAConv5-3，第一级卷积层、第二级卷积层均各有两层，第三级卷积层、第四级卷积层、第五级卷积层均各有三层，将第三池化层HHAConv3-3、第四池化层HHAConv4-3、第五池化层HHAConv5-3输出的特征作为目标跟踪中深度模式的表达特征；

利用注意力模型对两种模式中每一层的表达特征分配权重，构建基于注意力模型的级联多模式融合全卷积神经网络；

其中，多模式融合特征的计算公式为：

式中，F_i ^j为第j层中第i个空间位置的多模式融合特征；

表示第k种模式第j层中第i个空间位置特征值的权重。其中空间位置指：一副图像由若干个像素组成，每个像素都有一个空间位置，如第一行第一列的像素，第n行第n列的像素等。

注意力模型给不同卷积层输出的特征分配不同的权重，本实施例中的注意力模型包括两个卷积层，这样可以和多模式融合全卷积网络一起进行联合训练。权重

的分配方法为：

式中，k取1时表示采用RGB模式，k取2时表示深度模式，K＝2。

(2)由于RGB-D视频数据中RGB信息和深度信息是互补的，深度信息包含了目标的几何信息、距离摄像机的远近等，当目标距离摄像机比较近的时候获得的几何信息会更加准确。RGB信息受距离的影响相对较小，但是无法获得目标距离摄像机的深度信息。如果可以通过多模式融合的方法将两种模式的优势相互融合，互相弥补不足，无疑会提升目标跟踪的准确性和适应性。

所以训练的时候，首先提供现有的图像数据库，所述图像数据库包括RGB图像和深度图像。由于RGB图像包含R、G、B三个通道，而深度图像只包含Depth一个通道，无法利用RGB图像预训练过的全卷积网络对深度图像进行特征提取，所以，本实施例首先对深度图像信息进行HHA编码，将深度通道编码为物体的深度、高度和角度三个通道。通过HHA编码后的深度图像具有和RGB图像相似的结构，这样就可以利用RGB图像预训练过的全卷积网络对其进行特征提取。

使用RGB图像及编码后的深度图像，对构建好的基于注意力模型的级联多模式融合全卷积神经网络进行联合训练；

(3)使用RGB-D传感器采集待跟踪视频，将待跟踪视频输入训练好的基于注意力模型的级联多模式融合全卷积神经网络中，从待跟踪视频的第一帧图像开始，获得RGB模式和深度模式的表达特征后，利用注意力模型对两种模式中每一层的表达特征分配权重，得到每一层的多模式融合特征，然后将多模式融合特征送入到ECO跟踪器中，得到输出结果，并将输出结果置于模板库中；

令d_t表示第t帧图像中的候选目标深度，d_avg表示候选目标的历史平均深度，η表示遮挡阈值，检测遮挡的判据为：

若|d_t-d_avg|＞η，则occlusion＝0

若|d_t-d_avg|≤η，则occlusion＝1 (3)

式中，

现有的ECO跟踪器采取的更新策略是固定的每隔若干帧更新一次模型，而本实施例增加了遮挡检测机制，分情况进行更新模型，只选择没有被严重遮挡的进行周期更新，被严重遮挡的放弃更新，使得最终结果更加准确。

为了验证本实施例的效果，分别做了以下实验：实验采用Windows 10操作系统，用MATLAB R2015a作为软件平台，计算机的主要配置为Intel(R)Core(TM)i7-4712MQ CPU@3.40GHz(with 16G memory)，带有TITAN GPU(12.00GB memory)。选用普林斯顿大学的RGB-D跟踪数据库PTB Dataset作为本方法中的图像库进行实验。图2和3为PTB dataset中测试视频一Library2.1_occ的跟踪结果对比，图2为第42帧的跟踪，图3为第52帧的跟踪，RGB图像和跟踪结果均为彩色图像。为了区分多种跟踪方法跟踪出来的结果，在跟踪结果的图像中采用附图标记代表不同方法的跟踪结果，实验采用本实施例的跟踪方法(1)与其他四种目前性能比较好的跟踪方法进行比较，其他四种分别是：DS-KCF Tracker(2)，OAPFTracker(3)，GBM Tracker(4)，Prin Tracker(5)。表一为PTB dataset实验的成功率数据对比。

表一 PTB dataset实验的成功率数据对比

Claims

1.一种基于注意力模型的级联多模式融合的视频目标跟踪方法，其特征在于，包括以下步骤：

(1)在VGG-16网络的基础上构建基于注意力模型的级联多模式融合全卷积神经网络：

(2)提供图像数据库，所述图像数据库包括RGB图像和深度图像，所述深度图像包括深度通道，对深度图像信息进行HHA编码，将深度通道编码为物体的深度、高度和角度三个通道；使用RGB图像及编码后的深度图像，对构建好的基于注意力模型的级联多模式融合全卷积神经网络进行联合训练；

(3)将待跟踪视频输入训练好的基于注意力模型的级联多模式融合全卷积神经网络中，从待跟踪视频的第一帧图像开始，获得RGB模式和深度模式的表达特征后，利用注意力模型对两种模式中每一层的表达特征分配权重，得到每一层的多模式融合特征，然后将多模式融合特征送入到ECO跟踪器中，得到输出结果，并将输出结果置于模板库中；

2.根据权利要求1所述的基于注意力模型的级联多模式融合的视频目标跟踪方法，其特征在于，步骤(1)中的注意力模型包括两个卷积层。

3.根据权利要求1所述的基于注意力模型的级联多模式融合的视频目标跟踪方法，其特征在于，步骤(1)中，多模式融合特征为：