CN112037269A

CN112037269A - 一种基于多域协同特征表达的视觉运动目标跟踪方法

Info

Publication number: CN112037269A
Application number: CN202010853988.1A
Authority: CN
Inventors: 杨鑫; 尹宝才; 张吉庆; 赵锴; 魏小鹏; 王超毅
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2020-12-04
Anticipated expiration: 2040-08-24
Also published as: CN112037269B

Abstract

本发明属于视觉运动目标跟踪技术领域，提供了一种基于多域协同特征表达的视觉运动目标跟踪方法。网络结构包含相似特征提取器和独特特征提取器，相似特征提取器可以从RGB域和事件域中学习潜在的通用表示形式，独特特征提取器可以分别学习RGB域和事件域中所独有的特征信息。本发明所提出的方法在RGB和事件目标跟踪数据集上得到了较好的效果，并且不同的数值评价指标上得到了优于目前先进算法的结果。本发明解决了高动态范围下对快速运动目标跟踪困难的问题。

Description

一种基于多域协同特征表达的视觉运动目标跟踪方法

技术领域

本发明属于计算机视觉技术领域，尤其涉及基于深度学习、利用事件相机和传统相机进行视觉运动目标跟踪的方法。

背景技术

视觉运动目标跟踪是计算机视觉中的一个重要的研究课题，它旨在通过给定某视频序列初始帧的目标大小与位置的情况下，预测后续帧中该目标的大小与位置。深度卷积神经网络(Deep convolutional neural networks,DCNNs)因其显著的学习能力而被广泛应用于视觉目标跟踪。然而，视觉运动目标跟踪是一个极具挑战性的任务，当前基于RGB图像的跟踪算法经常会受到恶劣环境的影响，如低照度、快速运动等。因此，部分工作试图引入有价值的附加信息，例如深度信息或者热红外信息，以对跟踪效果进行提高。然而，当跟踪目标处于高速运动或高动态范围的环境中时，这些传感器仍然不能提供令人满意的结果。

事件相机是一种仿生视觉传感器，其工作原理与传统摄像机完全不同，传统摄像机以固定频率获取帧图像，事件相机则捕捉光度发生改变时的强度信息，以异步流的形式提供强度变化的时空坐标。与传统的成像传感器相比，事件相机有几个优点。首先，具有高时间分辨率(约1μs)，基于事件相机不会受到运动模糊的影响。其次，基于事件相机具有高动态范围(即120-140dB)。因此，即使在曝光过度和曝光不足的情况下，它们也能有效工作。因此事件相机为解决有挑战场景下的视觉目标跟踪提供的潜在的可能性。接下来详细介绍这一领域中相关的背景技术。

(1)单域跟踪

基于RGB的单域跟踪。以深度学习为主的RGB单域跟踪算法可以分为两类，分别是单样本学习和在线学习。通常，在线学习的方法比单样本学习的方法更加准确，但速度较慢。其中，Namet等人提出了多域神经网络(MDNet)，该网络使用卷积神经网络提取通用目标表示，并在线更新全连接层以适应目标对象的变化。在MDNet中，每个域对应一个视频序列。

基于事件的单域跟踪。最初，研究人员仅以固定的时间间隔将事件累积到图像中，以通过减小给定模型与事件之间的差异来实现跟踪任务。Barrancoet等人提出了一种实时聚类算法，并使用卡尔曼滤波器对轨迹进行平滑处理。Timo.S 等人首先从事件中计算出光流，然后使事件的位置变形，并根据对比度原理得到尖锐的事件图像。此外，他们还对每个事件给以权重，以便将事件分类为不同的对象或背景。

尽管以上研究在RGB域或事件域中均取得了良好的性能，但它们忽略了探索这两个域之间存在的互补信息。互补信息可以用来有效地解决视觉运动目标跟踪中的挑战性问题。

(2)多域跟踪

当前基于多域数据进行视觉目标跟踪主要包括RGB-D(RGB+深度)跟踪和 RGB-T(RGB+热红外)跟踪。Songet等人探索光流和3D点云组成的混合 RGB-D跟踪器，从而拓展了RGB-D跟踪课题。Camplaniet等人对深度直方图进行聚类以进行RGB-D跟踪，然后应用单个高斯分布对深度空间中的跟踪对象进行建模。在RGB-T方面，Zhu等人提出了一种递归策略来密集地提取RGB-T 两个域之间的特征信息。Li等人提出了一个卷积神经网络模型，该网络可以在通过端到端的方式学习RGB域和热红外域之间共享的特征信息和特定于模态的特征信息。

然而，深度相机和热红外相机仍然不能提供足够的信息用于解决高动态场景中快速运动目标的跟踪问题。

(3)脉冲神经网络

脉冲神经网络(Spiking Neural Networks,SNNs)是一种以脉冲神经元为计算模型的仿生模型。脉冲神经元的输入称为脉冲的时间事件，输出也是脉冲。脉冲神经元有一维内部状态，称为电位，由一阶动力学控制。每当一个脉冲到达时，如果没有及时记录到其他脉冲，电位将会被激发，但会再次衰减。当电位达到一定阈值时，脉冲神经元向连接的神经元发送脉冲并重置其自身的电位。事实表明，SNNs能够处理异步信号，而无需预处理事件数据。由于脉冲生成机制无法区分，并且脉冲可能会引入时间维度分配不正确的问题，因此传统的梯度反向传播机制无法直接用于SNNs。尽管如此，一些针对SNNs的监督学习研究还是从反向传播中获得启发，以解决错误分配问题。例如，Gehrig等人提出了基于事件相机输出事件流的时间回归问题。他们专门研究了基于SNNs对事件相机进行角速度预测的问题。Neil等人建议使用LSTM来积累事件并进行分类。

发明内容

本发明针对视觉运动目标跟踪任务中难以对高动态范围下的快速运动物体进行准确跟踪，以及事件数据在深度学习中难以使用的技术难题，设计一个基于深度学习的多域(RGB域和事件域)协作特征提取、融合的算法，能够对高动态范围场景，快速运动的目标准确进行跟踪。

本发明的技术方案：

一种基于多域协同特征表达的视觉运动目标跟踪方法，具体包括以下三个模块：

(1)RGB和事件数据相似特征提取模块(CFE)

RGB图像和事件堆叠图像虽然来自不同类型的传感器，但是堆叠的事件图像和RGB图像仍然具有一些相似的特征信息，例如目标对象的边缘信息。此外，由于事件像机感应光强变化，这意味着事件像机可以提供有关物体移动发生位置的清晰线索，这在一定程度上将有助于在目标跟踪过程中不受周围环境的干扰。

(1.1)CFE模块输入：

本模块的输入主要分为两个部分，一个是RGB图像，另一个是堆叠的事件图像。事件相机输出每个事件e是一个元组<x，y，t，p>，其中x，y是事件的像素坐标，t是事件的时间戳，p＝±1是事件的极性，这是亮度变化的符号。由于事件数据的异步性而无法直接输入到现有的神经网络结构中，因此根据正极性和负极性的计数和最新时间戳对事件流进行堆叠，公式如下：

其中δ是Kronecker增量函数，W是事件数据的时间戳间隔，N是在时间间隔W内发生的事件个数。按事件数量堆叠可以表示运动目标的频率和密度信息，按事件时间戳堆叠可以表示运动目标的方向和速度信息，堆叠事件图如图1所示。

(1.2)CFE模块结构：

为了平衡效果和速度，使用VGGNet-M网络的前三层用作CFE的主要特征提取结构。具体地，卷积核大小分别为7×7、5×5和3×3。输出通道分别为96、 256和512。如图2所示，CFE的每一层都由卷积层，激活函数(ReLU)，局部响应归一化(LRN)组成。整个过程表述如下：

F_CFE＝[CFE(RGB),CFE(trans_cha([CountP,TimeP]))] (3)

其中RGB表示RGB图像，CountP和TimeP是按正负极性的计数和最新时间戳堆叠的事件图像。[·]是串联连接操作，trans_cha表示卷积层用于通道数量的转换。 F_CFE是CFE的输出。

(2)RGB独特特征提取模块(UER)

由于事件数据和RGB数据具有不同的特征，仅使用CFE结构不足以在两个域中提取各自独特的特征信息进行跟踪。因此对每个域的特征进行建模，充分利用RGB域所具有的丰富的纹理和颜色等信息是十分必要的。

(2.1)UER模块输入：

本模块的输入是RGB数据。

(2.2)UER模块结构：

UER包含三个卷积层，卷积核大小分别设置为3×3、1×1和1×1。此外，在进行卷积之后，UER的每一层还包括ReLU激活函数，BN和最大池化层，以实现更有效的表示。这个过程可以简单地表述为：

F_UER＝UER(RGB) (4)

其中F_UER是UER的输出。

(3)事件域的独特特征提取模块(UEE)

(3.1)UEE模块输入：

本模块的输入是原始事件流。

(3.2)UEE模块结构：

本模块使用SNNs和脉冲响应模型(SRM)来处理原始事件流。在SRM中，不响应函数u(t)描述了发射神经元对其自身脉冲的响应。突触核v(t)描述了突触后突触对突触后神经元体细胞膜电位的影响。基于SRM的SNNs建模如下：

ε_i+1(t)＝W_i(u×s_i)(t)+(v×s_i+1)(t) (7)

O＝GAP(W_n(u×s_n)(t)) (9)

其中，H是Heaviside阶跃函数；t表示当前时刻；τ_s和τ_r分别是突触核和不响应期核的时间常数；s_i和W_i分别是第i层的输入脉冲和突触权重；φ表示神经元阈值，当膜电位强到超过φ时，脉冲神经元就会出现脉冲响应；对SNNs输出的时间维度T采用全局平均池化(GAP)以将SNNs与DCNNs进行结合。v和u分别表示不响应核和突触核；ε_i表示第i层膜电位的大小；δ是Kronecker增量函数； O是UEE的输出；如图2所示，脉冲神经网络UEE包括三个卷积层，然后是池化层。表1中详细列出了该层的超参数。

最后对三个模块的输出O，F_UER，F_CFE通过串联进行连接输入到三个全连接层进行融合。

表1：脉冲神经网络UEE的超参数。

本发明的有益效果：

(1)事件数据的特征信息提取与利用

由于事件相机的输出是异步流，其无法直接用于当前的卷积神经结构中，为此本专利从两个方面对原始事件数据进行处理以将其与当前卷积神经网络技术进行结合。首先，本专利使用了两种堆叠方式，即根据正极性和负极性的计数和最新时间戳对事件流进行堆叠。按计数堆叠可以表示运动目标的频率和密度信息，按时间戳堆叠可以表示运动目标的方向和速度信息。另外，本专利探索利用SNNs的异步性对原始事件流直接处理来完成计算机视觉任务中比较困难的视觉运动目标跟踪问题。

(2)RGB域和事件域的融合

由于事件数据的异步性，与当前使用RGB-D和RGB-T进行特征融合的方法不同，本专利首次探究对RGB数据和事件数据进行融合的方式。本专利首先利用卷积神经网络对RGB和事件数据的相似边缘特征进行提取，其次使用脉冲神经网络和传统卷积神经网络对每个域所具有的独特特征进行提取。通过使用所提取的相似特征和独特特征，本专利能有效地解决在高动态范围下快速运行目标跟踪的难题。

附图说明

图1是根据正极性和负极性的计数和最新时间戳对事件流进行堆叠的事件图。

图2是本发明神经网络结构图。包含了三个模块，分别是RGB和事件数据相似特征提取模块CFE，RGB独特特征提取模块UER和事件域的独特特征提取模块 UEE。

具体实施方式

下面结合具体实施方式对本发明作进一步详细说明，但本发明并不局限于具体实施方式。

一种基于多域特征协作表达的视觉运动目标跟踪方法，包括数据集的生成和网络模型的训练以及测试

(1)训练数据集生成

本专利使用数据集需要满足以下需求：首先，RGB数据和事件数据必须针对同一场景，并且不同域之间的数据必须对齐。其次，必须有各种各样的带有准确边界框的场景，以避免过拟合特定的视觉场景。为了满足上述要求，使用事件相机模拟器ESIM在大型短时间跟踪数据集GOT-10k上生成了一个场景丰富的事件数据集。为了充分体现事件相机的优势，随机选择100个视频序列，对于序列中的每个RGB帧，手动增加或降低曝光，从而模拟极端曝光下RGB数据无法提供但事件数据可以提供有价值的信息的事实。

(2)网络训练

对于CFE，使用VGGNet-M中的预训练模型初始化其参数。对于UEE，通过 SLAYER，可以基于一阶优化方法来计算损失函数相对于SNNs参数的梯度。使用随机梯度下降算法(SGD)训练整个网络。批大小设置为8，每帧中选择32 个正样本(IoU与真值边界框的重叠率大于0.7)和96个负样本(IoU与真值边界框的重叠率小于0.5)，从而在一个批处理中共产生256个正样本和768个负样本。网络使用softmax交叉熵损失函数来训练网络。所有卷积层的学习率均设置为0.0001。

(3)网络测试

在跟踪测试过程中，对于每个测试视频序列，将图2中k个分支替换为单个分支。为了捕获新序列的上下文并自适应地学习视频特定信息，采用了在线微调。在在线微调过程中，在第一帧中收集500个正样本和5000个负样本作为训练样本。对于第t帧，通过高斯采样从先前的跟踪结果Z_t-1收集一组候选区域

然后将这些候选区域用作网络的输入并获得其分类得分。最后选择得分最高的候选区域作为当前帧的目标位置。

Claims

1.一种基于多域协同特征表达的视觉运动目标跟踪方法，其特征在于，包括以下三个模块：

(1)RGB和事件数据相似特征提取模块CFE

(1.1)CFE模块输入：

CFE模块的输入分为两个部分，一个是RGB图像，另一个是堆叠的事件图像；事件相机输出每个事件e是一个元组<x，y，t，p>，其中x，y是事件的像素坐标，t是事件的时间戳，p＝±1是事件的极性，是亮度变化的符号；由于事件数据的异步性而无法直接输入到现有的神经网络结构中，因此根据正极性和负极性的计数和最新时间戳对事件流进行堆叠，公式如下：

其中，δ是Kronecker增量函数，W是事件数据的时间戳间隔，N是在时间间隔W内发生的事件个数；按事件数量堆叠表示运动目标的频率和密度信息，按事件时间戳堆叠表示运动目标的方向和速度信息；

(1.2)CFE模块结构：

使用VGGNet-M网络的前三层用作CFE的主要特征提取结构，卷积核大小分别为7×7、5×5和3×3，输出通道分别为96、256和512；CFE的每一层都由卷积层、激活函数和局部响应归一化组成；整个过程表述如下：

F_CFE＝[CFE(RGB),CFE(trans_cha([CountP,TimeP]))] (3)

其中，RGB表示RGB图像，CountP和TimeP是按正负极性的计数和最新时间戳堆叠的事件图像，[·]是串联连接操作，trans_cha表示卷积层用于通道数量的转换，F_CFE是CFE的输出；

(2)RGB独特特征提取模块UER

(2.1)UER模块输入：UER模块的输入是RGB数据；

(2.2)UER模块结构：UER模块包含三个卷积层，卷积核大小分别设置为3×3、1×1和1×1；在进行卷积之后，UER模块的每一层还包括ReLU激活函数、BN和最大池化层；这个过程表述为：

F_UER＝UER(RGB) (4)

其中，F_UER是UER模块的输出；

(3)事件域的独特特征提取模块UEE

(3.1)UEE模块输入：UEE模块的输入是原始事件流；

(3.2)UEE模块结构：UEE模块使用SNNs和脉冲响应模型SRM来处理原始事件流；在SRM中，不响应函数u(t)描述了发射神经元对其自身脉冲的响应；突触核v(t)描述了突触后突触对突触后神经元体细胞膜电位的影响；基于SRM的SNNs建模如下：

ε_i+1(t)＝W_i(u×s_i)(t)+(v×s_i+1)(t) (7)

O＝GAP(W_i(u×s_i)(t)) (9)

其中，H是Heaviside阶跃函数；t表示当前时刻；τ_s和τ_r分别是突触核和不响应期核的时间常数；s_i和W_i分别是第i层的输入脉冲和突触权重；φ表示神经元阈值，当膜电位强到超过φ时，脉冲神经元就会出现脉冲响应；v和u分别表示不响应核和突触核；ε_i表示第i层膜电位的大小；δ是Kronecker增量函数；O是UEE的输出；