CN117314972B

CN117314972B - 一种基于多类注意力机制的脉冲神经网络的目标跟踪方法

Info

Publication number: CN117314972B
Application number: CN202311555701.7A
Authority: CN
Inventors: 周云; 尹红福; 谭春雨; 吴巧云; 孙长银
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2023-11-21
Filing date: 2023-11-21
Publication date: 2024-02-13
Anticipated expiration: 2043-11-21
Also published as: CN117314972A

Abstract

本发明公开了一种基于多类注意力机制的脉冲神经网络的目标跟踪方法，包括：对事件相机保存的事件数据进行预处理，将事件数据转化成图像事件帧序列，并得到图像事件帧序列中的模板区域和搜索区域；基于具有多类注意力机制的LIF脉冲神经网络模块构造双路目标跟踪网络；模板区域和搜索区域输入双路目标跟踪网络，具有多类注意力机制的LIF脉冲神经网络模块对模板区域和搜索区域进行特征提取和融合，融合结果输入预测头模块，输出目标跟踪结果。本发明更有生物合理性，且在跟踪精度上取得了理想的效果。

Description

一种基于多类注意力机制的脉冲神经网络的目标跟踪方法

技术领域

本发明属于目标跟踪技术领域，具体涉及一种基于多类注意力机制的脉冲神经网络的目标跟踪方法。

背景技术

同于传统相机拍摄的是一幅完整的图像，事件相机拍摄的是事件（event），即捕捉像素亮度的变化情况。事件相机的基本原理是当某个像素的亮度变化累计达到一定阈值后就输出一个事件。当场景中由物体运动或光照改变造成大量像素变化时，会产生一系列的事件，这些事件以事件流(Events stream)方式输出。事件流的数据量远小于传统相机传输的数据，且事件流没有最小时间单位，所以不像传统相机定时输出数据，具有低延迟特性。由于其特殊的成像原理，事件相机只要亮度一有变化就会输出，且仅输出变化的数据占用了很小的带宽。同时事件相机更擅长捕捉亮度变化，在较暗和强光场景下也能输出有效数据。此外事件相机还具有低延迟、高动态范围、极低功耗等特性。

第三代神经网络，即脉冲神经网络(Spiking Neural Network，SNN)与目前流行的神经网络和机器学习方法有着根本上的不同。SNN使用脉冲来表示特征，一旦SNN中的神经元达到了某一电位阈值，脉冲就会发射，随后达到膜电位阈值的神经元会被重置。常见的脉冲神经元模型有IF模型和LIF模型等。相比以往的深度学习网络，SNN能够更好的处理时序数据，并且有更好的稳定性和更低的能源消耗。

在计算机视觉研究领域中，单目标追踪是一项极具挑战性的任务。基于图像帧的传统跟踪网络在处理复杂环境，例如相机抖动、光照变化、背景模糊等情况时表现不佳，且对算法运行平台硬件的要求较高。因此为了解决上述难点问题，需要提出更加高效和鲁棒的目标跟踪算法，以减小算法对跟踪环境和计算资源的要求。

发明内容

本发明所要解决的技术问题是针对上述现有技术的不足，提供一种基于多类注意力机制的脉冲神经网络的目标跟踪方法，针对事件相机采集得到的事件数据下的目标跟踪问题，采用基于多类注意力机制的脉冲神经网络进行跟踪预测，充分利用脉冲神经网络在提取事件特征和计算资源消耗上的优势，同时注意力机制使得提取的特征更加关注待跟踪目标，该方法比以往的深度卷积网络更有生物合理性，在跟踪精度上取得了理想的效果。

为实现上述技术目的，本发明采取的技术方案为：

一种基于多类注意力机制的脉冲神经网络的目标跟踪方法，包括：

步骤1、对事件相机保存的事件数据进行预处理，将事件数据转化成图像事件帧序列，并得到图像事件帧序列中的模板区域和搜索区域；

步骤2、构造一个基于具有多类注意力机制的LIF脉冲神经网络模块的双路目标跟踪网络；

步骤3、将模板区域和搜索区域输入双路目标跟踪网络，具有多类注意力机制的LIF脉冲神经网络模块对模板区域和搜索区域进行特征提取和融合，融合结果输入预测头模块，输出目标跟踪结果。

为优化上述技术方案，采取的具体措施还包括：

上述的步骤1所述对事件相机保存的事件数据进行预处理的步骤如下：

1.1、将每个事件数据转化成图像事件帧序列，该序列/>中t时刻的事件帧/>将被均分为/>个时间切片，表示为/>，其中/>是时间切片的个数，即时间维度大小；

1.2、在事件帧序列的第一个事件帧/>中框选需要追踪的目标初始位置，并裁剪出模板区域/>；

1.3、根据事件帧中跟踪目标的中心坐标，在下一事件帧/>中裁切出搜索区域。

上述的步骤2中所述的双路目标跟踪网络由LIF脉冲神经网络模块多次叠加组成，其中一个LIF脉冲神经网络模块包括基于卷积的LIF神经元模块和基于多类注意力机制的特征提取模块；

所述基于卷积的LIF神经元模块包括CONV-BN层和LIF脉冲神经元层；

所述基于多类注意力机制的特征提取模块包括基于时间注意力机制的时间特征提取模块TAFE，基于通道注意力机制的通道特征提取模块CAFE和基于空间注意力机制的空间特征提取模块SAFE。

上述的基于多类注意力机制的特征提取模块位于每个基于卷积的LIF神经元模块的CONV-BN层和LIF脉冲神经元层之间，使得CONV-BN层得到的特征聚焦于感兴趣的跟踪目标区域，同时加强提取的特征在不同时间维度之间的联系。

上述的CONV-BN层对输入的模板区域和搜索区域/>的每一个时间切片都进行特征编码并进行归一化处理得到对应的/>个时间切片事件特征/>和/>，并输入至后续的基于多类注意力机制的特征提取模块；所述LIF脉冲神经元层根据基于多类注意力机制的特征提取模块的输出特征和当前的累积电位进行计算，当累积电位超过神经元阈值时，神经元发放一个脉冲，并将累积电位重置为基线水平。

上述的TAFE根据输入的个时间切片事件特征/>，计算出事件特征对应的权重向量/>，将注意力集中在具有更多目标信息的事件特征上，/>代表形状为/>的特征矩阵，其中/>为/>或/>。

上述的CAFE和SAFE位于TAFE之后，根据目标信息的位置信息和外观信息来计算不同通道下的权重值和不同位置下的权重值/>；

是通道数量，/>和/>分别是特征的高和宽。

上述的基于多类注意力机制的特征提取模块的输入输出关系为：

；

其中CBR表示CONV-BN-ReLU层，ReLU表示ReLU层，表示点乘操作。

上述的步骤3的具体步骤如下：

3.1、将模板区域和搜索区域送入双路目标跟踪网络中，具有多类注意力机制的LIF脉冲神经网络模块对模板区域和搜索区域进行特征提取，得到模板区域特征和搜索区域特征；

3.2、将模板区域特征和搜索区域特征做互相关操作后得到的特征矩阵输入到具有分类分支、质量评估分支和框回归分支的预测头模块，其中分类分支用于判断目标是否存在以及目标属于哪一类，质量评估分支用于评估检测到的目标框是否有效，框回归分支用于预测调整目标框的位置和尺寸，最终输出目标的位置信息。

本发明具有以下有益效果：

1、本发明利用带有多类注意力模块的脉冲神经网络进行事件数据形式下的目标跟踪，基于脉冲神经网络的稀疏性和事件驱动的特性进行特征提取，比以往的深度卷积网络更有生物合理性，在跟踪精度上取得了理想的效果。相比于传统的深度学习网络型，脉冲神经网络的工作方式更接近于生物神经系统，符合人脑的运行模式，减小了参数量，降低了能源消耗，能够更高效地处理和利用输入数据。在针对事件数据的目标跟踪过程中，基于脉冲神经网络的跟踪算法也能够达到理想的跟踪性能。

2、在特征提取基础上引入多类注意力机制，所设计的基于多类注意力机制的特征提取模块，能够有效地融合时间、空间和通道维度上的特征信息，进一步提高所提取特征对待跟踪目标的关注度和描述能力，从而提高单目标跟踪的性能并实现更加鲁棒的跟踪效果。

3、在事件相机上进行单目标追踪相较于传统相机上的追踪方法具有显著的优势，尤其是在跟踪速度方面具有很大的提升。事件相机能够以高时间分辨率采集数据，并通过事件的方式传递感兴趣的目标信息，从而能够实现更快速的目标检测和追踪，在目标跟踪的实时应用等方面具有较大的潜力。

附图说明

图1为本发明中基于多类注意力机制的脉冲神经网络的目标跟踪方法的流程图；

图2为本发明中LIF脉冲神经网络模块的基本结构图；

图3为本发明的跟踪方法在VisEvent数据集上的成功率和准确率曲线图；

图4为本发明在部分序列中的跟踪结果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明中的步骤虽然用标号进行了排列，但并不用于限定步骤的先后次序，除非明确说明了步骤的次序或者某步骤的执行需要其他步骤作为基础，否则步骤的相对次序是可以调整的。可以理解，本文中所使用的术语“和/或”涉及且涵盖相关联的所列项目中的一者或一者以上的任何和所有可能的组合。

如图1所示，本发明一种基于多类注意力机制的脉冲神经网络的目标跟踪方法，包括以下步骤：

步骤1、对事件相机保存的事件数据进行预处理，将事件数据转化成图像事件帧序列，即将事件保存成事件帧图像的形式，并得到图像事件帧序列中的模板区域和搜索区域；

步骤2、基于具有多类注意力机制的LIF脉冲神经网络模块构造带有多类注意力机制的脉冲神经网络的双路目标跟踪网络结构；

步骤3、将视频序列中的模板区域和搜索区域输入双路目标跟踪网络，具有多类注意力机制的LIF脉冲神经网络模块对模板区域和搜索区域进行特征提取和融合，融合结果输入预测头模块，输出目标跟踪结果，即目标的位置信息。

实施例中，步骤1所述对事件相机保存的事件数据进行预处理的步骤如下：

一般的事件数据格式是的四元组，其中/>代表事件发生的时间戳，/>代表事件发生的位置，/>代表事件发生的极性，包括正极性（positive）和负极性（negative）两种。对原始事件数据进行数据清洗和分类，去除多余的无效事件，并对不同类型的事件进行区分，将负极性事件和正极性事件数据按照时间顺序分别进行保存，从而得到事件数据对应的图像事件帧序列/>，每帧/>代表了就是该时间段内事件的累积事件，同时/>被均分为个时间切片，表示为/>。

1.2、在预处理好的事件帧序列的第一帧框选需要追踪的目标初始位置，并归一化（裁剪出）大小为127×127的图像块（图像区域）作为跟踪过程中的模板区域；

1.3、根据模板区域前一帧跟踪目标的中心坐标在后一帧中裁切大小为303×303的图像块作为将要跟踪区域作为搜索区域。

实施例中，步骤2中构造的双路目标跟踪网络，包括如下步骤：

所述双路目标跟踪网络结构是一个基于多类注意力机制的脉冲神经网络结构，如图1所示双路结构中的左右两路具有相同的网络结构，分别用于处理图像事件帧序列中的模板区域和搜索区域；

所述基于多类注意力机制的双路目标跟踪网络结构是由如图2所示的LIF脉冲神经网络模块多次叠加组成，一个LIF脉冲神经网络模块包括基于卷积的LIF神经元模块和基于多类注意力机制的特征提取模块；

2.1、基于卷积的LIF神经元模块包括CONV-BN层和LIF脉冲神经元层；

所述CONV-BN层对输入的模板区域和搜索区域/>的每一个时间切片都进行特征编码并进行归一化处理得到对应的/>个时间切片事件特征/>和/>，并输入至后续的基于多类注意力机制的特征提取模块；

LIF脉冲神经元层是一种常见的生物神经元模型，它模拟了真实神经元在接收到输入信号后发放动作电位的过程；

所述LIF脉冲神经元层会根据基于多类注意力机制的特征提取模块的输出特征和当前的累积电位进行计算，当累积电位超过神经元阈值时，神经元发放一个脉冲，并将累积电位重置为基线水平/>。

网络结构中共有3层LIF脉冲神经元层进行线性堆叠，每个LIF神经元模块中的输入和输出矩阵维度为，其中/>是时间维度，/>是通道数量，/>和/>分别是特征的高和宽。

2.2、所述基于多类注意力机制的特征提取模块包括基于时间注意力机制的时间特征提取模块TAFE，基于通道注意力机制的通道特征提取模块CAFE和基于空间注意力机制的空间特征提取模块SAFE。进一步的：

所述基于多类注意力机制的特征提取模块位于每个基于卷积的LIF神经元模块的CONV-BN层和LIF脉冲神经元层之间，使得CONV-BN层得到的特征聚焦于感兴趣的跟踪目标区域，同时也加强提取的特征在不同时间维度之间的联系。

2.2.1、所述TAFE根据输入的个时间切片事件特征/>，计算出事件特征对应的权重向量/>，将注意力集中在具有更多目标信息的事件特征上，/>代表形状为/>的特征矩阵，其中/>为/>或/>，即/>和/>都输入到TAFE模块里，由于对这两个特征做一样的后续处理，所以统一写成/>。

CAFE和SAFE位于TAFE之后，主要是根据目标信息的位置信息和外观信息来计算不同通道下的权重值和不同位置下的权重值/>；

是通道数量，/>和/>分别是特征的高和宽。

基于多类注意力机制的特征提取模块的输入输出关系可表示为：

；

其中CBR表示CONV-BN-ReLU层，ReLU表示ReLU层，表示点乘操作。

实施例中，所述步骤3的具体步骤如下：

3.1、将模板区域和搜索区域/>送入带有多类注意力机制的脉冲神经网络的双路目标跟踪网络中，具有多类注意力机制的LIF脉冲神经网络模块对模板区域和搜索区域进行特征提取，得到最终的模板区域特征/>和搜索区域特征/>。

模板分支的输入维度为5×3×127×127，经过每个LIF脉冲神经网络模块后的输出维度分别为5×64×59×59，5×128×26×26和5×256×11×11；

搜索分支的输入维度为5×3×303×303，经过每个LIF脉冲神经网络模块后的输出维度分别为5×64×147×147，5×128×70×70和5×256×33×33。

3.2、将模板区域特征和搜索区域特征/>做互相关操作后得到的特征矩阵/>，特征矩阵/>输入到具有分类分支、质量评估分支和框回归分支的预测头模块，其中分类分支用于判断目标是否存在以及目标属于哪一类，质量评估分支用于评估检测到的目标框是否有效，框回归分支用于预测调整目标框的位置和尺寸，最终输出目标的位置信息。

重复上述所有步骤，直至跟踪至图像事件帧序列的最后一帧。

在实际实施训练过程中，被均分为5个时间切片。本发明选取VisEvent数据集作为训练和测试数据集，并将模型训练的batchsize大小设置为32，而在每个epoch中将在数据集中随机选取100,000张图片。其次使用随机梯度下降（SGD）优化器来更新网络权重。其中动量设为0.9，学习率衰减系数设为0.00005，网络的训练总共进行20个epoch。在前5个epoch中学习率的起始值设置为0.001，终点值设置为0.01，并采用线性上升的方式来增加学习率。在接下来的15个epoch中，则使用固定学习率策略，其中每5个epoch后将学习率下降至原来的10倍。这样的学习率设置策略可以帮助网络在初始阶段更快地收敛，并在后续阶段更加稳定。通过逐渐降低学习率，可以使网络在接近最优解时更加精确地收敛。此外，动量的设置可以帮助减少梯度下降的方差，加速训练过程。

图3为本发明在VisEvent数据集上的成功率图和准确率曲线图，其中左侧曲线图中横坐标表示用于计算跟踪得到的目标框与实际目标框之间的重叠率（IOU）的阈值，纵坐标为在该阈值下计算得到的重叠率值；图3右侧曲线图中横坐标表示用于计算跟踪得到的目标框与实际目标框中心点的像素距离的阈值，纵坐标为在该阈值下计算得到的距离精度值。一般来说，曲线下的面积越大，代表追踪器追踪效果越好。

图4为本发明在VisEvent数据集上的部分序列中的实际跟踪效果，其中左边是RGB图片，右边是经过预处理后的事件图片，图片中的矩形框是本发明算法对目标位置的预测。从图4可以看出，本发明方法能够在复杂场景下去除多余的背景干扰信息，从而使得本发明依然具有很高的准确率和成功率。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于多类注意力机制的脉冲神经网络的目标跟踪方法，其特征在于，包括：

步骤1）对事件相机保存的事件数据进行预处理，将事件数据转化成图像事件帧序列，并得到图像事件帧序列中的模板区域和搜索区域；

步骤2）构造一个基于具有多类注意力机制的LIF脉冲神经网络模块的双路目标跟踪网络；

步骤3）将模板区域和搜索区域输入双路目标跟踪网络，具有多类注意力机制的LIF脉冲神经网络模块对模板区域和搜索区域进行特征提取和融合，融合结果输入预测头模块，输出目标跟踪结果；

步骤2）中所述的双路目标跟踪网络由LIF脉冲神经网络模块多次叠加组成，其中一个LIF脉冲神经网络模块包括基于卷积的LIF神经元模块和基于多类注意力机制的特征提取模块；

所述基于多类注意力机制的特征提取模块包括基于时间注意力机制的时间特征提取模块TAFE，基于通道注意力机制的通道特征提取模块CAFE和基于空间注意力机制的空间特征提取模块SAFE；

所述基于多类注意力机制的特征提取模块位于每个基于卷积的LIF神经元模块的CONV-BN层和LIF脉冲神经元层之间，使得CONV-BN层得到的特征聚焦于感兴趣的跟踪目标区域，同时加强提取的特征在不同时间维度之间的联系；

所述LIF脉冲神经元层根据基于多类注意力机制的特征提取模块的输出特征和当前的累积电位进行计算，当累积电位超过神经元阈值时，神经元发放一个脉冲，并将累积电位重置为基线水平；

基于多类注意力机制的特征提取模块的输入输出关系为：

；

其中表示CONV-BN-ReLU层，ReLU表示ReLU层，/>表示点乘操作；/>为时间切片事件特征；/>为事件特征对应的权重向量；/>和/>分别为不同通道下的权重值和不同位置下的权重值。

2.根据权利要求1所述的一种基于多类注意力机制的脉冲神经网络的目标跟踪方法，其特征在于，步骤1）所述对事件相机保存的事件数据进行预处理的步骤如下：

1.1）将每个事件数据转化成图像事件帧序列，该序列/>中t时刻的事件帧/>将被均分为/>个时间切片，表示为/>，其中/>是时间切片的个数，即时间维度大小；

1.2）在事件帧序列的第一个事件帧/>中框选需要追踪的目标初始位置，并裁剪出模板区域/>；

1.3）根据事件帧中跟踪目标的中心坐标，在下一事件帧/>中裁切出搜索区域。

3.根据权利要求1所述的一种基于多类注意力机制的脉冲神经网络的目标跟踪方法，其特征在于，所述TAFE根据输入的个时间切片事件特征/>，计算出事件特征对应的权重向量/>，将注意力集中在具有更多目标信息的事件特征上，/>代表形状为的特征矩阵，其中/>为/>或/>。

4.根据权利要求3所述的一种基于多类注意力机制的脉冲神经网络的目标跟踪方法，其特征在于，所述CAFE和SAFE位于TAFE之后，根据目标信息的位置信息和外观信息来计算不同通道下的权重值和不同位置下的权重值/>；

是通道数量，/>和/>分别是特征的高和宽。

5.根据权利要求1所述的一种基于多类注意力机制的脉冲神经网络的目标跟踪方法，其特征在于，所述步骤3）的具体步骤如下：

3.1）将模板区域和搜索区域送入双路目标跟踪网络中，具有多类注意力机制的LIF脉冲神经网络模块对模板区域和搜索区域进行特征提取，得到模板区域特征和搜索区域特征；

3.2）将模板区域特征和搜索区域特征做互相关操作后得到的特征矩阵输入到具有分类分支、质量评估分支和框回归分支的预测头模块，其中分类分支用于判断目标是否存在以及目标属于哪一类，质量评估分支用于评估检测到的目标框是否有效，框回归分支用于预测调整目标框的位置和尺寸，最终输出目标的位置信息。