CN115601403A

CN115601403A - 一种基于自注意力机制的事件相机光流估计方法及装置

Info

Publication number: CN115601403A
Application number: CN202211123155.5A
Authority: CN
Inventors: 粟傈; 杨帆; 王向禹; 陈学娜; 赵锦秀
Original assignee: Capital Normal University
Current assignee: Capital Normal University
Priority date: 2022-09-15
Filing date: 2022-09-15
Publication date: 2023-01-13

Abstract

本申请提出了一种基于自注意力机制的事件相机光流估计方法及装置，涉及计算机视觉技术领域，包括以下步骤：获取原始数据流并将原始数据流转换为离散化的事件帧，将事件帧输入到脉冲神经网络；根据脉冲神经网络中的编码层处理事件帧，得到编码层对应的脉冲输出，其中，编码层根据十字交叉注意力模块与时间注意力模块对事件帧进行处理；根据残差块和解码层处理脉冲输出，确定预测光流，其中，解码层使用转置卷积执行上采样；根据训练后的混合神经网络，确定预测光流的总损失。本发明通过十字交叉形注意力模块与时间注意力模块对输入的对象进行处理，捕获完整的图像依赖关系，有选择性地聚焦信息，自动过滤与最终结果无关的帧，提高光流预测能力，改善计算效率。

Description

一种基于自注意力机制的事件相机光流估计方法及装置

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种基于自注意力机制的事件相机光流估计方法及装置。

背景技术

光流估计是图像处理与计算机视觉研究中一个重要的研究方向，它允许我们可视化场景中的运动场，并为动作识别、运动分割和目标跟踪等更复杂的任务奠定基础。在过去的几年中，光流估计在很大程度上由基于帧相机的传统计算机视觉算法所主导，但是由于传统帧相机自身较低的时间分辨率、较高的延迟和数据量，在高速运动等挑战性场景下难以捕捉到物体的快速变化，输出图像帧会存在运动模糊，重复曝光等问题，导致光流估计算法的性能急剧下降。

事件相机(Event Camera)是受生物视觉系统启发的一类新型神经形态视觉传感器，它独立检测每个像素点上的亮度变化，生成异步的事件流数据(x,y,t,p)，该数据包括时间戳t、像素地址(x,y)和亮度变化的极性p，因此能克服传统帧相机的局限性并且具有独特的优势，比如高时间分辨率(微秒级)、低延迟(微秒数量级)、低功耗 (10mW)、高动态范围(120-143dB)，可以获取瞬时的运动数据，有利于进行连续的光流估计。

第三代神经网络——脉冲神经网络(Spiking Neural Networks,SNN)以更具生物可解释性的脉冲神经元模型为基本单元，提供了事件驱动的计算形式并利用了脉冲事件固有的稀疏性，以低功耗和几乎无延迟的方式响应事件，所以脉冲神经网络与事件相机结合具有天然的优势。然而，因为尖峰消失现象以及缺乏合适的训练技术，脉冲神经网络的性能问题成为其应用于各大任务的最大障碍。针对这个问题，一些研究人员提出了集成脉冲神经网络和模拟神经网络的深度混合神经网络(SNN-ANN)体系结构，高效估计稀疏事件相机输出的光流。

发明内容

针对上述问题，提出了一种基于自注意力机制的事件相机光流估计方法及装置。

本申请第一方面提出了一种基于自注意力机制的事件相机光流估计方法，包括：

获取原始数据流并将所述原始数据流转换为离散化的事件帧，将所述事件帧输入到脉冲神经网络；

根据所述脉冲神经网络中的编码层处理所述事件帧，得到所述编码层对应的脉冲输出，其中，所述编码层根据十字交叉注意力模块与时间注意力模块对所述事件帧进行处理；

根据残差块和解码层处理所述脉冲输出，确定预测光流，其中，所述解码层使用转置卷积执行上采样；

根据训练后的混合神经网络，确定所述预测光流的总损失。

可选的，所述获取原始数据流并将所述原始数据流转换为离散化的事件帧，包括：

通过事件相机跟踪所述原始数据流；

根据预设设置的预设阈值将所述原始数据流在时间维度上离散化为两组事件帧，其中，每组事件帧包含通过从前一帧的时间戳到当前时间戳累积的事件而获得的N个事件帧，每个事件帧由两个通道组成。

可选的，所述根据所述脉冲神经网络中的编码层处理所述事件帧，得到所述编码层对应的脉冲输出，其中，所述编码层根据十字交叉注意力模块与时间注意力模块对所述事件帧进行处理，包括：

所述编码层对所述事件帧进行卷积，获取当前膜电位；

将所述当前膜电位与前一个编码层累积之后的膜电位汇合，确定汇合膜电位；

通过所述十字交叉注意力模块处理所述汇合膜电位，确定注意力图；

通过所述时间注意力模块处理所述注意力图，确定所述脉冲输出。

可选的，所述通过所述十字交叉注意力模块处理所述汇合膜电位，确定注意力图，包括：

对于给定的所述汇合膜电位

所述十字交叉注意力模块在H上应用两个1×1滤波的所述编码层，分别生成两个特征图Q和K，其中，

C'是小于C的通道数；

通过聚类操作所述特征图Q和K获取注意力图

对于特征图Q的空间维度中的每个位置u，确定向量

同时，在位置u相同的行或列中从特征图K 中提取特征向量得到集合

其中，

是Ω_u的第i个元素， i∈[1,...,|Ω_u|]，所述聚类操作定义表达式为：

其中，d_i,u为特征Q_u和Ω_i,u之间的相关度，d_i,u∈D，

可选的，所述确定所述脉冲输出，包括：

计算统计向量，公式化为：

其中X^t,n-1∈R^H×W×C是第n层在第t个时间步长的空间输入张量，C是通道数。

根据所述统计向量，计算训练阶段和推理阶段的注意力值，公式化为：

其中

是可训练的参数矩阵，d_th是设定的注意力阈值，δ是ReLU激活函数，σ是Sigmoid激活函数，f(·)是Heaviside阶跃函数。

可选的，在所述确定所述预测光流的总损失之前，包括：

根据自监督学习方法训练所述混合神经网络。

可选的，所述确定预测光流的总损失，包括：

获取光度一致性损失，公式化如下：

其中，I_t为第一灰度图像的像素强度，I_t+dt为第二灰度图像的像素强度，ρ是Charbonnier损失函数，且ρ(x)＝(x²+η²)^γ，r和η是训练时设置的恒定值；

获取平滑损失，公式化如下：

其中，H和W分别是预测光流的高度和宽度；

根据所述光度一致性损失与所述平滑损失获取所述预测光流的总损失，公式化如下：

其中，α表示权重因子。

本申请第二方面提出了一种基于自注意力机制的事件相机光流估计装置，包括：

输入模块，用于获取原始数据流并将所述原始数据流转换为离散化的事件帧，将所述事件帧输入到脉冲神经网络；

编码模块，用于根据所述脉冲神经网络中的编码层处理所述事件帧，得到所述编码层对应的脉冲输出，其中，所述编码层根据十字交叉注意力模块与时间注意力模块对所述事件帧进行处理；

解码模块，用于根据残差块和解码层处理所述脉冲输出，确定预测光流，其中，所述解码层使用转置卷积执行上采样；

损失获取模块，用于根据训练后的混合神经网络，确定所述预测光流的总损失。

本申请第三方面，提出一种事件相机，所述事件相机为神经形态视觉传感器，在通过像素点独立检测光照强度变化并异步输出原始事件流信号时，实现如上述第一方面中任一所述的方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

第一方面引入十字交叉形注意力模块捕获完整的图像依赖关系，弥补稀疏事件流的缺陷，生成密集以及像素级的场景信息，降低算法时空复杂度；第二方面引入时间注意力模块有选择性地聚焦信息，自动过滤与最终结果无关的帧，从事件流中有效提取时间和空间特征，在保留SNN的事件触发特性的同时，能够比纯SNN结构更有效地处理事件流，提高了光流预测能力，改善计算效率。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本申请示例性实施例示出的一种基于自注意力机制的事件相机光流估计方法的流程图；

图2是根据本申请示例性实施例示出的另一种基于自注意力机制的事件相机光流估计方法的流程图；

图3是根据本申请示例性实施例示出的一种基于自注意力机制的事件相机光流估计方法的网络结构图；

图4是本申请实施例中十字交叉注意力机制的可视化图；

图5是本申请示例性实施例示出的一种基于自注意力机制的事件相机光流估计装置的框图；

图6是本申请实施例中事件相机硬件的原理图。

具体实施方式

下面详细描述本申请的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

图1是根据本申请示例性实施例示出的基于自注意力机制的事件相机光流估计方法，如图1所示，包括：

步骤101，获取原始数据流并将原始数据流转换为离散化的事件帧，将事件帧输入到脉冲神经网络。

事件相机像素点上的亮度变化要由目标对象或传感器运动引起，当多个像素点同时请求事件输出时，这些事件将以亚微秒级时延异步输出并构成事件流。事件流数据表示为: e＝(x,y,t,p)^T，包括事件的像素坐标(x和y位置)、触发时间(t)和亮度变化的极性(p)。这里，每个ON/OFF极性分别对应于像素强度的增加或减少。事件相机跟踪每个像素阵列元素处的对数强度I的变化，只要对数强度变化超过设定的阈值θ，就会产生如下离散事件：

||log(I_t+1)-log(I_t)||≥θ。

在步骤101中，采用一种离散化的输入编码方案，为SNN保留了事件的空间和时间信息，即将一个时间窗口内的时间维度离散化为两组，每组包含通过从前一帧的时间戳到当前时间戳累积的事件而获得的N个事件帧。这些事件帧中的每一个也由两个通道组成，用于事件的ON/OFF极性，该输入表示如图3中(a)所示。因此，这四个通道的事件帧序列顺序通过整个网络的脉冲神经网络部分。

步骤102，根据脉冲神经网络中的编码层处理事件帧，得到编码层对应的脉冲输出，其中，编码层根据十字交叉注意力模块与时间注意力模块对事件帧进行处理。

如图2所示，步骤102还包括：

步骤201，编码层对事件帧进行卷积，获取当前膜电位。

首先，编码层对输入的事件帧进行卷积，确定当前的膜电位。

步骤202，将当前膜电位与前一个编码层累积之后的膜电位汇合，确定汇合膜电位。

将当前膜电位与前一个编码层累积之后的膜电位汇合作为十字交叉注意力模块的输入。

步骤203，通过十字交叉注意力模块处理汇合膜电位，确定注意力图；。

本申请实施例中，脉冲神经网络的四个编码层分别通过十字交叉注意力模块进行像素建模，收集所有相关信息，同时在每一层下采样。每个编码层的累积输出具有H×W的空间大小，分别作为十字交叉注意力模块的输入，经过处理会产生新的降维的膜电位。该特征图收集了每个像素在其十字交叉路径上的场景信息。然后，将密集的目标特征与局部表示特征相连接，遍历一个或多个卷积层。

如图4所示，十字交叉注意力模块的输入特征图采用空间大小为H×W的形式，并采用加权和的方法采集场景信息。特征图中的每个位置稀疏地连接到同一行和列中的其他位置，导致预测的注意力特征图仅有H+W-1权重，如图3中(b)所示，十字交叉形注意力模块以O((H×W)×(H×W-1))的时空复杂度捕获了水平和垂直方向上所有丰富的场景信息。

另外，如图4所示，对于给定的汇合膜电位

十字交叉注意力模块在H上应用两个1×1滤波的编码层，分别生成两个特征图Q和K，其中，

C' 是小于C的通道数；

通过聚类操作特征图Q和K获取注意力图

对于特征图Q的空间维度中的每个位置u，确定向量

同时，在位置u相同的行或列中从特征图K中提取特征向量得到集合

其中，

是Ω_u的第i个元素，i∈[1,...,|Ω_u|]，聚类操作定义表达式为：

其中，d_i,u为特征Q_u和Ω_i,u之间的相关度，d_i,u∈D，

另外，对H应用另一层1×1滤波卷积层，生成

与图4类似，在特征图V的每个位置u处，获得向量

和集合

场景信息通过以下聚类操作收集：

其中H′_u是位置u处的输出特征图

中的特征向量。A_i,u是通道i处的标量值。

场景信息可以被添加到局部特征H以增强像素表示。

另外，在使用十字交叉形注意力模块处理输入特征图之后，进一步使用IF神经元处理再次处理数据。

其中，IF神经元模型将动作电位描述为事件，以脉冲事件的形式随时间传输输出信号。在每个时间步，每个编码层的输入脉冲被加权以产生电流，接着整合到神经元膜电位(V^l)中。按下式计算：

V^l[n+1]＝V^l[n]+w^l*o^l-1[n]，

其中V^l[n]表示时间步长n处的膜电位，w^l表示突触权重，o^l-1[n]表示前一层的脉冲事件。当膜电位超过设定的激活阈值V_th时，神经元发出脉冲信号，并将膜电位重置为0。

步骤204，通过时间注意力模块处理注意力图，确定脉冲输出。

如图3中(c)所示，对于本发明中提出的时间注意力模块，将注意力的概念扩展到时态输入，以此获取事件在不同时刻的统计特征，生成注意力分数，然后根据分数对事件进行加权。该注意力分数不仅应该基于当前时间步长的输入统计特征，而且还应该考虑来自相邻帧的信息。具体地说，对于空间输入的每一步，在不管批大小的情况下通过压缩操作计算统计向量s：

其中X^t,n-1∈R^H×W×C是第n层在第t个时间步长的空间输入张量，C是通道数，

根据统计向量s，计算训练阶段和推理阶段的注意力值d，如下所示：

其中

是可训练的参数矩阵，d_th是设定的注意力阈值，δand σ分别是ReLU和Sigmoid激活函数，f(·)是Heaviside阶跃函数，满足：当x>0, f(x)＝x，否则f(x)＝0,将计算出的d值乘以空间输入，以获得新的空间输入

由此，对十字交叉注意力模块-IF神经元模型层中膜电位的输出脉冲处理完成，并传递到后续的模拟神经网络层。

其中，编码层的脉冲输出分别通过十字交叉注意力和时间注意力机制处理后被收集在其对应的输出累加器中，直到所有连续的事件图像通过。

步骤103，根据残差块和解码层处理脉冲输出，确定预测光流，其中，解码层使用转置卷积执行上采样。

本申请实施例中，来自最后一个编码层的脉冲输出通过两个残差块，而前三个编码层的脉冲输出作为相应解码层的输入。然后每个解码层使用转置卷积执行上采样，以产生中间流预测，而中间流预测、转置卷积输出和编码层的相应激活输出都连接在一起，以构建下一个解码层的输入，最后一个解码层产生具有与输入帧相同维度的全尺度光流预测。

步骤104，根据训练后的混合神经网络，确定预测光流的总损失。

本申请实施例中，采用自监督学习方法训练本发明提出的混合神经网络。

预测光流的总损失包括光度一致性损失与平滑损失，计算公式化为：

其中，α表示权重因子。

光度一致性损失能够通过跟踪图像之间的像素强度来实现物体运动，该像素强度通过一对灰度图像(I_t(x,y),I_t+dt(x,y))(起点和终点)以及预测的光流计算。空间变换器使用当前水平和垂直方向上的光流估计(u,v)，反向扭曲第二灰度图像(I_t+dt(x,y))以获得第一灰度图像I_t+dt(x+u(x,y),y+v(x,y))。光度一致性损失最小化了第一帧图像和第二帧图像之间的差异。由以下等式计算：

其中，I_t为第一灰度图像的像素强度，I_t+dt为第二灰度图像的像素强度，ρ是Charbonnier损失函数，且ρ(x)＝(x²+η²)^γ，r和η是训练时设置的恒定值。

平滑损失可以增强相邻光流的空间共线性，通过向预测光流添加正则化使得相邻像素之间的偏差最小化，计算如下：

其中，H和W分别是预测光流的高度和宽度。

另外，选择平均端点误差(Average end-point error,AEE)指标进行预测光流的评估确定，平均端点误差描述了所有像素的标准光流场(y_gt)和预测光流(y_pred)之间的欧几里德距离的平均值。计算公式为：

本申请第一方面引入十字交叉形注意力模块捕获完整的图像依赖关系，弥补稀疏事件流的缺陷，生成密集以及像素级的场景信息，降低算法时空复杂度；第二方面引入时间注意力模块有选择性地聚焦信息，自动过滤与最终结果无关的帧，从事件流中有效提取时间和空间特征，在保留SNN的事件触发特性的同时，能够比纯SNN结构更有效地处理事件流，提高了光流预测能力，改善计算效率。

图5是根据本申请示例性实施例示出的一种基于自注意力机制的事件相机光流估计装置500，包括：输入模块510、编码模块520、解码模块530和损失获取模块540。

输入模块510，用于获取原始数据流并将所述原始数据流转换为离散化的事件帧，将所述事件帧输入到脉冲神经网络；

编码模块520，用于根据脉冲神经网络中的编码层处理事件帧，得到编码层对应的脉冲输出，其中，编码层根据十字交叉注意力模块与时间注意力模块对事件帧进行处理；

解码模块530，用于根据残差块和解码层处理脉冲输出，确定预测光流，其中，解码层使用转置卷积执行上采样；

损失获取模块540，用于根据训练后的混合神经网络，确定预测光流的总损失。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6示出了可以用来实施本公开的实施例的示例事件相机DVS的硬件原理图。事件相机是一种新型的动态视觉传感器，对光变化敏感，可以有效获取运动信息，构成了对获取场景静止信息的传统相机的有效补充，也可以独立使用完成运动信息高效的输出；并且具有低延迟、数据量小、高动态范围、极低功耗等特性，广泛应用于目标检测、图像分割等计算机视觉领域。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，DVS是一种基于时间的异步动态视觉传感器，以异步时空脉冲信号表示场景光强变化，对有光强变化的部分做出响应，而对无光强变化的部分则不会做出响应。 DVS将这些运动变化信息转化为空间稀疏、时间密集的事件流。它的单个像素结构和工作原理简化图如图6所示。DVS像素由快速对数光感受器(photoreceptor)、差分电路(differencing)和两个比较器(comparators)组成，感光电路主要由一个光电二极管、一个串联的晶体管和一个负反馈回路构成，能感知光线强度变化并及时给出响应。差分电路可以将感光电路的输出进行放大，并减少晶体管因工艺制作带来的误差。阈值比较电路主要是通过比较器比较电压的变化实现ON/OFF事件脉冲的输出。若光线变亮，电压变化量大于ON事件的阈值，则会输出一个脉冲表示ON事件；若光线变暗，电压变化量小于OFF 事件的阈值，则会输出一个脉冲表示OFF事件。如果电压达到饱和值，复位信号会将电压

两类主流事件相机ATIS(Asynchronous Time-based Image Sensor)和DAVIS(Dynamic and Active Pixel Vision Sensor)，它们都是在DVS的基础上进行改进的，其中ATIS加入了脉冲宽度调剂环节，可以在输出光线强度变化信息的同时输出对应点的光线强度信息；与ATIS相同，DAVIS也可以输出50帧每秒左右速率的灰度图像，从而辅助图像-事件的标定，并采用并联传感器，减小生成灰度图像对产生事件的延时。

另外，基于脉冲神经网络结构设计的芯片被称为类脑芯片，脉冲发生的时刻携带着重要信息，脉冲神经网络天然具备对时序信息处理的能力，这与事件相机基于时间戳的事件流输出十分吻合。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。