CN115601403A - 一种基于自注意力机制的事件相机光流估计方法及装置 - Google Patents

一种基于自注意力机制的事件相机光流估计方法及装置 Download PDF

Info

Publication number
CN115601403A
CN115601403A CN202211123155.5A CN202211123155A CN115601403A CN 115601403 A CN115601403 A CN 115601403A CN 202211123155 A CN202211123155 A CN 202211123155A CN 115601403 A CN115601403 A CN 115601403A
Authority
CN
China
Prior art keywords
event
optical flow
attention
layer
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211123155.5A
Other languages
English (en)
Inventor
粟傈
杨帆
王向禹
陈学娜
赵锦秀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Capital Normal University
Original Assignee
Capital Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Capital Normal University filed Critical Capital Normal University
Priority to CN202211123155.5A priority Critical patent/CN115601403A/zh
Publication of CN115601403A publication Critical patent/CN115601403A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本申请提出了一种基于自注意力机制的事件相机光流估计方法及装置,涉及计算机视觉技术领域,包括以下步骤:获取原始数据流并将原始数据流转换为离散化的事件帧,将事件帧输入到脉冲神经网络;根据脉冲神经网络中的编码层处理事件帧,得到编码层对应的脉冲输出,其中,编码层根据十字交叉注意力模块与时间注意力模块对事件帧进行处理;根据残差块和解码层处理脉冲输出,确定预测光流,其中,解码层使用转置卷积执行上采样;根据训练后的混合神经网络,确定预测光流的总损失。本发明通过十字交叉形注意力模块与时间注意力模块对输入的对象进行处理,捕获完整的图像依赖关系,有选择性地聚焦信息,自动过滤与最终结果无关的帧,提高光流预测能力,改善计算效率。

Description

一种基于自注意力机制的事件相机光流估计方法及装置
技术领域
本申请涉及计算机视觉技术领域,尤其涉及一种基于自注意力机制的事件相机光流估 计方法及装置。
背景技术
光流估计是图像处理与计算机视觉研究中一个重要的研究方向,它允许我们可视化场 景中的运动场,并为动作识别、运动分割和目标跟踪等更复杂的任务奠定基础。在过去的 几年中,光流估计在很大程度上由基于帧相机的传统计算机视觉算法所主导,但是由于传 统帧相机自身较低的时间分辨率、较高的延迟和数据量,在高速运动等挑战性场景下难以 捕捉到物体的快速变化,输出图像帧会存在运动模糊,重复曝光等问题,导致光流估计算 法的性能急剧下降。
事件相机(Event Camera)是受生物视觉系统启发的一类新型神经形态视觉传感器, 它独立检测每个像素点上的亮度变化,生成异步的事件流数据(x,y,t,p),该数据包括时间戳t、像素地址(x,y)和亮度变化的极性p,因此能克服传统帧相机的局限性并且具 有独特的优势,比如高时间分辨率(微秒级)、低延迟(微秒数量级)、低功耗 (10mW)、高动态范围(120-143dB),可以获取瞬时的运动数据,有利于进行连续的光 流估计。
第三代神经网络——脉冲神经网络(Spiking Neural Networks,SNN)以更具生物可 解释性的脉冲神经元模型为基本单元,提供了事件驱动的计算形式并利用了脉冲事件固有 的稀疏性,以低功耗和几乎无延迟的方式响应事件,所以脉冲神经网络与事件相机结合具 有天然的优势。然而,因为尖峰消失现象以及缺乏合适的训练技术,脉冲神经网络的性能 问题成为其应用于各大任务的最大障碍。针对这个问题,一些研究人员提出了集成脉冲神 经网络和模拟神经网络的深度混合神经网络(SNN-ANN)体系结构,高效估计稀疏事件相 机输出的光流。
发明内容
针对上述问题,提出了一种基于自注意力机制的事件相机光流估计方法及装置。
本申请第一方面提出了一种基于自注意力机制的事件相机光流估计方法,包括:
获取原始数据流并将所述原始数据流转换为离散化的事件帧,将所述事件帧输入到脉 冲神经网络;
根据所述脉冲神经网络中的编码层处理所述事件帧,得到所述编码层对应的脉冲输 出,其中,所述编码层根据十字交叉注意力模块与时间注意力模块对所述事件帧进行处理;
根据残差块和解码层处理所述脉冲输出,确定预测光流,其中,所述解码层使用转置 卷积执行上采样;
根据训练后的混合神经网络,确定所述预测光流的总损失。
可选的,所述获取原始数据流并将所述原始数据流转换为离散化的事件帧,包括:
通过事件相机跟踪所述原始数据流;
根据预设设置的预设阈值将所述原始数据流在时间维度上离散化为两组事件帧,其 中,每组事件帧包含通过从前一帧的时间戳到当前时间戳累积的事件而获得的N个事件帧,每个事件帧由两个通道组成。
可选的,所述根据所述脉冲神经网络中的编码层处理所述事件帧,得到所述编码层对 应的脉冲输出,其中,所述编码层根据十字交叉注意力模块与时间注意力模块对所述事件 帧进行处理,包括:
所述编码层对所述事件帧进行卷积,获取当前膜电位;
将所述当前膜电位与前一个编码层累积之后的膜电位汇合,确定汇合膜电位;
通过所述十字交叉注意力模块处理所述汇合膜电位,确定注意力图;
通过所述时间注意力模块处理所述注意力图,确定所述脉冲输出。
可选的,所述通过所述十字交叉注意力模块处理所述汇合膜电位,确定注意力图,包 括:
对于给定的所述汇合膜电位
Figure BDA0003847998600000021
所述十字交叉注意力模块在H上应用两个1×1滤波的所述编码层,分别生成两个特征图Q和K,其中,
Figure BDA0003847998600000022
C'是小 于C的通道数;
通过聚类操作所述特征图Q和K获取注意力图
Figure BDA0003847998600000023
对于特征图Q的空间维度中的每个位置u,确定向量
Figure BDA0003847998600000024
同时,在位置u相同的行或列中从特征图K 中提取特征向量得到集合
Figure BDA0003847998600000025
其中,
Figure BDA0003847998600000026
是Ωu的第i个元素, i∈[1,...,|Ωu|],所述聚类操作定义表达式为:
Figure BDA0003847998600000027
其中,di,u为特征Qu和Ωi,u之间的相关度,di,u∈D,
Figure BDA0003847998600000028
可选的,所述确定所述脉冲输出,包括:
计算统计向量,公式化为:
Figure BDA0003847998600000031
其中Xt,n-1∈RH×W×C是第n层在第t个时间步长的空间输入张量,C是通道数。
Figure BDA0003847998600000032
根据所述统计向量,计算训练阶段和推理阶段的注意力值,公式化为:
Figure BDA0003847998600000033
其中
Figure BDA0003847998600000034
是可训练的参数矩阵,dth是设定的注意力阈值,δ是ReLU激活函数,σ是Sigmoid激活函数,f(·)是Heaviside阶跃函数。
可选的,在所述确定所述预测光流的总损失之前,包括:
根据自监督学习方法训练所述混合神经网络。
可选的,所述确定预测光流的总损失,包括:
获取光度一致性损失,公式化如下:
Figure BDA0003847998600000035
其中,It为第一灰度图像的像素强度,It+dt为第二灰度图像的像素强度,ρ是Charbonnier损失函数,且ρ(x)=(x22)γ,r和η是训练时设置的恒定值;
获取平滑损失,公式化如下:
Figure BDA0003847998600000036
其中,H和W分别是预测光流的高度和宽度;
根据所述光度一致性损失与所述平滑损失获取所述预测光流的总损失,公式化如下:
Figure BDA0003847998600000037
其中,α表示权重因子。
本申请第二方面提出了一种基于自注意力机制的事件相机光流估计装置,包括:
输入模块,用于获取原始数据流并将所述原始数据流转换为离散化的事件帧,将所述 事件帧输入到脉冲神经网络;
编码模块,用于根据所述脉冲神经网络中的编码层处理所述事件帧,得到所述编码层 对应的脉冲输出,其中,所述编码层根据十字交叉注意力模块与时间注意力模块对所述事 件帧进行处理;
解码模块,用于根据残差块和解码层处理所述脉冲输出,确定预测光流,其中,所述 解码层使用转置卷积执行上采样;
损失获取模块,用于根据训练后的混合神经网络,确定所述预测光流的总损失。
本申请第三方面,提出一种事件相机,所述事件相机为神经形态视觉传感器,在通过 像素点独立检测光照强度变化并异步输出原始事件流信号时,实现如上述第一方面中任一 所述的方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
第一方面引入十字交叉形注意力模块捕获完整的图像依赖关系,弥补稀疏事件流的缺 陷,生成密集以及像素级的场景信息,降低算法时空复杂度;第二方面引入时间注意力模 块有选择性地聚焦信息,自动过滤与最终结果无关的帧,从事件流中有效提取时间和空间 特征,在保留SNN的事件触发特性的同时,能够比纯SNN结构更有效地处理事件流,提高 了光流预测能力,改善计算效率。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明 显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显 和容易理解,其中:
图1是根据本申请示例性实施例示出的一种基于自注意力机制的事件相机光流估计方 法的流程图;
图2是根据本申请示例性实施例示出的另一种基于自注意力机制的事件相机光流估计 方法的流程图;
图3是根据本申请示例性实施例示出的一种基于自注意力机制的事件相机光流估计方 法的网络结构图;
图4是本申请实施例中十字交叉注意力机制的可视化图;
图5是本申请示例性实施例示出的一种基于自注意力机制的事件相机光流估计装置的 框图;
图6是本申请实施例中事件相机硬件的原理图。
具体实施方式
下面详细描述本申请的实施例,实施例的示例在附图中示出,其中自始至终相同或类 似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的 实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
图1是根据本申请示例性实施例示出的基于自注意力机制的事件相机光流估计方法, 如图1所示,包括:
步骤101,获取原始数据流并将原始数据流转换为离散化的事件帧,将事件帧输入到 脉冲神经网络。
事件相机像素点上的亮度变化要由目标对象或传感器运动引起,当多个像素点同时请 求事件输出时,这些事件将以亚微秒级时延异步输出并构成事件流。事件流数据表示为: e=(x,y,t,p)T,包括事件的像素坐标(x和y位置)、触发时间(t)和亮度变化的极性(p)。 这里,每个ON/OFF极性分别对应于像素强度的增加或减少。事件相机跟踪每个像素阵列 元素处的对数强度I的变化,只要对数强度变化超过设定的阈值θ,就会产生如下离散事件:
||log(It+1)-log(It)||≥θ。
在步骤101中,采用一种离散化的输入编码方案,为SNN保留了事件的空间和时间信 息,即将一个时间窗口内的时间维度离散化为两组,每组包含通过从前一帧的时间戳到当 前时间戳累积的事件而获得的N个事件帧。这些事件帧中的每一个也由两个通道组成,用 于事件的ON/OFF极性,该输入表示如图3中(a)所示。因此,这四个通道的事件帧序列 顺序通过整个网络的脉冲神经网络部分。
步骤102,根据脉冲神经网络中的编码层处理事件帧,得到编码层对应的脉冲输出, 其中,编码层根据十字交叉注意力模块与时间注意力模块对事件帧进行处理。
如图2所示,步骤102还包括:
步骤201,编码层对事件帧进行卷积,获取当前膜电位。
首先,编码层对输入的事件帧进行卷积,确定当前的膜电位。
步骤202,将当前膜电位与前一个编码层累积之后的膜电位汇合,确定汇合膜电位。
将当前膜电位与前一个编码层累积之后的膜电位汇合作为十字交叉注意力模块的输 入。
步骤203,通过十字交叉注意力模块处理汇合膜电位,确定注意力图;。
本申请实施例中,脉冲神经网络的四个编码层分别通过十字交叉注意力模块进行像素 建模,收集所有相关信息,同时在每一层下采样。每个编码层的累积输出具有H×W的空 间大小,分别作为十字交叉注意力模块的输入,经过处理会产生新的降维的膜电位。该特 征图收集了每个像素在其十字交叉路径上的场景信息。然后,将密集的目标特征与局部表 示特征相连接,遍历一个或多个卷积层。
如图4所示,十字交叉注意力模块的输入特征图采用空间大小为H×W的形式,并采用加权和的方法采集场景信息。特征图中的每个位置稀疏地连接到同一行和列中的其他位置,导致预测的注意力特征图仅有H+W-1权重,如图3中(b)所示,十字交叉形注意 力模块以O((H×W)×(H×W-1))的时空复杂度捕获了水平和垂直方向上所有丰富的场景信 息。
另外,如图4所示,对于给定的汇合膜电位
Figure BDA0003847998600000061
十字交叉注意力模块在H上应用两个1×1滤波的编码层,分别生成两个特征图Q和K,其中,
Figure BDA0003847998600000062
C' 是小于C的通道数;
通过聚类操作特征图Q和K获取注意力图
Figure BDA0003847998600000063
对于特征图Q的空间维度中的每个位置u,确定向量
Figure BDA0003847998600000064
同时,在位置u相同的行或列中从特征图K中提 取特征向量得到集合
Figure BDA0003847998600000065
其中,
Figure BDA0003847998600000066
是Ωu的第i个元素,i∈[1,...,|Ωu|],聚类操作定义表达式为:
Figure BDA0003847998600000067
其中,di,u为特征Qu和Ωi,u之间的相关度,di,u∈D,
Figure BDA0003847998600000068
另外,对H应用另一层1×1滤波卷积层,生成
Figure BDA0003847998600000069
与图4类似,在特征图V的每个位置u处,获得向量
Figure BDA00038479986000000610
和集合
Figure BDA00038479986000000611
场景信息通过以下聚类操作收集:
Figure BDA00038479986000000612
其中H′u是位置u处的输出特征图
Figure BDA00038479986000000613
中的特征向量。Ai,u是通道i处的标量值。
场景信息可以被添加到局部特征H以增强像素表示。
另外,在使用十字交叉形注意力模块处理输入特征图之后,进一步使用IF神经元处 理再次处理数据。
其中,IF神经元模型将动作电位描述为事件,以脉冲事件的形式随时间传输输出信 号。在每个时间步,每个编码层的输入脉冲被加权以产生电流,接着整合到神经元膜电位(Vl)中。按下式计算:
Vl[n+1]=Vl[n]+wl*ol-1[n],
其中Vl[n]表示时间步长n处的膜电位,wl表示突触权重,ol-1[n]表示前一层的脉冲事件。当膜电位超过设定的激活阈值Vth时,神经元发出脉冲信号,并将膜电位重置为0。
步骤204,通过时间注意力模块处理注意力图,确定脉冲输出。
如图3中(c)所示,对于本发明中提出的时间注意力模块,将注意力的概念扩展到时态输入,以此获取事件在不同时刻的统计特征,生成注意力分数,然后根据分数对事件进行加权。该注意力分数不仅应该基于当前时间步长的输入统计特征,而且还应该考虑来自相邻帧的信息。具体地说,对于空间输入的每一步,在不管批大小的情况下通过压缩操作计算统计向量s:
Figure BDA0003847998600000071
其中Xt,n-1∈RH×W×C是第n层在第t个时间步长的空间输入张量,C是通道数,
Figure BDA0003847998600000072
根据统计向量s,计算训练阶段和推理阶段的注意力值d,如下所示:
Figure BDA0003847998600000073
其中
Figure BDA0003847998600000074
是可训练的参数矩阵,dth是设定的注意力阈值,δand σ分别是ReLU和Sigmoid激活函数,f(·)是Heaviside阶跃函数,满足:当x>0, f(x)=x,否则f(x)=0,将计算出的d值乘以空间输入,以获得新的空间输入
Figure BDA0003847998600000075
由此,对十字交叉注意力模块-IF神经元模型层中膜电位的输出脉冲处理完成,并传 递到后续的模拟神经网络层。
其中,编码层的脉冲输出分别通过十字交叉注意力和时间注意力机制处理后被收集在 其对应的输出累加器中,直到所有连续的事件图像通过。
步骤103,根据残差块和解码层处理脉冲输出,确定预测光流,其中,解码层使用转置卷积执行上采样。
本申请实施例中,来自最后一个编码层的脉冲输出通过两个残差块,而前三个编码层 的脉冲输出作为相应解码层的输入。然后每个解码层使用转置卷积执行上采样,以产生中 间流预测,而中间流预测、转置卷积输出和编码层的相应激活输出都连接在一起,以构建 下一个解码层的输入,最后一个解码层产生具有与输入帧相同维度的全尺度光流预测。
步骤104,根据训练后的混合神经网络,确定预测光流的总损失。
本申请实施例中,采用自监督学习方法训练本发明提出的混合神经网络。
预测光流的总损失包括光度一致性损失与平滑损失,计算公式化为:
Figure BDA0003847998600000081
其中,α表示权重因子。
光度一致性损失能够通过跟踪图像之间的像素强度来实现物体运动,该像素强度通过 一对灰度图像(It(x,y),It+dt(x,y))(起点和终点)以及预测的光流计算。空间变换器使用当 前水平和垂直方向上的光流估计(u,v),反向扭曲第二灰度图像(It+dt(x,y))以获得第一灰度 图像It+dt(x+u(x,y),y+v(x,y))。光度一致性损失最小化了第一帧图像和第二帧图像之间的 差异。由以下等式计算:
Figure BDA0003847998600000082
其中,It为第一灰度图像的像素强度,It+dt为第二灰度图像的像素强度,ρ是Charbonnier损失函数,且ρ(x)=(x22)γ,r和η是训练时设置的恒定值。
平滑损失可以增强相邻光流的空间共线性,通过向预测光流添加正则化使得相邻像素 之间的偏差最小化,计算如下:
Figure BDA0003847998600000083
其中,H和W分别是预测光流的高度和宽度。
另外,选择平均端点误差(Average end-point error,AEE)指标进行预测光流的评 估确定,平均端点误差描述了所有像素的标准光流场(ygt)和预测光流(ypred)之间的 欧几里德距离的平均值。计算公式为:
Figure BDA0003847998600000084
本申请第一方面引入十字交叉形注意力模块捕获完整的图像依赖关系,弥补稀疏事件 流的缺陷,生成密集以及像素级的场景信息,降低算法时空复杂度;第二方面引入时间注 意力模块有选择性地聚焦信息,自动过滤与最终结果无关的帧,从事件流中有效提取时间 和空间特征,在保留SNN的事件触发特性的同时,能够比纯SNN结构更有效地处理事件流,提高了光流预测能力,改善计算效率。
图5是根据本申请示例性实施例示出的一种基于自注意力机制的事件相机光流估计装 置500,包括:输入模块510、编码模块520、解码模块530和损失获取模块540。
输入模块510,用于获取原始数据流并将所述原始数据流转换为离散化的事件帧,将 所述事件帧输入到脉冲神经网络;
编码模块520,用于根据脉冲神经网络中的编码层处理事件帧,得到编码层对应的脉 冲输出,其中,编码层根据十字交叉注意力模块与时间注意力模块对事件帧进行处理;
解码模块530,用于根据残差块和解码层处理脉冲输出,确定预测光流,其中,解码层使用转置卷积执行上采样;
损失获取模块540,用于根据训练后的混合神经网络,确定预测光流的总损失。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实 施例中进行了详细描述,此处将不做详细阐述说明。
图6示出了可以用来实施本公开的实施例的示例事件相机DVS的硬件原理图。事件相 机是一种新型的动态视觉传感器,对光变化敏感,可以有效获取运动信息,构成了对获取 场景静止信息的传统相机的有效补充,也可以独立使用完成运动信息高效的输出;并且具 有低延迟、数据量小、高动态范围、极低功耗等特性,广泛应用于目标检测、图像分割等计算机视觉领域。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例, 并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,DVS是一种基于时间的异步动态视觉传感器,以异步时空脉冲信号表示 场景光强变化,对有光强变化的部分做出响应,而对无光强变化的部分则不会做出响应。 DVS将这些运动变化信息转化为空间稀疏、时间密集的事件流。它的单个像素结构和工作 原理简化图如图6所示。DVS像素由快速对数光感受器(photoreceptor)、差分电路(differencing)和两个比较器(comparators)组成,感光电路主要由一个光电二极管、一个串联的晶体管和一个负反馈回路构成,能感知光线强度变化并及时给出响应。差分电路可以将感光电路的输出进行放大,并减少晶体管因工艺制作带来的误差。阈值比较电路主要是通过比较器比较电压的变化实现ON/OFF事件脉冲的输出。若光线变亮,电压变化量 大于ON事件的阈值,则会输出一个脉冲表示ON事件;若光线变暗,电压变化量小于OFF 事件的阈值,则会输出一个脉冲表示OFF事件。如果电压达到饱和值,复位信号会将电压
两类主流事件相机ATIS(Asynchronous Time-based Image Sensor)和DAVIS(Dynamic and Active Pixel Vision Sensor),它们都是在DVS的基础上进行改进 的,其中ATIS加入了脉冲宽度调剂环节,可以在输出光线强度变化信息的同时输出对应 点的光线强度信息;与ATIS相同,DAVIS也可以输出50帧每秒左右速率的灰度图像,从 而辅助图像-事件的标定,并采用并联传感器,减小生成灰度图像对产生事件的延时。
另外,基于脉冲神经网络结构设计的芯片被称为类脑芯片,脉冲发生的时刻携带着重 要信息,脉冲神经网络天然具备对时序信息处理的能力,这与事件相机基于时间戳的事件 流输出十分吻合。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的 是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开 的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (9)

1.一种基于自注意力机制的事件相机光流估计方法,其特征在于,包括:
获取原始数据流并将所述原始数据流转换为离散化的事件帧,将所述事件帧输入到脉冲神经网络;
根据所述脉冲神经网络中的编码层处理所述事件帧,得到所述编码层对应的脉冲输出,其中,所述编码层根据十字交叉注意力模块与时间注意力模块对所述事件帧进行处理;
根据残差块和解码层处理所述脉冲输出,确定预测光流,其中,所述解码层使用转置卷积执行上采样;
根据训练后的混合神经网络,确定所述预测光流的总损失。
2.根据权利要求1所述方法,其特征在于,所述获取原始数据流并将所述原始数据流转换为离散化的事件帧,包括:
通过事件相机输出所述原始数据流;
根据预设设置的预设阈值将所述原始数据流在时间维度上离散化为两组事件帧,其中,每组事件帧包含通过从前一帧的时间戳到当前时间戳累积的事件而获得的N个事件帧,每个事件帧由两个通道组成。
3.根据权利要求1所述的方法,其特征在于,所述根据所述脉冲神经网络中的编码层处理所述事件帧,得到所述编码层对应的脉冲输出,其中,所述编码层根据十字交叉注意力模块与时间注意力模块对所述事件帧进行处理,包括:
所述编码层对所述事件帧进行卷积,获取当前膜电位;
将所述当前膜电位与前一个编码层累积之后的膜电位汇合,确定汇合膜电位;
通过所述十字交叉注意力模块处理所述汇合膜电位,确定注意力图;
通过所述时间注意力模块处理所述注意力图,确定所述脉冲输出。
4.根据权利要求3所述的方法,其特征在于,所述通过所述十字交叉注意力模块处理所述汇合膜电位,确定注意力图,包括:
对于给定的所述汇合膜电位
Figure FDA0003847998590000011
所述十字交叉注意力模块在H上应用两个1×1滤波的所述编码层,分别生成两个特征图Q和K,其中,
Figure FDA0003847998590000012
C'是小于C的通道数;
通过聚类操作所述特征图Q和K获取注意力图
Figure FDA0003847998590000021
对于特征图Q的空间维度中的每个位置u,确定向量
Figure FDA0003847998590000022
同时,在位置u相同的行或列中从特征图K中提取特征向量得到集合
Figure FDA0003847998590000023
其中,
Figure FDA0003847998590000024
是Ωu的第i个元素,i∈[1,...,|Ωu|],所述聚类操作定义表达式为:
Figure FDA0003847998590000025
其中,di,u为特征Qu和Ωi,u之间的相关度,di,u∈D,
Figure FDA0003847998590000026
5.根据权利要求3所述的方法,其特征在于,所述确定所述脉冲输出,包括:
计算统计向量,公式化为:
Figure FDA0003847998590000027
其中Xt,n-1∈RH×W×C是第n层在第t个时间步长的空间输入张量,C是通道数。
Figure FDA0003847998590000028
根据所述统计向量,计算训练阶段和推理阶段的注意力值,公式化为:
Figure FDA0003847998590000029
其中
Figure FDA00038479985900000210
是可训练的参数矩阵,dth是设定的注意力阈值,δ是ReLU激活函数,σ是Sigmoid激活函数,f(·)是Heaviside阶跃函数。
6.根据权利要求1所述的方法,其特征在于,在所述确定所述预测光流的总损失之前,包括:
根据自监督学习方法训练所述混合神经网络。
7.根据权利要求6所述的方法,其特征在于,所述预测光流的总损失,包括:
获取光度一致性损失,公式化如下:
Figure FDA00038479985900000211
其中,It为第一灰度图像的像素强度,It+dt为第二灰度图像的像素强度,ρ是Charbonnier损失函数,且ρ(x)=(x22)γ,r和η是训练时设置的恒定值;
获取平滑损失,公式化如下:
Figure FDA0003847998590000031
其中,H和W分别是所述预测光流的高度和宽度;
根据所述光度一致性损失与所述平滑损失获取所述预测光流的总损失,公式化如下:
Figure FDA0003847998590000032
其中,α表示权重因子。
8.一种基于自注意力机制的事件相机光流估计装置,其特征在于,包括:
输入模块,用于获取原始数据流并将所述原始数据流转换为离散化的事件帧,将所述事件帧输入到脉冲神经网络;
编码模块,用于根据所述脉冲神经网络中的编码层处理所述事件帧,得到所述编码层对应的脉冲输出,其中,所述编码层根据十字交叉注意力模块与时间注意力模块对所述事件帧进行处理;
解码模块,用于根据残差块和解码层处理所述脉冲输出,确定预测光流,其中,所述解码层使用转置卷积执行上采样;
损失获取模块,用于根据训练后的混合神经网络,确定所述预测光流的总损失。
9.一种事件相机,其特征在于,所述事件相机为神经形态视觉传感器,在通过像素点独立检测光照强度变化并异步输出原始事件流信号时,实现如权利要求1-7中任一所述的方法。
CN202211123155.5A 2022-09-15 2022-09-15 一种基于自注意力机制的事件相机光流估计方法及装置 Pending CN115601403A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211123155.5A CN115601403A (zh) 2022-09-15 2022-09-15 一种基于自注意力机制的事件相机光流估计方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211123155.5A CN115601403A (zh) 2022-09-15 2022-09-15 一种基于自注意力机制的事件相机光流估计方法及装置

Publications (1)

Publication Number Publication Date
CN115601403A true CN115601403A (zh) 2023-01-13

Family

ID=84842612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211123155.5A Pending CN115601403A (zh) 2022-09-15 2022-09-15 一种基于自注意力机制的事件相机光流估计方法及装置

Country Status (1)

Country Link
CN (1) CN115601403A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115953438A (zh) * 2023-03-16 2023-04-11 深圳时识科技有限公司 光流估计方法及装置、芯片及电子设备
CN116188533A (zh) * 2023-04-23 2023-05-30 深圳时识科技有限公司 特征点跟踪方法与装置、电子设备
CN116580065A (zh) * 2023-07-12 2023-08-11 苏州多感科技有限公司 基于事件相机的光流估计方法及装置
CN117314972A (zh) * 2023-11-21 2023-12-29 安徽大学 一种基于多类注意力机制的脉冲神经网络的目标跟踪方法
CN117372879A (zh) * 2023-12-07 2024-01-09 山东建筑大学 基于自监督增强的轻量级遥感影像变化检测方法和系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115953438A (zh) * 2023-03-16 2023-04-11 深圳时识科技有限公司 光流估计方法及装置、芯片及电子设备
CN116188533A (zh) * 2023-04-23 2023-05-30 深圳时识科技有限公司 特征点跟踪方法与装置、电子设备
CN116188533B (zh) * 2023-04-23 2023-08-08 深圳时识科技有限公司 特征点跟踪方法与装置、电子设备
CN116580065A (zh) * 2023-07-12 2023-08-11 苏州多感科技有限公司 基于事件相机的光流估计方法及装置
CN116580065B (zh) * 2023-07-12 2023-09-29 苏州多感科技有限公司 基于事件相机的光流估计方法及装置
CN117314972A (zh) * 2023-11-21 2023-12-29 安徽大学 一种基于多类注意力机制的脉冲神经网络的目标跟踪方法
CN117314972B (zh) * 2023-11-21 2024-02-13 安徽大学 一种基于多类注意力机制的脉冲神经网络的目标跟踪方法
CN117372879A (zh) * 2023-12-07 2024-01-09 山东建筑大学 基于自监督增强的轻量级遥感影像变化检测方法和系统
CN117372879B (zh) * 2023-12-07 2024-03-26 山东建筑大学 基于自监督增强的轻量级遥感影像变化检测方法和系统

Similar Documents

Publication Publication Date Title
CN115601403A (zh) 一种基于自注意力机制的事件相机光流估计方法及装置
CN111860162B (zh) 一种视频人群计数系统及方法
CN112347859B (zh) 一种光学遥感图像显著性目标检测方法
CN109064507B (zh) 一种用于视频预测的多运动流深度卷积网络模型方法
CN110119703A (zh) 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法
CN109919032B (zh) 一种基于动作预测的视频异常行为检测方法
CN110097028B (zh) 基于三维金字塔图像生成网络的人群异常事件检测方法
Gu et al. Eventdrop: Data augmentation for event-based learning
CN113378775B (zh) 一种基于深度学习的视频阴影检测与消除方法
CN108563977A (zh) 一种高速公路出入口的行人预警方法及系统
CN113688761B (zh) 一种基于图像序列的行人行为类别检测方法
CN117253039A (zh) 一种基于脉冲神经网络的目标分割方法与系统
CN114627150A (zh) 基于事件相机的数据处理及运动估计方法及装置
CN112487874A (zh) 一种基于事件相机消除背景噪声的方法及系统
CN112308087A (zh) 基于动态视觉传感器的一体化成像识别系统和方法
CN116403152A (zh) 一种基于空间上下文学习网络的人群密度估计方法
CN115953736A (zh) 一种基于视频监控与深度神经网络的人群密度估计方法
Sun et al. 3D-FlowNet: Event-based optical flow estimation with 3D representation
CN113657200A (zh) 一种基于掩码r-cnn的视频行为动作识别方法及系统
CN105740819A (zh) 一种基于整数规划的人群密度估计方法
CN111127355A (zh) 一种对缺损光流图进行精细补全的方法及其应用
CN115953438A (zh) 光流估计方法及装置、芯片及电子设备
CN116597144A (zh) 一种基于事件相机的图像语义分割方法
CN116188555A (zh) 一种基于深度网络与运动信息的单目室内深度估计算法
CN110232314A (zh) 一种基于改进的Hog特征结合神经网络的图像行人检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination