CN114694082A

CN114694082A - 一种基于自注意力机制的事件相机数据输入方法

Info

Publication number: CN114694082A
Application number: CN202210424737.0A
Authority: CN
Inventors: 魏文应; 安欣赏; 肖铁军; 张世雄; 陶键源
Original assignee: Guangdong Bohua Ultra Hd Innovation Center Co ltd; Instritute Of Intelligent Video Audio Technology Longgang Shenzhen
Current assignee: Guangdong Bohua Ultra Hd Innovation Center Co ltd; Instritute Of Intelligent Video Audio Technology Longgang Shenzhen
Priority date: 2022-04-22
Filing date: 2022-04-22
Publication date: 2022-07-01

Abstract

本发明的基于自注意力机制的事件相机数据输入方法，包括以下步骤：S1.数据预处理，得到预处理后的事件相机数据；S2.算法实现：将预处理后的事件相机数据，生成自注意力神经网络所需的事件相机数据的自信息；以及S3.神经网络选择：基于数据被处理成自信息，将采用同类型的基于自注意力机制的神经网络模型。本发明方法在数据输入神经网络前，对数据进行预处理和自信息生成，特别是，使用基于自注意力机制的算法，对每个触发数据进行自信息生成，最终实现事件相机数据无损输入神经网络的功能，从而解决旧有方法中因时间编码、位置编码以及全连接网络计算而导致输入信息衰减的问题。

Description

一种基于自注意力机制的事件相机数据输入方法

技术领域

本发明涉及计算机视觉领域，特别地，涉及一种基于自注意力机制的事件相机数据输入方法。

背景技术

随着人工智能技术的发展，特别是深度神经网络的快速发展，基于自注意力机制(self-attention)的神经网络，近年来在各个人工智能子领域得到大规模的应用，包括语音识别、图像目标检测、图像分类等等。与此同时，数据采集硬件设备也在不断地推陈出新，其中就包括事件相机(Event Camera，也被称为动态视觉传感器，Dynamic VisionSensor)。事件相机主要用于感知空间范围内运动的物体，对于不运动的物体无感。在感受野范围内，到达一定的光学条件下，某些像素点会被触发，并返回触发点的时间戳、位置、极值等信息；而对于没有被触发的点，则不返回信息；以此大大地减少数据量。事件相机在捕捉高速运动物体、高强度画面抖动、数据量、背景影响等方面，相比传统相机，有其独特的优点。但是存在的主要问题是：当前机器视觉数据处理，大都采用视频帧的形式，且大部分神经网络模型算法，也都侧重于视频数据输入，现有方法在面对离散数据事，大都将离散数据处理成视频流(即，将一段时间内的数据，转为视频流，)，然后采用处理视频流的通用方式，使用卷积神经网络图像块编码(Patch Embed)，它直接导致位置信息衰减，相同位置数据重叠覆盖，然后对数据进行时间编码、空间编码、以及全连接计算等操作计算，之后将这些计算得到的数据输入到后续深度神经网络中，因此后续网络得到的将是信息严重衰减后的数据。这些操作会使得离散数据在输入深度神经网络前，数据信息衰减严重。因此，在面对呈现离散性的事件相机数据时，现有的神经网络数据输入方式难以适用。

输入信息衰减，神经网络获得的信息减少，影响识别结果，解决以上问题及缺陷的意义为：尽量确保数据信息输入到神经网络，有利于算法获得更加准确的识别结果。

发明内容

本发明提供了一种基于自注意力机制的事件相机数据输入方法，在数据输入神经网络前，对数据进行预处理和自信息生成。特别是，使用基于自注意力机制的算法，对每个触发数据进行自信息生成，最终实现事件相机数据无损输入神经网络的功能，从而解决旧有方法中因时间编码、位置编码以及全连接网络计算而导致输入信息衰减的问题。

本发明的技术方案如下：

本发明的基于自注意力机制的事件相机数据输入方法，包括以下步骤：S1.数据预处理，得到预处理后的事件相机数据；S2.算法实现：将预处理后的事件相机数据，生成自注意力神经网络所需的事件相机数据的自信息；以及S3.神经网络选择：基于数据被处理成自信息，将采用同类型的基于自注意力机制的神经网络模型。

优选的，在上述基于自注意力机制的事件相机数据输入方法中，在步骤S1中，使用简单线性数学计算，将事件相机返回的数据，处理成算法需要的数据表示形式。

优选的，在上述基于自注意力机制的事件相机数据输入方法中，在步骤S2中，采用的数据输入方式为：假设只触发了6个数据点：[11,21,31]、[12,22,32]、[13,23,33]、[14,24,34]、[15,25,35]、[16,26,36]，每个点内的数值表示的物理意义为：[触发时间相对值、位置值、极值]；接着，对数据进行以下处理：

上面，q是所有数据点的触发时间相对值，k是所有数据点的位置值，v是所有数据点的极值；接下来使用自注意力机制，让数据产生关联：

上面计算使得q和k产生关联，得到关联结果attn；接着使用softmax()函数，将attn数值转换为概率分布：

[0.46,0.54]和[0.47,0.53]分布是两个概率分布，概率和均为1，注意在实际中，[794,902]进行softmax()函数计算的结果不是[0.46,0.54]，而是与其接近的其它小数数值，但为了表示方便，让其约等于这两个值，[992,1127]亦然；接着，再让attn与v产生关联：

经过上面计算，q、k、v各个数值之间，都产生了关联，这正是自注意力神经网络所需的自信息。

优选的，在上述基于自注意力机制的事件相机数据输入方法中，在步骤S3中，选择google公司开源的基于Dot-product自注意力机制的transformer神经网络模型。

根据本发明的技术方案，产生的有益效果是:

本发明的基于自注意力机制的事件相机数据输入方法，针对空间编码、时间编码以及全连接计算导致神经网络输入数据衰减的问题，在事件相机数据输入到神经网络前，对其进行自注意力计算，根据自注意力机制的自相关性，构建一个基于自注意力机制的针对事件相机数据输入到神经网络前的数据处理算法，生成神经网络所需的事件相机每个触发数据的自信息，得到的数据将(这些自信息)可以无损地输入到注意力神经网络中，有效解决了旧有方法中因时间编码、位置编码以及全连接网络计算而导致的输入数据信息衰减的问题。可以实现事件相机数据无损地直接输入到自注意力神经网络中。

为了更好地理解和说明本发明的构思、工作原理和发明效果，下面结合附图，通过具体实施例，对本发明进行详细说明如下：

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。

图1是本发明的基于自注意力机制的事件相机数据输入方法的流程图；

图2是本发明的基于自注意力机制的事件相机数据输入方法的事件相机的示意图；

图3为本发明方法和传统方法的输入神经网络的事件数据信息量对照表。

具体实施方式

为使本发明的目的、技术方法及优点更加清晰，下面结合附图及具体实例，对本发明做进一步的详细说明。这些实例仅仅是说明性的，而并非对本发明的限制。

如图1所示，本发明的基于自注意力机制的事件相机数据输入方法，在事件相机数据输入神经网络前，对数据进行预处理，并利用自注意力算法生成每个触发数据的自信息，从而实现数据信息无损地输入神经网络的功能。方法从开始到结束，具体包含以下步骤：

S1.数据预处理，得到预处理后的事件相机数据。具体地，使用简单线性数学计算，将事件相机返回的数据，处理成算法需要的数据表示形式。

如图2所示，是本发明的事件相机示意图。事件相机触发离散的数据，有数值的为触发点，没有数值的为未触发点。各个像素的感光单元在达到特定条件下被触发，并返回个触发点的触发时间戳、位置、极值。其中极值表示亮度增减。这些是事件相机数据的基本特性，即每个触发点的数据为[触发时间戳、位置、极值]。对于大部分深度神经网络任务来说都不需要时间戳，只需相对时间即可。因此，触发时间戳T换算为触发时间相对值t，其计算方式为：t_n＝T_n-T₀,其中为T₀该时间段内最先触发的时间戳，T_n为该时间段内任意触发点的时间戳，t_n为对应的触发时间相对值。之后，重复上面的操作，对下一个时间段进行时间换算。接着是图像空间位置坐标，如图2所示，坐标一般被表示为(x,y)，x是横轴，y是纵轴，一共x*y个坐标。此处做扁平化处理：第一行像素、第二行像素……，直至到第y行像素，即坐标值转换为位置值[1,2,3,…,x*y-1,x*y]。最终数据表示为[触发时间相对值、位置值、极值]。因为实际不需要时间戳，只需时间相对值，因此上述预处理，可看作无损数据变换。至此，完成数据预处理。

S2.算法实现：将预处理后的事件相机数据，生成自注意力神经网络所需的事件相机数据的自信息。在该步骤中，基于自注意力机制理论，实现处理事件相机数据的算法，即利用自注意力算法，生成自注意力神经网络所需的事件相机数据的自信息，以此让数据信息无损地输入到自注意力神经网络中，实现数据信息向自注意力神经网络的无损输入。

基于自注意力机制的算法，自注意力机制本身有多种变体，且在工程上，实现自注意力机制的方式有很多，主流的实现方式为google公司设计的transformer神经网络中的Dot-product方式。在该方式中，视频、语音和点云等数据通过时间编码、空间编码后，利用全连接神经网络，生成三个自信息矩阵q、k、v，全连接神经网络可以轻松做到这一点。但是，在本发明中，采用全新的数据输入方式，对于一个百万像素的事件相机来说，1秒钟内可能触发高达几千万个数据点，甚至更多。为了便于理解，假设只触发了6个数据点：[11,21,31]、[12,22,32]、[13,23,33]、[14,24,34]、[15,25,35]、[16,26,36]。上述6个点，每个点内的数值表示的物理意义为：[触发时间相对值、位置值、极值]。接着，对数据进行以下处理：

上面，q是所有数据点的触发时间相对值，k是所有数据点的位置值，v是所有数据点的极值。这些数据，都是无损变换后的事件相机数据。接下来使用自注意力机制，让数据产生关联：

上面计算使得q和k产生关联，得到关联结果attn。接着使用softmax()函数，将attn数值转换为概率分布：

[0.46,0.54]和[0.47,0.53]分布是两个概率分布，概率和均为1。注意在实际中，[794,902]进行softmax()函数计算的结果不是[0.46,0.54]，而是与其接近的其它小数数值，但为了表示方便，让其约等于这两个值，[992,1127]亦然。接着，再让attn与v产生关联：

经过上面计算，q、k、v各个数值之间，都产生了关联。这正是自注意力神经网络所需的自信息，其计算输出的数据结构，将可以很好地衔接现有公开通用的基于自注意力机制的神经网络。上面举例的是6个数据点，依次类推，对于几千万个数据点来说，扩大上面的数学矩阵即可。数据按照时间前后依次添加，这和我们的认知是一致的，即相邻时间触发的点，关系可能越大。传统方式，通过视频帧所处的前后关系，来获得触发点的粗略的时间信息；通过数值所处的位置，来获得坐标位置信息。这样对离散的数据非常不利：没有触发的点也会占据位置，增加数据量；相同位置，后触发的数据会覆盖先触发的数据；原本时间不同的数据，因为处于同一帧被认为时间相同，导致时间粒度变粗。与此同时，自注意力神经网络，对视频帧前后关系和数值位置是无感的，神经网络无法获得时空信息。因此在旧有方法中，需要加入人为设定的空间编码、时间编码，之后进行全连接，才能得到输入神经网络的自信息q、k、v。很显然，在传入自注意力神经网络之前，数据时空信息衰减严重。而通过本发明上述方法得到的q、k、v数据自信息，时空信息由数值自身携带，不受数据位置影响，这正是自注意力神经网络所需的。由于自注意力算法处理数据的过程，和自注意力神经网络每一层的核心计算过程一致，数据能够无缝衔接，因此该过程可以看作是整个神经网络的一个特殊层，数据信息被无损地直接输入到了神经网络中。至此，完成了输入数据的数据结构化处理。

S3.神经网络选择：基于数据被处理成自信息，将采用同类型的基于自注意力机制的神经网络模型。在该步骤中，基于自注意力机制的数据处理算法，其计算得到的数据为各个触发点的自信息，自信息应当输入到同类型的基于自注意力机制的深度神经网络模型中，而不是卷积神经网络、循环神经网络或者其它类型的神经网络。

在神经网络类型选择上，由于输入数据是经过自注意力机制处理得到的，因此，神经网络一般不选择卷积神经网络、循环神经网络等，而是选择与之对应的基于自注意力机制的神经网络模型。特别地，应该选择基于Dot-product自注意力机制的神经网络模型，比如google公司开源的基于Dot-product自注意力机制的transformer神经网络模型。这些模型均为通用公开的现有算法模型，当然，也可以设计自己的相关算法模型。至此，完成了事件相机数据输入神经网络的数据结构化处理的整个过程。

本发明的基于自注意力机制的事件相机数据输入方法，在数据输入深度神经网络之前，使用自注意力算法生成每个数据的自信息，这些自信息可以直接地输入到基于自注意力机制的深度神经网络中，从而实现事件相机离散数据向神经网络的无损输入，以此解决，在现有方法中，因时间编码、空间编码、以及全连接计算等操作导致输入神经网络前数据信息严重衰减的问题。

如图3所示，为本发明方法和传统方法的输入神经网络的事件数据信息量对照表。由图3可知本发明方法在不同的事件数据时间跨度上的信息存量均为100％，而在相同的事件数据时间跨度上传统的方法的信息存量从50％降低到6％，可知本发明明显优于传统方法。

以上说明是依据发明的构思和工作原理的最佳实施例。上述实施例不应理解为对本权利要求保护范围的限制，依照本发明构思的其他实施方式和实现方式的组合均属于本发明的保护范围。

Claims

1.一种基于自注意力机制的事件相机数据输入方法，其特征在于，包括以下步骤：

S1.数据预处理，得到预处理后的事件相机数据；

S2.算法实现：将所述预处理后的事件相机数据，生成自注意力神经网络所需的事件相机数据的自信息；以及

S3.神经网络选择：基于数据被处理成自信息，将采用同类型的基于自注意力机制的神经网络模型。

2.根据权利要求1所述的基于自注意力机制的事件相机数据输入方法，其特征在于，在步骤S1中，使用简单线性数学计算，将事件相机返回的数据，处理成算法需要的数据表示形式。

3.根据权利要求1所述的基于自注意力机制的事件相机数据输入方法，其特征在于，在步骤S2中，采用的数据输入方式为：假设只触发了6个数据点：[11,21,31]、[12,22,32]、[13,23,33]、[14,24,34]、[15,25,35]、[16,26,36]，每个点内的数值表示的物理意义为：[触发时间相对值、位置值、极值]；接着，对数据进行以下处理：

4.根据权利要求1所述的基于自注意力机制的事件相机数据输入方法，其特征在于，在步骤S3中，选择google公司开源的基于Dot-product自注意力机制的transformer神经网络模型。