CN113159217B

CN113159217B - 一种基于事件相机的注意力机制目标检测的方法

Info

Publication number: CN113159217B
Application number: CN202110517027.8A
Authority: CN
Inventors: 魏文应; 龙仕强; 张世雄; 朱鑫懿
Original assignee: Guangdong Bohua Ultra Hd Innovation Center Co ltd; Instritute Of Intelligent Video Audio Technology Longgang Shenzhen
Current assignee: Guangdong Bohua Ultra Hd Innovation Center Co ltd; Instritute Of Intelligent Video Audio Technology Longgang Shenzhen
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2023-08-01
Anticipated expiration: 2041-05-12
Also published as: CN113159217A

Abstract

一种基于事件相机的注意力机制目标检测的方法，包括以下步骤：S1.将事件相机采集返回的事件数据，编码成音频格式；S2.将步骤S1中的编码成音频格式的事件数据，输入到语音识别和自然语言理解的神经网络中，输出物体的空间平面坐标，得到神经网络的输出；以及S3.将语音识别和自然语言理解的神经网络的输出，由字符串改为目标检测中的空间坐标、所属类别、置信度。本发明方法有效利用了数据的稀疏性和时序性，以解决现有方法导致的冗余计算和信息丢失的问题。

Description

一种基于事件相机的注意力机制目标检测的方法

技术领域

本发明属于计算机视觉领域，特别涉及一种基于事件相机的注意力机制目标检测的方法。

背景技术

随着人工智能技术的发展，特别是深度学习神经网络技术的快速成熟，大量的现代人工智能技术，被应用到了电子产品当中。其中，基于注意力机制的注意力变换器神经网络(Transformer)，正在自然语言处理和语音识别等领域大规模应用，而语音识别时，语音片段的输入具有稀疏性和时序性。在图像目标检测领域，主流算法依然以CNN深度卷积神经网络为主。而事件相机，作为一种动态视觉传感器，返回的事件数据是稀疏的，带有时序性的。目前处理事件相机的事件数据的目标检测，主流方法是将其作为图像数据来处理。

采用处理图像数据的方式，来处理事件数据，将无法有效利用事件数据的稀疏性和时序性，同时，难以建立有效的神经网络，实现事件数据的深度神经网络端到端的目标检测识别。无法利用稀疏性，则导致数据的冗余计算；无法利用时序性，则无法在时间维度上，建立数据帧与帧之间的联系，导致信息丢失。

发明内容

本发明了提供了一种基于事件相机的注意力机制目标检测的方法，有效利用了数据的稀疏性和时序性，以解决现有方法导致的冗余计算和信息丢失的问题。

本发明的技术方案如下：

一种基于事件相机的注意力机制目标检测的方法，包括以下步骤：S1.将事件相机采集返回的事件数据，编码成音频格式；S2.将步骤S1中的编码成音频格式的事件数据，输入到语音识别和自然语言理解的神经网络中，输出物体的空间平面坐标，得到神经网络的输出；以及S3.将语音识别和自然语言理解的神经网络的输出，由字符串改为目标检测中的空间坐标、所属类别、置信度。

优选的，在上述基于事件相机的注意力机制目标检测的方法中，在步骤S1中，使用事件数据编码器将事件数据像素图，编码为事件数据波形图；编码方式是在时间轴上，依次将依次将圆点的像素坐标(x,y)进行排列，x和y的值的大小，即波形图中相应时间t的振幅的大小；在结束位置，使用一个大于x的最大值的值来表示；将编码好的波形数据，写入到类似于音频格式的文件中，得到音频文件。

优选的，在上述基于事件相机的注意力机制目标检测的方法中，在步骤S2中，语音识别后，进行自然语言理解，最终输出的是字符串。

优选的，在上述基于事件相机的注意力机制目标检测的方法中，在步骤S2中，神经网络为注意力变换器神经网络(Transformer)。

优选的，在上述基于事件相机的注意力机制目标检测的方法中，在步骤S3中，语音识别后，进行自然语言理解，最终输出的是字符串，将字符串修改为在时间轴上输出的目标物体的空间坐标、所属类别、置信度。

优选的，在上述基于事件相机的注意力机制目标检测的方法中，在步骤S3中，语音识别和自然语言理解的神经网络最终输出的是文本文字。

根据本发明的技术方案，产生的有益效果是:

本发明方法可以有效解决事件相机目标检测数据冗余计算、时间维度信息丢失的问题。在现有技术中，使用CNN卷积神经网络对事件数据进行目标检测，会导致数据冗余计算，以及存在数据在时间维度信息丢失的问题。本发明方法，特别针对事件相机的事件数据，利用Transformer神经网络，和已有算法相比，减少冗余计算，防止信息丢失。

为了更好地理解和说明本发明的构思、工作原理和发明效果，下面结合附图，通过具体实施例，对本发明进行详细说明如下：

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明的基于事件相机的注意力机制目标检测的方法的流程示意图；

图2是本发明方法的事件数据编码器编码原理的示意图；

图3是本发明方法的神经网络的输出层的示意图。

具体实施方式

本发明了提供了一种基于事件相机的注意力机制目标检测的方法，将事件相机返回的事件数据，编码成音频格式，以此作为基于注意力机制的Transformer深度神经网络的输入数据，然后使用基于注意力机制的Transformer深度神经网络，进行事件相机检测的空间范围内的目标检测，有效利用了数据的稀疏性和时序性，以此解决现有方法导致的冗余计算和信息丢失的问题。本发明方法中，将事件数据编码成音频格式，使得可以使用现有成熟的语音识别技术，实现CNN卷积神经网络无法处理稀疏性和时序性的问题，从而减少冗余计算，并防止了时间维度信息的丢失。

本发明的基于事件相机的注意力机制目标检测的方法，处理动态视觉传感器返回的事件图数据。本发明方法的原理是：

(1)使用基于注意力机制的Transformer神经网络，解决时序性关联的问题，实现事件数据帧之间的关联，防止了时间维度信息的丢失；

(2)利于事件数据和音频共有的稀疏性和时序性，将事件相机返回的事件数据编码为音频格式，以此将成熟的语音识别技术，引入到事件相机目标检测中。

本发明提供的基于事件相机的注意力机制目标检测的方法将事件相机返回的事件数据，编码为音频格式的编码器，并将编码后的数据，输入基于注意力机制的Transformer神经网络中，输出目标物体的空间坐标。具体地，本发明方法包括以下步骤(如图1所示)：

S1.制作编码器：编写算法，将事件相机采集返回的事件数据，编码成音频格式，比如音频wav格式。

音频编码，主要参数为频率、声道数量、波形数据等信息，而波形数据，是声音的载体。所以，编码器要做的主要功能，就是将事件相机返回的事件数据，编码成类似于波形的数据，将其当作波形数据来处理。如图2所示，是事件数据编码器编码原理的示意图。事件相机返回的事件图，是离散的数据，圆点表示此像素所在的位置，有物体在运动。事件图是将事件数据，按照图像的方式进行编码，比如编码成1024*840的图像大小。为了方便说明，假设事件图像素只有4*4大小，16个像素，即图2中的事件数据像素图。使用事件数据编码器将事件数据像素图，编码为右边的事件数据波形图；编码方式是在时间轴上，依次将圆点的像素坐标(x,y)进行排列，x和y的值的大小，即波形图中相应时间t的振幅的大小；在结束位置，使用一个大于x的最大值的值来表示，比如，4*4的神经网络中，x的最大值为4，使用了5来表示一帧数据的结束。将编码好的波形数据，写入到类似于wav格式的文件中，得到一个音频文件。至此，完成了事件数据向音频格式编码的过程。事件相机的实际应用中，只关注白色区域，通过编码，黑色区域被有效的去除掉，不再参与后续的计算，数据量大幅减少，从而消除冗余计算。

S2.选取神经网络：将步骤S1中的编码成音频格式的事件数据，输入到语音识别和自然语言理解的神经网络中，输出物体的空间平面坐标，得到神经网络的输出。在该步骤中，语音识别后，进行自然语言理解，最终输出的是字符串。神经网络应选取通用的、先进的端到端的语音识别和自然语言理解的神经网络，这些神经网络目前大部分是基于注意力机制的Transformer神经网络，比如Transformer-Transducer神经网络。

端到端的语音识别和自然语言理解的深度神经网络，可以在一个网络中，实现语音识别和自然语言理解，这得益于当前基于注意力机制的Transformer深度神经网络的快速发展，比如Transformer-Transducer深度神经网络。这些神经网络，都是公开的、通用的神经网络模型。语音有长有短，长短不一，即具有稀疏性；而语音片段在时间维度上，存在着关联，即具有时序性。在前面步骤一中，去掉黑色区块后，数据量变少了，消除了冗余计算，但是数据变得长短不一，CNN神经网络要求输入整张事件数据图，数据量大小固定，因此，旧有的卷积神经网络，无法处理长短不一的数据稀疏性问题，而语音识别使用的Transformer深度神经网络，可以输入长短不一的语音片段，以此解决了事件数据稀疏性问题。而事件相机检测的目标，就是捕捉运动中的物体，以及物体在一定时间范围内运动的轨迹。因此，时间维度信息对事件数据是十分重要的。但是CNN卷积神经网络，很难在时间维度上，对事件数据进行处理，而Transformer深度神经网络，具有时序性，可以很好的处理时间维度信息，从而解决时间维度信息损失的问题。

S3.修改神经网络输出：将语音识别和自然语言理解的神经网络的输出，由字符串改为目标检测中的空间坐标、所属类别、置信度。具体地，语音识别后，进行自然语言理解，最终输出的是字符串，将字符串修改为在时间轴上输出的目标物体的空间坐标、所属类别、置信度等目标检测相关信息。

如图3所示，是神经网络输出层的示意图。语音识别和自然语言理解的神经网络最终输出的是文本文字(例如，图3中的“0000 0001-＞你”、“[x,y,w,h],conf,class”等)。而目标检测，一般输出的是目标的空间坐标、所属类别、置信度。输出文本文字时，对应输出的是文本文字对应的数字编号，是一个或多个输出节点。目标检测，每个目标，需要输出classes+5个节点，其中，classes是类别数量。比如汽车、手机、人等各个类别，共80类，那么，每个目标相应输出的节点数量为85个，其中用1个表示置信度，用80个独热码的方式表示类别，用4个表示矩形框的位置坐标[x,y,w,h]，(x,y)表示矩形框中心点坐标，(w,h)表示矩形框长和宽。最终，使用编码好的事件数据，训练深度神经网络，训练好之后，编码事件相机返回的事件数据，输入神经网络，神经网络输出目标物体的坐标、类别、置信度等信息。至此，完成了基于事件相机的注意力机制目标检测。

本发明实现了一种端到端的事件相机目标检测的方法，该方法可以有效解决事件相机目标检测数据冗余计算、时间维度信息丢失的问题。在现有技术中，使用CNN卷积神经网络对事件数据进行目标检测，会导致数据冗余计算，以及存在数据在时间维度信息丢失的问题。本发明方法，特别针对事件相机的事件数据，利用Transformer神经网络，和已有算法相比，减少冗余计算，防止信息丢失。

以上说明是依据本发明的构思和工作原理的最佳实施例。上述实施例不应理解为对本权利要求保护范围的限制，依照本发明构思的其他实施方式和实现方式的组合均属于本发明的保护范围。

Claims

1.一种基于事件相机的注意力机制目标检测的方法，其特征在于，包括以下步骤：

S1.将事件相机采集返回的事件数据，编码成音频格式，使用事件数据编码器将事件数据像素图，编码为事件数据波形图；编码方式是在时间轴上，依次将圆点的像素坐标(x,y)进行排列，x和y的值的大小，即波形图中相应时间t的振幅的大小；在结束位置，使用一个大于x的最大值的值来表示；将编码好的波形数据，写入到音频格式的文件中，得到音频文件；

S2.将步骤S1中的编码成音频格式的事件数据，输入到语音识别和自然语言理解的神经网络中，输出物体的空间平面坐标，得到神经网络的输出；以及

S3.将语音识别和自然语言理解的所述神经网络的输出，由字符串改为目标检测中的空间坐标、所属类别、置信度。

2.根据权利要求1所述的基于事件相机的注意力机制目标检测的方法，其特征在于，在步骤S2中，语音识别后，进行自然语言理解，最终输出的是字符串。

3.根据权利要求1所述的基于事件相机的注意力机制目标检测的方法，其特征在于，在步骤S2中，所述神经网络为注意力变换器神经网络(Transformer)。

4.根据权利要求1所述的基于事件相机的注意力机制目标检测的方法，其特征在于，在步骤S3中，语音识别后，进行自然语言理解，最终输出的是字符串，将字符串修改为在时间轴上输出的目标物体的空间坐标、所属类别、置信度。

5.根据权利要求1所述的基于事件相机的注意力机制目标检测的方法，其特征在于，在步骤S3中，语音识别和自然语言理解的神经网络最终输出的是文本文字。