CN113159217B - 一种基于事件相机的注意力机制目标检测的方法 - Google Patents
一种基于事件相机的注意力机制目标检测的方法 Download PDFInfo
- Publication number
- CN113159217B CN113159217B CN202110517027.8A CN202110517027A CN113159217B CN 113159217 B CN113159217 B CN 113159217B CN 202110517027 A CN202110517027 A CN 202110517027A CN 113159217 B CN113159217 B CN 113159217B
- Authority
- CN
- China
- Prior art keywords
- neural network
- event
- target detection
- natural language
- event data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
一种基于事件相机的注意力机制目标检测的方法,包括以下步骤:S1.将事件相机采集返回的事件数据,编码成音频格式;S2.将步骤S1中的编码成音频格式的事件数据,输入到语音识别和自然语言理解的神经网络中,输出物体的空间平面坐标,得到神经网络的输出;以及S3.将语音识别和自然语言理解的神经网络的输出,由字符串改为目标检测中的空间坐标、所属类别、置信度。本发明方法有效利用了数据的稀疏性和时序性,以解决现有方法导致的冗余计算和信息丢失的问题。
Description
技术领域
本发明属于计算机视觉领域,特别涉及一种基于事件相机的注意力机制目标检测的方法。
背景技术
随着人工智能技术的发展,特别是深度学习神经网络技术的快速成熟,大量的现代人工智能技术,被应用到了电子产品当中。其中,基于注意力机制的注意力变换器神经网络(Transformer),正在自然语言处理和语音识别等领域大规模应用,而语音识别时,语音片段的输入具有稀疏性和时序性。在图像目标检测领域,主流算法依然以CNN深度卷积神经网络为主。而事件相机,作为一种动态视觉传感器,返回的事件数据是稀疏的,带有时序性的。目前处理事件相机的事件数据的目标检测,主流方法是将其作为图像数据来处理。
采用处理图像数据的方式,来处理事件数据,将无法有效利用事件数据的稀疏性和时序性,同时,难以建立有效的神经网络,实现事件数据的深度神经网络端到端的目标检测识别。无法利用稀疏性,则导致数据的冗余计算;无法利用时序性,则无法在时间维度上,建立数据帧与帧之间的联系,导致信息丢失。
发明内容
本发明了提供了一种基于事件相机的注意力机制目标检测的方法,有效利用了数据的稀疏性和时序性,以解决现有方法导致的冗余计算和信息丢失的问题。
本发明的技术方案如下:
一种基于事件相机的注意力机制目标检测的方法,包括以下步骤:S1.将事件相机采集返回的事件数据,编码成音频格式;S2.将步骤S1中的编码成音频格式的事件数据,输入到语音识别和自然语言理解的神经网络中,输出物体的空间平面坐标,得到神经网络的输出;以及S3.将语音识别和自然语言理解的神经网络的输出,由字符串改为目标检测中的空间坐标、所属类别、置信度。
优选的,在上述基于事件相机的注意力机制目标检测的方法中,在步骤S1中,使用事件数据编码器将事件数据像素图,编码为事件数据波形图;编码方式是在时间轴上,依次将依次将圆点的像素坐标(x,y)进行排列,x和y的值的大小,即波形图中相应时间t的振幅的大小;在结束位置,使用一个大于x的最大值的值来表示;将编码好的波形数据,写入到类似于音频格式的文件中,得到音频文件。
优选的,在上述基于事件相机的注意力机制目标检测的方法中,在步骤S2中,语音识别后,进行自然语言理解,最终输出的是字符串。
优选的,在上述基于事件相机的注意力机制目标检测的方法中,在步骤S2中,神经网络为注意力变换器神经网络(Transformer)。
优选的,在上述基于事件相机的注意力机制目标检测的方法中,在步骤S3中,语音识别后,进行自然语言理解,最终输出的是字符串,将字符串修改为在时间轴上输出的目标物体的空间坐标、所属类别、置信度。
优选的,在上述基于事件相机的注意力机制目标检测的方法中,在步骤S3中,语音识别和自然语言理解的神经网络最终输出的是文本文字。
根据本发明的技术方案,产生的有益效果是:
本发明方法可以有效解决事件相机目标检测数据冗余计算、时间维度信息丢失的问题。在现有技术中,使用CNN卷积神经网络对事件数据进行目标检测,会导致数据冗余计算,以及存在数据在时间维度信息丢失的问题。本发明方法,特别针对事件相机的事件数据,利用Transformer神经网络,和已有算法相比,减少冗余计算,防止信息丢失。
为了更好地理解和说明本发明的构思、工作原理和发明效果,下面结合附图,通过具体实施例,对本发明进行详细说明如下:
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明的基于事件相机的注意力机制目标检测的方法的流程示意图;
图2是本发明方法的事件数据编码器编码原理的示意图;
图3是本发明方法的神经网络的输出层的示意图。
具体实施方式
本发明了提供了一种基于事件相机的注意力机制目标检测的方法,将事件相机返回的事件数据,编码成音频格式,以此作为基于注意力机制的Transformer深度神经网络的输入数据,然后使用基于注意力机制的Transformer深度神经网络,进行事件相机检测的空间范围内的目标检测,有效利用了数据的稀疏性和时序性,以此解决现有方法导致的冗余计算和信息丢失的问题。本发明方法中,将事件数据编码成音频格式,使得可以使用现有成熟的语音识别技术,实现CNN卷积神经网络无法处理稀疏性和时序性的问题,从而减少冗余计算,并防止了时间维度信息的丢失。
本发明的基于事件相机的注意力机制目标检测的方法,处理动态视觉传感器返回的事件图数据。本发明方法的原理是:
(1)使用基于注意力机制的Transformer神经网络,解决时序性关联的问题,实现事件数据帧之间的关联,防止了时间维度信息的丢失;
(2)利于事件数据和音频共有的稀疏性和时序性,将事件相机返回的事件数据编码为音频格式,以此将成熟的语音识别技术,引入到事件相机目标检测中。
本发明提供的基于事件相机的注意力机制目标检测的方法将事件相机返回的事件数据,编码为音频格式的编码器,并将编码后的数据,输入基于注意力机制的Transformer神经网络中,输出目标物体的空间坐标。具体地,本发明方法包括以下步骤(如图1所示):
S1.制作编码器:编写算法,将事件相机采集返回的事件数据,编码成音频格式,比如音频wav格式。
音频编码,主要参数为频率、声道数量、波形数据等信息,而波形数据,是声音的载体。所以,编码器要做的主要功能,就是将事件相机返回的事件数据,编码成类似于波形的数据,将其当作波形数据来处理。如图2所示,是事件数据编码器编码原理的示意图。事件相机返回的事件图,是离散的数据,圆点表示此像素所在的位置,有物体在运动。事件图是将事件数据,按照图像的方式进行编码,比如编码成1024*840的图像大小。为了方便说明,假设事件图像素只有4*4大小,16个像素,即图2中的事件数据像素图。使用事件数据编码器将事件数据像素图,编码为右边的事件数据波形图;编码方式是在时间轴上,依次将圆点的像素坐标(x,y)进行排列,x和y的值的大小,即波形图中相应时间t的振幅的大小;在结束位置,使用一个大于x的最大值的值来表示,比如,4*4的神经网络中,x的最大值为4,使用了5来表示一帧数据的结束。将编码好的波形数据,写入到类似于wav格式的文件中,得到一个音频文件。至此,完成了事件数据向音频格式编码的过程。事件相机的实际应用中,只关注白色区域,通过编码,黑色区域被有效的去除掉,不再参与后续的计算,数据量大幅减少,从而消除冗余计算。
S2.选取神经网络:将步骤S1中的编码成音频格式的事件数据,输入到语音识别和自然语言理解的神经网络中,输出物体的空间平面坐标,得到神经网络的输出。在该步骤中,语音识别后,进行自然语言理解,最终输出的是字符串。神经网络应选取通用的、先进的端到端的语音识别和自然语言理解的神经网络,这些神经网络目前大部分是基于注意力机制的Transformer神经网络,比如Transformer-Transducer神经网络。
端到端的语音识别和自然语言理解的深度神经网络,可以在一个网络中,实现语音识别和自然语言理解,这得益于当前基于注意力机制的Transformer深度神经网络的快速发展,比如Transformer-Transducer深度神经网络。这些神经网络,都是公开的、通用的神经网络模型。语音有长有短,长短不一,即具有稀疏性;而语音片段在时间维度上,存在着关联,即具有时序性。在前面步骤一中,去掉黑色区块后,数据量变少了,消除了冗余计算,但是数据变得长短不一,CNN神经网络要求输入整张事件数据图,数据量大小固定,因此,旧有的卷积神经网络,无法处理长短不一的数据稀疏性问题,而语音识别使用的Transformer深度神经网络,可以输入长短不一的语音片段,以此解决了事件数据稀疏性问题。而事件相机检测的目标,就是捕捉运动中的物体,以及物体在一定时间范围内运动的轨迹。因此,时间维度信息对事件数据是十分重要的。但是CNN卷积神经网络,很难在时间维度上,对事件数据进行处理,而Transformer深度神经网络,具有时序性,可以很好的处理时间维度信息,从而解决时间维度信息损失的问题。
S3.修改神经网络输出:将语音识别和自然语言理解的神经网络的输出,由字符串改为目标检测中的空间坐标、所属类别、置信度。具体地,语音识别后,进行自然语言理解,最终输出的是字符串,将字符串修改为在时间轴上输出的目标物体的空间坐标、所属类别、置信度等目标检测相关信息。
如图3所示,是神经网络输出层的示意图。语音识别和自然语言理解的神经网络最终输出的是文本文字(例如,图3中的“0000 0001->你”、“[x,y,w,h],conf,class”等)。而目标检测,一般输出的是目标的空间坐标、所属类别、置信度。输出文本文字时,对应输出的是文本文字对应的数字编号,是一个或多个输出节点。目标检测,每个目标,需要输出classes+5个节点,其中,classes是类别数量。比如汽车、手机、人等各个类别,共80类,那么,每个目标相应输出的节点数量为85个,其中用1个表示置信度,用80个独热码的方式表示类别,用4个表示矩形框的位置坐标[x,y,w,h],(x,y)表示矩形框中心点坐标,(w,h)表示矩形框长和宽。最终,使用编码好的事件数据,训练深度神经网络,训练好之后,编码事件相机返回的事件数据,输入神经网络,神经网络输出目标物体的坐标、类别、置信度等信息。至此,完成了基于事件相机的注意力机制目标检测。
本发明实现了一种端到端的事件相机目标检测的方法,该方法可以有效解决事件相机目标检测数据冗余计算、时间维度信息丢失的问题。在现有技术中,使用CNN卷积神经网络对事件数据进行目标检测,会导致数据冗余计算,以及存在数据在时间维度信息丢失的问题。本发明方法,特别针对事件相机的事件数据,利用Transformer神经网络,和已有算法相比,减少冗余计算,防止信息丢失。
以上说明是依据本发明的构思和工作原理的最佳实施例。上述实施例不应理解为对本权利要求保护范围的限制,依照本发明构思的其他实施方式和实现方式的组合均属于本发明的保护范围。
Claims (5)
1.一种基于事件相机的注意力机制目标检测的方法,其特征在于,包括以下步骤:
S1.将事件相机采集返回的事件数据,编码成音频格式,使用事件数据编码器将事件数据像素图,编码为事件数据波形图;编码方式是在时间轴上,依次将圆点的像素坐标(x,y)进行排列,x和y的值的大小,即波形图中相应时间t的振幅的大小;在结束位置,使用一个大于x的最大值的值来表示;将编码好的波形数据,写入到音频格式的文件中,得到音频文件;
S2.将步骤S1中的编码成音频格式的事件数据,输入到语音识别和自然语言理解的神经网络中,输出物体的空间平面坐标,得到神经网络的输出;以及
S3.将语音识别和自然语言理解的所述神经网络的输出,由字符串改为目标检测中的空间坐标、所属类别、置信度。
2.根据权利要求1所述的基于事件相机的注意力机制目标检测的方法,其特征在于,在步骤S2中,语音识别后,进行自然语言理解,最终输出的是字符串。
3.根据权利要求1所述的基于事件相机的注意力机制目标检测的方法,其特征在于,在步骤S2中,所述神经网络为注意力变换器神经网络(Transformer)。
4.根据权利要求1所述的基于事件相机的注意力机制目标检测的方法,其特征在于,在步骤S3中,语音识别后,进行自然语言理解,最终输出的是字符串,将字符串修改为在时间轴上输出的目标物体的空间坐标、所属类别、置信度。
5.根据权利要求1所述的基于事件相机的注意力机制目标检测的方法,其特征在于,在步骤S3中,语音识别和自然语言理解的神经网络最终输出的是文本文字。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110517027.8A CN113159217B (zh) | 2021-05-12 | 2021-05-12 | 一种基于事件相机的注意力机制目标检测的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110517027.8A CN113159217B (zh) | 2021-05-12 | 2021-05-12 | 一种基于事件相机的注意力机制目标检测的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113159217A CN113159217A (zh) | 2021-07-23 |
CN113159217B true CN113159217B (zh) | 2023-08-01 |
Family
ID=76874616
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110517027.8A Active CN113159217B (zh) | 2021-05-12 | 2021-05-12 | 一种基于事件相机的注意力机制目标检测的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113159217B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108073857A (zh) * | 2016-11-14 | 2018-05-25 | 北京三星通信技术研究有限公司 | 动态视觉传感器dvs事件处理的方法及装置 |
CN108648748A (zh) * | 2018-03-30 | 2018-10-12 | 沈阳工业大学 | 医院噪声环境下的声学事件检测方法 |
CN109697726A (zh) * | 2019-01-09 | 2019-04-30 | 厦门大学 | 一种基于事件相机的端对端目标运动估计方法 |
CN109919188A (zh) * | 2019-01-29 | 2019-06-21 | 华南理工大学 | 基于稀疏局部注意力机制和卷积回声状态网络的时序分类方法 |
CN111582300A (zh) * | 2020-03-20 | 2020-08-25 | 北京航空航天大学 | 一种基于事件相机的高动态目标检测方法 |
CN111931752A (zh) * | 2020-10-13 | 2020-11-13 | 中航金城无人系统有限公司 | 一种基于事件相机的动态目标检测方法 |
CN111933188A (zh) * | 2020-09-14 | 2020-11-13 | 电子科技大学 | 一种基于卷积神经网络的声音事件检测方法 |
CN112216271A (zh) * | 2020-10-11 | 2021-01-12 | 哈尔滨工程大学 | 一种基于卷积块注意机制的视听双模态语音识别方法 |
CN112509009A (zh) * | 2020-12-16 | 2021-03-16 | 深圳龙岗智能视听研究院 | 一种基于自然语言信息辅助的目标追踪方法 |
-
2021
- 2021-05-12 CN CN202110517027.8A patent/CN113159217B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108073857A (zh) * | 2016-11-14 | 2018-05-25 | 北京三星通信技术研究有限公司 | 动态视觉传感器dvs事件处理的方法及装置 |
CN108648748A (zh) * | 2018-03-30 | 2018-10-12 | 沈阳工业大学 | 医院噪声环境下的声学事件检测方法 |
CN109697726A (zh) * | 2019-01-09 | 2019-04-30 | 厦门大学 | 一种基于事件相机的端对端目标运动估计方法 |
CN109919188A (zh) * | 2019-01-29 | 2019-06-21 | 华南理工大学 | 基于稀疏局部注意力机制和卷积回声状态网络的时序分类方法 |
CN111582300A (zh) * | 2020-03-20 | 2020-08-25 | 北京航空航天大学 | 一种基于事件相机的高动态目标检测方法 |
CN111933188A (zh) * | 2020-09-14 | 2020-11-13 | 电子科技大学 | 一种基于卷积神经网络的声音事件检测方法 |
CN112216271A (zh) * | 2020-10-11 | 2021-01-12 | 哈尔滨工程大学 | 一种基于卷积块注意机制的视听双模态语音识别方法 |
CN111931752A (zh) * | 2020-10-13 | 2020-11-13 | 中航金城无人系统有限公司 | 一种基于事件相机的动态目标检测方法 |
CN112509009A (zh) * | 2020-12-16 | 2021-03-16 | 深圳龙岗智能视听研究院 | 一种基于自然语言信息辅助的目标追踪方法 |
Non-Patent Citations (3)
Title |
---|
Attention Is All You Need;Ashish Vaswani 等;《arXiv》;全文 * |
Bharath Ramesh 等.PCA-RECT: An Energy-efficient Object Detection Approach for Event Cameras.《arXiv》.2019,全文. * |
基于事件的视觉传感器及其应用综述;孔德磊 等;《信息与控制》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113159217A (zh) | 2021-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543667B (zh) | 一种基于注意力机制的文本识别方法 | |
CN108491836B (zh) | 一种自然场景图像中中文文本整体识别方法 | |
CN111540367B (zh) | 语音特征提取方法、装置、电子设备和存储介质 | |
CN111652233B (zh) | 一种针对复杂背景的文本验证码自动识别方法 | |
CN107967695A (zh) | 一种基于深度光流和形态学方法的运动目标检测方法 | |
CN113379601A (zh) | 基于降质变分自编码器的真实世界图像超分辨方法及系统 | |
CN111931820B (zh) | 一种基于卷积残差网络的水中目标辐射噪声lofar谱图线谱提取方法 | |
CN116912257B (zh) | 基于深度学习的混凝土路面裂缝识别方法及存储介质 | |
CN115393396B (zh) | 一种基于掩码预训练的无人机目标跟踪方法 | |
CN112163490A (zh) | 一种基于场景图片的目标检测方法 | |
CN116129326A (zh) | 基于局部和全局注意力机制的视频动作识别方法 | |
CN114332479A (zh) | 一种目标检测模型的训练方法及相关装置 | |
CN115331073A (zh) | 一种基于TransUnet架构的影像自监督学习方法 | |
CN115019319A (zh) | 一种基于动态特征提取的结构化图片内容识别方法 | |
CN113159217B (zh) | 一种基于事件相机的注意力机制目标检测的方法 | |
CN112487992B (zh) | 一种基于流模型的人脸情绪图像的生成方法及设备 | |
CN117058392A (zh) | 一种基于卷积局部增强的多尺度Transformer图像语义分割方法 | |
CN116682180A (zh) | 基于人体骨骼序列时空信息的动作识别方法 | |
CN116468638A (zh) | 一种基于生成和鉴别平衡对抗的人脸图像修复方法及系统 | |
CN114418821B (zh) | 基于图像频域的盲水印处理方法 | |
CN115496134A (zh) | 基于多模态特征融合的交通场景视频描述生成方法和装置 | |
AU2021104479A4 (en) | Text recognition method and system based on decoupled attention mechanism | |
CN114980723A (zh) | 一种用于跨工况贴片机吸嘴的故障预测方法、系统 | |
CN112597794A (zh) | 一种视频匹配的方法 | |
CN112073732A (zh) | 一种水下机器人图像隐秘字符嵌入与解码的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |