CN114723010B - 一种异步事件数据的自动学习增强方法及系统 - Google Patents

一种异步事件数据的自动学习增强方法及系统 Download PDF

Info

Publication number
CN114723010B
CN114723010B CN202210379156.XA CN202210379156A CN114723010B CN 114723010 B CN114723010 B CN 114723010B CN 202210379156 A CN202210379156 A CN 202210379156A CN 114723010 B CN114723010 B CN 114723010B
Authority
CN
China
Prior art keywords
event
data
enhancement
strategy
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210379156.XA
Other languages
English (en)
Other versions
CN114723010A (zh
Inventor
古富强
窦家锐
陈超
王婧
郭青松
刘柏杉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202210379156.XA priority Critical patent/CN114723010B/zh
Publication of CN114723010A publication Critical patent/CN114723010A/zh
Application granted granted Critical
Publication of CN114723010B publication Critical patent/CN114723010B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Abstract

本发明涉及一种异步事件数据的自动学习增强方法及系统,属于计算机视觉识别技术领域。该方法包括以下步骤:S1、将异步事件流和相应的图像分辨率作为事件数据输入;S2、初始化变量,包括模型初始化参数、最佳增强策略数N和搜索宽度T等;S3、采用表征方法预训练深度学习模型;S4、用学习策略(优化器)在搜索空间中采样增强策略,并在预训练模型上进行评价,选出最佳的增强策略;S5、用最佳的增强策略增强原始事件数据并输出。本方法通过采用不同的自动学习策略选择更有效的事件增强策略,解决了深度学习模型过拟合问题。实验结果表明,EventAugment可以显著提高深度学习模型在各种基于事件的数据集上的的泛化能力,并且优于最先进的方法。

Description

一种异步事件数据的自动学习增强方法及系统
技术领域
本发明属于计算机视觉识别技术领域,涉及一种异步事件数据的自动学习增强方法及系统。
背景技术
近年来,基于事件的学习吸引了学术界和工业界的极大兴趣,它使用基于事件的传感器,例如动态视觉传感器(如iniVation摄像头)和NeuTouch触觉传感器。这些传感器的基本原理是模拟动物大脑中有效的事件驱动通信机制。与传统传感器(例如RGB摄像机)相比,基于事件的传感器在能效、时间延迟和时间分辨率方面具有优势,因为它们异步表示场景的变化(也称为事件)。例如,事件摄影机独立捕获每个像素的亮度变化,而不是像RGB摄影机那样捕获帧的强度。到目前为止,基于事件的传感器已广泛应用于许多任务,如特征检测和跟踪,分割,目标识别,视觉惯性里程计,光流估计和恒星跟踪。
基于事件的学习算法可分为两种主要方法。一种方法是首先将异步事件转换为类似帧的数据,这样就可以直接应用基于帧的学习方法(例如,卷积神经网络)。具有代表性的工作包括EventFrame,EventCountImage,VoxelGrid,andEvent SpikeTensor(EST)。虽然这些方法可以通过事件转换利用现代深度学习方法的强大能力,但它们可能会丢弃一些关于事件的有用信息(例如,极性、时间信息和密度)。
另一种方法是对基于异步事件的数据直接使用尖峰神经网络(SNN)。SNN的事件驱动特性更适合处理基于事件的数据。与标准DNN相比,SNN在神经形态处理器上实现时在生物学上更合理,更节能。使用SNN的基于事件的学习已用于对象识别,视觉触觉等。虽然SNN对于处理事件数据很有吸引力,但尖峰函数是不可微的,因此不能直接使用反向传播方法来训练SNN。已经提出了几种解决方案来解决这个问题,例如将DNN转换为SNN,以及近似尖峰函数的导数。然而,SNN的整体性能往往不如标准的深度神经网络(DNN)。
深度学习在各种应用中取得了巨大成功,它仍然是基于事件的学习的一种有竞争力的方法。然而,深度学习模型通常存在过度拟合的问题,即模型在训练数据上表现得非常好,但在看不见的测试数据上表现得非常糟糕。解决此问题的一个简单方法是对模型进行大量标记数据的训练,但在实际中收集大量数据可能成本过高。在基于事件的学习中,过度拟合问题更为严重,因为基于事件的数据集通常比传统数据集小得多。
数据增强是一种通过生成额外数据来提高深度学习模型泛化能力的有效技术。常用的增强技术包括平移、旋转、反转等。近年来,自动机器学习(AutoML)方法已被直接用于从数据集搜索增强策略,代表性工作包括AutoAugment、Fast AutoAugment和RandAugment。虽然这些方法在许多数据集上表现出了优异的性能,但它们是为增强类帧数据(如图像)而设计的,因此不能直接用于与类帧数据有根本不同的基于事件的数据集。虽然DNN在很多任务上都取得了无与伦比的性能,但它们需要大量的训练数据来避免过拟合。数据增强是提高深度学习模型泛化能力的一种简单而有效的方法。它也可以看作是解决过拟合问题的正则化方法。相比其他正则化方法,如WeightDecay和Dropout,数据增强不会改变模型结构和参数。
数据增强通过增加训练数据量和数据多样性来提高深度学习模型的泛化能力。对于图像数据集,翻转、旋转、缩放和裁剪通常被视为基准增强方法。最近,提出了更多的增强方法,包括剪切、混合、剪切混合、RE和Sample-Pair。然而,这些方法是手工设计的,需要领域知识。
发明内容
有鉴于此,本发明的目的在于提供一种异步事件数据的自动学习增强方法(EventAugment)及系统,以提高基于事件的学习方法的泛化能力。该方法首先确定用于增强基于事件数据的操作类型,然后将寻找最优增强策略的问题描述为一个优化问题,该方法可以显著提高深度学习模型的泛化能力,并且优于目前现有的方法。
为达到上述目的,本发明提供如下技术方案:
一种异步事件数据的自动学习增强方法,该方法包括以下步骤:S1、将异步事件流和相应的图像分辨率作为事件数据输入;S2、初始化变量,包括模型初始化参数、最佳增强策略数N和搜索宽度T等;S3、采用表征方法预训练深度学习模型;S4、用学习策略(优化器)在搜索空间中采样增强策略,并在预训练模型上进行评价,选出最佳的增强策略;S5、用最佳的增强策略增强原始事件数据并输出。
进一步,在步骤S1和步骤S2中,将划分的异步事件流和相应的图像分辨率作为事件数据输入并进行初始化,具体包括:
划分数据集:给定一个由训练数据Dtrain、验证数据Dvalidation和测试数据Dtest组成的基于事件的数据集D,目标是通过寻找最佳的增强策略来提高深度学习模型的泛化能力,为此,将训练数据Dtrain分为两部分:DM和DS,其中DM用于训练深度学习模型,DS用于搜索最优策略;将异步事件数据流和相应的图像分辨率(W,H)作为输入,W、H分别为图像的宽和高,然后采用通用初始化变量方法进行初始化,并在数据集DM上训练预模型M(·|θ),模型M用θ参数化表示。
进一步,在步骤S3中,基于事件的数据是一个异步事件流,因此不能直接使用针对帧状数据提出的最先进的深度学习模型(例如ResNet)进行处理,为了使用深度学习模型处理基于事件的数据,需要将异步事件转换为类似帧的数据,在本步骤中使用三种事件表示方法将基于事件的数据转换为类似帧的数据,以分析EventAugment如何提高深度学习模型的性能,即Event Frame,Voxel Grid和Event Spike Tensor(EST)。
进一步,在步骤S3中,设ε为异步事件流,对变化的位置、时间、极性(符号)进行编码,如下所述:
Figure GDA0004191285770000031
其中xi是位置(对于事件相机,xi=(xi,yi)是触发事件的像素坐标),ti是事件发生时的时间戳,Pi是事件的极性,极性有两个值:1和-1,分别表示ON和OFF事件,I是事件的数量;
Event Frame使用每个像素的事件直方图表示事件,用VEF表示:
Figure GDA0004191285770000032
/>
Figure GDA0004191285770000033
其中δ(·)是一个指示函数,(xl,ym)是Event Frame表征中的像素坐标,xl∈{0,1,...,W-1},ym∈{0,1,...,H-1},Event Frame可视为分辨率为H×W的二维图像;
Voxel GridVVG考虑事件的时间信息,在Event Frame中没有显式处理,它写为
Figure GDA0004191285770000041
tn=t1+(cn+1)ΔT, (5)
其中g是一个指示器功能,当ti在区间(tn-1,tn]取1,否则取0;cn是Voxel Grid表征的时间索引,cn∈{0,1,...,C-1};ΔT是时间窗口的大小,C是时间窗口的数量;
与Voxel Grid类似,Event Spike Tensor(EST)也是一种基于网格的表示,通过可微核卷积和量化直接从异步事件数据端到端学习,EST考虑事件的时间信息和极性,其描述如下:
Figure GDA0004191285770000042
f±(x,y,t)是归一化的时间戳,
Figure GDA0004191285770000043
t1是第一个时间戳,k(x,y,t)是一个三线性核,写为:/>
Figure GDA0004191285770000044
进一步,在步骤S4中,搜索空间:设Ο为在输入空间上定义的增强操作,每个操作都有两个超参数:1)使用操作的概率,用p表示,和2)操作的强度,用m表示,表示操作的可变性;应注意的是,某些操作(如FlipX、FlipY)不使用幅度;将操作Ο应用于事件流x的输出写为:
Figure GDA0004191285770000045
在搜索空间中,每个策略由定义的n个连续操作组成,因此,将策略
Figure GDA0004191285770000046
应用于事件流x的输出可以表示为:
Figure GDA0004191285770000047
Figure GDA0004191285770000051
Figure GDA0004191285770000052
其中pn,mn分别表示第n个增强策略的使用概率和增强幅度,使用0到1之间的连续值表示概率和幅值。
Figure GDA0004191285770000053
表示应用过n次策略/>
Figure GDA0004191285770000054
的事件流。
与Fast AutoAugment类似,使用0到1之间的连续值表示概率和幅值。与使用离散化搜索空间(例如,AutoAugment)的方法相比,本方法探索了更多的可能性。
进一步,EventAugment的目标是找到一组增强策略来增强基于事件的异步数据,这可以看作是一种优化问题。设M(·|θ)表示深度学习模型,S表示数增强策略的搜索空间,因此,找到最优增强策略的优化问题可以描述为:
Figure GDA0004191285770000055
式中θ*是在数据分割DM上训练的模型参数,Φ是从S中采样的一组增强策略。为了寻找基于事件数据的最佳增强策略集,使用四种超参数优化的优化方法,即RandomSearch,Hyperband,Bayesian Optimization,和model-based Hyperband(BOHB)。
本发明的有益效果在于:
本发明首次提出了一种通过自动学习不同的事件增强策略来增强异步事件数据的方法,该方法又称为EventAugment。通过采用不同的自动学习策略选择更有效的事件增强策略,并将其作用到原始事件数据集上有效增加了事件数据的数据量和多样性,解决了深度学习模型过拟合问题。实验结果表明,EventAugment可以显著提高深度学习模型在各种基于事件的数据集上的的泛化能力,并且优于最先进的方法。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为EventAugment事件增强示例图;
图2为EventAugment的架构示意图;
图3为本发明所提方法的伪代码示意图。
具体实施方式
下面结合附图对本发明技术方案进行详细说明。
图1为EventAugment事件增强示例图,图2为EventAugment的架构示意图,图3为本发明所提方法的伪代码示意图。
如图1所示,它使用由CropT和DropByArea操作组成的增强策略。这项工作由AutoAugment和FastAutoAugment所启发,它们在多个图像数据集上显示了最先进的性能。
具体来说,本发明提供的一种基于异步事件数据的自动学习增强策略,又称为EventAugment,包括以下步骤:步骤S1:将异步事件流和相应的图像分辨率作为事件数据输入;步骤S2:初始化变量,包括模型初始化参数、最佳增强策略数N和搜索宽度T等;步骤S3:采用前面描述的表征方法预训练深度学习模型;步骤S4:用学习策略(优化器)在搜索空间中采样增强策略,并在预训练模型上进行评价,选出最佳的增强策略;步骤S5:用最佳的增强策略增强原始事件数据并输出。
为了训练深度学习模型,首先需要使用前面描述的表征方法将基于事件的数据转换为类似帧的数据,即EventFrame,VoxelGrid和EventSpikeTensor(EST)。增强操作是在原始事件上执行的,然后将原始事件转换为类似帧的数据,并将其提供给深度学习模型。
深度学习模型训练完成后,固定其模型参数。然后,迭代搜索top-k策略(其中k=N/T),最终得到最优策略集Φ*。最终输出所选的前N个最优策略,可以增加基于事件的数据。所述采样的策略包括沿X轴剪切事件、沿Y轴剪切事件等13种操作,具体参考表1确定的事件增强操作。每种操作的概率和幅度(如果需要)也是由优化器的采样决定,范围为[0,1]的连续值。
表1确定了事件增强的操作。
带下划线的操作是专门针对基于事件的数据的操作
操作 描述
Identity 不改变事件
ShearX 沿X轴剪切事件
ShearY 沿Y轴剪切事件
TranslateX 沿X轴平移事件
TranslateY 沿Y轴平移事件
TranslateT 沿时间维度平移事件
FlipX 沿X轴翻转事件
FlipY 沿Y轴翻转事件
FlipT 沿时间维度翻转事件
CropXY 从事件中删除像素边框
CropT 从事件中删除时间边界
DropByTime 在时间间隔内删除事件
DropByArea 在像素区域内删除事件
RandomDrop 随机删除一定比例的事件
为了寻找基于事件数据的最佳增强策略集,在本实施例中,使用四种常用于超参数优化的优化方法,即Random Search,Hyperband,Bayesian Optimization,和model-based Hyperband(BOHB)。
Random Search:随机搜索(RS)是一种广泛使用的超参数优化方法,已被证明是一种比网格搜索更有效的方法。它独立于搜索空间的均匀分布提取样本,并且采样点在搜索空间中随机均匀分布。与网格搜索类似,随机搜索简单且易于实现,但在高维搜索空间中效率更高。
Bayesian Optimization:贝叶斯优化(BO)是一种流行的优化方法,它使用概率分布对有界集x上的目标函数f(x)进行建模,然后利用该模型确定下一步评估函数的位置X。BO的核心思想是使用先前对f(x)的评估中获得的所有信息。BO使用AC函数(acquisitionfunction)来平衡勘探和开发。常用的AC函数有改善概率、预期改善(EI)、置信上限(UCB)和知识梯度。BO是一种有效的超参数优化或数据增强方法,但随着搜索维数的增加,其效率急剧下降。
Hyperband:Hyperband(HP)是一种基于bandit的超参数优化方法,可以将其视为随机搜索的一种变体,通过自适应资源分配和提前终止来加快搜索速度。它通过反复调用SuccessiveHalving方法来识别k个随机抽样策略中的最佳策略。它平衡了优化过程中每个配置的配置数量和预算。Hyperband通常优于随机搜索和贝叶斯优化,但由于其对随机抽样配置的依赖性,其收敛到全局最优的能力受到限制。
BOHB:model-basedHyperband(BOHB)方法将贝叶斯优化与Hyperband相结合,利用这两种方法的优点:强大的实时性能和快速收敛到最佳配置。BOHB使用Hyperband来确定要使用哪个预算评估多少配置,但它用贝叶斯优化取代了每次迭代中的随机采样。在各种任务上,它比贝叶斯优化和Hyperband表现出更好的性能。
在本实施例中,划分数据集,给定一个由训练数据Dtrain、验证数据Dvalidation和测试数据Dtest组成的基于事件的数据集D,目标是通过寻找最佳的增强策略来提高深度学习模型的泛化能力。为此,将训练数据Dtrain分为两部分:DM和DS,其中DM用于训练深度学习模型,DS用于搜索最优策略。
将异步事件数据流和相应的图像分辨率(W,H)作为输入,然后采用一般的初始化变量方法进行初始化,并在数据集DM上训练预模型M(·|θ)。
基于事件的数据是一个异步事件流,因此不能直接使用针对帧状数据提出的最先进的深度学习模型(例如ResNet)进行处理。为了使用深度学习模型处理基于事件的数据,通常需要将异步事件转换为类似帧的数据。在本实施例中,使用三种事件表示方法将基于事件的数据转换为类似帧的数据,以分析EventAugment如何提高深度学习模型的性能,即Event Frame,Voxel Grid和Event Spike Tensor(EST)。
设ε为异步事件流,对变化的位置、时间、极性(符号)进行编码,如下所述:
Figure GDA0004191285770000081
其中xi是位置(对于事件相机,xi=(xi,yi)是触发事件的像素坐标),Ti是事件发生时的时间戳,而Pi是事件的极性。极性有两个值:1和-1,分别表示ON和OFF事件。I是事件的数量。
EventFrame使用每个像素的事件直方图表示事件,可以写成(用VEF表示):
Figure GDA0004191285770000091
Figure GDA0004191285770000092
其中δ(·)是一个指示函数。(xl,ym)是EventFrame表征中的像素坐标,xl∈{0,1,…,W-1},ym∈{0,1,…,H-1}。EventFrame可视为分辨率为H×W的二维图像。
VoxelGridVVG考虑事件的时间信息,在EventFrame中没有显式处理。它写为
Figure GDA0004191285770000093
tn=t1+(cn+1)ΔT,(5)
其中g是一个指示器功能,当ti在区间(tn-1,tn]取1,否则取0。cn是Voxel Grid表征的时间索引,cn∈{0,1,…,C-1}。ΔT是时间窗口的大小,C是时间窗口的数量。
与VoxelGrid类似,EST也是一种基于网格的表示,通过可微核卷积和量化直接从异步事件数据端到端学习。EST考虑事件的时间信息和极性,其描述如下:
Figure GDA0004191285770000094
f±(x,y,t)是归一化的时间戳,
Figure GDA0004191285770000095
t1是第一个时间戳。k(x,y,t)是一个三线性核,它可以写为
Figure GDA0004191285770000101
本发明提出的EventAugment,包括三个部分:搜索空间、学习策略和性能评估。EventAugment的体系结构如图2所示。
搜索空间。设Ο为在EventAugment的输入空间上定义的增强操作,如表1所述。每个操作都有两个超参数:1)使用操作的概率(用p表示),和2)操作的强度(用m表示),表示操作的可变性。应注意的是,某些操作(如FlipX、FlipY)不使用幅度。将操作Ο应用于事件流x的输出写为:
Figure GDA0004191285770000102
在EventAugment的搜索空间中,每个策略由表1中定义的n个连续操作组成,在本实施例中设置为2。因此,将策略
Figure GDA0004191285770000103
应用于事件流x的输出可以表示为:
Figure GDA0004191285770000104
Figure GDA0004191285770000105
Figure GDA0004191285770000106
与Fast AutoAugment类似,使用0到1之间的连续值表示概率和幅值。与使用离散化搜索空间(例如,AutoAugment)的方法相比,本方法探索了更多的可能性。
EventAugment的目标是找到一组增强策略来增强基于事件的异步数据,这可以看作是一种优化问题。设M(·|θ)表示深度学习模型,S表示数增强策略的搜索空间。因此,找到最优增强策略的优化问题可以描述为:
Figure GDA0004191285770000107
式中θ*是在数据分割DM上训练的模型参数,Φ是从S中采样的一组增强策略。
为了寻找基于事件数据的最佳增强策略集,在本实施例中,我们使用了四种常用于超参数优化的优化方法,即Random Search,Hyperband,Bayesian Optimization,和model-basedHyperband(BOHB)。图3为本发明所提方法的伪代码示意图。
本发明提供的方法与现有处理图像的工作不同,本方法是对基于事件的数据进行增强。基于事件的数据与类似帧的数据不同,因此针对类似帧的数据提出的这些增强策略可能不适用于基于事件的数据。EventDrop是一种早期的事件数据增强的尝试,它通过删除或使用某些策略随机选择的事件来增加训练数据量和多样性。与EventDrop相比,本发明提供的方法考虑了更多的扩充操作,并使用优化方法自动搜索最优增强策略。
与本发明密切相关的工作是EventDrop,它通过使用某些策略删除事件来增强基于事件的数据。但是,EventDrop仅使用三个删除操作来扩充基于事件的数据,并且不使用任何优化方法来搜索增强策略。相比之下,本发明考虑了13种类型的操作,并使用优化方法自动搜索最佳增强策略。
本实施例使用三个公开事件数据集:N-Caltech101、N-Cars和ST-MNIST对提出的EventAugment进行评估。N-Caltech101是流行的Caltech101数据集的事件版本。N-Cars是一个真实世界的事件数据集,用于识别场景中是否存在汽车。ST-MNIST是一个神经形态尖峰触觉数据集,由手写数字组成,这些数字是通过要求人类参与者在神经形态触觉传感器阵列上书写而获得的。使用NCaltech101上EST提供的分割以及N-Cars和ST-MNIST上20%的训练数据,对验证集执行提前停止策略。
将提出的EventAugment与基准方法(无增强)和EventDrop进行比较。使用标准偏差(SD)的精度度量来评估这些方法在三个数据集上的性能。使用ResNet-34模型和EST表示法。为每个数据集选择前100个最优的增强策略。
表2显示了不同方法在N-Caltech101数据集上的性能。
表2三个数据集上不同方法比较的测试准确率(%)
Figure GDA0004191285770000111
Figure GDA0004191285770000121
可以看出,使用所有四种优化方法提出的EventAugment的性能都优于基准方法和EventDrop。在四种优化方法中,HP的性能最好,精度达到86.98%,分别比基准方法和EventDrop高出约3.1%和1.8%。使用其他三个优化器的EventAugment也比基准方法和EventDrop表现得更好,分别提高了约2.6%(相对于基准)和1.4%(相对于EventDrop)。
从表2中的N-Cars数据集上,可以看到使用所有四个优化器的EventAugment将基准方法从1.2%提高到了3.6%。在这些优化器中,达到最佳测试精度(96.18%),远高于基线(约3.6%)和EventDrop(约1.2%)。BOHB的性能略好于EventDrop,但HP和RS的精确度低于EventDrop。这可能是因为N-Cars相对简单,只有两个类(即场景中是否存在一个car),并且EventDrop采用的简单增强操作对于N-Cars已经足够了。
从表2中的ST-MNIST数据集上,还可以发现,使用不同优化器的EventAugment提高了ST-MNIST上深度学习模型的测试精度。与基准相比,使用所有四个优化器可将测试精度提高约1%。还可以观察到,只有RS的性能略好于EventDrop,而其他三个优化器的性能略差于EventDrop。这可能归因于ST-MNIST是一个神经形态触觉数据集,并且设计用于增强图像的操作(例如翻转、裁剪)可能无法很好地用于触觉数据。
从表2所示的结果中,可以得出结论,使用所有四个优化器的EventAugment能够提高深度学习模型的测试精度。
通过进行消融研究,以分析每个操作的性能、不同数量的选定策略的影响、不同的事件表示以及不同数据集和深度学习模型之间的可跨性。
每个操作的性能:首先分析在N-Caltech101和ST-MNIST数据集上使用表1中定义的每个增强操作的性能。消融研究中使用了ResNet-34模型和EST表示法。将使用每个操作的概率设置为0.2,并在[0,1]范围内随机生成增强的幅度。表3显示了在N-Caltech101和ST-MNIST数据集上应用每个操作的结果,从中我们可以看出,大多数操作都可以提高验证精度。
表3三个数据集上不同方法比较的测试准确率(%)
Figure GDA0004191285770000131
对于ST-MNIST上的结果尤其如此,其中只有TranslateT操作不能改善结果。在这些操作中,TranslateY、TranslateX、ShearY、ShearX和DropByArea通常比其他操作实现更好的改进。由于本发明的方法学习由多个操作组成的策略,因此将所有操作保留在搜索过程中,从而允许优化算法找到增广操作的最佳组合。
本实施例还分析了在N-Caltech101数据集上使用不同数量的选定策略的影响。需要考虑的策略数量是100,50和20。结果如表4所示,其中可以看到所选策略的数量对BOHB、BO和HP达到的测试精度有影响。
表4在N-Caltech101选取不同策略数量比较的测试准确率(%)
Figure GDA0004191285770000141
随着所选策略数量的减少,三个优化器实现的准确性呈现下降趋势。相比之下,RS优化器受所选策略数的影响较小,并且其行为与所选策略数的更改类似。
事件表征通常会影响深度学习模型获得的准确度。在这个消融实验中,还分析了三种事件表示,即EST、VoxelGrid和EventFrame的影响。表5表明EventAugment对于提高深度学习模型在不同事件表示中的测试精度非常有帮助。
表5在N-Caltech101用不同的事件表征比较的测试准确率(%)
Figure GDA0004191285770000142
将基线从1.4%提高到约6%。此外,EventAugment实现的准确性通常优于EventDrop,除了在EventFrame中HP和BOHB的表现略差于EventDrop。此外,可以观察到,使用EST表征可以获得最佳测试精度,其次是VoxelGrid。相比之下,EventFrame的精确度最低。这可以归因于EST考虑了比VoxelGrid和Event Frame更丰富的事件信息,包括事件的时间信息和极性。VoxelGrid忽略事件的极性,只使用时间信息。EventFrame丢弃事件的时间信息和极性,并利用事件的数量。
跨数据集的可转移性。从一个数据集学习到的好策略对于不同的数据集,甚至对于跨模式数据集都应该有用。在消融实验中,重点分析了EventAugment的可转移性。跨数据集的可转移性意味着从N-Caltech101学到的策略在N-Cars和ST-MNIST上的良好执行程度。结果如表6所示:
表6测试从N-Caltech101中学习到的策略至新数据集(N-Cars和ST-MNIST)的准确率(%)
Figure GDA0004191285770000151
从中可以看出,从N-Caltech101学到的策略可以提高N-Cars和ST-MNIST的性能。对于N-Cars,改进可以达到2%。尽管ST-MNIST是一个不同于N-Caltech101(图像)的触觉数据集,但从N-Caltech101学到的策略在大多数情况下也能够提高ST-MNIST深度学习模型的测试精度。这表明本发明提出的EventAugment通常可以学习到适应不同数据集的好策略。
跨深度学习模型的可转移性:模型之间的可转移性意味着通过使用一个模型学习的策略可以与另一个模型协同工作的程度。增强策略通过ResNet-34学习,本实施例将测试这些策略在不同深度学习模型(MobileNetV2和VGG-19)下的表现。从表7中,可以看出,ResNet-34学习的策略也可以很好地与新的深度学习模型配合使用。它们有助于将MobileNet-V2和VGG-19的测试精度最多提高4%和4.4%。这也反映了提出的EventAugment在不同深度学习模型之间具有良好的可转移性。
表7测试从ResNet-34网络所学到的策略应用至新的模型(MobileNet-V2和VGG-19)的准确率(%)
Figure GDA0004191285770000152
Figure GDA0004191285770000161
本发明提出的一种新的基于事件学习的增强方法(EventAugment)。在本实施例中已经确定了13种用于增强基于事件的数据的操作,并演示了如何使用优化方法(如BO和HP)来学习有用的增强策略。在三个基于公开事件数据集上的实验表明,所提出的EventAugment可以显著提高深度学习模型的分类精度。还证明了EventAugment对不同的事件表示和不同数量的选择策略具有鲁棒性,并且能够适应新的数据集和深度学习模型。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (3)

1.一种异步事件数据的自动学习增强方法,其特征在于:该方法包括以下步骤:
S1、将异步事件流和相应的图像分辨率作为事件数据输入;
S2、初始化变量,包括模型初始化参数、最佳增强策略数N和搜索宽度T;
S3、采用表征方法预训练深度学习模型;
S4、用学习策略在搜索空间中采样增强策略,并在预训练模型上进行评价,选出最佳的增强策略;
S5、用最佳的增强策略增强原始事件数据并输出;
在步骤S1和步骤S2中,将划分的异步事件流和相应的图像分辨率作为事件数据输入并进行初始化,具体包括:划分数据集:给定一个由训练数据Dtrain、验证数据Dvalidation和测试数据Dtest组成的基于事件的数据集D,目标是通过寻找最佳的增强策略来提高深度学习模型的泛化能力,为此,将训练数据Dtrain分为两部分:DM和DS,其中DM用于训练深度学习模型,DS用于搜索最优策略;将异步事件数据流和相应的图像分辨率(W,H)作为输入,W、H分别为图像的宽和高,然后采用通用初始化变量方法进行初始化,并在数据集DM上训练预模型M(·|θ),模型M用θ参数化表示;
在步骤S3中,为了使用深度学习模型处理基于事件的数据,需要将异步事件转换为类似帧的数据,在本步骤中使用三种事件表示方法将基于事件的数据转换为类似帧的数据,以分析EventAugment如何提高深度学习模型的性能,即Event Frame:采用统计直方图来表示每个像素对应的事件;Voxel Grid:采用事件的时空统计直方值来表征事件;EventSpike Tensor:定期采样来实现事件的网格表示;
在步骤S3中,设ε为异步事件流,对变化的位置、时间、极性进行编码,如下所述:
Figure FDA0004191285740000011
其中xi是位置,ti是事件发生时的时间戳,Pi是事件的极性,极性有两个值:1和-1,分别表示ON和OFF事件,I是事件的数量;
Event Frame使用每个像素的事件直方图表示事件,用VEF表示:
Figure FDA0004191285740000021
Figure FDA0004191285740000022
其中δ(·)是一个指示函数,(xl,ym)是Event Frame表征中的像素坐标,xl∈{0,1,...,W-1},ym∈{0,1,...,H-1},Event Frame可视为分辨率为H×W的二维图像;
Voxel GridVVG考虑事件的时间信息,在Event Frame中没有显式处理,它写为
Figure FDA0004191285740000023
tn=t1+(cn+1)ΔT, (5)
其中g是一个指示器功能,当ti在区间(tn-1,tn]取1,否则取0;cn是Voxel Grid表征的时间索引,cn∈{0,1,...,C-1};ΔT是时间窗口的大小,C是时间窗口的数量;
Event Spike Tensor(EST)也是一种基于网格的表示,通过可微核卷积和量化直接从异步事件数据端到端学习,EST考虑事件的时间信息和极性,其描述如下:
Figure FDA0004191285740000024
f±(x,y,t)是归一化的时间戳,
Figure FDA0004191285740000025
t1是第一个时间戳,k(x,y,t)是一个三线性核,写为:/>
Figure FDA0004191285740000026
在步骤S4中,搜索空间:设Ο为在输入空间上定义的增强操作,每个操作都有两个超参数:1)使用操作的概率,用p表示,和2)操作的强度,用m表示,表示操作的可变性;将操作Ο应用于事件流x的输出写为:
Figure FDA0004191285740000031
在搜索空间中,每个策略由定义的n个连续操作组成,因此,将策略
Figure FDA0004191285740000038
应用于事件流x的输出表示为:
Figure FDA0004191285740000032
Figure FDA0004191285740000033
Figure FDA0004191285740000034
其中pn,mn分别表示第n个增强策略的使用概率和增强幅度,使用0到1之间的连续值表示概率和幅值,
Figure FDA0004191285740000035
表示应用过n次策略/>
Figure FDA0004191285740000036
的事件流。
2.根据权利要求1所述的一种异步事件数据的自动学习增强方法,其特征在于:
设M(·|θ)表示深度学习模型,S表示数增强策略的搜索空间,因此,找到最优增强策略的优化问题描述为:
Figure FDA0004191285740000037
式中θ*是在数据分割DM上训练的模型参数,Φ是从S中采样的一组增强策略。
3.一种异步事件数据的自动学习增强系统,其特征在于:该系统采用如权利要求1或2中任一项所述的方法进行异步事件数据的自动学习增强。
CN202210379156.XA 2022-04-12 2022-04-12 一种异步事件数据的自动学习增强方法及系统 Active CN114723010B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210379156.XA CN114723010B (zh) 2022-04-12 2022-04-12 一种异步事件数据的自动学习增强方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210379156.XA CN114723010B (zh) 2022-04-12 2022-04-12 一种异步事件数据的自动学习增强方法及系统

Publications (2)

Publication Number Publication Date
CN114723010A CN114723010A (zh) 2022-07-08
CN114723010B true CN114723010B (zh) 2023-05-26

Family

ID=82243715

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210379156.XA Active CN114723010B (zh) 2022-04-12 2022-04-12 一种异步事件数据的自动学习增强方法及系统

Country Status (1)

Country Link
CN (1) CN114723010B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117132978B (zh) * 2023-10-27 2024-02-20 深圳市敏视睿行智能科技有限公司 一种微生物图像识别系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5479579A (en) * 1992-09-04 1995-12-26 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Cascaded VLSI neural network architecture for on-line learning
CN109697726A (zh) * 2019-01-09 2019-04-30 厦门大学 一种基于事件相机的端对端目标运动估计方法
CN113971644A (zh) * 2021-10-29 2022-01-25 际络科技(上海)有限公司 基于数据增强策略选择的图像识别方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102422729B1 (ko) * 2018-05-18 2022-07-19 구글 엘엘씨 학습 데이터 증강 정책
CN111766782B (zh) * 2020-06-28 2021-07-13 浙江大学 基于深度强化学习中Actor-Critic框架的策略选择方法
CN113177640B (zh) * 2021-05-31 2022-05-27 重庆大学 一种离散异步事件数据增强方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5479579A (en) * 1992-09-04 1995-12-26 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Cascaded VLSI neural network architecture for on-line learning
CN109697726A (zh) * 2019-01-09 2019-04-30 厦门大学 一种基于事件相机的端对端目标运动估计方法
CN113971644A (zh) * 2021-10-29 2022-01-25 际络科技(上海)有限公司 基于数据增强策略选择的图像识别方法及装置

Also Published As

Publication number Publication date
CN114723010A (zh) 2022-07-08

Similar Documents

Publication Publication Date Title
Liu et al. Teinet: Towards an efficient architecture for video recognition
CN111210443B (zh) 基于嵌入平衡的可变形卷积混合任务级联语义分割方法
Li et al. Deepsaliency: Multi-task deep neural network model for salient object detection
Alani et al. Hand gesture recognition using an adapted convolutional neural network with data augmentation
CN109815956B (zh) 一种基于自适应位置分割的车牌字符识别方法
Mathur et al. Crosspooled FishNet: transfer learning based fish species classification model
CN110322445B (zh) 基于最大化预测和标签间相关性损失函数的语义分割方法
CN111401293B (zh) 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法
Sajanraj et al. Indian sign language numeral recognition using region of interest convolutional neural network
Chen et al. Corse-to-fine road extraction based on local Dirichlet mixture models and multiscale-high-order deep learning
Wang et al. Multiscale deep alternative neural network for large-scale video classification
CN112232371A (zh) 一种基于YOLOv3与文本识别的美式车牌识别方法
Jiang et al. Baidu Meizu deep learning competition: Arithmetic operation recognition using end-to-end learning OCR technologies
Zhang et al. A new deep spatial transformer convolutional neural network for image saliency detection
Zhao et al. Real-time moving pedestrian detection using contour features
Gu et al. Visual affordance detection using an efficient attention convolutional neural network
CN113343989A (zh) 一种基于前景选择域自适应的目标检测方法及系统
CN114723010B (zh) 一种异步事件数据的自动学习增强方法及系统
CN110135435B (zh) 一种基于广度学习系统的显著性检测方法及装置
Devisurya et al. Early detection of major diseases in turmeric plant using improved deep learning algorithm
Wang et al. Facial expression recognition based on CNN
Wang et al. Fast and effective color-based object tracking by boosted color distribution
Yılmaz et al. Recurrent binary patterns and cnns for offline signature verification
CN111275732B (zh) 一种基于深度卷积神经网络的前景对象图像分割方法
CN116543250A (zh) 一种基于类注意力传输的模型压缩方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant