CN115035597A - 一种基于事件相机的变光照动作识别方法 - Google Patents

一种基于事件相机的变光照动作识别方法 Download PDF

Info

Publication number
CN115035597A
CN115035597A CN202210637555.1A CN202210637555A CN115035597A CN 115035597 A CN115035597 A CN 115035597A CN 202210637555 A CN202210637555 A CN 202210637555A CN 115035597 A CN115035597 A CN 115035597A
Authority
CN
China
Prior art keywords
event
formula
network
convolution
event frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210637555.1A
Other languages
English (en)
Other versions
CN115035597B (zh
Inventor
查正军
曹洋
王洋
万增余
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202210637555.1A priority Critical patent/CN115035597B/zh
Publication of CN115035597A publication Critical patent/CN115035597A/zh
Application granted granted Critical
Publication of CN115035597B publication Critical patent/CN115035597B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02BCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
    • Y02B20/00Energy efficient lighting technologies, e.g. halogen lamps or gas discharge lamps
    • Y02B20/40Control techniques providing energy savings, e.g. smart controller or presence detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于事件相机的变光照动作识别方法,其步骤包括:1、对拍摄得到的事件数据进行预处理得到事件帧序列;2、构建事件帧去噪增强模块对事件帧进行噪声过滤以及对比度增强,输出经过修复的事件帧;3、基于局部‑‑全局演化感知模块,在特征层面对事件帧进行边缘相关性加强;4、设计中央差分卷积并引入密度估计核,提取强度一致的鲁棒特征;5、基于提取特征,输出对应概率最大的类别标签。本发明通过两阶段模型能有效提升识别精度,且无需调整参数即可适用于其他光照场景,从而优化了变光照场景的泛化性能。

Description

一种基于事件相机的变光照动作识别方法
技术领域
本发明属于事件相机识别领域,具体的说是一种基于事件相机的变光照动作识别方法。
背景技术
事件相机(Dynamic Vision Sensor)是一种新型的生物启发视觉传感器,它的每个像素异步地感知场景亮度变化并输出一系列二值脉冲信号(也叫做事件),对应于相机与物体间的相对运动线索。由于事件相机的时间分辨率可以达到微秒量级,对场景中的相对运动十分敏感,很适合需要精细时间分辨率的识别任务,如手势识别等。
基于事件的识别通过提取事件中包含的时空相关性实现对目标的识别,现有对事件输入有两种做法:第一种将事件投射到传统空间帧上,利用成熟的深度卷积网络来进行识别;第二种保留事件输入流形,通过点云或图模型建模时空特征,获得类别信息。但是不管是何种形式的事件映射方式,都忽略了背景噪声和事件稀疏化的影响。尤其在变光照场景下,背景噪声和有效信号的分布都与光照强度相关,光强水平越低,噪声越多,同时有效事件信号越弱。背景噪声破坏有效信号的相关性,而有效信号强度降低,更加剧了相关特征提取的难度。
一种直接的方案是先利用去噪算法得到去噪后的事件流再进行识别。但是事件的稀疏性使得传统利用空间相关性的去噪算法在事件域失效,而现有的事件去噪算法在去噪的同时会衰减有效信号强度,进一步破坏有效信号间的空间相关依赖,导致识别算法失效。因此亟需一种能够应对变光照带来的降质效应的识别算法,在去噪的同时能够通过增强特征相关性来捕捉事件时空特征。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于事件相机的变光照动作识别方法,以期能在去噪的同时加强提取有效事件的时空运动相关特征,无且需调整参数即可适用于其他光照场景,从而能实现在变光照下的稳定识别,并能优化变光照场景的泛化性能。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于事件相机的变光照动作识别方法的特点在于,是按如下步骤进行:
步骤1获取训练事件序列,并对序列进行预处理构成事件帧;
步骤1.1利用事件相机拍摄运动对象并得到事件序列
Figure BDA0003681124540000011
其中,ek表示第k个事件,且ek=pkδ(t-tk,x-xk,y-yk),其中,pk代表第k个事件ek的极性,pk∈{-1,1};tk代表第k个事件ek的发生时刻;xk和yk分别表示第k个事件ek发生的空间坐标;N表示事件总数;(t,x,y)表示时空投影坐标;δ为示性函数;
步骤1.2根据事件的极性和时空坐标统计事件数量,从而得到事件帧E∈R2×H×W,其中,第i个事件帧
Figure BDA0003681124540000021
xi,yi为第i个事件帧的空间投影坐标,pi为第i个事件帧的极性;H,W分别表示事件帧的高和宽;
步骤2构建两阶段的事件识别网络,包括:噪声抑制子网络和特征提取网络;
步骤2.1所述噪声抑制子网络由a层Inception模块构成,每个Inception模块由并行的b个卷积层组成,且每个卷积层的卷积核大小不同,将每个卷积层的卷积结果在通道上拼接后作为每个Inception模块的输出;
所述事件帧E(x,y,p)输入所述噪声抑制子网络中进行处理,并输出与输入同维度的去噪和对比度增强掩码S,再利用式(1)获得增强后的事件帧
Figure BDA0003681124540000022
Figure BDA0003681124540000023
步骤2.2构建所述特征提取网络,包括:方向感知模块、l层串联的密度自适应中央差分卷积模块和最后的全连接层;
步骤2.2.1所述方向感知模块由方向卷积层、全局池化层和高斯融合模块组成;
步骤2.2.1.1所述方向卷积层包含d个卷积核,且任意第j个卷积核Wj对应一个选定的方向,所述卷积核Wj的中心值为1,其对应方向值为-1;
所述方向卷积层利用式(2)获得第j个方邻域向梯度图
Figure BDA0003681124540000024
Figure BDA0003681124540000025
步骤2.2.1.2所述全局池化层利用式(3)对第j个方向梯度图
Figure BDA0003681124540000026
进行处理,获得相应全局演化信息Zj
Figure BDA0003681124540000027
式(3)中,GAP表示全局池化操作;
步骤2.2.1.3所述高斯融合模块利用式(4)对第j个全局演化信息Zj进行归一化处理,得到对应归一化演化信息σj
Figure BDA0003681124540000028
式(4)中,softmax表示激活函数;
步骤2.2.1.4所述高斯融合模块利用式(5)对第j个方向梯度图
Figure BDA0003681124540000031
进行梯度域的边缘修复,得到第j个重加权后的梯度图
Figure BDA0003681124540000032
Figure BDA0003681124540000033
步骤2.2.1.5所述方向感知模块利用式(6)对所有重加权后的梯度图进行处理,得到边缘修复的事件帧
Figure BDA0003681124540000034
Figure BDA0003681124540000035
式(6)中,βj为加权第j个方向梯度图的系数;
步骤2.2.2所述密度自适应中央差分卷积模块对事件信息
Figure BDA0003681124540000036
进行事件特征的抽取并通过全连接层输出最终的类别信息;
步骤2.2.2.1密度自适应的中央差分卷积模块利用式(7)对事件信息
Figure BDA0003681124540000037
进行二值化处理,得到掩码,再利用式(8)对所述掩码进行池化处理,得到局部事件密度信息;
Figure BDA0003681124540000038
Figure BDA0003681124540000039
式(7)和式(8)中,T为设定阈值,p0为事件帧任一像素点的空间位置,R表示p0的邻域,pn为邻域R中第n个像素点的空间位置相对p0的偏移,|R|代表邻域的面积;M(·)为掩码;
Figure BDA00036811245400000310
为边缘修复事件帧;θ(·)为局部事件密度;
步骤2.2.2.2所述密度自适应的中央差分卷积模块利用式(9)获得事件帧最终的特征响应f:
Figure BDA00036811245400000311
式(9)中,w为中央差分卷积模块中的卷积核;G为平衡参数,且G∈[0,1];
步骤2.2.2.4所述全连接层对所述特征响应f进行处理,并输出类别预测概率c∈RT,T为类别数,并取c中最大值所对应类别为模型的预测类别;
步骤3构建损失函数;
步骤3.1构建噪声抑制子网络的自监督损失函数,包括:噪声抑制损失LN、增强损失LE和一致性损失LC
利用式(12)和式(13)构建所述噪声抑制损失LN
Figure BDA0003681124540000041
Figure BDA0003681124540000042
式(12)和式(13)中,p表示小于均值的像素点所形成的噪点的空间位置,P表示该空间位置的集合;
Figure BDA0003681124540000043
表示增强事件帧,Λ为空间位置p的空间邻域,p'n为邻域Λ中第n个像素点的空间位置相对p的偏移,Mean表示均值操作;
利用式(14)和式(15)构建所述增强损失LE
Figure BDA0003681124540000044
Figure BDA0003681124540000045
式(14)和式(15)中,A表示对增强事件帧
Figure BDA0003681124540000046
进行局部池化后的增强事件帧信息,AvgPool(·)为池化函数;
利用式(16)构建所述一致性损失LC
LC=(Mean(Sp)-Mean(Sn))2 (16)
式(16)中,Sp表示去噪增强掩码S的正极性通道,Sn表示去噪增强掩码S的负极性通道;
步骤3.1.4利用式(17)构建所述噪声抑制子网络的自监督损失函数L1
L1=LN1LE2LC (17)
式(17)中,λ1,λ2为平衡系数;
步骤3.2利用式(18)构建所述特征网络的交叉熵损失函数L2
Figure BDA0003681124540000047
式(18)中,ci代表第i类别的预测概率,qi为输入事件序列属于第i类别的真实概率,T为类别数;
步骤4模型训练:
利用梯度下降法对所述噪声抑制子网络络进行训练,并计算所述自监督损失函数L1,当训练迭代达到设定的次数或自监督损失小于阈值时,停止训练噪声抑制子网络,并固定训练后的噪声抑制子网络的参数,再对所述特征增强网络进行训练,同时计算交叉熵损失函数L2,当训练迭代达到设定的次数或交叉熵损失小于阈值时,停止训练,从而得到训练后的特征增强网络,并完成事件识别网络的训练,用于对任意光照强度下拍摄的事件进行分类识别。
与现有技术相比,本发明的有益效果在于:
1、本发明通过采用先去噪后特征提取的两阶段识别网络,利用事件的时空相关性进行去噪同时再进行特征相关性补全,克服了现有去噪算法中对有效信号过度破坏以及现有的基于事件的识别算法在变光照场景下精度下降的问题,从而在去除干扰噪声的同时对有效信号间的相关性进行加强,有效提升了事件识别在变光照场景下的识别性能。
2、本发明通过提取事件间的空间相关性,以自监督的方式去学习输入事件帧的噪声去除和事件帧的对比度增强,降低了噪声对有效事件相关性的破坏。
3、本发明通过自适应聚合事件局部特征,对有效事件的相关性进行增强来更好的感知事件的时空运动特征,从而能在变光照带来的降质破坏下依然充分提取到相关特征。
附图说明
图1为本发明方法的流程图;
图2为本发明方法的噪声抑制子网络方法流程图;
图3为本发明方法的特征增强子网络。
具体实施方式
本实施例中,一种基于事件相机的变光照动作识别方法,首先利用事件时空相关性进行噪声滤除,同时通过引入空间全局信息来自适应聚合事件局部特征进行特征相关性增强,来缓解变光照降质对事件时空相关性的破坏,实现变光照场景下的稳定识别,具体流程参见图1,该方法按如下步骤进行:
步骤1获取训练事件序列,并对序列进行预处理构成事件帧;
步骤1.1利用事件相机拍摄运动对象并得到事件序列
Figure BDA0003681124540000051
其中,ek表示第k个事件,且ek=pkδ(t-tk,x-xk,y-yk),其中,pk代表第k个事件ek的极性,pk∈{-1,1};tk代表第k个事件ek的发生时刻;xk和yk分别表示第k个事件ek发生的空间坐标;N表示事件总数;(t,x,y)表示时空投影坐标;δ为示性函数;
本实施例中,采用DVSGesture手势识别数据集训练和评估模型,一共10种手势类别,每种手势在5种光照场景(fluorescent led,fluorescent,natural,led,lab)下拍摄,选取其中一种光照场景下的进行训练,在其余场景下进行模型评估。
骤1.2根据事件的极性和时空坐标统计事件数量,从而得到事件帧E∈R2×H×W,其中,第i个事件帧
Figure BDA0003681124540000052
xi,yi为第i个事件帧的空间投影坐标,pi为第i个事件帧的极性;H,W分别表示事件帧的高和宽;
步骤2构建两阶段的事件识别网络,包括:噪声抑制子网络和特征提取网络;
步骤2.1噪声抑制子网络由a层Inception模块构成,每个Inception模块由并行的b个卷积层组成,且每个卷积层的卷积核大小不同,将每个卷积层的卷积结果在通道上拼接后作为每个Inception模块的输出;
本实施例中,如图2所示,a取6,b取3,每层卷积核步长为1,卷积核数分别为16,32,32,64,32,16;
事件帧E(x,y,p)输入噪声抑制子网络中进行处理,并输出与输入同维度的去噪和对比度增强掩码S,再利用式(1)获得增强后的事件帧
Figure BDA0003681124540000061
Figure BDA0003681124540000062
步骤2.2构建特征提取网络,包括:方向感知模块、l层串联的密度自适应中央差分卷积模块和最后的全连接层;
步骤2.2.1方向感知模块由方向卷积层、全局池化层和高斯融合模块组成;
步骤2.2.1.1方向卷积层包含d个卷积核,且任意第j个卷积核Wj对应一个特定方向,卷积核Wj的中心值为1,其对应方向值为-1;
方向卷积层利用式(2)获得第j个方向梯度图
Figure BDA0003681124540000063
Figure BDA0003681124540000064
骤2.2.1.2全局池化层利用式(3)对第j个方向梯度图
Figure BDA0003681124540000065
进行处理,获得相应全局演化信息Zj
Figure BDA0003681124540000066
式(3)中,GAP表示全局池化操作;
步骤2.2.1.3高斯融合模块利用式(4)对第j个全局演化信息Zj进行归一化处理,得到对应归一化演化信息σj
Figure BDA0003681124540000067
式(4)中,softmax表示激活函数;
步骤2.2.1.4高斯融合模块利用式(5)对第j个方向梯度图
Figure BDA0003681124540000068
进行梯度域的边缘修复,得到第j个重加权后的梯度图
Figure BDA0003681124540000069
Figure BDA00036811245400000610
步骤2.2.1.5方向感知模块利用式(6)对所有重加权后的梯度图进行处理,得到边缘修复的事件帧
Figure BDA0003681124540000071
Figure BDA0003681124540000072
式(6)中,βj为加权第j个方向梯度图的系数;
步骤2.2.2密度自适应中央差分卷积模块对事件信息
Figure BDA0003681124540000073
进行事件特征的抽取并通过全连接层输出最终的类别信息;
本实施例中,如图3所示,l取12,每层卷积核大小为3*3,步长为1,卷积核数分别为64,192,192,256,480,512,664,704,832,832,1024,10;
步骤2.2.2.1密度自适应的中央差分卷积模块利用式(7)对事件信息
Figure BDA0003681124540000074
进行二值化处理,得到掩码,再利用式(8对)掩码进行池化处理,得到局部事件密度信息;
Figure BDA0003681124540000075
Figure BDA0003681124540000076
式(7)和式(8)中,T为设定阈值,p0事件帧任一像素点的空间位置,R表示p0的邻域,pn为邻域中R第n个像素点的空间位置相对点p0的偏移,|R|代表邻域的面积;M(·)为所述掩码;
Figure BDA0003681124540000077
为边缘修复事件帧;θ(·)为局部事件密度;
本实施例中,T值取0,邻域大小取3*3;
步骤2.2.2.2密度自适应的中央差分卷积模块利用式(9)获得事件帧最终的特征响应f:
具体的是在普通k×k卷积过程中,将邻域空间特征减去乘以密度值的中心像素特征,再通过卷积来获得高频特征响应f,
Figure BDA0003681124540000078
式(9)中,w(·)为中央差分卷积模块中的卷积核;G为平衡参数,且G∈[0,1];
步骤2.2.2.4全连接层对特征响应f进行处理,并输出类别类别预测概率c∈RT,T为类别数,并取c中最大值所对应类别为模型的预测类别;
步骤3构建损失函数;
步骤3.1构建噪声抑制子网络的自监督损失函数,包括:噪声抑制损失LN、增强损失LE和一致性损失LC
利用式(12)和式(13)构建噪声抑制损失LN
Figure BDA0003681124540000081
Figure BDA0003681124540000082
式(12)和式(13)中,p表示小于均值的像素点所形成的噪点的空间位置,P表示噪点集合;
Figure BDA0003681124540000083
表示增强事件帧,Λ为空间位置p的空间邻域,p'n为邻域Λ中第n个像素点的空间位置相对p的偏移,Mean表示均值操作;
利用式(14)和式(15)构建增强损失LE
Figure BDA0003681124540000084
Figure BDA0003681124540000085
式(14)和式(15)中,A表示对增强事件帧
Figure BDA0003681124540000086
进行局部池化后的增强事件帧信息,AvgPool(·)为池化函数;
利用式(16)构建一致性损失LC
LC=(Mean(Sp)-Mean(Sn))2 (16)
式(16)中,Sp表示去噪增强掩码S的正极性通道,Sn表示去噪增强掩码S的负极性通道;步骤3.1.4利用式(17)构建噪声抑制子网络的自监督损失函数L1
L1=LN1LE2LC (17)
式(17)中,λ1,λ2为平衡系数;
步骤3.2利用式(18)构建特征网络的交叉熵损失函数L2
Figure BDA0003681124540000087
式(18)中,ci代表第i类别的预测概率,qi为输入事件序列属于第i类别的真实概率,T为类别数;
步骤4模型训练:
在DVSGesture数据集上,利用梯度下降法对噪声抑制子网络络进行训练,并计算自监督损失函数L1,当训练迭代达到设定的次数或自监督损失小于阈值时,停止训练噪声抑制子网络,并固定训练后的噪声抑制子网络的参数,再对特征增强网络进行训练,同时计算交叉熵损失函数L2,当训练迭代达到设定的次数或交叉熵损失小于阈值时,停止训练,从而得到训练后的特征增强网络,并完成事件识别网络的训练,用于对任意光照强度下拍摄的事件进行分类识别。
本实施例中,针对于噪声抑制子网络的训练,我们采用的学习率lr为1e-2,而训练特征增强子网络时,学习率lr为1e-4。
实验例
为验证本发明方法中的有效性,本实施例中选用了常用的DVSGesture数据集用于训练和测试。
该方法基于DVSGesture数据集进行训练,DVSGesture数据集在5种真实光照场景下拍摄了10种不同的手势类别,采用的事件相机型号为DVS128,其分辨率为128*128。我们在训练过程中只在一种光照场景下训练,而验证阶段采用在其他光照场景下进行泛化测试。
本实例中选用四种识别方法I3D,ResNert34,PointNet++,EST,同时选用两种事件去噪方法VN、YN前置于最先进的两种识别方法I3D和EST中进行比较。
根据实验结果可得出结果如表1和表2所示:
表1本发明方法与选用的4种识别方法在DVSGesture数据集上进行变光照识别的实验结果,结果代表了在变光照场景下测试的平均准确度和方差(准确度%)。一共包含5种光照场景S0:fluorescent led,S1:fluorescent,S2:natural,S3:led,S4:lab;
S0 S1 S2 S3 S4
I3D 93.9±3.3 91.7±3.0 87.3±8.3 89.9±6.9 93.0±3.9
ResNet34 88.1±5.1 83.9±3.3 75.7±14.2 78.2±10.0 84.2±3.6
PointNet++ 88.4±3.0 84.6±3.4 84.4±4.4 83.5±2.9 87.4±4.0
EST 94.2±3.4 90.2±5.3 89.5±7.6 89.1±5.6 92.3±3.3
本发明方法 97.1±0.9 95.5±0.8 93.7±3.3 94.5±2.4 94.9±3.0
表2本发明方法与两阶段方法(先用VN或YN事件去噪再用I3D和EST进行识别)在DVSGesture数据集上进行变光照识别的实验结果。
S0 S1 S2 S3 S4
VN+I3D 92.8±4.1 90.9±3.3 89.8±8.9 89.7±7.6 91.7±2.0
YN+I3D 92.9±5.3 91.2±4.5 85.9±9.2 89.5±6.6 93.6±3.8
VN+EST 89.7±5.4 87.3±5.2 85.6±9.8 83.3±5.8 88.8±2.7
YN+EST 92.0±3.6 88.5±4.8 80.5±11.1 84.0±8.5 91.7±4.5
本发明方法 97.1±0.9 95.5±0.8 93.7±3.3 94.5±2.4 94.9±3.0
实验结果显示在变光照识别任务上,本发明方法优于先前的最佳识别模型,也明显优于先前的先事件去噪后识别的两阶段方法。实验表明本发明方法能够有效的抑制破坏事件语义的噪声点,同时增强事件特征点间的相关性,以完成变光照场景下的识别任务。

Claims (1)

1.一种基于事件相机的变光照动作识别方法,其特征在于,是按如下步骤进行:
步骤1获取训练事件序列,并对序列进行预处理构成事件帧;
步骤1.1利用事件相机拍摄运动对象并得到事件序列
Figure FDA0003681124530000011
其中,ek表示第k个事件,且ek=pkδ(t-tk,x-xk,y-yk),其中,pk代表第k个事件ek的极性,pk∈{-1,1};tk代表第k个事件ek的发生时刻;xk和yk分别表示第k个事件ek发生的空间坐标;N表示事件总数;(t,x,y)表示时空投影坐标;δ为示性函数;
步骤1.2根据事件的极性和时空坐标统计事件数量,从而得到事件帧E∈R2×H×W,其中,第i个事件帧
Figure FDA0003681124530000012
xi,yi为第i个事件帧的空间投影坐标,pi为第i个事件帧的极性;H,W分别表示事件帧的高和宽;
步骤2构建两阶段的事件识别网络,包括:噪声抑制子网络和特征提取网络;
步骤2.1所述噪声抑制子网络由a层Inception模块构成,每个Inception模块由并行的b个卷积层组成,且每个卷积层的卷积核大小不同,将每个卷积层的卷积结果在通道上拼接后作为每个Inception模块的输出;
所述事件帧E(x,y,p)输入所述噪声抑制子网络中进行处理,并输出与输入同维度的去噪和对比度增强掩码S,再利用式(1)获得增强后的事件帧
Figure FDA0003681124530000013
Figure FDA0003681124530000014
步骤2.2构建所述特征提取网络,包括:方向感知模块、l层串联的密度自适应中央差分卷积模块和最后的全连接层;
步骤2.2.1所述方向感知模块由方向卷积层、全局池化层和高斯融合模块组成;
步骤2.2.1.1所述方向卷积层包含d个卷积核,且任意第j个卷积核Wj对应一个选定的方向,所述卷积核Wj的中心值为1,其对应方向值为-1;
所述方向卷积层利用式(2)获得第j个方邻域向梯度图
Figure FDA0003681124530000015
Figure FDA0003681124530000016
步骤2.2.1.2所述全局池化层利用式(3)对第j个方向梯度图
Figure FDA0003681124530000017
进行处理,获得相应全局演化信息Zj
Figure FDA0003681124530000018
式(3)中,GAP表示全局池化操作;
步骤2.2.1.3所述高斯融合模块利用式(4)对第j个全局演化信息Zj进行归一化处理,得到对应归一化演化信息σj
Figure FDA0003681124530000021
式(4)中,softmax表示激活函数;
步骤2.2.1.4所述高斯融合模块利用式(5)对第j个方向梯度图
Figure FDA0003681124530000022
进行梯度域的边缘修复,得到第j个重加权后的梯度图
Figure FDA0003681124530000023
Figure FDA0003681124530000024
步骤2.2.1.5所述方向感知模块利用式(6)对所有重加权后的梯度图进行处理,得到边缘修复的事件帧
Figure FDA0003681124530000025
Figure FDA0003681124530000026
式(6)中,βj为加权第j个方向梯度图的系数;
步骤2.2.2所述密度自适应中央差分卷积模块对事件信息
Figure FDA0003681124530000027
进行事件特征的抽取并通过全连接层输出最终的类别信息;
步骤2.2.2.1密度自适应的中央差分卷积模块利用式(7)对事件信息
Figure FDA00036811245300000212
进行二值化处理,得到掩码,再利用式(8)对所述掩码进行池化处理,得到局部事件密度信息;
Figure FDA0003681124530000028
Figure FDA0003681124530000029
式(7)和式(8)中,T为设定阈值,p0为事件帧任一像素点的空间位置,R表示p0的邻域,pn为邻域R中第n个像素点的空间位置相对p0的偏移,|R|代表邻域的面积;M(·)为掩码;
Figure FDA00036811245300000210
为边缘修复事件帧;θ(·)为局部事件密度;
步骤2.2.2.2所述密度自适应的中央差分卷积模块利用式(9)获得事件帧最终的特征响应f:
Figure FDA00036811245300000211
式(9)中,w为中央差分卷积模块中的卷积核;G为平衡参数,且G∈[0,1];
步骤2.2.2.4所述全连接层对所述特征响应f进行处理,并输出类别预测概率c∈RT,T为类别数,并取c中最大值所对应类别为模型的预测类别;
步骤3构建损失函数;
步骤3.1构建噪声抑制子网络的自监督损失函数,包括:噪声抑制损失LN、增强损失LE和一致性损失LC
利用式(12)和式(13)构建所述噪声抑制损失LN
Figure FDA0003681124530000031
Figure FDA0003681124530000032
式(12)和式(13)中,p表示小于均值的像素点所形成的噪点的空间位置,P表示该空间位置的集合;
Figure FDA0003681124530000033
表示增强事件帧,Λ为空间位置p的空间邻域,p′n为邻域Λ中第n个像素点的空间位置相对p的偏移,Mean表示均值操作;
利用式(14)和式(15)构建所述增强损失LE
Figure FDA0003681124530000034
Figure FDA0003681124530000035
式(14)和式(15)中,A表示对增强事件帧
Figure FDA0003681124530000036
进行局部池化后的增强事件帧信息,AvgPool(·)为池化函数;
利用式(16)构建所述一致性损失LC
LC=(Mean(Sp)-Mean(Sn))2 (16)
式(16)中,Sp表示去噪增强掩码S的正极性通道,Sn表示去噪增强掩码S的负极性通道;
步骤3.1.4利用式(17)构建所述噪声抑制子网络的自监督损失函数L1
L1=LN1LE2LC (17)
式(17)中,λ1,λ2为平衡系数;
步骤3.2利用式(18)构建所述特征网络的交叉熵损失函数L2
Figure FDA0003681124530000037
式(18)中,ci代表第i类别的预测概率,qi为输入事件序列属于第i类别的真实概率,T为类别数;
步骤4模型训练:
利用梯度下降法对所述噪声抑制子网络络进行训练,并计算所述自监督损失函数L1,当训练迭代达到设定的次数或自监督损失小于阈值时,停止训练噪声抑制子网络,并固定训练后的噪声抑制子网络的参数,再对所述特征增强网络进行训练,同时计算交叉熵损失函数L2,当训练迭代达到设定的次数或交叉熵损失小于阈值时,停止训练,从而得到训练后的特征增强网络,并完成事件识别网络的训练,用于对任意光照强度下拍摄的事件进行分类识别。
CN202210637555.1A 2022-06-07 2022-06-07 一种基于事件相机的变光照动作识别方法 Active CN115035597B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210637555.1A CN115035597B (zh) 2022-06-07 2022-06-07 一种基于事件相机的变光照动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210637555.1A CN115035597B (zh) 2022-06-07 2022-06-07 一种基于事件相机的变光照动作识别方法

Publications (2)

Publication Number Publication Date
CN115035597A true CN115035597A (zh) 2022-09-09
CN115035597B CN115035597B (zh) 2024-04-02

Family

ID=83123063

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210637555.1A Active CN115035597B (zh) 2022-06-07 2022-06-07 一种基于事件相机的变光照动作识别方法

Country Status (1)

Country Link
CN (1) CN115035597B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115620001A (zh) * 2022-12-15 2023-01-17 长春理工大学 基于3d点云双边扩增算法的视觉辅助系统
CN116883648A (zh) * 2023-09-06 2023-10-13 南方电网数字电网研究院有限公司 一种异物检测方法、装置、电子设备及存储介质
CN116912798A (zh) * 2023-09-14 2023-10-20 南京航空航天大学 基于跨模态噪声感知的自动驾驶事件相机目标检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015147764A1 (en) * 2014-03-28 2015-10-01 Kisa Mustafa A method for vehicle recognition, measurement of relative speed and distance with a single camera
CN113673307A (zh) * 2021-07-05 2021-11-19 浙江工业大学 一种轻量型的视频动作识别方法
US20210390723A1 (en) * 2020-06-15 2021-12-16 Dalian University Of Technology Monocular unsupervised depth estimation method based on contextual attention mechanism

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015147764A1 (en) * 2014-03-28 2015-10-01 Kisa Mustafa A method for vehicle recognition, measurement of relative speed and distance with a single camera
US20210390723A1 (en) * 2020-06-15 2021-12-16 Dalian University Of Technology Monocular unsupervised depth estimation method based on contextual attention mechanism
CN113673307A (zh) * 2021-07-05 2021-11-19 浙江工业大学 一种轻量型的视频动作识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张强;李嘉锋;卓力;: "基于卷积神经网络的监控场景下车辆颜色识别", 测控技术, no. 10, 18 October 2017 (2017-10-18) *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115620001A (zh) * 2022-12-15 2023-01-17 长春理工大学 基于3d点云双边扩增算法的视觉辅助系统
CN116883648A (zh) * 2023-09-06 2023-10-13 南方电网数字电网研究院有限公司 一种异物检测方法、装置、电子设备及存储介质
CN116883648B (zh) * 2023-09-06 2024-02-13 南方电网数字电网研究院股份有限公司 一种异物检测方法、装置、电子设备及存储介质
CN116912798A (zh) * 2023-09-14 2023-10-20 南京航空航天大学 基于跨模态噪声感知的自动驾驶事件相机目标检测方法
CN116912798B (zh) * 2023-09-14 2023-12-19 南京航空航天大学 基于跨模态噪声感知的自动驾驶事件相机目标检测方法

Also Published As

Publication number Publication date
CN115035597B (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
CN115035597A (zh) 一种基于事件相机的变光照动作识别方法
CN112819772B (zh) 一种高精度快速图形检测识别方法
CN108564549B (zh) 一种基于多尺度稠密连接网络的图像去雾方法
CN107808161B (zh) 一种基于光视觉的水下目标识别方法
CN109685045B (zh) 一种运动目标视频跟踪方法及系统
CN111611874B (zh) 基于ResNet和Canny的人脸口罩佩戴检测方法
CN111401144A (zh) 一种基于视频监控的手扶电梯乘客行为识别方法
CN111242026B (zh) 一种基于空间层次感知模块和度量学习的遥感图像目标检测方法
CN108921003A (zh) 基于卷积神经网络和图像形态学的无人机障碍物检测方法
CN109919150A (zh) 一种3d压印字符无分割序列识别方法及系统
CN112348762A (zh) 一种基于多尺度融合生成对抗网络的单幅图像去雨方法
CN115829942A (zh) 基于非负性约束稀疏自编码器的电子电路缺陷检测方法
CN113673396B (zh) 一种孢子发芽率计算方法、装置及存储介质
CN112084922B (zh) 一种基于手势和面部表情的行为异常人群检测方法
CN117197682B (zh) 一种长波红外遥感影像进行盲元检测与去除的方法
CN110378271B (zh) 一种基于质量维度评估参量的步态识别设备筛选方法
CN110136164B (zh) 基于在线透射变换、低秩稀疏矩阵分解去除动态背景的方法
CN116385293A (zh) 基于卷积神经网络的雾天自适应目标检测方法
CN111080560B (zh) 一种图像的处理与识别方法
CN113657539A (zh) 基于两阶段检测网络的显示面板微缺陷检测方法
CN113496159A (zh) 一种多尺度卷积与动态权重代价函数的烟尘目标分割方法
CN116704268B (zh) 面向动态变化复杂场景的强鲁棒目标检测方法
CN117011196B (zh) 一种基于组合滤波优化的红外小目标检测方法及系统
CN117392440B (zh) 一种基于组织结构及颜色分类的纺织面料检索方法和系统
Zhang Non-local clustering via sparse prior for sports image denoising

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant