CN116188930A - 一种基于融合事件相机的场景识别方法及系统 - Google Patents

一种基于融合事件相机的场景识别方法及系统 Download PDF

Info

Publication number
CN116188930A
CN116188930A CN202310131651.3A CN202310131651A CN116188930A CN 116188930 A CN116188930 A CN 116188930A CN 202310131651 A CN202310131651 A CN 202310131651A CN 116188930 A CN116188930 A CN 116188930A
Authority
CN
China
Prior art keywords
image
event
fusion
preset
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310131651.3A
Other languages
English (en)
Inventor
余磊
刘熠晨
姜晨旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202310131651.3A priority Critical patent/CN116188930A/zh
Publication of CN116188930A publication Critical patent/CN116188930A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Studio Devices (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于融合事件相机的场景识别方法及系统,属于图像处理技术领域,包括:获取预设高速高动态图像和预设高速高动态事件流,对预设高速高动态图像进行预处理得到预处理后事件流,将预处理后事件流与预设高速高动态图像融合得到融合特征;获取预设参考图像,提取预设参考图像中的参考图像特征;将融合特征与参考图像特征进行检索匹配,得到参考图像识别结果。本发明通过提出融合事件相机的视觉场景识别框架,能够利用事件流的低时延与高动态的性质隐式增强图像质量,并完成场景识别,解决了传统场景识别方法在高速高动态场景识别性能不佳的问题。

Description

一种基于融合事件相机的场景识别方法及系统
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于融合事件相机的场景识别方法及系统。
背景技术
在传统的场景识别中,相机都是以固定的帧率捕获图像,图像帧中所有像素同时曝光,记录场景的绝对亮度信息,能直接反映丰富的场景信息。而由于硬件的限制,传统相机的帧率往往比较低,动态范围也往往比较小,因此当物体运动速度较快时,容易产生运动模糊,当场景亮度超出相机感光芯片记录范围时,光学相机输出图像会出现曝光不足与过度曝光等退化现象,从而损失大量的信息,影响了基于图像的视觉场景识别算法的进行。
事件相机的出现给计算机视觉领域带来新的选择,事件相机是基于受生物启发的传感器,具有很高的动态范围(约130dB),并且能以极低的延迟(1μs)产生异步事件,记录场景中亮度变化的坐标位置、时间及变化极性,因此事件相机几乎不会受到运动模糊与场景亮度范围的影响,对于视觉场景识别任务具有很大的优势和吸引力。然而,现有基于事件相机的视觉场景识别方法都仅利用事件与事件进行同模态匹配或仅利用事件与参考图像数据库进行跨模态匹配。而事件具有极低的信噪比,且仅包含稀疏的边缘特征,限制了基于事件相机的视觉场景识别方法的场景识别性能。此外,目前暂未有同时利用光学相机与事件相机进行视觉场景识别的方法。
因此,需要针对采用事件相机的场景识别提出一种新的方法,以克服上述缺陷。
发明内容
本发明提供一种基于融合事件相机的场景识别方法及系统,用以解决现有技术中存在的缺陷。
第一方面,本发明提供一种基于融合事件相机的场景识别方法,包括:
获取预设高速高动态图像和预设高速高动态事件流,对所述预设高速高动态图像进行预处理得到预处理后事件流,将所述预处理后事件流与所述预设高速高动态图像融合得到融合特征;
获取预设参考图像,提取所述预设参考图像中的参考图像特征;
将所述融合特征与所述参考图像特征进行检索匹配,得到参考图像识别结果。
根据本发明提供的一种基于融合事件相机的场景识别方法,所述获取预设高速高动态图像和预设高速高动态事件流,包括:
采集参考图像序列和参考图像序列对应事件流,所述参考图像序列包括任一帧预设清晰曝光图像,所述参考图像序列对应事件流包括所述任一帧预设清晰曝光图像的曝光区间内事件流;
将所述参考图像序列中的连续多帧参考图像进行求和平均得到模糊图像序列;
基于所述连续多帧参考图像对所述参考图像序列对应事件流取并集,得到所述预设高速高动态事件流;
确定光度线性变换参数和光度线性变换区间,基于所述光度线性变换参数、所述光度线性变换区间和所述模糊图像序列,得到所述预设高速高动态图像。
根据本发明提供的一种基于融合事件相机的场景识别方法,所述对所述预设高速高动态图像进行预处理得到预处理后事件流,包括:
确定所述预设高速高动态图像中任一帧图像对应的曝光区间内事件流,确定所述曝光区间内事件流的曝光时间间隔;
获取所述曝光时间间隔的曝光事件数量,基于所述曝光事件数量得到曝光事件四元组,所述曝光事件四元组包括任一曝光事件时间戳、任一曝光事件横坐标、任一曝光事件纵坐标和任一曝光事件极性标识;
确定以所述预设高速高动态图像的宽度、高度和曝光时长等分份数构建的全零矩阵,基于所述曝光事件四元组填充所述全零矩阵,得到所述预处理后事件流。
根据本发明提供的一种基于融合事件相机的场景识别方法,所述将所述预处理后事件流与所述预设高速高动态图像融合得到融合特征,包括:
确定融合特征提取网络,将所述预设高速高动态图像依次输入Conv层和DConv层生成第一图像张量特征,将所述预处理后事件流依次输入Conv层和DConv层生成第一事件张量特征,将所述第一图像张量特征和所述第一事件张量特征连接后输入ResBlock层得到第一融合特征;
将第一尺度对应的第一图像张量特征输入DConv层生成第二图像张量特征,将所述第一尺度对应的第一事件张量特征输入DConv层生成第二事件张量特征,将所述第一尺度对应的第一融合特征输入DConv层生成第二融合特征,将所述第二图像张量特征、所述第二事件张量特征和所述第二融合特征连接后输入ResBlock层得到第三融合特征;
将第二尺度对应的所述第二图像张量特征、所述第二事件张量特征和所述第三融合特征连接后输入ResBlock层得到初始多尺度融合特征;
将所述初始多尺度融合特征通过CBAM层进行筛选,得到所述融合特征;
其中,所述Conv层包括步长为1的单层卷积层,所述DConv层包括步长为2的下采样卷积层与步长为1的卷积层的组合,所述ResBlock层包括残差连接层,所有卷积层的卷积核大小为3×3,所述所有卷积层与激活函数ReLU相连接。
根据本发明提供的一种基于融合事件相机的场景识别方法,所述获取预设参考图像,提取所述预设参考图像中的参考图像特征,包括:
确定图像特征提取网络,将所述预设参考图像依次输入Conv层、3个DConv层和ResBlock层,得到所述参考图像特征;
其中,所述Conv层包括步长为1的单层卷积层,所述DConv层包括步长为2的下采样卷积层与步长为1的卷积层的组合,所述ResBlock层包括残差连接层,所有卷积层的卷积核大小为3×3,所述所有卷积层与激活函数ReLU相连接。
根据本发明提供的一种基于融合事件相机的场景识别方法,所述获取预设参考图像,提取所述预设参考图像中的参考图像特征之后,还包括:
构建查询图像、正例图像与负例图像的训练三元组,所述查询图像包括所述预设高速高动态图像和所述预处理后事件流,所述正例图像包括与所述查询图像朝向相同且在预设查询距离范围内的图像,所述负例图像包括与所述查询图像朝向不同且在预设查询距离范围外的图像;
由所述训练三元组、向量间距离函数和相似度距离常数,构建最大值损失函数;
基于所述最大值损失函数,采用预设优化算法确定融合特征提取网络和图像特征提取网络的自适应性学习率,并采用所述训练三元组更新神经网络卷积层参数,得到优化融合特征提取网络和优化图像特征提取网络;
其中,所述优化融合特征提取网络和所述优化图像特征提取网络中的每层卷积层优化参数均不同。
第二方面,本发明还提供一种基于融合事件相机的场景识别系统,包括:
第一处理模块,用于获取预设高速高动态图像和预设高速高动态事件流,对所述预设高速高动态图像进行预处理得到预处理后事件流,将所述预处理后事件流与所述预设高速高动态图像融合得到融合特征;
第二处理模块,用于获取预设参考图像,提取所述预设参考图像中的参考图像特征;
识别模块,用于将所述融合特征与所述参考图像特征进行检索匹配,得到参考图像识别结果。
第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于融合事件相机的场景识别方法。
第四方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于融合事件相机的场景识别方法。
第五方面,本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于融合事件相机的场景识别方法。
本发明提供的基于融合事件相机的场景识别方法及系统,通过提出融合事件相机的视觉场景识别框架,能够利用事件流的低时延与高动态的性质隐式增强图像质量,并完成场景识别,解决了传统场景识别方法在高速高动态场景识别性能不佳的问题。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于融合事件相机的场景识别方法的流程示意图之一;
图2是本发明提供的基于融合事件相机的场景识别方法的流程示意图之二;
图3是本发明提供的图像特征提取网络与融合特征提取网络的结构图;
图4是本发明提供的场景识别结果参考图;
图5是本发明提供的基于融合事件相机的场景识别系统的结构示意图;
图6是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的基于融合事件相机的场景识别方法的流程示意图之一,如图1所示,包括:
步骤100:获取预设高速高动态图像和预设高速高动态事件流,对所述预设高速高动态图像进行预处理得到预处理后事件流,将所述预处理后事件流与所述预设高速高动态图像融合得到融合特征;
步骤200:获取预设参考图像,提取所述预设参考图像中的参考图像特征;
步骤300:将所述融合特征与所述参考图像特征进行检索匹配,得到参考图像识别结果。
本发明通过拍摄的曝光良好且清晰的参考图像集合及其曝光区间内的事件流生成高速高动态场景下的图像集合及其曝光区间内的事件流;构建图像特征提取网络与融合特征提取网络,并分别用于生成曝光良好且清晰的参考图像的图像特征,以及高速高动态场景下的图像集合及其曝光区间内的事件流的融合特征;构建查询、正例与负例三元组,利用三元组损失监督图像特征提取网络与融合特征提取网络的训练,进一步寻优得到优化后的图像特征提取网络。
对照图2所示的流程,由融合特征提取模块将高速高动态场景下的图像和经过事件预处理模块处理后的高速高动态场景下的图像曝光区间内的事件进行融合,得到融合特征;由图像特征提取模块提取参考图像数据库中的参考图像及其特征数据库;再将融合特征与参考图像及其特征数据库进行检索与匹配,得到参考图像。
具体地,首先,在场景亮度情况良好且运动速度有限的场景下,利用光学相机与事件相机同时捕获视场相同的参考图像序列及其对应的事件流。然后,将连续的多帧参考图像进行求和平均得到模糊图像,该图像对应的事件流是用于平均求和的多帧图像的曝光区间的并集。最后,将图像进行动态范围变化与裁剪得到高速高动态场景下的图像。
然后对事件流进行预处理,将高速高动态场景下的图像的曝光区间内的事件转换为一个多通道的图像形式,从而得到预处理后事件流;分别构建图像特征提取网络,用于生成速度有限且曝光良好的场景下的参考图像特征;以及构建融合特征提取网络,用于生成高速高动态场景下的图像及其事件的融合特征。
进一步地,构建查询、正例与负例训练三元组,查询是高速高动态场景下的图像及其曝光时间区间内的预处理后的事件流,正例是与查询图像视场相似的图像,负例是与查询图像场景不同的图像。数据集构造的所有三元组用于网络的训练,并通过三元组损失进行监督,从而进一步得到优化后图像特征提取网络和融合特征提取网络。
最后,通过光学相机和事件相机捕获高速高动态场景下视场对齐的图像和事件流,对事件流进行预处理得到预处理后事件流,将高速高动态场景下的图像和事件流输入优化后的融合特征提取网络,得到融合特征;并将参考图像数据库输入优化后的图像特征提取网络得到参考图像特征数据库,最终基于融合特征与图像特征的特征向量相似度进行比较,从参考图像数据库中检索得到与输入高速高动态图像视场最为接近的参考图像。
本发明通过提出融合事件相机的视觉场景识别框架,能够利用事件流的低时延与高动态的性质隐式增强图像质量,并完成场景识别,解决了传统场景识别方法在高速高动态场景识别性能不佳的问题。
基于上述实施例,步骤100中的获取预设高速高动态图像和预设高速高动态事件流,包括:
采集参考图像序列和参考图像序列对应事件流,所述参考图像序列包括任一帧预设清晰曝光图像,所述参考图像序列对应事件流包括所述任一帧预设清晰曝光图像的曝光区间内事件流;
将所述参考图像序列中的连续多帧参考图像进行求和平均得到模糊图像序列;
基于所述连续多帧参考图像对所述参考图像序列对应事件流取并集,得到所述预设高速高动态事件流;
确定光度线性变换参数和光度线性变换区间,基于所述光度线性变换参数、所述光度线性变换区间和所述模糊图像序列,得到所述预设高速高动态图像。
具体地,本实施例中选择DAVIS346事件相机在速度有限且曝光良好的场景拍摄视场对齐的灰度图像与事件流。拍摄的灰度图像与事件流的分辨率均为346×260,然后将7张曝光良好且清晰的参考图像进行求和平均处理,生成模糊图像,且7张图像的首帧图像时间到尾帧图像时间为该仿真模糊图像的曝光时间段。最后,对模糊图像进行动态范围变化与裁剪,得到高速高动态场景下的图像,并且将该图像曝光时间段内的事件集合作为与之对应的事件流,得到高速高动态场景下的事件流。将拍摄与生成的数据集分为训练集和测试集,其中训练集共有28800张参考图像及其生成的高速高动态场景下的图像与其曝光区间内的事件流。
将参考图像序列与其对应的事件流设为:
I[f],f∈{1,2,…,L}
E[f],f∈{1,2,…,L}
其中,I[f]表示参考图像序列的第f帧曝光良好的清晰图像,L为图像序列中的图像的数量,E[f]表示第f帧参考图像曝光区间内的事件流。
模糊图像序列为:
Figure BDA0004084294650000081
其中,
Figure BDA0004084294650000082
是由多帧参考图像生成的第f帧模糊图像。方法使用第f帧参考图像及其前后M张图像(共2M+1张图像)加权平均得到第f帧模糊图像,本实施例中M=3。
模糊图像序列对应的事件流为:
Figure BDA0004084294650000083
其中,ε[f]是第f帧模糊图像对应的事件流,是2M+1帧连续图像的曝光区间内的事件流的并集,M的定义与前述一致。
高速高动态场景下的图像序列为:
Figure BDA0004084294650000084
其中,
Figure BDA0004084294650000085
是前述生成的模糊图像序列中的第f张模糊图像,α是光度线性变换参数,其与模糊图像相乘实现线性光度变化,fclip函数将线性光度变换的结果限制在区间[Ll,Lh]中并对光度值取整,B[f]是高速高动态图像序列的第f帧高速高动态场景下的图像,本实施例中低光强和高光强情况下α的值分别为0.25和4,Ll=10,Lh=255。
基于上述实施例,步骤100中的对所述预设高速高动态图像进行预处理得到预处理后事件流,包括:
确定所述预设高速高动态图像中任一帧图像对应的曝光区间内事件流,确定所述曝光区间内事件流的曝光时间间隔;
获取所述曝光时间间隔的曝光事件数量,基于所述曝光事件数量得到曝光事件四元组,所述曝光事件四元组包括任一曝光事件时间戳、任一曝光事件横坐标、任一曝光事件纵坐标和任一曝光事件极性标识;
确定以所述预设高速高动态图像的宽度、高度和曝光时长等分份数构建的全零矩阵,基于所述曝光事件四元组填充所述全零矩阵,得到所述预处理后事件流。
具体地,本实施例中对事件流进行预处理,将高速高动态场景下的图像的曝光区间内的事件转换为一个多通道,例如96通道的图像形式,从而得到预处理后事件流。
对于高速高动态场景下的图像序列的第f帧图像,其对应曝光区间[tf,tf+T]内的事件流,其中tf为高速高动态场景下图像B[f]的时间戳,T为曝光时间长度。
对于曝光时间间隔的所有事件(tw,uw,vw,pw),w=1,2,3,...,num,num为曝光时间间隔内所有事件的数量,其中tw为曝光时间间隔内第w个事件的时间戳,(uw,vw)为曝光时间间隔内第w个事件的坐标,pw为曝光时间间隔内第w个事件的极性,且pw={0,1}。
定义一个大小为2C×Width×Height的全零矩阵,其中Width高速高动态场景下的图像B[f]的宽,Height为高速高动态场景下的图像B[f]的高。将曝光时间长度T分为C份,若事件的时间区间落在第n个区间,且事件极性为pw,则在矩阵的(2n+pw,uw,vw)的位置处增加1,依次类推。在本实施例中,C=48,Width=346,Height=260。
基于上述实施例,步骤200包括:
确定图像特征提取网络,将所述预设参考图像依次输入Conv层、3个DConv层和ResBlock层,得到所述参考图像特征;
其中,所述Conv层包括步长为1的单层卷积层,所述DConv层包括步长为2的下采样卷积层与步长为1的卷积层的组合,所述ResBlock层包括残差连接层,所有卷积层的卷积核大小为3×3,所述所有卷积层与激活函数ReLU相连接。
具体地,如图3所示,构建图像特征提取网络,用于曝光良好且清晰的参考图像特征提取的图像特征提取网络IFE。其输入为参考图像I。
其输入层为Conv层,为一个卷积层与一个激活层的组合,通过该层可得到卷积后的参考图像,此处的卷积层待寻优参数变量为卷积核参数F0;
然后,通过3层DConv层,DConv层是步长为2的下采样卷积层与步长为1的卷积层的组合,其中卷积层后都与一激活层相连,此处的若干卷积层待寻优参数变量为卷积核参数F1;
最后,通过ResBlock层得到参考图像的特征FI,其中ResBlock层包含一个跳跃连接的卷积层和激活层,所述卷积层待寻优参数变量为卷积核参数F2。
基于上述实施例,步骤100中的将所述预处理后事件流与所述预设高速高动态图像融合得到融合特征,包括:
确定融合特征提取网络,将所述预设高速高动态图像依次输入Conv层和DConv层生成第一图像张量特征,将所述预处理后事件流依次输入Conv层和DConv层生成第一事件张量特征,将所述第一图像张量特征和所述第一事件张量特征连接后输入ResBlock层得到第一融合特征;
将第一尺度对应的第一图像张量特征输入DConv层生成第二图像张量特征,将所述第一尺度对应的第一事件张量特征输入DConv层生成第二事件张量特征,将所述第一尺度对应的第一融合特征输入DConv层生成第二融合特征,将所述第二图像张量特征、所述第二事件张量特征和所述第二融合特征连接后输入ResBlock层得到第三融合特征;
将第二尺度对应的所述第二图像张量特征、所述第二事件张量特征和所述第三融合特征连接后输入ResBlock层得到初始多尺度融合特征;
将所述初始多尺度融合特征通过CBAM层进行筛选,得到所述融合特征;
其中,所述Conv层包括步长为1的单层卷积层,所述DConv层包括步长为2的下采样卷积层与步长为1的卷积层的组合,所述ResBlock层包括残差连接层,所有卷积层的卷积核大小为3×3,所述所有卷积层与激活函数ReLU相连接。
具体地,如图3所示,构建融合特征提取网络,用于高速高动态场景下的图像与及其对应的预处理后的事件流的融合特征提取的融合特征提取网络。其输入为高速高动态场景下的图像B与及其对应的预处理后的事件流Tε
首先是预融合Pre-Fusion步骤:将高速高动态场景下的图像B与及其对应的预处理后的事件流Tε输入Conv层和DConv层,生成图像与事件张量特征FB0和Fε0,并将特征连接后通过残差连接模块生成最初尺度下的融合特征FF0,此处的若干卷积层待寻优参数变量为卷积核参数F3;
然后是2次融合Fusion步骤:将第n(n∈{0,1})个尺度下的图像特征FBn、事件张量特征Fεn及融合特征FFn,通过DConv层生成第n+1个尺度下图像特征FB(n+1)及事件张量特征Fε(n+1),然后将融合特征FFn通过DConv层后与上述特征一并连接,并通过ResBlock子模块生成第n+1个尺度下的融合特征FF(n+1),此处的若干卷积层待寻优参数变量为卷积核参数F4;
最后是最后融合Final-Fusion步骤:输入第N(N=2)个尺度下的图像特征FBN、事件张量特征FεN及融合特征FFN,首先将上述特征连接后通过ResBlock层得到初始多尺度融合特征FP0;然后通过CBAM层筛选特征图位置与通道两个层面上的有效信息,得到融合Fp,此处的若干卷积层待寻优参数变量为卷积核参数F5;
其中Conv是步长为1的单层卷积层,DConv是步长为2的下采样卷积层与步长为1的卷积层的组合,ResBlock是含残差连接的卷积层。所述所有的卷积层的卷积核大小为3×3,其后连接的激活函数为ReLU。
基于上述实施例,步骤200之后还包括:
构建查询图像、正例图像与负例图像的训练三元组,所述查询图像包括所述预设高速高动态图像和所述预处理后事件流,所述正例图像包括与所述查询图像朝向相同且在预设查询距离范围内的图像,所述负例图像包括与所述查询图像朝向不同且在预设查询距离范围外的图像;
由所述训练三元组、向量间距离函数和相似度距离常数,构建最大值损失函数;
基于所述最大值损失函数,采用预设优化算法确定融合特征提取网络和图像特征提取网络的自适应性学习率,并采用所述训练三元组更新神经网络卷积层参数,得到优化融合特征提取网络和优化图像特征提取网络;
其中,所述优化融合特征提取网络和所述优化图像特征提取网络中的每层卷积层优化参数均不同。
可选地,本发明还通过构建查询、正例与负例训练三元组进行网络训练和参数调整,其中查询是高速高动态场景下的图像及其曝光时间区间内的预处理后的事件流,正例是与查询图像视场相似的图像,负例是与查询图像场景不同的图像。数据集构造的所有三元组用于网络的训练,并通过三元组损失进行监督,从而进一步得到优化后图像特征提取网络和融合特征提取网络。
需要说明的是,训练三元组的构造为:
查询是高速高动态场景下的图像B及其曝光时间区间内的预处理后的事件流Tε,正例Ip是与查询图像视场相似的参考图像,负例In是与查询图像B场景不同的参考图像。其中,正例和负例根据图像拍摄的地点与朝向进行选择,选择的正例与查询距离近且朝向相同,选择的负例与查询距离远且朝向不同。本实施例中正例的要求为与查询的地点几何距离在1m以内且朝向相同,负例的要求为与查询的地点几何距离在25m以外且朝向不同。
对应的三元组损失为:
Figure BDA0004084294650000121
其中,L为损失函数,Fp是查询的融合特征提取网络得到的融合特征,
Figure BDA0004084294650000122
分别是正例与负例通过图像特征提取网络得到的图像特征,max(·)取两输入中的较大值,d(·)求输入两向量间的L2距离,M是相似度距离常数。
本发明中采用的寻优算法为Adam优化算法,通过计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应性学习率,基于训练数据迭代地更新神经网络卷积层参数。得到优化后图像特征提取网络为根据优化后每层卷积层优化参数构建的图像特征提取网络,优化后融合特征提取网络为根据优化后每层卷积层优化参数构建的融合特征提取网络。
通过光学相机和事件相机捕获高速高动态场景下视场对齐的图像和事件流,对事件流通过进行预处理得到预处理后事件流,将高速高动态场景下的图像和事件流输入优化后的融合特征提取网络,得到融合特征;并将参考图像数据库输入优化后的图像特征提取网络得到参考图像特征数据库,最终基于融合特征与图像特征的特征向量相似度进行比较,从参考图像数据库中检索得到与输入高速高动态图像视场最为接近的参考图像。参考图4所示的场景识别实例,展示了多组包含高速高动态场景下图像B、事件流ε、参考图像序列I和识别结果Im,可以看出,本发明提出的基于融合事件相机的场景识别方法具有很强的鲁棒性。
下面对本发明提供的基于融合事件相机的场景识别系统进行描述,下文描述的基于融合事件相机的场景识别系统与上文描述的基于融合事件相机的场景识别方法可相互对应参照。
图5是本发明实施例提供的基于融合事件相机的场景识别系统的结构示意图,如图5所示,包括:第一处理模块51、第二处理模块52和识别模块53,其中:
第一处理模块51用于获取预设高速高动态图像和预设高速高动态事件流,对所述预设高速高动态图像进行预处理得到预处理后事件流,将所述预处理后事件流与所述预设高速高动态图像融合得到融合特征;第二处理模块52用于获取预设参考图像,提取所述预设参考图像中的参考图像特征;识别模块53用于将所述融合特征与所述参考图像特征进行检索匹配,得到参考图像识别结果。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行基于融合事件相机的场景识别方法,该方法包括:获取预设高速高动态图像和预设高速高动态事件流,对所述预设高速高动态图像进行预处理得到预处理后事件流,将所述预处理后事件流与所述预设高速高动态图像融合得到融合特征;获取预设参考图像,提取所述预设参考图像中的参考图像特征;将所述融合特征与所述参考图像特征进行检索匹配,得到参考图像识别结果。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的基于融合事件相机的场景识别方法,该方法包括:获取预设高速高动态图像和预设高速高动态事件流,对所述预设高速高动态图像进行预处理得到预处理后事件流,将所述预处理后事件流与所述预设高速高动态图像融合得到融合特征;获取预设参考图像,提取所述预设参考图像中的参考图像特征;将所述融合特征与所述参考图像特征进行检索匹配,得到参考图像识别结果。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于融合事件相机的场景识别方法,该方法包括:获取预设高速高动态图像和预设高速高动态事件流,对所述预设高速高动态图像进行预处理得到预处理后事件流,将所述预处理后事件流与所述预设高速高动态图像融合得到融合特征;获取预设参考图像,提取所述预设参考图像中的参考图像特征;将所述融合特征与所述参考图像特征进行检索匹配,得到参考图像识别结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于融合事件相机的场景识别方法,其特征在于,包括:
获取预设高速高动态图像和预设高速高动态事件流,对所述预设高速高动态图像进行预处理得到预处理后事件流,将所述预处理后事件流与所述预设高速高动态图像融合得到融合特征;
获取预设参考图像,提取所述预设参考图像中的参考图像特征;
将所述融合特征与所述参考图像特征进行检索匹配,得到参考图像识别结果。
2.根据权利要求1所述的基于融合事件相机的场景识别方法,其特征在于,所述获取预设高速高动态图像和预设高速高动态事件流,包括:
采集参考图像序列和参考图像序列对应事件流,所述参考图像序列包括任一帧预设清晰曝光图像,所述参考图像序列对应事件流包括所述任一帧预设清晰曝光图像的曝光区间内事件流;
将所述参考图像序列中的连续多帧参考图像进行求和平均得到模糊图像序列;
基于所述连续多帧参考图像对所述参考图像序列对应事件流取并集,得到所述预设高速高动态事件流;
确定光度线性变换参数和光度线性变换区间,基于所述光度线性变换参数、所述光度线性变换区间和所述模糊图像序列,得到所述预设高速高动态图像。
3.根据权利要求1所述的基于融合事件相机的场景识别方法,其特征在于,所述对所述预设高速高动态图像进行预处理得到预处理后事件流,包括:
确定所述预设高速高动态图像中任一帧图像对应的曝光区间内事件流,确定所述曝光区间内事件流的曝光时间间隔;
获取所述曝光时间间隔的曝光事件数量,基于所述曝光事件数量得到曝光事件四元组,所述曝光事件四元组包括任一曝光事件时间戳、任一曝光事件横坐标、任一曝光事件纵坐标和任一曝光事件极性标识;
确定以所述预设高速高动态图像的宽度、高度和曝光时长等分份数构建的全零矩阵,基于所述曝光事件四元组填充所述全零矩阵,得到所述预处理后事件流。
4.根据权利要求1所述的基于融合事件相机的场景识别方法,其特征在于,所述将所述预处理后事件流与所述预设高速高动态图像融合得到融合特征,包括:
确定融合特征提取网络,将所述预设高速高动态图像依次输入Conv层和DConv层生成第一图像张量特征,将所述预处理后事件流依次输入Conv层和DConv层生成第一事件张量特征,将所述第一图像张量特征和所述第一事件张量特征连接后输入ResBlock层得到第一融合特征;
将第一尺度对应的第一图像张量特征输入DConv层生成第二图像张量特征,将所述第一尺度对应的第一事件张量特征输入DConv层生成第二事件张量特征,将所述第一尺度对应的第一融合特征输入DConv层生成第二融合特征,将所述第二图像张量特征、所述第二事件张量特征和所述第二融合特征连接后输入ResBlock层得到第三融合特征;
将第二尺度对应的所述第二图像张量特征、所述第二事件张量特征和所述第三融合特征连接后输入ResBlock层得到初始多尺度融合特征;
将所述初始多尺度融合特征通过CBAM层进行筛选,得到所述融合特征;
其中,所述Conv层包括步长为1的单层卷积层,所述DConv层包括步长为2的下采样卷积层与步长为1的卷积层的组合,所述ResBlock层包括残差连接层,所有卷积层的卷积核大小为3×3,所述所有卷积层与激活函数ReLU相连接。
5.根据权利要求1所述的基于融合事件相机的场景识别方法,其特征在于,所述获取预设参考图像,提取所述预设参考图像中的参考图像特征,包括:
确定图像特征提取网络,将所述预设参考图像依次输入Conv层、3个DConv层和ResBlock层,得到所述参考图像特征;
其中,所述Conv层包括步长为1的单层卷积层,所述DConv层包括步长为2的下采样卷积层与步长为1的卷积层的组合,所述ResBlock层包括残差连接层,所有卷积层的卷积核大小为3×3,所述所有卷积层与激活函数ReLU相连接。
6.根据权利要求1所述的基于融合事件相机的场景识别方法,其特征在于,所述获取预设参考图像,提取所述预设参考图像中的参考图像特征之后,还包括:
构建查询图像、正例图像与负例图像的训练三元组,所述查询图像包括所述预设高速高动态图像和所述预处理后事件流,所述正例图像包括与所述查询图像朝向相同且在预设查询距离范围内的图像,所述负例图像包括与所述查询图像朝向不同且在预设查询距离范围外的图像;
由所述训练三元组、向量间距离函数和相似度距离常数,构建最大值损失函数;
基于所述最大值损失函数,采用预设优化算法确定融合特征提取网络和图像特征提取网络的自适应性学习率,并采用所述训练三元组更新神经网络卷积层参数,得到优化融合特征提取网络和优化图像特征提取网络;
其中,所述优化融合特征提取网络和所述优化图像特征提取网络中的每层卷积层优化参数均不同。
7.一种基于融合事件相机的场景识别系统,其特征在于,包括:
第一处理模块,用于获取预设高速高动态图像和预设高速高动态事件流,对所述预设高速高动态图像进行预处理得到预处理后事件流,将所述预处理后事件流与所述预设高速高动态图像融合得到融合特征;
第二处理模块,用于获取预设参考图像,提取所述预设参考图像中的参考图像特征;
识别模块,用于将所述融合特征与所述参考图像特征进行检索匹配,得到参考图像识别结果。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述基于融合事件相机的场景识别方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于融合事件相机的场景识别方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于融合事件相机的场景识别方法。
CN202310131651.3A 2023-02-15 2023-02-15 一种基于融合事件相机的场景识别方法及系统 Pending CN116188930A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310131651.3A CN116188930A (zh) 2023-02-15 2023-02-15 一种基于融合事件相机的场景识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310131651.3A CN116188930A (zh) 2023-02-15 2023-02-15 一种基于融合事件相机的场景识别方法及系统

Publications (1)

Publication Number Publication Date
CN116188930A true CN116188930A (zh) 2023-05-30

Family

ID=86434129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310131651.3A Pending CN116188930A (zh) 2023-02-15 2023-02-15 一种基于融合事件相机的场景识别方法及系统

Country Status (1)

Country Link
CN (1) CN116188930A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117319806A (zh) * 2023-10-12 2023-12-29 北京大学 一种基于事件相机辅助的暗光视频增强方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117319806A (zh) * 2023-10-12 2023-12-29 北京大学 一种基于事件相机辅助的暗光视频增强方法及装置

Similar Documents

Publication Publication Date Title
Zhang et al. Deep image deblurring: A survey
CN111160297B (zh) 基于残差注意机制时空联合模型的行人重识别方法及装置
US11882357B2 (en) Image display method and device
Gampala et al. Deep learning based image processing approaches for image deblurring
US20230214976A1 (en) Image fusion method and apparatus and training method and apparatus for image fusion model
US11741581B2 (en) Training method for image processing model, image processing method, network device, and storage medium
CN111292264A (zh) 一种基于深度学习的图像高动态范围重建方法
CN111444744A (zh) 活体检测方法、装置以及存储介质
WO2019136591A1 (zh) 基于弱监督时空级联神经网络的显著目标检测方法及系统
CN111091503A (zh) 基于深度学习的图像去失焦模糊方法
CN113129236B (zh) 基于Retinex和卷积神经网络的单张低光照图像增强方法及系统
KR102674065B1 (ko) 인공지능 기반의 노이즈 제거에 따른 이미지 구축을 통한 불량 검출 시스템 및 방법
CN111833360B (zh) 一种图像处理方法、装置、设备以及计算机可读存储介质
CN116157805A (zh) 利用神经嵌入的相机图像或视频处理流水线
Zhang et al. Deep motion blur removal using noisy/blurry image pairs
CN114708615B (zh) 基于图像增强的低照度环境下人体检测方法、电子设备及储存介质
CN116188930A (zh) 一种基于融合事件相机的场景识别方法及系统
CN116977674A (zh) 图像匹配方法、相关设备、存储介质及程序产品
CN117593702B (zh) 远程监控方法、装置、设备及存储介质
Li A survey on image deblurring
CN110942097A (zh) 基于单像素探测器的免成像分类方法和系统
CN114881867A (zh) 一种基于深度学习的图像去噪方法
Xue Blind image deblurring: a review
CN115115552B (zh) 图像矫正模型训练及图像矫正方法、装置和计算机设备
CN114119428B (zh) 一种图像去模糊方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination