CN117011762A - 基于数据融合的遮挡环境高分辨率成像方法及装置 - Google Patents
基于数据融合的遮挡环境高分辨率成像方法及装置 Download PDFInfo
- Publication number
- CN117011762A CN117011762A CN202310826354.0A CN202310826354A CN117011762A CN 117011762 A CN117011762 A CN 117011762A CN 202310826354 A CN202310826354 A CN 202310826354A CN 117011762 A CN117011762 A CN 117011762A
- Authority
- CN
- China
- Prior art keywords
- occlusion
- event
- image
- event stream
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003384 imaging method Methods 0.000 title claims abstract description 110
- 230000004927 fusion Effects 0.000 title claims abstract description 33
- 238000013528 artificial neural network Methods 0.000 claims abstract description 30
- 238000000034 method Methods 0.000 claims abstract description 29
- 239000013598 vector Substances 0.000 claims abstract description 20
- 208000006440 Open Bite Diseases 0.000 claims abstract description 19
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 7
- 230000001960 triggered effect Effects 0.000 claims description 6
- 230000000007 visual effect Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 210000002569 neuron Anatomy 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000012528 membrane Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
Abstract
本申请涉及一种基于数据融合的遮挡环境高分辨率成像方法及装置,其中,方法包括:获取有遮挡的事件流数据和有遮挡的视频数据;将事件流数据按照时间均分为多段事件流;将多段事件流输入至预先构建的脉冲神经网络;将多个事件流数据特征向量和每段视频的第一张图像分别组合;拼接多个去遮挡成像结果,得到拼接结果,并利用预先构建的图像生成网络进行前向传播,得到高分辨率无遮挡图像。由此,解决了相关技术中,难以获取有效的场景信息,且一般的场景去遮挡成像方法仅能生成与输入图像及事件流的空间分辨率相同的无遮挡图像,受限于目前事件相机的低分辨率,对于场景进行有效的精准观测是不足的,无法生成高分辨率无遮挡图像等问题。
Description
技术领域
本申请涉及计算机视觉及神经形态计算技术领域,特别涉及一种基于数据融合的遮挡环境高分辨率成像方法及装置。
背景技术
事件相机是一种受生物启发的传感器,工作原理与传统的相机有很大的差别。与传统相机以固定帧率采集场景绝对光强不同,这种相机当且仅当场景光强变化时输出数据,这种输出的数据称为事件流。与传统相机相比,事件相机有着高动态范围、高时间分辨率、无动态模糊等优点。
相关技术中,传统相机以固定速率(即帧率)采集场景的光强值,并以固定速率输出为图片数据。
然而,相关技术中,传统相机及传统图像处理领域中适用的各种算法及方法,均无法直接使用于事件相机及事件数据。如图1所示,使用传统相机记录被遮挡的场景,很难获取有效的场景信息,一般的场景去遮挡成像方法仅能生成与输入图像及事件流的空间分辨率相同的无遮挡图像,受限于目前事件相机的低分辨率,对于场景进行有效的精准观测是不足的,即无法生成高分辨率无遮挡图像,亟待解决。
发明内容
本申请提供一种基于数据融合的遮挡环境高分辨率成像方法及装置,以解决相关技术中,难以获取有效的场景信息,且一般的场景去遮挡成像方法仅能生成与输入图像及事件流的空间分辨率相同的无遮挡图像,受限于目前事件相机的低分辨率,对于场景进行有效的精准观测是不足的,无法生成高分辨率无遮挡图像等问题。
本申请第一方面实施例提供一种基于数据融合的遮挡环境高分辨率成像方法,包括以下步骤:获取有遮挡的事件流数据和有遮挡的视频数据;将所述事件流数据按照时间均分为多段事件流,并将所述视频数据按照时间均分为多段视频,确定每段视频的第一张图像;将所述多段事件流输入至预先构建的脉冲神经网络,以进行前向传播,得到多个事件流数据特征向量;将所述多个事件流数据特征向量和所述每段视频的第一张图像分别组合,并利用预先构建的去遮挡成像网络进行前向传播,得到多个去遮挡成像结果;拼接所述多个去遮挡成像结果,得到拼接结果,并利用预先构建的图像生成网络进行前向传播,得到高分辨率无遮挡图像。
可选地,在本申请的一个实施例中,所述多段事件流包括第一至第三事件流,计算公式为:
其中,(xi,yi)为每个事件的像素点坐标,ti为该事件触发的时间戳,pi为该事件的极性,T为数据获取单元所获取的完整事件流ε的持续时间长度。
可选地,在本申请的一个实施例中,所述多段视频包括第一至第三视频,其中,所述第一至第三视频的第一张图像分别为所述视频数据位于时刻的图像,其中,T为所述事件流的持续时间长度。
可选地,在本申请的一个实施例中,所述脉冲神经网络包含输入卷积层、隐藏卷积层和输出卷积层,其中,输入卷积层的输入通道数为2,对应事件流的正极性事件和负极性事件,所述输入卷积层的卷积核的尺寸为3×3、步长为1、输出通道数为16;隐藏卷积层的输入通道数为16,所述隐藏卷积层的卷积核的尺寸为3×3、步长为1、输出通道数为16;输出卷积层的输入通道数为16,所述输出卷积层的卷积核的尺寸为3×3、步长为1、输出通道数为32。
可选地,在本申请的一个实施例中,所述去遮挡成像网络使用U-Net结构,所述去遮挡成像网络的输入层的输入通道数为32+k;所述去遮挡成像网络的输出层的输出通道数为所述视频数据的图像帧的通道数。
可选地,在本申请的一个实施例中,所述图像生成网络包含一个上采样层和一个U-Net网络,所述上采样层使用双线性插值的方法将输入图像的空间分辨率放大为2倍,所述U-Net网络的输入层的输入通道数为3×k,所述U-Net网络的输出层的输出通道数为k,其中,k为所述视频数据的图像帧的通道数。
本申请第二方面实施例提供一种基于数据融合的遮挡环境高分辨率成像装置,包括:第一获取模块,用于获取有遮挡的事件流数据和有遮挡的视频数据;确定模块,用于将所述事件流数据按照时间均分为多段事件流,并将所述视频数据按照时间均分为多段视频,确定每段视频的第一张图像;输入模块,用于将所述多段事件流输入至预先构建的脉冲神经网络,以进行前向传播,得到多个事件流数据特征向量;组合模块,用于将所述多个事件流数据特征向量和所述每段视频的第一张图像分别组合,并利用预先构建的去遮挡成像网络进行前向传播,得到多个去遮挡成像结果;第二获取模块,用于拼接所述多个去遮挡成像结果,得到拼接结果,并利用预先构建的图像生成网络进行前向传播,得到高分辨率无遮挡图像。
可选地,在本申请的一个实施例中,所述多段事件流包括第一至第三事件流,计算公式为:
其中,(xi,yi)为每个事件的像素点坐标,ti为该事件触发的时间戳,pi为该事件的极性,T为数据获取单元所获取的完整事件流ε的持续时间长度。
可选地,在本申请的一个实施例中,所述多段视频包括第一至第三视频,其中,所述第一至第三视频的第一张图像分别为所述视频数据位于时刻的图像,其中,T为所述事件流的持续时间长度。
可选地,在本申请的一个实施例中,所述脉冲神经网络包含输入卷积层、隐藏卷积层和输出卷积层,其中,输入卷积层的输入通道数为2,对应事件流的正极性事件和负极性事件,所述输入卷积层的卷积核的尺寸为3×3、步长为1、输出通道数为16;隐藏卷积层的输入通道数为16,所述隐藏卷积层的卷积核的尺寸为3×3、步长为1、输出通道数为16;输出卷积层的输入通道数为16,所述输出卷积层的卷积核的尺寸为3×3、步长为1、输出通道数为32。
可选地,在本申请的一个实施例中,所述去遮挡成像网络使用U-Net结构,所述去遮挡成像网络的输入层的输入通道数为32+k;所述去遮挡成像网络的输出层的输出通道数为所述视频数据的图像帧的通道数。
可选地,在本申请的一个实施例中,所述图像生成网络包含一个上采样层和一个U-Net网络,所述上采样层使用双线性插值的方法将输入图像的空间分辨率放大为2倍,所述U-Net网络的输入层的输入通道数为3×k,所述U-Net网络的输出层的输出通道数为k,其中,k为所述视频数据的图像帧的通道数。
本申请第三方面实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述实施例所述的基于数据融合的遮挡环境高分辨率成像方法。
本申请第四方面实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,该程序被处理器执行时实现如上的基于数据融合的遮挡环境高分辨率成像方法。
本申请实施例可以融合使用事件相机提供的事件流数据和视频数据,使用事件数据提供遮挡物后场景的完整视觉信息,使用视频数据提供场景纹理、颜色等视觉特征信息,实现有效的高分辨率成像,实现了分辨率提升,并使用脉冲神经网络对于事件流进行编码,更好地实现事件流数据去噪的效果。由此,解决了相关技术中,难以获取有效的场景信息,且一般的场景去遮挡成像方法仅能生成与输入图像及事件流的空间分辨率相同的无遮挡图像,受限于目前事件相机的低分辨率,对于场景进行有效的精准观测是不足的,无法生成高分辨率无遮挡图像等问题。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为相关技术中的遮挡场景下传统相机获取的2D成像结果图;
图2为根据本申请实施例提供的一种基于数据融合的遮挡环境高分辨率成像方法的流程图;
图3为相关技术中的一个时间长度为20秒的传统相机获得的视频数据和与之对应的事件相机获得的流数据示意图;
图4为根据本申请一个实施例的基于数据融合的遮挡环境高分辨率成像方法的从事件相机获取视频数据图;
图5为根据本申请一个实施例的基于数据融合的遮挡环境高分辨率成像方法的对应时刻图;
图6为根据本申请一个实施例的基于数据融合的遮挡环境高分辨率成像方法的使用去遮挡成像网络进行前向传播得到低分辨率去遮挡成像结果图;
图7为根据本申请一个实施例的基于数据融合的遮挡环境高分辨率成像方法的实现遮挡环境高分辨率成像的效果图;
图8为根据本申请一个实施例的基于数据融合的遮挡环境高分辨率成像方法的流程图;
图9为根据本申请实施例提供的一种基于数据融合的遮挡环境高分辨率成像装置的结构示意图;
图10为根据本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的基于数据融合的遮挡环境高分辨率成像方法及装置。针对上述背景技术中提到的相关技术中,难以获取有效的场景信息,且一般的场景去遮挡成像方法仅能生成与输入图像及事件流的空间分辨率相同的无遮挡图像,受限于目前事件相机的低分辨率,对于场景进行有效的精准观测是不足的,无法生成高分辨率无遮挡图像的问题,本申请提供了一种基于数据融合的遮挡环境高分辨率成像方法,在该方法中,可以融合使用事件相机提供的事件流数据和视频数据,使用事件数据提供遮挡物后场景的完整视觉信息,使用视频数据提供场景纹理、颜色等视觉特征信息,实现有效的高分辨率成像,实现了分辨率提升,并使用脉冲神经网络对于事件流进行编码,更好地实现事件流数据去噪的效果。由此,解决了相关技术中,难以获取有效的场景信息,且一般的场景去遮挡成像方法仅能生成与输入图像及事件流的空间分辨率相同的无遮挡图像,受限于目前事件相机的低分辨率,对于场景进行有效的精准观测是不足的,无法生成高分辨率无遮挡图像等问题。
具体而言,图2为本申请实施例所提供的一种基于数据融合的遮挡环境高分辨率成像方法的流程示意图。
如图2所示,该基于数据融合的遮挡环境高分辨率成像方法包括以下步骤:
在步骤S201中,获取有遮挡的事件流数据和有遮挡的视频数据。
可以理解的是,事件相机没有帧率的概念,其每个像素点异步工作,当检测到光强变化时输出一条事件,每条事件为一个四元组(x,y,t,p),包含像素横纵坐标(x,y)、时间戳t和事件极性p(其中,p=-1表示该像素点光强减小,p=1表示该像素点光强增大)。所有像素点输出的事件数据汇总起来,形成由一条条事件组成的事件列表,作为相机输出的事件流数据。一个长度为20秒传统相机获得的视频数据,和与之对应的事件相机输出的事件流数据的实例如表1结合图3所示,表1为事件相机获得的流数据表,其中,如表1所示:
表1
在实际执行过程中,本申请实施例可以获取有遮挡的事件流数据和有遮挡的视频数据,在存在遮挡的情况下,移动事件相机,从事件相机获取事件流数据ε,表2为事件相机获取事件流数据ε,其中,如表2所示:
表2
同时,本申请实施例可以从事件相机获取视频数据V,如图4所示,进而使用事件数据提供遮挡物后场景的完整视觉信息,使用视频数据提供场景纹理、颜色等视觉特征信息,实现有效的高分辨率成像。
在步骤S202中,将事件流数据按照时间均分为多段事件流,并将视频数据按照时间均分为多段视频,确定每段视频的第一张图像。
作为一种可能实现的方式,本申请实施例可以进行数据预处理,将事件流ε根据时间均分为3段,记为ε1,ε2,ε3,其中,如表3所示:
表3
本申请实施例可以将视频数据根据时间均分为3段,取出每段视频的第一帧图像V1,V2,V3,从而更好地实现有效的高分辨率成像。
可选地,在本申请的一个实施例中,多段事件流包括第一至第三事件流,计算公式为:
其中,(xi,yi)为每个事件的像素点坐标,ti为该事件触发的时间戳,pi为该事件的极性,T为数据获取单元所获取的完整事件流ε的持续时间长度。
在实际执行过程中,本申请实施例可以通过计算公式,
得到第一至第三事件流等多段事件流,提高遮挡环境高分辨率成像的精准度,其中,pi∈{1,-1},pi=1表示该像素点在ti时刻光强增大,pi=-1表示该像素点在ti时刻光强减小。
可选地,在本申请的一个实施例中,多段视频包括第一至第三视频,其中,第一至第三视频的第一张图像分别为视频数据位于时刻的图像,其中,T为事件流的持续时间长度。
具体而言,本申请实施例包括第一至第三视频等多段视频,其中,第一至第三视频的第一张图像分别为视频数据位于位于时刻的图像,即位于/>时刻的图像,其中,T为事件流ε的持续时间长度。本申请实施例中,T=1500ms,因此V1,V2,V3分别是位于时刻t1=0ms,t2=500ms,t3=1000ms的图像,如图5所示。
在步骤S203中,将多段事件流输入至预先构建的脉冲神经网络,以进行前向传播,得到多个事件流数据特征向量。
可以理解的是,本申请实施例中的脉冲神经网络是第三代人工神经网络,可以把时间信息的影响也考虑其中。脉冲神经网络中的神经元不是在每一次迭代传播中都被激活,而是在其膜电位达到某一个特定值才被激活。当一个神经元被激活,脉冲神经网络可以产生一个信号传递给其他神经元,提高或降低其膜电位。脉冲神经网络模拟神经元更加接近实际,更加适用于处理时序脉冲信号。
在实际执行过程中,本申请实施例可以使用Spike Response模型作为神经元动力学模型,构脉冲卷积神经网络,从而将多段事件流ε1,ε2,ε3输入至预先构建的脉冲神经网络,以进行前向传播,得到多个事件流数据特征向量F1,F2,F3。
本申请实施例可以使用脉冲神经网络对于事件流进行编码,从而更好地起到事件流数据去噪的效果。
可选地,在本申请的一个实施例中,脉冲神经网络包含输入卷积层、隐藏卷积层和输出卷积层,其中,输入卷积层的输入通道数为2,对应事件流的正极性事件和负极性事件,输入卷积层的卷积核的尺寸为3×3、步长为1、输出通道数为16;隐藏卷积层的输入通道数为16,隐藏卷积层的卷积核的尺寸为3×3、步长为1、输出通道数为16;输出卷积层的输入通道数为16,输出卷积层的卷积核的尺寸为3×3、步长为1、输出通道数为32。
一些实施例中,可以构建脉冲神经网络,其中,脉冲神经网络包含输入卷积层、隐藏卷积层和输出卷积层,输入卷积层的输入通道数为2,对应事件流的正极性事件和负极性事件,卷积核的尺寸为3×3,步长为1,输出通道数为16;本申请实施例中的隐藏卷积层的输入通道数为16,卷积核的尺寸为3×3,步长为1,输出通道数为16;本申请实施例中的输出卷积层的输入通道数为16,卷积核的尺寸为3×3,步长为1,输出通道数为32。
本申请实施例可以通过脉冲神经网络,进一步提升事件流数据去噪的效果。
在步骤S204中,将多个事件流数据特征向量和每段视频的第一张图像分别组合,并利用预先构建的去遮挡成像网络进行前向传播,得到多个去遮挡成像结果。
在实际执行过程中,本申请实施例可以完成低分辨率去遮挡成像计算,将多个事件流数据特征向量F1,F2,F3和每段视频的第一张图像V1,V2,V3分别组合,并利用预先构建的去遮挡成像网络进行前向传播,得到低分辨率的去遮挡成像结果I1,I2,I3。
本申请实施例中,可以将图像V1和事件流数据特征向量F1组合,使用去遮挡成像网络进行前向传播得到低分辨率去遮挡成像结果I1,将图像V2和事件流数据特征向量F2组合,使用去遮挡成像网络进行前向传播得到低分辨率去遮挡成像结果I2,将图像V3和事件流数据特征向量F3组合,使用去遮挡成像网络进行前向传播得到低分辨率去遮挡成像结果I3,如图6所示。
本申请实施例可以融合使用事件相机提供的事件流数据和视频数据,使用事件数据提供遮挡物后场景的完整视觉信息,实现有效的高分辨率成像。
可选地,在本申请的一个实施例中,去遮挡成像网络使用U-Net结构,去遮挡成像网络的输入层的输入通道数为32+k;去遮挡成像网络的输出层的输出通道数为视频数据的图像帧的通道数。
具体而言,本申请实施例中,去遮挡成像网络使用U-Net结构,输入层的输入通道数为32+k,去遮挡成像网络的输出层的输出通道数为k,其中,k为视频数据的图像帧的通道数,即灰度视频时k=1,彩色视频时k=3。
在本申请实施例中,如果为彩色视频,则k=3,去遮挡成像网络输入层的输入通道数为35,输出层的输出通道数为3。
在步骤S205中,拼接多个去遮挡成像结果,得到拼接结果,并利用预先构建的图像生成网络进行前向传播,得到高分辨率无遮挡图像。
在实际执行过程中,图像生成网络可以为高分辨率图像生成网络,本申请实施例可以将低分辨率去遮挡成像结果I1,I2,I3进行拼接,得到拼接结果,并利用高分辨率图像生成网络进行前向传播,得到高分辨率无遮挡图像,进而实现遮挡环境高分辨率成像,如图7所示。
本申请实施例可以从遮挡环境下移动的事件相机获取的事件流数据和视频数据生成无遮挡的高分辨率的图像,实现遮挡环境高分辨率成像的效果。
可选地,在本申请的一个实施例中,图像生成网络包含一个上采样层和一个U-Net网络,上采样层使用双线性插值的方法将输入图像的空间分辨率放大为2倍,U-Net网络的输入层的输入通道数为3×k,U-Net网络的输出层的输出通道数为k,其中,k为视频数据的图像帧的通道数。
作为一种可能实现的方式,本申请实施例中,图像生成网络包含一个上采样层和一个U-Net结构,上采样层使用双线性插值的方法将输入图像的空间分辨率放大为2倍,U-Net结构的输入层的输入通道数为3×k,U-Net网络的输出层的输出通道数为k,其中,k为视频数据的图像帧的通道数,即灰度视频时k=1,彩色视频时k=3。
本申请实施例中,如果为彩色视频,则k=3,高分辨率图像生成网络包含一个上采样层和一个U-Net结构,上采样层使用双线性插值的方法将输入图像的空间分辨率放大为2倍,从而实现空间分辨率提升。U-Net结构的输入层的输入通道数为9,U-Net结构的输出层的输出通道数为3,进一步实现遮挡环境高分辨率成像的效果。
具体地,结合图8所示,本申请实施例可以包括以下步骤:
步骤S801:原始数据获取。
其中,本申请实施例可以进行原始数据获取,获取有遮挡的事件流数据和有遮挡的视频数据。
步骤S802:数据预处理。
其中,本申请实施例可以进行数据预处理,将事件流数据按照时间均分为多段事件流,并将视频数据按照时间均分为多段视频,确定每段视频的第一张图像。
步骤S803:脉冲神经网络构建。
其中,本申请实施例可以进行脉冲神经网络构建,使用Spike Response模型作为神经元动力学模型,构脉冲卷积神经网络。
步骤S804:事件流编码计算。
其中,本申请实施例可以进行事件流编码计算,将多段事件流输入至预先构建的脉冲神经网络,以进行前向传播,得到多个事件流数据特征向量。
步骤S805:去遮挡网络构建。
其中,本申请实施例可以进行去遮挡网络构建,去遮挡成像网络使用U-Net结构,输入层的输入通道数为32+k。
步骤S806:低分辨率去遮挡计算。
其中,本申请实施例可以完成低分辨率去遮挡成像计算,将多个事件流数据特征向量和每段视频的第一张图像分别组合,并利用预先构建的去遮挡成像网络进行前向传播,得到多个去遮挡成像结果。
步骤S807:高分辨率图像生成网络构建。
其中,本申请实施例可以进行高分辨率图像生成网络构建,高分辨率图像生成网络包含一个上采样层和一个U-Net结构。
步骤S808:高分辨率成像计算。
其中,本申请实施例可以进行高分辨率成像计算,拼接多个去遮挡成像结果,得到拼接结果,并利用预先构建的图像生成网络进行前向传播,得到最终高分辨率无遮挡图像。
根据本申请实施例提出的基于数据融合的遮挡环境高分辨率成像方法,可以融合使用事件相机提供的事件流数据和视频数据,使用事件数据提供遮挡物后场景的完整视觉信息,使用视频数据提供场景纹理、颜色等视觉特征信息,实现有效的高分辨率成像,实现了分辨率提升,并使用脉冲神经网络对于事件流进行编码,更好地实现事件流数据去噪的效果。由此,解决了相关技术中,难以获取有效的场景信息,且一般的场景去遮挡成像方法仅能生成与输入图像及事件流的空间分辨率相同的无遮挡图像,受限于目前事件相机的低分辨率,对于场景进行有效的精准观测是不足的,无法生成高分辨率无遮挡图像的问题。
其次参照附图描述根据本申请实施例提出的基于数据融合的遮挡环境高分辨率成像装置。
图9是本申请实施例的基于数据融合的遮挡环境高分辨率成像装置的结构示意图。
如图9所示,该基于数据融合的遮挡环境高分辨率成像装置10包括:第一获取模块100、确定模块200、输入模块300、组合模块400和第二获取模块500。
具体地,第一获取模块100,用于获取有遮挡的事件流数据和有遮挡的视频数据。
确定模块200,用于将事件流数据按照时间均分为多段事件流,并将视频数据按照时间均分为多段视频,确定每段视频的第一张图像。
输入模块300,用于将多段事件流输入至预先构建的脉冲神经网络,以进行前向传播,得到多个事件流数据特征向量。
组合模块400,用于将多个事件流数据特征向量和每段视频的第一张图像分别组合,并利用预先构建的去遮挡成像网络进行前向传播,得到多个去遮挡成像结果。
第二获取模块500,用于拼接多个去遮挡成像结果,得到拼接结果,并利用预先构建的图像生成网络进行前向传播,得到高分辨率无遮挡图像。
可选地,在本申请的一个实施例中,多段事件流包括第一至第三事件流,计算公式为:
其中,(xi,yi)为每个事件的像素点坐标,ti为该事件触发的时间戳,pi为该事件的极性,T为数据获取单元所获取的完整事件流ε的持续时间长度。
可选地,在本申请的一个实施例中,多段视频包括第一至第三视频,其中,第一至第三视频的第一张图像分别为视频数据位于时刻的图像,其中,T为事件流的持续时间长度。
可选地,在本申请的一个实施例中,脉冲神经网络包含输入卷积层、隐藏卷积层和输出卷积层,其中,输入卷积层的输入通道数为2,对应事件流的正极性事件和负极性事件,输入卷积层的卷积核的尺寸为3×3、步长为1、输出通道数为16;隐藏卷积层的输入通道数为16,隐藏卷积层的卷积核的尺寸为3×3、步长为1、输出通道数为16;输出卷积层的输入通道数为16,输出卷积层的卷积核的尺寸为3×3、步长为1、输出通道数为32。
可选地,在本申请的一个实施例中,去遮挡成像网络使用U-Net结构,去遮挡成像网络的输入层的输入通道数为32+k;去遮挡成像网络的输出层的输出通道数为视频数据的图像帧的通道数。
可选地,在本申请的一个实施例中,图像生成网络包含一个上采样层和一个U-Net网络,上采样层使用双线性插值的方法将输入图像的空间分辨率放大为2倍,U-Net网络的输入层的输入通道数为3×k,U-Net网络的输出层的输出通道数为k,其中,k为视频数据的图像帧的通道数。
需要说明的是,前述对基于数据融合的遮挡环境高分辨率成像方法实施例的解释说明也适用于该实施例的基于数据融合的遮挡环境高分辨率成像装置,此处不再赘述。
根据本申请实施例提出的基于数据融合的遮挡环境高分辨率成像装置,可以融合使用事件相机提供的事件流数据和视频数据,使用事件数据提供遮挡物后场景的完整视觉信息,使用视频数据提供场景纹理、颜色等视觉特征信息,实现有效的高分辨率成像,实现了分辨率提升,并使用脉冲神经网络对于事件流进行编码,更好地实现事件流数据去噪的效果。由此,解决了相关技术中,难以获取有效的场景信息,且一般的场景去遮挡成像方法仅能生成与输入图像及事件流的空间分辨率相同的无遮挡图像,受限于目前事件相机的低分辨率,对于场景进行有效的精准观测是不足的,无法生成高分辨率无遮挡图像的问题。
图10为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括:
存储器1001、处理器1002及存储在存储器1001上并可在处理器1002上运行的计算机程序。
处理器1002执行程序时实现上述实施例中提供的基于数据融合的遮挡环境高分辨率成像方法。
进一步地,电子设备还包括:
通信接口1003,用于存储器1001和处理器1002之间的通信。
存储器1001,用于存放可在处理器1002上运行的计算机程序。
存储器1001可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器1001、处理器1002和通信接口1003独立实现,则通信接口1003、存储器1001和处理器1002可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选地,在具体实现上,如果存储器1001、处理器1002及通信接口1003,集成在一块芯片上实现,则存储器1001、处理器1002及通信接口1003可以通过内部接口完成相互间的通信。
处理器1002可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上的基于数据融合的遮挡环境高分辨率成像方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或N个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于数据融合的遮挡环境高分辨率成像方法,其特征在于,包括以下步骤:
获取有遮挡的事件流数据和有遮挡的视频数据;
将所述事件流数据按照时间均分为多段事件流,并将所述视频数据按照时间均分为多段视频,确定每段视频的第一张图像;
将所述多段事件流输入至预先构建的脉冲神经网络,以进行前向传播,得到多个事件流数据特征向量;
将所述多个事件流数据特征向量和所述每段视频的第一张图像分别组合,并利用预先构建的去遮挡成像网络进行前向传播,得到多个去遮挡成像结果;
拼接所述多个去遮挡成像结果,得到拼接结果,并利用预先构建的图像生成网络进行前向传播,得到高分辨率无遮挡图像。
2.根据权利要求1所述的方法,其特征在于,所述多段事件流包括第一至第三事件流,计算公式为:
其中,(xi,yi)为每个事件的像素点坐标,ti为该事件触发的时间戳,pi为该事件的极性,T为数据获取单元所获取的完整事件流ε的持续时间长度。
3.根据权利要求1所述的方法,其特征在于,所述多段视频包括第一至第三视频,其中,所述第一至第三视频的第一张图像分别为所述视频数据位于时刻的图像,其中,T为所述事件流的持续时间长度。
4.根据权利要求1所述的方法,其特征在于,所述脉冲神经网络包含输入卷积层、隐藏卷积层和输出卷积层,其中,输入卷积层的输入通道数为2,对应事件流的正极性事件和负极性事件,所述输入卷积层的卷积核的尺寸为3×3、步长为1、输出通道数为16;隐藏卷积层的输入通道数为16,所述隐藏卷积层的卷积核的尺寸为3×3、步长为1、输出通道数为16;输出卷积层的输入通道数为16,所述输出卷积层的卷积核的尺寸为3×3、步长为1、输出通道数为32。
5.根据权利要求1所述的方法,其特征在于,所述去遮挡成像网络使用U-Net结构,所述去遮挡成像网络的输入层的输入通道数为32+k;所述去遮挡成像网络的输出层的输出通道数为所述视频数据的图像帧的通道数。
6.根据权利要求1所述的方法,其特征在于,所述图像生成网络包含一个上采样层和一个U-Net网络,所述上采样层使用双线性插值的方法将输入图像的空间分辨率放大为2倍,所述U-Net网络的输入层的输入通道数为3×k,所述U-Net网络的输出层的输出通道数为k,其中,k为所述视频数据的图像帧的通道数。
7.一种基于数据融合的遮挡环境高分辨率成像装置,其特征在于,包括:
第一获取模块,用于获取有遮挡的事件流数据和有遮挡的视频数据;
确定模块,用于将所述事件流数据按照时间均分为多段事件流,并将所述视频数据按照时间均分为多段视频,确定每段视频的第一张图像;
输入模块,用于将所述多段事件流输入至预先构建的脉冲神经网络,以进行前向传播,得到多个事件流数据特征向量;
组合模块,用于将所述多个事件流数据特征向量和所述每段视频的第一张图像分别组合,并利用预先构建的去遮挡成像网络进行前向传播,得到多个去遮挡成像结果;
第二获取模块,用于拼接所述多个去遮挡成像结果,得到拼接结果,并利用预先构建的图像生成网络进行前向传播,得到高分辨率无遮挡图像。
8.根据权利要求7所述的装置,其特征在于,所述多段事件流包括第一至第三事件流,计算公式为:
其中,(xi,yi)为每个事件的像素点坐标,ti为该事件触发的时间戳,pi为该事件的极性,T为数据获取单元所获取的完整事件流ε的持续时间长度。
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-6任一项所述的基于数据融合的遮挡环境高分辨率成像方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1-6任一项所述的基于数据融合的遮挡环境高分辨率成像方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310826354.0A CN117011762A (zh) | 2023-07-06 | 2023-07-06 | 基于数据融合的遮挡环境高分辨率成像方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310826354.0A CN117011762A (zh) | 2023-07-06 | 2023-07-06 | 基于数据融合的遮挡环境高分辨率成像方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117011762A true CN117011762A (zh) | 2023-11-07 |
Family
ID=88561096
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310826354.0A Pending CN117011762A (zh) | 2023-07-06 | 2023-07-06 | 基于数据融合的遮挡环境高分辨率成像方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117011762A (zh) |
-
2023
- 2023-07-06 CN CN202310826354.0A patent/CN117011762A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Baldwin et al. | Time-ordered recent event (tore) volumes for event cameras | |
Liu et al. | ADNet: Attention-guided deformable convolutional network for high dynamic range imaging | |
Yan et al. | Multi-scale dense networks for deep high dynamic range imaging | |
CN113284054B (zh) | 图像增强方法以及图像增强装置 | |
CN113076685B (zh) | 图像重建模型的训练方法、图像重建方法及其装置 | |
CN111402130B (zh) | 数据处理方法和数据处理装置 | |
CN111402146B (zh) | 图像处理方法以及图像处理装置 | |
CN114881921B (zh) | 基于事件及视频融合的去遮挡成像方法及装置 | |
CN114549731A (zh) | 视角图像的生成方法、装置、电子设备及存储介质 | |
CN109993707A (zh) | 图像去噪方法和装置 | |
CN114885144B (zh) | 基于数据融合的高帧率3d视频生成方法及装置 | |
Duan et al. | Guided event filtering: Synergy between intensity images and neuromorphic events for high performance imaging | |
Han et al. | Hybrid high dynamic range imaging fusing neuromorphic and conventional images | |
Rasheed et al. | LSR: Lightening super-resolution deep network for low-light image enhancement | |
Zhan et al. | Video deblurring via motion compensation and adaptive information fusion | |
CN114885112B (zh) | 基于数据融合的高帧率视频生成方法及装置 | |
Jin et al. | Event-guided low light image enhancement via a dual branch GAN | |
Shaw et al. | Hdr reconstruction from bracketed exposures and events | |
Liu et al. | Dual UNet low-light image enhancement network based on attention mechanism | |
CN113158970A (zh) | 一种基于快慢双流图卷积神经网络的动作识别方法与系统 | |
CN117522937A (zh) | 面向全天候场景的自监督单目深度估计方法及装置 | |
CN117408916A (zh) | 基于多尺度残差Swin Transformer的图像去模糊方法及相关产品 | |
CN117011762A (zh) | 基于数据融合的遮挡环境高分辨率成像方法及装置 | |
Cui et al. | Multi-stream attentive generative adversarial network for dynamic scene deblurring | |
CN116091337A (zh) | 一种基于事件信号神经编码方式的图像增强方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |