CN114885112B - 基于数据融合的高帧率视频生成方法及装置 - Google Patents

基于数据融合的高帧率视频生成方法及装置 Download PDF

Info

Publication number
CN114885112B
CN114885112B CN202210295601.4A CN202210295601A CN114885112B CN 114885112 B CN114885112 B CN 114885112B CN 202210295601 A CN202210295601 A CN 202210295601A CN 114885112 B CN114885112 B CN 114885112B
Authority
CN
China
Prior art keywords
event stream
frame
frame rate
event
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210295601.4A
Other languages
English (en)
Other versions
CN114885112A (zh
Inventor
高跃
李思奇
别林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202210295601.4A priority Critical patent/CN114885112B/zh
Publication of CN114885112A publication Critical patent/CN114885112A/zh
Application granted granted Critical
Publication of CN114885112B publication Critical patent/CN114885112B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0127Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level by changing the field or frame frequency of the incoming video signal, e.g. frame rate converter
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请公开了一种基于数据融合的高帧率视频生成方法及装置,其中,方法包括:从事件相机获取低帧率的视频和事件数据;将视频中相邻图像帧进行两两组合,并计算期望得到所有中间帧的时间戳集合,进而截取从两个边界帧到期望中间帧的第一事件流和第二事件流,输入至预设的脉冲神经网络进行前向传播,得到第一事件流数据特征向量和第二事件流数据特征向量,并与相邻图像帧拼接,输入至预设的多模态融合网络进行前向传播,得到所有中间帧;基于所有中间帧,生成高帧率视频。由此,解决了相关技术中仅使用事件流作为数据输入,缺乏每个像素点的初始亮度值,仅依靠亮度变化记录估计亮度的稳定性较差,从而导致生成的图像质量较低的技术问题。

Description

基于数据融合的高帧率视频生成方法及装置
技术领域
本申请涉及计算机视觉及神经形态计算技术领域,特别涉及一种基于数据融合的高帧率视频生成方法及装置。
背景技术
事件相机是一种受生物启发的传感器,工作原理与传统的相机有很大的差别,与传统相机以固定帧率采集场景绝对光强不同,事件相机当且仅当场景光强变化时输出数据,这种输出的数据称为事件流。与传统相机相比,事件相机有着高动态范围、高时间分辨率、无动态模糊等优点。
相关技术中,视频生成方法使用事件相机作为传感器,利用纯事件流生成视频,将事件流通过堆叠的方式转换成为网格状张量表示,进而使用深度学习方法生成图像,相比于传统相机,事件相机可以获得极高的时间分辨率,并完整的记录场景内的运动信息。
然而,相关技术中仅使用事件流作为数据输入,且缺乏每个像素点的初始亮度值,仅依靠亮度变化记录估计亮度的稳定性较差,从而导致生成的图像质量较低,有待改善。
发明内容
本申请提供一种基于数据融合的高帧率视频生成方法及装置,以解决相关技术中仅使用事件流作为数据输入,且缺乏每个像素点的初始亮度值,仅依靠亮度变化记录估计亮度的稳定性较差,从而导致生成的图像质量较低的技术问题。
本申请第一方面实施例提供一种基于数据融合的高帧率视频生成方法,包括以下步骤:从事件相机获取低于预设帧率的视频和事件数据;将所述视频中相邻图像帧进行两两组合,生成多组相邻图像帧,并计算期望得到所有中间帧的时间戳集合;根据所述时间戳集合截取从两个边界帧到期望中间帧的第一事件流和第二事件流,并将所述第一事件流和第二事件流输入至预设的脉冲神经网络进行前向传播,得到第一事件流数据特征向量和第二事件流数据特征向量;拼接所述相邻图像帧、所述第一事件流数据特征向量和所述第二事件流数据特征向量,并输入至预设的多模态融合网络进行前向传播,得到所有中间帧;基于所述所有中间帧,生成高于第二预设帧率的高帧率视频。
可选地,在本申请的一个实施例中,在将所述第一事件流和第二事件流输入至所述预设的脉冲神经网络进行前向传播之前,还包括:基于Spike Response模型作为神经元动力学模型,构建所述脉冲神经网络。
可选地,在本申请的一个实施例中,所述多模态融合网络包含粗合成子网络和微调子网络,其中,所述粗合成子网络使用第一U-Net结构,输入层的输入通道数为64+2×k,输出层的输出通道数为k,且所述微调子网络使用第二U-Net结构,输入层的输入通道数为3×k,输出层的输出通道数为k,k为所述低于预设帧率的视频的图像帧的通道数。
可选地,在本申请的一个实施例中,所述所有中间帧的时间戳集合的计算公式为:
Figure BDA0003561682240000021
其中,N为输入低帧率视频的总帧数,n为期望帧率提升的倍数,tj为输入低帧率视频第j帧的时间戳。
可选地,在本申请的一个实施例中,所述第一事件流和所述第二事件流的计算公式为:
Figure BDA0003561682240000022
其中,τi j,j+1为期望中间帧的时间戳,tj和tj+1为期望中间帧相邻输入低帧率视频帧的时间戳。
本申请第二方面实施例提供一种基于数据融合的高帧率视频生成装置,包括:第一获取模块,用于从事件相机获取低于预设帧率的视频和事件数据;组合模块,用于将所述视频中相邻图像帧进行两两组合,生成多组相邻图像帧,并计算期望得到所有中间帧的时间戳集合;第二获取模块,用于根据所述时间戳集合截取从两个边界帧到期望中间帧的第一事件流和第二事件流,并将所述第一事件流和第二事件流输入至预设的脉冲神经网络进行前向传播,得到第一事件流数据特征向量和第二事件流数据特征向量;融合模块,用于拼接所述相邻图像帧、所述第一事件流数据特征向量和所述第二事件流数据特征向量,并输入至预设的多模态融合网络进行前向传播,得到所有中间帧;生成模块,用于基于所述所有中间帧,生成高于第二预设帧率的高帧率视频。
可选地,在本申请的一个实施例中,还包括:构建模块,用于基于Spike Response模型作为神经元动力学模型,构建所述脉冲神经网络。
可选地,在本申请的一个实施例中,所述多模态融合网络包含粗合成子网络和微调子网络,其中,所述粗合成子网络使用第一U-Net结构,输入层的输入通道数为64+2×k,输出层的输出通道数为k,且所述微调子网络使用第二U-Net结构,输入层的输入通道数为3×k,输出层的输出通道数为k,k为所述低于预设帧率的视频的图像帧的通道数。
可选地,在本申请的一个实施例中,所述所有中间帧的时间戳集合的计算公式为:
Figure BDA0003561682240000031
其中,N为输入低帧率视频的总帧数,n为期望帧率提升的倍数,tj为输入低帧率视频第j帧的时间戳。
可选地,在本申请的一个实施例中,所述第一事件流和所述第二事件流的计算公式为:
Figure BDA0003561682240000032
其中,τi j,j+1为期望中间帧的时间戳,tj和tj+1为期望中间帧相邻输入低帧率视频帧的时间戳。
本申请第三方面实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述实施例所述的基于数据融合的高帧率视频生成方法。
本申请第四方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以用于实现如权利要求1-5任一项所述的基于数据融合的高帧率视频生成方法。
本申请实施例可以从事件相机获取低于预设帧率的视频和事件数据,利用事件数据提供帧间运动信息,通过使用脉冲神经网络对于事件流进行编码,并使用多模态融合网络进行事件流数据融合,可以更好地起到事件流数据去噪的效果,实现从低帧率视频生成高帧率视频,对于高速场景可以实现更有效的观测,不提高成本的同时,有效保证生成的图像质量,满足高帧率视频的生成要求。由此,解决了相关技术中仅使用事件流作为数据输入,且缺乏每个像素点的初始亮度值,仅依靠亮度变化记录估计亮度的稳定性较差,从而导致生成的图像质量较低的技术问题。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本申请实施例提供的一种基于数据融合的高帧率视频生成方法的流程图;
图2为相关技术的一个时间长度为20秒的传统相机和事件相机获得的视频数据与流数据示意图;
图3为根据本申请一个实施例的基于数据融合的高帧率视频生成方法的流程示意图;
图4为根据本申请一个实施例的基于数据融合的高帧率视频生成方法的低帧率视频数据及事件流数据示意图;
图5为根据本申请一个实施例的基于数据融合的高帧率视频生成方法的中间帧视频数据示意图;
图6为根据本申请一个实施例的基于数据融合的高帧率视频生成方法的输入事件流、低帧率视频和生成的高帧率视频数据示意图;
图7为根据本申请实施例提供的一种基于数据融合的高帧率视频生成装置的结构示意图;
图8为根据本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的基于数据融合的高帧率视频生成方法及装置。针对上述背景技术中心提到的相关技术中仅使用事件流作为数据输入,且缺乏每个像素点的初始亮度值,仅依靠亮度变化记录估计亮度的稳定性较差,从而导致生成的图像质量较低的技术问题,本申请提供了一种基于数据融合的高帧率视频生成方法,在该方法中,可以从事件相机获取低于预设帧率的视频和事件数据,利用事件数据提供帧间运动信息,通过使用脉冲神经网络对于事件流进行编码,并使用多模态融合网络进行事件流数据融合,可以更好地起到事件流数据去噪的效果,实现从低帧率视频生成高帧率视频,对于高速场景可以实现更有效的观测,不提高成本的同时,有效保证生成的图像质量,满足高帧率视频的生成要求。由此,解决了相关技术中仅使用事件流作为数据输入,且缺乏每个像素点的初始亮度值,仅依靠亮度变化记录估计亮度的稳定性较差,从而导致生成的图像质量较低的技术问题。
具体而言,图1为本申请实施例所提供的一种基于数据融合的高帧率视频生成方法的流程示意图。
如图1所示,该基于数据融合的高帧率视频生成方法包括以下步骤:
在步骤S101中,从事件相机获取低于预设帧率的视频和事件数据。
在实际执行过程中,本申请实施例可以从事件相机获取低于预设帧率的视频和事件数据,实现原始数据的获取,为后续生成高帧率视频奠定数据基础。
可以理解的是,事件相机是一种受生物启发的传感器,工作原理与传统的相机有很大的差别,与传统相机以固定帧率采集场景绝对光强不同,事件相机仅在场景光强变化时输出事件流,与传统相机相比,事件相机有着高动态范围、高时间分辨率、无动态模糊等优点,有利于保证高帧率视频的生成。
事件相机作为一种新型视觉传感器,无法直接应用传统相机及图像的各种算法,事件相机没有帧率的概念,其每个像素点异步工作,当检测到光强变化时输出一条事件,每条事件为一个四元组(x,y,t,p),包含像素横纵坐标(x,y)、时间戳t和事件极性p(其中,p=-1表示该像素点光强减小,p=1表示该像素点光强增大),将所有像素点输出的事件数据进行汇总,可以形成由一条条事件组成的事件列表,作为相机输出的事件流数据。如图2所示,以20s的传统相机获得的视频数据和与之对应的事件相机获得的流数据为例,传统相机以固定速率(即帧率)采集场景的光强值,并以固定速率输出为图片数据。事件相机则没有帧率的概念,其每个像素点异步工作,当检测到光强变化时输出一条事件。所有像素点输出的事件数据汇总起来,形成由若干条事件组成的事件列表,作为相机输出的事件流数据。
其中,预设帧率可以由本领域技术人员进行相应设置,在此不做具体限制。
在步骤S102中,将视频中相邻图像帧进行两两组合,生成多组相邻图像帧,并计算期望得到所有中间帧的时间戳集合。
作为一种可能实现的方式,本申请实施例可以将低帧率视频中,相邻图像帧两两组合,生成多组相邻图像帧,且对于每一组相邻的图像帧,计算期望得到所有中间帧的时间戳集合T,记为:
T={τ1 1,22 1,2,...,τn 1,21 2,32 2,3,...,τn 2,3,...,τ1 N-1,N2 N-1,N,...,τn N-1,N}。
可选地,在本申请的一个实施例中,所有中间帧的时间戳集合的计算公式为:
Figure BDA0003561682240000051
其中,N为输入低帧率视频的总帧数,n为期望帧率提升的倍数,tj为输入低帧率视频第j帧的时间戳。
具体地,每个期望得到的中间帧时间戳由计算公式如下:
Figure BDA0003561682240000052
其中,N为输入低帧率视频的总帧数,n为期望帧率提升的倍数,tj为输入低帧率视频第j帧的时间戳。
本申请实施例可以通过计算期望得到所有中间帧的时间戳集合,实现对数据的预处理,为后续进行数据融合提供基础。
在步骤S103中,根据时间戳集合截取从两个边界帧到期望中间帧的第一事件流和第二事件流,并将第一事件流和第二事件流输入至预设的脉冲神经网络进行前向传播,得到第一事件流数据特征向量和第二事件流数据特征向量。
进一步地,本申请实施例可以根据步骤S102中计算获得的中间帧时间戳集合,截取从两个边界帧到期望中间帧的第一事件流ε1和第二事件流ε2,并将第一事件流和第二事件流输入至预设的脉冲神经网络进行前向传播,得到第一事件流数据特征向量F1和第二事件流数据特征向量F2。本申请实施例通过使用脉冲神经网络对于事件流进行编码,可以更好地起到事件流数据去噪的效果,进而提高生成视频的质量。
需要注意的是,预设的脉冲神经网络会在下文进行详细阐述。
可选地,在本申请的一个实施例中,第一事件流和第二事件流的计算公式为:
Figure BDA0003561682240000061
其中,τi j,j+1为期望中间帧的时间戳,tj和tj+1为期望中间帧相邻输入低帧率视频帧的时间戳。
具体地,可以将第一事件流和第二事件流分别设为ε1和ε2,则ε1和ε2的计算公式分别如下:
Figure BDA0003561682240000062
Figure BDA0003561682240000063
其中,τi j,j+1为期望中间帧的时间戳,tj和tj+1为期望中间帧相邻输入低帧率视频帧的时间戳。
可选地,在本申请的一个实施例中,在将第一事件流和第二事件流输入至预设的脉冲神经网络进行前向传播之前,还包括:基于Spike Response模型作为神经元动力学模型,构建脉冲神经网络。
在此对脉冲神经网络进行详细阐述。
可以理解的是,脉冲神经网络是第三代人工神经网络,脉冲神经网络中的神经元不是在每一次迭代传播中都被激活,而是在它的膜电位达到某一个特定值才被激活,当一个神经元被激活,脉冲神经网络会产生一个信号传递给其他神经元,提高或降低其膜电位,因此脉冲神经网络模拟神经元更加接近实际,更加适用于处理时序脉冲信号。
在实际执行过程中,本申请实施例可以使用Spike Response模型作为神经元动力学模型,构建脉冲卷积神经网络。
具体地,脉冲神经网络可以包括输入卷积层、隐藏卷积层和输出卷积层。其中,输入卷积层的输入通道数为2,对应事件流的正极性事件和负极性事件,卷积核的尺寸为3×3,步长为1,输出通道数为16;隐藏卷积层的输入通道数为16,卷积核的尺寸为3×3,步长为1,输出通道数为16;输出卷积层的输入通道数为16,卷积核的尺寸为3×3,步长为1,输出通道数为32。
在步骤S104中,拼接相邻图像帧、第一事件流数据特征向量和第二事件流数据特征向量,并输入至预设的多模态融合网络进行前向传播,得到所有中间帧。
作为一种可能实现的方式,本申请实施例可以将从步骤S102获得的低帧率视频的相邻图像帧和从步骤S103获得的第一事件流数据特征向量F1和第二事件流数据特征向量F2进行拼接,并输入至预设的多模态融合网络进行前向传播,生成一帧中间帧,以完成单一高帧率图像帧计算。
具体地,本申请实施例可以首先将低帧率视频相邻图像帧和事件流数据特征向量F1和F2拼接起来,输入到粗合成子网络中得到粗输出结果;随后将粗输出结果与输入相邻图像帧拼接起来,输入到微调子网络中得到最终输出结果。
进一步地,本申请实施例可以对于步骤S102中计算的期望每一个中间帧的时间戳,重复上述步骤,完成所有中间帧的计算。
需要注意的是,预设的多模态融合网络会在下文进行详细阐述。
可选地,在本申请的一个实施例中,多模态融合网络包含粗合成子网络和微调子网络,其中,粗合成子网络使用第一U-Net结构,输入层的输入通道数为64+2×k,输出层的输出通道数为k,且微调子网络使用第二U-Net结构,输入层的输入通道数为3×k,输出层的输出通道数为k,k为低于预设帧率的视频的图像帧的通道数。
在此对多模态融合网络进行详细阐述。
可以理解的是,数据融合网络包含一个粗合成子网络和一个微调子网络。其中,粗合成子网络使用U-Net结构,输入层的输入通道数为64+2×k,输出层的输出通道数为k;微调子网络使用U-Net结构,输入层的输入通道数为3×k,输出层的输出通道数为k。
其中,k为步骤S101中输入的低帧率视频的图像帧的通道数,即当步骤S101中输入的低帧率视频的图像帧为灰度图时,k=1,当步骤S101中输入的低帧率视频的图像帧为RGB图像时,k=3。
在步骤S105中,基于所有中间帧,生成高于第二预设帧率的高帧率视频。
在实际执行过程中,本申请实施例可以将上述步骤中得到的所有中间帧进行组合,构成高于第二预设帧率的高帧率视频,实现高帧率视频生成。本申请实施例可以从事件相机获取低于预设帧率的视频和事件数据,利用事件数据提供帧间运动信息,通过使用脉冲神经网络对于事件流进行编码,并使用多模态融合网络进行事件流数据融合,可以更好地起到事件流数据去噪的效果,实现从低帧率视频生成高帧率视频,对于高速场景可以实现更有效的观测。
其中,高于第二预设帧率可以由本领域技术人员根据实际情况进行设置,在此不做具体限制。
下面结合图3至图7所示,以一个实施例对本申请实施例进行详细阐述。
如图3所示,本申请实施例包括以下步骤:
步骤S301:低帧率视频数据及事件流数据获取。在实际执行过程中,本申请实施例可以从事件相机获取帧率的视频和事件数据,实现原始数据的获取,为后续生成高帧率视频奠定数据基础。
举例而言,如图4所示,本申请实施例从事件相机获取的低帧率视频的帧率可以为20FPS(Frames Per Second,每秒传输帧数),共计31帧,对应的事件流持续时间为1500ms。
步骤S302:数据预处理。本申请实施例可以将低帧率视频中相邻图像帧两两组合,对于每一组相邻图像帧,计算期望得到所有中间帧的时间戳集合T,记为:
T={τ1 1,22 1,2,...,τn 1,21 2,32 2,3,...,τn 2,3,...,τ1 N-1,N2 N-1,N,...,τn N-1,N},
其中,每个期望得到的中间帧时间戳的计算公式如下:
Figure BDA0003561682240000081
其中,N是输入低帧率视频的总帧数,n是期望帧率提升的倍数,tj是输入低帧率视频第j帧的时间戳。
举例而言,本申请实施例输入低帧率视频可以包含N=31帧图像,帧率为20FPS,则输入低帧率视频第j帧的时间戳为tj=(j-1)×50ms。若得到帧率提升n=10倍的高帧率视频,则计算得到的所有中间帧的时间戳集合可以为T={0,5,10,15,20,...,1495},包含300个元素。
步骤S303:脉冲神经网络构建。在实际执行过程中,本申请实施例可以使用SpikeResponse模型作为神经元动力学模型,构建脉冲卷积神经网络。
具体地,脉冲神经网络可以包括输入卷积层、隐藏卷积层和输出卷积层。其中,输入卷积层的输入通道数为2,对应事件流的正极性事件和负极性事件,卷积核的尺寸为3×3,步长为1,输出通道数为16;隐藏卷积层的输入通道数为16,卷积核的尺寸为3×3,步长为1,输出通道数为16;输出卷积层的输入通道数为16,卷积核的尺寸为3×3,步长为1,输出通道数为32。
步骤S304:事件流编码计算。本申请实施例可以根据步骤S302计算得到的中间帧的时间戳τi j,j+1,截取从两个边界帧到期望中间帧的事件流ε12,并将ε12分别输入通过步骤S303得到的脉冲神经网络进行前向传播,得到事件流数据特征向量F1和F2
其中,两个边界帧到期望中间帧的事件流ε12的计算公式如下:
Figure BDA0003561682240000091
其中,τi j,j+1是期望中间帧的时间戳,tj和tj+1是期望中间帧相邻输入低帧率视频帧的时间戳。
举例而言,以第15个期望得到的中间帧的时间戳,即本申请实施例在输入低帧率视频第2帧和第3帧中插入的第5帧,τ5 2,3=75ms为例,两个边界帧到期望中间帧的事件流ε12如表1所示。其中,表1为事件流数据表。
表一
Figure BDA0003561682240000092
步骤S305:多模态融合网络构建。可以理解的是,数据融合网络包含一个粗合成子网络和一个微调子网络。其中,粗合成子网络使用U-Net结构,输入层的输入通道数为64+2×k,输出层的输出通道数为k;微调子网络使用U-Net结构,输入层的输入通道数为3×k,输出层的输出通道数为k。
其中,k为步骤S301中输入的低帧率视频的图像帧的通道数,即当步骤S301中输入的低帧率视频的图像帧为灰度图时,k=1,当步骤S301中输入的低帧率视频的图像帧为RGB图像时,k=3。
举例而言,本申请实施例可以输入步骤S301中输入的低帧率视频的图像帧为灰度图,即k=1,此时,粗合成子网络输入层的输入通道数为66,输出层的输出通道数为1;微调子网络输入层的输入通道数为3;输出层的输出通道数为1。
步骤S306:单一高帧率图像帧计算。作为一种可能实现的方式,本申请实施例可以将从步骤S302获得的低帧率视频的相邻图像帧和从步骤S103获得的第一事件流数据特征向量F1和第二事件流数据特征向量F2进行拼接,并输入至预设的多模态融合网络进行前向传播,生成一帧中间帧,以完成单一高帧率图像帧计算。
具体地,本申请实施例可以首先将低帧率视频相邻图像帧和事件流数据特征向量F1和F2拼接起来,输入到粗合成子网络中得到粗输出结果;随后将粗输出结果与输入相邻图像帧拼接起来,输入到微调子网络中得到最终输出结果。
举例而言,以第15个期望得到的中间帧为例,生成的中间帧如图5所示。
步骤S307:全部高帧率图像帧计算。进一步地,本申请实施例可以对于步骤S302中计算的期望每一个中间帧的时间戳,重复上述步骤S302至步骤S306,完成所有中间帧的计算。
举例而言,本申请实施例可以输入低帧率视频包含N=31帧图像,若得到帧率提升n=10倍的高帧率视频,则需要重复步骤S302至步骤S306共计300次。
步骤S308:数据后处理。本申请实施例将步骤S307中得到的所有中间帧进行组合,构成高帧率视频,实现高帧率视频生成。
其中,以得到帧率提升n=10倍的高帧率视频为例,输入事件流、低帧率视频和生成的高帧率视频可以如图6所示。
根据本申请实施例提出的基于数据融合的高帧率视频生成方法,可以从事件相机获取低于预设帧率的视频和事件数据,利用事件数据提供帧间运动信息,通过使用脉冲神经网络对于事件流进行编码,并使用多模态融合网络进行事件流数据融合,可以更好地起到事件流数据去噪的效果,实现从低帧率视频生成高帧率视频,对于高速场景可以实现更有效的观测,不提高成本的同时,有效保证生成的图像质量,满足高帧率视频的生成要求。由此,解决了相关技术中仅使用事件流作为数据输入,且缺乏每个像素点的初始亮度值,仅依靠亮度变化记录估计亮度的稳定性较差,从而导致生成的图像质量较低的技术问题。
其次参照附图描述根据本申请实施例提出的基于数据融合的高帧率视频生成装置。
图7是本申请实施例的基于数据融合的高帧率视频生成装置的方框示意图。
如图7所示,该基于数据融合的高帧率视频生成装置10包括:第一获取模块100、组合模块200、第二获取模块300、融合模块400和生成模块500。
具体地,第一获取模块100,用于从事件相机获取低于预设帧率的视频和事件数据。
组合模块200,用于将视频中相邻图像帧进行两两组合,生成多组相邻图像帧,并计算期望得到所有中间帧的时间戳集合。
第二获取模块300,用于根据时间戳集合截取从两个边界帧到期望中间帧的第一事件流和第二事件流,并将第一事件流和第二事件流输入至预设的脉冲神经网络进行前向传播,得到第一事件流数据特征向量和第二事件流数据特征向量。
融合模块400,用于拼接相邻图像帧、第一事件流数据特征向量和第二事件流数据特征向量,并输入至预设的多模态融合网络进行前向传播,得到所有中间帧。
生成模块500,用于基于所有中间帧,生成高于第二预设帧率的高帧率视频。
可选地,在本申请的一个实施例中,基于数据融合的高帧率视频生成装置10还包括:构建模块。
其中,构建模块,用于基于Spike Response模型作为神经元动力学模型,构建脉冲神经网络。
可选地,在本申请的一个实施例中,多模态融合网络包含粗合成子网络和微调子网络,其中,粗合成子网络使用第一U-Net结构,输入层的输入通道数为64+2×k,输出层的输出通道数为k,且微调子网络使用第二U-Net结构,输入层的输入通道数为3×k,输出层的输出通道数为k,k为低于预设帧率的视频的图像帧的通道数。
可选地,在本申请的一个实施例中,所有中间帧的时间戳集合的计算公式为:
Figure BDA0003561682240000111
其中,N为输入低帧率视频的总帧数,n为期望帧率提升的倍数,tj为输入低帧率视频第j帧的时间戳。
可选地,在本申请的一个实施例中,第一事件流和第二事件流的计算公式为:
Figure BDA0003561682240000112
其中,τi j,j+1为期望中间帧的时间戳,tj和tj+1为期望中间帧相邻输入低帧率视频帧的时间戳。
需要说明的是,前述对基于数据融合的高帧率视频生成方法实施例的解释说明也适用于该实施例的基于数据融合的高帧率视频生成装置,此处不再赘述。
根据本申请实施例提出的基于数据融合的高帧率视频生成装置,可以从事件相机获取低于预设帧率的视频和事件数据,利用事件数据提供帧间运动信息,通过使用脉冲神经网络对于事件流进行编码,并使用多模态融合网络进行事件流数据融合,可以更好地起到事件流数据去噪的效果,实现从低帧率视频生成高帧率视频,对于高速场景可以实现更有效的观测,不提高成本的同时,有效保证生成的图像质量,满足高帧率视频的生成要求。由此,解决了相关技术中仅使用事件流作为数据输入,且缺乏每个像素点的初始亮度值,仅依靠亮度变化记录估计亮度的稳定性较差,从而导致生成的图像质量较低的技术问题。
图8为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括:
存储器801、处理器802及存储在存储器801上并可在处理器802上运行的计算机程序。
处理器802执行程序时实现上述实施例中提供的基于数据融合的高帧率视频生成方法。
进一步地,电子设备还包括:
通信接口803,用于存储器801和处理器802之间的通信。
存储器801,用于存放可在处理器802上运行的计算机程序。
存储器801可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器801、处理器802和通信接口803独立实现,则通信接口803、存储器801和处理器802可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器801、处理器802及通信接口803,集成在一块芯片上实现,则存储器801、处理器802及通信接口803可以通过内部接口完成相互间的通信。
处理器802可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上的基于数据融合的高帧率视频生成方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或N个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种基于数据融合的高帧率视频生成方法,其特征在于,包括以下步骤:
从事件相机获取低于预设帧率的视频和事件数据;
将所述视频中相邻图像帧进行两两组合,生成多组相邻图像帧,并计算期望得到所有中间帧的时间戳集合;
根据所述时间戳集合截取从两个边界帧到期望中间帧的第一事件流和第二事件流,并将所述第一事件流和第二事件流输入至预设的脉冲神经网络进行前向传播,得到第一事件流数据特征向量和第二事件流数据特征向量,其中,所述第一事件流和所述第二事件流的计算公式为:
Figure FDA0004218425840000011
其中,τi j,j+1为期望中间帧的时间戳,tj和tj+1为期望中间帧相邻输入低帧率视频帧的时间戳;
拼接所述相邻图像帧、所述第一事件流数据特征向量和所述第二事件流数据特征向量,并输入至预设的多模态融合网络进行前向传播,得到所有中间帧;
基于所述所有中间帧,生成高于第二预设帧率的高帧率视频。
2.根据权利要求1所述的方法,其特征在于,在将所述第一事件流和第二事件流输入至所述预设的脉冲神经网络进行前向传播之前,还包括:
基于Spike Response模型作为神经元动力学模型,构建所述脉冲神经网络。
3.根据权利要求1所述的方法,其特征在于,所述多模态融合网络包含粗合成子网络和微调子网络,其中,所述粗合成子网络使用第一U-Net结构,输入层的输入通道数为64+2×k,输出层的输出通道数为k,且所述微调子网络使用第二U-Net结构,输入层的输入通道数为3×k,输出层的输出通道数为k,k为所述低于预设帧率的视频的图像帧的通道数。
4.根据权利要求1所述的方法,其特征在于,所述所有中间帧的时间戳集合的计算公式为:
Figure FDA0004218425840000012
其中,N为输入低帧率视频的总帧数,n为期望帧率提升的倍数,tj为输入低帧率视频第j帧的时间戳。
5.一种基于数据融合的高帧率视频生成装置,其特征在于,包括:
第一获取模块,用于从事件相机获取低于预设帧率的视频和事件数据;
组合模块,用于将所述视频中相邻图像帧进行两两组合,生成多组相邻图像帧,并计算期望得到所有中间帧的时间戳集合;
第二获取模块,用于根据所述时间戳集合截取从两个边界帧到期望中间帧的第一事件流和第二事件流,并将所述第一事件流和第二事件流输入至预设的脉冲神经网络进行前向传播,得到第一事件流数据特征向量和第二事件流数据特征向量,其中,所述第一事件流和所述第二事件流的计算公式为:
Figure FDA0004218425840000021
其中,τi j,j+1为期望中间帧的时间戳,tj和tj+1为期望中间帧相邻输入低帧率视频帧的时间戳;
融合模块,用于拼接所述相邻图像帧、所述第一事件流数据特征向量和所述第二事件流数据特征向量,并输入至预设的多模态融合网络进行前向传播,得到所有中间帧;
生成模块,用于基于所述所有中间帧,生成高于第二预设帧率的高帧率视频。
6.根据权利要求5所述的装置,其特征在于,所述所有中间帧的时间戳集合的计算公式为:
Figure FDA0004218425840000022
其中,N为输入低帧率视频的总帧数,n为期望帧率提升的倍数,tj为输入低帧率视频第j帧的时间戳。
7.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-4任一项所述的基于数据融合的高帧率视频生成方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1-4任一项所述的基于数据融合的高帧率视频生成方法。
CN202210295601.4A 2022-03-23 2022-03-23 基于数据融合的高帧率视频生成方法及装置 Active CN114885112B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210295601.4A CN114885112B (zh) 2022-03-23 2022-03-23 基于数据融合的高帧率视频生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210295601.4A CN114885112B (zh) 2022-03-23 2022-03-23 基于数据融合的高帧率视频生成方法及装置

Publications (2)

Publication Number Publication Date
CN114885112A CN114885112A (zh) 2022-08-09
CN114885112B true CN114885112B (zh) 2023-06-20

Family

ID=82666986

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210295601.4A Active CN114885112B (zh) 2022-03-23 2022-03-23 基于数据融合的高帧率视频生成方法及装置

Country Status (1)

Country Link
CN (1) CN114885112B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115661336A (zh) * 2022-09-21 2023-01-31 华为技术有限公司 一种三维重建方法及相关装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10110913B2 (en) * 2016-09-30 2018-10-23 Intel Corporation Motion estimation using hybrid video imaging system
CN111667442B (zh) * 2020-05-21 2022-04-01 武汉大学 一种基于事件相机的高质量高帧率图像重建方法
WO2021253186A1 (zh) * 2020-06-15 2021-12-23 深圳市大疆创新科技有限公司 信息处理方法、装置和成像系统
CN111695681B (zh) * 2020-06-16 2022-10-11 清华大学 一种高分辨率动态视觉观测方法及装置

Also Published As

Publication number Publication date
CN114885112A (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
CN115442515B (zh) 图像处理方法和设备
WO2021164234A1 (zh) 图像处理方法以及图像处理装置
CN102668537B (zh) 多眼摄像装置及多眼摄像方法
CN108604369B (zh) 一种去除图像噪声的方法、装置、设备及卷积神经网络
CN109993707B (zh) 图像去噪方法和装置
EP3816929A1 (en) Method and apparatus for restoring image
CN108805265B (zh) 神经网络模型处理方法和装置、图像处理方法、移动终端
JP7297470B2 (ja) 画像処理方法、画像処理装置、プログラム、画像処理システム、および、学習済みモデルの製造方法
CN101485193A (zh) 图像生成装置以及图像生成方法
CN101605209A (zh) 摄像装置及图像再生装置
CN111835983B (zh) 一种基于生成对抗网络的多曝光图高动态范围成像方法及系统
CN114841897B (zh) 基于自适应模糊核估计的深度去模糊方法
CN111079507B (zh) 一种行为识别方法及装置、计算机装置及可读存储介质
CN114885112B (zh) 基于数据融合的高帧率视频生成方法及装置
CN112270692A (zh) 一种基于超分辨的单目视频结构和运动预测的自监督方法
CN100465994C (zh) 按比例缩小数字矩阵图像的方法及装置
CN116612015A (zh) 模型训练方法、图像去摩尔纹方法、装置及电子设备
CN114170286A (zh) 一种基于无监督深度学习的单目深度估计方法
Han et al. Hybrid high dynamic range imaging fusing neuromorphic and conventional images
CN113658091A (zh) 一种图像评价方法、存储介质及终端设备
CN114881921A (zh) 基于事件及视频融合的去遮挡成像方法及装置
CN114885144B (zh) 基于数据融合的高帧率3d视频生成方法及装置
CN113689382A (zh) 基于医学影像和病理图像的肿瘤术后生存期预测方法及系统
CN111583345B (zh) 一种相机参数的获取方法、装置、设备及存储介质
CN116091337B (zh) 一种基于事件信号神经编码方式的图像增强方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant