CN116208812A - 一种基于立体事件和强度相机的视频插帧方法及系统 - Google Patents

一种基于立体事件和强度相机的视频插帧方法及系统 Download PDF

Info

Publication number
CN116208812A
CN116208812A CN202310127298.1A CN202310127298A CN116208812A CN 116208812 A CN116208812 A CN 116208812A CN 202310127298 A CN202310127298 A CN 202310127298A CN 116208812 A CN116208812 A CN 116208812A
Authority
CN
China
Prior art keywords
frame
event
interpolation
video
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310127298.1A
Other languages
English (en)
Inventor
余磊
丁超
林明远
姜晨旭
张海剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202310127298.1A priority Critical patent/CN116208812A/zh
Publication of CN116208812A publication Critical patent/CN116208812A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/587Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal sub-sampling or interpolation, e.g. decimation or subsequent interpolation of pictures in a video sequence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440281Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the temporal resolution, e.g. by frame skipping
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

本发明提供一种基于立体事件和强度相机的视频插帧方法及系统,属于图像处理技术领域,包括:采集原始图像帧和原始事件流;提取原始图像帧中的任意连续图像帧,基于任意连续图像帧确定帧间事件流;将任意连续图像帧和帧间事件流输入至卷积神经网络中进行训练,并基于模型训练得到的插帧结果与真实图像构建的损失函数,得到视频插帧模型;确定待处理图像帧和待处理帧间事件流输入至视频插帧模型,得到视频插帧结果。本发明综合利用基于卷积神经网络的强度相机和事件相机进行视频插帧,实现了两类数据在空间不对齐条件下的高质量立体视频插帧。

Description

一种基于立体事件和强度相机的视频插帧方法及系统
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于立体事件和强度相机的视频插帧方法及系统。
背景技术
视频插帧技术是计算机视觉技术在视频增强领域的应用,旨在利用连续的输入图像帧去生成缺失的中间图像帧,从而突破传统相机低采样频率的限制,提高视频频率以获得更加丝滑流畅的观感。
由于事件相机具有极高的时间分辨率,可以提供在图像帧之间缺失的纹理及运动信息,从而极大地提高视频插帧算法的性能,然而目前基于事件的视频插帧方法通常依赖事件流与图像帧在像素级空间对齐的假设,然而在实际应用中往往需要依赖独立的事件相机和强度相机来进行数据采集,因而事件流与图像帧之间存在视差,这会使得插帧结果存在明显失真和伪影,导致算法性能显著下降。尽管存在动态视觉传感器(Dynamic andactive vision sensor,DAVIS)这类可以通过单一传感器同时获得对齐的事件流和图像帧的事件相机,但是这类相机捕获的图像存在低分辨率、低动态范围等问题,会阻碍现有方法在实际应用中的推广。因此,多数应用通过设置立体事件和强度相机来捕获数据,通过单应性变化和立体矫正的方法可以粗略地解决立体相机的空间对齐问题,但当遇到包含复杂运动及深度变化的动态场景时,以上方法则无法有效解决对齐问题。
传统的立体相机匹配算法依赖同时捕获的两张图像帧来估计视差数据,然而在立体视频插帧任务中存在一个严重的耦合问题:即需要缺失的中间图像帧与对应的事件流来估计视差,又需要视差来辅助立体相机的数据对齐,并进一步引导生成中间帧。
发明内容
本发明提供一种基于立体事件和强度相机的视频插帧方法及系统,用以解决现有技术中视频插帧中数据无法对齐,导致处理结果不够理想的缺陷。
第一方面,本发明提供一种基于立体事件和强度相机的视频插帧方法,包括:
采集原始图像帧和原始事件流;
提取所述原始图像帧中的任意连续图像帧,基于所述任意连续图像帧确定帧间事件流;
将所述任意连续图像帧和所述帧间事件流输入至卷积神经网络中进行训练,并基于模型训练得到的插帧结果与真实图像构建的损失函数,得到视频插帧模型;
确定待处理图像帧和待处理帧间事件流输入至所述视频插帧模型,得到视频插帧结果。
根据本发明提供的一种基于立体事件和强度相机的视频插帧方法,所述将所述任意连续图像帧和所述帧间事件流输入至卷积神经网络中进行训练,并基于模型训练得到的插帧结果与真实图像构建的损失函数,得到视频插帧模型,包括:
将所述任意连续图像帧和所述帧间事件流输入至双向光流网络,得到粗略插帧结果和双向光流;
将所述粗略插帧结果和所述双向光流输入至融合网络,得到融合插帧结果;
将所述融合插帧结果输入至精炼网络,输出优化后插帧结果;
基于所述优化后插帧结果和所述真实图像构建综合损失函数,得到所述视频插帧模型。
根据本发明提供的一种基于立体事件和强度相机的视频插帧方法,所述将所述任意连续图像帧和所述帧间事件流输入至双向光流网络,得到粗略插帧结果和双向光流,包括:
通过图像帧编码器提取所述任意连续图像帧中的图像特征信息,通过事件流编码器提取所述帧间事件流中的事件特征信息;
利用特征融合注意力模块将所述图像特征信息和所述事件特征信息进行融合对齐,输出所述双向光流;
通过所述双向光流对所述任意连续图像帧进行变换,得到所述粗略插帧结果。
根据本发明提供的一种基于立体事件和强度相机的视频插帧方法,所述将所述粗略插帧结果和所述双向光流输入至融合网络,得到融合插帧结果,包括:
确定与所述任意连续图像帧对应的两个像素级掩膜;
采用所述两个像素级掩膜与所述双向光流进行像素级相乘,获得所述融合插帧结果。
根据本发明提供的一种基于立体事件和强度相机的视频插帧方法,所述将所述融合插帧结果输入至精炼网络,输出优化后插帧结果,包括:
将所述融合插帧结果输入至残差密集网络,得到由所述融合插帧结果和输出残差构成的所述优化后插帧结果。
根据本发明提供的一种基于立体事件和强度相机的视频插帧方法,所述基于所述优化后插帧结果和所述真实图像构建综合损失函数,包括:
采用L1范数损失,基于所述融合插帧结果、所述优化后插针结果和所述真实图像构建重建损失函数;
采用平滑L1范数损失,基于特征视差和真实视差构建图像显示损失函数;
采用光度一致性损失和光流平滑性损失,基于所述优化后插针结果和所述双向光流,构建事件流损失函数;
综合所述重建损失函数、所述图像显示损失函数和所述事件流损失函数进行加权求和,得到所述综合损失函数。
根据本发明提供的一种基于立体事件和强度相机的视频插帧方法,所述确定待处理图像帧和待处理帧间事件流输入至所述视频插帧模型,得到视频插帧结果,包括:
获取所述待处理图像帧中的任意连续图像帧,提取所述待处理图像帧的曝光时刻之间的帧间事件流;
将所述任意连续图像帧和所述帧间事件流输入至所述视频插帧模型,输出所述视频插帧结果。
第二方面,本发明还提供一种基于立体事件和强度相机的视频插帧系统,包括:
采集模块,用于采集原始图像帧和原始事件流;
提取模块,用于提取所述原始图像帧中的任意连续图像帧,基于所述任意连续图像帧确定帧间事件流;
训练模块,用于将所述任意连续图像帧和所述帧间事件流输入至卷积神经网络中进行训练,并基于模型训练得到的插帧结果与真实图像构建的损失函数,得到视频插帧模型;
处理模块,用于确定待处理图像帧和待处理帧间事件流输入至所述视频插帧模型,得到视频插帧结果。
第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于立体事件和强度相机的视频插帧方法。
第四方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于立体事件和强度相机的视频插帧方法。
本发明提供的基于立体事件和强度相机的视频插帧方法及系统,通过综合利用基于卷积神经网络的强度相机和事件相机进行视频插帧,实现了两类数据在空间不对齐条件下的高质量立体视频插帧。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于立体事件和强度相机的视频插帧方法的流程示意图之一;
图2是本发明提供的立体相机组示意图;
图3是本发明提供的基于立体事件和强度相机的视频插帧方法的流程示意图之二;
图4是本发明提供的神经网络结构示意图;
图5是本发明提供的DSEC数据集插帧结果对比图;
图6是本发明提供的MVSEC数据集插帧结果对比图;
图7是本发明提供的基于立体事件和强度相机的视频插帧系统的结构示意图;
图8是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的基于立体事件和强度相机的视频插帧方法的流程示意图之一,如图1所示,包括:
步骤100:采集原始图像帧和原始事件流;
步骤200:提取所述原始图像帧中的任意连续图像帧,基于所述任意连续图像帧确定帧间事件流;
步骤300:将所述任意连续图像帧和所述帧间事件流输入至卷积神经网络中进行训练,并基于模型训练得到的插帧结果与真实图像构建的损失函数,得到视频插帧模型;
步骤400:确定待处理图像帧和待处理帧间事件流输入至所述视频插帧模型,得到视频插帧结果。
本发明通过设置一个事件相机和一个强度相机所组成的立体相机组,如图2所示,可以实现对目标场景的双视角拍摄,充分利用了事件流数据与强度图像之间的联系,结合两个视角之间的深度及视差信息,将立体事件和强度相机设置下的视频插帧问题转化为精细光流估计以及扭曲图像融合模型,通过求解损失函数约束下的能量最小化问题重建出高质量的插帧图像结果。
需要说明的是,本发明首先获取立体事件和强度相机输出连续捕获的强度图像和图像帧之间对应的事件流;然后构建和训练卷积神经网络,其中,双编码器对输入的强度图像和事件流分别提取特征信息,利用特征融合注意力模块提取强度图像和事件流之间的视差关系,关联并融合深层的多模态特征信息,得到双向精细光流,融合网络对输入的光流扭曲后的图像进行掩膜估计,利用像素级融合的方式消除伪影和空洞,精炼网络对融合图像作进一步细化得到最终的高质量插帧结果,结合插帧算法得到的高质量插帧结果与真实高质量图像构建损失函数,通过自适应随机优化(Adaptive momentum,ADAM)迭代优化器训练卷积神经网络;最后将强度图像和图像帧之间对应事件流通过训练后的插帧模型得到重建的高质量插帧图像。
流程如图3所示,首先分别由图像帧编码器采集强度图像,由事件流编码器采集事件流,再由特征融合注意力模块融合强度图像和事件流,之后经过光流解码器进行处理,再与强度图像进行光流扭曲,依次通过融合网络和精炼网络处理后,得到最后的插帧结果。
具体地,首先通过强度相机采集图像帧,同时通过事件相机连续采集事件流;然后选取强度相机捕获的任意连续图像帧I0,1,其中I0表示0时刻图像帧,I1表示1时刻图像帧,并根据图像帧时间戳选取在0时刻到1时刻两帧之间激发的事件流E0→1;需要对数据进行预处理,对于期望的归一化插帧时刻t(t∈[0,1]),将事件流划分为Et→0、Et→1两部分,其中Et→0表示0时刻到t时刻激发的事件流的反转表示,Et→1表示t时刻到1时刻激发的事件流。再将两张图像帧与两段事件流输入到卷积神经网络中,生成高质量的插帧结果It,再利用网络得到的插帧结果It与真实图像Igt构建损失函数,迭代训练得到完善的视频插帧模型;最后将输入图像帧与对应的帧间事件流数据输入到训练好的视频插帧模型中,生成高质量的中间帧,从而提高输入视频的帧率。
本发明通过研究基于立体事件和强度相机的视频插帧技术,关联并融合带有视差的高时间分辨率的事件数据与低帧率的强度图像,生成缺失的中间图像帧,对于事件相机在实际场景中的应用研究具有重要价值。
基于上述实施例,步骤300包括:
将所述任意连续图像帧和所述帧间事件流输入至双向光流网络,得到粗略插帧结果和双向光流;
将所述粗略插帧结果和所述双向光流输入至融合网络,得到融合插帧结果;
将所述融合插帧结果输入至精炼网络,输出优化后插帧结果;
基于所述优化后插帧结果和所述真实图像构建综合损失函数,得到所述视频插帧模型。
其中,所述将所述任意连续图像帧和所述帧间事件流输入至双向光流网络,得到粗略插帧结果和双向光流,包括:
通过图像帧编码器提取所述任意连续图像帧中的图像特征信息,通过事件流编码器提取所述帧间事件流中的事件特征信息;
利用特征融合注意力模块将所述图像特征信息和所述事件特征信息进行融合对齐,输出所述双向光流;
通过所述双向光流对所述任意连续图像帧进行变换,得到所述粗略插帧结果。
其中,所述将所述粗略插帧结果和所述双向光流输入至融合网络,得到融合插帧结果,包括:
确定与所述任意连续图像帧对应的两个像素级掩膜;
采用所述两个像素级掩膜与所述双向光流进行像素级相乘,获得所述融合插帧结果。
其中,所述将所述融合插帧结果输入至精炼网络,输出优化后插帧结果,包括:
将所述融合插帧结果输入至残差密集网络,得到由所述融合插帧结果和输出残差构成的所述优化后插帧结果。
其中,所述基于所述优化后插帧结果和所述真实图像构建综合损失函数,包括:
采用L1范数损失,基于所述融合插帧结果、所述优化后插帧结果和所述真实图像构建重建损失函数;
采用平滑L1范数损失,基于特征视差和真实视差构建图像显示损失函数;
采用光度一致性损失和光流平滑性损失,基于所述优化后插针结果和所述双向光流,构建事件流损失函数;
综合所述重建损失函数、所述图像显示损失函数和所述事件流损失函数进行加权求和,得到所述综合损失函数。
具体地,本发明所涉及的神经网络结构如图4所示,包括三个子网络:双向光流网络(Bi-directional FlowNet),融合网络(FusionNet)及精炼网络(RefineNet)。其中,双向光流网络包括图像帧编码器、事件流编码器、特征融合注意力模块(Feature FusionAttention Module,FFAM)和光流解码器,融合网络包括光流扭曲操作、通道块注意力模块和两个掩膜,精炼网络包括残差密集网络。此处,双向光流网络是基于编码器-解码器结构进行搭建的,我们设置了权重不共享的两个编码器分别从图像帧和事件流中提取特征信息,在编码器的各级输出端设置了特征融合注意力模块来对编码器提取出的特征进行融合对齐。
具体来说,对于双编码器提取的特征
Figure BDA0004082557820000081
其中/>
Figure BDA0004082557820000082
表示提取的图像帧特征,/>
Figure BDA0004082557820000083
表示提取的事件流特征,首先输入到空间注意力模块(Spatial AttentionModule,SAM)中,利用具有不同尺寸的平行卷积核进行空间注意力的提取,再将提取后的特征输入到特征视差估计模块(Feature Disparity Estimate Module,FDEM)中,估计出两类特征之间的视差/>
Figure BDA0004082557820000084
其中Ωf、Ωe分别代表强度相机和事件相机的成像平面。通过视差估计,利用视差变换函数实现两类特征的空间对齐,并进一步利用对齐的特征估计出双向光流,表示为:
Figure BDA0004082557820000085
其中,
Figure BDA0004082557820000086
表示t时刻图像帧/>
Figure BDA0004082557820000087
到0时刻图像帧/>
Figure BDA0004082557820000088
之间的光流,/>
Figure BDA0004082557820000089
表示t时刻图像帧/>
Figure BDA00040825578200000810
到1时刻图像帧/>
Figure BDA00040825578200000811
之间的光流,FlowNet表示双向光流网络函数,t表示目标插帧时刻的归一化表示,/>
Figure BDA00040825578200000812
表示强度相机0时刻捕获的图像帧,/>
Figure BDA0004082557820000091
表示强度相机1时刻捕获的图像帧,/>
Figure BDA0004082557820000092
表示事件相机0时刻到t时刻捕获的事件数据的反转表示,/>
Figure BDA0004082557820000093
表示事件相机t时刻到1时刻捕获的事件数据。
通过双向光流网络对齐数据预测出光流之后,可以通过光流对输入图像帧进行变换得到两个粗略的插帧结果
Figure BDA0004082557820000094
然而当输入图像帧中的物体发生较大运动时,通过光流变换得到的插帧结果往往在物体和图像边缘存在着严重的失真问题。针对这类问题,本发明设计了一个融合网络,利用光流变换的粗略插帧结果和双向光流作为输入,重点关注两张粗略结果中的清晰内容,预测出两个像素级掩膜来进行后续的插帧结果融合,表示为:
Figure BDA0004082557820000095
Figure BDA0004082557820000096
其中⊙表示像素级的乘法操作,
Figure BDA0004082557820000097
表示融合网络的输出结果,/>
Figure BDA0004082557820000098
表示融合网络输出对应0时刻的像素级掩膜,/>
Figure BDA0004082557820000099
表示融合网络输出对应1时刻的像素级掩膜,FusionNet表示用于估计像素级掩膜的融合网络函数,/>
Figure BDA00040825578200000910
表示通过光流/>
Figure BDA00040825578200000911
将/>
Figure BDA00040825578200000912
从0时刻变换到t时刻得到的图像帧,/>
Figure BDA00040825578200000913
表示通过光流/>
Figure BDA00040825578200000914
将/>
Figure BDA00040825578200000915
从1时刻变换到t时刻得到的图像帧。
通过融合网络得到的插帧结果在一定程度上消除了视差,但是在细节上仍然存在模糊和瑕疵,因此本发明设置了一个精炼网络,利用残差密集网络(Residual DenseNetwork)接收融合图像作为输入,计算出残差用于对插帧结果的细节部分进行进一步的优化,表示为:
Figure BDA00040825578200000916
/>
Figure BDA00040825578200000917
其中,
Figure BDA00040825578200000924
表示精炼网络输出的残差,It表示优化后的插帧结果,/>
Figure BDA00040825578200000918
表示融合网络的输出结果,RefineNet表示精炼网络函数,/>
Figure BDA00040825578200000919
表示事件相机0时刻到t时刻捕获的事件数据的反转表示,/>
Figure BDA00040825578200000920
表示事件相机t时刻到1时刻捕获的事件数据。
在本发明的模型训练过程中,对预测出的视差
Figure BDA00040825578200000921
双向光流/>
Figure BDA00040825578200000922
融合结果/>
Figure BDA00040825578200000923
及最终插帧结果It进行损失函数的计算,损失函数包括以下三个部分:
Figure BDA0004082557820000101
Figure BDA0004082557820000102
Figure BDA0004082557820000103
其中,
Figure BDA0004082557820000104
表示重建损失函数,/>
Figure BDA0004082557820000105
表示图像显示损失函数,/>
Figure BDA0004082557820000106
表示事件流损失函数,/>
Figure BDA0004082557820000107
表示融合网络的输出结果,Igt表示真实图像,It表示优化后的插帧结果,
Figure BDA0004082557820000108
表示预测的两类特征之间误差,0表示0时刻图像帧,I1表示1时刻图像帧,It表示归一化插帧时刻t图像帧,/>
Figure BDA0004082557820000109
表示t时刻图像帧/>
Figure BDA00040825578200001010
到0时刻图像帧/>
Figure BDA00040825578200001011
之间的光流,/>
Figure BDA00040825578200001012
表示t时刻图像帧/>
Figure BDA00040825578200001013
到1时刻图像帧/>
Figure BDA00040825578200001014
之间的光流,/>
Figure BDA00040825578200001015
表示L1范数损失,/>
Figure BDA00040825578200001016
表示smooth L1范数损失,Dgt为真实的视差数据,/>
Figure BDA00040825578200001017
表示光度一致性损失,/>
Figure BDA00040825578200001018
为光流的平滑性损失。最终的损失函数为以上几项的加权和,表示为:
Figure BDA00040825578200001019
其中λr、λd和λf分别为三个损失函数重建损失函数、图像显示损失函数和事件流损失函数各自的权重,
Figure BDA00040825578200001020
为综合损失函数,且权重向量为:[r,d,f]=[2,0.01,0.01]。
最后将输入数据,需要先选取连续强度图像帧以及与图像帧曝光时刻之间的事件流数据,输入到训练好的模型中插帧获得高质量的重建图像。
基于上述实施例,本发明还在不同的数据集下结合不同的算法进行了验证,其中图5是本发明提供的DSEC数据集插帧结果对比图,从左上到右下分别为输入两张图像帧的重叠示意图,考虑深度信息的基于图像帧的视频插帧算法(DAIN),基于中间流估计的实时视频插帧算法(RIFE),通过残差细分的视频插帧算法(RRIN),基于高质量中间帧估计的视频插帧算法(SuperSlomo),基于事件的视频插帧算法(Time Lens),基于本发明的立体事件视频插帧算法(SE-VFI)以及作为参考的真实高质量图像帧,表1展示了DSEC数据集插帧结果指标对比数据。
表1
Figure BDA0004082557820000111
图6是本发明提供的MVSEC数据集插帧结果对比图,从左上到右下分别为输入两张图像帧的重叠示意图,考虑深度信息的基于图像帧的视频插帧算法(DAIN),基于中间流估计的实时视频插帧算法(RIFE),通过残差细分的视频插帧算法(RRIN),基于高质量中间帧估计的视频插帧算法(SuperSlomo),基于事件的视频插帧算法(Time Lens),基于本发明的立体事件视频插帧算法(SE-VFI)以及作为参考的真实高质量图像帧,表2展示了MVSEC数据集插帧结果指标对比。
表2
Figure BDA0004082557820000112
需要说明的是,在有参考图像的实验中使用峰值信噪比(Peak Signal to NoiseRatio,PSNR)和结构相似度(Structural Similarity,SSIM)作为衡量标准,二者具体定义如下:
PSNR=10*log10(2552/mean(mean((X-Y).2)))
SSIM=[L(X,Y)a]×[C(X,Y)b]×[S(X,Y)c]
其中
Figure BDA0004082557820000121
mean为求取数组均值函数,X和Y为任意两个被比较对象,μX和μY分别代表X和Y的均值,σX、σY和σXY分别代表X和Y的方差以及二者的协方差。另外,C1、C2和C3分别为L(X,Y)、C(X,Y)和S(X,Y)中的调整常数,为避免分母为0时带来的系统错误,a、b和c分别为指数,在实际应用中,指数a=b=c=1,C3=0.5×C2,则/>
Figure BDA0004082557820000122
PSNR与SSIM数值越高,则说明重建效果越好。
下面对本发明提供的基于立体事件和强度相机的视频插帧系统进行描述,下文描述的基于立体事件和强度相机的视频插帧系统与上文描述的基于立体事件和强度相机的视频插帧方法可相互对应参照。
图7是本发明实施例提供的基于立体事件和强度相机的视频插帧系统的结构示意图,如图7所示,包括:采集模块71、提取模块72、训练模块73和处理模块74,其中:
采集模块71用于采集原始图像帧和原始事件流;提取模块72用于提取所述原始图像帧中的任意连续图像帧,基于所述任意连续图像帧确定帧间事件流;训练模块73用于将所述任意连续图像帧和所述帧间事件流输入至卷积神经网络中进行训练,并基于模型训练得到的插帧结果与真实图像构建的损失函数,得到视频插帧模型;处理模块74用于确定待处理图像帧和待处理帧间事件流输入至所述视频插帧模型,得到视频插帧结果。
图8示例了一种电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行基于立体事件和强度相机的视频插帧方法,该方法包括:采集原始图像帧和原始事件流;提取所述原始图像帧中的任意连续图像帧,基于所述任意连续图像帧确定帧间事件流;将所述任意连续图像帧和所述帧间事件流输入至卷积神经网络中进行训练,并基于模型训练得到的插帧结果与真实图像构建的损失函数,得到视频插帧模型;确定待处理图像帧和待处理帧间事件流输入至所述视频插帧模型,得到视频插帧结果。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的基于立体事件和强度相机的视频插帧方法,该方法包括:采集原始图像帧和原始事件流;提取所述原始图像帧中的任意连续图像帧,基于所述任意连续图像帧确定帧间事件流;将所述任意连续图像帧和所述帧间事件流输入至卷积神经网络中进行训练,并基于模型训练得到的插帧结果与真实图像构建的损失函数,得到视频插帧模型;确定待处理图像帧和待处理帧间事件流输入至所述视频插帧模型,得到视频插帧结果。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于立体事件和强度相机的视频插帧方法,该方法包括:采集原始图像帧和原始事件流;提取所述原始图像帧中的任意连续图像帧,基于所述任意连续图像帧确定帧间事件流;将所述任意连续图像帧和所述帧间事件流输入至卷积神经网络中进行训练,并基于模型训练得到的插帧结果与真实图像构建的损失函数,得到视频插帧模型;确定待处理图像帧和待处理帧间事件流输入至所述视频插帧模型,得到视频插帧结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于立体事件和强度相机的视频插帧方法,其特征在于,包括:
采集原始图像帧和原始事件流;
提取所述原始图像帧中的任意连续图像帧,基于所述任意连续图像帧确定帧间事件流;
将所述任意连续图像帧和所述帧间事件流输入至卷积神经网络中进行训练,并基于模型训练得到的插帧结果与真实图像构建的损失函数,得到视频插帧模型;
确定待处理图像帧和待处理帧间事件流输入至所述视频插帧模型,得到视频插帧结果。
2.根据权利要求1所述的基于立体事件和强度相机的视频插帧方法,其特征在于,所述将所述任意连续图像帧和所述帧间事件流输入至卷积神经网络中进行训练,并基于模型训练得到的插帧结果与真实图像构建的损失函数,得到视频插帧模型,包括:
将所述任意连续图像帧和所述帧间事件流输入至双向光流网络,得到粗略插帧结果和双向光流;
将所述粗略插帧结果和所述双向光流输入至融合网络,得到融合插帧结果;
将所述融合插帧结果输入至精炼网络,输出优化后插帧结果;
基于所述优化后插帧结果和所述真实图像构建综合损失函数,得到所述视频插帧模型。
3.根据权利要求2所述的基于立体事件和强度相机的视频插帧方法,其特征在于,所述将所述任意连续图像帧和所述帧间事件流输入至双向光流网络,得到粗略插帧结果和双向光流,包括:
通过图像帧编码器提取所述任意连续图像帧中的图像特征信息,通过事件流编码器提取所述帧间事件流中的事件特征信息;
利用特征融合注意力模块将所述图像特征信息和所述事件特征信息进行融合对齐,输出所述双向光流;
通过所述双向光流对所述任意连续图像帧进行变换,得到所述粗略插帧结果。
4.根据权利要求2所述的基于立体事件和强度相机的视频插帧方法,其特征在于,所述将所述粗略插帧结果和所述双向光流输入至融合网络,得到融合插帧结果,包括:
确定与所述任意连续图像帧对应的两个像素级掩膜;
采用所述两个像素级掩膜与所述双向光流进行像素级相乘,获得所述融合插帧结果。
5.根据权利要求2所述的基于立体事件和强度相机的视频插帧方法,其特征在于,所述将所述融合插帧结果输入至精炼网络,输出优化后插帧结果,包括:
将所述融合插帧结果输入至残差密集网络,得到由所述融合插帧结果和输出残差构成的所述优化后插帧结果。
6.根据权利要求2所述的基于立体事件和强度相机的视频插帧方法,其特征在于,所述基于所述优化后插帧结果和所述真实图像构建综合损失函数,包括:
采用L1范数损失,基于所述融合插帧结果、所述优化后插针结果和所述真实图像构建重建损失函数;
采用平滑L1范数损失,基于特征视差和真实视差构建图像显示损失函数;
采用光度一致性损失和光流平滑性损失,基于所述优化后插针结果和所述双向光流,构建事件流损失函数;
综合所述重建损失函数、所述图像显示损失函数和所述事件流损失函数进行加权求和,得到所述综合损失函数。
7.根据权利要求1所述的基于立体事件和强度相机的视频插帧方法,其特征在于,所述确定待处理图像帧和待处理帧间事件流输入至所述视频插帧模型,得到视频插帧结果,包括:
获取所述待处理图像帧中的任意连续图像帧,提取所述待处理图像帧的曝光时刻之间的帧间事件流;
将所述任意连续图像帧和所述帧间事件流输入至所述视频插帧模型,输出所述视频插帧结果。
8.一种基于立体事件和强度相机的视频插帧系统,其特征在于,包括:
采集模块,用于采集原始图像帧和原始事件流;
提取模块,用于提取所述原始图像帧中的任意连续图像帧,基于所述任意连续图像帧确定帧间事件流;
训练模块,用于将所述任意连续图像帧和所述帧间事件流输入至卷积神经网络中进行训练,并基于模型训练得到的插帧结果与真实图像构建的损失函数,得到视频插帧模型;
处理模块,用于确定待处理图像帧和待处理帧间事件流输入至所述视频插帧模型,得到视频插帧结果。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于立体事件和强度相机的视频插帧方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于立体事件和强度相机的视频插帧方法。
CN202310127298.1A 2023-02-15 2023-02-15 一种基于立体事件和强度相机的视频插帧方法及系统 Pending CN116208812A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310127298.1A CN116208812A (zh) 2023-02-15 2023-02-15 一种基于立体事件和强度相机的视频插帧方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310127298.1A CN116208812A (zh) 2023-02-15 2023-02-15 一种基于立体事件和强度相机的视频插帧方法及系统

Publications (1)

Publication Number Publication Date
CN116208812A true CN116208812A (zh) 2023-06-02

Family

ID=86514291

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310127298.1A Pending CN116208812A (zh) 2023-02-15 2023-02-15 一种基于立体事件和强度相机的视频插帧方法及系统

Country Status (1)

Country Link
CN (1) CN116208812A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117596373A (zh) * 2024-01-17 2024-02-23 淘宝(中国)软件有限公司 基于动态数字人形象进行信息展示的方法及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117596373A (zh) * 2024-01-17 2024-02-23 淘宝(中国)软件有限公司 基于动态数字人形象进行信息展示的方法及电子设备
CN117596373B (zh) * 2024-01-17 2024-04-12 淘宝(中国)软件有限公司 基于动态数字人形象进行信息展示的方法及电子设备

Similar Documents

Publication Publication Date Title
CN111028177B (zh) 一种基于边缘的深度学习图像去运动模糊方法
Claus et al. Videnn: Deep blind video denoising
WO2021208122A1 (zh) 基于深度学习的视频盲去噪方法及装置
CN110324664B (zh) 一种基于神经网络的视频补帧方法及其模型的训练方法
Dudhane et al. Burst image restoration and enhancement
CN111028150B (zh) 一种快速时空残差注意力视频超分辨率重建方法
CN109819321B (zh) 一种视频超分辨率增强方法
CN111260560B (zh) 一种融合注意力机制的多帧视频超分辨率方法
WO2022166245A1 (zh) 一种视频帧的超分辨率重构方法
CN111986106B (zh) 一种基于神经网络的高动态图像重建方法
CN111369466B (zh) 基于可变形卷积的卷积神经网络的图像畸变矫正增强方法
Lu et al. Progressive joint low-light enhancement and noise removal for raw images
CN112200732B (zh) 一种清晰特征融合的视频去模糊方法
Korus et al. Content authentication for neural imaging pipelines: End-to-end optimization of photo provenance in complex distribution channels
Zhang et al. Deep motion blur removal using noisy/blurry image pairs
Yang et al. Learning event guided high dynamic range video reconstruction
CN112750092A (zh) 训练数据获取方法、像质增强模型与方法及电子设备
CN116208812A (zh) 一种基于立体事件和强度相机的视频插帧方法及系统
Mehta et al. Gated multi-resolution transfer network for burst restoration and enhancement
CN115115516A (zh) 基于Raw域的真实世界视频超分辨率算法
CN114926336A (zh) 视频超分辨率重建方法、装置、计算机设备及存储介质
Ye et al. LFIENet: Light field image enhancement network by fusing exposures of LF-DSLR image pairs
CN115841523A (zh) 一种基于Raw域的双支路HDR视频重建算法
CN112348745B (zh) 一种基于残差卷积网络的视频超分辨率重构方法
CN113902647A (zh) 一种基于双闭环网络的图像去模糊方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination