CN114245007A - 一种高帧率视频合成方法、装置、设备和存储介质 - Google Patents

一种高帧率视频合成方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN114245007A
CN114245007A CN202111481413.2A CN202111481413A CN114245007A CN 114245007 A CN114245007 A CN 114245007A CN 202111481413 A CN202111481413 A CN 202111481413A CN 114245007 A CN114245007 A CN 114245007A
Authority
CN
China
Prior art keywords
image
event
frame
time
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111481413.2A
Other languages
English (en)
Other versions
CN114245007B (zh
Inventor
戴玉超
万哲雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202111481413.2A priority Critical patent/CN114245007B/zh
Publication of CN114245007A publication Critical patent/CN114245007A/zh
Application granted granted Critical
Publication of CN114245007B publication Critical patent/CN114245007B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/95Computational photography systems, e.g. light-field imaging systems
    • H04N23/951Computational photography systems, e.g. light-field imaging systems by using two or more images to influence resolution, frame rate or aspect ratio
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种高帧率视频合成方法、装置、设备和存储介质,获取一帧图像和以该图像采集时刻到截止时刻的一段不定数量的事件序列;将事件序列拆分成设定份数;将每份事件数据流表示为能够作为网络输入数据的表示形式;图像和第一个事件表示输入至隐帧合成模型,经由该模型中连接在一起的多个模块的运算,模型输出合成的图像帧,作为合成的高帧率视频中除输入图像外的第一帧;重复上一步骤,将剩余的事件表示按照顺序分别输入至隐帧合成模型中,模型输出的多帧图像帧按照顺序合并作为高帧率视频合成结果。本发明方法基于高分辨率传统彩色快门相机图像数据,结合使用仿生视觉传感器的事件数据,将两种传感器优势互补,进而实现高帧率高质量的视频合成。

Description

一种高帧率视频合成方法、装置、设备和存储介质
技术领域
本发明属于视频处理技术领域,具体涉及一种视频合成方法、装置、设备和存储介质。
背景技术
人眼是没有“帧率”这一概念的,我们的眼睛不是一个高速拍照的摄像机。而传统相机的运作方式是等时间间距采样,每一张拍摄画面成为一帧,这种“间断”的拍摄方式会带来很多问题,尤其是很多计算机视觉算法需要逐帧处理图像,提高帧率将带来更大的计算量,这一缺点在拍摄高速运动的物体时相当明显。传统计算机视觉因此饱受冗余数据的困扰,无法进行高效且低功耗的运动目标分析。而人类因为清晰的视网膜细胞分层和不同视觉通道,具有超高的分辨率、灵敏的响应速度、强大的并行处理能力,功耗也非常低,能够对场景中的特征信息进行提取而不是单纯的如同普通快门相机那样对光照强度进行绝对的数值化呈现,这些优点是目前快门相机无法做到的。
事件相机(Event-based Camera)也称动态视觉传感器,它是一种仿生传感器,能够异步输出每个像素的亮度变化。作为一款新兴的仿生视觉传感器,因其异步输出每个像素的亮度变化与否的特性,在很多传统相机的挑战性场景如高速运动和高动态范围等场景展现出了极大的应用潜力。事件相机具有高时间分辨率、低延迟(均在微秒级)、低功耗、低带宽和高动态范围(通常为140dB左右,传统帧快门相机一般为60dB)等优点,并且具有没有固定观察频率、像素电路间并行处理、硬件完成动态特征提取、无冗余背景信息等特点。这使其在一些具有挑战性的计算机视觉场景,如高动态范围、高速运动等场景中,比起传统帧相机仅能以固定帧率输出亮度图像,事件相机能够明显体现出其优势,尤其是在机器人、自动驾驶和可穿戴设备等领域的应用前景更为突出。目前应用较为广泛的事件相机有动态视觉传感器(Dynamic Vision Sensor,DVS)和动态及主动式像素视觉传感器(Dynamic andActive-pixel Vision Sensor,DAVIS)两种。其中DAVIS相机在DVS相机捕捉亮度变化的基础上还能够捕捉类似传统CMOS相机的强度图像(Intensity image)。
事件相机是一种异步传感器,对场景中每个像素的亮度变化做出异步和独立的响应,其动态采样场景中的光线变化进而动态输出,而不是与观测场景无关的固定时间频率采样。事件相机的输出是数字“事件”或“峰值”的可变数据速率序列,每个事件表示在特定时间点时特定像素处预定义的大小的亮度(对数强度)变化。这种编码的灵感来自生物视觉通路的尖峰性质。每个像素在每次发送事件时都要存储当前对数强度,并不断地监视这个存储值是否有足够大的变化。当监测到单个像素的对数域亮度变化超过一定阈值时,相机会立即返回一个事件。每一个事件均由该亮度变化的时空坐标(像素位置坐标x,y和毫秒级精度的当前时间戳t)及其极性p构成,即:
e={x,y,t,p}
事件相机的每个像素是独立的,每个像素能够监测对数级的光电流
Figure BDA0003395362040000021
称之为“亮度”,I为灰度值。具体来说,在不考虑噪声的前提下,单个事件的极性表示亮度增加或减小,一般+1表示亮度增加,-1则表示亮度减小。当
Figure BDA0003395362040000022
Figure BDA0003395362040000023
达到对比度灵敏度阈值±C(C>0)时才会触发事件,即
ΔL(xk,tk)=pkC
其中△tk为同一像素处上次事件经过的时间,极性pk∈{+1,-1}为亮度变化的符号。对比度灵敏度阈值C由像素的偏置电流决定,像素偏置电流取决于传感器片上变化检测器的速度和阈值电压,由芯片上的数字程序偏置发生器产生。
事件相机的输出取决于场景中的运动量或亮度变化。运动越快,每秒产生的事件就越多,数据也就越多,因为每个像素都根据其监测的对数强度信号的变化率调整其增量调制器采样率。每个事件的时间戳t具有微秒级时间分辨率,传输延迟为亚毫秒级别,这使得其对视觉刺激反应迅速。由于一个像素点的入射光是场景照度和表面反射率的乘积,因此场景中的对数强度变化通常表示反射率的变化(因为通常光照是恒定的,而乘积的对数是每个对数值之和),这些反射率的变化主要是由于视野中物体的运动引起的。这也就是事件相机的亮度变化事件对场景光照具有固有不变性的原因。此外,事件相机具有高灵敏度的优点,且冗余数据接近于零,使得其有实时监测动态信息的能力。不过事件相机也有其局限性,尽管是基于视网膜成像原理的仿生传感器,但是它只能获取场景中光照的强度变化,对于其他的深度、边缘、对比、颜色等特征信息没有办法采集和分析,这也是使得基于事件相机的应用目前还没有广泛的得到推广的重要原因之一。
事件相机的出现给计算机视觉任务带来的关键挑战之一是如何从事件数据流中提取有意义的信息来完成给定的任务。根据对事件数据处理方式的不同,目前的事件相机相关算法可以分成两大类。第一类是逐个处理每个事件,其系统状态会在每下一个事件到来时发生变化。第二类是对事件分组后再分批次处理。前一种方法可以达到最小的系统延迟,但是对参数(例如滤波器参数)的调优很敏感,且因为对每个事件执行整个更新策略,计算量较大。相反,对事件聚合进行处理的方法会存在一定的延迟,在计算效率和性能方面需要权衡,不过系统稳定性相对更好,也不需要精细的调参。尽管存在差异,但这两种表示模式都已经成功地应用于光流估计、特征提取与跟踪、目标识别、去模糊、三维重建、视觉里程计等计算机视觉领域并获得了有一定价值的成果。
在基于事件相机的图像重建和视频合成领域也有一些相关工作。Rebecq等人提出E2VID模型,使用深度神经网络学习直接从数据中重建事件的强度图像,而不是依赖于任何手工设计模型,提出了一种新的递归网络来从事件流中重建视频,并利用大量的模拟事件数据对其进行训练,同时使用更符合视觉感知的损失函数来让估计的图像更符合人眼感知要求,此外还进一步扩展了从彩色事件流合成彩色图像的方法。Scheerlinck等人提出的FireNet对其进行改进,可以很好地与包含可变事件数的窗口一起工作,这样就可以实现以非常高的帧速率(每秒超过5000帧)合成视频。Pan等人提出的EDI事件双重积分模型,能够从一个模糊的图像帧及其对应的事件数据上重建一个高帧率视频。这些现有工作虽然能够实现高帧率视频的合成,但通常难以实现高分辨率的高质量视频的重建,仅对特定数据才能有较好的结果,且生成的视频中经常会出现明显的拖影现象,最终生成视频的可视化观感较差。我们分析主要原因还是现有事件相机硬件的局限,相较于现有的图像帧相机分辨率仍旧差距较大,且因为噪声较大对算法的鲁棒性要求也很高。
发明内容
为了克服现有技术的不足,本发明提供了一种高帧率视频合成方法、装置、设备和存储介质,获取一帧图像和以该图像采集时刻到截止时刻的一段不定数量的事件序列;将事件序列拆分成设定份数;将每份事件数据流表示为能够作为网络输入数据的表示形式;图像和第一个事件表示输入至隐帧合成模型,经由该模型中连接在一起的多个模块的运算,模型输出合成的图像帧,作为合成的高帧率视频中除输入图像外的第一帧;重复上一步骤,将剩余的事件表示按照顺序分别输入至隐帧合成模型中,模型输出的多帧图像帧按照顺序合并作为高帧率视频合成结果。本发明方法基于高分辨率传统彩色快门相机图像数据,结合使用仿生视觉传感器的事件数据,将两种传感器优势互补,进而实现高帧率高质量的视频合成。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤S10:定义z等于1;
步骤S11:获取图像Iz和从图像Iz采集时刻开始到截止时刻终止的事件序列,设合成后的高帧率视频为Vz
所述图像Iz是在视频Vz片段内的起始时刻对应的图像帧,记该起始时刻为Tstart
将起始时刻Tstart作为待获取事件序列的起始时刻;视频Vz片段的截止时刻作为需要获取的事件序列的终止时刻,记该截止时刻为Tend
在时段[Tstart,Tend]内,获取到一段不定长度、不定数量的稀疏事件序列,记第i个稀疏事件为ei={xi,yi,ti,pi},包括产生该事件对应的亮度变化的像素位置坐标xi、yi和时间戳ti及其亮度变化的极性pi;事件序列E=(ei)N={xi,yi,ti,pi}N,i∈[0,N],N是时段[Tstart,Tend]内事件的总数;
相机采集图像序列的原始帧率为FI,单位为帧每秒;
步骤S12:根据视频Vz的帧率和时段[Tstart,Tend],将事件序列拆分,具体如下:
记合成视频Vz需要的时间上采样倍数为R,R为正整数,则视频Vz的帧率FV=R×FI
拆分方式有两种:
第一种方式为:固定起始时刻tj_start=Tstart,改变终止时刻为
Figure BDA0003395362040000041
第二种方式为:改变起始时刻为
Figure BDA0003395362040000042
改变终止时刻为
Figure BDA0003395362040000043
任意选择以上两种方式之一,从事件序列E中按照事件所在的时间戳选取R个满足时段[tj_start,tj_end]的事件子序列,记为(Ej)R,j∈[0,R);
步骤S13:将每个稀疏事件的数据流表示为能够作为网络输入数据的表示形式;
将事件Ej所在时段[tj_start,tj_end]分为B个时间窗;
将事件Ej按照极性转化为尺寸均为C×H×W的两个事件体元EVj +和EVj -,其中H和W分别为相机分辨率的高和宽;C是事件体元的特征通道数量,等于时间窗的数量B,为人为定义的超参数;转化方法如式(1)所示:
Figure BDA0003395362040000051
Figure BDA0003395362040000052
其中b∈[0,B)表示单极性的时间窗的序号,tstart和tend分别是第i个稀疏事件的数据流的起止时刻;所述单极性指在当前时间窗内像素亮度变化只为+1或只为-1;
由像素亮度变化为只为+1和只为-1的单极性组成双极性,对于双极性的事件体元,在特征维度上的尺寸均为B,最后在特征维度将二者合并起来,如式(2):
Figure BDA0003395362040000053
其中[,]为在特征维度合并操作,EVj是最终得到的事件表示,维度为C=2B;
步骤S14:将图像Iz和第一个事件表示EV1输入至隐帧合成模型中,隐帧合成模型输出合成的图像帧,作为待合成的视频Vz中除图像Iz外的第一帧;记隐帧合成模型为FM,第0帧隐帧L0即为图像Iz,L0=Iz;则合成除图像Iz外的第一帧L1的公式如下:
L1=FM(EV1,L0)
步骤S15:重复步骤S14,依次将剩余的事件表示分别和图像Iz配对输入至隐帧合成模型中,隐帧合成模型输出第j帧图像的公式如下:
Lj=FM(EVj,Lj-1)
直到j=R为止;
将图像Iz与R帧图像(L1,L2,...,LR)合并,最终作为高帧率视频Vz输出;
步骤S16:z加1,使用事件相机获取图像Iz和从图像Iz采集时刻开始到截止时刻终止的事件序列,重复步骤S11到S15,输出视频Vz
对得到的视频片段V1,V2,…合并,即得到帧率为FV=R×FI的高帧率视频。
进一步地,所述隐帧合成模型分为特征提取模块和帧合成输出模块两个部分;
所述特征提取模块从输入的图像和事件中分别提取高维特征图,分为图像特征提取模块和事件特征提取模块两个部分;首先将输入的起始图像I1输入至图像特征提取模块,提取得到图像特征图
Figure BDA0003395362040000061
然后将第一份事件表示EV1输入至事件特征提取模块,提取得到事件特征图
Figure BDA0003395362040000062
所述帧合成输出模块从事件和图像的特征图以及融合的特征图中合成目标图像帧,分为特征融合模块和隐帧输出模块:将图像特征图
Figure BDA0003395362040000063
和事件特征图
Figure BDA0003395362040000064
输入至特征融合模块,完成特征图融合,随后输入至隐帧输出模块,得到的图像帧记为
Figure BDA0003395362040000065
进一步地,所述隐帧合成模型中的帧合成输出模块有多个,每个帧合成输出模块的执行次数为一次或多次。
进一步地,所述高帧率视频合成方法引入光流估计模块,所述光流估计模块输入图像和事件表示,输出光流;
所述输出的光流有两种用法:
第一种用法是:用于对输入图像进行坐标系变换;变换后的图像视作隐帧图像的一个低精度的初值,用于作为多层级或多次迭代的帧合成输出模块输出的多层级隐帧的初值,逐级或逐次更新;或变换后的图像作为特征图融合模块或帧合成输出模块的输入,以输出更高精度的隐帧;
第二种用法是:用于对合成的隐帧图像进行坐标系变换,变换后的图像视作输入图像的一个伪解,在训练阶段与训练数据中的真实目标图像建立损失函数,以对光流估计模块施加约束。
进一步地,所述高帧率视频合成方法引入深度估计模块和相机运动估计模块,输入图像和事件表示,输出起始时刻或截止时刻对应的深度图以及从起始时刻到截止时刻过程中的相机自运动;根据相机自运动和深度图,能对输入图像或合成的隐帧图像进行坐标系变换。
一种高帧率视频合成装置,包括:
数据获取单元,用于获取图像序列和事件序列数据;
高帧率视频合成方法运行单元,用于将获取到的图像序列和事件序列输入,经过多次执行隐帧合成模型内各模块的运算后输出合成的高帧率视频;
其中数据获取单元既能从计算机存储介质中读取数据,也能从计算机外接设备中采集数据。
一种电子设备,包括存储器、处理器以及通信总线;所述存储器中存储有计算机程序;所述处理器执行上述方法;所述通信总线用于进行数据交互。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行上述方法。
一种计算机程序产品,其上存储有计算机程序,所述计算机程序被处理器执行上述方法。
本发明的有益效果如下:
本发明提供的方法利用高时间分辨率的事件数据对场景运动敏感的特性,结合事件和低帧率图像,以实现复杂高动态场景的高帧率视频合成,解决了现有仅使用图像的高帧率视频合成方法仅能够对场景运动进行简单的低阶模拟,无法处理复杂运动的问题。
附图说明
图1为本发明方法流程图。
图2为本发明方法隐帧合成模型的结构示意图。
图3为本发明方法隐帧合成模型中特征提取模块的结构示意图。
图4为本发明方法隐帧合成模型中帧合成输出模块的结构示意图。
图5为本发明方法引入光流估计模块的隐帧合成模型的结构示意图。
图6为本发明方法引入深度估计模块和相机自运动估计模块的结构示意图。
图7为本发明高帧率视频合成装置的结构示意图。
图8为本发明电子设备的的结构示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
如图1所示,一种高帧率视频合成方法,包括如下步骤:
步骤S10:定义z等于1;
步骤S11:获取图像Iz和从图像Iz采集时刻开始到截止时刻终止的事件序列,设合成后的高帧率视频为Vz
所述图像Iz是在视频Vz片段内的起始时刻对应的图像帧,记该起始时刻为Tstart
将起始时刻Tstart作为待获取事件序列的起始时刻;视频Vz片段的截止时刻作为需要获取的事件序列的终止时刻,记该截止时刻为Tend
在时段[Tstart,Tend]内,获取到一段不定长度、不定数量的稀疏事件序列,记第i个稀疏事件为ei={xi,yi,ti,pi},包括产生该事件对应的亮度变化的像素位置坐标xi、yi和时间戳ti及其亮度变化的极性pi;事件序列E=(ei)N={xi,yi,ti,pi}N,i∈[0,N],N是时段[Tstart,Tend]内事件的总数;
相机采集图像序列的原始帧率为FI,单位为帧每秒;
步骤S12:根据视频Vz的帧率和时段[Tstart,Tend],将事件序列拆分,具体如下:
记合成视频Vz需要的时间上采样倍数为R,R为正整数,则视频Vz的帧率FV=R×FI
拆分方式有两种:
第一种方式为:固定起始时刻tj_start=Tstart,改变终止时刻为
Figure BDA0003395362040000081
第二种方式为:改变起始时刻为
Figure BDA0003395362040000082
改变终止时刻为
Figure BDA0003395362040000083
任意选择以上两种方式之一,从事件序列E中按照事件所在的时间戳选取R个满足时段[tj_start,tj_end]的事件子序列,记为(Ej)R,j∈[0,R);
步骤S13:将每个稀疏事件的数据流表示为能够作为网络输入数据的表示形式;
由于事件序列在时空域上均呈现为稀疏的离散点集,与图像视觉算法的常用网格化的表示方式完全不同,所以现有的视觉算法无法直接应用到仿生视觉传感器上,需要针对其成像机制和具体任务需求而专门设计一种预处理格式。由步骤S12得到的R份事件(Ej)R,在本步骤中逐一进行格式表示,得到R个事件表示(EVj)R
将事件Ej所在时段[tj_start,tj_end]分为B个时间窗;
将事件Ej按照极性转化为尺寸均为C×H×W的两个事件体元EVj +和EVj -,其中H和W分别为相机分辨率的高和宽;C是事件体元的特征通道数量,等于时间窗的数量B,为人为定义的超参数;转化方法如式(1)所示:
Figure BDA0003395362040000084
Figure BDA0003395362040000091
其中b∈[0,B)表示单极性的时间窗的序号,tstart和tend分别是第i个稀疏事件的数据流的起止时刻;所述单极性指在当前时间窗内像素亮度变化只为+1或只为-1;
由像素亮度变化为只为+1和只为-1的单极性组成双极性,对于双极性的事件体元,在特征维度上的尺寸均为B,最后在特征维度将二者合并起来,如式(2):
Figure BDA0003395362040000092
其中[,]为在特征维度合并操作,EVj是最终得到的事件表示,维度为C=2B;这一过程需要尽可能保留原始事件流中的大部分时空信息,B越大则表示的信息越丰富,但会导致事件中的噪声更容易输入到模型中,所以需要根据场景运动和事件数量的多少权衡这一参数。
步骤S14:将图像Iz和第一个事件表示EV1输入至隐帧合成模型中,隐帧合成模型输出合成的图像帧,作为待合成的视频Vz中除图像Iz外的第一帧;记隐帧合成模型为FM,第0帧隐帧L0即为图像Iz,I0=Iz;则合成除图像Iz外的第一帧L1的公式如下:
L1=FM(EV1,L0)
如图2到图4所示,所述隐帧合成模型分为特征提取模块和帧合成输出模块两个部分;
步骤S131:所述特征提取模块从输入的图像和事件中分别提取高维特征图,分为图像特征提取模块和事件特征提取模块两个部分;首先将输入的起始图像I1输入至图像特征提取模块,提取得到图像特征图
Figure BDA0003395362040000093
然后将第一份事件表示EV1输入至事件特征提取模块,提取得到事件特征图
Figure BDA0003395362040000094
步骤S132:所述帧合成输出模块从事件和图像的特征图以及融合的特征图中合成目标图像帧,分为特征融合模块和隐帧输出模块:将图像特征图
Figure BDA0003395362040000095
和事件特征图
Figure BDA0003395362040000096
输入至特征融合模块,完成特征图融合,随后输入至隐帧输出模块,得到的图像帧记为
Figure BDA0003395362040000097
所述隐帧合成模型中的帧合成输出模块有多个,每个帧合成输出模块的执行次数为一次或多次。
步骤S15:重复步骤S14,依次将剩余的事件表示分别和图像Iz配对输入至隐帧合成模型中,隐帧合成模型输出第j帧图像的公式如下:
Lj=FM(EVj,Lj-1)
直到j=R为止;
将图像Iz与R帧图像(L1,L2,...,LR)合并,最终作为高帧率视频Vz输出;
步骤S16:z加1,使用事件相机获取图像Iz和从图像Iz采集时刻开始到截止时刻终止的事件序列,重复步骤S11到S15,输出视频Vz
对得到的视频片段V1,V2,…合并,即得到帧率为FV=R×FI的高帧率视频。
如图7所示,一种高帧率视频合成装置,包括:
数据获取单元,用于获取图像序列和事件序列数据;
高帧率视频合成方法运行单元,用于将获取到的图像序列和事件序列输入,经过多次执行隐帧合成模型内各模块的运算后输出合成的高帧率视频;
其中数据获取单元既能从计算机存储介质中读取数据,也能从计算机外接设备中采集数据。
如图8所示,一种电子设备,包括存储器、处理器以及通信总线;所述存储器中存储有计算机程序;所述处理器执行上述方法;所述通信总线用于进行数据交互。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行上述方法。
一种计算机程序产品,其上存储有计算机程序,所述计算机程序被处理器执行上述方法。
具体实施例:
本实施例由五个部分组成:获取一帧图像和以该图像采集时刻(即起始时刻)开始到某一截止时刻截止的一段不定数量的事件序列;根据需要合成的高帧率视频的帧率和该事件序列的事件窗口长度,将事件序列拆分成对应的份数;将每份稀疏事件数据流表示为能够作为网络输入数据的表示形式;图像和第一份事件表示输入至隐帧合成模型,经由该模型中连接在一起的多个模块的运算,模型输出合成的图像帧,作为合成的高帧率视频中除输入图像外的第一帧;重复上一步骤,将剩余的事件表示按照分别输入至隐帧合成模型中,模型输出的图像帧按照顺序组合为高帧率视频中的剩余帧,合并作为高帧率视频输出。本申请提出的方法基于高质量高分辨率传统彩色快门相机图像数据,结合使用仿生视觉传感器的事件数据,将两种传感器优势互补,进而实现高帧率高质量的视频合成。
本实施例提供的隐帧合成模型分为特征提取模块和帧合成输出模块两个部分。其中特征提取模块从输入的图像和事件中分别提取高维特征图,帧合成输出模块从事件和图像的特征图以及融合的特征图中合成目标图像帧。隐帧合成模型的网络结构中的每个模块的数量可以不唯一,执行次数也可以不唯一。帧合成输出模块输出的目标图像帧,可以看作是在输入的拆分后的事件的截止时刻对应的图像帧,记作隐帧。通过调整时间窗口的起始时刻和截止时刻,以调整输入模型的图像和事件,模型可以输出时间上连续的隐帧序列,合并起来即为所需要的高帧率视频。
特征图提取模块可以提取单个分辨率的特征图,也可以提取多个分辨率的特征图。当输出单个分辨率的特征图时,特征图融合模块和隐帧合成模块则只输入单个分辨率的特征图。当输出多个分辨率的特征图时,特征图融合模块和帧合成输出模块可以分为多个层级以输入多个分辨率特征图。输入低一层分辨率特征图得到的低分辨率隐帧图像,可以在经过上采样到高一层分辨率特征同分辨率后,作为高分辨率层级中特征图融合模块和帧合成输出模块的额外输入数据。其中上采样可以使用双线性插值、三线性插值、最近邻插值等无需参数的插值算法,也可以引入额外的插值网络模块专门用于更好的上采样特征图和隐帧图像。低分辨率层级侧重于对图像的结构信息进行合成;高分辨率层级侧重于细节位置的信息表征,结合低分辨率层级的输出结果,可以实现较高精度的隐帧合成。
特征图融合模块和帧合成输出模块可以有多个或者迭代多次。前一次合成的隐帧,可以输入到下一次的特征图融合模块和帧合成输出模块作为额外的输入数据,以实现精度更高的融合和隐帧合成。迭代多次时,特征图融合模块和帧合成输出模块一般工作在相同的分辨率层级上,各模块可以共享网络的参数,也可以不共享网络的参数。存在多个特征图融合模块和帧合成输出模块时,一般分别工作在不同分辨率层级上。总之,多个特征图融合模块和帧合成输出模块之间通过特征图和隐帧图像建立联系,目的是通过逐次计算逐次更新,实现由粗到精的图像帧合成。
如图5所示,本实施例引入额外的光流估计模块,第一种实现方式为输入图像和事件表示,输出光流,用于对输入图像进行坐标系变换(Warping)。变换后的图像可以视作隐帧图像的一个低精度的初值,用于作为多层级或多次迭代的帧合成输出模块输出的多层级隐帧的初值,逐级或逐次更新。变换后的图像也可以作为特征图融合模块或帧合成输出模块的输入,以输出更高精度的隐帧。在训练过程中,使用光流估计模块输出的光流对输入图像进行坐标系变换得到的图像,可以与训练数据中的真实目标图像建立损失函数,以对光流估计模块进行无监督训练。当训练数据中存在光流标注真值时,也可以直接使用真值直接对光流进行有监督训练。
第二种实现方式为输入图像和事件表示,输出光流,用于对合成的隐帧图像进行坐标系变换(Warping)。变换后的图像视作输入图像的一个伪解,可以在训练阶段与训练数据中的真实目标图像建立损失函数,以提高合成的隐帧的质量。
如图6所示,本实施例引入额外的深度估计模块和相机运动估计模块,输入图像和事件表示,输出起始时刻或截止时刻对应的深度图以及从起始时刻到截止时刻过程中的相机自运动。根据相机自运动和深度图,可以对输入图像或合成的隐帧图像进行坐标系变换。
本实施例对使用训练数据中的起始时刻的输入图像帧(记为起始帧)与事件一起输入到隐帧合成模型,输出的合成隐帧记为伪起始帧,该伪起始帧对应的时刻为事件的截止时刻。将该伪起始帧以及从该时刻起始的一段事件,输入至隐帧合成模型,输出的帧记为伪终止帧。在模型训练阶段,伪终止帧可以作为额外的约束,与合成的高帧率视频中对应于伪终止帧时刻的帧建立损失函数,以提高模型训练的鲁棒性。
本实施例不仅将起始时刻对应的图像作为模型的输入数据,还将截止时刻对应的图像作为模型的额外输入数据,输入的两帧图像分别与输入的事件起止时刻对应。输入至隐帧合成模型的事件同样也分为两个部分,一部分是从起始时刻到待合成的隐帧对应时刻的事件的表示,另一部分是从待合成的隐帧对应时刻到终止时刻对应的事件的表示。合成隐帧的过程中能够更充分地利用两帧图像和事件的数据,实现更鲁棒的帧合成输出。此外,技术方案中提供的光流估计模型或深度和相机自运动模型同样适用于输入两帧的实现方式中。
本实施例提供一种基于仿生视觉传感器的高帧率视频合成装置,包括:数据获取单元,用于获取图像序列和事件序列数据;高帧率视频合成模型运行单元,用于将获取到的图像序列和事件序列输入到光高帧率视频合成模型中,经过高帧率视频合成模型内各模块的运算后输出合成的高帧率视频结果。
本实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器读取并运行时,执行任意一种可能的实现方式提供的方法。
本实施例提供一种电子设备,包括:存储器、处理器以及通信总线,所述存储器中存储有计算机程序指令,所述计算机程序指令被处理器读取并运行时,执行任意一种可能的实现方式提供的方法。
图8示出的电子设备结构仅为示意,电子设备可以包括比图8中示出的更多的或者更少的组件,或者不同的组件。各组件可以采用软件、硬件或者软件硬件组合的形式实现。电子设备可能是实体设备,如个人电脑、服务器、智能手机、汽车中控等,也可能是虚拟设备,如虚拟机、云容器等。电子设备也不局限于单台设备,也可以是多台设备的组合。

Claims (9)

1.一种高帧率视频合成方法,其特征在于,包括如下步骤:
步骤S10:定义z等于1;
步骤S11:获取图像Iz和从图像Iz采集时刻开始到截止时刻终止的事件序列,设合成后的高帧率视频为Vz
所述图像Iz是在视频Vz片段内的起始时刻对应的图像帧,记该起始时刻为Tstart
将起始时刻Tstart作为待获取事件序列的起始时刻;视频Vz片段的截止时刻作为需要获取的事件序列的终止时刻,记该截止时刻为Tend
在时段[Tstart,Tend]内,获取到一段不定长度、不定数量的稀疏事件序列,记第i个稀疏事件为ei={xi,yi,ti,pi},包括产生该事件对应的亮度变化的像素位置坐标xi、yi和时间戳ti及其亮度变化的极性pi;事件序列E=(ei)N={xi,yi,ti,pi}N,i∈[0,N],N是时段[Tstart,Tend]内事件的总数;
相机采集图像序列的原始帧率为FI,单位为帧每秒;
步骤S12:根据视频Vz的帧率和时段[Tstart,Tend],将事件序列拆分,具体如下:
记合成视频Vz需要的时间上采样倍数为R,R为正整数,则视频Vz的帧率FV=R×FI
拆分方式有两种:
第一种方式为:固定起始时刻tj_start=Tstart,改变终止时刻为
Figure FDA0003395362030000011
第二种方式为:改变起始时刻为
Figure FDA0003395362030000012
改变终止时刻为
Figure FDA0003395362030000013
任意选择以上两种方式之一,从事件序列E中按照事件所在的时间戳选取R个满足时段[tj_start,tj_end]的事件子序列,记为(Ej)R,j∈[0,R);
步骤S13:将每个稀疏事件的数据流表示为能够作为网络输入数据的表示形式;
将事件Ej所在时段[tj_start,tj_end]分为B个时间窗;
将事件Ej按照极性转化为尺寸均为C×H×W的两个事件体元EVj +和EVj -,其中H和W分别为相机分辨率的高和宽;C是事件体元的特征通道数量,等于时间窗的数量B,为人为定义的超参数;转化方法如式(1)所示:
Figure FDA0003395362030000021
Figure FDA0003395362030000022
其中b∈[0,B)表示单极性的时间窗的序号,tstart和tend分别是第i个稀疏事件的数据流的起止时刻;所述单极性指在当前时间窗内像素亮度变化只为+1或只为-1;
由像素亮度变化为只为+1和只为-1的单极性组成双极性,对于双极性的事件体元,在特征维度上的尺寸均为B,最后在特征维度将二者合并起来,如式(2):
Figure FDA0003395362030000023
其中[,]为在特征维度合并操作,EVj是最终得到的事件表示,维度为C=2B;
步骤S14:将图像Iz和第一个事件表示EV1输入至隐帧合成模型中,隐帧合成模型输出合成的图像帧,作为待合成的视频Vz中除图像Iz外的第一帧;记隐帧合成模型为FM,第0帧隐帧L0即为图像Iz,L0=Iz;则合成除图像Iz外的第一帧L1的公式如下:
L1=FM(EV1,L0)
步骤S15:重复步骤S14,依次将剩余的事件表示分别和图像Iz配对输入至隐帧合成模型中,隐帧合成模型输出第j帧图像的公式如下:
Lj=FM(EVj,Lj-1)
直到j=R为止;
将图像Iz与R帧图像(L1,L2,...,LR)合并,最终作为高帧率视频Vz输出;
步骤S16:z加1,使用事件相机获取图像Iz和从图像Iz采集时刻开始到截止时刻终止的事件序列,重复步骤S11到S15,输出视频Vz
对得到的视频片段V1,V2,…合并,即得到帧率为FV=R×FI的高帧率视频。
2.根据权利要求1所述的一种高帧率视频合成方法,其特征在于,所述隐帧合成模型分为特征提取模块和帧合成输出模块两个部分;
所述特征提取模块从输入的图像和事件中分别提取高维特征图,分为图像特征提取模块和事件特征提取模块两个部分;首先将输入的起始图像I1输入至图像特征提取模块,提取得到图像特征图
Figure FDA0003395362030000024
然后将第一份事件表示EV1输入至事件特征提取模块,提取得到事件特征图
Figure FDA0003395362030000025
所述帧合成输出模块从事件和图像的特征图以及融合的特征图中合成目标图像帧,分为特征融合模块和隐帧输出模块:将图像特征图
Figure FDA0003395362030000031
和事件特征图
Figure FDA0003395362030000032
输入至特征融合模块,完成特征图融合,随后输入至隐帧输出模块,得到的图像帧记为
Figure FDA0003395362030000033
3.根据权利要求1所述的一种高帧率视频合成方法,其特征在于,所述隐帧合成模型中的帧合成输出模块有多个,每个帧合成输出模块的执行次数为一次或多次。
4.根据权利要求1所述的一种高帧率视频合成方法,其特征在于,所述高帧率视频合成方法引入光流估计模块,所述光流估计模块输入图像和事件表示,输出光流;
所述输出的光流有两种用法:
第一种用法是:用于对输入图像进行坐标系变换;变换后的图像视作隐帧图像的一个低精度的初值,用于作为多层级或多次迭代的帧合成输出模块输出的多层级隐帧的初值,逐级或逐次更新;或变换后的图像作为特征图融合模块或帧合成输出模块的输入,以输出更高精度的隐帧;
第二种用法是:用于对合成的隐帧图像进行坐标系变换,变换后的图像视作输入图像的一个伪解,在训练阶段与训练数据中的真实目标图像建立损失函数,以对光流估计模块施加约束。
5.根据权利要求1所述的一种高帧率视频合成方法,其特征在于,所述高帧率视频合成方法引入深度估计模块和相机运动估计模块,输入图像和事件表示,输出起始时刻或截止时刻对应的深度图以及从起始时刻到截止时刻过程中的相机自运动;根据相机自运动和深度图,能对输入图像或合成的隐帧图像进行坐标系变换。
6.一种高帧率视频合成装置,其特征在于,所述装置包括:
数据获取单元,用于获取图像序列和事件序列数据;
高帧率视频合成方法运行单元,用于将获取到的图像序列和事件序列输入,经过多次执行隐帧合成模型内各模块的运算后输出合成的高帧率视频;
其中数据获取单元既能从计算机存储介质中读取数据,也能从计算机外接设备中采集数据。
7.一种电子设备,其特征在于,包括存储器、处理器以及通信总线;所述存储器中存储有计算机程序;所述处理器执行所述计算机程序时实现权利要求1到5中任一项所述的方法;所述通信总线用于进行数据交互。
8.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1到5中任一项所述的方法。
9.一种计算机程序产品,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1到5中任一项所述的方法。
CN202111481413.2A 2021-12-06 2021-12-06 一种高帧率视频合成方法、装置、设备和存储介质 Active CN114245007B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111481413.2A CN114245007B (zh) 2021-12-06 2021-12-06 一种高帧率视频合成方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111481413.2A CN114245007B (zh) 2021-12-06 2021-12-06 一种高帧率视频合成方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN114245007A true CN114245007A (zh) 2022-03-25
CN114245007B CN114245007B (zh) 2023-09-05

Family

ID=80753521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111481413.2A Active CN114245007B (zh) 2021-12-06 2021-12-06 一种高帧率视频合成方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN114245007B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115063312A (zh) * 2022-06-14 2022-09-16 北京大学 基于事件相机辅助的卷帘门效应矫正方法及装置
CN115278054A (zh) * 2022-06-23 2022-11-01 西北工业大学 从卷帘快门图像恢复高帧率全局快门视频的方法
CN115883764A (zh) * 2023-02-08 2023-03-31 吉林大学 一种基于数据协同的水下高速视频插帧方法及其系统
CN115984327A (zh) * 2023-01-03 2023-04-18 上海人工智能创新中心 一种自适应视觉跟踪方法、系统、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820966A (zh) * 2015-04-30 2015-08-05 河海大学 一种空时配准解卷积的非同步多视频超分辨率方法
JP2017184110A (ja) * 2016-03-31 2017-10-05 Kddi株式会社 動画処理装置および動画処理方法
CN111667442A (zh) * 2020-05-21 2020-09-15 武汉大学 一种基于事件相机的高质量高帧率图像重建方法
CN112771843A (zh) * 2020-06-15 2021-05-07 深圳市大疆创新科技有限公司 信息处理方法、装置和成像系统
US20210321052A1 (en) * 2020-04-13 2021-10-14 Northwestern University System and method for high-resolution, high-speed, and noise-robust imaging

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820966A (zh) * 2015-04-30 2015-08-05 河海大学 一种空时配准解卷积的非同步多视频超分辨率方法
JP2017184110A (ja) * 2016-03-31 2017-10-05 Kddi株式会社 動画処理装置および動画処理方法
US20210321052A1 (en) * 2020-04-13 2021-10-14 Northwestern University System and method for high-resolution, high-speed, and noise-robust imaging
CN111667442A (zh) * 2020-05-21 2020-09-15 武汉大学 一种基于事件相机的高质量高帧率图像重建方法
CN112771843A (zh) * 2020-06-15 2021-05-07 深圳市大疆创新科技有限公司 信息处理方法、装置和成像系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BINYI SU: "Event-based high frame-rate video reconstruction with a novel cycle-event network", 《2020 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING(ICIP)》 *
伍健荣;李隽颖;刘海涛;: "时频降噪在图像序列事件检测中的应用", 吉林大学学报(工学版), no. 05 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115063312A (zh) * 2022-06-14 2022-09-16 北京大学 基于事件相机辅助的卷帘门效应矫正方法及装置
CN115063312B (zh) * 2022-06-14 2023-03-10 北京大学 基于事件相机辅助的卷帘门效应矫正方法及装置
CN115278054A (zh) * 2022-06-23 2022-11-01 西北工业大学 从卷帘快门图像恢复高帧率全局快门视频的方法
CN115278054B (zh) * 2022-06-23 2023-08-08 西北工业大学 从卷帘快门图像恢复高帧率全局快门视频的方法
CN115984327A (zh) * 2023-01-03 2023-04-18 上海人工智能创新中心 一种自适应视觉跟踪方法、系统、设备及存储介质
CN115984327B (zh) * 2023-01-03 2024-05-07 上海人工智能创新中心 一种自适应视觉跟踪方法、系统、设备及存储介质
CN115883764A (zh) * 2023-02-08 2023-03-31 吉林大学 一种基于数据协同的水下高速视频插帧方法及其系统

Also Published As

Publication number Publication date
CN114245007B (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
Rebecq et al. High speed and high dynamic range video with an event camera
CN114245007B (zh) 一种高帧率视频合成方法、装置、设备和存储介质
Scheerlinck et al. CED: Color event camera dataset
EP4198875A1 (en) Image fusion method, and training method and apparatus for image fusion model
CN111028177B (zh) 一种基于边缘的深度学习图像去运动模糊方法
CN113837938B (zh) 基于动态视觉传感器重建潜在图像的超分辨率方法
WO2022133194A1 (en) Deep perceptual image enhancement
CN112686928B (zh) 一种基于多源信息融合的运动目标视觉跟踪方法
CN110428477B (zh) 一种不受速度影响的事件相机的成图方法
CN111798370A (zh) 基于流形约束的事件相机图像重建方法及系统
CN111798395B (zh) 基于tv约束的事件相机图像重建方法及系统
CN114494050A (zh) 一种基于事件相机的自监督视频去模糊和图像插帧方法
Yuan et al. Single image dehazing via NIN-DehazeNet
CN116385283A (zh) 一种基于事件相机的图像去模糊方法及系统
CN115048954B (zh) 一种仿视网膜的目标检测方法、装置、存储介质及终端
Wang et al. Joint framework for single image reconstruction and super-resolution with an event camera
Jiang et al. Event-based low-illumination image enhancement
CN112651911A (zh) 一种基于偏振图像的高动态范围成像生成方法
Ercan et al. Hypere2vid: Improving event-based video reconstruction via hypernetworks
Shen et al. Spatial temporal video enhancement using alternating exposures
CN112949424B (zh) 一种神经形态视觉采样方法及装置
CN116612263B (zh) 一种感知潜视觉合成一致性动态拟合的方法及装置
Shaw et al. Hdr reconstruction from bracketed exposures and events
CN116389912B (zh) 脉冲相机融合普通相机重构高帧率高动态范围视频的方法
CN116091337A (zh) 一种基于事件信号神经编码方式的图像增强方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant