CN118160001A - 用于生成插值帧的图像处理装置和方法 - Google Patents

用于生成插值帧的图像处理装置和方法 Download PDF

Info

Publication number
CN118160001A
CN118160001A CN202180101756.3A CN202180101756A CN118160001A CN 118160001 A CN118160001 A CN 118160001A CN 202180101756 A CN202180101756 A CN 202180101756A CN 118160001 A CN118160001 A CN 118160001A
Authority
CN
China
Prior art keywords
image
motion
frame
interpolation
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180101756.3A
Other languages
English (en)
Inventor
斯捷潘·图利亚科夫
阿尔弗雷多·博奇奇奥
斯塔马提奥斯·格奥尔古利斯
李远友
丹尼尔·格里格
大卫·斯卡拉穆扎
马蒂亚斯·格里格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Universitaet Zuerich
Huawei Technologies Co Ltd
Original Assignee
Universitaet Zuerich
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Universitaet Zuerich, Huawei Technologies Co Ltd filed Critical Universitaet Zuerich
Publication of CN118160001A publication Critical patent/CN118160001A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0127Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level by changing the field or frame frequency of the incoming video signal, e.g. frame rate converter

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Television Systems (AREA)

Abstract

提供了一种用于在视频的相邻图像帧之间的指定时间生成插值帧的图像处理装置。所述图像处理装置包括输入模块,所述输入模块用于接收一个、两个或两个以上关键图像帧以及多个周围事件。所述图像处理装置包括:参数化运动模型估计器,用于基于所述关键图像帧和所述多个周围事件估计帧间运动;扭曲编码器,用于计算多个多尺度扭曲插值特征。所述图像处理装置包括:合成编码器,用于计算多个多尺度合成插值特征;多尺度特征融合解码器模块,用于生成所述插值帧。所述图像处理装置能够在低速运动和高速运动中高效且准确地进行视频帧插值。

Description

用于生成插值帧的图像处理装置和方法
技术领域
本发明大体上涉及图像和视频处理领域;并且更具体地,涉及用于在视频的相邻图像帧之间的指定时间生成插值帧的图像处理装置和方法。
背景技术
通常,视频帧插值(video frame interpolation,VFI)算法包括从低帧率转换到高帧率以获得高质量视频。视频帧插值算法通过在视频的连续帧之间插入中间帧来提高视频的帧率。为了提高帧率,VFI算法需要准确地估计连续帧之间的盲时间内的图像变化,这在技术上具有挑战性,特别是在高动态和高速运动的情况下。
现有的VFI算法(或方法)是例如基于帧的方法、非线性运动估计方法、使用附加传感器的方法、使用事件相机和时间透镜的方法。每个现有的VFI算法都有与其自身相关的一个或多个局限性。在一个示例中,基于帧的方法使用基于扭曲的方法,该基于扭曲的方法依赖于关键图像帧之间的光流在(融合关键图像帧的)公共中间时间戳上扭曲关键图像帧,同时也考虑了遮挡。基于扭曲的方法有两个局限性。首先,基于扭曲的方法依赖于光流,光流只有在满足亮度恒定时才能边界清晰,因此,当无法维持亮度恒定时,可能会导致严重的伪影。其次,基于扭曲的方法通常将光流建模为线性运动,这无法捕获复杂的场景动态,尤其是在低帧率下。在使用非线性运动估计方法的情况下,通常在线性尺度上执行运动估计,其中,假设像素之间的对应关系遵循线性轨迹。但是,在旋转相机自运动和非刚性或可变形对象运动的情况下,通常会违反这一假设。但是,一些非线性运动估计方法将线性运动假设扩展到二次或三次运动。这些非线性模型在多个帧上拟合,因此跨越较长的时间窗口,无法捕获相邻帧之间的高度非线性运动。在另一个示例中,使用了时间透镜,这种时间透镜利用了在视频帧之间的盲时间中来自事件相机的事件。时间透镜依赖于通过图像级的基于注意力的α混合算法,将基于扭曲的插值方法和基于合成的插值方法的优点结合起来。基于扭曲的插值方法通过使用从事件估计的非线性运动将边界帧扭曲到潜在位置来操作。基于合成的插值方法通过将事件的强度变化添加到边界帧来操作,并且擅长对具有强度变化的非刚性对象(例如水和火)的运动进行插值。基于扭曲的插值方法和基于合成的插值方法彼此互补。尽管时间透镜对插值结果提供了部分改进,但仍有一些局限性,例如扭曲和合成结果的图像级融合较脆弱、多帧插值速度慢,以及在没有事件被触发的低对比度区域中出现各种伪影,如边缘失真、纹理抖动、边界帧混合等。因此,存在高速运动中视频帧插值效率低且不准确以及各种伪影的技术问题。
因此,根据上述讨论,需要克服与视频帧插值方法相关的上述缺点。
发明内容
本发明提供了一种用于在视频的相邻图像帧之间的指定时间生成插值帧的图像处理装置和方法。本发明提供了一种解决高速运动中视频帧插值效率低且不准确以及各种伪影的现有问题的方案。本发明的目的是提供一种至少部分地克服现有技术中遇到的问题的方案,并提供一种用于在视频的相邻图像帧之间的指定时间生成插值帧的改进的图像处理装置和方法。在视频的相邻图像帧之间的指定时间生成插值帧,可以改进高速运动中低对比度区域中的插值,从而提高视频质量。
本发明的目的通过所附独立权利要求中提供的方案来实现。在从属权利要求中进一步限定本发明的有利实现方式。
在一方面,本发明提供了一种用于在视频的相邻图像帧之间的指定时间生成插值帧的图像处理装置。所述图像处理装置包括输入模块,所述输入模块用于接收一个、两个或两个以上关键图像帧以及多个周围事件,其中,每个事件指示与高于预定阈值的像素强度变化相关联的像素位置和时间。所述图像处理装置还包括参数化运动模型估计器,所述参数化运动模型估计器用于基于所述关键图像帧和所述多个周围事件估计帧间运动。所述图像处理装置还包括:扭曲编码器,用于基于所述关键帧的第一图像帧和所述帧间运动计算多个多尺度扭曲插值特征;合成编码器,用于基于所述第一图像帧和所述第一图像帧与所述指定时间之间的事件的子集计算多个多尺度合成插值特征。所述图像处理装置还包括多尺度特征融合解码器模块,所述多尺度特征融合解码器模块用于生成所述插值帧,其中,所述多尺度特征融合解码器模块包括多个图像解码器块,其中,每个解码器块用于接收来自前一个解码器块的输出以及所述扭曲插值特征和所述合成插值特征中的每一个作为输入。
所公开的图像处理装置能够在低速运动和高速运动中实现高效且准确的视频帧插值。所公开的图像处理装置除了使用事件之外还使用图像进行运动估计,这进一步改进在高速运动和低速运动中的插值结果。此外,通过参数化运动模型估计器,图像处理装置能够以更低的计算复杂度通过帧间事件进行非线性运动估计。此外,由于使用了多尺度特征融合解码器模块,因此图像处理装置在每个尺度上从每个编码器中选择信息最多的特征,并改进了多个多尺度合成和扭曲插值结果的融合。
在一种实现方式中,所述输入模块包括用于捕获所述图像帧的图像传感器和用于捕获所述多个周围事件的具有像素的对齐事件传感器,其中,每个像素用于在所述像素的强度变化超过阈值时触发事件。
通过图像传感器和对齐事件传感器,输入模块用于捕获图像数据以及事件数据。
在另一种实现方式中,所述图像传感器和所述对齐事件传感器使用分光器对齐,或者所述图像传感器和所述对齐事件传感器集成在混合传感器中。
使图像传感器和对齐事件传感器对齐以分别捕获时间上同步和空间上对齐的图像和事件数据是有利的。
在另一种实现方式中,所述参数化运动模型估计器包括基于图像的运动编码器,所述基于图像的运动编码器用于在多个尺度上从第一和第二相邻图像帧中估计运动特征。所述参数化运动模型估计器还包括:基于事件的运动编码器,用于在多个尺度上从所述多个周围事件估计运动特征;第二多尺度特征融合解码器模块,用于组合所述估计的运动特征中的每个估计的运动特征。
通过组合图像和基于事件的运动特征,除了事件之外,还使用相邻的图像帧来进行运动估计,从而改进低对比度区域中的插值。
在另一种实现方式中,所述参数化运动模型估计器用于计算帧间样条运动,所述帧间样条运动包括每个像素位置的三个三次样条,所述三个三次样条分别将每个像素的水平位移、垂直位移和扭曲优先级建模为时间的函数。
参数化运动模型估计器能够以更低的计算复杂度通过帧间事件计算高阶样条运动。
在另一种实现方式中,所述扭曲编码器包括图像编码器,所述图像编码器包括多个残差块,所述多个残差块用于在多个尺度上对所述第一图像帧进行编码。所述扭曲编码器还包括:流采样模块,用于从所述帧间样条运动中采样每个像素的所述水平位移、所述垂直位移和所述扭曲优先级;前向扭曲模块,用于基于所述编码的第一图像帧和所述采样的帧间样条运动在所述多个尺度上计算所述扭曲插值特征。
扭曲编码器能够以更低的计算复杂度计算多个多尺度扭曲插值特征。
在另一种实现方式中,所述多尺度特征融合解码器模块的每个解码器块包括门控压缩模块,所述门控压缩模块用于衰减所述扭曲插值特征和所述合成插值特征中的每一个,并选择信息最多的特征的子集。
通过选择信息最多的特征的子集,多尺度特征融合解码器模块能够改进插值结果。
在另一种实现方式中,所述多尺度特征融合解码器模块的每个解码器块包括放大层,其后是具有非线性激活函数的卷积层。
通过放大层和其后的具有非线性激活函数的卷积层,多尺度特征融合解码器模块的每个解码器块可以用于对任何放大比率和任何非线性执行。
在另一种实现方式中,所述合成编码器还用于基于第二图像帧和所述第二图像帧与所述指定时间之间的事件的子集计算多个第二合成插值特征,其中,所述指定时间在所述第一图像帧与所述第二图像帧之间。所述扭曲编码器还用于基于所述第二图像帧和所述帧间运动计算多个第二扭曲插值特征。所述多尺度特征融合解码器模块的每个解码块还用于接收所述第二扭曲插值特征和所述第二合成插值特征中的每一个作为输入。
通过计算和组合多个第二合成插值特征和多个第二扭曲插值特征中的每一个,可以获得更精确和准确的插值结果。
在另一方面,本发明提供了一种在视频的相邻图像帧之间的指定时间生成插值帧的方法。所述方法包括:输入模块接收一个或多个图像帧和多个周围事件,其中,每个事件指示与高于预定阈值的像素强度变化相关联的像素位置和时间。所述方法还包括:参数化运动模型估计器基于所述关键图像帧和所述多个周围事件估计帧间运动。所述方法还包括:扭曲编码器基于所述关键帧的第一图像帧和所述帧间运动计算多个扭曲插值特征;合成编码器基于所述第一图像帧和所述第一图像帧与所述指定时间之间的事件的子集计算多个合成插值特征。所述方法还包括:多尺度特征融合解码器模块生成所述插值帧,其中,所述多尺度特征融合解码器模块包括多个图像解码器块,其中,每个解码器块用于接收所述扭曲插值特征和所述合成插值特征中的每一个作为输入。
所述方法实现了本发明的图像处理装置的所有优点和技术效果。
在又一方面,本发明提供了一种包括指令的计算机可读介质,所述指令在由处理器执行时,使所述处理器执行所述方法。
执行方法后,处理器实现了方法的所有优点和效果。
应理解,可组合所有上述实现方式。
需要说明的是,本申请中描述的所有设备、元件、电路、单元和构件可以通过软件或硬件元件或其任何类型的组合实现。本申请中描述的各种实体所执行的所有步骤以及所描述的各种实体要执行的功能均意在指相应实体用于执行相应步骤和功能。虽然在以下具体实施例的描述中,外部实体执行的具体功能或步骤没有在执行具体步骤或功能的实体的具体详述元件的描述中反映,但是技术人员应清楚,这些方法和功能可以通过相应的硬件或软件元件或其任何组合实现。可以理解的是,本发明的特征易于以各种组合进行组合,而不脱离由所附权利要求书所限定的本发明的范围。
本发明的附加方面、优点、特征和目的从附图和结合以下所附权利要求书解释的说明性实现方式的详细描述中变得显而易见。
附图说明
当结合附图阅读时,可以更好地理解以上发明内容以及说明性实施例的以下详细描述。为了示出本发明,本发明的示例性结构在附图中示出。但是,本发明不限于本文公开的具体方法和工具。此外,本领域技术人员应理解,附图不是按比例绘制的。在可能的情况下,相同的元件用相同的数字表示。
现在参考下图仅作为示例来描述本发明的实施例,在附图中:
图1是本发明的一个实施例提供的图像处理装置的各种示例性组件的框图;
图2A示出了参数化运动模型估计器和扭曲编码器对一个或多个关键图像帧和多个周围事件的处理;
图2B示出了本发明的一个实施例提供的边界图像帧之间的非线性帧间运动;
图3示出了本发明的一个实施例提供的具有门控压缩的多尺度特征融合解码器模块;
图4是本发明的一个实施例提供的在视频的相邻图像帧之间的指定时间生成插值帧的方法的流程图。
在附图中,带下划线的数字用于表示带下划线的数字所在的项目或与带下划线的数字相邻的项目。不带下划线的数字与由将不带下划线的数字与项目关联的线标识的项目有关。当一个数字不带下划线并具有关联的箭头时,不带下划线的数字用于标识箭头指向的一般项目。
具体实施方式
以下详细描述示出了本发明的实施例以及可以实现这些实施例的方式。虽然已经公开了实施本发明的一些模式,但本领域技术人员应认识到,也可存在用于实施或实践本发明的其它实施例。
图1是本发明的一个实施例提供的图像处理装置的各种示例性组件的框图。参考图1,示出了包括输入模块104、参数化运动模型估计器106、扭曲编码器108、合成编码器110和多尺度特征融合解码器模块112的图像处理装置102的框图100。输入模块104包括图像传感器104A和对齐事件传感器104B。
图像处理装置102可以包括合适的逻辑、电路、接口或代码,用于在视频的相邻图像帧之间的指定时间生成插值帧。图像处理装置102也可以称为视频帧插值系统。图像处理装置102的示例可以包括但不限于手持设备、电子设备、移动设备、便携式设备等。
输入模块104可以包括合适的逻辑、电路、接口或代码,用于接收一个、两个或两个以上关键图像帧以及多个周围事件。输入模块104的示例可以包括但不限于图像传感器、辅助事件传感器、混合传感器、电荷耦合器件(charge-coupled device,CCD)等。
参数化运动模型估计器106可以包括合适的逻辑、电路、接口或代码,用于基于关键图像帧和多个周围事件估计帧间运动。参数化运动模型估计器106也可以称为样条运动估计器。参数化运动模型估计器106的示例可以包括但不限于多项式曲线估计器、二次运动估计器、三次运动估计器等。
扭曲编码器108可以包括合适的逻辑、电路、接口或代码,用于基于关键帧的第一图像帧和帧间运动计算多个多尺度扭曲插值特征。扭曲编码器108的示例可以包括但不限于卷积神经网络(convolutional neural network,CNN)、循环神经网络(recurrentneural network,RNN)、递归神经网络、前馈神经网络、深度信念网络和卷积深度信念网络,以及堆栈去噪自动编码器等。
合成编码器110可以包括合适的逻辑、电路、接口或代码,用于基于第一图像帧和第一图像帧与指定时间之间的事件的子集计算多个多尺度合成插值特征。合成编码器110的示例可以包括但不限于卷积神经网络(convolutional neural network,CNN)、循环神经网络(recurrent neural network,RNN)、递归神经网络、前馈神经网络、深度信念网络和卷积深度信念网络,以及堆栈去噪自动编码器等。
多尺度特征融合解码器模块112可以包括合适的逻辑、电路、接口或代码,用于生成插值帧。
在操作中,输入模块104用于接收一个、两个或两个以上关键图像帧以及多个周围事件,其中,每个事件指示与高于预定阈值的像素强度变化相关联的像素位置和时间。在一种实现方式中,接收到的关键图像帧可以对应于前边界图像帧(也可以表示为I0)和后边界图像帧(也可以表示为I1),多个周围事件(也可以表示为事件的体素网格V0→t)可以对应于前边界图像帧与后边界图像帧之间的帧间事件以及其它附近的周围事件。在另一种实现方式中,关键图像帧可以对应于相邻图像帧,并且多个周围事件可以对应于在相邻图像帧之间捕获的事件。多个周围事件中的每个事件指示与关键图像帧中的照度变化相关联的时间,所述照度变化对应于高于预定阈值的像素强度变化以及像素位置。此外,每个事件表示压缩的视觉信息流,并可以实现在关键图像帧之间的盲时间中估计运动和光线变化。
根据一个实施例,输入模块104包括用于捕获图像帧的图像传感器104A和用于捕获多个周围事件的具有像素的对齐事件传感器104B,其中,每个像素用于在像素的强度变化超过阈值时触发事件。在一种实现方式中,图像传感器104A(例如,相机)可以用于捕获前边界图像帧(即,I0)和后边界图像帧(即,I1)。在所述实现方式中,对齐事件传感器104B(例如,辅助事件相机)可以用于捕获前边界图像帧与后边界图像帧之间的多个周围事件(即,体素网格V0→t)。图像传感器104A和对齐事件传感器104B中的每一个可以是立体配置中的彩色相机(例如,RGB相机)或基于灰色帧的相机。图像处理装置102依赖于时间上同步和空间上对齐的事件和图像数据。因此,这两个传感器(即图像传感器104A和对齐事件传感器104B)应该在时间上同步,并且具有类似的视场(field-of-view,FOV)、景深(depth-of-field,DOF)、同步聚焦和触发时间。或者,图像处理装置102可以实现为具有双相机的视频帧插值系统,并且可以通过分析相机的硬件和软件来检测每个相机。
根据一个实施例,图像传感器104A和对齐事件传感器104B使用分光器对齐,或者图像传感器104A和对齐事件传感器104B集成在混合传感器中。在一种实现方式中,图像传感器104A和对齐事件传感器104B使用分光器对齐。在另一种实现方式中,图像传感器104A和对齐事件传感器104B可以并排布置,或者以混合传感器的形式布置。由于存在双传感器(或双相机,即图像传感器104A和对齐事件传感器104B),可以检查图像处理装置102(即,视频帧插值系统)进行相机遮挡测试,即检查当两个传感器(即,相机)中的一个被遮挡时图像处理装置102的表现。在一个示例中,当对齐事件传感器104B(即,辅助事件相机)被遮挡时,图像处理装置102(即,视频帧插值系统)应该切换到默认的基于图像的模式,该模式不能处理大的非线性运动和非刚性对象,例如水和火。在另一示例中,当图像传感器104A(即,基于帧的相机)被遮挡时,图像处理装置102(即,视频帧插值系统)不执行任何帧插值并显示错误消息。
参数化运动模型估计器106用于基于关键图像帧和多个周围事件估计帧间运动。参数化运动模型估计器106用于使用用于帧间事件的关键图像帧(即,前边界图像帧I0和后边界图像帧I1)和多个周围事件(即,体素网格V0→t)在每个帧间间隔执行一次帧间运动(即,样条运动S0→t)估计。与传统视频帧插值算法相比,参数化运动模型估计器106用于通过组合基于图像和事件的运动特征来使用边界图像帧(除了使用事件之外,)用于帧间运动估计,以确保在没有事件的低对比度区域中实现插值鲁棒性。例如,在图2A中更详细地描述了参数化运动模型估计器106。
扭曲编码器108用于基于关键帧的第一图像帧和帧间运动计算多个多尺度扭曲插值特征。在一种实现方式中,扭曲编码器108用于根据从前边界图像帧(即,I0)到后边界图像帧(即,I1)的帧间运动的运动样条近似(表示为S0→1),计算多个多尺度扭曲插值特征(也可以表示为),所述多个多尺度扭曲插值特征对从关键图像帧的第一图像帧(即,前边界图像帧I0)到时间t中提取的特征进行扭曲。例如,在图2A中更详细地描述了扭曲编码器108。
合成编码器110用于基于第一图像帧和第一图像帧与指定时间之间的事件的子集计算多个多尺度合成插值特征。在一种实现方式中,合成编码器110用于基于第一图像帧(即,前边界图像帧I0)和前一图像和潜在图像之间的事件的体素网格(即,V0→t)计算多个多尺度合成插值特征(也可以表示为)。直观地,合成编码器110将第一图像帧与指定时间之间的事件的子集的变化添加到边界图像帧,并且因此,可以用照度变化对非刚性对象(例如火和水)进行插值。
根据一个实施例,合成编码器110还用于基于第二图像帧和第二图像帧与指定时间之间的事件的子集计算多个第二合成插值特征,其中,指定时间在第一图像帧与第二图像帧之间。在所述实现方式中,合成编码器110还用于基于第二图像帧(即,后边界图像帧I1)和第二图像帧(即,后边界图像帧I1)与指定时间t之间的事件的体素网格(即,)计算多个第二多尺度合成插值特征(也可以表示为/>)。指定时间t被定义为第一图像帧(即,前边界图像帧I0)与第二图像帧(即,后边界图像帧I1)之间的时间。但是,通过使用具有共享权重的合成编码器110分别对第一图像帧(即,前边界图像帧I0)和第二图像帧(即,后边界图像帧I1)进行编码。因此,合成编码器110也可以称为共享编码器。
扭曲编码器108还用于基于第二图像帧和帧间运动计算多个第二扭曲插值特征。在所述实现方式中,扭曲编码器108用于基于关键帧的第一图像帧(即,I0)以及帧间运动计算多个多尺度扭曲插值特征(即,)。在所述实现方式中,扭曲编码器108还用于基于第二图像帧(即,后边界图像帧I1)和帧间运动的运动样条近似,计算多个第二多尺度扭曲插值特征(也可以表示为/>)。因此,扭曲编码器108用于对第一图像帧(即,前边界图像帧I0)以及第二图像帧(即,后边界图像帧I1)进行编码。
多尺度特征融合解码器模块112用于生成插值帧,其中,多尺度特征融合解码器模块112包括多个图像解码器块,其中,每个解码器块用于接收来自前一个解码器块的输出以及扭曲插值特征和合成插值特征中的每一个作为输入。在一种实现方式中,多尺度特征融合解码器模块112可以用于组合通过扭曲编码器108分别从第一图像帧(即,前边界图像帧I0)和第二图像帧(即,后边界图像帧I1)计算得到的多个多尺度扭曲插值特征和多个第二多尺度扭曲插值特征(即,)与通过合成编码器110分别从第一图像帧(即,前边界图像帧I0)和第二图像帧(即,后边界图像帧I1)计算得到的多个多尺度合成插值特征和多个第二多尺度合成插值特征(即,/>)。组合后,多尺度特征融合解码器模块112用于在指定时间t生成潜在帧/>因此,多尺度特征融合解码器模块112可以用于在每个尺度上从每个编码器中选择信息最多的特征,并改进合成和扭曲插值结果的融合。通过多尺度特征融合解码器模块112,图像处理装置102(即,视频帧插值系统)对前边界图像帧和后边界图像帧执行对称处理。在图3中更详细地描述了多尺度特征融合解码器模块112。
根据一个实施例,多尺度特征融合解码器模块112的每个解码器块还用于接收第二扭曲插值特征和第二合成插值特征中的每一个作为输入。在处理第二图像帧(即,后边界图像帧I1)的情况下,多尺度特征融合解码器模块112的每个解码器块还用于组合以下中的每一个:从扭曲编码器108接收的多个第二扭曲插值特征(即,)和从合成编码器110中接收的多个第二合成插值特征(即,/>)。
在一种实现方式中,图像处理装置102可以具有存储器以存储时间上同步和空间上对齐的事件和图像数据。存储器的实现示例可以包括但不限于电可擦除可编程只读存储器(electrically erasable programmable read-only memory,EEPROM)、随机存取存储器(random access memory,RAM)、只读存储器(read only memory,ROM)、硬盘驱动器(harddisk drive,HDD)、闪存、固态硬盘(solid-state drive,SSD)和/或CPU高速缓冲存储器。存储器可以存储操作系统或其它程序产品(包括一个或多个操作算法),以操作图像处理装置102。
除了存储器之外,图像处理装置102还可以具有处理器以执行存储在存储器中的指令。在一个示例中,处理器可以是通用处理器。处理器的其它示例可以包括但不限于微处理器、微控制器、复杂指令集计算(complex instruction set computing,CISC)处理器、专用集成电路(application-specific integrated circuit,ASIC)处理器、精简指令集(reduced instruction set,RISC)处理器、超长指令字(very long instruction word,VLIW)处理器、中央处理单元(central processing unit,CPU)、状态机、数据处理单元和其它处理器或控制电路。此外,处理器可以是指一个或多个单独的处理器、处理设备、作为机器一部分的处理单元,例如,图像处理装置102。
因此,图像处理装置102能够在低速运动和高速运动中高效且准确进行视频帧插值。图像处理装置102除了使用事件之外还使用图像进行运动估计,这进一步实现了在高速运动中没有插值伪影。但是,在传统的方法中,例如时间透镜,由于时间透镜包含关于非线性帧间运动的信息,该方法仅使用事件进行运动估计。在低对比度区域,如果时间亮度变化低于相机的对比度阈值,则不会触发事件。这进一步导致了各种插值伪影,例如边界失真、纹理抖动和边界帧混合。如果时间透镜除了事件之外还使用图像,则这些伪影可以避免。时间透镜依赖于双线性插值进行图像扭曲,因此,时间透镜需要从“不存在的”潜在帧到边界帧的运动,而所述边界帧只能通过边界帧的近似得到,而这种近似对于大型(即高速)运动效果不佳。
此外,通过参数化运动模型估计器106,图像处理装置102能够以更低的计算复杂度通过帧间事件进行非线性运动估计。此外,由于使用了多尺度特征融合解码器模块112,图像处理装置102在每个尺度上从每个编码器中选择信息最多的特征,并改进了多个多尺度合成和扭曲插值结果的融合。因此,图像处理装置102可以用于基于事件的视频插值的各种应用,例如节能的高分辨率视频插值、合成曝光、倒带触发时间和滚动快门补偿等。例如,在图4中更详细地描述了上述应用场景。
图2A示出了本发明的一个实施例提供的参数化运动模型估计器和扭曲编码器对一个或多个关键图像帧和多个周围事件的处理。图2A结合图1的元件进行描述。参考图2A,示出了说明一个或多个关键图像帧和多个周围事件的处理的处理图200A。处理图200A包括(图1的)参数化运动模型估计器106和扭曲编码器108。参数化运动模型估计器106包括基于图像的运动编码器202、基于事件的运动编码器204和第二多尺度特征融合解码器模块206。扭曲编码器108包括图像编码器208、流采样模块210和前向扭曲模块212。
根据一个实施例,参数化运动模型估计器106包括基于图像的运动编码器202,所述基于图像的运动编码器202用于在多个尺度上从第一和第二相邻图像帧中估计运动特征。基于图像的运动编码器202用于从第一和第二相邻图像帧(即,分别为前边界图像帧和后边界图像帧I0、I1)估计多尺度运动特征。
参数化运动模型估计器106还包括基于事件的运动编码器204,所述基于事件的运动编码器204用于在多个尺度上从多个周围事件估计运动特征。基于事件的运动编码器204用于从多个周围事件(即,帧间事件的体素网格V0→t)估计多尺度运动特征。
参数化运动模型估计器106还包括第二多尺度特征融合解码器模块206,所述第二多尺度特征融合解码器模块206用于组合估计的运动特征中的每个估计的运动特征。使用第二多尺度特征融合解码器模块206组合以下中的每一个:从第一和第二相邻图像帧估计的多尺度运动特征和从多个周围事件估计的多尺度运动特征。
因此,参数化运动模型估计器106包括两个编码器,即基于图像的运动编码器202和基于事件的运动编码器204,以从事件以及从图像学习多尺度运动特征,从而得到改进的插值结果。但是,在现有的VFI系统中,使用单个编码器网络,该网络从事件而非图像中学习运动特征,因此,在忽略图像的情况下,简单地收敛到局部最小值,从而导致较差的插值结果。
根据一个实施例,参数化运动模型估计器106用于计算帧间样条运动,所述帧间样条运动包括每个像素位置的三个三次样条,所述三个三次样条分别将每个像素的水平位移、垂直位移和扭曲优先级建模为时间的函数。参数化运动模型估计器106从多个周围事件和第一和第二图像帧(即,分别是前边界图像帧和后边界图像帧I0、I1)推断非线性帧间运动(如图2B所示),并利用样条近似非线性运动。参数化运动模型估计器106能够对边界帧与任意潜在帧之间的运动进行高效采样,并确保非线性运动的时间一致性。参数化运动模型估计器106为每个像素位置计算三个三次样条(也可以表示为和/>)。三个三次样条(即,/>和/>)分别将前边界图像的每个像素的水平位移、垂直位移和扭曲优先级建模为时间的函数。每个样条可以用K个控制点表示,例如,水平位移样条(即,/>)可以表示为针对均匀采样时间戳(0、1/K–1、2/K–1、……、1)的水平位移(Δx0、Δx1/k–1、Δx2/k–1、……、Δx1),如图2A所示。三个三次样条中的每个三次样条可以被扭曲编码器108用于在任何时间t∈[0,1]计算多个多尺度扭曲插值特征和多个第二扭曲插值特征(即,),并且附加计算成本最低。
在传统的VFI方法中,例如时间透镜,它通过重新划分事件来独立地计算从每个待插入帧到边界帧的运动。时间透镜利用事件中包含的非线性帧间运动的信息,因此,计算复杂度与插值帧的数量N成线性比例o(N),其运动估计是独立的,因此,可能会不一致。在另一种传统的VFI方法中,例如基于帧的插值方法,它依赖于从输入帧估计的线性或二次运动模型。而基于帧的插值方法由于运动模型简单和缺少帧间信息而无法准确计算帧间运动,其计算复杂度o(1)不依赖于插值帧的数量,并且其运动估计在时间上是一致的。与传统的VFI方法相比,参数化运动模型估计器106从多个周围事件和第一和第二图像帧推断非线性帧间运动,并使用三个三次样条近似非线性运动,从而在没有事件的低对比度区域中实现改进的插值结果。此外,参数化运动模型估计器106根据帧间事件计算高阶样条运动,因此可以使用o(1)代替o(N)计算复杂度来对N个中间帧执行插值,而无需使用关于帧间运动的线性的假设。
根据一个实施例,扭曲编码器108包括图像编码器208,所述图像编码器208包括多个残差块,所述残差块用于在多个尺度上对第一图像帧进行编码。或者,扭曲编码器108的图像编码器208用于在多尺度上对第一图像帧(即,前边界图像帧I0)进行编码。在另一种实现方式中,扭曲编码器108的图像编码器208可以用于在多尺度上对第二图像帧(即,后边界图像帧I1)进行编码。
扭曲编码器108还包括流采样模块210,该流采样模块210用于从帧间样条运动中采样每个像素的水平位移、垂直位移和扭曲优先级。或者,对于给定时间t,流采样模块210用于使用现有的三次卷积方法从三个三次样条中采样流(即,F0→t)和扭曲优先级(即,P0→t)。
扭曲编码器108还包括前向扭曲模块212,所述前向扭曲模块212用于基于编码的第一图像帧和采样的帧间样条运动在多个尺度上计算扭曲插值特征。前向扭曲模块212用于计算从编码的第一图像帧和采样的流(F0→t)和扭曲优先级(即,P0→t)中提取的多个多尺度扭曲插值特征(即,)。前向扭曲模块212也可以称为softmax溅射模块。前向扭曲模块212用于softmax溅射扭曲插值,这需要从边界帧到潜在帧运动,从而能够在参数化运动模型估计器106中组合事件和基于图像的运动估计。
图2B示出了本发明的一个实施例提供的边界图像帧之间的非线性帧间运动。图2B结合图1和图2A的元件进行描述。参考图2B,示出了边界图像帧(即,第一图像帧和第二图像帧)之间的非线性帧间运动200B。
参数化运动模型估计器106用于计算帧间样条运动,所述帧间样条运动包括每个像素位置的三个三次样条,所述三个三次样条分别将每个像素的水平位移、垂直位移和扭曲优先级建模为时间的函数。参数化运动模型估计器106用于根据多个周围事件以及第一图像帧和第二图像帧(即,分别是前边界图像帧和后边界图像帧I0、I1)推断非线性帧间运动200B,并使用三次样条近似非线性运动。
图3示出了本发明的一个实施例提供的具有门控压缩的多尺度特征融合解码器模块。图3结合图1和图2A的元件进行描述。参考图3,示出了(图1的)多尺度特征融合解码器模块112,其包括多个图像解码器块302。多个图像解码器块302中的每个解码器块包括门控压缩模块304、放大层306和卷积层308。门控压缩模块304包括sigmoid激活层310。
根据一个实施例,多尺度特征融合解码器模块112的每个解码器块包括门控压缩模块304,所述门控压缩模块304用于衰减扭曲插值特征和合成插值特征中的每一个,并选择信息最多的特征的子集。多尺度特征融合解码器模块112用于扭曲和合成插值特征的多尺度融合,因为多尺度融合通常会产生改进的结果。此外,多尺度融合对输入图像中的微小失准敏感。多尺度特征融合解码器模块112逐步组合多尺度扭曲和合成插值特征以及在更粗尺度上执行的先前图像解码器块的特征。多尺度特征融合解码器模块112不是使用简单的卷积来组合特征,而是依赖于门控压缩模块304,该门控压缩模块304在组合特征之前对特征进行衰减,从而直观地从每个源中选择信息最多的特征。门控压缩模块304可以用于组合多个曝光。
根据一个实施例,多尺度特征融合解码器模块112的每个解码器块包括放大层306,其后是具有非线性激活函数的卷积层308。在一种实现方式中,放大层306可以是2×双线性放大层,其后是具有非线性激活函数的卷积层308。非线性激活函数可以是leaky整流线性单元激活函数。但是,在另一种实现方式中,可以使用具有另一放大比率的放大层306。
在一种实现方式中,门控压缩模块304可以包括具有卷积层308和sigmoid激活层310的衰减路径,以及直接来自门控压缩模块304的输入的跳跃连接路径。门控压缩模块304可以用于组合衰减路径和跳跃连接路径,并将它们插入具有leaky整流线性单元激活函数的卷积层308中。
图4是本发明的一个实施例提供的在视频的相邻图像帧之间的指定时间生成插值帧的方法的流程图。图4结合图1、图2A和图3的元件进行描述。参考图4,示出了在视频的相邻图像帧之间的指定时间生成插值帧的方法400。方法400包括步骤402至步骤410。方法400由(图1的)图像处理装置102执行。
在步骤402,方法400包括输入模块104接收一个或多个图像帧和多个周围事件,其中,每个事件指示与高于预定阈值的像素强度变化相关联的像素位置和时间。图像处理装置102的输入模块104用于接收关键图像帧(例如,前边界图像帧和后边界图像帧)和多个周围事件。每当像素位置或像素强度发生变化(即照度变化)时,都会触发每个事件。
根据一个实施例,方法400还包括接收关键图像帧和周围事件包括:图像传感器104A捕获关键图像帧,对齐事件传感器104B捕获多个周围事件,其中,对齐事件传感器104B的每个像素用于在像素的强度变化超过阈值时触发事件。输入模块104的图像传感器104A用于捕获关键图像帧,输入模块104的对齐事件传感器104B用于捕获多个周围事件。
根据一个实施例,图像传感器104A和对齐事件传感器104B使用分光器对齐,或者图像传感器104A和对齐事件传感器104B集成在混合传感器中。在一种实现方式中,图像传感器104A和对齐后的事件传感器104B可以通过使用分光器对齐。在另一种实现方式中,图像传感器104A和对齐事件传感器104B可以并排布置或以混合传感器的形式集成。
在步骤404,方法400还包括参数化运动模型估计器106基于关键图像帧和多个周围事件估计帧间运动。参数化运动模型估计器106用于使用关键图像帧和多个周围事件估计帧间运动(即,线性、非线性等)。
根据一个实施例,方法400还包括估计帧间运动包括:基于图像的运动编码器202在多个尺度上从第一和第二相邻图像帧中估计运动特征;基于事件的运动编码器204在多个尺度上从多个周围事件估计运动特征;第二多尺度特征融合解码器模块206组合估计的运动特征中的每个估计的运动特征。参数化运动模型估计器106的基于图像的运动编码器202用于从第一和第二相邻图像帧(即,分别是前边界图像帧和后边界图像帧I0、I1)估计多尺度运动特征。参数化运动模型估计器106的基于事件的运动编码器204用于从多个周围事件(即,第一和第二相邻图像帧之间的帧)估计多尺度运动特征。参数化运动模型估计器106的第二多尺度特征融合解码器模块206用于组合估计的多尺度运动特征中的每个估计的多尺度运动特征。
根据一个实施例,方法400还包括计算帧间样条运动,所述帧间样条运动包括每个像素位置的三个三次样条,所述三个三次样条分别将每个像素的水平位移、垂直位移和扭曲优先级建模为时间的函数。参数化运动模型估计器106用于为每个像素位置计算三个三次样条。三个三次样条分别将前边界图像的每个像素的水平位移、垂直位移和扭曲优先级建模为时间的函数,例如在图2A中已经详细描述。
在步骤406,方法400还包括扭曲编码器108基于关键帧的第一图像帧和帧间运动计算多个扭曲插值特征。扭曲编码器108用于基于第一图像帧(即,前边界图像帧I0)和帧间运动计算多个多尺度扭曲插值特征。
根据一个实施例,方法400还包括计算多个扭曲插值特征包括:包括多个残差块的图像编码器208在多个尺度上对第一图像帧进行编码;流采样模块210从帧间样条运动中采样每个像素的水平位移、垂直位移和扭曲优先级;前向扭曲模块212基于编码的第一图像帧和采样的帧间样条运动在多个尺度上计算扭曲插值特征。扭曲编码器108的图像编码器208用于在多个尺度上对第一图像帧(即,前边界图像帧I0)进行编码。扭曲编码器108的流采样模块210用于从帧间样条运动中采样每个像素的水平位移、垂直位移和扭曲优先级。扭曲编码器108的前向扭曲模块212用于基于编码的第一图像帧和采样的帧间样条运动在多个尺度上计算扭曲插值特征。
在步骤408,方法400还包括合成编码器110基于第一图像帧和第一图像帧与指定时间之间的事件的子集计算多个合成插值特征。合成编码器110用于基于第一图像帧和第一图像帧与指定时间之间的事件的子集计算多个合成插值特征。
在步骤410,方法400还包括多尺度特征融合解码器模块112生成插值帧,其中,多尺度特征融合解码器模块112包括多个图像解码器块302,其中,每个解码器块用于接收扭曲插值特征和合成插值特征中的每一个作为输入。多尺度特征融合解码器模块112用于组合多个多尺度扭曲插值特征和合成插值特征中的每一个,并生成所插值帧。
根据一个实施例,方法400还包括通过多尺度特征融合解码器模块112的每个解码器块的门控压缩模块304衰减扭曲插值特征和合成插值特征中的每一个,并选择信息最多的特征的子集。门控压缩模块304用于衰减扭曲插值特征和合成插值特征中的每一个,并选择信息最多的特征的子集。
根据一个实施例,多尺度特征融合解码器模块112的每个解码器块包括放大层306,其后是具有非线性激活函数的卷积层308。根据用例的不同,放大层306可以具有不同的放大比率。
根据一个实施例,方法400还包括基于第二图像帧和第二图像帧与指定时间之间的事件的子集计算多个第二合成插值特征,其中,指定时间在第一图像帧与第二图像帧之间。方法400还包括:基于第二图像帧和帧间样条运动计算多个第二扭曲插值特征,并通过进一步在多尺度特征融合解码器模块112的每个解码器块处接收第二扭曲插值特征和第二合成插值特征中的每一个作为输入,生成插值帧。合成编码器110用于基于第二图像帧和第二图像帧与指定时间之间的事件的子集计算多个第二合成插值特征。扭曲编码器108用于基于第二图像帧和帧间样条运动计算多个第二扭曲插值特征。多尺度特征融合解码器模块112用于通过接收第二扭曲插值特征和第二合成插值特征中的每一个作为输入,生成插值帧。
方法400基于使用图像以及事件进行运动估计,这进一步改进了在慢速运动和高速运动中插值结果。方法400的各种应用场景描述如下:
在“慢速运动”的应用场景中,方法400可以用于以相对低的视频帧率(frame persecond,FPS)(例如,100fps至200fps)捕获高速时刻,并使用帧间事件将其放大到高fps。因此,方法400实现运动自适应fps,这在视频采集之后是可调整的。同样,方法400适用于无限长度的慢速运动。此外,在慢速运动的情况下,方法400是高能效和节省内存的,并且高效且准确地处理非刚性对象(例如,水和火)和光的变化。
方法400可以用于捕获高能效的高分辨率视频。方法400能够以低fps(例如,5fps至10fps)捕获高分辨率视频并将捕获的视频插值处理到正常帧率。这可以使电池寿命更长和内存效率更高。视频插值只能在视频采集过程中进行。
方法400可以用于这种应用场景,这些应用场景只需要捕获单个图像,并使用帧间事件,例如“合成曝光”、“倒带触发时间”和“滚动快门补偿”对捕获的单个图像进行插值。在合成曝光的情况下,方法400用于捕获单个图像并使用帧间事件对捕获的单个图像进行插值。此后,将插值图像求和,以生成任意曝光。因此,方法400能够在视频采集之后自由调整曝光时间。
在倒带触发时间的情况下,方法400用于捕获单个图像并使用帧间事件将捕获的单个图像插值处理到某个捕获时刻。因此,方法400能够精确地触发相机以捕获某些时刻。
在滚动快门补偿的情况下,方法400用于捕获单个滚动快门图像并使用事件独立地对图像的每一行插值以模拟全局快门。通过这种方式,方法400可以从单个图像中的对象运动来补偿滚动快门。
除了上述应用场景之外,方法400还可以用于视频获取之后的视频插值。为了在视频采集后执行视频插值,时间上同步和对齐的事件和视频必须以特殊的输出格式存储。这进一步提高了可检测性。此外,方法400可以用于非均匀视频插值。例如,用户可以选择用户希望对视频的哪一部分进行上采样以及上采样到多少程度。可以基于运动量自动确定时间放大比率。由于除了图像之外还使用帧间事件,与传统的基于图像的方法相比,方法400适用于非刚性对象,例如火、水、飞溅等。
步骤402至步骤410仅仅是说明性的,还可以提供其它替代方案,其中添加一个或多个步骤,删除一个或多个步骤,或以不同的顺序提供一个或多个步骤,而不脱离本文权利要求的范围。
在又一方面,本发明提供了一种存储指令的计算机可读介质,所述指令当由处理器执行时,使处理器执行(图4的)方法400。
在不脱离所附权利要求所限定的本发明范围的情况下,可对上文描述的本发明的实施例进行修改。如“包括”、“结合”、“具有”、“是/为”等用于描述和要求保护本发明的表述旨在以非排他性的方式解释,即使得未明确描述的项目、组件或元件也存在。对单数的引用也应解释为涉及复数。本文使用的词语“示例性”表示“作为一个示例、实例或说明”。任何被描述为“示例性的”实施例不一定解释为比其它实施例更优选或更有利,和/或排除其它实施例的特征的结合。本文使用的词语“可选地”表示“在一些实施例中提供且在其它实施例中没有提供”。应当理解,为了清楚起见在单独实施例的上下文中描述的本发明的某些特征还可通过组合提供在单个实施例中。相反地,为了清楚起见而在单个实施例的上下文中描述的本发明的各种特征也可单独地或以任何合适的组合或作为本发明的任何其它描述的实施例提供。

Claims (19)

1.一种用于在视频的相邻图像帧之间的指定时间生成插值帧的图像处理装置(102),其特征在于,所述图像处理装置包括:
输入模块(104),用于接收一个、两个或两个以上关键图像帧以及多个周围事件,其中,每个事件指示与高于预定阈值的像素强度变化相关联的像素位置和时间;
参数化运动模型估计器(106),用于基于所述关键图像帧和所述多个周围事件估计帧间运动;
扭曲编码器(108),用于基于所述关键帧的第一图像帧和所述帧间运动计算多个多尺度扭曲插值特征;
合成编码器(110),用于基于所述第一图像帧和所述第一图像帧与所述指定时间之间的事件的子集计算多个多尺度合成插值特征;
多尺度特征融合解码器模块(112),用于生成所述插值帧,其中,所述多尺度特征融合解码器模块(112)包括多个图像解码器块(302),其中,每个解码器块用于接收来自前一个解码器块的输出以及所述扭曲插值特征和所述合成插值特征中的每一个作为输入。
2.根据权利要求1所述的图像处理装置(102),其特征在于,所述输入模块(104)包括用于捕获所述图像帧的图像传感器(104A)和用于捕获所述多个周围事件的具有像素的对齐事件传感器(104B),其中,每个像素用于在所述像素的强度变化超过阈值时触发事件。
3.根据权利要求1或2所述的图像处理装置(102),其特征在于,所述图像传感器(104A)和所述对齐事件传感器(104B)使用分光器对齐,或者
所述图像传感器(104A)和所述对齐事件传感器(104B)集成在混合传感器中。
4.根据上述权利要求中任一项所述的图像处理装置(102),其特征在于,所述参数化运动模型估计器(106)包括:
基于图像的运动编码器(202),用于在多个尺度上从第一和第二相邻图像帧中估计运动特征;
基于事件的运动编码器(204),用于在多个尺度上从所述多个周围事件中估计运动特征;
第二多尺度特征融合解码器模块(206),用于组合所述估计的运动特征中的每个估计的运动特征。
5.根据上述权利要求中任一项所述的图像处理装置(102),其特征在于,所述参数化运动模型估计器(106)用于计算帧间样条运动,所述帧间样条运动包括每个像素位置的三个三次样条,所述三个三次样条分别将每个像素的水平位移、垂直位移和扭曲优先级建模为时间的函数。
6.根据权利要求5所述的图像处理装置(102),其特征在于,所述扭曲编码器(108)包括:
图像编码器(208),包括多个残差块,所述多个残差块用于在多个尺度上对所述第一图像帧进行编码;
流采样模块(210),用于从所述帧间样条运动中采样每个像素的所述水平位移、所述垂直位移和所述扭曲优先级;
前向扭曲模块(212),用于基于所述编码的第一图像帧和所述采样的帧间样条运动在所述多个尺度上计算所述扭曲插值特征。
7.根据上述权利要求中任一项所述的图像处理装置(102),其特征在于,所述多尺度特征融合解码器模块(112)的每个解码器块包括门控压缩模块(304),所述门控压缩模块用于衰减所述扭曲插值特征和所述合成插值特征中的每一个,并选择信息最多的特征的子集。
8.根据上述权利要求中任一项所述的图像处理装置(102),其特征在于,所述多尺度特征融合解码器模块(112)的每个解码器块包括放大层(306),其后是具有非线性激活函数的卷积层(308)。
9.根据上述权利要求中任一项所述的图像处理装置(102),其特征在于,
所述合成编码器(110)还用于基于第二图像帧和所述第二图像帧与所述指定时间之间的事件的子集计算多个第二合成插值特征,其中,所述指定时间在所述第一图像帧与所述第二图像帧之间;
所述扭曲编码器(108)还用于基于所述第二图像帧和所述帧间运动计算多个第二扭曲插值特征;
所述多尺度特征融合解码器模块(112)的每个解码器块还用于接收所述第二扭曲插值特征和所述第二合成插值特征中的每一个作为输入。
10.一种在视频的相邻图像帧之间的指定时间生成插值帧的方法(400),其特征在于,所述方法包括:
输入模块(104)接收一个或多个图像帧和多个周围事件,其中,每个事件指示与高于预定阈值的像素强度变化相关联的像素位置和时间;
参数化运动模型估计器(106)基于所述关键图像帧和所述多个周围事件估计帧间运动;
扭曲编码器(108)基于所述关键帧的第一图像帧和所述帧间运动计算多个扭曲插值特征;
合成编码器(110)基于所述第一图像帧和所述第一图像帧与所述指定时间之间的事件的子集计算多个合成插值特征;
多尺度特征融合解码器模块(112)生成所述插值帧,其中,所述多尺度特征融合解码器模块(112)包括多个图像解码器块(302),其中,每个解码器块用于接收所述扭曲插值特征和所述合成插值特征中的每一个作为输入。
11.根据权利要求10所述的方法(400),其特征在于,接收所述关键图像帧和所述周围事件包括:图像传感器(104A)捕获所述关键图像帧,对齐事件传感器捕获所述多个周围事件,其中,所述对齐事件传感器的每个像素用于在所述像素的强度变化超过阈值时触发事件。
12.根据权利要求10或11所述的方法(400),其特征在于,所述图像传感器(104A)和所述对齐事件传感器(104B)使用分光器对齐,或者
所述图像传感器(104A)和所述对齐事件传感器(104B)集成在混合传感器中。
13.根据权利要求10至12中任一项所述的方法(400),其特征在于,估计所述帧间运动包括:
基于图像的运动编码器(202)在多个尺度上从第一和第二相邻图像帧中估计运动特征;
基于事件的运动编码器(204)在多个尺度上从所述多个周围事件中估计运动特征;
第二多尺度特征融合解码器模块(206)组合所述估计的运动特征中的每个估计的运动特征。
14.根据权利要求10至13中任一项所述的方法(400),其特征在于,还包括计算帧间样条运动,所述帧间样条运动包括每个像素位置的三个三次样条,所述三个三次样条分别将每个像素的水平位移、垂直位移和扭曲优先级建模为时间的函数。
15.根据权利要求13或14所述的方法(400),其特征在于,计算所述多个扭曲插值特征包括:
包括多个残差块的图像编码器(208)在多个尺度上对所述第一图像帧进行编码;
流采样模块(210)从所述帧间样条运动中采样每个像素的所述水平位移、所述垂直位移和所述扭曲优先级;
前向扭曲模块(212)基于所述编码的第一图像帧和所述采样的帧间样条运动在所述多个尺度上计算所述扭曲插值特征。
16.根据权利要求10至15中任一项所述的方法(400),其特征在于,还包括所述多尺度特征融合解码器模块(112)的每个解码器块的门控压缩模块(304)衰减所述扭曲插值特征和所述合成插值特征中的每一个,并选择信息最多的特征的子集。
17.根据权利要求10至16中任一项所述的方法(400),其特征在于,所述多尺度特征融合解码器模块(112)的每个解码器块包括放大层(306),其后是具有非线性激活函数的卷积层(308)。
18.根据权利要求10至17中任一项所述的方法(400),其特征在于,所述方法还包括:
基于第二图像帧和所述第二图像帧与所述指定时间之间的事件的子集计算多个第二合成插值特征,其中,所述指定时间在所述第一图像帧与所述第二图像帧之间;
基于所述第二图像帧和所述帧间样条运动计算多个第二扭曲插值特征;
通过进一步在所述多尺度特征融合解码器模块(112)的每个解码器块处接收所述第二扭曲插值特征和所述第二合成插值特征中的每一个作为输入,生成所述插值帧。
19.一种包括指令的计算机可读介质,其特征在于,所述指令在由处理器执行时,使所述处理器执行根据权利要求10至18中任一项所述的方法(400)。
CN202180101756.3A 2021-11-15 2021-11-15 用于生成插值帧的图像处理装置和方法 Pending CN118160001A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2021/081616 WO2023083467A1 (en) 2021-11-15 2021-11-15 Image processing apparatus and method for generating interpolated frame

Publications (1)

Publication Number Publication Date
CN118160001A true CN118160001A (zh) 2024-06-07

Family

ID=78770615

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180101756.3A Pending CN118160001A (zh) 2021-11-15 2021-11-15 用于生成插值帧的图像处理装置和方法

Country Status (2)

Country Link
CN (1) CN118160001A (zh)
WO (1) WO2023083467A1 (zh)

Also Published As

Publication number Publication date
WO2023083467A1 (en) 2023-05-19

Similar Documents

Publication Publication Date Title
Tulyakov et al. Time lens++: Event-based frame interpolation with parametric non-linear flow and multi-scale fusion
CN111557016B (zh) 用于生成包括模拟的运动模糊的图像的方法和设备
JP3934151B2 (ja) 画像生成装置および画像生成方法
EP2698766B1 (en) Motion estimation device, depth estimation device, and motion estimation method
US8482620B2 (en) Image enhancement based on multiple frames and motion estimation
JP4500875B2 (ja) モーションブラー効果を除去する方法および装置
US8384805B2 (en) Image processing device, method, and computer-readable medium for executing pixel value correction in a synthesized image
US8830360B1 (en) Method and apparatus for optimizing image quality based on scene content
CN107911682B (zh) 图像白平衡处理方法、装置、存储介质和电子设备
US8736719B2 (en) Image processing apparatus and control method for the same
JPWO2008047664A1 (ja) 画像生成装置および画像生成方法
CN113099122A (zh) 拍摄方法、装置、设备和存储介质
WO2021102893A1 (zh) 视频防抖优化处理方法和装置、电子设备
US8644555B2 (en) Device and method for detecting movement of object
USRE43491E1 (en) Image shake correction image processing apparatus and program
CN110930440B (zh) 图像对齐方法、装置、存储介质及电子设备
CN113014817A (zh) 高清高帧视频的获取方法、装置及电子设备
JP6508926B2 (ja) 撮像装置および撮像装置の制御方法
CN118160001A (zh) 用于生成插值帧的图像处理装置和方法
CN114286011B (zh) 对焦方法和装置
EP4211644B1 (en) Device and method for video interpolation
US11798146B2 (en) Image fusion architecture
US11803949B2 (en) Image fusion architecture with multimode operations
US11195247B1 (en) Camera motion aware local tone mapping
JP2019153972A (ja) 撮像装置、撮像装置の制御方法、及び、プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination