CN115103147A - 中间帧图像生成方法、模型的训练方法及装置 - Google Patents

中间帧图像生成方法、模型的训练方法及装置 Download PDF

Info

Publication number
CN115103147A
CN115103147A CN202210723274.8A CN202210723274A CN115103147A CN 115103147 A CN115103147 A CN 115103147A CN 202210723274 A CN202210723274 A CN 202210723274A CN 115103147 A CN115103147 A CN 115103147A
Authority
CN
China
Prior art keywords
image
intermediate frame
frame image
target
target image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210723274.8A
Other languages
English (en)
Inventor
赵幸福
王洪斌
周迅溢
吴海英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mashang Xiaofei Finance Co Ltd
Original Assignee
Mashang Xiaofei Finance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mashang Xiaofei Finance Co Ltd filed Critical Mashang Xiaofei Finance Co Ltd
Priority to CN202210723274.8A priority Critical patent/CN115103147A/zh
Publication of CN115103147A publication Critical patent/CN115103147A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0127Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level by changing the field or frame frequency of the incoming video signal, e.g. frame rate converter
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234381Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the temporal resolution, e.g. decreasing the frame rate by frame skipping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440281Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the temporal resolution, e.g. by frame skipping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0135Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving interpolation processes

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Processing (AREA)

Abstract

本说明书实施例提供了一种中间帧图像生成方法、中间帧图像重建模型的训练方法及装置,其中,中间帧图像生成方法包括:获取待插帧的目标图像的参考图像,所述参考图像中包含所述目标图像缺失的纹理信息;确定所述目标图像的光流,根据所述光流生成所述目标图像的初始中间帧图像;将所述参考图像、所述初始中间帧图像、所述光流和所述目标图像输入至预训练的中间帧图像重建模型进行特征融合,得到所述目标图像的目标中间帧图像。通过本说明书实施例,可以保证生成的中间帧图像比较自然。

Description

中间帧图像生成方法、模型的训练方法及装置
技术领域
本文件涉及计算机视觉技术领域,尤其涉及一种中间帧图像生成方法、中间帧图像重建模型的训练方法及装置。
背景技术
随着虚拟数字人的技术发展,元宇宙概念的兴起,人们对流畅、自然的高质量的虚拟数字人需求越来越高,例如,在一些业务场景中,可能涉及到对虚拟数字人的视频素材进行拼接转场,基于此,如何实现拼接转场,以提升视频素材之间的流畅度,从而避免“闪眼”等问题,逐渐成为重点关注问题。
相关技术中,通常采用插帧技术实现对虚拟数字人的视频素材进行拼接转场。其中,插帧(Video Frame Interpolation,VFI)技术,又称帧速率转换(Frame RateConversion)技术,是通过在原始视频的每两帧连续画面中增加一帧或多帧(中间帧图像),以缩短帧与帧之间的显示时间,从而提升视频的流畅度,达到更好的视觉感官效果。然而,相关技术中,生成的中间帧图像并不自然,容易导致插帧后的视频看起来不流畅。
发明内容
本说明书一个或多个实施例的目的是提供一种中间帧图像生成方法、中间帧图像重建模型的训练方法,以解决采用现有技术提供的中间帧图像生成方式生成的中间帧图像不自然的问题。
为解决上述技术问题,本说明书一个或多个实施例是这样实现的:
本说明书一个或多个实施例提供了一种中间帧图像生成方法,包括:
获取待插帧的目标图像的参考图像,参考图像中包含目标图像缺失的纹理信息;
确定目标图像的光流,根据光流生成目标图像的初始中间帧图像;
将参考图像、初始中间帧图像、光流和目标图像输入至预训练的中间帧图像重建模型进行特征融合,得到目标图像的目标中间帧图像。
可以看出,本说明书实施例提供的中间帧图像生成方法,在生成中间帧图像的过程中,可以将参考图像、初始中间帧图像、光流和目标图像输入至预训练的中间帧图像重建模型进行特征融合,得到目标图像的目标中间帧图像,其中,参考图像中包含目标图像缺失的纹理信息,这样,在融合过程中可以基于参考图像补齐目标图像缺失的纹理信息,从而可以避免由于目标图像的纹理缺失,导致基于目标图像生成的中间帧图像不自然的问题。
本说明书一个或多个实施例提供了一种中间帧图像重建模型的训练方法,包括:
获取图像样本和参考图像样本,其中,参考图像样本中包含图像样本缺失的纹理信息;
获取图像样本的第一光流,以及根据第一光流生成图像样本的第一中间帧图像;
通过图像样本、参考图像样本、第一中间流、第一中间帧图像对待训练的重建模型进行训练,得到中间帧图像重建模型。
可以看出,本说明书实施例提供的中间帧图像重建模型的训练方法,在训练中间帧图像重建模型时,可以将图像样本、第一中间流、第一中间帧图像结合参考图像样本作为待训练的重建模型的输入对待训练模型进行训练,这样,待训练的重建模型在训练过程中可以根据参考图像样本补齐图像样本缺失的纹理信息,从而可以避免通过根据图像样本训练得到的中间帧图像重建模型输出的中间帧图像不自然的问题。
本说明书一个或多个实施例提供了一种中间帧图像生成装置,包括:
获取模块,用于获取待插帧的目标图像的参考图像,参考图像中包含目标图像缺失的纹理信息;
确定模块,用于确定目标图像的光流,并根据光流生成目标图像的初始中间帧图像;
融合模块,用于将参考图像、初始中间帧图像、光流和目标图像输入至预训练的中间帧图像重建模型进行特征融合,得到目标图像的目标中间帧图像。
本说明书一个或多个实施例提供了一种电子设备,包括:
处理器;以及,
被安排成存储计算机可执行指令的存储器,所述可执行指令被配置由所述处理器执行,所述可执行指令包括用于执行上述中间帧图像生成方法中的步骤,或者所述可执行指令包括用于执行上述中间帧图像重建网络的训练方法中的步骤。
本说明书一个或多个实施例提供了一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令使得计算机执行上述中间帧图像生成方法,或者所述可执行指令使得计算机执行上述中间帧图像重建网络的训练方法。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一个或多个实施例提供的一种中间帧图像生成方法的场景示意图;
图2为本说明书一个或多个实施例提供的一种中间帧图像生成方法的流程示意图;
图3为本说明书一个或多个实施例提供的一种中间流估计网络的结构示意图;
图4为本说明书一个或多个实施例提供的一种中间帧图像重建模型的训练方法的流程示意图;
图5为本说明书一个或多个实施例提供的一种中间帧图像重建模型的结构示意图;
图6为本说明书一个或多个实施例提供的又一种中间帧图像生成方法的流程示意图;
图7为本说明书一个或多个实施例提供的一种中间帧图像重建模型的训练方法的流程示意图;
图8为本说明书一个或多个实施例提供的一种中间帧图像生成装置的模块组成示意图;
图9为本说明书一个或多个实施例提供的一种中间帧图像重建网络的训练装置的模块组成示意图;
图10为本说明书一个或多个实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件的保护范围。
本说明书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应理解,这样使用的数据在适当情况下可以互换,以便本申请实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,本说明书中“和/或”表示所连接对象的至少其中之一,字符“/”一般表示前后关联对象是一种“或”的关系。
目前,相关的生成中间帧图像的方式主要包括以下两种:方式一,基于流的视频插帧方法,通常是先估算视频中相邻两帧之间的双向光流,然后基于双向光流通过线性组合方式得到近似中间流,最后根据近似中间流确定中间帧图像。方式二,实时中间流估计算法,通过中间流模型IFNet直接估计从粗到细的中间流;然后,根据估计的中间流对输入帧进行扭曲,并使用卷积神经网络(CNN)融合和完善扭曲的输入帧和中间流等,从而得到中间帧图像。
然而上述方式一中,由于是基于双向光流通过线性组合方式得到近似中间流,而实际应用中基于双向光流通过线性组合方式往往无法直接从视频中模拟遮挡和复杂的非线性运动,因此,采用方式一时,容易导致中间帧图像的运动边界出现伪影/失真。在上述方式二中,虽然可以解决中间帧图像的伪影/失真问题,但该方法在估计中间流时,对于由于遮挡而导致纹理缺失的视频帧,通常是无中生有强行补充出部分纹理信息,作为缺失的纹理信息,这样,会使得生成的中间帧图像不自然。
为解决上述技术问题,本说明书实施例提供了一种中间帧图像生成方法,首先,获取待插帧的目标图像的参考图像,参考图像中包含目标图像缺失的纹理信息;然后,确定目标图像的光流,根据光流生成目标图像的初始中间帧图像;最后,将参考图像、初始中间帧图像、光流和目标图像输入至预训练的中间帧图像重建模型进行特征融合,得到目标图像的目标中间帧图像。
可以看出,本说明书实施例提供的中间帧图像生成方法,在生成中间帧图像的过程中,可以将参考图像、初始中间帧图像、光流和目标图像输入至预训练的中间帧图像重建模型进行特征融合,得到目标图像的目标中间帧图像,其中,参考图像中包含目标图像缺失的纹理信息,这样,在融合过程中可以基于参考图像补齐目标图像缺失的纹理信息,从而可以避免由于目标图像的纹理缺失,导致基于目标图像生成的中间帧图像不自然的问题。
图1为本说明书一个或多个实施例提供的一种中间帧图像生成方法的场景示意图,如图1所示,该场景包括:中间帧图像生成装置、数据库1和数据库2。其中,中间帧图像生成装置可以部署于终端设备中,该终端设备可以是手机、平板电脑、台式计算机、便携笔记本式计算机等移动设备,该终端设备可以是服务端,如独立的服务器,或者由多个服务器组成的服务器集群。数据库1用于存储待插帧的目标图像;数据库2用于存储待插帧的目标图像的参考图像;在一些实施例中待插帧的目标图像和参考图像也可以存储在同一个数据库中。
本说明书一个或多个实施例提供的中间帧图像生成方法,可以应用于任一种需要进行插帧的场景中,例如,影视后期处理场景、游戏动画生成场景,以及用于清晰化视频中模糊帧的场景等。并且,该方法能够应用于这些场景的产品中,例如,应用于影视后期处理系统、游戏动画生成系统,以及用于清晰化视频中模糊帧的系统。
其中,影视后期处理系统,可以在影视画面出现掉帧、卡顿或者模糊等情况下,通过本说明书实施例提供的中间帧图像生成方法提高设备显示的视频帧率,让用户感觉视频更加清晰流畅的场景;或者,通过该中间帧图像生成方法在视频制作和编辑过程中辅助实现视频精彩镜头慢放。再或者,通过该中间帧图像生成方法对视频的中间帧图像进行压缩。
游戏动画生成系统,可以在游戏画面流畅度和丝滑度不佳时,通过该中间帧图像生成方法对不稳定的图像帧进行插帧处理,以提高游戏播放画面的流畅度和丝滑度。
基于上述应用场景架构,本申请实施例提供了一种中间帧图像生成方法。图2为本申请一个或多个实施例提供的插帧方法的流程示意图,如图2所示,该方法包括以下步骤:
步骤202,获取待插帧的目标图像的参考图像,参考图像中包含目标图像缺失的纹理信息。
待插帧的目标图像,可以理解为在需要进行插帧的位置前后的至少两个图像。该待插帧的目标图像可以是经摄像组件拍摄得到的图像,也可以是经绘图软件、视频制作软件等绘制而成的图像。
例如,在影视后期处理场景中,假设为了提升视频A的流畅度,以达到更好的视觉感官效果,需要对视频A中的第7帧视频图像和第8帧视频图像进行插帧,则此时,可以将视频A中的第7帧视频图像和第8帧视频图像称为待插帧的目标图像。
或者,在游戏动画生成场景中,假设为了提高游戏播放画面的流畅度,需要在每两帧连续游戏画面中增加一帧中间帧图像,以缩短游戏画面的帧与帧之间的显示时间,从而提高游戏播放画面的流畅度,则此时,可以将每两帧连续游戏画面称之为待插帧的目标图像。例如,假设游戏视频中总共包括6帧,则可以分别将游戏视频中的第1帧和第2帧,第2帧和第3帧,第3帧和第4帧,第4帧和第5帧,第5帧和第6帧称之为待插帧的目标图像。
参考图像,可以是目标图像所在视频/游戏等的图像,也可以是与目标图像所包含的场景信息等相同的其他视频/游戏的图像,只要包含目标图像缺失的纹理信息即可。例如,沿用上例,假设需要对视频A中的第7帧和第8帧进行插帧,则参考图像可以是视频A中的图像,或者也可以是与视频A中的第7帧和第8帧所包含的场景信息等相同的B视频的图像,只要该图像中包括第7帧和第8帧缺失的纹理信息即可。
本说明书实施例中,可以通过图像采集装置或者图像传感器等获取参考图像。具体地,可以通过图像采集装置或者图像传感器先获取待插帧的目标图像,并根据获取的目标图像确定目标图像所包含的场景信息,以及该目标图像所属的视频;然后,通过图像采集装置或者图像传感器从该目标图像所属的视频中获取包含该目标图像所缺失纹理信息的图像作为参考图像。
或者,若确定该目标图像所属的视频中的其他图像帧不包含目标图像所缺失纹理信息,则可以根据确定出的场景信息,通过图像采集装置或者图像传感器从其他视频中获取与该场景信息相同的,且包含目标图像所缺失纹理信息的图像,作为参考图像。
再或者,本说明书实施例中,可以先获取目标图像;然后,对目标图像中所缺失的纹理信息进行补全处理,得到补全后的目标图像,并将补全后的目标图像确定为参考图像。其中,对目标图像中所缺失的纹理信息进行补全处理时,例如,可以先生成目标图像中所缺失的纹理信息,然后再根据生成的纹理信息和目标图像,在图像通道维度上进行拼接处理处理,使两者的特征信息融合,从而达到强化整体补全效果的目的。
在一些实施例中,根据待插帧的目标图像可能暂无法确定,或者难以确定出该目标图像所缺失的纹理信息,此时,为了可以极大程度地补齐目标图像所缺失的纹理信息,选择参考图像时,可以根据目标图像所包含的场景信息,尽可能的选择与目标图像所包含的场景信息相同的,且纹理信息较为丰富的图像作为参考图像。
在一个或多个实施例中,考虑到获取的参考图像的数量较少时,可能不能完全包含到目标图像所缺失的所有纹理信息,从而无法达到补充目标图像缺失纹理的预期。而当参考图像的数量较多时,虽然可以很大程度的包含目标图像所缺失的纹理信息,但是,由于参考图像后续需要输入中间帧图像重建模型进行处理,如果参考图像数量太多,则会使得中间帧图像重建模型的输入数据维度过大,进而导致中间帧图像重建模型的运行速度变慢。为了解决该问题,本说明书在获取参考图像时,只需要保证所有参考图像中能覆盖目标图像所缺失的所有纹理信息即可,例如,假设在一张参考图像中就能获取到目标图像所缺失的纹理信息,则参考图像可以仅用这一张图像即可。
步骤204,确定目标图像的光流,根据光流生成目标图像的初始中间帧图像。
目标图像的光流,用于描述从目标图像中需要进行插帧位置的前一帧到后一帧时每个灰度像素的移动或空间位置对应关系。
目标图像的初始中间帧图像,可以理解为根据光流和目标图像得到的粗糙的、初步的中间帧图像;本方案中也可以理解为目标中间帧图像的中间结果,需要经过进一步处理后才能得到目标中间帧图像。
本说明书实施例中,确定目标图像的光流时,可以先获取待插帧的目标图像;然后,将目标图像输入至中间流估计网络进行中间流估计,从而得到目标图像的光流。
如图3所示,为本说明书实例提供的一种中间流估计网络(Intermediate FlowEstimation Network,IFEN)的网络结构示意图,该IFEN具体可以包括三层中间流估计块(block0至block2),其中,每个block由一个分辨率参数Ki、一个步长(stride)为2的卷积层(Conv)、6个残差块(Resblock)和一个步长为2的转置卷积层(Transpose Conv)构成。
以下,结合图3所示的网络结构,对本说明书实施例中采用IFEN确定目标图像的光流的具体实施方式进行详细说明。
例如,假设待插帧的目标图像包括视频帧I0和视频帧I1,则可以将视频帧I0和视频帧I1输入至IFEN,视频帧I0和I1进入IFEN后,先后进入block0至block2三层中间流估计块(block0至block2),经过卷积层、残差块和转置卷积层进行处理,从而得到与视频帧I0对应的第一反向光流Ft->0,以及,与视频帧I1对应的第二反向光流Ft->1,也即目标图像的光流。
在得到中间流之后,可以根据中间流中的第一反向光流Ft->0和第二反向光流Ft->1分别对视频帧I0和视频帧I1进行后向扭曲(backward warping),得到后向扭曲处理结果;然后,再将后向扭曲处理结果、光流和目标图像输入至初始中间帧图像构建模型,得到目标图像的初始中间帧图像。
其中,初始中间帧图像构建模型可以采用以待插帧的图像样本,图像样本的光流,图像样本的光流的后向扭曲处理结果,以及待插帧的图像样本的多尺度特征作为待训练的初始中间帧图像构建模型的输入,以初始中间帧图像作为待训练的初始中间帧图像构建模型的输出结果的方式,对待训练的初始中间帧图像构建模型进行训练得到。
在一种可选的实施方式中,初始中间帧图像构建模型可以为具有信息融合和中间帧图像生成功能的网络模型。本申请中,初始中间帧图像构建模型可以是与U-Net网络的网络结构类似的编解码网络,比如,可以是FusionNet模型,其中,FusionNet模型的编码器部分包含四个卷积块,每个卷积块由两个3*3的卷积层组成,解码器部分可由四个转置卷积层组成。
本说明书实施例中,考虑到初始中间帧图像构建模型是基于待插帧的图像样本,图像样本的光流,图像样本的光流的后向扭曲处理结果,以及待插帧的图像样本的多尺度特征预先训练得到,因此,在根据后向扭曲处理结果、光流和目标图像,通过初始中间帧图像构建模型得到目标图像的初始中间帧图像的具体实施过程中,还需要获取目标图像的多尺度特征,然后将后向扭曲处理结果、光流、目标图像和目标图像的多尺度特征输入至初始中间帧图像构建模型,得到目标图像的初始中间帧图像。
其中,目标图像的多尺度特征,可以理解为目标图像在多个尺度下的金字塔特征,可以通过上下文提取网络提取,其中,上下文提取网络例如可以是ContextNet网络。通常,目标图像的多尺度特征中的尺度可以根据提取网络所包含的卷积核个数以及下采样次数确定。
例如,假设目标图像的分辨率为1920*1088,则对于下采样次数为1、卷积核数量为16的提取网络,目标图像的尺度可以为(1*960*544*16);对于下采样次数为2、卷积核数量为32的提取网络,目标图像的尺度可以为(1*480*272*32);对于下采样次数为3、卷积核数量为64的提取网络,目标图像的尺度可以为(1*240*136*64);对于下采样次数为4、卷积核数量为128的提取网络,目标图像的尺度可以为(1*120*68*128)。
本说明书实施例中,针对目标图像的多尺度特征,可以通过上下文提取网络提取。例如,以上下文提取网络为ContextNet网络为例,则提取目标图像的多尺度特征时,可以将视频帧以及与视频帧对应的中间流成对输入至ContextNet网络,沿用上例,也即将视频帧I0和第一反向光流Ft->0作为一对特征信息,将视频帧I1和第二反向光流Ft->1作为一对特征信息输入至ContextNet网络,从而得到与目标图像对应的多尺度特征,其中,该多尺度特征可以是金字塔特征。
步骤206,将参考图像、初始中间帧图像、光流和目标图像输入至预训练的中间帧图像重建模型进行特征融合,得到目标图像的目标中间帧图像。
其中,中间帧图像重建模型,用于实现基于初始中间帧图像重建目标中间帧图像,可以采用以图像样本、与图像样本对应的参考图像样本、图像样本的光流、初始中间帧图像作为待训练的中间帧图像重建模型的输入,以目标中间帧图像作为待训练的中间帧图像重建模型的输出结果的方式,对待训练的中间帧图像重建模型进行训练得到。与图像样本对应的参考图像样本中包含图像样本所缺失的纹理信息。
本说明书实施例中,考虑到中间帧图像重建模型主要用于基于待插帧的目标图像和参考图像等相关信息进行特征融合,以实现目标中间帧图像重建,因此,也可以选择具有信息融合和中间帧图像重建功能的网络模型作为中间帧图像重建模型。其中,具有信息融合和中间帧图像重建功能的网络模型,例如可以是FusionNet模型,FusionNet模型是一个与U-Net网络的网络结构类似的编解码网络,其中,编码器部分包含四个卷积块,每个卷积块由两个3*3的卷积层组成,解码器部分可由四个转置卷积层组成。
需要说明的是,本说明书实施例所例举的中间帧图像重建模型为FusionNet模型,仅是一种示例性说明,并不对本说明书造成任何限定。
本说明书实施例中,以中间帧图像重建模型为FusionNet模型为例,将参考图像、目标图像、光流、初始中间帧图像等信息输入至中间帧图像重建模型之后,FusionNet模型的编码器中的第一个卷积块开始对上述输入信息进行处理,并将处理得到的第一输出结果发送给第二个卷积块,第二个卷积块在接收到第一输出结果之后会对第一输出结果进行处理,并将处理后得到的第二输出结果发送至第三个卷积块,以此类推,直至第四个卷积块处理后,可以得到重建的目标中间帧图像。
可以看出,采用本说明书实施例提供的中间帧图像生成方法,在生成中间帧图像的过程中,可以将参考图像、初始中间帧图像、光流和目标图像输入至预训练的中间帧图像重建模型进行特征融合,得到目标图像的目标中间帧图像,其中,参考图像中包含目标图像缺失的纹理信息,这样,在融合过程中可以基于参考图像补齐目标图像缺失的纹理信息,从而可以避免由于目标图像的纹理缺失,导致基于目标图像生成的中间帧图像不自然的问题。
本说明书的一个或多个实施例中,在将参考图像、初始中间帧图像、光流和目标图像输入至预训练的中间帧图像重建模型进行特征融合,得到目标图像的目标中间帧图像之前,还可以预先训练得到间帧重建模型,如图4所示,具体可以包括以下步骤402~406的处理。
步骤402,获取图像样本和参考图像样本,其中,所述参考图像样本中包含所述图像样本缺失的纹理信息。
其中,图像样本包括在需要进行插帧的位置前后的至少两个图像。该图像样本可以是经摄像组件拍摄得到的图像,也可以是经绘图软件、视频制作软件等绘制而成的图像。
可选的,考虑到生成中间帧图像时,通常需要对待插帧的图像样本进行卷积操作,而卷积操作会使得图像越来越小,以及使得图像的某些边界信息丢失,导致图像角落和边界的信息发挥作用较少。因此,为了避免该问题,在一个或多个实施例中,可以对待插帧的图像样本进行padding操作,其中,padding操作即在卷积操作之前对图像进行补“0”,也可以理解为在待插帧的图像样本的图像块周围加上格子,保证待插帧的图像样本经过卷积过后大小不会变化,以及使得待插帧的图像样本的边缘数据也能被利用到,从而更好地扩张整张图像的边缘特征。例如,假设某待插帧的图像样本的分辨率为1920*1080,则可以将高度padding至1088,使得待插帧的图像样本的分辨率为1920*1088。
需要说明的是,上述例举的将高度padding至1088仅是本说明书实施例的一种示例性说明,并不对本说明书造成任何限定。
参考图像样本,也可以是经摄像组件拍摄得到的图像,或者经绘图软件、视频制作软件等绘制而成的图像。
本说明书实施例中,可以通过图像采集装置或者图像感应器从任意一个或者多个视频中获取每两帧连续的视频帧作为图像样本。对应的,参考样本可以从图样样本所在的视频中获取,也可以从其他视频中获取,只要保证获取的参考样本中包括图像样本所缺失的纹理信息即可。或者,在一种可选的实施方式中,也可以获取目标图像;然后,对目标图像中所缺失的纹理信息进行补全处理,得到补全后的目标图像,并将补全后的目标图像确定为参考图像。
步骤404,获取图像样本的第一光流,以及根据第一光流生成图像样本的第一中间帧图像。
本说明书实施例中,获取图像样本的第一光流的具体实施方式,与上述实施例中确定目标图像的光流的具体实施方式相似,根据第一光流生成图像样本的第一中间帧图像的具体实施方式,与上述实施例中根据光流生成目标图像的初始中间帧图像的具体实施方式相似,因此,实现步骤404的具体方式可以参见上述实施例步骤204中的相关内容,为避免赘述,此处不再重复描述。
步骤406,通过图像样本、参考图像样本、第一光流、以及第一中间帧图像,对待训练的重建模型进行训练,得到中间帧图像重建模型。
本说明书中,考虑到中间帧图像重建模型主要用于基于待插帧的目标图像和参考图像等相关信息进行融合实现中间帧图像重建,因此,在训练过程中,可以选择具有信息融合和重建功能的网络模型作为待训练的重建模型进行训练。
其中,具有信息融合和重建功能的网络模型例如可以是FusionNet模型,FusionNet模型是一个与U-Net网络的网络结构类似的编解码网络,其中,编码器部分包含四个卷积块,每个卷积块由两个3*3的卷积层组成,解码器部分可由四个转置卷积层组成。
以下,以待训练的重建模型为FusionNet模型为例,对本说明书实施例中训练得到中间帧图像重建模型进行详细说明。
本说明书实施例中,可以将图像样本、参考图像样本、第一光流、第一中间帧图像作为输入信息输入至中间帧图像重建模型,然后,由中间帧图像重建模型的编码器中的第一个卷积块开始对上述输入信息进行处理,并将处理得到的第一输出结果发送给第二个卷积块,第二个卷积块在接收到第一输出结果之后会对第一输出结果进行处理,并将处理后得到的第二输出结果发送至第三个卷积块,第三个卷积块在接收到第二输出结果之后会对第二输出结果进行处理,并将处理后得到的第三输出结果发送至第四个卷积块,第四个卷积块在接收到第三输出结果之后会对第三输出结果进行处理,从而训练得到中间帧图像重建模型。
在得到中间帧图像重建模型后,可以进一步判断基于该中间帧图像重建模型生成的目标中间帧图像的质量是否满足预设要求,比如,判断基于该中间帧图像重建模型生成的目标中间帧图像的清晰度是否达到预设清晰度阈值,以及判断生成的目标中间帧图像与真实的中间帧图像是否相似,若确定生成的目标中间帧图像的质量不满足预设要求,则可以根据真实的中间帧图像和通过该模型得到的目标中间帧图像计算重建损失,然后基于重建损失不断优化训练FusionNet模型,直至通过FusionNet模型输出的目标中间帧图像满足预设要求,比如,重建的目标中间帧图像和真实的中间帧图像相同或者相似,停止训练,并将此时的优化训练后的FusionNet模型作为中间帧图像重建模型。
本说明书的一个或多个实施例中,考虑到FusionNet模型本身的局限性,使用该模型时,通常仅能对分辨率较低的目标图像能够重建出自然的,且细节较为清楚的目标中间帧图像。若采用该模型对于一些分辨率较高的高清目标图像进行目标中间帧图像重建时,则可能会导致重建得到的目标中间帧图像的部分细节比较模糊。
为解决上述技术问题,本说明书实施例中,提供一种改进后的FusionNet模型作为中间帧图像重建模型,为方便描述,以下将这种改进的FusionNet模型称之为FusionNet HD模型。如图5所示,该FusionNet HD模型包括全局生成器网络,第一局部增强器网络和第二局部增强器网络,其中,全局生成器网络的网络结构与U-Net网络的网络结构类似,可以由卷积前端、转置卷积(也称为)后端,和一系列残差块构成。
其中,全局生成器网络用于提取中间帧图像重建模型的输入信息进行全局特征信息提取;第一局部增强器网络用于对中间帧图像重建模型的输入信息进行细节特征提取,以提取输入信息的细节特征信息;第二局部增强器网络用于对全局生成器网络和第一局部增强器网络的输出结果进行融合处理,得到融合特征信息,并对融合特征信息进行细节特征提取;第二局部增强器网络和第二局部增强器网络的网络结构相同。
本说明书的一个或多个实施例中,考虑到第一局部增强器网络和第二局部增强器网络提取的细节特征信息,通常也需要合适的感受野,因此,在第一局部增强器网络和第二局部增强器网络中可以增加下采样操作。
需要注意的是,若下采样次数过多,则可能会使得提取的细节特征信息感受野扩大,不能够专注局部细节;而且,下采样操作本身也会损失细节信息。为了保证提取的细节特征信息有合适的感受野,且细节信息不会损失太多,本说明书实施例中,可以将第一局部增强器网络和第二局部增强器网络中下采样的采样次数设置为1,这样,既可以避免下采样次数过多,导致特征感受野过于扩大,而不能够专注局部细节的问题,也能够保证细节特征信息有合适的感受野。
以下,以中间帧图像重建模型为FusionNet HD模型为例,对本申请提供的生成中间帧图像的方法进行详细说明。如图6所示,为本申请提供的一种中间帧图像生成方法的流程示意图。
本说明书实施例中,可以先分别获取待插帧的目标图像和参考图像,其中,获取目标图像和参考图像的具体实施方式可以参照步骤202的相关说明,此处不再赘述。
针对获取到的目标图像(假设目标图像为I0和I1),可以输入到中间流估计模型中进行中间流估计,得到与I0对应的第一反向光流Ft->0,以及,与I1对应的第二反向光流Ft->1,作为与目标图像对应的中间流。其中,通过中间流估计模型估计中间流的具体实施方式可以参见上述步骤204的相关内容,此处不再赘述。
在得到中间流之后,可以将中间流以及目标图像I0和I1进行后向扭曲操作(backward warping),得到后向扭曲处理结果;然后,再将后向扭曲处理结果、光流和目标图像输入至初始中间帧图像构建模型,得到目标图像的初始中间帧图像。
最后,将参考图像、目标图像、光流、初始中间帧图像输入至FusionNet HD模型,得到目标中间帧图像。
在一个或多个实施例中,将参考图像、目标图像、光流、初始中间帧图像输入至FusionNet HD模型,得到目标中间帧图像,具体包括如下步骤(1)~(3):
(1)、将参考图像、目标图像、光流、初始中间帧图像输入全局生成器网络,得到第一全局特征信息。
在一个或多个实施例中,考虑到全局生成器网络主要用于提取全局特征,因此,对于待提取全局特征的图像信息通常需要较大的特征感受野,为了解决该问题,本说明书实施例在将参考图像、目标图像、光流、初始中间帧图像输入全局生成器网络,得到第一全局特征信息之前,可以先对这些信息进行多次下采样,以增大特征感受野。
需要注意的是,虽然增加下采样次数可以增大感受野,但是,随着下采样次数的不断增多,得到的数据量也会越来越大。而后续通常需要将得到的这些数据全部输入全局生成器网络,这样,会导致全局生成器网络的输入参数量过大,从而影响全局生成器网络提取全局特征的速度。基于此,在一种可选的实施方式中,下采样的采样次数例如可以为1,下采样的采样倍数例如可以为2,这样,一方面,由于进行了下采样,因此可以增大感受野;另一方面,由于下采样的采样次数仅为1,因此,经过下采样后得到的数据量并不会很大,从而可以在一定程度上减少模型参数量,进行提升全局生成器网络的特征提取速度。
(2)将参考图像、目标图像、光流、初始中间帧图像输入第一局部增强器网络,得到第一细节特征信息。
本说明书实施例中,考虑到第一局部增强器网络中下采样的采样次数通常为1,而且,第一局部增强器网络提取细节特征信息时,通常需要进行特征融合,而特征融合过程中,需要保证特征维度匹配,因此,对于多尺度特征的目标图像而言,可以仅选择多尺度特征中第一尺度对应的第一特征向量输入第一局部增强器网络。
(3)将第一全局特征信息和第一细节特征信息输入第二局部增强器网络进行融合处理,得到融合特征信息,并通过第二局部增强器网络对融合特征信息进行细节特征提取,得到目标中间帧图像。
采用本说明书提供的FusionNet HD模型,增加了第一局部增强器和第二局部增强器,其中,第一局部增强器网络可以对中间帧图像重建模型的输入信息进行局部细节特征提取处理,第二局部增强器网络可以根据第一局部增强器网络提取的局部细节特征,补充全局特征信息中的细节纹理,这样一来,高分辨率的全局生成器网络可以学习到局部的细节特征,低分辨率的第一局部增强器和第二局部增强器可以学习到全局的连续性,使得重建的目标中间帧图像可以同时兼顾局部精细特征和全局特征的真实性,从而可以改善采用FusionNet重建目标中间帧图像时,可能导致的细节模糊的问题。
另一方面,采用本说明书提供的FusionNet HD模型时,由于全局生成器网络中的残差块可以引导FusionNet HD模型输出的目标中间帧图像与真实的中间帧图像一致,因此,FusionNet HD模型可以从参考图像中获取纹理信息,以补齐目标图像所缺失的纹理信息,这样,即可以保证重建得到的目标中间帧图像比较自然。
以下,结合实际场景,对本说明书提供的中间帧图像生成方法进行详细说明。
例如,假设存在两段录制好的人物视频段A和人物视频段B,虽然在视频段A的结束帧中和视频B的开始帧中人物的动作大致相似,但若直接拼接人物视频段A和人物视频段B,会给人突兀的视觉感受。此时,为了解决视觉感受突兀的问题,可以基于人物视频段A和人物视频段B生成中间帧图像,然后通过生成的中间帧图像进行插帧处理。
其中,假设人物视频段A和人物视频段B的图像分辨率均为1920*1088,shape为1*1920*1088*3。
在一个或多个实施例中,考虑到生成中间帧时,通常需要对待插帧图像进行卷积操作,而卷积操作会使得图像越来越小,以及使得图像的某些边界信息丢失,导致图像角落和边界的信息发挥作用较少。因此,为了避免该问题,在一个或多个实施例中,可以对待插帧的图像进行padding操作,其中,padding操作是在卷积之前对图像进行补“0”,也可以理解为在图像块的周围加上格子,保证图像经过卷积过后大小不会变化,以及使得图像的边缘数据也能被利用到,从而更好地扩张整张图像的边缘特征。例如,假设某视频图像分辨率中高度为1080,则可以将该高度padding至1088。
然后,将视频频段A的结束帧I0和视频B的开始帧I1作为输入帧输入到IFNet中,得到shape为1*1920*1088*2的Ft->0,然后使用线性运动假设近似方法得到shape为1*1920*1088*2的Ft->1。
之后,根据得到的两个光流Ft->0、Ft->1和输入帧图像,分别对输入帧I0和I1进行backward warping,得到backward warping后的
Figure BDA0003712432650000161
shape为1*1920*1088*3。
紧接着,把得到的光流Ft->0,原始帧I0,光流Ft->1,原始帧I1,成对输入到ContextNet中,分别得到C0,C1两个对齐的金字塔特征,每个包含4个尺度:[(1*960*544*16),(1*480*272*32),(1*240*136*48),(1*120*68)]。
最后,将两个光流Ft->0、Ft->1、两个输入帧I0,I1,两个对齐的金字塔特征,backward warping后的
Figure BDA0003712432650000162
输入到初始中间帧图像构建模型,得到输入帧的初始中间帧图像。
处理完待插帧的人物视频段A和人物视频段B之后,可以进一步获取参考图像。其中,考虑到待插帧的视频段A和视频段B均是人物视频,因此,选择参考图像时,可以从素材视频库中选取N(N为大于1的整数,比如N=4)张人物的不同姿态的图片作为参考图像。假设以参考图像的数量为4为例,由于参考图像为RGB图像,包含三个通道,因此,参考图像的shape可以为1*1920*1088*12。
最后,将原始帧I0,I1,光流Ft->0,Ft->1,wraping结果
Figure BDA0003712432650000163
初始中间帧图像,以及参考图像输入到FusionNetHD,最终输出目标中间帧图像。
本申请实施例还提供了一种用于训练上述中间帧图像生成方法中使用的间帧重建模型的方法。图7为本申请一个或多个实施例提供的中间帧图像重建模型的训练方法的流程示意图,如图7所示,该方法包括以下步骤:
步骤702,获取图像样本和参考图像样本,其中,参考图像样本中包含图像样本缺失的纹理信息。
步骤704,获取图像样本的第一光流,以及根据第一光流生成所述图像样本的第一中间帧图像。
步骤706,通过图像样本、参考图像样本、第一光流和第一中间帧图像,对待训练的重建模型进行训练,得到中间帧图像重建模型。
其中,中间帧图像重建模型包括全局生成器网络,第一局部增强器网络和第二局部增强器网络,其中,全局生成器网络用于提取中间帧图像重建模型的输入信息的全局特征信息;第一局部增强器网络用于提取中间帧图像重建模型的输入信息的细节特征信息;第二局部增强器网络用于对全局生成器网络和第一局部增强器网络的输出结果进行融合处理,得到融合特征信息,并对所述融合特征信息进行细节特征提取;第二局部增强器网络和第二局部增强器网络的网络结构相同。
关于中间帧图像重建模型的训练方法中的步骤702~步骤706的详细实施方式,与上述中间帧图像生成方法中步骤402~步骤406的具体实施方式相同,请参见步骤402~步骤406的相关内容,此处不再赘述。
可以看出,本说明书实施例提供的中间帧图像重建模型的训练方法,
在训练中间帧图像重建模型时,可以将图像样本、第一中间流、第一中间帧图像结合参考图像样本作为待训练的重建模型的输入对待训练模型进行训练,这样,待训练的重建模型在训练过程中可以根据参考图像样本补齐图像样本缺失的纹理信息,从而可以避免通过根据图像样本训练得到的中间帧图像重建模型输出的中间帧图像不自然的问题。
此外,与上述图2所示的中间帧图像生成方法相对应地,本申请实施例还提供一种中间帧图像生成装置。图8为本申请的一个实施例提供的一种中间帧图像生成装置的结构示意图,该装置包括:
获取模块801,用于获取待插帧的目标图像的参考图像,参考图像中包含目标图像缺失的纹理信息;
确定模块802,用于确定目标图像的光流,并根据光流生成目标图像的初始中间帧图像;
融合模块803,用于将参考图像、初始中间帧图像、光流和目标图像输入至预训练的中间帧图像重建模型进行特征融合,得到目标图像的目标中间帧图像。
可选的,确定模块802,具体用于:
根据光流对目标图像进行后向扭曲处理,得到后向扭曲处理结果;
将后向扭曲处理结果、光流和目标图像输入至初始中间帧图像构建模型,得到目标图像的初始中间帧图像。
可选的,确定模块802,具体用于:
获取待插帧的目标图像;
将目标图像输入至中间流估计网络进行中间流估计,得到目标图像的光流。
可选的,中间帧图像重建模型包括全局生成器网络,第一局部增强器网络和第二局部增强器网络;
全局生成器网络用于对参考图像、目标图像、光流、初始中间帧图像进行全局特征提取,得到第一全局特征信息;
第一局部增强器网络用于对参考图像、目标图像、光流、初始中间帧图像进行细节特征提取,得到第一细节特征信息;
第二局部增强器网络用于对第一全局特征信息以及第一细节特征信息进行融合,得到融合特征信息,并对融合特征信息进行细节特征提取,得到目标中间帧图像。
可选的,获取模块801,具体用于:
确定待插帧的目标图像所包含的场景信息;
根据场景信息选取与场景信息匹配的、包含目标图像所缺失纹理信息的图像,作为参考图像;
或者,
获取目标图像;
对目标图像中所缺失的纹理信息进行补全处理,得到补全后的目标图像,并将补全后的目标图像确定为参考图像。
可以看出,采用本说明书实施例提供的中间帧图像生成装置,在生成中间帧图像的过程中,可以将参考图像、初始中间帧图像、光流和目标图像输入至预训练的中间帧图像重建模型进行特征融合,得到目标图像的目标中间帧图像,其中,参考图像中包含目标图像缺失的纹理信息,这样,在融合过程中可以基于参考图像补齐目标图像缺失的纹理信息,从而可以避免由于目标图像的纹理缺失,导致基于目标图像生成的中间帧图像不自然的问题。
此外,与上述图7所示的中间帧图像重建模型的训练相对应地,本申请实施例还提供一种中间帧图像重建模型的训练装置。图9为本申请的一个实施例提供的一种中间帧图像重建模型的训练装置的结构示意图,该装置包括:
样本获取模块901,用于获取图像样本和参考图像样本,其中,参考图像样本中包含图像样本缺失的纹理信息;
信息获取模块902,用于获取图像样本的第一光流,以及根据第一光流生成图像样本的第一中间帧图像;
模型训练模块903,用于通过图像样本、参考图像样本、第一光流和第一中间帧图像对待训练的重建模型进行训练,得到中间帧图像重建模型。
可以看出,本说明书实施例提供的中间帧图像重建模型的训练装置,在训练中间帧图像重建模型时,可以将图像样本、第一中间流、第一中间帧图像结合参考图像样本作为待训练的重建模型的输入对待训练模型进行训练,这样,待训练的重建模型在训练过程中可以根据参考图像样本补齐图像样本缺失的纹理信息,从而可以避免通过根据图像样本训练得到的中间帧图像重建模型输出的中间帧图像不自然的问题。
可选的,信息获取模块902,具体用于:
根据第一光流对图像样本进行后向扭曲处理,得到第一后向扭曲处理结果;
将第一后向扭曲处理结果、第一光流和图像样本输入至初始中间帧图像构建模型,得到图像样本的第一中间帧图像。
对应上述实施例提供的中间帧图像生成方法和中间帧图像重建模型的训练方法,基于相同的技术构思,本说明书实施例还提供了一种电子设备,该电子设备用于执行上述的中间帧图像生成方法和/或中间帧图像重建模型的训练方法,图10为实现本说明书各个实施例的一种电子设备的硬件结构示意图,图10所示的电子设备100包括但不限于:射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、用户输入单元106、接口单元107、存储器108、处理器109、以及电源110等部件。本领域技术人员可以理解,图10中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
其中,处理器109,用于获取待插帧的目标图像的参考图像,参考图像中包含目标图像缺失的纹理信息;
确定目标图像的光流,根据光流生成目标图像的初始中间帧图像;
将参考图像、初始中间帧图像、光流和目标图像输入至预训练的中间帧图像重建模型进行特征融合,得到目标图像的目标中间帧图像。
或者,处理器109,可以用于:
获取图像样本和参考图像样本,其中,参考图像样本中包含图像样本缺失的纹理信息;
获取图像样本的第一光流,以及根据第一光流生成图像样本的第一中间帧图像;
通过图像样本、参考图像样本、第一中间流、第一中间帧图像对待训练的重建模型进行训练,得到中间帧图像重建模型。
需要说明的是,本说明书实施例提供的电子设备100能够实现上述电子方法实施例中电子设备实现的各个过程,为避免重复,这里不再赘述。
应理解的是,本说明书实施例中,射频单元101可用于收发信息或通话过程中,信号的接收和发送,具体的,将来自上游设备的下行数据接收后,给处理器109处理;另外,将上行的数据发送给上游设备。通常,射频单元101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元101还可以通过无线通信系统与网络和其他设备通信。
电子设备通过网络模块102为用户提供了无线的宽带互联网访问,如帮助用户收发电子邮件、浏览网页和访问流式媒体等。
音频输出单元103可以将射频单元101或网络模块102接收的或者在存储器109中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元103还可以提供与移动终端100执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元103包括扬声器、蜂鸣器以及受话器等。
输入单元104用于接收音频或视频信号。输入单元104可以包括图形处理器(Graphics Processing Unit,GPU)1041和麦克风1042,图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元106上。经图形处理器1041处理后的图像帧可以存储在存储器109(或其它存储介质)中或者经由射频单元101或网络模块102进行发送。麦克风1042可以接收声音,并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元101发送到移动通信基站的格式输出。
接口单元107为外部装置与电子设备100连接的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元107可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到电子设备100内的一个或多个元件或者可以用于在电子设备100和外部装置之间传输数据。
存储器101可用于存储软件程序以及各种数据。存储器101可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器108可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器109是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器101内的软件程序和/或模块,以及调用存储在存储器108内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。处理器109可包括一个或多个处理单元;优选的,处理器109可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器109中。
电子设备100还可以包括给各个部件供电的电源111(比如电池),优选的,电源110可以通过电源管理系统与处理器109逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
另外,电子设备100包括一些未示出的功能模块,在此不再赘述。
优选的,本说明书实施例还提供一种电子设备,包括处理器109,存储器108,存储在存储器108上并可在处理器109上运行的计算机程序,该计算机程序被处理器109执行时实现上述电子方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
进一步地,基于上述方法,本说明书一个或多个实施例还提供了一种存储介质,用于存储计算机可执行指令信息,一种具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令信息在被处理器执行时,能实现以下流程:
获取待插帧的目标图像的参考图像,参考图像中包含目标图像缺失的纹理信息;
确定目标图像的光流,根据光流生成目标图像的初始中间帧图像;
将参考图像、初始中间帧图像、光流和目标图像输入至预训练的中间帧图像重建模型进行特征融合,得到目标图像的目标中间帧图像。
或者,该存储介质存储的计算机可执行指令信息在被处理器执行时,还能实现以下流程:
获取图像样本和参考图像样本,其中,参考图像样本中包含图像样本缺失的纹理信息;获取图像样本的第一光流,以及根据第一光流生成图像样本的第一中间帧图像;通过图像样本、参考图像样本、第一中间流、第一中间帧图像对待训练的重建模型进行训练,得到中间帧图像重建模型。
需要说明的是,本说明书中关于存储介质的实施例与本说明书中关于说话人分割模型的训练方法的实施例基于同一发明构思,因此该实施例的具体实施可以参见前述对应的说话人分割模型的训练方法的实施,重复之处不再赘述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书的一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本文件的实施例而已,并不用于限制本文件。对于本领域技术人员来说,本文件可以有各种更改和变化。凡在本文件的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本文件的权利要求范围之内。

Claims (10)

1.一种中间帧图像生成方法,其特征在于,包括:
获取待插帧的目标图像的参考图像,所述参考图像中包含所述目标图像缺失的纹理信息;
确定所述目标图像的光流,根据所述光流生成所述目标图像的初始中间帧图像;
将所述参考图像、所述初始中间帧图像、所述光流和所述目标图像输入至预训练的中间帧图像重建模型进行特征融合,得到所述目标图像的目标中间帧图像。
2.根据权利要求1所述的方法,其特征在于,根据所述光流生成所述目标图像的初始中间帧图像,包括:
根据所述光流对所述目标图像进行后向扭曲处理,得到后向扭曲处理结果;
将所述后向扭曲处理结果、所述光流和所述目标图像输入至初始中间帧图像构建模型,得到所述目标图像的所述初始中间帧图像。
3.根据权利要求1所述的方法,其特征在于,确定所述目标图像的光流,包括:
获取所述待插帧的目标图像;
将所述目标图像输入至中间流估计网络进行中间流估计,得到所述目标图像的光流。
4.根据权利要求1所述的方法,其特征在于,所述中间帧图像重建模型包括全局生成器网络,第一局部增强器网络和第二局部增强器网络;
所述全局生成器网络用于对所述参考图像、所述目标图像、所述光流、所述初始中间帧图像进行全局特征提取,得到第一全局特征信息;
所述第一局部增强器网络用于对所述参考图像、所述目标图像、所述光流、所述初始中间帧图像进行细节特征提取,得到第一细节特征信息;
所述第二局部增强器网络用于对所述第一全局特征信息以及所述第一细节特征信息进行融合,得到融合特征信息,并对所述融合特征信息进行细节特征提取,得到所述目标中间帧图像。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述获取待插帧的目标图像的参考图像,包括:
确定所述待插帧的目标图像所包含的场景信息;
根据所述场景信息选取与所述场景信息匹配的、包含所述目标图像所缺失纹理信息的图像,作为所述参考图像;
或者,
获取所述目标图像;
对所述目标图像中所缺失的纹理信息进行补全处理,得到补全后的目标图像,并将所述补全后的目标图像确定为所述参考图像。
6.一种中间帧图像重建模型的训练方法,其特征在于,包括:
获取图像样本和参考图像样本,其中,所述参考图像样本中包含所述图像样本缺失的纹理信息;
获取所述图像样本的第一光流,以及根据所述第一光流生成所述图像样本的第一中间帧图像;
通过所述图像样本、所述参考图像样本、所述第一光流和所述第一中间帧图像对待训练的重建模型进行训练,得到所述中间帧图像重建模型。
7.根据权利要求6所述的方法,其特征在于,所述根据所述第一光流生成所述图像样本的第一中间帧图像,包括:
根据所述第一光流对所述图像样本进行后向扭曲处理,得到第一后向扭曲处理结果;
将所述第一后向扭曲处理结果、所述第一光流和所述图像样本输入至初始中间帧图像构建模型,得到所述图像样本的所述第一中间帧图像。
8.一种中间帧图像生成装置,其特征在于,包括:
获取模块,用于获取待插帧的目标图像的参考图像,所述参考图像中包含所述目标图像缺失的纹理信息;
确定模块,用于确定所述目标图像的光流,并根据所述光流生成所述目标图像的初始中间帧图像;
融合模块,用于将所述参考图像、所述初始中间帧图像、所述光流和所述目标图像输入至预训练的中间帧图像重建模型进行特征融合,得到所述目标图像的目标中间帧图像。
9.一种电子设备,包括:
处理器;以及,
被安排成存储计算机可执行指令的存储器,所述可执行指令被配置由所述处理器执行,所述可执行指令包括用于执行如权利要求1-7任一项所述的方法中的步骤。
10.一种存储介质,其特征在于,所述存储介质用于存储计算机可执行指令,所述可执行指令使得计算机执行如权利要求1-7任一项所述的方法。
CN202210723274.8A 2022-06-24 2022-06-24 中间帧图像生成方法、模型的训练方法及装置 Pending CN115103147A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210723274.8A CN115103147A (zh) 2022-06-24 2022-06-24 中间帧图像生成方法、模型的训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210723274.8A CN115103147A (zh) 2022-06-24 2022-06-24 中间帧图像生成方法、模型的训练方法及装置

Publications (1)

Publication Number Publication Date
CN115103147A true CN115103147A (zh) 2022-09-23

Family

ID=83293029

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210723274.8A Pending CN115103147A (zh) 2022-06-24 2022-06-24 中间帧图像生成方法、模型的训练方法及装置

Country Status (1)

Country Link
CN (1) CN115103147A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002329213A (ja) * 2001-05-02 2002-11-15 Namco Ltd 画像生成システム、プログラム及び情報記憶媒体
WO2015133572A1 (ja) * 2014-03-07 2015-09-11 フィールズ株式会社 動画処理方法、動画処理装置、及び動画処理プログラム
US20190066733A1 (en) * 2017-08-24 2019-02-28 Intel Corporation Cinematic space-time view synthesis for enhanced viewing experiences in computing environments
CN112104830A (zh) * 2020-08-13 2020-12-18 北京迈格威科技有限公司 视频插帧方法、模型训练方法及对应装置
CN113891027A (zh) * 2021-12-06 2022-01-04 深圳思谋信息科技有限公司 视频插帧模型训练方法、装置、计算机设备和存储介质
CN114339409A (zh) * 2021-12-09 2022-04-12 腾讯科技(上海)有限公司 视频处理方法、装置、计算机设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002329213A (ja) * 2001-05-02 2002-11-15 Namco Ltd 画像生成システム、プログラム及び情報記憶媒体
WO2015133572A1 (ja) * 2014-03-07 2015-09-11 フィールズ株式会社 動画処理方法、動画処理装置、及び動画処理プログラム
US20190066733A1 (en) * 2017-08-24 2019-02-28 Intel Corporation Cinematic space-time view synthesis for enhanced viewing experiences in computing environments
CN112104830A (zh) * 2020-08-13 2020-12-18 北京迈格威科技有限公司 视频插帧方法、模型训练方法及对应装置
CN113891027A (zh) * 2021-12-06 2022-01-04 深圳思谋信息科技有限公司 视频插帧模型训练方法、装置、计算机设备和存储介质
CN114339409A (zh) * 2021-12-09 2022-04-12 腾讯科技(上海)有限公司 视频处理方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
龙古灿;张小虎;于起峰;: "用于视频图像帧间运动补偿的深度卷积神经网络", 国防科技大学学报, no. 05, 28 October 2016 (2016-10-28) *

Similar Documents

Publication Publication Date Title
Lutz et al. Alphagan: Generative adversarial networks for natural image matting
US10944996B2 (en) Visual quality optimized video compression
US10777231B2 (en) Embedding thumbnail information into video streams
US20200160528A1 (en) High fidelity interactive segmentation for video data with deep convolutional tessellations and context aware skip connections
US20090262136A1 (en) Methods, Systems, and Products for Transforming and Rendering Media Data
CN112637517B (zh) 视频处理方法、装置、电子设备及存储介质
CN110969572B (zh) 换脸模型训练方法、人脸互换方法、装置及电子设备
CN110827380B (zh) 图像的渲染方法、装置、电子设备及计算机可读介质
CN115100334B (zh) 一种图像描边、图像动漫化方法、设备及存储介质
CN103533286A (zh) 用于带静态区域排除的时间帧内插的方法和系统
CN107925777A (zh) 用于视频译码的帧重新排序的方法和系统
CN115861131A (zh) 基于图像生成视频、模型的训练方法、装置及电子设备
WO2022218042A1 (zh) 视频处理方法、装置、视频播放器、电子设备及可读介质
CN104782130A (zh) 从丢失的空间可扩展层恢复运动向量
CN111967397A (zh) 人脸影像处理方法和装置、存储介质和电子设备
CN115103147A (zh) 中间帧图像生成方法、模型的训练方法及装置
CN116486009A (zh) 单目三维人体重建方法、装置以及电子设备
CN113747242A (zh) 图像处理方法、装置、电子设备及存储介质
CN113256765A (zh) Ai主播视频的生成方法、装置、电子设备及存储介质
CN112258392A (zh) 一种超分辨图像训练方法、装置、介质及设备
CN115714888B (zh) 视频生成方法、装置、设备与计算机可读存储介质
CN115358916B (zh) 换脸图像的生成方法、装置、计算机设备及可读存储介质
US20180063551A1 (en) Apparatus and methods for frame interpolation
CN117593611B (zh) 模型训练方法、图像重建方法、装置、设备及存储介质
US20210134326A1 (en) Automatic slow motion video recording

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination