CN110830848A - 图像插值方法、装置、计算机设备和存储介质 - Google Patents
图像插值方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN110830848A CN110830848A CN201911066692.9A CN201911066692A CN110830848A CN 110830848 A CN110830848 A CN 110830848A CN 201911066692 A CN201911066692 A CN 201911066692A CN 110830848 A CN110830848 A CN 110830848A
- Authority
- CN
- China
- Prior art keywords
- image
- images
- interpolated
- initial model
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000009499 grossing Methods 0.000 claims abstract description 50
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 13
- 230000008859 change Effects 0.000 claims description 33
- 238000004590 computer program Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 8
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 238000003786 synthesis reaction Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44012—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving rendering scenes according to scene graphs, e.g. MPEG-4 scene graphs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种图像插值方法、装置、计算机设备和存储介质,计算机设备将至少两张待插值图像输入视频平滑网络,获得目标图像;视频平滑网络基于待插值图像中移动对象的像素矢量差的特征训练而成;然后,合成目标图像与至少两张待插值图像,获得视频。采用上述方法可以使目标图像与待插值图像合成的结果更平滑。
Description
技术领域
本申请涉及视频处理技术领域,特别是涉及一种图像插值方法、装置、计算机设备和存储介质。
背景技术
图像插值是指在视频中临近的两帧之间补充额外的画面帧,使得视频中包含的帧数更多,从而增加了视频的细节和流畅度。
传统技术中,可以通过将相邻的视频帧输入神经网络,通过神经网络预测待插入的图像的像素值,然后通过像素值合成插值图像。
但是,采用上述方法获得的插值图像容易出现模糊的现象,导致视频平滑效果差。
发明内容
基于此,有必要针对上述技术问题,提供一种图像插值方法、装置、计算机设备和存储介质。
一种图像插值方法,上述方法包括:
将待插值的至少两张待插值图像输入视频平滑网络,获得目标图像;视频平滑网络基于待插值图像中移动对象的像素矢量差的特征训练而成;
合成目标图像与至少两张待插值图像,获得视频。
在其中一个实施例中,上述视频平滑网络为将预设的初始模型输出的图片,作为初始模型的输入,进行迭代训练得到的网络模型。
在其中一个实施例中,上述视频平滑网络的迭代训练过程,包括:
将按时间顺序排列的至少3张样本图像输入初始模型,获得相邻两张样本图像分别对应的中间状态图像;
将各中间状态图像输入初始模型,获得输出参考图像;输出参考图像与至少3张样本图像中的目标样本图像对应;
将输出参考图像与初始模型中的其它图像的第一像素矢量差,以及目标样本图像与其它图像的第二像素矢量差,代入预设的第一损失函数,获得输出参考图像与目标样本图像的第一误差;
根据反向传播算法以及第一误差,调整初始模型的参数,直至误差满足预设条件,获得视频平滑网络。
在其中一个实施例中,上述至少3张样本图像的时间间隔相同。
在其中一个实施例中,上述样本图像包括5张样本图像I1、I2、I3、I4以及I5;中间状态图像包括I1.5、I2.5、I3.5以及I4.5,其中In.5表示样本图像In与样本图像In+1的中间状态图像,将各中间状态图像输入初始模型,获得输出参考图像,包括:
将I1.5、I2.5、I3.5以及I4.5输入初始模型,获得I1.5与I2.5的中间状态图像I′2,以及I3.5与I4.5的中间状态图像I′4;
将I′2与I′4输入初始模型,生成输出参考图像;输出参考图像与I3对应。
在其中一个实施例中,迭代训练之前,训练过程还包括:
将按时间顺序排列的至少3张样本图像输入初始模型,分别获取与其中一张样本图像相邻的两张样本图像对应的中间运动状态帧;
通过预设的第二损失函数计算中间运动状态帧与其中一张样本图像的第二误差;
根据反向传播算法以及第二误差,调整初始模型的参数,完成对初始模型的第一阶段训练。
在其中一个实施例中,上述方法还包括:
根据相邻两张待插值图像之间的变化程度,确定视频平滑网络的卷积参数;卷积参数包括卷积核的大小以及移动步长中的至少一种。
在其中一个实施例中,上述根据相邻两张待插值图像之间的变化程度,确定视频平滑网络的卷积参数,包括:
基于变化程度在预设的变化程度与卷积参数的对应关系,选择与待插值图像的变化程度对应的卷积参数。
在其中一个实施例中,上述若待插值图像为雷达回波图或气象云图,则待插值图像对应的卷积核大小为3×3,移动步长为1。
一种图像插值装置,上述装置包括:
输入模块,用于将待插值的至少两张待插值图像输入视频平滑网络,获得目标图像;视频平滑网络基于待插值图像中移动对象的像素矢量差的特征训练而成;
合成模块,用于合成目标图像与至少两张待插值图像,获得视频。
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,上述处理器执行计算机程序时实现上述图像插值方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,上述计算机程序被处理器执行时实现上述图像插值方法的步骤。
上述图像插值方法、装置、计算机设备和存储介质,计算机设备将至少两张待插值图像输入视频平滑网络,获得目标图像;视频平滑网络基于待插值图像中移动对象的像素矢量差的特征训练而成;然后,合成目标图像与至少两张待插值图像,获得视频。由于上述视频平滑网络是基于待插值图像中移动对象的像素矢量差获得的,因此,计算机设备将待插值图像输入该视频平滑网络之后,可以根据像素矢量差的特征获得对应的目标图像;与通过预测像素值获得的图像相比,上述目标图像能更好地体现待插值图像之间的变化特征,从而使得目标图像与待插值图像合成的视频更平滑。
附图说明
图1为一个实施例中图像插值方法的应用环境图;
图2为一个实施例中图像插值方法的流程示意图;
图3为另一个实施例中图像插值方法的流程示意图;
图4为一个实施例中迭代训练的示意图;
图4A为一个实施例中训练方法的示意图;
图5为一个实施例中图像插值装置的结构框图;
图6为一个实施例中图像插值装置的结构框图;
图7为一个实施例中图像插值装置的结构框图;
图8为一个实施例中图像插值装置的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的图像插值方法,可以应用于如图1所示的应用环境中。其中,计算机设备100可以可以用独立的服务器或者是多个服务器组成的服务器集群来实现。上述方法可以应用于气象云图的平滑处理,也可以用于视频慢动作的实现,在此不做限定。
在一个实施例中,如图2所示,提供了一种图像插值方法,以该方法应用于图1中的计算机设备为例进行说明,包括:
S101、将待插值的至少两张待插值图像输入视频平滑网络,获得目标图像;视频平滑网络基于待插值图像中移动对象的像素矢量差的特征训练而成。
其中,上述待插值图像可以是视频中的两帧图像,也可以是连续拍摄的图片,还可以是根据采集设备采集的数据生成的图像,例如气象云图或者雷达回波图等;对于上述待插值图像的类型在此不做限定。
上述待插值图像可以是像素密度为100的图像,也可以是像素密度为50的图像;可以是JPG格式的图像,也可以是RAW格式的图像,对于上述待插值图像的参数和格式在此不做限定。
其中,上述像素矢量差用于表征相邻的待插值图像中,移动对象的变化特征,可以包括移动对象的运动方向以及移动对象的亮度变化等。
上述视频平滑网络可以是深度体素流动(Deep Voxel Flow,简称DVF)网络,也可以是其它的神经网络模型,在此不作限定。上述视频平滑网络可以基于待插值图像中移动对象的像素矢量差的特征,对模型进行训练,使得视频平滑网络可以获得准确的目标图像。例如,计算机设备在对视频平滑网络的训练中,可以通过视频平滑网络提取第一张样本图像与第三张样本图像的像素矢量差,然后根据上述像素矢量差判断视频平滑网络输出的图像与上述两张样本图像中的第二张样本图像是否相似,进而完成模型训练。
具体地,计算机设备将至少两张待插值图像输入视频平滑网络,可以获得相邻两张待插值图像之间的一张目标图像,也可以获得相邻两张待插值图像之间的多张目标图像,在此不做限定。
S102、合成目标图像与至少两张待插值图像,获得视频。
在上述步骤的基础上,计算机设备可以将目标图像插入对应的两张待插值图像之间,合成目标图像与待插值图像,获得平滑的视频。
上述图像插值方法、装置、计算机设备和存储介质,计算机设备将至少两张待插值图像输入视频平滑网络,获得目标图像;视频平滑网络基于待插值图像中移动对象的像素矢量差的特征训练而成;然后,合成目标图像与至少两张待插值图像。由于上述视频平滑网络是基于待插值图像中移动对象的像素矢量差获得的,因此,计算机设备将待插值图像输入该视频平滑网络之后,可以根据像素矢量差的特征获得对应的目标图像;与通过预测像素值获得的图像相比,上述目标图像能更好地体现待插值图像之间的变化特征,从而使得目标图像与待插值图像合成的结果更平滑。
在一个实施例中,视频平滑网络为将预设的初始模型输出的图片,作为初始模型的输入,进行迭代训练得到的网络模型。例如,计算机设备可以将初始模型输出的图片,作为初始模型的输入,然后进一步将初始模型输出的结果与原有的样本图像进行对比,进行迭代训练。图3为另一个实施例中图像插值方法的流程示意图,本实施例涉及计算机设备迭代训练视频平滑网络的一种方式,在上述实施例的基础上,如图3所示,迭代训练方法包括:
S201、将按时间顺序排列的至少3张样本图像输入初始模型,获得相邻两张样本图像分别对应的中间状态图像。
其中,上述样本图像的具体限定于S101中待插值图像类似,可以是不同的分辨率、不同的格式以及不同类型的图像。
上述样本图像按照时间顺序排列,且样本图像的时间间隔可以相同,也可以不同。例如,上述样本图像可以是在同一位置连续拍摄的多张图片,其时间间隔不完全相同;也可以是视频中抽取的多个帧,每个帧之间的时间间隔相同。
进一步地,初始模型可以通过各卷积层对样本图像进行处理,获得样本图像的特征图像,然后通过特征图像获得相邻两张样本图像分别对应的中间状态图像,例如,当计算机设备将3张样本图像输入初始模型之后,可以获得第一张样本图像与第二张样本图像之间的中间状态图像,以及第二张样本图像与第三张样本图像之间的中间状态图像。
S202、将各中间状态图像输入初始模型,获得输出参考图像;输出参考图像与至少3张样本图像中的目标样本图像对应。
在获得各中间状态图像之后,计算机继续将上述中间状态图像输入初始模型,可以通过各卷积层对各中间状态图像进行处理,获得各中间状态图像的特征图像,然后通过各中间状态图像的特征图像获得输出参考图像。上述输出参考图像可以是相邻的中间状态图像对应的中间状态;也可以是根据多个中间状态图像进行多次迭代之后获得的图像;也就是说上述迭代训练可以是一次迭代,也可以是多次迭代。
其中,上述输出参考图像与至少3张样本图像中的目标样本图像对应,上述对应可以是指输出参考图像与目标样本图像的时间相同,也可以是输出参考图像与目标样本图像在图像序列中的排列位置相同,在此不做限定。例如,三张样本图像的时间间隔不同,通过两张中间状态图像进行迭代,获得的输出参考图像与第二张样本图像对应,但是输出参考图像对应的时间可以是两张中间状态图像的时间平均值,因此输出参考图像的时间与第二张样本图像的时间并不一定相同。
在一种场景下,可以对视频平滑网络进行三次迭代。具体地,视频平滑网络的样本图像可以包括5张样本图像I1、I2、I3、I4以及I5;中间状态图像包括I1.5、I2.5、I3.5以及I4.5,其中In.5表示样本图像In与样本图像In+1的中间状态图像,计算机设备在将各中间状态图像输入初始模型,获得输出参考图像的过程中,可以I1.5、I2.5、I3.5以及I4.5输入初始模型,获得I1.5与I2.5的中间状态图像I′2,以及I3.5与I4.5的中间状态图像I′4;然后,将I′2与I′4输入初始模型,生成输出参考图像;输出参考图像与I3对应,上述对应关系如图4所示。
S203、将输出参考图像与初始模型中其它图像的第一像素矢量差,以及目标样本图像与其它图像的第二像素矢量差,代入预设的第一损失函数,获得输出参考图像与目标样本图像的第一误差。
在获得了输出参考图像的基础上,计算机设备可以计算输出参考图像与其它图像的第一像素矢量差,以及目标样本图像与其它图像的第二像素矢量差。上述其它图像可以是样本图像中除目标样本图像以外的其它样本图像,也可以是中间状态图像,在此不做限定。
具体地,计算机设备可以根据光流法获得上述第一像素矢量差以及第二像素矢量差,也可以根据其它方法获得,在此不做限定。
在上述损失函数中,可以包括输出参考图像和目标样本图像与其中相邻的中间状态图像之间像素矢量差,也可以是与所有的中间状态图像之间的像素矢量差,在此不做限定。例如,上述第一像素矢量差包括F3,2.5和F3,3.5,也可以包括F3,1.5、F3,2.5、F3,3.5以及F3,4.5,其中上述F3,n.5表示输出参考图像与中间状态图像In.5之间的第一像素矢量差。
进一步地,第一损失函数可以直接将第一像素矢量差与对应的第二像素矢量差相减,然后计算输出参考图像与中间状态图像的第一误差;另外,也可以根据各图像之间的时间间隔,对上述像素矢量差进行平均或求和等操作,在此不做限定。例如,上述第一损失函数可以根据计算上述第一误差,其中上述G3,n.5表示目标图像与中间状态图像In.5之间的第二像素矢量差。
S204、根据反向传播算法以及第一误差,调整初始模型的参数,直至误差满足预设条件,获得视频平滑网络。
在上述步骤的基础上,计算机设备可以根据反向传播算法以及第一误差,调整初始模型的参数,直至误差满足预设条件,获得视频平滑网络。例如,可以通过反向传播算法,将上述误差梯度传递给初始模型中各个层的权重值以及偏置量。
上述图像插值方法,计算机设备通过迭代训练得到网络模型,可以使网络模型在训练中学习到的错误特征被加倍放大,加速了模型的收敛速度,使得模型的训练效率更高;另外,通过被放大的错误特征可以更准确地调整模型的参数,使得模型输出的结果更准确。
在一个实施例中,计算机设备对视频平滑网络的初始模型进行训练时,可以根据不同的训练方法分阶段进行训练,在对初始模型进行迭代训练之前,计算机设备可以根据如下方法完成第一阶段的训练,包括:
计算机设备将按时间顺序排列的至少3张样本图像输入所述初始模型,分别获取与其中一张样本图像相邻的两张样本图像对应的中间运动状态帧;通过预设的第二损失函数计算所述中间运动状态帧与所述其中一张样本图像的第二误差;根据反向传播算法以及所述第二误差,调整所述初始模型的参数,完成对所述初始模型的第一阶段训练。
例如,如图4A所示,计算机设备可以输入3张样本图像A、B和C,然后通过初始模型提取A与C的特征图像,并获得A与C之间的中间运动状态帧B1,并根据第二损失函数计算B和B1的第二误差,然后根据上述第二误差调整初始模型的参数。
上述第二损失函数与S203中的第一损失函数可以相同,也可以不同。
上述图像插值方法,计算机设备通过分阶段完成视频平滑网络的训练,可以通过第一阶段训练确定初始模型的参数调整方向,进一步根据迭代训练获得更准确的模型参数,使得模型训练的收敛速度更快。
在一个实施例中,涉及计算机设备确定视频平滑网络的卷积参数的一种方式,在上述实施例的基础上,计算机设备可以根据相邻两张待插值图像之间的变化程度,确定视频平滑网络的卷积参数;其中,卷积参数包括卷积核的大小以及移动步长中的至少一种。
其中,上述卷积参数可以包括视频平滑网络中第一卷积层的卷积参数,也可以包括各个卷积层的卷积参数,在此不做限定。
具体地,计算机设备可以根据待插值图像之间的像素差异确定上述变化程度,也可以根据视频帧图像的场景来确定,还可以根据待插值图像之间的像素矢量差的大小来确定;另外,还可以根据待插值图像的类型来确定,对于上述变化程度的确定方式在此不做限定。
例如计算机设备可以认为同一场景下的视频帧图像的变化程度小,而切换场景后的视频帧图像的变化程度大。计算机设备还可以根据待插值图像是视频帧图像还是气象云图,然后认为视频帧图像对应的变化程度大,而气象云图对应的变化程度小。
计算机设备可以改根据上述变化程度选择对应的卷积参数,具体地,计算机设备可以基于变化程度在预设的变化程度与卷积参数的对应关系,选择与待插值图像的变化程度对应的卷积参数。例如,上述对应关系中,卷积参数中的卷积核的大小可以是3×3,也可以是7×7。
上述对应关系中可以包含雷达回波图或气象云图对应的变化程度的参数值,在雷达回波图或气象云图进行平滑处理时,计算机设备可以确定待插值图像对应的卷积核大小为3×3,移动步长为1。
进一步地,计算机设备可以设置视频平滑网络的第一卷积层的卷积核大小为3×3,移动步长为1。
由于雷达回波图或气象云图在相邻两张中的变化差异不会太剧烈,因此通过优化后,选择较小的卷积核大小以及移动步长,可以提取待插值图像中的更多信息;从而使得到的图像合成结果更平滑。
上述图像插值方法,计算机设备根据待插值图像的变化程度选择相应的卷积参数,使得图像变化较小时,视频平滑网络可以提取更多的信息,使得图像合成结果更平滑;而在图像变化较大时,选择合适的卷积参数可以提升模型输出效率。
应该理解的是,虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种图像插帧装置,包括:输入模块10和合成模块20,其中:
输入模块10,用于将至少两张待插值图像输入视频平滑网络,获得目标图像;视频平滑网络基于待插值图像中移动对象的像素矢量差的特征训练而成;
合成模块20,用于合成目标图像与至少两张待插值图像。
本申请实施例提供的图像插帧装置,可以实现上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
在一个实施例中,在上述实施例的基础上,视频平滑网络为将预设的初始模型输出的图片,作为初始模型的输入,进行迭代训练得到的网络模型。
在一个实施例中,在上述实施例的基础上,如图6所示,上述装置还包括训练模块30,包括:
输入单元301,用于将按时间顺序排列的至少3张样本图像输入初始模型,获得相邻两张样本图像分别对应的中间状态图像;
获取单元302,用于将各中间状态图像输入初始模型,获得输出参考图像;输出参考图像与至少3张样本图像中的目标样本图像对应;
代入单元303,用于将输出参考图像与相邻中间状态图像的第一像素矢量差,以及目标样本图像与相邻中间状态图像的第二像素矢量差,代入预设的损失函数,获得输出参考图像与目标样本图像的误差;
调整单元304,用于根据反向传播算法以及误差,调整初始模型的参数,直至误差满足预设条件,获得视频平滑网络。
在一个实施例中,在上述实施例的基础上,至少3张样本图像的时间间隔相同。
在一个实施例中,在上述实施例的基础上,样本图像包括5张样本图像I1、I2、I3、I4以及I5;中间状态图像包括I1.5、I2.5、I3.5以及I4.5,其中In.5表示样本图像In与样本图像In+1的中间状态图像,如图7所示,上述获取单元302包括:
输入子单元3021,用于将I1.5、I2.5、I3.5以及I4.5输入初始模型,获得I1.5与I2.5的中间状态图像I′2,以及I3.5与I4.5的中间状态图像I′4;
生成子单元3022,用于将I′2与I′4输入初始模型,生成输出参考图像;输出参考图像与I3对应。
在一个实施例中,在上述实施例的基础上,上述训练模块30具体用于:将按时间顺序排列的至少3张样本图像输入初始模型,分别获取与其中一张样本图像相邻的两张样本图像对应的中间运动状态帧;通过预设的第二损失函数计算中间运动状态帧与其中一张样本图像的第二误差;根据反向传播算法以及第二误差,调整初始模型的参数,完成对初始模型的第一阶段训练。
在一个实施例中,在上述实施例的基础上,如图8所示,上述装置还包括确定模块40,用于根据相邻两张待插值图像之间的变化程度,确定视频平滑网络的卷积参数;卷积参数包括卷积核的大小以及移动步长中的至少一种。
在一个实施例中,在上述实施例的基础上,上述确定模块40具体用于:基于变化程度在预设的变化程度与卷积参数的对应关系,选择与待插值图像的变化程度对应的卷积参数。
在一个实施例中,在上述实施例的基础上,若待插值图像为雷达回波图或气象云图,则待插值图像对应的卷积核大小为3×3,移动步长为1。
本申请实施例提供的图像插帧装置,可以实现上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
关于图像插值装置的具体限定可以参见上文中对于图像插值方法的限定,在此不再赘述。上述图像插值装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像插值方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
将待插值的至少两张待插值图像输入视频平滑网络,获得目标图像;视频平滑网络基于待插值图像中移动对象的像素矢量差的特征训练而成;
合成目标图像与至少两张待插值图像。
在一个实施例中,视频平滑网络为将预设的初始模型输出的图片,作为初始模型的输入,进行迭代训练得到的网络模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将按时间顺序排列的至少3张样本图像输入初始模型,获得相邻两张样本图像分别对应的中间状态图像;将各中间状态图像输入初始模型,获得输出参考图像;输出参考图像与至少3张样本图像中的目标样本图像对应;将输出参考图像与相邻中间状态图像的第一像素矢量差,以及目标样本图像与相邻中间状态图像的第二像素矢量差,代入预设的损失函数,获得输出参考图像与目标样本图像的误差;根据反向传播算法以及误差,调整初始模型的参数,直至误差满足预设条件,获得视频平滑网络。
在一个实施例中,至少3张样本图像的时间间隔相同。
在一个实施例中,样本图像包括5张样本图像I1、I2、I3、I4以及I5;中间状态图像包括I1.5、I2.5、I3.5以及I4.5,其中In.5表示样本图像In与样本图像In+1的中间状态图像,处理器执行计算机程序时还实现以下步骤:将I1.5、I2.5、I3.5以及I4.5输入初始模型,获得I1.5与I2.5的中间状态图像I′2,以及I3.5与I4.5的中间状态图像I′4;将I′2与I′4输入初始模型,生成输出参考图像;输出参考图像与I3对应。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将按时间顺序排列的至少3张样本图像输入初始模型,分别获取与其中一张样本图像相邻的两张样本图像对应的中间运动状态帧;通过预设的第二损失函数计算中间运动状态帧与其中一张样本图像的第二误差;根据反向传播算法以及第二误差,调整初始模型的参数,完成对初始模型的第一阶段训练。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据相邻两张待插值图像之间的变化程度,确定视频平滑网络的卷积参数;卷积参数包括卷积核的大小以及移动步长中的至少一种。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:基于变化程度在预设的变化程度与卷积参数的对应关系,选择与待插值图像的变化程度对应的卷积参数。
在一个实施例中,若待插值图像为雷达回波图或气象云图,则待插值图像对应的卷积核大小为3×3,移动步长为1。
本实施例提供的计算机设备,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
将待插值的至少两张待插值图像输入视频平滑网络,获得目标图像;视频平滑网络基于待插值图像中移动对象的像素矢量差的特征训练而成;
合成目标图像与至少两张待插值图像。
在一个实施例中,视频平滑网络为将预设的初始模型输出的图片,作为初始模型的输入,进行迭代训练得到的网络模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将按时间顺序排列的至少3张样本图像输入初始模型,获得相邻两张样本图像分别对应的中间状态图像;将各中间状态图像输入初始模型,获得输出参考图像;输出参考图像与至少3张样本图像中的目标样本图像对应;将输出参考图像与相邻中间状态图像的第一像素矢量差,以及目标样本图像与相邻中间状态图像的第二像素矢量差,代入预设的损失函数,获得输出参考图像与目标样本图像的误差;根据反向传播算法以及误差,调整初始模型的参数,直至误差满足预设条件,获得视频平滑网络。
在一个实施例中,至少3张样本图像的时间间隔相同。
在一个实施例中,样本图像包括5张样本图像I1、I2、I3、I4以及I5;中间状态图像包括I1.5、I2.5、I3.5以及I4.5,其中In.5表示样本图像In与样本图像In+1的中间状态图像,计算机程序被处理器执行时还实现以下步骤:将I1.5、I2.5、I3.5以及I4.5输入初始模型,获得I1.5与I2.5的中间状态图像I′2,以及I3.5与I4.5的中间状态图像I′4;将I′2与I′4输入初始模型,生成输出参考图像;输出参考图像与I3对应。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将按时间顺序排列的至少3张样本图像输入初始模型,分别获取与其中一张样本图像相邻的两张样本图像对应的中间运动状态帧;通过预设的第二损失函数计算中间运动状态帧与其中一张样本图像的第二误差;根据反向传播算法以及第二误差,调整初始模型的参数,完成对初始模型的第一阶段训练。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据相邻两张待插值图像之间的变化程度,确定视频平滑网络的卷积参数;卷积参数包括卷积核的大小以及移动步长中的至少一种。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:基于变化程度在预设的变化程度与卷积参数的对应关系,选择与待插值图像的变化程度对应的卷积参数。
在一个实施例中,若待插值图像为雷达回波图或气象云图,则待插值图像对应的卷积核大小为3×3,移动步长为1。
本实施例提供的计算机可读存储介质,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种图像插值方法,其特征在于,所述方法包括:
将至少两张待插值图像输入视频平滑网络,获得目标图像;所述视频平滑网络基于待插值图像中移动对象的像素矢量差的特征训练而成;
合成所述目标图像与所述至少两张待插值图像,获得视频。
2.根据权利要求1所述的图像插值方法,其特征在于,所述视频平滑网络为将预设的初始模型输出的图片,作为所述初始模型的输入,进行迭代训练得到的网络模型。
3.根据权利要求2所述的图像插值方法,其特征在于,所述视频平滑网络的迭代训练过程,包括:
将按时间顺序排列的至少3张样本图像输入所述初始模型,获得相邻两张样本图像分别对应的中间状态图像;
将各所述中间状态图像输入所述初始模型,获得输出参考图像;所述输出参考图像与所述至少3张样本图像中的目标样本图像对应;
将所述输出参考图像与所述初始模型中的其它图像的第一像素矢量差,以及所述目标样本图像与所述其它图像的第二像素矢量差,代入预设的第一损失函数,获得所述输出参考图像与目标样本图像的第一误差;
根据反向传播算法以及所述第一误差,调整所述初始模型的参数,直至所述误差满足预设条件,获得所述视频平滑网络。
4.根据权利要求3所述的图像插值方法,其特征在于,所述至少3张样本图像的时间间隔相同。
5.根据权利要求4所述的图像插值方法,其特征在于,所述样本图像包括5张样本图像I1、I2、I3、I4以及I5;所述中间状态图像包括I1.5、I2.5、I3.5以及I4.5,其中In.5表示样本图像In与样本图像In+1的中间状态图像,所述将各所述中间状态图像输入所述初始模型,获得输出参考图像,包括:
将所述I1.5、I2.5、I3.5以及I4.5输入所述初始模型,获得所述I1.5与所述I2.5的中间状态图像I′2,以及所述I3.5与所述I4.5的中间状态图像I′4;
将所述I′2与所述I′4输入所述初始模型,生成所述输出参考图像;所述输出参考图像与所述I3对应。
6.根据权利要求1-5任一项所述的图像插值方法,其特征在于,所述迭代训练之前,所述训练过程还包括:
将按时间顺序排列的至少3张样本图像输入所述初始模型,分别获取与其中一张样本图像相邻的两张样本图像对应的中间运动状态帧;
通过预设的第二损失函数计算所述中间运动状态帧与所述其中一张样本图像的第二误差;
根据反向传播算法以及所述第二误差,调整所述初始模型的参数,完成对所述初始模型的第一阶段训练。
7.根据权利要求1-5任一项所述的图像插值方法,其特征在于,所述方法还包括:
根据相邻两张所述待插值图像之间的变化程度,确定所述视频平滑网络的卷积参数;所述卷积参数包括卷积核的大小以及移动步长中的至少一种。
8.根据权利要求7所述的图像插值方法,其特征在于,所述根据相邻两张所述待插值图像之间的变化程度,确定所述视频平滑网络的卷积参数,包括:
基于所述变化程度在预设的变化程度与卷积参数的对应关系,选择与所述待插值图像的变化程度对应的卷积参数。
9.一种图像插值装置,其特征在于,所述装置包括:
输入模块,用于将至少两张待插值图像输入视频平滑网络,获得目标图像;所述视频平滑网络基于待插值图像中移动对象的像素矢量差的特征训练而成;
合成模块,用于合成所述目标图像与所述至少两张待插值图像,获得视频。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911066692.9A CN110830848B (zh) | 2019-11-04 | 2019-11-04 | 图像插值方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911066692.9A CN110830848B (zh) | 2019-11-04 | 2019-11-04 | 图像插值方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110830848A true CN110830848A (zh) | 2020-02-21 |
CN110830848B CN110830848B (zh) | 2021-12-07 |
Family
ID=69552646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911066692.9A Expired - Fee Related CN110830848B (zh) | 2019-11-04 | 2019-11-04 | 图像插值方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110830848B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220374625A1 (en) * | 2021-05-07 | 2022-11-24 | Google Llc | Machine-Learned Models for Unsupervised Image Transformation and Retrieval |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106210767A (zh) * | 2016-08-11 | 2016-12-07 | 上海交通大学 | 一种智能提升运动流畅性的视频帧率上变换方法及系统 |
CN108304755A (zh) * | 2017-03-08 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 用于图像处理的神经网络模型的训练方法和装置 |
CN108600655A (zh) * | 2018-04-12 | 2018-09-28 | 视缘(上海)智能科技有限公司 | 一种视频图像合成方法及装置 |
CN109068174A (zh) * | 2018-09-12 | 2018-12-21 | 上海交通大学 | 基于循环卷积神经网络的视频帧率上变换方法及系统 |
US20190164252A1 (en) * | 2017-11-30 | 2019-05-30 | Panasonic Intellectual Property Management Co., Ltd. | Image display device |
CN109905624A (zh) * | 2019-03-01 | 2019-06-18 | 北京大学深圳研究生院 | 一种视频帧插值方法、装置及设备 |
CN109993820A (zh) * | 2019-03-29 | 2019-07-09 | 合肥工业大学 | 一种动画视频自动生成方法及其装置 |
US20190289321A1 (en) * | 2016-11-14 | 2019-09-19 | Google Llc | Video Frame Synthesis with Deep Learning |
-
2019
- 2019-11-04 CN CN201911066692.9A patent/CN110830848B/zh not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106210767A (zh) * | 2016-08-11 | 2016-12-07 | 上海交通大学 | 一种智能提升运动流畅性的视频帧率上变换方法及系统 |
US20190289321A1 (en) * | 2016-11-14 | 2019-09-19 | Google Llc | Video Frame Synthesis with Deep Learning |
CN108304755A (zh) * | 2017-03-08 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 用于图像处理的神经网络模型的训练方法和装置 |
US20190164252A1 (en) * | 2017-11-30 | 2019-05-30 | Panasonic Intellectual Property Management Co., Ltd. | Image display device |
CN108600655A (zh) * | 2018-04-12 | 2018-09-28 | 视缘(上海)智能科技有限公司 | 一种视频图像合成方法及装置 |
CN109068174A (zh) * | 2018-09-12 | 2018-12-21 | 上海交通大学 | 基于循环卷积神经网络的视频帧率上变换方法及系统 |
CN109905624A (zh) * | 2019-03-01 | 2019-06-18 | 北京大学深圳研究生院 | 一种视频帧插值方法、装置及设备 |
CN109993820A (zh) * | 2019-03-29 | 2019-07-09 | 合肥工业大学 | 一种动画视频自动生成方法及其装置 |
Non-Patent Citations (1)
Title |
---|
张倩: "基于深度学习的视频插帧算法", 《计算机软件及计算机应用》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220374625A1 (en) * | 2021-05-07 | 2022-11-24 | Google Llc | Machine-Learned Models for Unsupervised Image Transformation and Retrieval |
US12008821B2 (en) * | 2021-05-07 | 2024-06-11 | Google Llc | Machine-learned models for unsupervised image transformation and retrieval |
Also Published As
Publication number | Publication date |
---|---|
CN110830848B (zh) | 2021-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304755B (zh) | 用于图像处理的神经网络模型的训练方法和装置 | |
Zeng et al. | Learning image-adaptive 3d lookup tables for high performance photo enhancement in real-time | |
US11055828B2 (en) | Video inpainting with deep internal learning | |
US10755391B2 (en) | Digital image completion by learning generation and patch matching jointly | |
Rabin et al. | Adaptive color transfer with relaxed optimal transport | |
CN109493417B (zh) | 三维物体重建方法、装置、设备和存储介质 | |
US20230401672A1 (en) | Video processing method and apparatus, computer device, and storage medium | |
CN112883806B (zh) | 基于神经网络的视频风格迁移方法、装置、计算机设备和存储介质 | |
WO2023160426A1 (zh) | 视频插帧方法、训练方法、装置和电子设备 | |
CN113706583A (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN112700516A (zh) | 基于深度学习的视频渲染方法、装置、计算机设备以及存储介质 | |
CN117726542B (zh) | 基于扩散模型的可控噪声去除方法及系统 | |
CN110830848B (zh) | 图像插值方法、装置、计算机设备和存储介质 | |
CN111462021A (zh) | 图像处理方法、装置、电子设备和计算机可读存储介质 | |
US20230145498A1 (en) | Image reprojection and multi-image inpainting based on geometric depth parameters | |
CA3177593A1 (en) | Transformer-based shape models | |
CN114998814A (zh) | 目标视频生成方法、装置、计算机设备和存储介质 | |
CN115049558A (zh) | 模型训练、人脸图像处理方法及装置、电子设备及可读存储介质 | |
CN117252914A (zh) | 深度估计网络的训练方法、装置、电子设备及存储介质 | |
CN113139893B (zh) | 图像翻译模型的构建方法和装置、图像翻译方法和装置 | |
JP7064050B2 (ja) | 画像変換に基づく病巣判定方法、装置、コンピュータ機器及び記憶媒体 | |
CN103618904A (zh) | 基于像素的运动估计方法及装置 | |
CN114630012B (zh) | 一种虚拟试衣视频生成方法、装置、电子设备及介质 | |
KR102648938B1 (ko) | 기하학적 일관성을 이용한 소수 샷 신경 방사장 기반 3차원 이미지 재구성 방법 및 장치 | |
WO2024007968A1 (en) | Methods and system for generating an image of a human |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: Image interpolation method, device, computer equipment and storage medium Effective date of registration: 20220211 Granted publication date: 20211207 Pledgee: Shanghai Bianwei Network Technology Co.,Ltd. Pledgor: SHANGHAI EYE CONTROL TECHNOLOGY Co.,Ltd. Registration number: Y2022310000023 |
|
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20211207 |
|
CF01 | Termination of patent right due to non-payment of annual fee |