CN108600655A - 一种视频图像合成方法及装置 - Google Patents
一种视频图像合成方法及装置 Download PDFInfo
- Publication number
- CN108600655A CN108600655A CN201810325616.4A CN201810325616A CN108600655A CN 108600655 A CN108600655 A CN 108600655A CN 201810325616 A CN201810325616 A CN 201810325616A CN 108600655 A CN108600655 A CN 108600655A
- Authority
- CN
- China
- Prior art keywords
- video image
- voxel
- frame
- layer
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010189 synthetic method Methods 0.000 title abstract 4
- 238000005070 sampling Methods 0.000 claims abstract description 48
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 9
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 9
- 238000001308 synthesis method Methods 0.000 claims description 25
- 230000002194 synthesizing effect Effects 0.000 claims description 19
- 238000011176 pooling Methods 0.000 claims description 18
- 230000003287 optical effect Effects 0.000 claims description 16
- 238000000034 method Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 8
- 230000006870 function Effects 0.000 description 19
- 230000033001 locomotion Effects 0.000 description 8
- 239000003086 colorant Substances 0.000 description 5
- 238000003909 pattern recognition Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/265—Mixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/42—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开一种视频帧合成方法及装置,属于图像处理技术领域。本发明的一种视频图像合成方法及装置,包括获取视频流中多帧原始视频图像,输入多帧原始视频图像到全卷积编码/解码器得到深度体素流,利用深度体素流和体积采样函数对多帧原始视频图像进行采样,得到目标体素,基于目标体素合成预测帧视频图像。本发明的一种视频图像合成方法及装置通过降低使用数据帧率来预测现有的帧,在数量和质量上比之前的方式得到改进。
Description
技术领域
本发明涉及一种视频图像合成方法及装置,属于图像处理领域中的模式识别领域。
背景技术
模式识别又称图形识别,是一门正在兴起的技术,它融入图像处理、计算机等许多领域的先进技术。它与人工智能、图像处理的研究有交叉关系,例如自适应性的模式识别系统应用于人工智能研究的景物理解,图像处理中的图像分析也应用模式识别技术。
我们通常观察到的视频是一系列复杂现象的组合,譬如物体迅速移动和发生形变、遮挡、灯光发生变化和相机移动等。视频的外观参数模型往往过于简单,无法准确地模拟、插补或推断视频。在视频和电影制作过程中,使用视频插值方法合成视频帧是一种非常普遍的方式。流行的商用插件Twixtor用于将视频重新取样到新的帧率,并且产生慢动作效果。与之相关的问题是视频推断,通过合成视频帧来预测视频图像的变化趋势.
这些问题的传统解决方案是估计帧与帧之间的光流,然后沿光流矢量进行插值或推断。当光流精确的时候,这种方法效果很好,相反当光流精度无法保证的时候,会产生明显的伪像。一种新的方法是使用卷积神经网络(CNNs)直接合成视频帧的RGB像素值,但是直接合成RGB值效果并不如基于光流的方法成功,最终合成的图像往往是模糊的。
发明内容
本发明的目的在于提供一种视频图像合成方法及装置,通过获取视频流中多帧原始视频图像,将多帧原始视频图像到全卷积编码/解码器得到深度体素流,之后利用深度体素流和体积采样函数对多帧原始视频图像进行采样,得到目标体素,最后基于目标体素合成预测帧视频图像,通过降低使用数据帧率来预测现有的帧,在数量和质量上比之前的方式得到改进。
本发明提供技术方案如下:
一方面,本发明提供了一种视频图像合成方法,包括:
获取视频流中多帧原始视频图像;
输入所述多帧原始视频图像到全卷积编码/解码器得到深度体素流;
利用所述深度体素流和体积采样函数对所述多帧原始视频图像进行采样,得到目标体素;
基于所述目标体素合成预测帧视频图像。
根据本发明的一实施方式,所述获取视频流中多帧原始视频图像的步骤包括:
截取视频流中前后间隔的第一帧原始视频图像和第二帧原始视频图像;
其中,原始视频图像表示为X∈RH×W×L,R表示视频图像帧,H,W,L分别表示高,宽和输入视频的帧数量,当L=2时,L0表示第一帧原始视频图像,L1表示第二帧原始视频图像。
根据本发明的另一实施方式,所述利用所述深度体素流和体积采样函
数对所述多帧原始视频图像进行采样,得到目标体素的步骤包括:
通过从所述第一帧原始视频图像和第二帧原始视频图像计算的光流对齐的视频体积内插值进行颜色采样,构造虚拟体素;
计算所述虚拟体素的八个顶点的整数位置;
通过所述体积采样函数对所述虚拟体素进行三线性内插值生成目标体素。
根据本发明的另一实施方式,所述深度体素流表示为:其中,表示全卷积编码/解码器,θ是网络参数,是深度体素流F在二维网格的整数目标像素位置,第一帧和第二帧原始图像的绝对位置分别为L0=(x-Δx,y-Δy),L1=(x-Δx,y-Δy)。
根据本发明的另一实施方式,所述虚拟体素的八个顶点的整数位置分别为:
其中,是底部函数,定义插值的时间范围。
根据本发明的另一实施方式,所述目标体素表示为:
其中,为体积采样函数,Wijk是三线重采样权。
根据本发明的另一实施方式,所述全卷积编码/解码器包括第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第一反卷积层、第一双线性上采样层、第二反卷积层、第二双线性上采样层、第三反卷积层、第三双线性上采样层以及瓶颈层,所述第一、第二和第三卷积层与所述第一、第二和第三反卷积层分别对应跳跃连接,所述第一、第二和第三卷积层的卷积核大小分别为5×5,5×5和3×3,所述第一、第二和第三反卷积层的卷积核大小分别为3×3、5×5和5×5,所述瓶颈层通过内核大小为3×3的卷积连接。
另一方面,本发明还提供了一种视频图像合成装置,包括:
获取模块,用于获取视频流中多帧原始视频图像;
全卷积编码/解码器模块,用于输入所述多帧原始视频图像到全卷积编码/解码器得到深度体素流;
采样模块,用于利用所述深度体素流和体积采样函数对所述多帧原始视频图像进行采样,得到目标体素;
合成模块,用于基于所述目标体素合成预测帧视频图像。
根据本发明的一实施方式,所述全卷积编码/解码器模块包括第一卷积层单元、第一池化层单元、第二卷积层单元、第二池化层单元、第三卷积层单元、第三池化层单元、第一反卷积层单元、第一双线性上采样层单元、第二反卷积层单元、第二双线性上采样层单元、第三反卷积层单元、第三双线性上采样层单元以及瓶颈层单元,所述第一、第二和第三卷积层单元与所述第一、第二和第三反卷积层单元分别对应跳跃连接,所述第一、第二和第三卷积层单元的卷积核大小分别为5×5,5×5和3×3,所述第一、第二和第三反卷积层单元的卷积核大小分别为3×3、5×5和5×5,所述瓶颈层单元通过内核大小为3×3的卷积连接。
根据本发明的另一实施方式,所述采样模块包括:
构造单元,用于通过从所述第一帧原始视频图像和第二帧原始视频图像计算的光流对齐的视频体积内插值进行颜色采样,构造虚拟体素;
计算单元,用于计算所述虚拟体素的八个顶点的整数位置;
生成单元,用于通过体积采样函数对所述虚拟体素进行三线性内插值生成目标体素。
本发明的有益效果如下:
本发明的视频图像合成方法通过获取视频流中多帧原始视频图像,将多帧原始视频图像到全卷积编码/解码器得到深度体素流,之后利用深度体素流和体积采样函数对多帧原始视频图像进行采样,得到目标体素,最后基于目标体素合成预测帧视频图像。本发明实施例的视频图像合成方法可以以两帧或多帧图像作为输入,剩下的帧作为重建目标,通过视频体积内插值来对颜色进行采样,将任意大小的视频用作输入,通过全卷积编/解码器,最终合成预测的多步帧图像。本发明实施例的视频图像合成方法通过降低使用数据帧率来预测现有的帧,在数量和质量上比之前的方式得到改进。
附图说明
图1为本发明的一种视频图像合成方法的一个实施例的流程示意图;
图2为本发明的一种视频图像合成方法的另一个实施例的流程示意图;
图3为本发明的一种视频图像合成装置的一个实施例的结构框图;
图4为本发明的一种视频图像合成装置的另一个实施例的结构框图图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
一方面,如图1所示,本发明实施例提供了一种视频图像合成方法,包括:
步骤100:获取视频流中多帧原始视频图像;
步骤200:输入多帧原始视频图像到全卷积编码/解码器得到深度体素流;
深度体素流,是指一个端到端的全微分网络视频帧的合成,多帧原始视频图像到通过一个全卷积编码器/解码器预测深度体素流即三维体素流,体素流的空间分量表示从目标帧到下一帧的光流;该光流的负值用于识别前一帧中相应的位置即假设光流是局部线性的,并且在帧之间在时间上是对称的,体素流的时间分量是前一帧和下一帧之间的线性混合权重,以在目标帧中形成颜色。
步骤300:利用深度体素流和体积采样函数对多帧原始视频图像进行采样,得到目标体素;
步骤400:基于目标体素合成预测帧视频图像。
本发明实施例的视频图像合成方法通过获取视频流中多帧原始视频图像,将多帧原始视频图像到全卷积编码/解码器得到深度体素流,之后利用深度体素流和体积采样函数对多帧原始视频图像进行采样,得到目标体素,最后基于目标体素合成预测帧视频图像。本发明实施例的视频图像合成方法可以以两帧或多帧图像作为输入,剩下的帧作为重建目标,通过视频体积内插值来对颜色进行采样,将任意大小的视频用作输入,通过全卷积编/解码器,最终合成预测的多步帧图像。本发明实施例的视频图像合成方法可以应用在任何分辨率的视频图像帧,因为它是完全卷积,并产生显著的高质量的结果,大大优于光流和CNN的方法。本发明结果在数量上比现有的方法要好,在观看输出视频时,这种改进尤为明显,因为现有的量化指标在测量感知质量方面很差。因此,本发明实施例的视频图像合成方法通过降低使用数据帧率来预测现有的帧,在数量和质量上比之前的方式得到改进。
作为一个举例说明,如图2所示,本发明实施例的视频图像合成方法的步骤100包括:
步骤101:截取视频流中前后间隔的第一帧原始视频图像和第二帧原始视频图像;
其中,原始视频图像表示为X∈RH×W×L,R表示视频图像帧,H,W,L分别表示高,宽和输入视频的帧数量,当L=2时,L0表示第一帧原始视频图像,L1表示第二帧原始视频图像。
作为另一个举例说明,如图2所示,本发明实施例的视频图像合成方法的步骤300包括:
步骤301:通过从第一帧原始视频图像和第二帧原始视频图像计算的光流对齐的视频体积内插值进行颜色采样,构造虚拟体素;
步骤302:计算虚拟体素的八个顶点的整数位置;
步骤303:通过体积采样函数对虚拟体素进行三线性内插值生成目标体素。
通过从X计算的光流对齐的视频体积内插值来对颜色进行采样,给定相应位置(L0,L1)的情况下,构造了该体积的虚拟体素,并利用体素拐角处的颜色进行三线性插值计算输出视频色素计算输入视频x中虚拟体素的八个顶点的整数位置。
作为另一个举例说明,本发明实施例的视频图像合成方法中深度体素流表示为:其中,表示全卷积编码/解码器,θ是网络参数,是深度体素流F在二维网格的整数目标像素位置,第一帧和第二帧原始图像的绝对位置分别为L0=(x-Δx,y-Δy),L1=(x-Δx,y-Δy)。深度体素流为二维运动场的联合建模和在前帧和后帧之间的掩膜选择,具体的可将F分离为Fmotion=(Δx,Δy)和Fnasj=Δt。
作为另一个举例说明,本发明实施例的视频图像合成方法中虚拟体素的八个顶点的整数位置分别为:
其中,是底部函数,定义插值的时间范围。
作为另一个举例说明,本发明实施例的视频图像合成方法中目标体素表示为:
其中,为体积采样函数,Wijk是三线重采样权。
通过对输入视频X进行三线性插值和根据其投影的虚拟体素,得到每个输出体素经观察时空相干性在输出体积中被保留,因为时间层的卷积允许保持局部相关性。本发明实施例的视频图像合成方法利用时间和空间上的一致性调整减少视觉上的伪影重建损失l1和总变动(TV)的调整来实施连贯性。通过正则化对数据进行预处理,使得数据更便于我们的计算或获得更加泛化的结果,因此这些正则化是强加在网络的输出上的,所以它可以很容易地合并到反向传播方案中,最小化的总体目标函数是:
其中是所有帧三重集的生成集,N是它的基数,Y是要预测的目标帧。是体素流(x,y)分量上的总变项,λ1是相应的正则化权。是体素流时间分量上的正则化项,权重为2。为了优化l1范数,使用Charbonnier函数φ(x)=(x2+∈2)1/2作为近似值,设定λ1=0.01,λ2=0.005和∈=0.001。用高斯分布初始化DVF中的权值,标准偏差为0.01。学习网络通过ADAM解决器实现,速率为0.0001,β1=0.9,β2=0.999,批处理大小为32,为了更快的收敛就使用批处理归一化。为了使深度体素流成为端到端完全可微的系统,定义关于深度体素流的梯度F=(Δx,Δy,Δz),这样,重建误差就可以通过体积采样层被反向传播。合成体素颜色的偏导数中Δx代表:
其中,Ei,j,k是错误重分配权Δx,同样可以计算和这是一种子可微抽样机制,允许损耗梯度回流到三维体素流F。这种采样机制可以有效地实现,只需查看每个输出体素的内核支持区域即可。
通过查看每个输出体的内核支持区域,就可以得到重建误差的梯度,这使得很难找到内核之外的大运动。因此,提出了一个多深度体素流(多尺度DVF)更好的编码动作大以及小的运动。设计一系列卷积编码解码器从粗尺度到细尺度分别对视频帧进行处理。在实验中,设置s2=64×64,s1=128×128,s0=256×256,在每一个标度k中,子网络在这种方法上预测三维体素流Fk。直观来说,动作大的运动在粗尺度sN中有一个相对较小的偏移矢量Fk。因此,子网络在较粗的尺度sn,…,s1中能够产生正确的多尺度体素流FN,…,F1,甚至更大的动作将这些多尺度体素流融合到网络中,以获得最终结果。融合是通过重采样和级联多尺度体素流到的最终解码器层进行的,该层具有所需的空间分辨率sx。然后,通过对熔断流场的进一步卷积,得到细尺度体素流F0。多尺度DVF的网络结构将其表述为
由于每个子网络是完全可微的,多尺度的DVF也可以在每个尺度sk中生成端到端重建损失
作为另一个举例说明,本发明实施例的视频图像合成方法的全卷积编码/解码器包括第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第一反卷积层、第一双线性上采样层、第二反卷积层、第二双线性上采样层、第三反卷积层、第三双线性上采样层以及瓶颈层,第一、第二和第三卷积层与第一、第二和第三反卷积层分别对应跳跃连接,第一、第二和第三卷积层的卷积核大小分别为5×5,5×5和3×3,第一、第二和第三反卷积层的卷积核大小分别为3×3、5×5和5×5,瓶颈层通过内核大小为3×3的卷积连接。
本发明实施例的视频图像合成方法的全卷积编/解码器架构为三个卷积层、三个反卷积层和一个瓶颈层,可以将任意大小的视频用作输入。对于网络的编码器部分,每个处理单元都包含卷积和最大存储,卷积核大小分别为5×5,5×5和3×3,瓶颈层也是通过内核大小为3×3的卷积连接。对于解码部分,每个处理单元包含双线性上采样和卷积,卷积核大小分别为3×3、5×5和5×5。为了更好地保持空间信息,在相应的卷积层和反卷积层之间添加了跳跃连接,具体而言,在向前反馈之前,相应的反卷积层和卷积层是连在一起的。
另一方面,如图3所示,本发明实施例还提供了一种视频图像合成装置,包括:
获取模块10,用于获取视频流中多帧原始视频图像;
全卷积编码/解码器模块20,用于输入多帧原始视频图像到全卷积编码/解码器得到深度体素流;
采样模块30,用于利用深度体素流和体积采样函数对多帧原始视频图像进行采样,得到目标体素;
合成模块40,用于基于目标体素合成预测帧视频图像。
本发明实施例的视频图像合成装置通过获取模块获取视频流中多帧原始视频图像,全卷积编码/解码器模块将多帧原始视频图像到全卷积编码/解码器得到深度体素流,之后采样模块利用深度体素流和体积采样函数对多帧原始视频图像进行采样,得到目标体素,最后合成模块基于目标体素合成预测帧视频图像。本发明实施例的视频图像合成方法可以以两帧或多帧图像作为输入,剩下的帧作为重建目标,通过视频体积内插值来对颜色进行采样,将任意大小的视频用作输入,通过全卷积编/解码器,最终合成预测的多步帧图像。本发明实施例的视频图像合成方法通过降低使用数据帧率来预测现有的帧,在数量和质量上比之前的方式得到改进。
作为一个举例说明,本发明实施例的视频图像合成装置的中全卷积编码/解码器模块包括第一卷积层单元、第一池化层单元、第二卷积层单元、第二池化层单元、第三卷积层单元、第三池化层单元、第一反卷积层单元、第一双线性上采样层单元、第二反卷积层单元、第二双线性上采样层单元、第三反卷积层单元、第三双线性上采样层单元以及瓶颈层单元,第一、第二和第三卷积层单元与第一、第二和第三反卷积层单元分别对应跳跃连接,第一、第二和第三卷积层单元的卷积核大小分别为5×5,5×5和3×3,第一、第二和第三反卷积层单元的卷积核大小分别为3×3、5×5和5×5,瓶颈层单元通过内核大小为3×3的卷积连接。
作为另一个举例说明,如图3所示,本发明实施例的视频图像合成方法中采样模块包括:
构造单元31,用于通过从第一帧原始视频图像和第二帧原始视频图像计算的光流对齐的视频体积内插值进行颜色采样,构造虚拟体素;
计算单元32,用于计算虚拟体素的八个顶点的整数位置;
生成单元33,用于通过体积采样函数对虚拟体素进行三线性内插值生成目标体素。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种视频图像合成方法,其特征在于,包括:
获取视频流中多帧原始视频图像;
输入所述多帧原始视频图像到全卷积编码/解码器得到深度体素流;
利用所述深度体素流和体积采样函数对所述多帧原始视频图像进行采样,得到目标体素;
基于所述目标体素合成预测帧视频图像。
2.根据权利要求1所述的一种视频图像合成方法,其特征在于,所述获取视频流中多帧原始视频图像的步骤包括:
截取视频流中前后间隔的第一帧原始视频图像和第二帧原始视频图像;
其中,原始视频图像表示为X∈RH×W×L,R表示视频图像帧,H,W,L分别表示高,宽和输入视频的帧数量,当L=2时,L0表示第一帧原始视频图像,L1表示第二帧原始视频图像。
3.根据权利要求2所述的一种视频图像合成方法,其特征在于,所述利用所述深度体素流和体积采样函数对所述多帧原始视频图像进行采样,得到目标体素的步骤包括:
通过从所述第一帧原始视频图像和第二帧原始视频图像计算的光流对齐的视频体积内插值进行颜色采样,构造虚拟体素;
计算所述虚拟体素的八个顶点的整数位置;
通过所述体积采样函数对所述虚拟体素进行三线性内插值生成目标体素。
4.根据权利要求3所述的一种视频图像合成方法,其特征在于,所述深度体素流表示为:其中,表示全卷积编码/解码器,θ是网络参数,是深度体素流F在二维网格的整数目标像素位置,第一帧和第二帧原始图像的绝对位置分别为L0=(x-Δx,y-Δy),L1=(x-Δx,y-Δy)。
5.根据权利要求4所述的一种视频图像合成方法,其特征在于,所述虚拟体素的八个顶点的整数位置分别为:
其中,是底部函数,定义插值的时间范围。
6.根据权利要求5所述的一种视频图像合成方法,其特征在于,所述目标体素表示为:
其中,为体积采样函数,Wijk是三线重采样权。
7.根据权利要求1-6任一所述的一种视频图像合成方法,其特征在于,所述全卷积编码/解码器包括第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第一反卷积层、第一双线性上采样层、第二反卷积层、第二双线性上采样层、第三反卷积层、第三双线性上采样层以及瓶颈层,所述第一、第二和第三卷积层与所述第一、第二和第三反卷积层分别对应跳跃连接,所述第一、第二和第三卷积层的卷积核大小分别为5×5,5×5和3×3,所述第一、第二和第三反卷积层的卷积核大小分别为3×3、5×5和5×5,所述瓶颈层通过内核大小为3×3的卷积连接。
8.一种视频图像合成装置,其特征在于,包括:
获取模块,用于获取视频流中多帧原始视频图像;
全卷积编码/解码器模块,用于输入所述多帧原始视频图像到全卷积编码/解码器得到深度体素流;
采样模块,用于利用所述深度体素流和体积采样函数对所述多帧原始视频图像进行采样,得到目标体素;
合成模块,用于基于所述目标体素合成预测帧视频图像。
9.根据权利要求8所述的一种视频图像合成装置,其特征在于,所述全卷积编码/解码器模块包括第一卷积层单元、第一池化层单元、第二卷积层单元、第二池化层单元、第三卷积层单元、第三池化层单元、第一反卷积层单元、第一双线性上采样层单元、第二反卷积层单元、第二双线性上采样层单元、第三反卷积层单元、第三双线性上采样层单元以及瓶颈层单元,所述第一、第二和第三卷积层单元与所述第一、第二和第三反卷积层单元分别对应跳跃连接,所述第一、第二和第三卷积层单元的卷积核大小分别为5×5,5×5和3×3,所述第一、第二和第三反卷积层单元的卷积核大小分别为3×3、5×5和5×5,所述瓶颈层单元通过内核大小为3×3的卷积连接。
10.根据权利要求8所述的一种视频图像合成方法,其特征在于,所述采样模块包括:
构造单元,用于通过从所述第一帧原始视频图像和第二帧原始视频图像计算的光流对齐的视频体积内插值进行颜色采样,构造虚拟体素;
计算单元,用于计算所述虚拟体素的八个顶点的整数位置;
生成单元,用于通过体积采样函数对所述虚拟体素进行三线性内插值生成目标体素。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810325616.4A CN108600655A (zh) | 2018-04-12 | 2018-04-12 | 一种视频图像合成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810325616.4A CN108600655A (zh) | 2018-04-12 | 2018-04-12 | 一种视频图像合成方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108600655A true CN108600655A (zh) | 2018-09-28 |
Family
ID=63622219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810325616.4A Pending CN108600655A (zh) | 2018-04-12 | 2018-04-12 | 一种视频图像合成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108600655A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110351511A (zh) * | 2019-06-28 | 2019-10-18 | 上海交通大学 | 基于场景深度估计的视频帧率上变换系统及方法 |
CN110363720A (zh) * | 2019-07-04 | 2019-10-22 | 北京奇艺世纪科技有限公司 | 一种图像的色彩增强方法、装置、设备和存储介质 |
CN110830848A (zh) * | 2019-11-04 | 2020-02-21 | 上海眼控科技股份有限公司 | 图像插值方法、装置、计算机设备和存储介质 |
CN112613495A (zh) * | 2021-03-05 | 2021-04-06 | 北京世纪好未来教育科技有限公司 | 真人视频生成方法、装置、可读存储介质及设备 |
CN113052180A (zh) * | 2021-03-23 | 2021-06-29 | 中国人民解放军战略支援部队信息工程大学 | 融合语义流场的编解码网络港口影像分割方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106686472A (zh) * | 2016-12-29 | 2017-05-17 | 华中科技大学 | 一种基于深度学习的高帧率视频生成方法及系统 |
-
2018
- 2018-04-12 CN CN201810325616.4A patent/CN108600655A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106686472A (zh) * | 2016-12-29 | 2017-05-17 | 华中科技大学 | 一种基于深度学习的高帧率视频生成方法及系统 |
Non-Patent Citations (1)
Title |
---|
ZIWEI LIU: "Video Frame Synthesis using Deep Voxel Flow", 《2017 IEEE INTERNATIONAL CONFERENCEON COMPUTER VISION》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110351511A (zh) * | 2019-06-28 | 2019-10-18 | 上海交通大学 | 基于场景深度估计的视频帧率上变换系统及方法 |
CN110363720A (zh) * | 2019-07-04 | 2019-10-22 | 北京奇艺世纪科技有限公司 | 一种图像的色彩增强方法、装置、设备和存储介质 |
CN110830848A (zh) * | 2019-11-04 | 2020-02-21 | 上海眼控科技股份有限公司 | 图像插值方法、装置、计算机设备和存储介质 |
CN110830848B (zh) * | 2019-11-04 | 2021-12-07 | 上海眼控科技股份有限公司 | 图像插值方法、装置、计算机设备和存储介质 |
CN112613495A (zh) * | 2021-03-05 | 2021-04-06 | 北京世纪好未来教育科技有限公司 | 真人视频生成方法、装置、可读存储介质及设备 |
CN113052180A (zh) * | 2021-03-23 | 2021-06-29 | 中国人民解放军战略支援部队信息工程大学 | 融合语义流场的编解码网络港口影像分割方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110140147B (zh) | 具有深度学习的视频帧合成 | |
CN108600655A (zh) | 一种视频图像合成方法及装置 | |
Liu et al. | Video frame synthesis using deep voxel flow | |
Lim et al. | DSLR: Deep stacked Laplacian restorer for low-light image enhancement | |
CN112465955B (zh) | 一种动态人体三维重建和视角合成方法 | |
CN111739078A (zh) | 一种基于上下文注意力机制的单目无监督深度估计方法 | |
JP7026222B2 (ja) | 画像生成ネットワークの訓練および画像処理方法、装置、電子機器、ならびに媒体 | |
Bao et al. | High-order model and dynamic filtering for frame rate up-conversion | |
JPH10285602A (ja) | 映像データをエンコードするための動的なスプライト | |
Vu et al. | Perception-enhanced image super-resolution via relativistic generative adversarial networks | |
Li et al. | Deep sketch-guided cartoon video inbetweening | |
CN111986105B (zh) | 基于时域去噪掩码的视频时序一致性增强方法 | |
CN110692241A (zh) | 使用多种全局运动模型的多样化运动 | |
CN107862732B (zh) | 实时的三维眼皮重建方法及装置 | |
Huang et al. | Efficient neural implicit representation for 3D human reconstruction | |
Lu et al. | Low-rank constrained super-resolution for mixed-resolution multiview video | |
Li et al. | Progressive multi-scale light field networks | |
CN116630366A (zh) | 用于视图预测方法和计算机产品 | |
Sun et al. | A Novel adaptive directional interpolation algorithm for digital video resolution enhancement | |
Evain et al. | A lightweight neural network for monocular view generation with occlusion handling | |
Jiang et al. | An Improved Novel View Synthesis Approach Based on Feature Fusion and Channel Attention | |
Baniya et al. | A Survey of Deep Learning Video Super-Resolution | |
Liu et al. | GsNeRF: Fast novel view synthesis of dynamic radiance fields | |
Shen et al. | Envisioning a Next Generation Extended Reality Conferencing System with Efficient Photorealistic Human Rendering | |
Shen et al. | Gaussian Time Machine: A Real-Time Rendering Methodology for Time-Variant Appearances |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180928 |