CN108769674A - 一种基于自适应层次化运动建模的视频预测方法 - Google Patents

一种基于自适应层次化运动建模的视频预测方法 Download PDF

Info

Publication number
CN108769674A
CN108769674A CN201810675070.5A CN201810675070A CN108769674A CN 108769674 A CN108769674 A CN 108769674A CN 201810675070 A CN201810675070 A CN 201810675070A CN 108769674 A CN108769674 A CN 108769674A
Authority
CN
China
Prior art keywords
motion
video
layer
adaptive
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810675070.5A
Other languages
English (en)
Other versions
CN108769674B (zh
Inventor
王文敏
唐敏
陈雄涛
王荣刚
李革
高文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Shenzhen Graduate School
Original Assignee
Peking University Shenzhen Graduate School
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Shenzhen Graduate School filed Critical Peking University Shenzhen Graduate School
Priority to CN201810675070.5A priority Critical patent/CN108769674B/zh
Publication of CN108769674A publication Critical patent/CN108769674A/zh
Priority to PCT/CN2019/076239 priority patent/WO2020001046A1/zh
Application granted granted Critical
Publication of CN108769674B publication Critical patent/CN108769674B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/149Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/18Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a set of transform coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公布了一种基于自适应层次化运动建模的视频预测方法,包括:建立视频的层次化运动模型、训练模型、用训练好的模型预测视频未来帧;其中,建立视频的层次化运动模型包括视频的层次化运动建模和自适应的运动变换过程。两个过程的处理均能独立提升视频预测的效果。采用本发明方法得到预测结果的信噪比、与真实结果的结构相似度均有所增加,能够提升视频预测的效果,提高预测结果清晰度和合理性。

Description

一种基于自适应层次化运动建模的视频预测方法
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种基于深度学习层次化运动建模和自适应运动变换的视频预测方法。
背景技术
由于视频能够提供丰富的视觉信息,视频生成已经成为计算机视觉领域中一个重要的研究课题,而视频预测是视频生成中最具挑战的任务之一。给定一段视频序列,视频预测任务的目标是生成清晰合理的后续视频。
近年来有多种通过对视频内容进行编解码实现预测的方法被提出,但是,这些方法大多对输入帧进行多次滤波操作,导致内容细节信息丢失严重,生成结果模糊,效果不佳。并且,针对不同的输入,这些方法采用的深度网络参数都保持不变,实现复杂的运动变换受到了很大限制。现有的用于视频预测的运动建模技术则利用视频的冗余信息,关注物体的运动信息并对其建模,能够缓解基于内容预测方法的一些局限性,但是,现实运动的多样性和复杂性导致运动信息的准确获取和合理实施存在诸多困难。
发明内容
为了克服上述现有技术的不足,本发明提供了一种自适应层次化运动建模的视频预测方法,能够提升视频预测的效果,提高预测结果清晰度和合理性。
本发明提供的技术方案是:
一种自适应层次化运动建模的视频预测方法,包括:建立视频的层次化运动模型,训练模型,用训练好的模型预测未来帧。具体包括如下步骤:
视频层次化运动模型的建立,执行步骤1)-2):
1)首先对输入视频的运动信息由粗到细有层次地进行建模;
本发明先通过全卷积神经网络对输入的视频序列生成指示运动状态的“运动图”。输入的视频序列与“运动图”进一步通过卷积结构的编码器生成运动特征图。具体执行如下操作:
11)利用全卷积网络,针对输入的视频序列F={f1,f2,…,ft},全卷积网络的卷积层使用ReLU激活函数和Tanh激活函数,生成一个不同运动状态区域会显示不同颜色的“运动图”;
全卷积网络主要由6层卷积层组成,卷积步长为1,前五层使用ReLU激活函数:f(x)=max(0,x),最后一层使用Tanh激活函数,设x为输入,输出为:f(x)=(ex-e-x)/(ex+e-x),其中e为自然常数,每一层输出的特征图数量分别为[128,256,512,256,128,3];输出f(x)即为运动图。
12)将步骤11)得到的运动图并到输入的视频序列F的末尾,作为新的输入序列,输入到的编码器,编码器的卷积层使用ReLU激活函数,输出特征图,即生成运动特征;
具体地,将新的输入序列输入到具有3层卷积层的编码器,卷积步长为2,每一层都使用ReLU激活函数,若x为输入,输出为:f(x)=max(0,x),每一层网络输出不同数量的特征图,分别为[128,256,512]。
13)步骤12)中的全卷积网络最后一层输出的特征图通过一个全连接层,输出k个卷积核;
具体地,输出k个大小为13×13的卷积核,用于后续的运动变换。
2)将步骤1)生成的运动特征通过自适应的运动变换方式作用到视频外观信息上。
本发明利用可形变的卷积变换方式,将传统卷积中的规则网格采样方法扩展为适应物体结构的采样方法。通过反卷积结构的解码器学习偏移量,对规则采样位置实施偏移,实现自适应卷积变换。
自适应的运动变换过程具体执行如下操作:
21)利用第一反卷积网络生成用于自适应卷积变换的参数。
步骤12)得到的运动图经过第一反卷积网络,第一反卷积网络的每一层反卷积层输出均使用ReLU激活函数,输出特征图;将最后一层输出的特征图作为双线性插入核G;
具体地,步骤12)得到的运动特征经过3层反卷积层组成的反卷积网络,反卷积步长为2,每一层输出都使用ReLU激活函数,输出的特征图数量分别为[256,128,2k],最后一层的特征作为后面进行双线性插值的双线性插入核G。
22)将步骤21)得到的双线性插入核G对输入序列的最后一帧进行双线性插值,得到对该帧变换后的图像。用步骤13)得到的卷积核对插值变换后的图像做卷积运算,每个卷积核可以得到一张卷积变换后的图片pi,结果得到该帧变换后的图像P={p1,p2,…,pi,…,pk}。
23)利用另一个反卷积网络生成用于合并多张变换图像的掩码,即权重。
步骤12)得到的运动图经过第二反卷积网络,第二反卷积网络的每一层反卷积层均使用ReLU激活函数,输出特征图;输出层使用Softmax激活函数;得到掩码M={m0,m1,…,mi,…,mk};
具体地,步骤12)的运动特征经过3层反卷积层组成的网络,反卷积步长为2,每一层都使用ReLU激活函数,输出的特征图数量分别为[256,128,k+1],最后的输出层使用Softmax激活函数,最终得到k+1张128×128的掩码M={m0,m1,…,mi,…,mk},mi是对上述图像pi加权求和时的权重。
24)合并步骤22)得到的多张变换图片,得到最终的预测结果:⊙表示对应位置元素相乘。
3)模型的训练:针对上述网络结构(建立的视频层次化运动模型)构造目标函数,目标函数是最小化训练样本的整体误差,以学习到整个神经网络(上述所有网络,包括全卷积网络、第一反卷积网络、第二反卷积网络)的参数Ω,由此得到产生最优预测结果的参数。
具体地,假设有N个训练样本,每个样本生成1帧,构造目标函数:
其中,c为目标函数,即训练样本的整体误差;yn为真实的未来帧,为帧预测结果。
4)利用训练好的模型预测未来帧:针对待预测视频中的不同运动,执行步骤1)的操作得到多个卷积核;再执行步骤2),得到最终的预测结果。
与现有技术相比,本发明的有益效果是:
本发明提供了一种自适应层次化运动建模的视频预测方法,包括:建立视频的层次化运动模型,训练模型,用训练好的模型预测未来帧。建立视频的层次化运动模型包括视频的层次化运动建模和自适应的运动变换过程,两个过程的处理均能独立提升视频预测的效果。采用本发明方法得到预测结果的信噪比、与真实结果的结构相似度均有所增加,能够提升视频预测的效果,提高预测结果清晰度和合理性。
附图说明
图1是本发明提供的层次化运动建模方法的流程框图。
图2是本发明实施例采用自适应层次化运动建模生成的运动图示例;
其中,(a)、(b)、(c)分别为三个不同的实例,对于每个实例,左边四列为输入的视频帧,最后一列为采用本发明方法生成的运动图。
图3是本发明实施例中采用本发明方法在Penn Action数据集上的预测结果与真实结果的对比图;
其中,1、2分别为两个不同的实例,1(a)、2(a)分别为输入的四帧图像,1(b)、2(b)分别为三幅真实的图像,1(c)、2(c)分别为三幅预测结果图像。
图4本发明实施例中采用本发明方法在UCF101数据集上的预测结果与真实结果的对比图:
其中,1、2、3分别为三个不同的实例,1(a)、2(a)、3(a)分别为输入的四帧图像,1(b)、2(b)、3(b)分别为三幅真实的图像,1(c)、2(c)、3(c)分别为三幅预测结果图像。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种基于深度学习的自适应层次化运动建模的视频预测方法,包括视频的层次化运动建模和自适应的运动变换;图1所示是本发明提供方法的总体流程。具体过程包括如下步骤:
1、进行运动建模,参见步骤11)-13)。
11)利用全卷积网络,针对输入的视频序列F={f1,f2,…,ft},生成一个不同运动状态区域会显示不同颜色的“运动图”。
全卷积网络主要由6层卷积层组成,卷积步长为1,前五层使用ReLU激活函数:f(x)=max(0,x),最后一层使用Tanh激活函数,若x为输入,输出为:f(x)=(ex-e-x)/(ex+e-x),其中e为自然常数,每一层输出的特征图数量分别为[128,256,512,256,128,3]。
12)将“运动图”并到输入的视频序列的末尾,作为新的输入序列,输入到具有3层卷积层的编码器,卷积步长为2,每一层都使用ReLU激活函数,若x为输入,输出为:f(x)=max(0,x),每一层网络输出不同数量的特征图,分别为[128,256,512]。
13)全卷积网络最后一层输出的特征图通过一个全连接层输出k个大小为13×13的卷积核,用于后续的运动变换。
2、其次进行自适应运动变换,参见步骤21)-25)。
21)利用反卷积网络生成用于自适应卷积变换的参数。
步骤12)得到的运动特征(最后一层的特征图)经过3层反卷积层组成的反卷积网络,反卷积步长为2,每一层输出都使用ReLU激活函数,输出的特征图数量分别为[256,128,2k],k为卷积核的数目;最后一层的特征作为后面进行双线性插值的双线性插入核G。
22)将步骤21)得到的双线性插入核G对输入序列的最后一帧进行双线性插值,得到对该帧变换后的图像。用步骤13)得到的卷积核对插值变换后的图像卷积运算,每个卷积核可以得到一张卷积变换后的图片pi,结果得到该帧变换后的图像P={p1,p2,…,pi,…,pk}。即P为k张图片的集合。
23)利用另一个反卷积网络生成用于合并多张变换图片的掩码,即权重。
步骤12)的运动特征经过3层反卷积层组成的网络,反卷积步长为2,每一层都使用ReLU激活函数,输出的特征图数量分别为[256,128,k+1],最后的输出层使用Softmax激活函数,最终得到k+1张128×128的掩码M={m0,m1,…,mk}。
24)合并步骤22)得到的多张变换图片,得到最终的预测结果:⊙表示对应位置元素相乘。
3)针对上述网络结构构造目标函数,目标函数是最小化训练样本的整体误差,以学到整个神经网络(上述所有网络)的参数Ω,由此得到产生最优预测结果的参数。
具体地,假设有N个训练样本,每个样本生成1帧,构造目标函数:
其中,c为目标函数,即训练样本的整体误差;yn为真实的未来帧,为帧预测结果。
4)利用训练好的模型预测未来帧:针对待预测视频中的不同运动,执行步骤1)的操作得到多个卷积核;执行步骤2)得到最终的预测结果。
表1给出了本发明与分别去除层次运动建模和自适应运动变换得到的两个变体在Penn Action数据集上的视频预测效果用于验证本发明的有效性。预测效果用文献1(Mathieu,M.,Couprie,C.,and Lecun,Y.(2016).Deep multi-scale video predictionbeyond mean square error.ICLR)记载的整张图片的信噪比PSNR和文献3(Wang,Z.,Bovik,A.C.,Sheikh,H.R.,and Simoncelli,E.P.(2004).Image quality assessment:from error visibility to structural similarity.IEEE Trans Image Process,13(4),600-612)记载的结构相似度SSIM衡量,值越高,说明预测结果与真实结果约相似。
表1Penn Action数据集上的预测效果
方法 信噪比PSNR 结构相似度SSIM
变体1 32.5 0.97
变体2 29.7 0.96
本发明 33.3 0.97
表2给出了本发明在UCF101数据集上的视频预测效果及与现有方法的对比。现有方法包括文献1记载的Adv+GDL、文献2(Liang,X.,Lee,L.,Dai,W.,and Xing,E.P.(2017).Dual motion gan for future-flow embedded video prediction.1762-1770)记载的DualMotionGAN、文献4(Liu,Z.,Yeh,R.A.,Tang,X.,Liu,Y.,and Agarwala,A.(2017).Video Frame Synthesis Using Deep Voxel Flow.IEEE International Conference onComputer Vision(pp.4473-4481).IEEE Computer Society.)记载的DVF、文献5(Byeon,W.,Wang,Q.,Srivastava,R.K.,and Koumoutsakos,P.(2017).Fully context-awarevideo prediction)记载的FullyContextAware。预测效果用运动区域和整张图片的PSNR和SSIM衡量。
表2UCF101数据集上的检索效果
从表1可以看出,本发明的层次运动建模和自适应运动变换模块都能独立提升视频预测的效果。从表2可以看出,与现有方法对比,本发明在整张图片的预测效果最好,而在运动区域上结构相似度最好。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (7)

1.一种自适应层次化运动建模的视频预测方法,包括:建立视频的层次化运动模型、训练模型、用训练好的模型预测视频未来帧;
建立视频层次化运动模型,执行步骤1)-2):
1)对输入视频的运动信息由粗到细有层次地进行建模:先通过全卷积神经网络对输入的视频序列生成指示运动状态的运动图;输入的视频序列与运动图进一步通过卷积结构的编码器生成运动特征图;具体执行如下操作:
11)利用全卷积网络,全卷积网络的卷积层使用ReLU激活函数和Tanh激活函数,针对输入的视频序列F={f1,f2,…,ft},设输入为x,生成一个运动图f(x)=(ex-e-x)/(ex+e-x)输出,其中e为自然常数;
12)将步骤11)得到的运动图并到输入的视频序列F的末尾,作为新的输入序列,输入到编码器,编码器的卷积层使用ReLU激活函数,生成输出;设x为输入,输出为运动特征图f(x)=max(0,x);
13)将步骤12)中的全卷积网络最后一层输出的特征图通过一个全连接层,输出k个卷积核;
2)将步骤1)生成的运动特征图通过自适应的运动变换方式作用到视频外观信息上:利用可形变的卷积变换方式,将卷积中的规则网格采样方法扩展为适应物体结构的采样方法,通过反卷积结构的解码器学习偏移量,对规则采样位置实施偏移,实现自适应卷积变换;执行如下操作:
21)利用第一反卷积网络生成用于自适应卷积变换的参数;
步骤12)得到的运动图经过第一反卷积网络,第一反卷积网络的每一层反卷积层输出均使用ReLU激活函数,输出特征图;将最后一层输出的特征图作为双线性插入核G;
22)将步骤21)得到的双线性插入核G对输入序列的最后一帧进行双线性插值,得到对该帧变换后的图像;用步骤13)得到的卷积核对插值变换后的图像做卷积运算,每个卷积核得到一张卷积变换后的图片pi,由此得到该帧变换后的图像P={p1,p2,…,pi,…,pk};
23)利用第二反卷积网络生成用于合并多张变换图像的掩码,即权重:将步骤12)得到的运动图经过第二反卷积网络,第二反卷积网络的每一层反卷积层均使用ReLU激活函数,输出特征图;输出层使用Softmax激活函数;得到掩码M={m0,m1,…,mi,…,mk};
24)合并步骤22)得到的多张变换后的图像,得到最终的预测结果:
其中,⊙表示对应位置元素相乘;
3)模型的训练:针对建立的视频层次化运动模型构造目标函数,目标函数是最小化训练样本的整体误差,以学习到神经网络的参数Ω,由此得到产生最优预测结果的参数;
具体地,假设有N个训练样本,每个样本生成1帧,构造目标函数为:
其中,c为目标函数,即训练样本的整体误差;yn为真实的未来帧,为帧预测结果;
4)利用训练好的模型预测视频的未来帧:针对待预测视频中的不同运动,执行步骤1)得到多个卷积核;再执行步骤2),得到最终的预测结果。
2.如权利要求1所述自适应层次化运动建模的视频预测方法,其特征是,步骤11)的运动图中,不同运动状态区域显示不同颜色。
3.如权利要求1所述自适应层次化运动建模的视频预测方法,其特征是,步骤11)中的全卷积网络包括6层卷积层,卷积步长为1,前五层卷积层使用ReLU激活函数:f(x)=max(0,x),最后一层使用Tanh激活函数,每一层输出的特征图数量分别为[128,256,512,256,128,3]。
4.如权利要求1所述自适应层次化运动建模的视频预测方法,其特征是,步骤12)具体将新的输入序列输入到具有3层卷积层的编码器,卷积步长为2,每一层网络输出不同数量的特征图,分别为[128,256,512]。
5.如权利要求1所述自适应层次化运动建模的视频预测方法,其特征是,步骤13)将步骤11)中的全卷积网络最后一层输出的特征图通过一个全连接层,输出k个大小为13×13的卷积核。
6.如权利要求1所述自适应层次化运动建模的视频预测方法,其特征是,步骤21)具体将步骤12)得到的运动特征经过3层反卷积层组成的反卷积网络,反卷积步长为2,每一层输出均使用ReLU激活函数,输出的特征图数量分别为[256,128,2k]。
7.如权利要求1所述自适应层次化运动建模的视频预测方法,其特征是,步骤23)具体将步骤12)的运动特征经过3层反卷积层组成的网络,反卷积步长为2,每一层均使用ReLU激活函数,输出的特征图数量分别为[256,128,k+1],最后的输出层使用Softmax激活函数,最终得到k+1张128×128的掩码M={m0,m1,…,mk}。
CN201810675070.5A 2018-06-27 2018-06-27 一种基于自适应层次化运动建模的视频预测方法 Active CN108769674B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810675070.5A CN108769674B (zh) 2018-06-27 2018-06-27 一种基于自适应层次化运动建模的视频预测方法
PCT/CN2019/076239 WO2020001046A1 (zh) 2018-06-27 2019-02-27 一种基于自适应层次化运动建模的视频预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810675070.5A CN108769674B (zh) 2018-06-27 2018-06-27 一种基于自适应层次化运动建模的视频预测方法

Publications (2)

Publication Number Publication Date
CN108769674A true CN108769674A (zh) 2018-11-06
CN108769674B CN108769674B (zh) 2019-11-12

Family

ID=63977518

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810675070.5A Active CN108769674B (zh) 2018-06-27 2018-06-27 一种基于自适应层次化运动建模的视频预测方法

Country Status (2)

Country Link
CN (1) CN108769674B (zh)
WO (1) WO2020001046A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020001046A1 (zh) * 2018-06-27 2020-01-02 北京大学深圳研究生院 一种基于自适应层次化运动建模的视频预测方法
CN112836608A (zh) * 2021-01-25 2021-05-25 南京恩博科技有限公司 森林火灾源头的估计模型训练方法、估计方法及系统
CN114758282A (zh) * 2022-04-28 2022-07-15 杭州电子科技大学 基于时序校正卷积的视频预测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6148028A (en) * 1995-03-10 2000-11-14 Kabushiki Kaisha Toshiba Video coding apparatus and method which codes information indicating whether an intraframe or interframe predictive coding mode is used
CN101771878A (zh) * 2010-01-14 2010-07-07 广西大学 面向全景视频编码的自适应选择全局运动估计方法
CN103901891A (zh) * 2014-04-12 2014-07-02 复旦大学 一种基于层次结构的动态粒子树slam算法
US8938006B2 (en) * 2009-12-08 2015-01-20 Samsung Electronics Co., Ltd. Method and apparatus for encoding video by motion prediction using arbitrary partition, and method and apparatus for decoding video by motion prediction using arbitrary partition
CN107292912A (zh) * 2017-05-26 2017-10-24 浙江大学 一种基于多尺度对应结构化学习的光流估计方法
CN108111860A (zh) * 2018-01-11 2018-06-01 安徽优思天成智能科技有限公司 基于深度残差网络的视频序列丢失帧预测恢复方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897714B (zh) * 2017-03-23 2020-01-14 北京大学深圳研究生院 一种基于卷积神经网络的视频动作检测方法
CN107767413B (zh) * 2017-09-20 2020-02-18 华南理工大学 一种基于卷积神经网络的图像深度估计方法
CN108769674B (zh) * 2018-06-27 2019-11-12 北京大学深圳研究生院 一种基于自适应层次化运动建模的视频预测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6148028A (en) * 1995-03-10 2000-11-14 Kabushiki Kaisha Toshiba Video coding apparatus and method which codes information indicating whether an intraframe or interframe predictive coding mode is used
US8938006B2 (en) * 2009-12-08 2015-01-20 Samsung Electronics Co., Ltd. Method and apparatus for encoding video by motion prediction using arbitrary partition, and method and apparatus for decoding video by motion prediction using arbitrary partition
CN101771878A (zh) * 2010-01-14 2010-07-07 广西大学 面向全景视频编码的自适应选择全局运动估计方法
CN103901891A (zh) * 2014-04-12 2014-07-02 复旦大学 一种基于层次结构的动态粒子树slam算法
CN107292912A (zh) * 2017-05-26 2017-10-24 浙江大学 一种基于多尺度对应结构化学习的光流估计方法
CN108111860A (zh) * 2018-01-11 2018-06-01 安徽优思天成智能科技有限公司 基于深度残差网络的视频序列丢失帧预测恢复方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WEN GAO ET AL: "A novel integer-pixel motion estimation algorithm based on quadratic prediction", 《2015 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020001046A1 (zh) * 2018-06-27 2020-01-02 北京大学深圳研究生院 一种基于自适应层次化运动建模的视频预测方法
CN112836608A (zh) * 2021-01-25 2021-05-25 南京恩博科技有限公司 森林火灾源头的估计模型训练方法、估计方法及系统
CN112836608B (zh) * 2021-01-25 2021-10-01 南京恩博科技有限公司 森林火灾源头的估计模型训练方法、估计方法及系统
CN114758282A (zh) * 2022-04-28 2022-07-15 杭州电子科技大学 基于时序校正卷积的视频预测方法

Also Published As

Publication number Publication date
CN108769674B (zh) 2019-11-12
WO2020001046A1 (zh) 2020-01-02

Similar Documents

Publication Publication Date Title
Zhang et al. Image super-resolution using very deep residual channel attention networks
Shi et al. Deep networks for compressed image sensing
CN112418409B (zh) 一种利用注意力机制改进的卷积长短期记忆网络时空序列预测方法
CN108960345A (zh) 一种遥感图像的融合方法、系统及相关组件
CN106910161A (zh) 一种基于深度卷积神经网络的单幅图像超分辨率重建方法
CN110675321A (zh) 一种基于渐进式的深度残差网络的超分辨率图像重建方法
CN108769674B (zh) 一种基于自适应层次化运动建模的视频预测方法
CN111127325B (zh) 基于循环神经网络的卫星视频超分辨率重建方法及系统
CN104199627B (zh) 基于多尺度在线字典学习的可分级视频编码系统
CN109949217A (zh) 基于残差学习和隐式运动补偿的视频超分辨率重建方法
CN111898482B (zh) 基于渐进型生成对抗网络的人脸预测方法
CN112651360B (zh) 一种小样本下骨架动作识别方法
CN104408697A (zh) 基于遗传算法和正则先验模型的图像超分辨重建方法
CN114463183A (zh) 基于频域和空域的图像超分辨率方法
Xu et al. AutoSegNet: An automated neural network for image segmentation
CN115410087A (zh) 一种基于改进YOLOv4的输电线路异物检测方法
Lin et al. DA-Net: density-adaptive downsampling network for point cloud classification via end-to-end learning
CN116524121A (zh) 一种单目视频三维人体重建方法、系统、设备及介质
Shi et al. Structure-aware deep networks and pixel-level generative adversarial training for single image super-resolution
Liu et al. Fully convolutional multi‐scale dense networks for monocular depth estimation
CN109272450B (zh) 一种基于卷积神经网络的图像超分方法
CN113313625B (zh) 水墨画艺术风格转换方法、系统、计算机设备及存储介质
CN109615576B (zh) 基于级联回归基学习的单帧图像超分辨重建方法
Yue et al. High iso jpeg image denoising by deep fusion of collaborative and convolutional filtering
Li et al. A discriminative self‐attention cycle GAN for face super‐resolution and recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant