CN109064507B - 一种用于视频预测的多运动流深度卷积网络模型方法 - Google Patents

一种用于视频预测的多运动流深度卷积网络模型方法 Download PDF

Info

Publication number
CN109064507B
CN109064507B CN201810955354.XA CN201810955354A CN109064507B CN 109064507 B CN109064507 B CN 109064507B CN 201810955354 A CN201810955354 A CN 201810955354A CN 109064507 B CN109064507 B CN 109064507B
Authority
CN
China
Prior art keywords
motion
prediction
frame
video sequence
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810955354.XA
Other languages
English (en)
Other versions
CN109064507A (zh
Inventor
王文敏
吴倩
陈雄涛
王荣刚
李革
高文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Shenzhen Graduate School
Original Assignee
Peking University Shenzhen Graduate School
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Shenzhen Graduate School filed Critical Peking University Shenzhen Graduate School
Priority to CN201810955354.XA priority Critical patent/CN109064507B/zh
Publication of CN109064507A publication Critical patent/CN109064507A/zh
Priority to PCT/CN2019/076254 priority patent/WO2020037965A1/zh
Application granted granted Critical
Publication of CN109064507B publication Critical patent/CN109064507B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/579Depth or shape recovery from multiple images from motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/207Analysis of motion for motion estimation over a hierarchy of resolutions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/144Movement detection
    • H04N5/145Movement estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公布了一种用于视频预测的多运动流深度卷积网络模型方法,包括:构建融合长短期记忆网络模块的新的卷积自动编码网络框架;提出运动流作为输入帧到输出帧的运动转换;采用同时生成多个运动流以分别学习更加细腻的运动信息的方法,有效提升预测效果;提出基图像作为运动流方法的像素级别的补充,进而提升模型的鲁棒性和预测的整体效果。通过双线性插值法将多个运动流分别作用在输入帧上来得到多个运动预测图,再根据权重矩阵将各个运动预测图与基图像线性组合得到最终的预测结果。采用本发明技术方案,能够更加充分地提取和传递视频序列中的时间信息,从而实现更长期、更清晰准确的视频预测。

Description

一种用于视频预测的多运动流深度卷积网络模型方法
技术领域
本发明属于人工智能技术和视频分析技术领域,具体涉及一种用于视频预测的运动流,以及一种通过生成多个运动流来进行视频预测的深度卷积网络模型方法。
背景技术
视频预测是计算机视觉中一个重要且具有挑战性的任务。相比于深度学习在2012年的崛起,视频预测任务其实由来已久,传统视频编解码中的运动估计就已经有了视频预测的雏形。但是,当深度学习的浪潮席卷全球的时候,人工智能的发展赋予了视频预测新的含义和新的要求。人工智能领域中的视频预测通常指利用深度学习方法,根据若干帧视频中的运动信息进行预测并生成若干预测帧。一般来说,视频预测任务分为帧间预测(Interpolation)与未来帧预测(Extrapolation),分别指预测两帧之间的若干帧以及预测未来的若干帧。随着各种基于人工神经网络的深度学习方法与技术的发展,实现视频预测的深度学习方法也不断涌现。虽然视频预测在目前仍是计算机视觉中一个非常困难的任务,但是总体上,预测结果正在逐步向着清晰度更高、预测帧数更多的方向提升。
传统编解码中的光流法,主要步骤多为首先生成对像素运动的估计,即光流,再根据光流修改最后一个输入帧中的各个像素值,从而得到预测图像。但是,一方面,在复杂场景下的光流估计非常困难,往往由于光流估计的错误而导致视频预测最终失败;另一方面,根据光流得到的预测图像数量通常限制在一帧或少数帧,难以实现长期的预测,这已经不满足当前视频预测领域的要求。
除了传统编解码中采用的光流法之外,现有的基于深度学习技术的视频预测方法,大多采用了卷积自动编码网络模型的基本框架。卷积自动编码网络模型包括一对结构对称的编码器和解码器,编码器通过卷积层提取输入的视频序列特征,解码器对提取到的特征图进行反卷积得到预测图像。其中,视频序列的特征既包括静态信息,也包括对预测具有重要影响的运动信息,而为了提升对视频序列中运动信息的提取和理解,长短期记忆网络(LSTM)有时也被运用于视频预测中。但是,由于此类方法直接根据卷积神经网络提取到的特征来生成所有像素值,预测效果受到特征提取效果的直接影响,因此预测图像非常容易产生模糊。此外,这种方法虽然理论上可以实现较为长期的预测,但由于误差积累的问题,实现清晰且准确的长期预测并不容易。
可见,现有的视频预测方法存在预测结果模糊,清晰度不足的问题,且难以实现较长期的预测。
发明内容
为了克服上述现有技术的不足,本发明提供一种用于视频预测的多运动流深度卷积网络模型方法(Multi-Motion-Flow Deep Convolutional Network for VideoPrediction,简称MMF),主要针对未来帧视频预测技术中的运动信息提取与理解过程,设计一种能够学习细腻动作的多运动流视频预测深度卷积网络模型,以实现更加精准的运动信息描述,从而提升视频预测结果的清晰度与准确度。同时,通过将长短期记忆网络模块与自动编码网络相融合,实现了可迭代预测任意数量未来帧的目标。
本发明的原理是:改进视频预测方法,以特征提取,尤其是对运动信息的提取和理解,以及如何生成运动趋势准确且清晰的预测结果,为主要切入点。本发明将光流法的思想方法与深度学习技术相结合,对基于卷积自动编码网络的视频预测方法进行改进,提出一种类似于光流的“运动流(Motion Flow)”的概念,用来表示从最后一个输入帧到未来帧的转换;并提出同时采用多个“运动流”来对视频序列中的运动信息进行更加细致地描述,每个运动流仅用于描述一种或少数几种运动信息,从而达到更加细腻、精准地学习视频序列中动作信息的目的;同时提出以“基图像”作为运动流方法的补充,进一步减少像素级空白等问题;此外,将LSTM模块融入卷积自动编码网络中,更充分地提取视频序列中的运动信息,以实现清晰且准确的长期预测。一个运动流的具体表现形式为一个三维张量,前二维形状与输入视频帧图像的尺寸相同,第三维的两个元素分别表示x方向与y方向的像素运动转换;基图像是与运动流同时生成的一张粗糙的预测图像,直接作为预测结果质量不佳,但作为运动流方法的补充却能够很好地解决个别像素预测不准确的问题。由人工神经网络生成若干个运动流和一个基图像及其相应的权重矩阵后,通过双线性插值法将这些运动流分别作用到最后一个输入帧上以得到多个初步的运动预测,最后将这些运动预测与基图像根据与运动流和基图像同时生成的对应的权重矩阵,线性组合成最终的预测帧。
本发明的思想源于现实场景中的运动特点,考虑一个简单的场景,当一个人向前行走时,其身体向前运动,但一条腿却在同时向后运动,即一个场景中可能同时存在多种不同的动作,包括方向、速度、发生部位的不同。在现有的基于人工神经网络的视频预测方法中,还未有对一个视频中的多种细微动作分别进行分析的先例,本发明通过训练一个可生成多个运动流的卷积自动编码网络,分别优化每个运动流,使其仅关注一个或少数几个不同的细微运动,从而实现对不同细微动作分别的精准分析,能够有效减少因为对运动预测不够精准而带来的运动部分扭曲、变形、消失等现象,有效减少预测结果中的模糊。在实际运用中,光照不均、场景过于复杂等情况下,运动流方法中可能出现个别像素级别的预测不准确的问题,例如运动对象正确位移后,原位置的像素出现空白,此类现象主要出现在光影的移动中。而本发明所提出的方法在训练网络的过程中,能够针对上述区域在基图像上进行重点优化,从而起到补充运动流方法的作用。
本发明提供的技术方案是:
一种用于视频预测的多运动流深度卷积网络模型方法(简称MMF,多运动流视频预测深度卷积网络模型),通过建立卷积自动编码网络,并融合长短期记忆网络(LSTM)模块,同时生成多个运动流和一幅基图像,及其对应的权重矩阵,再通过双线性插值法将各个运动流分别作用到最后一帧输入上,根据权重矩阵与基图像一起线性组合后得到最终的预测帧,从而实现对视频序列中多种细微动作的精准描述和预测,减少预测结果中的模糊,延长可清晰且准确预测的帧数;
上述过程包括如下步骤:
1)结合LSTM单元的卷积自动编码网络结构,构建多运动流视频预测深度卷积网络模型,包括编码器、解码器、LSTM单元以及一层瓶颈层;将图像的多个输入帧依次输入编码器进行编码,提取特征图,并将上一帧提取得到的特征图输入LSTM单元,得到隐藏状态,再输入下一帧对应的LSTM单元,以提取时间信息;
2)将最后一个输入帧经过编码器和LSTM单元之后得到的含有动态信息的特征图,输入解码器,得到多个运动流及其对应的多个权重矩阵,同时得到一幅基图像及其对应的权重矩阵;
本发明中,运动流表示为一个三维张量,用于表示从最后一个输入帧到未来帧的转换,其中,前二维分别对应视频帧图像的尺寸,第三维元素数为2,分别表示在x方向与y方向上的像素运动转换;每个运动流仅用于描述一种或少数几种运动信息;采用多个运动流对视频序列中的运动信息进行细致描述,能够达到更加细腻、精准地学习视频序列中动作信息的目的。
基图像是与运动流同时生成的一幅预测图像,用来作为运动流视频预测的补充,进一步减少像素级空白、个别像素预测不准确等问题。
根据运动流数量设置瓶颈层的通道数;
3)通过双线性插值法将各个运动流分别作用到最后一个输入帧的原图像上,得到多个运动预测图,作为初步的运动预测帧;
4)根据各个运动流与基图像对应的权重矩阵,将多个预测图与基图像通过线性组合,生成一帧图像,即预测帧图像;
5)将预测帧图像作为输入序列中的最后一帧输入帧,并剔除输入序列中的第一帧,构成新的输入序列,重复上述步骤1)至4),即可实现多期预测(即实现对多个未来帧的预测)。
针对上述多运动流视频预测深度卷积网络模型,进一步地,步骤1)和2)所述结合了LSTM单元的卷积自动编码网络结构主要由编码器、解码器、LSTM单元以及一层瓶颈层构成。其中卷积自动编码网络的主体为一对结构对称的编码器和解码器,此外网络最后一层为瓶颈层,其通道数根据运动流数量相应设置,即当运动流设置为L,视频序列色彩通道数为D时,瓶颈层通道数为(3L+D+1)(每个运动流占2个通道,分别描述x方向与y方向的运动,每个权重矩阵占1个通道,一幅基图像占D个通道及其对应的权重矩阵另占1个通道)。
针对上述多运动流视频预测深度卷积网络模型,进一步地,形式化定义模型如下:假设输入K帧,预测未来T帧,则定义输入视频序列为X={x1,x2,...,xK},目标视频序列为Y={y1,y2,...,yT},预测视频序列为
Figure BDA0001772543870000041
当输入帧xt经过步骤1)所述编码器得到特征图ht,将特征图输入LSTM单元得到隐藏状态st。继续将输入帧xt+1输入编码器,得到ht+1,此时,st与ht+1同时作为LSTM单元的输入,进一步得到xt+1的隐藏状态st+1。依次类推,直到得到最后一帧输入xK对应的隐藏状态sK,以及hK与sK-1经过LSTM单元后输出的包含运动信息的动态特征图dK。将dK输入解码器及瓶颈层,最终生成L个运动流
Figure BDA0001772543870000042
和相应的权重矩阵
Figure BDA0001772543870000043
以及基图像I与其相应的权重矩阵
Figure BDA0001772543870000044
通过双线性插值法,将L个运动流分别作用于最后一帧输入xK,得到运动预测图
Figure BDA0001772543870000045
最后,以
Figure BDA0001772543870000046
Figure BDA0001772543870000047
作为权重,线性组合所有的运动预测图
Figure BDA0001772543870000048
和基图像I来获得最终的预测输出
Figure BDA0001772543870000049
针对上述多运动流视频预测深度卷积网络模型,进一步地,对该网络模型的训练,采用对抗式的训练方法通常可以得到更好的生成结果,但若训练时损失函数值波动剧烈导致难以收敛,则也可采用普通的BP(Back Propagation,即反向传播)算法。
与现有技术相比,本发明的有益效果是:
本发明针对计算机视觉中的视频预测领域,提出了一种新的多运动流视频预测深度卷积网络模型,可有效减少预测结果中的模糊现象,延长可清晰且准确预测的帧数。主要技术优势包括:
(一)结合了光流法与深度学习方法两者的优势,采用人工神经网络生成运动流而不是直接生成预测图像,既能够更加容易地生成一种类似光流的转换,同时又采取了光流法中在已有像素上作修改的策略,使得预测结果更清晰;
(二)运用人工神经网络一次生成多个运动流,且通过优化训练人工神经网络,引导多个运动流能够分别描述一个视频序列中的多个不同的动作,从而提高模型对视频序列中多种不同的细微动作的学习能力,进一步提高预测的准确度,消除运动部位的“溶解”现象;
(三)引入了“基图像”的方法,作为运动流方法的补充。有效弥补预测结果中细节处的像素空白、光影扭曲等问题,从而提高模型在复杂情况下的鲁棒性。
(四)构建了一种LSTM与卷积自动编码网络相结合的长期迭代视频预测网络,实现了理论上可生成任意多帧预测,且通过这种网络结构充分提取和传递运动信息,在实际预测中确实可得到更多帧清晰准确的预测。
在公开实验数据集上进行视频预测结果表明,相比其他方法,本发明的技术方案在预测结果的准确度、清晰度、方法的鲁棒性均具有更好的效果。
附图说明
图1为本发明提供的多运动流视频预测深度卷积网络模型的网络结构示意图。
图2为本发明提供的多运动流视频预测深度卷积网络模型方法的流程框图。
图3为本发明实施例中采用本发明的多运动流视频预测深度卷积网络模型与现有方法的量化比较;
其中,左图为五种模型多期预测结果的峰值信噪比(Peak Signal to NoiseRatio)比较图;横坐标为预测期数,纵坐标为峰值信噪比;右图为五种模型多期预测结果的结构相似性指数(Structural Similarity Index)比较图;横坐标为预测期数,纵坐标为结构相似性指数。
图4为本发明实施例中采用本发明的多运动流视频预测深度卷积网络模型与现有方法进行预测的主观图像质量比较;
其中,(a)图中第一行为一个慢跑动作的真实视频序列,第二行至第四行分别为由本发明的MMF模型、现有方法卷积长短期记忆网络模型(ConvLSTM模型)和深度体素流模型(DVF模型)生成的10帧预测图像;(b)图中第一行为一个行走动作的真实视频序列,第二行至第四行分别为由本发明的MMF模型、现有方法ConvLSTM模型和DVF模型生成的10帧预测图像。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提出了一种用于视频预测的多运动流深度卷积网络模型方法(简称MMF),该方法主要用于实现由若干帧视频序列预测未来若干帧视频;图1和图2分别为本发明提供的多运动流视频预测深度卷积网络模型的网络结构图和多运动流机制与基图像方法的处理流程示意图。主要包括如下步骤:
1)采用卷积自动编码网络,将若干个输入帧依次输入编码器进行编码,提取特征图,并将上一帧的特征图输入LSTM单元,得到隐藏状态输入下一帧对应的LSTM单元,以提取时间信息;
2)将最后一个输入帧经过编码器和LSTM之后得到的含有动态信息的特征图,输入解码器,得到若干个运动流与一幅基图像,及其对应的多个权重矩阵;
3)通过双线性插值法将各个运动流分别作用到最后一个输入帧的原图像上,得到若干个预测图;
4)根据各个运动流与基图像对应的权重矩阵,将若干个预测图和一幅基图像线性组合成一帧图像,即得到最终的预测帧;
5)将预测帧作为最后一帧输入,剔除输入序列中的第一帧,构成新的输入序列,重复上述步骤1)至4),即可实现多期预测。
针对上述多运动流视频预测深度卷积网络模型,进一步地,步骤1)和2)所述结合了LSTM单元的卷积自动编码器网络结构主要由编码器、解码器、LSTM单元以及一个瓶颈层构成。其中编码器包括3个卷积层(卷积核大小分别为5×5,5×5,3×3,通道数分别为64,128,256),且每个卷积层之后均有一层池化层(采用最大池化法)。解码器相应地包括3个反卷积层(卷积核大小分别为3×3,3×3,5×5,通道数分别为256,128,64),每个反卷积层之前均有一个上采样层。此外,在本实施例中设置运动流数量为3,若数据集为灰度视频序列,色彩通道数为1,则在网络最后的瓶颈层(卷积核大小为5×5)中,设置通道数为3×3+1+1=11;若数据集为RGB视频序列,色彩通道数为3,则设置通道数为3×3+3+1=13。
训练人工神经元网络可采用BP(Back Propagation,即反向传播)算法。针对上述多运动流视频预测深度卷积网络模型,进一步地,步骤1)和2)所述人工神经网络的具体训练细节定义如下:
在训练中,我们采用了损失函数
Figure BDA0001772543870000071
来描述预测视频序列
Figure BDA0001772543870000072
与目标视频序列Y之间的差别,采用L1范数作为损失函数的正则化项来避免过拟合,正则化项系数为0.0001。最小化损失函数的目标函数表示为式2-1:
Figure BDA0001772543870000073
式2-1中,X为输入视频序列;Y为目标视频序列;
Figure BDA0001772543870000074
为损失函数;
Figure BDA0001772543870000075
为衡量预测视频序列与目标视频序列之间的差异的回归损失函数,能够促使网络逼近真实值的平均值,p的常用取值为1或2,不同取值相应的
Figure BDA0001772543870000076
分别为平均绝对值误差和均方误差;
Figure BDA0001772543870000077
为图像梯度差异损失函数(Image Gradient Difference Loss),用于衡量模型在图像梯度上的预测准确度,能够引导网络去逼近目标图像中像素值的真实梯度值,从而增加预测结果的清晰度。
具体地,
Figure BDA0001772543870000078
其中,
Figure BDA0001772543870000079
为衡量预测视频序列与目标视频序列之间的差异的回归损失函数,T表示预测视频序列与真实视频序列的帧数;
Figure BDA00017725438700000710
其中,
Figure BDA00017725438700000711
为衡量预测视频序列与目标视频序列之间的图像梯度差异的梯度差异损失函数;λ表示损失函数所采用的距离的类别,取值为1或2;i,j分别表示像素的横坐标与纵坐标。
在此实施例中,分别设置p=1,λ=1作为
Figure BDA00017725438700000712
Figure BDA00017725438700000713
的超参数。
为表明上述多运动流视频预测深度卷积网络模型能够有效提升长期预测的效果,将模型在KTH数据集上以上述方式训练和测试。KTH数据集包括25个人的6种动作(行走、慢跑、快跑、挥手、拍手、拳击),这里使用第1至第16个人的动作视频作为训练集,用第17至第25个人的动作视频作为测试集。并与现有的两种方法DVF和ConvLSTM进行对比。DVF方法也首先采用人工神经网络生成一种“转换”称为“体素流”再将其作用于最后一帧来得到预测;ConvLSTM则直接运用人工神经网络生成预测图像。用于对比的方法分别是以下参考文献记载的方法,包括:
DVF[1]:Z.Liu,R.A.Yeh,X.Tang,Y.Liu,and A.Agarwala,“Video framesynthesis using deep voxel flow,”in IEEE International Conference on ComputerVision,2017,pp.4473–4481.
ConvLSTM[2]:X.Shi,Z.Chen,H.Wang,D.Y.Yeung,W.Wong,and W.Woo,“Convolutional lstm network:A machine learning approach for precipitationnowcasting,”vol.9199,pp.802–810,2015.
对本发明方法中多运动流方法和基图像方法的作用,通过三个含有不同部分的模型来进行对比说明,即模型一FlowLSTM为仅用卷积自动编码网络生成一个运动流的模型,模型二FlowLSTM+MMF为生成多个运动流但不生成基图像的模型,模型三FlowLSTM+MMF+Hallucination为既生成多个运动流又生成基图像的模型。
本发明实施例中使用峰值信噪比(PSNR)和结构相似性(SSIM)作为预测结果的评价指标,PSNR与SSIM的值越大表明预测效果越好,并从量化指标和主观图像质量两方面同时进行评价。为了保证可比性,我们在训练和测试中均设置三种方法的所有模型都以10个连续帧为输入,输出未来的10帧预测视频序列,且所有的输入帧和输出帧图像的尺寸均为64×64(像素)。
针对本实施例,进一步地,可将模型形式化定义如下:输入10帧,预测未来10帧,输入视频序列为X={x1,x2,...,x10},目标视频序列为Y={y1,y2,...,y10},预测视频序列为
Figure BDA0001772543870000081
当输入帧xt经过步骤1)所述编码器得到特征图ht,将特征图输入LSTM单元得到隐藏状态st。继续将输入帧xt+1输入编码器,得到ht+1,此时,st与ht+1同时作为LSTM单元的输入,进一步得到xt+1的隐藏状态st+1。依次类推,直到得到最后一帧输入x10对应的隐藏状态s10,以及h10经过LSTM单元后包含运动信息的动态特征图d10。将d10输入解码器及瓶颈层,最终生成3个运动流
Figure BDA0001772543870000091
和相应的权重矩阵
Figure BDA0001772543870000092
以及基图像I与其相应的权重矩阵
Figure BDA0001772543870000093
通过双线性插值法,将3个运动流分别作用于最后一帧输入x10,得到运动预测图
Figure BDA0001772543870000094
最后,以
Figure BDA0001772543870000095
Figure BDA0001772543870000096
作为权重,线性组合所有的运动预测和基图像来获得最终的预测输出
Figure BDA0001772543870000097
Figure BDA0001772543870000098
作为最后一帧,得到新的输入序列X={x2,x3,...,x11},重复上述预测步骤,得到第二帧预测
Figure BDA0001772543870000099
如此迭代得到10帧预测序列
Figure BDA00017725438700000910
实验结果表明,MMF比其他两种方法具有更好的预测效果,能够有效减少预测结果中的模糊,并增加可清晰预测的帧数。三种方法的对比结果如表1所示:
表1不同视频预测模型实验结果统计表
Figure BDA00017725438700000911
由表1可见本发明的三种模型的效果相比基线DVF均有显著提升。相比于ConvLSTM直接生成预测帧图像的方法,本发明模型一FlowLSTM,只是用人工神经网络生成运动流,在PSNR和SSIM两个指标上也均有较大提升。而模型二FlowLSTM+MMF中,MMF通过多运动流机制来描述更多、更细腻的动作,相比模型一FlowLSTM又获得了更大提升。虽然包含了基图像的模型三在两个量化指标上的表现不尽如人意,但其生成的预测帧的主观图像质量却是最好的(详见附图4),后续将进一步阐述基图像在模型三中的作用。
附图3显示了在KTH数据集上进行长期预测时,本发明方法与DVF和ConvLSTM的量化指标随着时间增长的下降趋势的对比。本发明方法的三个模型与ConvLSTM都使用了LSTM结构,在PSNR和SSIM上的下降趋势与DVF相比均较缓慢,说明LSTM对提升长期的视频预测效果具有重要的作用。此外,包含了MMF的模型二在最初的预测中具有最好的效果,且在长期预测中一直保持着这样的优势。包含了基图像的模型三虽然在最初几期的预测中表现并不理想,但它在长期的预测中体现出了更好的鲁棒性,说明基图像确实能够让模型在长期预测中更加稳定。
附图4中展示了包含多个运动流和基图像的模型三(MMF),DVF与ConvLSTM生成的关于两个不同动作视频序列的例子。从(a)图中“慢跑”动作的后三行图像中可以看到,MMF在全部10期的预测中都生成了比其他两种方法更加清晰准确的结果。从t=5开始,DVF和ConvLSTM的预测中,图像中人的一条腿随着时间逐渐“溶解”消失,因为模型无法同时准确地预测不同的动作。而从第二行图像中可以看到,在本发明的MMF模型中通过采用多个不同的运动流来分别描述不同运动的方法,消除了这种运动部分溶解的现象。此外,ConvLSTM的预测图像中,人往前运动时会在身后留下一块空白区域。这是物体移动,或光照不均时阴影的移动等造成的像素空白,而ConvLSTM无法处理这样的像素级别的运动,但是从第二行的图像中可以明显看到,MMF没有出现这样的空白,这说明基图像能够很好地弥补这种像素移动造成的空白,使模型在复杂情况下保持更好的鲁棒性。(b)图中同样可见上述区别。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (8)

1.一种用于视频预测的多运动流深度卷积网络模型方法,其特征是,针对输入的视频序列,通过建立卷积自动编码网络,并融合长短期记忆模块LSTM,同时生成多个用于学习视频序列中细微运动的运动流和一幅基图像及对应的权重矩阵,再通过双线性插值法将各个运动流分别作用到最后一帧输入上,根据权重矩阵与基图像进行线性组合后得到最终的预测帧,从而实现对视频序列中多种细微动作的精准描述和预测,减少预测结果中的模糊,延长可清晰且准确预测的帧数;包括如下步骤:
1)构建结合LSTM单元的卷积自动编码网络结构,包括编码器、解码器、LSTM单元及一层瓶颈层;将图像的多个输入帧依次输入编码器进行编码,提取特征图,并将上一帧提取得到的特征图输入LSTM单元,得到的隐藏状态,再输入下一帧对应的LSTM单元,以提取时间信息;
2)将最后一个输入帧经过编码器和LSTM单元之后得到的含有动态信息的特征图,输入解码器,得到多个运动流及其对应的多个权重矩阵,同时得到一幅基图像及其对应的权重矩阵;
所述运动流用来表示从一帧像素值到另一帧像素值的转换,具体表示为一个三维张量,前二维形状与输入视频帧图像的尺寸相同,第三维的两个元素分别表示x方向与y方向的像素运动转换;运动流的数量可根据视频序列中运动的复杂程度进行增删;每个运动流仅学习和描述一种或少数几种运动信息;同时采用多个运动流对视频序列中的细微运动信息进行更加细致的学习;所述基图像是与运动流同时生成的一幅粗糙的预测图像,作为运动流预测的补充;
所述权重矩阵是指由该网络模型生成的运动流对应的二维矩阵,矩阵的尺寸与视频帧尺寸一致,矩阵中每个元素的值为运动预测图和基图像上对应位置的像素值在线性组合时的权重;
3)通过双线性插值法将各个运动流分别作用到最后一个输入帧的原图像上,得到多个运动预测图,作为初步的运动预测帧;
4)根据各个运动流与基图像对应的权重矩阵,将多个运动预测图与基图像通过线性组合,生成一帧图像,即预测帧图像;
5)将预测帧图像作为输入序列中的最后一帧输入帧,并剔除输入序列中的第一帧,构成新的输入序列;重复上述步骤1)至4),即可实现多期预测。
2.如权利要求1所述用于视频预测的多运动流深度卷积网络模型方法,其特征是,输入的视频序列的尺寸根据实际数据调节;输入帧数与预测帧数均可根据需要进行修改。
3.如权利要求1所述用于视频预测的多运动流深度卷积网络模型方法,其特征是,步骤1)所述卷积自动编码网络结构的瓶颈层的通道数根据运动流数量设置;当运动流数量设置为L、视频序列色彩通道数为D时,瓶颈层通道数为:3L+D+1;其中,每个运动流占2L个通道,分别描述x方向与y方向的运动;每个运动流对应的权重矩阵占1L个通道;一幅基图像占D个通道;基图像对应的权重矩阵占1个通道。
4.如权利要求1所述用于视频预测的多运动流深度卷积网络模型方法,其特征是,所述用于视频预测的多运动流深度卷积网络模型的定义如下:
假设输入K帧,预测未来T帧,则定义输入视频序列为X={x1,x2,...,xK},目标视频序列为Y={y1,y2,...,yT},预测视频序列为
Figure FDA0003063847460000021
当输入帧xt经过步骤1)所述编码器得到特征图ht,将特征图输入LSTM单元得到隐藏状态st
继续将输入帧xt+1输入编码器,得到ht+1,此时,st与ht+1同时作为LSTM单元的输入,进一步得到xt+1的隐藏状态st+1
依次类推,直到得到最后一帧输入xK对应的隐藏状态sK,以及hK与sK-1经过LSTM单元后输出的包含运动信息的动态特征图dK
将dK输入解码器及瓶颈层,最终生成L个运动流
Figure FDA0003063847460000022
和相应的权重矩阵
Figure FDA0003063847460000023
以及基图像I与其相应的权重矩阵
Figure FDA0003063847460000024
通过双线性插值法,将L个运动流分别作用于最后一帧输入xK,得到运动预测图
Figure FDA0003063847460000025
最后,以
Figure FDA0003063847460000026
Figure FDA0003063847460000027
作为权重,线性组合所有的运动预测图
Figure FDA0003063847460000028
和基图像I来获得最终的预测输出
Figure FDA0003063847460000029
5.如权利要求1所述用于视频预测的多运动流深度卷积网络模型方法,其特征是,采用对抗式的训练方法训练所述用于视频预测的多运动流深度卷积网络;若训练时损失函数值波动剧烈导致难以收敛,则可直接采用反向传播算法进行训练。
6.如权利要求1所述用于视频预测的多运动流深度卷积网络模型方法,其特征是,步骤1)和2)训练结合LSTM单元的卷积自动编码网络,具体采用损失函数L(X,Y)描述预测视频序列
Figure FDA0003063847460000035
与目标视频序列Y之间的差别,采用L1范数作为损失函数的正则化项来避免过拟合,最小化损失函数的目标函数表示为式2-1:
L(X,Y)=Lp(X,Y)+Lgdl(X,Y) (式2-1)
式2-1中,X为输入视频序列;Y为目标视频序列;L(X,Y)为损失函数;Lp(X,Y)为衡量预测视频序列与目标视频序列之间的差异的回归损失函数;Lgdl(X,Y)为图像梯度差异损失函数,用于衡量模型在图像梯度上的预测准确度,引导网络逼近目标图像中像素值的真实梯度值,从而增加预测结果的清晰度。
7.如权利要求6所述用于视频预测的多运动流深度卷积网络模型方法,其特征是,正则化项系数为0.0001;p的常用取值为1或2。
8.如权利要求6所述用于视频预测的多运动流深度卷积网络模型方法,其特征是,具体地,衡量预测视频序列与目标视频序列之间的差异的回归损失函数Lp(X,Y)表示为式2-2:
Figure FDA0003063847460000031
其中,
Figure FDA0003063847460000032
为衡量预测视频序列与目标视频序列之间的差异的回归损失函数,T表示预测视频序列与真实视频序列的帧数;
图像梯度差异损失函数Lgdl(X,Y)表示为式2-3:
Figure FDA0003063847460000033
其中,
Figure FDA0003063847460000034
为衡量预测视频序列与目标视频序列之间的图像梯度差异的梯度差异损失函数;λ表示损失函数所采用的距离的类别,取值为1或2;i,j分别表示像素的横坐标与纵坐标。
CN201810955354.XA 2018-08-21 2018-08-21 一种用于视频预测的多运动流深度卷积网络模型方法 Expired - Fee Related CN109064507B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810955354.XA CN109064507B (zh) 2018-08-21 2018-08-21 一种用于视频预测的多运动流深度卷积网络模型方法
PCT/CN2019/076254 WO2020037965A1 (zh) 2018-08-21 2019-02-27 一种用于视频预测的多运动流深度卷积网络模型方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810955354.XA CN109064507B (zh) 2018-08-21 2018-08-21 一种用于视频预测的多运动流深度卷积网络模型方法

Publications (2)

Publication Number Publication Date
CN109064507A CN109064507A (zh) 2018-12-21
CN109064507B true CN109064507B (zh) 2021-06-22

Family

ID=64686716

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810955354.XA Expired - Fee Related CN109064507B (zh) 2018-08-21 2018-08-21 一种用于视频预测的多运动流深度卷积网络模型方法

Country Status (2)

Country Link
CN (1) CN109064507B (zh)
WO (1) WO2020037965A1 (zh)

Families Citing this family (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109064507B (zh) * 2018-08-21 2021-06-22 北京大学深圳研究生院 一种用于视频预测的多运动流深度卷积网络模型方法
CN109919032B (zh) * 2019-01-31 2021-03-30 华南理工大学 一种基于动作预测的视频异常行为检测方法
US10482584B1 (en) * 2019-01-31 2019-11-19 StradVision, Inc. Learning method and learning device for removing jittering on video acquired through shaking camera by using a plurality of neural networks for fault tolerance and fluctuation robustness in extreme situations, and testing method and testing device using the same
CN109902601B (zh) * 2019-02-14 2023-04-07 武汉大学 一种结合卷积网络和递归网络的视频目标检测方法
CN110191299B (zh) * 2019-04-15 2020-08-04 浙江大学 一种基于卷积神经网络的多重帧插值方法
CN110334718A (zh) * 2019-07-09 2019-10-15 方玉明 一种基于长短期记忆的二维视频显著性检测方法
CN110600105B (zh) * 2019-08-27 2022-02-01 武汉科技大学 一种ct影像数据处理方法、装置及存储介质
CN110766732A (zh) * 2019-10-22 2020-02-07 杭州凌像科技有限公司 一种鲁棒的单相机深度图估计方法
CN110839156A (zh) * 2019-11-08 2020-02-25 北京邮电大学 一种基于视频图像的未来帧预测方法及模型
CN110991365B (zh) * 2019-12-09 2024-02-20 中国科学院深圳先进技术研究院 一种视频运动信息获取方法、系统及电子设备
CN111046964B (zh) * 2019-12-18 2021-01-26 电子科技大学 一种基于卷积神经网络的人和车辆红外热图像识别方法
CN111144368A (zh) * 2019-12-31 2020-05-12 重庆和贯科技有限公司 基于长短时记忆神经网络的学生行为检测方法
CN111242044B (zh) * 2020-01-15 2022-06-28 东华大学 基于ConvLSTM双通道编码网络的夜间无人车场景预测方法
CN111523477B (zh) * 2020-04-24 2023-08-01 河南大学 一种基于运动历史图像和集成学习器的视频动作识别方法
CN111708030B (zh) * 2020-05-28 2024-05-14 深圳市气象局(深圳市气象台) 基于能量生成对抗性预测器的灾害天气预报方法
CN111860162B (zh) * 2020-06-17 2023-10-31 上海交通大学 一种视频人群计数系统及方法
CN111723747A (zh) * 2020-06-22 2020-09-29 西安工业大学 一种应用于嵌入式平台轻量型高效率的目标检测方法
CN113949926B (zh) * 2020-07-17 2024-07-30 武汉Tcl集团工业研究院有限公司 一种视频插帧方法、存储介质及终端设备
CN111931602B (zh) * 2020-07-22 2023-08-08 北方工业大学 基于注意力机制的多流分段网络人体动作识别方法及系统
CN111832516B (zh) * 2020-07-22 2023-08-18 西安电子科技大学 基于无监督视频表示学习的视频行为识别方法
CN114071223A (zh) * 2020-07-30 2022-02-18 武汉Tcl集团工业研究院有限公司 基于光流的视频插帧的生成方法、存储介质及终端设备
CN112053375A (zh) * 2020-08-26 2020-12-08 上海眼控科技股份有限公司 基于改进的网络卷积模型预测临近预报的方法及设备
CN112052763B (zh) * 2020-08-27 2024-02-09 西安电子科技大学 基于双向回顾生成对抗网络的视频异常事件检测方法
CN112085717B (zh) * 2020-09-04 2024-03-19 厦门大学 一种用于腹腔镜手术的视频预测方法及其系统
CN114339216A (zh) * 2020-10-10 2022-04-12 阿里巴巴集团控股有限公司 视频处理方法、装置、电子设备及存储介质
CN112906456B (zh) * 2020-12-29 2024-02-27 周口师范学院 一种基于帧间特征的人群异常行为检测方法及系统
CN112734805B (zh) * 2021-01-11 2022-04-15 北京深睿博联科技有限责任公司 一种基于深度学习的行人运动轨迹预测方法及装置
CN112966584B (zh) * 2021-02-26 2024-04-19 中国科学院上海微系统与信息技术研究所 一种运动感知模型的训练方法、装置、电子设备及存储介质
CN112949944B (zh) * 2021-04-13 2023-09-22 北京科技大学 一种基于时空特征的地下水位智能预测方法及系统
CN113099228B (zh) * 2021-04-30 2024-04-05 中南大学 一种视频编解码方法及系统
CN113421281A (zh) * 2021-05-17 2021-09-21 西安电子科技大学 一种基于分割理论的行人微动部位分离方法
CN113298792B (zh) * 2021-06-01 2024-03-08 中国矿业大学 基于ai视觉的皮带跑偏监测调速控制装置及方法
CN113822117B (zh) * 2021-06-04 2024-05-14 华南理工大学 一种数据处理方法、设备以及计算机可读存储介质
CN113392805A (zh) * 2021-07-02 2021-09-14 西安交通大学 一种采用基于ConvLSTM的视频编解码器的航空发动机火星检测方法
CN113449660B (zh) * 2021-07-05 2024-04-05 西安交通大学 基于自注意增强的时空变分自编码网络的异常事件检测方法
CN113496501B (zh) * 2021-07-08 2023-09-01 中国科学技术大学 基于视频预测的动态场景中的入侵物检测方法和系统
CN113722536B (zh) * 2021-07-27 2024-05-28 陕西师范大学 基于双线性自适应特征交互与目标感知的视频描述方法
CN113724361B (zh) * 2021-08-23 2024-08-16 西安工业大学 一种基于深度学习的单视图三维重建方法
CN114119424B (zh) * 2021-08-27 2024-08-06 上海大学 一种基于光流法和多视角场景的视频修复方法
CN113870372B (zh) * 2021-08-31 2024-06-21 浙江大学 一种基于深度学习的视频头发颜色转换方法
CN113688761B (zh) * 2021-08-31 2024-02-20 安徽大学 一种基于图像序列的行人行为类别检测方法
CN113838102B (zh) * 2021-09-26 2023-06-06 南昌航空大学 一种基于各向异性稠密卷积的光流确定方法和系统
CN113947612B (zh) * 2021-09-28 2024-03-29 西安电子科技大学广州研究院 基于前景背景分离的视频异常检测方法
CN114005157B (zh) * 2021-10-15 2024-05-10 武汉烽火信息集成技术有限公司 一种基于卷积神经网络的像素位移向量的微表情识别方法
CN113992920A (zh) * 2021-10-25 2022-01-28 北京大学深圳研究生院 一种基于深度展开网络的视频压缩感知重建方法
CN114022360B (zh) * 2021-11-05 2024-05-03 长春理工大学 基于深度学习的渲染图像超分辨系统
CN114067251B (zh) * 2021-11-18 2023-09-15 西安交通大学 一种无监督监控视频预测帧异常检测方法
CN114139690B (zh) * 2021-12-09 2024-07-26 南京邮电大学 短临降水预测方法及装置
CN114283181B (zh) * 2021-12-22 2024-06-18 北京大学 一种基于样例的动态纹理迁移方法及系统
CN114511644B (zh) * 2022-01-21 2023-06-09 电子科技大学 一种基于深度学习的自适应数字伪装方法
CN114612836B (zh) * 2022-03-15 2024-04-05 南京邮电大学 基于记忆增强未来视频帧预测的监控视频异常检测方法
WO2023206532A1 (zh) * 2022-04-29 2023-11-02 Oppo广东移动通信有限公司 预测方法、装置、电子设备及计算机可读存储介质
CN115116124B (zh) * 2022-05-13 2024-07-19 大连海事大学 基于视觉和无线双模态联合感知的动作表示及识别方法
CN114943873B (zh) * 2022-05-26 2023-10-17 深圳市科荣软件股份有限公司 一种工地人员异常行为分类方法及装置
CN115270651B (zh) * 2022-06-20 2024-03-15 北京科技大学 一种面向单目视频的非牛顿流体仿真重建方法
CN115082833B (zh) * 2022-07-15 2024-09-17 上海大学 一种水上目标威胁度判别方法及系统
CN115690160B (zh) * 2022-11-16 2023-12-15 南京航空航天大学 一种低帧率视频行人轨迹预测方法与系统
CN115984856A (zh) * 2022-12-05 2023-04-18 百度(中国)有限公司 文档图像矫正模型的训练方法、文档图像的矫正方法
CN115834905B (zh) * 2023-02-09 2023-04-11 北京大学 帧间预测的方法、装置、电子设备及介质
CN116819957B (zh) * 2023-03-29 2024-03-08 福建省龙德新能源有限公司 电子级六氟磷酸锂的尾气处理系统及其方法
CN116719031B (zh) * 2023-08-08 2023-10-13 中国科学院空天信息创新研究院 一种合成孔径雷达sar图像的海洋涡旋检测方法及系统
CN116847101B (zh) * 2023-09-01 2024-02-13 易方信息科技股份有限公司 基于Transformer网络的视频比特率阶梯预测方法、系统及设备
CN116935189B (zh) * 2023-09-15 2023-12-05 北京理工导航控制科技股份有限公司 一种基于神经网络的伪装目标检测方法、装置及存储介质
CN117409354B (zh) * 2023-12-11 2024-03-22 山东建筑大学 基于三路视频流和上下文感知的视频异常检测方法及系统
CN117853817B (zh) * 2024-01-24 2024-06-04 江苏电子信息职业学院 一种基于图像识别的智慧社区垃圾分类报警管理方法
CN118227872A (zh) * 2024-02-26 2024-06-21 北京市遥感信息研究所 一种社交关系感知的人类移动行为预测方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3793657B2 (ja) * 1997-10-13 2006-07-05 シャープ株式会社 画像の位置変化サーチ方法
CN104166967A (zh) * 2014-08-15 2014-11-26 西安电子科技大学 提升视频图像清晰度的方法
CN107103614A (zh) * 2017-04-12 2017-08-29 合肥工业大学 基于层次独立成分编码的运动异常检测方法
CN108184128A (zh) * 2018-01-11 2018-06-19 安徽优思天成智能科技有限公司 基于深度神经网络的视频序列丢失帧预测恢复方法
CN108229338A (zh) * 2017-12-14 2018-06-29 华南理工大学 一种基于深度卷积特征的视频行为识别方法
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10242266B2 (en) * 2016-03-02 2019-03-26 Mitsubishi Electric Research Laboratories, Inc. Method and system for detecting actions in videos
CN109064507B (zh) * 2018-08-21 2021-06-22 北京大学深圳研究生院 一种用于视频预测的多运动流深度卷积网络模型方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3793657B2 (ja) * 1997-10-13 2006-07-05 シャープ株式会社 画像の位置変化サーチ方法
CN104166967A (zh) * 2014-08-15 2014-11-26 西安电子科技大学 提升视频图像清晰度的方法
CN107103614A (zh) * 2017-04-12 2017-08-29 合肥工业大学 基于层次独立成分编码的运动异常检测方法
CN108229338A (zh) * 2017-12-14 2018-06-29 华南理工大学 一种基于深度卷积特征的视频行为识别方法
CN108184128A (zh) * 2018-01-11 2018-06-19 安徽优思天成智能科技有限公司 基于深度神经网络的视频序列丢失帧预测恢复方法
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Hongyuan Zhu etc..TORNADO: A Spatio-Temporal Convolutional Regression Network for Video Action Proposal.《2017 IEEE International Conference on Computer Vision》.2017, *

Also Published As

Publication number Publication date
WO2020037965A1 (zh) 2020-02-27
CN109064507A (zh) 2018-12-21

Similar Documents

Publication Publication Date Title
CN109064507B (zh) 一种用于视频预测的多运动流深度卷积网络模型方法
CN110111366B (zh) 一种基于多级损失量的端到端光流估计方法
CN110163246B (zh) 基于卷积神经网络的单目光场图像无监督深度估计方法
CN109711413B (zh) 基于深度学习的图像语义分割方法
CN109271933B (zh) 基于视频流进行三维人体姿态估计的方法
Zhao et al. Learning to forecast and refine residual motion for image-to-video generation
Kuznietsov et al. Semi-supervised deep learning for monocular depth map prediction
CN112149459B (zh) 一种基于交叉注意力机制的视频显著性物体检测模型及系统
CN113177882B (zh) 一种基于扩散模型的单帧图像超分辨处理方法
CN110751649B (zh) 视频质量评估方法、装置、电子设备及存储介质
Cao et al. Real-time super-resolution system of 4k-video based on deep learning
CN110689599A (zh) 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
CN111901532B (zh) 基于循环神经网络迭代策略的视频稳定方法
CN114170286B (zh) 一种基于无监督深度学习的单目深度估计方法
CN110580472A (zh) 一种基于全卷积网络和条件对抗网络的视频前景检测方法
CN113240722B (zh) 一种基于多帧注意力的自监督深度估计方法
CN114463218A (zh) 一种基于事件数据驱动的视频去模糊方法
CN115049739A (zh) 一种基于边缘检测的双目视觉立体匹配方法
CN111310594A (zh) 一种基于残差纠正的视频语义分割方法
CN113810683A (zh) 一种客观评估水下视频质量的无参考评价方法
Hu et al. Video frame interpolation with many-to-many splatting and spatial selective refinement
CN117097876A (zh) 基于神经网络的事件相机图像重建方法
CN111275751A (zh) 一种无监督绝对尺度计算方法及系统
CN115147457B (zh) 基于时空感知的记忆增强型自监督跟踪方法及装置
CN114882405B (zh) 一种基于时空双流金字塔网络架构的视频显著性检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210622

CF01 Termination of patent right due to non-payment of annual fee