CN108600762B - 结合运动补偿和神经网络算法的递进式视频帧生成方法 - Google Patents

结合运动补偿和神经网络算法的递进式视频帧生成方法 Download PDF

Info

Publication number
CN108600762B
CN108600762B CN201810367884.2A CN201810367884A CN108600762B CN 108600762 B CN108600762 B CN 108600762B CN 201810367884 A CN201810367884 A CN 201810367884A CN 108600762 B CN108600762 B CN 108600762B
Authority
CN
China
Prior art keywords
neural network
frame
priori
frames
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810367884.2A
Other languages
English (en)
Other versions
CN108600762A (zh
Inventor
陈志波
刘森
金鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201810367884.2A priority Critical patent/CN108600762B/zh
Publication of CN108600762A publication Critical patent/CN108600762A/zh
Application granted granted Critical
Publication of CN108600762B publication Critical patent/CN108600762B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/587Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal sub-sampling or interpolation, e.g. decimation or subsequent interpolation of pictures in a video sequence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/144Movement detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Television Systems (AREA)

Abstract

本发明公开了一种结合运动补偿和神经网络算法的递进式视频帧生成方法,包括:通过运动补偿算法采用内插或外插的方式,来构建基于视频块级别运动信息的先验增强帧,增强帧具有连续运动信息并保留了一定的外观细节;将先验增强帧以递进式方式输入至神经网络,同时,还将生成先验增强帧时所输入的前后相邻帧或者前几帧输入至神经网络,使神经网络学习整体视频序列的运动轨迹和外观残差,最终生成的视频帧插入至输入的前后相邻帧之间,或者输入的前几帧的末尾。采用该方法能够极大的提升图像质量。

Description

结合运动补偿和神经网络算法的递进式视频帧生成方法
技术领域
本发明涉及视频信号处理技术领域,尤其涉及一种结合运动补偿和神经网络算法的递进式视频帧生成方法。
背景技术
视频帧生成是计算机视觉中最根本的问题之一,已经在不同的领域中发现了其许多应用,包括视频压缩,慢动作视频生成,甚至应用于无人驾驶汽车,使其做出决定或预测危险。给定一个视频序列,视频帧生成的目标是在连续视频帧之间进行内插操作或在视频帧之外进行外插操作。然而,一般用于合成视频帧的生成模型对于具有复杂外观并伴随剧烈运动视频达不到令人满意的效果。
传统的方法大多集中在从光流估计的角度出发来合成视频帧。当视频具有较为剧烈的运动时,光流估计往往不能令人满意,经常会产生重影从而降低视频帧质量。近期,基于深度学习的生成模型,试图直接生成视频帧的像素值,但通常由于视频中剧烈动作的存在,而导致模糊的生成结果;此外,随着非线性操作的不断累积,通常无法很好地保留视频中物体的外观细节信息,也将导致模糊的生成结果。
发明内容
本发明的目的是提供一种结合运动补偿和神经网络算法的递进式视频帧生成方法,能够极大的提升图像质量。
本发明的目的是通过以下技术方案实现的:
一种结合运动补偿和神经网络算法的递进式视频帧生成方法,包括:
通过运动补偿算法采用内插或外插的方式,来构建基于视频块级别运动信息的先验增强帧,增强帧具有连续运动信息并保留了一定的外观细节;
将先验增强帧以递进式方式输入至神经网络,同时,还将生成先验增强帧时所输入的前后相邻帧或者前几帧输入至神经网络,使神经网络学习整体视频序列的运动轨迹和外观残差,最终生成的视频帧插入至输入的前后相邻帧之间,或者输入的前几帧的末尾。
由上述本发明提供的技术方案可以看出,本发明能够对存在剧烈运动的视频进行较好的内插和外插预测生成,并且能保证较好的清晰度;同时,结合了传统算法和目前最先进的深度学习算法,做到优势互补;实验数据表明,本发明在标准公开数据库上的实验表现超过传统方案,生成的图像质量也有较大提升。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种结合运动补偿和神经网络算法的递进式视频帧生成方法的流程图;
图2为本发明实施例提供的递进式视频帧合成的神经网络结构图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种结合运动补偿和神经网络算法的递进式视频帧生成方法,包括:
步骤1、通过运动补偿算法采用内插或外插的方式,来构建基于视频块级别运动信息的先验增强帧,增强帧具有连续运动信息并保留了一定的外观细节。
本发明实施例中,给定前几帧(用于外插)或前后帧(用于内插),利用已有的视频帧,结合运动算法得到相应的运动矢量,再通过运动补偿算法采用内插或外插的方式,来构建基于视频块级别运动信息的先验增强帧。
步骤2、将先验增强帧以递进式方式输入至神经网络,同时,还将生成先验增强帧时所输入的前后相邻帧或者前几帧输入至神经网络,使神经网络学习整体视频序列的运动轨迹和外观残差,最终生成的视频帧插入至输入的前后相邻帧之间,或者输入的前几帧的末尾。
本领域技术人员可以理解,内插是指结合给定的相邻前后两帧生成新的视频帧插入至相邻前后两帧之间;外插是指结合给定的前几帧生成新的视频帧插入至前几帧的末尾。
如图1所示,其示出了给定第1与第2帧,外插第3帧的流程。
本发明实施例中,神经网络是一种全局编码器-解码器架构,将先验增强帧以递进式方式输入至神经网络,即为将先验增强帧进行重采样分别提供给神经网络中解码器的各个中间层;同时,还将先验增强帧和解码器的输出融合到最终生成的视频帧中;使得神经网络能够逐渐从先验增强帧和输入的视频帧中学习整体视频序列的运动轨迹和外观残差。
此外,还提出一种新的侧重于关注视频中客观物体的损失函数,来使得生成网络获得更好的生成质量,保留更多的物体细节。即,首先利用目标定位网络将前后背景区分开来,然后在神经网络计算损失函数时,增加前景的损失值的权值,以此来达到“重视”前景物体的效果。
以图1所示的给定第1与第2帧,外插第3帧为例,递进式视频帧合成的神经网络结构图如图2所示。图2所示的神经网络中融入了针对该任务定制设计的卷积长短期记忆模块、残差网络模块、桥接结构。在该神经网络中的编码器中,将输入视频帧和先验增强帧作为输入,各自经过三个卷积模块,每个卷积模块均包括一层卷积层,一层池化层,一层归一化层,以及不同数目的残差网络模块。其中,先验增强帧采用递进式方式输入至三个卷积模块中。之后经过最后一层卷积层后输入到卷积长短期记忆模块中(学习输入视频帧和先验增强帧时序上的信息);在解码器中,将编码器的输出作为输入,经过三层逆卷积模块,每个逆卷积模块均包括一层逆卷积层,一层池化层,一层归一化层及不同数目的残差网络模块,同时每个逆卷积模块均有和用于处理输入视频帧的卷积模块相连接的桥接结构(第一个卷积模块桥接第三个逆卷积模块、第二个卷积模块桥接第二个逆卷积模块、第三个卷积模块桥接第一个逆卷积模块)。此外先验增强帧在解码器中的逆卷积模块进行递进式的输入,最后经过一层逆卷积层后,生成最终的目标视频帧。图2中的三个卷积模块与三个逆卷积模块的上方都带一个弧度箭头(即残差模块),其后不带弧度箭头为一个卷积层或逆卷积层。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (2)

1.一种结合运动补偿和神经网络算法的递进式视频帧生成方法,其特征在于,包括:
利用已有的视频帧,结合运动算法得到相应的运动矢量,通过运动补偿算法采用内插或外插的方式,来构建基于视频块级别运动信息的先验增强帧,先验增强帧具有连续运动信息并保留了外观细节;其中,内插是指结合给定的相邻前后两帧生成新的视频帧插入至相邻前后两帧之间;外插是指结合给定的前几帧生成新的视频帧插入至前几帧的末尾;
神经网络是一种全局编码器-解码器架构,将先验增强帧以递进式方式输入至神经网络,即将先验增强帧进行重采样分别提供给神经网络中解码器的各个中间层,同时,还将生成先验增强帧时所输入的前后相邻帧或者前几帧输入至神经网络,使神经网络学习整体视频序列的运动轨迹和外观残差,还将先验增强帧和解码器的输出融合到最终生成的视频帧中,最终生成的视频帧插入至输入的前后相邻帧之间,或者输入的前几帧的末尾。
2.根据权利要求1所述的一种结合运动补偿和神经网络算法的递进式视频帧生成方法,其特征在于,
利用目标定位网络将前后背景区分开来,然后在神经网络计算损失函数时,增加前景的损失值的权值。
CN201810367884.2A 2018-04-23 2018-04-23 结合运动补偿和神经网络算法的递进式视频帧生成方法 Active CN108600762B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810367884.2A CN108600762B (zh) 2018-04-23 2018-04-23 结合运动补偿和神经网络算法的递进式视频帧生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810367884.2A CN108600762B (zh) 2018-04-23 2018-04-23 结合运动补偿和神经网络算法的递进式视频帧生成方法

Publications (2)

Publication Number Publication Date
CN108600762A CN108600762A (zh) 2018-09-28
CN108600762B true CN108600762B (zh) 2020-05-15

Family

ID=63614016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810367884.2A Active CN108600762B (zh) 2018-04-23 2018-04-23 结合运动补偿和神经网络算法的递进式视频帧生成方法

Country Status (1)

Country Link
CN (1) CN108600762B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109803175B (zh) * 2019-03-12 2021-03-26 京东方科技集团股份有限公司 视频处理方法及装置、设备、存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103929647A (zh) * 2013-01-16 2014-07-16 索尼公司 图像处理装置以及图像处理方法
CN106686472A (zh) * 2016-12-29 2017-05-17 华中科技大学 一种基于深度学习的高帧率视频生成方法及系统
CN106973293A (zh) * 2017-04-21 2017-07-21 中国科学技术大学 基于视差预测的光场图像编码方法
WO2017222140A1 (ko) * 2016-06-24 2017-12-28 한국과학기술원 Cnn 기반 인루프 필터를 포함하는 부호화 방법과 장치 및 복호화 방법과 장치

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133919A (zh) * 2017-05-16 2017-09-05 西安电子科技大学 基于深度学习的时间维视频超分辨率方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103929647A (zh) * 2013-01-16 2014-07-16 索尼公司 图像处理装置以及图像处理方法
WO2017222140A1 (ko) * 2016-06-24 2017-12-28 한국과학기술원 Cnn 기반 인루프 필터를 포함하는 부호화 방법과 장치 및 복호화 방법과 장치
CN106686472A (zh) * 2016-12-29 2017-05-17 华中科技大学 一种基于深度学习的高帧率视频生成方法及系统
CN106973293A (zh) * 2017-04-21 2017-07-21 中国科学技术大学 基于视差预测的光场图像编码方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
用于视频图像帧间运动补偿的深度卷积神经网络;龙古灿;《国防科技大学学报》;20161031;全文 *

Also Published As

Publication number Publication date
CN108600762A (zh) 2018-09-28

Similar Documents

Publication Publication Date Title
CN109379550B (zh) 基于卷积神经网络的视频帧率上变换方法及系统
US11100401B2 (en) Predicting depth from image data using a statistical model
WO2022033048A1 (zh) 视频插帧方法、模型训练方法及对应装置
CN110363716B (zh) 一种基于条件生成对抗网络复合降质图像高质量重建方法
CN110324664B (zh) 一种基于神经网络的视频补帧方法及其模型的训练方法
Zhang et al. Dual attention-in-attention model for joint rain streak and raindrop removal
CN109903315B (zh) 用于光流预测的方法、装置、设备以及可读存储介质
CN114303177A (zh) 通过迁移学习生成具有不同疲劳程度的视频数据集的系统和方法
KR102042168B1 (ko) 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 방법 및 장치
CN113365110B (zh) 模型训练、视频插帧方法,装置,设备以及存储介质
CN111586409B (zh) 插值帧的生成方法、装置、电子设备和存储介质
US20220309623A1 (en) Method and apparatus for processing video
US11798254B2 (en) Bandwidth limited context based adaptive acquisition of video frames and events for user defined tasks
WO2014155290A1 (en) Enhancing motion pictures with accurate motion information
CN114339409A (zh) 视频处理方法、装置、计算机设备及存储介质
CN113077505A (zh) 一种基于对比学习的单目深度估计网络的优化方法
Zhao et al. Enhanced surveillance video compression with dual reference frames generation
CN109871790B (zh) 一种基于混合神经网络模型的视频去色方法
CN115035456A (zh) 视频去噪方法、装置、电子设备和可读存储介质
CN108600762B (zh) 结合运动补偿和神经网络算法的递进式视频帧生成方法
CN108961196B (zh) 一种基于图的3d注视点预测的显著性融合方法
CN114119694A (zh) 一种基于改进U-Net的自监督单目深度估计算法
Hou et al. Joint learning of image deblurring and depth estimation through adversarial multi-task network
CN111275751A (zh) 一种无监督绝对尺度计算方法及系统
JP2022037804A (ja) 画像処理装置、画像処理プログラムおよび画像処理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant