CN108600762A - 结合运动补偿和神经网络算法的递进式视频帧生成方法 - Google Patents
结合运动补偿和神经网络算法的递进式视频帧生成方法 Download PDFInfo
- Publication number
- CN108600762A CN108600762A CN201810367884.2A CN201810367884A CN108600762A CN 108600762 A CN108600762 A CN 108600762A CN 201810367884 A CN201810367884 A CN 201810367884A CN 108600762 A CN108600762 A CN 108600762A
- Authority
- CN
- China
- Prior art keywords
- frame
- neural network
- priori
- input
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/587—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal sub-sampling or interpolation, e.g. decimation or subsequent interpolation of pictures in a video sequence
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/14—Picture signal circuitry for video frequency region
- H04N5/144—Movement detection
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Television Systems (AREA)
Abstract
本发明公开了一种结合运动补偿和神经网络算法的递进式视频帧生成方法,包括:通过运动补偿算法采用内插或外插的方式,来构建基于视频块级别运动信息的先验增强帧,增强帧具有连续运动信息并保留了一定的外观细节;将先验增强帧以递进式方式输入至神经网络,同时,还将生成先验增强帧时所输入的前后相邻帧或者前几帧输入至神经网络,使神经网络学习整体视频序列的运动轨迹和外观残差,最终生成的视频帧插入至输入的前后相邻帧之间,或者输入的前几帧的末尾。采用该方法能够极大的提升图像质量。
Description
技术领域
本发明涉及视频信号处理技术领域,尤其涉及一种结合运动补偿和神经网络算法的递进式视频帧生成方法。
背景技术
视频帧生成是计算机视觉中最根本的问题之一,已经在不同的领域中发现了其许多应用,包括视频压缩,慢动作视频生成,甚至应用于无人驾驶汽车,使其做出决定或预测危险。给定一个视频序列,视频帧生成的目标是在连续视频帧之间进行内插操作或在视频帧之外进行外插操作。然而,一般用于合成视频帧的生成模型对于具有复杂外观并伴随剧烈运动视频达不到令人满意的效果。
传统的方法大多集中在从光流估计的角度出发来合成视频帧。当视频具有较为剧烈的运动时,光流估计往往不能令人满意,经常会产生重影从而降低视频帧质量。近期,基于深度学习的生成模型,试图直接生成视频帧的像素值,但通常由于视频中剧烈动作的存在,而导致模糊的生成结果;此外,随着非线性操作的不断累积,通常无法很好地保留视频中物体的外观细节信息,也将导致模糊的生成结果。
发明内容
本发明的目的是提供一种结合运动补偿和神经网络算法的递进式视频帧生成方法,能够极大的提升图像质量。
本发明的目的是通过以下技术方案实现的:
一种结合运动补偿和神经网络算法的递进式视频帧生成方法,包括:
通过运动补偿算法采用内插或外插的方式,来构建基于视频块级别运动信息的先验增强帧,增强帧具有连续运动信息并保留了一定的外观细节;
将先验增强帧以递进式方式输入至神经网络,同时,还将生成先验增强帧时所输入的前后相邻帧或者前几帧输入至神经网络,使神经网络学习整体视频序列的运动轨迹和外观残差,最终生成的视频帧插入至输入的前后相邻帧之间,或者输入的前几帧的末尾。
由上述本发明提供的技术方案可以看出,本发明能够对存在剧烈运动的视频进行较好的内插和外插预测生成,并且能保证较好的清晰度;同时,结合了传统算法和目前最先进的深度学习算法,做到优势互补;实验数据表明,本发明在标准公开数据库上的实验表现超过传统方案,生成的图像质量也有较大提升。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种结合运动补偿和神经网络算法的递进式视频帧生成方法的流程图;
图2为本发明实施例提供的递进式视频帧合成的神经网络结构图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种结合运动补偿和神经网络算法的递进式视频帧生成方法,包括:
步骤1、通过运动补偿算法采用内插或外插的方式,来构建基于视频块级别运动信息的先验增强帧,增强帧具有连续运动信息并保留了一定的外观细节。
本发明实施例中,给定前几帧(用于外插)或前后帧(用于内插),利用已有的视频帧,结合运动算法得到相应的运动矢量,再通过运动补偿算法采用内插或外插的方式,来构建基于视频块级别运动信息的先验增强帧。
步骤2、将先验增强帧以递进式方式输入至神经网络,同时,还将生成先验增强帧时所输入的前后相邻帧或者前几帧输入至神经网络,使神经网络学习整体视频序列的运动轨迹和外观残差,最终生成的视频帧插入至输入的前后相邻帧之间,或者输入的前几帧的末尾。
本领域技术人员可以理解,内插是指结合给定的相邻前后两帧生成新的视频帧插入至相邻前后两帧之间;外插是指结合给定的前几帧生成新的视频帧插入至前几帧的末尾。
如图1所示,其示出了给定第1与第2帧,外插第3帧的流程。
本发明实施例中,神经网络是一种全局编码器-解码器架构,将先验增强帧以递进式方式输入至神经网络,即为将先验增强帧进行重采样分别提供给神经网络中解码器的各个中间层;同时,还将先验增强帧和解码器的输出融合到最终生成的视频帧中;使得神经网络能够逐渐从先验增强帧和输入的视频帧中学习整体视频序列的运动轨迹和外观残差。
此外,还提出一种新的侧重于关注视频中客观物体的损失函数,来使得生成网络获得更好的生成质量,保留更多的物体细节。即,首先利用目标定位网络将前后背景区分开来,然后在神经网络计算损失函数时,增加前景的损失值的权值,以此来达到“重视”前景物体的效果。
以图1所示的给定第1与第2帧,外插第3帧为例,递进式视频帧合成的神经网络结构图如图2所示。图2所示的神经网络中融入了针对该任务定制设计的卷积长短期记忆模块、残差网络模块、桥接结构。在该神经网络中的编码器中,将输入视频帧和先验增强帧作为输入,各自经过三个卷积模块,每个卷积模块均包括一层卷积层,一层池化层,一层归一化层,以及不同数目的残差网络模块。其中,先验增强帧采用递进式方式输入至三个卷积模块中。之后经过最后一层卷积层后输入到卷积长短期记忆模块中(学习输入视频帧和先验增强帧时序上的信息);在解码器中,将编码器的输出作为输入,经过三层逆卷积模块,每个逆卷积模块均包括一层逆卷积层,一层池化层,一层归一化层及不同数目的残差网络模块,同时每个逆卷积模块均有和用于处理输入视频帧的卷积模块相连接的桥接结构(第一个卷积模块桥接第三个逆卷积模块、第二个卷积模块桥接第二个逆卷积模块、第三个卷积模块桥接第一个逆卷积模块)。此外先验增强帧在解码器中的逆卷积模块进行递进式的输入,最后经过一层逆卷积层后,生成最终的目标视频帧。图2中的三个卷积模块与三个逆卷积模块的上方都带一个弧度箭头(即残差模块),其后不带弧度箭头为一个卷积层或逆卷积层。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (4)
1.一种结合运动补偿和神经网络算法的递进式视频帧生成方法,其特征在于,包括:
通过运动补偿算法采用内插或外插的方式,来构建基于视频块级别运动信息的先验增强帧,增强帧具有连续运动信息并保留了一定的外观细节;
将先验增强帧以递进式方式输入至神经网络,同时,还将生成先验增强帧时所输入的前后相邻帧或者前几帧输入至神经网络,使神经网络学习整体视频序列的运动轨迹和外观残差,最终生成的视频帧插入至输入的前后相邻帧之间,或者输入的前几帧的末尾。
2.根据权利要求1所述的一种结合运动补偿和神经网络算法的递进式视频帧生成方法,其特征在于,
利用已有的视频帧,结合运动算法得到相应的运动矢量,再通过运动补偿算法采用内插或外插的方式,来构建基于视频块级别运动信息的先验增强帧。
3.根据权利要求1所述的一种结合运动补偿和神经网络算法的递进式视频帧生成方法,其特征在于,
所述将先验增强帧以递进式方式输入至神经网络,即为将先验增强帧进行重采样分别提供给神经网络中解码器的各个中间层;
同时,还将先验增强帧和解码器的输出融合到最终生成的视频帧中。
4.根据权利要求1或3所述的一种结合运动补偿和神经网络算法的递进式视频帧生成方法,其特征在于,
利用目标定位网络将前后背景区分开来,然后在神经网络计算损失函数时,增加前景的损失值的权值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810367884.2A CN108600762B (zh) | 2018-04-23 | 2018-04-23 | 结合运动补偿和神经网络算法的递进式视频帧生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810367884.2A CN108600762B (zh) | 2018-04-23 | 2018-04-23 | 结合运动补偿和神经网络算法的递进式视频帧生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108600762A true CN108600762A (zh) | 2018-09-28 |
CN108600762B CN108600762B (zh) | 2020-05-15 |
Family
ID=63614016
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810367884.2A Active CN108600762B (zh) | 2018-04-23 | 2018-04-23 | 结合运动补偿和神经网络算法的递进式视频帧生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108600762B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109803175A (zh) * | 2019-03-12 | 2019-05-24 | 京东方科技集团股份有限公司 | 视频处理方法及装置、设备、存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103929647A (zh) * | 2013-01-16 | 2014-07-16 | 索尼公司 | 图像处理装置以及图像处理方法 |
CN106686472A (zh) * | 2016-12-29 | 2017-05-17 | 华中科技大学 | 一种基于深度学习的高帧率视频生成方法及系统 |
CN106973293A (zh) * | 2017-04-21 | 2017-07-21 | 中国科学技术大学 | 基于视差预测的光场图像编码方法 |
CN107133919A (zh) * | 2017-05-16 | 2017-09-05 | 西安电子科技大学 | 基于深度学习的时间维视频超分辨率方法 |
WO2017222140A1 (ko) * | 2016-06-24 | 2017-12-28 | 한국과학기술원 | Cnn 기반 인루프 필터를 포함하는 부호화 방법과 장치 및 복호화 방법과 장치 |
-
2018
- 2018-04-23 CN CN201810367884.2A patent/CN108600762B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103929647A (zh) * | 2013-01-16 | 2014-07-16 | 索尼公司 | 图像处理装置以及图像处理方法 |
WO2017222140A1 (ko) * | 2016-06-24 | 2017-12-28 | 한국과학기술원 | Cnn 기반 인루프 필터를 포함하는 부호화 방법과 장치 및 복호화 방법과 장치 |
CN106686472A (zh) * | 2016-12-29 | 2017-05-17 | 华中科技大学 | 一种基于深度学习的高帧率视频生成方法及系统 |
CN106973293A (zh) * | 2017-04-21 | 2017-07-21 | 中国科学技术大学 | 基于视差预测的光场图像编码方法 |
CN107133919A (zh) * | 2017-05-16 | 2017-09-05 | 西安电子科技大学 | 基于深度学习的时间维视频超分辨率方法 |
Non-Patent Citations (1)
Title |
---|
龙古灿: "用于视频图像帧间运动补偿的深度卷积神经网络", 《国防科技大学学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109803175A (zh) * | 2019-03-12 | 2019-05-24 | 京东方科技集团股份有限公司 | 视频处理方法及装置、设备、存储介质 |
CN109803175B (zh) * | 2019-03-12 | 2021-03-26 | 京东方科技集团股份有限公司 | 视频处理方法及装置、设备、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108600762B (zh) | 2020-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111539879B (zh) | 基于深度学习的视频盲去噪方法及装置 | |
Li et al. | Non-locally enhanced encoder-decoder network for single image de-raining | |
Guo et al. | Dense scene information estimation network for dehazing | |
KR102619925B1 (ko) | 인코딩 및 디코딩 방법 및 장치, 인코딩단 기기 및 디코딩단 기기 | |
JP2020010331A (ja) | 画質を向上させる方法 | |
CN113658051A (zh) | 一种基于循环生成对抗网络的图像去雾方法及系统 | |
CN111899320B (zh) | 数据处理的方法、动捕去噪模型的训练方法及装置 | |
US20190281310A1 (en) | Electronic apparatus and control method thereof | |
CN108174218B (zh) | 基于学习的视频编解码系统 | |
CN110677651A (zh) | 一种视频压缩方法 | |
EP3343923A1 (en) | Motion vector field coding method and decoding method, and coding and decoding apparatuses | |
CN105100807A (zh) | 一种基于运动矢量后处理的帧率提升方法 | |
Ghosh et al. | Reinforcement learning from passive data via latent intentions | |
JP2004520744A5 (zh) | ||
CN108462876A (zh) | 一种视频解码优化调整装置及方法 | |
CN116634242A (zh) | 语音驱动的说话视频生成方法、系统、设备和存储介质 | |
TW200534710A (en) | Method and system for stabilizing video data | |
Zhang et al. | Multi-modality deep restoration of extremely compressed face videos | |
CN108600762A (zh) | 结合运动补偿和神经网络算法的递进式视频帧生成方法 | |
Zhang et al. | L2BEC2: Local Lightweight Bidirectional Encoding and Channel Attention Cascade for Video Frame Interpolation | |
CN114339030A (zh) | 一种基于自适应可分离卷积的网络直播视频稳像方法 | |
CN114066761A (zh) | 基于光流估计与前景检测的运动视频帧率增强方法及系统 | |
TWI768517B (zh) | 影像品質提昇方法及使用該方法的影像處理裝置 | |
RU2764144C1 (ru) | Быстрый двухслойный нейросетевой синтез реалистичных изображений нейронного аватара по одному снимку | |
US20230377213A1 (en) | Generating an image including a source individual |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |