CN108600762B

CN108600762B - 结合运动补偿和神经网络算法的递进式视频帧生成方法

Info

Publication number: CN108600762B
Application number: CN201810367884.2A
Authority: CN
Inventors: 陈志波; 刘森; 金鑫
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2018-04-23
Filing date: 2018-04-23
Publication date: 2020-05-15
Anticipated expiration: 2038-04-23
Also published as: CN108600762A

Abstract

本发明公开了一种结合运动补偿和神经网络算法的递进式视频帧生成方法，包括：通过运动补偿算法采用内插或外插的方式，来构建基于视频块级别运动信息的先验增强帧，增强帧具有连续运动信息并保留了一定的外观细节；将先验增强帧以递进式方式输入至神经网络，同时，还将生成先验增强帧时所输入的前后相邻帧或者前几帧输入至神经网络，使神经网络学习整体视频序列的运动轨迹和外观残差，最终生成的视频帧插入至输入的前后相邻帧之间，或者输入的前几帧的末尾。采用该方法能够极大的提升图像质量。

Description

结合运动补偿和神经网络算法的递进式视频帧生成方法

技术领域

本发明涉及视频信号处理技术领域，尤其涉及一种结合运动补偿和神经网络算法的递进式视频帧生成方法。

背景技术

视频帧生成是计算机视觉中最根本的问题之一，已经在不同的领域中发现了其许多应用，包括视频压缩，慢动作视频生成，甚至应用于无人驾驶汽车，使其做出决定或预测危险。给定一个视频序列，视频帧生成的目标是在连续视频帧之间进行内插操作或在视频帧之外进行外插操作。然而，一般用于合成视频帧的生成模型对于具有复杂外观并伴随剧烈运动视频达不到令人满意的效果。

传统的方法大多集中在从光流估计的角度出发来合成视频帧。当视频具有较为剧烈的运动时，光流估计往往不能令人满意，经常会产生重影从而降低视频帧质量。近期，基于深度学习的生成模型，试图直接生成视频帧的像素值，但通常由于视频中剧烈动作的存在，而导致模糊的生成结果；此外，随着非线性操作的不断累积，通常无法很好地保留视频中物体的外观细节信息，也将导致模糊的生成结果。

发明内容

本发明的目的是提供一种结合运动补偿和神经网络算法的递进式视频帧生成方法，能够极大的提升图像质量。

本发明的目的是通过以下技术方案实现的：

一种结合运动补偿和神经网络算法的递进式视频帧生成方法，包括：

通过运动补偿算法采用内插或外插的方式，来构建基于视频块级别运动信息的先验增强帧，增强帧具有连续运动信息并保留了一定的外观细节；

将先验增强帧以递进式方式输入至神经网络，同时，还将生成先验增强帧时所输入的前后相邻帧或者前几帧输入至神经网络，使神经网络学习整体视频序列的运动轨迹和外观残差，最终生成的视频帧插入至输入的前后相邻帧之间，或者输入的前几帧的末尾。

由上述本发明提供的技术方案可以看出，本发明能够对存在剧烈运动的视频进行较好的内插和外插预测生成，并且能保证较好的清晰度；同时，结合了传统算法和目前最先进的深度学习算法，做到优势互补；实验数据表明，本发明在标准公开数据库上的实验表现超过传统方案，生成的图像质量也有较大提升。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种结合运动补偿和神经网络算法的递进式视频帧生成方法的流程图；

图2为本发明实施例提供的递进式视频帧合成的神经网络结构图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种结合运动补偿和神经网络算法的递进式视频帧生成方法，包括：

步骤1、通过运动补偿算法采用内插或外插的方式，来构建基于视频块级别运动信息的先验增强帧，增强帧具有连续运动信息并保留了一定的外观细节。

本发明实施例中，给定前几帧(用于外插)或前后帧(用于内插)，利用已有的视频帧，结合运动算法得到相应的运动矢量，再通过运动补偿算法采用内插或外插的方式，来构建基于视频块级别运动信息的先验增强帧。

步骤2、将先验增强帧以递进式方式输入至神经网络，同时，还将生成先验增强帧时所输入的前后相邻帧或者前几帧输入至神经网络，使神经网络学习整体视频序列的运动轨迹和外观残差，最终生成的视频帧插入至输入的前后相邻帧之间，或者输入的前几帧的末尾。

本领域技术人员可以理解，内插是指结合给定的相邻前后两帧生成新的视频帧插入至相邻前后两帧之间；外插是指结合给定的前几帧生成新的视频帧插入至前几帧的末尾。

如图1所示，其示出了给定第1与第2帧，外插第3帧的流程。

本发明实施例中，神经网络是一种全局编码器-解码器架构，将先验增强帧以递进式方式输入至神经网络，即为将先验增强帧进行重采样分别提供给神经网络中解码器的各个中间层；同时，还将先验增强帧和解码器的输出融合到最终生成的视频帧中；使得神经网络能够逐渐从先验增强帧和输入的视频帧中学习整体视频序列的运动轨迹和外观残差。

此外，还提出一种新的侧重于关注视频中客观物体的损失函数，来使得生成网络获得更好的生成质量，保留更多的物体细节。即，首先利用目标定位网络将前后背景区分开来，然后在神经网络计算损失函数时，增加前景的损失值的权值，以此来达到“重视”前景物体的效果。

以图1所示的给定第1与第2帧，外插第3帧为例，递进式视频帧合成的神经网络结构图如图2所示。图2所示的神经网络中融入了针对该任务定制设计的卷积长短期记忆模块、残差网络模块、桥接结构。在该神经网络中的编码器中，将输入视频帧和先验增强帧作为输入，各自经过三个卷积模块，每个卷积模块均包括一层卷积层，一层池化层，一层归一化层，以及不同数目的残差网络模块。其中，先验增强帧采用递进式方式输入至三个卷积模块中。之后经过最后一层卷积层后输入到卷积长短期记忆模块中(学习输入视频帧和先验增强帧时序上的信息)；在解码器中，将编码器的输出作为输入，经过三层逆卷积模块，每个逆卷积模块均包括一层逆卷积层，一层池化层，一层归一化层及不同数目的残差网络模块，同时每个逆卷积模块均有和用于处理输入视频帧的卷积模块相连接的桥接结构(第一个卷积模块桥接第三个逆卷积模块、第二个卷积模块桥接第二个逆卷积模块、第三个卷积模块桥接第一个逆卷积模块)。此外先验增强帧在解码器中的逆卷积模块进行递进式的输入，最后经过一层逆卷积层后，生成最终的目标视频帧。图2中的三个卷积模块与三个逆卷积模块的上方都带一个弧度箭头(即残差模块)，其后不带弧度箭头为一个卷积层或逆卷积层。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种结合运动补偿和神经网络算法的递进式视频帧生成方法，其特征在于，包括：

利用已有的视频帧，结合运动算法得到相应的运动矢量，通过运动补偿算法采用内插或外插的方式，来构建基于视频块级别运动信息的先验增强帧，先验增强帧具有连续运动信息并保留了外观细节；其中，内插是指结合给定的相邻前后两帧生成新的视频帧插入至相邻前后两帧之间；外插是指结合给定的前几帧生成新的视频帧插入至前几帧的末尾；

神经网络是一种全局编码器-解码器架构，将先验增强帧以递进式方式输入至神经网络，即将先验增强帧进行重采样分别提供给神经网络中解码器的各个中间层，同时，还将生成先验增强帧时所输入的前后相邻帧或者前几帧输入至神经网络，使神经网络学习整体视频序列的运动轨迹和外观残差，还将先验增强帧和解码器的输出融合到最终生成的视频帧中，最终生成的视频帧插入至输入的前后相邻帧之间，或者输入的前几帧的末尾。

2.根据权利要求1所述的一种结合运动补偿和神经网络算法的递进式视频帧生成方法，其特征在于，

利用目标定位网络将前后背景区分开来，然后在神经网络计算损失函数时，增加前景的损失值的权值。