CN111464815A

CN111464815A - 一种基于神经网络的视频编码方法及系统

Info

Publication number: CN111464815A
Application number: CN202010305191.8A
Authority: CN
Inventors: 刘�东; 林建平; 李厚强; 吴枫
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2020-07-28
Anticipated expiration: 2040-04-17
Also published as: CN111464815B

Abstract

本发明公开了一种基于神经网络的视频编码方法及系统，方法包括：获取用于训练神经网络的视频数据，构建一个含有多参考帧的神经网络，基于视频数据对含有多参考帧的神经网络进行训练，得到训练好的神经网络，基于训练好的神经网络对视频进行编码。本发明能够基于神经网络，利用多参考帧，有效提升面向低延时场景时，视频编码的性能。

Description

一种基于神经网络的视频编码方法及系统

技术领域

本发明涉及视频编码技术领域，尤其涉及一种基于神经网络的视频编码方法及系统。

背景技术

目前，互联网上大部分的视频都被压缩成H.264或H.265的格式。新的视频编码标准如H.266和AV1正在制定中。尽管新的标准相比H.265在同样的视觉质量下节省了50％的码率，但是这种性能提升也带来了编码复杂度的成倍增加。事实上，所有的传统编码标准都使用了同样的框架。该框架使用了基于运动补偿的预测、基于块的变换和基于人工设计的熵编码器。经过三十多年的不断发展，该框架在压缩效率不断增长的同时，系统复杂度变得越来越高，单个技术的性能变得越来越小，已在一定程度上趋于饱和。

近年来，一系列研究工作试图构建新的基于深度神经网络的视频编码框架。这些工作可以根据不同的应用场景分为两大类。第一类是面向点播应用的随机切入场景。例如，一种基于内插的视频编码方案，该方案包括结合了运动信息编码和图像合成的内插模型以及用于残差编码的自编码器，该方案在PSNR(Peak Signal to Noise Ratio，峰值信噪比)指标下高码率端的编码性能已经超过H.265。第二类面向的是直播应用的低延时场景。例如，一种端到端深度学习视频编码模型，该模型联合优化了运动估计、运动编码、运动补偿、和残差编码等模块，该模型在MS-SSIM指标下的编码性能与H.265相当。但是，这些已有的模型要么面向的是随机切入场景，要么只使用了前面的一个重建帧当作参考帧，无法充分利用视频帧之间的时域相关性。在面向低延时场景时，视频编码的性能较低。

因此，如何进一步有效地提升基于神经网络的视频编码的性能，是一项亟待解决的问题。

发明内容

有鉴于此，本发明提供了一种基于神经网络的视频编码方法，能够基于神经网络，利用多参考帧，有效提升面向低延时场景时，视频编码的性能。

本发明提供了一种基于神经网络的视频编码方法，包括：

获取用于训练神经网络的视频数据；

构建一个含有多参考帧的神经网络；

基于所述视频数据对所述含有多参考帧的神经网络进行训练，得到训练好的神经网络；

基于所述训练好的神经网络对视频进行编码。

优选地，所述构建一个含有多参考帧的神经网络，包括：

构建用于计算当前帧和前一重建帧之间的运动场的运动估计模块；

构建用于从前若干重建运动场预测当前帧对应的运动场的运动预测模块；

构建用于对原始运动场残差进行编码的运动差编码模块，以及用于对原始运动场残差进行解码的运动差解码模块；

构建用于获得重建运动场的运动重建模块；

构建用于获得当前帧的预测的运动补偿模块；

构建用于对原始残差进行编码的残差编码模块，以及用于对原始残差进行解码的残差解码模块；

构建用于获得重建帧的帧重建模块。

优选地，所述构建一个含有多参考帧的神经网络，包括：

构建用于获得重建运动场的运动重建模块；

构建用于改善重建运动场的运动场改善模块；

构建用于获得当前帧的预测的运动补偿模块；

构建用于获得重建帧的帧重建模块。

优选地，所述构建一个含有多参考帧的神经网络，包括：

构建用于获得重建运动场的运动重建模块；

构建用于改善重建运动场的运动场改善模块；

构建用于获得当前帧的预测的运动补偿模块；

构建用于改善重建残差的残差改善模块；

构建用于获得重建帧的帧重建模块。

优选地，所述基于所述视频数据对所述含有多参考帧的神经网络进行训练，得到训练好的神经网络，包括：

基于所述视频数据，采用渐进式训练方法在训练集上训练所述含有多参考帧的神经网络，得到训练好的神经网络。

一种基于神经网络的视频编码系统，包括：

获取单元，用于获取用于训练神经网络的视频数据；

构建单元，用于构建一个含有多参考帧的神经网络；

训练单元，用于基于所述视频数据对所述含有多参考帧的神经网络进行训练，得到训练好的神经网络；

编码单元，用于基于所述训练好的神经网络对视频进行编码。

优选地，所述构建单元具体用于：

构建用于获得重建运动场的运动重建模块；

构建用于获得当前帧的预测的运动补偿模块；

构建用于获得重建帧的帧重建模块。

优选地，所述构建单元具体用于：

构建用于获得重建运动场的运动重建模块；

构建用于改善重建运动场的运动场改善模块；

构建用于获得当前帧的预测的运动补偿模块；

构建用于获得重建帧的帧重建模块。

优选地，所述构建单元具体用于：

构建用于获得重建运动场的运动重建模块；

构建用于改善重建运动场的运动场改善模块；

构建用于获得当前帧的预测的运动补偿模块；

构建用于改善重建残差的残差改善模块；

构建用于获得重建帧的帧重建模块。

优选地，所述训练单元具体用于：

综上所述，本发明公开了一种基于神经网络的视频编码方法，当需要对视频进行编码时，首先获取用于训练神经网络的视频数据，然后构建一个含有多参考帧的神经网络，基于视频数据对含有多参考帧的神经网络进行训练，得到训练好的神经网络，最后基于训练好的神经网络对视频进行编码。本发明能够基于神经网络，利用多参考帧，有效提升面向低延时场景时，视频编码的性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明公开的一种基于神经网络的视频编码方法实施例1的方法流程图；

图2为本发明公开的一种基于神经网络的视频编码方法实施例2的方法流程图；

图3为本发明公开的一种构建含有多参考帧的神经网络的示意图；

图4为本发明公开的一种基于神经网络的视频编码方法实施例3的方法流程图；

图5为本发明公开的另一种构建含有多参考帧的神经网络的示意图；

图6为本发明公开的一种基于神经网络的视频编码方法实施例4的方法流程图；

图7为本发明公开的另一种构建含有多参考帧的神经网络的示意图；

图8为本发明公开的运动预测网络、运动场改善网络、基于多参考帧的运动补偿网络和残差改善网络的示意图；

图9为本发明实施例4进行测试之后的编码结果示意图；

图10为本发明公开的一种基于神经网络的视频编码系统实施例1的结构示意图；

图11为本发明公开的一种基于神经网络的视频编码系统实施例2的结构示意图；

图12为本发明公开的一种基于神经网络的视频编码系统实施例3的结构示意图；

图13为本发明公开的一种基于神经网络的视频编码系统实施例4的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明公开的一种基于神经网络的视频编码方法实施例1的方法流程图，所述方法可以包括以下步骤：

S101、获取用于训练神经网络的视频数据；

当需要对视频进行编码时，首先获取自然视频序列，例如，从互联网上下载自然视频序列，然后把每个自然视频序列裁剪成大小和长度相等，互不重叠的视频子序列。其中，视频子序列的大小和长度灵活，具体可根据实际情况确定。示例性地，可以将每个自然视频序列裁剪成大小为192x192，长度为16帧的多个视频子序列。

S102、构建一个含有多参考帧的神经网络；

然后构建一个含有多参考帧的神经网络。

S103、基于视频数据对含有多参考帧的神经网络进行训练，得到训练好的神经网络；

然后，根据获取到的视频数据对构建的含有多参考帧的神经网络进行训练，得到训练好的神经网络。

S104、基于训练好的神经网络对视频进行编码。

在得到训练好的神经网络后，根据训练好的神经网络对需要进行编码的视频进行编码。

综上所述，在上述实施例中，当需要对视频进行编码时，首先获取用于训练神经网络的视频数据，然后构建一个含有多参考帧的神经网络，基于视频数据对含有多参考帧的神经网络进行训练，得到训练好的神经网络，最后基于训练好的神经网络对视频进行编码。本发明能够基于神经网络，利用多参考帧，有效提升面向低延时场景时，视频编码的性能。

如图2所示，为本发明公开的一种基于神经网络的视频编码方法实施例2的方法流程图，所述方法可以包括以下步骤：

S201、获取用于训练神经网络的视频数据；

S202、构建用于计算当前帧和前一重建帧之间的运动场的运动估计模块；

然后，构建一个含有多参考帧的神经网络。

具体的，首先构建用于计算当前帧和前一重建帧之间的运动场的运动估计模块。如图3所示，将当前帧x_t和参考帧

输入运动估计模块中用于提取原始运动场v_t。示例性地，可以使用基于光流的网络Flownet2.0作为运动估计模块。

S203、构建用于从前若干重建运动场预测当前帧对应的运动场的运动预测模块；

然后，构建用于从前若干重建运动场预测当前帧对应的运动场的运动预测模块。如图3所示，在运动估计之后，用运动预测模块基于前若干重建运动场预测当前帧对应的运动场。其中，重建运动场的使用个数可以根据实际缓存大小来调整。本实施例提出如图8(a1)和(a2)所示的基于多尺度特征对齐的运动场预测网络。示例性地，使用四个尺度以及前面三个重建的运动场，则如图8(a1)所示的运动场多尺度特征提取网络可以表达成：

其中，

代表运动场

在第l个尺度的特征。然后，使用下式将

和

的多尺度特征与

的多尺度特征进行运动对齐：

其中，

和

是

和

在第l个尺度的Warp之后的特征。

和

分别是

和

下采样到第1个尺度的运动场。这里的Warp操作通过基于双线性插值的滤波器实现。然后，

和

的Warp之后的多尺度特征以及

的多尺度特征被输入金字塔网络中由粗到细地预测当前帧的运动场。如图8(a2)所示，第1个尺度的运动场预测

和特征预测

可以通过下式获得：

其中，

和

是从前面第(l+1)个尺度使用双线性插值进行2倍上采样得到的预测值。重复这个预测过程直到第0个尺度，获得最终的运动场预测

最后，用原始运动场v_t减去预测的运动场

得到原始运动场残差d_t。

S204、构建用于对原始运动场残差进行编码的运动差编码模块，以及用于对原始运动场残差进行解码的运动差解码模块；

然后，构建用于对原始运动场残差进行编码的运动差编码模块，以及用于对原始运动场残差进行解码的运动差解码模块。如图3所示，在运动预测之后，使用运动差编码模块和运动差解码模块来编码和解码原始运动场残差d_t。示例性地，可以使用fully-factorized自编码器来编码运动矢量残差。d_t首先被运动差编码模块映射成隐变量m_t，然后量化成

在测试阶段，使用估计的概率分布将

熵编码成码流。然后在解码端使用运动差解码模块将熵解码的

映射成重建的运动场残差

S205、构建用于获得重建运动场的运动重建模块；

然后，构建用于获得重建运动场的运动重建模块。如图3所示，在运动差编码和解码之后，将重建的运动场残差

与预测的运动场

相加，得到最终的重建运动场

然后将

加入已重建的运动场缓存中用于编码后续的视频帧。

S206、构建用于获得当前帧的预测的运动补偿模块；

然后，构建用于获得当前帧的预测的运动补偿模块。如图3所示，在运动重建之后，使用基于多参考帧的运动补偿模块来获取当前帧的预测

示例性地，使用前面四个参考帧，具体的参考帧使用个数可以根据实际缓存大小来确定。首先，分别使用一个两层的CNN来提取每个参考帧的特征。然后，使用下式将参考帧

以及提取的参考帧特征Warp到当前帧：

其中，

是

的Warp之后的特征。然后，如图8(b)所示，将Warp之后的特征和图像输入运动补偿模块中获取当前帧的预测：

其中，H_mc代表运动补偿模块的函数。最后，用当前帧的原始值x_t减去当前帧的预测值

的得到原始残差r_t。

S207、构建用于对原始残差进行编码的残差编码模块，以及用于对原始残差进行解码的残差解码模块；

然后，构建用于对原始残差进行编码的残差编码模块，以及用于对原始残差进行解码的残差解码模块。如图3所示，运动补偿之后，使用残差编码和残差解码模块，对原始残差r_t进行编码和解码。示例性地，可以使用基于hyper-prior的自编码器来编码原始残差。r_t首先被残差编码模块映射成隐变量yt，然后量化成

在测试阶段，使用估计的概率分布将

熵编码成码流。然后在解码端使用残差解码模块将熵解码的

映射成重建的残差

S208、构建用于获得重建帧的帧重建模块；

最后，构建用于获得重建帧的帧重建模块。如图3所示，在残差编码和解码之后，将重建的残差

与当前帧的预测

相加，得到最终的重建帧

然后将

加入已重建的视频帧缓存中用于编码后续的视频帧。

S209、基于视频数据，采用渐进式训练方法在训练集上训练含有多参考帧的神经网络，得到训练好的神经网络；

然后，基于视频数据，采用渐进式训练方法在训练集上训练含有多参考帧的神经网络。具体的：

首先在神经网络中仅保留运动估计模块和运动补偿模块，其中运动估计模块使用训练好的光流网络(例如Flownet2.0)的参数进行初始化并保持固定，只训练运动补偿模块。训练损失函数是：

其中，

表示当前帧的原始值x_t和当前帧的预测值

之间的失真。示例性地，可以使用均方误差(MSE)作为失真度量。

然后，加入运动差编码模块、运动差解码模块、残差编码模块和残差解码模块，同时固定运动估计模块和运动补偿模块的参数，只训练新加入的运动差编码模块、运动差解码模块、残差编码模块和残差解码模块，训练损失函数是：

其中，

表示当前帧的原始值x_t和当前帧的重建值

之间的失真。示例性地，可以使用均方误差(MSE)作为失真度量。R_mvd和R_res分别表示用于编码原始运动场残差d_t和原始残差r_t的码率。注意，由于这里还没有运动预测模块，原始的运动场残差d_t就等于原始的运动场v_t。在训练阶段，这两个码率由对应的隐变量

和

的熵估计得到。示例性地，可以分别使用基于fully-factorized和hyper-prior的熵模型估计

和

的概率分布进而得到对应的熵。

和

的量化操作在训练阶段通过添加均匀噪声来模拟。

然后，联合微调上面的运动估计模块、运动补偿模块、运动差编码模块、运动差解码模块、残差编码模块和残差解码模块。

然后，加入运动预测模块，同时固定之前模块的参数，只训练新加入的运动预测模块，训练损失函数是：

然后，联合微调所有的模块。

在训练阶段，使用IPPP...的编码结构，并且所有的P帧使用同一个模型进行编码。另外，使用不同的λ值训练多个不同码率点的模型。

S210、基于训练好的神经网络对视频进行编码。

在得到训练好的神经网络后，在测试阶段，使用训练好的神经网络对视频进行编码，视频的大小和长度任意。编码结构也可以根据实际情况灵活选取。示例性地，可以选择IPPP...的编码结构或者IPPP...I的编码结构，其中P帧使用同一个模型进行编码并且P帧个数根据实际情况决定，I帧编码可以使用传统编解码器，如H.265，或者基于神经网络的图像编解码器。

如图4所示，为本发明公开的一种基于神经网络的视频编码方法实施例3的方法流程图，所述方法可以包括以下步骤：

S401、获取用于训练神经网络的视频数据；

S402、构建用于计算当前帧和前一重建帧之间的运动场的运动估计模块；

然后，构建一个含有多参考帧的神经网络。

具体的，首先构建用于计算当前帧和前一重建帧之间的运动场的运动估计模块。如图5所示，将当前帧x_t和参考帧

S403、构建用于从前若干重建运动场预测当前帧对应的运动场的运动预测模块；

然后，构建用于从前若干重建运动场预测当前帧对应的运动场的运动预测模块。如图5所示，在运动估计之后，用运动预测模块基于前若干重建运动场预测当前帧对应的运动场。其中，重建运动场的使用个数可以根据实际缓存大小来调整。本实施例提出如图8(a1)和(a2)所示的基于多尺度特征对齐的运动场预测网络。示例性地，使用四个尺度以及前面三个重建的运动场，则如图8(a1)所示的运动场多尺度特征提取网络可以表达成：

其中，

代表运动场

在第l个尺度的特征。然后，使用下式将

和

的多尺度特征与

的多尺度特征进行运动对齐：

其中，

和

是

和

在第l个尺度的Warp之后的特征。

和

分别是

和

下采样到第l个尺度的运动场。这里的Warp操作通过基于双线性插值的滤波器实现。然后，

和

的Warp之后的多尺度特征以及

的多尺度特征被输入金字塔网络中由粗到细地预测当前帧的运动场。如图8(a2)所示，第l个尺度的运动场预测

和特征预测

可以通过下式获得：

其中，

和

最后，用原始运动场v_t减去预测的运动场

得到原始运动场残差d_t。

S404、构建用于对原始运动场残差进行编码的运动差编码模块，以及用于对原始运动场残差进行解码的运动差解码模块；

然后，构建用于对原始运动场残差进行编码的运动差编码模块，以及用于对原始运动场残差进行解码的运动差解码模块。如图5所示，在运动预测之后，使用运动差编码模块和运动差解码模块来编码和解码原始运动场残差d_t。示例性地，可以使用fully-factorized自编码器来编码运动矢量残差。d_t首先被运动差编码模块映射成隐变量m_t，然后量化成

在测试阶段，使用估计的概率分布将

映射成重建的运动场残差

S405、构建用于获得重建运动场的运动重建模块；

然后，构建用于获得重建运动场的运动重建模块。如图5所示，在运动差编码和解码之后，将重建的运动场残差

与预测的运动场

相加，得到重建的运动场

S406、构建用于改善重建运动场的运动场改善模块；

然后，构建用于改善重建运动场的运动场改善模块。如图5所示，在运动重建之后，使用运动场改善模块提升重建运动场

的质量。示例性地，使用前面三个重建的运动场

和参考帧

作为网络的输入。首先，使用一个两层的CNN来分别提取

和

的特征。然后，使用下式将

和

的特征Warp到

其中，

是

的Warp之后的特征。然后，如图8(c)所示，将Warp之后的特征以及

和

的特征输入运动场改善网络中获取改善后的运动场：

其中，H_mvr代表运动场改善模块的函数。最后，将

加入已重建的运动场缓存中用于编码后续的视频帧。

S407、构建用于获得当前帧的预测的运动补偿模块；

然后，构建用于获得当前帧的预测的运动补偿模块。如图5所示，在运动重建之后，使用基于多参考帧的运动补偿模块来获取当前帧的预测

以及提取的参考帧特征Warp到当前帧：

其中，

是

其中，H_mc代表运动补偿模块的函数。最后，用当前帧的原始值x_t减去当前帧的预测任

的得到原始残差r_t。

S408、构建用于对原始残差进行编码的残差编码模块，以及用于对原始残差进行解码的残差解码模块；

然后，构建用于对原始残差进行编码的残差编码模块，以及用于对原始残差进行解码的残差解码模块。如图5所示，运动补偿之后，使用残差编码和残差解码模块，对原始残差r_t进行编码和解码。示例性地，可以使用基于hyper-prior的自编码器来编码原始残差。r_t首先被残差编码模块映射成隐变量yt，然后量化成

在测试阶段，使用估计的概率分布将

熵编码成码流。然后在解码端使用残差解码模块将熵解码的

映射成重建的残差

S409、构建用于获得重建帧的帧重建模块；

最后，构建用于获得重建帧的帧重建模块。如图5所示，在残差编码和解码之后，将重建的残差

与当前帧的预测

相加，得到最终的重建帧

然后将

加入已重建的视频帧缓存中用于编码后续的视频帧。

S410、基于视频数据，采用渐进式训练方法在训练集上训练含有多参考帧的神经网络，得到训练好的神经网络；

其中，

表示当前帧的原始值x_t和当前帧的预测值

其中，

表示当前帧的原始值x_t和当前帧的重建值

和

和

的概率分布进而得到对应的熵。

和

的量化操作在训练阶段通过添加均匀噪声来模拟。

然后，联合微调上述所有的模块。

然后，加入运动场改善模块，同时固定之前模块的参数，只训练新加入的运动场改善模块，训练损失函数是：

然后，联合微调上述所有的模块。

在训练阶段，使用IPPP...的编码结构，并且所有的P帧使用同一个模型进行编码。另外，使用不同的入值训练多个不同码率点的模型。

S411、基于训练好的神经网络对视频进行编码。

如图6所示，为本发明公开的一种基于神经网络的视频编码方法实施例4的方法流程图，所述方法可以包括以下步骤：

S601、获取用于训练神经网络的视频数据；

S602、构建用于计算当前帧和前一重建帧之间的运动场的运动估计模块；

然后，构建一个含有多参考帧的神经网络。

具体的，首先构建用于计算当前帧和前一重建帧之间的运动场的运动估计模块。如图7所示，将当前帧x_t和参考帧

S603、构建用于从前若干重建运动场预测当前帧对应的运动场的运动预测模块；

然后，构建用于从前若干重建运动场预测当前帧对应的运动场的运动预测模块。如图7所示，在运动估计之后，用运动预测模块基于前若干重建运动场预测当前帧对应的运动场。其中，重建运动场的使用个数可以根据实际缓存大小来调整。本实施例提出如图8(a1)和(a2)所示的基于多尺度特征对齐的运动场预测网络。示例性地，使用四个尺度以及前面三个重建的运动场，则如图8(a1)所示的运动场多尺度特征提取网络可以表达成：

其中，

代表运动场

在第l个尺度的特征。然后，使用下式将

和

的多尺度特征与

的多尺度特征进行运动对齐：

其中，

和

是

和

在第l个尺度的Warp之后的特征。

和

分别是

和

和

的Warp之后的多尺度特征以及

和特征预测

可以通过下式获得：

其中，

和

最后，用原始运动场v_t减去预测的运动场

得到原始运动场残差d_t。

S604、构建用于对原始运动场残差进行编码的运动差编码模块，以及用于对原始运动场残差进行解码的运动差解码模块；

然后，构建用于对原始运动场残差进行编码的运动差编码模块，以及用于对原始运动场残差进行解码的运动差解码模块。如图7所示，在运动预测之后，使用运动差编码模块和运动差解码模块来编码和解码原始运动场残差d_t。示例性地，可以使用fully-factorized自编码器来编码运动矢量残差。d_t首先被运动差编码模块映射成隐变量m_t，然后量化成

在测试阶段，使用估计的概率分布将

映射成重建的运动场残差

S605、构建用于获得重建运动场的运动重建模块；

然后，构建用于获得重建运动场的运动重建模块。如图7所示，在运动差编码和解码之后，将重建的运动场残差

与预测的运动场

相加，得到重建的运动场

S606、构建用于改善重建运动场的运动场改善模块；

然后，构建用于改善重建运动场的运动场改善模块。如图7所示，在运动重建之后，使用运动场改善模块提升重建运动场

的质量。示例性地，使用前面三个重建的运动场

和参考帧

作为网络的输入。首先，使用一个两层的CNN来分别提取

和

的特征。然后，使用下式将

和

的特征Warp到

其中，

是

和

的特征输入运动场改善网络中获取改善后的运动场：

其中，H_mvr代表运动场改善模块的函数。最后，将

加入已重建的运动场缓存中用于编码后续的视频帧。

S607、构建用于获得当前帧的预测的运动补偿模块；

然后，构建用于获得当前帧的预测的运动补偿模块。如图7所示，在运动重建之后，使用基于多参考帧的运动补偿模块来获取当前帧的预测

以及提取的参考帧特征Warp到当前帧：

其中，

是

的得到原始残差r_t。

S608、构建用于对原始残差进行编码的残差编码模块，以及用于对原始残差进行解码的残差解码模块；

然后，构建用于对原始残差进行编码的残差编码模块，以及用于对原始残差进行解码的残差解码模块。如图7所示，运动补偿之后，使用残差编码、解码模块，对原始残差r_t进行编码和解码。示例性地，可以使用基于hyper-prior的自编码器来编码原始残差。r_t首先被残差编码模块映射成隐变量yt，然后量化成

在测试阶段，使用估计的概率分布将

熵编码成码流。然后在解码端使用残差解码模块将熵解码的

映射成重建残差

S609、构建用于改善重建残差的残差改善模块；

然后，构建用于改善重建残差的残差改善模块。如图7所示，在残差编码和解码之后，使用残差改善模块提升重建残差

的质量。示例性地，使用前面四个参考帧以及当前帧的预测来改善残差。首先，分别使用一个两层的CNN来提取每个参考帧、当前帧的预测

以及已重建的残差

的特征。然后，使用上述实施例中(*)式定义的操作将提取的参考帧特征Warp到当前帧。最后，如图8(d)所示，将Warp之后的特征以及

和

的特征输入残差改善网络中获取改善后的残差：

其中，H_resr代表残差改善网络的函数。

S610、构建用于获得重建帧的帧重建模块；

最后，构建用于获得重建帧的帧重建模块。如图7所示，在残差改善之后，将改善后的残差

与当前帧的预测

相加，得到最终的重建帧

然后将

加入已重建的视频帧缓存中用于编码后续的视频帧。

S611、基于视频数据，采用渐进式训练方法在训练集上训练含有多参考帧的神经网络，得到训练好的神经网络；

其中，

表示当前帧的原始值x_t和当前帧的预测值之间的失真。示例性地，可以使用均方误差(MSE)作为失真度量。

其中，

表示当前帧的原始值x_t和当前帧的重建值

和

和

的概率分布进而得到对应的熵。

和

的量化操作在训练阶段通过添加均匀噪声来模拟。

然后，联合微调上述所有的模块。

然后，联合微调上述所有的模块。

然后，加入残差改善模块，同时固定之前模块的参数，只训练新加入的残差改善模块，训练损失函数是：

然后，联合微调上述所有的模块。

S612、基于训练好的神经网络对视频进行编码。

为了说明本发明的性能，下面进一步对实施例4进行了相关测试。

测试条件：1)实施细节：使用IPPP…的编码结构并且所有的P帧使用同一个网络进行压缩。使用四个不同的λ值(16，24，40，64)训练得到的多个码率点的模型。2)测试序列：包括HEVC标准测试序列的ClassB中的五个视频。3)评价指标：PSNR和MS-SSIM用于衡量重建视频的质量，每个像素的平均比特数(Bpp)用于衡量编码码率。

图9展示了本发明实施例4方案(Proposed标识)、现有的基于神经网络的视频编码方案(DVC标识)和传统视频编解码器(H.264和H.265标识)在HEVC的ClassB数据集上的编码结果。其中，H.264和H.265使用VeryFast模式进行编码。可以看出，本发明实施例4方案的编码性能远远超过基于神经网络的方案DVC。具体地，本发明实施例4方案在0.266bpp的编码码率下，PSNR比DVC高约1.2dB。当和H.264和H.265比较时，本发明实施例4方案在PSNR和MS-SSIM上都取得了更优的编码性能。值得注意的是，图9是本发明实施例4方案针对MSE训练的得到的结果，但是在MS-SSIM上也有很好的编码表现。

最后用一块NVIDIATitanXp GPU测试本发明实施例4方案的模型运行速度。对于一个320x256的视频序列，平均编码速度为2.7fps，平均解码速度为5.9fps。

综上所述，本发明能够基于神经网络，利用多参考帧，有效提升面向低延时场景时，视频编码的性能。

如图10所示，为本发明公开的一种基于神经网络的视频编码系统实施例1的结构示意图，所述系统可以包括：

获取单元1001，用于获取用于训练神经网络的视频数据；

构建单元1002，用于构建一个含有多参考帧的神经网络；

训练单元1003，用于基于视频数据对含有多参考帧的神经网络进行训练，得到训练好的神经网络；

编码单元1004，用于基于训练好的神经网络对视频进行编码。

本实施例公开的基于神经网络的视频编码系统的工作原理与上述基于神经网络的视频编码方法实施例1的原理相同，在此不再赘述。

如图11所示，为本发明公开的一种基于神经网络的视频编码系统实施例2的结构示意图，所述系统可以包括：

获取单元1101，用于获取用于训练神经网络的视频数据；

构建单元1102，构建用于计算当前帧和前一重建帧之间的运动场的运动估计模块，构建用于从前若干重建运动场预测当前帧对应的运动场的运动预测模块，构建用于对原始运动场残差进行编码的运动差编码模块，以及用于对原始运动场残差进行解码的运动差解码模块，构建用于获得重建运动场的运动重建模块，构建用于获得当前帧的预测的运动补偿模块，构建用于对原始残差进行编码的残差编码模块，以及用于对原始残差进行解码的残差解码模块，构建用于获得重建帧的帧重建模块；

训练单元1103，用于基于视频数据，采用渐进式训练方法在训练集上训练所述含有多参考帧的神经网络，得到训练好的神经网络；

编码单元1104，用于基于训练好的神经网络对视频进行编码。

本实施例公开的基于神经网络的视频编码系统的工作原理与上述基于神经网络的视频编码方法实施例2的原理相同，在此不再赘述。

如图12所示，为本发明公开的一种基于神经网络的视频编码系统实施例3的结构示意图，所述系统可以包括：

获取单元1201，用于获取用于训练神经网络的视频数据；

构建单元1202，构建用于计算当前帧和前一重建帧之间的运动场的运动估计模块，构建用于从前若干重建运动场预测当前帧对应的运动场的运动预测模块，构建用于对原始运动场残差进行编码的运动差编码模块，以及用于对原始运动场残差进行解码的运动差解码模块，构建用于获得重建运动场的运动重建模块，构建用于改善重建运动场的运动场改善模块，构建用于获得当前帧的预测的运动补偿模块，构建用于对原始残差进行编码的残差编码模块，以及用于对原始残差进行解码的残差解码模块，构建用于获得重建帧的帧重建模块；

训练单元1203，用于基于视频数据，采用渐进式训练方法在训练集上训练所述含有多参考帧的神经网络，得到训练好的神经网络；

编码单元1204，用于基于训练好的神经网络对视频进行编码。

本实施例公开的基于神经网络的视频编码系统的工作原理与上述基于神经网络的视频编码方法实施例3的原理相同，在此不再赘述。

如图13所示，为本发明公开的一种基于神经网络的视频编码系统实施例4的结构示意图，所述系统可以包括：

获取单元1301，用于获取用于训练神经网络的视频数据；

构建单元1302，构建用于计算当前帧和前一重建帧之间的运动场的运动估计模块，构建用于从前若干重建运动场预测当前帧对应的运动场的运动预测模块，构建用于对原始运动场残差进行编码的运动差编码模块，以及用于对原始运动场残差进行解码的运动差解码模块，构建用于获得重建运动场的运动重建模块，构建用于改善重建运动场的运动场改善模块，构建用于获得当前帧的预测的运动补偿模块，构建用于对原始残差进行编码的残差编码模块，以及用于对原始残差进行解码的残差解码模块，构建用于改善重建残差的残差改善模块，构建用于获得重建帧的帧重建模块；

训练单元1303，用于基于视频数据，采用渐进式训练方法在训练集上训练所述含有多参考帧的神经网络，得到训练好的神经网络；

编码单元1304，用于基于训练好的神经网络对视频进行编码。

本实施例公开的基于神经网络的视频编码系统的工作原理与上述基于神经网络的视频编码方法实施例4的原理相同，在此不再赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于神经网络的视频编码方法，其特征在于，包括：

获取用于训练神经网络的视频数据；

构建一个含有多参考帧的神经网络；

基于所述训练好的神经网络对视频进行编码。

2.根据权利要求1所述的方法，其特征在于，所述构建一个含有多参考帧的神经网络，包括：

构建用于获得重建运动场的运动重建模块；

构建用于获得当前帧的预测的运动补偿模块；

构建用于获得重建帧的帧重建模块。

3.根据权利要求1所述的方法，其特征在于，所述构建一个含有多参考帧的神经网络，包括：

构建用于获得重建运动场的运动重建模块；

构建用于改善重建运动场的运动场改善模块；

构建用于获得当前帧的预测的运动补偿模块；

构建用于获得重建帧的帧重建模块。

4.根据权利要求1所述的方法，其特征在于，所述构建一个含有多参考帧的神经网络，包括：

构建用于获得重建运动场的运动重建模块；

构建用于改善重建运动场的运动场改善模块；

构建用于获得当前帧的预测的运动补偿模块；

构建用于改善重建残差的残差改善模块；

构建用于获得重建帧的帧重建模块。

5.根据权利要求1所述的方法，其特征在于，所述基于所述视频数据对所述含有多参考帧的神经网络进行训练，得到训练好的神经网络，包括：

6.一种基于神经网络的视频编码系统，其特征在于，包括：

获取单元，用于获取用于训练神经网络的视频数据；

构建单元，用于构建一个含有多参考帧的神经网络；

7.根据权利要求6所述的系统，其特征在于，所述构建单元具体用于：

构建用于获得重建运动场的运动重建模块；

构建用于获得当前帧的预测的运动补偿模块；

构建用于获得重建帧的帧重建模块。

8.根据权利要求6所述的系统，其特征在于，所述构建单元具体用于：

构建用于获得重建运动场的运动重建模块；

构建用于改善重建运动场的运动场改善模块；

构建用于获得当前帧的预测的运动补偿模块；

构建用于获得重建帧的帧重建模块。

9.根据权利要求6所述的系统，其特征在于，所述构建单元具体用于：

构建用于获得重建运动场的运动重建模块；

构建用于改善重建运动场的运动场改善模块；

构建用于获得当前帧的预测的运动补偿模块；

构建用于改善重建残差的残差改善模块；

构建用于获得重建帧的帧重建模块。

10.根据权利要求6所述的系统，其特征在于，所述训练单元具体用于：