CN111726623A

CN111726623A - 提升空间可分级编码视频在丢包网络中重建质量的方法

Info

Publication number: CN111726623A
Application number: CN202010456887.0A
Authority: CN
Inventors: 宋利; 虞盛炜; 解蓉; 张文军
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2020-09-29
Anticipated expiration: 2040-05-26
Also published as: CN111726623B

Abstract

本发明提供一种提升空间可分级编码视频在丢包网络中的重建质量的方法，其中：获得初步高分辨率图像，该初步高分辨率图像经过一个CNN网络获取其图像特征；分别提取当前帧的所述初步高分辨率图像和前几帧解码得到的高分辨率图像的运动特征，将所述运动特征与所述初步图像特征进行融合，得到融合特征；将所有融合特征级联，恢复出当前帧高分辨率图像。本发明结合空间分级编码视频的特点，充分利用了当前帧低分辨率图像信息和前几帧存在的高分辨率图像信息，因而能够在增强层丢失处恢复出高质量的高分辨率图像。

Description

提升空间可分级编码视频在丢包网络中重建质量的方法

技术领域

本发明涉及视频重建质量优化领域，具体涉及一种空间分级编码视频重建质量优化技术，尤其涉及一种提升空间可分级编码视频在丢包网络中重建质量的方法。

背景技术

视频流量占互联网总流量的比重越来越大，如何更好地在网络上传输视频内容成了研究的焦点。相较于传统编码的视频，可分级编码的视频在网络上传输时可以更好地适应网络带宽的波动或者克服网络丢包，因为即使部分增强层码流发生丢失，解码端仍能通过解码基本层码流得到基本质量的视频。

可分级编码分为空间分级、时间分级、质量分级等。以最常用的空间分级编码为例，编码得到的码流包括一个基本层码流和若干个增强层码流，其中，基本层码流可以通过解码得到最低分辨率的视频内容，而结合基本层码流和增强层码流，可以依次得到更高分辨率的视频。由于编码复杂度的限制，在实际使用中，往往采用两层结构，即一个基本层和一个增强层。在视频内容传输时，往往对基本层内容的传输添加更强的保护，包括前向保护或者丢包重传等，而对增强层的保护则相对较弱。

对于空间分级编码，如果发生了增强层的丢失，则该帧只能通过解码基本层码流得到一个低分辨率的图像，播放时必须通过超分辨率算法将该帧超分辨率到增强层视频分辨率后才能正常播放。传统超分辨率算法性能不佳，不能准确还原图片中的细节，所以在视频播放时，会因为该帧质量的忽然下降产生严重的视觉伪影。而基于神经网络的图像超分辨率算法或者视频超分辨率算法往往比传统方法性能更好，尤其是视频超分辨率算法，由于其利用了视频的前后帧信息，恢复得到的图像的细节更加丰富。但是，这些超分辨率算法都不是针对可分级编码视频设计的，没有充分利用已经解码得到的前几帧高分辨率图像信息。另外，部分视频超分辨率算法为了提升质量，需要用到后续帧信息，这会引入额外的延迟。

发明内容

针对现有超分辨率算法不能充分利用可分级编码视频信息的问题，本发明提供一种提升空间可分级编码视频在丢包网络中重建质量的方法，该方法通过充分利用解码得到的前几帧高分辨率图像信息和当前帧低分辨率图像信息，能够获得更高质量的当前高分辨率帧。

为实现上述目的，本发明采用以下技术方案：

本发明提供一种提升空间可分级编码视频在丢包网络中重建质量的方法，包括：

S1，获取当前帧的初步高分辨率图像；

S2，将所述初步高分辨率图像经过CNN网络获取初步图像特征；

S3，采用一个CNN网络作为循环网络，分别提取当前帧的所述初步高分辨率图像和前几帧解码得到的高分辨率图像的运动特征，将所述运动特征与所述初步图像特征进行融合，得到融合特征；

S4，将所述循环网络输出的所有融合特征级联，通过一个CNN网络恢复出当前帧高分辨率图像。

上述S1中，空间分级编码视频码流在网络上进行传输时，其增强层允许发生丢失，以适应网络带宽的波动，这些位置的帧只能解码获得低分辨率图像；因此，本发明在解码空间分级编码视频时，如果当前帧增强层丢失，只能解码得到低分辨率图像，则通过一个基于神经网络的图像超分辨率算法得到一个初步高分辨率图像。

上述S3中，所述运动特征是指包含前后帧图像间的运动信息的图像特征，将前后帧图像级联起来，通过一个CNN网络隐式获取。

本发明还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于执行上述的提升空间可分级编码视频在丢包网络中重建质量的方法。

与现有技术相比，本发明实施例具有以下至少一种有益效果：

本发明在增强层丢失的情况下，可以恢复出更高质量的当前帧图像：进一步的，利用基于神经网络的超分辨率算法，结合空间分级编码视频的特点，充分利用了当前帧低分辨率图像信息和前几帧存在的高分辨率图像信息，因而能够在增强层丢失处恢复出高质量的高分辨率图像。

具体地，本发明实施例中，在视频超分辨率测试集Vid4中，本发明实施例恢复出的当前帧的平均PSNR(32.95)比先进的视频超分辨率算法EDVR(27.34)高了5.61dB，平均SSIM(0.952)比EDVR(0.826)高了0.126。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例中方法的处理流程图；

图2为本发明一实施例中的网络模型结构框图；

图3为本发明一实施例中的特征融合模块的结构框图；

图4为本发明一实施例与其他主流超分辨率方案在Vid4测试数据集中City视频序列的视觉质量比较，缩放因子为4x；

图5为本发明一实施例与Bicubic方案在随机丢包和连续丢包场景下的重建视频质量比较，缩放因子为4x。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

本发明在恢复增强层丢失位置的高分辨率帧时，充分利用了解码得到的当前低分辨率帧和之前的高分辨率帧的信息，并且考虑到了实际应用过程中后续帧还未解码不可用的情形，运用多重CNN网络实现比已有超分辨率方法更好的性能。

以下实施例将阐述本发明的技术方案是如何具体实现的，具体方法流程如图1所示：

①利用已有高性能图像超分辨率算法得到一个当前帧初步高分辨率图像。

②利用第一CNN网络获取当前帧的初步图像特征。该第一CNN网络用于提取当前帧的内部特征。

③将前帧高分辨率图像和初步高分辨率图像级联，通过第二CNN网络获取运动特征，并经过特征融合模块将该特征与初步图像特征融合，得到新的初步图像特征。第二CNN网络作为循环网络，包含了运动特征提取和融合网络。

④用再前一帧的高分辨率图像替换前帧高分辨率图像，重复上一步骤到达指定次数。

⑤将所有得到的图像特征通过第三CNN网络恢复出高质量、高分辨率的当前帧图像。所述第三网络为单层网络，用于最终的图像还原。

具体的，为了更好理解上述各个步骤的实现，结合具体实施例对上述方法各步骤进行举例说明，但是并不用于限定本发明。

1.获取初步高分辨率图像：

一旦空间可分级编码的增强层码流发生丢失，则当前帧只能通过解码基本层获取到一个低分辨率图片

在渲染播放之前，需要先将其超分辨率到增强层分辨率下。

在一实施例中，本步骤可采用已有的图像超分辨率技术，如图2所示，实施例中采用了ESPCN图像超分辨率算法。将超分辨率得到的图像记为初步高分辨率图像H_t，即

其中θ_SISR为该超分辨率网络模型参数。

本步骤中，之所以需要先通过一个基于神经网络的图像超分辨率算法获取初步高分辨率图像，是因为后续需要将该帧和前高分辨率帧级联后通过CNN网络获取运动特征，故需两个分辨率相同。而传统超分辨率算法性能不佳，无法得到准确的运动特征。

2.获取当前帧的初步图像特征

利用一个CNN网络获取初步高分辨率图像H_t的初步图像特征，记为

即

其中θ_S为该图像特征提取网络模型参数。

3.提取运动特征并进行特征融合

运动特征是指包含前后帧图像间的运动信息的图像特征，可以将前后帧图像级联起来，通过一个CNN网络隐式获取。当前帧和前帧之间的运动特征

θ_M是指该运动特征提取网络模型参数。

上述的运动特征可以通过特征融合模块与当前帧的特征进行融合。图3所示为一个实施例中的特征融合模块，主要由两个ResBlock组成，整体结构采用了残差的思想。具体地，首先利用初步图像特征和运动特征作差，得到特征残差，利用ResBlock精细化该特征残差，并与初步图像特征相加，得到精细化后的图像特征，最后利用另一个ResBlock再次精细化该图像特征，获得新的初步图像特征，用于输入下一级循环网络。

经过特征融合模块后得到新的初步图像特征即融合特征

θ_F是指该特征融合模块的网络参数。

为了充分利用再前帧的图像信息，需要通过一个单层的CNN网络将特征融合模块得到的新的初步图像特征先恢复成高分辨率帧H_t-1。

本步骤中得到运动特征后，无法直接还原出高质量当前帧，将得到的运动特征与前面得到的初步图像特征一起通过特征融合模块，得到特征融合后的图像特征。

4.循环网络以充分利用更早的高分辨率帧

将上述第3步骤中的CNN网络的输入H_t替换为H_t-1,H_t-2…H_t-n+1，

替换为

可以依次得到融合了更早高分辨率帧信息的特征

5.恢复出高质量高分辨率帧

将上述第4步骤所有得到的图像特征

级联，并通过一个CNN网络恢复出高质量高分辨率帧SR_t，即

θ_R是指该CNN网络的模型参数。

下表总结了在Vid4超分辨率数据集上，本实施例方法与现有超分辨率算法之间的性能对比，缩放因子为4x，其中PSNR和SSIM的数值越高表示性能越好。

表1本实施例方法与已有超分辨率算法的性能对比(PSNR/SSIM)

图4展示了本实施例方法与各已有超分辨率算法在Vid4的City序列上的主观性能对比。上述结果都表明本实施例方法相较于已有超分辨率算法，性能有大幅度提升。

为了验证分方法在实际丢包网络中的性能，首先使用SHVC编码器对HEVC的ClassB标准编码序列(BasketballDrive、BQTerrace、Cactus、Kimono和ParkScene)进行空间分级编码，其中基本层分辨率为480x270，增强层为1920x1080，QP均设为22。对增强层进行模拟随机丢帧，下表显示了在不同增强层丢帧率下本实施例方法与Bicubic的性能对比。

表2本实施例方法与Bicubic在增强层随机丢帧下的性能对比

图5展示了本发明实施例与Bicubic方案在随机丢包和连续丢包场景下的重建视频质量比较，以VMAF为质量评价指标，采用BasketballDrive视频序列。其中，(a)为随机丢包场景下各帧VMAF质量对比，其中第23、24、26帧增强层发生丢失，可以看到本实施例方法得到的重建视频的VMAF值远大于Bicubic方案；(b)为连续丢包场景下各帧VMAF对比，其中第30～37帧增强层发生丢失，可以看到本实施例方法得到的重建视频的VMAF值呈缓慢下降趋势，从而减少丢帧对主观质量的影响。

综上可见，本发明可以充分利用当前帧的低分辨率图像信息和前几帧解码得到(或由本实施例方法生成得到)的高分辨率图像信息，恢复出高质量的当前帧高分辨率图像，从而提升在丢包网络中空间可分级编码视频的整体重建质量。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种提升空间可分级编码视频在丢包网络中重建质量的方法，其特征在于，包括：

S1，获取当前帧的初步高分辨率图像；

S2，将所述初步高分辨率图像经过第一CNN网络获取初步图像特征；

S3，分别提取当前帧的所述初步高分辨率图像和前几帧解码得到的高分辨率图像的运动特征，将所述运动特征与所述初步图像特征进行融合，得到融合特征；

S4，将所述循环网络输出的所有融合特征级联，恢复出当前帧高分辨率图像。

2.根据权利要求1所述的提升空间可分级编码视频在丢包网络中重建质量的方法，其特征在于：所述S1中，解码空间分级编码视频时，如果当前帧增强层丢失，只能解码得到低分辨率图像，则通过一个基于神经网络的图像超分辨率算法得到一个初步高分辨率图像。

3.根据权利要求1所述的提升空间可分级编码视频在丢包网络中重建质量的方法，其特征在于：所述运动特征是指包含前后帧图像间的运动信息的图像特征。

4.根据权利要求3所述的特征融合后的图像特征，其仍未利用更前的高分辨率帧，其特征在于：所述运动特征采用一个循环网络获取。

5.根据权利要求4所述的特征融合后的图像特征，其仍未利用更前的高分辨率帧，其特征在于：所述循环网络为第二CNN网络，所述第二CNN网络用于实现运动特征提取和融合。

6.根据权利要求1所述的提升空间可分级编码视频在丢包网络中重建质量的方法，其特征在于：S3中，将所述运动特征与所述初步图像特征进行融合是通过一个特征融合模块来实现的，其中，所述特征融合模块主要由两个ResBlock组成，整体结构采用残差的思想。

7.根据权利要求1所述的提升空间可分级编码视频在丢包网络中重建质量的方法，其特征在于：S4中，将得到的所有融合特征与所述初步图像特征一起输入到第三CNN网络中，得到高质量高分辨率图像；所述第三网络为单层网络，用于最终的图像还原。

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时可用于执行权利要求1-7任一所述的方法。