CN112616014B

CN112616014B - 一种基于gan的全景视频自适应流传输方法

Info

Publication number: CN112616014B
Application number: CN202011450489.4A
Authority: CN
Inventors: 兰诚栋; 缪辰启; 宋彩霞; 罗铖; 赵铁松
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2022-03-15
Anticipated expiration: 2040-12-09
Also published as: CN112616014A

Abstract

本发明涉及一种基于GAN的全景视频自适应流传输方法，首先构建时域相似性图，通过GAN网络进行时域相似性的提取，以生成潜码代替部分视频帧传输，并在提取网络的训练过程中考虑重建质量与潜码的码率之间的权衡，同时引入了码率自适应控制机制，根据当前网络情况来进行潜码码率的调整，以提高带宽利用率。在编码器端，使用卷积网络提取偶数视频帧的潜码作为辅助信息，并构建模型的码率与重建质量联合代价函数。在解码器端，GAN的生成器将奇数视频帧与偶数视频帧的潜码结合起来以重构偶数视频帧。本发明采用GAN提取的潜码替代偶数视频帧在网络中进行传输，实现更好的率失真性能，并且码率控制机制能够有效的匹配复杂多变的网络带宽，提升了带宽使用率。

Description

一种基于GAN的全景视频自适应流传输方法

技术领域

本发明涉及视频压缩和全景视频传输领域，具体涉及一种基于GAN的全景视频自适应流传输方法。

背景技术

近年来，全景视频因在观看时可以为用户提供对观测视角的主动调节和切换，具有很强的沉浸感和交互性，为此受到了公众越来越多的关注。但全景视频拥有的巨大数据量，通常全景视频的分辨率8K或者更高，以确保向用户显示的内

容质量良好。而其传输的带宽需求约为100Mbps，现有移动网络的承载能力难以支持全景视频的实时传输。

全景视频是由多组摄像机进行拍摄、拼接生成的球形视频，相较于传统视频具有更高的分辨率，超高的分辨率对网络带宽带来了巨大的挑战，同时球形视频并不能使用传统平面视频编码的进行压缩，为此需要一套适应全景视频传输的系统。当下，由于缺乏能够对球形视频进行编码的标准，主流的做法是将全景视频投影到二维平面，利用相对成熟的平面视频编码标准进行压缩。

总的来说，在服务器端，全景视频传输系统先将全景视频投影成平面视频，利用HEVC等编码标准进行编码。在客户端先进行解码，然后将视频反投影为全景视频进行播放。在客户端与服务器之间，将使用DASH协议进行码率控制，实时调整传输视频的码率，保证播放流畅性。

发明内容

有鉴于此，本发明的目的在于提供一种基于GAN的全景视频自适应流传输方法，在GAN生成网络模型的基础上，增加编码网络提取潜码，构建码率与重建失真联合约束的代价函数，确定最优的辅助信息数据，并结合时域帧之间的相似性，进一步提高重建质量。

为实现上述目的，本发明采用如下技术方案：

一种基于GAN的全景视频自适应流传输方法，包括以下步骤：

步骤S1:构建时域相似性图；

步骤S2:构建一个包含编码网络E,生成网络G和判别网络D的总体网络；

步骤S3构建生成网络G的码率与重建质量联合代价函数；

步骤S4:将得到的时域相似性图输入网络，进行模型训练，得到训练后的总体网络；

步骤S5:在编码器端，压缩奇数帧，并提取偶数视频帧的潜码作为辅助信息，使用Mpeg-DASH协议组合潜码与压缩后的奇数帧视频，并进行动态自适应传输；

步骤S6:在解码器端，GAN的生成器将奇数视频帧与偶数视频帧的潜码结合起来以重构偶数视频帧。

进一步的，所述步骤S1具体为：将视频均匀分块为tile，再将tiles进行横向条状切割，最后将相同位置的条块图按照帧序进行组合生成时域相似性图TSI；

TSI矩阵为：

式中，m既是TSI图像的序列号，也是原始全景视频tiles的行序，K表示tiles帧的数量，T代表矩阵转置，I表示原始图像，i则代表全景视频时域上的帧序号；

矩阵A_m的大小等于图像大小，该矩阵仅第m行第m列为1，其余元素均为0，表示如下：

矩阵B_i的大小等于图像大小，该矩阵仅第i行第m列为1，其余元素均为0，表示如下：

进一步的，所述步骤S5具体为：

步骤S51:将全景视频中奇数帧构成的视频用H.265标准压缩；

步骤S52：将构建的TSI，输入到训练完成的编码网络E中，生成偶数帧的潜码；

步骤S53：使用Mpeg-DASH协议组合潜码与压缩后的奇数帧视频，并进行动态自适应传输。

进一步的，所述步骤S6具体为：

步骤S61:依据Mpeg-DASH协议解析接收并解析潜码与压缩后的奇数帧视频；

步骤S62:对奇数视频帧进行解码，并生成奇数帧TSI；

步骤S63:将奇数帧TSI和潜码输入进生成网络G中，重建生成完整TSI；

步骤S64:完整的TSI将重建为tile，并拼接为原始尺寸的完整全景视频进行渲染播放。

进一步的，所述E，G，D三个网络模型具体如下：将原始TSI的偶数帧部分作为编码网络E的输入，输出原始TSI偶数帧部分的潜码；将E网络输出的TSI偶数帧部分的潜码以及奇数帧作为G网络的输入，由G网络生成重建的TSI偶数帧部分图像。对于D网络，当D网络的输入是原始TSI和TSI偶数帧部分潜码时，D网络的输出是1；当D网络的输入是G网络的输出和TSI偶数帧部分潜码时，输出0。

进一步的，所述生成网络模型G的码率与重建质量联合代价函数具体为：

其中，x表示原始全景图像，w表示潜码，

表示重建的全景图像，

表示量化后的潜码，D(x,w)表示使用GAN网络鉴别器来鉴别x,w是否为原始图像和潜码，d(m,n)表示对图像m,n进行比较以确定重建质量,G(w)表示依据潜码用生成网络重建图像过程，q(w)表示对潜码w进行量化操作，E(x)表示将图像x输入编码网络E进行潜码的提取，H(w)表示对潜码w进行求熵，α和β为常量。

进一步的，所述代价函数中的重建质量约束项，具体如下，

d(x,G(q(E(x))))＝l_MSE+l_VGG (5)

其中l_MSE的计算公式为：

其中l_VGG的计算公式为：

式中，l_MSE代表基于MSE的像素级损失，l_VGG代表基于VGG的特征级损失，W,H代表图像的宽和高，x_i,j代表i、j位置上的原始像素点，

代表i、j位置上的重建像素点，φ代表VGG网络提取特征图的操作。

进一步的，所述代价函数中的码率约束项，具体为：

H(q(E(x)))＝H(q(w)) (8)

式(8)中的量化操作q使用可微分软量化公式计算，具体如下：

其中L代表量化级，w_i代表量化操作后的第i个潜码，c_j代表第j个量化电平；式(8)中的计算编码平均比特数操作H通过熵测量，具体如下：

其中概率p_cj用统计离散的值表示，具体如下：

其中N为潜码的长度，F_cj表示的是量化级c_j的出现的次数，F_cj

具体如下：

进一步的，所述量化级L设定，具体为：

其中，a，b为常量，K为每组TSI的所包含的帧数目，n表示每个列块的宽度，R_Currtile表示当前tile的目标码率，其可以表示为：

其中，R_tar表示当前时刻带宽，R_coded表示已经进行编码的tile的码率，tile_Curr表示当前待编码tile的权重，对于每个tile会给其分配权重，按照是否在视口内来表示，其方法如下：

本发明与现有技术相比具有以下有益效果：

本发明能够有效提取时域帧间的相似性，有效减少帧间冗余信息，生成的潜码能够代替视频帧在网络中传输，实现了更高的率失真性能，并且所提出的码率控制方法，能够对潜码码率进行自适应调节，实现了更高的带宽使用率。本发明提出的视频传输算法可应用于视频编码、全景视频自适应传输等多个领域。

附图说明

图1为本发明实施例中编码网络E、生成网络G、鉴别网络D网络训练过程示意图；

图2为本发明实施例中服务器端工作流程的示意图；

图3为本发明实施例中客户端工程流程示意图；

图4为本发明实施例中时域相似性图(TSI)构建过程的示意图；

图5为本发明实施例的方法与其他方法客观比较的RD曲线图，其中OMAF表示的是当下主流全景传输标准，SCP表示的是基于共享视频帧的全景视频视口传输方法，LVAS表示的是本文方法；

图6为本发明实施例的方法与其他方法客观比较的码率控制柱状图，其中OMAF表示的是当下主流全景传输标准，SCP表示的是基于共享视频帧的全景视频视口传输方法，LVAS表示的是本文方法；

图7为本发明实施例的方法进行消融实验主观比较的效果图；其中对于每三张相同内容的图片，从左到右依次是：原图、有编码网络E重建图，无编码网络E重建图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图1，本发明提供基于GAN的全景视频自适应流传输方法，包括以下步骤：

训练模型阶段，如图1所示

步骤S1:构建时域相似性图(Temporal Similarity Images，TSI)，将视频均匀分块为tile，再将tiles进行横向条状切割，最后将相同位置的条块图按照帧序进行组生成TSI：

步骤S3构建生成网络G的码率与重建质量联合代价函数；

使用模型阶段:

步骤S5,参考图2，在编码器端，压缩奇数帧，并提取偶数视频帧的潜码作为辅助信息，使用Mpeg-DASH协议组合潜码与压缩后的奇数帧视频，并进行动态自适应传输；

具体为：

步骤S51:将全景视频中奇数帧构成的视频用H.265标准压缩；

步骤S6:参考图3，在解码器端，GAN的生成器将奇数视频帧与偶数视频帧的潜码结合起来以重构偶数视频帧，具体为：

步骤S62:对奇数视频帧进行解码，并生成奇数帧TSI；

在本实施例中，步骤S1具体为：将全景视频tile转化为TSI图像：首先将每个的帧图像每8行组成行块，转置后形成列块，然后将相同位置但不同帧的列块按帧序拼接在一起，得到TSI。TSI的构建过程如图4所示，

TSI矩阵为：

在本实施例中，所述E，G，D三个网络模型具体如下：将原始TSI的偶数帧部分作为编码网络E的输入，输出原始TSI偶数帧部分的潜码；将E网络输出的TSI偶数帧部分的潜码以及奇数帧作为G网络的输入，由G网络生成重建的TSI偶数帧部分图像。对于D网络，当D网络的输入是原始TSI和TSI偶数帧部分潜码时，D网络的输出是1；当D网络的输入是G网络的输出和TSI偶数帧部分潜码时，输出0。

优选的，所述生成网络模型G的码率与重建质量联合代价函数具体为：

第一项表示D网络用于区分真实图像，第二项表示G网络用于生成近似原始样本数据集分布的图像，第三项α[d(x,G(q(E(X))))]为重建质量约束项，第四项βH(q(E(X)))为码率约束项。

其中，x表示原始全景图像，w表示潜码，

表示重建的全景图像，

优选的，在本实施例中，代价函数中的重建质量约束项，具体如下，

d(x,G(q(E(x))))＝l_MSE+l_VGG (5)

其中l_MSE的计算公式为：

其中l_VGG的计算公式为：

优选的，在本实施例中，代价函数中的码率约束项，具体为：

H(q(E(x)))＝H(q(w)) (8)

式(8)中的量化操作q使用可微分软量化公式计算，具体如下：

其中概率p_cj用统计离散的值表示，具体如下：

其中N为潜码的长度，

表示的是量化级c_j的出现的次数，

具体如下：

优选的，式(9)中使用L量化级对编码网络生成的潜码进行量化，构建了当前带宽与量化级之间的模型，以进行码率控制，实现码率动态分配，提高带宽的使用率，具体方法如下：

实施例1：

为了验证本实施例中提出算法的有效性，在具有3.60GHz主频的英特尔i7CPU以及NvidiaGeForceRTX2080Ti平台进行训练和测试，使用Matlab和Python语言实现了基于GAN的全景视频自适应流传输方法，并使用了来自AerialCity，DrivingInCity，DrivingInCountry，Canolafield,Highway和Natatorium的六个来自JVET和VAS的8K和4K的全景视频测试序列进行大量实验，训练数据集设置如表1所示。为了验证本发明提出的基于GAN的全景视频自适应流传输方法可行性，本发明将其与当下主流全景传输标准(OMAF)和基于共享视频帧的全景视频视口传输(SCP)进行比较，设置了两个实验。

表1训练数据集设置

在训练模型阶段，首先将每个全景视频序列通过ffmepg对视频进行tile分割成视频块，再利用Matlab代码转成时域相似性图TSI，其中TSI中每帧对应的宽度为8。然后基于Python语言构建好E,G,D三个网络模型，具体网络结构图3所示，并构建模型的码率与重建质量联合代价函数，如式(5)所示。最后设置训练集和超参数。将对8K和4K两种全景视频训练两种不同的模型，训练集分别使用三个对应相同分辨率TSI的混合样本集，共20000张图片。训练的Sample_num设置为20000，Batchsize设置为4，Epoch_init设置为20,Epoch设置为500；设置完成后开始训练。

而在使用模型阶段，首先选取全景视频序列中的奇数帧，并将其通过H.265标准压缩。然后选取全景视频序列中的偶数帧，将其通过E网络生成潜码，并将潜码以及奇数帧利用DASH协议传输至解码端。后将解码端的奇数帧视频和偶数帧潜码一起输入G网络，以此重建偶数帧TSI。最后通过Matlab，将重建后的TSI恢复成原始尺寸全景视频。

在本实施例中，使用PSNR评估重建视频图像的质量，并采用所有偶数帧视频的平均失真来评估算法性能。对于每个全景视频序列，用图上的曲线表示我们提出的方法的率失真性能。此外对码率控制部分也进行了实验，模拟带宽限定条件，测试本发明提出方法匹配带宽的性能，于此同时也对传输的视口部分质量进行测试，以V-PSNR(viewport-PSNR)来评判当带宽有限情况下视口内图像重建的质量。

1)客观比较

1、率失真性能

为了证明本发明提出的全景视频自适应传输方法的效率，将本发明的方法与当下主流全景传输标准(OMAF)和基于共享视频帧的全景视频视口传输(SCP)进行比较。由于本发明设计的目的是评估生成的潜码代替部分视频帧在网络中传输如何影响全景视频的编码效率，所以只考虑这三种方法在使用相同编码方法情况。

图5展示了三种算法的RD(Rate-PSNR)曲线，其中x轴表示的是编码后码流的比特率大小，y轴表示的是在解码器解码后的视频序列相较于原始视频序列的PSNR。从实验结果图中可以看出，SCP方法总体上比OMAF好，在相同的比特率情况下，均能获得更大的PSNR值，也就是解码出质量更高的视频序列。而本发明的方法(LAVS)性能在整体上均优于其他两种方法，特别在低码率下，性能较好，PSNR大幅度领先于另外两种方法。而在高码率部分，仍然领先于其他两种算法。从率失真性能的提升上可以验证了本发明所提出的方法，能够以更低的码率传输相同质量的视频序列，从而一定程度解决了全景视频码率高而无法传输的问题.

2、码率控制性能

为了证明本发明所提出的全景视频自适应传输方法中码率控制部分的有效性，将本发明的方法与当下主流全景视频传输标准(OMAF)和基于共享视频帧的全景视频视口传输(SCP)进行比较。比较的方式为，针对同一视频序列AerialCity，在不同切块方式下(4x2,8x4,16x8)设定固定带宽，对视频序列进行编码，使得编码后的码流码率逼近设定的带宽值，于此同时比较解码后的V-PSNR。

图6展示了三种方法进行码率控制实验的结果柱状图，从上到下的三行分别是带宽设定值为3M,4M,5M的结果。而每一行的前一张图为实际编码码率，后一张则是解码后V-PSNR。从实验结果图可以看出，当在限定带宽的情况下，OMAF与SCP均无法准确的匹配带宽，而本发明的方法LVAS则相较于该方法能更加准确的匹配设置的带宽，具有更高的带宽利用率。于此同时，在V-PSNR指标上，无论设置多大的带宽，本发明的方法均好于OMAF和SCP，这意味着本发明不仅仅能够保持高带宽利用率，还能够保证视口内视频的质量，证明了本发明提出方法的码率控制的有效性。

2)主观比较

为了证明编码网络E所提取潜码的有效性，本发明所提出的网络的结构进行了消融实验进行主观比较，分为有编码网络E与无编码网络E，其余的实验变量以及参数等均保持一致。本发明使用不同的序列对全景视频序列进行了重建如图7，其中从左到右依次是原图、有编码网络E重建图、无编码网络E重建图。由重建的图片可以直接的看出，相较于无编码网络E进行全景视频序列重建，有编码网络E重建出来的图片在细节上更加清晰，无重影，图片质量更高。由此证明，在本发明所提出的方法中，编码网络E所提取的潜码是具有有效性的，能够帮助客户端更好的重建。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于GAN的全景视频自适应流传输方法，其特征在于，包括以下步骤：

步骤S1:构建时域相似性图；

步骤S3构建生成网络G的码率与重建质量联合代价函数；

步骤S5:在编码器端，压缩奇数视频帧，并提取偶数视频帧的潜码作为辅助信息，使用Mpeg-DASH协议组合潜码与压缩后的奇数视频帧，并进行动态自适应传输；

2.根据权利要求1所述的一种基于GAN的全景视频自适应流传输方法，其特征在于，所述步骤S1具体为：将视频均匀分块为tile，再将tile进行横向条状切割，最后将相同位置的条块图按照帧序进行组合生成时域相似性图TSI；

TSI矩阵为：

式中，m既是TSI图像的序列号，也是原始全景视频tile的行序，K表示tile的数量，T代表矩阵转置，I表示原始图像，i则代表全景视频时域上的帧序号；

矩阵A_m的大小等于TSI图像大小，该矩阵仅第m行第m列为1，其余元素均为0，表示如下：

矩阵B_i的大小等于TSI图像大小，该矩阵仅第i行第m列为1，其余元素均为0，表示如下：

3.根据权利要求1所述的一种基于GAN的全景视频自适应流传输方法，其特征在于，所述步骤S5具体为：

步骤S51:将全景视频中奇数视频帧构成的视频用H.265标准压缩；

步骤S52：将构建的TSI，输入到训练完成的编码网络E中，生成偶数视频帧的潜码；

步骤S53：使用Mpeg-DASH协议组合潜码与压缩后的奇数视频帧，并进行动态自适应传输。

4.根据权利要求3所述的一种基于GAN的全景视频自适应流传输方法，其特征在于，所述步骤S6具体为：

步骤S61:依据Mpeg-DASH协议接收并解析潜码与压缩后的奇数视频帧

步骤S62:对奇数视频帧进行解码，并生成奇数视频帧TSI；

步骤S63:将奇数视频帧TSI和潜码输入进生成网络G中，重建生成完整TSI；

5.根据权利要求1所述的一种基于GAN的全景视频自适应流传输方法，其特征在于，所述E，G，D三个网络模型具体如下：将原始TSI的偶数视频帧部分作为编码网络E的输入，输出原始TSI偶数视频帧部分的潜码；将E网络输出的TSI偶数视频帧部分的潜码以及奇数视频帧作为G网络的输入，由G网络生成重建的TSI偶数视频帧部分图像；对于D网络，当D网络的输入是原始TSI和TSI偶数视频帧部分潜码时，D网络的输出是1；当D网络的输入是G网络的输出和TSI偶数视频帧部分潜码时，输出0。

6.根据权利要求1所述的一种基于GAN的全景视频自适应流传输方法，其特征在于，所述生成网络模型G的码率与重建质量联合代价函数具体为：

其中，x表示原始全景图像，w表示潜码，

表示量化后的潜码，D(x,w)表示使用GAN网络鉴别器来鉴别x,w是否为原始全景图像和潜码，d(m,n)表示对图像m,n进行比较以确定重建质量,G(w)表示依据潜码用生成网络重建图像过程，q(w)表示对潜码w进行量化操作，E(x)表示将图像x输入编码网络E进行潜码的提取，H(w)表示对潜码w进行求熵，α和β为常量。

7.根据权利要求6所述的一种基于GAN的全景视频自适应流传输方法，其特征在于，所述代价函数中的重建质量约束项，具体如下，

d(x,G(q(E(x))))＝l_MSE+l_VGG (5)

其中l_MSE的计算公式为：