CN112616014B - 一种基于gan的全景视频自适应流传输方法 - Google Patents

一种基于gan的全景视频自适应流传输方法 Download PDF

Info

Publication number
CN112616014B
CN112616014B CN202011450489.4A CN202011450489A CN112616014B CN 112616014 B CN112616014 B CN 112616014B CN 202011450489 A CN202011450489 A CN 202011450489A CN 112616014 B CN112616014 B CN 112616014B
Authority
CN
China
Prior art keywords
network
tsi
latent
representing
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011450489.4A
Other languages
English (en)
Other versions
CN112616014A (zh
Inventor
兰诚栋
缪辰启
宋彩霞
罗铖
赵铁松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202011450489.4A priority Critical patent/CN112616014B/zh
Publication of CN112616014A publication Critical patent/CN112616014A/zh
Application granted granted Critical
Publication of CN112616014B publication Critical patent/CN112616014B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/698Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明涉及一种基于GAN的全景视频自适应流传输方法,首先构建时域相似性图,通过GAN网络进行时域相似性的提取,以生成潜码代替部分视频帧传输,并在提取网络的训练过程中考虑重建质量与潜码的码率之间的权衡,同时引入了码率自适应控制机制,根据当前网络情况来进行潜码码率的调整,以提高带宽利用率。在编码器端,使用卷积网络提取偶数视频帧的潜码作为辅助信息,并构建模型的码率与重建质量联合代价函数。在解码器端,GAN的生成器将奇数视频帧与偶数视频帧的潜码结合起来以重构偶数视频帧。本发明采用GAN提取的潜码替代偶数视频帧在网络中进行传输,实现更好的率失真性能,并且码率控制机制能够有效的匹配复杂多变的网络带宽,提升了带宽使用率。

Description

一种基于GAN的全景视频自适应流传输方法
技术领域
本发明涉及视频压缩和全景视频传输领域,具体涉及一种基于GAN的全景视频自适应流传输方法。
背景技术
近年来,全景视频因在观看时可以为用户提供对观测视角的主动调节和切换,具有很强的沉浸感和交互性,为此受到了公众越来越多的关注。但全景视频拥有的巨大数据量,通常全景视频的分辨率8K或者更高,以确保向用户显示的内
容质量良好。而其传输的带宽需求约为100Mbps,现有移动网络的承载能力难以支持全景视频的实时传输。
全景视频是由多组摄像机进行拍摄、拼接生成的球形视频,相较于传统视频具有更高的分辨率,超高的分辨率对网络带宽带来了巨大的挑战,同时球形视频并不能使用传统平面视频编码的进行压缩,为此需要一套适应全景视频传输的系统。当下,由于缺乏能够对球形视频进行编码的标准,主流的做法是将全景视频投影到二维平面,利用相对成熟的平面视频编码标准进行压缩。
总的来说,在服务器端,全景视频传输系统先将全景视频投影成平面视频,利用HEVC等编码标准进行编码。在客户端先进行解码,然后将视频反投影为全景视频进行播放。在客户端与服务器之间,将使用DASH协议进行码率控制,实时调整传输视频的码率,保证播放流畅性。
发明内容
有鉴于此,本发明的目的在于提供一种基于GAN的全景视频自适应流传输方法,在GAN生成网络模型的基础上,增加编码网络提取潜码,构建码率与重建失真联合约束的代价函数,确定最优的辅助信息数据,并结合时域帧之间的相似性,进一步提高重建质量。
为实现上述目的,本发明采用如下技术方案:
一种基于GAN的全景视频自适应流传输方法,包括以下步骤:
步骤S1:构建时域相似性图;
步骤S2:构建一个包含编码网络E,生成网络G和判别网络D的总体网络;
步骤S3构建生成网络G的码率与重建质量联合代价函数;
步骤S4:将得到的时域相似性图输入网络,进行模型训练,得到训练后的总体网络;
步骤S5:在编码器端,压缩奇数帧,并提取偶数视频帧的潜码作为辅助信息,使用Mpeg-DASH协议组合潜码与压缩后的奇数帧视频,并进行动态自适应传输;
步骤S6:在解码器端,GAN的生成器将奇数视频帧与偶数视频帧的潜码结合起来以重构偶数视频帧。
进一步的,所述步骤S1具体为:将视频均匀分块为tile,再将tiles进行横向条状切割,最后将相同位置的条块图按照帧序进行组合生成时域相似性图TSI;
TSI矩阵为:
Figure BDA0002826639480000021
式中,m既是TSI图像的序列号,也是原始全景视频tiles的行序,K表示tiles帧的数量,T代表矩阵转置,I表示原始图像,i则代表全景视频时域上的帧序号;
矩阵Am的大小等于图像大小,该矩阵仅第m行第m列为1,其余元素均为0,表示如下:
Figure BDA0002826639480000031
矩阵Bi的大小等于图像大小,该矩阵仅第i行第m列为1,其余元素均为0,表示如下:
Figure BDA0002826639480000032
进一步的,所述步骤S5具体为:
步骤S51:将全景视频中奇数帧构成的视频用H.265标准压缩;
步骤S52:将构建的TSI,输入到训练完成的编码网络E中,生成偶数帧的潜码;
步骤S53:使用Mpeg-DASH协议组合潜码与压缩后的奇数帧视频,并进行动态自适应传输。
进一步的,所述步骤S6具体为:
步骤S61:依据Mpeg-DASH协议解析接收并解析潜码与压缩后的奇数帧视频;
步骤S62:对奇数视频帧进行解码,并生成奇数帧TSI;
步骤S63:将奇数帧TSI和潜码输入进生成网络G中,重建生成完整TSI;
步骤S64:完整的TSI将重建为tile,并拼接为原始尺寸的完整全景视频进行渲染播放。
进一步的,所述E,G,D三个网络模型具体如下:将原始TSI的偶数帧部分作为编码网络E的输入,输出原始TSI偶数帧部分的潜码;将E网络输出的TSI偶数帧部分的潜码以及奇数帧作为G网络的输入,由G网络生成重建的TSI偶数帧部分图像。对于D网络,当D网络的输入是原始TSI和TSI偶数帧部分潜码时,D网络的输出是1;当D网络的输入是G网络的输出和TSI偶数帧部分潜码时,输出0。
进一步的,所述生成网络模型G的码率与重建质量联合代价函数具体为:
Figure BDA0002826639480000041
其中,x表示原始全景图像,w表示潜码,
Figure BDA0002826639480000042
表示重建的全景图像,
Figure BDA0002826639480000043
表示量化后的潜码,D(x,w)表示使用GAN网络鉴别器来鉴别x,w是否为原始图像和潜码,d(m,n)表示对图像m,n进行比较以确定重建质量,G(w)表示依据潜码用生成网络重建图像过程,q(w)表示对潜码w进行量化操作,E(x)表示将图像x输入编码网络E进行潜码的提取,H(w)表示对潜码w进行求熵,α和β为常量。
进一步的,所述代价函数中的重建质量约束项,具体如下,
d(x,G(q(E(x))))=lMSE+lVGG (5)
其中lMSE的计算公式为:
Figure BDA0002826639480000051
其中lVGG的计算公式为:
Figure BDA0002826639480000052
式中,lMSE代表基于MSE的像素级损失,lVGG代表基于VGG的特征级损失,W,H代表图像的宽和高,xi,j代表i、j位置上的原始像素点,
Figure BDA0002826639480000053
代表i、j位置上的重建像素点,φ代表VGG网络提取特征图的操作。
进一步的,所述代价函数中的码率约束项,具体为:
H(q(E(x)))=H(q(w)) (8)
式(8)中的量化操作q使用可微分软量化公式计算,具体如下:
Figure BDA0002826639480000054
其中L代表量化级,wi代表量化操作后的第i个潜码,cj代表第j个量化电平;式(8)中的计算编码平均比特数操作H通过熵测量,具体如下:
Figure BDA0002826639480000055
其中概率pcj用统计离散的值表示,具体如下:
Figure BDA0002826639480000056
其中N为潜码的长度,Fcj表示的是量化级cj的出现的次数,Fcj
具体如下:
Figure BDA0002826639480000061
进一步的,所述量化级L设定,具体为:
Figure BDA0002826639480000062
其中,a,b为常量,K为每组TSI的所包含的帧数目,n表示每个列块的宽度,RCurrtile表示当前tile的目标码率,其可以表示为:
Figure BDA0002826639480000063
其中,Rtar表示当前时刻带宽,Rcoded表示已经进行编码的tile的码率,tileCurr表示当前待编码tile的权重,对于每个tile会给其分配权重,按照是否在视口内来表示,其方法如下:
Figure BDA0002826639480000064
本发明与现有技术相比具有以下有益效果:
本发明能够有效提取时域帧间的相似性,有效减少帧间冗余信息,生成的潜码能够代替视频帧在网络中传输,实现了更高的率失真性能,并且所提出的码率控制方法,能够对潜码码率进行自适应调节,实现了更高的带宽使用率。本发明提出的视频传输算法可应用于视频编码、全景视频自适应传输等多个领域。
附图说明
图1为本发明实施例中编码网络E、生成网络G、鉴别网络D网络训练过程示意图;
图2为本发明实施例中服务器端工作流程的示意图;
图3为本发明实施例中客户端工程流程示意图;
图4为本发明实施例中时域相似性图(TSI)构建过程的示意图;
图5为本发明实施例的方法与其他方法客观比较的RD曲线图,其中OMAF表示的是当下主流全景传输标准,SCP表示的是基于共享视频帧的全景视频视口传输方法,LVAS表示的是本文方法;
图6为本发明实施例的方法与其他方法客观比较的码率控制柱状图,其中OMAF表示的是当下主流全景传输标准,SCP表示的是基于共享视频帧的全景视频视口传输方法,LVAS表示的是本文方法;
图7为本发明实施例的方法进行消融实验主观比较的效果图;其中对于每三张相同内容的图片,从左到右依次是:原图、有编码网络E重建图,无编码网络E重建图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供基于GAN的全景视频自适应流传输方法,包括以下步骤:
训练模型阶段,如图1所示
步骤S1:构建时域相似性图(Temporal Similarity Images,TSI),将视频均匀分块为tile,再将tiles进行横向条状切割,最后将相同位置的条块图按照帧序进行组生成TSI:
步骤S2:构建一个包含编码网络E,生成网络G和判别网络D的总体网络;
步骤S3构建生成网络G的码率与重建质量联合代价函数;
步骤S4:将得到的时域相似性图输入网络,进行模型训练,得到训练后的总体网络;
使用模型阶段:
步骤S5,参考图2,在编码器端,压缩奇数帧,并提取偶数视频帧的潜码作为辅助信息,使用Mpeg-DASH协议组合潜码与压缩后的奇数帧视频,并进行动态自适应传输;
具体为:
步骤S51:将全景视频中奇数帧构成的视频用H.265标准压缩;
步骤S52:将构建的TSI,输入到训练完成的编码网络E中,生成偶数帧的潜码;
步骤S53:使用Mpeg-DASH协议组合潜码与压缩后的奇数帧视频,并进行动态自适应传输。
步骤S6:参考图3,在解码器端,GAN的生成器将奇数视频帧与偶数视频帧的潜码结合起来以重构偶数视频帧,具体为:
步骤S61:依据Mpeg-DASH协议解析接收并解析潜码与压缩后的奇数帧视频;
步骤S62:对奇数视频帧进行解码,并生成奇数帧TSI;
步骤S63:将奇数帧TSI和潜码输入进生成网络G中,重建生成完整TSI;
步骤S64:完整的TSI将重建为tile,并拼接为原始尺寸的完整全景视频进行渲染播放。
在本实施例中,步骤S1具体为:将全景视频tile转化为TSI图像:首先将每个的帧图像每8行组成行块,转置后形成列块,然后将相同位置但不同帧的列块按帧序拼接在一起,得到TSI。TSI的构建过程如图4所示,
TSI矩阵为:
Figure BDA0002826639480000091
式中,m既是TSI图像的序列号,也是原始全景视频tiles的行序,K表示tiles帧的数量,T代表矩阵转置,I表示原始图像,i则代表全景视频时域上的帧序号;
矩阵Am的大小等于图像大小,该矩阵仅第m行第m列为1,其余元素均为0,表示如下:
Figure BDA0002826639480000092
矩阵Bi的大小等于图像大小,该矩阵仅第i行第m列为1,其余元素均为0,表示如下:
Figure BDA0002826639480000093
在本实施例中,所述E,G,D三个网络模型具体如下:将原始TSI的偶数帧部分作为编码网络E的输入,输出原始TSI偶数帧部分的潜码;将E网络输出的TSI偶数帧部分的潜码以及奇数帧作为G网络的输入,由G网络生成重建的TSI偶数帧部分图像。对于D网络,当D网络的输入是原始TSI和TSI偶数帧部分潜码时,D网络的输出是1;当D网络的输入是G网络的输出和TSI偶数帧部分潜码时,输出0。
优选的,所述生成网络模型G的码率与重建质量联合代价函数具体为:
Figure BDA0002826639480000101
第一项表示D网络用于区分真实图像,第二项表示G网络用于生成近似原始样本数据集分布的图像,第三项α[d(x,G(q(E(X))))]为重建质量约束项,第四项βH(q(E(X)))为码率约束项。
其中,x表示原始全景图像,w表示潜码,
Figure BDA0002826639480000102
表示重建的全景图像,
Figure BDA0002826639480000103
表示量化后的潜码,D(x,w)表示使用GAN网络鉴别器来鉴别x,w是否为原始图像和潜码,d(m,n)表示对图像m,n进行比较以确定重建质量,G(w)表示依据潜码用生成网络重建图像过程,q(w)表示对潜码w进行量化操作,E(x)表示将图像x输入编码网络E进行潜码的提取,H(w)表示对潜码w进行求熵,α和β为常量。
优选的,在本实施例中,代价函数中的重建质量约束项,具体如下,
d(x,G(q(E(x))))=lMSE+lVGG (5)
其中lMSE的计算公式为:
Figure BDA0002826639480000104
其中lVGG的计算公式为:
Figure BDA0002826639480000111
式中,lMSE代表基于MSE的像素级损失,lVGG代表基于VGG的特征级损失,W,H代表图像的宽和高,xi,j代表i、j位置上的原始像素点,
Figure BDA0002826639480000112
代表i、j位置上的重建像素点,φ代表VGG网络提取特征图的操作。
优选的,在本实施例中,代价函数中的码率约束项,具体为:
H(q(E(x)))=H(q(w)) (8)
式(8)中的量化操作q使用可微分软量化公式计算,具体如下:
Figure BDA0002826639480000113
其中L代表量化级,wi代表量化操作后的第i个潜码,cj代表第j个量化电平;式(8)中的计算编码平均比特数操作H通过熵测量,具体如下:
Figure BDA0002826639480000114
其中概率pcj用统计离散的值表示,具体如下:
Figure BDA0002826639480000115
其中N为潜码的长度,
Figure BDA0002826639480000117
表示的是量化级cj的出现的次数,
Figure BDA0002826639480000118
具体如下:
Figure BDA0002826639480000116
优选的,式(9)中使用L量化级对编码网络生成的潜码进行量化,构建了当前带宽与量化级之间的模型,以进行码率控制,实现码率动态分配,提高带宽的使用率,具体方法如下:
Figure BDA0002826639480000121
其中,a,b为常量,K为每组TSI的所包含的帧数目,n表示每个列块的宽度,RCurrtile表示当前tile的目标码率,其可以表示为:
Figure BDA0002826639480000122
其中,Rtar表示当前时刻带宽,Rcoded表示已经进行编码的tile的码率,tileCurr表示当前待编码tile的权重,对于每个tile会给其分配权重,按照是否在视口内来表示,其方法如下:
Figure BDA0002826639480000123
实施例1:
为了验证本实施例中提出算法的有效性,在具有3.60GHz主频的英特尔i7CPU以及NvidiaGeForceRTX2080Ti平台进行训练和测试,使用Matlab和Python语言实现了基于GAN的全景视频自适应流传输方法,并使用了来自AerialCity,DrivingInCity,DrivingInCountry,Canolafield,Highway和Natatorium的六个来自JVET和VAS的8K和4K的全景视频测试序列进行大量实验,训练数据集设置如表1所示。为了验证本发明提出的基于GAN的全景视频自适应流传输方法可行性,本发明将其与当下主流全景传输标准(OMAF)和基于共享视频帧的全景视频视口传输(SCP)进行比较,设置了两个实验。
表1训练数据集设置
Figure BDA0002826639480000131
在训练模型阶段,首先将每个全景视频序列通过ffmepg对视频进行tile分割成视频块,再利用Matlab代码转成时域相似性图TSI,其中TSI中每帧对应的宽度为8。然后基于Python语言构建好E,G,D三个网络模型,具体网络结构图3所示,并构建模型的码率与重建质量联合代价函数,如式(5)所示。最后设置训练集和超参数。将对8K和4K两种全景视频训练两种不同的模型,训练集分别使用三个对应相同分辨率TSI的混合样本集,共20000张图片。训练的Sample_num设置为20000,Batchsize设置为4,Epoch_init设置为20,Epoch设置为500;设置完成后开始训练。
而在使用模型阶段,首先选取全景视频序列中的奇数帧,并将其通过H.265标准压缩。然后选取全景视频序列中的偶数帧,将其通过E网络生成潜码,并将潜码以及奇数帧利用DASH协议传输至解码端。后将解码端的奇数帧视频和偶数帧潜码一起输入G网络,以此重建偶数帧TSI。最后通过Matlab,将重建后的TSI恢复成原始尺寸全景视频。
在本实施例中,使用PSNR评估重建视频图像的质量,并采用所有偶数帧视频的平均失真来评估算法性能。对于每个全景视频序列,用图上的曲线表示我们提出的方法的率失真性能。此外对码率控制部分也进行了实验,模拟带宽限定条件,测试本发明提出方法匹配带宽的性能,于此同时也对传输的视口部分质量进行测试,以V-PSNR(viewport-PSNR)来评判当带宽有限情况下视口内图像重建的质量。
1)客观比较
1、率失真性能
为了证明本发明提出的全景视频自适应传输方法的效率,将本发明的方法与当下主流全景传输标准(OMAF)和基于共享视频帧的全景视频视口传输(SCP)进行比较。由于本发明设计的目的是评估生成的潜码代替部分视频帧在网络中传输如何影响全景视频的编码效率,所以只考虑这三种方法在使用相同编码方法情况。
图5展示了三种算法的RD(Rate-PSNR)曲线,其中x轴表示的是编码后码流的比特率大小,y轴表示的是在解码器解码后的视频序列相较于原始视频序列的PSNR。从实验结果图中可以看出,SCP方法总体上比OMAF好,在相同的比特率情况下,均能获得更大的PSNR值,也就是解码出质量更高的视频序列。而本发明的方法(LAVS)性能在整体上均优于其他两种方法,特别在低码率下,性能较好,PSNR大幅度领先于另外两种方法。而在高码率部分,仍然领先于其他两种算法。从率失真性能的提升上可以验证了本发明所提出的方法,能够以更低的码率传输相同质量的视频序列,从而一定程度解决了全景视频码率高而无法传输的问题.
2、码率控制性能
为了证明本发明所提出的全景视频自适应传输方法中码率控制部分的有效性,将本发明的方法与当下主流全景视频传输标准(OMAF)和基于共享视频帧的全景视频视口传输(SCP)进行比较。比较的方式为,针对同一视频序列AerialCity,在不同切块方式下(4x2,8x4,16x8)设定固定带宽,对视频序列进行编码,使得编码后的码流码率逼近设定的带宽值,于此同时比较解码后的V-PSNR。
图6展示了三种方法进行码率控制实验的结果柱状图,从上到下的三行分别是带宽设定值为3M,4M,5M的结果。而每一行的前一张图为实际编码码率,后一张则是解码后V-PSNR。从实验结果图可以看出,当在限定带宽的情况下,OMAF与SCP均无法准确的匹配带宽,而本发明的方法LVAS则相较于该方法能更加准确的匹配设置的带宽,具有更高的带宽利用率。于此同时,在V-PSNR指标上,无论设置多大的带宽,本发明的方法均好于OMAF和SCP,这意味着本发明不仅仅能够保持高带宽利用率,还能够保证视口内视频的质量,证明了本发明提出方法的码率控制的有效性。
2)主观比较
为了证明编码网络E所提取潜码的有效性,本发明所提出的网络的结构进行了消融实验进行主观比较,分为有编码网络E与无编码网络E,其余的实验变量以及参数等均保持一致。本发明使用不同的序列对全景视频序列进行了重建如图7,其中从左到右依次是原图、有编码网络E重建图、无编码网络E重建图。由重建的图片可以直接的看出,相较于无编码网络E进行全景视频序列重建,有编码网络E重建出来的图片在细节上更加清晰,无重影,图片质量更高。由此证明,在本发明所提出的方法中,编码网络E所提取的潜码是具有有效性的,能够帮助客户端更好的重建。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (9)

1.一种基于GAN的全景视频自适应流传输方法,其特征在于,包括以下步骤:
步骤S1:构建时域相似性图;
步骤S2:构建一个包含编码网络E,生成网络G和判别网络D的总体网络;
步骤S3构建生成网络G的码率与重建质量联合代价函数;
步骤S4:将得到的时域相似性图输入网络,进行模型训练,得到训练后的总体网络;
步骤S5:在编码器端,压缩奇数视频帧,并提取偶数视频帧的潜码作为辅助信息,使用Mpeg-DASH协议组合潜码与压缩后的奇数视频帧,并进行动态自适应传输;
步骤S6:在解码器端,GAN的生成器将奇数视频帧与偶数视频帧的潜码结合起来以重构偶数视频帧。
2.根据权利要求1所述的一种基于GAN的全景视频自适应流传输方法,其特征在于,所述步骤S1具体为:将视频均匀分块为tile,再将tile进行横向条状切割,最后将相同位置的条块图按照帧序进行组合生成时域相似性图TSI;
TSI矩阵为:
Figure FDA0003367759910000011
式中,m既是TSI图像的序列号,也是原始全景视频tile的行序,K表示tile的数量,T代表矩阵转置,I表示原始图像,i则代表全景视频时域上的帧序号;
矩阵Am的大小等于TSI图像大小,该矩阵仅第m行第m列为1,其余元素均为0,表示如下:
Figure FDA0003367759910000021
矩阵Bi的大小等于TSI图像大小,该矩阵仅第i行第m列为1,其余元素均为0,表示如下:
Figure FDA0003367759910000022
3.根据权利要求1所述的一种基于GAN的全景视频自适应流传输方法,其特征在于,所述步骤S5具体为:
步骤S51:将全景视频中奇数视频帧构成的视频用H.265标准压缩;
步骤S52:将构建的TSI,输入到训练完成的编码网络E中,生成偶数视频帧的潜码;
步骤S53:使用Mpeg-DASH协议组合潜码与压缩后的奇数视频帧,并进行动态自适应传输。
4.根据权利要求3所述的一种基于GAN的全景视频自适应流传输方法,其特征在于,所述步骤S6具体为:
步骤S61:依据Mpeg-DASH协议接收并解析潜码与压缩后的奇数视频帧
步骤S62:对奇数视频帧进行解码,并生成奇数视频帧TSI;
步骤S63:将奇数视频帧TSI和潜码输入进生成网络G中,重建生成完整TSI;
步骤S64:完整的TSI将重建为tile,并拼接为原始尺寸的完整全景视频进行渲染播放。
5.根据权利要求1所述的一种基于GAN的全景视频自适应流传输方法,其特征在于,所述E,G,D三个网络模型具体如下:将原始TSI的偶数视频帧部分作为编码网络E的输入,输出原始TSI偶数视频帧部分的潜码;将E网络输出的TSI偶数视频帧部分的潜码以及奇数视频帧作为G网络的输入,由G网络生成重建的TSI偶数视频帧部分图像;对于D网络,当D网络的输入是原始TSI和TSI偶数视频帧部分潜码时,D网络的输出是1;当D网络的输入是G网络的输出和TSI偶数视频帧部分潜码时,输出0。
6.根据权利要求1所述的一种基于GAN的全景视频自适应流传输方法,其特征在于,所述生成网络模型G的码率与重建质量联合代价函数具体为:
Figure FDA0003367759910000031
其中,x表示原始全景图像,w表示潜码,
Figure FDA0003367759910000032
表示量化后的潜码,D(x,w)表示使用GAN网络鉴别器来鉴别x,w是否为原始全景图像和潜码,d(m,n)表示对图像m,n进行比较以确定重建质量,G(w)表示依据潜码用生成网络重建图像过程,q(w)表示对潜码w进行量化操作,E(x)表示将图像x输入编码网络E进行潜码的提取,H(w)表示对潜码w进行求熵,α和β为常量。
7.根据权利要求6所述的一种基于GAN的全景视频自适应流传输方法,其特征在于,所述代价函数中的重建质量约束项,具体如下,
d(x,G(q(E(x))))=lMSE+lVGG (5)
其中lMSE的计算公式为:
Figure FDA0003367759910000041
其中lVGG的计算公式为:
Figure FDA0003367759910000042
式中,lMSE代表基于MSE的像素级损失,lVGG代表基于VGG的特征级损失,W,H代表图像的宽和高,xi,j代表i、j位置上的原始像素点,
Figure FDA0003367759910000043
代表i、j位置上的重建像素点,φ代表VGG网络提取特征图的操作。
8.根据权利要求6所述的一种基于GAN的全景视频自适应流传输方法,其特征在于,所述代价函数中的码率约束项,具体为:
H(q(E(x)))=H(q(w)) (8)
式(8)中的量化操作q使用可微分软量化公式计算,具体如下:
Figure FDA0003367759910000044
其中L代表量化级,wi代表量化操作后的第i个潜码,cj代表第j个量化电平;式(8)中的计算编码平均比特数操作H通过熵测量,具体如下:
Figure FDA0003367759910000051
其中概率
Figure FDA0003367759910000052
用统计离散的值表示,具体如下:
Figure FDA0003367759910000053
其中N为潜码的长度,
Figure FDA0003367759910000054
表示的是量化级cj的出现的次数,
Figure FDA0003367759910000055
具体如下:
Figure FDA0003367759910000056
9.根据权利要求8所述的一种基于GAN的全景视频自适应流传输方法,其特征在于,所述量化级L设定,具体为:
Figure FDA0003367759910000057
其中,a,b为常量,K为每组TSI的所包含的帧数目,n表示每个列块的宽度,RCurrtile表示当前tile的目标码率,其可以表示为:
Figure FDA0003367759910000058
其中,Rtar表示当前时刻带宽,Rcoded表示已经进行编码的tile的码率,tileCurr表示当前待编码tile的权重,对于每个tile会给其分配权重,按照是否在视口内来表示,其方法如下:
Figure FDA0003367759910000061
CN202011450489.4A 2020-12-09 2020-12-09 一种基于gan的全景视频自适应流传输方法 Active CN112616014B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011450489.4A CN112616014B (zh) 2020-12-09 2020-12-09 一种基于gan的全景视频自适应流传输方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011450489.4A CN112616014B (zh) 2020-12-09 2020-12-09 一种基于gan的全景视频自适应流传输方法

Publications (2)

Publication Number Publication Date
CN112616014A CN112616014A (zh) 2021-04-06
CN112616014B true CN112616014B (zh) 2022-03-15

Family

ID=75234432

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011450489.4A Active CN112616014B (zh) 2020-12-09 2020-12-09 一种基于gan的全景视频自适应流传输方法

Country Status (1)

Country Link
CN (1) CN112616014B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113329266B (zh) * 2021-06-08 2022-07-05 合肥工业大学 一种基于有限用户视角反馈的全景视频自适应传输方法
CN115546652B (zh) * 2022-11-29 2023-04-07 城云科技(中国)有限公司 一种多时态目标检测模型及其构建方法、装置及应用

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102468879B (zh) * 2010-10-29 2015-08-05 日电(中国)有限公司 用于无线通信系统的波束形成训练方法、设备和系统
EP3544283B1 (en) * 2016-11-15 2023-07-19 Sony Group Corporation Image processing device
CN106658011A (zh) * 2016-12-09 2017-05-10 深圳市云宙多媒体技术有限公司 全景视频的编解码方法和装置
CN107040771B (zh) * 2017-03-28 2018-06-08 北京航空航天大学 一种针对全景视频的编码优化方法
CN108174225B (zh) * 2018-01-11 2021-03-26 上海交通大学 基于对抗生成网络的视频编解码环路内滤波实现方法及系统
US11159789B2 (en) * 2018-10-24 2021-10-26 City University Of Hong Kong Generative adversarial network based intra prediction for video coding
CN110545429B (zh) * 2019-09-26 2021-08-31 福州大学 一种基于全景视频纬度特性的复杂度优化方法及设备
CN110708548B (zh) * 2019-10-14 2022-03-08 福建天晴在线互动科技有限公司 一种全景视频帧内比特分配的方法

Also Published As

Publication number Publication date
CN112616014A (zh) 2021-04-06

Similar Documents

Publication Publication Date Title
US8406289B2 (en) Method and device for selecting a transcoding method among a set of transcoding methods
CN112616014B (zh) 一种基于gan的全景视频自适应流传输方法
JPH09505698A (ja) 反復誤差データコーディング方法を使用するビデオ圧縮
CN1951122A (zh) 支持可变画面组大小的可伸缩视频编码方法和可伸缩视频编码器
CN112053408B (zh) 基于深度学习的人脸图像压缩方法及装置
CN102281446B (zh) 一种分布式视频编码中基于视觉感知特性的量化方法
He et al. Scalable video coding based on user’s view for real-time virtual reality applications
CN108259898B (zh) 基于质量可伸缩视频编码qshvc的帧内快速编码方法
JP2008172810A (ja) 画像画質向上因子を利用した知能型波紋スキャン装置及びその方法と、それを利用した画像符号化/復号化装置及びその方法
CN108769696A (zh) 一种基于Fisher判别式的DVC-HEVC视频转码方法
CN110677644B (zh) 一种视频编码、解码方法及视频编码帧内预测器
Lei et al. Region adaptive R-$\lambda $ model-based rate control for depth maps coding
Yuan et al. Global rate-distortion optimization of video-based point cloud compression with differential evolution
KR101455553B1 (ko) 압축 측정을 사용하는 비디오 코딩
CN114827617B (zh) 一种基于感知模型的视频编解码方法及系统
Auli-Llinas et al. Low complexity JPEG2000 rate control through reverse subband scanning order and coding passes concatenation
CN110493597A (zh) 一种高效感知视频编码优化方法
Kirmemis et al. A Practical Approach for Rate-Distortion-Perception Analysis in Learned Image Compression
KR20100102516A (ko) 블록기반 깊이정보 맵의 코딩 방법과 장치, 및 이를 이용한 3차원 비디오 코딩 방법
CN115423925A (zh) 基于神经网络压缩绘制信息的云渲染方法和装置
CN114422795A (zh) 一种面部视频编码方法、解码方法及装置
CN109640082B (zh) 音视频多媒体数据处理方法及其设备
CN100469143C (zh) 一种视频数据压缩量化和反量化的方法
Gong et al. BeiDou Short Message Transmission Method Based on High-quality Image Compression and Reconstruction
US20110182343A1 (en) Encoder

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant