CN117156175B - 基于视口预测距离控制的全景视频流QoE优化方法 - Google Patents
基于视口预测距离控制的全景视频流QoE优化方法 Download PDFInfo
- Publication number
- CN117156175B CN117156175B CN202311411669.5A CN202311411669A CN117156175B CN 117156175 B CN117156175 B CN 117156175B CN 202311411669 A CN202311411669 A CN 202311411669A CN 117156175 B CN117156175 B CN 117156175B
- Authority
- CN
- China
- Prior art keywords
- video
- distance control
- rate
- prediction distance
- view port
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000005457 optimization Methods 0.000 title claims abstract description 25
- 230000000007 visual effect Effects 0.000 title claims description 13
- 230000009471 action Effects 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 24
- 239000013598 vector Substances 0.000 claims description 24
- 230000005540 biological transmission Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 230000008859 change Effects 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 239000012634 fragment Substances 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 239000000725 suspension Substances 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000002787 reinforcement Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000002123 temporal effect Effects 0.000 claims description 2
- 230000006872 improvement Effects 0.000 abstract description 4
- 238000011156 evaluation Methods 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- XNKARWLGLZGMGX-UHFFFAOYSA-N ethyl 4-(4-chloro-2-methylphenoxy)butanoate Chemical compound CCOC(=O)CCCOC1=CC=C(Cl)C=C1C XNKARWLGLZGMGX-UHFFFAOYSA-N 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/21805—Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/239—Interfacing the upstream path of the transmission network, e.g. prioritizing client content requests
- H04N21/2393—Interfacing the upstream path of the transmission network, e.g. prioritizing client content requests involving handling client requests
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/266—Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
- H04N21/2662—Controlling the complexity of the video stream, e.g. by scaling the resolution or bitrate of the video stream based on the client capabilities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/433—Content storage operation, e.g. storage operation in response to a pause request, caching operations
- H04N21/4331—Caching operations, e.g. of an advertisement for later insertion during playback
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
- H04N21/44016—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
Abstract
本发明公开了一种基于视口预测距离控制的全景视频流QoE优化方法,涉及流媒体视频技术领域,包括构建视口预测距离控制模型,并对模型进行训练;控制模型输入端接收视频客户端发送的输入环境状态,输出端输出动作;控制模型将输出动作发送到视频客户端,视频客户端根据视频下载暂停时间决定下一个视频片段的请求时间点,根据码率阈值与未来视口预测结果确定每个空间瓦片比特率;视频客户端向视频服务器发送视频片段下载请求,视频服务器返回所请求片段的空间瓦片;视频客户端将所有瓦片拼接为全景视频,并以控制模型输出的播放速率进行播放。本发明不仅能实现体验质量QoE的改善,而且在各种网络环境中均具有很强的时间和空间鲁棒性。
Description
技术领域
本发明涉及流媒体视频技术领域,尤其是一种基于视口预测距离控制的全景视频流QoE优化方法。
背景技术
近年来,以虚拟现实技术(Virtual Reality,简称VR)为基础的360°视频流业务(也称全景视频)应运而生并快速发展。这类视频能够反映真实三维场景,提供宽广的观看视角并允许观看者自由控制视口,以带来身临其境的沉浸式体验。目前,各大流媒体供应商已纷纷上线了360°视频流业务。其对于推动未来视频流媒体服务的发展,以及智慧城市、智慧医疗、在线教育等重大民生工程的建设具有举足轻重的社会经济意义。
由于360°视频的全景场景,其视频帧的分辨率通常为4K甚至更高。然而,在互联网上传输如高分辨率的视频绝非易事,尤其是在带宽波动剧烈的移动网络中。此外,在同一时刻,观众只能观看全景场景的部分内容,即视口中的内容,所以如果以高画质传输整个全景画面,势必会造成大量带宽浪费,严重限制观看体验质量(Quality of Experience, QoE)的改善。因此,传输360°视频的目标是最大限度地提高视口内的视频质量,同时尽量降低视口外的质量,以达到高传输效率。为了实现这一目标,在服务器端,视频帧被裁剪为不同的空间瓦片,每个瓦片都被编码成多个比特率级别(如图5中的低画质、中画质、高画质)。如图5所示,在线流传输过程中,视频客户端将首先预测用户未来的头部运动方向(即未来视口),并以尽可能高的比特率请求视口内的瓦片同时尽量降低视口外瓦片的比特率。所有瓦片完成下载后,均将被存放在客户端缓冲区,并进行拼接后实现视频播放。
在360°视频流媒体中,视口预测是重要环节,因为直接影响QoE性能。当前视口预测算法的基本原理是以已播放视频的历史视口为依据,对未来预下载视频的视口进行预测。然而,如图6所示,在流媒体环境下,客户端播放器的缓冲视频数据会显著延长视口预测距离,严重削弱视口的相关性,使得历史视口无法很好地指导预测。在这种情况下,瓦片的比特率无法被准确分配,从而导致用户的视频观看质量和QoE受到严重限制。相反,如果转而缩小预测距离,即限制视频缓存的数据量,虽然这种方法确实可以提高预测准确性,但是由于网络带宽的剧烈波动,会导致频繁的视频播放卡顿,同样会造成QoE的显著下降。当前现存的360°流媒体算法均无法打破上述困境,所以QoE性能的优化自然陷入瓶颈。
发明内容
为了克服现有技术中存在的上述问题,本发明提出一种基于视口预测距离控制的全景视频流QoE优化方法,能够很好地协调视口预测和视频传输,不仅可以实现显著的体验质量QoE的改善,而且在各种网络环境中均具有很强的时间和空间鲁棒性。
为达到上述目的,本发明的技术方案如下:一种基于视口预测距离控制的全景视频流QoE优化方法,包括如下步骤:
步骤1,构建视口预测距离控制模型,并对所构建的控制模型进行训练;
步骤2,视口预测距离控制模型输入端接收视频客户端发送的输入环境状态,输出端输出动作实现缓存决策,其中输入状态包括吞吐量向量、缓冲区向量,输出动作包括视频下载暂停时间、码率阈值、播放速率;
步骤3,视口预测距离控制模型将输出动作发送到视频客户端,视频客户端根据视频下载暂停时间决定下一个视频片段的请求时间点,及根据码率阈值与未来视口预测结果确定每个空间瓦片的比特率;
步骤4,视频客户端向视频服务器发送视频片段下载请求,服务器根据步骤3的结果返回所请求片段的空间瓦片;视频客户端将所有瓦片拼接为全景视频,并以视口预测距离控制模型输出的播放速率进行播放。
上述的一种基于视口预测距离控制的全景视频流QoE优化方法,所述视口预测距离控制模型包括卷积神经网络、全连接网络,输入端由两个独立的卷积神经网络分别接收两个输入状态,通过卷积神经网络进行卷积处理后,在全连接网络实现汇合,最后经过全连接网络的映射后传递给网络输出层,实现动作决策。
上述的一种基于视口预测距离控制的全景视频流QoE优化方法,所述步骤1中视口预测距离控制模型采用基于连续值动作控制的深度强化学习算法进行模型训练。
上述的一种基于视口预测距离控制的全景视频流QoE优化方法,所述模型训练的优化目标函数为:
;
其中,wk表示QoE性能;σk表示视频下载暂停时间;μk表示码率阈值;ρk表示视频播放速率;k表示视频片段序号,k=1,2,…,K;QoE性能 wk被定义为所述模型训练的训练奖励,具体公式为:
;
其中,wk,0表示视频质量;wk,1表示空间维度视频质量平滑度;wk,2表示时间维度视频质量平滑度;wk,3表示视频播放卡顿时长;
;
其中,rk,i是瓦片i的比特率,ξk,i是0/1标志,ξk,i=1表示瓦片i在用户视口内被实际观看,ξk,i=0表示瓦片i未被观看;
;
其中,τk是下载片段k所花费的时间,ρk是播放速率,bk是请求视频片段k时刻的缓冲区占用率。
上述的一种基于视口预测距离控制的全景视频流QoE优化方法,所述模型训练的训练环境具体为:将视口预测距离控制模型部署于基于吞吐量跟踪数据与视口变化跟踪数据的模拟器中,模拟器随后根据所决策的视频比特率与当前可用吞吐量计算视频片段的下载时长,然后将片段的物理持续时间累积到当前缓冲区占用率中,以模拟视频片段的下载完成;同时,对于视频播放,系统维持一个播放缓冲区,缓冲区数据的消耗量受视频播放速率的影响;在整个流媒体播放过程中,模拟器会持续跟踪卡顿情况,以便进行后期QoE分析。
上述的一种基于视口预测距离控制的全景视频流QoE优化方法,所述步骤2中吞吐量向量定义为状态0,状态0用于检测网络吞吐量状况,以向量形式表示滑动窗口;向量由g个样本组成,即C =<ck-1, ck-2, …, ck-g>,其中每个样本量化下载过去g个片段之一的平均吞吐量;
所述步骤2中缓冲区向量定义为状态1,状态1用于记录缓冲区占用率变化情况,以向量形式表示滑动窗口;向量由h个样本组成,即B =<bk-1, bk-2,…, bk-h>,其中每个样本表示请求过去h个片段之一的即时缓冲区占用率。
上述的一基于视口预测距离控制的全景视频流QoE优化方法,通过所述步骤2中的视频下载暂停时间σk确定下一个视频片段的开始传输时间tk+1,具体计算公式为:
;
其中,fk分别表示传输视频片段k的完成时间,bk为fk时刻的缓冲区占用率。
上述的一种基于视口预测距离控制的全景视频流QoE优化方法,通过所述步骤2中的码率阈值μk对码率分配进行控制,具体公式为:
;
其中,ξk,i是未来视口预测结果,为0/1标志,ξk,i=1表示瓦片i在用户视口内被实际观看,ξk,i=0表示瓦片i未被观看,rk,i为视频片段k中瓦片i的比特率,由函数G(.)所决策,函数G(.)表示在传送每个片段之前,播放器对每个瓦片做出比特率决定。
上述的一种基于视口预测距离控制的全景视频流QoE优化方法,通过所述步骤2中的播放速率ρk对缓冲区进行控制,具体公式为:
;
其中,τk是下载片段k所花费的时间;lk是片段的物理持续时间;bk是请求视频片段k时刻的缓冲区占用率;bk+1是下载视频片段k后的缓冲区占用率。
上述的一种基于视口预测距离控制的全景视频流QoE优化方法,根据步骤2所得的播放速率ρk设置速率变化上限κ max,对播放速率ρk进行限制,具体为:
。
本发明的有益效果是,本发明与现有技术相比,能够很好地协调视口预测和视频传输。因此,不仅可以实现显著的QoE改善,而且在各种网络环境中均具有很强的时间和空间鲁棒性,能够在具有较大特征差异的网络环境中稳定运行。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1为本发明实施例视口预测距离控制模型的结构;
图2为本发明实施例所公开的一种基于视口预测距离控制的全景视频流QoE优化方法示意图;
图3为本发明实施例方法与现有两种方法的流传输性能评估结果;
图4为本发明实施例方法与现有两种方法在不同网络环境下的QoE评估结果;
图5为360°视频流媒体架构;
图6为视口预测图。
具体实施方式
为使本领域技术人员更好的理解本发明的技术方案,下面结合附图和具体实施方式对本发明作详细说明。
本实施例公开了一种基于视口预测距离控制的全景视频流QoE优化方法,包括如下步骤:
步骤1,构建视口预测距离控制模型,并对所构建的控制模型进行训练。
如图1所示,本实施例中的视口预测距离控制模型为深度神经网络。视口预测距离控制模型包括卷积神经网络、全连接网络,输入端由两个独立的卷积神经网络分别接收两个输入状态,通过卷积神经网络进行卷积处理后,在全连接网络实现汇合,最后经过全连接网络的映射后传递给网络输出层,实现动作决策。
由于本实施例的视口预测距离控制模型的输出动作为连续值(非离散值),所以本实施例采用基于连续值动作控制的深度强化学习算法DDPG进行模型训练。本实施例基于流媒体传输环境对训练奖励与训练环境进行了重新配置,其余训练设置与DDPG一致。
(一)训练奖励
由于本实施例的根本目标为优化360°视频流的QoE性能,因此首先将该问题归纳为通过决策流媒体会话中所有视频片段k=1,2,…,K的缓存控制参数σ k 、μ k 、ρ k ,实现QoE性能w k 的最大化,则优化目标函数为:
;
因此,视口预测距离控制模型的训练奖励可由如下QoE方程实现量化:
;
具体而言,k为视频片段序号,w k,0 ~ w k,3为四个QoE指标:
(1)视频质量w k,0,即视口中所有瓦片的平均比特率:
;
其中,r k,i 是瓦片i的比特率,ξ k,i 是0/1标志,ξ k,i =1表示i在用户视口内被实际观看,ξ k,i =0表示瓦片未被观看;
(2)空间维度视频质量平滑度w k,1,即用户视口中的瓦片间视频质量差异:
;
(3)时间维度视频质量平滑度w k,2,即当前视频片段相较于前一个视频片段k-1的视频质量波动:
;
(4)视频播放卡顿时长w k,3:
;
其中,τ k 是下载片段k所花费的时间,ρ k 是播放速率,b k 是请求片段k时刻的瞬时缓冲区占用率。
(二)训练环境
为了加快训练速率,本实施例利用虚拟流模拟器实现流媒体环境仿真。
具体而言,将视口预测距离控制模型部署于基于吞吐量跟踪数据与视口变化跟踪数据的模拟环境中。在流媒体传输过程中,针对对于每个片段,视口预测距离控制模型根据环境输入状态进行动作决策。模拟器随后根据所决策的视频比特率与当前可用吞吐量计算视频片段的下载时长,然后将片段的物理持续时间累积到当前缓冲区占用率中,以模拟视频片段的下载完成。同时,对于视频播放,系统维持一个播放缓冲区,缓冲区数据的消耗量受视频播放速率的影响。在整个流媒体播放过程中,模拟器会持续跟踪卡顿情况,以便进行后期QoE分析。
训练结束后,将视口预测距离控制模型进行系统部署,具体流程如图2所示。主要由三部分组成:1)视频客户端,其服务于终端用户,发起视频片段的下载与播放;2)神经网络决策服务器,用于部署训练后的视口预测距离控制模型进行动作决策;3)视频服务器,用于部署360°视频,其中视频被分割成1秒长的片段,每个片段裁剪为10×10的空间瓦片,并被视频编码为7个比特率版本。
步骤2,视口预测距离控制模型输入端接收视频客户端发送的输入环境状态,输出端输出动作实现决策,其中输入状态包括吞吐量向量、缓冲区向量,输出动作包括视频下载暂停时间、码率阈值、播放速率。
(1)输入状态
在请求每个视频片段k时,视口预测距离控制模型通过接收输入状态sk以捕捉环境特征。本实施例中定义两个状态变量:
状态0:吞吐量向量。该状态用于检测近期网络吞吐量状况,以向量形式表示滑动窗口。向量由g个样本组成,即C =<ck-1, ck-2, …, ck-g>,其中每个样本量化下载过去g个片段之一(即k-g ~ k-1)的平均吞吐量。
状态1:缓冲区向量。该状态用于记录近期缓冲区占用率变化情况,以向量形式表示滑动窗口。向量由h个样本组成,即B =<bk-1, bk-2,…, bk-h>,其中每个样本表示请求过去h个片段之一(即k-h ~ k-1)时刻的即时缓冲区占用率。
(2)输出动作
本实施例视口预测距离控制模型有三个输出端口,分别表示三个输出动作,每个输出动作均具有对视口预测距离的控制作用。具体而言,在视频流媒体传输过程中,缓冲区中的视频数据源于视频下载,因此,如果能有效调度下载,则可以实现对缓冲区数据量,即视口预测距离进行控制。此外,在流媒体过程中,视频下载和视频播放是两个同步进行的过程,因此除调度下载外,亦可以通过调节视频播放实现缓冲区控制。基于上述原理,本实施例提出了以下三个动作参数:
(a)视频下载暂停
在请求每个视频片段k之前,本动作周期性地暂停视频下载,在暂停过程中,由于视频播放仍在进行,所以缓存数据量下降。因此,通过动态决策和调整下载暂停时间σ k ,可实现视口预测距离的有效控制。具体而言,在忽略网络延迟的情况下,设定t k 和f k 分别表示传输视频片段k的开始时间和完成时间。设b k 为f k 时刻的缓冲区占用率。因此,通过调整σ k ,可使下一个视频片段k+1在t k+1时刻开始传输:
;
其中,σ k 的值由神经网络模型进行决策,其为三个输出动作之一。
(b)码率分配
从理论上讲,如果视频总码率(即所有空间瓦片的比特率之和)与流式传输过程中的实时网络吞吐量完全相等,那么客户端缓冲区水平就能保持动态平衡,因为在这种情况下,视频的下载时间等于播放时间。基于此原理,如果进一步提高(或降低)码率,那么缓冲区水平也会相应降低(或提高),因为下载时间会比播放时间更长(更短)。因此,本实施例通过动态调节码率以控制视口预测距离。
360°流媒体平台中,每个视频片段k都被裁剪成不同的空间瓦片,表示为i=0,1,…,I-1,每个瓦片被编码成多个比特率版本。在传送每个片段之前,播放器会对每个瓦片做出比特率决定,以函数G(.)表示,该函数会为预测视口内的瓦片(记为ξ k,i =1)分配尽可能高的比特率,并为预测视口外的瓦片(记为ξ k,i =0)分配低比特率。根据这一过程,本实施例定义了动作参数μ k ,称为码率阈值,实现对码率分配的控制。具体原理如下:
;
其中,ξk,i是未来视口预测结果,为0/1标志,ξk,i=1表示瓦片i在用户视口内被实际观看,ξk,i=0表示瓦片i未被观看,r k,i 为视频片段k中瓦片i的比特率,由函数G(.)所决策。片段k中所有瓦片的总比特率在决策过程中被限制在阈值μ k 范围内。上述过程在实际应用中,流媒体系统首先对网络吞吐量进行预测,然后基于预测结果确定μ k (请求片段k之前),进而根据μ k 和视口预测结果ξ k,i 决定每个瓦片的比特率。因此,通过调整μ k ,系统能够控制视频下载的码率分配,从而实现有效的视口预测距离控制。μ k 的值由神经网络模型进行决策,其为三个输出动作之一。
(c)播放速率控制
除上述两种在视频下载过程实现控制的方法外,本发明亦通过对视频播放的调节实现控制。具体而言,在流媒体传输过程中,设定请求视频片段k时刻的缓冲区占用率为b k ,则下载视频片段k后,缓冲区占用率变为b k+1:
;
其中,ρ k 是下载片段k过程的视频播放速率,τ k 是下载片段k所花费的时间,l k 是片段的物理持续时间。在上述过程中,调高ρ k 会导致下载片段k的过程消耗更多的缓冲数据,使缓冲区水平降低,反之,调低ρ k 会提高缓冲区占用率。因此,可以通过调整 ρ k 实现对视口预测距离的控制。ρ k 的值由神经网络模型进行决策,其为三个输出动作之一。
在实践中,为了不影响观看体验质量,需要观众无法察觉到视频播放速率的变化(正常速率为×1.0)。因此,本实施例定义速率变化上限值κ max,对播放速率变化施加限制:
;
其中,κ max被设定为20%,即允许速率在×0.8至×1.2内变化。
步骤3,视口预测距离控制模型将输出动作发送到视频客户端,视频客户端根据视频下载暂停时间σk决定下一个视频片段的请求时间点,及根据码率阈值μk与未来视口预测结果确定每个空间瓦片的比特率。
步骤4,视频客户端向视频服务器发送视频片段下载请求,服务器根据步骤3的结果返回所请求片段的空间瓦片;视频客户端将所有瓦片拼接为全景视频,并以视口预测距离控制模型输出的播放速率ρk进行播放。
将本实施例所提出的基于视口预测距离控制的QoE优化方法与两种现存方案进行对比评估,以展示性能优越性。用于评估的源数据包含4,275 段视口轨迹数据(75部视频由57位用户观看过程采集)以及6万+的视频流会话网络带宽数据。进行对比的两种方案分别是无视口预测距离控制与固定缓存上限3秒。图3为三种方案的对比评估结果,展示了观看体验质量QoE、视频画质、视口预测准确度与播放卡顿四个评估指标,从图3中可以看出本实施例所提出的方法相对于现有的另外两种方案均表现出更为优越的性能,即更高的观看体验质量、视频画质、视口预测准确度,以及更低的播放卡顿。图4对比了在三种不同的网络环境下三种方案的观看体验质量,分别为较差网络条件(<3Mbps),中等网络条件(3~6Mbps)和良好网络条件(>6Mbps),从图4中可以看出,本实施例所提出的方法相对于现有的另外两种方案均表现出更为优越的性能,即更高的观看体验质量QoE。此外,图3及图4的数据是测量了高于(低于)性能平均值15%的样本性能,并在柱状图中标识为误差条的上(下)边缘值,以便于衡量性能的波动程度。
以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。
Claims (3)
1.基于视口预测距离控制的全景视频流QoE优化方法,其特征在于,包括如下步骤:
步骤1,构建视口预测距离控制模型,并对所构建的视口预测距离控制模型进行训练;
步骤2,视口预测距离控制模型输入端接收视频客户端发送的输入状态,输出端输出动作实现决策,其中输入状态包括吞吐量向量、缓冲区向量,输出动作包括视频下载暂停时间、码率阈值、播放速率;
步骤3,视口预测距离控制模型将输出动作发送到视频客户端,视频客户端根据视频下载暂停时间决定下一个视频片段的请求时间点,及根据码率阈值与未来视口预测结果确定每个空间瓦片的比特率;
步骤4,视频客户端向视频服务器发送视频片段下载请求,视频服务器根据步骤3的结果返回所请求片段的空间瓦片;视频客户端将所有瓦片拼接为全景视频,并以视口预测距离控制模型输出的播放速率进行播放;
所述视口预测距离控制模型包括卷积神经网络、全连接网络,输入端由两个独立的卷积神经网络分别接收两个输入状态,通过卷积神经网络进行卷积处理后,在全连接网络实现汇合,最后经过全连接网络的映射后传递给网络输出层,实现动作决策;
所述步骤1中视口预测距离控制模型采用基于连续值动作控制的深度强化学习算法进行模型训练;
所述模型训练的优化目标函数为:
其中,wk表示QoE性能;σk表示视频下载暂停时间;μk表示码率阈值;ρk表示视频播放速率;k表示视频片段序号,k=1,2,…,K;QoE性能wk被定义为所述模型训练的训练奖励,具体公式为:
wk=wk,0-0.5×wk,1-0.5×wk,2-5×wk,3
其中,wk,0表示视频质量;wk,1表示空间维度视频质量平滑度;wk,2表示时间维度视频质量平滑度;wk,3表示视频播放卡顿时长;
其中,rk,i是瓦片i的比特率,ξk,i是0/1标志,ξk,i=1表示瓦片i在用户视口内被实际观看,ξk,i=0表示瓦片i未被观看;
wk,2=|wk,0-wk-1,0|
wk,3=max[(ρk×τk-bk),0]
其中,τk是下载片段k所花费的时间,ρk是播放速率,bk是请求视频片段k时刻的缓冲区占用率;
所述步骤2中吞吐量向量定义为状态0,状态0用于检测网络吞吐量状况,以向量形式表示滑动窗口;向量由g个样本组成,即C=<ck-1,ck-2,…,ck-g>,其中每个样本量化下载过去g个片段之一的平均吞吐量;
所述步骤2中缓冲区向量定义为状态1,状态1用于记录缓冲区占用率变化情况,以向量形式表示滑动窗口;向量由h个样本组成,即B=<bk-1,bk-2,…,bk-h>,其中每个样本表示请求过去h个片段之一的即时缓冲区占用率;
通过所述步骤2中的视频下载暂停时间σk确定下一个视频片段的开始传输时间tk+1,具体计算公式为:
tk+1=fk+min(bk,σk)
其中,fk分别表示传输视频片段k的完成时间,bk为fk时刻的缓冲区占用率;
通过所述步骤2中的码率阈值μk对空间瓦片的码率分配进行控制,具体公式为:
其中,ξk,i是未来视口预测结果,为0/1标志,ξk,i=1表示瓦片i在用户视口内被实际观看,ξk,i=0表示瓦片i未被观看;rk,i为视频片段k中瓦片i的比特率,由函数G(.)所决策,函数G(.)表示在传送每个片段之前,播放器对每个瓦片做出比特率决定;
通过所述步骤2中的播放速率ρk对缓冲区进行控制,具体公式为:
bk+1=max[(bk-ρk×τk),0]+lk
其中,τk是下载片段k所花费的时间;lk是片段的物理持续时间;bk是请求视频片段k时刻的缓冲区占用率;bk+1是下载视频片段k后的缓冲区占用率。
2.根据权利要求1所述的基于视口预测距离控制的全景视频流QoE优化方法,其特征在于,所述模型训练的训练环境具体为:将视口预测距离控制模型部署于基于吞吐量跟踪数据与视口变化跟踪数据的模拟器中,模拟器随后根据所决策的视频比特率与当前可用吞吐量计算视频片段的下载时长,然后将片段的物理持续时间累积到当前缓冲区占用率中,以模拟视频片段的下载完成;同时,对于视频播放,系统维持一个播放缓冲区,缓冲区数据的消耗量受视频播放速率的影响;在整个流媒体播放过程中,模拟器会持续跟踪卡顿情况,以便进行后期QoE分析。
3.根据权利要求1所述的基于视口预测距离控制的全景视频流QoE优化方法,其特征在于,根据步骤2所得的播放速率ρk设置速率变化上限κmax,对播放速率ρk进行限制,具体为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311411669.5A CN117156175B (zh) | 2023-10-30 | 2023-10-30 | 基于视口预测距离控制的全景视频流QoE优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311411669.5A CN117156175B (zh) | 2023-10-30 | 2023-10-30 | 基于视口预测距离控制的全景视频流QoE优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117156175A CN117156175A (zh) | 2023-12-01 |
CN117156175B true CN117156175B (zh) | 2024-01-30 |
Family
ID=88908397
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311411669.5A Active CN117156175B (zh) | 2023-10-30 | 2023-10-30 | 基于视口预测距离控制的全景视频流QoE优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117156175B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018049221A1 (en) * | 2016-09-09 | 2018-03-15 | Vid Scale, Inc. | Methods and apparatus to reduce latency for 360-degree viewport adaptive streaming |
CN109413448A (zh) * | 2018-11-05 | 2019-03-01 | 中山大学 | 基于深度强化学习的移动设备全景视频播放系统 |
KR101982290B1 (ko) * | 2018-02-27 | 2019-05-24 | 광운대학교 산학협력단 | 적응적 스트리밍 서비스의 체감 품질 향상을 위한 콘텐츠 특성 기반 스트리밍 시스템 및 방법 |
CN110099294A (zh) * | 2019-06-11 | 2019-08-06 | 山东大学 | 一种针对360度视频的保持时空一致性的动态自适应流媒体码率分配方法 |
CN110248247A (zh) * | 2019-06-12 | 2019-09-17 | 深圳市大数据研究院 | 基于网络吞吐量的嵌入式动态视频播放控制方法及装置 |
CN112511844A (zh) * | 2020-11-10 | 2021-03-16 | 北京大学 | 一种基于360度视频流的传输方法及系统 |
CN112565606A (zh) * | 2020-12-02 | 2021-03-26 | 鹏城实验室 | 全景视频智能传输方法、设备及计算机存储介质 |
CN112822564A (zh) * | 2021-01-06 | 2021-05-18 | 鹏城实验室 | 一种基于视点的全景视频自适应流媒体传输方法及系统 |
CN113905221A (zh) * | 2021-09-30 | 2022-01-07 | 福州大学 | 一种立体全景视频非对称传输流自适应方法及系统 |
CN114900506A (zh) * | 2022-07-12 | 2022-08-12 | 中国科学技术大学 | 面向用户体验质量的360度视频视口预测方法 |
WO2023051138A1 (zh) * | 2021-09-29 | 2023-04-06 | 腾讯科技(深圳)有限公司 | 沉浸媒体的数据处理方法、装置、设备、存储介质及程序产品 |
CN116017003A (zh) * | 2023-01-09 | 2023-04-25 | 西安交通大学 | 基于多种人工智能方法的自适应vr360视频点播方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10979663B2 (en) * | 2017-03-30 | 2021-04-13 | Yerba Buena Vr, Inc. | Methods and apparatuses for image processing to optimize image resolution and for optimizing video streaming bandwidth for VR videos |
-
2023
- 2023-10-30 CN CN202311411669.5A patent/CN117156175B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018049221A1 (en) * | 2016-09-09 | 2018-03-15 | Vid Scale, Inc. | Methods and apparatus to reduce latency for 360-degree viewport adaptive streaming |
KR101982290B1 (ko) * | 2018-02-27 | 2019-05-24 | 광운대학교 산학협력단 | 적응적 스트리밍 서비스의 체감 품질 향상을 위한 콘텐츠 특성 기반 스트리밍 시스템 및 방법 |
CN109413448A (zh) * | 2018-11-05 | 2019-03-01 | 中山大学 | 基于深度强化学习的移动设备全景视频播放系统 |
CN110099294A (zh) * | 2019-06-11 | 2019-08-06 | 山东大学 | 一种针对360度视频的保持时空一致性的动态自适应流媒体码率分配方法 |
CN110248247A (zh) * | 2019-06-12 | 2019-09-17 | 深圳市大数据研究院 | 基于网络吞吐量的嵌入式动态视频播放控制方法及装置 |
CN112511844A (zh) * | 2020-11-10 | 2021-03-16 | 北京大学 | 一种基于360度视频流的传输方法及系统 |
CN112565606A (zh) * | 2020-12-02 | 2021-03-26 | 鹏城实验室 | 全景视频智能传输方法、设备及计算机存储介质 |
CN112822564A (zh) * | 2021-01-06 | 2021-05-18 | 鹏城实验室 | 一种基于视点的全景视频自适应流媒体传输方法及系统 |
WO2023051138A1 (zh) * | 2021-09-29 | 2023-04-06 | 腾讯科技(深圳)有限公司 | 沉浸媒体的数据处理方法、装置、设备、存储介质及程序产品 |
CN113905221A (zh) * | 2021-09-30 | 2022-01-07 | 福州大学 | 一种立体全景视频非对称传输流自适应方法及系统 |
CN114900506A (zh) * | 2022-07-12 | 2022-08-12 | 中国科学技术大学 | 面向用户体验质量的360度视频视口预测方法 |
CN116017003A (zh) * | 2023-01-09 | 2023-04-25 | 西安交通大学 | 基于多种人工智能方法的自适应vr360视频点播方法及系统 |
Non-Patent Citations (3)
Title |
---|
Spatial and Temporal Consistency-Aware Dynamic Adaptive Streaming for 360-Degree Videos;Hui Yuan等;《IEEE Journal of Selected Topics in Signal Processing》;第14卷(第1期);全文 * |
基于模糊控制的流媒体自适应传输算法;侯永宏;邢家明;王利伟;;计算机工程与科学(第08期);全文 * |
基于码流的G-PCC压缩点云无参考感知质量评估;宋辉等;《信号处理》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117156175A (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113242469B (zh) | 一种自适应视频传输配置方法和系统 | |
CN112953922B (zh) | 一种自适应流媒体控制方法、系统、计算机设备及应用 | |
CN113905221B (zh) | 一种立体全景视频非对称传输流自适应方法及系统 | |
CN112714315B (zh) | 基于全景视频的分层缓冲方法及系统 | |
Park et al. | Mosaic: Advancing user quality of experience in 360-degree video streaming with machine learning | |
Park et al. | Navigation graph for tiled media streaming | |
CN115037962B (zh) | 视频自适应传输方法、装置、终端设备以及存储介质 | |
Sun et al. | Optimal strategies for live video streaming in the low-latency regime | |
Feng et al. | Vabis: Video adaptation bitrate system for time-critical live streaming | |
CN112055263A (zh) | 基于显著性检测的360°视频流传输系统 | |
CN114040257B (zh) | 一种自适应视频流传输播放方法、装置、设备及存储介质 | |
KR102129115B1 (ko) | 컨텐츠 인지 신경망을 이용하여 실시간으로 적응형 비디오를 전송하는 방법 및 장치 | |
Li et al. | Fleet: improving quality of experience for low-latency live video streaming | |
CN117156175B (zh) | 基于视口预测距离控制的全景视频流QoE优化方法 | |
CN114095756B (zh) | 基于长期视野预测的自适应全景视频流传输系统及其方法 | |
CN115022684B (zh) | 一种quic协议下基于深度强化学习的视频流自适应传输方法 | |
CN113645487B (zh) | 码率自适应分配方法 | |
Khan et al. | Stochastic Dynamic Programming in DASH | |
CN114900506A (zh) | 面向用户体验质量的360度视频视口预测方法 | |
Wei et al. | Joint reinforcement learning and game theory bitrate control method for 360-degree dynamic adaptive streaming | |
Khan et al. | Performance of Q-Learning algorithms in DASH | |
Moldovan et al. | Optimizing HAS for 360-degree videos | |
CN113395603B (zh) | 一种基于模型预测控制的点云视频流自适应传输方法 | |
CN113411628B (zh) | 直播视频的码率自适应方法、装置、电子设备及可读介质 | |
Younus et al. | Encoder-Decoder Based LSTM Model to Advance User QoE in 360-Degree Video. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |