CN114900506B - 面向用户体验质量的360度视频视口预测方法 - Google Patents
面向用户体验质量的360度视频视口预测方法 Download PDFInfo
- Publication number
- CN114900506B CN114900506B CN202210813281.7A CN202210813281A CN114900506B CN 114900506 B CN114900506 B CN 114900506B CN 202210813281 A CN202210813281 A CN 202210813281A CN 114900506 B CN114900506 B CN 114900506B
- Authority
- CN
- China
- Prior art keywords
- user
- viewport
- video
- quality
- tiles
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/80—Responding to QoS
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
- H04N21/44213—Monitoring of end-user related data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4662—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
- H04N21/4665—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms involving classification methods, e.g. Decision trees
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
- H04N21/4728—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/63—Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
- H04N21/647—Control signaling between network components and server or clients; Network processes for video distribution between server and clients, e.g. controlling the quality of the video stream, by dropping packets, protecting content from unauthorised alteration within the network, monitoring of network load, bridging between two different networks, e.g. between IP and wireless
- H04N21/64723—Monitoring of network processes or resources, e.g. monitoring of network load
- H04N21/64738—Monitoring network characteristics, e.g. bandwidth, congestion level
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/63—Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
- H04N21/647—Control signaling between network components and server or clients; Network processes for video distribution between server and clients, e.g. controlling the quality of the video stream, by dropping packets, protecting content from unauthorised alteration within the network, monitoring of network load, bridging between two different networks, e.g. between IP and wireless
- H04N21/64746—Control signals issued by the network directed to the server or the client
- H04N21/64761—Control signals issued by the network directed to the server or the client directed to the server
- H04N21/64769—Control signals issued by the network directed to the server or the client directed to the server for rate control
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/816—Monomedia components thereof involving special video data, e.g 3D video
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Security & Cryptography (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Social Psychology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及计算机网络视频流技术领域,公开了一种面向用户体验质量的360度视频视口预测方法,综合利用当前用户的观看信息、视频内容信息和跨用户的轨迹信息三方面特征,以最大化用户观看的体验质量(QoE)为最终目标,使用强化学习方法进行模型训练,对视口位置和选择的视口大小进行预测,以协助码率决策模块为用户提供最优的观看体验质量。
Description
技术领域
本发明涉及计算机网络视频流技术领域,具体涉及一种面向用户体验质量的360度视频视口预测方法。
背景技术
虚拟现实(VR)利用计算机技术构建三维模型,并通过360度全景视频的效果模拟现实世界,可以为观看者营造一种身临其境的感觉。这种全景视频是以用户所在位置为中心,给用户展示全方位的场景,它不受时间和空间的限制,带来更加真实、立体的视觉和听觉体验。
自2019年开始,在5G正式商用的加持下,360度全景视频逐渐发展为未来视频服务的新型载体,受到越来越多的关注。在视频制作方面,全景相机如Google Jump、KandaoObsidian、Insta360等可以进行多个摄像头同时拍摄,通过在线或离线拼接即可生成高质量360度视频内容。在视频分发方面,社交媒体平台包括YouTube、Facebook和爱奇艺等也都新增了全景视频业务,将视频内容部署在各地的服务器上,以支持用户实时流畅地观看360度全景视频。
然而目前,360度全景视频的应用还存在一些挑战,使其无法得到预期的观看效果。一方面,全景视频因其超高分辨率和超高码率的特点,对网络带宽提出了严苛的要求。一个8K分辨率的全景视频,其大小是普通高清视频的几十倍,需要超过260Mbps的带宽才能保证其在预期的时间内完成传输,这在目前的网络状况下是很难实现的。另一方面,全景视频的观看体验对时延十分敏感,一般来说,只有低于20ms的时延,才能保证用户观看时不会产生明显的眩晕感,这要求网络系统具有高保真和低延迟的特性。所以全景视频如何自适应传输成为全景视频业务发展和应用的关键因素。
用户在使用头戴式显示器(HMD)或其他设备观看360度视频时,在某个时刻其视场只能覆盖视频的一部分,而传统的做法是将360度视频本身全部传输,这不仅会对网络负载带来巨大的压力,同时没有观看的部分也是对资源的浪费。目前最有效的做法是采用基于瓦片(tile-based)的方式,如图2所示,将全景视频切分成多个瓦片,根据用户视角切换,对用户视域内的瓦片采用高码率传输,而对剩余部分采用较低码率进行传输,以此实现网络带宽的高效利用和用户观看体验的提升。由于信息采集和网络时延,内容服务器需要提前知道用户未来的观看视角,将指定的瓦片以高码率发送给用户,才能保证用户的实时观看。因此,360度视频的视口(Field of view,FOV)预测就显得尤为重要,它是360度视频流系统中的首要工作,其准确度对码率决策和缓存的性能有很大的影响。
现有的视口预测方法都是以最小化预测误差作为设计目标,但是视口预测算法的根本目的还是用于360度视频的传输,通过预测用户视口,提前预取对应的视频,以优化用户观看视频的体验质量。考虑到视频不同瓦片的实际数据量大小、用户头部运动轨迹和运动趋势等因素,传统的以最小化预测精度为目标的视口预测方法,没有充分考虑预测错误的不同情况对应的用户视口区域预测结果对视频预取的影响,也忽略了视野预测和码率选择的关联性,并不能直接保证360度视频用户最佳的体验质量(Quality of Experience,QoE)。
当前360度视频的视口预测工作主要分为两类,单用户预测和跨用户预测,而单用户预测又分为基于用户轨迹和基于视频内容。基于用户轨迹的方法,是利用用户观看时轨迹的连续性进行预测,在得到用户之前一段时间的观看轨迹后进行合理外推,得到未来一段时间内的观看位置,常用的方法有:线性回归、脊回归和长短期记忆网络(LSTM)等。这种方法在短时间内(如1s)的预测效果比较理想,因为短时间内用户的头部运动一般不会发生剧烈的运动。而对于更长时间的预测,由于头部运动的不规律性,其精度会有大幅下降,这对于360度视频瓦片的预取和缓存是不利的。基于视频内容的预测,是对视频内容进行分析,运用图像处理或目标跟踪技术,找到一些人类感兴趣的热点区域,常见的为运动的或者与背景差异性较大的物体,并以此为依据对用户视野进行预测。这种方法的好处是能够进行更长时间的预测,但缺点也很明显,由于缺乏用户本身信息的参与以及热点区域往往不止一块,其预测精度不是很高。
跨用户预测是利用多个用户观看同一个360度全景视频时,其观看行为具有相似性的特点进行预测。常见的方法有在服务器端对多个已观看用户观看瓦片的次数进行统计,生成瓦片的概率统计图,也可以称为瓦片的流行度图,并以对正在观看用户的视野进行预测;同时也有将已观看的多个轨迹聚成多个类,将需要预测的用户划归到某个类,用这个类的信息在短时间内预测当前用户的头部运动。这样做的好处是可以在某种程度上抓取有效的内容相关信息,而不需要使用像素分析。
以上分析的各种预测方法,都存在各自的优劣。同时目前的流媒体系统优化忽略了视口预测和码率决策的耦合性,将其作为两个独立的问题分别解决。不论预测结果和精度如何,采取既定的码率决策方式进行码率分配,但其实视口预测和码率决策综合影响者用户QoE,并且两者之间也存在相关性。
对此,本发明提出面向用户体验质量的360度视频视口预测方法,使用强化学习将多特征和用户的QoE进行综合处理和融合,实现动态自适应视口预测,力争达到最大化用户体验质量的最终目标。
发明内容
为解决上述技术问题,本发明提供一种面向用户体验质量的360度视频视口预测方法。
为解决上述技术问题,本发明采用如下技术方案:
一种面向用户体验质量的360度视频视口预测方法,包括以下步骤:
步骤一:利用视觉注意机制提取视频中各帧图像的感兴趣区域,得到显著性图;利用光流法提取相邻两帧图像的运动特征,得到光流图;对显著性图和光流图归一化处理后,将计算得到的视频每个瓦片内部像素值的均值作为该瓦片在仅考虑视频内容情况下的观看概率,得到内容特征;
步骤二:将视口中心点的距离在阈值内的用户聚类一组,得到每个用户所属组别、各组用户数、各组用户视口中心点;每组用户视口中心点对应一块区域;任意一组用户对应区域的观看概率为该组用户数/总用户数;多组用户对应的区域如果重叠,则重叠区域的观看概率为该多组用户对应区域的观看概率的叠加,进而计算视频每个瓦片的归一化观看概率,得到跨用户观看特征;
步骤四:内容特征、跨用户观看特征、单用户历史轨迹特征统称为输入特征;通过强化学习方式在不同观看时间点对三种输入特征赋予不同的权重,得到每个瓦片的观看概率,并在用户观看体验质量QoE的反馈作用下,预测用户视口位置并动态调整视口区域大小,通过码率决策算法选择视口内瓦片的码率;
强化学习的奖励Reward=QoE;
具体地,步骤二中通过Kmeans进行用户中心聚类;定义用户v在t时刻的视口中心点为,x、y分别横向偏航值和纵向俯仰值;考虑到视口的偏航值可以越过等距形投影的边界,需要将中心点的偏航值建模为连续的序列,计算两个用户视口中心点的欧式距离
即如果用户视口中心点与聚类中心点的距离小于30°,并持续△t的时间,则将该用户化归为这一组。
具体地,用户观看视频第c个片段的体验质量
其中表示第c个片段的第i行第j列质量等级k的瓦片的质量,u(*)为视频质量的效用函数,,C为与不同视频类型有关的常数;表示第c个片段的第i行第j列质量等级k的瓦片的是否被用户观看,表示被用户观看,表示未被用户观看;
时域抖动
具体地,码率决策算法如下:
通过历史带宽信息对未来的带宽情况进行预测,得到分配给片段c的带宽预算为;第c个片段的第i行第j列的瓦片的观看概率为,视口内瓦片的数量为N,第c个片段中共有I*J个瓦片,视口外的瓦片分配最低等级的码率,对视口内的瓦片按观看概率分配剩余的带宽资源;
值得注意是,本发明并不对QoE的定义和码率决策算法进行限定。不同类型用户所处的网络条件有差异,同时他们在观看360度视频时对视频质量和关心的重点有不同的要求,因此用户观看QoE的定义和码率决策算法并不唯一;而且本发明中预测方法能根据不同的QoE定义和码率决策算法训练出不同的用户视口自适应预测模型,以满足不同层面的需求,从而在不同的流媒体系统中依旧能为用户提供良好的观看体验。
本发明给出的QoE定义以及码率决策算法仅为举例,属于优选实施方案。
本发明在360度视频流媒体系统中,针对现有的预测方法没有考虑用户QoE反馈对整个预测系统的影响以及单特征变量视口预测无法适应复杂的观看情况,而导致用户观看视频时出现卡顿、抖动的问题,提出了面向用户体验质量的360度视频视口预测方法,使用强化学习对多特征变量的融合进行训练,并采用基于瓦片(tile-based)的方式动态调整视口内瓦片的数量,为用户提供更加良好、清晰、流畅的VR观看体验。相较于现有技术,本发明主要优点如下:
1)本发明以用户观看QoE为优化目标,可以综合考虑视频质量、时域抖动和空间差异等因素的影响,并以QoE作为反馈对整个预测方法进行动态调整,在预测精度改变时,动态地改变预测和瓦片选择策略,保证用户体验质量不会大幅下降,相比于单纯以预测精度为评价指标的方法,在一定程度上避免了平均预测精度高而用户实际观看体验差的情况。
2)本发明对三种输入特征进行融合,不同时刻的预测结果受各输入变量的影响不同,权重由强化学习网络训练得出,体现了不同时刻用户偏好与视频内容的相关性,更符合实际场景,提高了预测的稳定性。
3)本发明考虑了视口预测与码率决策的相关性,可动态调整视口区域大小(即需要码率选择的瓦片数目),为码率决策提供先验知识,对带宽资源的利用更有灵活性,保证了带宽波动情况下的用户观看体验。
附图说明
图1为本发明预的系统框架图;
图2为本发明视频瓦片的示意图;
图3为本发明内容特征提取的流程示意图;
图4为本发明跨用户观看特征提取的流程示意图;
图5为本发明单用户历史轨迹特征的流程示意图。
具体实施方式
下面结合附图对本发明的一种优选实施方式作详细的说明。
本发明提出面向用户体验质量的360度视频视口预测方法,使用强化学习进行多特征和用户QoE的融合训练,生成预测模型,用于进行360度视频视口预测,以获得用户体验质量,能适用于多种QoE的定义方式和码率决策算法。
如图1所示,预测系统包括输入模块、预测模块、码率决策模块,预测模块包括视口融合单元、瓦片选择单元;整个预测系统考虑三个维度的输入变量,分别是视频内容特征、其他用户关于当前频的完整历史观看轨迹统计信息、当前用户关于当前频的已有的历史观看轨迹,对三个输入变量进行预处理提取特征后,将得到的三个输入特征,输入至预测模块进行特征融合,生成瓦片的概率分布图。考虑到在实际场景下,不同时刻输入变量对预测结果的影响不同,需要对输入特征的影响进行实时调整,以适应用户的观看偏好。这里使用强化学习对视口融合单元中输入特征的权值和瓦片选择单元中视口内瓦片数目进行决策,以优化用户观看的QoE为最终目标,保证了预测的精度和稳定性。之后通过码率决策模块为选择的瓦片决策合适的码率进行传输,并利用奖励评价模块对用户观看的QoE进行评价和反馈。
内容特征的生成和预处理:
显著性图(saliency map)是利用视觉注意机制对图像进行分区处理,将图像中的区域分为人类感兴趣区域和人类不感兴趣区域,而感兴趣区域就被称为显著性区域,通常这部分在像素值上比背景区域具有更大的值。同时注意到,显著性处理是一种特征处理的方式,显著性图比原始图像要小的多,因此预先对图像进行显著性处理,提取显著性特征,可以有效减小输入数据量的大小,降低系统计算的复杂度。本发明采用常见的SalNet网络生成显著性图。
光流图(motion map)是使用光流法提取视频中运动特征,利用图像序列在时间上的变化和相邻帧之间的相关性,来找到相邻帧之间的物体的运动信息。通过这种方式,可以将视频中的运动物体区域和背景进行简单的筛分。
如图3所示,本发明使用显著性图和光流图作为内容特征输入,对视频内容中人类可能感兴趣的区域进行筛选,同时避免了直接输入原始视频减小了处理的数据量。对于视频的每一帧来说,生成的显著性图为灰度值(0-255)的图像,而数值的大小代表了显著性,光流图则为二值化(0和1)的图像,其数值表示运动与否。对二者做归一化处理后,计算每块瓦片内部像素值的均值作为该瓦片在仅考虑内容特征下的观看概率。
基于聚类的跨用户的观看特征:
考虑到不同用户观看同一个360度视频的轨迹不全是杂乱无章的,而是热点相关,存在一定的关联性和规律性,可以利用聚类的方式,将有相同观看兴趣的观众划归一类,提取跨用户特征用于视口预测。
对于用户观看视频时的头部位置,可以采用欧拉角坐标(yaw,pitch,roll)来表示,其中yaw表示绕y轴旋转横向的偏航值,pitch表示绕x轴旋转纵向的俯仰值,roll表示绕z轴旋转的翻滚值,由这三个分量可以确定头部的旋转信息。而用户观看的视口是与头部位置相关联的,这里一般只考虑横向的偏航值和纵向的俯仰值,这两个量可以在360度视频的投影图(矩形)上确定唯一一个观看中心点,对于这个中心点进行外拓可得到用户的视口。
用户视口的中心点距离越近,证明用户观看行为越相似,通过Kmeans进行用户中心聚类;定义用户v在t时刻的视口中心点为,x、y分别横向偏航值和纵向俯仰值;考虑到视口的偏航值可以越过等距形投影的边界,需要将中心点的偏航值建模为连续的序列,计算两个用户视口中心点的欧式距离
即如果用户视口中心点与聚类中心点的距离小于30°,并持续△t的时间,则将该用户化归为这一组。使用30°作为阈值来做聚类,可以保证所有的观众在一个集群有至少60%的视口重叠,具有比较高的观看相似性。因为视口中心点投影后用横向偏航值和纵向俯仰值两个角度值来衡量,与世界地图类似,横向偏航值从-180°到180°,-180°和180°为同一角度值,纵向俯仰值从-90°到90°,因两者单位都为角度,所以欧式距离也为角度,这里用30°表示距离的远近。
当聚类完成后,可以得到每个用户所属组别、各个组人数和各个组的观看中心点,那么每个集群中心点会对应一块区域,定义区域观看概率为组人数/总人数,对于集群重叠区域,其观看概率为概率的叠加,因为其在多个组内都是热点区域。最后对于整个视频划分瓦片,计算得到每块瓦片的归一化概率,这个概率反映了跨用户的观看特征,如图4所示。
基于LSTM外推的单用户历史轨迹特征:
由于短时间内用户头部运动的连续性,之前的观看轨迹也可以用来预测未来的观看位置。由于简单的线性回归方法,在拟合线性模型时对不同时间的历史轨迹赋予了相同的权值,而实际的情况是一般越接近发生时间的轨迹对预测结果影响更大。因此这里采用LSTM训练来得到预测模型,作为非线性模型,LSTM可用多个的非线性单元生成更复杂的权重网络结构,同时对用户观看的行为有一定的记忆功能。
与原始LSTM模型的监督学习过程相同,先用收集到的训练数据训练模型,然后在预测时推断出新的数据。LSTM预测模型的训练:采集前一段视频的用户轨迹,收集k个样本点作为训练数据,将每个样本点中每一帧的索引作为时间戳。LSTM预测模型的输入为前m个采样点的坐标,输出为预测的第m+1采样点的坐标,将时间戳往后移一位,重复上述过程,直至输出为第k个采样点,完成一轮epoch的训练。由于偏航值和俯仰值方向用户的运动方式不同,需要对其分开训练和预测,根据得到的预测结果生成位置坐标并在下一段视频中推断出用户的视口中心。本发明采用如图5所示的方式,先对LSTM进行预训练,在预测时根据预测结果和实际观看结果对模型进行实时训练和更新。在划分瓦片后,根据每块瓦片距离预测视口中心的距离,计算每块瓦片的归一化概率,得到用户自身轨迹使用LSTM模型生成的轨迹相关特征。
QoE定义和码率决策算法:
值得注意是,本发明并不单独对QoE的定义和码率决策算法进行设计。这是由于不同类型用户所处的网络条件有差异,同时他们在观看360度视频时对视频质量和关心的重点有不同的要求,因此用户QoE的定义和码率决策算法并不唯一。
本发明中的预测方法设计是能根据不同QoE定义和码率决策算法训练出不同的用户视口自适应预测模型,以满足不同层面的需求,从而在不同的流媒体系统中依旧能为用户提供良好的观看体验。为了系统的完整性,本发明后续分别给出它们的定义和说明。
强化学习算法:
如果使用三种输入特征单一作用进行预测,其无法对视频内容切换和头部转动同时做出反应,预测的精度随时间的起伏较大,造成虽然平均预测精度不低,但用户观看的QoE会显著下降的现象。本发明提出将三种输入特征进行融合预测,解决单一输入特征预测稳定性较低的问题。在观看的不同时期这三种输入特征的预测结果会有不同,例如在视频内容的场景出现切换时,内容特征比单轨迹特征的预测更加准确;而对于运动相关的视频跨用户的特征预测往往具有更高的稳定性。
对于如何在不同观看时间点赋予输入特征不同权重,将用户观看偏好与视频内容相结合,实现三种输入特征的实时融合,以及在用户QoE反馈作用下,如何动态调整视口区域大小(这个大小是通过定义视区内瓦片的数目来体现的),最终实现用户QoE的最大化,采取强化学习的方式寻找全局最优的策略。
动作(Action):即决策变量,表示各输入特征的权重值和视口内瓦片的数目,其中,分别表示的权重值,取值范围为0到1;的取值是离散值,需根据瓦片的划分方式确定,对于常见的10×5划分方式,的取值在8到15之间比较合适。
奖励(Reward):即全局QoE增益,Reward=QoE,优化目标是使用户观看整个视频的QoE总和最大。
通过强化学习训练得到一个高效的用户视口预测模型,在实际应用中,根据系统运行过程中的相关信息,结合用户观看的QoE,通过该用户视口预测模型做出用户视口预测。在此基础上,根据当前状态来实时调整各输入特征的权重和视口内瓦片的数目,得到更加稳定的预测结果,使得用户的总体观看体验的增益达到最大,为用户提供高效的VR视频服务。
QoE定义举例:
那么这个用户观看整个视频的QoE为所有片段的用户观看体验质量的总和:
(1)第c个片段的质量效用为:
码率决策算法举例:
以基于带宽的码率决策算法为例:首先基于历史带宽信息对未来的带宽情况进行预测,假设得到分配给片段c的带宽预算为;通过视口预测,可以得到对于第c个片段的第i行第j列的瓦片的观看概率为;通过瓦片选择单元得到需要码率决策的视口区域瓦片数目为N;若瓦片的划分方式为I×J,则一个片段中共有I*J个瓦片;对于视口区域外的瓦片分配最低等级的码率,以保证在预测不准确时最低观看的观看需求;对于视口区域内的瓦片按观看概率分配剩余的带宽资源。
强化学习框架举例:
为了有效利用计算资源加快训练速度,可以采取Asynchronous AdvantageActor-Critic强化学习框架,简称A3C,对预测策略进行不断地尝试和学习,在RewardEstimator中进行回报评估,使其收敛到满意的水平。
定义动作优势函数为:
其中V(S)表示估计的状态价值,负责评判策略的优势,指导策略的更新;
初始化更新网络参数
Actor本地梯度更新规则为:
其中H(*)表示熵函数,c为熵函数的系数,目的是能够探索更多的可能动作,ρ表示学习率,决定学习的速率,控制算法收敛的速度,防止过拟合和欠拟合;
Critic本地梯度更新规则为:
全局神经网络的模型参数更新:
Actor和Critic相互更新,最终获得reward最大的网络模型,可以根据当前状态实时有效调整输入特征的权重和瓦片选择的数目,以达到用户观看QoE最大,为用户提供良好的VR体验。
平台搭建举例:
可以在仿真环境和实际环境中测试这套360度视频视口预测方案,来验证本发明的性能优势。
仿真平台可在服务器上搭建,基于TensorFlow等机器学习库构建强化学习环境,训练预测模型,使用拥有用户视口变化轨迹的公开360度视频数据集,测试本发明在用户观看全局QoE、平均码率、平均抖动和预测精度等多个性能指标。
为了测试真实平台的实验效果,可以在ATS(Apache Traffic Server)缓存服务器中部署的360度视频服务系统,使用FFmpeg工具进行瓦片切割,使用MP4box工具进行视频的流化。用户在客户端以Dash的方式,实时请求观看360度全景视频,以用户实际观看体验评分的方式来测试视口预测的性能。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立技术方案,说明书的这种叙述方式仅仅是为了清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (4)
1.一种面向用户体验质量的360度视频视口预测方法,包括以下步骤:
步骤一:利用视觉注意机制提取视频中各帧图像的感兴趣区域,得到显著性图;利用光流法提取相邻两帧图像的运动特征,得到光流图;对显著性图和光流图归一化处理后,将计算得到的视频每个瓦片内部像素值的均值作为该瓦片在仅考虑视频内容情况下的观看概率,得到内容特征;
步骤二:将视口中心点的距离在阈值内的用户聚类一组,得到每个用户所属组别、各组用户数、各组用户视口中心点;每组用户视口中心点对应一块区域;任意一组用户对应区域的观看概率为该组用户数/总用户数;多组用户对应的区域如果重叠,则重叠区域的观看概率为该多组用户对应区域的观看概率的叠加,进而计算视频每个瓦片的归一化观看概率,得到跨用户观看特征;
步骤四:内容特征、跨用户观看特征、单用户历史轨迹特征统称为输入特征;通过强化学习方式在不同观看时间点对三种输入特征赋予不同的权重,得到每个瓦片的观看概率,并在用户观看体验质量QoE的反馈作用下,预测用户视口位置并动态调整视口区域大小,通过码率决策算法选择视口内瓦片的码率;
强化学习的奖励Reward=QoE;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210813281.7A CN114900506B (zh) | 2022-07-12 | 2022-07-12 | 面向用户体验质量的360度视频视口预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210813281.7A CN114900506B (zh) | 2022-07-12 | 2022-07-12 | 面向用户体验质量的360度视频视口预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114900506A CN114900506A (zh) | 2022-08-12 |
CN114900506B true CN114900506B (zh) | 2022-09-30 |
Family
ID=82729855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210813281.7A Active CN114900506B (zh) | 2022-07-12 | 2022-07-12 | 面向用户体验质量的360度视频视口预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114900506B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117156175B (zh) * | 2023-10-30 | 2024-01-30 | 山东大学 | 基于视口预测距离控制的全景视频流QoE优化方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109413448A (zh) * | 2018-11-05 | 2019-03-01 | 中山大学 | 基于深度强化学习的移动设备全景视频播放系统 |
CN110691236A (zh) * | 2019-09-18 | 2020-01-14 | 宁波大学 | 一种全景视频质量评价方法 |
CN112584119A (zh) * | 2020-11-24 | 2021-03-30 | 鹏城实验室 | 一种基于强化学习的自适应全景视频传输方法及系统 |
CN112929691A (zh) * | 2021-01-29 | 2021-06-08 | 复旦大学 | 多用户全景视频传输方法 |
CN113905221A (zh) * | 2021-09-30 | 2022-01-07 | 福州大学 | 一种立体全景视频非对称传输流自适应方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3470976A1 (en) * | 2017-10-12 | 2019-04-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for efficient delivery and usage of audio messages for high quality of experience |
CN110166764B (zh) * | 2018-02-14 | 2022-03-01 | 阿里巴巴集团控股有限公司 | 虚拟现实vr直播中的视角同步方法及装置 |
-
2022
- 2022-07-12 CN CN202210813281.7A patent/CN114900506B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109413448A (zh) * | 2018-11-05 | 2019-03-01 | 中山大学 | 基于深度强化学习的移动设备全景视频播放系统 |
CN110691236A (zh) * | 2019-09-18 | 2020-01-14 | 宁波大学 | 一种全景视频质量评价方法 |
CN112584119A (zh) * | 2020-11-24 | 2021-03-30 | 鹏城实验室 | 一种基于强化学习的自适应全景视频传输方法及系统 |
CN112929691A (zh) * | 2021-01-29 | 2021-06-08 | 复旦大学 | 多用户全景视频传输方法 |
CN113905221A (zh) * | 2021-09-30 | 2022-01-07 | 福州大学 | 一种立体全景视频非对称传输流自适应方法及系统 |
Non-Patent Citations (4)
Title |
---|
《基于强化学习的立体全景视频自适应流》;兰诚栋等;《电子与信息学报》;20220430;第44卷(第4期);第1462-1467页 * |
Reinforcement Learning Based Dynamic Adaptive;Xiaobin Tan等;《2021 4th International Conference on Hot Information-Centric Networking》;20211231;第69-73页 * |
Shunyi Wang等.A QoE-based 360° Video Adaptive Bitrate Delivery.《2020 16th International Conference on Mobility, Sensing and Networking (MSN)》.2020,第49-56页. * |
基于强化学习的 DASH 自适应码率决策算法研究;冯苏柳等;《中国传媒大学学报》;20200430;第27卷(第2期);第60-64页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114900506A (zh) | 2022-08-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Petrangeli et al. | Trajectory-based viewport prediction for 360-degree virtual reality videos | |
Li et al. | Very long term field of view prediction for 360-degree video streaming | |
Pang et al. | Towards low latency multi-viewpoint 360 interactive video: A multimodal deep reinforcement learning approach | |
Feng et al. | LiveDeep: Online viewport prediction for live virtual reality streaming using lifelong deep learning | |
Jiang et al. | Plato: Learning-based adaptive streaming of 360-degree videos | |
CN113242469A (zh) | 一种自适应视频传输配置方法和系统 | |
KR102472971B1 (ko) | 인공지능 모델을 이용한 동영상 인코딩 최적화 방법, 시스템, 및 컴퓨터 프로그램 | |
CN114900506B (zh) | 面向用户体验质量的360度视频视口预测方法 | |
Park et al. | Mosaic: Advancing user quality of experience in 360-degree video streaming with machine learning | |
Qin et al. | GuideRender: large-scale scene navigation based on multi-modal view frustum movement prediction | |
Feng et al. | LiveROI: region of interest analysis for viewport prediction in live mobile virtual reality streaming | |
Wei et al. | A hybrid control scheme for 360-degree dynamic adaptive video streaming over mobile devices | |
Jiang et al. | SVP: Sinusoidal viewport prediction for 360-degree video streaming | |
CN112202800B (zh) | C-ran架构中基于强化学习的vr视频边缘预取方法和系统 | |
Li et al. | Utility-driven joint caching and bitrate allocation for real-time immersive videos | |
Chen et al. | VCMaker: Content-aware configuration adaptation for video streaming and analysis in live augmented reality | |
Dong et al. | Predicting long-term field of view in 360-degree video streaming | |
CN113473172A (zh) | Vr视频缓存方法、装置、缓存服务装置以及存储介质 | |
Zhang et al. | Deep reinforcement learning based adaptive 360-degree video streaming with field of view joint prediction | |
CN114972429A (zh) | 云边协同自适应推理路径规划的目标追踪方法和系统 | |
Jiang et al. | Robust and resource-efficient machine learning aided viewport prediction in virtual reality | |
Wang et al. | Vaser: Optimizing 360-Degree Live Video Ingest via Viewport-Aware Neural Enhancement | |
Li et al. | Dynamic node selection in camera networks based on approximate reinforcement learning | |
Barbierato et al. | Second order fluid performance evaluation models for interactive 3D multimedia streaming | |
Xu et al. | Multi-Features Fusion based Viewport Prediction with GNN for 360-Degree Video Streaming |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |