CN114900506B - 面向用户体验质量的360度视频视口预测方法 - Google Patents

面向用户体验质量的360度视频视口预测方法 Download PDF

Info

Publication number
CN114900506B
CN114900506B CN202210813281.7A CN202210813281A CN114900506B CN 114900506 B CN114900506 B CN 114900506B CN 202210813281 A CN202210813281 A CN 202210813281A CN 114900506 B CN114900506 B CN 114900506B
Authority
CN
China
Prior art keywords
user
viewport
video
quality
tiles
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210813281.7A
Other languages
English (en)
Other versions
CN114900506A (zh
Inventor
谭小彬
徐祥
王顺义
刘卓林
郑烇
徐正欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202210813281.7A priority Critical patent/CN114900506B/zh
Publication of CN114900506A publication Critical patent/CN114900506A/zh
Application granted granted Critical
Publication of CN114900506B publication Critical patent/CN114900506B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • H04N21/4665Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms involving classification methods, e.g. Decision trees
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/647Control signaling between network components and server or clients; Network processes for video distribution between server and clients, e.g. controlling the quality of the video stream, by dropping packets, protecting content from unauthorised alteration within the network, monitoring of network load, bridging between two different networks, e.g. between IP and wireless
    • H04N21/64723Monitoring of network processes or resources, e.g. monitoring of network load
    • H04N21/64738Monitoring network characteristics, e.g. bandwidth, congestion level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/647Control signaling between network components and server or clients; Network processes for video distribution between server and clients, e.g. controlling the quality of the video stream, by dropping packets, protecting content from unauthorised alteration within the network, monitoring of network load, bridging between two different networks, e.g. between IP and wireless
    • H04N21/64746Control signals issued by the network directed to the server or the client
    • H04N21/64761Control signals issued by the network directed to the server or the client directed to the server
    • H04N21/64769Control signals issued by the network directed to the server or the client directed to the server for rate control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及计算机网络视频流技术领域,公开了一种面向用户体验质量的360度视频视口预测方法,综合利用当前用户的观看信息、视频内容信息和跨用户的轨迹信息三方面特征,以最大化用户观看的体验质量(QoE)为最终目标,使用强化学习方法进行模型训练,对视口位置和选择的视口大小进行预测,以协助码率决策模块为用户提供最优的观看体验质量。

Description

面向用户体验质量的360度视频视口预测方法
技术领域
本发明涉及计算机网络视频流技术领域,具体涉及一种面向用户体验质量的360度视频视口预测方法。
背景技术
虚拟现实(VR)利用计算机技术构建三维模型,并通过360度全景视频的效果模拟现实世界,可以为观看者营造一种身临其境的感觉。这种全景视频是以用户所在位置为中心,给用户展示全方位的场景,它不受时间和空间的限制,带来更加真实、立体的视觉和听觉体验。
自2019年开始,在5G正式商用的加持下,360度全景视频逐渐发展为未来视频服务的新型载体,受到越来越多的关注。在视频制作方面,全景相机如Google Jump、KandaoObsidian、Insta360等可以进行多个摄像头同时拍摄,通过在线或离线拼接即可生成高质量360度视频内容。在视频分发方面,社交媒体平台包括YouTube、Facebook和爱奇艺等也都新增了全景视频业务,将视频内容部署在各地的服务器上,以支持用户实时流畅地观看360度全景视频。
然而目前,360度全景视频的应用还存在一些挑战,使其无法得到预期的观看效果。一方面,全景视频因其超高分辨率和超高码率的特点,对网络带宽提出了严苛的要求。一个8K分辨率的全景视频,其大小是普通高清视频的几十倍,需要超过260Mbps的带宽才能保证其在预期的时间内完成传输,这在目前的网络状况下是很难实现的。另一方面,全景视频的观看体验对时延十分敏感,一般来说,只有低于20ms的时延,才能保证用户观看时不会产生明显的眩晕感,这要求网络系统具有高保真和低延迟的特性。所以全景视频如何自适应传输成为全景视频业务发展和应用的关键因素。
用户在使用头戴式显示器(HMD)或其他设备观看360度视频时,在某个时刻其视场只能覆盖视频的一部分,而传统的做法是将360度视频本身全部传输,这不仅会对网络负载带来巨大的压力,同时没有观看的部分也是对资源的浪费。目前最有效的做法是采用基于瓦片(tile-based)的方式,如图2所示,将全景视频切分成多个瓦片,根据用户视角切换,对用户视域内的瓦片采用高码率传输,而对剩余部分采用较低码率进行传输,以此实现网络带宽的高效利用和用户观看体验的提升。由于信息采集和网络时延,内容服务器需要提前知道用户未来的观看视角,将指定的瓦片以高码率发送给用户,才能保证用户的实时观看。因此,360度视频的视口(Field of view,FOV)预测就显得尤为重要,它是360度视频流系统中的首要工作,其准确度对码率决策和缓存的性能有很大的影响。
现有的视口预测方法都是以最小化预测误差作为设计目标,但是视口预测算法的根本目的还是用于360度视频的传输,通过预测用户视口,提前预取对应的视频,以优化用户观看视频的体验质量。考虑到视频不同瓦片的实际数据量大小、用户头部运动轨迹和运动趋势等因素,传统的以最小化预测精度为目标的视口预测方法,没有充分考虑预测错误的不同情况对应的用户视口区域预测结果对视频预取的影响,也忽略了视野预测和码率选择的关联性,并不能直接保证360度视频用户最佳的体验质量(Quality of Experience,QoE)。
当前360度视频的视口预测工作主要分为两类,单用户预测和跨用户预测,而单用户预测又分为基于用户轨迹和基于视频内容。基于用户轨迹的方法,是利用用户观看时轨迹的连续性进行预测,在得到用户之前一段时间的观看轨迹后进行合理外推,得到未来一段时间内的观看位置,常用的方法有:线性回归、脊回归和长短期记忆网络(LSTM)等。这种方法在短时间内(如1s)的预测效果比较理想,因为短时间内用户的头部运动一般不会发生剧烈的运动。而对于更长时间的预测,由于头部运动的不规律性,其精度会有大幅下降,这对于360度视频瓦片的预取和缓存是不利的。基于视频内容的预测,是对视频内容进行分析,运用图像处理或目标跟踪技术,找到一些人类感兴趣的热点区域,常见的为运动的或者与背景差异性较大的物体,并以此为依据对用户视野进行预测。这种方法的好处是能够进行更长时间的预测,但缺点也很明显,由于缺乏用户本身信息的参与以及热点区域往往不止一块,其预测精度不是很高。
跨用户预测是利用多个用户观看同一个360度全景视频时,其观看行为具有相似性的特点进行预测。常见的方法有在服务器端对多个已观看用户观看瓦片的次数进行统计,生成瓦片的概率统计图,也可以称为瓦片的流行度图,并以对正在观看用户的视野进行预测;同时也有将已观看的多个轨迹聚成多个类,将需要预测的用户划归到某个类,用这个类的信息在短时间内预测当前用户的头部运动。这样做的好处是可以在某种程度上抓取有效的内容相关信息,而不需要使用像素分析。
以上分析的各种预测方法,都存在各自的优劣。同时目前的流媒体系统优化忽略了视口预测和码率决策的耦合性,将其作为两个独立的问题分别解决。不论预测结果和精度如何,采取既定的码率决策方式进行码率分配,但其实视口预测和码率决策综合影响者用户QoE,并且两者之间也存在相关性。
对此,本发明提出面向用户体验质量的360度视频视口预测方法,使用强化学习将多特征和用户的QoE进行综合处理和融合,实现动态自适应视口预测,力争达到最大化用户体验质量的最终目标。
发明内容
为解决上述技术问题,本发明提供一种面向用户体验质量的360度视频视口预测方法。
为解决上述技术问题,本发明采用如下技术方案:
一种面向用户体验质量的360度视频视口预测方法,包括以下步骤:
步骤一:利用视觉注意机制提取视频中各帧图像的感兴趣区域,得到显著性图;利用光流法提取相邻两帧图像的运动特征,得到光流图;对显著性图和光流图归一化处理后,将计算得到的视频每个瓦片内部像素值的均值作为该瓦片在仅考虑视频内容情况下的观看概率,得到内容特征
Figure DEST_PATH_IMAGE001
步骤二:将视口中心点的距离在阈值内的用户聚类一组,得到每个用户所属组别、各组用户数、各组用户视口中心点;每组用户视口中心点对应一块区域;任意一组用户对应区域的观看概率为该组用户数/总用户数;多组用户对应的区域如果重叠,则重叠区域的观看概率为该多组用户对应区域的观看概率的叠加,进而计算视频每个瓦片的归一化观看概率,得到跨用户观看特征
Figure 370252DEST_PATH_IMAGE002
步骤三:通过完成训练的LSTM预测模型预测单个用户的视口中心点,根据视频每块瓦片距离预测视口中心点的距离,计算每个瓦片的归一化观看概率,得到单用户历史轨迹特征
Figure DEST_PATH_IMAGE003
步骤四:内容特征
Figure 664967DEST_PATH_IMAGE004
、跨用户观看特征
Figure DEST_PATH_IMAGE005
、单用户历史轨迹特征
Figure 311980DEST_PATH_IMAGE003
统称为输入特征;通过强化学习方式在不同观看时间点对三种输入特征赋予不同的权重,得到每个瓦片的观看概率,并在用户观看体验质量QoE的反馈作用下,预测用户视口位置并动态调整视口区域大小,通过码率决策算法选择视口内瓦片的码率;
强化学习的状态
Figure 793777DEST_PATH_IMAGE006
,其中
Figure DEST_PATH_IMAGE007
为上一次的动作,输入特征
Figure 207441DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE009
为上一次预测的视口位置,
Figure 700870DEST_PATH_IMAGE010
为可获得的最近真实观看中心点,
Figure DEST_PATH_IMAGE011
为带宽信息;
强化学习的动作
Figure 908998DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE013
Figure 254922DEST_PATH_IMAGE014
分别表示
Figure DEST_PATH_IMAGE015
的权重值;
Figure 472276DEST_PATH_IMAGE016
为视口内瓦片的数目,即视口区域大小;
强化学习的奖励Reward=QoE;
强化学习的策略
Figure DEST_PATH_IMAGE017
具体地,步骤二中通过Kmeans进行用户中心聚类;定义用户v在t时刻的视口中心点为
Figure 85792DEST_PATH_IMAGE018
,x、y分别横向偏航值和纵向俯仰值;考虑到视口的偏航值可以越过等距形投影的边界,需要将中心点的偏航值建模为连续的序列,计算两个用户视口中心点的欧式距离
Figure DEST_PATH_IMAGE019
其中
Figure 730399DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE021
分别为两个用户t时刻的视口中心点;对于第i个组,其聚类中心为
Figure 921209DEST_PATH_IMAGE022
,若
Figure DEST_PATH_IMAGE023
满足:
Figure 552042DEST_PATH_IMAGE024
即如果用户视口中心点与聚类中心点的距离小于30°,并持续△t的时间,则将该用户化归为这一组。
具体地,用户观看视频第c个片段的体验质量
Figure DEST_PATH_IMAGE025
Figure 410277DEST_PATH_IMAGE026
分别表示质量效用、时域抖动和空域差异,
Figure DEST_PATH_IMAGE027
为用户观看体验质量的影响因子;则用户观看视频所有片段的体验质量
Figure 101152DEST_PATH_IMAGE028
质量效用
Figure DEST_PATH_IMAGE029
其中
Figure 513679DEST_PATH_IMAGE030
表示第c个片段的第i行第j列质量等级k的瓦片的质量,u(*)为视频质量的效用函数,
Figure DEST_PATH_IMAGE031
,C为与不同视频类型有关的常数;
Figure 446738DEST_PATH_IMAGE032
表示第c个片段的第i行第j列质量等级k的瓦片的是否被用户观看,
Figure DEST_PATH_IMAGE033
表示被用户观看,
Figure 159479DEST_PATH_IMAGE034
表示未被用户观看;
时域抖动
Figure DEST_PATH_IMAGE035
空域差异
Figure 880310DEST_PATH_IMAGE036
,s.t
Figure DEST_PATH_IMAGE037
;其中
Figure 186657DEST_PATH_IMAGE038
为第c个片段中被观看瓦片的平均质量效用:
Figure DEST_PATH_IMAGE039
具体地,码率决策算法如下:
通过历史带宽信息对未来的带宽情况进行预测,得到分配给片段c的带宽预算为
Figure 283926DEST_PATH_IMAGE040
;第c个片段的第i行第j列的瓦片的观看概率为
Figure DEST_PATH_IMAGE041
,视口内瓦片的数量为N,第c个片段中共有I*J个瓦片,视口外的瓦片分配最低等级的码率
Figure 726540DEST_PATH_IMAGE042
,对视口内的瓦片按观看概率分配剩余的带宽资源;
具体地,剩余的带宽资源
Figure DEST_PATH_IMAGE043
,视口内瓦片的码率可通过求解以下优化问题得到:
Figure 883852DEST_PATH_IMAGE044
Figure DEST_PATH_IMAGE045
其中
Figure 146337DEST_PATH_IMAGE046
为视口内第i行第j列瓦片所分配的码率,
Figure DEST_PATH_IMAGE047
Figure 47297DEST_PATH_IMAGE048
分别为内容服务器可提供的视频最低码率和最高码率;上述优化问题在KKT约束条件下,采用拉格朗日乘数法进行求解。
值得注意是,本发明并不对QoE的定义和码率决策算法进行限定。不同类型用户所处的网络条件有差异,同时他们在观看360度视频时对视频质量和关心的重点有不同的要求,因此用户观看QoE的定义和码率决策算法并不唯一;而且本发明中预测方法能根据不同的QoE定义和码率决策算法训练出不同的用户视口自适应预测模型,以满足不同层面的需求,从而在不同的流媒体系统中依旧能为用户提供良好的观看体验。
本发明给出的QoE定义以及码率决策算法仅为举例,属于优选实施方案。
本发明在360度视频流媒体系统中,针对现有的预测方法没有考虑用户QoE反馈对整个预测系统的影响以及单特征变量视口预测无法适应复杂的观看情况,而导致用户观看视频时出现卡顿、抖动的问题,提出了面向用户体验质量的360度视频视口预测方法,使用强化学习对多特征变量的融合进行训练,并采用基于瓦片(tile-based)的方式动态调整视口内瓦片的数量,为用户提供更加良好、清晰、流畅的VR观看体验。相较于现有技术,本发明主要优点如下:
1)本发明以用户观看QoE为优化目标,可以综合考虑视频质量、时域抖动和空间差异等因素的影响,并以QoE作为反馈对整个预测方法进行动态调整,在预测精度改变时,动态地改变预测和瓦片选择策略,保证用户体验质量不会大幅下降,相比于单纯以预测精度为评价指标的方法,在一定程度上避免了平均预测精度高而用户实际观看体验差的情况。
2)本发明对三种输入特征进行融合,不同时刻的预测结果受各输入变量的影响不同,权重由强化学习网络训练得出,体现了不同时刻用户偏好与视频内容的相关性,更符合实际场景,提高了预测的稳定性。
3)本发明考虑了视口预测与码率决策的相关性,可动态调整视口区域大小(即需要码率选择的瓦片数目),为码率决策提供先验知识,对带宽资源的利用更有灵活性,保证了带宽波动情况下的用户观看体验。
附图说明
图1为本发明预的系统框架图;
图2为本发明视频瓦片的示意图;
图3为本发明内容特征提取的流程示意图;
图4为本发明跨用户观看特征提取的流程示意图;
图5为本发明单用户历史轨迹特征的流程示意图。
具体实施方式
下面结合附图对本发明的一种优选实施方式作详细的说明。
本发明提出面向用户体验质量的360度视频视口预测方法,使用强化学习进行多特征和用户QoE的融合训练,生成预测模型,用于进行360度视频视口预测,以获得用户体验质量,能适用于多种QoE的定义方式和码率决策算法。
如图1所示,预测系统包括输入模块、预测模块、码率决策模块,预测模块包括视口融合单元、瓦片选择单元;整个预测系统考虑三个维度的输入变量,分别是视频内容特征、其他用户关于当前频的完整历史观看轨迹统计信息、当前用户关于当前频的已有的历史观看轨迹,对三个输入变量进行预处理提取特征后,将得到的三个输入特征,输入至预测模块进行特征融合,生成瓦片的概率分布图。考虑到在实际场景下,不同时刻输入变量对预测结果的影响不同,需要对输入特征的影响进行实时调整,以适应用户的观看偏好。这里使用强化学习对视口融合单元中输入特征的权值和瓦片选择单元中视口内瓦片数目进行决策,以优化用户观看的QoE为最终目标,保证了预测的精度和稳定性。之后通过码率决策模块为选择的瓦片决策合适的码率进行传输,并利用奖励评价模块对用户观看的QoE进行评价和反馈。
内容特征的生成和预处理:
显著性图(saliency map)是利用视觉注意机制对图像进行分区处理,将图像中的区域分为人类感兴趣区域和人类不感兴趣区域,而感兴趣区域就被称为显著性区域,通常这部分在像素值上比背景区域具有更大的值。同时注意到,显著性处理是一种特征处理的方式,显著性图比原始图像要小的多,因此预先对图像进行显著性处理,提取显著性特征,可以有效减小输入数据量的大小,降低系统计算的复杂度。本发明采用常见的SalNet网络生成显著性图。
光流图(motion map)是使用光流法提取视频中运动特征,利用图像序列在时间上的变化和相邻帧之间的相关性,来找到相邻帧之间的物体的运动信息。通过这种方式,可以将视频中的运动物体区域和背景进行简单的筛分。
如图3所示,本发明使用显著性图和光流图作为内容特征输入,对视频内容中人类可能感兴趣的区域进行筛选,同时避免了直接输入原始视频减小了处理的数据量。对于视频的每一帧来说,生成的显著性图为灰度值(0-255)的图像,而数值的大小代表了显著性,光流图则为二值化(0和1)的图像,其数值表示运动与否。对二者做归一化处理后,计算每块瓦片内部像素值的均值作为该瓦片在仅考虑内容特征下的观看概率。
基于聚类的跨用户的观看特征:
考虑到不同用户观看同一个360度视频的轨迹不全是杂乱无章的,而是热点相关,存在一定的关联性和规律性,可以利用聚类的方式,将有相同观看兴趣的观众划归一类,提取跨用户特征用于视口预测。
对于用户观看视频时的头部位置,可以采用欧拉角坐标(yaw,pitch,roll)来表示,其中yaw表示绕y轴旋转横向的偏航值,pitch表示绕x轴旋转纵向的俯仰值,roll表示绕z轴旋转的翻滚值,由这三个分量可以确定头部的旋转信息。而用户观看的视口是与头部位置相关联的,这里一般只考虑横向的偏航值和纵向的俯仰值,这两个量可以在360度视频的投影图(矩形)上确定唯一一个观看中心点,对于这个中心点进行外拓可得到用户的视口。
用户视口的中心点距离越近,证明用户观看行为越相似,通过Kmeans进行用户中心聚类;定义用户v在t时刻的视口中心点为
Figure 469051DEST_PATH_IMAGE018
,x、y分别横向偏航值和纵向俯仰值;考虑到视口的偏航值可以越过等距形投影的边界,需要将中心点的偏航值建模为连续的序列,计算两个用户视口中心点的欧式距离
Figure 266106DEST_PATH_IMAGE019
其中
Figure 777072DEST_PATH_IMAGE020
Figure 950564DEST_PATH_IMAGE021
分别为两个用户t时刻的视口中心点;对于第i个组,其聚类中心为
Figure 961246DEST_PATH_IMAGE022
,若
Figure 194781DEST_PATH_IMAGE023
满足:
Figure 431858DEST_PATH_IMAGE024
即如果用户视口中心点与聚类中心点的距离小于30°,并持续△t的时间,则将该用户化归为这一组。使用30°作为阈值来做聚类,可以保证所有的观众在一个集群有至少60%的视口重叠,具有比较高的观看相似性。因为视口中心点投影后用横向偏航值和纵向俯仰值两个角度值来衡量,与世界地图类似,横向偏航值从-180°到180°,-180°和180°为同一角度值,纵向俯仰值从-90°到90°,因两者单位都为角度,所以欧式距离也为角度,这里用30°表示距离的远近。
当聚类完成后,可以得到每个用户所属组别、各个组人数和各个组的观看中心点,那么每个集群中心点会对应一块区域,定义区域观看概率为组人数/总人数,对于集群重叠区域,其观看概率为概率的叠加,因为其在多个组内都是热点区域。最后对于整个视频划分瓦片,计算得到每块瓦片的归一化概率,这个概率反映了跨用户的观看特征,如图4所示。
基于LSTM外推的单用户历史轨迹特征:
由于短时间内用户头部运动的连续性,之前的观看轨迹也可以用来预测未来的观看位置。由于简单的线性回归方法,在拟合线性模型时对不同时间的历史轨迹赋予了相同的权值,而实际的情况是一般越接近发生时间的轨迹对预测结果影响更大。因此这里采用LSTM训练来得到预测模型,作为非线性模型,LSTM可用多个的非线性单元生成更复杂的权重网络结构,同时对用户观看的行为有一定的记忆功能。
与原始LSTM模型的监督学习过程相同,先用收集到的训练数据训练模型,然后在预测时推断出新的数据。LSTM预测模型的训练:采集前一段视频的用户轨迹,收集k个样本点作为训练数据,将每个样本点中每一帧的索引作为时间戳。LSTM预测模型的输入为前m个采样点的坐标,输出为预测的第m+1采样点的坐标,将时间戳往后移一位,重复上述过程,直至输出为第k个采样点,完成一轮epoch的训练。由于偏航值和俯仰值方向用户的运动方式不同,需要对其分开训练和预测,根据得到的预测结果生成位置坐标并在下一段视频中推断出用户的视口中心。本发明采用如图5所示的方式,先对LSTM进行预训练,在预测时根据预测结果和实际观看结果对模型进行实时训练和更新。在划分瓦片后,根据每块瓦片距离预测视口中心的距离,计算每块瓦片的归一化概率,得到用户自身轨迹使用LSTM模型生成的轨迹相关特征。
QoE定义和码率决策算法:
值得注意是,本发明并不单独对QoE的定义和码率决策算法进行设计。这是由于不同类型用户所处的网络条件有差异,同时他们在观看360度视频时对视频质量和关心的重点有不同的要求,因此用户QoE的定义和码率决策算法并不唯一。
本发明中的预测方法设计是能根据不同QoE定义和码率决策算法训练出不同的用户视口自适应预测模型,以满足不同层面的需求,从而在不同的流媒体系统中依旧能为用户提供良好的观看体验。为了系统的完整性,本发明后续分别给出它们的定义和说明。
强化学习算法:
如果使用三种输入特征单一作用进行预测,其无法对视频内容切换和头部转动同时做出反应,预测的精度随时间的起伏较大,造成虽然平均预测精度不低,但用户观看的QoE会显著下降的现象。本发明提出将三种输入特征进行融合预测,解决单一输入特征预测稳定性较低的问题。在观看的不同时期这三种输入特征的预测结果会有不同,例如在视频内容的场景出现切换时,内容特征比单轨迹特征的预测更加准确;而对于运动相关的视频跨用户的特征预测往往具有更高的稳定性。
对于如何在不同观看时间点赋予输入特征不同权重,将用户观看偏好与视频内容相结合,实现三种输入特征的实时融合,以及在用户QoE反馈作用下,如何动态调整视口区域大小(这个大小是通过定义视区内瓦片的数目来体现的),最终实现用户QoE的最大化,采取强化学习的方式寻找全局最优的策略。
状态(States):定义为上一次的动作
Figure 409042DEST_PATH_IMAGE007
,特征输入
Figure DEST_PATH_IMAGE049
(三种输入特征分量),上一次的预测位置
Figure 805388DEST_PATH_IMAGE009
,可获得的最近真实观看中心点
Figure 209824DEST_PATH_IMAGE010
,带宽信息
Figure 668619DEST_PATH_IMAGE050
所组成的多元组:
Figure 449493DEST_PATH_IMAGE051
动作(Action):即决策变量
Figure 700346DEST_PATH_IMAGE052
,表示各输入特征的权重值和视口内瓦片的数目,其中
Figure 275684DEST_PATH_IMAGE053
Figure 221774DEST_PATH_IMAGE054
分别表示
Figure 540760DEST_PATH_IMAGE055
的权重值,取值范围为0到1;
Figure 380540DEST_PATH_IMAGE056
的取值是离散值,需根据瓦片的划分方式确定,对于常见的10×5划分方式,
Figure 126779DEST_PATH_IMAGE057
的取值在8到15之间比较合适。
奖励(Reward):即全局QoE增益,Reward=QoE,优化目标是使用户观看整个视频的QoE总和最大。
策略(Policy):不同状态下的策略定义为
Figure 950378DEST_PATH_IMAGE017
通过强化学习训练得到一个高效的用户视口预测模型,在实际应用中,根据系统运行过程中的相关信息,结合用户观看的QoE,通过该用户视口预测模型做出用户视口预测。在此基础上,根据当前状态来实时调整各输入特征的权重和视口内瓦片的数目,得到更加稳定的预测结果,使得用户的总体观看体验的增益达到最大,为用户提供高效的VR视频服务。
QoE定义举例:
考虑到360度视频高质量低时延的特点,这里使用视频质量效用、时域抖动和空域差异带来的惩罚来定义用户的QoE。对于观看视频第c个片段(segment)的用户观看体验质量
Figure 181377DEST_PATH_IMAGE058
定义为:
Figure 406822DEST_PATH_IMAGE025
其中
Figure 58384DEST_PATH_IMAGE059
分别表示质量效用、时域抖动和空域差异,常数
Figure 103700DEST_PATH_IMAGE060
为对
Figure 764488DEST_PATH_IMAGE058
的影响因子。
那么这个用户观看整个视频的QoE为所有片段的用户观看体验质量的总和:
Figure 719806DEST_PATH_IMAGE061
(1)第c个片段的质量效用为:
Figure 807848DEST_PATH_IMAGE062
其中
Figure 340460DEST_PATH_IMAGE030
表示第c个片段的第i行第j列质量等级k的瓦片的质量,u(*)为视频质量的效用函数,通常视频质量越高,用户对视频质量的感知越不敏感,一般定义为
Figure 804940DEST_PATH_IMAGE063
,C为与不同视频类型有关的常数;
Figure 614764DEST_PATH_IMAGE064
表示第c个片段的第i行第j列质量等级k的瓦片是否被用户观看,如果被观看
Figure 873707DEST_PATH_IMAGE033
否则
Figure 628036DEST_PATH_IMAGE065
(2)时域抖动
Figure 896207DEST_PATH_IMAGE066
定义为连续两个片段中的实际观看瓦片的质量效用之差:
Figure 685171DEST_PATH_IMAGE067
(3)空域差异
Figure 990382DEST_PATH_IMAGE068
定义为片段中被观看瓦片效用的方差:
Figure 497586DEST_PATH_IMAGE036
,s.t
Figure 38289DEST_PATH_IMAGE037
其中
Figure 681760DEST_PATH_IMAGE069
为片段中被观看瓦片的平均质量效用:
Figure 548085DEST_PATH_IMAGE070
码率决策算法举例:
以基于带宽的码率决策算法为例:首先基于历史带宽信息对未来的带宽情况进行预测,假设得到分配给片段c的带宽预算为
Figure 653838DEST_PATH_IMAGE071
;通过视口预测,可以得到对于第c个片段的第i行第j列的瓦片的观看概率为
Figure 263810DEST_PATH_IMAGE072
;通过瓦片选择单元得到需要码率决策的视口区域瓦片数目为N;若瓦片的划分方式为I×J,则一个片段中共有I*J个瓦片;对于视口区域外的瓦片分配最低等级的码率
Figure 761788DEST_PATH_IMAGE073
,以保证在预测不准确时最低观看的观看需求;对于视口区域内的瓦片按观看概率分配剩余的带宽资源。
计算剩余的带宽资源为
Figure 799014DEST_PATH_IMAGE074
,对于视口内瓦片的码率可通过求解以下优化问题得到:
Figure 890598DEST_PATH_IMAGE075
Figure 38682DEST_PATH_IMAGE076
其中
Figure 391166DEST_PATH_IMAGE077
为视口区域内第i行第j列瓦片所选取的码率,
Figure 599294DEST_PATH_IMAGE047
Figure 302808DEST_PATH_IMAGE048
分别为内容服务器可提供的视频最低码率和最高码率。这个优化问题在KKT约束条件下,可以采用拉格朗日乘数法进行求解,这里不再赘述。
强化学习框架举例:
为了有效利用计算资源加快训练速度,可以采取Asynchronous AdvantageActor-Critic强化学习框架,简称A3C,对预测策略进行不断地尝试和学习,在RewardEstimator中进行回报评估,使其收敛到满意的水平。
定义动作优势函数为:
Figure 129949DEST_PATH_IMAGE078
其中V(S)表示估计的状态价值,负责评判策略的优势,指导策略的更新;
初始化更新网络参数
Figure 602519DEST_PATH_IMAGE079
Actor本地梯度更新规则为:
Figure 715968DEST_PATH_IMAGE080
其中H(*)表示熵函数,c为熵函数的系数,目的是能够探索更多的可能动作,ρ表示学习率,决定学习的速率,控制算法收敛的速度,防止过拟合和欠拟合;
Critic本地梯度更新规则为:
Figure 906778DEST_PATH_IMAGE081
全局神经网络的模型参数更新:
Figure 396666DEST_PATH_IMAGE082
Actor和Critic相互更新,最终获得reward最大的网络模型,可以根据当前状态实时有效调整输入特征的权重和瓦片选择的数目,以达到用户观看QoE最大,为用户提供良好的VR体验。
平台搭建举例:
可以在仿真环境和实际环境中测试这套360度视频视口预测方案,来验证本发明的性能优势。
仿真平台可在服务器上搭建,基于TensorFlow等机器学习库构建强化学习环境,训练预测模型,使用拥有用户视口变化轨迹的公开360度视频数据集,测试本发明在用户观看全局QoE、平均码率、平均抖动和预测精度等多个性能指标。
为了测试真实平台的实验效果,可以在ATS(Apache Traffic Server)缓存服务器中部署的360度视频服务系统,使用FFmpeg工具进行瓦片切割,使用MP4box工具进行视频的流化。用户在客户端以Dash的方式,实时请求观看360度全景视频,以用户实际观看体验评分的方式来测试视口预测的性能。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立技术方案,说明书的这种叙述方式仅仅是为了清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (4)

1.一种面向用户体验质量的360度视频视口预测方法,包括以下步骤:
步骤一:利用视觉注意机制提取视频中各帧图像的感兴趣区域,得到显著性图;利用光流法提取相邻两帧图像的运动特征,得到光流图;对显著性图和光流图归一化处理后,将计算得到的视频每个瓦片内部像素值的均值作为该瓦片在仅考虑视频内容情况下的观看概率,得到内容特征
Figure 849902DEST_PATH_IMAGE001
步骤二:将视口中心点的距离在阈值内的用户聚类一组,得到每个用户所属组别、各组用户数、各组用户视口中心点;每组用户视口中心点对应一块区域;任意一组用户对应区域的观看概率为该组用户数/总用户数;多组用户对应的区域如果重叠,则重叠区域的观看概率为该多组用户对应区域的观看概率的叠加,进而计算视频每个瓦片的归一化观看概率,得到跨用户观看特征
Figure 753268DEST_PATH_IMAGE002
步骤三:通过完成训练的LSTM预测模型预测单个用户的视口中心点,根据视频每块瓦片距离预测视口中心点的距离,计算每个瓦片的归一化观看概率,得到单用户历史轨迹特征
Figure 200429DEST_PATH_IMAGE003
步骤四:内容特征
Figure 921261DEST_PATH_IMAGE004
、跨用户观看特征
Figure 86663DEST_PATH_IMAGE002
、单用户历史轨迹特征
Figure 652773DEST_PATH_IMAGE003
统称为输入特征;通过强化学习方式在不同观看时间点对三种输入特征赋予不同的权重,得到每个瓦片的观看概率,并在用户观看体验质量QoE的反馈作用下,预测用户视口位置并动态调整视口区域大小,通过码率决策算法选择视口内瓦片的码率;
强化学习的状态
Figure 829808DEST_PATH_IMAGE005
,其中
Figure 721541DEST_PATH_IMAGE006
为上一次的动作,输入特征
Figure 374239DEST_PATH_IMAGE007
Figure 744040DEST_PATH_IMAGE008
为上一次预测的视口位置,
Figure 542625DEST_PATH_IMAGE009
为可获得的最近真实观看中心点,
Figure 605259DEST_PATH_IMAGE010
为带宽信息;
强化学习的动作
Figure 479674DEST_PATH_IMAGE011
Figure 918746DEST_PATH_IMAGE012
Figure 929427DEST_PATH_IMAGE013
分别表示
Figure 38329DEST_PATH_IMAGE014
的权重值;
Figure 400040DEST_PATH_IMAGE015
为视口内瓦片的数目,即视口区域大小;
强化学习的奖励Reward=QoE;
强化学习的策略
Figure 111644DEST_PATH_IMAGE016
2.根据权利要求1所述的面向用户体验质量的360度视频视口预测方法,其特征在于,步骤二中通过Kmeans进行用户中心聚类;定义用户v在t时刻的视口中心点为
Figure 507990DEST_PATH_IMAGE017
,x、y分别横向偏航值和纵向俯仰值;考虑到视口的偏航值可以越过等距形投影的边界,需要将中心点的偏航值建模为连续的序列,计算两个用户视口中心点的欧式距离
Figure 646848DEST_PATH_IMAGE018
其中
Figure 371221DEST_PATH_IMAGE019
Figure 886516DEST_PATH_IMAGE020
分别为两个用户t时刻的视口中心点;对于第i个组,其聚类中心为
Figure 137369DEST_PATH_IMAGE021
,若
Figure 712707DEST_PATH_IMAGE022
满足:
Figure 924376DEST_PATH_IMAGE023
即如果用户视口中心点与聚类中心点的距离小于30°,并持续△t的时间,则将该用户化归为这一组。
3.根据权利要求1所述的面向用户体验质量的360度视频视口预测方法,其特征在于,用户观看视频第c个片段的体验质量
Figure 243362DEST_PATH_IMAGE024
Figure 348721DEST_PATH_IMAGE025
分别表示质量效用、时域抖动和空域差异,
Figure 829381DEST_PATH_IMAGE026
为用户观看体验质量的影响因子;则用户观看视频所有片段的体验质量
Figure 387402DEST_PATH_IMAGE027
质量效用
Figure 883980DEST_PATH_IMAGE028
其中
Figure 843846DEST_PATH_IMAGE029
表示第c个片段的第i行第j列质量等级k的瓦片的质量,u(*)为视频质量的效用函数,
Figure 760986DEST_PATH_IMAGE030
,C为与不同视频类型有关的常数;
Figure 71882DEST_PATH_IMAGE031
表示第c个片段的第i行第j列质量等级k的瓦片的是否被用户观看,
Figure 608036DEST_PATH_IMAGE032
表示被用户观看,
Figure 422409DEST_PATH_IMAGE033
表示未被用户观看;
时域抖动
Figure 776029DEST_PATH_IMAGE034
空域差异
Figure 43063DEST_PATH_IMAGE035
,s.t
Figure 241963DEST_PATH_IMAGE036
;其中
Figure 51787DEST_PATH_IMAGE037
为第c个片段中被观看瓦片的平均质量效用:
Figure 576309DEST_PATH_IMAGE038
4.根据权利要求1所述的面向用户体验质量的360度视频视口预测方法,其特征在于,码率决策算法如下:
通过历史带宽信息对未来的带宽情况进行预测,得到分配给片段c的带宽预算为
Figure 330639DEST_PATH_IMAGE039
;第c个片段的第i行第j列的瓦片的观看概率为
Figure 598809DEST_PATH_IMAGE040
,视口内瓦片的数量为N,第c个片段中共有I*J个瓦片,视口外的瓦片分配最低等级的码率
Figure 122194DEST_PATH_IMAGE041
,对视口内的瓦片按观看概率分配剩余的带宽资源;
具体地,剩余的带宽资源
Figure 427405DEST_PATH_IMAGE042
,视口内瓦片的码率可通过求解以下优化问题得到:
Figure 934609DEST_PATH_IMAGE043
Figure 740891DEST_PATH_IMAGE044
其中
Figure 384362DEST_PATH_IMAGE045
为视口内第i行第j列瓦片所分配的码率,
Figure 645096DEST_PATH_IMAGE046
Figure 374018DEST_PATH_IMAGE047
分别为内容服务器可提供的视频最低码率和最高码率;上述优化问题在KKT约束条件下,采用拉格朗日乘数法进行求解。
CN202210813281.7A 2022-07-12 2022-07-12 面向用户体验质量的360度视频视口预测方法 Active CN114900506B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210813281.7A CN114900506B (zh) 2022-07-12 2022-07-12 面向用户体验质量的360度视频视口预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210813281.7A CN114900506B (zh) 2022-07-12 2022-07-12 面向用户体验质量的360度视频视口预测方法

Publications (2)

Publication Number Publication Date
CN114900506A CN114900506A (zh) 2022-08-12
CN114900506B true CN114900506B (zh) 2022-09-30

Family

ID=82729855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210813281.7A Active CN114900506B (zh) 2022-07-12 2022-07-12 面向用户体验质量的360度视频视口预测方法

Country Status (1)

Country Link
CN (1) CN114900506B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117156175B (zh) * 2023-10-30 2024-01-30 山东大学 基于视口预测距离控制的全景视频流QoE优化方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109413448A (zh) * 2018-11-05 2019-03-01 中山大学 基于深度强化学习的移动设备全景视频播放系统
CN110691236A (zh) * 2019-09-18 2020-01-14 宁波大学 一种全景视频质量评价方法
CN112584119A (zh) * 2020-11-24 2021-03-30 鹏城实验室 一种基于强化学习的自适应全景视频传输方法及系统
CN112929691A (zh) * 2021-01-29 2021-06-08 复旦大学 多用户全景视频传输方法
CN113905221A (zh) * 2021-09-30 2022-01-07 福州大学 一种立体全景视频非对称传输流自适应方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3470976A1 (en) * 2017-10-12 2019-04-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for efficient delivery and usage of audio messages for high quality of experience
CN110166764B (zh) * 2018-02-14 2022-03-01 阿里巴巴集团控股有限公司 虚拟现实vr直播中的视角同步方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109413448A (zh) * 2018-11-05 2019-03-01 中山大学 基于深度强化学习的移动设备全景视频播放系统
CN110691236A (zh) * 2019-09-18 2020-01-14 宁波大学 一种全景视频质量评价方法
CN112584119A (zh) * 2020-11-24 2021-03-30 鹏城实验室 一种基于强化学习的自适应全景视频传输方法及系统
CN112929691A (zh) * 2021-01-29 2021-06-08 复旦大学 多用户全景视频传输方法
CN113905221A (zh) * 2021-09-30 2022-01-07 福州大学 一种立体全景视频非对称传输流自适应方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
《基于强化学习的立体全景视频自适应流》;兰诚栋等;《电子与信息学报》;20220430;第44卷(第4期);第1462-1467页 *
Reinforcement Learning Based Dynamic Adaptive;Xiaobin Tan等;《2021 4th International Conference on Hot Information-Centric Networking》;20211231;第69-73页 *
Shunyi Wang等.A QoE-based 360° Video Adaptive Bitrate Delivery.《2020 16th International Conference on Mobility, Sensing and Networking (MSN)》.2020,第49-56页. *
基于强化学习的 DASH 自适应码率决策算法研究;冯苏柳等;《中国传媒大学学报》;20200430;第27卷(第2期);第60-64页 *

Also Published As

Publication number Publication date
CN114900506A (zh) 2022-08-12

Similar Documents

Publication Publication Date Title
Petrangeli et al. Trajectory-based viewport prediction for 360-degree virtual reality videos
Li et al. Very long term field of view prediction for 360-degree video streaming
Pang et al. Towards low latency multi-viewpoint 360 interactive video: A multimodal deep reinforcement learning approach
Feng et al. LiveDeep: Online viewport prediction for live virtual reality streaming using lifelong deep learning
Jiang et al. Plato: Learning-based adaptive streaming of 360-degree videos
CN113242469A (zh) 一种自适应视频传输配置方法和系统
KR102472971B1 (ko) 인공지능 모델을 이용한 동영상 인코딩 최적화 방법, 시스템, 및 컴퓨터 프로그램
CN114900506B (zh) 面向用户体验质量的360度视频视口预测方法
Park et al. Mosaic: Advancing user quality of experience in 360-degree video streaming with machine learning
Qin et al. GuideRender: large-scale scene navigation based on multi-modal view frustum movement prediction
Feng et al. LiveROI: region of interest analysis for viewport prediction in live mobile virtual reality streaming
Wei et al. A hybrid control scheme for 360-degree dynamic adaptive video streaming over mobile devices
Jiang et al. SVP: Sinusoidal viewport prediction for 360-degree video streaming
CN112202800B (zh) C-ran架构中基于强化学习的vr视频边缘预取方法和系统
Li et al. Utility-driven joint caching and bitrate allocation for real-time immersive videos
Chen et al. VCMaker: Content-aware configuration adaptation for video streaming and analysis in live augmented reality
Dong et al. Predicting long-term field of view in 360-degree video streaming
CN113473172A (zh) Vr视频缓存方法、装置、缓存服务装置以及存储介质
Zhang et al. Deep reinforcement learning based adaptive 360-degree video streaming with field of view joint prediction
CN114972429A (zh) 云边协同自适应推理路径规划的目标追踪方法和系统
Jiang et al. Robust and resource-efficient machine learning aided viewport prediction in virtual reality
Wang et al. Vaser: Optimizing 360-Degree Live Video Ingest via Viewport-Aware Neural Enhancement
Li et al. Dynamic node selection in camera networks based on approximate reinforcement learning
Barbierato et al. Second order fluid performance evaluation models for interactive 3D multimedia streaming
Xu et al. Multi-Features Fusion based Viewport Prediction with GNN for 360-Degree Video Streaming

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant