CN112822564B - 一种基于视点的全景视频自适应流媒体传输方法及系统 - Google Patents
一种基于视点的全景视频自适应流媒体传输方法及系统 Download PDFInfo
- Publication number
- CN112822564B CN112822564B CN202110012477.1A CN202110012477A CN112822564B CN 112822564 B CN112822564 B CN 112822564B CN 202110012477 A CN202110012477 A CN 202110012477A CN 112822564 B CN112822564 B CN 112822564B
- Authority
- CN
- China
- Prior art keywords
- panoramic video
- viewpoint
- video
- client
- tiles
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000005540 biological transmission Effects 0.000 title claims abstract description 39
- 230000003044 adaptive effect Effects 0.000 title claims description 35
- 230000000007 visual effect Effects 0.000 claims abstract description 25
- 238000012417 linear regression Methods 0.000 claims abstract description 20
- 230000011218 segmentation Effects 0.000 claims description 11
- 230000002123 temporal effect Effects 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 6
- 238000004806 packaging method and process Methods 0.000 claims description 6
- 238000005538 encapsulation Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000000903 blocking effect Effects 0.000 abstract description 3
- 230000008859 change Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 14
- 239000002699 waste material Substances 0.000 description 3
- 238000007654 immersion Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23424—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for inserting or substituting an advertisement
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/266—Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
- H04N21/2662—Controlling the complexity of the video stream, e.g. by scaling the resolution or bitrate of the video stream based on the client capabilities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/414—Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/816—Monomedia components thereof involving special video data, e.g 3D video
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Marketing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明公开了一种基于视点的全景视频自适应流媒体传输方法及系统,所述方法包括:服务器端将全景视频在空间上划分成不同的瓦片,将多个瓦片视频编码成全景视频流文件,并对全景视频流文件进行封装和切片处理;客户端依据用户观看全景视频的历史视点信息使用线性回归方法对用户未来观看的视野区域进行预测,并播放预测后的全景视频。本发明根据历史预测偏离的程度对视野区域适当扩大,对视野区域中的瓦片选择高码率,对非视野区域中的瓦片选择低码率,根据网络条件变化,给不同瓦片动态选择不同码率,以提高视野区域内视频清晰度,减小卡顿情况的出现,有效提升用户观看质量。
Description
技术领域
本发明涉及全景视频技术领域,尤其涉及一种基于视点的全景视频自适应流媒体传输方法及系统。
背景技术
全景视频是一种用3D摄像机进行全方位360度进行拍摄的视频,用户在观看视频的时候,可以随意调节视频上下左右进行观看。
全景视频的传输需要大量的带宽,但受现实网络条件限制,用户在线观看全景视频时,由于全景视频数据量很大,如果只保障视频播放流畅而降低视频码率,会导致观看视频质量降低;如果只保障观看视频高质量,则容易引起播放卡顿。现有的一种全景视频传输方式是将视频在空间上分成多个瓦片(Tile),通过对未来视点的预测,得出在未来可能出现在用户FoV(Field of View,视野区域)中的Tile,并对在FoV中的Tile和不在FoV中的Tile进行差别传输,以此来减少传输中网络资源的浪费。但现有方法对视点预测精确度要求很高,在预测不准确或是网络波动出现时,用户QoE(Quality of Experience,视频质量,或者体验质量)会急剧下降。
因此,现有技术还有待于改进和发展。
发明内容
本发明的主要目的在于提供一种基于视点的全景视频自适应流媒体传输方法及系统,旨在解决现有技术中已有的全景视频的传输方式对视点预测精确度要求很高,在预测不准确或是网络波动出现时,用户观看质量急剧下降的问题。
为实现上述目的,本发明提供一种基于视点的全景视频自适应流媒体传输方法,所述基于视点的全景视频自适应流媒体传输方法包括如下步骤:
服务器端将全景视频在空间上划分成不同的瓦片,将多个瓦片视频编码成全景视频流文件,并对全景视频流文件进行封装和切片处理;
客户端依据用户观看全景视频的历史视点信息使用线性回归方法对用户未来观看的视野区域进行预测,并播放预测后的全景视频。
所述的基于视点的全景视频自适应流媒体传输方法,其中,所述服务器端将全景视频在空间上划分成不同的瓦片,将多个瓦片视频编码成全景视频流文件,并对全景视频流文件进行封装和切片处理,具体包括:
所述服务器端将原始全景视频进行瓦片分割,得到多个瓦片视频;
所述服务器端采用预设编码方式将所述多个瓦片视频编码成具有多个码率版本的全景视频流文件;
所述服务器端将所述全景视频流文件进行封装和切片处理,生成预设格式的视频文件和记录视频编码配置的MPD文件。
所述的基于视点的全景视频自适应流媒体传输方法,其中,所述服务器端将原始全景视频进行瓦片分割,得到多个瓦片视频,具体包括:
所述服务器端将所述原始全景视频进行瓦片分割,将所述原始全景视频在空间上分割为32个瓦片视频。
所述的基于视点的全景视频自适应流媒体传输方法,其中,所述服务器端采用预设编码方式将所述多个瓦片视频编码成具有多个码率版本的全景视频流文件,具体包括:
所述服务器端通过利用开源编码器采用HEVC-MCTS编码方式将32个瓦片视频编码成具有多个码率版本的全景视频流文件;
所述全景视频流文件的格式包括.h264格式。
所述的基于视点的全景视频自适应流媒体传输方法,其中,所述服务器端将所述全景视频流文件进行封装和切片处理,生成预设格式的视频文件和记录视频编码配置的MPD文件,具体包括:
所述服务器端通过利用GPAC的视频封装工具MP4Box将所述全景视频流文件封装为MP4视频格式,并在时间上按间隔1秒的长度切片为m4s格式的视频文件;
所述服务器端将得到的m4s格式的视频文件和记录视频编码配置的MPD文件进行存储。
所述的基于视点的全景视频自适应流媒体传输方法,其中,所述客户端依据用户观看全景视频的历史视点信息使用线性回归方法对用户未来观看的视野区域进行预测,并播放预测后的全景视频,具体包括:
所述客户端向所述服务器端发送获取记录视频编码配置的MPD文件的请求,以获取所述记录视频编码配置的MPD文件;
所述客户端通过传感器获取表示用户头部姿态的四元数,所述四元数包括三维空间坐标和角度;
所述客户端通过四元数到欧拉角转换公式将四元数转化为俯仰角和偏航角,并以俯仰角和偏航角组成的坐标表示用户观看全景视频时视野的视点;
所述客户端通过线性回归模型对俯仰角和偏航角进行回归预测,得到未来视点所在的预测位置;
所述客户端计算从当前播放时间起前预设时间所预测的视点俯仰角和偏航角的平均绝对误差;
所述客户端计算视野区域范围,视野区域范围以预测的视点为中心的矩形,在下载时仅下载视野区域所涵盖的瓦片;
所述客户端使用过去预设时间的加权平均吞吐量作为下一时刻吞吐量的预测值,其中时间越早权重越小;
所述客户端使用视野区域中瓦片的平均质量等级、视频空间质量差异和视频时间质量差异的加权和作为目标函数,自适应分配每个瓦片传输的比特率,控制目标函数最大化;
所述客户端将下载的瓦片进行拼接,并投射到用户头戴显示器的屏幕上进行播放。
所述的基于视点的全景视频自适应流媒体传输方法,其中,所述客户端通过线性回归模型对俯仰角和偏航角进行回归预测,得到未来视点所在的预测位置,具体包括:
使用当前时间点之前2秒内所得到的俯仰角和偏航角,采用加权线性回归的方式得到俯仰角随时间变化函数和偏航角随时间变化函数,输入下一时刻的时间点得到下一时刻的俯仰角和偏航角。
所述的基于视点的全景视频自适应流媒体传输方法,其中,所述预设时间为3秒;
以MAE作为预测误差大小的数值评价指标;MAE公式如下:
所述的基于视点的全景视频自适应流媒体传输方法,其中,所述矩形的长和宽分别为两个方向的基础值加上2倍的两个方向各自预测的MAE。
此外,为实现上述目的,本发明还提供一种基于视点的全景视频自适应流媒体传输系统,其中,所述基于视点的全景视频自适应流媒体传输系统包括:
服务器端和客户端,所述客户端通过网络和所述服务器端建立连接;
所述服务器端用于将原始全景视频进行瓦片分割,得到多个瓦片视频;采用预设编码方式将所述多个瓦片视频编码成具有多个码率版本的全景视频流文件;将所述全景视频流文件进行封装和切片处理,生成预设格式的视频文件和记录视频编码配置的MPD文件;
所述客户端用于向所述服务器端发送获取记录视频编码配置的MPD文件的请求,以获取所述记录视频编码配置的MPD文件;通过传感器获取表示用户头部姿态的四元数,所述四元数包括三维空间坐标和角度;通过四元数到欧拉角转换公式将四元数转化为俯仰角和偏航角,并以俯仰角和偏航角组成的坐标表示用户观看全景视频时视野的视点;通过线性回归模型对俯仰角和偏航角进行回归预测,得到未来视点所在的预测位置;计算从当前播放时间起前预设时间所预测的视点俯仰角和偏航角的平均绝对误差;计算视野区域范围,视野区域范围以预测的视点为中心的矩形,在下载时仅下载视野区域所涵盖的瓦片;使用过去预设时间的加权平均吞吐量作为下一时刻吞吐量的预测值,其中时间越早权重越小;使用视野区域中瓦片的平均质量等级、视频空间质量差异和视频时间质量差异的加权和作为目标函数,自适应分配每个瓦片传输的比特率,控制目标函数最大化;将下载的瓦片进行拼接,并投射到用户头戴显示器的屏幕上进行播放。
本发明通过服务器端将全景视频在空间上划分成不同的瓦片,将多个瓦片视频编码成全景视频流文件,并对全景视频流文件进行封装和切片处理;客户端依据用户观看全景视频的历史视点信息使用线性回归方法对用户未来观看的视野区域进行预测,并播放预测后的全景视频。本发明根据历史预测偏离的程度对视野区域适当扩大,对视野区域中的瓦片选择高码率,对非视野区域中的瓦片选择低码率,根据网络条件变化,给不同瓦片动态选择不同码率,以提高视野区域内视频清晰度,减小卡顿情况的出现,能够准确预测用户未来的视野区域,根据用户视野区域和网络条件自适应传输全景视频,能减少带宽资源的浪费,有效提升用户观看质量。
附图说明
图1是本发明基于视点的全景视频自适应流媒体传输方法的较佳实施例的流程图;
图2是本发明基于视点的全景视频自适应流媒体传输方法的较佳实施例中步骤S10的流程图;
图3是本发明基于视点的全景视频自适应流媒体传输方法的较佳实施例中步骤S20的流程图;
图4是本发明基于视点的全景视频自适应流媒体传输系统的较佳实施例的原理示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明较佳实施例所述的基于视点的全景视频自适应流媒体传输方法,如图1所示,所述基于视点的全景视频自适应流媒体传输方法包括以下步骤:
步骤S10、服务器端将全景视频在空间上划分成不同的瓦片,将多个瓦片视频编码成全景视频流文件,并对全景视频流文件进行封装和切片处理。
具体的过程请参阅图2,其为本发明提供的台标调整方法中步骤S10的流程图。
如图2所示,所述步骤S10包括:
S101、所述服务器端将原始全景视频进行瓦片分割,得到多个瓦片视频。
具体地,在所述服务器端将原始全景视频进行Tile(瓦片)分割,将原始视频在空间上分割为4*8=32个Tile(瓦片)。
S102、所述服务器端采用预设编码方式将所述多个瓦片视频编码成具有多个码率版本的全景视频流文件。
具体地,所述服务器端利用开源的编码器Kvazaar(Kvazaar是开源HEVC编码器,它是用C语言从零开始开发的,Kvazaar目标是设计一种模块化,便携式HEVC编码器,以最佳的编码速度和资源获得高编码效率),采用HEVC-MCTS编码方式将步骤S101中得到的多个Tile(瓦片)的视频编码成具有多个码率版本(如2Mb/s、3Mb/s、6Mb/s)的全景视频流文件(例如.h264格式文件)。
S103、所述服务器端将所述全景视频流文件进行封装和切片处理,生成预设格式的视频文件和记录视频编码配置的MPD文件。
具体地,所述服务器端利用GPAC(GPAC是一个为科研和学术领域开发的多媒体的框架,支持MPEG-4、VRML、X3D、SVG、LASeR等)的视频封装工具MP4Box,服务器端将步骤S102编码后的全景视频流文件封装为MP4视频格式,并在时间上按间隔1秒的长度切片为m4s格式的视频文件,将m4s视频文件和记录视频编码配置的MPD文件(.mpd这一扩展名主要与微软项目数据库文件类型有关,它是一种专有的容器类数据库格式,所有项目文件都以关系数据库的形式保存在一个单独的.mpd文件中)储存在服务器端上。
步骤S20、客户端依据用户观看全景视频的历史视点信息使用线性回归方法对用户未来观看的视野区域进行预测,并播放预测后的全景视频。
具体的过程请参阅图3,其为本发明提供的台标调整方法中步骤S20的流程图。
如图3所示,所述步骤S20包括:
S201、所述客户端向所述服务器端发送获取记录视频编码配置的MPD文件的请求,以获取所述记录视频编码配置的MPD文件。
S202、所述客户端(头戴显示器,可以播放360度视频)通过传感器获取表示用户头部姿态的四元数,所述四元数包括三维空间坐标和角度。
其中,四元数是一个数学概念,包含四个元素的向量,包括xyz三维坐标以及一个角度共四个元素,能够完整的描述三维物体当前的姿态。
S203、所述客户端通过四元数到欧拉角转换公式将四元数转化为俯仰角和偏航角,并以俯仰角和偏航角组成的坐标表示用户观看全景视频时视野的视点(中心点)。
S204、所述客户端通过线性回归模型(变量和自变量之间的关系近似为直线型的,忽略高阶余项)对俯仰角和偏航角进行回归预测,得到未来视点所在的预测位置。
具体实现为使用当前时间点之前2秒内所得到的俯仰角和偏航角的数据,采用加权线性回归的方式作出俯仰角随时间变化函数和偏航角随时间变化函数,输入下一时刻的时间点即可得到下一时刻的俯仰角和偏航角。
S205、所述客户端计算从当前播放时间起前预设时间所预测的视点俯仰角和偏航角的平均绝对误差(MAE)。
具体地,所述预设时间为3秒;以MAE作为预测误差大小的数值评价指标;MAE公式如下:
S206、所述客户端计算视野区域范围,视野区域范围以预测的视点为中心的矩形,在下载时仅下载视野区域所涵盖的瓦片。
具体地,计算FoV范围,FoV范围是以预测的视点为中心的矩形,矩形的长×宽为110°×90°;考虑视点预测的不准确性且预测误差可能为正也可能为负,所以长和宽分别为两个方向的基础值加上2倍的两个方向各自预测的MAE,在下载时仅仅下载FoV所涵盖的Tile(瓦片)。
S207、所述客户端使用过去预设时间的加权平均吞吐量作为下一时刻吞吐量的预测值,其中时间越早权重越小。
具体地,使用过去3秒的加权平均吞吐量作为下一时刻吞吐量的预测值,其中时间越早权重越小,具体的权重分配为:当前时间点前的第3秒内权重为0.1,第2秒内权重为0.3,1秒内权重为0.6。
S208、所述客户端使用视野区域中瓦片的平均质量等级、视频空间质量差异和视频时间质量差异的加权和作为目标函数,自适应分配每个瓦片传输的比特率,控制目标函数最大化。
具体地,使用FoV中的Tile平均质量等级(视频质量等级高低直接反映了视频码率高低,码率越高视频越清晰)、视频空间质量差异(视频空间质量差异表示一帧视频的不同位置清晰度的差异,空间质量差异越大沉浸感越低)、视频时间质量差异(视频时间质量差异反应了视频码率切换的频率和幅度,码率切换频率和幅度越大沉浸感越低)来作为影响用户QoE的因素,并以这3个指标的加权和作为QoE目标函数(其中平均质量等级权重为1,空间质量差异和时间质量差异权重都是-0.5);根据S207中所得到的吞吐量预测值,使用穷举的方法自适应分配每个Tile传输的比特率,使得在使用资源不超过预测吞吐量的情况下,QoE目标函数达到最大。
S209、所述客户端将下载的瓦片进行拼接,并投射到用户头戴显示器的屏幕上进行播放。
S210、判断视频是否已经播放完成,如果播放完成则结束,如果没有播放完成,则重复步骤S202-S209。
本发明在视点预测时对FoV进行自适应扩大(对应步骤S204-S206),能够减少视点预测误差导致的用户QoE下降;使用了QoE驱动的比特率自适应传输方案(S207-S208),能够使得用户QoE最大化。
本发明在服务器端将全景视频在空间上划分成不同的Tile,并依据动态自适应流媒体传输技术(DASH)在时间上对视频进行切割,并编码为多种比特率版本;在客户端依据用户观看全景视频的历史视点信息使用线性回归方法对该用户未来观看的FoV进行预测,为提高预测的准确度,本发明根据历史预测偏离的程度对FoV适当的扩大;本发明将码率选择问题转换为QoE目标优化问题,对FOV中的Tile选择高码率,对非FOV中的Tile选择低码率,能有效提升用户QoE,减小网络波动对全景视频传输的影响。
进一步地,如图4所示,基于上述基于视点的全景视频自适应流媒体传输方法,本发明还相应提供了一种基于视点的全景视频自适应流媒体传输系统,其中,所述基于视点的全景视频自适应流媒体传输系统包括:
服务器端和客户端,所述客户端通过网络和所述服务器端建立连接;
所述服务器端用于将原始全景视频进行瓦片分割,得到多个瓦片视频;采用预设编码方式将所述多个瓦片视频编码成具有多个码率版本的全景视频流文件;将所述全景视频流文件进行封装和切片处理,生成预设格式的视频文件和记录视频编码配置的MPD文件;
所述客户端用于向所述服务器端发送获取记录视频编码配置的MPD文件的请求,以获取所述记录视频编码配置的MPD文件;通过传感器获取表示用户头部姿态的四元数,所述四元数包括三维空间坐标和角度;通过四元数到欧拉角转换公式将四元数转化为俯仰角和偏航角,并以俯仰角和偏航角组成的坐标表示用户观看全景视频时视野的视点;通过线性回归模型对俯仰角和偏航角进行回归预测,得到未来视点所在的预测位置;计算从当前播放时间起前预设时间所预测的视点俯仰角和偏航角的平均绝对误差;计算视野区域范围,视野区域范围以预测的视点为中心的矩形,在下载时仅下载视野区域所涵盖的瓦片;使用过去预设时间的加权平均吞吐量作为下一时刻吞吐量的预测值,其中时间越早权重越小;使用视野区域中瓦片的平均质量等级、视频空间质量差异和视频时间质量差异的加权和作为目标函数,自适应分配每个瓦片传输的比特率,控制目标函数最大化;将下载的瓦片进行拼接,并投射到用户头戴显示器的屏幕上进行播放。
综上所述,本发明提供一种基于视点的全景视频自适应流媒体传输方法及系统,所述方法包括:服务器端将全景视频在空间上划分成不同的瓦片,将多个瓦片视频编码成全景视频流文件,并对全景视频流文件进行封装和切片处理;客户端依据用户观看全景视频的历史视点信息使用线性回归方法对用户未来观看的视野区域进行预测,并播放预测后的全景视频。本发明根据历史预测偏离的程度对视野区域适当扩大,对视野区域中的瓦片选择高码率,对非视野区域中的瓦片选择低码率,根据网络条件变化,给不同瓦片动态选择不同码率,以提高视野区域内视频清晰度,减小卡顿情况的出现,能够准确预测用户未来的视野区域,根据用户视野区域和网络条件自适应传输全景视频,能减少带宽资源的浪费,有效提升用户观看质量。
当然,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关硬件(如处理器,控制器等)来完成,所述的程序可存储于一计算机可读取的存储介质中,所述程序在执行时可包括如上述各方法实施例的流程。其中所述的存储介质可为存储器、磁碟、光盘等。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (8)
1.一种基于视点的全景视频自适应流媒体传输方法,其特征在于,所述基于视点的全景视频自适应流媒体传输方法包括:
服务器端将全景视频在空间上划分成不同的瓦片,将多个瓦片视频编码成全景视频流文件,并对全景视频流文件进行封装和切片处理;
所述服务器端将全景视频在空间上划分成不同的瓦片,将多个瓦片视频编码成全景视频流文件,并对全景视频流文件进行封装和切片处理,具体包括:
所述服务器端将原始全景视频进行瓦片分割,得到多个瓦片视频;
所述服务器端采用预设编码方式将所述多个瓦片视频编码成具有多个码率版本的全景视频流文件;
所述服务器端将所述全景视频流文件进行封装和切片处理,生成预设格式的视频文件和记录视频编码配置的MPD文件;
客户端依据用户观看全景视频的历史视点信息使用线性回归方法对用户未来观看的视野区域进行预测,并播放预测后的全景视频;
所述客户端依据用户观看全景视频的历史视点信息使用线性回归方法对用户未来观看的视野区域进行预测,并播放预测后的全景视频,具体包括:
所述客户端向所述服务器端发送获取记录视频编码配置的MPD文件的请求,以获取所述记录视频编码配置的MPD文件;
所述客户端通过传感器获取表示用户头部姿态的四元数,所述四元数包括三维空间坐标和角度;
所述客户端通过四元数到欧拉角转换公式将四元数转化为俯仰角和偏航角,并以俯仰角和偏航角组成的坐标表示用户观看全景视频时视野的视点;
所述客户端通过线性回归模型对俯仰角和偏航角进行回归预测,得到未来视点所在的预测位置;
所述客户端计算从当前播放时间起前预设时间所预测的视点俯仰角和偏航角的平均绝对误差;
所述客户端计算视野区域范围,视野区域范围以预测的视点为中心的矩形,在下载时仅下载视野区域所涵盖的瓦片;
所述客户端使用过去预设时间的加权平均吞吐量作为下一时刻吞吐量的预测值,其中时间越早权重越小;
所述客户端使用视野区域中瓦片的平均质量等级、视频空间质量差异和视频时间质量差异的加权和作为目标函数,自适应分配每个瓦片传输的比特率,控制目标函数最大化;
所述客户端将下载的瓦片进行拼接,并投射到用户头戴显示器的屏幕上进行播放。
2.根据权利要求1所述的基于视点的全景视频自适应流媒体传输方法,其特征在于,所述服务器端将原始全景视频进行瓦片分割,得到多个瓦片视频,具体包括:
所述服务器端将所述原始全景视频进行瓦片分割,将所述原始全景视频在空间上分割为32个瓦片视频。
3.根据权利要求2所述的基于视点的全景视频自适应流媒体传输方法,其特征在于,所述服务器端采用预设编码方式将所述多个瓦片视频编码成具有多个码率版本的全景视频流文件,具体包括:
所述服务器端通过利用开源编码器采用HEVC-MCTS编码方式将32个瓦片视频编码成具有多个码率版本的全景视频流文件;
所述全景视频流文件的格式包括.h264格式。
4.根据权利要求3所述的基于视点的全景视频自适应流媒体传输方法,其特征在于,所述服务器端将所述全景视频流文件进行封装和切片处理,生成预设格式的视频文件和记录视频编码配置的MPD文件,具体包括:
所述服务器端通过利用GPAC的视频封装工具MP4Box将所述全景视频流文件封装为MP4视频格式,并在时间上按间隔1秒的长度切片为m4s格式的视频文件;
所述服务器端将得到的m4s格式的视频文件和记录视频编码配置的MPD文件进行存储。
5.根据权利要求1所述的基于视点的全景视频自适应流媒体传输方法,其特征在于,所述客户端通过线性回归模型对俯仰角和偏航角进行回归预测,得到未来视点所在的预测位置,具体包括:
使用当前时间点之前2秒内所得到的俯仰角和偏航角,采用加权线性回归的方式得到俯仰角随时间变化函数和偏航角随时间变化函数,输入下一时刻的时间点得到下一时刻的俯仰角和偏航角。
7.根据权利要求6所述的基于视点的全景视频自适应流媒体传输方法,其特征在于,所述矩形的长和宽分别为两个方向的基础值加上2倍的两个方向各自预测的MAE。
8.一种基于视点的全景视频自适应流媒体传输系统,其特征在于,所述基于视点的全景视频自适应流媒体传输系统包括:
服务器端和客户端,所述客户端通过网络和所述服务器端建立连接;
所述服务器端用于将原始全景视频进行瓦片分割,得到多个瓦片视频;采用预设编码方式将所述多个瓦片视频编码成具有多个码率版本的全景视频流文件;将所述全景视频流文件进行封装和切片处理,生成预设格式的视频文件和记录视频编码配置的MPD文件;
所述客户端用于向所述服务器端发送获取记录视频编码配置的MPD文件的请求,以获取所述记录视频编码配置的MPD文件;通过传感器获取表示用户头部姿态的四元数,所述四元数包括三维空间坐标和角度;通过四元数到欧拉角转换公式将四元数转化为俯仰角和偏航角,并以俯仰角和偏航角组成的坐标表示用户观看全景视频时视野的视点;通过线性回归模型对俯仰角和偏航角进行回归预测,得到未来视点所在的预测位置;计算从当前播放时间起前预设时间所预测的视点俯仰角和偏航角的平均绝对误差;计算视野区域范围,视野区域范围以预测的视点为中心的矩形,在下载时仅下载视野区域所涵盖的瓦片;使用过去预设时间的加权平均吞吐量作为下一时刻吞吐量的预测值,其中时间越早权重越小;使用视野区域中瓦片的平均质量等级、视频空间质量差异和视频时间质量差异的加权和作为目标函数,自适应分配每个瓦片传输的比特率,控制目标函数最大化;将下载的瓦片进行拼接,并投射到用户头戴显示器的屏幕上进行播放。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110012477.1A CN112822564B (zh) | 2021-01-06 | 2021-01-06 | 一种基于视点的全景视频自适应流媒体传输方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110012477.1A CN112822564B (zh) | 2021-01-06 | 2021-01-06 | 一种基于视点的全景视频自适应流媒体传输方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112822564A CN112822564A (zh) | 2021-05-18 |
CN112822564B true CN112822564B (zh) | 2023-03-24 |
Family
ID=75857724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110012477.1A Active CN112822564B (zh) | 2021-01-06 | 2021-01-06 | 一种基于视点的全景视频自适应流媒体传输方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112822564B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113329266B (zh) * | 2021-06-08 | 2022-07-05 | 合肥工业大学 | 一种基于有限用户视角反馈的全景视频自适应传输方法 |
CN113365156B (zh) * | 2021-06-17 | 2022-03-11 | 合肥工业大学 | 一种基于有限视场反馈的全景视频多播流的视角预测方法 |
CN113810755B (zh) * | 2021-09-15 | 2023-09-05 | 北京百度网讯科技有限公司 | 全景视频预览的方法、装置、电子设备及存储介质 |
CN113905221B (zh) * | 2021-09-30 | 2024-01-16 | 福州大学 | 一种立体全景视频非对称传输流自适应方法及系统 |
CN114268835B (zh) * | 2021-11-23 | 2022-11-01 | 北京航空航天大学 | 一种低传输流量的vr全景视频时空切片方法 |
CN114157875B (zh) * | 2021-11-26 | 2024-01-19 | 深圳创维新世界科技有限公司 | Vr全景视频的预处理方法、设备及存储介质 |
CN114979762B (zh) * | 2022-04-12 | 2024-06-07 | 北京字节跳动网络技术有限公司 | 视频下载、传输方法、装置、终端设备、服务器及介质 |
CN115022546B (zh) * | 2022-05-31 | 2023-11-14 | 咪咕视讯科技有限公司 | 全景视频传输方法、装置、终端设备以及存储介质 |
CN117156175B (zh) * | 2023-10-30 | 2024-01-30 | 山东大学 | 基于视口预测距离控制的全景视频流QoE优化方法 |
CN118632056A (zh) * | 2024-08-12 | 2024-09-10 | 深圳大学 | 基于3dgs的体积场景流式传输方法、装置及介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2536025B (en) * | 2015-03-05 | 2021-03-03 | Nokia Technologies Oy | Video streaming method |
CN104735464A (zh) * | 2015-03-31 | 2015-06-24 | 华为技术有限公司 | 一种全景视频交互传输方法、服务器和客户端 |
CN109286855B (zh) * | 2017-07-19 | 2020-10-13 | 北京大学 | 全景视频的传输方法、传输装置和传输系统 |
-
2021
- 2021-01-06 CN CN202110012477.1A patent/CN112822564B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112822564A (zh) | 2021-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112822564B (zh) | 一种基于视点的全景视频自适应流媒体传输方法及系统 | |
US11677802B2 (en) | Methods and apparatus to reduce latency for 360-degree viewport adaptive streaming | |
US10491711B2 (en) | Adaptive streaming of virtual reality data | |
Zhou et al. | Clustile: Toward minimizing bandwidth in 360-degree video streaming | |
Sun et al. | A two-tier system for on-demand streaming of 360 degree video over dynamic networks | |
US11627343B2 (en) | Adaptive coding and streaming of multi-directional video | |
JP2021093746A (ja) | 空間的不均等ストリーミング | |
EP3782368A1 (en) | Processing video patches for three-dimensional content | |
US11095936B2 (en) | Streaming media transmission method and client applied to virtual reality technology | |
CN109286855A (zh) | 全景视频的传输方法、传输装置和传输系统 | |
US20200404241A1 (en) | Processing system for streaming volumetric video to a client device | |
EP3614231A1 (en) | Method and apparatus for determining quality of experience of vr multi-media | |
Hu et al. | TVG-streaming: Learning user behaviors for QoE-optimized 360-degree video streaming | |
KR20220031120A (ko) | 비디오 플레이백에서 예측-기반 드롭된 프레임 처리 로직 | |
CN114026875A (zh) | 信息处理装置、信息处理方法、再现处理装置和再现处理方法 | |
EP3528500B1 (en) | Method and apparatus for allocating differential bandwidth for each screen region by using image complexity information | |
US11310516B2 (en) | Adaptive bitrate algorithm with cross-user based viewport prediction for 360-degree video streaming | |
Guimard et al. | SMART360: Simulating Motion prediction and Adaptive bitRate sTrategies for 360° video streaming | |
KR20230143377A (ko) | 장면 단위 예측 기반의 동영상 인코딩 최적화 방법 및 시스템 | |
CN114900506A (zh) | 面向用户体验质量的360度视频视口预测方法 | |
CN114095756A (zh) | 基于长期视野预测的自适应全景视频流传输系统及其方法 | |
US20210144080A1 (en) | Dynamic variation of media segment durations for optimization of network round trip times | |
Zhou | Toward High-Quality, Bandwidth-Efficient 360-Degree Video Streaming | |
KR20230143429A (ko) | 영상 세그먼트 단위의 최적 인코딩 프리셋을 이용한 동영상 인코딩 최적화 방법 및 시스템 | |
KR20230140266A (ko) | 단일 인코딩 구조에서 더블 버퍼링을 이용한 동영상 인코딩 최적화 방법 및 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |