CN112055263B - 基于显著性检测的360°视频流传输系统 - Google Patents

基于显著性检测的360°视频流传输系统 Download PDF

Info

Publication number
CN112055263B
CN112055263B CN202010936123.1A CN202010936123A CN112055263B CN 112055263 B CN112055263 B CN 112055263B CN 202010936123 A CN202010936123 A CN 202010936123A CN 112055263 B CN112055263 B CN 112055263B
Authority
CN
China
Prior art keywords
video
saliency
matrix
quality
significance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010936123.1A
Other languages
English (en)
Other versions
CN112055263A (zh
Inventor
王世博
王楠斌
杨树森
徐宗本
栗海亮
张潇丹
周琛
陈军
郭建伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Xian Jiaotong University
Original Assignee
Huawei Technologies Co Ltd
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd, Xian Jiaotong University filed Critical Huawei Technologies Co Ltd
Priority to CN202010936123.1A priority Critical patent/CN112055263B/zh
Publication of CN112055263A publication Critical patent/CN112055263A/zh
Application granted granted Critical
Publication of CN112055263B publication Critical patent/CN112055263B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/647Control signaling between network components and server or clients; Network processes for video distribution between server and clients, e.g. controlling the quality of the video stream, by dropping packets, protecting content from unauthorised alteration within the network, monitoring of network load, bridging between two different networks, e.g. between IP and wireless
    • H04N21/64723Monitoring of network processes or resources, e.g. monitoring of network load
    • H04N21/64738Monitoring network characteristics, e.g. bandwidth, congestion level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/647Control signaling between network components and server or clients; Network processes for video distribution between server and clients, e.g. controlling the quality of the video stream, by dropping packets, protecting content from unauthorised alteration within the network, monitoring of network load, bridging between two different networks, e.g. between IP and wireless
    • H04N21/64784Data processing by the network
    • H04N21/64792Controlling the complexity of the content stream, e.g. by dropping packets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Abstract

本发明公开了一种基于显著性检测的360°视频流传输系统,包括:服务器端,在该系统的离线阶段,根据眼动数据获取显著性矩阵并计算每个视频的方差,即显著性矩阵的平均方差,从而将视频分为显著性视频和非显著性视频两类;在完成显著性矩阵的获取与分析之后,视频通过在时间维度和空间维度的分片以不同的质量和相应的形式存在;客户端,当用户观看显著性视频时,根据实际网络状况从服务器下载相对应的显著性矩阵到客户端播放器,基于显著性的码率控制算法在播放过程中控制视频流的下载传输,对于非显著视频,则通过MPC算法来调整视频流的质量。本发明有效缓解了由于用户观看行为的非线性性、预测窗口限制使得缓存长度过小等弊端。

Description

基于显著性检测的360°视频流传输系统
技术领域
本发明属于网络系统领域,具体涉及一种基于显著性检测的360°视频流传输系统。
背景技术
随着360°视频的日益流行,虚拟现实(Virtual Reality,VR)和增强现实(Augmented Reality,AR)技术开始受到各界关注。近几年,随着VR设备、网络和终端技术的成熟,360°视频正越来越多地用于影视、游戏、医疗、教育等应用中。据思科的统计报告显示:VR应用在2016年的平均月流量达到13.3PB,预计到2021年达到140PB,年增长率达到60%。如此广泛的360°视频给人们的生活和工作带来了新体验,大量的网络基础设施和智能穿戴设备也推动了360°视频应用的发展。然而,高质量的360°视频流服务面临着若干挑战,其中网络传输是一个关键性问题。随着每个VR图像分为两个流(每只眼睛一个),对网络带宽的需求快速增长。即使是最低级别的360°视频流体验,也将至少需要25Mbps的线路。在VR上流式传输高清级别的内容可能需要高达80到100Mbps的吞吐量,而对于Retina品质,需要寻找接近600Mbps的数据传输线路,这给网络带宽带来了巨大的挑战。
在带宽受限条件下,很多基于头部运动(头动)轨迹预测的360°视频流传输方法被相继提出,这些方法在空间上将360°全景视频离线分块,采用线性回归的方法对头动轨迹在线预测,并基于预测结果给不同的分块分配不同的视频质量。然而,由于用户观看行为的非线性性、预测窗口限制使得缓存长度过小等原因使得基于头动轨迹预测的360°视频流传输方案存在一定弊端。
发明内容
本发明的目的是为了解决头动轨迹预测的局限性,提高在带宽限制条件下的360°视频流的用户体验,提供了一种基于显著性检测的360°视频流传输系统,该系统主要包含两个创新点,基于历史眼部运动(眼动)数据和深度学习的显著性检测算法和基于显著性的码率控制算法。
本发明采用如下技术方案来实现的:
基于显著性检测的360°视频流传输系统,包括:
服务器端,在该系统的离线阶段,根据眼动数据获取显著性矩阵并计算每个视频的方差,即显著性矩阵的平均方差,从而将视频分为显著性视频和非显著性视频两类;在完成显著性矩阵的获取与分析之后,视频通过在时间维度和空间维度的分片以不同的质量和相应的形式存在;
客户端,当用户观看显著性视频时,根据实际网络状况从服务器下载相对应的显著性矩阵到客户端播放器,基于显著性的码率控制算法在播放过程中控制视频流的下载传输;对于非显著视频,则通过MPC算法来调整视频流的质量。
本发明进一步的改进在于,根据所采集的用户眼动数据,基于历史眼动数据和深度学习方法获取360°视频显著性矩阵。
本发明进一步的改进在于,基于历史眼动数据获取360°视频显著性矩阵利用高斯分布、方差自适应的高斯分布以及重叠面积分布三种方法生成M×N的显著性矩阵。
本发明进一步的改进在于,深度学习方法获取360°视频显著性矩阵利用PCSA网络提取视频中的显著性区域特征以及CNN监督网络来进行分块区域的预测;该获取360°视频显著性矩阵的深度学习方法在显著性检测网络的基础上,利用眼动数据作为标签,将经过显著性检测网络处理过后的输出特征映射作为输入,最后经过网络的深层训练,获得分块后的输出特征值。
本发明进一步的改进在于,所述服务器,使用基于HTTP的动态自适应流媒体编码技术将360°视频进行空间和时间维度的分片,每个空间切片有着相同或不同的编码码率,并且所有视频文件缓存在服务器中供客户端下载。
本发明进一步的改进在于,所述码率控制算法综合了离线阶段生成的显著性矩阵、动态网络带宽估计和客户端的实时播放缓冲信息,考虑了平均视频质量、时域上的质量变化、空域上的质量变化以及卡顿时长4个QoE优化指标,建模了码率控制的优化问题。
本发明进一步的改进在于,在客户端处,从服务器下载相对应的显著性矩阵到客户端播放器,结合实际网络状况进行带宽估计,并根据视频空间切片的显著程度赋予视频分块特定码率,在带宽受限时,权值更大的视频块被传输更高的质量。
本发明进一步的改进在于,针对码率控制的优化问题,根据码率控制算法的QoE指标建模了如下优化问题:
max Ui=Qi-αVCi-βVTi
Figure BDA0002671985520000031
其中,
Figure BDA0002671985520000032
Figure BDA0002671985520000033
Figure BDA0002671985520000034
Figure BDA0002671985520000035
其中,Ui代表第i个视频片的效用函数,综合考虑了平均视频质量、时域上的质量变化和空域上的质量差异三个QoE指标;通过最大化Ui,为视频片i的每个视频块j分配码率;Saliencyij代表显著性矩阵的(i,j)元素,qij代表视频片i,视频块j的视频质量,Qi代表在显著性矩阵加权平均下的第i个视频片的视频质量;VCi代表在显著性矩阵加权平均下的第i个视频片和第i-1个视频片的视频质量变化;nei(j)代表视频块j的相邻视频块构成的集合,VTi代表在显著性矩阵加权平均下的第i个视频片内的视频质量空域差异。
本发明至少具有如下有益的技术效果:
本发明提出了一个基于显著性检测的360°视频流传输系统,该系统的提出有效缓解了由于用户观看行为的非线性性、预测窗口限制使得缓存长度过小等弊端,并在波动网络环境下对比了本发明(SalientVR)、MPC(一种不分块的视频流码率控制算法)、Flare(业界最优的基于头动轨迹预测的360°视频流传输方法)和buffered Flare(在Flare的基础上,对缓冲时间进行了延长)四种算法在热门360°视频和非热门360°视频上平均视频质量和卡顿次数的具体表现。波动网络环境下,对于视频平均质量而言,不管在热门视频还是非热门视频上,本发明表现最优,在热门视频上,相较于Flare、Buffered Flare以及MPC,其平均质量分别提高了12.8%、22.03%和17.82%;在非热门视频上,相较于Flare、BufferedFlare以及MPC,其平均质量也分别提高了12.3%、21.5%和17.28%。就卡顿次数而言,本发明也表现良好,在波动网络条件,在热门视频上,相较于Flare和Buffered Flare,本发明的卡顿数量分别减少了64.3%和37.5%。这对目前业界对于360°视频流传输所遇到的问题,都在一定程度上进行了缓解。
附图说明
图1为基于显著性检测的360°视频流传输系统整体框架图;
图2为完整的显著性检测深度神经网络架构图;
图3为波动网络下不同算法在非显著性视频上的平均质量对比图;
图4为波动网络下不同算法在非显著视频上的卡顿次数对比图;
图5为波动网络下不同算法在显著性视频上的平均质量对比图;
图6为波动网络下不同算法在非显著视频上的卡顿次数对比图;
图7为缓冲和网络吞吐预测随网络带宽波动的变化过程示意图,其中,图7(a)为波动网络下真实吞吐率和预测吞吐率与时间的关系图,图7(b)为波动网络下SalientVR、Flare与Buffered Flare三种算法缓冲时长与时间的关系图。
具体实施方式
下面结合附图对本发明作进一步详细描述。
参考图1,这是一个基于显著性检测的360°视频流优化方案,在该系统的离线阶段,将得到每个视频块的显著性矩阵并且计算每个视频的方差(显著性矩阵的平均方差)。根据每个视频的方差,视频被分为显著性视频和非显著视频。在服务器端,在完成显著性矩阵的获取与分析之后,视频通过分块以不同的质量和相应的形式存在。当用户观看显著性视频时,首先从服务器下载相对应的显著性矩阵到客户端播放器,基于显著性的码率控制算法在播放过程中控制视频流的下载传输。对于非显著视频,通过MPC算法来调整视频流的质量。
参考图2,这是一个显著性检测深度神经网络,它在显著性检测网络的基础上,利用眼动数据作为标签,将经过显著性检测网络处理过后的输出特征映射作为输入,最后经过网络的深层训练,获得分块后的输出特征值。该网络同时考虑了视频ROI信息和用户的眼动数据,对于当前视频的分块区域预测有着一个明显的提升效果。本网络借助PCSA网络来作为显著性检测模块部分,用来提取视频中的显著性区域特征,并设计了一个新的CNN监督网络作为分块区域预测模块部分,将视频帧对应的眼动数据作为标签集合,用来提取视频中的用户重点关注区域特征。对于第二个模块结构,采用了VGGNet网络结构作为backbone,并添加两个卷积层和一个全连接层来对输出特征映射进行再处理,最后在网络的最后一层采用softmax函数进行归一化,保证输出的各块区域概率值和始终为1,得到一个M×N的区域级显著性矩阵。
本发明在波动网络下进行仿真,对比了本发明(即SalientVR系统)与MPC、Flare、Buffered Flare等算法的性能。其中MPC是一种不分块的视频流码率控制算法;Flare是一种基于头动轨迹预测的360°视频流传输方法;Buffered Flare则是在Flare的基础上,对缓冲时间进行了延长。此外,实验视频被随机分为两组,分别是热门视频和非热门视频。每个视频编码为5个质量级别(QP=22、27、32、37、42),并且按照64帧的GOP大小和30帧/秒的帧率来生成2.13秒的视频块。对于热门视频,本发明将用户的眼动数据按照2:1的比例随机分为训练数据和测试数据。
参考图3和图5,在波动带宽情况下,就视频平均质量(即Average Quality)而言,在热门视频上,相较于Flare、Buffered Flare以及MPC,其平均质量分别提高了12.8%、22.03%和17.82%;在非热门视频上,相较于Flare、Buffered Flare以及MPC,其平均质量也分别提高了12.3%、21.5%和17.28%。
参考图4和图6,在波动带宽情况下,就卡顿次数(即Rubuffer Num)而言,在热门视频上,相较于Flare、Buffered Flare以及MPC,本发明的卡顿数量分别减少了64.3%、37.5%和41.2%;在非热门视频上,相较于Flare、Buffered Flare以及MPC,本发明的卡顿数量分别减少了71.4%、50%和52.9%。
缓冲和网络吞吐预测随网络带宽波动的变化过程参考图7,为了更准确地预测头动轨迹,Flare必须保持较短的预测窗口和较小的缓冲大小。当网络带宽急剧下降时,网络预测模块不能立即做出及时响应和准确的吞吐估计。不准确的网络吞吐估计使得码率控制算法高估了网络带宽,并主动将高质量分配给下一个块。这会导致下载时间比预期的要长,特别是对于缓冲区较小的Flare,出现缓冲区耗尽的可能性更大。与Flare相比,BufferedFlare增大了缓冲区大小以吸收网络变化,减少了46.5%的卡顿次数,但也由于更大的预测窗口带来了13%的质量损失。本发明不依赖于在线眼动或头部运动数据,避免了预测窗口短的限制。因此,本发明可以保持较大的缓冲区大小来吸收网络波动。较大的缓冲区允许网络预测模块和码率控制模块有足够的时间在带宽迅速下降时适应和响应网络变化。
具体来说,本发明主要包含两个创新点,基于历史眼部运动(眼动)数据和深度学习的显著性检测算法和基于显著性的码率控制算法。
创新点一——基于历史眼动数据和深度学习的显著性检测算法
本发明使用历史眼动数据和深度学习方法生成显著性矩阵。
分析历史眼动数据发现不同用户在观看360°视频的注视行为具有一定程度的相似性。因此,本发明对同一视频不同用户的眼动数据进行合并,生成了每个视频的显著性矩阵。首先给定一个M×N分块帧的注视点
Figure BDA0002671985520000071
并通过高斯分布、方差自适应的高斯分布以及重叠面积分布等三种方法生成M×N的显著性矩阵。(其中θ范围被定义在
Figure BDA0002671985520000072
被定义在-π/2~π/2)
高斯分布。在固定方差下,计算注视点与每个分块中心点之间的高斯分布距离。每个分块的显著程度与与注视点的距离成反比。
方差自适应的高斯分布。由于360°视频的全景特性以及等矩柱状投影失真等原因,注视点在纬度上的分布并不均匀,因此本发明将高斯分布方差σ与纬度角
Figure BDA0002671985520000073
建立
Figure BDA0002671985520000074
的自适应对应关系。
重叠面积分布。每个分块的显著程度与每个分块和中央凹区域重叠的面积成正比。
除了历史眼动数据,用户观看360°视频的注视行为还和视频内容高度相关。根据360°视频的眼动数据分析,视频被分为热门视频和非热门视频,热门视频有着更高的点击率,这也意味着对于热门视频有着更多的观看眼动数据。对于这类视频,通过历史眼动数据对不同视频片在空间上的分块进行显著性分析并且得到每个视频的显著性矩阵。对于非热门视频,由于可获得眼动数据的不充分将导致无法使用历史数据驱动的方法进行分析,因此一个基于显著目标检测的深度神经网络被提出,该网络通过视频内容提取了每个视频的显著性矩阵。根据视频的显著度矩阵的方差,视频被分为显著性视频和非显著视频。
显著性检测模型的网络架构主要由两部分组成,用于显著性检测的PCSA模块和用于分块区域预测的CNN监督网络。
PCSA网络以金字塔结构形式的CSA模块所组成,在不同尺度和速度下来捕捉目标对象。该网络结构也有两部分组成,第一部分为CNN编码器模块,用来提取静态显著性特征,第二部分为一组平行的CSA模块,每个模块都有着不同的窗口大小和扩张因子,用来捕捉运动线索信息。它的整体工作流程为:一个T帧的视频片段被输入到CNN编码器中,来提取静态显著性特征。静态特征映射被划分成g组,使用g组并行的CSA模块来提取视频中的运行目标信息。最后通过一个卷积层进行处理来获得最终的显著性预测结果。
第二个模块结构则采用了VGGNet网络结构作为backbone,并添加两个卷积层和一个全连接层来对输出特征映射进行再处理,最后在网络的最后一层采用softmax函数进行归一化,保证输出的各块区域概率值和始终为1,得到一个M×N的区域级显著性矩阵。
在训练阶段,本发明使用了二进制交叉熵损失函数BCE,定义了预测输出结果为P,真实的眼动ROI矩阵值为G,则该损失函数Lbce可以被定义为:
Figure BDA0002671985520000081
创新点二——基于显著性的码率控制算法
本发明根据显著性矩阵的方差将视频分为显著性视频(方差大于γ)和非显著视频(方差小于等于γ),对于显著性视频而言,根据显著性矩阵在空间分布的不均匀性设计了基于显著性的码率控制算法;对于非显著视频而言,分块视频的码率控制算法在平均质量上的提高相较于不分块视频的码率控制算法比较细微。对于显著性分布绝对均匀的一类视频而言,MPC算法可以避免分块带来的空域质量波动并在相同带宽限制下给同一大小的视频帧分配更高的质量。
对于大部分分块360°视频流的码率自适应方法而言,主要分为两个阶段。首先,根据每个分块的显著程度给不同分块赋予特定权重,在带宽受限时,权值较大的视频块被传输较高的质量。显著性矩阵一定程度反映了每个分块将被观看到的可能性,因此,以每个视频块的显著性为标准来赋予权重,并以此为显著性视频构建基于显著性的码率控制算法。
自适应码率技术(Adaptive Bitrate Streaming,ABR),也叫码率控制技术,是一种视频码率可以根据网络状况和客户端的播放缓冲(buffer)区情况自动调整的视频传输技术。一个视频源通过视频转码器转成不同的视频码率存储在内容服务器,同时每个码率的视频被切割成一个个小的视频分片(chunk),每个分片通常是可单独解码播放的视频内容,分片时长通常介于2秒到10秒之间。视频播放客户端首先获取不同码率的分片索引信息,然后根据当前的网络状况和客户端的播放缓冲区情况自动选择码率最匹配的视频片段下载,使得用户能有最优的观看体验。
本发明结合在离线阶段生成的显著性矩阵、动态网络带宽估计和客户端的实时播放缓冲信息,设计了基于显著性的码率控制算法。
首先,确定了码率控制算法的QoE指标,对于360°视频流,本发明在码率控制算法中考虑以下四个优化指标。
平均视频质量。平均视频质量为一个视频所有帧观看质量的平均,观看质量的衡量方法有很多,比如PSNR(peak signal-to-noise ratio)、SSIM(structuralsimilarity)、QP(quantization parameter)等。这里需要注意的是,360°视频不同于非360°视频,每帧观看的区域是整帧画面较小的一部分,没有观看到的区域的视频质量不应该计入到观看质量中。
时域上的质量变化。时域上的质量变化为一个视频所有相邻帧观看质量差异的平均,主要用于衡量连续观看时的质量突变情况。时域上的质量变化越小,代表图像帧间的观看越平滑自然。
空域上的质量差异。空域上的质量差异为一个视频所有帧内观看质量差异的平均,是由于360°视频分块特性所导致的特有指标。由于360°视频流的每一帧都被分割成若干块可独立选择码率的图像,因此对于同一帧图像也有可能产生质量的差异。空域上的质量差异越小,代表图像帧内的观看越平滑自然。
卡顿时长。当客户端的缓存长度为零,播放就会停止,发生卡顿事件。卡顿会带来糟糕的用户体验,在360°视频流中更为明显。
确定了码率控制算法的QoE指标之后,本发明建模了码率控制的优化问题如下。
max Ui=Qi-αVCi-βVTi
Figure BDA0002671985520000101
其中,
Figure BDA0002671985520000102
Figure BDA0002671985520000103
Figure BDA0002671985520000104
Figure BDA0002671985520000105
这里,Ui代表第i个视频片的效用函数,综合考虑了平均视频质量、时域上的质量变化和空域上的质量差异三个QoE指标。通过最大化Ui,为视频片i的每个视频块j分配码率。Saliencyij代表显著性矩阵的(i,j)元素,qij代表视频片i,视频块j的视频质量,Qi代表在显著性矩阵加权平均下的第i个视频片的视频质量。VCi代表在显著性矩阵加权平均下的第i个视频片和第i-1个视频片的视频质量变化。nei(j)代表视频块j的相邻视频块构成的集合,VTi代表在显著性矩阵加权平均下的第i个视频片内的视频质量空域差异。
为尽可能防止卡顿事件的发生,本发明希望缓存长度尽可能不小于设置的缓存下限(buffer_limit)。如果当前缓存长度(buffer_occu)小于缓存下限,码率控制算法将采用最保守的控制策略,选择质量最低的视频进行下载传输,以尽可能避免卡顿事件的发生。如果当前缓存长度不小于缓存下限,码率控制算法将选择约束条件下的使效用函数最大的相应质量视频进行下载传输。特别的,当用户开始点击播放时,此时缓存长度为零,码率控制算法依然采用最保守的控制策略,选择质量最低的视频进行下载传输,可以极大地降低启动延时。
为尽可能保证缓存长度不小于设置的缓存下限,求解码率控制的优化问题时,本发明结合对网络带宽的动态预测(bw)和客户端当前缓存长度对选择的视频文件尺寸(sizeij)进行约束。每个视频片下载完成,缓存长度就会增加一个视频片的长度(chunk_dura),而下载的过程中视频会持续播放至缓存长度为零,同时缓存长度持续减少至新的视频片下载完成或缓存长度为零。满足的具体约束条件为下载下一个视频片的耗时不大于一个视频片的长度加当前缓存长度减缓存下限,下载下一个视频片的耗时等于下一个视频片的文件尺寸大小除以预测的网络带宽。

Claims (6)

1.基于显著性检测的360°视频流传输系统,其特征在于,包括:
服务器端,在该系统的离线阶段,根据眼动数据获取显著性矩阵并计算每个视频的方差,即显著性矩阵的平均方差,从而将视频分为显著性视频和非显著性视频两类;在完成显著性矩阵的获取与分析之后,视频通过在时间维度和空间维度的分片以不同的质量和相应的形式存在;
客户端,当用户观看显著性视频时,根据实际网络状况从服务器下载相对应的显著性矩阵到客户端播放器,基于显著性的码率控制算法在播放过程中控制视频流的下载传输;对于非显著视频,则通过MPC算法来调整视频流的质量;所述码率控制算法综合了离线阶段生成的显著性矩阵、动态网络带宽估计和客户端的实时播放缓冲信息,考虑了平均视频质量、时域上的质量变化、空域上的质量变化以及卡顿时长4个QoE优化指标,建模了码率控制的优化问题;
针对码率控制的优化问题,根据码率控制算法的QoE指标建模了如下优化问题:
max Ui=Qi-αVCi-βVTi
Figure FDA0003018407760000011
其中,
Figure FDA0003018407760000012
Figure FDA0003018407760000013
Figure FDA0003018407760000014
Figure FDA0003018407760000015
其中,Ui代表第i个视频片的效用函数,综合考虑了平均视频质量、时域上的质量变化和空域上的质量差异三个QoE指标;通过最大化Ui,为视频片i的每个视频块j分配码率;Saliencyij代表显著性矩阵的(i,j)元素,qij代表视频片i,视频块j的视频质量,Qi代表在显著性矩阵加权平均下的第i个视频片的视频质量;VCi代表在显著性矩阵加权平均下的第i个视频片和第i-1个视频片的视频质量变化;nei(j)代表视频块j的相邻视频块构成的集合,VTi代表在显著性矩阵加权平均下的第i个视频片内的视频质量空域差异。
2.根据权利要求1所述的基于显著性检测的360°视频流传输系统,其特征在于,根据所采集的用户眼动数据,基于历史眼动数据和深度学习方法获取360°视频显著性矩阵。
3.根据权利要求2所述的基于显著性检测的360°视频流传输系统,其特征在于,基于历史眼动数据获取360°视频显著性矩阵利用高斯分布、方差自适应的高斯分布以及重叠面积分布三种方法生成M×N的显著性矩阵。
4.根据权利要求2所述的基于显著性检测的360°视频流传输系统,其特征在于,深度学习方法获取360°视频显著性矩阵利用PCSA网络提取视频中的显著性区域特征以及CNN监督网络来进行分块区域的预测;该获取360°视频显著性矩阵的深度学习方法在显著性检测网络的基础上,利用眼动数据作为标签,将经过显著性检测网络处理过后的输出特征映射作为输入,最后经过网络的深层训练,获得分块后的输出特征值。
5.根据权利要求1所述的基于显著性检测的360°视频流传输系统,其特征在于,所述服务器,使用基于HTTP的动态自适应流媒体编码技术将360°视频进行空间和时间维度的分片,每个空间切片有着相同或不同的编码码率,并且所有视频文件缓存在服务器中供客户端下载。
6.根据权利要求1所述的基于显著性检测的360°视频流传输系统,其特征在于,在客户端处,从服务器下载相对应的显著性矩阵到客户端播放器,结合实际网络状况进行带宽估计,并根据视频空间切片的显著程度赋予视频分块特定码率,在带宽受限时,权值更大的视频块被传输更高的质量。
CN202010936123.1A 2020-09-08 2020-09-08 基于显著性检测的360°视频流传输系统 Active CN112055263B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010936123.1A CN112055263B (zh) 2020-09-08 2020-09-08 基于显著性检测的360°视频流传输系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010936123.1A CN112055263B (zh) 2020-09-08 2020-09-08 基于显著性检测的360°视频流传输系统

Publications (2)

Publication Number Publication Date
CN112055263A CN112055263A (zh) 2020-12-08
CN112055263B true CN112055263B (zh) 2021-08-13

Family

ID=73611662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010936123.1A Active CN112055263B (zh) 2020-09-08 2020-09-08 基于显著性检测的360°视频流传输系统

Country Status (1)

Country Link
CN (1) CN112055263B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112929691B (zh) * 2021-01-29 2022-06-14 复旦大学 多用户全景视频传输方法
CN116033180A (zh) * 2021-10-25 2023-04-28 中兴通讯股份有限公司 视频处理方法、电子设备及存储介质
CN115022546B (zh) * 2022-05-31 2023-11-14 咪咕视讯科技有限公司 全景视频传输方法、装置、终端设备以及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106454551A (zh) * 2016-09-23 2017-02-22 西安交通大学 一种QoE驱动的HTTP自适应流媒体直播服务器集群部署方法
CN108063944A (zh) * 2017-12-14 2018-05-22 西北工业大学 一种基于视觉显著性的感知码率控制方法
CN108737724A (zh) * 2017-04-17 2018-11-02 英特尔公司 用于360视频捕获和显示的系统和方法
CN108932532A (zh) * 2018-07-11 2018-12-04 杭州电子科技大学 一种针对视频显著性图预测所需的眼动数据数目建议方法
CN110248212A (zh) * 2019-05-27 2019-09-17 上海交通大学 多用户360度视频流服务器端码率自适应传输方法及系统
WO2019235849A1 (ko) * 2018-06-06 2019-12-12 엘지전자 주식회사 360 비디오 시스템에서 오버레이 미디어 처리 방법 및 그 장치
CN111447449A (zh) * 2020-04-01 2020-07-24 北京奥维视讯科技有限责任公司 基于roi的视频编码方法和系统以及视频传输和编码系统
CN111586414A (zh) * 2020-04-07 2020-08-25 南京师范大学 一种基于svc和dash的360°视频流调度方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018038520A1 (ko) * 2016-08-25 2018-03-01 엘지전자 주식회사 전방향 비디오를 전송하는 방법, 전방향 비디오를 수신하는 방법, 전방향 비디오 전송 장치, 전방향 비디오 수신 장치
US10652553B2 (en) * 2016-12-07 2020-05-12 Qualcomm Incorporated Systems and methods of signaling of regions of interest
WO2018171758A1 (en) * 2017-03-24 2018-09-27 Mediatek Inc. Method and apparatus for deriving vr projection, packing, roi and viewport related tracks in isobmff and supporting viewport roll signaling
US10506255B2 (en) * 2017-04-01 2019-12-10 Intel Corporation MV/mode prediction, ROI-based transmit, metadata capture, and format detection for 360 video
CN109286855B (zh) * 2017-07-19 2020-10-13 北京大学 全景视频的传输方法、传输装置和传输系统
US20200234499A1 (en) * 2017-11-08 2020-07-23 Lg Electronics Inc. Method for transmitting/receiving media data and device therefor
US10659815B2 (en) * 2018-03-08 2020-05-19 At&T Intellectual Property I, L.P. Method of dynamic adaptive streaming for 360-degree videos
CN108551586B (zh) * 2018-03-14 2020-06-05 上海交通大学 多用户360度视频流服务器端码率自适应分配方法及系统
CN108833880B (zh) * 2018-04-26 2020-05-22 北京大学 利用跨用户行为模式进行视点预测并实现虚拟现实视频最优化传输的方法和装置
CN109874019A (zh) * 2019-03-26 2019-06-11 深圳大学 一种不平等误差保护辅助关注区域无线全景视频的方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106454551A (zh) * 2016-09-23 2017-02-22 西安交通大学 一种QoE驱动的HTTP自适应流媒体直播服务器集群部署方法
CN108737724A (zh) * 2017-04-17 2018-11-02 英特尔公司 用于360视频捕获和显示的系统和方法
CN108063944A (zh) * 2017-12-14 2018-05-22 西北工业大学 一种基于视觉显著性的感知码率控制方法
WO2019235849A1 (ko) * 2018-06-06 2019-12-12 엘지전자 주식회사 360 비디오 시스템에서 오버레이 미디어 처리 방법 및 그 장치
CN108932532A (zh) * 2018-07-11 2018-12-04 杭州电子科技大学 一种针对视频显著性图预测所需的眼动数据数目建议方法
CN110248212A (zh) * 2019-05-27 2019-09-17 上海交通大学 多用户360度视频流服务器端码率自适应传输方法及系统
CN111447449A (zh) * 2020-04-01 2020-07-24 北京奥维视讯科技有限责任公司 基于roi的视频编码方法和系统以及视频传输和编码系统
CN111586414A (zh) * 2020-04-07 2020-08-25 南京师范大学 一种基于svc和dash的360°视频流调度方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《DeepVS:A Deep Learning Based Video Saliancy Prediction Approach》;Lai Jiang et al.;《ECVV 2018》;20181231;全文 *
《全景视频的显著性检测及其在编码传输中的应用》;苏群;《中国优秀硕士学位论文全文数据库》;20190131(第1期);全文 *

Also Published As

Publication number Publication date
CN112055263A (zh) 2020-12-08

Similar Documents

Publication Publication Date Title
CN112055263B (zh) 基于显著性检测的360°视频流传输系统
US10419773B1 (en) Hybrid learning for adaptive video grouping and compression
Chen et al. From QoS to QoE: A tutorial on video quality assessment
CN108833880B (zh) 利用跨用户行为模式进行视点预测并实现虚拟现实视频最优化传输的方法和装置
CN107211193A (zh) 感知体验质量估计驱动的智能适应视频流传输方法和系统
AU2020289756B2 (en) Systems and methods for rendering & pre-encoded load estimation based encoder hinting
US20130044183A1 (en) Distributed video coding/decoding method, distributed video coding/decoding apparatus, and transcoding apparatus
US20030195977A1 (en) Streaming methods and systems
KR102050780B1 (ko) 신경망을 이용한 컨텐츠 인지 기반 컨텐츠 전송 서버 장치 및 방법
CN110087081B (zh) 视频编码方法、装置、服务器及存储介质
CN115037962B (zh) 视频自适应传输方法、装置、终端设备以及存储介质
Sani et al. SMASH: A supervised machine learning approach to adaptive video streaming over HTTP
Li et al. An apprenticeship learning approach for adaptive video streaming based on chunk quality and user preference
CN108810468B (zh) 一种优化显示效果的视频传输装置及方法
Li et al. DAVS: Dynamic-chunk quality aware adaptive video streaming using apprenticeship learning
Quan et al. Reinforcement learning driven adaptive vr streaming with optical flow based qoe
CN114827617B (zh) 一种基于感知模型的视频编解码方法及系统
CN114095756B (zh) 基于长期视野预测的自适应全景视频流传输系统及其方法
Zhou et al. Bandwidth-efficient edge video analytics via frame partitioning and quantization optimization
Tu et al. PSTile: Perception-Sensitivity Based 360$^\circ $ Tiled Video Streaming for Industrial Surveillance
CN111586414B (zh) 一种基于svc和dash的360°视频流调度方法
Lu et al. Deep-reinforcement-learning-based user-preference-aware rate adaptation for video streaming
Meng et al. Fastconv: Fast learning based adaptive bitrate algorithm for video streaming
Jia et al. RDladder: Resolution-Duration Ladder for VBR-encoded Videos via Imitation Learning
CN114666620B (zh) 基于视觉敏感度的自适应流媒体方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant