CN111277857B - 一种流媒体调度方法及装置 - Google Patents
一种流媒体调度方法及装置 Download PDFInfo
- Publication number
- CN111277857B CN111277857B CN201811475838.0A CN201811475838A CN111277857B CN 111277857 B CN111277857 B CN 111277857B CN 201811475838 A CN201811475838 A CN 201811475838A CN 111277857 B CN111277857 B CN 111277857B
- Authority
- CN
- China
- Prior art keywords
- video
- region
- definition
- taking
- mixed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000000007 visual effect Effects 0.000 claims abstract description 75
- 230000003247 decreasing effect Effects 0.000 claims abstract description 38
- 210000001508 eye Anatomy 0.000 claims description 47
- 238000012545 processing Methods 0.000 claims description 31
- 230000033001 locomotion Effects 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 230000004886 head movement Effects 0.000 claims description 6
- 230000004438 eyesight Effects 0.000 description 23
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 210000005252 bulbus oculi Anatomy 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000005043 peripheral vision Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000004424 eye movement Effects 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002207 retinal effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/21805—Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/234363—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the spatial resolution, e.g. for clients with a lower screen resolution
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Information Transfer Between Computers (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明实施例提供一种流媒体调度方法及装置,该方法包括:接收用户当前时刻后预设时长内注视区域的预测结果,所述预测结果对应于视频区域划分得到的多个子区域中的目标子区域;根据当前时刻后预设时长内应发送的视频片段,以所述目标子区域为中心,生成与人眼视觉层级对应的清晰度依次递减的混合视频片段;将所述混合视频片段发送至客户端。本发明实施例提供的方法实现了低带宽资源的占用下,得到较高的QoE。
Description
技术领域
本发明实施例涉及互联网流媒体领域,尤其涉及一种流媒体调度方法及装置。
背景技术
伴随着虚拟现实(VR)技术的蓬勃发展,具有沉浸、互动和想象等特征的消费级虚拟现实设备将有望开启娱乐、医学和教育等领区的新时代,VR流媒体将在不久的将来主导互联网流量。
目前的VR流媒体主要通过宽带传输,尽管VR发展迅速,但带宽资源是有限的。目前的带宽传输能力无法满足VR流媒体的高质量需求。特别是对于高端移动VR流媒体来说,这一差距更加显著,传统无线技术的带宽容量与VR流媒体的带宽需求之间存在巨大差距。由于受到传输速率的限制,只能获得很低的体验质量(Quality of Experience,简称QoE),无法实现在资源受限的条件下获得高质量的VR内容。因此,现有的流媒体传输方法在带宽资源受限的情况下,无法满足高QoE的要求。
发明内容
为了解决上述问题,本发明实施例提供一种流媒体调度方法及装置。
第一方面,本发明提供一种流媒体调度方法,包括:接收用户当前时刻后预设时长内注视区域的预测结果,所述预测结果对应于视频区域划分得到的多个子区域中的目标子区域;根据当前时刻后预设时长内应发送的视频片段,以所述目标子区域为中心,生成与人眼视觉层级对应的清晰度依次递减的混合视频片段;将所述混合视频片段发送至客户端。
第二方面,本发明提供一种流媒体调度方法,包括:发送用户当前时刻后预设时长内注视区域的预测结果,所述预测结果对应于视频区域划分得到的多个子区域中的目标子区域;接收混合视频片段,所述混合视频片段为服务器根据当前时刻后预设时长内应发送的视频片段,以所述目标子区域为中心,生成的与人眼视觉层级对应的清晰度依次递减的视频片段。
第三方面,本发明提供一种流媒体调度装置,包括:接收模块,用于接收用户当前时刻后预设时长内注视区域的预测结果,所述预测结果对应于视频区域划分得到的多个子区域中的目标子区域;处理模块,用于根据当前时刻后预设时长内应发送的视频片段,以所述目标子区域为中心,生成与人眼视觉层级对应的清晰度依次递减的混合视频片段;发送模块,用于将所述混合视频片段发送至客户端。
第四方面,本发明提供一种流媒体调度装置,包括:发送模块,用于发送用户当前时刻后预设时长内注视区域的预测结果,所述预测结果对应于视频区域划分得到的多个子区域中的目标子区域;接收模块,用于接收混合视频片段,所述混合视频片段为服务器根据当前时刻后预设时长内应发送的视频片段,以所述目标子区域为中心,生成的与人眼视觉层级对应的清晰度依次递减的视频片段。
第五方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现本发明第一方面或第二方面流媒体调度方法的步骤。
第六方面,本发明提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本发明第一方面或第二方面流媒体调度方法的步骤。
本发明实施例提供的流媒体调度方法,通过接收用户当前时刻后预设时长内注视区域的预测结果,以与该预测结果对应的目标子区域为中心,生成与人眼视觉层级对应的清晰度依次递减的混合视频片段,并发送至客户端。实现了低带宽资源的占用下,得到较高的QoE。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的流媒体调度方法流程图;
图2为本发明实施例提供的流媒体调度方法视频处理示意图;
图3为本发明实施例提供的流媒体调度方法混合视频生成示意图;
图4为本发明另一实施例提供的流媒体调度方法流程图;
图5为本发明实施例提供的流媒体调度装置结构图;
图6为本发明另一实施例提供的流媒体调度装置结构图;
图7为本发明实施例提供的一种电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,传统无线技术的带宽容量与VR流媒体的带宽需求之间存在巨大差距。若需要在VR场景中实现视网膜显示效果,那么我们需要约为5073×5707的单眼分辨率,当我们使用与现有4K视频相同的编码模式编码VR视频时,视频流对于带宽的需求至少为840Mbps。理论上最快的商用WiFi(802.11ac)的带宽为1.3Gbps,实际上只能达到400Mbps的传输速率。通过传统的无线网络进行VR流媒体传输只能获得较低的体验质量(QoE)。
为解决这一问题,本发明实施例提供一种流媒体调度方法。该方法可应用于上述VR流媒体传输场景,也可以用于其它受带宽资源限制的流媒体传输场景,本发明实施例对此不作具体限定。另外,该方法对应的执行主体可以为客户端,也可以为服务器,或者由客户端与服务器交互实现,本发明实施例对此也不作具体限定。以下实施例的描述以VR设备播放360°视频的应用场景为例进行说明,客户端为向用户播放视频的VR设备,服务器为提供视频资源的服务端。
人眼存在视觉层级,人眼的视场中约120°组成人的双眼视觉区域,视觉本质上是分层的,主要包括中央视觉,旁中央视觉和周围视觉。中央视觉,是人类视觉中最重要的部分,仅在整个视觉中占到5°。在中央视觉中,可以清楚地看到文本中的大约四五个单词,准确率为100%。旁中央视觉比中央视觉稍大约30°。在这部分视觉中,人对处于这个范围内的物体,可以看到其的形状。周围视觉占据人类视觉的约60°,人可以在这个区域感知到色彩。在视觉的其余部分,人们可以感受到物体的运动。
图1为本发明实施例提供的流媒体调度方法流程图,如图1所示,本发明实施例提供一种流媒体调度方法,包括:
101,接收用户当前时刻后预设时长内注视区域的预测结果,预测结果对应于视频区域划分得到的多个子区域中的目标子区域。
在执行101之前,还包括区域划分过程,根据人眼视觉层级的原理,将视频播放区域划为多个子区域。以360°视频为例,将360°视频划分为36×36的多个子区域,单个子区域为10°,与用户的中央视觉角度对应。
在101中,客户端能够对用户眼球注视的区域进行预测,服务器接收客户端对于用户的眼球注视区域的预测结果,由于预测的时间过长会导致预测的结果不够准确,该预测结果为当前时刻起的一定时间段的预测,即预设时长。根据预测的注视区域,得到360°视频的36×36个子区域中,哪一子区域与注视区域对应,将该子区域作为目标子区域。
102,根据当前时刻后预设时长内应发送的视频片段,以目标子区域为中心,生成与人眼视觉层级对应的清晰度依次递减的混合视频片段。
在102中,由于预测的注视区域是预设时长内的预测结果,从而发送至客户端播放的视频也应与该预测时长对应,发送至客户端的视频文件是根据每一个预设时长内的预测结果生成的混合视频片段组合得到的。服务器将原始视频文件按预设时长切分为多个视频片段,当前时刻后预设时长内应发送的视频片段为该预设时长内原始视频文件的视频片段,本实施例中是根据该原始视频文件的视频片段进行处理后得到混合视频片段,发送至客户端播放的。
由于人眼存在视觉层级,中央视觉能够清楚感知,随着角度的增大其余视觉区域感知度逐渐下降,从而可以对于中央视觉区域播放正常清晰度的片段,随着角度的增大降低视频的清晰度,且不会影响用户的QoE。目标子区域与预测的用户注视区域对应,从而目标子区域与用户的中央视觉区域对应。目标子区域播放正常清晰度的视频,以目标子区域为中心,周围的子区域逐渐降低视频的清晰度,从而生成与人眼视觉层级有对应关系的清晰度依次递减的混合视频片段。以三种清晰度为HD(高清晰度)、SD(中等清晰度)以及LD(低清晰度)为例,如目标子区域为正常清晰度的高清视频块,目标子区域周围用户视觉30°角的范围的子区域为中等清晰度的视频块,目标子区域周围用户视觉120°角的范围的子区域为低清晰度的视频块,即清晰度与人眼视觉层级对应,且依次递减。
以360°视频的36×36个子区域为例,目标子区域的清晰度不变,周围3×3的子区域为中等清晰度,其余子区域为低清晰度,生成混合清晰度的视频。
103,将混合视频片段发送至客户端。
服务器将混合视频片段发送至客户端进行播放,由于原始视频文件按预设时长切分为多个视频片段进行处理得到混合视频片段,从而整个接收视频的过程得到的视频文件为,按预设时长切分得到的多个混合视频片段组合得到。其中,每个视频片段按上述规则进行混合得到。
本实施例提供的流媒体调度方法,通过接收用户当前时刻后预设时长内注视区域的预测结果,以与该预测结果对应的目标子区域为中心,生成与人眼视觉层级对应的清晰度依次递减的混合视频片段,并发送至客户端。实现了低带宽资源的占用下,得到较高的QoE。
考虑到接收注视区域的预测结果后,根据原视频片段处理生成混合视频片段会产生一定网络延时,基于上述实施例的内容,作为一种可选实施例,本发明实施例不对根据当前时刻后预设时长内应发送的视频片段,以目标子区域为中心,生成与人眼视觉层级对应的清晰度依次递减的混合视频的过程作具体限定,包括但不限于:根据视频片段经预先离线处理后得到的多种清晰度的视频片段,以目标子区域为中心,生成与人眼视觉层级对应的清晰度依次递减的混合视频;其中,多种清晰度与人眼视觉层级相对应。
为了减少在线处理原视频文件生成混合视频而产生额外的延迟,将原始视频文件按预设时长切分为多个视频片段后,将每个待播放的视频片段预先离线处理成多个清晰度的视频片段。在生成混合视频的过程中,可直接提取该多个清晰度的视频片段,用于生成混合视频。该多种清晰度与人眼视觉层级对应,如高清晰度对应人眼中央视觉区域,中等清晰度对应人眼旁中央视觉区域,低清晰度对应其它视觉区域。
在生成混合视频片段时,可将每一清晰度的视频片段划分为与播放区域的多个子区域相对应的多个视频块,从多个视频块中选取与人眼视觉层级对应清晰度的视频块生成混合视频片段。如从正常清晰度的高清晰度视频片段中选取与目标子区域对应的视频块,作为中央视觉区域的显示对象。以目标子区域为中心,从中等清晰度的视频片段中选取与旁中央视觉区域对应的视频块,从低清晰度的视频片段中选取与其它视觉区域对应的视频块。
本实施例提供的流媒体调度方法,通过视频片段预先离线处理后得到的多种清晰度的视频片段,生成与人眼视觉层级对应的清晰度依次递减的混合视频,减少了在线处理视频产生的延迟。
考虑到网络带宽资源是有限的,基于上述实施例的内容,作为一种可选实施例,多种清晰度的视频片段中每一清晰度,除与目标子区域对应的清晰度外,其它清晰度均有多个对应不同比特率的视频片段。
对每一清晰度的视频片段预处理得到多种比特率的视频,在生成混合视频时,可根据带宽资源的情况进行选择。由于目标子区域对应的清晰度为正常清晰度的高清晰度,是用户QoE的核心,从而不适合减少比特率。除此之外其他清晰度对应人眼的其他视觉区域,在考虑网络带宽资源限制的条件下,对每一清晰度设置多个不同比特率的视频片段。生成混合视频时,对每一清晰度的视频片段,选择相应比特率的视频片段,以符合带宽资源的限制条件。
图2为本发明实施例提供的流媒体调度方法视频处理示意图,如图2所示,超清与HD对应,高清与SD对应,低清与LD对应,除与目标子区域对应的清晰度外HD外,其它清晰度均有多个对应与不同比特率的视频片段。将对应不同清晰度的视频片段按照与视频区域一致的划分规则,划分为多个视频块。多个视频块最终用于生成上述混合视频片段,最终形成混合视频文件。
图3为本发明实施例提供的流媒体调度方法混合视频生成示意图,如图3所示,超清与HD对应,高清与SD对应,低清与LD对应,从多个视频块中选取与人眼视觉层级对应清晰度的视频块生成混合视频片段。从HD视频片段中选取与目标子区域对应的视频块,作为中央视觉区域的显示对象。以目标子区域为中心,从SD视频片段中选取与旁中央视觉区域对应的视频块,从LD视频片段中选取与其它视觉区域对应的视频块,生成的重组视频包括多个混合视频片段。
本实施例提供的流媒体调度方法,通过除与目标子区域对应的清晰度外,其它清晰度均设置有多个对应与不同比特率的视频片段,以符合带宽资源的限制条件。
基于上述实施例的内容,作为一种可选实施例,根据视频片段经预先离线处理后得到的多种清晰度的视频片段,以目标子区域为中心,生成与人眼视觉层级对应的清晰度依次递减的混合视频,包括:为每一清晰度设置权重,从视频片段经预先离线处理后得到的多种清晰度的视频片段中,选取满足带宽大小的、QoE得分最大并且能够构成视频片段的所有视频块;以目标子区域为中心,生成与人眼视觉层级对应的清晰度依次递减的混合视频。
为了在符合带宽资源限制的条件下,取得最大的QoE,需要对QOE进行量化评估。在带宽资源一定的条件下,从多种清晰度的视频片段中选取能够使QOE得分最大的视频块,以生成上述混合视频片段。QOE是根据用户对多种清晰度的体验感知得到的,多种清晰度是与人眼的视觉层级对应的。因此,对每一清晰度设置权重,根据预生成的混合视频片段中每一视频块的权重即可得到整个预生成的混合视频片段的QoE得分。
对于每一清晰度存在多种不同比特率的情况,还需考虑到不同比特率对QoE得分的影响。以下以每一清晰度存在多种不同比特率的情况,三种清晰度为HD、SD以及LD对应三种视觉层级为例具体说明。
在现有QoE评估方法中,MOS(平均意见得分)是最常见的指标,经研究得到比特率和MOS分数之间的指数函数关系,通过对两者的拟合和归一化,获得对于每一视频块基于比特率的视频质量评估(BVQA):
在定义了BVQA之后,得到QoE得分值:
其中i为水平方向视频块序号,j为垂直方向视频块序号,Nx、Ny分比为是垂直和水平方向上的视频块数量,Weightij为对应视频块的权重。可将HD,SD和LD视频块的权重分别设置为0.5、0.3和0.2。
在带宽资源一定的条件下,从多种清晰度的视频片段中选取能够使QOE得分最大的视频块的问题可作为背包问题进行研究。视频文件为n个视频片段组成的集合{x1,x2,...,xn},每个视频片段xi由m个不同清晰度的视频块{d1,d2,...,dm}组成,优化调度的问题可通过以下公式来表示:
其中,xi=1,wij为xij的权重,vij为xij对应的QoE。
为了解决优化问题,提出一种贪心算法。无论可用带宽如何,首先为每一视觉层级选择最高分辨率HD,若可用带宽仍然不足则降低LD区域比特率。若可用带宽仍然不足,则降低SD区域的比特率。递归执行该过程,直到可以生成的混合视频片段符合带宽限制。由于HD区域对应人眼的中央视觉区域,此区域若减小比特率会损害QoE,从而只调整SD和HD区域的比特率以适应有限的带宽。
本实施例提供的流媒体调度方法,为每一清晰度设置权重,从视频片段经预先离线处理后得到的多种清晰度的视频片段中,选取满足带宽大小的、QoE得分最大并且能够构成视频片段的所有视频块,在符合带宽资源限制的条件下,取得最大的QoE。
图4为本发明另一实施例提供的流媒体调度方法流程图,如图4所示,本发明实施例提供一种流媒体调度方法,包括:
401、发送用户当前时刻后预设时长内注视区域的预测结果,预测结果对应于视频区域划分得到的多个子区域中的目标子区域。
在401中,客户端能够对用户眼球注视的区域进行预测,将用户的眼球注视区域的预测结果发送至服务器,由于预测的时间过长会导致预测的结果不够准确,该预测结果为当前时刻起的一定时间段的预测,即预设时长。根据预测的注视区域,得到360°视频的36×36个子区域中,哪一子区域与注视区域对应,该子区域将作为服务器的目标子区域,用于输出最高清晰度的视频。
402、接收混合视频片段,混合视频片段为服务器根据当前时刻后预设时长内应发送的视频片段,以目标子区域为中心,生成与人眼视觉层级对应的清晰度依次递减的视频片段。
在402中,客户端接收根据该原始视频文件的视频片段进行处理后得到混合视频片段,最终接收整个混合视频文件。由于预测的注视区域是预设时长内的预测结果,从而发送至客户端播放的视频也应与该预测时长对应,发送至客户端的视频文件是根据每一个预设时长内的预测结果生成的混合视频片段组合得到的。服务器将原始视频文件按预设时长切分为多个视频片段,当前时刻后预设时长内应发送的视频片段为该预设时长内原始视频文件的视频片段。
目标子区域与预测的用户注视区域对应,从而目标子区域与用户的中央视觉区域对应。目标子区域播放正常清晰度的视频,以目标子区域为中心,周围的子区域逐渐降低视频的清晰度,从而生成与人眼视觉层级有对应关系的清晰度依次递减的混合视频片段。以三种清晰度为HD、SD以及LD为例,如目标子区域为正常清晰度的高清视频块,目标子区域周围用户视觉30°角的范围的子区域为中等清晰度的视频块,目标子区域周围用户视觉120°角的范围的子区域为低清晰度的视频块,即清晰度与人眼视觉层级对应,且依次递减。
本实施例提供的流媒体调度方法,通过发送用户当前时刻后预设时长内注视区域的预测结果,接收根据当前时刻后预设时长内应发送的视频片段,以目标子区域为中心,生成的与人眼视觉层级对应的清晰度依次递减的混合视频片段。实现了低带宽资源的占用下,得到较高的QoE。
基于上述实施例的内容,作为一种可选实施例,本发明实施例不对发送用户当前时刻后预设时长内注视区域的预测结果的方法作具体限定,包括但不限于:获取用户头部运动信息和视线运动信息,采用支持向量回归预测用户当前时刻后预设时长内注视区域的预测结果,并发送预测结果。
客户端能够获取用户头部运动信息和视线运动信息,如通过基于惯性测量单元(IMU)的方向跟踪、基于红外线传感器的位置跟踪、眼动追踪以及或视线跟踪等获取。
以Unity3D获取传感器数据为例,获得Ray形式和四元数形式的原始数据。Ray包括两个三维向量,分别表示射线的起点和方向。四元数是一个表示旋转的四维向量。基于这些传感器数据,可以通过计算得到预测注视区域所需要的头部运动和视线运动信息。可以计算头部运动和视线运动的单位矢量,然后通过计算视频区域与两个向量的交点,可以建立视频区域与头部运动信息、视线运动信息的映射关系。
采用支持向量回归(SVR)来执行用户注视区域的预测。由于无法离线获得一个可以满足所有情况并且在所有情况下都能达到最优的预测模型,从而预测过程都是在线并实时进行,以适应用户运动的不断变化。使用一个包含最近运动数据的滑动窗口,用这些数据拟合出一个预测模型,然后使用此模型来预测接下来的预设时长内的运动,并得到注视区域。
由于视线运动和头部运动的时间相关性,一个较短的预测时间可以获得更高的精度,但是较短的预测时间也意味着必须不断进行预测并且生成对应的视频片段,这对于服务器和客户端的计算能力是一个很大的挑战。另一方面,较长的预测时间会导致预测不准确,从而浪费带宽甚至会导致视频播放的卡顿。在一个优选实施例中,设置最近数据采集为5S,预测的预设时长为1S,实验证明此设置可以在较高的QoE和较低的计算负载之间保证平衡。
本实施例提供的流媒体调度方法,通过获取用户头部运动信息和视线运动信息,采用支持向量回归预测用户当前时刻后预设时长内注视区域的预测结果,从而得到准确的预测结果。
图5为本发明实施例提供的流媒体调度装置结构图,如图5所示,该流媒体调度装置包括:接收模块501、处理模块502和发送模块503。其中,接收模块501用于接收用户当前时刻后预设时长内注视区域的预测结果,预测结果对应于视频区域划分得到的多个子区域中的目标子区域;处理模块502用于根据当前时刻后预设时长内应发送的视频片段,以目标子区域为中心,生成与人眼视觉层级对应的清晰度依次递减的混合视频片段;发送模块503用于将混合视频片段发送至客户端。
客户端能够对用户眼球注视的区域进行预测,接收模块501接收客户端对于用户的眼球注视区域的预测结果,由于预测的时间过长会导致预测的结果不够准确,该预测结果为当前时刻起的一定时间段的预测,即预设时长。根据预测的注视区域,得到360°视频的36×36个子区域中,哪一子区域与注视区域对应,将该子区域作为目标子区域。
由于预测的注视区域是预设时长内的预测结果,从而发送至客户端播放的视频也应与该预测时长对应,发送至客户端的视频文件是根据每一个预设时长内的预测结果生成的混合视频片段组合得到的。处理模块502将原始视频文件按预设时长切分为多个视频片段,当前时刻后预设时长内应发送的视频片段为该预设时长内原始视频文件的视频片段,本实施例中是根据该原始视频文件的视频片段进行处理后得到混合视频片段,发送至客户端播放的。
目标子区域播放正常清晰度的视频,以目标子区域为中心,周围的子区域逐渐降低视频的清晰度,从而通过处理模块502生成与人眼视觉层级有对应关系的清晰度依次递减的混合视频片段。
发送模块503将混合视频片段发送至客户端进行播放,由于原始视频文件按预设时长切分为多个视频片段进行处理得到混合视频片段,从而整个接收视频的过程得到的视频文件为,按预设时长切分得到的多个混合视频片段组合得到。其中,每个视频片段按上述规则进行混合得到。
图6为本发明另一实施例提供的流媒体调度装置结构图,如图6所示,该流媒体调度装置包括:发送模块601和接收模块602。其中,发送模块601用于发送用户当前时刻后预设时长内注视区域的预测结果,预测结果对应于视频区域划分得到的多个子区域中的目标子区域;接收模块602用于接收混合视频片段,混合视频片段为服务器根据当前时刻后预设时长内应发送的视频片段,以目标子区域为中心,生成的与人眼视觉层级对应的清晰度依次递减的视频片段。
发送模块601将用户的眼球注视区域的预测结果发送至服务器,由于预测的时间过长会导致预测的结果不够准确,该预测结果为当前时刻起的一定时间段的预测,即预设时长。根据预测的注视区域,得到360°视频的36×36个子区域中,哪一子区域与注视区域对应,该子区域将作为服务器的目标子区域,用于输出最高清晰度的视频。
接收模块602接收根据该原始视频文件的视频片段进行处理后得到混合视频片段,最终接收整个混合视频文件。由于预测的注视区域是预设时长内的预测结果,从而发送至服务器发送至接收模块602的视频也应与该预测时长对应,发送至接收模块602的视频文件是根据每一个预设时长内的预测结果生成的混合视频片段组合得到的。服务器将原始视频文件按预设时长切分为多个视频片段,当前时刻后预设时长内应发送的视频片段为该预设时长内原始视频文件的视频片段。
目标子区域与预测的用户注视区域对应,从而目标子区域与用户的中央视觉区域对应。目标子区域播放正常清晰度的视频,以目标子区域为中心,周围的子区域逐渐降低视频的清晰度,从而生成与人眼视觉层级有对应关系的清晰度依次递减的混合视频片段。
本发明实施例提供的流媒体调度装置,实现了低带宽资源的占用下,得到较高的QoE。
本发明实施例提供的装置实施例是为了实现上述各方法实施例的,具体流程和详细内容请参照上述方法实施例,此处不再赘述。
图7为本发明实施例提供的一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)701、通信接口(Communications Interface)702、存储器(memory)703和总线704,其中,处理器701,通信接口702,存储器703通过总线704完成相互间的通信。通信接口702可以用于电子设备的信息传输。处理器701可以调用存储器703中的逻辑指令,以执行包括如下的方法:接收用户当前时刻后预设时长内注视区域的预测结果,预测结果对应于视频区域划分得到的多个子区域中的目标子区域;根据当前时刻后预设时长内应发送的视频片段,以目标子区域为中心,生成与人眼视觉层级对应的清晰度依次递减的混合视频片段;将混合视频片段发送至客户端。
此外,上述的存储器703中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明上述各方法实施例的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令使计算机执行上述实施例所提供的流媒体调度方法,例如包括:接收用户当前时刻后预设时长内注视区域的预测结果,预测结果对应于视频区域划分得到的多个子区域中的目标子区域;根据当前时刻后预设时长内应发送的视频片段,以目标子区域为中心,生成与人眼视觉层级对应的清晰度依次递减的混合视频片段;将混合视频片段发送至客户端。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种流媒体调度方法,其特征在于,包括:
接收用户当前时刻后预设时长内注视区域的预测结果,所述预测结果对应于视频区域划分得到的多个子区域中的目标子区域;
根据当前时刻后预设时长内应发送的视频片段,以所述目标子区域为中心,生成与人眼视觉层级对应的清晰度依次递减的混合视频片段;
所述根据当前时刻后预设时长内应发送的视频片段,以所述目标子区域为中心,生成与人眼视觉层级对应的清晰度依次递减的混合视频,包括:
根据所述视频片段经预先离线处理后得到的多种清晰度的视频片段,以所述目标子区域为中心,生成与人眼视觉层级对应的清晰度依次递减的混合视频;
所述根据所述视频片段经预先离线处理后得到的多种清晰度的视频片段,以所述目标子区域为中心,生成与人眼视觉层级对应的清晰度依次递减的混合视频,包括:
为每一清晰度设置权重,从所述视频片段经预先离线处理后得到的多种清晰度的视频片段中,选取满足带宽大小的、体验质量得分最大并且能够构成所述视频片段的所有视频块;
将所述混合视频片段发送至客户端;
所述多种清晰度与人眼视觉层级相对应;
所述根据所述视频片段经预先离线处理后得到的多种清晰度的视频片段,以所述目标子区域为中心,生成与人眼视觉层级对应的清晰度依次递减的混合视频,包括:
以所述目标子区域为中心,生成与人眼视觉层级对应的清晰度依次递减的混合视频;
所述视频块由所述视频片段切分得到,与所述视频区域的多个子区域一一对应,所述权重用于计算所述体验质量得分。
2.根据权利要求1所述的方法,其特征在于,对于所述多种清晰度的视频片段中每一清晰度,除与目标子区域对应的清晰度外,其它清晰度均有多个对应不同比特率的视频片段。
3.一种流媒体调度方法,其特征在于,包括:
发送用户当前时刻后预设时长内注视区域的预测结果,所述预测结果对应于视频区域划分得到的多个子区域中的目标子区域;
接收混合视频片段,所述混合视频片段为服务器根据当前时刻后预设时长内应发送的视频片段,以所述目标子区域为中心,生成的与人眼视觉层级对应的清晰度依次递减的视频片段;
所述根据当前时刻后预设时长内应发送的视频片段,以所述目标子区域为中心,生成与人眼视觉层级对应的清晰度依次递减的混合视频,包括:
根据所述视频片段经预先离线处理后得到的多种清晰度的视频片段,以所述目标子区域为中心,生成与人眼视觉层级对应的清晰度依次递减的混合视频;
所述根据所述视频片段经预先离线处理后得到的多种清晰度的视频片段,以所述目标子区域为中心,生成与人眼视觉层级对应的清晰度依次递减的混合视频,包括:
为每一清晰度设置权重,从所述视频片段经预先离线处理后得到的多种清晰度的视频片段中,选取满足带宽大小的、体验质量得分最大并且能够构成所述视频片段的所有视频块;
所述多种清晰度与人眼视觉层级相对应;
所述根据所述视频片段经预先离线处理后得到的多种清晰度的视频片段,以所述目标子区域为中心,生成与人眼视觉层级对应的清晰度依次递减的混合视频,包括:
以所述目标子区域为中心,生成与人眼视觉层级对应的清晰度依次递减的混合视频;
所述视频块由所述视频片段切分得到,与所述视频区域的多个子区域一一对应,所述权重用于计算所述体验质量得分。
4.根据权利要求3所述的方法,其特征在于,所述发送用户当前时刻后预设时长内注视区域的预测结果,包括:
获取用户头部运动信息和视线运动信息,采用支持向量回归预测用户当前时刻后预设时长内注视区域的预测结果,并发送所述预测结果。
5.一种流媒体调度装置,其特征在于,包括:
接收模块,用于接收用户当前时刻后预设时长内注视区域的预测结果,所述预测结果对应于视频区域划分得到的多个子区域中的目标子区域;
处理模块,用于根据当前时刻后预设时长内应发送的视频片段,以所述目标子区域为中心,生成与人眼视觉层级对应的清晰度依次递减的混合视频片段;
所述根据当前时刻后预设时长内应发送的视频片段,以所述目标子区域为中心,生成与人眼视觉层级对应的清晰度依次递减的混合视频,包括:
根据所述视频片段经预先离线处理后得到的多种清晰度的视频片段,以所述目标子区域为中心,生成与人眼视觉层级对应的清晰度依次递减的混合视频;
所述根据所述视频片段经预先离线处理后得到的多种清晰度的视频片段,以所述目标子区域为中心,生成与人眼视觉层级对应的清晰度依次递减的混合视频,包括:
为每一清晰度设置权重,从所述视频片段经预先离线处理后得到的多种清晰度的视频片段中,选取满足带宽大小的、体验质量得分最大并且能够构成所述视频片段的所有视频块;
所述多种清晰度与人眼视觉层级相对应;
所述根据所述视频片段经预先离线处理后得到的多种清晰度的视频片段,以所述目标子区域为中心,生成与人眼视觉层级对应的清晰度依次递减的混合视频,包括:
以所述目标子区域为中心,生成与人眼视觉层级对应的清晰度依次递减的混合视频;
所述视频块由所述视频片段切分得到,与所述视频区域的多个子区域一一对应,所述权重用于计算所述体验质量得分;
发送模块,用于将所述混合视频片段发送至客户端。
6.一种流媒体调度装置,其特征在于,包括:
发送模块,用于发送用户当前时刻后预设时长内注视区域的预测结果,所述预测结果对应于视频区域划分得到的多个子区域中的目标子区域;
接收模块,用于接收混合视频片段,所述混合视频片段为服务器根据当前时刻后预设时长内应发送的视频片段,以所述目标子区域为中心,生成的与人眼视觉层级对应的清晰度依次递减的视频片段;
所述根据当前时刻后预设时长内应发送的视频片段,以所述目标子区域为中心,生成与人眼视觉层级对应的清晰度依次递减的混合视频,包括:
根据所述视频片段经预先离线处理后得到的多种清晰度的视频片段,以所述目标子区域为中心,生成与人眼视觉层级对应的清晰度依次递减的混合视频;
所述根据所述视频片段经预先离线处理后得到的多种清晰度的视频片段,以所述目标子区域为中心,生成与人眼视觉层级对应的清晰度依次递减的混合视频,包括:
为每一清晰度设置权重,从所述视频片段经预先离线处理后得到的多种清晰度的视频片段中,选取满足带宽大小的、体验质量得分最大并且能够构成所述视频片段的所有视频块;
所述多种清晰度与人眼视觉层级相对应;
所述根据所述视频片段经预先离线处理后得到的多种清晰度的视频片段,以所述目标子区域为中心,生成与人眼视觉层级对应的清晰度依次递减的混合视频,包括:
以所述目标子区域为中心,生成与人眼视觉层级对应的清晰度依次递减的混合视频;
所述视频块由所述视频片段切分得到,与所述视频区域的多个子区域一一对应,所述权重用于计算所述体验质量得分。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述流媒体调度方法的步骤。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至4任一项所述流媒体调度方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811475838.0A CN111277857B (zh) | 2018-12-04 | 2018-12-04 | 一种流媒体调度方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811475838.0A CN111277857B (zh) | 2018-12-04 | 2018-12-04 | 一种流媒体调度方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111277857A CN111277857A (zh) | 2020-06-12 |
CN111277857B true CN111277857B (zh) | 2021-04-13 |
Family
ID=71001438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811475838.0A Active CN111277857B (zh) | 2018-12-04 | 2018-12-04 | 一种流媒体调度方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111277857B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11025981B2 (en) * | 2019-07-17 | 2021-06-01 | At&T Intellectual Property I, L.P. | Facilitating panoramic video streaming with brain-computer interactions |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101252687A (zh) * | 2008-03-20 | 2008-08-27 | 上海交通大学 | 实现多通道联合的感兴趣区域视频编码及传输的方法 |
CN102595135A (zh) * | 2012-02-24 | 2012-07-18 | 中国科学技术大学 | 一种可伸缩视频编码的方法及装置 |
WO2013022315A3 (ko) * | 2011-08-10 | 2013-04-04 | 한국전자통신연구원 | 영상 제공 장치 및 방법, 그리고 영상 재생 장치 및 방법 |
CN104023232A (zh) * | 2014-06-27 | 2014-09-03 | 北京邮电大学 | 基于层次分析和多元线性回归的移动视频质量评估方法 |
CN104168484A (zh) * | 2014-08-19 | 2014-11-26 | 河海大学 | 一种基于视觉注意机制的视频水印方法 |
CN104735464A (zh) * | 2015-03-31 | 2015-06-24 | 华为技术有限公司 | 一种全景视频交互传输方法、服务器和客户端 |
EP3104621A1 (en) * | 2015-06-09 | 2016-12-14 | Wipro Limited | Method and device for dynamically controlling quality of a video |
CN106537290A (zh) * | 2014-05-09 | 2017-03-22 | 谷歌公司 | 与真实和虚拟对象交互的基于生物力学的眼球信号的系统和方法 |
CN106599994A (zh) * | 2016-11-23 | 2017-04-26 | 电子科技大学 | 一种基于深度回归网络的视线估计方法 |
CN108696764A (zh) * | 2017-04-01 | 2018-10-23 | 英特尔公司 | 用于360视频的运动向量/模式预测、基于感兴趣区域的发射、元数据捕获和格式检测 |
CN108881972A (zh) * | 2018-08-01 | 2018-11-23 | 广州视源电子科技股份有限公司 | 一种码率分配方法、装置、设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9699437B2 (en) * | 2014-03-03 | 2017-07-04 | Nextvr Inc. | Methods and apparatus for streaming content |
-
2018
- 2018-12-04 CN CN201811475838.0A patent/CN111277857B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101252687A (zh) * | 2008-03-20 | 2008-08-27 | 上海交通大学 | 实现多通道联合的感兴趣区域视频编码及传输的方法 |
WO2013022315A3 (ko) * | 2011-08-10 | 2013-04-04 | 한국전자통신연구원 | 영상 제공 장치 및 방법, 그리고 영상 재생 장치 및 방법 |
CN102595135A (zh) * | 2012-02-24 | 2012-07-18 | 中国科学技术大学 | 一种可伸缩视频编码的方法及装置 |
CN106537290A (zh) * | 2014-05-09 | 2017-03-22 | 谷歌公司 | 与真实和虚拟对象交互的基于生物力学的眼球信号的系统和方法 |
CN104023232A (zh) * | 2014-06-27 | 2014-09-03 | 北京邮电大学 | 基于层次分析和多元线性回归的移动视频质量评估方法 |
CN104168484A (zh) * | 2014-08-19 | 2014-11-26 | 河海大学 | 一种基于视觉注意机制的视频水印方法 |
CN104735464A (zh) * | 2015-03-31 | 2015-06-24 | 华为技术有限公司 | 一种全景视频交互传输方法、服务器和客户端 |
EP3104621A1 (en) * | 2015-06-09 | 2016-12-14 | Wipro Limited | Method and device for dynamically controlling quality of a video |
CN106599994A (zh) * | 2016-11-23 | 2017-04-26 | 电子科技大学 | 一种基于深度回归网络的视线估计方法 |
CN108696764A (zh) * | 2017-04-01 | 2018-10-23 | 英特尔公司 | 用于360视频的运动向量/模式预测、基于感兴趣区域的发射、元数据捕获和格式检测 |
CN108881972A (zh) * | 2018-08-01 | 2018-11-23 | 广州视源电子科技股份有限公司 | 一种码率分配方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111277857A (zh) | 2020-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11025959B2 (en) | Probabilistic model to compress images for three-dimensional video | |
US10681342B2 (en) | Behavioral directional encoding of three-dimensional video | |
US11290699B2 (en) | View direction based multilevel low bandwidth techniques to support individual user experiences of omnidirectional video | |
US10491711B2 (en) | Adaptive streaming of virtual reality data | |
US10893261B2 (en) | Positional zero latency | |
KR102362001B1 (ko) | 사용자 거동에 관한 눈 추적 기반 정보를 제공하기 위한 방법 및 시스템, 클라이언트 디바이스, 서버 및 컴퓨터 프로그램 제품 | |
US20180220119A1 (en) | Virtual reality with interactive streaming video and likelihood-based foveation | |
US20190052870A1 (en) | Generating a three-dimensional preview from a two-dimensional selectable icon of a three-dimensional reality video | |
US10681341B2 (en) | Using a sphere to reorient a location of a user in a three-dimensional virtual reality video | |
Zhang et al. | EPASS360: QoE-aware 360-degree video streaming over mobile devices | |
US10499066B2 (en) | Method and apparatus for improving efficiency of content delivery based on consumption data relative to spatial data | |
US20200120380A1 (en) | Video transmission method, server and vr playback terminal | |
CN106063277A (zh) | 用于对内容进行流传输的方法和装置 | |
US20160378177A1 (en) | Visualized content transmission control method, sending method and apparatuses thereof | |
US11032535B2 (en) | Generating a three-dimensional preview of a three-dimensional video | |
US20220382053A1 (en) | Image processing method and apparatus for head-mounted display device as well as electronic device | |
CN110996097A (zh) | Vr多媒体的体验质量确定方法及装置 | |
US11881192B2 (en) | Compensating for latency in a streaming virtual reality environment | |
KR20200056658A (ko) | 클라우드 기반의 가상현실 서비스를 위한 버퍼 관리 방법 및 장치 | |
US20220172440A1 (en) | Extended field of view generation for split-rendering for virtual reality streaming | |
CN111277857B (zh) | 一种流媒体调度方法及装置 | |
US20210250257A1 (en) | Virtual reality content streaming based on quality of experience level | |
CN113810696A (zh) | 一种信息传输方法、相关设备及系统 | |
WO2022230253A1 (ja) | 情報処理装置及び情報処理方法 | |
CN115086645B (zh) | 一种面向全景视频的视点预测方法、装置及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |