CN109891906A - 视图感知360度视频流化 - Google Patents

视图感知360度视频流化 Download PDF

Info

Publication number
CN109891906A
CN109891906A CN201780029818.8A CN201780029818A CN109891906A CN 109891906 A CN109891906 A CN 109891906A CN 201780029818 A CN201780029818 A CN 201780029818A CN 109891906 A CN109891906 A CN 109891906A
Authority
CN
China
Prior art keywords
video
update
active regions
information
video information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780029818.8A
Other languages
English (en)
Other versions
CN109891906B (zh
Inventor
C.周
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Westbit Co Ltd
Original Assignee
Westbit Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Westbit Co Ltd filed Critical Westbit Co Ltd
Publication of CN109891906A publication Critical patent/CN109891906A/zh
Application granted granted Critical
Publication of CN109891906B publication Critical patent/CN109891906B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/122Improving the 3D impression of stereoscopic images by modifying image signal contents, e.g. by filtering or adding monoscopic depth cues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/139Format conversion, e.g. of frame-rate or size
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/275Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals
    • H04N13/279Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals the virtual viewpoint locations being selected by the viewers or determined by tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/2662Controlling the complexity of the video stream, e.g. by scaling the resolution or bitrate of the video stream based on the client capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer Graphics (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Software Systems (AREA)
  • Geometry (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)

Abstract

本公开涉及递送360°视频流的系统和方法,其可以用在虚拟现实和增强现实内容中。即,360°视频流可以被分割成多个视频流,每个视频流对应于观看体或观看球体的一部分。另外,原始360°视频流可以被下采样到较低分辨率360°视频流。对于给定的用户视角,多个视频流中的一个或多个可以被认为是活跃流并且连接到用户接口或显示器以用于数据下载。在这种情况下,用户接口可以连接到与用户视角相对应的至少一个高分辨率视频流以及低分辨率360°视频流。

Description

视图感知360度视频流化
相关申请的交叉引用
本申请是2016年4月8日提交的美国临时专利申请序列号62/320,451的非临时申请,其内容通过引用并入本文。
背景技术
360°视频(或球形视频)是许多应用的重要媒体格式,这些应用包含为虚拟现实(VR)和增强现实(AR)提供沉浸式环境的应用。360°视频的观看者可以以任意角度并且可能地在小视场(FOV)内观看视频。因此,为了显得清晰,360°视频可能需要比常规视频高得多的分辨率。在这种情况下,360°视频流可能需要比传统视频流高得多的比特率。例如,虽然典型的1080p视频可以具有大约1MBps的比特率(或者1分钟视频60MB文件大小),但是相同视图(view)分辨率的360°视频可以包含大约10MBps或更高的比特率(或者1分钟视频600MB文件大小)。视图分辨率可以包含观看者在给定时间点可以观察到的视频帧的分辨率。
360°视频的比特率可以高于现有消费者级无线网络中的数据传送速率。因此,360°视频可以被预先下载和/或积极地(aggressively)下采样用于流化,这对于某些应用而言,即使不是不可接受的,也可能是不期望的。
视图感知流化(view-aware streaming)方法基于用户的视图而将360°视频的部分流化,该方法已被用于视频远程呈现(telepresence)应用,但却在流化服务器中具有显著的运算成本。视图感知流化也已应用于360°视频流化,但在服务器处具有显著的额外储存成本。
发明内容
在一方面,提供了一种系统。该系统包含显示器、传感器、通信接口和控制器。控制器包含存储器和至少一个处理器。至少一个处理器配置为执行储存在存储器中的指令以便进行操作。操作包含从传感器接收指示观看体(viewing volume)内的观看方向的信息。观看方向对应于视场。操作还包含基于观看方向而从观看体中的多个可观看区域确定多个活跃区域(active region)。操作还进一步包含经由通信接口连接到与多个活跃区域相对应的多个视频流。操作还包含经由多个视频流接收与多个活跃区域相对应的第一视频信息。操作包含接收与360°视场相对应的第二视频信息。第一视频信息具有比第二视频信息更高的分辨率。操作还包含基于多个活跃区域中的第一视频信息和观看体的在多个活跃区域外部的区域中的第二视频信息来渲染360°视频。此外,操作包含经由显示器显示与视场相对应的360°视频的至少一部分。
在一方面,提供了一种系统。该系统包含通信接口和控制器。控制器包含存储器和至少一个处理器。至少一个处理器配置为执行储存在存储器中的指令以便进行操作。操作包含将360°视频流分割为多个区域性流。操作还包含对360°视频流进行下采样以提供较低分辨率360°视频流,并经由通信接口接收请求。请求包含至少一个活跃区域。操作还进一步包含经由通信接口提供与至少一个活跃区域相对应的至少一个区域性流。操作还包含经由通信接口提供较低分辨率360°视频流。
在一方面,提供了一种方法。该方法包含从传感器接收指示观看体内的观看方向的信息。观看方向对应于视场。该方法还包含基于观看方向而从观看体中的多个可观看区域确定多个活跃区域。该方法附加地包含经由通信接口连接到与多个活跃区域相对应的多个视频流。该方法还进一步包含经由多个视频流接收与多个活跃区域相对应的第一视频信息。该方法包含接收与360°视场相对应的第二视频信息。第一视频信息具有比第二视频信息更高的分辨率。该方法进一步包含基于多个活跃区域中的第一视频信息和观看体的在多个活跃区域外部的区域中的第二视频信息来渲染360°视频。该方法附加地包含经由显示器显示与视场相对应的360°视频的至少一部分。
在一方面,提供了一种系统。该系统包含用于实施本文描述的其他各个方面的操作的各种构件。
通过阅读以下详细描述并参考适当的附图,这些以及其他实施例、方面、优点和替代方案对于本领域普通技术人员将变得显而易见。此外,应该理解的是,本发明内容以及本文提供的其他描述和附图旨在仅通过示例的方式说明实施例,并且因此可以进行多种变化。例如,在保持在所要求保护的实施例的范围内时,结构元件和处理步骤可以重新排列、组合、分配、消除或以其他方式改变。
附图说明
图1A图示了根据示例实施例的视图球体。
图1B图示了根据示例实施例的世界的等距矩形投影。
图1C图示了根据示例实施例的等距矩形投影的多个区域。
图2图示了根据示例实施例的立方体图。
图3图示了根据示例实施例的分片式视频流。
图4是根据示例实施例的示意性通信图。
图5是图示根据示例实施例的隧道连接的示意性通信图。
图6是图示根据示例实施例的分片和传输段的示意性视频细分图。
图7是图示根据示例实施例的多个细分的视频流的示意图。
具体实施方式
本文描述了示例方法、装置和系统。应当理解,词语“示例”和“示例性”在本文中用于意指“用作示例、实例或说明”。本文描述为“示例”或“示例性”的任何实施例或特征不必被解释为比其他实施例或特征更优选或更具优势。在不脱离本文提出的主题的范围的情况下,可以利用其他实施例,并且可以进行其他改变。
因此,本文描述的示例实施例不意指是限制性的。如本文一般描述的和在附图中图示的本公开的各方面可以以各种不同的配置来排列、替换、组合、分开和设计,所有这些在本文中是可预期的。
此外,除非上下文另有所指,否则每个附图中图示的特征可以彼此组合使用。因此,附图一般应被视为一个或多个整体实施例的组成方面,应理解并非所有图示的特征对于每个实施例都是必要的。
Ⅰ.概述
本公开涉及用于流化用户可以正在观看的观看体(viewing volume)或观看球体(viewing sphere)的一部分的系统和方法。在示例实施例中,视图感知流化系统和方法可以降低用于流化360°视频的带宽需求,而在流化服务器中没有显著的额外储存或运算成本。
Ⅱ.示例实施例
A.流化客户端装置的操作
图1A图示了根据示例实施例的视图球体100。在这种情况下,视图球体100被分割为n个区域,如图1A所示。在示例实施例中,相邻区域之间可以具有很少重叠或者没有重叠。区域可以是矩形,但是其他形状或各种形状的组合也是可能的。在替代实施例中,观看体可以包含除球体之外的形状。例如,观看体可以包含圆柱形、正方形、金字塔形或其他类型的观看体。
在示例实施例中,视图球体(例如,相对于360度相机或360度内容的观看者)可以基于各种不同的投影类型而被投影到二维中。例如,等距矩形投影(equirectangularprojection)是将球形视图扭曲成矩形图像的流行方式。图1B图示了根据示例实施例的世界的等距矩形投影110。
以相似的方式,360度视频中的每个帧可以使用等距矩形投影表示为2D图像。在一个实施例中,我们可以将该等距矩形展示(presentation)分割为多个区域。可以以各种方式完成该分割。例如,可以将图(map)均匀地分割为相同的矩形。也就是说,可以将360度视频帧的等距矩形展示分割为具有基本相同的面积的矩形区域。虽然图1B图示了等距矩形投影,但是其他类型的投影是可预期的。例如,诸如横轴墨卡托(transverse Mercator)、墨卡托(Mercator)、兰伯特(Mercator)等的投影在本文中是可能的且是可预期的。或者,还可以考虑伪圆柱、方位或圆锥投影。
附加地或替代地,360度视图球体(不管投影类型)可以被分割为区域,使得每个区域包含相同或相似量的视频信息。此外,可以分割区域以减少或最小化区域之间的相关性。
例如,在许多360度视频中,顶部视场包含大面积的蓝天,其可能包含相对低的信息密度。在这种情况下,地平线视场可以包含许多细节。因此,如果视图球体被分割为包含相似量的视频信息,则较少的区域(例如,其具有较大的面积)可以位于顶部视场(或具有低信息密度的其他区域)中。相比之下,沿着地平线的视场可以被分割为较小面积的区域(基于它们更高的信息密度)。
图1C图示了根据示例实施例的360度视频帧的等距矩形投影的多个区域120。如图1C中所示,顶部视场可以被分割为相对大面积的区域(例如,区域122)。此外,地平线附近的视场可以被分割为相对小面积的区域(例如,区域124)。
虽然图1C图示了特定的多个区域120,但是应该理解,各种其他的分割360度视频帧的方式是可能的且是可预期的。在示例实施例中,投影的360度视频帧可以经历区域分割过程,以在每个区域中实现基本上“相等信息”。例如,可以对于视频的每个帧,计算熵图(entropy map)(或基于每像素或像素区域信息的另一种类型的图)。可以在每像素的基础上,对给定视频段或剪辑(clip)的熵图进行平均。这种平均过程可以提供给定视频段或剪辑上的平均熵的二维图:E(x,y)。可以使用各种算法(线性编程、动态编程或其他数值优化算法)将E(x,y)分割为具有尽可能相等的像素信息总和(sum)的多个区域。也就是说,基于给定视频段或剪辑的熵图,可以进行区域分割以便创建具有相似量的像素信息的区域。如本文中在此上下文中所使用的,“相似量的像素信息”可以包含具有几乎相同带宽要求(例如,在1%或5%内)的每个区域性(regional)流。附加地或替代地,“相似量的像素信息”可以包含具有几乎相同的存储器大小(例如,也在1%或5%内)的区域性流。如此,可以更有效地处理区域性360度视频流。
在一个实施例中,我们建议将矩形图分割为区域,这些区域可以占据原始球体中的大约相同区域。这样,每个区域在流化期间可能携带相似量的数据,并且因此改善了流质量。这种分割的示例如下所示;然而,涉及其他区域大小和/或图分割过程的实施例也是可预期的。
图2图示了根据示例实施例的立方体图200。360°视图也可以表示为立方体图200,如图2所示。也就是说,360°视图可以被分割为六个视图,立方体图200的每一侧对应一个视图。此外,作为示例,每个立方体表面可以进一步细分为多个分片(tile)。在示例实施例中,原始360°视频流可以被分割为n个区域性流,其可以被命名为Ha、Hb、Hc……Hn。另外,系统和方法可以包括将原始360°视频流下采样到低分辨率360°流L。
在这种情况下,可以向流化客户端提供多个视频和音频流。流化客户端可以包含智能手机上的应用、移动VR头盔(headset)(例如,Samsung Gear VR)、系带式VR头盔(例如,Oculus Rift)或其他类型的计算或显示装置。
在示例实施例中,系统或方法可以包含接收关于观看方向的信息。例如,观看方向可以由VR头盔上的传感器提供。对于给定的用户视角,控制器可以确定覆盖至少与观看方向相对应的视场的m个区域,其中m≤n。例如,在图2中,箭头202示出了当前视角。在示例实施例中,接近当前视角的活跃(active)区域(例如,区域a、b、c、d、e、f、g、h和i)可以被识别为与用户的视角相对应的区域。用于这些活跃区域204的流可以称为“活跃流”。相反,位于远离用户视角的区域可以包含“非活跃区域”206。
作为示例,客户端装置(例如,VR头盔)可以从一个或多个服务器请求活跃流。在这种情况下,客户端装置可以请求并连接到高分辨率活跃流Ha、Hb、Hc、Hd、He、Hf、Hg、Hh和Hi、以及较低分辨率流L。服务器(或多个服务器)可以响应地提供与活跃流(例如,与活跃区域204相对应的视频流)以及低分辨率流L相关联的数据。因此,客户端装置可以下载关于与观看方向相对应的活跃区域的高分辨率视频数据以及与整个观看球体相对应的较低分辨率视频数据两者。在示例实施例中,注意到,不管观看方向,流L(例如,较低分辨率视频流)可以始终连接以提供至少整个观看球体的低分辨率视频的显示。
本文描述的系统和方法可以包含使用流L的数据来渲染可观看的360°视频。此外,渲染可以包括高分辨率像素的“马赛克”,其可以通过缝合沿着观察球体根据它们的对应区域而被定向的相邻活跃流来形成。在示例实施例中,所有渲染在时间上是同步的。可以基于一个或多个时间戳或另一种类型的帧同步,来完成同步。
在示例实施例中,可以检测观看方向的改变。也就是说,客户端装置(例如,VR头盔)的角度可以由于例如观看者旋转或以其他方式移动他们的头部而改变。当检测到观看方向的这种改变时,可以基于更新的观看方向确定更新的一组活跃区域。例如,如图2所示,如果视角移动到以分片'b'为中心,则活跃区域将变为b、k、l、c、d、a、h、i和j。观察方向的其他类型的改变在本文中是可能的且是可预期的。
在一个实施例中,声轨(sound track)(例如,音频流)可以与始终连接的低分辨率视频流L组合,以确保总是可以获得低分辨率360°视频和对应的声轨。
在另一个实施例中,声轨可以经由分开的流而被递送。可以始终连接该流,并且这种声音数据将与视频数据同步并与视频图像同步地渲染(回放)。
B.网络延迟和运动预测
在一些场景中,在尚未获得高分辨率视频的情况下,观看方向可以改变为新的观看区域。也就是说,在经由视频流下载高分辨率视频之前,头盔可以移动到新的观看方向。在这种情况下,头盔的显示器可以临时地显示来自持续(persistent)流L的低分辨率视频,可以预先缓冲数据。流L可以总是优先连接到客户端。延迟可以被认为是当用户离开初始视角时与当头盔处已经显示合适的高分辨率视频流时之间的时间段。在延迟变得大于阈值的情况下,在等待高分辨率视频流同步时可以向观看者呈现较低分辨率视频流。在此延迟段期间,观看者可以只看到来自流L的低分辨率帧。
在一些实施例中,一个或多个高分辨率视频流可能变得中断、滞后或损坏。在这种情况下,客户端装置可以提供来自流L的低分辨率视频,直到一个或多个高分辨率视频流恢复。
附加地或替代地,可以使用运动预测来减少该延迟。例如,传感器可以配置为提供客户端装置的速度V和/或加速度A。根据V和A,可以预测在时间t内角度的改变为V*t+0.5*A*t*t。如此,客户端装置可以预先地请求并连接到对应的视频流。可以使用更复杂的运动预测来预测复杂的观看方向轨迹(例如,基于振动的移动或其他类型的周期性或循环运动)。在其他实施例中,可以基于视频内容本身来进行运动预测。例如,如果视频内容包含网球比赛,假设观看者可能想要跟踪网球的飞行,则运动预测算法可以基于网球在视频内容内的位置来提供视频流。
在示例实施例中,活跃流可以覆盖比视场更宽的区域。在这种情况下,只要视场仍在先前的活跃区域内,用户就可以在相邻的新的活跃区域正在加载时看到高分辨率内容。然而,如果观看方向在短时间段内改变很大,则可以向用户提供低分辨率视频内容(其来自流L)。换句话说,通过使活跃区域大于视场,可以减少下载延迟。
在一些实施例中,与视场相比的活跃区域的总体大小可以取决于例如所请求的视频流的平均延迟而变化。如此,客户端装置可以关于视场和/或活跃区域分辨率而动态地调节活跃区域大小,以企图当在活跃区域流之间移动时平衡显示质量和低延迟。
在另一个实施例中,在观看方向更可能改变的一个或多个方向上,活跃流可以(相对于视场)更宽。例如,在与垂直地平移观看(span)(例如,从海滩观看冲浪者)相比而言、观看者更可能水平地平移观看的场景中,活跃区域可以在水平方向上比在垂直方向上更宽。
如本文所述,活跃流可以具有多种分辨率。例如,可以将最接近观看方向的活跃区域指定为具有最高的相对分辨率。在这种情况下,从观看方向轴向外移动,其他活跃区域可以具有中等方向。此外,围绕整个活跃区域的最外部范围的活跃区域可以具有最低的相对分辨率。因此,当用户改变他们的观看方向时,他们可以注意到分辨率的逐渐降低而不是分辨率的突然降低。
C.视频转码和流化
图3图示了根据示例实施例的分片式(tiled)视频流300。例如,流化客户端可以维持与多个流化源的灵活数目的连接,如图3所示。在此设计中,原始视频流302被分割为许多区域性视频流304,其可以包含不同的比特率和下采样的球形流306L。如此,客户端装置可以确定连接哪些视频流以及何时连接。如图3所示,原始视频流化首先被分割为n个区域性流304或分片。此后,在任何具体时间,客户端可以决定连接到一个或多个区域性流304。基于从一个或多个区域性流304接收的信息,客户端装置可以渲染流化的分片并为用户显示区域性流304的至少一部分。此外,可以为用户渲染下采样球形流306,并且该下采样球形流306可以与区域性流304并行地提供和/或在必要时(例如由于高延迟网络条件或带宽不足)提供。
图4是根据示例实施例的示意性通信图400。如图4所示,客户端420可以维持与一个或多个流化服务器410的固定数目的UDP、TCP/IP或HTTP连接430。当改变或更新观看方向时,可以路由新的区域性视频流402和/或下采样的球形流404,以便重复使用现有的网络连接430,而无需初始化新的连接。这可以改善效率,减少或消除初始化网络连接的时间和网络延迟。
图5是图示根据示例实施例的隧道(tunnel)连接的示意性通信图500。在这样的实施例中,客户端装置520可以维持与流化服务器510的单个隧道TCP/IP连接530。如此,与区域性视频流502和低分辨率视频流L 504的连接可以被包含在隧道530中。例如,服务器510上的代理512可以配置为将来自区域性流502和低分辨率流504的数据包(packet)合并成单个隧道化连接530。
图6是图示根据示例实施例的分片和传输段(transportation segment)的示意性视频细分图600。在这样的实施例中,客户端可以配置为维持与视频流服务器的仅一个流化连接。如此,在本系统和方法下,流化服务器可以提供多路复用流,该多路复用流包含关于多个视频流和/或音频流的信息。转码步骤可以如下进行:
首先将原始流602分割为m个区域性流604或分片视频,如图6所示。每个区域性流604可以进一步细分为固定长度(例如,在500毫秒至2秒之间)的传输(或运输)段606(TS)。每个TS 606可以以帧内编码图像(例如,I帧)开始,并且可以以预测帧(例如,P帧)或I帧结束。如此,可以在没有来自其他传输段的信息的情况下解码每个传输段606。
在示例实施例中,每个TS606可以包含固定数目的帧。例如,传输段可以包含168个单独的视频帧。附加地或替代地,一些或所有传输段可以包含音频帧。
图7是图示根据示例实施例的多个细分的视频流的示意图700。对于每个观看方向或视角,可以创建媒体索引文件。媒体索引文件可以包含关于如何在多路复用视频流中排列信息的信息,如图7所示。作为非限制性示例,三个活跃区域1、2和3可以提供传输段702、704和706,每个传输段长度为1秒长。也就是说,在每一秒期间,分别来自三个活跃区域的三个TS 702、704和706被流化到客户端。在示例实施例中,每个视角具有不同的一组活跃区域。例如,假设球体具有N个离散视角,则主索引文件可以包含N个媒体索引文件的串联(concatenation),如图7所示。例如,在HTTP直播流化协议中,主索引文件被称为“主播放列表”,媒体索引文件被称为“媒体播放列表”。
注意到在图7中,所有TS段总计为原始流,而没有重复或冗余。以这种方式,通过组合多个分片视图来提供不同的活跃区域,并且经由索引文件限定分片组合,因此转码不需要显著的额外储存。
在客户端侧,对于它接收的每个视频帧,客户端可以经由来自以下公式的时间戳(T),来解码帧的分片号以及视频中的播放时间。
T=(v×Tv)+(x×Tx)+(c×Tc)+(f×Tf),
其中,v:视图索引;x:一个区域性流化中的数据块(chunk)索引;c:分片索引;f:TS段中的帧索引;Tv=视频长度(填充为Tx的倍数);Tx=x个数据块的持续时间(图7中为3秒);Tc=数据块持续时间(例如,1秒);以及Tf=帧持续时间。
附加地,Tv、Tx、Tc、Tf在转码阶段是已知的,并且具有如下关系:
Tv=Tx*总数据块数
Tx=Tc*活跃视图数
Tc=Tf*TS中的总帧数
Tf=编码在每个帧中,一般在帧与帧之间是恒定的。
因此,客户端可以从帧时间戳(T)中唯一地推导出v、x、c和f。
在示例实施例中,当观看者改变他们的视角时,视图索引v改变。从上面的T的表达式,可以为更新的视角(视图索引)找到新的时间戳T。在这种情况下,客户端可以基于更新的时间戳,来请求服务器去流化新的TS。使用此系统和方法,客户端能够将每个接收到的帧渲染到正确的屏幕位置。
图中所示的特定排列不应视为限制性的。应该理解的是,其他实施例可以包含给定附图中所示的每个元件的更多或更少。此外,可以组合或省略一些所示元件。此外,说明性实施例可以包含图中未图示的元件。
表示信息处理的步骤或块可以对应于可以被配置为进行本文描述的方法或技术的具体逻辑功能的电路。替代地或附加地,表示信息处理的步骤或块可以对应于模块、段或程序代码的一部分(包括相关数据)。程序代码可以包含可由处理器执行的一个或多个指令,以用于实现该方法或技术中的具体逻辑功能或行为。程序代码和/或相关数据可以储存在任何类型的计算机可读介质上,诸如包含磁盘、硬盘驱动器或其他储存介质的储存装置。
计算机可读介质还可以包含非暂时性计算机可读介质,诸如在短时间段内储存数据的计算机可读介质,如寄存器存储器、处理器高速缓存和随机存取存储器(RAM)。计算机可读介质还可以包含非暂时性计算机可读介质,其在更长的时间段内储存程序代码和/或数据。因此,计算机可读介质可以包含辅助或持续的长期存储体,例如只读存储器(ROM)、光盘或磁盘、光盘只读存储器(CD-ROM)。计算机可读介质还可以是任何其他易失性或非易失性储存系统。计算机可读介质可以被认为是计算机可读储存介质,例如,或有形储存装置。
虽然已经公开了各种示例和实施例,但是其他示例和实施例对于本领域技术人员而言将是显而易见的。各种公开的示例和实施例是出于说明的目的而不旨在是限制性的,真实范围由所附权利要求指示。

Claims (20)

1.一种系统,包括:
显示器;
传感器;
通信接口;以及
控制器,所述控制器包括存储器和至少一个处理器;以及
程序指令,所述程序指令储存在所述存储器中并且可由所述至少一个处理器执行以进行操作,所述操作包括:
从所述传感器接收指示观看体内的观看方向的信息,其中所述观看方向对应于视场;
基于所述观看方向,从所述观看体中的多个可观看区域确定多个活跃区域;
经由所述通信接口,连接到与所述多个活跃区域相对应的多个视频流;
经由所述多个视频流,接收与所述多个活跃区域相对应的第一视频信息;
接收与360°视场相对应的第二视频信息,其中所述第一视频信息具有比所述第二视频信息更高的分辨率;
基于所述多个活跃区域中的第一视频信息和所述观看体的在所述多个活跃区域外部的区域中的第二视频信息,渲染360°视频;以及
经由所述显示器,显示与所述视场相对应的所述360°视频的至少一部分。
2.如权利要求1所述的系统,其中所述操作还包括:
从所述传感器接收指示更新的观看方向的信息,其中所述更新的观看方向对应于更新的视场;
基于所述更新的观看方向,从所述观看体中的多个可观看区域确定更新的多个活跃区域;
断开不与所述更新的多个活跃区域相对应的至少一个视频流;
经由所述通信接口,连接到与所述更新的多个活跃区域相对应的更新的多个视频流;
经由所述更新的多个视频流,接收与所述更新的多个活跃区域相对应的更新的视频信息;
基于所述更新的多个活跃区域中的更新的视频信息和所述观看体的在所述更新的多个活跃区域外部的区域中的第二视频信息,渲染更新的360°视频;以及
经由所述显示器,显示与所述更新的视场相对应的所述更新的360°视频的至少一部分。
3.如权利要求1所述的系统,其中所述操作还包括:
从所述传感器接收指示所述系统的移动的信息;以及
基于所述系统的移动,确定预测的改变率或预测的移动,其中确定所述多个活跃区域还基于所述预测的改变率或所述预测的移动。
4.如权利要求1所述的系统,其中所述多个活跃区域包括所述观看体的比所述视场更大的部分。
5.如权利要求1所述的系统,其中显示所述第一视频信息和所述第二视频信息在时间上同步。
6.如权利要求1所述的系统,其中所述操作还包括:
经由所述通信接口,连接到至少一个音频流;
经由所述至少一个音频流,接收声轨;以及
与所述第一视频信息和所述第二视频信息同步地回放所述声轨。
7.如权利要求1所述的系统,其中至少所述显示器和传感器并入到虚拟现实头盔中。
8.如权利要求1所述的系统,其中连接到所述多个视频流包括经由至少一个UDP、TCP/IP或HTTP连接与至少一个流化服务器连接。
9.如权利要求1所述的系统,其中连接到所述多个视频流包括经由一个隧道UDP、TCP/IP或HTTP连接与流化服务器连接。
10.如权利要求1所述的系统,其中连接到所述多个视频流包括经由多路复用网络连接与流化服务器连接,其中所述多路复用网络连接包括被配置为传送来自所述第一视频信息的固定长度的传输段的网络连接。
11.一种系统,包括:
通信接口;以及
控制器,所述控制器包括存储器和至少一个处理器;以及
程序指令,所述程序指令储存在所述存储器中并且可由所述至少一个处理器执行以进行操作,所述操作包括:
将360°视频流分割为多个区域性流;
对360°视频流下采样,以提供较低分辨率360°视频流;
经由所述通信接口接收请求,其中所述请求包括至少一个活跃区域;
经由所述通信接口,提供与所述至少一个活跃区域相对应的至少一个区域性流;以及
经由所述通信接口,提供所述较低分辨率360°视频流。
12.如权利要求11所述的系统,其中所述操作还包括经由所述通信接口提供至少一个音频流,其中所述通信接口包括以下中的至少一个:与至少一个客户端装置的至少一个网络连接、或者与至少一个客户端装置的至少一个隧道TCP连接。
13.如权利要求11所述的系统,其中将所述360°视频流分割为多个区域性流包括:
计算所述360°视频流的至少一部分的每个帧的熵图;
在每像素的基础上,对与所述360°视频流的该部分相对应的熵图取平均以提供平均熵图,其中所述平均熵图指示平均像素信息;以及
将所述平均熵图分割为多个区域,其中每个区域具有相似量的像素信息,其中所述多个区域性流对应于所述多个区域。
14.如权利要求13所述的系统,其中使用以下中的至少一个来执行将所述平均熵图分割为多个区域:线性编程、动态编程或至少一个数值优化算法。
15.如权利要求11所述的系统,其中所述通信接口包括与至少一个客户端装置的多路复用网络连接,其中提供所述至少一个区域性流包括提供来自所述较低分辨率360°视频流和与所述至少一个活跃区域相对应的至少一个区域性流的固定长度的传输段。
16.一种方法,包括:
从传感器接收指示观看体内的观看方向的信息,其中所述观看方向对应于视场;
基于所述观看方向,从所述观看体中的多个可观看区域确定多个活跃区域;
经由通信接口,连接到与所述多个活跃区域相对应的多个视频流;
经由所述多个视频流,接收与所述多个活跃区域相对应的第一视频信息;
接收与360°视场相对应的第二视频信息,其中所述第一视频信息具有比所述第二视频信息更高的分辨率;
基于所述多个活跃区域中的第一视频信息和所述观看体的在所述多个活跃区域外部的区域中的第二视频信息,渲染360°视频;以及
经由显示器,显示与所述视场相对应的所述360°视频的至少一部分。
17.如权利要求16所述的方法,还包括:
从所述传感器接收指示更新的观看方向的信息,其中所述更新的观看方向对应于更新的视场;
基于所述更新的观看方向,从所述观看体中的多个可观看区域确定更新的多个活跃区域;
断开不与所述更新的多个活跃区域相对应的至少一个视频流;
经由所述通信接口,连接到与所述更新的多个活跃区域相对应的更新的多个视频流;
经由所述更新的多个视频流,接收与所述更新的多个活跃区域相对应的更新的视频信息;
基于所述更新的多个活跃区域中的更新的视频信息和所述观看体的在所述更新的多个活跃区域外部的区域中的第二视频信息,渲染更新的360°视频;以及
经由所述显示器,显示与所述更新的视场相对应的所述更新的360°视频的至少一部分。
18.如权利要求16所述的方法,还包括:
经由所述通信接口,连接到至少一个音频流;
经由所述至少一个音频流,接收声轨;以及
与所述第一视频信息和所述第二视频信息同步地回放所述声轨。
19.如权利要求16所述的方法,其中连接到所述多个视频流包括经由一个隧道TCP或HTTP连接与流化服务器连接。
20.如权利要求16所述的方法,其中连接到所述多个视频流包括经由多路复用网络连接与流化服务器连接,其中所述多路复用网络连接被配置为传送来自所述第一视频信息的固定长度的传输段。
CN201780029818.8A 2016-04-08 2017-04-07 递送360°视频流的系统和方法 Expired - Fee Related CN109891906B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662320451P 2016-04-08 2016-04-08
US62/320,451 2016-04-08
PCT/US2017/026514 WO2017177090A1 (en) 2016-04-08 2017-04-07 View-aware 360 degree video streaming

Publications (2)

Publication Number Publication Date
CN109891906A true CN109891906A (zh) 2019-06-14
CN109891906B CN109891906B (zh) 2021-10-15

Family

ID=59998838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780029818.8A Expired - Fee Related CN109891906B (zh) 2016-04-08 2017-04-07 递送360°视频流的系统和方法

Country Status (5)

Country Link
US (1) US9986221B2 (zh)
EP (1) EP3440843A4 (zh)
JP (1) JP6741784B2 (zh)
CN (1) CN109891906B (zh)
WO (1) WO2017177090A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111131805A (zh) * 2019-12-31 2020-05-08 歌尔股份有限公司 图像处理方法、装置和可读存储介质
US11159848B2 (en) 2017-04-28 2021-10-26 Huawei Technologies Co., Ltd. Video playing method, device, and system
WO2023273675A1 (zh) * 2021-06-28 2023-01-05 中兴通讯股份有限公司 自由视角视频场景的处理方法、客户端及服务器

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180096494A1 (en) * 2016-09-30 2018-04-05 Visbit Inc. View-optimized light field image and video streaming
US10425643B2 (en) 2017-02-04 2019-09-24 OrbViu Inc. Method and system for view optimization of a 360 degrees video
US10687050B2 (en) * 2017-03-10 2020-06-16 Qualcomm Incorporated Methods and systems of reducing latency in communication of image data between devices
CN107396081B (zh) * 2017-06-19 2019-04-12 深圳市铂岩科技有限公司 针对全景视频的优化编码方法及装置
KR102214079B1 (ko) * 2018-04-05 2021-02-09 엘지전자 주식회사 360도 비디오를 송수신하는 방법 및 그 장치
EP3791575A4 (en) * 2018-04-05 2021-11-10 LG Electronics Inc. 360 DEGREE VIDEO TRANSMISSION PROCESS, 360 DEGREE VIDEO RECEPTION PROCESS, 360 DEGREE VIDEO TRANSMISSION APPARATUS, AND 360 DEGREE VIDEO RECEIVER APPARATUS
US10812828B2 (en) 2018-04-10 2020-10-20 At&T Intellectual Property I, L.P. System and method for segmenting immersive video
WO2019199024A1 (ko) * 2018-04-10 2019-10-17 엘지전자 주식회사 360 영상 데이터의 서브픽처 기반 처리 방법 및 그 장치
US10735765B2 (en) * 2018-06-07 2020-08-04 Hong Kong Applied Science and Technology Research Institute Company, Limited Modified pseudo-cylindrical mapping of spherical video using linear interpolation of empty areas for compression of streamed images
JP2020005038A (ja) * 2018-06-25 2020-01-09 キヤノン株式会社 送信装置、送信方法、受信装置、受信方法、及び、プログラム
US10699154B2 (en) 2018-08-08 2020-06-30 At&T Intellectual Property I, L.P. Optimizing 360-degree video streaming with video content analysis
US10735778B2 (en) 2018-08-23 2020-08-04 At&T Intellectual Property I, L.P. Proxy assisted panoramic video streaming at mobile edge
US11032590B2 (en) 2018-08-31 2021-06-08 At&T Intellectual Property I, L.P. Methods, devices, and systems for providing panoramic video content to a mobile device from an edge server
US10826964B2 (en) 2018-09-05 2020-11-03 At&T Intellectual Property I, L.P. Priority-based tile transmission system and method for panoramic video streaming
KR102192433B1 (ko) * 2018-12-28 2020-12-17 포항공과대학교 산학협력단 360도 영상의 수평 수직 보정을 위한 장치 및 방법
US11012675B2 (en) 2019-04-16 2021-05-18 At&T Intellectual Property I, L.P. Automatic selection of viewpoint characteristics and trajectories in volumetric video presentations
US11153492B2 (en) 2019-04-16 2021-10-19 At&T Intellectual Property I, L.P. Selecting spectator viewpoints in volumetric video presentations of live events
US10970519B2 (en) 2019-04-16 2021-04-06 At&T Intellectual Property I, L.P. Validating objects in volumetric video presentations
US11074697B2 (en) 2019-04-16 2021-07-27 At&T Intellectual Property I, L.P. Selecting viewpoints for rendering in volumetric video presentations
CN113473126B (zh) 2020-03-31 2023-03-17 阿里巴巴集团控股有限公司 视频流的处理方法、装置、电子设备及计算机可读介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103167284A (zh) * 2011-12-19 2013-06-19 中国电信股份有限公司 一种基于画面超分辨率的视频流传输方法及系统
WO2016050283A1 (en) * 2014-09-30 2016-04-07 Telefonaktiebolaget L M Ericsson (Publ) Reduced bit rate immersive video

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6567086B1 (en) * 2000-07-25 2003-05-20 Enroute, Inc. Immersive video system using multiple video streams
JP2004072694A (ja) * 2002-08-09 2004-03-04 Sony Corp 情報提供システムおよび方法、情報提供装置および方法、記録媒体、並びにプログラム
US7778326B1 (en) * 2003-12-23 2010-08-17 At&T Intellectual Property Ii, L.P. System and method for dynamically determining multimedia transmission based on communication bandwidth
US20110191679A1 (en) * 2010-02-02 2011-08-04 Futurewei Technologies, Inc. System and Method for Online Media Preview
US9998749B2 (en) * 2010-10-19 2018-06-12 Otoy, Inc. Composite video streaming using stateless compression
US8928756B2 (en) * 2010-10-22 2015-01-06 Alcatel Lucent Surveillance video router
US8990843B2 (en) * 2012-10-26 2015-03-24 Mobitv, Inc. Eye tracking based defocusing
JP6006680B2 (ja) * 2012-11-19 2016-10-12 日本電信電話株式会社 映像配信装置及び映像配信プログラム
CN105052158A (zh) * 2012-11-26 2015-11-11 索尼公司 传输设备、传输方法、接收设备、接收方法与接收显示方法
JP5941000B2 (ja) * 2013-03-12 2016-06-29 日本電信電話株式会社 映像配信装置及び映像配信方法
JP6178705B2 (ja) * 2013-11-15 2017-08-09 日本電信電話株式会社 映像配信システム、映像配信装置及び映像配信プログラム
US9699437B2 (en) 2014-03-03 2017-07-04 Nextvr Inc. Methods and apparatus for streaming content
US9635077B2 (en) * 2014-03-14 2017-04-25 Adobe Systems Incorporated Low latency live video streaming
US20150286719A1 (en) * 2014-04-03 2015-10-08 Sony Corporation Recognizing and registering faces in video
CA2948642A1 (en) * 2014-05-29 2015-12-03 Nextvr Inc. Methods and apparatus for delivering content and/or playing back content
US10204658B2 (en) * 2014-07-14 2019-02-12 Sony Interactive Entertainment Inc. System and method for use in playing back panorama video content
US20160150212A1 (en) 2014-11-26 2016-05-26 Sony Corporation Live selective adaptive bandwidth
US9979885B2 (en) * 2015-02-09 2018-05-22 Steven Christopher Sparks Apparatus and method for capture of 360° panoramic video image and simultaneous assembly of 360° panoramic zoetropic video image
GB2536025B (en) * 2015-03-05 2021-03-03 Nokia Technologies Oy Video streaming method
DE112016002377T5 (de) 2015-05-27 2018-02-08 Google Llc Streamen von sphärischem video
US20160353146A1 (en) 2015-05-27 2016-12-01 Google Inc. Method and apparatus to reduce spherical video bandwidth to user headset
US10379601B2 (en) 2015-09-10 2019-08-13 Google Llc Playing spherical video on a limited bandwidth connection
US9858706B2 (en) 2015-09-22 2018-01-02 Facebook, Inc. Systems and methods for content streaming
US10152080B2 (en) * 2015-09-23 2018-12-11 Adobe Systems Incorporated Power efficient multimedia content streaming based on media segment duration

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103167284A (zh) * 2011-12-19 2013-06-19 中国电信股份有限公司 一种基于画面超分辨率的视频流传输方法及系统
WO2016050283A1 (en) * 2014-09-30 2016-04-07 Telefonaktiebolaget L M Ericsson (Publ) Reduced bit rate immersive video

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11159848B2 (en) 2017-04-28 2021-10-26 Huawei Technologies Co., Ltd. Video playing method, device, and system
CN111131805A (zh) * 2019-12-31 2020-05-08 歌尔股份有限公司 图像处理方法、装置和可读存储介质
WO2023273675A1 (zh) * 2021-06-28 2023-01-05 中兴通讯股份有限公司 自由视角视频场景的处理方法、客户端及服务器

Also Published As

Publication number Publication date
EP3440843A4 (en) 2019-08-28
JP6741784B2 (ja) 2020-08-19
CN109891906B (zh) 2021-10-15
WO2017177090A1 (en) 2017-10-12
EP3440843A1 (en) 2019-02-13
US9986221B2 (en) 2018-05-29
US20170294049A1 (en) 2017-10-12
JP2019516297A (ja) 2019-06-13

Similar Documents

Publication Publication Date Title
CN109891906A (zh) 视图感知360度视频流化
JP7029562B2 (ja) コンテンツを提供及び表示するための装置及び方法
ES2896687T3 (es) Región más interesada en una imagen
EP3028472B1 (en) Providing tile video streams to a client
KR102493754B1 (ko) 감축된 해상도 이미지들을 생성 및 이용하고 및/또는 재생 또는 컨텐트 분배 디바이스에 이러한 이미지들을 통신하기 위한 방법들 및 장치
CN109074678B (zh) 一种信息的处理方法及装置
US20160277772A1 (en) Reduced bit rate immersive video
EP3831082A1 (en) System and method for inserting advertisement content in 360-degree immersive video
US20020021353A1 (en) Streaming panoramic video
KR102640664B1 (ko) Vr 디바이스 및 vr 디바이스 제어 방법
US20160330408A1 (en) Method for progressive generation, storage and delivery of synthesized view transitions in multiple viewpoints interactive fruition environments
WO2018126702A1 (zh) 一种应用于虚拟现实技术的流媒体的传输方法和客户端
JP7144452B2 (ja) 画像処理装置およびシステム
ES2960073T3 (es) Procedimiento de procesamiento y sistema de procesamiento de datos de vídeo
EP3635958B1 (en) Image processing device and system
US20220329886A1 (en) Methods and devices for handling media data streams
CN115023955A (zh) 用于视频流传输的方法、装置和计算机程序产品
KR102499900B1 (ko) 고해상도 영상의 스트리밍을 위한 영상 전송 장치와 영상 재생 장치 및 그 동작 방법
US12069334B2 (en) Changing video tracks in immersive videos
KR102719787B1 (ko) 몰입형 미디어 프로세싱의 순위 정보
CN108271084B (zh) 一种信息的处理方法及装置
WO2023194648A1 (en) A method, an apparatus and a computer program product for media streaming of immersive media

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20211015