CN109565610A - 空间平铺的全向视频流播 - Google Patents
空间平铺的全向视频流播 Download PDFInfo
- Publication number
- CN109565610A CN109565610A CN201780046501.5A CN201780046501A CN109565610A CN 109565610 A CN109565610 A CN 109565610A CN 201780046501 A CN201780046501 A CN 201780046501A CN 109565610 A CN109565610 A CN 109565610A
- Authority
- CN
- China
- Prior art keywords
- video
- layer block
- omnidirectional
- projection
- terminal device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 62
- 238000012545 processing Methods 0.000 claims description 43
- 238000003860 storage Methods 0.000 claims description 36
- 230000000007 visual effect Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 11
- 230000014509 gene expression Effects 0.000 claims description 10
- 230000002093 peripheral effect Effects 0.000 claims description 10
- 230000011664 signaling Effects 0.000 claims description 10
- 230000004044 response Effects 0.000 claims description 5
- 238000009795 derivation Methods 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 238000005192 partition Methods 0.000 claims description 2
- 239000010410 layer Substances 0.000 description 237
- 230000008569 process Effects 0.000 description 30
- 238000009877 rendering Methods 0.000 description 26
- 238000013507 mapping Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 15
- 230000005540 biological transmission Effects 0.000 description 6
- 238000005452 bending Methods 0.000 description 5
- 239000000872 buffer Substances 0.000 description 5
- 230000000153 supplemental effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000032798 delamination Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 239000002344 surface layer Substances 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013506 data mapping Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- QWXYZCJEXYQNEI-OSZHWHEXSA-N intermediate I Chemical compound COC(=O)[C@@]1(C=O)[C@H]2CC=[N+](C\C2=C\C)CCc2c1[nH]c1ccccc21 QWXYZCJEXYQNEI-OSZHWHEXSA-N 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/21805—Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/65—Network streaming protocols, e.g. real-time transport protocol [RTP] or real-time control protocol [RTCP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/167—Position within a video image, e.g. region of interest [ROI]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/23439—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements for generating different versions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/262—Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
- H04N21/26258—Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists for generating a list of items to be played back in a given order, e.g. playlist, or scheduling item distribution according to such list
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
- H04N21/43072—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/65—Transmission of management data between client and server
- H04N21/658—Transmission by the client directed to the server
- H04N21/6587—Control parameters, e.g. trick play commands, viewpoint selection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Information Transfer Between Computers (AREA)
- Processing Or Creating Images (AREA)
- Image Processing (AREA)
Abstract
描述一种用于由客户端装置来处理全向视频的方法,所述全向视频与3D坐标系关联,该3D坐标系用于确定弯曲表面(优选地为球形)上的所述全向视频的视频数据的空间位置,所述方法包括:接收清单文件,清单文件包含用于识别多个层块流的多个层块流标识符,层块流包含具有图像视图的视频帧,由此不同层块流的视频帧的图像视图覆盖全向视频的2D投影的不同区域,区域定义层块;基于清单文件中的空间关系信息并且基于客户端装置的用户的视点来选择与第一分辨率和第一层块位置关联的第一层块流以及与第二分辨率和第二层块位置关联的第二层块流,第二分辨率低于第一分辨率,其中空间关系信息对每个层块定义层块位置,并且其中视点定义用户的查看方向,层块位置和视点基于3D坐标系的坐标来定义。
Description
技术领域
本发明涉及空间平铺全向视频流播,以及非排他地具体来说涉及用于流播空间平铺全向视频的方法和系统、适合于处理空间平铺全向视频的客户端装置、用于实现空间平铺全向视频到客户端装置的流播的数据结构以及用于运行这类方法的计算机程序产品。
背景技术
照相装置和图像处理技术方面的进步不仅实现通过越来越高分辨率的记录,而且还将多个照相装置的输出拼接在一起。这样,一组照相装置能够以高于8K×4K的分辨率通过全360度进行记录。这种视频可称作全向视频。
全向视频提供新用户体验,例如虚拟现实(VR)和增强现实(AR),其当前在行业中有增加势头。但是,流播高质量VR内容仍然造成难题,包括高带宽要求,其是流播高质量全向视频并且在比特流中表示球面内容所需的。
实际上,可用带宽将是效率与用户体验之间的折衷。另一方面,需要以高质量并且同时以最小等待时间为用户提供他们所关注的视点。这是很难满足的目标,因为虽然视点在空间上受到限制,但是用户可在360度流内持续改变其视点,并且从一个视点到另一视点的转变应当是平滑的。
全向视频(其本质上是球面的)在进行编码以便与现代视频编码标准进行接口之前被映射到一个或多个平面上。当前不存在比特流中表示球面视频的标准方式,并且因为不同球形-平面映射是可能的,所以互通性成为问题。
近来,Facebook提出一种专有编码技术,其允许针对全向视频内容的带宽问题的降低。在这种技术中,全向视频被映射到金字塔,其中金字塔的基础表示与观众的中心FOV相关的高分辨率视频,并且金字塔的侧面用于观众的侧面和背面的视频信息。金字塔的侧面的视频信息配置成使得分辨率从中心FOV的边缘朝观众的背面逐渐降低。这种编码技术允许文件大小的充分减小,并且因而改进流播全向视频的带宽问题。
但是,Facebook技术是一种专有解决方案,其在编码级实现,并且因而在互通性方面不是很灵活。该解决方案基于硬编码金字塔映射技术,其没有为可提供更进一步改进或者可用于特殊应用的另外的(其他)映射技术提供空间。另外,Facebook所提出的特殊编码技术与常规现有技术编码技术(例如HEVC和VP9)不兼容。
因此,通过以上所述推断,常规基于平铺的流播方案不适合于提供用于流播全向视频数据的有效灵活框架。
发明内容
如本领域的技术人员将会理解,本发明的方面可作为系统、方法或计算机程序产品来实施。相应地,本发明的方面可采取全硬件实施例、全软件实施例(包括固件、常驻软件、微码等)或者结合软件和硬件方面的实施例的形式,它们在本文可一般称作“电路”、“模块”或“系统”。本公开所述的功能可实现为计算机的微处理器所运行的算法。此外,本发明的方面可采取一个或多个计算机可读介质中包含的计算机程序产品的形式,其上包含(例如存储)计算机可读程序代码。
可利用(一个或多个)计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质非限制性地可以是例如电子、磁、光、电磁、红外线或半导体系统、设备或装置或者以上所述的任何适当组合。计算机可读存储介质的更具体示例(非详尽列表)包括下列项:具有一个或多个导线的电连接,便携计算机磁盘,硬盘,随机存取存储器(RAM),只读存储器(ROM),可擦可编程只读存储器(EPROM或闪速存储器),光纤,便携致密光盘只读存储器(CD-ROM),光存储装置,磁存储装置或者以上所述的任何适当组合。在本文档的上下文中,计算机可读存储介质可以是能够包含或存储供指令执行系统、设备或装置使用或者与其结合使用的程序的任何有形介质。
计算机可读信号介质可包括具有其中包含的计算机可读程序代码、例如在基带中或者作为载波的组成部分的传播数据信号。这种传播信号可采取多种形式的任一种,包括但不限于电磁、光或者它们的任何适当组合。计算机可读信号介质可以是任何计算机可读介质,其不是计算机可读存储介质,并且能够传递、传播或传输程序以供指令执行系统、设备或装置使用或者与其结合使用。
计算机可读介质上包含的程序代码可使用任何适当介质来传送,包括但不限于无线、有线、光纤电缆、RF等或者以上所述的任何适当组合。用于执行本发明的方面的操作的计算机程序代码可通过一个或多个编程语言的任何组合来编写,包括诸如Java(TM)、Smaltalk、C++等的面向对象编程语言以及诸如“C”编程语言或类似编程语言之类的常规过程编程语言。程序代码可完全在用户计算机上运行、部分在用户计算机上作为独立软件包运行,部分在用户计算机而部分在远程计算机上或者完全在远程计算机或服务器上运行。在后一种情况下,远程计算机可通过包括局域网(LAN)或广域网(WAN)的任何类型的网络来连接到用户计算机,或者可进行到外部计算机的连接(例如通过使用因特网服务提供商的因特网)。
以下参照按照本发明的实施例的方法、设备(系统)和计算机程序产品的流程图图示和/或框图来描述本发明的方面。将会理解,流程图图示和/或框图的每个框以及流程图图示和/或框图中的框的组合能够通过计算机程序指令来实现。可将这些计算机程序指令提供给通用计算机、专用计算机或其他可编程数据处理设备的处理器(具体来说是微处理器或中央处理器(CPU))以产生机器,使得经由计算机、其他可编程数据处理设备或者其他装置的处理器运行的指令创建用于实现在流程图和/或框图的一个或多个框中规定的功能/动作的部件。
这些计算机程序指令还可存储在计算机可读介质中,其能够指导计算机、其他可编程数据处理设备或其他装置以特定方式起作用,使得存储在计算机可读介质中的指令产生制造产品,其包括实现在流程图和/或框图的一个或多个框中规定的功能/动作的指令。
计算机程序指令还可加载到计算机、其他可编程数据处理设备或其他装置中,以便使一系列操作步骤在计算机、其他可编程设备或其他装置上执行,以产生计算机实现过程,使得在计算机或其他可编程设备上运行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。
附图中的流程图和框图示出按照本发明的各个实施例的系统、方法和计算机程序产品可能的实现的架构、功能性和操作。在这方面,流程图或框图中的每个框可表示代码的模块、段或部分,其包含用于实现(一个或多个)所指定逻辑功能的一个或多个可执行指令。还应当注意,在一些备选实现中,框中所示的功能可以不按照图中所示的顺序进行。例如,接连示出的两个框实际上可基本同时运行,或者框有时可按照相反顺序运行,这取决于所涉及的功能性。还将要注意,框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合能够通过执行所指定功能或动作的基于专用硬件的系统或者专用硬件和计算机指令的组合来实现。
本发明的一个目的是减少或消除现有技术已知的缺陷的至少一个。在第一方面,本发明可涉及一种由客户端装置来处理全向视频的方法。全向视频可与3D坐标系(其用于确定弯曲表面(例如球形)上的全向视频的视频数据的空间位置)关联。
在实施例中,该方法可包括:优选地由客户端装置来接收清单文件,清单文件包含用于识别多个层块流的多个层块流标识符,层块流包含具有图像视图的视频帧,由此不同层块流的视频帧的图像视图覆盖全向视频的2D投影的不同区域,区域定义层块;以及优选地由客户端装置基于清单文件中的空间关系信息并且基于客户端装置的用户的视点来选择与第一分辨率和第一层块位置关联的第一层块流以及与第二分辨率和第二层块位置关联的第二层块流,第二分辨率低于第一分辨率,其中空间关系信息对每个层块定义层块位置,并且视点定义用户的查看方向,层块位置和视点基于3D坐标系的坐标来定义。
因此,本发明允许客户端装置按照应用于全向视频数据的2D投影方案不可知的方式来选择与特定视点(即,与表示客户端装置的用户正观看的方向的弯曲表面区域上的点对应的视点)对应的全向视频的部分。由于清单文件基于3D坐标系(其也用于定义视点)来描述层块的空间位置和层块的大小,所以能够实现FOV的层块的快速选择。这样,本发明可提供流播内容与虚拟现实渲染系统之间的改进接口。客户端装置能够有效地选择与用户视点对应的流播内容,这对全向视频的基于视点的渲染是有利的。本发明允许需要流播到客户端装置的层块的快速层块流选择,这对提供良好体验质量是必不可少的。
另外,与从现有技术已知的特殊编码方案形成对照,本发明允许低分辨率视频层块和高分辨率视频层块的单独选择。这样,基于不同分辨率和不同大小的层块,可构成视场,其包括视场的中心的高分辨率视频数据以及视场的周边部分和/或视场外部的低分辨率视频数据。这样,需要在渲染期间流播到客户端装置的数据量能够极大地降低,而无需使用特殊编码方案。实际上,本发明允许使用现有技术编码方案(例如AVC、SVC和HEVC)。
在实施例中,该方法还可包括:优选地由客户端装置向一个或多个层块流存储装置(优选地为一个或多个网络节点)请求所选一个或多个层块流;以及接收一个或多个所选层块流的视频数据并且接收映射信息,映射信息的至少部分优选地在清单文件中向客户端装置发信号通知,映射信息为客户端装置提供用于使客户端装置能够将作为全向视频数据的层块流的2D投影视频数据映射到弯曲表面上的信息;基于空间关系信息和映射信息来处理所述所接收层块流的视频数据。
在实施例中,映射信息可包括:用于将全向视频数据投影到平面表面上的2D投影的类型的指示;以及可选地包括用于将2D投影视频数据映射到弯曲表面上所需的一个或多个参数。
因此,映射信息允许基于不同投影类型的全向视频的不同类型的灵活使用。映射信息可通知渲染引擎关于生成全向视频时使用的2D投影的类型。另外,映射信息可为渲染引擎提供与特定2D投影关联的映射参数,使得渲染引擎能够正确地将2D投影视频数据又映射到符合所使用投影的弯曲表面。
在实施例中,视点可与用户的视场关联,视点优选地定义用户的视场的中心点。在实施例中,选择可包括:对于位于视场的中心部分的至少部分中的层块位置选择高分辨率的层块流;以及对于位于视场的周边部分的至少部分中的层块位置选择比高分辨率要低的分辨率的层块流。
因此,只有FOV的中心部分需要最高质量,而FOV的周边部分可提供有更低质量流。通过产生全向内容的不同质量层,并且通过将每个质量层分成空间子部分(层块),流播客户端得到下载不同质量的不同空间子部分并且在使带宽使用为最小的同时为用户提供高质量体验的灵活性。
中心和周边的维度可基于人类FOV和带宽考虑因素来确定或选择。可考虑中心和周边FOV的不同要求(在层块大小和视频质量方面)来生成平铺视频内容,并且这个信息的至少部分可经由清单文件向客户端装置发信号通知。视频处理装置中的客户端装置随后可使用清单文件基于中心和周边FOV来选择不同视频层块。
在实施例中,对视频数据的所述处理还可包括:将所述所接收层块流的视频数据解码为表示层块的视频帧;在空间上布置与一个时刻关联的层块的视频帧,并且将视频帧拼接为一个视频帧;以及基于映射信息将作为全向视频数据的视频帧的2D投影视频数据映射到弯曲表面。
在实施例中,所述所选一个或多个层块流的请求和接收可基于HTTP自适应流播协议、优选地为MPEG DASH流播协议或者其派生。
在实施例中,清单文件还可包含层块流的一个或多个表示,所述一个或多个表示优选地包括一个或多个分辨率表示和/或一个或多个平铺表示。
在实施例中,清单文件可包含一个或多个空间关系描述符(SRD),空间关系描述符包含用于基于3D坐标系的坐标来定义层块位置和层块的维度的一个或多个SRD参数。
在实施例中,一个或多个空间关系描述符(SRD)可包含用于发信号通知关于用于将全向视频数据投影到平面表面上的2D投影的类型(优选地关于包括等正交投影、立方体投影、圆柱投影或者其派生和/或组合的2D投影的类型)的一个或多个SRD参数。
扩展SRD提供与互通性有关的优点。实际上,全向流可同时使用不同2D映射来提供,以及SRD的source_id参数能够向客户端指示全部那些流涉及相同内容。因此,客户端可选择能够在客户端最佳渲染的格式。还有可能为不支持全向内容的客户端提供相同内容的非全向版本,并且通过使用source_id的相同值将它与全向内容相关。
按照本发明的扩展SRD提供与VR渲染系统的改进接口,由此允许客户端装置有效地处理用户视点,其对全向视频的基于视点的渲染是重要的。因此,以此为基础的层块流选择方法将允许需要流播到客户端装置的子部分(层块)的更快选择,这是提供更低等待时间并且因此提供良好体验质量必不可少的。
在一些实施例中,2D投影的视频帧可基于支持空间平铺的编解码器来编码。例如,HEVC标准支持HEVC层块,其中视频帧在空间上分成层块网格。这些HEVC层块编码成使得层块的每个能够由微处理器的不同核心来处理。与HEVC层块关联的媒体数据可编码成使得它们没有与相同视频帧的其他层块的媒体数据的任何空间解码相关性。此外,与层块关联的媒体数据编码成使得它们没有与先前或将来视频帧的其他层块的媒体数据的任何时间解码相关性。在那种情况下,每个HEVC层块的视频数据可作为HEVC层块轨道(即,HEVC层块文件)来存储在媒体源上。这些层块轨道可具有基于ISO/IEC 14496-12 ISO基本媒体文件(ISOBMFF)或者ISO/IEC 14496-15 ISO基本媒体文件格式的NAL单元结构化视频的传送的数据容器格式。在那种情况下,内容处理装置应当包括支持层块的HEVC客户端,其能够将所请求HEVC层块流解码为单个视频帧。
在另一方面,本发明涉及一种用于处理全向视频的客户端装置,所述全向视频与3D坐标系(其用于确定弯曲表面上的所述全向视频的视频数据的空间位置)关联,该客户端装置包括:计算机可读存储介质,包含有程序的至少部分,计算机可读存储介质包含清单文件;计算机可读存储介质,包含有计算机可读程序代码;以及处理器(优选地为微处理器),其耦合到计算机可读存储介质,其中响应运行计算机可读程序代码,处理器配置成执行包括下列步骤的可执行操作:接收清单文件,清单文件包含用于识别多个层块流的多个层块流标识符,层块流包含具有图像视图的视频帧,由此不同层块流的视频帧的图像视图覆盖全向视频的2D投影的不同区域,区域定义层块;以及基于清单文件上的空间关系信息并且基于客户端装置的用户的视点来选择与第一分辨率和第一层块位置关联的第一层块流以及与第二分辨率和第二层块位置关联的第二层块流,第二分辨率低于第一分辨率,其中空间关系信息对每个层块定义层块位置,并且视点定义用户的查看方向,层块位置和视点基于3D坐标系的坐标来定义。
在实施例中,可执行操作还可包括:向一个或多个层块流存储装置(优选地为一个或多个网络节点)请求所选一个或多个层块流;以及接收一个或多个所选层块流的视频数据并且接收映射信息,映射信息的至少部分优选地在清单文件中向客户端装置发信号通知,映射信息为客户端装置提供用于使客户端装置能够将作为全向视频数据的层块流的2D投影视频数据映射到弯曲表面上的信息;基于空间关系信息和映射信息来处理所述所接收层块流的视频数据。
在实施例中,清单文件可包括一个或多个空间关系描述符(SRD),空间关系描述符包含用于基于3D坐标系的坐标来定义层块的层块位置和维度的一个或多个SRD参数。在实施例中,清单文件可包含一个或多个空间关系描述符,其包含用于发信号通知关于用于将全向视频数据投影到平面表面上的2D投影的类型的一个或多个SRD参数。
在实施例中,2D投影的类型包括等正交投影、立方体投影、圆柱投影或者其派生和/或组合。
在另一方面,本发明可涉及一种由客户端装置来处理全向视频的方法,所述全向视频与3D坐标系(其用于确定弯曲表面(优选地为球形))上的所述全向视频的视频数据的空间位置)关联,所述方法包括:优选地由客户端装置接收清单文件,清单文件包含用于识别多个层块流的多个层块流标识符,层块流包含具有图像视图的视频帧,由此不同层块流的视频帧的图像视图覆盖全向视频的2D投影的不同区域,区域定义层块;
优选地由客户端装置基于清单文件中的空间关系信息并且基于客户端装置的用户的视点来选择与第一分辨率关联的一个或多个层块流以及与第二分辨率关联的第二流,第二分辨率低于第一分辨率(例如低分辨率基层),其中空间关系信息对每个层块定义层块位置,并且视点定义用户的查看方向,层块位置和视点基于3D坐标系的坐标来定义。
因此,在这个实施例中,高分辨率视频数据能够基于用于渲染用户的FOV的中心部分中的视频数据的层块流来请求,而可对用户的FOV的周边部分和/或外部的区域来请求非平铺低分辨率基层。
在实施例中,非平铺和平铺视频表示可基于如从H.264/MPEG-4 AVC视频压缩标准的附录G扩展已知的可缩放视频编码(SVC)来编码。因此,在那种情况下,非平铺低分辨率层可格式化为SVC基层,而平铺中等和高分辨率表示可格式化为SVC增强层。
在一个方面,本发明涉及一种用于客户端装置的存储清单文件的非暂时计算机可读存储介质,所述客户端装置配置成基于所述清单文件来处理全向视频,所述全向视频与3D坐标系(其用于确定弯曲表面(优选地为球形)上的所述全向视频的视频数据的空间位置)关联,所述清单文件包括计算机可读数据,所述数据包含:用于识别多个层块流的多个层块流标识符,层块流包含具有图像视图的视频帧,由此不同层块流的视频帧的图像视图覆盖全向视频的2D投影的不同区域,区域定义层块;空间关系信息,空间关系信息对每个层块定义层块位置,层块位置和视点基于3D坐标系的坐标来定义;以及用于为客户端装置提供用于使客户端装置能够将清单文件中识别为全向视频数据的层块流的2D投影视频数据映射到弯曲表面上的信息的映射信息。
在实施例中,清单文件的计算机可读数据还包括:一个或多个空间关系描述符(SRD),空间关系描述符包含用于基于3D坐标系的坐标来定义层块的层块位置和维度的一个或多个SRD参数;和/或用于发信号通知关于用于将全向视频数据投影到平面表面上的2D投影的类型(优选地关于包括等正交投影、立方体投影、圆柱投影或者其派生和/或组合的2D投影的类型)的一个或多个SRD参数。
本发明还可涉及一种程序产品,包含软件代码部分,其配置用于在计算机的存储器中运行时运行如上所述方法步骤的任一个。
还将参照将示意示出按照本发明的实施例的附图进一步示出本发明。将会理解,本发明决不是局限于这些具体实施例。
附图说明
图1示出按照本发明的实施例、用于全向视频的视频流播系统的示意图。
图2A-2C示出按照本发明的实施例、用于全向视频的客户端装置的3D坐标系中的视点。
图3A-3B示出按照本发明的各个实施例、用于平铺全向视频的生成和播出的流程。
图4示出按照本发明的实施例、用于平铺全向视频的客户端装置的视场。
图5A-5D示出按照本发明的实施例、供与用于全向视频的客户端装置配合使用的不同视频质量的不同平铺表示。
图6示出按照本发明的实施例、包含平铺视频全向视频的视频帧。
图7示出全向视频到2D平面上的投影的另一个示例。
图8示出按照本发明的实施例、用于全向视频的客户端装置的视场。
图9A-9D示出按照本发明的实施例、供与用于全向视频的客户端装置配合使用的不同视频质量的不同平铺表示。
图10示出按照本发明的实施例、包含平铺视频全向视频的视频帧。
图11示出按照本发明的实施例、适合于处理空间平铺全向视频的客户端装置。
图12是示出可与本公开所述实施例配合使用的示范数据处理系统的框图。
具体实施方式
图1示出按照本发明的实施例、用于全向视频的视频流播系统的示意图。具体来说,图1示出视频流播系统100,其包括一个或多个媒体源104(例如一个或多个视频服务器),配置用于基于预定数据格式来存储平铺全向视频数据102。
平铺全向内容可作为单独层块流文件1031-4来存储,其中层块流的视频帧表示视频帧的子区域(层块),其表示全向视频内容到矩形平面上的二维投影。层块流标识符(例如URL)以及不同层块流的不同子区域(层块)之间的空间关系存储在所谓的空间清单文件106中。下面更详细描述平铺内容的概念。
一个或多个媒体源适合于基于流播协议将视频数据流播到全向视频处理装置1181-3(以下简称为视频处理装置)。媒体源可以是内容输送网络(CDN),其配置用于媒体数据到大量视频处理装置的有效输送。
视频处理装置配置成处理全向视频数据,并且渲染全向视频数据以供显示。这种视频处理装置的非限制性示例是头戴式显示器(HMD),其用于虚拟现实和增强现实应用。HMD包括一个或多个传感器,以用于跟踪头部、眼睛和/或身体移动,以便确定视点,即,HMD的用户正注视的3D空间中的方向。
视点可基于适合于定义3D空间中的方向的坐标系(球坐标系)来表达。HMD的特征还在于视场(FOV),即,HMD能够对特定视点并且在给定时刻显示的全向视频的区域。HMD的FOV可基于球坐标系来表达。
视频处理装置的每个可包括客户端装置1201-3,其配置用于向网络、具体来说是网络节点(例如视频服务器104和/或视频高速缓存116)请求全向媒体数据。视频处理装置还配置用于接收所请求视频数据,并且用于缓冲媒体数据以供输入到媒体引擎1221-3。媒体视频可包括一个或多个处理器(例如图形处理单元(GPU)),其能够运行一个或多个解码实例以用于将媒体数据解码为视频帧。
在内容生成期间,全向视频数据可基于预定映射(例如等正交投影)来生成。因此,映射全向视频的视频帧包括像素,其可表示全向视频数据的等正交投影。这些视频帧可经过平铺过程,其中视频帧在空间上分成所谓的视频层块(或者简称层块)。平铺过程可包括从视频帧中裁剪与层块对应的区域的视频数据(像素),对所裁剪视频数据进行编码,并且将编码视频数据作为视频文件来存储。对不同层块重复进行这个过程产生视频文件集合,其能够单独被访问并且流播到客户端装置。内容处理装置应当包括用于请求一个或多个层块流的客户端、用于对不同层块流的视频数据进行解码的一个或多个解码器以及用于将视频帧共同拼接为单个视频帧的渲染引擎。
备选地,在一些实施例中,2D投影的视频帧可基于支持空间平铺的编解码器来编码。例如,HEVC标准支持HEVC层块,其中视频帧在空间上分成层块网格。这些HEVC层块编码成使得层块的每个能够由微处理器的不同核心来处理。与HEVC层块关联的媒体数据可编码成使得它们没有与相同视频帧的其他层块的媒体数据的任何空间解码相关性。此外,与层块关联的媒体数据编码成使得它们没有与先前或将来视频帧的其他层块的媒体数据的任何时间解码相关性。在那种情况下,每个HEVC层块的视频数据可作为层块轨道来存储在媒体源104上。这些层块轨道可具有基于ISO/IEC 14496-12 ISO基本媒体文件(ISOBMFF)或者ISO/IEC 14496-15 ISO基本媒体文件格式的NAL单元结构化视频的传送的数据容器格式。在那种情况下,内容处理装置应当包括支持层块的HEVC客户端,其能够将所请求层块流解码为单个视频帧。
不同传输协议可用来将编码比特流传送给客户端装置。例如,在实施例中,HTTP自适应流播(HAS)协议可用于将层块流输送到客户端装置。在那种情况下,层块流中的视频帧序列可在时间上分成时间段(通常包含2-10秒媒体数据)。这种时间段可作为媒体文件存储在存储介质上。在实施例中,时间段可开始于没有与该时间段或其他时间段中的其他帧(例如I帧或者其等效体)的时间编码相关性的媒体数据,使得解码器能够直接开始对HAS段中的媒体数据进行解码。可选地,初始化段可连同媒体段一起提供,唯一目的在于采用关于媒体流的参数(例如空间分辨率、帧率、编解码器配置文件和等级等)来初始化解码器。
客户端装置可配置成选择与视频处理装置的视点关联的层块集合。在实施例中,客户端装置可基于所谓的清单文件106中的信息(即,包含客户端的元数据的一个或多个数据结构)来执行这个选择,以便选择并且向网络请求层块流。
清单文件可包括流标识符(例如URL)或者用于确定这类流标识符的信息。流标识符可包括一个或多个层块流标识符。清单文件还可包含用于向客户端装置发信号通知关于层块之间存在的空间关系的空间关系信息。在实施例中,层块流标识符可与层块位置信息(即,用于向客户端装置发信号通知关于层块流的平铺视频帧中的层块的位置的信息)关联。为了允许层块的快速选择,层块位置信息可在球坐标中表示。
清单文件还可包含与一个或多个网络节点有关的位置信息,例如网络节点的一个或多个URL和/或网络地址。这些网络节点可涉及媒体源104和/或媒体高速缓存116,其配置成将所请求媒体数据传送给客户端装置。客户端装置可使用清单文件基于视点(其由视频处理装置提供给客户端装置)来选择一个或多个层块流。
媒体装置1181-3中的客户端装置1201-3可接收和缓冲层块的媒体数据,并且准备作为一个或多个比特流的媒体数据以供输入到媒体引擎1221-3。媒体引擎可包括用于将层块的媒体数据解码为视频帧的一个或多个解码器。所生成视频帧然后转发到渲染引擎1241-3,其耦合到媒体引擎。渲染引擎可包括:帧缓冲器,用于缓冲视频帧;以及融合处理器(未示出),用于将不同层块流的视频帧融合为单个视频帧126,其表示需要变换为球形表示以供渲染的视场(FOV)的等正交版本。
图2A-2C示出按照本发明的实施例、用于全向视频的客户端装置的3D坐标系中的视点。图2A示出适合与全向配合使用的3D坐标系的示例。具体来说,图2A示出定义球形上的视点202的3D球坐标系,其中从原点延伸到视点的向量的方向定义3D空间中的全向视频处理装置的用户的查看方向。方向可通过极角θ(又称作天顶角或偏航角)和方位角φ(有时称作螺距角)来定义。这些参数与地理坐标系相关,其中球面体上的位置通过纬度和经度来定义。
图2B定义在原点沿视点的方向注视的观察者的视场(FOV)。视场可定义为观察者在任何给定时刻所看到的可观察世界的范围。在这种具体情况下,对于观察者、即全向视频处理装置的用户,可观察世界可被看作是投影到球形的全向内容,以及视场定义能够由全向视频处理装置在给定时刻向用户呈现的全向内容的部分。
如图2B所示,对于全向视频,在原点的观察者的FOV可定义为沿观察者的查看方向的方向的球形的表面上的区域。FOV限制能够向观察者呈现的全向视频量,其中FOV的的延伸(维度)可根据球坐标(例如天顶和方位角)来定义。在实施例中,FOV可通过作为FOV的中心的视点θo、φo以及定义FOV的“宽度”和“高度”的θo±Δo、φo±Δφ来定义。
为了允许全向视频基于常规编码方案来编码,全向视频首先被处理为能够输入到常规编码器的格式。由于常规编解码器只能操控平面矩形视频帧,所以视频数据通常映射到常规矩形视频帧格式的形状上。能够使用不同的映射。例如,图2C示出全向内容到矩形平面上的等正交投影。如通过网格线所示,这种映射产生视频图片218,其包括球形的前、左、右和后侧,其中,朝北和南极,对象因投影而在图片中失真。关于解码器大小,等正交投影需要又变换为被投影到弯曲(例如球面)表面上的内容。
取决于生成全向视频的方式并且取决于VR应用的类型,可使用其他不同类型的投影。映射的类型以及映射所需的参数称作映射信息。
虽然用于描述图2A-2C中的视点和FOV的3D坐标系表示球坐标系,但是也可使用适合于描述3D的弯曲表面的其他曲面线性坐标系。
在渲染期间,将仅播出与视场(FOV)208对应的视频数据的部分。为此,视频帧在空间上分成层块,并且单独层块的视频数据被处理并且存储在独立文件中,使得它们能够由客户端单独访问和请求。下面更详细描述与平铺全向内容的创建和回放有关的实施例。
图3A-3B示出按照本发明的各个实施例、用于平铺全向视频的生成和播出的流程。图3A示出平铺全向视频的生成。在第一步骤302,可捕获全向视频数据,其中所捕获视频数据是3D空间中的查看取向的函数。此后,图像可处理为2D矩形视频帧(步骤304),其中像素表示立方图中的像素的等正交投影。这种视频帧可称作等正交视频帧。在一些实施例中,全向视频可捕获为不同质量,例如SD、HD、UHD以及更高。
等正交视频帧可在空间上分为层块(步骤306),使得每个层块表示弯曲(例如球形)表面的区域,其由视频处理装置用来显示全向视频数据。每个层块可与能够根据3D坐标系(例如球坐标系)所表达的弯曲表面上的层块位置关联。视频帧中的层块与球形表面上的区域之间的关系按照所使用的映射来确定(如参照图2C所述)。
平铺过程可包括从等正交视频帧中裁剪区域的视频数据(像素)。这种区域可称作视频层块或者简称为层块。对等正交视频帧序列中的相同区域重复进行裁剪过程产生层块系列。这些层块的视频日期可使用任何已知编解码器(例如AVC、SVC、HEVC、VP9等)来编码并且存储到视频层块文件中。对来自视频帧的等正交视频帧中的不同区域应用这个过程产生视频层块文件集合,其能够单独被访问并且作为一个或多个层块流来流播到客户端装置(步骤308)。因此,层块流包含具有图像视图的视频帧(视频层块或者简称为层块),由此不同层块流的视频帧的图像视图覆盖全向视频的2D投影的不同区域。
此外,这个内容生成过程可对相同全向视频的不同质量重复进行,使得生成不同层块和不同视频质量的视频层块文件。类似地,这个内容生成过程(步骤304和306)可重复进行,以生成不同2D投影(例如立方体或圆柱2D投影)。
在另一实施例中,可使用不同平铺网格。例如,大层块可用于流播低质量视频,而小层块(具有小粒度的层块网格)可用于流播高质量视频。类似地,取决于应用,层块网格中的层块的大小可有所不同。作为替代和/或补充,不同平铺网格可基于相同内容来生成。
在实施例中,可使用基于HTTP的流播协议(例如MPEG DASH)。在那种情况下,视频层块文件可在时间上分割成预定时长(通常为2-10秒)的短段文件。
在视频层块文件的生成中,生成所谓的空间清单文件。清单文件可在视频处理装置中包含客户端装置的元数据,其使视频处理装置能够请求层块流以及处理层块流中的视频数据。为此,清单文件可包含用于识别请求层块流的网络地址的层块标识符(例如URL)。在一些实施例中,层块标识符与质量信息关联,使得客户端装置能够从不同视频质量进行选择。
此外,清单文件可包含用于向客户端装置发信号通知关于层块之间存在的空间关系的空间关系信息。为此,层块标识符可与定义弯曲(例如球形)表面的区域(其由视频处理装置用来显示全向视频)的坐标关联。此外,清单文件可包含映射信息,即,客户端装置为了显示所选视频层块的视频数据所需的信息。映射信息可例如包含用于生成平铺全向视频内容的映射的类型的标识符。
在MPEG DASH的情况下,清单文件(在DASH中称作媒体呈现描述(MPD)可包含空间关系描述符(SRD)。在实施例中,SRD可扩展到向DASH客户端发信号通知关于基于3D坐标系(其用来描述用来显示全向视频的弯曲表面(对其建模))来描述层块的位置的空间关系信息。在另一个实施例中,SRD可配置成向DASH客户端发信号通知关于用于生成平铺全向视频内容的映射的类型。下面更详细描述这类SRD的示例。
在清单文件中标识的平铺全向视频还可与非平铺全向视频结合使用。例如,在实施例中,在清单文件中标识的层块流可涉及全向视频的中等和高质量表示,而全向视频的非平铺版本可涉及低分辨率版本。这样,只有相关高分辨率层块流(即,携带FOV的中心部分的视频数据的层块流)被传送给客户端装置。
图3B示出由客户端装置来处理平铺全向视频的流程图。该过程可开始于客户端装置接收清单文件(其中标识层块流),其中层块具有可基于3D坐标系(其用来描述用来显示全向视频的表面)来定义的空间关系。清单文件还可包含映射信息,以便向客户端装置发信号通知关于用来生成全向视频数据的映射的类型(步骤320)。
客户端装置可包括来自视频处理装置的视点。视点可根据3D坐标系(其用来描述用来显示全向视频的表面)中的查看方向来定义。基于所接收视点,客户端装置可确定当前FOV。此后,它可使用清单文件中的信息来选择至少部分覆盖定义当前FOV的弯曲表面上的区域的一个或多个相邻层块(步骤322)。
此后,客户端装置可通过向一个或多个网络节点(其配置成向客户端装置输送(传送)所请求层块流)发送一个或多个HTTP消息基于层块标识符(例如URL)来请求所选层块。
在实施例中,客户端装置可基于FOV中的层块的位置来选择层块的视频质量。例如,当层块的一大部分位于FOV的中心部分中(即,视点的某个距离之内)时,客户端装置可选择高质量层块。当层块的一大部分位于FOV的周边部分中(FOV的中心部分外部)时,客户端装置可选择具有比对于FOV的中心部分所选的层块的视频质量要低的质量(例如中等或低质量)的层块。
一旦接收视频流,层块的视频数据可解码为视频帧。此外,客户端装置可向全向视频渲染引擎发信号通知关于用来生成全向视频的映射的类型。基于这个信息,渲染引擎可自行配置成使得它能够将视频渲染到弯曲表面上(步骤324)。在一些实施例中,客户端装置可使用映射信息中的映射参数。
表示由客户端装置所选的层块的视频帧可使用清单文件中的空间关系信息共同拼接为单个视频帧(步骤326)。拼接视频帧然后可提供给渲染引擎,以便将视频数据投影到弯曲表面(其用来显示全向视频)(步骤328)。投影步骤可包括将2D投影视频数据重新映射到弯曲表面。这可包括使视频数据经过一个或多个数学图像处理操作。
因此,本公开中描述的平铺全向视频允许表示观察者的FOV的一个或多个视频层块的快速选择。快速选择基于如下事实:层块与空间关系信息(其基于用来描述用来显示全向视频的表面的3D坐标系)关联。这样,3D空间中的观察者的FOV能够直接链接到构建FOV的层块。
此外,映射信息允许不同类型的全向视频的灵活使用,因为映射信息通知渲染引擎关于生成全向视频时使用的映射的类型,并且为渲染引擎提供映射参数,使得渲染引擎能够将内容正确投影到符合所使用的映射的弯曲表面。
在MPEG DASH中,SRD可用来发信号通知关于层块与映射信息之间的空间关系。SRD允许将流分成不同空间子部分(层块),因而对客户端给予仅流播用户感兴趣的子部分的可能性。在VR中,用户将在任何时刻仅对通过使用中的VR头戴式眼镜(其当前为大约100度)以及最终通过肉眼视觉(总共270度)的FOV所限制的360度流的小子集感兴趣。
此外,这个FOV中,只有焦点对准的中心部分可需要最高质量,而FOV的周边部分可提供有更低质量流。因此,通过产生全向内容的不同质量层,并且通过将每个质量层分成空间子部分(层块),流播客户端得到下载不同质量的不同空间子部分并且在使带宽使用为最小的同时为用户提供高质量体验的灵活性。
例如,如果全向内容通过三个质量层来提供,则客户端可能以最高质量来流播用户FOV的中心部分,以中间等级来流播视场的外围部分,以及以最低质量来流播全360度视频。以最低质量来流播全360度对于避免用户改变其视点时的“黑屏”效应能够是有用的,因为仍然将存在对其显示的内容。
扩展SRD提供与互通性有关的优点。实际上,全向流可同时使用不同2D映射来提供,以及SRD的source_id参数能够向客户端指示全部那些流涉及相同内容。因此,客户端可选择能够在客户端最佳渲染的格式。还有可能为不支持全向内容的客户端提供相同内容的非全向版本,并且通过使用source_id的相同值将它与全向内容相关。
从MPEG DASH标准已知的SRD仅描述适合于2D内容的SRD。不同空间子部分通过它们在2维空间上占用的位置和大小来识别。这种方式预计用于2维视频内容。但是,如上面已经详细描述,对于全向视频,取决于使用,表示比特流中的这种360度视频(的空间子部分)的不同方法存在。例如,等正交条带化球面方案、圆柱方案或者表示凸多面体/凸面体(例如立方体或金字塔)的方案是已知的。
虚拟现实视频处理装置配置成渲染与特定视点(即,与表示观众正观看的方向的弯曲表面上的点对应的视点)对应的全向视频的部分。因此,有利的是,特定子部分(层块)的空间位置和大小相对弯曲表面(例如球形)(其用来向用户显示全向视频的FOV部分)上的真实表示来描述。
因此,在实施例中,引入新SRD参数(称作“space”),其配置成向客户端发信号通知关于全向视频表示的类型。这个参数还可暗示或者关联一个或多个参数(其进一步表征特定全向视频表示)。例如,在实施例中,圆柱空间可在SRD中采用如空间=“圆柱”以及表征圆柱(其可具有某个例如高度=150)的附加SRD参数来签署。
在另一实施例中,SRD中的参数object_x和object_y可定义空间子部分的中心位置(如与其中表示所述子部分的左上角的位置的常规SRD相反)。此外,object_x和object_y可分别标识偏航和螺距角。偏航角的范围可从0至360,其中0=北,90=东,180=南,并且270=西,以及螺距角的范围可从-90°(天底)至+90°(天顶)。
按照本发明的扩展SRD提供与VR渲染系统的改进接口,由此允许客户端装置有效地处理用户视点,其对全向视频的基于视点的渲染是重要的。因此,以此为基础的层块流选择方法将允许需要流播到客户端装置的子部分(层块)的更快选择,这是提供更低等待时间并且因此提供良好体验质量必不可少的。
SRD参数object_width和object_height可根据360度表面上的对象的角长度来表示层块的宽度和高度。具体来说,对象的宽度通过对经过对象中心的平行线所测量的宽度的弧度来表示,以及高度通过对经过对象中心的子午线所测量的高度的弧度来表示,例如图2B所示。
此外,在VR应用中,视频内容在用户眼睛前面不断显示。但是,众所周知的是,外围人类视觉对高频率(细微细节)不敏感。因此,在其他实施例中,本公开中的平铺方案可鉴于肉眼的FOV来优化。因此,组成用户FOV的中心的区域可基于高质量视频来显示,而与外围视图对应的区域可通过标准质量来提供,因而节省带宽。
图4示出按照本发明的实施例、用于平铺全向视频的客户端装置的视场。图4示出沿弯曲表面402(其用来显示基于等正交映射的全向内容)的方向注视的用户的视点。在这里,FOV 404定义对视图显示的内容的部分以及没有对视图显示的内容406的部分。FOV进一步分成中心FOV 408和外围FOV 410。在FOV的中心部分中,可显示高质量内容,而在外围,可选择更低质量。
中心和外围的维度可基于人类FOV和带宽考虑因素来确定或选择。可考虑中心和周边FOV的不同要求(在层块大小和视频质量方面)来生成平铺视频内容,并且这个信息的至少部分可经由清单文件向客户端装置发信号通知。视频处理装置中的客户端装置随后可使用清单文件基于中心和周边FOV来选择不同视频层块。
下面描述基于不同映射(通过不同2D投影所表示)所生成的全向视频的不同示例。
下面在图5A-5D和图6中提供等正交2D投影的示例。在等正交2D投影中,全向内容在比特流中表示为矩形。经度映射到水平坐标,以及纬度映射到垂直坐标。等正交2D投影是配备有鱼眼透镜的旋转(扫描)全景照相装置的缺省输出格式,并且当前是用于全向视频的最常见格式之一。
图5A-5D示出能够采用客户端装置所请求的不同平铺布置。这种平铺布置可称作全向视频的平铺表示。不同平铺表示可与不同视频质量相关。平铺表示可包括如图5A所示的非平铺低分辨率视频表示以及如图5B所示的平铺高分辨率表示。高分辨率表示可用于显示FOV的中心部分的内容。为了向用户分发全向内容,客户端可请求非平铺最低分辨率层以覆盖整个全景视图以及最高分辨率层(表示FOV的中心)的层块9和10。另外,客户端装置可对外围FOV选择中等分辨率层的四个层块,即,如图5D所示的水平平铺中等分辨率层的层块5和14以及如图5C所示的垂直平铺中等分辨率层的层块12和16。
所产生FOV在图6中示出,图6示出按照本发明的实施例、包含平铺视频全向视频的视频帧。
如图6所示,FOV的中心部分以极高质量来输送,以及质量朝FOV的边缘减少。为了使在边界突然改变分辨率的层块的所感知效应为最小,可使用重叠层块。在那种情况下,在FOV的中心的高分辨率层块与进入外围的中等分辨率层块重叠。
客户端装置可使用过滤器,其中高分辨率层块可在边界逐渐缩放以便与中等分辨率层块合并,以及在适用时,中等分辨率层块可在边界逐渐缩放以便与低分辨率背景合并。
在另一实施例中,非平铺和平铺视频表示可基于如从H.264/MPEG-4 AVC视频压缩标准的附录G扩展已知的可缩放视频编码(SVC)来编码。因此,在那种情况下,非平铺低分辨率层可格式化为SVC基层,而平铺中等和高分辨率表示可格式化为SVC增强层。
可由客户端装置用来选择和请求图6所示层块的DASH MPD在表1中提供:
表1:支持平铺全向视频的SRD扩展的MPD的示例
上述MPD包括新schemeIdUri"urn:mpeg:dash:srd:vr:2016”,以用于向客户端装置发信号通知关于网络支持扩展SRD(其适合于描述空间平铺全向视频)。此外,MPD在EssentialProperty和SupplementalProperty的值字段的第二位置(在source_id参数之后)包含附加SRD参数“space”。这个参数(其作为映射信息的部分)可向客户端装置发信号通知关于用于清单文件中标识的全向视频的2D投影的类型。例如,空间参数可具有值“0”,以用于向客户端装置发信号通知关于全向视频通过等正交2D投影来表示。由于等正交2D投影不要求附加参数对它进行表征,所以值字段中的后续SRD参数为object_x、object_y、object_width、object_height、total_width、total_height、spatial_set_id(其是基于如上所述新功能描述可再使用的标准SRD参数)。
下面参照图7-11来描述圆柱2D投影的示例。图7示出圆柱表示空间,其中螺距角702 -θ与+θ角之间包含的球形704的部分通过等正交投影706来表示,而北极708和南极710表示为圆投影712、714。
图8示出按照本发明的另一个实施例、用于平铺全向视频的客户端装置的视场。具体来说,图8示出沿弯曲表面(其用来显示基于圆柱映射的全向内容)的方向注视的用户的视点和FOV。在这里,FOV 802定义对视图显示的内容的部分,以及8061-3定义没有对视图显示的内容的部分。FOV进一步分成中心FOV 808和外围FOV 810。在FOV的中心部分中,可显示高质量内容,而在外围,可选择更低质量(例如标准质量)。
下面在图9A-9D和图10中提供圆柱2D投影的示例。在圆柱2D投影中,全向内容在比特流中表示为等正交投影和圆投影的组合。
图9A-9D中的不同平铺表示可与不同视频质量相关。平铺表示可包括如图9A所示的非平铺低分辨率视频表示以及如图9B所示的平铺高分辨率表示。
高分辨率表示可用于显示FOV的中心部分的内容。为了向用户分发全向内容,客户端装置可请求最低分辨率层的单个层块以覆盖整个全景视图以及FOV的中心部分的最高分辨率层的层块3。此外,多个中等分辨率类型层块可用于外围FOV。例如,水平平铺中等分辨率层的层块5和13(图9C)和垂直平铺中等分辨率层的层块4、7和17(图9D)。
所产生FOV在图10中示出,图10示出按照本发明的实施例、包含平铺全向视频的视频帧。与参照图6所述的等正交相似,FOV的中心部分基于高质量内容来实现,以及质量沿FOV的边界的方向降低。又在这种情况下,可执行在更高分辨率层块与更低分辨率层块之间的边界的平滑,以便使在边界突然改变分辨率的层块的所感知效应为最小。
可由客户端装置用来选择和请求图10所示层块的DASH MPD在表2中提供:
表2:支持平铺全向视频的SRD扩展的MPD的示例
在这个MPD中,提供在EssentialProperty和SupplementalProperty的值字段的第二位置(在source_id参数之后)的两个附加SRD参数。第一参数是用于向客户端装置发信号通知关于2D投影的“space”参数。第二参数与特定2D投影(在这个具体示例中为表征圆柱的高度的圆柱2D投影)关联。
例如,空间参数可具有值“1”,以用于向客户端装置发信号通知关于全向视频基于圆柱2D投影。值字段中的后续参数可以为object_x、object_y、object_width、object_height、total_width、total_height、spatial_set_id(其是基于如上所述新功能描述可再使用的标准SRD参数)。
圆柱的高度无需被发信号通知:从在MPD中指示圆柱的极和矩形部分的方式,有可能推断其形式和大小,而无需附加高度参数。但是,在另一个实施例中,圆柱的高度可被发信号通知,以便使它对客户端装置是显式的。
在上述示例中,在SupplementalProperty或EssentialProperty的值字段中报告SRD参数。但是,在其他实施例中,这些参数可作为SupplementalProperty或EssentialProperty内的独立字段或者甚至作为其补充来列示。
在另一实施例中,不是矩形层块,而是可使用其他形状(例如球面层块)。球面层块仅要求一个参数来指示层块的大小(即,其半径)。
对于虚拟现实,等待时间的减少极为重要。因此,在一些实施例中,可期望降低客户端装置侧的数据处理,具体来说是其中客户端装置必须选择匹配FOV的层块的过程。
因此,备选方式是使客户端使用适当协议(例如Quick UDP因特网连接(QUIC)协议)向服务器仅发送用户视点和FOV的细节(视点的螺距和偏航以及FOV的大小)以便更进一步节省等待时间的方式。服务器可使用平铺方案(例如HEVC平铺方案),以便将全向内容分成层块流。然后在客户端请求时,服务器可向客户端装置发送最适合层块。
图11示出按照本发明的实施例、适合于处理空间平铺全向视频的视频处理装置。具体来说,图11示出视频处理装置1100,其包括:客户端装置1102,用于选择和检索内容,包含平铺和非平铺全向视频数据;媒体引擎1104,包括一个或多个解码器1122、1124,用于对基本和增强层块流的媒体进行解码;以及渲染引擎1106,包括用于缓冲从渲染引擎始发的视频帧的一个或多个视频帧缓冲器、用于在空间上布置层块的视频帧并且将视频帧拼接为一个视频帧的图像处理器1132以及配置成将视频帧的视频数据投影到弯曲(例如球形)表面(其用于向用户显示内容)上的3D投影模块。3D投影模块可配置成基于映射信息将视频帧的视频数据投影到弯曲(例如球形)表面。
如图11所示,客户端装置可配置成接收一个或多个清单文件1108,并且在存储器中存储清单文件。清单文件解析器1110可解析和分析清单文件,并且向内容选择模块1118提供关于平铺全向视频(即,层块流)的信息。内容选择模块可适合接收关于视频处理装置的用户的视点的信息。视点可由视点引擎1136连续更新,并且提供给客户端装置。
内容选择模块可使用关于视点的信息(即,视点的坐标)和空间关系信息(如基于清单文件中的空间关系描述符(SRD)所指定)来选择一个或多个层块流。
内容选择模块可将关于所选层块流的信息(具体来说是关于所选层块流的URL)转发到内容检索模块,其可配置成向一个或多个网络节点传送请求消息,并且接收包含所请求层块流的部分的响应消息。在实施例中,客户端装置可包括HTTP客户端,以用于向HTTP媒体服务器传送HTTP请求消息并且用于接收包含所请求媒体流的媒体数据的HTTP响应消息。
内容检索模块还可包括一个或多个缓冲器,以用于接收所请求媒体数据,并且准备媒体数据以供输入到媒体引擎1104。
图12是示出可如本公开所述来使用的示范数据处理系统的框图。数据处理系统1200可包括至少一个处理器1202,其经过系统总线1206来耦合到存储器元件1204。因此,数据处理系统可在存储器元件1204内存储程序代码。此外,处理器1202可运行经由系统总线1206从存储器元件1204所访问的程序代码。在一个方面,数据处理系统可实现为计算机,其适合于存储和/或运行程序代码。但是应当理解,数据处理系统1300可采取能够执行本说明书内所述功能的任何系统(其包括处理器和存储器)的形式来实现。
存储器元件1204可包括一个或多个物理存储器装置(例如本地存储器1208)和一个或多个大容量存储装置1210。本地存储器可表示一般在程序代码的实际执行期间所使用的随机存取存储器或另一(其他)非永久存储器装置。大容量存储装置可实现为硬盘驱动器或另一永久数据存储装置。处理系统1200还可包括一个或多个高速缓冲存储器(未示出),其提供至少某个程序代码的暂时存储,以便减少在执行期间必须从大容量存储装置1210来检索程序代码的次数。
示为输入装置1212和输出装置1214的输入/输出(I/O)装置可选地能够耦合到数据处理系统。输入装置的示例可包括但不限于例如位置跟踪器、键盘、指针装置(例如鼠标)、触摸屏等。输出装置的示例可包括但不限于例如监视器或(头戴式)显示器、喇叭等。输入装置和/或输出装置可直接地或者经由中间I/O控制器来耦合到数据处理系统。网络适配器1216还可耦合到数据处理系统,以便使它能够经过中间专用或公共网络被耦合到其他系统、计算机系统、远程网络装置和/或远程存储装置。网络适配器可包括:数据接收器,用于接收由所述系统、装置和/或网络传送给所述数据的数据;以及数据发射器,用于向所述系统、装置和/或网络传送数据。调制解调器、电缆调制解调器和以太网卡是可与数据处理系统1250配合使用的网络适配器的不同类型的示例。
如图12所示,存储器元件1204可存储应用1218。应当理解,数据处理系统1200还可运行操作系统(未示出),其能够促进应用的执行。采取可执行程序代码的形式所实现的应用能够由数据处理系统1200(例如由处理器1202)来运行。响应运行应用,数据处理系统可配置成执行本文更详细描述的一个或多个操作。
例如,在一个方面,数据处理系统1200可表示客户端数据处理系统。在那种情况下,应用1218可表示客户端应用,其在被运行时将数据处理系统1300配置成执行本文参照“客户端”所述的各种功能。客户端的示例能够包括但不限于个人计算机、便携计算机、移动电话等。
在另一方面,数据处理系统可表示服务器。例如,数据处理系统可表示(HTT)服务器,在这种情况下,应用1218在被运行时可将数据处理系统配置成执行(HTTP)服务器操作。在另一方面,数据处理系统可表示如本说明书中所述的模块、单元或功能。
本文所使用的术语只是为了便于描述具体实施例,而不是意在限制本发明。如本文所使用的单数形式“一个”和“该”预计也包含复数形式,除非上下文另加明确说明。还将会理解,在本说明书中使用时,术语“包括”和/或“包含”指定存在所述征、整数、步骤、操作、元件和/或组件,但并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或上述各项的编组。
以下权利要求书中的所有部件或步骤加上功能元件的对应结构、材料、动作和等效体预计包括具体要求保护的用于与其他要求保护的元件结合执行功能的任何结构、材料或动作。本发明的描述是为了便于说明和描述而提供的,而并不意在是详尽的或者局限于所公开形式的本发明。许多修改和变更将是本领域的技术人员显而易见的,而没有背离本发明的范围和精神。选择和描述了实施例,以便最好地说明本发明的原理和实际应用,并且使本领域的技术人员能够以适合所考虑的具体使用的各种修改来理解本发明的各个实施例。
Claims (15)
1.一种由客户端装置来处理全向视频的方法,所述全向视频与3D坐标系关联,所述3D坐标系用于确定弯曲表面、优选地为球形上的所述全向视频的视频数据的空间位置,所述方法包括:
优选地由所述客户端装置接收清单文件,所述清单文件包含用于识别多个层块流的多个层块流标识符,所述层块流包含具有2D投影视频数据的视频帧,所述视频帧具有图像视图,由此不同层块流的视频帧的所述图像视图覆盖所述全向视频的2D投影的不同区域,区域定义层块;
优选地由客户端装置基于所述清单文件中的空间关系信息并且基于所述客户端装置的用户的视点来选择与第一分辨率和第一层块位置关联的第一层块流以及与第二分辨率和第二层块位置关联的第二层块流,所述第二分辨率低于所述第一分辨率,其中所述空间关系信息对每个层块定义所述层块位置,并且其中所述视点定义所述用户的查看方向,所述层块位置和所述视点基于所述3D坐标系的坐标来定义。
2. 如权利要求1所述的方法,还包括:
优选地由所述客户端装置向一个或多个层块流存储装置、优选地为一个或多个网络节点请求所述所选一个或多个层块流;以及
接收所述一个或多个所选层块流的所述视频数据,并且接收映射信息,所述映射信息的至少部分优选地在所述清单文件中向所述客户端装置发信号通知,所述映射信息为所述客户端装置提供用于使所述客户端装置能够将作为全向视频数据的所述层块流的所述2D投影视频数据映射到所述弯曲表面上的信息;
基于所述空间关系信息和所述映射信息来处理所述所接收层块流的所述视频数据。
3.如权利要求2所述的方法,其中,所述映射信息包含用于将所述全向视频数据投影到平面表面上的2D投影的所述类型的指示以及可选的用于将所述2D投影视频数据映射到所述弯曲表面上所需的一个或多个参数。
4. 如权利要求1-3中的任一项所述的方法,其中,所述视点与所述用户的视场关联,所述视点优选地定义所述用户的视场的中心点,所述选择包括:
对位于所述视场的中心部分的至少部分中的层块位置来选择高分辨率层块流;以及
对位于所述视场的外围部分的至少部分中的层块位置来选择比所述高分辨率要低的分辨率的层块流。
5.如权利要求2-4中的任一项所述的方法,其中,对所述视频数据的所述处理还包括:
将所述所接收层块流的所述视频数据解码为表示层块的视频帧;
在空间上布置与一个时刻关联的所述层块的所述视频帧,并且将所述视频帧拼接为一个视频帧;以及
基于所述映射信息将作为全向视频数据的所述视频帧的2D投影视频数据映射到所述弯曲表面上。
6. 如权利要求2-5中的任一项所述的方法,其中,所述所选一个或多个层块流的请求和接收基于HTTP自适应流播协议、优选地为MPEG DASH流播协议或者其派生。
7.如权利要求1-6中的任一项所述的方法,其中,所述清单文件还定义层块流的一个或多个表示,所述一个或多个表示优选地包括一个或多个分辨率表示和/或一个或多个平铺表示。
8.如权利要求1-7中的任一项所述的方法,其中,所述清单文件包括一个或多个空间关系描述符(SRD),空间关系描述符包含用于基于所述3D坐标系的坐标来定义所述层块的所述层块位置和维度的一个或多个SRD参数。
9.如权利要求8所述的方法,其中,所述一个或多个空间关系描述符(SRD)还包含用于发信号通知关于用于将所述全向视频数据投影到平面表面上的2D投影的类型的一个或多个SRD参数,所述2D投影的类型优选地是包括等正交投影、立方体投影、圆柱投影或者其派生和/或组合其中之一的2D投影的类型。
10. 一种用于处理全向视频的客户端装置,所述全向视频与3D坐标系关联,所述3D坐标系用于确定弯曲表面上的所述全向视频的视频数据的空间位置,所述客户端装置包括:
包含有程序的至少部分的计算机可读存储介质,所述计算机可读存储介质包含清单文件;以及
计算机可读存储介质,包含有计算机可读程序代码;以及处理器,优选地为微处理器,耦合到所述计算机可读存储介质,其中响应运行所述计算机可读程序代码,所述处理器配置成执行包括下列步骤的可执行操作:
接收清单文件,所述清单文件包含用于识别多个层块流的多个层块流标识符,所述层块流包含具有2D投影视频数据的视频帧,所述视频帧具有图像视图,由此不同层块流的视频帧的所述图像视图覆盖所述全向视频的2D投影的不同区域,区域定义层块;以及
基于所述清单文件中的空间关系信息并且基于所述客户端装置的用户的视点来选择与第一分辨率和第一层块位置关联的第一层块流以及与第二分辨率和第二层块位置关联的第二层块流,所述第二分辨率低于所述第一分辨率,其中所述空间关系信息对每个层块定义所述层块位置,并且所述视点定义所述用户的查看方向,所述层块位置和所述视点基于所述3D坐标系的坐标来定义。
11. 如权利要求10所述的客户端装置,其中,所述可执行操作还包括:
向一个或多个层块流存储装置、优选地为一个或多个网络节点请求所述所选一个或多个层块流;以及
接收所述一个或多个所选层块流的所述视频数据,并且接收映射信息,所述映射信息的至少部分优选地在所述清单文件中向所述客户端装置发信号通知,所述映射信息为所述客户端装置提供用于使所述客户端装置能够将作为全向视频数据的所述层块流的所述2D投影视频数据映射到所述弯曲表面上的信息;
基于所述空间关系信息和所述映射信息来处理所述所接收层块流的所述视频数据。
12.如权利要求10或11所述的客户端装置,其中,所述清单文件包含一个或多个空间关系描述符(SRD),所述空间关系描述符包含用于基于所述3D坐标系的坐标来定义所述层块的所述层块位置和维度的一个或多个SRD参数;所述一个或多个空间关系描述符可选地还包含用于发信号通知关于用于将所述全向视频数据投影到平面表面上的2D投影的类型的一个或多个SRD参数,所述2D投影的类型优选地是包括等正交投影、立方体投影、圆柱投影或者其派生和/或组合其中之一的2D投影的类型。
13.一种用于存储客户端装置的清单文件的非暂时计算机可读存储介质,所述客户端装置配置成基于所述清单文件来处理全向视频,所述全向视频与3D坐标系关联,所述3D坐标系用于确定弯曲表面、优选地为球形上的所述全向视频的视频数据的空间位置,所述清单文件包含计算机可读数据,所述数据包含:
用于识别多个层块流的多个层块流标识符,所述层块流包含具有2D投影视频数据的视频帧,所述视频帧具有图像视图,由此不同层块流的视频帧的所述图像视图覆盖所述全向视频的2D投影的不同区域,区域定义层块;
空间关系信息,所述空间关系信息对每个层块定义层块位置,所述层块位置和所述视点基于所述3D坐标系的坐标来定义;以及
映射信息,用于为所述客户端装置提供用于使所述客户端装置能够将所述清单文件中标识的所述层块流的所述2D投影视频数据作为全向视频数据来映射到所述弯曲表面上的信息。
14.如权利要求13所述的非暂时计算机可读存储介质,其中,所述计算机可读数据还包含:
一个或多个空间关系描述符(SRD),所述空间关系描述符包含用于基于所述3D坐标系的坐标来定义所述层块的所述层块位置和维度的一个或多个SRD参数;和/或用于发信号通知关于用于将所述全向视频数据投影到平面表面上的2D投影的类型的一个或多个SRD参数,所述2D投影的类型优选地是包括等正交投影、立方体投影、圆柱投影或者其派生和/或组合其中之一的2D投影的类型。
15.计算机程序产品,包含软件代码部分,配置用于在计算机的存储器中运行时运行如权利要求1-9中的任一项所述的方法步骤。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP16001189 | 2016-05-25 | ||
EP16001189.6 | 2016-05-25 | ||
EP16172029 | 2016-05-30 | ||
EP16172029.7 | 2016-05-30 | ||
PCT/EP2017/062517 WO2017202899A1 (en) | 2016-05-25 | 2017-05-24 | Spatially tiled omnidirectional video streaming |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109565610A true CN109565610A (zh) | 2019-04-02 |
CN109565610B CN109565610B (zh) | 2021-03-30 |
Family
ID=58994908
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780046501.5A Active CN109565610B (zh) | 2016-05-25 | 2017-05-24 | 处理全向视频的方法、装置以及存储介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11284124B2 (zh) |
EP (1) | EP3466083B1 (zh) |
JP (1) | JP7022077B2 (zh) |
CN (1) | CN109565610B (zh) |
WO (1) | WO2017202899A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111083523A (zh) * | 2019-12-04 | 2020-04-28 | 聚好看科技股份有限公司 | 一种全景视频播放的方法及终端 |
CN112788317A (zh) * | 2020-12-30 | 2021-05-11 | 惠州Tcl移动通信有限公司 | 一种播放全景视频的方法、系统、存储介质及播放设备 |
CN113766271A (zh) * | 2020-06-04 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 一种沉浸媒体的数据处理方法 |
CN113994707A (zh) * | 2019-07-05 | 2022-01-28 | 蒂莱德梅迪亚有限责任公司 | 用于在显示器上渲染视频的方法和设备 |
WO2023236732A1 (zh) * | 2022-06-10 | 2023-12-14 | 中兴通讯股份有限公司 | 媒体信息处理方法、媒体信息播放方法、装置及存储介质 |
Families Citing this family (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109792563B (zh) | 2016-10-12 | 2022-01-25 | 皇家Kpn公司 | 基于感兴趣区域处理球面视频数据 |
US11290699B2 (en) * | 2016-12-19 | 2022-03-29 | Dolby Laboratories Licensing Corporation | View direction based multilevel low bandwidth techniques to support individual user experiences of omnidirectional video |
US10742999B2 (en) * | 2017-01-06 | 2020-08-11 | Mediatek Inc. | Methods and apparatus for signaling viewports and regions of interest |
CN108632674B (zh) * | 2017-03-23 | 2021-09-21 | 华为技术有限公司 | 一种全景视频的播放方法和客户端 |
US20180310040A1 (en) * | 2017-04-21 | 2018-10-25 | Nokia Technologies Oy | Method and apparatus for view dependent delivery of tile-based video content |
GB2563387B (en) * | 2017-06-09 | 2020-04-15 | Sony Interactive Entertainment Inc | Image processing device and system |
US10818087B2 (en) * | 2017-10-02 | 2020-10-27 | At&T Intellectual Property I, L.P. | Selective streaming of immersive video based on field-of-view prediction |
US11025919B2 (en) | 2017-10-03 | 2021-06-01 | Koninklijke Kpn N.V. | Client-based adaptive streaming of nonlinear media |
US11451838B2 (en) | 2017-12-07 | 2022-09-20 | Koninklijke Kpn N.V. | Method for adaptive streaming of media |
WO2019139099A1 (ja) * | 2018-01-12 | 2019-07-18 | ソニー株式会社 | 送信装置、送信方法、受信装置および受信方法 |
GB2570298A (en) | 2018-01-17 | 2019-07-24 | Nokia Technologies Oy | Providing virtual content based on user context |
JP7059662B2 (ja) * | 2018-02-02 | 2022-04-26 | トヨタ自動車株式会社 | 遠隔操作システム、及びその通信方法 |
JP7073128B2 (ja) * | 2018-02-08 | 2022-05-23 | キヤノン株式会社 | 通信装置、通信方法、及びプログラム |
EP3531703A1 (en) | 2018-02-26 | 2019-08-28 | Thomson Licensing | Method and network equipment for encoding an immersive video spatially tiled with a set of tiles |
CN108520492B (zh) * | 2018-03-16 | 2022-04-26 | 中国传媒大学 | 全景视频映射方法及系统 |
JP6859286B2 (ja) * | 2018-03-26 | 2021-04-14 | Kddi株式会社 | Vr映像配信装置および方法、vr映像再生装置および方法ならびにvr映像システム |
CN110519652B (zh) * | 2018-05-22 | 2021-05-18 | 华为软件技术有限公司 | Vr视频播放方法、终端及服务器 |
US10764494B2 (en) | 2018-05-25 | 2020-09-01 | Microsoft Technology Licensing, Llc | Adaptive panoramic video streaming using composite pictures |
US10666863B2 (en) * | 2018-05-25 | 2020-05-26 | Microsoft Technology Licensing, Llc | Adaptive panoramic video streaming using overlapping partitioned sections |
US10623736B2 (en) * | 2018-06-14 | 2020-04-14 | Telefonaktiebolaget Lm Ericsson (Publ) | Tile selection and bandwidth optimization for providing 360° immersive video |
JP2020005038A (ja) * | 2018-06-25 | 2020-01-09 | キヤノン株式会社 | 送信装置、送信方法、受信装置、受信方法、及び、プログラム |
EP3588965A1 (en) * | 2018-06-28 | 2020-01-01 | InterDigital CE Patent Holdings | Method configured to be implemented at a terminal adapted to receive an immersive video spatially tiled with a set of tiles, and corresponding terminal |
US11558708B2 (en) * | 2018-07-13 | 2023-01-17 | Nokia Technologies Oy | Multi-viewpoint multi-user audio user experience |
US11962819B2 (en) * | 2018-07-17 | 2024-04-16 | Dolby Laboratories Licensing Corporation | Foviation and HDR |
WO2020033455A1 (en) * | 2018-08-07 | 2020-02-13 | Core | Omnidirectional video streaming |
JP2020042064A (ja) * | 2018-09-06 | 2020-03-19 | キヤノン株式会社 | 表示制御装置、撮像装置、制御方法、プログラム、及び、記憶媒体 |
US11323754B2 (en) * | 2018-11-20 | 2022-05-03 | At&T Intellectual Property I, L.P. | Methods, devices, and systems for updating streaming panoramic video content due to a change in user viewpoint |
EP3712751A1 (en) * | 2019-03-19 | 2020-09-23 | Nokia Technologies Oy | Method and apparatus for incorporating location awareness in media content |
WO2020198164A1 (en) | 2019-03-26 | 2020-10-01 | Pcms Holdings, Inc. | System and method for multiplexed rendering of light fields |
US20220264080A1 (en) * | 2019-07-23 | 2022-08-18 | Pcms Holdings, Inc. | System and method for adaptive lenslet light field transmission and rendering |
US11481026B2 (en) | 2019-08-22 | 2022-10-25 | Samsung Electronics Co., Ltd. | Immersive device and method for streaming of immersive media |
CN110544316B (zh) * | 2019-09-06 | 2023-12-01 | 北京奇艺世纪科技有限公司 | 一种虚拟现实回放方法、系统、设备及存储介质 |
CN110636294B (zh) * | 2019-09-27 | 2024-04-09 | 腾讯科技(深圳)有限公司 | 视频解码方法及装置,视频编码方法及装置 |
US20210383590A1 (en) * | 2020-05-27 | 2021-12-09 | Nokia Technologies Oy | Offset Texture Layers for Encoding and Signaling Reflection and Refraction for Immersive Video and Related Methods for Multi-Layer Volumetric Video |
CN112163990B (zh) * | 2020-09-08 | 2022-10-25 | 上海交通大学 | 360度图像的显著性预测方法及系统 |
US11568574B1 (en) * | 2021-08-18 | 2023-01-31 | Varjo Technologies Oy | Foveation-based image encoding and decoding |
WO2024024472A1 (ja) * | 2022-07-28 | 2024-02-01 | ソニーグループ株式会社 | 情報処理装置および方法 |
CN116431875B (zh) * | 2023-06-12 | 2023-09-08 | 厦门精图信息技术有限公司 | 一种大数据可视化分析展示系统及方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1707354A (zh) * | 2004-12-17 | 2005-12-14 | 上海杰图软件技术有限公司 | 基于圆鱼眼或鼓形图像快速生成高清晰度全景的智能化方法 |
CN101146231A (zh) * | 2007-07-03 | 2008-03-19 | 浙江大学 | 根据多视角视频流生成全景视频的方法 |
CN102413376A (zh) * | 2010-09-22 | 2012-04-11 | 汤姆森特许公司 | 在全景场景中导航的方法 |
CN103295231A (zh) * | 2013-05-14 | 2013-09-11 | 杭州海康希牧智能科技有限公司 | 一种鱼眼图像拼接中鱼眼镜头垂直映射图像几何校正方法 |
FR2988964A1 (fr) * | 2012-03-30 | 2013-10-04 | France Telecom | Technique de distribution d'un contenu video de type immersif |
US20130335458A1 (en) * | 2012-05-24 | 2013-12-19 | Junghoon Seo | Image projection module, mobile device including image projection module and method for operating the same |
CN103543831A (zh) * | 2013-10-25 | 2014-01-29 | 梁权富 | 头戴式全景播放装置 |
CN103918003A (zh) * | 2011-11-09 | 2014-07-09 | 索尼公司 | 图像处理装置、方法和程序 |
CN103945103A (zh) * | 2013-01-17 | 2014-07-23 | 成都国腾电子技术股份有限公司 | 基于柱面的多平面二次投影消除全景摄像机图像畸变的方法 |
CN103973944A (zh) * | 2013-02-06 | 2014-08-06 | 深圳市振华微电子有限公司 | 半球型全景成像装置及方法 |
WO2015060165A1 (ja) * | 2013-10-22 | 2015-04-30 | シャープ株式会社 | 表示処理装置、配信装置、および、メタデータ |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2908854A1 (en) * | 2013-04-08 | 2014-10-16 | Thomson Licensing | Device and method for adapting a manifest sent by at least one server |
WO2014178234A1 (ja) * | 2013-04-30 | 2014-11-06 | ソニー株式会社 | 画像処理装置、画像処理方法、及びプログラム |
RU2018135725A (ru) | 2013-07-19 | 2018-11-21 | Сони Корпорейшн | Устройство и способ обработки информации |
CN106233745B (zh) | 2013-07-29 | 2021-01-15 | 皇家Kpn公司 | 向客户端提供瓦片视频流 |
US10694192B2 (en) | 2014-06-27 | 2020-06-23 | Koninklijke Kpn N.V. | HEVC-tiled video streaming |
US10397666B2 (en) | 2014-06-27 | 2019-08-27 | Koninklijke Kpn N.V. | Determining a region of interest on the basis of a HEVC-tiled video stream |
US10204658B2 (en) * | 2014-07-14 | 2019-02-12 | Sony Interactive Entertainment Inc. | System and method for use in playing back panorama video content |
WO2016050283A1 (en) | 2014-09-30 | 2016-04-07 | Telefonaktiebolaget L M Ericsson (Publ) | Reduced bit rate immersive video |
GB2564731B (en) * | 2014-10-14 | 2019-05-29 | Canon Kk | Description of image composition with HEVC still image file format |
US20160353146A1 (en) | 2015-05-27 | 2016-12-01 | Google Inc. | Method and apparatus to reduce spherical video bandwidth to user headset |
CN105100759B (zh) | 2015-08-11 | 2017-07-07 | 润佳华晟投资集团有限公司 | 一种屏幕投影系统、方法及装置 |
US10360721B2 (en) | 2016-05-26 | 2019-07-23 | Mediatek Inc. | Method and apparatus for signaling region of interests |
CN109792563B (zh) | 2016-10-12 | 2022-01-25 | 皇家Kpn公司 | 基于感兴趣区域处理球面视频数据 |
-
2017
- 2017-05-24 JP JP2018562052A patent/JP7022077B2/ja active Active
- 2017-05-24 US US16/302,500 patent/US11284124B2/en active Active
- 2017-05-24 CN CN201780046501.5A patent/CN109565610B/zh active Active
- 2017-05-24 WO PCT/EP2017/062517 patent/WO2017202899A1/en unknown
- 2017-05-24 EP EP17727532.8A patent/EP3466083B1/en active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1707354A (zh) * | 2004-12-17 | 2005-12-14 | 上海杰图软件技术有限公司 | 基于圆鱼眼或鼓形图像快速生成高清晰度全景的智能化方法 |
CN101146231A (zh) * | 2007-07-03 | 2008-03-19 | 浙江大学 | 根据多视角视频流生成全景视频的方法 |
CN102413376A (zh) * | 2010-09-22 | 2012-04-11 | 汤姆森特许公司 | 在全景场景中导航的方法 |
CN103918003A (zh) * | 2011-11-09 | 2014-07-09 | 索尼公司 | 图像处理装置、方法和程序 |
FR2988964A1 (fr) * | 2012-03-30 | 2013-10-04 | France Telecom | Technique de distribution d'un contenu video de type immersif |
US20130335458A1 (en) * | 2012-05-24 | 2013-12-19 | Junghoon Seo | Image projection module, mobile device including image projection module and method for operating the same |
CN103945103A (zh) * | 2013-01-17 | 2014-07-23 | 成都国腾电子技术股份有限公司 | 基于柱面的多平面二次投影消除全景摄像机图像畸变的方法 |
CN103973944A (zh) * | 2013-02-06 | 2014-08-06 | 深圳市振华微电子有限公司 | 半球型全景成像装置及方法 |
CN103295231A (zh) * | 2013-05-14 | 2013-09-11 | 杭州海康希牧智能科技有限公司 | 一种鱼眼图像拼接中鱼眼镜头垂直映射图像几何校正方法 |
WO2015060165A1 (ja) * | 2013-10-22 | 2015-04-30 | シャープ株式会社 | 表示処理装置、配信装置、および、メタデータ |
CN103543831A (zh) * | 2013-10-25 | 2014-01-29 | 梁权富 | 头戴式全景播放装置 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113994707A (zh) * | 2019-07-05 | 2022-01-28 | 蒂莱德梅迪亚有限责任公司 | 用于在显示器上渲染视频的方法和设备 |
CN111083523A (zh) * | 2019-12-04 | 2020-04-28 | 聚好看科技股份有限公司 | 一种全景视频播放的方法及终端 |
CN113766271A (zh) * | 2020-06-04 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 一种沉浸媒体的数据处理方法 |
CN113766271B (zh) * | 2020-06-04 | 2022-07-12 | 腾讯科技(深圳)有限公司 | 一种沉浸媒体的数据处理方法、装置及设备 |
CN112788317A (zh) * | 2020-12-30 | 2021-05-11 | 惠州Tcl移动通信有限公司 | 一种播放全景视频的方法、系统、存储介质及播放设备 |
WO2022141781A1 (zh) * | 2020-12-30 | 2022-07-07 | 惠州Tcl移动通信有限公司 | 一种播放全景视频的方法、系统、存储介质及播放设备 |
WO2023236732A1 (zh) * | 2022-06-10 | 2023-12-14 | 中兴通讯股份有限公司 | 媒体信息处理方法、媒体信息播放方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
EP3466083B1 (en) | 2020-09-16 |
EP3466083A1 (en) | 2019-04-10 |
US20190174150A1 (en) | 2019-06-06 |
JP7022077B2 (ja) | 2022-02-17 |
JP2019526178A (ja) | 2019-09-12 |
WO2017202899A1 (en) | 2017-11-30 |
CN109565610B (zh) | 2021-03-30 |
US11284124B2 (en) | 2022-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109565610A (zh) | 空间平铺的全向视频流播 | |
US10805614B2 (en) | Processing spherical video data on the basis of a region of interest | |
TWI712313B (zh) | 感興趣區之發信號之系統及方法 | |
TWI740347B (zh) | 發信點雲多媒體資料的視埠以及興趣區域的方法及裝置 | |
US10742999B2 (en) | Methods and apparatus for signaling viewports and regions of interest | |
US20190373245A1 (en) | 360 video transmission method, 360 video reception method, 360 video transmission device, and 360 video reception device | |
TW201838407A (zh) | 適應性擾動立方體之地圖投影 | |
EP3782368A1 (en) | Processing video patches for three-dimensional content | |
WO2018068236A1 (zh) | 一种视频流传输方法、相关设备及系统 | |
JP2020529149A (ja) | イメージ処理方法、端末およびサーバ | |
CN114095737B (zh) | 媒体文件封装及解封装方法、装置、设备及存储介质 | |
WO2023029858A1 (zh) | 点云媒体文件的封装与解封装方法、装置及存储介质 | |
WO2023061131A1 (zh) | 媒体文件封装方法、装置、设备及存储介质 | |
CN115396645A (zh) | 一种沉浸媒体的数据处理方法、装置、设备及存储介质 | |
CN111726598B (zh) | 图像处理方法和装置 | |
WO2020107998A1 (zh) | 视频数据的处理方法、装置、相关设备及存储介质 | |
WO2023024841A1 (zh) | 点云媒体文件的封装与解封装方法、装置及存储介质 | |
WO2023024843A1 (zh) | 媒体文件封装与解封装方法、设备及存储介质 | |
WO2023024839A1 (zh) | 媒体文件封装与解封装方法、装置、设备及存储介质 | |
WO2023016293A1 (zh) | 自由视角视频的文件封装方法、装置、设备及存储介质 | |
US20230360678A1 (en) | Data processing method and storage medium | |
CN116137664A (zh) | 点云媒体文件封装方法、装置、设备及存储介质 | |
CN117082262A (zh) | 点云文件封装与解封装方法、装置、设备及存储介质 | |
WO2023194648A1 (en) | A method, an apparatus and a computer program product for media streaming of immersive media |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |