CN115315951A - 用于远程终端的沉浸式远程会议和远程呈现的比特流结构 - Google Patents
用于远程终端的沉浸式远程会议和远程呈现的比特流结构 Download PDFInfo
- Publication number
- CN115315951A CN115315951A CN202180022077.7A CN202180022077A CN115315951A CN 115315951 A CN115315951 A CN 115315951A CN 202180022077 A CN202180022077 A CN 202180022077A CN 115315951 A CN115315951 A CN 115315951A
- Authority
- CN
- China
- Prior art keywords
- viewport
- bitstream
- computer
- user
- margin
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 54
- 230000004886 head movement Effects 0.000 claims abstract description 20
- 238000004590 computer program Methods 0.000 claims abstract description 9
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 26
- 238000012545 processing Methods 0.000 description 14
- 230000015654 memory Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 230000001419 dependent effect Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 239000012634 fragment Substances 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000009877 rendering Methods 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 230000001934 delay Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 210000004247 hand Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013403 standard screening design Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/234345—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements the reformatting operation being performed only on part of the stream, e.g. a region of the image or a time segment
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/161—Encoding, multiplexing or demultiplexing different image signal components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/012—Head tracking input arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/10—Architectures or entities
- H04L65/1059—End-user terminal functionalities specially adapted for real-time communication
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/61—Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/65—Network streaming protocols, e.g. real-time transport protocol [RTP] or real-time control protocol [RTCP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/70—Media network packetisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
- H04L65/765—Media network packet handling intermediate
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/111—Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/111—Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
- H04N13/117—Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/194—Transmission of image signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/21805—Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/23439—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements for generating different versions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
- H04N21/44213—Monitoring of end-user related data
- H04N21/44218—Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/63—Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
- H04N21/643—Communication protocols
- H04N21/6437—Real-time Transport Protocol [RTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/816—Monomedia components thereof involving special video data, e.g 3D video
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Social Psychology (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
提供了一种用于对视口比特流进行编码的方法、计算机程序和计算机系统。基于与用户的头部移动对应的阈值对包含针对视口限定的片段尺寸的第一编码视频比特流进行编码。对具有低分辨率的第二编码视频比特流进行编码。第二编码视频比特流可以对应于包含恒定片段持续时间或尺寸的背景。使用第一编码视频比特流和第二编码比特流创建用于解码或呈现的流式传输比特流。
Description
相关申请的交叉引用
本申请要求基于(2020年11月9日提交的)美国临时申请第63/111,425号和(2021年6月29日提交的)美国申请第17/362,068号的优先权,上述申请的全部内容通过引用并入本文。
背景技术
本公开内容总体上涉及数据处理领域,并且更具体地涉及视频流式传输。
沉浸式视频流式传输涉及将“世界”或“全向的”视图从发送器传输至接收器,并且接收器将基于例如视口仅呈现接收到的世界视图的一部分。视口可以基于佩戴虚拟现实护目镜时头部移动的方向来选择。视口相关视频流式传输可以涉及以下技术:在所记录的覆盖“世界”视图的场景中,仅该视图的一部分正被传输并且基于用户已经选择的视口呈现给用户。
发明内容
实施方式涉及用于分割视口比特流的方法、系统和计算机可读介质。根据一个方面,提供了一种用于分割视口比特流的方法。该方法可以包括基于与用户的头部移动对应的阈值对包含针对视口限定的片段尺寸的第一编码视频比特流进行编码。对具有低分辨率的第二编码视频比特流进行编码。第二编码视频比特流可以对应于包含恒定片段持续时间或尺寸的背景。使用第一编码视频比特流和第二编码比特流创建用于解码或呈现的流式传输比特流。
根据另一个方面,提供了一种用于分割视口比特流的计算机系统。计算机系统可以包括一个或更多个处理器、一个或更多个计算机可读存储器、一个或更多个计算机可读有形存储设备以及经由一个或更多个存储器中的至少一个存储器存储在一个或更多个存储设备中的至少一个存储设备上的程序指令,所述程序指令用于由一个或更多个处理器中的至少一个处理器执行,由此计算机系统能够执行方法。该方法可以包括基于与用户的头部移动对应的阈值对包含针对视口限定的片段尺寸的第一编码视频比特流进行编码。对具有低分辨率的第二编码视频比特流进行编码。第二编码视频比特流可以对应于包含恒定片段持续时间或尺寸的背景。使用第一编码视频比特流和第二编码比特流创建用于解码或呈现的流式传输比特流。
根据又一个方面,提供了一种用于分割视口比特流的计算机可读介质。计算机可读介质可以包括一个或更多个计算机可读存储设备以及存储在一个或更多个有形存储设备中的至少一个有形存储设备上的程序指令,所述程序指令可由处理器执行。程序指令能够由处理器执行,以执行方法,该方法可以相应地包括基于与用户的头部移动对应的阈值对包含针对视口限定的片段尺寸的第一编码视频比特流进行编码。对具有低分辨率的第二编码视频比特流进行编码。第二编码视频比特流可以对应于包含恒定片段持续时间或尺寸的背景。使用第一编码视频比特流和第二编码比特流创建用于解码或呈现的流式传输比特流。
附图说明
根据下面将结合附图阅读的说明性实施方式的详细描述,这些和其他目的、特征和优点将变得明显。附图的各种特征不是按比例的,因为所述图示是为了便于本领域技术人员结合详细描述的理解而清楚起见。在附图中:
图1是根据至少一个实施方式的用于流式传输沉浸式视频的生态系统的示意图;
图2是根据至少一个实施方式的沉浸式视频的基于视口的流式传输工作流程的示意图;
图3是根据至少一个实施方式的包含帧边界的分片沉浸式视频比特流的示意图;
图4是根据至少一个实施方式的在包含帧边界的沉浸式比特流回放期间的视口更新的示意图;
图5是根据至少一个实施方式的包含帧边界的8K和2k沉浸式比特流分片的示意图;
图6是所提出的包含帧边界实施方式的沉浸式比特流分片的示意图;
图7是根据至少一个实施方式的用于视口比特流分割的系统的框图;
图8是根据至少一个实施方式的计算机系统的示意图;以及
图9是示出根据至少一个实施方式的由程序执行的用于视口比特流分割的步骤的操作流程图。
具体实施方式
本文中公开了所要求保护的结构和方法的详细实施方式;然而,可以理解,所公开的实施方式仅是可以以各种形式实施的所要求保护的结构和方法的说明。然而,这些结构和方法可以以许多不同的形式来实施,并且不应当被解释为限于本文中阐述的示例性实施方式。而是,提供这些示例性实施方式使得本公开内容将是全面和完整的并且将向本领域技术人员充分传达范围。在描述中,可以省略公知特征和技术的细节,以避免不必要地模糊所呈现的实施方式。
实施方式总体上涉及数据处理领域,并且更具体地涉及视频流式传输。以下描述的示例性实施方式提供了用于基于视口的视频流式传输等的系统、方法和计算机程序。因此,一些实施方式具有以下能力:通过允许将视口比特流分割成较小的分片文件或DASH片段来改进计算领域,并且提供支持回放中的快速比特流随机访问的后备比特流分片或片段。
如前所述,沉浸式视频流式传输涉及将“世界”或“全向的”视图从发送器传输至接收器,并且接收器将基于例如视口仅呈现接收到的世界视图的一部分。视口可以基于佩戴虚拟现实护目镜时头部移动的方向来选择。视口相关视频流式传输可以涉及以下技术:在所记录的覆盖“世界”视图的场景中,仅该视图的一部分正被传输并且基于用户已经选择的视口呈现给用户。
然而,随着用户移动他/或她的头部的速率增加,对新图块的请求也增加,从而增加M2HQ延迟。此外,许多下载的数据没有被用户查看,因此被浪费了。因此,减少在沉浸式视频中通过重建比特流来改变视口时产生的时延可能是有利的。
在本文中参照根据各种实施方式的方法、装置(系统)和计算机可读介质的流程图和/或框图来描述各个方面。应当理解,可以通过计算机可读程序指令来实现流程图和/或框图的每个块以及流程图和/或框图中的块的组合。
以下描述的示例性实施方式提供了系统、方法和计算机程序,该系统、方法和计算机程序涉及基于视口的视频流式传输,并且更具体地涉及当通过使用可变比特流片段尺寸而用户的视口改变时用于远程终端的沉浸式远程会议和远程呈现的视口的比特流结构。
图1示出了用于流式传输沉浸式视频的生态系统100的框图。360视频(101)通过编码器(102),并且整个图片通过内容递送网络(Content Delivery Network,CDN)(103)流式传输。用户在VR播放器(105)中对接收到的内容(104)进行解码和重建。发送整个图片的缺点是浪费了带宽和呈现资源,这是因为在任何给定时间用户的视野(field-of-view,FoV)(106)仅落入包含程度。用户的当前FoV之外的比特流可能不会被查看,但是无论如何都被客户端接收和呈现。例如,视口选择可以基于佩戴虚拟现实护目镜时头部移动的方向。视口相关视频流式传输可以涉及以下技术:在所记录的覆盖“世界”视图的场景中,仅该视图的一部分正被传输并且基于用户已经选择的视口呈现给用户,从而消除传输整个世界视图的需要。
基于图块(或子图片)的沉浸式视频流式传输技术可以用于减少带宽要求并且提高视频回放的视频质量。参照图2,描绘了360视口相关视频流式传输系统200的框图。在视频场景已经被适当地拼接并且使用例如等距柱状(equirectangular)投影和立方体映射(cubemap)投影将其投影至平面视频中之后,通过使用平面视频编码器(202)对360视频场景(201)进行编码。
为了在DASH上使用编码的视频比特流,可以将序列放入一个文件中,该文件具有将比特流分割成一系列较小的基于HTTP的视频比特流片段的格式。这些视频文件可以包含不同的比特率和持续时间。这些视频文件可以通过IP网络传输,并且在客户端侧独立解码。
可以通过DASH打包器(203)如上所述对编码的沉浸式视频进行分片。分片的内容可以保存在内容递送服务器(未描绘)中,并且由CDN(204)传达至兼容播放器(205)以供呈现(206)。在此,传输的视频(209)仅包括高分辨率FoV(208),而不是发送整个图片(207)。在接收器侧处,在播放器中对4K图片进行解码和重建。
基于图块的流式传输在空间上将360视频帧分割成多个图块或块。在此,对全景视频进行编码并且在压缩状态之后将经编码的全景视频划分成图块。然后,用户仅请求完全或部分落入用户的视野(FOV)中的图块。通过将大型沉浸式视频比特图片分割成较小的分片或图块,并且传输落入用户的FOV中的分片或图块可以节省网络资源并且呈现侧资源。
大型沉浸式内容(在投影之后,即平面视频流)可以在空间上被细分为例如相同分辨率的图块。例如,4k×2k视频序列的源图片可以被分割成512×156个样本的同等大小的图块,从而产生64个图块。每个图块可以以不同的比特率和质量水平(如DASH中通常的质量水平)进行编码和打包,并且可以以不同于其相邻图块的质量被要求。用户的视口中的图块可以被优先化,并且有利地以比视口外的图块更高的质量进行流式传输。在一些情况下,某些图块可以完全从传输中省略。作为后备,可以使用覆盖整个全景的具有例如较低分辨率/质量/比特率的额外层。假设适当的播放器设计,这样做可以防止视觉伪像,例如当FoV改变但是由于网络/流式传输服务器延迟而新图块不能立即可用时的黑色区域。
当用户移动他/她的头部时,可以改变图块的分辨率,但是例如仅在随机访问点(Random-Access Point,RAP)处改变图块的分辨率。RAP可以是访问单元,在该访问单元处接收器可以成功地开始对图块或视频进行解码。图片帧可以以不同的GOP(Group OfPicture,GOP)大小分组在一起。I帧之后可能是可以包含先前帧的变化的编码表示的P帧。因此,P帧取决于I帧和较早的P帧。GOP结构用于典型的编码器中,这使每个I帧成为随机访问点,使得解码可以在I帧上开始。因此,要改变图块所需的响应时间取决于图块粒度和RAP距离。当用户的取向改变时,当前在视口中的图块可能需要(至少部分地)被不同的图块代替。这些新图块只能在下一个可用RAP处切换,从而致使对用户输入的延迟反应。
现在参照图3,描绘了包含帧边界实施方式的分片沉浸式视频比特流的框图300。例如,8k(301至303)和2k(304至306)分辨率视频比特流可以包含在同一投影场景的表示内。当改变FoV时,低分辨率(304至306)可以用作后备,并且可以连续流式传输。如上所述的高分辨率(301至303)可以是分块式的表示,并且可以用于视口独立流式传输。两个流可以具有相等的帧计数,并且可以被分割成相等的固定帧分片,所述固定帧分片可以包括30帧的随机访问点时段。仅8K分辨率的某些图块根据需要被递送以覆盖FoV,而具有2K分辨率的整个帧作为后备被递送。假设为固定的30fps帧速率,RAP可以每1秒存在于每个比特流中一次。
虽然这样的配置可以允许在FoV改变的情况下通过使用重建的后备比特流进行呈现来实现视觉上令人愉悦的快速反应,但是仍然存在以下问题:在每个FoV改变时,发送平均15帧的无用的高分辨率图块,因为这些高分辨率图块可能由于改变的FoV而无法呈现。
参照图4,描绘了在包含帧边界实施方式的沉浸式比特流回放期间的视口更新的框图400。框图400示出了在回放就位时模拟FoV更新。当视点变为402时,除了404和405之外,整个403帧将被下载和解码,即使视口位于帧的中间,因为I帧(401)位于帧的开始。如果当前网络带宽不太理想,则下载具有8K分辨率的新分片可能会导致额外延迟。克服这种延迟的方法是包含减小的用于视口的比特流片段尺寸。
现在参照图5,描绘了包含帧边界实施方式的8K和2k沉浸式比特流分片的框图500。对于视口中的高分辨率片段,随机访问点时段可以减少至例如10帧(501至508)。第一图片被编码为I帧而其余图片被编码为P帧,并且对于低分辨率后备,或者仅第一图片被编码为I帧而后续图片被编码为P帧,或者应当限定包含不等随机访问时段的快速随机访问。
当随机访问时段较小时,在视口改变时,客户端不必下载所有30帧,而只需现在10帧。因此,由于随机访问点时段减少并且现在更多数量的随机访问点可用,新视口的请求与渲染新视口之间的延迟减少。对于不太理想的网络情况,可以提供包含较低比特流分辨率的后备比特流509。当然,这种提高的效率是通过附加随机访问图片的编码开销来获得的。
如上所述,下载帧内编码图片可能消耗比用户的FoV回放和呈现所需更多的网络带宽。
当流式传输高分辨率视频时,在网络资源不理想时,片段可能导致比特流下载和呈现的延迟。每个片段包括一个或更多个编码帧。观看者的FoV的变化也可能导致(附加)延迟并且降低用户的质量体验(Quality Experience,QoE)。
使用包含较短持续时间的片段可有效减少视口的M2HQ延迟。当然,由于每个片段包含至少一个随机访问帧,因此这种提高的效率是通过附加随机访问图片的编码开销来获得的。
在实施方式中,当头戴式显示器(Head-Mounted Display,HMD)移动时,请求新的图块。随着HMD的速度增加,M2HQ延迟也会增加。这是因为视口改变非常频繁,从而增加了延迟,因为下载和解码的许多片段没有被呈现。因此,可以基于用户的头部移动针对视口限定比特流结构。
当用户的视口不改变,即HMD不移动时,比特流片段持续时间(即,片段中的编码帧的数目)可以与视口中的低分辨率背景和高分辨率图块的片段相同。
使用较长持续时间片段(并且因此,较大的片段尺寸)使得视频能够得到最佳压缩,从而减少所需带宽。然而,当带宽不是限制因素时,可以使用包含减少的持续时间和尺寸的片段。
现在,随着用户的头部移动,请求新的HQ图块。M2HQ中的最大延迟可以由片段的持续时间限定。如果用户的取向不改变或者头部以非常低的速率移动,则视口的比特流可以包含较长的持续时间。
可能能够基于如可用带宽的因素限定头部速度阈值(HTH)。如果带宽不是限制因素,则可以减小片段持续时间/尺寸,以减少M2HQ延迟。随着HMD的速度增加,可以进一步减小比特流片段持续时间/尺寸。
因此,服务器可以基于实时传输协议(Real-time Transport Protocol,RTP)控制协议(Real-time Transport Protocol Control Protocol,RTCP)反馈(其包括带宽信息和HMD速度)对包含可变持续时间/尺寸的片段进行编码。
替选地,服务器可以包括多个版本的包含可变片段持续时间/尺寸的比特流,并且基于RTCP反馈(其包括带宽信息和HMD速度),可以限定比特流片段尺寸。因此,当服务器从用户接收比特流请求时,服务器可以基于HMD速度和可用带宽发送比特流片段。
现在参照图6,其中高质量(8K)视口比特流可以具有多个包含可变持续时间/尺寸的比特流,并且一个后备低分辨率(2K)包含有恒定片段持续时间/尺寸的背景。
由于带宽限制,发送器可以限定片段持续时间的下限(Dmin)。即使HMD速度增加超出对应的HMD最大阈值(HMAX),服务器也不会从该下限减少片段持续时间。
当在该方案中服务器改变片段持续时间时,服务器保持编解码器配置文件/级别与用信号通知的编解码器配置文件/级别的一致性要求,因此接收器的解码器可以对片段进行解码而无需重新初始化。
为了使M2HQ延迟最小化并增强用户体验,当足够的带宽可用时,接收器可以在视口周围以高质量请求附加的余量。余量可以具有与视口相同的质量,但不是必须的。
在同一实施方式或另一实施方式中,如果HMD移动在余量内,则所请求的新图块(用于对余量进行更新)可以包含较长的持续时间片段,并且可能不一定需要较低的片段持续时间/尺寸。当余量的分辨率与视口的分辨率即高分辨率图块相同时,这是适用的。
如果与视口中的图块相比,余量中的图块的分辨率较低,则即使当HMD在余量内移动时,也可以请求较短的高分辨率片段。
然而,如果视口移动超出余量,则可以请求新的较短持续时间片段以减少M2HQ。可选地,与用于余量的片段相比,可以以减少的片段持续时间下载视口中的比特流片段的尺寸。
发送器可以在使用SDP设置的会话中向接收器发信号通知使用可变持续时间片段,并可选地带有以下参数中的一个或更多个:头部速度阈值(HTH)、最大阈值(HMAX)和最小片段持续时间(Dmin),使得接收器将头部速度包括在其RTCP报告中,以及基于可选参数优化其片段请求。
图7示出了所发明的系统设计。在由摄像装置捕获内容之后将该内容拼接到全景表示(701)中,并且然后对经拼接的内容进行编码(702)并且通过低延迟打包器(703),在该打包器中比特流被构造成包含减少的随机访问点时段。传输的视频(709)包含用户的FoV(708)的高分辨率内容以及图片(707)的其余部分的降低的质量。该内容经由CDN(704)传达至VR播放器(705)以供呈现(706)。
上述用于沉浸式基于视口的视频流式传输的比特流结构的技术可以被实现为使用计算机可读指令并且物理地存储在一个或更多个计算机可读介质中的计算机软件。例如,图8示出了适用于实现所公开的主题的某些实施方式的计算机系统800。
可以使用任何合适的机器代码或计算机语言对计算机软件进行编码,所述机器代码或计算机语言可以经受汇编、编译、链接等机制以创建包括指令的代码,所述指令可以由计算机中央处理单元(Central Processing Unit,CPU)、图形处理单元(GraphicsProcessing Unit,GPU)等直接执行或者通过解译、微代码执行等来执行。
所述指令可以在各种类型的计算机或其部件上执行,所述计算机或其部件包括个人计算机、平板电脑、服务器、智能电话、游戏设备、物联网设备等。
图8所示的用于计算机系统800的部件本质上是示例性的,并且不旨在对实现本公开内容的实施方式的计算机软件的使用范围或功能提出任何限制。部件的配置也不应被解释为具有与计算机系统800的示例性实施方式中所示的任何一个部件或部件的组合相关的任何依赖性或要求。
计算机系统800可以包括某些人机接口输入设备。这样的人机接口输入设备可以响应于由一个或更多个人类用户通过例如触觉输入(例如:击键、滑动、数据手套移动)、音频输入(例如:语音、拍手)、视觉输入(例如:姿势)、嗅觉输入(未描绘)实现的输入。人机接口设备还可以用于捕获不一定与人的意识输入直接相关的某些媒体,例如音频(例如:语音、音乐、环境声音)、图像(例如:扫描图像、从静态图像摄像装置获得的摄影图像)、视频(例如二维视频、包括立体视频的三维视频)。
输入人机接口设备可以包括以下中的一个或更多个(仅描绘每种中的一个):键盘801、鼠标802、触控板803、触摸屏810、数据手套(未描绘)、操纵杆805、麦克风806、扫描仪807、摄像装置808。
计算机系统800还可以包括某些人机接口输出设备。这样的人机接口输出设备可以通过例如触觉输出、声音、光和气味/味道刺激一个或更多个人类用户的感官。这样的人机接口输出设备可以包括:触觉输出设备(例如,通过触摸屏810、数据手套(未描绘)或操纵杆805进行的触觉反馈,但是也可以存在不用作输入设备的触觉反馈设备);音频输出设备(例如:扬声器809、头戴式耳机(未描绘));视觉输出设备(例如,屏幕810,包括CRT屏幕、LCD屏幕、等离子屏幕、OLED屏幕,每个都具有或不具有触摸屏输入能力,每个都具有或不具有触觉反馈能力——其中的一些可能能够通过诸如立体图像输出的方式输出二维视觉输出或多于三维输出;虚拟现实眼镜(未描绘);全息显示器和烟箱(未描绘));以及打印机(未描绘)。
计算机系统800还可以包括人类可访问的存储设备及其相关联的介质,例如包括具有CD/DVD等介质821的CD/DVD ROM/RW 820的光学介质、拇指驱动器822、可移除硬盘驱动器或者固态驱动器823、诸如磁带和软盘(未描绘)的传统磁性介质、诸如安全加密狗(未描绘)的基于专用ROM/ASIC/PLD的设备等。
本领域技术人员还应当理解,结合当前公开的主题使用的术语“计算机可读介质”不包含传输介质、载波或其他瞬态信号。
计算机系统800还可以包括到一个或更多个通信网络的接口。例如,网络可以是无线的、有线的、光学的。网络还可以是局域网、广域网、城域网、车载和工业网络、实时网络、延迟容忍网络等。网络的示例包括局域网例如以太网、无线LAN、蜂窝网络(包括GSM、3G、4G、5G、LTE等)、电视有线或无线广域数字网络(包括有线电视、卫星电视和地面广播电视)、车载和工业网络(包括CANBus)等。某些网络通常需要附接至某些通用数据端口或外围总线(849)的外部网络接口适配器(诸如例如,计算机系统800的USB端口);其他网络通常通过如下所述(例如,到PC计算机系统的以太网接口或到智能电话计算机系统的蜂窝网络接口)附接至系统总线而集成到计算机系统800的核中。使用这些网络中的任何网络,计算机系统800可以与其他实体进行通信。这样的通信可以是单向仅接收(例如,广播电视)、单向仅发送(例如,到某些CANbus设备的CANbus)、或双向的,例如到使用局域或广域数字网络的其他计算机系统。可以在如上所述的这些网络和网络接口中的每一个上使用某些协议和协议栈。
上述人机接口设备、人类可访问的存储设备和网络接口可以附接至计算机系统800的核840。
核840可以包括一个或更多个中央处理单元(CPU)841、图形处理单元(GPU)842、现场可编程门阵列(Field Programmable Gate Area,FPGA)843形式的专用可编程处理单元、用于某些任务的硬件加速器844等。这些设备连同只读存储器(Read-Only Memory,ROM)845、随机存取存储器846、诸如内部非用户可访问硬盘驱动器、SSD等的内部大容量存储设备847可以通过系统总线848连接。在一些计算机系统中,可以以一个或更多个物理插头的形式访问系统总线848,以使得能够通过附加的CPU、GPU等进行扩展。外围设备可以直接地或者通过外围总线849附接至核的系统总线848。外围总线的架构包括PCI、USB等。
CPU 841、GPU 842、FPGA 843和加速器844可以执行某些指令,所述指令组合起来可以构成上述计算机代码。该计算机代码可以存储在ROM 845或RAM 846中。瞬态数据也可以存储在RAM 846中,而永久数据可以存储在例如内部大容量存储设备847中。可以通过使用高速缓存存储器来实现对存储设备中的任何存储设备的快速存储和检索,该高速缓存存储器可以与一个或更多个CPU 841、GPU 842、大容量存储设备847、ROM 845、RAM 846等紧密相关联。
计算机可读介质可以在其上具有用于执行各种计算机实现的操作的计算机代码。介质和计算机代码可以是出于本公开内容的目的而专门设计和构建的介质和计算机代码,或者介质和计算机代码可以具有对计算机软件领域的技术人员公知且可用的类型。
作为示例而非限制,具有架构的计算机系统800并且特别是核840可以由于处理器(包括CPU、GPU、FPGA、加速器等)执行实施在一个或更多个有形计算机可读介质中的软件而提供功能。这样的计算机可读介质可以是与以下相关联的介质:如上面所介绍的用户可访问的大容量存储设备、以及核840的具有非暂态性质的某些存储设备例如核内部大容量存储设备847或ROM 845。实现本公开内容的各种实施方式的软件可以存储在这样的设备中并且由核840执行。根据特定需要,计算机可读介质可以包括一个或更多个存储器设备或芯片。软件可以使核840并且特别是其中的处理器(包括CPU、GPU、FPGA等)执行本文中描述的特定处理或特定处理的特定部分,包括限定存储在RAM 846中的数据结构以及根据由软件限定的处理来修改这样的数据结构。另外地或作为替选,计算机系统可以由于逻辑硬连线或以其他方式实施在电路(例如:加速器844)中而提供功能,该电路可以代替软件或与软件一起操作以执行本文中描述的特定处理或特定处理的特定部分。在适当的情况下,提及软件可以包含逻辑,并且反之,提及逻辑可以包含软件。在适当的情况下,提及计算机可读介质可以包含存储用于执行的软件的电路(例如,集成电路(IC))、实施用于执行的逻辑的电路或上述两者。本公开内容包含硬件和软件的任何合适的组合。
现在参照图9,描绘了示出由程序执行的用于分割视口比特流的方法900的步骤的操作流程图。
在902处,方法900可以包括基于与用户的头部移动对应的阈值对包含针对视口限定的片段尺寸的第一编码视频比特流进行编码。
在904处,方法900可以包括对具有低分辨率的第二编码视频比特流进行编码,该第二编码视频比特流对应于包含恒定片段持续时间或尺寸的背景。
在906处,方法900可以包括使用第一编码视频比特流和第二编码比特流创建用于解码或呈现的流式传输比特流。
值得注意的是,图9仅提供了一种实现方式的图示,并且并不暗示关于可以如何实现不同实施方式的任何限制。可以基于设计和实现要求对所描绘的环境进行许多修改。
一些实施方式可以涉及任何可能的集成技术细节级别的系统、方法和/或计算机可读介质。计算机可读介质可以包括计算机可读非暂态存储介质(或介质),所述计算机可读非暂态存储介质上具有用于使处理器执行操作的计算机可读程序指令
计算机可读存储介质可以是可以保留和存储由指令执行设备使用的指令的有形设备。例如,计算机可读存储介质可以是但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更特定示例的非穷举列表包括以下:便携式计算机软盘、硬盘、随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory,EPROM或闪存)、静态随机存取存储器(Static RandomAccess Memory,SRAM)、便携式致密盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备例如其上记录有指令的穿孔卡或凹槽中的凸起结构、以及前述的任何合适的组合。如本文中所使用的计算机可读存储介质不应被解释为是暂态信号本身例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,通过光纤线缆传送的光脉冲)或通过导线传输的电信号。
本文中描述的计算机可读程序指令可以从计算机可读存储介质下载至相应的计算/处理设备,或者经由网络例如因特网、局域网、广域网和/或无线网络下载至外部计算机或外部存储设备。网络可以包括铜传输线缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口从网络接收计算机可读程序指令,并且转发计算机可读程序指令以存储在相应的计算/处理设备内的计算机可读存储介质中。
用于执行操作的计算机可读程序代码/指令可以是汇编指令、指令集架构(Instruction-Set-Architecture,ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路系统的配置数据或者以一种或更多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言(例如,Smalltalk、C++等)以及过程编程语言(例如,“C”编程语言或类似的编程语言)。计算机可读程序指令可以完全在用户的计算机上执行、部分在用户的计算机上执行、作为独立软件包执行、部分在用户的计算机上且部分在远程计算机上执行或者全部在远程计算机或服务器上执行。在全部在远程计算机或服务器上执行的情况下,远程计算机可以通过包括局域网(Local Area Network,LAN)或广域网(Wide Area Network,WAN)的任何类型的网络连接至用户的计算机,或者可以(例如,通过使用因特网服务提供商的因特网)与外部计算机进行连接。在一些实施方式中,包括例如可编程逻辑电路系统、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或可编程逻辑阵列(Programmable Logic Array,PLA)的电子电路系统可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路系统专用化,以便执行各个方面或操作。
可以将这些计算机可读程序指令提供至通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器,使得经由计算机的处理器或其他可编程数据处理装置执行的指令创建用于实现流程图和/或框图的一个或多个块中所指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中,其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式运行,使得其中存储有指令的计算机可读存储介质包括制品,该制品包括实现流程图和/或框图的一个或多个块中所指定的功能/动作的各个方面的指令。
计算机可读程序指令还可以加载至计算机、其他可编程数据处理装置或其他设备上,以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤以产生计算机实现的处理,使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个块中所指定的功能/动作。
附图中的流程图和框图示出了根据各种实施方式的系统、方法以及计算机可读介质的可能实现方式的架构、功能和操作。在这一点上,流程图或框图中的每个块可以表示模块、片段或指令的部分,该模块、片段或指令的部分包括用于实现指定逻辑功能的一个或更多个可执行指令。该方法、计算机系统以及计算机可读介质可以包括与附图中所描绘的那些块相比附加的块、更少的块、不同的块或不同布置的块。在一些替选实现方式中,块中指出的功能可以不按附图中指出的顺序发生。例如,连续示出的两个块实际上可以同时或基本上同时执行,或者块有时可以以相反的顺序执行,这取决于所涉及的功能。还应当注意,框图和/或流程图的每个块以及框图和/或流程图中的块的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的基于专用硬件的系统来实现。
将明显的是,本文中描述的系统和/或方法可以以硬件、固件或硬件和软件的组合的不同形式来实现。用于实现这些系统和/或方法的实际专用控制硬件或软件代码不限制实现方式。因此,本文中描述了系统和/或方法的操作和行为,而没有参考特定的软件代码——应当理解,软件和硬件可以被设计成基于本文中的描述来实现系统和/或方法。
除非明确地如此描述,否则本文中使用的元素、动作或指令均不应被解释为关键或必要的。此外,如本文所使用的,冠词“一种”或“一个”旨在包括一个或更多个项,并且可以与“一个或更多个”互换使用。此外,如本文所使用的,术语“组”旨在包括一个或更多个项(例如,相关项、不相关项、相关项和不相关项的组合等),并且可以与“一个或更多个”互换使用。在仅意指一个项的情况下,使用术语“一个(one)”或类似的语言。此外,如本文所使用的,术语“具有(has)”、“具有(have)”、“具有(having)”等旨在为开放式术语。此外,除非另有明确说明,否则短语“基于”旨在意指“至少部分地基于”。
已经出于说明的目的呈现了对各个方面和实施方式的描述,但是不旨在穷举或限于所公开的实施方式。即使在权利要求中记载和/或在说明书中公开了特征的组合,这些组合不旨在限制可能的实现方式的公开内容。实际上,这些特征中的许多特征可以以未在权利要求书中具体记载和/或未在说明书中公开的方式进行组合。尽管所列出的每个从属权利要求可以直接引用仅一个权利要求,但是可能的实现方式的公开内容包括每个从属权利要求与权利要求集中的每个其他权利要求的组合。在不脱离所描述的实施方式的范围的情况下,许多修改和变化对于本领域普通技术人员而言将是明显的。选择本文中所使用的术语是为了最好地说明实施方式的原理、实际应用或对市场中发现的技术的技术改进,或者使本领域的其他普通技术人员能够理解本文中公开的实施方式。
Claims (20)
1.一种用于对视口比特流进行编码的方法,由处理器执行,所述方法包括:
基于与用户的头部移动对应的阈值,对包含针对视口限定的片段尺寸的第一编码视频比特流进行编码;
对具有低分辨率的第二编码视频比特流进行编码,所述第二编码视频比特流对应于包含恒定片段持续时间或尺寸的背景;以及
使用所述第一编码视频比特流和第二编码比特流创建用于解码或呈现的流式传输比特流。
2.根据权利要求1所述的方法,其中,第一编码比特流包含多个用于所述视口的片段尺寸。
3.根据权利要求1所述的方法,其中,所述阈值取决于所述用户的头部移动和可用带宽。
4.根据权利要求3所述的方法,其中,所述用户可以经由实时传输协议(RTP)控制协议(RTCP)反馈传输关于所述头部移动和所述可用带宽的信息。
5.根据权利要求1所述的方法,其中,以与所述视口相同或更长的片段尺寸请求所述视口周围的余量。
6.根据权利要求5所述的方法,其中,基于所述用户的头部移动在所述余量内,请求包含较长片段的新图块用于对所述余量进行更新。
7.根据权利要求5所述的方法,其中,基于所述余量中的图块的分辨率低于所述视口中的图块,请求较短的高分辨率片段。
8.根据权利要求7所述的方法,其中,无论所述用户的头部移动是否在所述余量内,都请求所述较短的高分辨率片段。
9.根据权利要求5所述的方法,其中,基于所述视口移动超出所述余量,请求较短长度片段。
10.一种用于分割视口比特流的计算机系统,所述计算机系统包括:
一个或更多个计算机可读非暂态存储介质,所述一个或更多个计算机可读非暂态存储介质被配置成存储计算机程序代码;以及
一个或更多个计算机处理器,所述一个或更多个计算机处理器被配置成访问所述计算机程序代码并且如由所述计算机程序代码所指示的进行操作,所述计算机程序代码包括:
第一编码代码,所述第一编码代码被配置成使所述一个或更多个计算机处理器基于与用户的头部移动对应的阈值对包含针对视口限定的片段尺寸的第一编码视频比特流进行编码;
第二编码代码,所述第二编码代码被配置成使所述一个或更多个计算机处理器对具有低分辨率的第二编码视频比特流进行编码,所述第二编码视频比特流对应于包含恒定片段持续时间或尺寸的背景;以及
创建代码,所述创建代码被配置成使所述一个或更多个计算机处理器使用所述第一编码视频比特流和第二编码比特流创建用于解码或呈现的流式传输比特流。
11.根据权利要求10所述的方法,其中,第一编码比特流包含多个用于所述视口的片段尺寸。
12.根据权利要求10所述的方法,其中,所述阈值取决于所述用户的头部移动和可用带宽。
13.根据权利要求12所述的方法,其中,所述用户可以经由实时传输协议(RTP)控制协议(RTCP)反馈传输关于所述头部移动和所述可用带宽的信息。
14.根据权利要求10所述的方法,其中,以与所述视口相同或更长的片段尺寸请求所述视口周围的余量。
15.根据权利要求14所述的方法,其中,基于所述用户的头部移动在所述余量内,请求包含较长片段的新图块用于对所述余量进行更新。
16.根据权利要求14所述的方法,其中,基于所述余量中的图块的分辨率低于所述视口中的图块,请求较短的高分辨率片段。
17.根据权利要求16所述的方法,其中,无论所述用户的头部移动是否在所述余量内,都请求所述较短的高分辨率片段。
18.根据权利要求14所述的方法,其中,基于所述视口移动超出所述余量,请求较短长度片段。
19.一种非暂态计算机可读介质,其上存储有用于分割视口比特流的计算机程序,所述计算机程序被配置成使一个或更多个计算机处理器:
基于与用户的头部移动对应的阈值对包含针对视口限定的片段尺寸的第一编码视频比特流进行编码;
对具有低分辨率的第二编码视频比特流进行编码,所述第二编码视频比特流对应于包含恒定片段持续时间或尺寸的背景;以及
使用所述第一编码视频比特流和第二编码比特流创建用于解码或呈现的流式传输比特流。
20.根据权利要求19所述的计算机可读介质,其中,以与所述视口相同或更长的片段尺寸请求所述视口周围的余量。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063111425P | 2020-11-09 | 2020-11-09 | |
US63/111,425 | 2020-11-09 | ||
US17/362,068 | 2021-06-29 | ||
US17/362,068 US11743442B2 (en) | 2020-11-09 | 2021-06-29 | Bitstream structure for immersive teleconferencing and telepresence for remote terminals |
PCT/US2021/044902 WO2022098408A1 (en) | 2020-11-09 | 2021-08-06 | Bitstream structure for immersive teleconferencing and telepresence for remote terminals |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115315951A true CN115315951A (zh) | 2022-11-08 |
Family
ID=81453917
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180022077.7A Pending CN115315951A (zh) | 2020-11-09 | 2021-08-06 | 用于远程终端的沉浸式远程会议和远程呈现的比特流结构 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11743442B2 (zh) |
EP (1) | EP4104325A4 (zh) |
JP (2) | JP7447298B2 (zh) |
KR (1) | KR20220165268A (zh) |
CN (1) | CN115315951A (zh) |
WO (1) | WO2022098408A1 (zh) |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4084480A1 (en) * | 2016-09-09 | 2022-11-02 | Vid Scale, Inc. | Methods and apparatus to reduce latency for 360-degree viewport adaptive streaming |
US10887600B2 (en) * | 2017-03-17 | 2021-01-05 | Samsung Electronics Co., Ltd. | Method and apparatus for packaging and streaming of virtual reality (VR) media content |
KR102391126B1 (ko) | 2017-03-23 | 2022-04-27 | 브이아이디 스케일, 인크. | 360도 적응형 스트리밍에 대한 경험을 개선하기 위한 메트릭 및 메시지 |
EP3511910A1 (en) * | 2018-01-12 | 2019-07-17 | Koninklijke Philips N.V. | Apparatus and method for generating view images |
US11616942B2 (en) | 2018-03-22 | 2023-03-28 | Interdigital Madison Patent Holdings, Sas | Viewport dependent video streaming events |
US10356387B1 (en) | 2018-07-26 | 2019-07-16 | Telefonaktiebolaget Lm Ericsson (Publ) | Bookmarking system and method in 360° immersive video based on gaze vector information |
US10757389B2 (en) * | 2018-10-01 | 2020-08-25 | Telefonaktiebolaget Lm Ericsson (Publ) | Client optimization for providing quality control in 360° immersive video during pause |
US10939139B2 (en) * | 2018-11-29 | 2021-03-02 | Apple Inc. | Adaptive coding and streaming of multi-directional video |
EP3672251A1 (en) * | 2018-12-20 | 2020-06-24 | Koninklijke KPN N.V. | Processing video data for a video player apparatus |
-
2021
- 2021-06-29 US US17/362,068 patent/US11743442B2/en active Active
- 2021-08-06 WO PCT/US2021/044902 patent/WO2022098408A1/en unknown
- 2021-08-06 EP EP21889775.9A patent/EP4104325A4/en active Pending
- 2021-08-06 CN CN202180022077.7A patent/CN115315951A/zh active Pending
- 2021-08-06 JP JP2022555688A patent/JP7447298B2/ja active Active
- 2021-08-06 KR KR1020227038725A patent/KR20220165268A/ko active Search and Examination
-
2023
- 2023-06-02 US US18/204,984 patent/US12095967B2/en active Active
-
2024
- 2024-02-28 JP JP2024028745A patent/JP2024083340A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
JP2024083340A (ja) | 2024-06-21 |
US20230308625A1 (en) | 2023-09-28 |
JP2023517375A (ja) | 2023-04-25 |
EP4104325A4 (en) | 2023-04-19 |
EP4104325A1 (en) | 2022-12-21 |
JP7447298B2 (ja) | 2024-03-11 |
US11743442B2 (en) | 2023-08-29 |
KR20220165268A (ko) | 2022-12-14 |
US12095967B2 (en) | 2024-09-17 |
US20220150460A1 (en) | 2022-05-12 |
WO2022098408A1 (en) | 2022-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102027410B1 (ko) | 계층화된 신호 품질 계층에서의 재구성 데이터의 송신 | |
JP6672327B2 (ja) | ユーザヘッドセットへの球状ビデオ帯域幅を減少させる方法および装置 | |
WO2019202207A1 (en) | Processing video patches for three-dimensional content | |
CN113574903B (zh) | 针对媒体内容中的后期绑定的方法和装置 | |
JP7252373B2 (ja) | メディアコンテンツのメディアデータを受信する方法、装置、およびコンピュータプログラム | |
CN115514972A (zh) | 视频编解码的方法、装置、电子设备及存储介质 | |
CN113766235B (zh) | 一种全景视频传输方法及设备 | |
US20230007314A1 (en) | System and method of server-side dynamic spatial and temporal adaptations for media processing and streaming | |
KR20230093479A (ko) | W3c 미디어 소스 및 암호화된 확장을 이용한 라이브 cmaf/dash 플레이어에서의 mpd 체이닝 | |
JP2024513445A (ja) | 動的dashピクチャ・イン・ピクチャ・ストリーミングのための方法及び装置 | |
US12095967B2 (en) | Bitstream structure for immersive teleconferencing and telepresence for remote terminals | |
US11503289B2 (en) | Bitstream structure for viewport-based streaming with a fallback bitstream | |
CN114514752A (zh) | 用于交互式播放dash内容的应用程序预期交互式选择信息 | |
CN114270329A (zh) | 清单内更新事件 | |
CN114667738B (zh) | 视频流传输方法和用于视频流传输的装置 | |
US20240129537A1 (en) | Method and apparatus for signaling cmaf switching sets in isobmff | |
US20240251008A1 (en) | Auxiliary mpds for mpeg dash to support preroll and midrolls and their playback using w3c mse/eme | |
KR20230086792A (ko) | 미디어 스트리밍 및 재생 동안 프리롤 및 미드롤을 지원하기 위한 방법 및 장치 | |
JP2024515488A (ja) | スタッキング特性を有するプレロール、ミッドロールおよびエンドロールをサポートするためのmpeg dash用の補助mpdに関する方法、装置、媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40075914 Country of ref document: HK |