CN115278195B - 位置零时延 - Google Patents

位置零时延 Download PDF

Info

Publication number
CN115278195B
CN115278195B CN202210914743.4A CN202210914743A CN115278195B CN 115278195 B CN115278195 B CN 115278195B CN 202210914743 A CN202210914743 A CN 202210914743A CN 115278195 B CN115278195 B CN 115278195B
Authority
CN
China
Prior art keywords
video
image
viewer
video image
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210914743.4A
Other languages
English (en)
Other versions
CN115278195A (zh
Inventor
A·尼南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Priority to CN202210914743.4A priority Critical patent/CN115278195B/zh
Publication of CN115278195A publication Critical patent/CN115278195A/zh
Application granted granted Critical
Publication of CN115278195B publication Critical patent/CN115278195B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/366Image reproducers using viewer tracking
    • H04N13/383Image reproducers using viewer tracking for tracking with gaze detection, i.e. detecting the lines of sight of the viewer's eyes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/139Format conversion, e.g. of frame-rate or size
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234345Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements the reformatting operation being performed only on part of the stream, e.g. a region of the image or a time segment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/23439Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements for generating different versions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明涉及位置零时延。基于观看跟踪数据,确定观看者对由第一视频图像描绘的三维3D场景的观看方向。所述第一视频图像在第一时间点之前已在视频流中流式传输到流式传输客户端装置,且在所述第一时间点通过所述流式传输客户端装置向所述观看者再现。基于所述观看者的观看方向,在将在所述视频流中流式传输到所述流式传输客户端装置的第二视频图像中识别目标观看部分以在所述第一时间点之后的第二时间点再现。以比用以对所述第二视频图像中的剩余非目标观看部分进行编码的时空分辨率更高的目标时空分辨率将所述目标观看部分编码到所述视频流中。

Description

位置零时延
分案申请的相关信息
本案是分案申请。该分案的母案是申请日为2018年12月04日、申请号为201811471216.0、发明名称为“位置零时延”的发明专利申请案。
相关申请的交叉参考
本申请要求2017年12月6日提交的第62/595,544号美国专利申请的优先权,所述美国专利申请以全文引用的方式并入本文。
技术领域
本发明大体上涉及显示图像,且确切地说,涉及以位置零时延再现显示图像以用于增强现实(AR)、虚拟现实(VR)、混合现实(MR)等等。
背景技术
为了在观看者可自由移动观看者的观看位置和方向的视频应用中支持低时延图像再现,可能需要提供高速连接(例如,光学数据连接、局部有线连接等)以支持在极短时间间隔中将大量图像数据发射到观看者的客户端装置(例如,平视显示器、可穿戴式装置、头戴装置等),例如在帧间隔(例如,小于8毫秒等)内。这可能造成在视频应用中观看者的客户端装置具有过多的外部布线且体积太大而无法容纳于可穿戴式装置的小占据面积中。
可以使用无线网络将图像数据流式传输到客户端装置。然而,可以极短时间延迟或时延发射到客户端装置的图像数据的量显著受限。跟踪观看者的场和观看位置且告知服务器也花费时间。从测量观看者的观看位置和方向时的第一时间点以及观看者的客户端装置最终再现基于观看者的先前测得的观看位置和方向而产生/选择的图像时的第二时间点的往返时间延迟会很显著,从而严重影响观看者对于视频应用的体验的沉浸质量。
在这一部分中描述的方法是可以实行的方法,但不一定是在先前就已经想到或实行的方法。因此,除非另有指示,否则不应假设在这一部分中描述的任一种方法仅凭借它们包含在这一部分中就能够作为现有技术。类似地,除非另有指示,否则相对于一或多个方法所说明的问题不应假设为已被这一部分中的任何现有技术所辨识。
发明内容
本发明的一方面涉及一种用于流式传输视频数据的方法,其包括:基于在第一时间之后从流式传输客户端装置接收的观看跟踪数据,确定观看者相对于由第一视频图像描绘的三维(3D)场景的目标观看方向,所述第一视频图像(a)在所述第一时间点之前已在视频流中流式传输到所述流式传输客户端装置,且(b)在所述第一时间点已通过所述流式传输客户端装置向所述观看者再现;基于所述观看者的所述目标观看方向,识别第二视频图像中的目标观看部分以在所述第一时间点之后的第二时间点之前在所述视频流中流式传输到所述流式传输客户端装置且在所述第二时间点再现;将所述第二视频图像中的所述目标观看部分以高于用以对所述第二视频图像中在所述目标观看部分外部的剩余非目标观看部分进行编码的非目标时空分辨率的目标时空分辨率编码到所述视频流中;经由所述视频流将包括以所述目标时空分辨率编码的所述目标观看部分和以所述非目标时空分辨率编码的所述剩余非目标观看部分的所述第二视频图像发射到所述流式传输客户端装置;其中所述方法由一或多个计算装置执行。
在本发明的另一方面中,一种用于向观看者呈现视频数据的方法,其包括:在第一时间点之前从视频流解码第一视频图像,所述视频流由视频流式传输服务器流式传输;在所述第一时间点在显示装置上向观看者再现所述第一视频图像的同时,收集观看跟踪数据,观看者相对于由所述第一视频图像描绘的三维(3D)场景的目标观看方向是基于所述观看跟踪数据确定;在所述第一时间点之后的第二时间点之前将所述观看跟踪数据发送到所述视频流式传输服务器;在所述第二时间点之前从所述视频流解码第二视频图像,所述第二视频图像包括目标观看部分,所述目标观看部分具有高于用以对所述第二视频图像中在所述目标观看部分外部的剩余非目标观看部分进行编码的非目标时空分辨率的目标时空分辨率,所述第二视频图像中的所述目标观看部分已由所述流式传输服务器基于从在所述第二时间点之前发送到所述视频流式传输服务器的所述观看跟踪数据确定的所述观看者的所述目标观看方向而识别;致使所述第二视频图像中的所述目标观看部分的至少一部分在所述第二时间点在所述显示装置上向所述观看者再现;其中所述方法由一或多个计算装置执行。
附图说明
借助于实例而非限制在附图的图中说明本发明,且附图中相似参考标号指代类似元件,且其中:
图1说明从上游装置发射/流式传输到观看者的客户端装置的视频图像的实例序列;
图2A到图2C说明以差分时空分辨率编码的实例视频图像;图2D说明观看者的实例视野;图2E说明多视图图像的经取样视图所源自的实例观看体积;
图3A到图3C说明实例视频流式传输服务器和客户端;
图4A和图4B说明实例过程流;以及
图5说明在其上可实施如本文中所描述的计算机或计算装置的实例硬件平台。
具体实施方式
本文中描述涉及以位置零时延再现显示图像以用于AR、VR、MR等等的实例实施例。在以下描述中,出于解释的目的,阐述许多特定细节以便提供对本发明的透彻理解。然而,很明显,可以在没有这些特定细节的情况下实践本发明。在其它情况下,并未详尽地描述众所周知的结构和装置,以免不必要地封闭、模糊或混淆本发明。
本文中根据以下提纲描述实例实施例:
1.一般概述
2.位置零时延
3.具有位置零时延的视频图像序列
4.环绕区
5.视野
6.3D和多视图图像
7.流式传输服务器和客户端
8.实例过程流
9.实施方案机制-硬件概述
10.等效物、延伸、替代方案和杂项
1.一般概述
此概述呈现本发明的实例实施例的一些方面的基本描述。应注意,此概述并未深入或详尽地总结实例实施例的各方面。此外,应注意,此概述并非意图被理解为识别实例实施例的任何特别显著的方面或元件,也并非意图被理解为描绘实例实施例(具体来说)或本发明(一般来说)的任何范围。此概述仅以经精简和简化格式呈现涉及实例实施例的一些概念,并且应理解为仅是对随后的实例实施例的更详细描述的概念性序言。应注意,尽管本文中论述单独的实施例,但是本文中论述的实施例和/或部分实施例的任何组合可进行组合以形成其它实施例。
在视频应用中从观看者的客户端装置接收视点数据的上游装置与基于视点数据再现由上游装置产生的图像的客户端装置之间存在时间延迟。对应地,用以产生图像的视点数据中表示的视点与由观看者用来观看在时间延迟之后再现的图像的视点之间存在失配。
在一些方法下,观看者的视点必须首先由上游装置接收和确定。观看者的视点随后由上游装置使用以通过观看者对图像中描绘的场景的视点来产生图像,且随后通过多个图像帧缓冲器和网络链路将产生的图像流式传输回到客户端装置。
到客户端装置准备好基于先前发送的视点数据再现产生的图像的时候,观看者或客户端装置可能已经移动到新观看位置和新观看方向。因此,当基于先前发送的视点数据产生的图像由观看者在新移动的观看位置/方向再现和观看时,经再现图像中表示的观看位置/方向与观看者的新移动的观看位置/方向之间存在失配。
如本文中所描述的技术可由上游装置实施以发送基于先前发送的视点数据产生的足够图像数据,以考虑在稍后时间在客户端装置处再现图像数据之前可发生的观看者的观看位置和方向的任何平移和旋转。
在这些技术下,基于先前发送的视点数据产生的图像是以具有位置零时延的观看者的新移动的观看位置/方向进行再现,如同图像是从观看者的新移动的观看位置/方向看见那样。术语“位置零时延”是指虽然视频图像是在先前时间点产生且在当前时间点以时间延迟(或时间上的非零时延)经再现或显示给观看者,但将在当前时间点再现的视频图像调整、内插和/或再现到在当前时间点观看者的当前观看位置和观看方向,如同在当前时间点再现的视频图像是从在当前时间点观看者的当前观看位置和观看方向看见那样,而没有时间延迟(或对于当前观看位置和观看方向的位置零时延)。
更具体地,从上游装置发送到客户端装置的如本文所描述的视频图像,无论是否为多视图图像都包括目标观看部分和剩余非目标观看部分。目标观看部分不仅包含对应于如最近接收的观看跟踪数据中指示的先前视点的中央窝视图,而且包含覆盖在再现图像数据之前观看者可能已经移动到的新可能的中央窝视图的环绕区。
目标观看部分是以相对高时空分辨率译码,而剩余非目标观看部分是以相对低时空分辨率译码。
由于目标观看部分与观看者的整个视野或与客户端装置结合操作的显示装置所支持的整个检视区相比是相对较小的,因此目标观看部分的数据体积相对较小,尽管目标观看部分是以相对高时空分辨率编码。
另外,由于剩余非目标观看部分是以相对低时空分辨率编码,因此非目标观看部分的数据体积也相对较小,尽管非目标观看部分的空间大小可能相对大。
具有在观看者的先前视点的中央窝视图外部的环绕区的目标观看部分可用以使客户端装置能够再现或再创建与观看者的新观看位置/方向相关联的新中央窝视图,而恰在再现视频图像之前的工作量最小和/或错误量最小。
在如本文所描述的技术下,客户端装置仍以时间延迟创建和接收视频图像。然而,尽管视频图像仍在时间上落后而再现,但视频图像是以在再现时观看者的同期视点的观看者的同期中央窝视图(其是从视频图像的目标观看部分的环绕区提取)再现,而不是以由上游装置用以产生图像数据的观看者的先前视点再现。因此,观看者看见具有高质量中央窝视图和正确(或同期)视点的视频图像。
在几乎全部操作情境中,可在观看者的中央窝视图中以高分辨率视频内容呈现给观看者以用于无缝观看体验,其相对不含与并未采用如本文中所描述的技术的一些其它方法相关联的视觉假象、生理不适等。与所述其它方法相关联的视觉假象、生理不适等可包含但不一定限于以下中的任一个:转换成人类视觉所感知的高分辨率图像的延长滞后、人类视觉的中央观看区域内可辨的低分辨率图像、用户的自然视觉相关的直觉与向用户实际再现的视频内容之间的失配、当观看者移动观看角度时图像的视觉清晰性的突然下降、从低分辨率到高分辨率的可感知的缓慢转变、当观看者移动观看角度时示出先前被遮挡的图像细节的模糊图像、当观看者开始采取静止视点时场景中仍在移动的所描绘对象等。
本文中所描述的实例实施例涉及流式传输视频数据。基于在第一时间之后从流式传输客户端装置接收的观看跟踪数据,确定观看者相对于由第一视频图像描绘的三维(3D)场景的目标观看方向,所述第一视频图像(a)在第一时间点之前已在视频流中流式传输到流式传输客户端装置,且(b)在第一时间点已通过流式传输客户端装置向观看者再现。基于观看者的目标观看方向,在第二视频图像中识别目标观看部分以在第一时间点之后的第二时间点之前在视频流中流式传输到流式传输客户端装置且在第二时间点再现。第二视频图像中的目标观看部分是以高于用以对第二视频图像中在目标观看部分外部的剩余非目标观看部分进行编码的非目标时空分辨率的目标时空分辨率编码到视频流中。经由视频流将包括以目标时空分辨率编码的目标观看部分和以非目标时空分辨率编码的剩余非目标观看部分的第二视频图像发射到流式传输客户端装置。
本文中所描述的实例实施例涉及向观看者呈现视频数据。在第一时间点之前从视频流解码第一视频图像。视频流由视频流式传输服务器流式传输。在显示装置上在第一时间点向观看者再现第一视频图像的同时,收集观看跟踪数据,基于所述数据确定观看者相对于由第一视频图像描绘的三维(3D)场景的目标观看方向。在第一时间点之后的第二时间点之前将观看跟踪数据发送到视频流式传输服务器。在第二时间点之前从视频流解码第二视频图像。第二视频图像包括具有高于用以对第二视频图像中在目标观看部分外部的剩余非目标观看部分进行编码的非目标时空分辨率的目标时空分辨率的目标观看部分。第二视频图像中的目标观看部分是由流式传输服务器基于从在第二时间点之前发送到视频流式传输服务器的观看跟踪数据确定的观看者的目标观看方向而识别。在第二时间点致使第二视频图像中的目标观看部分的至少一部分在显示装置上向观看者再现。
在一些实例实施例中,如本文中所描述的机构形成媒体处理系统的一部分,包含但不限于以下中的任一个:基于云的服务器、移动装置、虚拟现实系统、增强现实系统、平视显示装置、头盔式显示器装置、CAVE类系统、墙壁大小的显示器、视频游戏装置、显示装置、媒体播放器、媒体服务器、媒体制作系统、相机系统、基于住宅的系统、通信装置、视频处理系统、视频编解码器系统、播音室系统、流媒体服务器、基于云的内容服务系统、手持式装置、游戏机、电视、电影院显示器、笔记本计算机、上网本、平板计算机、蜂窝无线电话、电子书阅读器、销售点终端、台式计算机、计算机工作站、计算机服务器、计算机查询一体机或各种其它种类的终端和媒体处理单元。
所属领域的技术人员将容易清楚对优选实施例的各种修改以及本文中所描述的通用原理和特征。因此,本发明并非意图限于所示的实施例,而应被赋予与本文中所描述的原理和特征相一致的最广泛范围。
2.位置零时延
在如本文所描述的技术下,为了基本上减少将从上游装置发射到观看者的客户端装置且由客户端装置在后续时间以位置零时延再现的视频图像中的图像数据量,视频图像可由例如视频流式传输服务器等上游装置分割成目标观看部分和剩余非目标观看部分。如本文中所描述的实例视频图像可包含但不一定仅限于以下任一项:多视图图像、全向图像、全景图像、具有宽视野的图像、非多视图图像、非全景图像等等。视频图像的分割是基于由上游装置最近接收的在较早时间点在客户端装置正向观看者再现先前视频图像的同时收集的观看跟踪数据。
视频图像的目标观看部分不仅覆盖如由上游装置确定的在较早时间在观看者的视野中的最近确定的中央窝视图,而且覆盖在观看者的最近确定的中央窝视图外部的(非中央窝视图)环绕区。最近确定的中央窝视图可以由上游装置基于观看者的观看位置和方向而建立,所述观看位置和方向是由上游装置从由上游装置接收的在较早时间由观看者的客户端装置收集的最近接收观看跟踪数据最近确定。
可有意地选择视频图像的目标观看部分中的环绕区以覆盖在后续时间观看者的视野的(例如,预测、所有、最可能等)潜在中央窝视图。举例来说,环绕区的空间范围可由动态功能基于以下各项而确定或空间上划定(在2D或3D图像中):(i)可变发射时延时间(取决于流式传输服务器与客户端装置之间的通信链路)和在此时延时间期间观看者的中央窝视图的最大穿越距离,和/或(ii)基于视线移动的速度和/或预期视线位移/目的地(例如,朝向关注区的视线航向)的用于观看者视线的预测建模。
视频图像的目标观看部分可在从流式传输服务器到观看者的客户端装置的视频流中以与同一视频图像的非目标观看部分相比更高(例如,高得多、1.5倍、两倍、五倍等)的时空分辨率编码。
在当将再现视频图像时的后续时间,观看者可能已经移动到与由上游装置从在较早时间由观看者的客户端装置收集的最近接收观看跟踪数据最近确定的观看者的观看位置和方向不同的新观看位置和新观看方向。
在如本文所描述的技术下,在后续时间,即使在后续时间的观看者的新不同中央窝视图不匹配于在较早时间的观看者的中央窝视图,客户端装置也可从以较高时空分辨率编码的目标图像部分提取用于观看者的新不同中央窝视图的相对高质量图像数据,将提取的图像数据调整/内插到观看者的新不同视点,且在如从观看者的新不同视角看见的观看者的新不同中央窝视图中以相对高质量图像数据再现视频图像的一些或全部,而无需等待上游装置递送基于在后续时间的新不同视图位置和新不同视图方向产生的视频图像中的高质量中央窝视图图像部分,所述后续时间是在上游装置接收到告知所述新不同视图位置和新不同视图方向的新观看跟踪数据部分之后。
因此,客户端装置可在时间上以零时延再现观看者的新不同中央窝视图中的具有高质量成像的视频图像,尽管视频图像是在上游装置接收到可用以确定新不同中央窝视图的新观看跟踪数据之前编码。产生视频图像且将视频图像从上游装置发送到客户端装置确实仍带来时间延迟(例如,在帧间隔内、在两个帧间隔内等)。然而,在如本文所描述的技术下,每当观看者已经移动观看者的视野时,在观看者的当前中央窝视图中以相对高时空分辨率展示图像细节方面几乎不存在时间延迟(例如,位置零时延、零时间延迟、及时等)。因此,与并不实施如本文中所描述的技术的其它方法相比,如本文中所描述的技术提供观看者的用户体验的较好沉浸质量。
3.具有位置零时延的视频图像序列
图1说明根据由例如流式传输服务器等上游装置(未图示)从图像数据存储器检索的源图像产生且从上游装置发射/流式传输到观看者(102)的客户端装置(未图示)的视频图像的实例序列(表示为“帧1”、“帧2”、“帧3”、“帧4”、“帧5”等)。在一些实施例中,视频图像和/或源图像中的一些或全部可以是多视图图像。在一些实施例中,视频图像和/或源图像中的一些或全部可以是非多视图图像。
来自图像数据存储器的源图像中的每一个可具有相对高时空分辨率,且可具有的图像数据量可能太大而无法在相对短时间中从上游装置发射到客户端装置。
由上游装置产生且由客户端装置接收的视频图像中的每一个可以多个不同时空分辨率编码。更具体地,每一此类视频图像可以包括相对高时空分辨率的目标观看部分和相对低时空分辨率的剩余非目标观看部分,且因此具有相对小的图像数据量以在相对短时间中(例如,在10毫秒内、在20毫秒内、在50毫秒内等)从上游装置发射到客户端装置。
(例如,有序等)视频图像的序列通过与客户端装置结合操作的显示装置(未图示)在表示为“t1”到“t5”的有序时间点的序列向观看者(102)再现。更具体地,第一视频图像“帧1”是在第一时间点“t1”之前接收且在第一时间点“t1”再现。第二视频图像“帧2”是在第二时间点“t2”之前接收且在第二时间点“t2”再现。第三视频图像“帧3”是在第三时间点“t3”之前接收且在第三时间点“t3”再现。第四视频图像“帧4”是在第四时间点“t4”之前接收且在第四时间点“t4”再现。第五视频图像“帧5”是在第五时间点“t5”之前接收且在第五时间点“t5”再现。
在以显示装置再现视频图像序列的同时,可以同时(例如,连续地、在比有序时间点序列更时间密集的多个时间点中的每一时间点离散地等)由客户端装置或与客户端装置结合操作的跟踪装置实时或近实时地收集观看跟踪数据。观看跟踪数据可以通过从内到外跟踪、从外到内跟踪或前述的组合来收集。实例从内到外跟踪和从外到内跟踪可参见:第62/484,131号美国临时专利申请,申请标题为“被动式多可穿戴装置跟踪(PASSIVE MULTI-WEARABLE-DEVICES TRACKING)”,由阿吉特尼南(Ajit Ninan)和内尔马门(Neil Mammen)在2017年4月11日申请;第62/556,915号美国临时专利申请,由阿吉特尼南和内尔马门在2017年9月11日申请,申请标题为“用于AR/VR/MR的模块化且可拆卸的可穿戴装置(MODULAR ANDDETACHABLE WEARABLE DEVICES FOR AR/VR/MR)”,以上申请的全部内容如同在本文完全阐述一般特此以引用的方式并入本文中。
举例来说,在第一时间点“t1”,在第一视频图像“帧1”即将、正在和/或曾在显示装置上向观看者再现(例如,立即等)之前、(例如,同期等)同时和/或(例如,立即等)之后,客户端装置或与客户端装置结合操作的跟踪装置可以实时或近实时地同时收集观看跟踪数据的观看跟踪数据部分。此观看跟踪数据部分指示或可(例如,由客户端装置、由上游装置等)使用以确定或预测在第一时间点“t1”观看者的观看位置在哪里以及在第一时间点“t1”观看者的观看方向(或视线方向)指向哪里,例如以第一视频图像的所描绘场景(例如,所描绘3D场景等)为参考。
基于如观看跟踪数据中指示或另外从其确定的观看者的观看位置和方向,客户端装置可确定或空间上划定在第一时间点“t1”观看者的中央窝视图104-1。由于客户端装置可能与观看者位于同一地点,因此客户端装置可相对快速地(例如,在一毫秒的严格时间预算内、在小于一毫秒的严格时间预算内等)确定或预测观看者的观看方向和位置,以及观看者的中央窝视图(104-1)。换句话说,客户端装置可在几乎没有延迟的情况下预测或识别在第一时间点“t1”的观看者的中央窝视图,其可以不同于由上游装置使用以产生第一视频图像“帧1”的最近确定的中央窝视图。因此,客户端装置在几乎没有延迟的情况下预测或识别的在第一时间点“t1”的观看者的中央窝视图表示观看者将要观看第一视频图像“帧1”的同期中央窝视图。
基于在第一时间点“t1”的观看者的中央窝视图(104-1),客户端装置从第一视频图像“帧1”的目标观看部分提取/产生中央窝视图区用于在第一时间点“t1”再现以覆盖(例如,完全、具有安全裕量等)从观看跟踪数据确定/预测的在第一时间点“t1”的观看者的中央窝视图。
在一些实施例中,具有相对高时空分辨率的目标观看部分在(空间)大小上受到限制以减少从上游装置到客户端装置的发射数据的体积,且不覆盖观看者的整个视野或显示装置的整个检视区。
由于第一视频图像“帧1”的目标观看部分是以相对高时空分辨率接收,因此从第一视频图像“帧1”的目标观看部分提取的中央窝视图区可由客户端装置以高达与从上游装置接收的目标观看部分相同的相对高时空分辨率再现(例如,几乎没有上取样等)。
另外,基于在第一时间点“t1”的观看者的中央窝视图(104-1),客户端装置从第一视频图像“帧1”的目标观看部分以及剩余非目标观看部分提取/产生一或多个非中央窝视图区用于在第一时间点“t1”再现,以覆盖(例如,完全、具有安全裕量等)观看者的视野或在第一时间点“t1”在中央窝视图区(其覆盖观看者的中央窝视图)外部的显示装置的(例如,完全、大体上全部等)检视区。
由于第一视频图像“帧1”的非目标观看部分是以相对低时空分辨率接收,因此从第一视频图像“帧1”的目标观看部分提取的非中央窝视图区的一些或全部可以由客户端装置以高达从上游装置接收的目标观看部分的相对低时空分辨率再现。在一些实施例中,空间滤波可以应用于非中央窝视图区中的图像数据以将从上游装置接收的这些区中的空间分辨率减少到模拟观看者的视野中的现实世界场景的空间分辨率的一或多个特定空间分辨率。
另外,任选地或替代地,基于在第一时间点“t1”的观看者的观看位置和观看方向,客户端装置将从第一视频图像“帧1”的目标和非目标观看部分提取的中央窝视图和非中央窝视图区调整/内插到由在第一时间点“t1”的观看者的观看位置和观看方向表示的观看者的(例如,当前等)视点,然后再现第一视频图像“帧1”。具有经调整/内插到当前视点的中央窝视图和非中央窝视图区的第一视频图像“帧1”代替经解码的预先调整/预先内插的第一视频图像“帧1”而再现。
观看跟踪数据和/或针对第一时间点“t1”确定/测得的观看者的观看位置和方向和/或针对第一时间点“t1”确定的观看者的中央窝视图可以由客户端装置实时或近实时地提供到上游装置。
由于网络通信和数据处理中的时延(或时间延迟),观看跟踪数据和/或其它观看相关数据(例如,从观看跟踪数据导出的观看位置和/或观看方向等)可以由上游装置在与客户端装置用来确定观看者的观看位置和方向和/或观看者的中央窝视图的时间间隔(例如,在一毫秒内、在五毫秒内等)相比相对较长的延迟(例如,长于一毫秒、长于五毫秒等)中接收。
关于影响上游装置和客户端装置的相对较长(例如,往返等)延迟,到后续视频图像基于第一时间点“t1”的观看者的观看位置和观看方向而产生且由上游装置发送到客户端装置且接着由客户端装置在例如第二时间点“t2”等后续时间点再现的时候,观看者可能已经移动到新的不同观看位置和/或新的不同观看方向。
上游装置可以基于最近接收但可能将因往返延迟而过时的观看跟踪数据或观看相关数据而确定观看者的最近观看位置/方向和/或观看者的最近中央窝视图,并且进一步使用此类(延迟影响的)观看者的最近观看位置/方向和/或观看者的最近中央窝视图以产生例如第二视频图像“帧2”等后续视频图像。
借助于说明而非限制,上游装置在第一视频图像“帧1”经再现之后且在第二视频图像“帧2”经再现之前接收最近接收的观看跟踪数据部分,且基于最近接收的观看跟踪数据部分确定第一时间点“t1”的观看者的观看位置/方向和/或观看者的中央窝视图(104-1)为观看者的最近观看位置/方向和/或观看者的最近中央窝视图。
应注意在各种实施例中,在观看者正观看先前视频图像的同时基于最近确定的观看位置/方向产生的后续视频图像可能是或可能不是在由客户端装置向观看者再现的有序视频图像的序列中紧跟随先前视频图像的下一视频图像。
仅出于说明的目的,在当前的实例中,先前视频图像是第一视频图像“帧1”,而后续视频图像是在上游装置确定观看者的最近观看位置/方向和/或观看者的最近中央窝视图之后发送的第二视频图像“帧2”。
为了产生第二视频图像“帧2”,上游装置确定第二视频图像“帧2”的目标观看部分。取决于观看者的视线的移动,第二视频图像“帧2”的目标观看部分可以或可以不相同于第一视频图像“帧1”的目标观看部分。客户端装置可至少部分地基于针对第一时间点“t1”确定的观看者的中央窝视图确定第二视频图像“帧2”的目标观看部分。借助于比较,至少部分地基于针对在第一视频图像“帧1”之前的视频图像曾经再现的先前时间点(在第一时间点“t1”之前)确定的观看者的中央窝视图而确定第一视频图像“帧1”的目标观看部分。
在一些实施例中,第二视频图像“帧2”的目标观看部分不仅覆盖在第一时间点“t1”的观看者的中央窝视图的一些或全部,而且覆盖邻接和/或包围观看者的中央窝视图的环绕区。
可以至少部分地基于上游装置与客户端装置之间的发射时延时间确定第二视频图像“帧2”中的环绕区的空间范围。发射时延时间可为往返延迟时间,包含但不限于从客户端装置收集由上游装置最近接收的观看跟踪数据的时间点和客户端装置接收第二图像帧“帧2”的时间点的时间间隔的一些或全部。可以完全或部分地从由客户端装置和上游装置收集且在它们之间交换的过去的网络通信和数据处理统计来推断发射时间延迟。可以使用从上游装置发射到客户端装置的(例如,最近发射的等)视频图像的移动窗口(例如,在抖动缓冲器等中)推断发射时间延迟为平均或经平滑发射时间延迟。
可以至少部分地基于上游装置与客户端装置之间的发射时延时间的变化而确定第二视频图像“帧2”中的环绕区的空间范围。举例来说,当发射时延时间的变化发生时,可以用取决于发射时延时间的变化的较大或较小空间裕量来放大环绕区。
当发射时延时间或其变化大部分或完全用以确定或空间上划定环绕区时,环绕区可以经确定或空间上划定为第二视频图像“帧2”中均匀地围绕用以覆盖在第一时间点“t1”的观看者的中央窝视图的中央窝视图区为中心的空间区。
可以至少部分地基于第二时间点“t2”的预测视线位移而确定第二视频图像“帧2”中的环绕区的空间范围。可以基于由上游装置从作为观看跟踪数据的一部分收集的最近接收的观看跟踪数据部分确定的在第一时间点“t1”的观看者的位置、在第一时间点“t1”的观看者的视线速度、在第一时间点“t1”的观看者的视线加速度等而确定第二时间点“t2”的预测视线位移。
当发射时延时间或其变化大部分或完全用以确定或空间上划定环绕区时,环绕区可以经确定或空间上划定为第二视频图像“帧2”中具有细长形状的空间区,所述细长形状突出预测视线位移的方向和或覆盖对应于预测视线位移的估计空间轨迹的包围区域。
另外,任选地或替代地,可以至少部分地基于以下各项中的一或多个的组合确定第二视频图像“帧2”中的环绕区的空间范围:发射时延时间、发射时延时间的变化、预测视线位移等。
除确定第二视频图像“帧2”的目标观看部分之外,上游装置还可进一步确定第二视频图像“帧2”的一或多个非目标观看部分。第二视频图像“帧2”的目标观看部分可与第二视频图像“帧2”的剩余非目标观看部分不重叠(但邻接或毗邻)。
目标观看部分或剩余非目标观看部分中的任一个可具有多种规则或不规则空间形状中的空间形状。另外,任选地或替代地,目标观看部分可具有以下各项中的一或多个:与剩余非目标观看部分不同的空间形状、不同的大小、不同的纵横比等。
另外,任选地或替代地,可在由上游装置用以将视频图像序列流式传输到客户端装置的视频流中以第二视频图像“帧2”编码的图像元数据中识别目标观看部分和/或剩余非目标观看部分中的一些或全部(例如,作为关注区等)。客户端装置可使用图像元数据以识别第二视频图像“帧2”中的目标观看部分与剩余非目标观看部分。
第二视频图像“帧2”中的目标观看部分可以高于用以对第二视频图像“帧2”中在目标观看部分外部的剩余非目标观看部分进行编码的非目标时空分辨率的目标时空分辨率编码到视频流中。以目标时空分辨率编码的(第二视频图像的)目标观看部分和以非目标时空分辨率编码的(第二视频图像的)剩余非目标观看部分可经由视频流从上游发射到客户端装置。
在一些实施例中,例如第二视频图像“帧2”的目标观看部分等视频图像的目标观看部分是在视频流的一或多个第一视频子流中编码,而例如第二视频图像“帧2”的剩余非目标观看部分等视频图像的剩余非目标观看部分是在视频流的一或多个第二不同视频子流中编码。
由上游装置以相对高时空分辨率的目标观看部分和较低时空分辨率的剩余非目标观看部分发送的第二视频图像“帧2”是在第一时间点“t1”之后经由视频流接收且由客户端装置解码,具有涉及发射延迟和数据处理延迟的从第一时间点“t1”的时间延迟。出于说明的目的,第二视频图像“帧2”是在第二时间点“t2”之前由客户端装置解码。
如在第二时间点“t2”,在第二视频图像“帧2”即将、正在和/或曾在显示装置上向观看者再现之前、(例如,同期等)同时和/或(例如,立即等)之后再现第一视频图像“帧1”的情况下,客户端装置或与客户端装置结合操作的跟踪装置可以实时或近实时地同时收集观看跟踪数据的观看跟踪数据部分。此观看跟踪数据部分指示或可(例如,由客户端装置、由上游装置等)使用以确定或预测在第二时间点“t2”观看者的观看位置在哪里以及在第二时间点“t2”观看者的观看方向(或视线方向)指向哪里,例如以第二视频图像“帧2”的所描绘场景(例如,所描绘3D场景等)为参考。
基于如观看跟踪数据中指示或另外从其确定的观看者的观看位置和观看方向,客户端装置可确定或空间上划定在第二时间点“t2”观看者的中央窝视图104-2。由于客户端装置可能与观看者位于同一地点,因此客户端装置可相对快速地(例如,在一毫秒的严格时间预算内、在小于一毫秒的严格时间预算内等)确定或预测观看者的观看方向和位置,以及观看者的中央窝视图(104-2)。
基于在第二时间点“t2”的观看者的中央窝视图(104-2),客户端装置从第二视频图像“帧2”的目标观看部分提取/产生中央窝视图区用于在第二时间点“t2”再现以覆盖(例如,完全、具有安全裕量等)从观看跟踪数据确定/预测的在第二时间点“t2”的观看者的中央窝视图。客户端装置可以从视频流解码图像元数据。图像元数据可以包含与第二视频图像相关的部分,其识别第二视频图像中的目标观看部分与剩余非目标观看部分。
由于第二视频图像“帧2”的目标观看部分是以相对高时空分辨率接收,因此从第二视频图像“帧2”的目标观看部分提取的中央窝视图区可由客户端装置以高达与从上游装置接收目标观看部分相同的相对高时空分辨率再现。
另外,基于在第二时间点“t2”的观看者的中央窝视图(104-2),客户端装置从第二视频图像“帧2”的目标观看部分以及剩余非目标观看部分提取/产生一或多个非中央窝视图区用于在第二时间点“t2”再现,以覆盖(例如,完全、具有安全裕量等)观看者的视野或在第二时间点“t2”在中央窝视图区(其覆盖观看者的中央窝视图)外部的显示装置的(例如,完全、大体上全部等)检视区。
在一些实施例中,具有相对高时空分辨率的目标观看部分在(空间)大小方面受到限制且不覆盖观看者的整个视野或显示装置的整个检视区。由于第二视频图像“帧2”的非目标观看部分是以相对低时空分辨率接收,因此从第二视频图像“帧2”的目标观看部分提取的非中央窝视图区的一些或全部可以由客户端装置以高达从上游装置接收的目标观看部分的相对低时空分辨率再现。在一些实施例中,空间滤波可以应用于非中央窝视图区中的图像数据以将从上游装置接收的这些区中的空间分辨率减少到相仿或模拟观看者的视野中的现实世界场景的空间分辨率的一或多个特定空间分辨率。
另外,任选地或替代地,基于在第二时间点“t2”的观看者的观看位置和观看方向,客户端装置将从第二视频图像“帧2”的目标和非目标观看部分提取的中央窝视图和非中央窝视图区调整/内插到由在第二时间点“t2”的观看者的观看位置和观看方向表示的观看者的(例如,当前等)视点,然后再现第二视频图像“帧2”。具有经调整/内插到当前视点的中央窝视图和非中央窝视图区的第二视频图像“帧2”代替经解码的预先调整/预先内插的第二视频图像“帧2”而再现。
观看跟踪数据和/或针对第二时间点“t2”确定/测得的观看者的观看位置和方向和/或针对第一时间点“t2”确定的观看者的中央窝视图可以由客户端装置实时或近实时地提供到上游装置。观看跟踪数据和观看相关数据可由上游装置使用以从图像数据存储器检索后续源图像,从源图像产生例如“帧3”、“帧4”、“帧5”等等后续视频图像,将后续视频图像(2)发射到客户端装置等。另外,任选地或替代地,检视区信息指定或告知显示装置的检视区可以由客户端装置发送到上游装置。检视区信息可由上游服务器使用作为确定用于覆盖显示装置的检视区的视频图像大小的基础。
第二视频图像“帧2”中的目标观看部分的至少一部分可由客户端装置在第二时间点“t2”在显示装置上向观看者再现。在显示装置上再现的目标观看部分的部分包含对应于在第二时间点“t2”观看者的视野中的中央窝视图的中央窝视图区。
4.环绕区
图2A说明由上游装置以差分时空分辨率编码的实例视频图像200-1(例如,图1的第二视频图像“帧2”等)。视频图像(200-1)包括相对高时空分辨率的目标观看部分202-1以及一或多个较低时空分辨率的剩余非目标观看部分204-1。
可以通过从在观看者在再现和观看视频图像(200-1)的先前视频图像(例如,第一视频图像“帧1”等)的同时(或紧接在之前或之后)收集的观看跟踪数据确定的观看者的最近接收观看位置和观看方向来确定例如202-1等目标观看部分的空间位置(例如,质心位置、中心方向等)。
选择目标观看部分(202-1)以不仅覆盖对应于观看者的最近接收观看位置和观看方向的中央窝视图(例如,104-1等),而且还有当再现视频图像(200-1)时覆盖大体上全部可能的中央窝视图(例如,104-2等)的环绕区212-1,如从例如时间延迟、视线移动、视频图像(200-1)中的关注区等一系列因数所估计。
例如202-1等目标观看部分的(例如,整个等)空间范围可以基于以下各项中的一或多个而确定或划定:不依赖方向的目标观看确定因数、方向相依性目标观看确定因数等。实例不依赖于方向的目标观看确定因数可以包含但不一定仅限于以下各项中的任一个:发射延迟、数据处理延迟、安全裕量、感测数据获取时间、感测数据分析时间等。实例方向相依性目标观看确定因数可以包含但不一定仅限于以下各项中的任一个:视线速度(或观看者的观看位置和/或观看方向的改变速率)、视线加速度、视频图像中的关注区等。如图2A中所图示,目标观看部分(202-1)的空间范围可以通过一或多个不依赖于方向的目标观看确定因数来确定,例如以下各项中的一或多个:发射延迟、数据处理延迟、安全裕量、感测数据获取时间、感测数据分析时间等。与观看者对先前视频图像(在本实例中为第一视频图像“帧1”)的观看相关的观看跟踪数据可以指示在观看者在再现和观看先前视频图像的同时观看者的视线是静止的。
图2B说明由上游装置以差分时空分辨率编码的实例视频图像200-2(例如,图1的第三视频图像“帧3”等)。视频图像(200-2)包括相对高时空分辨率的目标观看部分202-2以及一或多个较低时空分辨率的剩余非目标观看部分204-2。
可以通过从在观看者在再现和观看视频图像(200-2)的先前视频图像(例如,第二视频图像“帧2”等)的同时(或紧接在之前或之后)收集的观看跟踪数据确定的观看者的最近接收观看位置和观看方向来确定例如202-2等目标观看部分的空间位置(例如,质心位置、中心方向等)。
选择目标观看部分(202-2)以不仅覆盖对应于观看者的最近接收观看位置和观看方向的中央窝视图(例如,104-2等),而且还有当再现视频图像(200-2)时覆盖大体上全部可能的中央窝视图(例如,104-3等)的环绕区212-2,如从例如时间延迟、视线移动、视频图像(200-2)中的关注区等一系列因数所估计。
如图2B中所说明,目标观看部分(202-2)的空间范围可以至少部分地通过一或多个方向相依性目标确定因数来确定,例如以下各项中的一或多个:视线速度、视线加速度、关注区等。与观看者对先前视频图像(在本实例中为第二视频图像“帧2”)的观看相关的观看跟踪数据可以指示在观看者正再现和观看先前视频图像的同时观看者的视线正以非零速度和/或非零加速度移动。
图2C说明由上游装置以差分时空分辨率编码的实例视频图像200-3(例如,图1的第四视频图像“帧4”等)。视频图像(200-3)包括相对高时空分辨率的目标观看部分202-3以及一或多个较低时空分辨率的剩余非目标观看部分204-3。
可以通过从在观看者在再现和观看视频图像(200-3)的先前视频图像(例如,第三视频图像“帧3”等)的同时(或紧接在之前或之后)收集的观看跟踪数据确定的观看者的最近接收观看位置和观看方向来确定例如202-3等目标观看部分的空间位置(例如,质心位置、中心方向等)。
选择目标观看部分(202-3)以不仅覆盖对应于观看者的最近接收观看位置和观看方向的中央窝视图(例如,104-3等),而且还有当再现视频图像(200-3)时覆盖大体上全部可能的中央窝视图(例如,104-4等)的环绕区212-3,如从例如时间延迟、视线移动、视频图像(200-3)中的关注区等一系列因数所估计。
如图2C中所说明,目标观看部分(202-3)的空间范围可以至少部分地通过一或多个不依赖于方向和/或方向相依性目标观看确定因数来确定,例如以下各项中的一或多个:发射延迟、数据处理延迟、安全裕量、感测数据获取时间、感测数据分析时间、视线速度、视线加速度、关注区等。与观看者对先前图像的观看相关的观看跟踪数据可以指示在观看者正再现和观看先前视频图像的同时观看者的视线正以非零速度和/或非零加速度移动。类似于图2B的目标观看部分(202-2),图2C的目标观看部分(202-3)是具有基于方向相依性因数获得的方向性的细长区(沿着纵向方向),所述方向相依性因数例如关注区、根据在观看者再现和观看先前视频图像的同时收集的与先前视频图像(在本实例中为第三视频图像“帧3”)相关的观看跟踪数据确定的视线速度/加速度等。然而,由于与图2B的目标观看部分(202-2)相比例如增加的时间延迟等不依赖于方向的因数,图2C的目标观看部分(202-3)具有沿所述细长形状的横向方向的较大宽度。
5.视野
图2D说明观看者(例如,图1的102等)的实例视野206(例如对于观看者的一只眼睛等)。观看者的视线方向在视野(206)中由水平轴线208(例如,沿着瞳孔间距离)和垂直轴线(210)的相交点表示。同心圆形线中的每一者指示观看者的视野中参照观看者的视线方向的某一角度。
在一些实施例中,如本文中所描述的视频图像(例如,图1的第二视频图像“帧2”、图2A的视频图像200-1等)可以在与由观看者(102)佩戴或使用的客户端装置结合操作的显示装置的检视区中再现,以覆盖观看者的视野(206)的一些或全部。
如图2D中所图示,视频图像(图2A的200-1)的目标观看部分(例如,图2A的202-1等)包括中央窝视图(例如,图2A的104-1等),其覆盖(例如,完全、大体上等)观看者的中央窝视觉多达观看者的视野中的观看者近外围视觉中的一些或全部(及可能甚至安全区)。在一些实施例中,对由客户端装置经由视频流接收的目标观看部分(202-1)的中央窝视图(104-1)几乎不执行上取样操作。
视频图像(图2A的200-1)的目标观看部分(202-1)进一步包括环绕区(例如,图2A的212-1等),其覆盖邻近和/或邻接于观看者的视野(206)的中央窝视图(104-1)的非中央窝视图区。
另外,任选地或替代地,视频图像(图2A的200-1)可进一步包括在目标观看部分(202-1)外部的一或多个剩余非目标观看部分。在一些实施例中,剩余非目标观看部分中的图像数据可以与目标观看部分(202-1)中的图像数据相比相对低的时空分辨率译码。另外,任选地或替代地,剩余非目标观看部分中的图像数据可以与目标观看部分(202-1)中的图像数据相比更少的颜色信息(或更少的色度数据)译码。
如本文中所描述具有不同图像性质(例如,空间分辨率、帧速率、动态范围、色域等)的目标观看部分和非目标观看部分可以保持在单独的存储缓冲器中(例如,上游装置中、客户端装置中等)。在一些实施例中,这些存储缓冲器中的一些或全部可以相同帧速率(或缓冲器刷新率)更新。在其它实施例中,存储缓冲器中的至少一个可以与用以更新其它存储缓冲器的帧速率(或缓冲器刷新率)不同的帧速率(或缓冲器刷新率)更新。
6.3D和多视图图像
如本文中所描述的视频图像可能或可能不表示二维像素阵列。在各种实施例中,如本文中所描述的视频图像可指代以下各项中的任一个:全向图像、非全向、立体图像、全景图像、非全景图像、多视图图像、多视图图像中的经取样视图、多视图图像中具有多个图像层的经取样视图、纹理图像、光场再现图像等。因此,视图部分,例如本文所描述的目标观看部分或非目标观看部分,可能或可能不表示2D视频图像中的像素子集。在各种实施例中,视图部分,例如本文所描述的目标观看部分或非目标观看部分,可指代以下各项中的任一个中的图像部分:全向图像、非全向、立体图像、全景图像、非全景图像、多视图图像、多视图图像中的经取样视图、多视图图像中具有多个图像层的经取样视图、纹理图像、光场再现图像等。
举例来说,在一些实施例中,如本文中所描述的视频图像可指代包括从观看体积中的多个视点观看的多个经取样视图的多视图图像,在所述观看体积中观看者可改变对由所述多视图图像描绘的3D场景的观看位置和观看角度。
在一些实施例中,所述多个经取样视图中的每一经取样视图可以包括从观看体积中的所述多个视点中的相应视点观看的全景纹理图像和对应全景深度图像。
图2E说明实例观看体积214,多视图图像(例如,图1的第二视频图像“帧2”、图2A的视频图像200-1等)的多个经取样视图源自所述观看体积。所述多视图图像的所述多个经取样视图包括从贯穿观看体积(214)分布的多个视点看见的多个经取样全景纹理图像和多个经取样全景深度图。
在一些实施例中,基于由上游装置(例如,从视频流中的多视图图像选择和发射经编码视频图像的视频编码器等)从观看者的客户端装置(例如,从视频流接收和解码经编码视频图像的视频解码器)接收的最近接收观看跟踪数据,观看者可以在观看体积(214)内部使观看者的视野(例如,如图2D中所图示等)指向在目标观看方向220上定向且源自目标观看位置218的目标观看。多视图图像中的相邻经取样视图(例如,216-1、216-2等)的集合可以基于目标观看位置(218)和/或目标观看方向(220)中的一者或两者而识别,且可以表示多视图图像中的多个经取样视图中的经取样视图的恰当子集。
在当前的实例中,由于相邻经取样视图(例如,216-1、216-2等)中的每一经取样视图包括经取样全景图像和经取样全景深度图,因此例如无论目标观看的方向是什么,存取这些相邻经取样视图都足以存取被这些相邻经取样视图中的视图的宽场覆盖的目标观看方向的图像和深度数据。因此,合成纹理图像以覆盖显示装置的检视区(其可覆盖观看者的视野的一些或全部)以用于目标观看可基于相邻经取样视图的集合中的经取样视图的相对小总数目,而与目标观看的位置无关以及与观看体积(214)的其余部分中的非相邻取样视图无关。
在如本文所描述的技术下,相邻经取样视图的集合中的每一经取样视图的经取样全景纹理图像和经取样全景深度图可以在从上游装置到观看者的客户端装置的视频流中以差分时空分辨率编码。
举例来说,在视频图像(或多视图图像)的经取样全景纹理图像或深度图中,可以基于目标观看位置(218)和目标观看方向(220)确定或空间上划定目标图像(或目标深度图)部分。可以选择目标图像(或目标深度图)部分以不仅覆盖观看者的视觉中的观看者的中央窝视图,而且还有当正向观看者再现从视频图像(或多视图图像)的相邻经取样视图集合(直接或间接)构造的目标观看图像时覆盖(例如,所有等)可能的中央窝视图的环绕区。
视频图像(或多视图图像)的经取样全景纹理图像或深度图中的目标图像(或目标深度图)部分中的图像/深度数据可以在视频流中以相对高时空分辨率编码。视频图像(或多视图图像)的经取样全景纹理图像或深度图中的剩余非目标图像(或剩余非目标深度图)部分中的图像/深度数据可以在视频流中以相对低时空分辨率编码。
在一些实施例中,所述多个经取样视图中的每一经取样视图可以包括从源自观看体积(例如,214等)中的多个视点的多个视图方向观看的多个纹理图像和多个深度图。
在一些实施例中,基于由上游装置(例如,从视频流中的多视图图像选择和发射经编码视频图像的视频编码器等)从观看者的客户端装置(例如,从视频流接收和解码经编码视频图像的视频解码器等)接收的最近接收观看跟踪数据,观看者可以在观看体积(214)内部使观看者的视野(例如,如图2D中所图示等)指向从目标观看方向(例如,220等)和目标观看位置(例如,218等)定向的目标观看。多视图图像中的相邻经取样视图(例如,216-1、216-2等)的集合可以基于目标观看位置(218)和/或目标观看方向(220)中的一者或两者而识别,且可以表示多视图图像中的多个经取样视图中的经取样视图的恰当子集。
在当前的实例中,由于相邻经取样视图(例如,216-1、216-2等)中的每一经取样视图包括多个纹理图像和多个深度图,因此存取这些相邻经取样视图足以存取被这些相邻经取样视图中的视图的宽场覆盖的目标观看方向的图像和深度数据。因此,合成纹理图像以覆盖显示装置的检视区(其可覆盖观看者的视野的一些或全部)以用于目标观看可基于相邻经取样视图的集合中的经取样视图的相对小总数目,而与目标观看的位置无关以及与观看体积(214)的其余部分中的非相邻取样视图无关。
在如本文所描述的技术下,来自相邻经取样视图集合中的经取样视图的纹理图像和深度图可以在从上游装置到观看者的客户端装置的视频流中以差分时空分辨率编码。
举例来说,在视频图像(或多视图图像)的纹理图像或深度图中,可以基于目标观看位置(218)和目标观看方向(220)确定或空间上划定目标图像(或目标深度图)部分。可以选择目标图像(或目标深度图)部分以不仅覆盖观看者的视觉中的观看者的中央窝视图,而且还有当正向观看者再现从视频图像(或多视图图像)的相邻经取样视图集合(直接或间接)构造的目标观看图像时覆盖(例如,所有等)可能的中央窝视图的环绕区。
视频图像(或多视图图像)的纹理图像或深度图中的目标图像(或目标深度图)部分中的图像/深度数据可以在视频流中以相对高时空分辨率编码。视频图像(或多视图图像)的纹理图像或深度图中的剩余非目标图像(或剩余非目标深度图)区中的图像/深度数据可以在视频流中以相对低时空分辨率编码。
实例多视图图像和从多视图图像构造的目标观看图像可参见:第62/518,187号美国临时专利申请,申请标题为“对多视图视频进行译码(CODING MULTIVIEW VIDEO)”,哈里查兰拉克什曼(Haricharan Lakshman)和阿吉特尼南(Ajit Ninan)在2017年6月12日申请;第62/582,445号美国临时专利申请,申请标题为“参数化用于体积观看的3D场景(PARAMETERIZING 3D SCENES FOR VOLUMETRIC VIEWING)”,哈里查兰拉克什曼和阿吉特尼南2017年11月7日申请,以上申请的全部内容如同在本文完全阐述一般特此以引用的方式并入本文中。
在一些实施例中,一或多个“INTER_VIEW”预测方法用于压缩将从上游装置发射到下游客户端装置的数据量。无论是否包含在相邻经取样视图集合中,关键视图图像都可以连同作为包含在相邻经取样视图集合中的经取样视图的任何相依视图图像一起编码到多视图视频信号或位流中。另外,任选地或替代地,除“INTER_VIEW”预测方法外的零个、一或多个其它预测方法(例如,“INTER”预测方法、“INTRA”预测方法等)可用于在对将发送到下游装置的关键视图图像和相依视图图像中的一些或全部进行编码时的预测(或压缩)。结合多视图图像的实例“INTER_VIEW”、“INTER”和“INTRA”预测方法可参见:第62/518,187号美国临时专利申请,申请标题为“对多视图视频进行译码(CODING MULTIVIEW VIDEO)”,哈里查兰拉克什曼和阿吉特尼南在2017年6月12日申请,其全部内容如同在本文完全阐述一般特此以引用的方式并入本文中。
在一些实施例中,上游装置将在编码中使用的预测方法、在预测方法中使用的操作参数、在编码中使用的(例如,非线性等)映射函数(例如,光学传递函数、电传递函数、感知量化函数、HLG函数、基于γ的函数、色调映射函数、逆色调映射函数等)、在映射函数中使用的操作参数(例如,γ值、最小明度、最大明度、中间色调明度、枢轴、偏移、斜率等)等用信号发送到下游装置。举例来说,识别预测方法的索引或ID、识别映射函数的索引或ID、用于这些方法和/或函数的操作参数等中的一些或全部可以在带内编码(例如,图像数据有效负载等中的填充元素、标头字段等)或与图像数据分开地编码(例如,作为元数据字段、在单独元数据子流中等)。
7.流式传输服务器和客户端
图3A说明包括图像处理器302、多分辨率图像产生器312等的实例视频流式传输服务器300。在一些实施例中,图像处理器(302)包括图像接收器306、目标区识别器308、数据存储库310等。视频流式传输服务器(300)的组件中的一些或全部可以通过一或多个装置、模块、单元等以软件、硬件、软件和硬件的组合等来实施。
在一些实施例中,图像接收器(306)包括软件、硬件、软件和硬件的组合等,其经配置以:从例如图像数据存储器的图像源、基于云的图像源、结合VR应用程序的相机系统、AR应用程序、远程呈现应用程序、显示应用程序等接收输入图像流304;将输入图像流(304)解码成一或多个输入视频图像(例如,输入视频图像的序列等);等。
在一些实施例中,目标区识别器(308)包括软件、硬件、软件和硬件的组合等,其经配置以识别或空间上划定输入视频图像中的目标观看部分(或目标深度图)。将输入视频图像识别为目标观看部分和剩余非目标观看部分可以是但不仅限于基于单个图像、基于多图像、基于图片群组(GOP)、基于场景、基于多场景等。
在一些实施例中,可以基于以输入图像流(304)接收且从其解码的图像元数据中的视频元数据而识别或空间上划定视频图像中的关注区。
另外,任选地或替代地,在一些实施例中,可以基于由目标区识别器(308)产生的视频元数据而识别或空间上划定视频图像中的关注区。
在一些实施例中,如本文中所描述的视频元数据可以由视频流式传输服务器(300)和/或上游系统通过来自视频专业人员的用户输入而产生,所述视频专业人员例如导演、颜色分析师、视频工程师等。在一些实施例中,上游系统可以是上游视频流式传输服务器,其以(例如,均匀)高空间分辨率产生输入图像流(304)和/或通过一或多个高带宽网络连接将输入图像流(304)递送到视频流式传输服务器(300)。
在一些实施例中,如本文中所描述的视频元数据可以由视频流式传输服务器(300)和/或上游系统通过对输入图像流(304)执行图像内容分析而产生。此类图像内容分析可使用以下各项中的一或多个来执行:分析规则、图像分析工具、例如哈尔(Haar)滤波器、小波分解、基于傅里叶空间的空间分辨率跟踪等一或多个计算机视觉技术的任何组合。
在一些实施例中,如本文中所描述的视频元数据可由视频流式传输服务器(300)和/或上游系统基于由观看者的客户端装置收集的观看跟踪数据而产生。
在一些实施例中,数据存储库(310)表示一或多个数据库、一或多个数据存储单元/模块/装置等,其经配置以支持相对于输入视频图像、例如视频元数据等图像元数据等中的一些或全部的例如存储、更新、检索、删除等操作。
在一些实施例中,多分辨率图像产生器(308)包括软件、硬件、软件和硬件的组合等,其经配置以:经由双向数据流314接收观看者的视野(或视场)相对于其中将在观看者的视野中再现视频内容的空间坐标系随时间的观看角度、大小、纵横比等;产生包括以不同空间分辨率和/或不同帧速率编码的目标和非目标观看部分的总体视频流;经由双向数据流314将所述总体视频流提供/发射(直接地或通过中间装置间接地等)到视频流式传输客户端、显示装置、存储装置等。
另外,任选地或替代地,图像处理操作中的一些或全部,例如图像旋转确定、图像对准分析、场景切割检测、坐标系之间的变换、时间衰减、显示管理、内容映射、颜色映射、视场管理等,可由视频流式传输服务器(300)执行。
视频流式传输服务器(300)可用以支持实时视觉应用、近实时视觉应用、非实时视觉应用、虚拟现实、增强现实、头盔式显示器应用、平视显示器应用、游戏、2D显示应用、3D显示应用、多视图显示应用等。举例来说,视频图像、图像元数据、检视区参数(例如,检视区中心坐标、纵横比等)、每检视区图像元数据、检视区图像数据等中的一些或全部由视频流式传输服务器(300)实时地、近实时地等产生或存取。
图3B说明包括多分辨率图像接收器316、显示管理器318和图像显示器320等的实例图像再现系统324-1。图像再现系统(324-1)的组件中的一些或全部可以通过一或多个装置、模块、单元等以软件、硬件、软件和硬件的组合等来实施。
在一些实施例中,多分辨率图像接收器(316)包括软件、硬件、软件和硬件的组合等,其经配置以:经由双向数据流314发送观看者的视野(或视场)相对于其中将在观看者的视野中再现视频内容的空间坐标系随时间的观看角度、大小、纵横比等;接收包括以不同空间分辨率和/或不同帧速率编码的目标和非目标观看部分的总体视频流;等。
观看者可能在运行时间移动观看者的观看位置和观看角度。图像再现系统(324-1)经配置以产生或合成将以观看者的显示装置再现的视频内容。在一些实施例中,来自所接收视频流中的一或多个视频子流的视频数据可以经拼接或合成在一起以形成统一图像。可以执行去块操作、去梯化操作、模糊操作等,作为合成将以观看者的显示装置再现的视频内容的部分。
在一些实施例中,显示管理器(318)包括软件、硬件、软件和硬件的组合等,其经配置以:对将在图像显示器(320)上再现的视频内容执行显示管理操作,其中所述视频内容是从由图像再现系统(324-1)接收的总体视频流中的视频子流解码和合成;将经显示管理的视频内容输出到图像显示器(320)用于零时延再现;等。
另外,任选地或替代地,图像再现操作中的一些或全部,例如面部检测、头部跟踪、运动检测、位置检测、旋转确定、坐标系之间的变换、时变图像参数的时间衰减、图像参数的任何其它时间操纵、显示管理、内容映射、色调映射、颜色映射、视场管理、预测、通过鼠标、轨迹球、键盘、脚跟踪器、实际身体运动的导航等,可由图像再现系统(324-1)执行。
图像再现系统(324-1)可用以支持实时视觉应用、近实时视觉应用、非实时视觉应用、虚拟现实、增强现实、头盔式显示器应用、平视显示器应用、游戏、2D显示应用、3D显示应用、多视图显示应用等。举例来说,视频图像、图像元数据、检视区参数(例如,检视区中心坐标、纵横比等)、每检视区图像元数据、检视区图像数据等中的一些或全部由图像再现系统(324-1)实时地、近实时地等产生或存取。
如本文中所描述的技术可实施于多种系统架构中。如本文中所描述的一些或所有图像处理操作可由基于云的视频流式传输服务器、与视频流式传输客户端位于同一地点或并入到其中的视频流式传输服务器、图像再现系统、图像再现系统、显示装置等中的一或多个来实施。基于例如视觉应用的类型、带宽/位速率预算、接收方装置的计算能力、资源、负载等、视频流式传输服务器和/或计算机网络的计算能力、资源、负载等等一或多个因数,一些图像处理操作可由视频流式传输服务器执行,而一些其它图像处理操作可由视频流式传输客户端、图像再现系统、显示装置等执行。
图3C说明其中多分辨率图像产生器(例如,312等)并入到边缘视频流式传输服务器324-2中的实例配置。在一些实施例中,图3C的图像处理器302可以是基于云的。在一些实施例中,图像处理器(302)可位于与例如边缘视频流式传输服务器(324-2)等边缘装置分开的核心网络中。如图3A中,图像处理器(302)可以包括图像接收器306、目标区识别器308、数据存储库310等。图像处理器(302)可表示以相对高位速率与边缘视频流式传输服务器(324-2)通信的上游视频流式传输服务器。图像处理器(302)和/或边缘视频流式传输服务器(324-2)的组件中的一些或全部可通过一或多个装置、模块、单元等以软件、硬件、软件和硬件的组合等来实施。
在一些实施例中,图像处理器(302)经配置以在数据流322中将视频图像和视频元数据输出到下游装置,所述下游装置中的一个可为边缘视频流式传输服务器(324-2)。
在一些实施例中,边缘视频流式传输服务器(324-2)或其中的多分辨率图像产生器(312)包括软件、硬件、软件和硬件的组合等,其经配置以:确定观看者的视野(或视场)相对于其中将在观看者的视野中再现视频内容的空间坐标系随时间的观看角度、大小、纵横比等;产生包括以不同空间分辨率和/或不同帧速率编码的目标和非目标观看部分的总体视频流;经由双向数据流314直接地或通过中间装置间接地等将总体视频流提供/发射到视频流式传输客户端、显示装置、存储装置等。
在一些实施例中,图像再现装置(例如,324-1)或其中的显示管理器(例如,图2B的318)包括软件、硬件、软件和硬件的组合等,其经配置以:对将在图像显示器(320)上再现的视频内容执行显示管理操作,其中所述视频内容是从由图像再现系统(324-1)接收的总体视频流解码和合成;将经显示管理的视频内容输出到图像显示器(320)用于零时延再现;等。
8.实例过程流
图4A说明根据本发明的实例实施例的实例过程流。在一些实例实施例中,一或多个计算装置或组件可执行此过程流。在框402中,基于在第一时间之后从流式传输客户端装置接收的观看跟踪数据,例如本地或远程视频流式传输服务器等上游装置确定观看者相对于由第一视频图像描绘的三维(3D)场景的目标观看方向,所述第一视频图像(a)在第一时间点之前已在视频流中流式传输到流式传输客户端装置,以及(b)在第一时间点已通过流式传输客户端装置向观看者再现。
在框404中,基于观看者的目标观看方向,上游装置识别第二视频图像中的目标观看部分以在第一时间点之后的第二时间点之前在视频流中流式传输到流式传输客户端装置且在第二时间点再现。
在框406中,上游装置将第二视频图像中的目标观看部分以高于用以对第二视频图像中在目标观看部分外部的剩余非目标观看部分进行编码的非目标时空分辨率的目标时空分辨率编码到视频流中。
在框408中,上游装置经由视频流向流式传输客户端装置发射第二视频图像,其包括以目标时空分辨率编码的目标观看部分和以非目标时空分辨率编码的剩余非目标观看部分。
在一实施例中,在向观看者再现的视频图像的序列中第二视频图像紧接在第一视频图像之后。
在一实施例中,在向观看者再现的视频图像的序列中第二视频图像不紧接在第一视频图像之后。
在一实施例中,将在第二时间点再现的第二视频图像中的目标观看部分包含中央窝视图区,其对应于基于观看者对在第一时间点再现的第一视频图像的目标观看方向而确定的在第一时间点观看者的视野中的中央窝视图;将在第二时间点再现的目标观看部分包含空间上邻接于目标观看部分的中央窝视图区但在其外部的环绕区。
在一实施例中,上游装置进一步经配置以至少部分地基于发射时延时间动态地确定第二视频图像中的环绕区的空间范围。
在一实施例中,上游装置进一步经配置以至少部分地基于发射时延时间的变化动态地确定第二视频图像中的环绕区的空间范围。
在一实施例中,环绕区均匀地围绕中央窝视图区为中心。
在一实施例中,上游装置进一步经配置以至少部分地基于预测视线位移动态地确定第二视频图像中的环绕区的空间范围。
在一实施例中,预测视线位移是基于根据从流式传输客户端装置接收的观看方向数据确定的视线速度而确定。在一实施例中,环绕区具有突出预测视线位移的方向的细长形状。
在一实施例中,上游装置进一步经配置以至少部分地基于以下各项中的一或多个动态地确定第二视频图像中的环绕区的空间范围:发射时延时间、发射时延时间的变化、预测视线位移等。
在一实施例中,目标观看部分与剩余非目标观看部分不重叠。
在一实施例中,目标观看部分具有以下各项中的一或多个:与剩余非目标观看部分不同的空间形状、不同的大小、不同的纵横比等。
在一实施例中,在视频流中以第二视频图像编码的图像元数据中识别目标观看部分;流式传输客户端装置将使用图像元数据以识别第二视频图像中的目标观看部分与剩余非目标观看部分。
在一实施例中,在视频流的一或多个第一视频子流中编码目标观看部分;在视频流的一或多个第二不同视频子流中编码剩余非目标观看部分。
在一实施例中,上游装置进一步经配置以执行:基于在第二时间点之后从流式传输客户端装置接收的第二观看跟踪数据,确定观看者相对于由第二视频图像描绘的第二3D场景的第二目标观看方向,所述第二视频图像(a)在第二时间点之前已在所述视频流中流式传输到流式传输客户端装置,以及(b)在第二时间点已通过流式传输客户端装置向观看者再现;基于观看者的第二目标观看方向,识别第三视频图像中的第二目标观看部分以在第二时间点之后的第三时间点之前在视频流中流式传输到流式传输客户端装置且在第三时间点再现;将第三视频图像中的第二目标观看部分以高于用以对第三视频图像中在第二目标观看部分外部的第二剩余非目标观看部分进行编码的非目标时空分辨率的目标时空分辨率编码到视频流中;经由视频流向流式传输客户端装置发射包括以目标时空分辨率编码的第二目标观看部分和以非目标时空分辨率编码的第二剩余非目标观看部分的第三视频图像。
图4B说明根据本发明的实例实施例的实例过程流。在一些实例实施例中,一或多个计算装置或组件可执行此过程流。在框452中,例如视频流式传输客户端等客户端装置在第一时间点之前从视频流解码第一视频图像,所述视频流是由视频流式传输服务器流式传输。
在框454中,在第一时间点在显示装置上向观看者再现第一视频图像的同时,客户端装置收集观看跟踪数据,将基于所述观看跟踪数据确定观看者相对于由第一视频图像描绘的三维(3D)场景的目标观看方向。
在框456中,客户端装置在第一时间点之后的第二时间点之前将观看跟踪数据发送到视频流式传输服务器。
在框458中,客户端装置在第二时间点之前从视频流解码第二视频图像,所述第二视频图像包括目标观看部分,所述目标观看部分具有高于用以对第二视频图像中在目标观看部分外部的剩余非目标观看部分进行编码的非目标时空分辨率的目标时空分辨率,第二视频图像中的目标观看部分已由流式传输服务器基于从在第二时间点之前发送到视频流式传输服务器的观看跟踪数据确定的观看者的目标观看方向而识别。
在框460中,客户端装置致使第二视频图像中的目标观看部分的至少一部分在第二时间点在显示装置上向观看者再现。
在一实施例中,目标观看部分的部分包含对应于在第二时间点观看者的视野中的中央窝视图的中央窝视图区。
在一实施例中,客户端装置进一步经配置以将检视区信息发送到流式传输服务器。检视区信息由流式传输服务器用作确定目标观看部分的大小的基础。
在一实施例中,客户端装置进一步经配置以从视频流解码图像元数据。所述图像元数据识别第二视频图像中的目标观看部分与剩余非目标观看部分。
在一实施例中,客户端装置进一步经配置以执行:在第二时间点在显示装置上向观看者再现第二视频图像的同时,收集第二观看跟踪数据,观看者相对于由第二视频图像描绘的第二3D场景的第二目标观看方向是基于所述第二观看跟踪数据;在第二时间点之后的第三时间点之前,将第二观看跟踪数据发送到视频流式传输服务器;在第三时间点之前,从视频流解码第三视频图像,所述第三视频图像包括第二目标观看部分,所述第二目标观看部分具有高于用以对第三视频图像中在第二目标观看部分外部的第二剩余非目标观看部分进行编码的非目标时空分辨率的目标时空分辨率,第三视频图像中的第二目标观看部分已由流式传输服务器基于从在第三时间点之前发送到视频流式传输服务器的第二观看跟踪数据确定的观看者的第二目标观看方向而识别;致使第三视频图像中的第二目标观看部分的至少一部分在第三时间在显示装置上向观看者再现。
在各种实例实施例中,设备、系统、设备或一或多个其它计算装置执行如所描述的前述方法中的任一者或一部分。在一实施例中,非暂时性计算机可读存储媒体存储软件指令,所述软件指令当由一或多个处理器执行时致使执行如本文中所描述的方法。
应注意,尽管本文中论述单独的实施例,但是本文中论述的实施例和/或部分实施例的任何组合可进行组合以形成其它实施例。
9.实施方案机制-硬件概述
根据一个实施例,本文中所描述的技术通过一或多个专用计算装置实施。所述专用计算装置可为硬连线的以执行技术,或可包含经持续编程以执行技术的数字电子装置,如一或多个专用集成电路(ASIC)或现场可编程门阵列(FPGA),或可包含经编程以依照固件、存储器、其它存储装置或组合中的程序指令执行技术的一或多个通用的硬件处理器。这类专用计算装置还可将定制硬连线的逻辑、ASIC或FPGA与定制编程组合以实现所述技术。专用计算装置可为桌上型计算机系统、便携式计算机系统、手持型装置、联网装置或并有硬连线和/或程序逻辑以实施技术的任何其它装置。
举例来说,图5是说明其上可实施本发明的实例实施例的计算机系统500的框图。计算机系统500包含总线502或用于传送信息的其它通信机构,以及与总线502耦合以用于处理信息的硬件处理器504。硬件处理器504可以是例如通用微处理器。
计算机系统500还包含主存储器506,例如随机存取存储器(RAM)或其它动态存储装置,所述主存储器506耦合到总线502以存储将通过处理器504执行的信息和指令。主存储器506还可用于在执行将通过处理器504执行的指令期间存储临时变量或其它中间信息。此类指令在存储于处理器504可存取的非暂时性存储媒体中时将计算机系统500呈现到经定制以执行在指令中指定的操作的专用机器中。
计算系统500进一步包含只读存储器(ROM)508或耦合到总线502以存储处理器504的静态信息和指令的其它静态存储装置。
提供存储装置510,例如磁盘或光盘、固态RAM,并且所述存储装置510耦合到总线502以存储信息和指令。
计算机系统500可经由总线502耦合到显示器512,例如液晶显示器,用于向计算机观看者显示信息。包含字母数字和其它键的输入装置514耦合到总线502以用于将信息和命令选择传送到处理器504。另一类型的观看者输入装置是光标控制件516,例如鼠标、轨迹球或光标方向键,用于将方向信息和命令选择传送到处理器504且用于控制显示器512上的光标移动。此输入装置通常具有在第一轴线(例如,x)和第二轴线(例如,y)这两个轴线中的两个自由度,这允许装置指定平面中的位置。
计算机系统500可使用定制的硬连线逻辑、一或多个ASIC或FPGA、固件和/或程序逻辑实施本文所述的技术,以上装置与计算机系统结合使得计算机系统500成为专用机器或将计算机系统500编程为专用机器。根据一个实施例,本文的技术由计算机系统500响应于处理器504执行包含于主存储器506中的一或多个指令的一或多个序列而执行。此类指令可以从例如存储装置510等另一存储媒体读取到主存储器506中。包含于主存储器506中的指令序列的执行致使处理器504执行本文所描述的过程步骤。在替代实施例中,硬连线电路可用于代替软件指令或与软件指令组合。
如本文所使用的术语“存储媒体”是指存储使机器以特定方式操作的数据和/或指令的任何非暂时性媒体。此类存储媒体可包括非易失性媒体和/或易失性媒体。非易失性媒体包含例如光盘或磁盘,例如存储装置510。易失性媒体包含动态存储器,例如主存储器506。存储媒体的共同形式包含例如软盘、软磁盘、硬盘、固态驱动器、磁带或任何其它磁性数据存储媒体、CD-ROM、任何其它光学数据存储媒体、具有孔图案的任何物理媒体、RAM、PROM和EPROM、快闪存储器EPROM、NVRAM、任何其它存储器芯片或盒带。
存储媒体与传输媒体不同但可以与传输媒体结合使用。传输媒体参与存储媒体之间的信息传递。例如,传输媒体包含同轴电缆、铜线和光纤,包含包括总线502的电线。传输媒体还可采用声波或光波的形式,例如在无线电波和红外数据通信期间产生的那些。
各种形式的媒体可涉及将一或多个指令的一个或多个序列载送到处理器504用于执行。举例来说,指令可初始地承载在远程计算机的磁盘或固态硬盘上。远程计算机可以将指令加载到其动态存储器中,并使用调制解调器经由电话线发送指令。计算系统500本地的调制解调器可接收电话线上的数据并使用红外发射器将数据转换成红外信号。红外检测器可接收在红外信号中承载的数据并且合适的电路可将数据置于总线502上。总线502将数据载送到主存储器506,从所述主存储器506中处理器504检索并执行指令。由主存储器506接收的指令可任选地在通过处理器504执行之前或之后存储在存储装置510上。
计算机系统500还包含耦合到总线502的通信接口518。通信接口518提供耦合到网络链路520的双向数据通信,所述网络链路连接到本地网络522。举例来说,通信接口518可为综合业务数字网络(ISDN)卡、电缆调制解调器、卫星调制解调器或为对应类型的电话线提供数据通信连接的调制解调器。作为另一实例,通信接口518可为局域网(LAN)卡以提供到兼容LAN的数据通信连接。还可实施无线链路。在任何这类实施中,通信接口518发送并接收承载表示各种类型信息的数字数据流的电信号、电磁信号或光信号。
网络链路520通常通过一或多个网络向其它数据装置提供数据通信。举例来说,网络链路520可提供通过本地网络522到主机计算机524或到由因特网服务提供商(ISP)526操作的数据设备的连接。ISP 526又通过现在通常被称为“因特网”528的全球包数据通信网络提供数据通信服务。本地网络522和因特网528均使用承载数字数据流的电、电磁或光学信号。通过各种网络的信号以及在网络链路520上和通过通信接口518的信号(这些信号载送数字数据到计算机系统500和从计算机系统500载送数字数据)为传输媒体的实例形式。
计算机系统500可通过网络、网络链路520和通信接口518发送消息和接收数据,包含程序代码。在因特网实例中,服务器530可能通过因特网528、ISP 526、本地网络522和通信接口518发射用于应用程序的请求代码。
所接收代码可在其被接收时由处理器504执行,和/或存储在存储装置510或其它非易失性存储器中以供稍后执行。
10.等效物、延伸、替代方案和杂项
在前文说明书中,本发明的实例实施例已经参考可针对不同实施方案变化的许多特定细节进行描述。本发明以及申请人认为是本发明的内容的唯一且专门的指示是从本申请确定的一组权利要求,所述权利要求是此类权利要求公布的特定形式,包含任何后续修正。本文中针对此类权利要求中所含的术语明确地阐述的任何定义将决定此类术语在权利要求中使用的含义。因此,未在权利要求中明确引用的限制、元素、性质、特征、优点或属性不应当以任何方式限制此类权利要求的范围。因此,本说明书和附图应在说明性意义上而非限制性意义上考虑。

Claims (19)

1.一种用于向观看者呈现视频数据的方法,其包括:
其中所述方法由流式传输客户端装置执行;
发送观看跟踪数据,观看者相对于由第一视频图像描绘的场景的目标观看方向是基于所述观看跟踪数据确定的,所述第一视频图像由所述流式传输客户端装置在第一时间点处向所述观看者再现,其中在所述第一时间点之前,从视频流解码所述第一视频图像,所述视频流由视频流式传输服务器流式传输至所述流式传输客户端装置;
在第二时间点之前,从所述视频流接收并解码第二视频图像,所述视频流由所述视频流式传输服务器流式传输至所述流式传输客户端装置,其中所述第二视频图像包括以第一时空分辨率的目标观看图像部分和以第二时空分辨率的一或多个非目标观看图像部分,所述第二时空分辨率低于所述第一时空分辨率,其中所述目标观看图像部分对应于所述观看者的所述目标观看方向,且其中至少部分地基于以下各项中的一者或多者确定所述第二视频图像中的被所述目标观看图像部分覆盖的环绕区的空间范围:发射时延时间、发射时延时间的变化、或者预测视线位移;及
致使所述第二视频图像中的所述目标观看图像部分在所述第二时间点处向所述观看者再现。
2.根据权利要求1所述的方法,其中所述目标观看图像部分包括中央窝视图区域,所述中央窝视图区域对应于在所述第二时间点处所述观看者的视野中的中央窝视图。
3.根据权利要求1所述的方法,其进一步包括发送检视区信息至所述流式传输服务器,其中所述检视区信息由所述流式传输服务器使用作为确定所述目标观看图像部分大小的基础。
4.根据权利要求1所述的方法,其进一步包括从所述视频流解码图像元数据,其中所述图像元数据识别所述第二视频图像中的所述目标观看图像部分和所述一或多个非目标观看图像部分。
5.根据权利要求1所述的方法,其中在向所述观看者再现的视频图像序列中,所述第二视频图像紧跟在所述第一视频图像之后。
6.根据权利要求1所述的方法,其中在向所述观看者再现的视频图像序列中,所述第二视频图像不紧跟在所述第一视频图像之后。
7.根据权利要求1所述的方法,其中在以所述视频流中的所述第二视频图像编码的图像元数据中识别所述目标观看图像部分和所述一或多个非目标观看图像部分。
8.一种用于流式传输视频数据的方法,其包括:
其中所述方法由视频流式传输服务器执行;
接收观看跟踪数据,观看者相对于由第一视频图像描绘的场景的目标观看方向是基于所述观看跟踪数据确定的,所述第一视频图像由流式传输客户端装置在第一时间点处向所述观看者再现,其中在所述第一时间点之前,在视频流中编码所述第一视频图像,所述视频流由所述视频流式传输服务器流式传输至所述流式传输客户端装置;
在第二时间点之前,编码所述视频流中的第二视频图像,所述视频流由所述视频流式传输服务器流式传输至所述流式传输客户端装置,其中所述第二视频图像包括以第一时空分辨率的目标观看图像部分和以第二时空分辨率的一或多个非目标观看图像部分,所述第二时空分辨率低于所述第一时空分辨率,其中所述目标观看图像部分对应于所述目标观看方向,且其中至少部分地基于以下各项中的一者或多者确定所述第二视频图像中的被所述目标观看图像部分覆盖的环绕区的空间范围:发射时延时间、发射时延时间的变化、或者预测视线位移;及
将所述第二视频图像通过所述视频流到所述流式传输客户端装置的方式发送至所述流式传输客户端装置。
9.一种非暂时性计算机可读存储介质,其存储软件指令,所述软件指令当由一或多个处理器执行时,致使执行权利要求1所述的方法。
10.一种非暂时性计算机可读存储介质,其存储软件指令,所述软件指令当由一或多个处理器执行时,致使执行权利要求2所述的方法。
11.一种非暂时性计算机可读存储介质,其存储软件指令,所述软件指令当由一或多个处理器执行时,致使执行权利要求3所述的方法。
12.一种非暂时性计算机可读存储介质,其存储软件指令,所述软件指令当由一或多个处理器执行时,致使执行权利要求4所述的方法。
13.一种非暂时性计算机可读存储介质,其存储软件指令,所述软件指令当由一或多个处理器执行时,致使执行权利要求8所述的方法。
14.一种计算装置,其包括一或多个处理器以及一或多个存储介质,所述一或多个存储介质存储指令组,所述指令组当由一或多个处理器执行时,致使执行权利要求1所述的方法。
15.一种计算装置,其包括一或多个处理器以及一或多个存储介质,所述一或多个存储介质存储指令组,所述指令组当由一或多个处理器执行时,致使执行权利要求2所述的方法。
16.一种计算装置,其包括一或多个处理器以及一或多个存储介质,所述一或多个存储介质存储指令组,所述指令组当由一或多个处理器执行时,致使执行权利要求3所述的方法。
17.一种计算装置,其包括一或多个处理器以及一或多个存储介质,所述一或多个存储介质存储指令组,所述指令组当由一或多个处理器执行时,致使执行权利要求4所述的方法。
18.一种计算装置,其包括一或多个处理器以及一或多个存储介质,所述一或多个存储介质存储指令组,所述指令组当由一或多个处理器执行时,致使执行权利要求5所述的方法。
19.一种计算装置,其包括一或多个处理器以及一或多个存储介质,所述一或多个存储介质存储指令组,所述指令组当由一或多个处理器执行时,致使执行权利要求8所述的方法。
CN202210914743.4A 2017-12-06 2018-12-04 位置零时延 Active CN115278195B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210914743.4A CN115278195B (zh) 2017-12-06 2018-12-04 位置零时延

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201762595544P 2017-12-06 2017-12-06
US62/595,544 2017-12-06
CN202210914743.4A CN115278195B (zh) 2017-12-06 2018-12-04 位置零时延
CN201811471216.0A CN109996055B (zh) 2017-12-06 2018-12-04 位置零时延

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201811471216.0A Division CN109996055B (zh) 2017-12-06 2018-12-04 位置零时延

Publications (2)

Publication Number Publication Date
CN115278195A CN115278195A (zh) 2022-11-01
CN115278195B true CN115278195B (zh) 2024-04-16

Family

ID=66659636

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201811471216.0A Active CN109996055B (zh) 2017-12-06 2018-12-04 位置零时延
CN202210914743.4A Active CN115278195B (zh) 2017-12-06 2018-12-04 位置零时延

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201811471216.0A Active CN109996055B (zh) 2017-12-06 2018-12-04 位置零时延

Country Status (2)

Country Link
US (2) US10893261B2 (zh)
CN (2) CN109996055B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112019016820B1 (pt) * 2017-04-11 2022-05-24 Dolby Laboratories Licensing Corporation Método para experiências de entretenimento aumentadas em camadas
US10944971B1 (en) * 2017-05-22 2021-03-09 Cinova Media Method and apparatus for frame accurate field of view switching for virtual reality
US10460509B2 (en) * 2017-11-07 2019-10-29 Dolby Laboratories Licensing Corporation Parameterizing 3D scenes for volumetric viewing
WO2019120575A1 (en) * 2017-12-22 2019-06-27 Huawei Technologies Co., Ltd. Vr 360 video for remote end users
CN108833976B (zh) * 2018-06-27 2020-01-24 深圳看到科技有限公司 一种全景视频动态切流后的画面质量评估方法及装置
US10638165B1 (en) * 2018-11-08 2020-04-28 At&T Intellectual Property I, L.P. Adaptive field of view prediction
US10939139B2 (en) * 2018-11-29 2021-03-02 Apple Inc. Adaptive coding and streaming of multi-directional video
TWI683136B (zh) * 2019-01-03 2020-01-21 宏碁股份有限公司 視訊穿透式頭戴顯示器及其控制方法
US11375178B2 (en) * 2019-03-04 2022-06-28 Dolby Laboratories Licensing Corporation Multi-resolution multi-view video rendering
CN114245987A (zh) * 2019-08-07 2022-03-25 谷歌有限责任公司 用于视频通话的基于面部的帧速率上采样
US11956295B2 (en) 2019-09-27 2024-04-09 Apple Inc. Client-end enhanced view prediction for multi-view video streaming exploiting pre-fetched data and side information
KR102295264B1 (ko) * 2019-11-28 2021-08-30 주식회사 알파서클 하나의 스트리밍영상을 이용하여 복수의 가상현실영상을 재생하는 가상현실영상재생장치 및 방법
CN110910482B (zh) * 2019-11-29 2023-10-31 四川航天神坤科技有限公司 视频数据组织调度的方法、系统及可读存储介质
CN115244940A (zh) * 2020-01-16 2022-10-25 华为技术有限公司 媒体数据的表示
EP4189968A1 (en) * 2020-08-03 2023-06-07 Dolby Laboratories Licensing Corporation Dual stream dynamic gop access based on viewport change
US20230409111A1 (en) * 2020-11-18 2023-12-21 Magic Leap, Inc. Eye tracking based video transmission and compression
JP7076061B1 (ja) * 2020-12-23 2022-05-27 ダイキン工業株式会社 作業者端末、動画像処理方法及び動画像処理プログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105606100A (zh) * 2014-09-10 2016-05-25 大众汽车有限公司 导航系统中用于聚类感兴趣点的装置、系统及方法
CN105939482A (zh) * 2015-03-05 2016-09-14 诺基亚技术有限公司 视频流式传输方法
CN106060515A (zh) * 2016-07-14 2016-10-26 腾讯科技(深圳)有限公司 全景媒体文件推送方法及装置
CN106162363A (zh) * 2015-03-03 2016-11-23 上海贝尔股份有限公司 传输视频的方法和装置
CN106664443A (zh) * 2014-06-27 2017-05-10 皇家Kpn公司 根据hevc拼贴视频流确定感兴趣区域

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8780199B2 (en) * 2009-09-20 2014-07-15 Tibet MIMAR Networked security camera with local storage and continuous recording loop
US10585472B2 (en) * 2011-08-12 2020-03-10 Sony Interactive Entertainment Inc. Wireless head mounted display with differential rendering and sound localization
CN103716594B (zh) * 2014-01-08 2017-02-22 深圳英飞拓科技股份有限公司 基于运动目标检测的全景拼接联动方法及装置
US10440398B2 (en) * 2014-07-28 2019-10-08 Jaunt, Inc. Probabilistic model to compress images for three-dimensional video
US20160267884A1 (en) * 2015-03-12 2016-09-15 Oculus Vr, Llc Non-uniform rescaling of input data for displaying on display device
WO2017025483A1 (de) * 2015-08-07 2017-02-16 SensoMotoric Instruments Gesellschaft für innovative Sensorik mbH Verfahren und vorrichtung zur datenerfassung und auswertung von umgebungsdaten
US10565446B2 (en) * 2015-09-24 2020-02-18 Tobii Ab Eye-tracking enabled wearable devices
US10110935B2 (en) * 2016-01-29 2018-10-23 Cable Television Laboratories, Inc Systems and methods for video delivery based upon saccadic eye motion
US10401952B2 (en) * 2016-03-31 2019-09-03 Sony Interactive Entertainment Inc. Reducing rendering computation and power consumption by detecting saccades and blinks
US10565463B2 (en) * 2016-05-24 2020-02-18 Qualcomm Incorporated Advanced signaling of a most-interested region in an image
US10042421B2 (en) * 2016-08-24 2018-08-07 Disney Enterprises, Inc. System and method of latency-aware rendering of a focal area of an animation
US10330935B2 (en) 2016-09-22 2019-06-25 Apple Inc. Predictive, foveated virtual reality system
US10564715B2 (en) * 2016-11-14 2020-02-18 Google Llc Dual-path foveated graphics pipeline
US10769797B2 (en) * 2017-01-05 2020-09-08 Samsung Electronics Co., Ltd. Virtual reality experience sharing
US10726574B2 (en) 2017-04-11 2020-07-28 Dolby Laboratories Licensing Corporation Passive multi-wearable-devices tracking
CN115327780A (zh) 2017-09-11 2022-11-11 杜比实验室特许公司 用于ar/vr/mr的模块化拆卸式可穿戴装置
US10609372B2 (en) 2017-09-29 2020-03-31 Dolby Laboratories Licensing Corporation Up-conversion to content adaptive perceptual quantization video signals
US10460509B2 (en) 2017-11-07 2019-10-29 Dolby Laboratories Licensing Corporation Parameterizing 3D scenes for volumetric viewing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106664443A (zh) * 2014-06-27 2017-05-10 皇家Kpn公司 根据hevc拼贴视频流确定感兴趣区域
CN105606100A (zh) * 2014-09-10 2016-05-25 大众汽车有限公司 导航系统中用于聚类感兴趣点的装置、系统及方法
CN106162363A (zh) * 2015-03-03 2016-11-23 上海贝尔股份有限公司 传输视频的方法和装置
CN105939482A (zh) * 2015-03-05 2016-09-14 诺基亚技术有限公司 视频流式传输方法
CN106060515A (zh) * 2016-07-14 2016-10-26 腾讯科技(深圳)有限公司 全景媒体文件推送方法及装置

Also Published As

Publication number Publication date
US20190174125A1 (en) 2019-06-06
CN115278195A (zh) 2022-11-01
CN109996055A (zh) 2019-07-09
US10893261B2 (en) 2021-01-12
US20210099693A1 (en) 2021-04-01
CN109996055B (zh) 2022-08-12
US11706403B2 (en) 2023-07-18

Similar Documents

Publication Publication Date Title
CN115278195B (zh) 位置零时延
US11653065B2 (en) Content based stream splitting of video data
US11290699B2 (en) View direction based multilevel low bandwidth techniques to support individual user experiences of omnidirectional video
US20220174252A1 (en) Selective culling of multi-dimensional data sets
KR102533555B1 (ko) 감축된 해상도 이미지들을 생성 및 이용하고 및/또는 재생 또는 컨텐트 분배 디바이스에 이러한 이미지들을 통신하기 위한 방법들 및 장치
US20230111408A1 (en) Techniques for capturing and rendering videos with simulated reality systems and for connecting services with service providers
CN110419224B (zh) 消费视频内容的方法、电子设备和服务器
WO2019166688A1 (en) An apparatus, a method and a computer program for volumetric video
CN108693970B (zh) 用于调适可穿戴装置的视频图像的方法和设备
KR102499904B1 (ko) 가상 현실 미디어 콘텐트 내에 포함시키기 위해 실세계 장면의 맞춤화된 뷰의 가상화된 투영을 생성하기 위한 방법들 및 시스템들
CN114009012B (zh) 内容分发方法、图像捕获和处理系统、回放系统、操作回放系统的方法及计算机可读介质
CN111869223A (zh) 沉浸式媒体的视场角度量
WO2022230253A1 (ja) 情報処理装置及び情報処理方法
CN105052157A (zh) 图像帧复用方法及系统
US20190052868A1 (en) Wide viewing angle video processing system, wide viewing angle video transmitting and reproducing method, and computer program therefor
WO2022259632A1 (ja) 情報処理装置及び情報処理方法
WO2023150482A1 (en) Volumetric immersive experience with multiple views
CN106406508A (zh) 一种信息处理方法及中继设备
CN118648284A (zh) 具有多个视角的体积沉浸式体验

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant