CN114450939A - 用于产生和渲染沉浸式视频的设备和方法 - Google Patents

用于产生和渲染沉浸式视频的设备和方法 Download PDF

Info

Publication number
CN114450939A
CN114450939A CN202080065522.3A CN202080065522A CN114450939A CN 114450939 A CN114450939 A CN 114450939A CN 202080065522 A CN202080065522 A CN 202080065522A CN 114450939 A CN114450939 A CN 114450939A
Authority
CN
China
Prior art keywords
content
cell
unit
disparity information
camera
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080065522.3A
Other languages
English (en)
Inventor
伊冯·勒加拉斯
让·勒卢克斯
查尔斯·萨蒙-勒加尼厄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
InterDigital CE Patent Holdings SAS
Original Assignee
InterDigital CE Patent Holdings SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by InterDigital CE Patent Holdings SAS filed Critical InterDigital CE Patent Holdings SAS
Publication of CN114450939A publication Critical patent/CN114450939A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • H04N13/117Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/282Image signal generators for generating image signals corresponding to three or more geometrical viewpoints, e.g. multi-view systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/302Image reproducers for viewing without the aid of special glasses, i.e. using autostereoscopic displays
    • H04N13/31Image reproducers for viewing without the aid of special glasses, i.e. using autostereoscopic displays using parallax barriers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

本发明提供了一种沉浸式3D视频内容,该沉浸式3D视频内容包含多个优选重叠单元,每个单元表示该内容中的体积,其中提供对应于该单元中的虚拟中央相机的内容和来自围绕中心位置的虚拟外围相机的视差信息两者的单元可接着仅提供与对应于该虚拟中央相机的该内容一起使用的视差信息的单元。一种用于渲染沉浸式视频的设备,其渲染对应于用户的当前位置的视点、跟踪和预测该用户位置,并且如果该用户位置移动到具有中央相机内容的单元,那么检索该内容和视差信息,并且如果该用户位置移动到仅具有视差信息的单元,那么检索该视差信息,并且如有必要,还移动到具有该内容的单元。这一布置可减少该沉浸式3D视频内容的带宽和存储。

Description

用于产生和渲染沉浸式视频的设备和方法
技术领域
本文档涉及三维(3D)场景和体积视频内容,特定来说涉及对表示3D场景的深度的数据的进行编码和/或格式化。
背景技术
本部分意图向读者介绍本领域的各个方面,这些方面可与下文描述和/或要求保护的本公开的各种方面有关。此讨论被认为有助于向读者提供背景信息,以促进更好地理解本公开的各个方面。因此,应当理解,这些陈述应当从这个角度来解读,而不是承认现有技术。
最近,具有大视野的可用内容有所增长(高达360°)。此类内容通常通过用户观看沉浸式显示设备上的内容而不是完全可见的,诸如头戴式显示器、智能眼镜、PC屏幕、平板电脑、智能电话以及类似物。这意味着在给定时刻,用户可仅查看内容的一部分。然而,用户通常可通过诸如头部移动、鼠标移动、触摸屏、语音以及类似物的各种手段在内容内导航。
沉浸式视频,也称为360°平坦视频,允许该用户通过头部围绕静止视角旋转来观看所有方向。然而,旋转仅允许3自由度(3DoF)体验。3DoF视频可能很快使对于倾向于预期更多自由度的观看者变得沮丧,例如通过体检视差。另外,3DoF还可诱导头晕,这是因为通常从不使用纯头部旋转,因为用户还在多达三个方向上平移头部,该等平移在3DoF视频体验中不会再现。
WO2018130491、WO2019016158、WO2019110405、WO2019012067和WO2019055389呈现被称为3DoF+的增强解决方案,如3oD,其基于单个视点,并且由于提供与围绕中央视点的多个额外外围视点有关的视差信息而提供有限的平移用户移动。这给用户浸没在小球形区域(或“单元”)中的印象。
体积视频(还称为6自由度(6DoF)视频)是3DoF视频的另一替代方案。当观看6DoF视频时,除了旋转之外,在观看内容内头部和甚至身体平移为可能的,这使得能够体验视差和体积。这种6DoF视频显著增加了沉浸感和对场景深度的感知,并且还可通过在头部和身体平移期间提供一致的视觉反馈来防止或至少减少眩晕。通过专用传感器的手段创建体积内容,允许同时记录感兴趣场景的颜色和深度。使用与摄影测量技术组合的彩色相机设备为常见记录方式。
常规3DoF+和体积视频内容的数据量很重要,并且需要大存储容量以及高带宽以用于发射。
因此,应理解,需要解决VR和AR内容发射和消耗的至少一些缺点的解决方案。本原理提供这种解决方案。
发明内容
在第一方面,本原理涉及一种渲染沉浸式视频内容的方法。设备使用接收到的数据渲染对应于沉浸式视频中的第一用户位置的第一视点,其中接收到的数据包括涵盖第一用户位置的第一单元的视差信息、相邻单元的标识符和相邻单元的中央补丁的内容,并且其中从中央补丁的内容和视差信息产生第一视点。
在第二方面,本原理涉及一种用于渲染沉浸式视频内容的设备,该设备包括处理器,该处理器被配置为使用接收到的数据渲染对应于沉浸式视频中的第一用户位置的第一视点,其中接收到的数据包括涵盖第一用户位置的第一单元、相邻单元的标识符和相邻单元的中央补丁的内容的视差信息,并且其中从中央补丁的内容和视差信息产生第一视点。
在第三方面,本原理涉及一种用于产生沉浸式视频内容的方法,该方法包括接收由对应于至少两个相邻单元的相机捕获的内容,第一单元具有至少一个中心相机和外围相机并且第二单元具有至少一个相机,使用由至少一个外围相机捕获的内容产生相对于由中心相机捕获的内容的第一视差信息,使用由第二单元中的至少一个相机捕获的内容产生相对于由中心相机捕获的内容的第二视差信息,以及产生包括由中心相机捕获的内容和第一视差信息的第一单元内容以及包括第二视差信息和第一单元的标识符的第二单元内容。
在第四方面,本原理涉及一种用于产生沉浸式视频内容的设备,该设备包括处理器,该处理器被配置为接收由对应于至少两个相邻单元的相机捕获的内容,第一单元具有至少一个中心相机和外围相机并且第二单元具有至少一个相机,使用由至少一个外围相机捕获的内容产生相对于由中心相机捕获的内容的第一视差信息,使用由第二单元中的至少一个相机捕获的内容产生相对于由中心相机捕获的内容的第二视差信息,以及编码器,该编码器被配置为产生包括由中心相机捕获的内容和第一视差信息的第一单元内容和包括第二视差信息和第一单元的标识符的第二单元内容。
在第五方面,本原理针对一种被配置为提供沉浸式视频内容的内容服务器,该内容服务器包括存储沉浸式视频内容的存储器,该沉浸式视频内容包括涵盖用户位置的第一单元的视差信息、相邻单元的标识符和相邻单元的中央补丁的内容,以及处理器,该处理器被配置为响应于来自客户端设备的请求而提供视差信息、相邻单元的标识符和中央补丁的内容,以使得客户端设备能够在第一个单元中渲染一个视点。
在第六方面,本原理涉及存储编程代码指令的非暂时性计算机可读介质,该编程代码指令在由处理器执行时实施根据第一方面的任何实施方案的方法的步骤。
在第七方面,本原理涉及存储编程代码指令的非暂时性计算机可读介质,该编程代码指令在由处理器执行时实施根据第三方面的任何实施方案的方法的步骤。
附图说明
现在将参考附图通过非限制性示例描述本原理的特征,其中:
图1A示出中央补丁的示例,并且图1B示出根据本原理的对应外围补丁的示例;
图2示出根据本原理的相邻3DoF+单元集的示例;
图3示出根据本原理的用户位置预测;
图4示出根据本原理的单元集的示例;
图5示出根据本原理的三个相邻单元中的相机位置的示例;
图6示出根据本原理的三个相邻单元中的相机位置的另一示例;
图7示出根据本原理的具有中央相机和可能相机位置的单元;
图8示出其中实施本原理各种方面和实施方案的系统的示例的框图;
图9示出根据本原理的渲染方法的流程图;并且
图10A和图10B示出根据本原理的用于视口渲染的内容如何可不仅取决于当前用户位置而且还取决于先前的单元。
具体实施方式
如以上专利申请中所描述,可以将多个3DoF+单元与视频聚合,以便接近完整6DoF视频沉浸。3DoF+单元为并列并且优选地重叠以实现单元之间的基本上无缝发射。
3DoF+包含将体积输入信息作为存储在对应颜色和深度图中的颜色和深度补丁的组合的发射。每个补丁都由原始3D场景的子部分的连续球形2D投影(还称为映射)产生,通常为等距柱状投影(EquiRectangular Projection,ERP)。基本上,这种分解对象(还称为因子分解)场景为:i)中央补丁,该中央补丁含有从中央视点可见的该场景的部分,以及ii)外围补丁,该外围补丁嵌入从围绕该中央视点定位的额外邻近视点可见的视差信息。中央和外围补丁通过使用四个虚拟(360°)相机来限定,该等相机可放置在四面体的每个顶点处,其中一个虚拟相机位于中心处并且三个其它虚拟相机围绕中心相机对称。中央视点对应于来自中央相机的视图。从中央视点不可见但由另一相机看到的互补点为外围补丁提供输入。图1A中示出中央补丁的示例,并且在图1B中根据本原理示出对应外围补丁的示例。
随后将这些外围补丁打包到使用例如传统HEVC视频编解码器进行编码的图中。对于每个补丁,可通过指定准确恢复体积场景所需的信息(补丁的位置/大小、和投影参数)来提供额外元数据集。因此,整个流可完全基于视频并且与现有视频流道兼容。在3DoF+中,中央补丁表示该内容的主要部分(诸如至少80%)。
这种解决方案的第一问题为使用多个3DoF+单元需要大体积的数据。第二个问题为单元之间的无缝转变可需要正确预测用户的位置以提供足够时间来下载下一单元。由于由常规3DoF+电池覆盖的空间很小(通常直径为几十厘米),且由于通常难以在用户的位置预测中具有这种精度,尤其在快速移动时,因此预测可能出现问题,如将进一步讨论的。
图2示出相邻3DoF+单元集的示例,该等单元标示为单元1到单元7。在示例中,该等单元对准,基本上覆盖矩形区域l x L其中:l为由3DoF+表示提供的视差宽度,并且L等于7x由3DoF+单元减去重叠区域提供的视差宽度。常规3DoF+单元具有有限大小(例如,直径为60cm)。因此,用户可在几平方米的区域内移动的沉浸式体验可需要表示大量数据的数十个3DoF+单元。
为了说明,考虑从左到右的直线用户移动。开始时,用户的视点(即,场景内的用户的位置)标示为P0。从点P0穿过到点P12导致一系列3DoF+单元的顺序消耗,每个单元提供视频:
·从P0到P1:单元1
·从P1到P2:单元1或单元2
·从P2到P3:单元2
·从P3到P4:单元2或单元3
·等等。
在自适应流递送的情况下,在请求视频块(还称为区段)之前,客户端应用程序预测用户的位置以确定将何时渲染视频块的内容。
图3示出根据本原理的用户位置预测。P0为当前用户位置,PP为预测用户位置,并且PR0、PR1和PR2为在渲染所请求的视频块时的实际用户位置的3个示例。
位置PP需要单元2已由终端获取。在图2的示例中,如果用户在预测PP时确实处于位置PR2,那么单元2已下载而单元3可能未下载。以相同的方式,如果用户处于位置PR0,那么该单元1仍然为必要的。请注意,位置PR1符合任一单元2或单元1。常规方法的第一问题为未来用户的位置预测必须为单元准确的,如已提及。
本原理提供一种方案,其中至少一个3DoF+单元由较轻的所谓的仅补丁(PO)‘延伸’。与图1相比,这种PO单元代替至少一个3DoF+单元。
图4示出根据本原理的单元集的示例。在这一示例中,与图1相比,每个其它3DoF+单元已由PO单元替换。使用图1的位置,在P0处从左到右开始直线用户移动导致一系列单元、3DoF+和PO的顺序消耗,如以下:
·从P0到P1:3DoF+单元1单独
·从P1到P2:3DoF+单元1,单独或由PO单元2延伸,或3DoF+单元3由PO单元2延伸
·从P2到P3:3DoF+单元1由PO单元2延伸,或3DoF+单元3由PO单元2延伸
·从P3到P4:3DoF+单元1由PO单元2延伸,或3DoF+单元3单独或由PO单元2延伸
·从P4到P5:3DoF+单元3单独
·从P5到P6:3DoF+单元3,单独或由PO单元4延伸,或3DoF+单元5由PO单元4延伸
·从P6到P7:3DoF+单元3由PO单元4延伸,或3DoF+单元5由PO单元4延伸
·从P7到P8:3DoF+单元3由PO单元4延伸,或3DoF+单元5,单独或由PO单元4延伸
·等等。
或者,换一种方式,3DoF+单元3可从P1到P8使用:
·由PO单元2从P1到P3延伸
·单独或由PO单元2从P3到P4延伸
·单独从P4到P5
·单独或由PO单元4从P5到P6延伸
·由PO单元4从P6到P8延伸。
如可从图4的描述看出,根据本原理,沉浸式内容包含两种不同种类的单元:
·包含使用常规3DoF+内容产生过程和默认虚拟相机位置制作的内容的常规3DoF+单元:中心位置处的中央补丁的中央相机,以及围绕中心位置的外围摄相机。
·如将详细描述,用不同定位的虚拟相机产生的PO单元。
为了清楚起见,参考三个对准相机对PO单元的产生进行描述(在大多数地方)。这仅提供沿着一个方向的视差,即,如同用户仅被授权在3DoF+体验期间仅例如左或右移动。本领域技术人员将容易地能够将产生延伸到更多相机,以便沿着更多方向提供视差。
如已提及,3DoF+内容呈常规3DoF+格式。如将描述的,可以将由多个3DoF+单元组成的沉浸式场景转化为包含3DoF+单元和PO单元的沉浸式内容。3DoF+单元包含常规3DoF+内容,而PO单元包含延伸相邻3DoF+单元的视差信息,并且可在用户视点处于无中央补丁(3DoF+单元)可用的区域时使用。PO单元包含相同类型的视差信息作为这一区域的3DoF+单元,但嵌入与从定位在单元外部的相机发出的不同中央补丁互补的外围补丁。
图5示出根据本原理的三个相邻单元中的相机位置的示例:单元0和单元2为常规的3DoF+单元,而单元1为PO单元。可同时产生三个单元。
在第一实施方案中,相机C10、C11和C12分别放置在单元1的中心并且围绕单元1的中心对称地放置。如相机C01和C02在Cell0中,相机C11、C10和C12可捕获在左侧相邻3DoF+单元的中心中的相机C00处不可见的场景的部分。这些相机的深度和纹理输出用于产生视差补丁,如同单元0被延伸以合并单元1。
然而,可需要其它相机布置来提供足够视差信息。例如,如图6中的实施方案所绘示,多于三个相机可用以产生PO单元,以便减少与相邻3DoF+单元的不同或尝试覆盖单元内的所有潜在视点。特别地,为了避免场景的部分的遮挡视图,相机之间的距离可能受到限制。
如图7中所示出,Cc为中央视点,而Cr和Cy为位于其左侧的相机的潜在位置。Cy提供较大视差振幅,但不允许捕获对象R的左侧边缘,该对象在另一方面从Cr可见。可需要使用两个额外相机(Cy和Cr)以捕获场景的元素,由于其可能通过用户沿着位置Cc和Cy之间的水平轴移动看见。
PO单元的图自身不足,这是因为其与相邻3DoF+单元的中央补丁互补。为了以客户端应用程序在PO单元中重建视口的方式提供灵活性,PO单元可含有待与不同相邻单元的中央补丁组合的补丁集。换句话说,使用PO单元的相机的捕获,产生与不同相邻的中央补丁互补的补丁。举例来说,在图5中所示出的示例中,相机C11、C10和C12用于产生:一方面,具有不由相机C00看到的体素的补丁,以及另一方面,具有不由相机C20看到的体素的补丁。
在图5和图6中,在两个3DoF+单元之间发现单个PO单元。然而,应注意,3DoF+和PO单元的其它组合为可能的;两个PO单元可例如插入在两个相邻3DoF+单元之间。
图8示出其中实施本原理各种方面和实施方案的系统的示例的框图。系统800可体现为包含下文所描述的各种部件的设备,并且被配置为执行本原理中的一或多个方面。这种设备的示例包含但不限于各种电子设备,诸如个人计算机、膝上型计算机、智能电话、平板计算机、数字多媒体机顶盒、数字电视机接收器、个人视频录制系统、连接的家用电器和服务器。系统800的元件可单独地或组合地体现在单个集成电路(IC)、多个IC和/或分立部件中。例如,在至少一个实施方案中,系统800的处理元件和编码器/解码器元件分布在多个IC和/或离散部件上。在各种实施方案中,系统800经由例如通信总线或通过专用输入和/或输出端口通信地耦合到其他类似系统或其他电子设备。在各种实施方案中,系统800被配置为实施本文档中所描述的一或多个方面。
系统800包含至少一个处理器810,该处理器被配置为执行加载到其中的指令,以用于实施例如本文档中所描述的各个方面。处理器810可包含嵌入式存储器、输入输出接口和本领域已知的各种其他电路。系统800包含至少一个存储器820(例如,易失性存储器设备和/或非易失性存储器设备)。系统800包含存储设备840,该存储设备可包含非易失性存储器和/或易失性存储器,包含但不限于EEPROM、ROM、PROM、RAM、DRAM、SRAM、闪存、磁盘驱动器和/或光盘驱动器。作为非限制性示例,存储设备840可包含内部存储设备、附接存储设备和/或网络可访问的存储设备。
系统800包含编码器/解码器模块830,该编码器/解码器模块被配置为例如处理数据以提供编码视频或解码视频,并且编码器/解码器模块830可包含其自身的处理器和存储器。编码器/解码器模块830表示可包含在设备中以执行编码和/或解码功能的模块。众所周知,设备可包括编码模块和解码模块中的一者或两者。此外,编码器/解码器模块830可实施为系统800的独立元件,或可作为本领域技术人员已知的硬件和软件的组合并入在处理器810内。
待加载到处理器810或编码器/解码器830上以执行本文档中所描述的各种方面的编程代码可存储在存储设备840中,并且随后加载到存储器820上以供处理器810执行。根据各种实施方案,处理器810、存储器820、存储设备840和编码器/解码器模块830中的一或多者可在本文档中所描述的过程的执行期间存储各种项目中的一或多个项目。此类存储项目可包括但不限于输入视频、解码的视频或部分解码的视频、比特流、矩阵、变量以及处理等式、公式、运算和运算逻辑的中间或最终结果。
在若干实施方案中,处理器810和/或编码器/解码器模块830内部的存储器用于存储指令和为用于在编码或解码期间所需要的处理提供工作存储器。
然而,在其他实施方案中,处理设备外部的存储器(例如,处理设备可为处理器810或编码器/解码器模块830)用于这些功能中的一或多个功能。外部存储器可为存储器820和/或存储设备840,例如动态易失性存储器和/或非易失性闪存存储器。在若干实施方案中,外部非易失性闪存存储器用于存储电视机的操作系统。在至少一个实施方案中,诸如RAM的快速外部动态易失性存储器被用作用于视频编码和解码操作的工作存储器,诸如用于MPEG-2、HEVC或VVC(多功能视频编码)。
对系统800的元件的输入可通过如框891中所指示的各种输入设备提供。此类输入设备包括但不限于:(i)接收例如由广播器通过空中发射的RF信号的RF部分,(ii)复合输入端子,(iii)USB输入端子,和/或(iv)HDMI输入端子。
在各种实施方案中,框891的输入设备具有如本领域已知的相关相应输入处理元件。例如,RF部分可与对于以下必要的元件相关联:(i)选择所需的频率(还称为选择信号,或将信号频带限制到一个频带),(ii)下变频选择的信号,(iii)再次频带限制到更窄频带以选择(例如)在某些实施方案中可称为信道的信号频带,(iv)解调下变频和频带限制的信号,(v)执行纠错,以及(vi)解复用以选择所需的数据包流。各种实施方案的RF部分包括用于执行这些功能的一个或多个元件,例如频率选择器、信号选择器、频带限制器、信道选择器、滤波器、下变频器、解调器、纠错器和解复用器。RF部分可包含执行这些功能中的各种功能的调谐器,这些功能包含例如下变频接收信号至更低频率(例如,5中频或近基带频率)或至基带。
在一个机顶盒实施方案中,RF部分和其相关输入处理元件接收通过有线(例如,电缆)介质发射的RF信号,并且通过滤波、下变频和再次滤波至所需频带来执行频率选择。
各种实施方案重新布置上述(和其他)元件的顺序,移除这些元件中的一些元件,和/或添加执行类似或不同功能的其他元件。
添加元件可包括在现有元件之间插入元件,例如,插入放大器和模数变换器。在各种实施方案中,RF部分包括天线。
此外,USB和/或HDMI终端可包含用于跨USB和/或HDMI连接将系统800连接到其他电子设备的相应接口处理器。应理解,输入处理(例如,Reed-Solomon纠错)的各种方面可视需要例如实施在单独输入处理IC内或处理器810内。类似地,USB或HDMI接口处理的方面可视需要实施在单独接口IC内或在处理器810内。将解调流、纠错流和解复用流提供给各种处理元件,包含例如处理器810以及编码器/解码器830,该处理元件与存储器和存储元件结合操作以视需要处理数据流以呈现在输出设备上。
系统800的各种元件可设置在集成壳体内。在集成壳体内,各种元件可使用合适的连接布置(例如,本领域已知的内部总线,包含I2C总线、布线和印刷电路板)互连并且在这些元件之间发射数据。
系统800包含能够经由通信信道860与其他设备通信的通信接口850。通信接口850可包含但不限于被配置为通过通信信道860发射和接收数据的收发器。通信接口850可包含但不限于调制解调器或网卡,并且通信信道860可例如实施在有线和/或无线介质内。
在各种实施方案中,使用诸如IEEE 802.11的Wi-Fi网络将数据流式传输到系统800。这些实施方案的Wi-Fi信号通过适用于Wi-Fi通信的通信信道860和通信接口850接收。这些实施方案的通信信道860通常连接到接入点或路由器,该接入点或路由器提供对包含互联网的外部网络的访问,以用于允许流式应用和其他云上通信。
其他实施方案使用机顶盒向系统800提供流式数据,该机顶盒通过输入块891的HDMI连接递送数据。
还有其他实施方案使用输入块891的RF连接向系统800提供流式数据。
系统800可将输出信号提供到各种输出设备,包含显示器892、扬声器893和其他外围设备894。在实施方案的各种示例中,其它外围设备894包含独立DVR、磁盘播放器、立体系统、照明系统和基于系统800的输出而提供功能的其它设备中的一或多个项目。
在各种实施方案中,控制信号使用诸如AV.Link、CEC或其他通信协议的信令在系统800与显示器892、扬声器893或其他外围设备894之间传送,该等其他通信协议使得能够在有或没有用户干预的情况下进行设备到设备控制。
输出设备可通过相应接口870、880和890经由专用连接通信地耦合到系统800。
另外,输出设备可使用通信信道860经由通信接口850连接到系统800。显示器892和扬声器893可与电子设备(例如,电视机)中的系统800的其他部件集成在单个单元中。
在各种实施方案中,显示接口870包含显示驱动器,例如定时控制器(T Con)芯片。
如果输入891的RF部分为单独机顶盒的一部分,那么显示器892和扬声器893可替代地与其他部件中的一或多个部件分开。在显示器892和扬声器893为外部部件的各种实施方案中,输出信号可经由专用输出连接(包含例如HDMI端口、USB端口或COMP输出)提供。
图9示出根据本原理的渲染方法900的流程图。该方法可由诸如图8中的系统800的客户端设备执行。
在步骤S910中,用以渲染沉浸式场景的客户端设备使用通常从清单文件获得的信息来初始化,以便检索相关视频表示。
该信息描述用户的导航空间,其可为定界的表面、预界定的路径或3D空间,经由或通过其用户可在穿戴头戴式显示器(HMD)时使用游戏手柄虚拟地或物理地移动。该可用导航空间划分为不同区。这些区中的每个区对应于待用于在用户位于内部时得到渲染该视口所需的体积数据的单元。该等单元可但不一定重叠。
对于每个单元,可提供以下信息:
·该单元在合适的坐标系中的面积覆盖范围,诸如全球3D笛卡尔(cartesian)坐标系(例如,边界框、由中心位置和半径界定的虚拟球体等)
·单元的类型:3DoF+单元或PO单元
·对于3DoF+单元:
○其中央补丁的该数据的该位置,诸如URI
○其外围补丁的该数据的该位置,诸如URI
·对于PO单元:该PO单元(即,外围补丁)和组合物阵列的图,列出从N个相邻3DoF+单元重构建虚拟3DoF+单元的N种方式
○对于每个相邻3DoF+单元
·其中央补丁的该数据的该位置,诸如URI
·该PO单元的外围补丁的该数据相对于相邻3DoF+单元的该位置。
·视频参数,例如编解码器和持续时间。
用于从补丁重建体积信息的参数(例如,补丁上的打包信息、相机的投影参数等等)可在清单中提供到设备(例如,在自适应流的情况下)或作为流中的元数据。
在步骤S910中,客户端设备在存储器中建立检索的单元的体积信息并且渲染当前用户视口。
在渲染多3DoF+内容期间,客户端设备取决于用户的存在和预测位置来检索3DoF+单元。
然而,根据本原理,用于视口渲染的内容可不仅取决于用户的当前位置,而且取决于先前的单元。在图10A和图10B中所描绘的示例中,用户在图10A中从左到右移动,从左3DoF+单元1010中的第一位置1040开始到中间3DoF+单元1020中的第二位置1050,然而用户在图10B中从右到左移动,从右3DoF+单元1030中的位置1060开始到中间3DoF+单元1020中的第二位置1050。如可看出,对于PO单元1020内的相同端部位置1050,中央补丁由左3DoF+单元1010(如图10A)或右侧3DoF+单元1030(如图10B)提供。对于这一示例中的PO单元,必须提供客户端设备对至少左或右相邻中央补丁和对相应相关补丁的访问,这取决于先前的单元是哪一个单元。
因此,该客户端设备跟踪单元网格内该用户的位置,并且在步骤S930中预测对应于待检索的下一视频块的未来时间间隔的位置。
当该客户端设备预测用户进入3DoF+单元时,该客户端设备在步骤S940中相对于这一3DoF+单元检索中央和外围补丁,例如通过从清单获得其URI并且从内容服务器请求其。内容服务器包含至少一个硬件处理器、至少一个通信接口和非暂时性存储装置(即存储器),其被配置为存储呈3DoF+单元和PO单元形式的沉浸式视频内容,例如在请求时提供给客户端设备。
当客户端设备预测用户进入PO单元时,客户端设备在步骤S950中相对于这一相邻3DoF+单元选择最相关的3DoF+单元中央补丁和PO单元的外围补丁,并且作为先前的3DoF+单元获得这些。
返回图3的示例,当用户进入单元2时,客户端设备在单元1与单元3的中央补丁之间具有选择。如可看出,由中央补丁覆盖的区域被放大,因此可降低下载非相关内容的风险,这对于用户体验将是不良的。举例来说,如果用户以高概率缓慢移动(例如仅高达PR1),那么优选选择单元1的中央补丁。另一方面,如果用户正在加速的概率高,那么优选获得单元3的中央补丁。
选择中央补丁的标准的示例为:
·选择中心点最接近预测位置PE的中央补丁,
·如果用户可返回到前一点或可降低他的运动速度,那么选择该当前中央补丁的下一个块(适合于PR1)。
·在PP之后选择该下一3DoF+单元的该中央补丁(适合于PR2)。
·选择单元1和单元3的更小中央补丁,当带宽减少时,这可为有趣的。
在接收到中央和外围补丁(3DoF+或PO)时,当需要渲染单元时,在步骤S920中,取决于该用户在单元内的位置和定向,体积信息被重建到存储器中并且在当前用户视口中渲染。
如可看出,通过扩展由中央补丁覆盖的区域,预测未来用户的位置可受到更少的约束,并且通过减少中央补丁的数量,可减少内容的数据量。
应理解,本原理可以减少6DoF体验的3DoF+信息的量。这是由于可以减少所需的“完整”3DoF+单元的数量的事实-在至少一些情况下,其几乎可减半-并且取代PO单元可小得多。此外,本原理可与MPEG OMAF中的标准化的3DoF+格式兼容。此外,本原理可实现用户体验的很少或零降低。
应理解,附图中所绘示的元件可以各种形式的硬件、软件或它们的组合来实施。优选地,这些元件在一或多个适当编程的通用设备上以硬件和软件的组合实施,该通用设备可包含处理器、存储器和输入/输出接口。
本说明书示出本公开的原理。因此,应理解,本领域技术人员将能够设计各种布置,尽管在本文中未明确描述或绘示,但是体现本公开的原理并且包含在其范围内。
本文所叙述的所有示例和条件语言旨在教学目的,以帮助读者理解本公开的原理和由发明人对促进本领域所贡献的概念,并且应解释为不限于这种具体叙述的示例和条件。
此外,本文阐述的本公开的原理、方面和实施方案以及它们的具体示例的所有陈述均旨在涵盖它们的结构和功能等同物。此外,意图在于,这种等同物包含当前已知等同物以及未来开发的等同物两者,即,所开发的任何执行相同功能的元件,而不管结构如何。
因此,例如,本领域技术人员将理解,本文所呈现的框图表示体现本公开的原理的说明性电路的概念图。类似地,应当理解,任何流程图(flow charts)、流程图(flowdiagrams)等表示可基本上在计算机可读介质中表示并且由计算机或处理器执行的各种过程,无论这种计算机还是处理器是否被明确绘示。
图中所绘示的各种元件的功能可通过使用专用硬件以及能够与适当软件相关联地执行软件的硬件来提供。当由处理器提供时,功能可由单个专用处理器、单个共享处理器或由多个单独处理器提供,其中一些可以为共享的。此外,术语“处理器”或“控制器”的明确使用不应解释为指能够执行软件的硬件,并且可隐含地包括但不限于数字信号处理器(DSP)硬件、存储软件的只读存储器(ROM)、随机存取存储器(RAM)和非易失性存储装置。
还可包含其它常规和/或定制的硬件。类似地,图中所绘示的任何开关仅为概念性的。其功能可通过编程逻辑的操作、通过专用逻辑、通过编程控制和专用逻辑的交互、或甚至手动地进行,如从上下文更具体地理解,可由实施人员选择的特定技术。
在本文的权利要求中,表达为用于执行指定功能的装置的任何元件旨在涵盖执行该功能的任何方式,包括例如,a)执行该功能的电路元件的组合,或b)呈任何形式的软件,因此,包含固件、微码或类似物,与用于执行该软件以执行该功能的适当电路结合。如这些权利要求所定义的公开内容在于以下事实:以权利要求书要求的方式将由各种所叙述的装置提供的功能结合并且汇集在一起。因此,认为可提供那些功能的任何装置等同于本文所绘示的那些。

Claims (15)

1.一种渲染沉浸式视频内容的方法,所述方法包括在设备中:
使用接收到的数据渲染对应于所述沉浸式视频中的第一用户位置的第一视点,
其中所述接收到的数据包括第一单元的视差信息,所述第一单元涵盖所述第一用户位置、相邻单元的标识符和所述相邻单元的中央补丁的内容,
其中从所述中央补丁的所述内容和所述视差信息产生所述第一视点。
2.根据权利要求1所述的方法,进一步包括基于至少一个跟踪的用户位置预测第二用户位置,并且当所述第二用户位置指示用户从所述相邻单元中的所述跟踪的用户位置朝向所述第一单元移动时,响应于第二用户位置而检索所述第一单元的所述视差信息。
3.根据权利要求1所述的方法,其中所述第一单元包括所述视差信息和所述相邻单元的所述标识符,并且所述相邻单元包括所述中央补丁。
4.根据权利要求3所述的方法,其中所述第一单元进一步包括邻近于所述第一单元的另一相邻单元的标识符,以及与所述相邻单元的中央补丁一起使用的另一的视差信息,以用于产生对应于所述沉浸式视频中的第二用户位置的视点。
5.一种用于渲染沉浸式视频内容的设备,所述设备包括:
处理器,所述处理器被配置为使用接收到的数据渲染对应于所述沉浸式视频中的第一用户位置的第一视点,
其中所述接收到的数据包括第一单元的视差信息,所述第一单元涵盖所述第一用户位置、相邻单元的标识符和所述相邻单元的中央补丁的内容,并且
其中从所述中央补丁的所述内容和所述视差信息产生所述第一视点。
6.根据权利要求5所述的设备,其中所述处理器被进一步配置为基于至少一个跟踪的用户位置来预测第二用户位置,并且当第二用户位置指示用户从所述相邻单元中的所述跟踪的用户位置朝向所述第一单元移动时,响应于所述第二用户位置而检索所述第一单元的所述视差信息。
7.根据权利要求5所述的设备,其中所述第一单元包括所述视差信息和所述相邻单元的所述标识符,并且所述相邻单元包括所述中央补丁。
8.根据权利要求7所述的设备,其中所述第一单元进一步包括邻近于所述第一单元的另一相邻单元的标识符,以及与所述相邻单元的中央补丁一起使用的另一视差信息,以用于产生对应于所述沉浸式视频中的第二用户位置的视点。
9.根据权利要求5所述的设备,其中所述处理器被配置为经由所述设备的显示接口或在所述设备的显示器上渲染所述第一视点。
10.根据权利要求5所述的设备,进一步包括被配置为接收所述数据的通信接口。
11.一种用于产生沉浸式视频内容的方法,所述方法包括:
接收由对应于至少两个相邻单元的相机捕获的内容,第一单元具有至少一个中心相机和一个外围相机,并且第二单元具有至少一个相机;
使用由所述至少一个外围相机捕获的内容产生相对于由所述中心相机捕获的所述内容的第一视差信息;
使用由所述第二单元中的所述至少一个相机捕获的内容产生相对于由所述中心相机捕获的所述内容的第二视差信息;以及
产生包括由所述中心相机捕获的所述内容和所述第一视差信息的第一单元内容以及包括所述第二视差信息和所述第一单元的标识符的第二单元内容。
12.一种用于产生沉浸式视频内容的设备,所述设备包括:
处理器,所述处理器被配置为:
接收由对应于至少两个相邻单元的相机捕获的内容,第一单元具有至少中心相机和外围相机并且第二单元具有至少一个摄像机;
使用由所述至少一个外围相机捕获的内容产生相对于由所述中心相机捕获的所述内容的第一视差信息;
使用由所述第二单元中的所述至少一个相机捕获的内容产生相对于由所述中心相机捕获的所述内容的第二视差信息;和编码器,其被配置为产生包括由所述中心相机捕获的所述内容和所述第一视差信息的第一单元内容以及包括所述第二视差信息和所述第一单元的标识符的第二单元内容。
13.一种被配置为提供沉浸式视频内容的内容服务器,所述内容服务器包括:
存储器,所述存储器存储沉浸式视频内容,所述沉浸式视频内容包括涵盖用户位置的第一单元的视差信息、相邻单元的标识符和所述相邻单元的中央补丁的内容;和
处理器,所述处理器被配置成响应于来自客户端设备的请求而提供所述视差信息、相邻单元的所述标识符和所述中央补丁的所述内容,以使得所述客户端设备能够在所述第一单元中渲染视点。
14.一种存储编程代码指令的非暂时性计算机可读介质,所述编程代码指令在由处理器执行时实施根据权利要求1到4中的至少一项所述的方法的步骤。
15.一种存储编程代码指令的非暂时性计算机可读介质,所述编程代码指令在由处理器执行时实施根据权利要求11所述的方法的步骤。
CN202080065522.3A 2019-09-19 2020-09-07 用于产生和渲染沉浸式视频的设备和方法 Pending CN114450939A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19306128.0 2019-09-19
EP19306128 2019-09-19
PCT/EP2020/074949 WO2021052799A1 (en) 2019-09-19 2020-09-07 Devices and methods for generating and rendering immersive video

Publications (1)

Publication Number Publication Date
CN114450939A true CN114450939A (zh) 2022-05-06

Family

ID=68242585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080065522.3A Pending CN114450939A (zh) 2019-09-19 2020-09-07 用于产生和渲染沉浸式视频的设备和方法

Country Status (4)

Country Link
US (1) US20220256132A1 (zh)
EP (1) EP4032311A1 (zh)
CN (1) CN114450939A (zh)
WO (1) WO2021052799A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240129562A1 (en) * 2022-10-14 2024-04-18 Rovi Guides, Inc. Systems personalized spatial video/light field content delivery

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107924589A (zh) * 2015-08-20 2018-04-17 微软技术许可有限责任公司 通信系统
US20180115769A1 (en) * 2014-10-22 2018-04-26 Parallaxter Method for collecting image data for producing immersive video and method for viewing a space on the basis of the image data
EP3457688A1 (en) * 2017-09-15 2019-03-20 Thomson Licensing Methods and devices for encoding and decoding three degrees of freedom and volumetric compatible video stream
WO2019068745A1 (en) * 2017-10-02 2019-04-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. EFFECTIVE IMMERSIVE CONTINUOUS DIFFUSION
EP3474562A1 (en) * 2017-10-20 2019-04-24 Thomson Licensing Method, apparatus and stream for volumetric video format

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012176109A1 (en) * 2011-06-22 2012-12-27 Koninklijke Philips Electronics N.V. Method and apparatus for generating a signal for a display
EP3349182A1 (en) 2017-01-13 2018-07-18 Thomson Licensing Method, apparatus and stream for immersive video format
US11184599B2 (en) * 2017-03-15 2021-11-23 Pcms Holdings, Inc. Enabling motion parallax with multilayer 360-degree video
CN110869980B (zh) * 2017-05-18 2024-01-09 交互数字Vc控股公司 将内容分发和呈现为球形视频和3d资产组合
EP3429210A1 (en) 2017-07-13 2019-01-16 Thomson Licensing Methods, devices and stream for encoding and decoding volumetric video
EP3432581A1 (en) 2017-07-21 2019-01-23 Thomson Licensing Methods, devices and stream for encoding and decoding volumetric video
JP7259753B2 (ja) * 2017-08-29 2023-04-18 ソニーグループ株式会社 情報処理装置、情報処理方法、及びプログラム
US20200228777A1 (en) 2017-09-15 2020-07-16 InterDigita! VC Holdings, Inc. Methods, devices and stream for encoding and decoding three degrees of freedom and volumetric compatible video stream
EP3703375A4 (en) * 2017-10-27 2020-09-02 Panasonic Intellectual Property Corporation of America THREE-DIMENSIONAL MODEL CODING DEVICE, THREE-DIMENSIONAL MODEL DECODING DEVICE, THREE-DIMENSIONAL MODEL CODING PROCESS AND THREE-DIMENSIONAL MODEL DECODING PROCESS
EP3496388A1 (en) 2017-12-05 2019-06-12 Thomson Licensing A method and apparatus for encoding a point cloud representing three-dimensional objects
US20200389640A1 (en) * 2018-04-11 2020-12-10 Lg Electronics Inc. Method and device for transmitting 360-degree video by using metadata related to hotspot and roi

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180115769A1 (en) * 2014-10-22 2018-04-26 Parallaxter Method for collecting image data for producing immersive video and method for viewing a space on the basis of the image data
CN107924589A (zh) * 2015-08-20 2018-04-17 微软技术许可有限责任公司 通信系统
EP3457688A1 (en) * 2017-09-15 2019-03-20 Thomson Licensing Methods and devices for encoding and decoding three degrees of freedom and volumetric compatible video stream
WO2019068745A1 (en) * 2017-10-02 2019-04-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. EFFECTIVE IMMERSIVE CONTINUOUS DIFFUSION
EP3474562A1 (en) * 2017-10-20 2019-04-24 Thomson Licensing Method, apparatus and stream for volumetric video format

Also Published As

Publication number Publication date
WO2021052799A1 (en) 2021-03-25
US20220256132A1 (en) 2022-08-11
EP4032311A1 (en) 2022-07-27

Similar Documents

Publication Publication Date Title
CN110419221B (zh) 自适应扰动立方体的地图投影
KR102670822B1 (ko) 볼류메트릭 비디오 전송을 위한 방법들 및 장치
KR20170132098A (ko) 레거시 및 몰입형 렌더링 디바이스를 위한 몰입형 비디오를 포맷팅하는 방법, 장치 및 스트림
US11539983B2 (en) Virtual reality video transmission method, client device and server
CN113453046B (zh) 沉浸式媒体提供方法、获取方法、装置、设备及存储介质
EP3820155A1 (en) Method and device for processing content
CN107438203B (zh) 用于建立和接收清单的方法、网络设备及终端
US20240119660A1 (en) Methods for transmitting and rendering a 3d scene, method for generating patches, and corresponding devices and computer programs
US11910054B2 (en) Method and apparatus for decoding a 3D video
US20220256132A1 (en) Devices and methods for generating and rendering immersive video
WO2020013976A1 (en) Methods and apparatus for volumetric video transport
KR20220045038A (ko) 코드 스트림의 처리 방법, 장치, 제1 단말, 제2 단말 및 저장 매체
WO2020185529A1 (en) A method and apparatus for encoding and decoding volumetric video
US20220264150A1 (en) Processing volumetric data
WO2023198426A1 (en) Dynamic block decimation in v-pcc decoder
WO2020131984A1 (en) Method and apparatus to encode and decode images of points of a sphere
EP4078971A1 (en) Methods and apparatuses for encoding, decoding and rendering 6dof content from 3dof+ composed elements

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination