CN110870303B - 呈现超出全方位媒体的vr媒体的方法和装置 - Google Patents

呈现超出全方位媒体的vr媒体的方法和装置 Download PDF

Info

Publication number
CN110870303B
CN110870303B CN201880045432.0A CN201880045432A CN110870303B CN 110870303 B CN110870303 B CN 110870303B CN 201880045432 A CN201880045432 A CN 201880045432A CN 110870303 B CN110870303 B CN 110870303B
Authority
CN
China
Prior art keywords
track
media content
omnidirectional
nested
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880045432.0A
Other languages
English (en)
Other versions
CN110870303A (zh
Inventor
王新
陈鲁林
赵帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MediaTek Singapore Pte Ltd
Original Assignee
MediaTek Singapore Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MediaTek Singapore Pte Ltd filed Critical MediaTek Singapore Pte Ltd
Publication of CN110870303A publication Critical patent/CN110870303A/zh
Application granted granted Critical
Publication of CN110870303B publication Critical patent/CN110870303B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/698Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/122Improving the 3D impression of stereoscopic images by modifying image signal contents, e.g. by filtering or adding monoscopic depth cues
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/366Image reproducers using viewer tracking
    • H04N13/371Image reproducers using viewer tracking for tracking viewers with different interocular distances; for tracking rotational head movements around the vertical axis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/366Image reproducers using viewer tracking
    • H04N13/373Image reproducers using viewer tracking for tracking forward-backward translational head movements, i.e. longitudinal movements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/366Image reproducers using viewer tracking
    • H04N13/376Image reproducers using viewer tracking for tracking left-right translational head movements, i.e. lateral movements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/90Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/332Displays for viewing with the aid of special glasses or head-mounted displays [HMD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Processing Or Creating Images (AREA)

Abstract

一种视频处理方法,包括:接收至少一个虚拟现实(VR)内容,从该至少一个VR内容获得至少一个图像,对所述至少一个图片进行编码以生成编码位流的一部分,以及通过文件封装电路,将编码比特流的一部分封装成至少一个ISO基媒体文件格式(ISOBMFF)文件。该至少一个ISOBMFF文件包括用第一组平移坐标参数化的第一轨道,其中第一组平移坐标标识第一全方位媒体内容的原点。

Description

呈现超出全方位媒体的VR媒体的方法和装置
【交叉引用】
本发明要求以下申请的优先权:在2017年7月13日提出的申请号为62/531,906的美国临时专利申请。上述美国临时专利申请整体以引用方式并入本文中。
【技术领域】
本发明涉及处理虚拟现实(virtual reality,简写为VR)内容,更具体而言,涉及用于呈现超出全方位媒体(Omnidirectional Media)的VR媒体的方法和装置。
【背景技术】
虚拟现实(VR)最近获得了极大的关注,主要受到消费者设备(例如头戴式显示器(HMD))近期市场供应情况的推动。具有HMD的VR与多种应用相关联。向用户显示宽视野内容的能力可用于提供沉浸式视觉体验。必须在所有方向捕获真实环境,从而产生全向VR内容。随着摄像机装备和HMD的进步,因为呈现这样的360°内容需要高位率,全向VR内容的传递可能很快成为瓶颈。
近年来,大型行业的参与证明了围绕VR进行了大量活动。例如,由于预期消费者VRHMD的日益普及将导致对VR内容的需求增加,各种公司也开始开发全向相机以允许捕获360°内容。但是,缺乏适当的标准以及因此降低的互操作性正成为一个问题。因此,运动图像专家组(MPEG)已经启动了称为全方位媒体应用格式(OMAF)的项目,该项目旨在标准化360°音频-视频内容的存储和传送格式。在OMAF的上下文中,存储和传送格式基于ISO基媒体文件格式(ISOBMFF)。但是,关于VR内容存储和传送的开发标准,还有很大的改进空间。例如,需要呈现超出全方位媒体的VR媒体。
【发明内容】
本发明的目的之一是提供一种用于呈现超出全方位媒体的VR媒体的方法和装置。
根据本发明的第一方面,提供了一种示例性视频处理方法。该示例性视频处理方法包括:接收至少一个虚拟现实(VR)内容;从所述至少一个VR内容中获取至少一个图像;编码所述至少一个图像以生成编码位流的一部分;通过文件封装电路将编码位流的一部分封装成至少一个ISO基媒体文件格式(ISOBMFF)文件,其中所述至少一个ISOBMFF文件包括用第一组平移坐标参数化的第一轨道,以及该第一组平移坐标标识第一全方位媒体内容的原点。
根据本发明的第二方面,提供了一种示例性视频处理装置。示例性视频处理装置包括转换电路,视频编码器和文件封装电路。转换电路被布置为接收至少一个虚拟现实(VR)内容,并从所述至少一个VR内容获得至少一个图像。视频编码器被布置为对所述至少一个图像进行编码以生成编码位流的一部分。文件封装电路被安排成将编码位流的一部分封装成至少一个ISO基本媒体文件格式(ISOBMFF)文件,其中所述至少一个ISOBMFF文件包括用第一组平移坐标参数化的第一轨道,并且该第一组平移坐标标识第一全方位媒体内容的原点。
在阅读了在各个附图和附图中示出的优选实施例的以下详细描述之后,本发明的这些和其他目的无疑将对本领域技术人员变得显而易见。
【附图说明】
图1是示出根据本发明的实施例的虚拟现实(VR)系统的图。
图2是示出根据本发明的实施例的等距矩形投影(ERP)的图。
图3是示出根据本发明的实施例的立方体图投影(CMP)的图。
图4是示出根据本发明的实施例的第一区域性打包示例的图。
图5是示出根据本发明的实施例的第二区域性打包示例的图。
图6是示出根据本发明的实施例的目的地电子设备的移动的图。
图7是图示根据本发明的实施例的一个VR流式架构的图。
图8是根据对自由度(DoF)的约束来说明不同类型的VR(或沉浸式)媒体的图。
图9是示出根据本发明的实施例的具有相同原点的多个嵌套球体的图,该球体可用于提供3DoF+VR体验。
图10是示出根据本发明的实施例的在多个投影平面上生成的多个投影图片以提供3DoF+VR体验的图。
图11是示出根据本发明的实施例的在不同2D平面上缩放的视埠的图。
图12是示出根据本发明实施例的可用于提供3DoF+VR体验的嵌套球体组的3D阵列的图。
图13是图示根据本发明的实施例的窗口化的6DoF情况的图。
图14是示出根据本发明的实施例的用于6DoF VR体验的不同2D平面上的视埠缩放和移动的图。
图15是示出根据本发明的实施例的基于轨道推导的轨道的层次的图。
【具体实施方式】
贯穿以下描述和权利要求书使用某些术语,其涉及特定组件。如本领域技术人员将理解的,电子设备制造商可以通过不同的名称来指代组件。本文档无意区分名称不同但功能不同的组件。在以下描述和权利要求书中,术语“包括”和“包含”以开放式的方式使用,因此应该被解释为表示“包括但不限于......”。而且,术语“耦合”旨在表示间接或直接电连接。因此,若一个设备耦合到另一个设备,则该连接可以通过直接电连接,或通过经由其他设备和连接的间接电连接。
图1是示出根据本发明的实施例的虚拟现实(VR)系统的图。VR系统100包括两个视频处理装置(例如,源电子设备102和目的地电子设备104)。源电子设备102包括从视频捕获设备112、转换电路114、视频编码器116和文件封装电路118中选择的至少一些组件。视频捕获设备112系提供VR内容之VR内容提供商(如,全向VR内容或超出全向VR内容的VR内容)Bv。例如,视频捕获设备112可以是用于在不同方向上捕获场景Av的一组相机,使得由视频捕获设备112生成覆盖整个周围环境的多个捕获图像。在一些其他实施例中,可以从多于一个源设备、多于一个视频捕获设备或至少一个源设备和至少一个视频捕获设备的组合接收覆盖整个周围环境的多个捕获图像。在该实施例中,视频捕获设备112可以配备有视频拼接(stitch)能力。因此,可以将由视频捕获设备112的不同相机捕获的内容拼接在一起以形成拼接图像。另外,拼接图像可以进一步投影到三维(3D)投影结构(例如,球体)上。因此,视频捕获设备112可以在球体上提供VR内容Bv。或者,通过适当移动视频捕获设备112,视频捕获设备112可以分别在3D空间中的多个具有不同原点位置(origin)的球体上提供多个VR内容Bv。
转换电路114耦合在视频捕获设备112和视频编码器116之间。转换电路114通过对3D空间中的一个VR内容Bv应用视觉预处理(visual pre-processing),在二维(2D)平面上生成图像Dv。当VR内容Bv对应于3D空间中的球体时,在转换电路114处执行的视觉预处理可以包括投影和可选的区域性打包(region-wise pack)。因此,图像Dv可以是投影图像或打包图像。3D投影结构(例如,球体)上的VR内容Bv可以经由360度VR(360VR)投影格式进一步布置在2D投影图像上。例如,360VR投影格式可以是等距矩形投影(ERP)格式或立方体图投影(CMP)格式。假设使用可选的区域性打包,2D投影图像上的区域进一步映射到2D打包图像上。
图2是示出根据本发明的实施例的等距矩形投影(ERP)的图。球体200上的VR内容Bv被投影到2D平面上的矩形图像202上。球体200被采样成几个水平圆圈(纬度圆圈),并且每个圆圈被映射到矩形图像202的水平线。靠近图像上边界和下边界的水平线相对于它们在球体200上各自的圆圈显著地被拉伸了。
图3是示出根据本发明的实施例的立方体图投影(CMP)的图。球体200上的VR内容Bv投影到立方体的六个面上,包括顶面(标记为“顶”),底面(标记为“底”),左面(标记为“左”),正面(标记为“正”),右面(标记为“右”)和背面(标记为“背”),然后将面布置在2D平面上。要编码的图像Dv需要是矩形的。若CMP布局302直接用于创建图像Dv,则由于图像Dv中填充有许多虚设(dummy)区域(例如,黑色区域、灰色区域或白色区域)301_1、301_2、301_3和301_4,图像Dv不能具有紧凑的布局。或者,图像Dv可以具有排列在紧凑CMP布局304中的投影图像数据,以避免使用虚设区域(例如,黑色区域,灰色区域或白色区域)。
在编码之前,可以将区域性打包处理应用于具有特定投影布局(例如,ERP布局或紧凑CMP布局)的投影图像。例如,投影图像被划分为多个矩形区域,并且区域性打包被应用于矩形区域,用于将矩形区域性打包成打包图像。关于投影图像的矩形区域,在将矩形区域性打包到打包图像之前,区域性打包可以对矩形区域应用平移、缩放、旋转和/或镜像。图4是示出根据本发明的实施例的第一区域性打包的示例图。具有ERP布局的投影图像被划分为不同的区域(例如,顶部、中部和底部)。顶部、中部和底部可以通过区域性打包映射到打包图像上。图5是示出根据本发明的实施例的第二区域性打包示例的图。具有CMP布局的投影图像被划分为不同的区域(例如,左面、正面、右面、底面、背面和顶面)。左面、正面、右面、底面、背面和顶面可以通过区域性打包映射到打包图像上。应该注意的是,图4和图5中所示的打包图像仅用于说明目的,并不意味着是对本发明的限制。
从转换电路114提供的每个图像Dv可以是包括在从转换电路114生成的视频帧序列中的一个视频帧。每个图像Dv可以用于提供全向内容。在本发明的一些实施例中,图像Dv的集合可用于提供超出全向VR内容的VR内容。视频编码器116是用于编码/压缩全向内容的图像Dv(或超出全向VR内容的VR内容的图像Dv)以生成编码位流的一部分的编码电路。在从视频编码器116接收到编码位流的一部分(其包括全向内容的图像Dv的编码数据Ev,或者包括超出全向VR内容的VR内容的图像Dv的编码数据Ev)之后,文件封装电路118将编码位流的一部分以及附加元数据Dm一起封装为一个或多个ISOBMFF文件F。例如,附加元数据Dm可以为HTTP上的动态自适应流传输(dynamic adaptive streaming over HTTP,简写为DASH)提供附加信令。
依赖于视埠(viewport)的流式传输模式(streaming scheme)(例如,基于区块或基于子图像的流式传输模式)可以用于360°视频传输。根据基于图块(tile-based)的流式传输模式,一个图像Dv被划分为多个图块(或子图像),每个图块被独立编码。换句话说,图像Dv的图块是图像Dv的空间部分(即,子图像),并且通常是矩形。此外,相同图块的内容可以以不同的质量和位率编码以生成编码图块的变体(variant),或者可以用不同的编解码器和保护模式编码以生成编码图块的变体。在这种情况下,每个ISOBMFF文件F可以是基于图块的文件。文件封装电路118将相同图块的每个编码变体封装到变体轨道(即,变体子图像轨道)中,并且将相同图块的所有编码变体的变体轨道封装到相同的ISOBMFF文件F中。元数据Dm可以包括通过使用轨道元数据框(metadata box)直接放置在视觉轨道中的元数据,和/或可以包括放置在与视觉轨道相关联的元数据轨道(例如,定时元数据轨道)中的元数据。例如,信令的元数据Dm可以包括投影/方向信息、打包信息、子图像组成信息、感兴趣区域(ROI)信息、视埠信息等。
或者,图像Dv可以由球体上的VR内容Bv直接设置。因此,在从视频编码器116接收到编码位流的一部分(其包括图像Dv的编码数据Ev)之后,文件封装电路118将编码位流的一部分与附加元数据一起封装到一个或多个ISOBMFF文件F中,其中球形视频轨道(即VR 3D视频轨道)包含在ISOBMFF文件F中。然而,这仅用于说明目的,并不意味着是对本发明的限制。例如,球形视频轨道(即,VR 3D视频轨道)可以是衍生轨道,其媒体数据可以从在VR应用端(即,目的地电子设备104)处执行的轨道导出获得并且至少部分基于具有ISOBMFF文件F/F'中的媒体数据的视觉轨道。
文件封装电路118经由传输装置103将ISOBMFF文件F输出到目的地电子设备104。例如,传输装置103可以是有线/无线通信链路,并且ISOBMFF文件F通过HTTP使用单播、多播或广播传送被传递到目的地电子设备104。在一些其他实施例中,可以使用任何其他存储介质将ISOBMFF文件F提供给目的地电子设备104,这不应限于本公开。
目的地电子设备104可以是头戴式显示器(HMD)设备。如图1所示,目的地电子设备104包括文件解封装电路120、视频解码器122、图形渲染(render)电路124和显示屏126。文件解封装电路120从传输装置103接收ISOBMFF文件F'。在没有传输错误的情况下,由文件解封装电路120接收的ISOBMFF文件F'应该与从文件封装电路118输出的ISOBMFF文件F相同。在接收到ISOBMFF文件F'之后,文件解封装电路120将ISOBMFF文件F'解封装为编码位流的一部分(其包括要为全方位媒体呈现而重建的图像的编码数据E'v,或者包括要为呈现超出全方位媒体呈现的VR媒体而重建的复数个图像的编码数据E'v),并从ISOBMFF文件F'中提取/解析伴随的元数据D'm。若没有传输错误和解封装错误,则从ISOBMFF文件F'提取/解析的元数据D'm应该与添加到ISOBMFF文件F的元数据Dm相同。
视频解码器122耦合在文件解封装电路120和图形渲染电路124之间,并且是解码电路,其被配置为根据提取的/解析的元数据D'm解码编码的位流的一部分。例如,视频解码器122对编码位流的一部分进行解码,以获得信令的元数据D'm指定的视埠(例如,初始视埠或推荐视埠)的解码数据D'v。图形渲染电路124是后处理电路,其被配置为根据从视埠的解码数据获得的显示数据A'v在显示屏126上渲染和显示视埠。
最近,出现了新的视频应用。特别是,360视频(全景视频、球形视频)和虚拟现实(VR)捕获真实世界全景图的用例引起了人们的极大关注。MPEG标准化应用格式“全方位媒体应用格式(OMAF)”,以指定用于存储、传送和呈现全方位媒体内容的格式。在OMAF的委员会草案(CD)中,信令球体上区域的定时元数据,其可用于指示一个或多个视点和视埠。
图6是示出根据本发明的实施例的目的地电子设备104的移动的图。如上所述,目的地电子设备104可以是佩戴在用户头上的HMD设备或能够显示虚拟现实内容的任何其他设备。因此,目的地电子设备104的方位(orientation)也是用户的观看方位,并且可以通过沿Y轴的偏航角(yaw angle),沿X轴的俯仰角(pitch angle)和沿Z轴的侧倾角(rollangle)来指定。若目的地电子设备104的方位改变,则球体上的视埠的位置和/或形状改变。
图7是图示根据本发明的实施例的一个VR流式架构的图。可以在图1中所示的视频捕获设备112和/或转换电路114处执行步骤702(图7中标示为渲染)。可以在图1中所示的视频编码器116处执行步骤704(图7中标示为编码)。步骤706(图7中标示为传送)可以在图1所示的传输装置103中执行。可以在图1中所示的视频解码器122处执行步骤708(图7中标示为解码)。可以在图1所示的图形渲染电路124处执行步骤710(图7中标示为构建(construction))和712(图7中标示为渲染)。可以通过VP应用端(即目的地电子设备104)的头/眼跟踪功能来执行步骤714(图7中标示为交互(interaction))。
MPEG最近开始计划开发支持沉浸式媒体(Immersive Media)的MPEG-I标准,包括360°(或全向)视听媒体(Audiovisual Media)。虽然全方位媒体格式(OMAF)第一版的标准化将于2017年完成,但超出全方位媒体的VR媒体类型的标准工作仍处于使用案例和需求阶段。
图8是根据对自由度(degrees of freedom,简写为DoF)的约束来说明不同类型的VR(或沉浸式)媒体的图。图8的子图(A)示出了3DoF VR体验。在X、Y和Z轴周围有三个旋转和非限制运动(分别为俯仰、偏航和侧倾)。典型的用例是坐在椅子上的用户在HMD上观看3D360VR内容。亦即,全方位媒体内容由用户在3DoF VR体验下呈现和观看。图8的子图(B)示出了3DoF+VR体验。3DoF+被认为是沿X、Y和Z轴具有额外的有限平移运动(通常是头部运动)的3DoF。典型的用例是坐在椅子上的用户在HMD上观看3D 360VR内容,其能够向上/向下、向左/向右和向前/向后轻微移动头部。在一些其他实施例中,用户可能不坐在椅子上查看HMD上的3D 360VR内容以获得3DoF或3DoF+VR体验,这在本公开中不应受到限制。图8的子图(C)示出了窗口化的(windowed)6DoF(W 6DoF)VR体验。窗口化的6DoF被视为围绕X和Y轴(分别为俯仰和偏航)具有约束的旋转运动以及沿Z轴具有约束的平移运动的6DoF。典型的用例是用户观看窗口化的VR内容;用户不能看到在窗框外的内容,也不能穿过窗户。图8的子图(D)示出了全向6DoF(O 6DoF)VR体验。全向6DoF被认为是沿X、Y和Z轴具有约束的平移运动(通常,步进距离为几步)的6DoF。典型的使用案例是用户在HMD上展示的3D 360VR内容(物理地或通过专用用户输入装置)中,在受约束的步行区域内自由地行走。子图(E)展示了6DoF VR体验。6DoF被视为沿X、Y和Z轴具有完全平移运动的3DoF。典型的用例是用户在HMD上显示的3D 360VR内容(物理地或通过专用用户输入装置)中自由行走。不同VR类型的复杂度有以下顺序:3DoF→3DoF+→W 6DoF→O 6DoF→6DoF,其中3DoF复杂度最低,6DoF复杂度最高。
OMAF标准(ISO/IEC 23090,第2部分)仅支持3DOF沉浸式媒体体验,其中用户的任何平移运动不会导致向用户呈现不同的全方位媒体。为了解决该问题,本发明的实施例公开了通过利用(leveraging)3DoF标准来支持其他类型的沉浸式媒体体验的通用方法。更具体地,本发明的实施例将每个其他VR媒体类型视为3DoF的离散集合,用转换坐标和可能的深度信息(例如,缩放因子)进行参数化,并且在ISOBMFF中提出新的文件格式轨道分组机制,用于分组媒体(包括视频、音频、图像、字幕和应用程序)和各个3DoF媒体演示的元数据轨道,以便可以通过利用3DoF媒体类型的媒体格式来定义用于编码、存储、传送和渲染其他类型的VR媒体的媒体格式。
通过这些轨道分组机制,可以定义媒体格式以支持其他VR媒体类型,如下所示:
3DoF+:3DoF媒体演示的有限集合,每个都使用一组平移坐标进行参数化。3DoF+的有限平移运动反映在集合中3DoF媒体演示中的平移坐标和/或缩放因子的变化中。
6DoF:3DoF媒体演示的集合,每个都使用一组平移坐标进行参数化。3DoF+的平移运动反映在集合中3DoF媒体演示中的平移坐标的变化中。
窗口化的6DoF:3DoF媒体演示的集合,每个都使用一组平移坐标进行参数化,具有由窗口化的6DoF中的视图窗口(view window)限制的部分球面覆盖,约束围绕X和Y轴(分别为俯仰和偏航)的旋转运动。沿Z轴的约束平移运动反映在集合中的3DoF媒体演示中的z轴坐标的变化范围以及缩放因子中。
全向6DoF:3DoF媒体演示的集合,每个都使用一组平移坐标进行参数化。全向6DoF沿X、Y和Z轴的约束平移运动反映在集合中3DoF媒体演示中X、Y、Z坐标变化的范围内。
例如,通过轨道分组机制,3DoF+可被视为3DoF从单个球体到具有相同原点的复数个嵌套球体的扩展。图9是示出根据本发明的实施例的具有相同原点的多个嵌套球体的图,该嵌套球体可用于提供3DoF+VR体验。单个球体902可以为3DoF VR体验提供全向VR内容。3DoF+可以被认为是从单个球体902到具有相同原点的多个嵌套球体(例如,904、906和908)的3DoF的扩展。球体904、906和908分别对应于不同的缩放因子。请注意,当在HMD中使用时,缩放将类似于使用双筒望远镜,并且当在“平面”设备上使用时,除了移动视埠的滑动或用于缩放功能的任何其他预定义操作之外,还可以通过挤压(pinch)来实现缩放。由图1中所示的视频捕获设备112提供的VR内容Bv可以包括:具有第一缩放因子的球体904的全向VR内容,具有第二缩放因子的球体906的全向VR内容,以及具有第三缩放因子的球体908的全向VR内容。球体904、906和908具有由3D空间中的一组平移坐标(x,y,z)指定的相同原点。作为示例而非限制,第一缩放因子可以小于第二缩放因子,并且第二缩放因子可以小于第三缩放因子。
如上所述,转换电路114通过对3D空间中的一个VR内容Bv应用视觉预处理,在2D平面上生成一个图像Dv。图10是示出根据本发明的实施例的在多个投影平面上生成多个投影图像以提供3DoF+VR体验的图。单个球体902可以为3DoF VR体验提供全向VR内容。在转换电路114处执行的视觉预处理可以包括对球体902的全向VR内容应用投影,以生成用于进一步处理的投影图像1002。本发明提出使用具有相同原点的多个嵌套球体904、906和908来为3DoF+VR体验提供全向VR内容。在转换电路114处执行的视觉预处理可以包括应用于球体904的全向VR内容的投影,以在第一投影平面上生成投影图像1004,应用于球体906的全向VR内容的投影,以在第二投影平面上生成投影图像1006,应用于球体908的全向VR内容的投影,以在第三投影平面上生成投影图像1008。投影图像1004、1006和1008被提供给随后的视频编码器116以进行编码。
图11是示出根据本发明的实施例的在不同2D平面上缩放的视埠的图。投影图像1004的图像尺寸(即,宽度×高度)小于投影图像1006的图像尺寸(即,宽度×高度),以及投影图像1006的图像尺寸(即,宽度×高度)小于投影图像1008的图像尺寸(即,宽度×高度)。投影图像1004的分辨率小于投影图像1006的分辨率,而投影图像1006的分辨率低于投影图像1008的分辨率。在该示例中,视频捕获设备112可以利用不同的缩放设置捕获相同的场景Av,以生成具有相同原点但不同缩放因子的嵌套球体904、906和908的全向VR内容。假设与球体906相关联的第二缩放因子被设置为等于零的值,则与球体904相关联的第一缩放因子可以被设置为负值,与球体906相关联的第三缩放因子可以被设置为正值。请注意,视埠VP的大小是固定的。球体906的全向VR内容上的球形区域(例如,视埠VP)可以通过投影图像1006上的第一矩形区域的反向投影(inverse projection)来确定,用于呈现正常视图,球体904的全向VR内容上的球形区域(例如,视埠VP)可以通过投影图像1004上的第二矩形区域的反向投影来确定,以呈现缩小视图,并且球体908的全向VR内容上的球形区域(例如,视埠VP)可以通过投影图像1008上的第三矩形区域的反向投影来确定,以呈现放大视图,其中第一矩形区域、第二矩形区域和第三矩形区域具有相同的尺寸。
如图11所示,视埠VP可以在具有相同原点但不同缩放因子的不同嵌套球体之间切换。然而,这仅用于说明目的,并不意味着是对本发明的限制。在本发明的一些实施例中,视埠VP可以在具有不同原点但具有相同缩放因子的不同球体之间切换。在本发明的一些实施例中,视埠VP可以在具有不同原点和不同缩放因子的不同球体之间切换。
图12是示出根据本发明实施例的可用于提供3DoF+VR体验的嵌套球体组的3D阵列的图。单个球体902可以为3DoF VR体验提供全向VR内容。3DoF+可以被认为是从单个球体902到嵌套球体组1201的3D阵列1202的3DoF的扩展,其中不同的嵌套球体组1201分别具有在3D空间中的不同位置处的原点,并且每个嵌套球体组1201具有多个嵌套球体(例如,904、906和908),其中该多个嵌套球体具有相同原点和不同缩放因子。在第一种情况下,坐在椅子上看HMD上的3D 360VR内容的用户想要通过向上/向下、向左/向右和/或向前/向后移动他的头而不启用缩放功能来获得3DoF+VR体验,通过在具有不同原点但具有相同缩放因子的不同球体之间切换视埠来启用视埠的转变(transition)。在第二种情况下,坐在椅子上观看HMD上的3D 360VR内容的用户想要通过在头部移动期间启用缩放功能来获得3DoF+VR体验,通过在具有不同原点和不同缩放因子的不同球体之间切换视埠来启用视埠的转变。在第三种情况下,坐在椅子上观看HMD上的3D 360VR内容的用户想要通过启用缩放功能而不移动头部来具有3DoF+VR体验,通过在具有相同原点和不同缩放因子的不同嵌套球体之间切换视埠来启用视埠的转变。
类似地,其他VR媒体类型(例如,6DoF、全向6DoF和窗口化的6DoF)可以被认为是3DoF的扩展,从单个球体到球体的集合,其中球体的集合的原点位置形成3D阵列或场。图13是图示根据本发明的实施例的窗口化的6DoF情况的图。可以使用不同的摄像机布置来捕获窗口内的球形内容,如图13的子图(A)、(B)和(C)所示。另外,用户可以选择范围{Znear,Zfar}中的缩放因子。
图14是示出根据本发明的实施例的用于6DoF VR体验的不同2D平面上的视埠缩放和移动的图。关于具有位于3D空间中的不同平移位置(x,y,z)的每个嵌套球体组,在转换电路114处执行的视觉预处理可以将投影应用于具有相同原点和不同的缩放因子的嵌套球体的全向VR内容,以产生由在不同2D投影平面上的投影图像组成的投影图像组。如图14所示,投影图像组1402、1404、1406、1408、1410和1412分别由具有不同原点的嵌套球体组的投影生成。因此,当用户自由地行走在HMD上显示的3D 360VR内容中时,可以通过适当的视埠缩放和/或视埠移动来提供6DoF VR体验。
对于3DoF以外的任何VR媒体类型,可以使用来自3DoF媒体演示的相邻视埠来合成不直接来自集合中的3DoF媒体的视埠。
图1的ISOBMFF文件F/F'可包括视觉轨道和元数据轨道。例如,文件封装电路118将相同图块的每个编码变体封装到变体轨道(即,变体子图像轨道)中,并将同一图块的所有编码变体的变体轨道封装到相同的ISOBMFF文件F中。元数据Dm可以包括通过使用轨道元数据框直接放置在视觉轨道中的元数据,和/或可以包括放置在与视觉轨道相关联的元数据轨道(例如,定时元数据轨道)中的元数据。对于与同一球体的全方位媒体内容(例如,图12中所示的任何球体)相对应的多个视觉轨道(例如,变体轨道)中的每一个,本发明提出添加轨道组框,其中track_group_type等于视觉轨道上的'odmp'。注意,所选名称“odmp”仅用于说明目的,不应限制本文公开的发明。以这种方式,可以使用建议的轨道组框对ISOBMFF文件F/F'中的不同视觉轨道进行分组。具体地,视觉轨道中的轨道组框可以指示视觉轨道对应于同一球体的全方位媒体内容。所提出的全方位媒体演示轨道分组的进一步细节描述如下。
全方位媒体演示轨道分组
定义
track_Type_type等于'odmp'的TrackGroupTypeBox表示该轨道属于具有可选缩放因子的特定一组平移坐标处的全向(或3DoF)媒体演示。映射到该分组的轨道(即,TrackGroupTypeBox中具有相同的track_group_id值并且track_group_type等于'odmp'的轨道)共同表示可以根据OMAF规范单独呈现的全方位媒体内容。这些轨道可以包括演示所需的视觉(视频和图像)、音频、文本、字幕、应用和元数据轨道。
句法
Figure GDA0003096446020000131
Figure GDA0003096446020000141
语义
在position_unit指示的单元中,position_x指定相对于默认参考协调系统(coodination system),全方位媒体的球体原点的x轴位置。当limited_range_flag_x等于1时,position_x的值应在range_low_x到range_high_x的范围内,包括端值。
在position_unit指示的单元中,position_y指定相对于默认参考协调系统,全方位媒体的球体原点的y轴位置。当limited_range_flag_y等于1时,position_y的值应在range_low_y到range_high_y的范围内,包括端值。
在position_unit指示的单元中,position_z指定相对于默认参考协调系统,全方位媒体的球体原点的z轴位置。当limited_range_flag_z等于1时,position_z的值应在range_low_z到range_high_z的范围内,包括端值。
zooming_factor指定全方位媒体演示的球体的缩放因子,相对于其他所有球体(若存在),全方位媒体演示的球体以同一原点为中心。zooming_factor的值应在-100和100的范围内,包括-100和100。如果没有其他全方位媒体演示以同一原点为中心,则zooming_factor的值应为0.如果有多于一个全方位媒体演示以同一原点为中心,则其中一个zooming_factor的值应等于0。
limited_range_flag_x,limited_range_flag_y,和limited_range_flag_z分别指定沿着x轴、y轴和z轴是否存在用于全方位媒体演示的球体原点的位置的位置范围。
在position_unit指示的单位中,ange_low_x和range_high_x指定全方位媒体的球体原点所在的x轴范围。
在position_unit指示的单位中,ange_low_y和range_high_y指定全方位媒体的球体原点所在的y轴范围。
在position_unit指示的单位中,ange_low_z和range_high_z指定全方位媒体的球体原点所在的z轴范围。
根据所提出的全方位媒体演示轨道分组,图1中的ISOBMFF文件F/F'中的轨道可以使用3D空间中的一组平移坐标(position_x、position_y、position_z)、可选的缩放因子(zooming_factor)以及观看空间(range_low_x、range_high_x、range_low_y、range_high_y、range_low_z和range_high_z)来参数化。
如上所述,文件解封装电路120从传输装置103接收ISOBMFF文件F'。若没有传输错误,则由文件解封装电路120接收的ISOBMFF文件F'应该与从文件封装电路118输出的ISOBMFF文件F相同。因此,利用3D空间中的一组平移坐标(position_x,position_y,position_z)、可选的缩放因子(zooming_factor)和观看空间(range_low_x,range_high_x,range_low_y,range_high_y,range_low_z和range_high_z)参数化的轨道可以从文件解封装电路120处的ISOBMFF文件F'解封装。在本发明的一些实施例中,可以从ISOBMFF文件F'解封装用不同组的平移坐标参数化的轨道。在本发明的一些实施例中,可以从ISOBMFF文件F'解封装用不同组的平移坐标但相同的缩放因子参数化的轨道。在本发明的一些实施例中,可以从ISOBMFF文件F'解封装用相同的一组平移坐标但不同的缩放因子参数化的轨道。在本发明的一些实施例中,可以从ISOBMFF文件F'解封装用不同组的平移坐标和不同的缩放因子参数化的轨道。
观看空间(range_low_x、range_high_x、range_low_y、range_high_y、range_low_z和range_high_z)指定全方位媒体演示的原点的位置的范围。在该示例中,观看空间(range_low_x、range_high_x、range_low_y、range_high_y、range_low_z和range_high_z)由立方体定义。然而,这仅用于说明目的,并不意味着是对本发明的限制。可选地,范围限制(即,观看空间)可以是球形。
球形观看空间
句法
Figure GDA0003096446020000151
Figure GDA0003096446020000161
语义
在position_unit指示的单元中,position_x指定相对于默认参考协调系统(coodination system),全方位媒体的球体原点的x轴位置。当limited_range_flag_x等于1时,position_x的值应在range_low_x到range_high_x的范围内,包括端值。
在position_unit指示的单元中,position_y指定相对于默认参考协调系统,全方位媒体的球体原点的y轴位置。当limited_range_flag_y等于1时,position_y的值应在range_low_y到range_high_y的范围内,包括端值。
在position_unit指示的单元中,position_z指定相对于默认参考协调系统,全方位媒体的球体原点的z轴位置。当limited_range_flag_z等于1时,position_z的值应在range_low_z到range_high_z的范围内,包括端值。
zooming_factor指定全方位媒体演示的球体的缩放因子,相对于其他所有球体(若存在),全方位媒体演示的球体以同一原点为中心。zooming_factor的值应在-100和100的范围内,包括-100和100。如果没有其他全方位媒体演示以同一原点为中心,则zooming_factor的值应为0.如果有多于一个全方位媒体演示以同一原点为中心,则其中一个zooming_factor的值应等于0。
limited_range_flag_r指定围绕球体原点位置的半径是否存在用于全方位媒体演示的径向观看空间范围(radial viewing space range)。
在position_unit指示的单位中,range_r指定沿着全方位媒体的球体原点周围的半径的径向观看空间范围限制。
因此,图1中的ISOBMFF文件F/F'中的轨道可以用3D空间中的一组平移坐标(position_x、position_y、position_z)、可选的缩放因子(zooming_factor)和观看空间(range_r)来参数化。
如上所述,文件解封装电路120从传输装置103接收ISOBMFF文件F'。若没有传输错误,则由文件解封装电路120接收的ISOBMFF文件F'应该与从文件封装电路118输出的ISOBMFF文件F相同。因此,可以从文件解封装电路120处的ISOBMFF文件F'解封装用3D空间中的一组平移坐标(position_x,position_y,position_z)、可选的缩放因子(zooming_factor)和观看空间(range_r)参数化的轨道。在本发明的一些实施例中,可以从ISOBMFF文件F'解封装用不同组的平移坐标参数化的轨道。在本发明的一些实施例中,可以从ISOBMFF文件F'解封装用不同组的平移坐标但相同的缩放因子参数化的轨道。在本发明的一些实施例中,可以从ISOBMFF文件F'解封装用相同的一组平移坐标但不同的缩放因子参数化的轨道。在本发明的一些实施例中,可以从ISOBMFF文件F'解封装用不同组的平移坐标和不同的缩放因子参数化的轨道。
在第一种情况下,不支持缩放功能,并且在HMD上观看3D 360VR内容的用户希望通过头部移动获得3DoF+VR体验或想要通过身体移动拥有窗口化的6DoF VR体验/全方位6DoFVR体验/6DoF VR体验,通过在具有不同原点的不同球体之间切换视埠来启用视埠的转换。例如,ISOBMFF文件F/F'包括用第一组平移坐标参数化的第一轨道和用第二组平移坐标参数化的第二轨道,其中,第一组平移坐标标识第一全方位媒体内容的原点(即,第一球体的全方位媒体内容),第二组平移坐标标识第二全方位媒体内容的原点(即,第二球体的全方位媒体内容),第一组平移坐标与第二组平移坐标不同。因此,可以存在视埠从第一全方位媒体内容和第二全方位媒体内容之一到第一全方位媒体内容和第二全方位媒体内容中的另一个的转换。
在第二种情况下,支持缩放功能,并且在HMD上观看3D 360VR内容的用户希望通过在没有启用缩放功能的情况下进行头部移动来获得3DoF+VR体验,或想通过在没有启用缩放功能的情况下进行身体移动来获得窗口化的6DoF VR体验/全方位6DoF VR体验实现/6DoF VR体验,视埠的转换通过在具有在不同原点但具有相同缩放因子的不同球体之间切换视埠来实现。例如,ISOBMFF文件F/F'包括用第一组平移坐标和缩放因子参数化的第一轨道,并且还包括用第二组平移坐标以及与被添加到第一轨道相同的缩放因子参数化的第二轨道,其中第一组平移坐标标识第一全方位媒体内容的原点(即,第一球体的全方位媒体内容),第二组平移坐标标识第二全方位媒体内容的原点(即,第二球体的全方位媒体内容),并且第一组平移坐标不同于第二组平移坐标。因此,可以存在视埠从第一全方位媒体内容和第二全方位媒体内容之一到第一全方位媒体内容和第二全方位媒体内容中的另一个的转变。
在第三种情况下,支持缩放功能,并且在HMD上观看3D 360VR内容的用户希望通过在启用缩放功能的情况下进行头部移动来获得3DoF+VR体验或想要通过在启用缩放功能的情况下进行身体移动来实现窗口化的6DoF VR体验/全向6DoF VR体验/6DoF VR体验,通过在具有不同原点和不同缩放因子的不同球体之间切换视埠来启用视埠的转换。例如,ISOBMFF文件F/F'包括用第一组平移坐标和第一缩放因子参数化的第一轨道,并且还包括用第二组平移坐标和第二缩放因子参数化的第二轨道,其中第一组平移坐标标识第一全方位媒体内容的原点(即,第一球体的全方位媒体内容),第二组平移坐标标识第二全方位媒体内容的原点(即,第二球体的全方位媒体内容),第一组平移坐标不同于第二组平移坐标,第一缩放因子不同于第二缩放因子。因此,可以存在视埠从第一全方位媒体内容和第二全方位媒体内容之一到第一全方位媒体内容和第二全方位媒体内容中的另一个的转变。
在第四种情况下,支持缩放功能,并且在HMD上观看3D 360VR内容的用户希望通过启用缩放功能而无需头部移动来获得3DoF+VR体验,或想要通过启用缩放功能而在没有身体移动的情况下来获得窗口化的6DoF VR体验/全向6DoF VR体验/6DoF VR体验,视埠的转换通过具有相同原点但不同缩放因子的不同球体之间的视埠切换来启用。例如,ISOBMFF文件F/F'包括用第一组平移坐标和第一缩放因子参数化的第一轨道,并且还包括用添加到第一轨道的同一组平移坐标和第二缩放因子参数化的第二轨道,其中该组平移坐标标识第一全方位媒体内容的原点(即,第一球体的全方位媒体内容)以及第二全方位媒体内容的原点(即,第二球体的全方位媒体内容),第一缩放因子与第二缩放因子不同。因此,可以存在视埠从第一全方位媒体内容和第二全方位媒体内容之一到第一全方位媒体内容和第二全方位媒体内容中的另一个的转变。
下面的ISOBMFF中的轨道组类型框可以灵活地扩展以包括特定轨道组类型的附加数据。
Figure GDA0003096446020000191
因此,可以扩展全方位媒体演示轨道分组类型“odmp”以包括附加数据以支持更多用例。例如,对于博物馆旅游用例,可以添加其他属性,以支持3DoF媒体演示和任何地区之间(即背景)的视频转入/转出和音频淡出/淡入效果的3DoF之间转变体验。这可能包括引入以下属性及其具体数据:转换时间段,转换范围,视频转换效果模式(例如,溶解、虹膜、页面剥离、幻灯片和3D运动)和音频转换效果模式(例如,恒定增益、恒定功率和指数衰减)。
注意,平移坐标是相对于VR媒体演示的默认参考协调系统定义的。若演示位于作为较大系统的一部分的系统中,则可以相对于较大的系统指定系统的原点。另外,请注意,若更方便,可以用MPEG-V中定义的全球位置(global position)、相对位置和高度信息替换平移坐标。
由于下面的ISOBMFF中的轨道组类型框是灵活的,因此本发明进一步提出了用于全方位媒体演示轨道分组的一些改进选项。一些实施方案详述如下。
从一个球体切换(缩放和移动)到另一个球体
在一些示例中,该方法包括识别与球形区域相关联的附加特征,其中该附加特征包括球间转变效果,该效果包括指示从一个球形媒体内容到另一个球形媒体内容的转变的转变效果的数据,或者反之亦然。例如,关于如上所述的视埠的任何可能的转变(transition),包括在ISOBMFF文件F/F'中的轨道(例如,前述的第一轨道和/或第二轨道)进一步参数化,具有将视埠从第一全方位媒体内容和第二全方位媒体内容之一转换到第一全方位媒体内容和第二全方位媒体内容中的另一个的转换效果,其中转换效果可以包括以下中的一个或多个:转换期;发生转换效应的球形区域(例如,视埠)的位置的范围(例如,球形媒体内容的球形区域(例如,视埠)的位置范围到第二球形媒体内容的第二球形区域的第二位置的范围);转换的音频淡出/淡入效果;以及转变的视觉(包括视频,图像和文本)转变/淡出(transition-in/out effect)效果。
注意,本文公开的关于转变效果的设计主要用于说明目的,以示出如何将转变效果结合到全方位媒体演示中。例如,可以根据https://www.w3.org/TR/1999/WD-smil-boston-19991115/transitions.html的“The SMIL Transition Effects Module”和https://helpx.adobe.com/premiere-pro/using/audio-effects-transitions.html的“Audio Effects and Transitions”中给出的转变效应模型提供更详细的设计。
句法
Figure GDA0003096446020000201
Figure GDA0003096446020000211
语义
在position_unit指示的单元中,position_x指定相对于默认参考协调系统,全方位媒体的球体原点的x轴位置。当limited_range_flag_x等于1时,position_x的值应在range_low_x到range_high_x的范围内,包括端值。
在position_unit指示的单元中,position_y指定相对于默认参考协调系统,全方位媒体的球体原点的y轴位置。当limited_range_flag_y等于1时,position_y的值应在range_low_y到range_high_y的范围内,包括端值。
在position_unit指示的单元中,position_z指定相对于默认参考协调系统,全方位媒体的球体原点的z轴位置。当limited_range_flag_z等于1时,position_z的值应在range_low_z到range_high_z的范围内,包括端值。
zooming_factor指定全方位媒体演示的球体的缩放因子,相对于其他所有球体(若存在),全方位媒体演示的球体以同一原点为中心。zooming_factor的值应在-100和100的范围内,包括-100和100。如果没有其他全方位媒体演示以同一原点为中心,则zooming_factor的值应为0.如果有多于一个全方位媒体演示以同一原点为中心,则其中一个zooming_factor的值应等于0。
limited_range_flag_r指定围绕球体原点位置是否存在用于全方位媒体演示的径向观看范围(radial viewing range)。
在position_unit指示的单位中,range_r指定沿着围绕全方位媒体的球体原点半径的径向观察空间范围限制。
transition_effect_flag指定对于全方位媒体演示从球形媒体内容到第二球形媒体内容的转换是否存在任何转换效果。
transition_period以秒为单位指定发生转换效果的时间段。
transition_range在position_unit指示的单元中指定球形媒体内容的球形区域(例如,视埠)的位置到第二球形媒体内容的第二球形区域的第二位置的位置变化范围,转变效果发生在该位置变化区域内。
transition_in_effect_visual,transition_out_effect_visual、transition_in_effect_audio和transition_out_effect_audio分别指定当从球形媒体内容转入和转出时,视觉和音频转换效果类型。例如,transition_in_effect_visual和transition_out_effect_visualhttps://www.w3.org/TR/1999/WD-smil-boston-19991115/ transitions.html的“The SMIL Transition Effects Module”定义的视觉转变效果的“类型”和“子类型”的值的连续值(concatnation values),而transition_in_effect_audio和transition_out_effect_audio可以采用在https://helpx.adobe.com/premiere-pro/using/audio-effects-transitions.html的“Audio Effects and Transitions”中定义的音频效果类型的值。
如上所述,文件解封装电路120从传输装置103接收ISOBMFF文件F'。若没有传输错误,则由文件解封装电路120接收的ISOBMFF文件F'应该与从文件封装电路118输出的ISOBMFF文件F相同。因此,进一步参数化具有转换效果的轨道可以从文件解封装电路120处的ISOBMFF文件F'解封装。
VR视觉轨道的跟踪导出
为了避免编码相同内容的冗余,没有更大或更小的图块(子图像)表示其他图块(子图像)的相同内容。因此,当使用轨道来封装单个图块时,文件内的轨道之间缺乏分层结构(hierarchical structure)导致图块之间缺乏分层结构。所有这些都会在解决性能(addressing property)和为各自轨道中的图块集合指定元数据时出现一些问题。
在ISOBMFF中,可能存在用于轨道(以及因此用于图块)的分组机制,通过使用框标记轨道并将它们标记为一组轨道、一组备用轨道和一组替换轨道,以便具有相同组标识符和组类型的各个轨道属于同一组。然而,通过标记单个轨道的这些轨道分组机制存在许多问题和困难,在通用视埠依赖内容流程的上下文中使用时,这些问题源于以下事实:没有单个“图块(tile)”轨道表示图块的变体轨道的内容,并且没有单个轨道表示整个球形VR内容的内容,该内容被投影并且可选地打包到所有单独“图块”轨道的组合中。
然而,当遇到将现有媒体源存储或封装在ISOBMFF的媒体轨道中的情况时,在所考虑的技术中建议,要构建的视觉轨道是由其包含的类型'dtrk'的样本条目标识的导出轨道(derived track)。导出样本包含要在输入图像或样本的有序列表上执行的操作的有序列表(ordered list)。每个操作都由TransformProperty指定或指示。
图15是示出根据本发明的实施例的基于轨道导出的轨道的层次结构以及与导出的轨道相关联的适当元数据的图。如图15所示,存在分别具有媒体内容(包含在'mdat'类型的数据框中)vs11、…、vs1k、vsr1、…,和vsrk的视觉轨道v11、…、v1k、vr1、…,和vrk(包含在'trak'类型的轨道盒中)。由于媒体内容(包含在'mdat'类型的数据框中)vs11、…、vs1k、vsr1、…,和vsrk记录在ISOBMFF文件F/F'中,视觉轨道v11、…、v1k、vr1、…,和vrk可被视为“物理”视觉轨道。此外,存在元数据轨道(未示出),其可以与视觉轨道v11、…、v1k、vr1、…,和vrk相关联或可参考视觉轨道,以提供关于视觉轨道v11、…、v1k、vr1、…,和vrk中的媒体内容的元数据。
导出轨道是根据由TransformProperty项指定的轨道导出操作从ISOBMFF文件F/F'中的非导出(以及可能的其他导出)视觉轨道导出的逻辑轨道。亦即,每个非导出(或其他导出的)视觉轨道的其媒体数据记录在ISOBMFF文件F/F'中,并且ISOBMFF文件F/F'中的导出轨道的媒体数据是通过轨道导出从非导出(或其他导出的)视觉轨道的媒体数据中获得的。如图15所示,具有媒体内容的导出轨道(包含在'trak'类型的轨道盒中)是从TransformProperty项(例如,'alternate','compose','rPacking',或'rProjection')指定或指示的变换操作导出的。另外,具有媒体内容的元数据轨道(其包含在“mdat”类型的数据框中)可以与所导出的轨道相关联或者可以参考所导出的轨道以提供关于所导出的轨道中的媒体内容的元数据。元数据轨道可以是定时元数据轨道。
如图15所示,复合轨道v、v1、...和vr是从其他轨道v11、…、v1k、vr1、…,和vrk导出的,其中每个vi(i=1,...,r)是其变体的替代,vij(j=1,...,k),在样本级别可切换或不可切换,v是所有v1,...和vr的组合。利用这些导出的轨道,元数据轨道(例如,定时元数据轨道)m、m1,...和mr可以与它们相关联或可以参考它们以提供关于这些轨道中的媒体内容的元数据。
可以使用投影、反向投影、打包(映射)和/或反向打包(反向映射)变换从其他(非导出和/或导出的)轨道获得导出的轨道。因此,从VR服务提供商端(即,源电子设备102)处的文件封装电路118生成的ISOBMFF文件F可以包括TransformProperty项,其指示被布置为从至少一个视觉轨道(例如,非导出的轨道或导出的轨道)获得导出轨道的轨道导出,其中TransformProperty项目设置为启用轨道导出中的投影变换(可以是正向投影或反向投影)和打包变换(可以是正向打包(映射)或反向打包(反向映射))之一。类似地,由VR应用程序端(即,目的地电子设备104)处的文件解封装电路120接收的ISOBMFF文件F'可以包括TransformProperty项,该项被设置为启用轨道导出中的投影变换(可以是正向投影或反向投影)和打包变换(可以是正向打包(映射)或反向打包(反向映射))。如图15所示,通过反向打包(反向映射)从复合轨道v导出导出轨道v(2),并且通过反向投影从导出轨道v(2)导出导出轨道v(3)
3DoF媒体演示轨道分组机制具有从轨道分组机制继承的效率问题,主要是由于ISOBMFF中缺少轨道层次结构;即,它要求与3DoF媒体演示相关的所有轨道都携带轨道组框。这变得特别繁琐,例如,当VR视频被编码在具有多个质量变体的许多子图像轨道(即,变体轨道)中时。
VR媒体的VR视觉轨道推导机制为这种情况提供了补救。导出轨道具有许多优点,包括:
1.导出的轨道本身就是轨道,除了要导出它们的媒体数据。
2.导出的轨道是合乎逻辑的,不会引入媒体内容开销或重复。
3.轨道推导本质上是需求的(on demand in nature);也就是说,它是在需要的基础上。
4.导出的轨道可以自然地与其他相关轨道分组并由其参考,例如相关的音频、文本、应用和元数据轨道。
例如,如图15所示,从“物理”多变量区域轨道v11,...,v1k,...,vr1,...和vrk开始,可以使用相关联的适当的元数据轨道为区域(子图像或图块)、投影和打包的2D、投影的2D和VR 3D视频轨道建立轨道层级。显然,使用导出的VR视频轨道将使3DoF媒体演示轨道分组更合适、更合理、更有效;只需要将3DoF媒体演示轨道组框放入导出的(3DoF)VR视频轨道V(3)中,而不是放在每个变体区域视频轨道v11,...,v1k,...,vr1,...和vrk中。因此,在ISOBMFF文件F/F'中,具有各自的媒体数据v11,...,v1k,...,vr1,...和vrk的变体轨道v11,...,v1k,...,vr1,...和vrk没有被一组平移坐标和可选的缩放因子参数化,而具有通过轨道推导从变体轨道v11,...,v1k,...,vr1,...和vrk获得的媒体数据的导出的轨道V(3)用一组平移坐标和可选的缩放因子参数化。
本领域技术人员将容易地观察到,可以在保留本发明的教导的同时对装置和方法进行多种修改和更改。因此,上述公开内容应被解释为仅受所附权利要求书的范围和界限的限制。

Claims (20)

1.一种视频处理方法,包括:
接收至少一个虚拟现实内容;
从该至少一个虚拟现实内容中获取至少一个图像;
编码该至少一个图像以生成编码比特流的一部分;以及
通过文件封装电路将该编码比特流的一部分封装成至少一个ISO基媒体文件格式文件,其中所述至少一个ISO基媒体文件格式文件包括:
用第一组平移坐标参数化的第一轨道,且该第一组平移坐标标识该虚拟现实内容的第一全方位媒体内容的原点;
用第二组平移坐标参数化的第二轨道,该第二组平移坐标标识第二全方位媒体内容的原点,该第二组平移坐标与该虚拟现实内容的该第二全方位媒体内容相关,该第二全方位媒体内容与该第一全方位媒体内容不同;
该第一轨道和该第二轨道中的至少一个进一步参数化,具有用于视埠从该第一全方位媒体内容和该第二全方位媒体内容之一转换到该第一全方位媒体内容和该第二全方位媒体内容之另一的转换效果;
其中该转换效果包括转换的周期、发生该转换效果的球形区域的位置范围、转换的音频效果和转换的视觉效果中的至少一个。
2.如权利要求1所述的视频处理方法,其特征在于,该第二组平移坐标不同于该第一组平移坐标。
3.如权利要求1所述的视频处理方法,其特征在于,利用与该第一全方位媒体内容相关联的第一缩放因子来进一步参数化该第一轨道。
4.如权利要求3所述的视频处理方法,其特征在于,用与第二全方位媒体内容相关联的第二缩放因子参数化该第二轨道,该第二组平移坐标与该第一组平移坐标不同,且该第二缩放因子等于该第一缩放因子。
5.如权利要求4所述的视频处理方法,其特征在于:
该第一全方位媒体内容与多个嵌套球体组的第一嵌套球体组相关;
该第二全方位媒体内容与该多个嵌套球体组的第二嵌套球体组相关;以及
该多个嵌套球体组中的每个嵌套球体组包含在3D空间位置中的相关原点,其中该相关原点与该多个嵌套球体组中的其他嵌套球体组的原点不同。
6.如权利要求3所述的视频处理方法,其特征在于,用与第二全方位媒体内容相关联的第二缩放因子参数化该第二轨道,该第二组平移坐标与该第一组平移坐标不同,且该第二缩放因子与该第一缩放因子不同。
7.如权利要求6所述的视频处理方法,其特征在于:
该第一全方位媒体内容和该第二全方位媒体内容中的每个与多个嵌套球体组中的同一个嵌套球体组相关;以及
该多个嵌套球体组中的每个嵌套球体组包含在3D空间位置中的相关原点,其中该相关原点与该多个嵌套球体组中的其他嵌套球体组的原点不同。
8.如权利要求3所述的视频处理方法,其特征在于,用第二缩放因子参数化该第二轨道,该第二组平移坐标等于该第一组平移坐标,且该第二缩放因子与该第一缩放因子不同。
9.如权利要求1所述的视频处理方法,其特征在于,该第一轨道进一步用观察空间参数化,该观察空间指定该第一全方位媒体内容的原点位置的范围。
10.如权利要求9所述的视频处理方法,其特征在于该观察空间为立方体。
11.如权利要求9所述的视频处理方法,其特征在于该观察空间为球体。
12.如权利要求1所述的视频处理方法,其特征在于,该至少一个ISO基媒体文件格式文件还包括至少一个视觉轨道,每个视觉轨道具有记录在该至少一个ISO基媒体文件格式文件中的媒体数据,该第一轨道为导出的轨道,该导出的轨道的媒体数据是通过轨道导出从该至少一个视觉轨道获得的,并且该至少一个视觉轨道中没有一个用一组平移坐标参数化。
13.如权利要求12所述的视频处理方法,其特征在于,该至少一个视觉轨道中的每一个具有从仅编码该第一全方位媒体内容的空间部分获得的该媒体数据。
14.如权利要求1所述的视频处理方法,其特征在于:
该第一全方位媒体内容和该第二全方位媒体内容中的每个与多个嵌套球体组中的一个或多个嵌套球体组相关;以及
该多个嵌套球体组中的每个嵌套球体组包含在3D空间位置中的相关原点,其中该相关原点与该多个嵌套球体组中的其他嵌套球体组的原点不同。
15.如权利要求14所述的视频处理方法,其特征在于:
该第一全方位媒体内容与该多个嵌套球体组的第一球体相关;以及
该第二全方位媒体内容与该多个嵌套球体组的第二球体相关。
16.一种视频处理装置,包括:
转换电路,用于接收至少一个虚拟现实内容,并从该至少一个虚拟现实内容中获取至少一个图像;
视频编码器,用于对该至少一个图像进行编码以生成编码位流的一部分;以及
文件封装电路,用于将该编码位流的一部分封装成至少一个ISO基媒体文件格式文件,其中该至少一个ISO基媒体文件格式文件包括:
用第一组平移坐标参数化的第一轨道,且该第一组平移坐标标识该虚拟现实内容的第一全方位媒体内容的原点;
用第二组平移坐标参数化的第二轨道,该第二组平移坐标标识第二全方位媒体内容的原点,该第二组平移坐标与该虚拟现实内容的该第二全方位媒体内容相关,该第二全方位媒体内容与该第一全方位媒体内容不同;
该第一轨道和该第二轨道中的至少一个进一步参数化,具有用于视埠从该第一全方位媒体内容和该第二全方位媒体内容之一转换到该第一全方位媒体内容和该第二全方位媒体内容之另一的转换效果;
其中该转换效果包括转换的周期、发生该转换效果的球形区域的位置范围、转换的音频效果和转换的视觉效果中的至少一个。
17.如权利要求16所述的视频处理装置,其特征在于:
利用与该第一全方位媒体内容相关联的第一缩放因子来进一步参数化该第一轨道;
利用与该第二全方位媒体内容相关联的第二缩放因子来进一步参数化该第二轨道;
该第二组平移坐标与该第一组平移坐标不同;以及
该第二缩放因子等于该第一缩放因子。
18.如权利要求17所述的视频处理装置,其特征在于:
该第一全方位媒体内容与多个嵌套球体组的第一嵌套球体组相关;
该第二全方位媒体内容与该多个嵌套球体组的第二嵌套球体组相关,其中第二嵌套球体组与该第一嵌套球体组不同;以及
该多个嵌套球体组中的每个嵌套球体组包含在3D空间位置中的相关原点,其中该相关原点与该多个嵌套球体组中的其他嵌套球体组的原点不同。
19.如权利要求16所述的视频处理装置,其特征在于:
利用与该第一全方位媒体内容相关联的第一缩放因子来进一步参数化该第一轨道;
利用与该第二全方位媒体内容相关联的第二缩放因子来进一步参数化该第二轨道;
该第二组平移坐标与该第一组平移坐标不同;以及
该第二缩放因子与该第一缩放因子不同。
20.如权利要求19所述的视频处理装置,其特征在于:
该第一全方位媒体内容和该第二全方位媒体内容中的每个与多个嵌套球体组中的同一个嵌套球体组相关;以及
该多个嵌套球体组中的每个嵌套球体组包含在3D空间位置中的相关原点,其中该相关原点与该多个嵌套球体组中的其他嵌套球体组的原点不同。
CN201880045432.0A 2017-07-13 2018-07-13 呈现超出全方位媒体的vr媒体的方法和装置 Active CN110870303B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762531906P 2017-07-13 2017-07-13
US62/531,906 2017-07-13
PCT/SG2018/050348 WO2019013712A1 (en) 2017-07-13 2018-07-13 METHOD AND APPARATUS FOR PRESENTING MULTIMEDIA CONTENT OF VIRTUAL REALITY BEYOND OMNIDIRECTIONAL MULTIMEDIA CONTENT

Publications (2)

Publication Number Publication Date
CN110870303A CN110870303A (zh) 2020-03-06
CN110870303B true CN110870303B (zh) 2021-10-08

Family

ID=65001737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880045432.0A Active CN110870303B (zh) 2017-07-13 2018-07-13 呈现超出全方位媒体的vr媒体的方法和装置

Country Status (4)

Country Link
US (1) US11051040B2 (zh)
CN (1) CN110870303B (zh)
TW (1) TWI687087B (zh)
WO (1) WO2019013712A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11457290B2 (en) * 2017-02-24 2022-09-27 Telefonaktiebolaget Lm Ericsson (Publ) System and method for watermarking of media segments using sample variants for normalized encryption (SVNE)
WO2019194434A1 (ko) * 2018-04-05 2019-10-10 엘지전자 주식회사 복수의 뷰포인트들에 대한 메타데이터를 송수신하는 방법 및 장치
WO2020009344A1 (ko) * 2018-07-06 2020-01-09 엘지전자 주식회사 360 비디오 데이터의 서브픽처 기반 처리 방법 및 그 장치
EP3599544A1 (en) * 2018-07-25 2020-01-29 Nokia Technologies Oy An apparatus, method, computer program for enabling access to mediated reality content by a remote user
CN111263191B (zh) * 2018-11-30 2023-06-27 中兴通讯股份有限公司 视频数据的处理方法、装置、相关设备及存储介质
EP3895425A4 (en) * 2018-12-14 2021-12-15 ZTE Corporation PROCESSING AN IMMERSIVE VIDEO BITSTREAM
KR20200091988A (ko) * 2019-01-23 2020-08-03 삼성전자주식회사 장치를 제어하기 위한 방법 및 그 전자 장치
CA3132390A1 (en) * 2019-03-11 2020-09-17 Tencent America LLC Tile and sub-picture partitioning
CN113812165B (zh) * 2019-05-09 2023-05-23 北京字节跳动网络技术有限公司 对hmvp表的改进
JP2022541908A (ja) * 2019-07-22 2022-09-28 インターデジタル ヴイシー ホールディングス, インコーポレイテッド ボリュメトリックビデオコンテンツを配信するための方法および装置
CN113497928B (zh) * 2020-03-20 2022-07-12 腾讯科技(深圳)有限公司 一种沉浸媒体的数据处理方法及相关设备
CN116347183A (zh) * 2020-06-04 2023-06-27 腾讯科技(深圳)有限公司 一种沉浸媒体的数据处理方法及相关装置
CN113766271B (zh) * 2020-06-04 2022-07-12 腾讯科技(深圳)有限公司 一种沉浸媒体的数据处理方法、装置及设备
EP3965423A1 (en) 2020-09-02 2022-03-09 Lemon Inc. Pictures and layers included in a vvc image item
EP3965422A1 (en) 2020-09-02 2022-03-09 Lemon Inc. Brand for a media file

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050204291A1 (en) * 2000-02-29 2005-09-15 Sony Corporation User interface system, scene description generating device and method, scene description converting device and method, recording medium, and sending medium
CN102177717A (zh) * 2008-10-07 2011-09-07 艾利森电话股份有限公司 媒体容器文件
CN103931177A (zh) * 2012-04-10 2014-07-16 华为技术有限公司 显示对象在三维场景中的显示方法及设备
US20150077416A1 (en) * 2013-03-13 2015-03-19 Jason Villmer Head mounted display for viewing and creating a media file including omnidirectional image data and corresponding audio data
CN105850113A (zh) * 2014-01-06 2016-08-10 欧库勒斯虚拟现实有限责任公司 虚拟现实系统的校准
CN106537894A (zh) * 2014-07-14 2017-03-22 索尼互动娱乐股份有限公司 用于回放全景视频内容的系统和方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050204291A1 (en) * 2000-02-29 2005-09-15 Sony Corporation User interface system, scene description generating device and method, scene description converting device and method, recording medium, and sending medium
CN102177717A (zh) * 2008-10-07 2011-09-07 艾利森电话股份有限公司 媒体容器文件
CN103931177A (zh) * 2012-04-10 2014-07-16 华为技术有限公司 显示对象在三维场景中的显示方法及设备
US20150077416A1 (en) * 2013-03-13 2015-03-19 Jason Villmer Head mounted display for viewing and creating a media file including omnidirectional image data and corresponding audio data
CN105850113A (zh) * 2014-01-06 2016-08-10 欧库勒斯虚拟现实有限责任公司 虚拟现实系统的校准
CN106537894A (zh) * 2014-07-14 2017-03-22 索尼互动娱乐股份有限公司 用于回放全景视频内容的系统和方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
6-DOF VR videos with a single 360-camera;Jingwei Huang,et al;《2017 IEEE Virtual Reality (VR)》;20170322;全文 *
WD on ISO/IEC 23000-20 Omnidirectional Media Application Format;Byeongdoo Choi,et al;《ISO/IEC JTC1/SC29/WG11 N16189 June 2016, Geneva, Switzerland》;20160630;全文 *

Also Published As

Publication number Publication date
CN110870303A (zh) 2020-03-06
US11051040B2 (en) 2021-06-29
TW201919392A (zh) 2019-05-16
WO2019013712A1 (en) 2019-01-17
US20200169754A1 (en) 2020-05-28
TWI687087B (zh) 2020-03-01

Similar Documents

Publication Publication Date Title
CN110870303B (zh) 呈现超出全方位媒体的vr媒体的方法和装置
CN111164969B (zh) 使用拼接和重新投影相关元数据发送或接收6dof视频的方法和装置
CN111133763B (zh) 360视频系统中的叠加处理方法及其设备
KR102118056B1 (ko) 복수의 뷰포인트들에 대한 메타데이터를 송수신하는 방법 및 장치
CN110612723B (zh) 发送/接收包括鱼眼视频信息的360度视频的方法及其装置
CN108702528B (zh) 发送360视频的方法、接收360视频的方法、发送360视频的设备和接收360视频的设备
US10893254B2 (en) Method for transmitting 360-degree video, method for receiving 360-degree video, apparatus for transmitting 360-degree video, and apparatus for receiving 360-degree video
TWI670973B (zh) 在iso基本媒體檔案格式推導虛擬實境投影、填充、感興趣區域及視埠相關軌跡並支援視埠滾動訊號之方法及裝置
KR102221301B1 (ko) 카메라 렌즈 정보를 포함한 360도 비디오를 송수신하는 방법 및 그 장치
EP3780595A1 (en) Method and device for transmitting 360-degree video by using metadata related to hotspot and roi
KR102278848B1 (ko) 다중 뷰포인트 기반 360 비디오 처리 방법 및 그 장치
CN111727605B (zh) 用于发送和接收关于多个视点的元数据的方法及设备
KR102120110B1 (ko) 복수의 뷰포인트들에 대한 메타데이터를 송수신하는 방법 및 장치
TWI676388B (zh) 說明國際標準化組織基本媒體檔案格式的球面區域資訊的方法和裝置
US20190313074A1 (en) Method for transmitting 360-degree video, method for receiving 360-degree video, apparatus for transmitting 360-degree video, and apparatus for receiving 360-degree video

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant