CN110431847B - 视频处理方法及装置 - Google Patents

视频处理方法及装置 Download PDF

Info

Publication number
CN110431847B
CN110431847B CN201880019027.1A CN201880019027A CN110431847B CN 110431847 B CN110431847 B CN 110431847B CN 201880019027 A CN201880019027 A CN 201880019027A CN 110431847 B CN110431847 B CN 110431847B
Authority
CN
China
Prior art keywords
track
viewport
parameter
conversion
virtual reality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880019027.1A
Other languages
English (en)
Other versions
CN110431847A (zh
Inventor
王新
陈鲁林
赖柏霖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MediaTek Inc
Original Assignee
MediaTek Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MediaTek Inc filed Critical MediaTek Inc
Publication of CN110431847A publication Critical patent/CN110431847A/zh
Application granted granted Critical
Publication of CN110431847B publication Critical patent/CN110431847B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • G02B27/0172Head mounted characterised by optical features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2213/00Details of stereoscopic systems
    • H04N2213/003Aspects relating to the "2D+depth" image format

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Graphics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Optics & Photonics (AREA)
  • Processing Or Creating Images (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

一种视频处理方法,包括:接收虚拟现实(VR)内容;从VR内容获得图像;对图像进行编码以生成部分编码比特流;以及将部分编码比特流封装为ISO基础媒体文件格式(ISO Base Media File Format,ISOBMFF)文件。在一个示范性实例中,ISOBMFF文件可以包括转换属性项目,该转换属性项目被设置为启用轨迹推导中的投影转换、封包转换、VR视口选择以及VR感兴趣区域(ROI)选择中的至少一个。在另一示范性实例中,ISOBMFF文件可包括与视口的方向相关联的第一参数、第二参数和第三参数。其中第一参数、第二参数和第三参数分别指示视口中心的偏航角、俯仰角和翻滚角。此外,提供了相关联的视频处理装置。

Description

视频处理方法及装置
交叉申请
本申请主张于2017年3月24日提交的美国临时申请号62/475,944、于2017年3月27日提交的美国临时申请号62/476,939、以及于2017年 3月29日提交的美国临时申请号62/478,062之权利。上述申请之整体内容,包含美国临时申请号62/475,944、美国临时申请号62/476,939、美国临时申请号62/478,062,以引用方式并入本文中。
技术领域
本发明涉及虚拟现实(Virtual reality,VR)内容的处理,且更具体而言,涉及一种用于在ISO基础媒体文件格式推导VR投影、填充(映像)、ROI以及视口相关轨迹,并支持视口滚动信号的方法及装置。
背景技术
虚拟现实(VR)最近主要由于诸如头戴式显示器(HMD)的消费设备的近期市场可用性而获得显著关注。使用头戴式显示(HMD)的虚拟现实(VR)有各种应用方式。其将广阔的视野内容呈现给使用者的能力可用于提供身临其境的视觉体验。若要取得对应至一个球体的全方位VR 内容,必须补捉真实世界环境所有方向的信息。随着相机及头戴式显示设备的进步,由于重现此种360度内容所需的比特率很高,全方位虚拟现实内容的传送可能即将成为技术发展的瓶颈。
近年来举办了大量的围绕在虚拟现实周遭的活动,而大型产业的参与也证明了这一点。举例而言,由于预期使用虚拟现实头戴式显示设备的消费者日益普及将导致对虚拟现实内容的需求增加,各公司也开始开发全方位相机来进行360°内容的捕捉。然而,缺乏适当的标准并因而降低了互操作性正逐渐成为问题。因此,动画专家小组(MPEG)展开了名为全方位媒体应用格式(Omnidirectional Media Application Format, OMAF)的项目,旨在标准化360°影音内容的储存和传送格式。在OMAF 的上下文中,储存和传送格式的基于ISO基础媒体文件格式(ISO base media file format,ISOBMFF)。然而,关于VR内容储存和传送的开发标准,仍有很大的改进空间。
发明内容
本发明要求保护的目的之一,是提供一种用于在ISO基础媒体文件格式导入VR投影、填充(映像)、ROI以及视口相关轨迹,并支持视口滚动信号的方法及装置。
本发明的第一方面揭露了一种范例性的视频处理方法。此范例性视频处理方法包括:接收虚拟现实(VR)内容;从VR内容获取影像;将影像编码以生成编码比特流的一部分;以及通过文件封装电路将部分编码后的比特流封装到至少一ISO基础媒体文件格式(ISOBMFF)的文件,其中,该至少一ISOBMFF文件包含指示用轨迹推导来从至少一视觉轨迹取得衍生轨迹(derived track)的转换属性项目,而该转换属性项目被设置为得以启用轨迹推导中至少一投影转换、封包转换、VR视口选择或一 VR感兴趣区域(region ofinterest)选择。
本发明的第二方面揭露了一种范例性的视频处理方法。范例性的视频处理方法包括:接收虚拟现实(VR)内容;从VR内容获取影像;编码该影像以生成编码后的比特流;以及通过文件封装电路将部分编码后之比特流封装到至少一ISO基础媒体文件格式(ISOBMFF)的文件,其中,该至少一ISOBMFF文件包含与视口方向有关的第一参数、第二参数与第三参数,第一参数、第二参数与第三参数分别指示视口中心的偏航角、俯仰角和翻滚角。
本发明的第三方面揭露了一种范例性的视频处理方法。范例性的视频处理方法包括:接收至少一ISO基础媒体文件格式(ISOBMFF)文件,其中虚拟现实(VR)内容是由所述至少一ISOBMFF文件传送,而所述至少一ISOBMFF文件包含转换属性项目;由文件解封装电路将所述至少一ISOBMFF文件解封装成编码比特流的一部分,其中所述转换属性项目是从所述至少一ISOBMFF文件解析;将影像解码以生成编码比特流的一部分;以及执行由转换属性项目所指示之轨迹推导以从最少一个视觉轨迹获得衍生轨迹,其中所述转换属性项目得以启用轨迹推导中至少一投影转换、封包转换VR视口选择或VR感兴趣区域(ROI)选择。
本发明的第四方面揭露了一种范例性的视频处理方法。范例性的视频处理方法包括:接收至少一ISO基础媒体文件格式(ISOBMFF)文件,其中虚拟现实(VR)内容是由所述至少一ISO基础媒体文件格式 (ISOBMFF)文件所传送,所述至少一ISO基础媒体文件格式(ISOBMFF)文件包含至少一ISOBMFF文件包括与视口方向有关的第一参数、第二参数与第三参数,其中,第一参数、第二参数与第三参数分别指示视口中心的偏航角,俯仰角和翻滚角;解封装所述至少一ISO 基础媒体文件格式(ISOBMFF)至编码比特流的一部份,其中所述第一参数、第二参数及第三参数是解析自所述至少一ISO基础媒体文件格式 (ISOBMFF);解码该部分编码的比特流以得解码后的视口数据;根据解码后的视口数据将视口渲染及显示于屏幕上。
此外,提供与上述视频处理方法相关之视频处理装置。
附图说明
在结合下面附图阅读本发明的推荐实施例的以各式的数字与图样所呈现如下详细描述后,本发明的内容对于本领域的技术人员而言无疑将成为显而易见的。
图1为依据本发明实施例的虚拟现实(VR)系统的示意图。
图2为依据本发明实施例的等矩形投影(ERP)的示意图。
图3为依据本发明实施例的立方体映射投影(CMP)的示意图。
图4为依据本发明实施例的第一区域填充(region-wise packing)范例的示意图。
图5为依据本发明实施例的第二区域填充范例的示意图。
图6为依据本发明实施例的目标电子装置运动的示意图。
图7为依据本发明实施例的球体上的视口的示意图。
图8为依据本发明实施例的球体上视口VP的第一种形状类型的示意图。
图9为依据本发明实施例的球体上视口VP的第二种形状类型的示意图。
图10为依据本发明实施例的球体上视口的第一方式的示意图。
图11为依据本发明实施例的识别球体上视口的第二方式的示意图。
图12为依据本发明实施例的VR流架构的示意图。
图13为依据本发明实施例的运用单一转换的轨迹推导的示意图。
图14为依据本发明实施例的复合轨迹的轨迹推导的示意图。
图15为依据本发明实施例的基于轨迹推导的轨迹阶层的示意图。
图16为依据本发明实施例的反向填充与反向投影的组合的示意图。
图17为依据本发明实施例的使用两个转换属性以推导2D ROI及3D 视口轨迹的示意图。
图18为依据本发明实施例的使用两个所述转换属性以推导VR ROI 及VR视口轨迹的示意图。
图19为依据本发明实施例的提供一个更有效率方法以推导VR视口或ROI轨迹的轨迹推导示意图。
图20为依据本发明实施例的视/ROI形状及大小的示意图。
具体实施方式
以下说明及权利要求的叙述中,使用到的部分词汇将用来指示某个具体的组件。如同本领域的技术人员所熟知的,电子装置制造者可能使用不同的名称来指示同一个组件。此份文件无意区别那些在名称上有所差别、但在功能上并无差异的组件。在以下说明及权利要求的叙述中,“包括”、“包含”等词汇的用来做为开放性的叙述,因此皆应被解读为“包括,但不限于……”。此外,在本文中“耦合”一词是有意被用于指示直接或是间接的电子连接。据此而言,如果将一装置耦合至另一装置,其之间的连接可能是透过直接的电子连接,或者透过其他装置及链接间接进行连接。
图1为依据本发明实施例的虚拟现实(VR)系统的示意图。VR系统100包括两个视频处理装置(如源电子装置102和目标电子装置104)。源电子装置102包括视频捕获设备112、转换电路114、视频编码器116 和文件封装电路118。视频捕获设备112为提供VR内容(如全方位VR 内容)Bv的VR内容提供商。举例而言,视频捕获设备112可为用于捕捉场景Av的不同方向的一组相机,使视频捕获设备112产生覆盖整个环境的多个捕捉影像。在一些其他实施例中,覆盖整个环境的多个撷取影像可以从多于一个源装置、多个视频捕获设备、或至少一源装置与至少一视频捕获设备的组合来接收。在此实施例中,视频捕获设备112可配备视频拼接功能。因此,由视频捕获设备112的不同相机捕获的内容可被拼接在一起以形成拼接影像。此外,拼接影像可以被进一步投影到三维(3D)投影架构(如球体)上。因此,视频捕获设备112可以在球体上提供VR内容Bv。
转换电路114耦合于视频捕获设备112与视频编码器116之间。转换电路114透过将3D空间中的VR内容Bv进行视觉预处理(visual pre-processing)来在2D平面上生成图像Dv。当VR内容Bv对应至3D 空间中的球体时,在转换电路114处执行的视觉预处理可以包括投影和选择性区域填充(region-wise packing)。因此,图像Dv可以为投影图像或填充图像。3D投影架构(如球体)上的VR内容Bv可以进一步经由 360°VR投影格式被排列到2D投影图像上。举例而言,360°VR投影格式可为等矩形投影(ERP)格式或立方体映像投影(CMP)格式。假设使用了选择性区域填充,则2D投影图像上的区域会进一步映像到2D 填充图像上。
图2为依据本发明实施例的等矩形投影(equirectangular projection, ERP)的示意图。球体200上的VR内容Bv被投影在2D平面上的矩形图像202上。球体200被采样为若干水平圆(纬度圆),而其中的每一个圆圈被映像到矩形图像202的水平线上。朝向上图像边界和下图像边界的水平线相对于它们在球体200上各自的圆显著地拉伸。
图3为依据本发明实施例的立方体映射投影(cubemap projection, CMP)的示意图。球体200上的VR内容Bv被投影到立方体的六个面上,包括顶面(由“上”标记)、底面(由“下”标记)、左面(由“左”标记)、正面(由“前”标记)、右面(由“右”标记)和背面(由“后”标记),并且这些面随后被排列在2D平面上。要编码的图像Dv必须为矩形。如果直接将CMP布局302用于产生图像Dv,则因为在图像Dv 中填充了许多虚拟区域(如黑色区、灰色区或白色区),所以图像Dv无法具有紧密的布局。或者,图像Dv可以将投影影像数据排列在紧密的CMP布局304上来避免使用虚拟区域(如黑色区、灰色区或白色区)。
在编码之前,可以将区域填充处理应用在具有特定投影布局(如ERP 布局或紧密的CMP布局)的投影图像上。举例而言,投影图像被划分为多个矩形区域,而将区域填充应用到矩形区域以将矩形区域填充为填充图像。关于投影图像的矩形区域,区域填充可在将矩形区域填充为填充图像前,将平移、缩放、旋转和/或镜像应用在矩形区域上。图4为依据本发明实施例的第一区域填充范例的示意图。具有ERP布局的投影图像被划分成不同的区域(如顶部部分、中间部分和底部部分)。顶部部分、中间部分和底部部分可以透过区域填充映像到填充图像上。图5为依据本发明实施例的第二区域填充范例的示意图。具有CMP布局的投影图像被划分成不同的区域(如左侧面、正面、右侧面、底面、背面和顶面)。可以透过区域填充将左侧面、正面、右侧面、底面、背面和顶面映像到填充图像上。应注意的是,图4、图5所示的填充图像仅用于说明之目的,而非用于对本发明做出限制。
图像Dv可以为包括在转换电路114所生成的视频帧序列中的一个视频帧。视频编码器116为编码电路,用于编码/压缩图像Dv以生成编码比特流的一部分。从视频编码器116接收到部分编码比特流(其包括图像Dv的编码数据Ev)之后,文件封装电路118将编码比特流的所述部分与附加元数据Dm一起封装为一个或多个ISOBMFF文件F。举例而言,附加元数据Dm可以提供附加发信,以用于基于HTTP的动态自适性流(dynamic adaptive streaming,DASH)。
视口相关流架构(如基于区块或基于子图像的流架构)可以用于 360°视频传输。根据基于区块的流架构,图像Dv被分割成多个图块(tile) (或子图像),每个图块(或子图像)被独立地编码。换言之,图像Dv 的图块是图像Dv的空间部分(即子图像),且通常为矩形。此外,同一个图块的内容可以用不同的质量及比特率编码以生成编码图块的变体,或者可以用不同的编解码器及保护架构来编码以生成编码图块的变体。在此情况下,每个ISOBMFF文件F皆为基于区块的文件。文件封装电路 118将相同图块的每个编码变体封装到变体轨迹(即变体子图像轨迹)中,并且将相同图块的所有编码变体的变体轨迹封装到相同的ISOBMFF文件F中。元数据Dm可以包括透过使用轨迹元数据框直接放置在视觉轨迹中的元数据,和/或可以包括放置在与视觉轨迹相关联的元数据轨迹(如定时元数据轨迹)中的元数据。举例而言,发送的元数据Dm可以包括投影/定位信息、填充信息、子图像组成信息,感兴趣区域(ROI)信息、视口信息等。
或者,图像Dv可以由球体上的VR内容Bv直接设置。因此,文件封装电路118在接收到来自视频编码器116的部分编码比特流(其包括图像Dv的编码数据Ev)后,将所述部份编码比特流与附加元数据Dm 一起封装到一个或多个ISOBMFF文件F中,其中球面视频轨迹(即VR 3D视频轨迹)被包括在ISOBMFF文件F中。不过,以上叙述仅用于说明的目的,而非用于对本发明做出限制。举例而言,球体视频轨迹(即VR 3D视频轨迹)可以为在VR应用端(即目标电子装置104)处执行轨迹推导所获得的衍生轨迹。
文件封装电路118透过传输装置103将ISOBMFF文件F输出至目标电子装置104。举例而言,传输装置103可以为有线/无线通信链路,透过HTTP并使用单播、多播或广播传送的传送方式,将ISOBMFF文件F 传送到目标电子装置104。
目标电子装置104可以为头戴式显示(HMD)装置。如图1所示,目标电子装置104包括文件解封装电路120、视频解码器122、图形渲染电路124和显示屏幕126。文件解封装电路120从传输装置103接收 ISOBMFF文件F'。若没有传输错误,从文件解封装电路120接收的ISOBMFF文件F'应与从文件封装电路118输出的ISOBMFF文件F相同。在接收到ISOBMFF文件F'之后,文件解封装电路120会解封装ISOBMFF 文件F'成编码比特流的一部分(其包括要重构的图像之编码数据E'v),并从ISOBMFF文件F'中提取/解析附随的元数据D'm。如果没有传输错误和解封装错误,则从ISOBMFF文件F'提取/解析的元数据D'm应当与添加到ISOBMFF文件F的元数据Dm相同。
视频解码器122耦合于文件解封装电路120和图形渲染电路124之间,且被配置为根据所提取的/解析的元数据D'm来解码所述部分编码比特流的解码电路。举例而言,视频解码器122对所述部分编码比特流进行解码,以获得由信号元数据D'm指定的视口的解码数据D'v(如初始视口或推荐视口)。图形渲染电路124为后处理电路,其被配置为根据从视口的解码数据所获得的显示数据A'v,在显示屏幕126上渲染和显示视口。
最近出现了新的视频应用。尤其是捕捉真实世界全景的360视频(又名全方位视频、球形视频)和虚拟现实(VR)的使用,引起了显著的关注。MPEG正在对一种“全方位媒体应用格式(OMAF)”应用格式进行标准化,以指定储存、传送和渲染全方位媒体内容的格式。在OMAF的委员会草案(CD)中,球体区域的定时元数据发送信号,可用于指示视点和视口。对于视口,一般的语法结构是用信号通知中心点(偏航,俯仰),然后视情况选择水平和垂直覆盖。对于视点(水平和垂直覆盖均为零),本发明提出也发出参数滚动信号。
图6为依据本发明实施例的目标电子装置运动的示意图。图7为依据本发明实施例的球体上的视口的示意图。如上所述,目标电子装置104 可以为戴在用户的头上的HMD装置、或能够显示虚拟现实内容的任何其他装置。因此,目标电子装置104的方向也是用户的观看方向,并可以由沿着Y轴的偏航角(yaw angle)、沿着X轴的俯仰角(pitch angle)以及沿着Z轴的翻滚角(roll angle)来指定。如果目标电子装置104的方向改变,则球体(如图2和图3中所示的球体200)上的视口VP的位置和/或形状亦会改变。
关于视口发信,至少两种形状类型被定义:一种以四个大圆为界,另一种则以两个偏航圆(yaw circle)和两个节圆(pitch circle)为界。图 8为依据本发明实施例的球体上视口VP的第一种形状类型的示意图。视点PV为视口VP的中心点。视口VP的边界是由四个大圆C1、C2、C3 和C4决定,每个大圆C1,C2,C3和C4各自与球体相交并位于穿过球体的中心的平面上。图9为依据本发明实施例的球体上视口VP的第二种形状类型的示意图。视点PV为视口VP的中心点。视口VP的边界是由两个偏航圆Y1和Y2以及两个节圆P1和P2决定。每个偏航圆皆为球体上的一个圆,连接所有具有相同偏航角值的点。每个节圆皆为球体上的一个圆,连接所有具有相同俯仰角值的点。
本发明提出了一种支持视口信号滚动的方法。举例而言,在VR服务提供商端(即源电子装置102)处从文件封装电路118生成的ISOBMFF 文件F视口包括与球体上视口VP的方向相关联的至少第一参数 center_yaw、第二参数center_pitch以及第三参数center_roll,其中第一参数center_yaw、第二参数center_pitch和第三参数center_roll分别指示视口VP的中心(即视点PV)的偏航角、俯仰角和翻滚角。第一参数 center_yaw、第二参数center_pitch和第三参数center_roll被发信给VR应用端(即目标电子装置104)。在VR应用端(即目标电子装置104)处的文件解封装电路120接收到ISOBMFF文件F'之后,从ISOBMFF文件 F中提取/解析第一参数center_yaw、第二参数center_pitch和第三参数 center_roll以指示视口VP的中心(即视点PV)和视口VP的翻滚角。
此外,在VR服务提供商端(即源电子装置102)处从文件封装电路 118生成的ISOBMFF文件F,亦可包括与球体上的视口VP相关联的至少第四参数hor_range和第五参数ver_range,其中第四参数hor_range 指示视口的水平范围,并且第五参数ver_range指示视口的垂直范围。第四参数hor_range和第五参数ver_range也被发信给VR应用端(即目标电子装置104)。在VR应用端(即目标电子装置104)处的文件解封装电路120接收到ISOBMFF文件F'后,从ISOBMFF文件F'提取/解析第四参数hor_range和第五参数ver_range以分别指示视口口的水平范围和视口的垂直范围。
在OMAF的CD之第7.3.3节中规定了球体上区域样本格式。在一个示范性实例中,第三参数center_roll被添加至球体上区域样本格式,使得包括第一参数center_yaw、第二参数center_pitch和第三参数center_roll 的元数据被放置在每个视觉轨迹中(如每个变体子图像轨迹)。修改的样本格式可以如下定义:
样本格式
定义
每个样本指示一个球体上的区域。RegionOnSphereSample结构可以在衍生轨迹格式下延伸。
语法
Figure BDA0002205472080000101
语意
当RegionOnSphereStruct()包含于RegionOnSphereSample()structure 时,有以下的应用:
center_yaw、center_pitch和center_roll指定相对于大域坐标系 (globalcoordinate system)以0.01度为单位的视口方向。center_yaw和 center_pitch指示视口的中心,center_roll指示视口的翻滚角。center_roll 应介于-18000到18000(含边界值)的范围内。
hor_range和ver_range,当存在时,分别以0.01度为单位指定由该样本指定区域的水平和垂直范围。hor_range和ver_range指定透过该区域中心点的范围。
对于视点信号(OMAF的委员会草案(CD)中的第7.3.4节),由于已经以样本格式发送信号,所以不需要再次发送信号。修改后的样本格式定义如下:
在样本条目的RegionOnSphereConfigBox中,shape_type应等于0, dynamic_range_flag应等于0,static_hor_range应等于0,且static_ver_range 应等于0。
样本语法
class InitialViewpointSample()extends RegionOnSphereSample{
unsigned int(1)refresh_flag;
bit(7)reserved=0;
}
如上所述,从VR服务提供商端(即源电子装置102)向VR应用端 (即目标电子装置104)发送与球体上的视口VP相关联的参数 center_yaw、center_pitch、center_roll、hor_range和ver_range。因此, VR应用程序端(即目标电子装置104)可根据用所发信的参数center_yaw、 center_pitch、center_roll、ver_range和hor_range来识别视口的位置和边界(如初始视口或推荐视口)。举例而言,视频解码器122和/或图形渲染电路124可以根据所发信的参数来识别视口。
图10为依据本发明实施例的球体上视口的第一方式的示意图。视口首先以由第一参数center_yaw指示的偏航角和由第二参数center_pitch指示的俯仰角为中心(步骤1002)。在视口以偏航角和俯仰角为中心之后,根据由第四参数hor_range指示的水平范围和第五参数ver_range指示的垂直范围指定的覆盖范围决定视口的边界(步骤1004)。决定视口的边界后,根据第三个参数center_roll指示的翻滚角对视口施加旋转。
图11为依据本发明实施例的球体上视口的第二方式的示意图。视口首先以由第一参数center_yaw指示的偏航角和由第二参数center_pitch指示的俯仰角为中心(步骤1102)。在视口以偏航角和俯仰角为中心之后,根据由第三参数center_roll指示的翻滚角施加旋转至坐标系(步骤1104)。应注意的是,此操作将改变水平方向和垂直方向的取向。坐标系与翻滚角一起旋转后,将根据新的水平和垂直方向实施覆盖。意即,在坐标系以翻滚角旋转之后,视口的边界是根据第四参数hor_range指示的水平范围和第五参数ver_range指示的垂直范围所指定的覆盖范围来决定(步骤 1106)。
应注意的是,如图8所示的由四个大圆所界定的视口形状,不论是由如图10所示的第一种方法,或是由如图11所示的第二种方法所界定,其结果皆为相同。这是因为这些圆不受水平方向和垂直方向的取向影响。然而,如图9所示的具有两个偏航圆和两个节圆的视口形状,如图10所示的第一种方法及如图11所示的第二种方法会导致不同的视口。这是因为偏航圆和节圆的定义会根据坐标系的方向变化而改变。
在本发明的一些实施例中,关于视口发信,仅将参数滚动添加到具有4个大圆的视口形状。如前段所述,滚动在其他视口形状上会产生问题,因为需要指定滚动和覆盖的顺序。因此,在另一设计中,对于2个偏航圆加上2个节圆的形状禁止滚动。举例而言,忽略了发信的参数 center_roll。语法可以用与前述相同的方式来设计。但是,语义约束如下所示:
center_yaw、center_pitch和center_roll指定相对于大域坐标系以0.01 度为单位的视口取向。center_yaw和center_pitch指示视口的中心, center_roll指示视口的翻滚角。center_roll应介于-18000到18000(含边界值)的范围内。当shape_type为1时,应忽略参数center_roll,并对视口不起作用。
在如VR和免费电视(FTV)的许多应用中,期望从现有轨迹(如存在于图1中所示的ISOBMFF文件F/F'中的视觉轨迹)发出信号并将轨迹推导为复合轨迹。
举例而言,由于目前的网络带宽限制和各种适应要求(如不同质量、编解码器和保护架构),球体VR内容具有以下通用的视口相关内容作业流程(此为标准化过程之简化版本,并未考虑媒体来源之规范化)。其中,首先将3D球面VR内容处理(拼接、投影和映像)至2D平面上,然后封装在多个用于回放和传送的区块式(tile-based)和分段的文件中。在这样的区块式和分段的文件中,一个2D平面上的空间区块代表着一个 2D平面内容空间部分,通常为矩形。2D平面上的空间区块被封装为其变体的集合(如图中所示以不同的质量和比特率、或在不同的编解码器及保护架构中使用不同的编码算法和模式);这些变体对应于MPEGDASH中适配集内的代表。它基于用户在视口上的选择,这些不同区块的变体放在一起时提供所选视口的覆盖,被取回或传递给接收器,然后被解码以构建和渲染所期望的视口。
图12为依据本发明实施例的VR流架构的示意图。步骤1202可以在图1所示的视频捕获设备112和/或转换电路114中执行。步骤1204可以在图1所示的视频编码器116中执行。步骤1206可以在图1所示的传输装置103中执行。步骤1208可以在图1中所示的视频解码器122中执行。步骤1210和1212可以在图1所示的图形渲染电路124中执行。步骤1214可以由VP应用端(即目标电子装置104)的头部/眼睛追踪功能执行。
为了避免编解码相同内容的冗余,并未以更大或更小的图块(子图像)来表示其他相同内容的图块(子图像)。因此,当使用轨迹封装单个图块时,文件内轨迹之间缺乏层级结构会导致图块之间缺乏层次结构。所有这些情形,在为其各自的轨迹集合图块而寻址属性与指定元数据时,会出现一些问题。举例而言,当在最新的OMAF草案规范中发信投影和填充方案时,投影的全方位视频盒和区域填充盒皆为可供参考的轨迹,这些轨迹为完整的2D投影及填充帧,而不是单个图块或区域轨迹,这会使得这些盒子不适合用于视口相关的VR内容处理,如OMAF CD的附录A中所示。
在ISOBMFF中,有一些用于轨迹的分组机制(并因此用于图块),透过使用如TrackGroup Box'trgr'、Track Header Box'tkhd'和Track Selection Box'tsel'等盒子,来标记轨迹并发信使其为一组轨迹、一组替代的轨迹、以及一组交替的轨迹,使得相同分组识别及分组类型的个别轨迹得以被归类在同一组内。
然而,当在通用的视口相关内容作业流程下使用时,透过标记单个轨迹的这些轨迹的分组机制呈现了许多问题和困难。这些问题源于以下事实:没有单个“图块”轨迹来表示图块的变体轨迹的内容,也没有单个轨迹来表示被投影并且可选地填充到所有单独的“图块”轨迹的组合的整个球体VR内容的内容。这些问题包括:
1.在未扫描文件中的所有轨迹前,无法有效率地确定有多少轨迹属于特定的分组。
2.如果没有与每个“变体”轨迹建立关联的话,无法将任何与整个球体VR相关的大域信息(如投影与映像信息、视口、ROI、及其他元数据)与任何特定轨迹建立关联;这是因为任何的元数据轨迹(如空间讯息的定时元数据)应该与被其描述为'cdsc'(内容描述)轨迹引用的媒体轨迹相关联。如果图块数量和每个图块变体数量的乘积相对较大,则每个元数据轨迹必须与每个媒体“变体”轨迹建立关联的要求将变得繁琐而乏味。
3.难以支持从一组现有轨迹上建造新轨迹,举例而言,如支持实时视口建造以涵盖一些目标感兴趣区域等。
然而,当考虑现有媒体资源被储存或封装在ISOBMFF的媒体轨迹中的情形时,所考虑的技术建议欲构建的视频轨迹应为由包含“dtrk”类型的样本条目标识的衍生轨迹。衍生的样本包含要在输入影像或样本的有序列表上执行的操作的有序列表。每个操作皆由TransformProperty指定或指示。
图13为依据本发明实施例的运用单一转换的轨迹推导的示意图。如图13所示,分别存在带有媒体内容(分别包含在'mdat'类型的数据盒中) vs1、...、vsn的既存视觉轨迹(其包含在类型'trak'的轨迹盒中)v1、...、和vn。每个既存视觉轨迹皆有一个具有索引类型'hind'的轨迹索引盒'tref'。此外,存在分别带有媒体内容(包含在'mdata'类型的数据框中)ms1、...、和msn的元数据轨迹(包含在类型'trak'的轨迹盒中)m1、...、mn。元数据轨迹m1、...、和mn可以为定时的元数据轨迹,并可以与现有视觉轨迹v1、...、和vn相关联或可以参考现有视觉轨迹v1、...、和vn,以提供关于现有视觉轨迹v1、...、和vn中的媒体内容的元数据。衍生轨迹是根据由TransformProperty项目指定的轨迹推导操作,从ISOMBFF文件F/F' 中的既存视觉轨迹推导出的逻辑轨迹。如图13所示,带有媒体内容vs 的衍生轨迹v(其包含在'trak'类型的轨迹盒中)是从TransformProperty 项目指定或指示的转换操作导出的。此外,带有媒体内容ms的元数据轨迹m(其被包含在'mdat'类型的数据盒中)可以与所导出的轨迹v相关联、或可以参考所导出的轨迹v以提供关于衍生轨迹中的媒体内容的元数据 v。元数据轨迹m可以为定时元数据轨迹。
现有的TransformProperty项目列表有:
1.'idtt':身份
2.'clap':清洁光圈
3.'srot':旋转
4.'dslv':溶解
5.'2dcc':收成
显然,要支持VR视口相关内容流程,这仍然缺乏对构建复合轨迹的支持。
建议使用以下新的TransformProperty项目来推导复合轨迹:
1.'cmpa':全体的复合(composite of all)
2.'cmp1':仅一者的复合(在样本阶段允许切换)
3.'cmpn':任何的复合(在样本阶段允许切换)
4.'sel1':仅一者的选择(在轨迹阶段选择,在样本阶段不允许切换)
5.'seln':任何的选择(在轨迹阶段选择,在样本阶段不允许切换)
6.'scal':缩放
7.'resz':调整
轨迹分组、选择和切换的标签机制用于为以下TransformProperty项目提供替代定义:
1.'cmpa':全体的复合
2.'cmp1':仅一者的复合(在样本阶段允许切换)
3.'sel1':仅一者的选择(在轨迹阶段选择,在样本阶段不允许切换)
图14为依据本发明实施例的运用复合轨迹的轨迹推导的示意图。复合轨迹v、v1、...、和vr是从其他轨迹v11、...、v1k,...、vr1、...和vrk 中导出,其中每个vi,i=1、...、r为其变体的替代,vij,j=1、...、k,可以在采样阶段切换或不切换,v为全部v1、...、vr的复合。利用这些衍生轨迹,元数据轨迹(如定时元数据轨迹)m、m1、...、和mr可以与其产生关联或参考它们,以提供关于这些轨迹中的媒体内容的元数据。
本发明还提供了用于使用投影、反向投影、填充(映射)和/或反向填充(反向映射)转换从其它轨迹中导出轨迹的方法和系统。具体而言,本发明进一步提出了以下TransformProperty项目:
1.'proj':投影及反向投影
2.'pack':填充及反向填充
因此,从VR服务提供商端(即源电子装置102)处的文件封装电路 118生成的ISOBMFF文件F,可以包括一个指示轨迹推导来从至少一个视觉轨迹(如现有轨迹或衍生轨迹)来获得衍生轨迹的TransformProperty 项目,其中TransformProperty项目被设置为在轨迹推导中启用投影转换 (TransformProperty='proj')及封包转换(TransformProperty='pack')中的一个。
相似地,文件解封装电路120在VR应用端(即目标电子装置104) 接收到的ISOBMFF文件F'可以包括TransformProperty项目,TransformProperty项目被设置为在轨迹导出中启用投影转换 (TransformProperty='proj')及封包转换(TransformProperty='pack')中的一个。视频解码器122对从文件解封装电路120解封装的编码比特流的一部分进行解码。图形渲染电路124根据对编码比特流的一部分的解码结果获得至少一个视觉轨迹(如现有轨迹或衍生轨迹),并执行由从 ISOBMFF文件F'提取/解析的TransformProperty项目所指示的轨迹推导,以推导出ISOBMFF中的VR投影相关轨迹或ISOBMFF中的VR填充(映射)相关轨迹。
在TransformProperty项目被设置为启用投影转换(即 TransformProperty='proj')的第一种情况下,投影转换的操作可以由前向投影来设置,其中,该前向投影被设置为投影至少一个视觉轨迹的媒体内容至二维(2D)平面上。或者,投影转换的操作可以透过反向投影来设置,其中,该反向投影被设置为将至少一个视觉轨迹的媒体内容反向地投影至三维(3D)空间上。举例而言,至少一个视觉轨迹当中的每一个系由轨迹推导而获得,该至少一个视觉轨迹包括投影的二维(2D)视频轨迹,而衍生轨迹则为未投影的VR 3D视频轨迹。
在TransformProperty项目被设置为启用封包转换(即 TransformProperty='pack')的第二种情况下,封包转换的操作可以透过前向填充来设置,其中,该前向填充被设置为填充至少一个视觉轨迹的媒体内容至二维(2D)平面上。或者,封包转换的操作可以透过反向填充来设置,其中,该反向填充被设置为将至少一个视觉轨迹的媒体内容反向向地填充至二维(2D)平面上。举例而言,至少一个视觉轨迹当中的每一个是由轨迹推导而获得,该至少一个视觉轨迹包括一个投影并填充的二维(2D)视频轨迹,而衍生轨迹则为一个投影的2D视频轨迹。
利用本发明提出的这些新项目(item)“proj”和“pack”、以及已经提出的项目,可以在ISOBMFF文件内指定许多衍生轨迹,如下所示:
可以使用'cmp1'或'sel1'将“图块”(或“区域”)轨迹指定为其“变体”轨迹的衍生复合轨迹,
可以使用'cmpa'将投影和映射(或填充)的轨迹指定为其“图块”轨迹的衍生的复合轨迹,
可以使用(反向)’pack’将投影轨迹指定为投影和映像轨迹的衍生轨迹,
也可以使用(反向)'proj'将未投影(或原始、初始)视频轨迹指定为投影轨迹的衍生轨迹。
图15为依据本发明实施例的基于轨迹推导的轨迹阶层以及与衍生轨迹相关的适当元数据的示意图。如图15所示,rProjection、rPacking、 compose和alternate分别代表TransformProperty项目中的reverse'proj', reverse'pack','cmpa'和'cmp1'(或'sel1')。需注意的是,元数据轨迹中显示的元数据仅用于说明目的;可以透过OMAF的CD更严格地定义它们 (如CMP和ERP等投影类型、以及如架构1及区域填充架构等填充架构),并将其作为元数据放入视频轨迹中。
在上面的分层结构中不一定需要一些中间衍生轨迹的情况下,相关推导步骤可以被组合成一个,如图16所示的情况。在图16中,反向填充和反向投影被组合在一起,以消除投影轨迹v(2)的存在。
仍需注意的是,也可以让每个输入轨迹在相关的定时元数据轨迹或视频轨迹元数据中,携带其空间元数据。
本发明所提出的新的TransformProperty项目'proj'和'pack'定义如下。
投影
定义
盒子类型:'proj'
强制性(每个样品):否
数量(每个样本):任意
当投影'proj'转换属性存在时,要求num_inputs大于或等于1,且用于相应图像操作的输入实体为视觉轨迹。所有输入轨迹可以属于相同的分组轨迹(即它们可以全部包含具有相同track_group_id值的分组轨迹盒 'trgr'),但是没有任何两个轨迹属于相同的替代分组轨迹(即它们不包含具有相同的非零alternate_group值的标题轨迹盒'tkhd',表明它们属于同一个替代分组且仅从替代分组中选择一个)。
此转换属性指定未投影轨迹的几何类型geometry_type、未投影轨迹投影至投影轨迹上的投影类型projection_type以及指示操作为(前向)投影或反向投影的指标is_reverse。当操作为(前向)投影时,所有输入轨迹中之媒体内容具有相同的几何类型,且每个轨迹是根据投影类型(如 ERP、CMP等)投影在2D平面上。当操作为反向投影时,所有输入轨迹中的媒体内容皆位于2D帧上,且每个轨迹是根据投影类型(如ERP、 CMP等)反向投影在几何类型之几何图形上。
需注意的是,当未投影的轨迹包含由OMAF的CD指定的其投影元数据的全方位视频时,可以使用投影元数据来定义该投影“proj”转换属性,如ProjectedOmnidirectionalVideoBox所携带的投影元数据。
还要注意的是,该指标的引入是为了语法紧密的目的;可以分别为投影和反向投影定义转换属性。
语法
Figure BDA0002205472080000191
请注意,如果使用在OMAF的CD中指定的投影元数据(如 ProjectedOmnidirectionalVideoBox),则语法可以定义如下:
Figure BDA0002205472080000192
Figure BDA0002205472080000201
语意
is_reverse指示操作为(前向)投影('=0')或是反向投影('=1')。
geometry_type、projection_type和ProjectedOmnidirectionalVideoBox 具有与OMAF的CD中定义的元数据相同的语意。
填充(或映射)
定义
盒子类型:'pack'
强制性(每个样品):否
数量(每个样本):任意
填充'pack'转换属性存在时,要求num_inputs大于或等于1,且用于相应影像操作的输入实体为视觉轨迹。所有输入轨迹可以属于相同的轨迹组(亦即它们可以皆包含具有相同track_group_id值的分组轨迹盒 'trgr'),但却没有任两个轨迹属于相同的替代轨迹组(亦即它们不包含带有相同的非零alternate_group值的标题轨迹盒'tkhd',并表明它们属于同一个替代分组且用于仅从替代分组中选择一个)。
此转换属性指定投影轨迹的填充类型packing_type、填充轨迹上的未填充轨迹的填充结构PackingStruct以及指示操作为(前向)填充或反向填充的指标is_reverse。当操作为(前向)填充时,根据填充类型(如 packing_type=0时的矩形区域填充)将每个输入轨迹中的媒体内容(可能为区域或表面轨迹)填充到2D平面上。当操作是反向填充时,根据填充类型(如packing_type=0时的矩形区域填充),将每个输入轨迹中的媒体内容反向填充至2D平面上。
还要注意的是,该指标的引入是为了语法紧密的目的;可以分别为填充和反向填充定义转换属性。
语法
Figure BDA0002205472080000211
语意
is_reverse指示操作为(前向)填充('=0')或是反向填充('=1')。
proj_frame_width、proj_frame_height、packing_type和 RectRegionPacking具有与OMAF的CD中定义的元数据相同的语意。
需注意的是,Packing的结构类似于OMAF的CD中 RegionWisePackingBox的结构,并考虑到操作的输入为输入轨迹而非输入区域,其编号由num_inputs而非num_regions所指定,且还有一些不要求每个输入轨迹有自己的packing_type的简化。如果要使用非区域式包架构或其他填充类型,则可以以类似方式引入其他结构。
建议使用以下TransformProperty项目来导出2D ROI和3D视口相关轨迹:
1.'sroi':2D矩形ROI
2.'svpt':6DoF中的各种形状的通用3D视口(自由度)
图17为依据本发明实施例的使用此两个转换属性以推导2D ROI及 3D视口轨迹,以及它们各自元数据轨迹的适当关联的示意图。
除了已经提出的那些之外,本发明还提供用于从其他轨迹推导VR ROI和VR视口相关轨迹之实施例。具体而言,本发明提出了以下 TransformProperty项目的新定义:
1.'svpt':VR视口选择
2.'rois':6DoF中的各种形状的VR ROI选择(自由度)
从概念上来说,ROI是VR内容中的感兴趣区域,而视区是VR内容的视野、以及它的平移和取向;也就是说,ROI为一个与内容的性质相关的概念,而视口是以观看为导向的。在这个意义上说,它们只是不同的概念,因为ROI的“尺寸”可能小于或大于任何给定的HMD的视口大小,而ROI的“形状”可能与任何给定的HMD的视口形状不同。实际上,ROI可能不是整个视口,或者甚至可能不被市场上任何HMD的视口覆盖(如偏航宽度>180度)。
因此,即使视口可以为ROI,ROI概念仍比视口更普遍。因此,ROI 发信并非视口发信,且应独立于任何HMD的视口的限制。此即是为何在本发明中引入新的转换属性'rois'来推导VR ROI轨迹的原因。
从VR服务提供商端(即源电子装置102)处的文件封装电路118生成的ISOBMFF文件F可以包括从至少一个视觉轨迹(如现有轨迹或衍生轨迹)指示轨迹推导的TransformProperty项目,其中TransformProperty 项目被设置为在轨迹推导中启用VR视口选择(TransformProperty='svpt') 和VR ROI选择(TransformProperty='rois')中的一个。
在VR应用端文件解封装电路120(即目标电子装置104)接收到的 ISOBMFF文件F'可以包括被设置为启用轨迹推导中的VR视口选择 (TransformProperty='svpt')和VRROI选择(TransformProperty='rois') 中的一个。视频解码器122对从文件解封装电路120解封装将编码比特流的一部分进行解码。图形渲染电路124根据解码部分编码比特流的解码结果获得至少一个视觉轨迹(如现有轨迹或衍生轨迹),并根据从 ISOBMFF文件F'提取/解析的TransformProperty项目之指示执行轨迹推导,以推导出ISOBMFF中的VR视口相关轨迹、或ISOBMFF中的VR ROI 相关轨迹。
使用两个新定义的转换属性'svpt'和'rois',可以将VR视口或ROI轨迹指定为(原始)VR视频轨迹的衍生轨迹。如上所述,设置新定义的 TransformProperty项目'svpt'或'rois'以指示轨迹推导,用于从至少一个视觉轨迹获得衍生轨迹。在整个原始VR视频轨迹确实存在的情况下(即在 ISOBMFF文件F中存在VR 3D视频轨迹,使得可以从封装在ISOBMFF文件F’中的编码比特流的一部分获得VR 3D视频轨迹),至少一个视觉轨迹包括VR 3D视频轨迹。图18为依据本发明实施例的使用两个所述转换属性以推导VR ROI及VR视口轨迹以及它们各自元数据轨迹的适当关联的示意图。
在整个原始VR视频轨迹不存在且需要从多个投影和填充的2D区域轨迹推导的另一情况下,如在视口相关的VR视频处理中,可以透过'cmpa' 将VR视口或ROI轨迹指定为相关覆盖“区域”(或“图块”/“子图像”) 轨迹的衍生复合轨迹的衍生轨迹vi1、...、viq,其中
Figure BDA0002205472080000231
Figure BDA0002205472080000232
接着为反向映射'pack'和反向投影'proj'转换,而不需要推导出整个原始VR视频轨迹。如上所述,设置新定义的TransformProperty项目'svpt' 或'rois'以指示轨迹推导,用于从至少一个视觉轨迹获得衍生轨迹。在此情况下,至少一个视觉轨迹中的每一个是从基于存在于ISOBMFF文件F 中的二维(2D)区域轨迹的轨迹推导来获得(即基于可以从封装在 ISOBMFF文件F'中的编码比特流的一部分获得的二维(2D)区域轨迹)。图19为依据本发明实施例的提供一个更有效率方法以推导VR视口或 ROI轨迹的轨迹推导的示意图,其在很大程度上反映了用于显示VR视口或ROI的高效渲染过程。
新的TransformProperty项目的'svpt'和'rois'定义如下:
VR球体视口
定义
盒子类型:'svpt'
强制性(每个样品):否
数量(每个样本):任意
样本视口的'svpt'转换属性是根据视口定义(如OMAF的CD中给出的球形视口的视口定义)从输入VR示例图像项目建构(或提取)视口样本影像。当然,如果使用非球形视口以外的几何类型,其他视口定义也是可能的。
语法
Figure BDA0002205472080000241
语意
center_yaw和center_pitch以相对于全局坐标系0.01度为单位来指定由该样本指定的视点中心点之位置。center_yaw应介于-18000至17999 的范围内(包含边界值)。center_pitch应于-9000到9000的范围内(包含边界值)。
shape_type指定视口的视野(FoV)的形状的类型。其需要以下值:
0:FoV以中心点为中心,但其形状未指定–保留给显示设备来决定
1:FoV由两个大偏航圆和两个大节圆指定
2:FoV由两个小偏航圆和两个大节圆指定
3:FoV由两个大偏航圆和两个小节圆指定
4:FoV由两个小偏航圆和两个小节圆指定
大于1的值被保留。
当hor_range和ver_range存在时,分别指定由该样本指定的区域的水平和垂直范围,单位为0.01度。hor_range和ver_range指定透过该区域中心点的范围。
VR ROI
定义
盒子类型:'rois'
强制性(每个样品):否
数量(每个样本):任意
样本视口'rois'转换属性是根据VR ROI定义从输入VR影像项目建构 (或提取)ROI样本图像,其中,该ROI定义包括3/2/1维空间中的参考 6/3/1DoF,以及ROI的形状和大小。
语法
Figure BDA0002205472080000251
Figure BDA0002205472080000261
Figure BDA0002205472080000271
语意
dimension是指ROI所处的自由空间的维度。其值为1、2或3。
reference_x、reference_y和reference_z分别给出参考系统中x轴、y 轴和z轴坐目标参考(或偏移)值,其中参考系统中所有ROI的sway(x)、 heave(y)和surge(z)之值是经过计算的。
reference_pitch、reference_yaw和reference_roll分别给出参考系统中的俯仰、偏航和翻滚角的参考(或偏移)值,其中所有ROI的俯仰、偏航和翻滚角是经过计算的。reference_pitch、reference_yaw和reference_rol 的最大范围分别为[0,180]、[0,360]和[0,360],表示俯仰、偏航和滚转的最大角度范围[-90,90]、[-180,180]和[-180,180]。
注:最大值范围也可以选择[-90,90]、[0,360]和[0,360]来表示俯仰、偏航和滚转的最大角度范围。
reference_width和reference_height分别给出参考2D平面矩形空间的宽度和高度,其中所有ROI视图坐标(top_left_x、top_left_y、center_x 和center_y)是经过计算的。
注:当ROI位于3/2/1维空间中时,其相应的DoF为:
由reference_x、reference_y、reference_z、reference_pitch、reference_yaw和reference_roll组成的6-DoF。
由reference_x、reference_y和reference_roll组成的3-DoF。
由reference_x组成的1-DoF。
x、y和z分别给出参考系统中的x轴、y轴和z轴坐标值,其中ROI 的sway(x)、heave(y)和surge(z)系经过计算的。这些领域允许将ROI元数据轨迹与不同质量的媒体轨迹相关联,但代表相同的视觉来源。
pitch,yaw和roll分别给出参考系统中的俯仰角、偏航角和翻滚角的值,其中ROI的俯仰角、偏航角和翻滚角是经过计算的。这些领域允许将ROI元数据轨迹与不同质量的参考媒体轨迹的媒体样本相关联,但代表相同的视觉来源。
shape表示ROI的FoV的形状。在图20中列出了其数值。需注意的是,可以根据需要适当地扩展此列表。举例而言,多边形的形状可以用连接两个相邻视点之间的线的视点的循环列表来定义。此外,图20中所示的这些形状和尺寸也可以应用于视口。
top_left_x和top_left_y分别给予与参考轨迹的媒体样本相关联的矩形(形状=1)、三角形(形状=2)和方形(形状=3)的视口视图的左上角的水平和垂直坐标。
width和height分别给予与参考轨迹的媒体样本相关联的矩形(shape =1)和三角形(shape=2)视口视图的宽度和高度。
rotation给予与参考轨迹的媒体样本相关联的三角形(形状=2)视口视图之方向。其值0、1、2和3分别代表上面在上(不旋转)、上面在下(180°旋转)、上面在左(逆时针90°旋转)和上面在右(顺时针90°旋转)。
size给予与参考轨迹的媒体样本相关联的正方形(形状=3)视口视图之尺寸。
center_x和center_y分别给予与参考轨迹的媒体样本相关联的圆形 (shape=3)视口视图中心之水平和垂直坐标。
radius给予与参考轨迹的媒体样本相关联的圆形(形状=3)视口视图之半径。
还要注意的是,指标shape及不同形状类型的各种数值的引入是为了语法紧密的目的;可以分别为个别形状类型或各形状类形之任何组合分别定义转换属性。
本领域的技术人员可轻易观察到在维持本发明的教导的同时,仍可对于此装置及方法进行各种修改及变更。据此,上述揭露的内容应被解释为仅受所附的权利要求的界限的限制。

Claims (26)

1.一种视频处理方法,包括:
接收虚拟现实内容;
从所述虚拟现实内容获取图像;
编码所述图像以生成编码比特流的一部分;以及
由文件封装电路将所述编码比特流的一部分封装为至少一个ISO基础媒体文件格式文件,其中所述至少一个ISO基础媒体文件格式文件包括转换属性项目,所述转换属性项目指示从至少一视觉轨迹获得衍生轨迹的轨迹推导,所述衍生轨迹是根据由所述转换属性项目指示的转换操作、从ISO文件中的所述至少一视觉轨迹获得的逻辑轨迹,所述衍生轨迹中的衍生的样本包含在输入图像或样本的有序列表上执行转换操作获得的有序列表,且所述转换属性项目被设置为启用所述轨迹推导中至少一投影转换、封包转换、虚拟现实视口选择以及虚拟现实区域填充选择中之一者。
2.根据权利要求1所述的视频处理方法,其特征在于,所述转换属性项目被设置为启用至少所述投影转换;且所述投影转换的操作是由前向投影设置,所述前向投影配置为将所述至少一视觉轨迹的媒体内容投影至2D平面上。
3.根据权利要求1所述的视频处理方法,其特征在于,所述转换属性项目被设置为启用至少所述投影转换;且所述投影转换的操作是由反向投影所设置,所述反向投影配置为将所述至少一视觉轨迹的媒体内容反向投影至3D空间上。
4.根据权利要求3所述的视频处理方法,其特征在于,所述至少一个所述视觉轨迹中的每一个是从轨迹推导所获得,所述至少一个视觉轨迹包括投影2D视频轨迹,且所述衍生轨迹是未投影虚拟现实3D视频轨迹。
5.根据权利要求1所述的视频处理方法,其特征在于,所述转换属性项目被设置为启用至少所述封包转换;并且所述封包转换的操作是透过前向填充来设置,所述前向填充配置为将所述至少一个视觉轨迹的媒体内容填充至2D平面上。
6.根据权利要求1所述的视频处理方法,其特征在于,所述转换属性项目被设置为启用至少所述封包转换;并且所述封包转换的操作是透过反向填充来设置,所述反向填充配置为将所述至少一个视觉轨迹的媒体内容反向填充至2D平面上。
7.根据权利要求6所述的视频处理方法,其特征在于,所述至少一个视觉轨迹中的每一个的从轨迹推导所获得,所述至少一个视觉轨迹包括投影和填充的2D视频轨迹,且所述衍生轨迹为投影2D视频轨迹。
8.根据权利要求1所述的视频处理方法,其特征在于,所述转换属性项目被设置为启用所述虚拟现实视口选择和所述虚拟现实感兴趣区域选择中的至少一个,并且所述至少一个视觉轨迹包括虚拟现实3D视频轨迹,所述虚拟现实3D视频轨迹存在于所述至少一个ISO基础媒体文件格式文件中。
9.根据权利要求1所述的视频处理方法,其特征在于,所述转换属性项目被设置为启用所述虚拟现实视口选择和所述虚拟现实感兴趣区域选择中的至少一个,并且所述至少一个视觉轨迹中的每一个是从轨迹推导获得的,所述轨迹推导是基于存在于所述至少一个ISO基础媒体文件格式文件中的2D区域轨迹。
10.一种视频处理方法,包括:
接收虚拟现实内容;
从所述虚拟现实内容获取图像;
编码所述图像以生成编码比特流的一部分;以及
由文件封装电路将所述编码比特流的所述部分封装为至少一个ISO基础媒体文件格式文件,其中所述至少一个ISO基础媒体文件格式文件包括与视口方向相关联的第一参数、第二参数、第三参数、第四参数及第五参数,其中所述第一参数、所述第二参数及所述第三参数分别指示所述视口的中心的偏航角、俯仰角及翻滚角,其中所述第四参数及所述第五参数分别指示所述视口的水平范围及所述视口的垂直范围。
11.一种视频处理方法,包括:
接收至少一ISO基础媒体文件格式文件,其中虚拟现实内容是由所述至少一ISO基础媒体文件格式文件传送,且所述至少一ISO基础媒体文件格式文件包括转换属性项目;
使用文件解封装电路将所述至少一ISO基础媒体文件格式文件解封装成编码比特流的一部分,其中所述转换属性项目是从所述至少一ISO基础媒体文件格式文件解析;
解码所述编码比特流的所述部分;
根据所述编码比特流的所述部分的解码结果获得至少一视觉轨迹;以及
透过执行由所述转换属性项目指示的轨迹推导,以从所述至少一个视觉轨迹获得衍生轨迹,所述衍生轨迹是根据由所述转换属性项目指示的转换操作、从ISO文件中的所述至少一视觉轨迹获得的逻辑轨迹,所述衍生轨迹中的衍生的样本包含在输入图像或样本的有序列表上执行转换操作获得的有序列表,其中,所述转换属性项目启用所述轨迹推导中的投影转换、封包转换、虚拟现实视口选择及虚拟现实感兴趣区域中的至少一个。
12.根据权利要求11所述的视频处理方法,其特征在于,所述转换属性项目启用至少所述投影转换;且所述投影转换的操作是将所述至少一视觉轨迹的媒体内容投影至2D平面上的前向投影。
13.根据权利要求11所述的视频处理方法,其特征在于,所述转换属性项目启用至少所述投影转换;且所述投影转换的操作是将所述至少一视觉轨迹的媒体内容反向投影至3D空间上的反向投影。
14.根据权利要求13所述的视频处理方法,其特征在于,所述至少一视觉轨迹中的每一个是从轨迹推导所获得,所述至少一视觉轨迹包括投影2D视频轨迹,且所述衍生轨迹为未投影虚拟现实3D视频轨迹。
15.根据权利要求11所述的视频处理方法,其特征在于,所述转换属性项目启用至少所述封包转换;且所述封包转换的操作是将所述至少一个视觉轨迹的媒体内容填充至2D平面上的前向填充。
16.根据权利要求11所述的视频处理方法,其特征在于,所述转换属性项目启用至少所述封包转换;且所述封包转换的操作是将所述至少一个视觉轨迹的媒体内容反向填充至2D平面上的反向填充。
17.根据权利要求16所述的视频处理方法,其特征在于,所述至少一个视觉轨迹中的每一个是从轨迹推导所获得,所述至少一个视觉轨迹包括投影及填充的2D视频轨迹,且所述衍生轨迹为投影2D视频轨迹。
18.根据权利要求11所述的视频处理方法,其特征在于,所述转换属性项目启用所述虚拟现实视口选择和所述虚拟现实感兴趣区域选择中的至少一个,且所述至少一个视觉轨迹包括从所述编码比特流的所述部分获得的虚拟现实3D视频轨迹。
19.根据权利要求11所述的视频处理方法,其特征在于,所述转换属性项启用所述虚拟现实视口选择和所述虚拟现实感兴趣区域选择中的至少一个,且所述至少一个视觉轨迹中的每一个是从轨迹推导获得的,所述轨迹推导是基于从所述编码比特流的所述部分中获得的2D视频区域轨迹。
20.一种视频处理方法,包括:
接收至少一ISO基础媒体文件格式文件,其中虚拟现实内容是由所述至少一ISO基础媒体文件格式文件所传送,所述至少一ISO基础媒体文件格式文件包括与视口的方向相关联的第一参数、第二参数、第三参数、第四参数及第五参数,所述第一参数、所述第二参数及所述第三参数分别指示视口中心的偏航角、俯仰角及翻滚角,其中所述第四参数及所述第五参数分别指示所述视口的水平范围及所述视口的垂直范围;
将所述至少一ISO基础媒体文件格式文件解封装为编码比特流的一部分,其中所述第一参数、所述第二参数及所述第三参数是解析自所述至少一ISO基础媒体文件格式文件;
解码所述编码比特流的所述部分以获得所述视口的解码数据;以及
根据所述视口的所述解码数据在显示屏幕上渲染并显示所述视口。
21.根据权利要求20所述的视频处理方法,其特征在于,而所述视频处理方法更进一步包括:
根据所述第一参数、所述第二参数、所述第三参数、所述第四参数及所述第五参数来识别所述视口,包括:
使所述视口位于由所述第一参数指示的所述偏航角与由所述第二参数指示的所述俯仰角的中间;
在所述视口位于所述偏航角与所述俯仰角的中心后,根据所述水平范围及所述垂直范围确定所述视口的边界;以及
在确定视口的边界之后,根据所述翻滚角向所述视口施加旋转。
22.根据权利要求20所述的视频处理方法,其特征在于,所述视频处理方法更进一步包括:
根据所述第一参数、所述第二参数、所述第三参数、所述第四参数及所述第五参数来识别所述视口,包括:
使所述视口位于由所述第一参数指示的所述偏航角与由所述第二参数指示的所述俯仰角的中间;
在所述视口位于所述偏航角与所述俯仰角的中心后,根据所述翻滚角对坐标系施加旋转;以及
在所述坐标系与所述翻滚角一起旋转后,根据所述水平范围及所述垂直范围确定所述视口的边界。
23.一种视频处理装置,包括:
转换电路,用于接收虚拟现实内容,并从所述虚拟现实内容中获得图像;
视频编码器,用于编码所述图像以产生编码比特流的一部分;以及
文件封装电路,用于将所述部分的所述编码比特流的所述部分封装为至少一ISO基础媒体文件格式文件,其中所述至少一ISO基础媒体文件格式文件包括转换属性项目,所述转换属性项目指示轨迹推导以从所至少一视觉轨迹获得衍生轨迹,所述衍生轨迹是根据由所述转换属性项目指示的转换操作、从ISO文件中的所述至少一视觉轨迹获得的逻辑轨迹,所述衍生轨迹中的衍生的样本包含在输入图像或样本的有序列表上执行转换操作获得的有序列表,且所述转换属性项目被设置为在所述轨迹推导中启用投影转换、封包转换、虚拟现实视口选择和虚拟现实感兴趣区域选择中的至少一个。
24.一种视频处理装置,包括:
转换电路,用于接收虚拟现实内容,并从所述虚拟现实内容中获得图像;
视频编码器,用于编码所述图像以生成编码比特流的一部分;以及
文件封装电路,用于将所述编码比特流的所述部分封装成至少一ISO基础媒体文件格式文件,其中所述至少一ISO基础媒体文件格式文件包括与视口的方向相关联的第一参数、第二参数、第三参数、第四参数及第五参数,其中所述第一参数、所述第二参数及所述第三参数分别指示所述视口的中心的偏航角、俯仰角及翻滚角,其中所述第四参数及所述第五参数分别指示所述视口的水平范围及所述视口的垂直范围。
25.一种视频处理装置,包括:
文件解封装电路,用于接收至少一ISO基础媒体文件格式文件,并将所述至少一ISO基础媒体文件格式文件解封装为编码比特流的一部分,其中虚拟现实内容是由所述至少一ISO基础媒体文件格式文件所传送,所述至少一个ISO基础媒体文件格式文件包括转换属性项目,而所述转换属性项目是从所述至少一个ISO基础媒体文件格式文件所解析;
视频解码器,用于解码所述编码比特流的所述部分;以及
后处理电路,用于根据所述编码比特流的所述部分的码结果得到至少一个视觉轨迹,并执行由所述转换属性项目指示的轨迹推导,以从所述至少一个视觉轨迹中获得衍生轨迹,所述衍生轨迹是根据由所述转换属性项目指示的转换操作、从ISO文件中的所述至少一视觉轨迹获得的逻辑轨迹,所述衍生轨迹中的衍生的样本包含在输入图像或样本的有序列表上执行转换操作获得的有序列表,其中所述转换属性项目启用在所述轨迹推导中的投影转换、封包转换、虚拟现实视口选择及虚拟现实感兴趣区域选择中的至少一个。
26.一种视频处理装置,包括:
文件解封装电路,用于接收至少一ISO基础媒体文件格式文件,并将所述至少一ISO基础媒体文件格式文件解封装为编码比特流的一部分,其中由所述至少一ISO基础媒体文件格式文件传递虚拟现实内容,而所述至少一ISO基础媒体文件格式文件包括与视口的方向相关联的第一参数、第二参数、第三参数、第四参数及第五参数,其中所述第一参数、所述第二参数及所述第三参数分别指示所述视口的中心的偏航角、俯仰角及翻滚角,且所述第一参数、所述第二参数及所述第三参数是解析自所述至少一个ISO基础媒体文件格式文件,其中所述第四参数及所述第五参数分别指示所述视口的水平范围及所述视口的垂直范围;
视频解码器,用于解码所述编码比特流的所述部分以获得所述视口的解码后数据;以及
后处理电路,用于根据所述解码后数据将所述视口渲染及显示在显示屏幕上。
CN201880019027.1A 2017-03-24 2018-03-23 视频处理方法及装置 Active CN110431847B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201762475944P 2017-03-24 2017-03-24
US62/475,944 2017-03-24
US201762476939P 2017-03-27 2017-03-27
US62/476,939 2017-03-27
US201762478062P 2017-03-29 2017-03-29
US62/478,062 2017-03-29
PCT/CN2018/080338 WO2018171758A1 (en) 2017-03-24 2018-03-23 Method and apparatus for deriving vr projection, packing, roi and viewport related tracks in isobmff and supporting viewport roll signaling

Publications (2)

Publication Number Publication Date
CN110431847A CN110431847A (zh) 2019-11-08
CN110431847B true CN110431847B (zh) 2022-07-22

Family

ID=63584193

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880019027.1A Active CN110431847B (zh) 2017-03-24 2018-03-23 视频处理方法及装置

Country Status (4)

Country Link
US (1) US11049323B2 (zh)
CN (1) CN110431847B (zh)
TW (1) TWI670973B (zh)
WO (1) WO2018171758A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10958890B2 (en) * 2017-03-31 2021-03-23 Samsung Electronics Co., Ltd. Method and apparatus for rendering timed text and graphics in virtual reality video
WO2019195101A1 (en) * 2018-04-05 2019-10-10 Futurewei Technologies, Inc. Efficient association between dash objects
WO2019194573A1 (en) * 2018-04-05 2019-10-10 Lg Electronics Inc. Method for transmitting 360-degree video, method for receiving 360-degree video, apparatus for transmitting 360-degree video, and apparatus for receiving 360-degree video
WO2020009344A1 (ko) * 2018-07-06 2020-01-09 엘지전자 주식회사 360 비디오 데이터의 서브픽처 기반 처리 방법 및 그 장치
JP7271672B2 (ja) * 2018-12-14 2023-05-11 中興通訊股▲ふん▼有限公司 没入型ビデオビットストリーム処理
WO2020145668A1 (ko) * 2019-01-08 2020-07-16 삼성전자주식회사 3차원 컨텐츠의 처리 및 전송 방법
US20210349308A1 (en) * 2020-05-05 2021-11-11 Szu Wen FAN System and method for video processing using a virtual reality device
CN112055263B (zh) * 2020-09-08 2021-08-13 西安交通大学 基于显著性检测的360°视频流传输系统
US11393432B2 (en) * 2020-09-24 2022-07-19 Snap Inc. Rotational image viewer
GB2602643B (en) * 2021-01-06 2023-04-05 Canon Kk Method, device, and computer program for optimizing encapsulation of images
US20230007314A1 (en) * 2021-07-05 2023-01-05 Mediatek Singapore Pte. Ltd. System and method of server-side dynamic spatial and temporal adaptations for media processing and streaming
CN114786037B (zh) * 2022-03-17 2024-04-12 青岛虚拟现实研究院有限公司 一种面向vr投影的自适应编码压缩方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101427579A (zh) * 2005-12-01 2009-05-06 诺基亚公司 媒体流的时移表现
CN101675435A (zh) * 2007-05-04 2010-03-17 诺基亚公司 将媒体流记录到多媒体容器文件的接收索引轨道中
US7826536B2 (en) * 2005-12-29 2010-11-02 Nokia Corporation Tune in time reduction
CN104919801A (zh) * 2013-01-04 2015-09-16 高通股份有限公司 用于多视图译码加深度的纹理及深度视图的分轨存储
CN105325003A (zh) * 2013-04-17 2016-02-10 诺基亚技术有限公司 用于视频编码和解码的装置、方法和计算机程序
CN106331732A (zh) * 2016-09-26 2017-01-11 北京疯景科技有限公司 生成、展现全景内容的方法及装置
CN107771395A (zh) * 2015-06-26 2018-03-06 三星电子株式会社 生成和发送用于虚拟现实的元数据的方法和装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2155724A1 (en) * 1995-08-09 1997-02-10 Rajesh C. Vadavia Vr em-cee
TWI473016B (zh) * 2008-07-16 2015-02-11 Sisvel Internat S A 用以處理多視圖視訊位元串流之方法與裝置及電腦可讀媒體
EP2392138A4 (en) * 2009-01-28 2012-08-29 Nokia Corp METHOD AND APPARATUS FOR VIDEO ENCODING AND DECODING
KR20110011000A (ko) * 2009-07-27 2011-02-08 삼성전자주식회사 3차원 영상 재생을 위한 부가 정보가 삽입된 3차원 영상 데이터스트림 생성 방법 및 그 장치, 3차원 영상 재생을 위한 부가 정보가 삽입된 3차원 영상 데이터스트림 수신 방법 및 그 장치
GB2516826B (en) * 2013-07-23 2016-06-22 Canon Kk Method, device and computer program for encapsulating partitioned timed media data by creating tracks to be independently encapsulated in at least one media f
EP3075150B1 (en) * 2013-11-25 2022-06-15 Tesseland LLC Immersive compact display glasses
CA2948903C (en) * 2014-05-13 2020-09-22 Pcp Vr Inc. Method, system and apparatus for generation and playback of virtual reality multimedia
US9897450B2 (en) * 2015-05-20 2018-02-20 Nokia Technologies Oy Method and apparatus to obtain differential location information
KR102432085B1 (ko) 2015-09-23 2022-08-11 노키아 테크놀로지스 오와이 360도 파노라마 비디오를 코딩하는 방법, 장치 및 컴퓨터 프로그램 제품
JP6092437B1 (ja) * 2016-02-02 2017-03-08 株式会社コロプラ 仮想空間画像提供方法、及びそのプログラム
KR102560029B1 (ko) * 2016-09-12 2023-07-26 삼성전자주식회사 가상 현실 콘텐트를 송수신하는 방법 및 장치

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101427579A (zh) * 2005-12-01 2009-05-06 诺基亚公司 媒体流的时移表现
US7826536B2 (en) * 2005-12-29 2010-11-02 Nokia Corporation Tune in time reduction
CN101675435A (zh) * 2007-05-04 2010-03-17 诺基亚公司 将媒体流记录到多媒体容器文件的接收索引轨道中
CN104919801A (zh) * 2013-01-04 2015-09-16 高通股份有限公司 用于多视图译码加深度的纹理及深度视图的分轨存储
CN105325003A (zh) * 2013-04-17 2016-02-10 诺基亚技术有限公司 用于视频编码和解码的装置、方法和计算机程序
CN107771395A (zh) * 2015-06-26 2018-03-06 三星电子株式会社 生成和发送用于虚拟现实的元数据的方法和装置
CN106331732A (zh) * 2016-09-26 2017-01-11 北京疯景科技有限公司 生成、展现全景内容的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Transport and Storage Systems for 3-D Video Using MPEG-2 Systems, RTP, and ISO File Format;Thomas Schierl;《Proceeding of the IEEE》;20110430;第99卷(第4期);全文 *

Also Published As

Publication number Publication date
TWI670973B (zh) 2019-09-01
US20200105063A1 (en) 2020-04-02
WO2018171758A1 (en) 2018-09-27
TW201841510A (zh) 2018-11-16
US11049323B2 (en) 2021-06-29
CN110431847A (zh) 2019-11-08

Similar Documents

Publication Publication Date Title
CN110431847B (zh) 视频处理方法及装置
KR102208129B1 (ko) 360 비디오 시스템에서 오버레이 처리 방법 및 그 장치
CN110870303B (zh) 呈现超出全方位媒体的vr媒体的方法和装置
KR102138536B1 (ko) 360 비디오 시스템에서 오버레이 처리 방법 및 그 장치
JP6657475B2 (ja) 全方位ビデオを伝送する方法、全方位ビデオを受信する方法、全方位ビデオの伝送装置及び全方位ビデオの受信装置
CN111837383B (zh) 发送和接收关于动态视点的坐标系的元数据的方法和装置
CN111164969B (zh) 使用拼接和重新投影相关元数据发送或接收6dof视频的方法和装置
KR102201763B1 (ko) 360 비디오 시스템에서 오버레이 처리 방법 및 그 장치
US20190174116A1 (en) Method for transmitting 360-degree video, method for receiving 360-degree video, apparatus for transmitting 360-degree video, and apparatus for receiving 360-degree video
KR20200065076A (ko) 볼류메트릭 비디오 포맷을 위한 방법, 장치 및 스트림
US20190387212A1 (en) 360 video processing method and apparatus therefor
EP3780595A1 (en) Method and device for transmitting 360-degree video by using metadata related to hotspot and roi
CN110073662A (zh) 全景视频的建议视口指示
KR102157656B1 (ko) 360도 비디오를 송수신하는 방법 및 그 장치
TWI676388B (zh) 說明國際標準化組織基本媒體檔案格式的球面區域資訊的方法和裝置
CN110741649B (zh) 用于轨道合成的方法及装置
CN113891117B (zh) 沉浸媒体的数据处理方法、装置、设备及可读存储介质
WO2023098279A1 (zh) 视频数据处理方法、装置、计算机设备、计算机可读存储介质及计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant