CN114450953A - 合并友好文件格式 - Google Patents

合并友好文件格式 Download PDF

Info

Publication number
CN114450953A
CN114450953A CN202080067032.7A CN202080067032A CN114450953A CN 114450953 A CN114450953 A CN 114450953A CN 202080067032 A CN202080067032 A CN 202080067032A CN 114450953 A CN114450953 A CN 114450953A
Authority
CN
China
Prior art keywords
video data
source
track
indicators
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080067032.7A
Other languages
English (en)
Inventor
亚戈·桑切斯
迪米特里·波德博尔斯基
卡斯滕·格吕内贝格
科尔内留斯·黑尔格
托马斯·席尔
罗伯特·斯库平
托马斯·维甘德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority claimed from PCT/EP2020/077035 external-priority patent/WO2021058814A1/en
Publication of CN114450953A publication Critical patent/CN114450953A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/188Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a video data packet, e.g. a network abstraction layer [NAL] unit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/23439Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements for generating different versions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明涉及用于从其中得出场景的空间可变部分的视频数据,以及涉及用于创建用于从其中得出场景的空间可变部分的视频数据以及用于从视频数据中得出场景的空间可变部分的相应方法和装置。视频数据包括包含表示示出场景的视频的空间部分的编码视频数据的源轨道的集合,视频数据以特定文件格式被格式化,并且视频数据支持通过压缩域处理将不同的空间部分合并成联合比特流。

Description

合并友好文件格式
本申请涉及允许使用压缩域处理来提取或合并编码视频的空间子集的文件格式。特别地,本申请涉及用于从其中得出场景的空间可变部分的视频数据,用于创建用于从其中得出场景的空间可变部分的视频数据的方法和装置,以及用于从视频数据中得出场景的空间可变部分的方法和装置,其中,视频数据以特定文件格式被格式化。本申请还涉及相应计算机程序、计算机可读介质和数字存储介质。
1.引言
编码视频数据(例如利用AVC(高级视频编码)、HEVC(高效视频编码)或当前开发的VVC(通用视频编码)进行视频编码的数据)通常以特定的容器格式存储或传输,例如ISO基本媒体文件格式及其在以下中规定的各种扩展:ISO/IEC 14496-12(视听对象的编码-第12部分:ISO基本媒体文件格式)、ISO/IEC 14496-15(视听对象的编码-第12部分:ISO基本媒体文件格式的网络抽象层(NAL)单元结构化视频的传送)、ISO/IEC 23008-12(异构环境中的高效编码和媒体传递-第12部分:图像文件格式),等等。这样的容器格式包括以依赖于压缩域处理来提取或合并编码视频的空间子集的应用为目标的特殊规定,例如,出于在终端设备上使用单个解码器的目的。这样的应用的示例的非穷举列表如下:
·关注区域(RoI)流式传输:其中传输视频的变化的空间子集;
·多方会议:其中来自多个参与者的编码视频流将由单个解码器联合解码;或者
·基于瓦片的流式传输:例如,对于VR应用中的360度视频回放。
1.1 360度视频平铺流式传输
在后者中,场景的360度视频被空间分段,并且每个空间段以如图1所示的变化的空间分辨率的多个表示被提供给流式客户端。该图示出了以两种分辨率(高分辨率和低分辨率)被划分为6x4空间段的投影360度视频(包括左侧、前侧、右侧、后侧、底侧和顶侧)的立方体映射。为了简单起见,在本说明书中将这些可独立解码的空间段称为瓦片。取决于所选择的视频编码技术,可以使用诸如瓦片、砖块、切片等结构来实现对不同空间段的独立编码。例如,如果使用当前开发的VVC(通用视频编码)对每个瓦片进行编码,则其可以通过使用合适的瓦片/砖块/切片结构对图片进行分割来实现,使得例如在相同图像或不同图像的不同瓦片/砖块之间不执行帧内预测或帧间预测。例如,每个可独立解码的空间段可以使用单个瓦片作为单独的切片来被编码,或者每个可独立解码的空间段还可以使用砖块的概念用于更灵活的平铺。
当使用如图2顶部所示的现有技术的头戴式显示器(HMD)时,用户通常通过表示90x90度的视场(FoV)的立体视口边界仅观看构成整个360度视频的瓦片的子集。以最高分辨率下载如图2顶部处阴影所示的相应瓦片(在该示例中,右侧的四个瓦片、底侧的两个瓦片、前侧的一个瓦片和后侧的一个瓦片)(也在图的左下用阴影示出)。
然而,客户端应用还将必须下载和解码当前视口外部的其他瓦片(未在图2的顶部加阴影,在图2的右下以不同的阴影示出)的表示,以处理用户的突然定向改变。因此,这样的应用中的客户端将以最高分辨率下载覆盖其当前视口的瓦片,并且以相对较低的分辨率下载其当前视口外部的瓦片,同时对瓦片分辨率的选择不断地适配于用户的定向。在客户端侧的下载之后,将下载的瓦片合并成要用单个解码器处理的单个比特流是解决具有有限计算和电力资源的一般移动设备的约束的手段。图3示出以上示例的联合比特流中的可能瓦片布置。生成联合比特流的合并操作必须通过比特流级别上的压缩域处理来执行,以避免像素域中的复杂处理,例如在将分离的瓦片同步呈现在立方体上之前,对分离的瓦片彼此独立地进行代码转换或解码。
以所谓的补充增强信息(SEI)消息形式的编码视频比特流中的元数据描述描述了编码图片的样本如何与原始投影(例如,该示例中的立方体图)中的位置相关,以允许在3D空间中重构立方体(或球体,取决于所使用的投影)。被称为按区域打包(RWP)的该元数据描述对于为诸如头戴式显示器(HMD)的媒体消费设备呈现视口的后解码呈现器是至关重要的。RWP SEI消息通过限定矩形区域及其在投影与打包视频之间的位移/变换来给出来自投影视频(例如,如在图1的左手侧给出且在解码之后在概念上需要进一步处理)和一个特定组合的打包编码视频(如图3中给出或在图4的右手侧给出,其由解码组合位流产生)的映射。
虽然图1至图3的示例示出了所有分辨率版本的内容被类似地平铺的情况,但是所有瓦片(高分辨率和低分辨率)覆盖整个360度空间,并且没有瓦片重复地覆盖相同的区域,也可以使用可替选的平铺,如图4所示。视频的整个低分辨率版本可以与覆盖360度视频的子集的高分辨率瓦片合并。可以将整个低分辨率后备视频编码为单个瓦片,而高分辨率瓦片在呈现过程的最后阶段被呈现为视频的低分辨率部分的覆盖。
1.2使用HEVC和文件格式的平铺流式传输的问题
对于诸如HEVC的编解码器,从视频比特流的角度来看,合并操作的必要性与图片的平铺结构和各个瓦片(即,切片)的CTU(编码树单元)地址信令有关。在服务器侧上,这些瓦片作为各个独立的HEVC比特流存在(并且因此被下载),例如,在这些比特流中的每一个中每个图片具有单个瓦片和切片(例如:在所有切片头中first_slice_in_pic_flag等于1,参数集描述仅具有单个瓦片的比特流)。合并操作必须通过插入正确的参数集和切片报头来将这些单独的比特流结合成单个比特流,以反映联合图像平面内的瓦片结构和位置。除了将合并的细节(参数集和切片头的得出和替换)留给客户端实现之外,在MPEG OMAF(沉浸式媒体的编码表示-第2部分:全向媒体格式;ISO/IEC 23090-2)中通过以下方式来规定使客户端能够合并比特流的现有技术方法:
·在打包阶段生成正确的参数集和切片报头,以及
·通过使用称为提取器的文件格式工具来复制切片有效负载。
这些提取器实际上是在文件格式的扩展中(即,在ISO/IEC 14496-15中)定义的特定NAL(网络提取层)单元类型的NAL单元,其包含指向封装在不同轨道中的另一NAL单元(例如,包含单个瓦片的数据)的指针。提取器本身存储在特定提取器文件格式轨道(“hvc2”轨道)中,该特定提取器文件格式轨道仅承载参数集和经修改的切片报头数据(例如,反映瓦片的新位置、量化步长相对于参数集基值的的调整值等),而切片有效负载(即,在解码时构成图片的实际样本值的熵编码数据)由指向另一轨道中的NAL单元(的一部分)的提取器引用,并且当读取这样的文件格式轨道时被复制。
在基于360度视频瓦片的流式系统中,该提取器工具导致这样的设计,每个瓦片通常被打包并且作为独立的HEVC流提供在单独的文件格式轨道中,该单独的文件格式轨道可以由符合的HEVC解码器解码,并且产生全图片的相应空间子集。此外,提供这样的提取器轨道的集合,每个提取器轨道以特定观看方向为目标(即,以特定分辨率的瓦片的组合,将例如样本预算的解码资源集中在视口中的瓦片上),该提取器轨道通过文件格式工具执行合并过程并且在读取时产生包含所有必要瓦片的单个符合的HEVC比特流。客户端可以选择最适合其当前视口的提取器轨道,并且下载包含所引用的瓦片的轨道。
每个提取器轨道将参数集存储在包含HEVCSampleEntry中的HEVCConfigurationBox中。这些参数集是在文件格式封装过程中生成的,并且仅在样本条目中可用,这意味着一旦客户端选择了提取器轨道,则参数集被带外递送(使用初始化段),并且因此在播放相同的提取器轨道时参数集不能随时间改变。除了所需的样本条目之外,提取器轨道的初始化段还包含轨道参考容器(“tref”)中的相关轨道ID的固定列表。提取器(包含在提取器轨道的媒体段中)包含索引值,该索引值引用该“tref”,以确定提取器引用哪个轨道ID。
然而,该设计具有若干缺点。
·每个观看方向(或瓦片组合)需要通过具有对所包括的瓦片(即,轨道)的明确引用的单独的提取器轨道来表示,这产生相当大的开销。客户端可以更好地选择瓦片分辨率(即,创建其自己的组合)以更好地匹配其需求(客户端FoV、延迟考虑等)。另外,包含在这样的提取器轨道中的数据在整个时间线上通常非常相似(内联和样本构造器保持相同)。
·一般地,所有的切片报头需要通过提取器调整,这还产生相当大的开销。这产生指向相关轨道的大量指针,这意味着需要执行大量缓冲器复制,这对于例如使用JavaScript的web应用尤其昂贵。
·文件格式解析器不能在没有预先完全下载所有数据的情况下解析提取器轨道。当例如下载了所有视频数据(瓦片)并且客户端仍在等待提取提取器轨道数据时,这可能向系统添加附加延迟。
·这样的提取器轨道的公共加密的复杂性随着必须应用部分加密而增加(切片有效负载必须独立于切片报头进行加密)。
1.3平铺流式传输的VVC设计和文件格式含义
对于诸如VVC的下一编解码器生成,进行了简化压缩域提取/合并操作的两个主要努力。
1.3.1 VVC中的平铺语法
虽然在HEVC中,将图片细分为切片(NAL单元)最终在切片报头级别上用信号通知,即,通过在切片中的一个或多个瓦片中具有多个切片,但在VVC中,将图片细分为切片(NAL单元)仅在参数集中描述。第一划分级别通过瓦片行和列来用信号通知,随后第二划分级别通过每个瓦片的所谓的砖块划分来用信号通知。没有进一步的砖块划分的瓦片也被称为单个砖块。在参数集中明确地指示每个图片的切片的数目和相关联的块。
1.3.2 VVC中的切片地址信令
例如,诸如HEVC的以前的编解码器依赖于通过每个切片报头中的CTU光栅扫描顺序中的切片地址(具体地,具有取决于图片大小的编码长度的first_slice_in_pic_flag和slice_address)的切片位置信令。代替这两个语法元素,VVC以这些地址的间接为特征,其中,代替显式CTU位置,切片报头携带作为切片地址的标识符(例如,brick_id、tile_id或subpic_id),该标识符通过相关联的参数集被映射到特定图片位置。因此,当在提取操作或合并操作中重新布置切片时,仅需要调整参数集间接而不是调整每个切片报头。
1.3.3 VVC语法和语义
图5示出了从VVC规范(草案6;版本11)中提取的当前设想的VVC的图片参数集和切片报头语法的相关摘录,其中在相关语法之前设置了行号。图片参数集语法的行5至行49中的语法元素与平铺结构相关,并且图片参数集语法的行54至行61中的语法元素以及切片报头语法中的语法元素slice_address与切片/瓦片定位相关。
与切片/瓦片定位相关的语法元素的语义如下:
slice_id[i]指定第i个切片的切片ID。slice_id[i]语法元素的长度是signalled_slice_id_length_minus1+1比特。当不存在时,对于0到num_slices_in_pic_minus1(包含端值)范围内的每个i,slice_id[i]的值被推断为等于i。
slice_address指定切片的切片地址。当不存在时,slice_address的值被推断为等于0。
如果rect_slice_flag等于0,则以下适用:
-切片地址是由式(7-59)指定的砖块ID。
-slice_address的长度是Ceil(Log2(NumBricksInPic))比特。
-slice_address的值应在0到NumBricksInPic-1(包含端值)的范围内。
否则(rect_slice_flag等于1),以下适用:
-切片地址是切片的切片ID。
-slice_address的长度是signalled_slice_id_length_minus1+1比特。
-如果signalled_slice_id_flag等于0,则slice_address的值应在0到num_slices_in_pic_minus1的范围内(包含端值)。否则,slice_address的值应在0到2(signalled _slice_id_length_minus1+1)-1的范围内(包含端值)。
以下约束适用于比特流一致性的要求:
-slice_address的值不应等于同一编码图片的任何其他编码切片NAL单元的slice_address的值。
-当rect_slice_flag等于0时,图片的切片应按其slice_address值的递增次序。
-图片的切片的形状应当使得每个砖块在被解码时应当具有由图片边界组成或由先前解码的砖块的边界组成的其整个左边界和整个顶边界。
VVC高级语法相对于HEVC高级语法的改变可以在将来容器格式集成的设计中(例如在将来文件格式扩展中)得到促进,这是本发明所涉及的。更详细地,本发明包括处理以下的方面:
·将源轨道(瓦片的轨道)基本分组为可合并集合;
·用于可配置参数集和/或SEI消息的模板;
·用于可配置参数集和/或SEI消息的扩展分组;以及
·轨道组合中的随机访问点指示。
根据本发明的一个方面,提供了用于从其中得出场景的空间可变部分的视频数据,其中,该视频数据以文件格式被格式化并且包括:
两个或更多个源轨道的集合,每个源轨道包括表示示出场景的视频的空间部分的编码视频数据,
其中,两个或更多个源轨道的集合包括多个源轨道组,并且经格式化的视频数据还包括:用于指示属于相应源轨道组的源轨道的一个或更多个组指示符;以及用于指示源轨道组中的两个或更多个活动源轨道的数目的一个或更多个活动源轨道指示符。
根据本发明的另一方面,提供了用于从其中得出场景的空间可变部分的视频数据,其中,该视频数据以文件格式被格式化并且包括:
两个或更多个源轨道的集合,每个源轨道包括表示示出场景的视频的空间部分的编码视频数据;以及
收集信息,收集信息包括合并信息,合并信息用于合并两个或更多个源轨道的集合的子集以便生成特定于部分的视频数据流,
其中,收集信息还包括用于可配置参数集和/或SEI消息的模板,其中,模板指示参数集或SEI消息的一个或更多个值,一个或更多个值需要被适配成生成对于特定于部分的视频流而言特定的参数集或SEI消息。
根据本发明的另一方面,提供了用于从其中得出场景的空间可变部分的视频数据,其中,该视频数据以文件格式被格式化并且包括:
包括表示示出场景的视频的空间部分的编码视频数据的一个或更多个源轨道的集合,
其中,编码视频数据使用随机访问点来被编码,并且经格式化的视频数据还包括用于指示用于所有空间部分的编码视频数据中的随机访问点是否对准的一个或更多个随机访问点对准指示符。
根据本发明的另一方面,提供了用于创建用于从其中得出场景的空间可变部分的视频数据的方法,其中,视频数据以文件格式被格式化并且包括:
两个或更多个源轨道的集合,每个源轨道包括表示示出场景的视频的空间部分的编码视频数据,
其中,两个或更多个源轨道的集合包括多个源轨道组,并且经格式化的视频数据还包括:用于指示属于相应源轨道组的源轨道的一个或更多个组指示符;以及用于指示源轨道组中的两个或更多个活动源轨道的数目的一个或更多个活动源轨道指示符。
其中,该方法包括:
确定该多个源轨道组以及组中的两个或更多个活动源轨道的数目,创建一个或更多个组指示符以及一个或更多个活动源轨道指示符并且将它们写入格式化视频数据。
根据本发明的另一方面,提供了用于创建用于从其中得出场景的空间可变部分的视频数据的方法,其中,视频数据以文件格式被格式化并且包括:
两个或更多个源轨道的集合,每个源轨道包括表示示出场景的视频的空间部分的编码视频数据;以及
收集信息,收集信息包括合并信息,合并信息用于合并两个或更多个源轨道的集合的子集以便生成特定于部分的视频数据流,
其中,收集信息还包括用于可配置参数集和/或SEI消息的模板,其中,模板指示参数集或SEI消息的一个或更多个值,一个或更多个值需要被适配成生成对于特定于部分的视频流而言特定的参数集或SEI消息。
其中,该方法包括:
创建模板并且将它写入格式化视频数据的收集信息。
根据本发明的另一方面,提供了用于创建用于从其中得出场景的空间可变部分的视频数据的方法,其中,视频数据以文件格式被格式化并且包括:
包括表示示出场景的视频的空间部分的编码视频数据的一个或更多个源轨道的集合,
其中,编码视频数据使用随机访问点来被编码,并且经格式化的视频数据还包括用于指示用于所有空间部分的编码视频数据中的随机访问点是否对准的一个或更多个随机访问点对准指示符。
其中,该方法包括:
创建所述一个或更多个随机访问点对准指示符并且将它们写入所述经格式化的视频数据。
根据本发明的另一方面,提供了用于创建用于从其中得出场景的空间可变部分的视频数据的装置,其中,视频数据以文件格式被格式化,其中,装置被适配成执行根据权利要求38至55中的任一项所述的方法。
根据本发明的另一方面,提供了用于从视频数据中得出场景的空间可变部分的方法,其中,视频数据以文件格式被格式化并且包括:
两个或更多个源轨道的集合,每个源轨道包括表示示出场景的视频的空间部分的编码视频数据,
其中,两个或更多个源轨道的集合包括多个源轨道组,并且经格式化的视频数据还包括:用于指示属于相应源轨道组的源轨道的一个或更多个组指示符;以及用于指示源轨道组中的两个或更多个活动源轨道的数目的一个或更多个活动源轨道指示符。
其中,该方法包括:
从经格式化的视频数据中读取一个或更多个组指示符、一个或更多个活动源轨道指示符、以及来自所指示的组中的所指示的数目的两个或更多个活动源轨道的编码视频数据,并且基于其得出场景的空间可变部分。
根据本发明的另一方面,用于从视频数据中得出场景的空间可变部分的方法,其中,视频数据以文件格式被格式化并且包括:
两个或更多个源轨道的集合,每个源轨道包括表示示出场景的视频的空间部分的编码视频数据;以及
收集信息,收集信息包括合并信息,合并信息用于合并两个或更多个源轨道的集合的子集以便生成特定于部分的视频数据流,
其中,收集信息还包括用于可配置参数集和/或SEI消息的模板,其中,模板指示参数集或SEI消息的一个或更多个值,一个或更多个值需要被适配成生成对于特定于部分的视频流而言特定的参数集或SEI消息。
其中,该方法包括:
从经格式化的视频数据的收集信息中读取模板,并且将由模板指示的参数集或SEI消息的一个或更多个值适配成生成对于特定于部分的视频流而言特定的参数集或SEI消息。
根据本发明的另一方面,提供了用于从视频数据中得出场景的空间可变部分的方法,其中,视频数据以文件格式被格式化并且包括:
包括表示示出场景的视频的空间部分的编码视频数据的一个或更多个源轨道的集合,
其中,编码视频数据使用随机访问点来被编码,并且经格式化的视频数据还包括用于指示用于所有空间部分的编码视频数据中的随机访问点是否对准的一个或更多个随机访问点对准指示符。
其中,该方法包括:
从经格式化的视频数据中读取一个或更多个随机访问点指示符,并且基于其访问编码视频数据。
根据本发明的另一方面,提供用于从视频数据中得出场景的空间可变部分的装置,其中,视频数据以文件格式被格式化,其中,装置被适配成执行根据权利要求57至74中的任一项所述的方法。
根据本发明的另一方面,提供包括指令的计算机程序,该指令在由计算机执行时使计算机执行根据权利要求38至55或57至74所述的方法。
根据本发明的另一方面,提供包括指令的计算机可读介质,该指令在由计算机执行时使计算机执行根据权利要求38至55或57至74所述的方法。
根据本发明的另一方面,提供其上存储有根据权利要求1至37中的任一项所述的视频数据的数字存储介质。
应当理解,权利要求1至37的视频数据、权利要求38至55的方法、权利要求56的装置、权利要求57至74的方法、权利要求75的装置、权利要求76的计算机程序、权利要求77的计算机可读介质和权利要求78的数字存储介质具有类似和/或相同的优选实施方式,特别是如从属权利要求中所限定的。
应当理解,本发明的优选实施方式还可以是从属权利要求或以上实施方式与相应独立权利要求的任意组合。
现在将参照附图更详细地描述本发明的实施方式,在附图中:
图1示出了以两种分辨率(高分辨率和低分辨率)并且平铺成6x4瓦片的立方体图投影中的360度视频;
图2示出了当使用现有技术的头戴式显示器(HMD)时,用户通常如何仅观看构成整个360度视频的瓦片的子集;
图3示出了图1和图2的示例中的联合比特流中的可能的瓦片布置;
图4示出了可替选的平铺,其中视频的整个低分辨率版本可以与覆盖360度视频的子集的高分辨率瓦片合并;
图5示出了从VVC规范(草案6;版本11)中提取的当前设想的VVC的图片参数集和切片头语法的相关摘录;
图6示出了在用于提供用于模板的创建的规则的文件格式的框中携带的XML模式。
图7示出了模板间隙的概念,其中参数集模板存储在VVCDecoderConfigurationRecord中,并且使用对应的偏移和大小值来用信号通知间隙。
图8示出了两种类型的解码器配置过程,即使用文件格式规范允许的带外参数集和带内参数集。
图9示出了所生成的参数集的新概念,其中收集轨道包含带外(在样本条目内)存储的参数集模板,而该模板用于创建“所生成的参数集”,当客户端选择所有所需的媒体片段时,“所生成的参数集”被允许存在于带内。
下面关于附图所提出的本发明的实施方式的描述首先集中于涉及将源轨道(瓦片的轨道)基本分组为可合并组的实施方式。此后,描述了涉及用于可配置参数集和/或SEI消息的模板的实施方式,随后是涉及用于可配置参数集和/或SEI消息的扩展分组以及轨道组合中的随机访问点指示的实施方式。在特定应用中,可以一起使用所有四种类型的实施方式以利用这些概念中的每一个。
为了激发和易于理解实施方式,描述了基于图1至图3所示场景的立方体图投影的360度视频回放应用的示例,该360度视频回放应用以两种分辨率(高分辨率和低分辨率)平铺成6x4空间段。这样的立方体图投影构成被布置用于从其中得出场景的空间可变部分的视频数据。例如,如图2的顶部所示,用户可以使用头戴式显示器(HMD)来观看90x90度的视场(FoV)。在图2的情况下,表示所示出的FoV所需的瓦片的子集是立方体图投影的右侧的四个瓦片、底侧的两个瓦片、前侧的一个瓦片和后侧的一个瓦片。当然,取决于用户的观看方向,可能需要瓦片的其他子集来表示用户的当前FoV。除了可以由客户端应用以高分辨率下载和解码的这些瓦片之外,客户端应用还可能需要下载视口外部的其他瓦片以处理用户的突然定向改变。这些瓦片可以由客户端应用以低分辨率下载和解码。如上面提及的,在客户端侧下载之后,可能希望将所下载的瓦片合并到单个比特流中以由单个解码器处理,例如,以解决具有有限计算资源和电力的一般移动装置的约束。
在该示例中,假设每个瓦片以可独立解码的方式用当前开发的VVC(通用视频编码)来编码。这可以通过使用合适的瓦片/砖块/切片结构对图片进行分割来实现,使得例如在相同图片或不同图片的不同瓦片/砖块之间不执行帧内预测或帧间预测。从图5可以看出,图5示出了从VVC规范(草案6;版本11)中提取的当前设想的VVC的图片参数集和切片头语法的摘录,VVC通过所谓的砖块扩展了从HEVC已知的瓦片和切片的概念,砖块指定了图片中的特定瓦片内的CTU(编码树单元)行的矩形区域。因此,可以将瓦片分割成多个砖块,每个砖块由瓦片内的一个或更多个CTU行组成。借助于该扩展的瓦片/砖块/切片结构,可以容易地创建如图3所示的瓦片布置,其中通过压缩域处理将高分辨率视频的4x2空间段和低分辨率视频的4x4空间段合并成联合比特流。
根据本发明,通过其中格式化视频数据的特定“合并友好”文件格式来支持合并过程。在该示例中,文件格式是MPEG OMAF(ISO/IEC 23090-2)的扩展,其又基于ISO基本媒体文件格式(ISO/IEC 14496-12),ISO基本媒体文件格式定义了诸如视频和音频的基于时间的多媒体文件的一般结构。在该文件格式中,与不同空间段对应的可独立解码的视频数据被包括在不同轨道中,这些轨道在本文中也被称为源轨道或瓦片的轨道。
应注意,尽管在该示例中,假定VVC为基础视频编解码器,但本发明不限于VVC的应用,并且可以使用诸如HEVC(高效视频编码)的其他视频编解码器来实现本发明的不同方面。此外,尽管在该示例中,假定文件格式为MPEG OMAF的扩展,但是本发明不限于这样的扩展,且其他文件格式或其他文件格式的扩展可以用来实现本发明的不同方面。
2.将源轨道基本分组为可合并集合
根据本发明的第一方面,基本分组机制允许向文件格式解析器指示某些源轨道属于相同的组,并且在属于该组的瓦片中要播放给定数目的源轨道。
在该方面,经格式化的视频数据包括两个或更多个源轨道的集合,每个源轨道包括表示示出场景的视频的空间部分的编码视频数据。两个或更多个源轨道的集合包括多个源轨道组,并且经格式化的视频数据还包括:用于指示属于相应源轨道组的源轨道的一个或更多个组指示符;以及用于指示源轨道组中的两个或更多个活动源轨道的数目的一个或更多个活动源轨道指示符。在该示例中,第一源轨道组包括立方体图投影的6x4高分辨率瓦片,而第二源轨道组包括6x4低分辨率瓦片。这可以由一个或更多个组指示符指示。此外,如以上提及的,利用用户假设的90x90度的FoV,需要播放24个高分辨率瓦片中的8个以表示用户的当前视图,同时还需要传输低分辨率瓦片中的16个以允许用户的突然定向改变。可以将第一组中的8个源轨道和第二组中的16个源轨道称为“活动”源轨道,并且可以由一个或更多个活动源轨道指示符来指示它们相应的数目。
在一个实施方式中,这可以通过使用文件格式的第一框来实现,例如轨道组类型框,其中包括一个或更多个组指示符。基于来自ISO基本媒体文件格式的轨道组框的概念的可能的语法和语义可以如下:
Figure BDA0003563108490000131
track_group_type指示分组类型,并且应被设置为以下值之一,或已注册的值,或衍生规范或注册的值:
[…]
·“aaaa”指示该轨道属于具有相同的track_group_ID的值的轨道组,其中将播放num_active_tracks个轨道的子集。num_active_tracks必须大于1。
在这种情况下,一个或更多个组指示符由语法元素track_group_ID实现,并且一个或更多个活动源轨道指示符由语法元素num_active_tracks实现。另外,定义了新的track_group_type(“aaaa”仅是示例),新的track_group_type指示轨道组类型框包括语法元素num_active_tracks。该类型的轨道组类型框可以在属于组的每个相应源轨道中用信号通知。
由于属于第一组的源轨道和属于低分辨率组的源轨道都是实现360度视频回放应用所需要的,因此本申请还预见了向文件格式解析器指示两个或更多个源轨道组被捆绑在一起的可能性。在该方面,经格式化的视频数据还包括用于指示这样的捆绑的一个或更多个组捆绑指示符。
在另一实施方式中,这可以通过结合上述每个源轨道的信令使用单独的第二框(例如,轨道参考类型框)来将在一个组合中使用的多个组捆绑在一起(例如,使用用于高分辨率瓦片的一个track_group_ID值以及用于低分辨率瓦片的一个track_group_ID值)来实现。
在类型“aaaa”的TrackGroupTypeBox中,(标志&1)的值应等于1,以指示track_group_ID的唯一性,使得可以经由“tref”引用该组。
如由track_group_ID的轨道引用的一般语义所暗示的,“aaaa”源轨道组的num_active_tracks个轨道用于“tref”解析。
可替选地,在另一实施方式中,源轨道组不指示要播放的轨道的数目,而是通过轨道参考类型框的扩展来表达该属性,如下:
Figure BDA0003563108490000141
在这种情况下,在文件格式的单个框(在这种情况下,是轨道引用类型框)中包括:用于指示属于相应源轨道组的源轨道的一个或更多个组指示符、用于指示源轨道组中的活动源轨道的数目的一个或更多个活动源轨道指示符、以及用于指示两个或更多个源轨道组被捆绑在一起的一个或更多个组捆绑指示符。
语法元素num_track_group_IDs指示捆绑在轨道参考类型框中的源轨道组的数目,并且语法元素track_group_IDs[i]和num_active_tracks_per_track_group_IDs[i]为每个组指示轨道组ID和活动轨道的数目。换言之,在该实施方式中,每个源轨道组由相应组ID(例如,track_group_ID)指示,并且被捆绑在一起的两个或更多个源轨道组由用于指示被捆绑在一起的两个或更多个源轨道组的数目的指示符(例如,num_track_group_IDs)和相应组ID的数组(例如,track_group_IDs[i])指示。
在后两个实施方式中,格式化视频数据还可以包括收集轨道,收集轨道包括合并信息,合并信息用于合并两个或更多个源轨道的集合的子集以便生成特定于部分的视频数据流,其中,轨道参考框被包括在收集轨道中。
可替选地,在另一实施方式中,源轨道信令用于将源轨道的(子)组捆绑在一起,源轨道的(子)组将相同分辨率(例如,高分辨率和低分辨率)的瓦片组合在一起。同样,这可以基于来自ISO基本媒体文件的轨道组框的概念,其中可能的语法和语义如下:
Figure BDA0003563108490000151
track_group_type指示分组类型,并且应被设置为以下值之一,或已注册的值,或衍生规范或注册的值:
[…]
·“bbbb”指示该轨道属于具有相同track_group_ID的值的轨道组,并且属于具有相同的track_subgroup_ID的值的子组,其中将播放num_active_tracks_per_track_subgroup_ID s[i]个轨道的子集,其中track_subgroup_ID[i]等于track_subgroup_ID。
可以看出,在这种情况下,通过相应子组ID(例如,track_subgroup_ID)将每个源轨道组指示为源轨道子组,并且通过以下来指示被捆绑在一起的源轨道的两个或更多个子组:公共组ID(例如,track_group_ID)、用于指示被捆绑在一起的源轨道的两个或更多个子组的数量的指示符(例如,num_track_subgroup_IDs)以及相应子组ID的数组(例如,track_subgroup_IDs[i])。
可替选地,在本发明的另一实施方式中,附加的组特定的级别信令允许客户端选择与所支持的解码器的级别能力匹配的组/子组组合。例如,使用轨道组类型框的最后一个实施方式的扩展可以如下:
Figure BDA0003563108490000161
Figure BDA0003563108490000171
track_group_type指示分组类型,并且应被设置为以下值之一,或已注册的值,或衍生规范或注册的值:
[…]
·“cccc”指示该轨道属于具有相同的track_group_ID的值的轨道组,并且属于具有相同的track_subgroup_ID的值的子组,其中将播放num_active_tracks_per_track_subgroup_IDs[i]个轨道的子集,其中track_subgroup_ID[i]等于track_subgroup_ID,并且其中具有track_group_ID的组的回放对应于与该组对应的比特流的level_idc的级别,其中,所得到的比特流需要用于num_track_subgroups_IDs个子组的每一个的所指示数目的num_active_tracks_per_track_subgroup_IDs[i]个轨道。
换言之:在这种情况下,经格式化的视频数据还包括级别指示符(例如,level_idc),级别指示符用于在联合播放所指示的数目的轨道时指示源轨道组的或者两个或更多个源轨道组的捆绑的编码级别。
应当注意,也可以在其他描述的实施方式中提供级别指示符。此外,应当注意,两个或更多个源轨道组不一定(仅)在分辨率上不同,而是它们可以附加地或可替选地在编码保真度上不同。例如,第一源轨道组可以包括包含第一分辨率和/或保真度的编码视频数据的源轨道,而第二源轨道组可以包括包含不同于第一分辨率和/或编码保真度的第二分辨率和/或编码保真度的编码视频数据的源轨道。
3.用于可配置参数集和/或SEI消息的模板
如上所述,某些应用需要取决于播放上下文的参数集或SEI消息的变体(具有变化的瓦片位置和瓦片邻居的合并比特流中的瓦片的联合解码)。因此,在许多情况下具有应用于若干组合的单个参数集是不直接的或甚至不可能的。
一个实施方式包括用信号通知分组机制,例如,如上所述,并且附加地指示需要改变参数集模板的某些值。例如,如先前所讨论的,参考仅具有变化的瓦片选择的示例,所使用的分组模式将指示需要修改slice_address(HEVC术语)或slice_id(在图5所示的图片参数集语法表中使用的当前VVC术语)。另一分组模式值将指示需要调整RWP SEI消息或也需要调整平铺相关语法元素。
这样的方法的缺点在于,对于可能需要改变不同语法元素的每个用例(有时是slice_id,而对于其他用例,可能需要替换不同的语法元素,诸如平铺参数),需要用信号通知不同的组类型或类似的指示。允许改变任何语法元素并且指示需要改变哪个语法元素的更灵活和通用的方法将更有益。
为此,在另一实施方式中,在文件格式的框中携带未受影响的参数集值的表示(即参数集模板)。客户端可以使用该表示以根据其瓦片/轨道选择来生成正确的参数集。
因此,根据本发明的第二方面,格式化视频数据包括两个或更多个源轨道的集合,每个源轨道包括表示示出场景的视频的空间部分的编码视频数据,以及收集信息,收集信息包括合并信息,合并信息用于合并两个或更多个源轨道的集合的子集以便生成特定于部分的视频数据流。收集信息还包括用于可配置参数集和/或SEI消息的模板,其中模板指示参数集或SEI消息的一个或更多个值,一个或更多个值需要被适配成生成对于特定于部分的视频流而言特定的参数集或SEI消息。在某些实施方式中,经格式化的视频数据包括包含收集信息的收集轨道。下面说明该方面的不同实施方式:
3.1 XML/JSON模板
在一个实施方式中,参数集模板和/或SEI消息模板是具有语法元素名称和值以及可能它们的编码的参数集或SEI消息的编码结构的XML或JSON描述。根据该XML/JSON描述,客户端(文件格式解析器)将能够通过对各个语法元素以其相应形式进行编码、对结果进行级联并执行仿真防止来生成参数集/SEI消息的比特流表示。对于需要由文件格式解析器调整的语法元素(例如,语法元素slice_id或调整平铺布局中的瓦片的位置的等效信息),优选地,在XML/JSON描述中如下标记相应字段:
<SliceIDTemplate
slice_id[0]=“$slice_id$"
index="0"/>
在另一实施方式中,在文件格式的框中携带的XML或JSON模式用于提供用于模板的创建的规则。图6示出了使用XML的这样的模式的一个实施方式。使用XML/JSON模式的优点在于,只要语法元素编码选项是已知的(例如,固定对可变长度编码、指数哥伦布码等),在无需先验地知道底层编解码器的情况下,接收文件格式解析器就可以生成一致的参数集/SEI消息比特流。另一优点是可以一次定义单个模式,并且可以使用该模式容易地验证所生成的所有参数集模板和/或SEI消息模板。具有相应参数集模板的XML/JSON描述元数据优选地存储在位于初始化段中的收集轨道的轨道框(“trak”)中。
3.2无仿真防止的比特流模板
在另一实施方式中,参数集模板和/或SEI消息模板是基于参数集/SEI消息的编码比特流形式的,即,根据规范(例如,固定对可变长度编码、指数哥伦布码等)对各个语法元素值进行编码,并且根据各个语法元素的指定顺序进行级联。然而,该形式不包括仿真防止字节。因此,在可以在视频比特流中使用这样的参数集之前,需要执行仿真防止。
在一个实施方式中,参数集模板和/或SEI消息模板携带要插入语法元素值(即,它们的编码表示,诸如slice_id)的间隙的指示。
因此,在一般意义上,模板可以包括参数集或SEI消息的级联编码语法元素,其中不需要被适配的值被有效地编码在模板中,并且模板还包括用于指示要在模板中被填充有需要被适配的有效编码值的间隙的一个或更多个间隙指示符。优选地,用于指示间隙的一个或更多个间隙指示符包括模板中间隙的偏移和大小。
图7示出了模板间隙的概念,其中参数集模板存储在VVCDecoderConfigurationRecord中,并且使用对应的偏移和大小值来用信号通知间隙。可以在定义比特流斑点位置(偏移)(例如,相对于VVCDecoderConfigurationRecord的开始)和间隙的大小的同时用信号通知间隙,并且根据规范用信号通知参数集或SEI消息的哪个元素是该斑点之后的下一个元素。在一个实施方式中,可以将slice_id值(见图5)插入到这样的模板间隙中。在另一实施方式中,将平铺结构语法值(见图5)插入到参数集模板间隙中。
优选地,对于特定于部分的视频流而言特定的参数集或SEI消息的生成包括:在模板中填充间隙之后对级联编码语法元素执行仿真防止以便生成参数集或SEI消息的编码比特流。
3.3具有占位值的模板
在另一实施方式中,存储在VVCDecoderConfigurationRecord中的参数集模板和/或SEI消息模板是可以完全解码的,即,它们以具有像常规非模板参数集或SEI消息的仿真防止的比特流形式存储,但是要适配的字段填充有编码形式的有效占位值。这样的模板参数集完全符合规范,并且可以由符合标准的VVC解析器来解析。使用这样的参数集模板和/或SEI消息模板的思想是:一旦解析器已经处理了这些参数集/SEI消息,它的实例就可以用于容易地重写所需的值,以结束所生成的参数集/SEI消息的定义。
因此,在一般意义上,模板可以包括包含仿真防止字节的参数集或SEI消息的编码比特流,其中需要被适配的一个或更多个值在编码比特流中被填充有有效编码的占位值。应当理解,在以上3.2节中描述的实施方式的该变体中,一个或更多个间隙指示符与用于指示需要被适配的占位值的占位值指示符对应,其中,用于指示占位值的一个或更多个占位值指示符包括模板中占位值的偏移量和大小。
3.4可能的实现
下面示出了上述实施方式的可能实现,即,具有新样本条目类型“vvcG”的样本条目内的解码器配置记录框,其中在循环“for(i=0;i<numNalus;i++)”中;NAL单元可以包括例如形成参数集模板或SEI消息模板的比特流或参数集模板或SEI消息模板的XML/JSONbase64编码表示。
Figure BDA0003563108490000201
Figure BDA0003563108490000211
虽然在该实现方式中,模板被包括在解码器配置记录(例如,VvcDecoderConfigurationRecord)中,但是模板也可以被包括在初始化段中的另一位置处,例如,在样本描述框中的另一位置处或在样本条目框中的另一位置处。此外,可以优选地由NAL单元类型指示(例如,通过定义用于指示包括模板的NAL单元的特定NAL单元类型)NAL单元中模板的存在。
除了在类型“vvcG”的样本条目中指示参数集模板或SEI消息模板之外,可以优选地由常规“vvc1”样本条目中的解码器配置记录中的附加标志templateNalu来指示参数集模板或SEI消息模板的存在。例如,可以为循环“for(i=0;i<numNalus;i++)”中的每个NAL单元提供该标志。
因此,在一般意义上,模板可以被包括在样本条目框中,优选地,被包括在解码器配置记录中,其中,NAL单元中模板的存在由样本条目框中的一个或更多个模板指示符(例如,templateNalu)和/或由样本条目类型(例如,“vvcG”)指示。
在这些实施方式中,诸如补充增强信息(SEI)消息的其他NAL单元类型可以以上述模板形式中的任一个来携带,并且可以取决于在客户端侧选择的特定组合来相应地修改。一个这样的SEI消息将是由AVC和HEVC规定的RWP SEI消息。
为了易于参数集或SEI消息中的参数/语法元素的替换,通过在收集信息中部分地用信号通知的分组机制来呈现所需的附加信息,例如,收集轨道以及选择要组合的源轨道。该方面将在下面第4节中进一步讨论。
3.5轨道式与样本式托架
所讨论的用于可配置参数集和/或SEI消息的方法可以存在于例如初始化段中的解码器配置记录中,如在上述实施方式中,或者存在于特定样本处的轨道中。当参数集模板被包含在轨道中时,例如,作为媒体样本,可以例如以XML/JSON格式定义作为参数集模板或SEI消息模板的新样本格式。
在另一实施方式中,使用具有保留用于VVC中的外部使用的NAL单元类型的NAL单元,其中NAL单元的体(即,NAL单元有效负载)填充有需要根据样本组信息或类似信息中的一些值而改变的一些参数和占位值(以某种方式可区分)。为此,可以将所讨论的方法(XML/JSON中的模板或具有所标识的“要改变”字段的比特流格式)中的任何一个插入到该特定NAL单元结构的NAL单元有效负载中。
图8示出了文件格式规范所允许的两种类型的解码器配置过程:
·带外参数集,其仅包含在初始化段内的相应解码器配置记录框内的采样条目中。
·带内参数集,其包含在样本条目中,但也允许在媒体样本本身中传输,从而允许解码器的配置随时间改变,同时播放相同的文件格式轨道。
在OMAF版本1中,仅允许360度视频的带外信令,并且每个提取器轨道包含由文件格式封装器为固定平铺配置生成的预定义参数集。因此,每当客户端想要改变该平铺配置时,客户端必须改变收集轨道,并且用相应参数集重新初始化解码器。
如已经在先前部分中说明的,具有用于特定平铺配置的这样的预定义参数集是主要缺点,因为客户端可以仅在用于特定平铺方案的预定义提取器轨道上操作,并且不能灵活地合并所需平铺本身(无提取器NAL单元)。
因此,本发明的思想是组合带内参数集和带外参数集的概念,并且创建包括两个概念的解决方案。图9示出了所生成的参数集的新概念。相应收集轨道包含带外(在样本条目内)存储的参数集模板,而该模板用于创建“所生成的参数集”,当客户端选择所有需要的媒体片段时,允许该“所生成的参数集”存在于带内。使用文件格式轨道分组机制以提供关于如何基于所选择的下载的瓦片的子集来更新参数集模板的信息。
在一个实施方式中,收集轨道本身不包括任何媒体段,使得其媒体段被隐含地定义为所选择的瓦片的媒体段的总和(图9中的“vvcG”)。因此,创建所生成的参数集所需的整个元数据被包含在收集轨道的初始化段(样本条目等)中。
在另一实施方式中,收集轨道还包括提供用于生成参数集的附加元数据的媒体段。这允许随时间改变参数集生成的行为,而不仅依赖于来自样本条目的元数据。
因此,在一般意义上,模板可以被包括在收集轨道的初始化段中,优选地,在样本描述框中,更优选地,在样本条目框中,最优选地,在解码器配置记录中,并且合并信息包括媒体段,该媒体段包括对两个或更多个源轨道的集合的子集的编码视频数据的引用,其中,媒体段中的一个或更多个还包括:i)用于可配置参数集和/或SEI消息的模板,或ii)用于指示用模板生成的参数集和/或SEI消息应被包括在所生成的特定于部分的视频数据流的媒体段中的指示符。
应当注意,对于涉及使用可配置参数集和/或SEI消息的模板的所有实施方式,每个源轨道所包括的编码视频数据可以使用切片来被编码,并且特定于部分的视频数据流的生成不需要适配切片的切片报头的值。
优选地,每个源轨道所包括的编码视频数据使用下述来被编码:i)使用瓦片以及与瓦片结构有关的需要被适配的值,和/或ii)使用砖块以及与砖块结构有关的需要被适配的值,和/或iii)使用切片以及与切片结构有关的需要被适配的值。特别地,需要被适配的值可以描述视频的图片中和/或编码视频数据中的瓦片和/或砖块和/或切片的位置。
参数集优选地是视频参数集VPS、序列参数集SPS或图片参数集PPS,并且/或者SEI消息优选地是按区域打包RWP的SEI消息。
4.用于可配置参数集和/或SEI消息的扩展分组
如在引言中所描述的,用于表达源轨道组可以被联合解码的当前现有技术方法是借助于所提及的提取器轨道,该提取器轨道携带适当的参数集并且明确地引用形成如图2所指示的一个特定有效组合的各个轨道。为了减少现有技术解决方案的开销(每个视口一个轨道),本发明提供了可以组合哪些轨道的更灵活的指示以及用于组合的规则。因此,作为本发明的一部分,两个或更多个源轨道的集合可以包括文件格式的一个或更多个框,每个框包括用于描述标识源轨道的特性的语法元素的附加信息,其中,附加信息使得能够在不必解析编码视频数据的情况下生成对于特定于部分的视频流而言特定的参数集或SEI消息。
在一个实施方式中,附加信息描述标识切片ID的语法元素或者在切片报头中用于标识相关联的VCL NAL单元的切片结构以标识组合比特流中的切片及其在组合图片中的位置的另一信息。
在另一实施方式中,附加信息描述:i)标识每个源轨道所包括的编码视频数据的宽度和高度的语法元素,和/或ii)标识与按区域打包RWP的SEI消息的生成有关的投影映射、变换信息和/或防护带信息的语法元素。例如,可以以编码样本为单位或以最大编码块为单位来标识编码视频数据的宽度和高度。关于RWP SEI消息,标识投影映射的语法元素可以包括投影映射内矩形区域的宽度和高度以及顶部和左位置。此外,标识变换信息的语法元素可以包括旋转和镜像。
此外,在另一实施方式中,附加信息还包括相应语法元素的编码长度和/或编码模式(例如,u(8)、u(v)、ue(v)),以易于创建可配置参数集或SEI消息。
在一个实施方式中,上述框的语法如下。如上所述,每个源轨道的每个初始化段在具有扩展轨道组类型框的“trak”框(轨道框)内包含“trgr”框(轨道分组指示)。然后,可以在轨道组类型框的扩展中携带新语法如下:
Figure BDA0003563108490000241
Figure BDA0003563108490000251
5.轨道组合中的随机访问点指示
VVC可以在同一访问单元中具有混合的NAL单元类型,在该情况下,IDR NAL单元可以与非IDR NAL单元混合,即,可以使用帧间预测对一些区域进行编码,而可以对图片内的其他区域进行帧内编码并且针对该特定区域重设预测链。在这样的样本处,客户端可以改变其在图片的部分中的瓦片选择,这就是为什么例如用文件格式信令机制来标记这些样本以指示子图片随机访问点(RAP)是至关重要的,子图片随机访问点指示甚至非IDR NAL单元在被提取时也具有瞬时解码器刷新(IDR)特性。
在本发明的这个方面中,还可以在单个源轨道中提供示出场景的视频的不同空间部分。因此,可以预见用于从其中得出场景的空间可变部分的视频数据,其中,视频数据以文件格式被格式化,并且包括一个或更多个源轨道的集合,一个或更多个源轨道包括表示示出场景的视频的空间部分的编码视频数据。使用随机访问点对编码视频数据进行编码,并且经格式化的视频数据还包括用于指示针对所有空间部分的编码视频数据中的随机访问点是否对准的一个或更多个随机访问点对准指示符。
例如,在一个实施方式中,图片的不同区域被分成若干源轨道。在分组机制中,优选地用信号通知RAP是否对准。例如,这可以通过确保在源轨道中存在RAP的任何地方,在包含图片的另一空间部分的另一源轨道的相应访问单元内存在RAP,或者通过具有用于用信号通知RAP的另一轨道(类似于主轨道)来实现。在第二种情况下,在“主”轨道(例如,如上所述的收集轨道)中仅用信号通知的RAP指示另一源轨道中的RAP。如果分组机制指示RAP未对齐,则需要解析分离的源轨道中的所有RAP信令。换言之:在该实施方式中,表示不同空间部分的编码视频数据被包括在不同源轨道中,并且格式化视频数据还包括公共轨道,该公共轨道包括用于指示用于所有源轨道的随机访问点的一个或更多个随机访问点指示符。
在另一实施方式中,所有空间部分被包括在相同的源轨道中。仍然对于一些用例(例如,缩放),可能希望提取整个图片的一部分(例如,中间的感兴趣区域(RoI))。在这样的场景中,可能发生的是,在整个图片中和在RoI中的RAP不必总是对准。例如,在RoI中可能存在比在整个图片中更多的RAP。
在这些实施方式中,经格式化的视频数据可以还包括用于指示视频的访问单元具有用于视频的空间部分但不是用于整个访问单元的随机访问点的一个或更多个部分随机访问点指示符。此外,经格式化的视频数据还可以包括用于描述具有随机访问点的空间部分的位置和/或形状的部分随机访问点信息。
在一个实现方式中,可以使用所谓的样本组来提供该信息,在ISO基本媒体文件格式中使用该样本组来指示图片的特定特性(例如,同步样本、RAP等)。在本发明中,样本组可以用于指示访问单元具有部分RAP,即,子图片(区域特定的)随机访问点。此外,可以添加信令以指示可以在没有任何漂移的情况下为每个图片显示该区域,并且可以用信号通知该区域的尺寸。下面示出对组框的现有样本的语法:
Figure BDA0003563108490000271
在该实施方式中,为具有特定分组类型“prap”(部分rap)的SampleToGroupBox定义样本组。
另外,样本组描述可以例如如下定义:
class PartialRandomAccessPointsInformation extends VisualSample-GroupEntry('prap'){
PartiaRandomAccessPointsDescription prai;
}
然后,样本描述将指示随机可访问的区域维度,例如:
Figure BDA0003563108490000272
Figure BDA0003563108490000281
在另一实施方式中,不同的区域被映射到分离的NAL单元,这意味着只有访问单元的一些NAL单元可以被解码。本发明的一部分是指示如果仅针对比特流解码与特定NAL单元对应的子集,则可以将该NAL单元视为RAP。为此,子图片RAP的子样本分组信息可以例如通过使用如下的现有子采样信息框的概念来得出:
Figure BDA0003563108490000282
Figure BDA0003563108490000291
codec_specific_parameters可以指示哪个子样本是RAP而哪个不是RAP。
6.其他实施方式
至此,以下关于附图对本发明实施方式的描述集中在用于从其中得出场景的空间可变部分的视频数据以及其中格式化该视频数据的特定文件格式。然而,本发明还涉及用于创建用于从其中得出场景的空间可变部分的视频数据的方法和装置,以及用于从视频数据中得出场景的空间可变部分的方法和装置,其中,视频数据以特定文件格式被格式化。此外,本发明还涉及相应计算机程序、计算机可读介质和数字存储介质。
更详细地,本发明还涉及以下实施方式:
用于创建用于从其中得出场景的空间可变部分的视频数据的方法,其中,视频数据以文件格式被格式化并且包括:
两个或更多个源轨道的集合,每个源轨道包括表示示出场景的视频的空间部分的编码视频数据,
其中,两个或更多个源轨道的集合包括多个源轨道组,并且经格式化的视频数据还包括:用于指示属于相应源轨道组的源轨道的一个或更多个组指示符;以及用于指示源轨道组中的两个或更多个活动源轨道的数目的一个或更多个活动源轨道指示符。
其中,该方法包括:
确定该多个源轨道组以及组中的两个或更多个活动源轨道的数目,创建一个或更多个组指示符以及一个或更多个活动源轨道指示符并且将它们写入格式化视频数据。
在该方法的实施方式中,格式化视频数据还包括用于指示两个或更多个源轨道组被捆绑在一起的一个或更多个组捆绑指示符,其中,该方法包括:
确定被捆绑在一起的两个或更多个源轨道组,创建一个或更多个捆绑指示符并且将它们写入格式化视频数据。
在该方法的实施方式中,用于指示属于相应源轨道组的源轨道的一个或更多个组指示符以及用于指示源轨道组中的活动源轨道的数目的一个或更多个活动源轨道指示符被包括在文件格式的第一框中,文件格式的第一框与文件格式的第二框分开,用于指示两个或更多个源轨道组被捆绑在一起的一个或更多个组捆绑指示符被包括在文件格式的第二框中。
在该方法的实施方式中,第一框是轨道组类型框,并且第二框是轨道引用类型框。
在该方法的实施方式中,用于指示属于相应源轨道组的源轨道的一个或更多个组指示符、用于指示源轨道组中的活动源轨道的数目的一个或更多个活动源轨道指示符、以及用于指示两个或更多个源轨道组被捆绑在一起的一个或更多个组捆绑指示符被包括在文件格式的单个框中。
在该方法的实施方式中,单个框是轨道组类型框或轨道引用类型框。
在该方法的实施方式中,轨道组类型框被包括在源轨道中,并且/或者其中,经格式化的视频数据还包括收集轨道,收集轨道包括合并信息,合并信息用于合并两个或更多个源轨道的集合的子集以便生成特定于部分的视频数据流,其中,轨道引用框被包括在收集轨道中,其中,该方法包括:
确定两个或更多个源轨道的集合的子集,创建包括合并信息的收集轨道并且将它写入经格式化的视频数据。
在该方法的实施方式中,每个源轨道组由相应组ID指示,并且被捆绑在一起的两个或更多个源轨道组由用于指示被捆绑在一起的两个或更多个源轨道组的数目的指示符和相应组ID的数组指示,或者其中,每个源轨道组由相应子组ID指示为源轨道子组,并且被捆绑在一起的两个或更多个源轨道子组由公共组ID、用于指示被捆绑在一起的两个或更多个源轨道子组的数目的指示符以及相应子组ID的数组指示。
在该方法的实施方式中,经格式化的视频数据还包括用于指示源轨道组的或者两个或更多个源轨道组的捆绑的编码级别的级别指示符,其中,该方法包括:
确定源轨道组或两个或更多个源轨道组的捆绑,创建级别指示符并且将它写入经格式化的视频数据。
在该方法的实施方式中,第一源轨道组包括包含第一分辨率和/或保真度的编码视频数据的源轨道,并且第二源轨道组包括包含不同于第一分辨率和/或编码保真度的第二分辨率和/或编码保真度的编码视频数据的源轨道。
用于创建用于从其中得出场景的空间可变部分的视频数据的方法,其中,视频数据以文件格式被格式化并且包括:
两个或更多个源轨道的集合,每个源轨道包括表示示出场景的视频的空间部分的编码视频数据;以及
收集信息,收集信息包括合并信息,合并信息用于合并两个或更多个源轨道的集合的子集以便生成特定于部分的视频数据流,
其中,收集信息还包括用于可配置参数集和/或SEI消息的模板,其中,模板指示参数集或SEI消息的一个或更多个值,一个或更多个值需要被适配成生成对于特定于部分的视频流而言特定的参数集或SEI消息。
其中,该方法包括:
创建模板并且将它写入格式化视频数据的收集信息。
在该方法的一个实施方式中,格式化视频数据包括包含收集信息的收集轨道。
在该方法的实施方式中,模板包括参数集或SEI消息的编码结构的XML或JSON描述。
在该方法的实施方式中,格式化视频数据还包括提供用于模板的创建的规则的XML或JSON模式,其中该方法包括:
创建XLM或JSON模式并且将它写入经格式化的视频数据。
在该方法的实施方式中,模板包括参数集或SEI消息的级联编码语法元素,其中,不需要被适配的值被有效地编码在模板中,并且模板还包括用于指示要在模板中被填充有需要被适配的有效编码值的间隙的一个或更多个间隙指示符。
在该方法的实施方式中,用于指示间隙的一个或更多个间隙指示符包括模板中的间隙的偏移和大小。
在该方法的实施方式中,对于特定于部分的视频流而言特定的参数集或SEI消息的生成包括:在模板中填充间隙之后对级联编码语法元素执行仿真防止以便生成参数集或SEI消息的编码比特流。
在该方法的实施方式中,模板包括包含仿真防止字节的参数集或SEI消息的编码比特流,其中需要被适配的一个或更多个值在编码比特流中被填充有有效编码的占位值。
在该方法的实施方式中,模板被包括在收集轨道的初始化段中,优选地在样本描述框中,更优选地在样本条目框中,最优选地在解码器配置记录中。
在该方法的实施方式中,模板被包括在NAL单元中,其中,NAL单元中模板的存在由NAL单元类型指示。
在该方法的实施方式中,模板被包括在样本条目框中,优选地,被包括在解码器配置记录中,其中,NAL单元中模板的存在由样本条目框中的一个或更多个模板指示符和/或由样本条目类型指示。
在该方法的实施方式中,模板被包括在收集轨道的初始化段中,优选地,被包括在样本描述框中,更优选地,被包括在样本条目框中,最优选地,被包括在解码器配置记录中,并且合并信息包括媒体段,媒体段包括对两个或更多个源轨道的集合的子集的编码视频数据的引用,其中,媒体段中的一个或更多个还包括:i)用于可配置参数集和/或SEI消息的模板,或ii)用于指示用模板生成的参数集和/或SEI消息应被包括在所生成的特定于部分的视频数据流的媒体段中的指示符。
在该方法的实施方式中,每个源轨道所包括的编码视频数据使用切片来被编码,并且特定于部分的视频数据流的生成不需要适配切片的切片报头的值。
在该方法的实施方式中,每个源轨道所包括的编码视频数据使用下述来被编码:i)使用瓦片以及与瓦片结构有关的需要被适配的值,和/或ii)使用砖块以及与砖块结构有关的需要被适配的值,和/或iii)使用切片以及与切片结构有关的需要被适配的值。
在该方法的实施方式中,需要被适配的值描述视频的图片中和/或编码视频数据中的瓦片和/或砖块和/或切片的位置。
在该方法的实施方式中,参数集是视频参数集VPS、序列参数集SPS或图片参数集PPS,并且/或者SEI消息是按区域打包RWP的SEI消息。
在该方法的实施方式中,两个或更多个源轨道的集合包括文件格式的一个或更多个框,每个框包括用于描述标识源轨道的特性的语法元素的附加信息,其中,附加信息使得能够在不必解析编码视频数据的情况下生成对于特定于部分的视频流而言特定的参数集或SEI消息。
在该方法的实施方式中,附加信息描述:i)标识每个源轨道所包括的编码视频数据的宽度和高度的语法元素,和/或ii)标识与按区域打包RWP的SEI消息的生成有关的投影映射、变换信息和/或防护带信息的语法元素。
在该方法的实施方式中,每个源轨道所包括的编码视频数据使用切片来被编码,并且附加信息描述标识切片ID的语法元素或者在切片报头中用于标识切片结构的另一信息。
在该方法的实施方式中,附加信息还包括各个语法元素的编码长度和/或编码模式。
在该方法的实施方式中,一个或更多个框是轨道组类型框的扩展。
用于创建用于从其中得出场景的空间可变部分的视频数据的方法,其中,视频数据以文件格式被格式化并且包括:
包括表示示出场景的视频的空间部分的编码视频数据的一个或更多个源轨道的集合,
其中,编码视频数据使用随机访问点来被编码,并且经格式化的视频数据还包括用于指示用于所有空间部分的编码视频数据中的随机访问点是否对准的一个或更多个随机访问点对准指示符。
其中,该方法包括:
创建所述一个或更多个随机访问点对准指示符并且将它们写入所述经格式化的视频数据。
在该方法的实施方式中,经格式化的视频数据还包括用于指示视频的访问单元具有用于视频的空间部分而不是用于整个访问单元的随机访问点的一个或更多个部分随机访问点指示符,其中,该方法包括:
创建所述一个或更多个部分随机访问点指示符并且将它们写入所述经格式化的视频数据。
在该方法的实施方式中,经格式化的视频数据还包括用于描述具有随机访问点的空间部分的位置和/或形状的部分随机访问点信息,其中,该方法包括:
创建部分随机访问点信息并且将它写入经格式化的视频数据。
在该方法的实施方式中,访问单元的不同空间部分被包括在不同NAL单元中,并且部分随机访问点信息描述了哪些NAL单元是用于相应空间部分的随机访问点,其中,部分随机访问点信息被包括在文件格式的框中,优选地,被包括在子样本信息框中。
在该方法的实施方式中,表示不同空间部分的编码视频数据被包括在不同源轨道中,并且经格式化的视频数据还包括公共轨道,该公共轨道包括用于指示用于所有源轨道的随机访问点的一个或更多个随机访问点指示符。
用于创建用于从其中得出场景的空间可变部分的视频数据的装置,其中,视频数据以文件格式被格式化,其中,装置被适配成执行如权利要求38至55中的任一项中或如上述实施方式中的任一个中所述的方法。
用于从视频数据中得出场景的空间可变部分的方法,其中,视频数据以文件格式被格式化并且包括:
两个或更多个源轨道的集合,每个源轨道包括表示示出场景的视频的空间部分的编码视频数据,
其中,两个或更多个源轨道的集合包括多个源轨道组,并且经格式化的视频数据还包括:用于指示属于相应源轨道组的源轨道的一个或更多个组指示符;以及用于指示源轨道组中的两个或更多个活动源轨道的数目的一个或更多个活动源轨道指示符,
其中,该方法包括:
从经格式化的视频数据中读取一个或更多个组指示符、一个或更多个活动源轨道指示符、以及来自所指示的组中的所指示的数目的两个或更多个活动源轨道的编码视频数据,并且基于其得出场景的空间可变部分。
在该方法的实施方式中,格式化视频数据还包括用于指示两个或更多个源轨道组被捆绑在一起的一个或更多个组捆绑指示符,其中,该方法包括:
从经格式化的视频数据中读取一个或更多个捆绑指示符以及被捆绑在一起的两个或更多个源轨道组,并且基于其得出场景的空间可变部分。
在该方法的实施方式中,用于指示属于相应源轨道组的源轨道的一个或更多个组指示符以及用于指示源轨道组中的活动源轨道的数目的一个或更多个活动源轨道指示符被包括在文件格式的第一框中,文件格式的第一框与文件格式的第二框分开,用于指示两个或更多个源轨道组被捆绑在一起的一个或更多个组捆绑指示符被包括在文件格式的第二框中。
在该方法的实施方式中,第一框是轨道组类型框,并且第二框是轨道引用类型框。
在该方法的实施方式中,用于指示属于相应源轨道组的源轨道的一个或更多个组指示符、用于指示源轨道组中的活动源轨道的数目的一个或更多个活动源轨道指示符、以及用于指示两个或更多个源轨道组被捆绑在一起的一个或更多个组捆绑指示符被包括在文件格式的单个框中。
在该方法的实施方式中,单个框是轨道组类型框或轨道引用类型框。
在该方法的实施方式中,轨道组类型框被包括在源轨道中,并且/或者其中,经格式化的视频数据还包括收集轨道,收集轨道包括合并信息,合并信息用于合并两个或更多个源轨道的集合的子集以便生成特定于部分的视频数据流,其中,轨道引用框被包括在收集轨道中,其中,该方法包括:
从经格式化的视频数据中读取合并信息和两个或更多个源轨道的集合的子集,并且合并两个或更多个源轨道的集合的子集,以基于合并信息生成特定于部分的视频数据流。
在该方法的实施方式中,每个源轨道组由相应组ID指示,并且被捆绑在一起的两个或更多个源轨道组由用于指示被捆绑在一起的两个或更多个源轨道组的数目的指示符和相应组ID的数组指示,或者其中,每个源轨道组由相应子组ID指示为源轨道子组,并且被捆绑在一起的两个或更多个源轨道子组由公共组ID、用于指示被捆绑在一起的两个或更多个源轨道子组的数目的指示符以及相应子组ID的数组指示。
在该方法的实施方式中,经格式化的视频数据还包括用于指示源轨道组的或者两个或更多个源轨道组的捆绑的编码级别的级别指示符,其中,该方法包括:
从经格式化的视频数据中读取级别指示符以及源轨道组或者两个或更多个源轨道组的捆绑,并且基于其得出场景的空间可变部分。
在该方法的实施方式中,第一源轨道组包括包含第一分辨率和/或保真度的编码视频数据的源轨道,并且第二源轨道组包括包含不同于第一分辨率和/或编码保真度的第二分辨率和/或编码保真度的编码视频数据的源轨道。
用于从视频数据中得出场景的空间可变部分的方法,其中,视频数据以文件格式被格式化并且包括:
两个或更多个源轨道的集合,每个源轨道包括表示示出场景的视频的空间部分的编码视频数据;以及
收集信息,收集信息包括合并信息,合并信息用于合并两个或更多个源轨道的集合的子集以便生成特定于部分的视频数据流,
其中,收集信息还包括用于可配置参数集和/或SEI消息的模板,其中,模板指示参数集或SEI消息的一个或更多个值,一个或更多个值需要被适配成生成对于特定于部分的视频流而言特定的参数集或SEI消息。
其中,该方法包括:
从经格式化的视频数据的收集信息中读取模板,并且将由模板指示的参数集或SEI消息的一个或更多个值适配成生成对于特定于部分的视频流而言特定的参数集或SEI消息。
在该方法的实施方式中,模板包括参数集或SEI消息的编码结构的XML或JSON描述。
在该方法的实施方式中,格式化视频数据还包括提供用于模板的创建的规则的XML或JSON模式,其中,该方法包括:
读取XLM或JSON模式并且将它用于生成参数集或SEI消息。
在该方法的实施方式中,模板包括参数集或SEI消息的级联编码语法元素,其中,不需要被适配的值被有效地编码在模板中,并且模板还包括用于指示要在模板中被填充有需要被适配的有效编码值的间隙的一个或更多个间隙指示符。
在该方法的实施方式中,用于指示间隙的一个或更多个间隙指示符包括模板中的间隙的偏移和大小。
在该方法的实施方式中,对于特定于部分的视频流而言特定的参数集或SEI消息的生成包括:在模板中填充间隙之后对级联编码语法元素执行仿真防止以便生成参数集或SEI消息的编码比特流。
在该方法的实施方式中,模板包括包含仿真防止字节的参数集或SEI消息的编码比特流,其中需要被适配的一个或更多个值在编码比特流中被填充有有效编码的占位值。
在该方法的实施方式中,模板被包括在收集轨道的初始化段中,优选地在样本描述框中,更优选地在样本条目框中,最优选地在解码器配置记录中。
在该方法的实施方式中,模板被包括在NAL单元中,其中,NAL单元中模板的存在由NAL单元类型指示。
在该方法的实施方式中,模板被包括在样本条目框中,优选地,被包括在解码器配置记录中,其中,NAL单元中模板的存在由样本条目框中的一个或更多个模板指示符和/或由样本条目类型指示。
在该方法的实施方式中,模板被包括在收集轨道的初始化段中,优选地,被包括在样本描述框中,更优选地,被包括在样本条目框中,最优选地,被包括在解码器配置记录中,并且合并信息包括媒体段,媒体段包括对两个或更多个源轨道的集合的子集的编码视频数据的引用,其中,媒体段中的一个或更多个还包括:i)用于可配置参数集和/或SEI消息的模板,或ii)用于指示用模板生成的参数集和/或SEI消息应被包括在所生成的特定于部分的视频数据流的媒体段中的指示符。
在该方法的实施方式中,每个源轨道所包括的编码视频数据使用切片来被编码,并且特定于部分的视频数据流的生成不需要适配切片的切片报头的值。
在该方法的实施方式中,每个源轨道所包括的编码视频数据使用下述来被编码:i)使用瓦片以及与瓦片结构有关的需要被适配的值,和/或ii)使用砖块以及与砖块结构有关的需要被适配的值,和/或iii)使用切片以及与切片结构有关的需要被适配的值。
在该方法的实施方式中,需要被适配的值描述视频的图片中和/或编码视频数据中的瓦片和/或砖块和/或切片的位置。
在该方法的实施方式中,参数集是视频参数集VPS、序列参数集SPS或图片参数集PPS,并且/或者SEI消息是按区域打包RWP的SEI消息。
在该方法的实施方式中,两个或更多个源轨道的集合包括文件格式的一个或更多个框,每个框包括用于描述标识源轨道的特性的语法元素的附加信息,其中,附加信息使得能够在不必解析编码视频数据的情况下生成对于特定于部分的视频流而言特定的参数集或SEI消息。
在该方法的实施方式中,附加信息描述:i)标识每个源轨道所包括的编码视频数据的宽度和高度的语法元素,和/或ii)标识与按区域打包RWP的SEI消息的生成有关的投影映射、变换信息和/或防护带信息的语法元素。
在该方法的实施方式中,每个源轨道所包括的编码视频数据使用切片来被编码,并且附加信息描述标识切片ID的语法元素或者在切片报头中用于标识切片结构的另一信息。
在该方法的实施方式中,附加信息还包括各个语法元素的编码长度和/或编码模式。
在该方法的实施方式中,一个或更多个框是轨道组类型框的扩展。
用于从视频数据中得出场景的空间可变部分的方法,其中,视频数据以文件格式被格式化并且包括:
包括表示示出场景的视频的空间部分的编码视频数据的一个或更多个源轨道的集合,
其中,编码视频数据使用随机访问点来被编码,并且经格式化的视频数据还包括用于指示用于所有空间部分的编码视频数据中的随机访问点是否对准的一个或更多个随机访问点对准指示符。
其中,该方法包括:
从经格式化的视频数据中读取一个或更多个随机访问点指示符,并且基于其访问编码视频数据。
在该方法的实施方式中,经格式化的视频数据还包括用于指示视频的访问单元具有用于视频的空间部分而不是用于整个访问单元的随机访问点的一个或更多个部分随机访问点指示符,其中,该方法包括:
从经格式化的视频数据中读取一个或更多个部分随机访问点指示符,并且基于其访问编码视频数据。
在该方法的实施方式中,经格式化的视频数据还包括用于描述具有随机访问点的空间部分的位置和/或形状的部分随机访问点信息,其中,该方法包括:
读取部分随机访问点信息,并且基于其访问编码视频数据。
在该方法的实施方式中,访问单元的不同空间部分被包括在不同NAL单元中,并且部分随机访问点信息描述了哪些NAL单元是用于相应空间部分的随机访问点,其中,部分随机访问点信息被包括在文件格式的框中,优选地,被包括在子样本信息框中。
在该方法的实施方式中,表示不同空间部分的编码视频数据被包括在不同源轨道中,并且经格式化的视频数据还包括公共轨道,该公共轨道包括用于指示用于所有源轨道的随机访问点的一个或更多个随机访问点指示符。
用于从视频数据中得出场景的空间可变部分的装置,其中,视频数据以文件格式被格式化,其中,装置被适配成执行如权利要求57至74中的任一项中或如上述实施方式中的任何一个中所述的方法。
一种包括指令的计算机程序,当指令由计算机执行时使得计算机执行如权利要求38至55或57至74或上述实施方式中的任何一个所述的方法。
一种包括指令的计算机可读介质,当指令由计算机执行时使得计算机执行如权利要求38至55或57至74或上述实施方式中的任何一个所述的方法。
一种其上存储有根据权利要求1至37中的任一项所述的视频数据的数字存储介质。
这些方法、装置、计算机程序、计算机可读介质和数字存储介质可以具有关于格式化视频数据所描述的相应特征。
一般而言,用于创建用于从其中得出场景的空间可变部分的视频数据的方法可以包括以下步骤:创建不同类型的指示符(例如,一个或更多个组指示符、一个或更多个活动源轨道指示符、一个或更多个组绑定指示符、级别指示符、一个或更多个部分随机访问点指示符等)、模板(例如用于可配置参数集和/或SEI消息等的模板)、以及信息(例如描述以下各项的附加信息:i)标识每个源轨道所包括的编码视频数据的宽度和高度的语法元素,和/或ii)标识与按区域打包RWP的SEI消息的生成有关的投影映射、变换信息和/或防护带信息的语法元素、部分随机访问点信息等);以及将它们写入格式化视频数据。在该上下文中,可能需要确定以文件格式用信号通知的某些信息、源轨道组以及组中的两个或更多个活动源轨道的数目。视情况而定,该确定可以借助于允许用户输入所需信息的接口来执行,或者可以部分或完全从编码视频数据(例如,RAP信息)得出。
同样,用于从视频数据中得出场景的空间可变部分的方法可以包括以下步骤:读取不同类型的指示符、模板和信息;以及使用读取的数据执行不同的任务。这可以包括基于此得出场景的空间可变部分,以及/或者生成对于特定于部分的视频流而言特定的参数集或SEI消息,以及/或者基于读取的RAP信息访问编码视频数据。
取决于某些实现方式要求,本发明的实施方式可以以硬件或软件实现。该实现方式可以使用其上存储有电子可读控制信号的数字存储介质例如软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存来执行,该数字存储介质与可编程计算机系统协作(或能够协作)从而执行相应方法。因此,数字存储介质可以是计算机可读的。
在一些实施方式中,可编程逻辑器件(例如,现场可编程门阵列)可以用于执行本文描述的方法中的一些或所有功能。
在一些实施方式中,现场可编程门阵列可以与微处理器协作,以执行本文描述的方法之一。通常,这些方法优选地由任何硬件装置来执行。
本文描述的装置可以使用硬件装置、或使用计算机、或使用硬件装置和计算机的组合来实现。
本文描述的装置或本文描述的装置的任何部件可以至少部分地以硬件和/或软件来实现。
本文描述的方法可以使用硬件装置、或使用计算机、或使用硬件装置和计算机的组合来执行。
本文描述的方法或本文描述的装置的任何部件可以至少部分地由硬件和/或软件来执行。
上述实施方式仅仅是为了示出本发明的原理。应当理解,本文描述的布置和细节的修改和变化对于本领域的其他技术人员来说是明显的。因此,意图仅由所附的专利权利要求的范围来限制,而不是由通过本文的实施方式的描述和说明而呈现的具体细节来限制。

Claims (78)

1.一种用于从其中得出场景的空间可变部分的视频数据,其中,所述视频数据以文件格式被格式化并且包括:
两个或更多个源轨道的集合,每个源轨道包括表示示出所述场景的视频的空间部分的编码视频数据,
其中,所述两个或更多个源轨道的集合包括多个源轨道组,并且经格式化的视频数据还包括:用于指示属于相应源轨道组的源轨道的一个或更多个组指示符;以及用于指示源轨道组中的两个或更多个活动源轨道的数目的一个或更多个活动源轨道指示符。
2.根据权利要求1所述的视频数据,其中,所述经格式化的视频数据还包括用于指示两个或更多个源轨道组被捆绑在一起的一个或更多个组捆绑指示符。
3.根据权利要求2所述的视频数据,其中,用于指示属于所述相应源轨道组的源轨道的所述一个或更多个组指示符以及用于指示所述源轨道组中的活动源轨道的数目的所述一个或更多个活动源轨道指示符被包括在所述文件格式的第一框中,所述文件格式的第一框与所述文件格式的第二框分开,用于指示两个或更多个源轨道组被捆绑在一起的所述一个或更多个组捆绑指示符被包括在所述文件格式的第二框中。
4.根据权利要求3所述的视频数据,其中,所述第一框是轨道组类型框,并且所述第二框是轨道引用类型框。
5.根据权利要求2所述的视频数据,其中,用于指示属于所述相应源轨道组的源轨道的所述一个或更多个组指示符、用于指示所述源轨道组中的活动源轨道的数目的所述一个或更多个活动源轨道指示符、以及用于指示两个或更多个源轨道组被捆绑在一起的所述一个或更多个组捆绑指示符被包括在所述文件格式的单个框中。
6.根据权利要求5所述的视频数据,其中,所述单个框是轨道组类型框或轨道引用类型框。
7.根据权利要求4或6所述的视频数据,其中,所述轨道组类型框被包括在源轨道中,并且/或者其中,所述经格式化的视频数据还包括收集轨道,所述收集轨道包括合并信息,所述合并信息用于合并所述两个或更多个源轨道的集合的子集以便生成特定于部分的视频数据流,其中,所述轨道引用框被包括在所述收集轨道中。
8.根据权利要求2至7中的任一项所述的视频数据,其中,每个源轨道组由相应组ID指示,并且被捆绑在一起的所述两个或更多个源轨道组由用于指示被捆绑在一起的所述两个或更多个源轨道组的数目的指示符以及所述相应组ID的数组指示,或者其中,每个源轨道组由相应子组ID指示为源轨道子组,并且被捆绑在一起的两个或更多个源轨道子组由公共组ID、用于指示被捆绑在一起的所述两个或更多个源轨道子组的数目的指示符以及所述相应子组ID的数组指示。
9.根据权利要求2至8中的任一项所述的视频数据,其中,所述经格式化的视频数据还包括用于指示源轨道组的或者两个或更多个源轨道组的捆绑的编码级别的级别指示符。
10.根据权利要求1至9中的任一项所述的视频数据,其中,第一源轨道组包括包含第一分辨率和/或保真度的编码视频数据的源轨道,并且第二源轨道组包括包含不同于所述第一分辨率和/或编码保真度的第二分辨率和/或编码保真度的编码视频数据的源轨道。
11.一种用于从其中得出场景的空间可变部分的视频数据,其中,所述视频数据以文件格式被格式化并且包括:
两个或更多个源轨道的集合,每个源轨道包括表示示出所述场景的视频的空间部分的编码视频数据;以及
收集信息,所述收集信息包括合并信息,所述合并信息用于合并所述两个或更多个源轨道的集合的子集以便生成特定于部分的视频数据流,
其中,经格式化的视频数据还包括用于可配置参数集和/或SEI消息的模板,其中,所述模板指示所述参数集或所述SEI消息的一个或更多个值,所述一个或更多个值需要被适配成生成对于所述特定于部分的视频流而言特定的参数集或SEI消息。
12.根据权利要求11所述的视频数据,其中,所述经格式化的视频数据包括包含所述收集信息的收集轨道。
13.根据权利要求11或12所述的视频数据,其中,所述模板包括所述参数集或所述SEI消息的编码结构的XML或JSON描述。
14.根据权利要求11至13中的任一项所述的视频数据,其中,所述经格式化的视频数据还包括提供用于所述模板的创建的规则的XML或JSON模式。
15.根据权利要求11或12所述的视频数据,其中,所述模板包括所述参数集或所述SEI消息的级联编码语法元素,其中,不需要被适配的值被有效地编码在所述模板中,并且所述模板还包括用于指示要在所述模板中被填充有需要被适配的有效编码值的间隙的一个或更多个间隙指示符。
16.根据权利要求15所述的视频数据,其中,用于指示所述间隙的所述一个或更多个间隙指示符包括所述模板中的所述间隙的偏移和大小。
17.根据权利要求15或16所述的视频数据,其中,对于所述特定于部分的视频流而言特定的所述参数集或所述SEI消息的生成包括:在所述模板中填充所述间隙之后对所述级联编码语法元素执行仿真防止以便生成所述参数集或所述SEI消息的编码比特流。
18.根据权利要求11或12所述的视频数据,其中,所述模板包括包含仿真防止字节的所述参数集或所述SEI消息的编码比特流,其中,需要被适配的所述一个或更多个值在所述编码比特流中被填充有有效编码的占位值。
19.根据权利要求18所述的视频数据,其中,所述模板还包括用于指示需要被适配的占位值的一个或更多个占位值指示符,其中,用于指示所述占位值的所述一个或更多个占位值指示符包括所述模板中的所述占位值的偏移和大小。
20.根据权利要求12至19中的任一项所述的视频数据,其中,所述模板被包括在所述收集轨道的初始化段中,优选地,被包括在样本描述框中,更优选地,被包括在样本条目框中,最优选地,被包括在解码器配置记录中。
21.根据权利要求11至19中的任一项所述的视频数据,其中,所述模板被包括在NAL单元中,其中,所述NAL单元中所述模板的存在由NAL单元类型指示。
22.根据权利要求21所述的视频数据,其中,所述模板被包括在样本条目框中,优选地,被包括在解码器配置记录中,其中,NAL单元中所述模板的存在由所述样本条目框中的一个或更多个模板指示符和/或由所述样本条目类型指示。
23.根据权利要求12至21中的任一项所述的视频数据,其中,所述模板被包括在所述收集轨道的初始化段中,优选地,被包括在样本描述框中,更优选地,被包括在样本条目框中,最优选地,被包括在解码器配置记录中,并且所述合并信息包括媒体段,所述媒体段包括对所述两个或更多个源轨道的集合的子集的所述编码视频数据的引用,其中,所述媒体段中的一个或更多个还包括:i)用于可配置参数集和/或SEI消息的模板,或ii)用于指示用模板生成的参数集和/或SEI消息应被包括在所生成的特定于部分的视频数据流的所述媒体段中的指示符。
24.根据权利要求11至23中的任一项所述的视频数据,其中,每个源轨道所包括的所述编码视频数据使用切片来被编码,并且所述特定于部分的视频数据流的生成不需要适配所述切片的切片报头的值。
25.根据权利要求11至24中的任一项所述的视频数据,其中,每个源轨道所包括的所述编码视频数据使用下述来被编码:i)使用瓦片以及与瓦片结构有关的需要被适配的值,和/或ii)使用砖块以及与砖块结构有关的需要被适配的值,和/或iii)使用切片以及与切片结构有关的需要被适配的值。
26.根据权利要求25所述的视频数据,其中,需要被适配的值描述所述视频的图片中和/或所述编码视频数据中的瓦片和/或砖块和/或切片的位置。
27.根据权利要求11至26中的任一项所述的视频数据,其中,所述参数集是视频参数集VPS、序列参数集SPS或图片参数集PPS,并且/或者所述SEI消息是按区域打包RWP的SEI消息。
28.根据权利要求11至27中的任一项所述的视频数据,其中,所述两个或更多个源轨道的集合包括所述文件格式的一个或更多个框,每个框包括用于描述标识源轨道的特性的语法元素的附加信息,其中,所述附加信息使得能够在不必解析所述编码视频数据的情况下生成对于所述特定于部分的视频流而言特定的所述参数集或所述SEI消息。
29.根据权利要求28所述的视频数据,其中,所述附加信息描述:i)标识每个源轨道所包括的所述编码视频数据的宽度和高度的语法元素,和/或ii)标识与按区域打包RWP的SEI消息的生成有关的投影映射、变换信息和/或防护带信息的语法元素。
30.根据权利要求28所述的视频数据,其中,每个源轨道所包括的所述编码视频数据使用切片来被编码,并且所述附加信息描述标识切片ID的语法元素或者在切片报头中用于标识切片结构的另一信息。
31.根据权利要求28至30中的任一项所述的视频数据,其中,所述附加信息还包括相应语法元素的编码长度和/或编码模式。
32.根据权利要求28至31中的任一项所述的视频数据,其中,所述一个或更多个框是轨道组类型框的扩展。
33.一种用于从其中得出场景的空间可变部分的视频数据,其中,所述视频数据以文件格式被格式化并且包括:
包括表示示出所述场景的视频的空间部分的编码视频数据的一个或更多个源轨道的集合,
其中,所述编码视频数据使用随机访问点来被编码,并且经格式化的视频数据还包括用于指示用于所有空间部分的所述编码视频数据中的所述随机访问点是否对准的一个或更多个随机访问点对准指示符。
34.根据权利要求33所述的视频数据,其中,所述经格式化的视频数据还包括用于指示所述视频的访问单元具有用于所述视频的空间部分而不是用于整个访问单元的随机访问点的一个或更多个部分随机访问点指示符。
35.根据权利要求34所述的视频数据,其中,所述经格式化的视频数据还包括用于描述具有所述随机访问点的所述空间部分的位置和/或形状的部分随机访问点信息。
36.根据权利要求35所述的视频数据,其中,访问单元的不同空间部分被包括在不同NAL单元中,并且所述部分随机访问点信息描述了哪些NAL单元是用于相应空间部分的随机访问点,其中,所述部分随机访问点信息被包括在所述文件格式的框中,优选地,被包括在子样本信息框中。
37.根据权利要求33所述的视频数据,其中,表示不同空间部分的所述编码视频数据被包括在不同源轨道中,并且所述经格式化的视频数据还包括公共轨道,所述公共轨道包括用于指示用于所有源轨道的所述随机访问点的一个或更多个随机访问点指示符。
38.一种用于创建用于从其中得出场景的空间可变部分的视频数据的方法,其中,所述视频数据以文件格式被格式化并且包括:
两个或更多个源轨道的集合,每个源轨道包括表示示出所述场景的视频的空间部分的编码视频数据,
其中,所述两个或更多个源轨道的集合包括多个源轨道组,并且经格式化的视频数据还包括:用于指示属于相应源轨道组的源轨道的一个或更多个组指示符;以及用于指示源轨道组中的两个或更多个活动源轨道的数目的一个或更多个活动源轨道指示符,
其中,所述方法包括:
确定所述多个源轨道组以及组中的两个或更多个活动源轨道的数目,创建所述一个或更多个组指示符以及所述一个或更多个活动源轨道指示符并且将它们写入所述经格式化的视频数据。
39.根据权利要求38所述的方法,其中,所述经格式化的视频数据还包括用于指示两个或更多个源轨道组被捆绑在一起的一个或更多个组捆绑指示符,其中,所述方法包括:
确定被捆绑在一起的所述两个或更多个源轨道组,创建所述一个或更多个捆绑指示符并且将它们写入所述经格式化的视频数据。
40.根据权利要求39所述的方法,其中,用于指示属于所述相应源轨道组的源轨道的所述一个或更多个组指示符、用于指示所述源轨道组中的活动源轨道的数目的所述一个或更多个活动源轨道指示符、以及用于指示两个或更多个源轨道组被捆绑在一起的所述一个或更多个组捆绑指示符被包括在所述文件格式的单个框中。
41.根据权利要求39或40所述的方法,其中,每个源轨道组由相应组ID指示,并且被捆绑在一起的所述两个或更多个源轨道组由用于指示被捆绑在一起的所述两个或更多个源轨道组的数目的指示符以及所述相应组ID的数组指示,或者其中,每个源轨道组由相应子组ID指示为源轨道子组,并且被捆绑在一起的两个或更多个源轨道子组由公共组ID、用于指示被捆绑在一起的所述两个或更多个源轨道子组的数目的指示符以及所述相应子组ID的数组指示。
42.根据权利要求39至41中的任一项所述的方法,其中,所述经格式化的视频数据还包括用于指示源轨道组的或者两个或更多个源轨道组的捆绑的编码级别的级别指示符,其中,所述方法包括:
确定所述源轨道组或者所述两个或更多个源轨道组的捆绑,创建所述级别指示符并且将它写入所述经格式化的视频数据。
43.一种用于创建用于从其中得出场景的空间可变部分的视频数据的方法,其中,所述视频数据以文件格式被格式化并且包括:
两个或更多个源轨道的集合,每个源轨道包括表示示出所述场景的视频的空间部分的编码视频数据;以及
收集信息,所述收集信息包括合并信息,所述合并信息用于合并所述两个或更多个源轨道的集合的子集以便生成特定于部分的视频数据流,
其中,所述收集信息还包括用于可配置参数集和/或SEI消息的模板,其中,所述模板指示所述参数集或所述SEI消息的一个或更多个值,所述一个或更多个值需要被适配成生成对于所述特定于部分的视频流而言特定的参数集或SEI消息,
其中,所述方法包括:
创建所述模板并且将它写入经格式化的视频数据的所述收集信息。
44.根据权利要求43所述的方法,其中,所述经格式化的视频数据包括包含所述收集信息的收集轨道。
45.根据权利要求43或44所述的方法,其中,所述模板包括包含仿真防止字节的所述参数集或所述SEI消息的编码比特流,其中,需要被适配的所述一个或更多个值在所述编码比特流中被填充有有效编码的占位值。
46.根据权利要求45所述的方法,其中,所述模板还包括用于指示需要被适配的占位值的一个或更多个占位值指示符,其中,用于指示所述占位值的所述一个或更多个占位值指示符包括所述模板中的所述占位值的偏移和大小。
47.根据权利要求44至46中的任一项所述的方法,其中,所述模板被包括在所述收集轨道的初始化段中,优选地,被包括在样本描述框中,更优选地,被包括在样本条目框中,最优选地,被包括在解码器配置记录中,并且所述合并信息包括媒体段,所述媒体段包括对所述两个或更多个源轨道的集合的子集的所述编码视频数据的引用,其中,所述媒体段中的一个或更多个还包括:i)用于可配置参数集和/或SEI消息的模板,或ii)用于指示用模板生成的参数集和/或SEI消息应被包括在所生成的特定于部分的视频数据流的所述媒体段中的指示符。
48.根据权利要求43至47中的任一项所述的方法,其中,每个源轨道所包括的所述编码视频数据使用切片来被编码,并且所述特定于部分的视频数据流的生成不需要适配所述切片的切片报头的值。
49.根据权利要求43至48中的任一项所述的方法,其中,所述两个或更多个源轨道的集合包括所述文件格式的一个或更多个框,每个框包括用于描述标识源轨道的特性的语法元素的附加信息,其中,所述附加信息使得能够在不必解析所述编码视频数据的情况下生成对于所述特定于部分的视频流而言特定的所述参数集或所述SEI消息。
50.根据权利要求49所述的方法,其中,每个源轨道所包括的所述编码视频数据使用切片来被编码,并且所述附加信息描述标识切片ID的语法元素或者在切片报头中用于标识切片结构的另一信息。
51.根据权利要求49或50所述的方法,其中,所述附加信息还包括相应语法元素的编码长度和/或编码模式。
52.一种用于创建用于从其中得出场景的空间可变部分的视频数据的方法,其中,所述视频数据以文件格式被格式化并且包括:
包括表示示出所述场景的视频的空间部分的编码视频数据的一个或更多个源轨道的集合,
其中,所述编码视频数据使用随机访问点来被编码,并且经格式化的视频数据还包括用于指示用于所有空间部分的所述编码视频数据中的所述随机访问点是否对准的一个或更多个随机访问点对准指示符,
其中,所述方法包括:
创建所述一个或更多个随机访问点对准指示符并且将它们写入所述经格式化的视频数据。
53.根据权利要求52所述的方法,其中,所述经格式化的视频数据还包括用于指示所述视频的访问单元具有用于所述视频的空间部分而不是用于整个访问单元的随机访问点的一个或更多个部分随机访问点指示符,其中,所述方法包括:
创建所述一个或更多个部分随机访问点指示符并且将它们写入所述经格式化的视频数据。
54.根据权利要求53所述的方法,其中,所述经格式化的视频数据还包括用于描述具有所述随机访问点的所述空间部分的位置和/或形状的部分随机访问点信息,其中,所述方法包括:
创建所述部分随机访问点信息并且将它写入所述经格式化的视频数据。
55.根据权利要求54所述的方法,其中,访问单元的不同空间部分被包括在不同NAL单元中,并且所述部分随机访问点信息描述了哪些NAL单元是用于相应空间部分的随机访问点,其中,所述部分随机访问点信息被包括在所述文件格式的框中,优选地,被包括在子样本信息框中。
56.一种用于创建用于从其中得出场景的空间可变部分的视频数据的装置,其中,所述视频数据以文件格式被格式化,其中,所述装置被适配成执行根据权利要求38至55中的任一项所述的方法。
57.一种用于从视频数据中得出场景的空间可变部分的方法,其中,所述视频数据以文件格式被格式化并且包括:
两个或更多个源轨道的集合,每个源轨道包括表示示出所述场景的视频的空间部分的编码视频数据,
其中,所述两个或更多个源轨道的集合包括多个源轨道组,并且经格式化的视频数据还包括:用于指示属于相应源轨道组的源轨道的一个或更多个组指示符;以及用于指示源轨道组中的两个或更多个活动源轨道的数目的一个或更多个活动源轨道指示符,
其中,所述方法包括:
从所述经格式化的视频数据中读取所述一个或更多个组指示符、所述一个或更多个活动源轨道指示符、以及来自所指示的组中的所指示的数目的两个或更多个活动源轨道的所述编码视频数据,并且基于其得出所述场景的所述空间可变部分。
58.根据权利要求57所述的方法,其中,所述经格式化的视频数据还包括用于指示两个或更多个源轨道组被捆绑在一起的一个或更多个组捆绑指示符,其中,所述方法包括:
从所述经格式化的视频数据中读取所述一个或更多个捆绑指示符以及被捆绑在一起的所述两个或更多个源轨道组,并且基于其得出所述场景的所述空间可变部分。
59.根据权利要求58所述的方法,其中,用于指示属于所述相应源轨道组的源轨道的所述一个或更多个组指示符、用于指示所述源轨道组中的活动源轨道的数目的所述一个或更多个活动源轨道指示符、以及用于指示两个或更多个源轨道组被捆绑在一起的所述一个或更多个组捆绑指示符被包括在所述文件格式的单个框中。
60.根据权利要求58或59所述的方法,其中,每个源轨道组由相应组ID指示,并且被捆绑在一起的所述两个或更多个源轨道组由用于指示被捆绑在一起的所述两个或更多个源轨道组的数目的指示符以及所述相应组ID的数组指示,或者其中,每个源轨道组由相应子组ID指示为源轨道子组,并且被捆绑在一起的两个或更多个源轨道子组由公共组ID、用于指示被捆绑在一起的所述两个或更多个源轨道子组的数目的指示符以及所述相应子组ID的数组指示。
61.根据权利要求58至60中的任一项所述的方法,其中,所述经格式化的视频数据还包括用于指示源轨道组的或者两个或更多个源轨道组的捆绑的编码级别的级别指示符,其中,所述方法包括:
从所述经格式化的视频数据中读取所述级别指示符以及所述源轨道组或者所述两个或更多个源轨道组的捆绑,并且基于其得出所述场景的所述空间可变部分。
62.一种用于从视频数据中得出场景的空间可变部分的方法,其中,所述视频数据以文件格式被格式化并且包括:
两个或更多个源轨道的集合,每个源轨道包括表示示出所述场景的视频的空间部分的编码视频数据;以及
收集信息,所述收集信息包括合并信息,所述合并信息用于合并所述两个或更多个源轨道的集合的子集以便生成特定于部分的视频数据流,
其中,所述收集信息还包括用于可配置参数集和/或SEI消息的模板,其中,所述模板指示所述参数集或所述SEI消息的一个或更多个值,所述一个或更多个值需要被适配成生成对于所述特定于部分的视频流而言特定的参数集或SEI消息,
其中,所述方法包括:
从所述经格式化的视频数据的所述收集信息中读取所述模板,并且将由所述模板指示的所述参数集或所述SEI消息的所述一个或更多个值适配成生成对于所述特定于部分的视频流而言特定的所述参数集或所述SEI消息。
63.根据权利要求62所述的方法,其中,所述经格式化的视频数据包括包含所述收集信息的收集轨道。
64.根据权利要求62或63所述的方法,其中,所述模板包括包含仿真防止字节的所述参数集或所述SEI消息的编码比特流,其中,需要被适配的所述一个或更多个值在所述编码比特流中被填充有有效编码的占位值。
65.根据权利要求64所述的方法,其中,所述模板还包括用于指示需要被适配的占位值的一个或更多个占位值指示符,其中,用于指示所述占位值的所述一个或更多个占位值指示符包括所述模板中的所述占位值的偏移和大小。
66.根据权利要求64或65所述的方法,其中,所述模板被包括在所述收集轨道的初始化段中,优选地,被包括在样本描述框中,更优选地,被包括在样本条目框中,最优选地,被包括在解码器配置记录中,并且所述合并信息包括媒体段,所述媒体段包括对所述两个或更多个源轨道的集合的子集的所述编码视频数据的引用,其中,所述媒体段中的一个或更多个还包括:i)用于可配置参数集和/或SEI消息的模板,或ii)用于指示用模板生成的参数集和/或SEI消息应被包括在所生成的特定于部分的视频数据流的所述媒体段中的指示符。
67.根据权利要求63至66中的任一项所述的方法,其中,每个源轨道所包括的所述编码视频数据使用切片来被编码,并且所述特定于部分的视频数据流的生成不需要适配所述切片的切片报头的值。
68.根据权利要求63至67中的任一项所述的方法,其中,所述两个或更多个源轨道的集合包括所述文件格式的一个或更多个框,每个框包括用于描述标识源轨道的特性的语法元素的附加信息,其中,所述附加信息使得能够在不必解析所述编码视频数据的情况下生成对于所述特定于部分的视频流而言特定的所述参数集或所述SEI消息。
69.根据权利要求68所述的方法,其中,每个源轨道所包括的所述编码视频数据使用切片来被编码,并且所述附加信息描述标识切片ID的语法元素或者在切片报头中用于标识切片结构的另一信息。
70.根据权利要求68或69所述的方法,其中,所述附加信息还包括相应语法元素的编码长度和/或编码模式。
71.一种用于从视频数据中得出场景的空间可变部分的方法,其中,所述视频数据以文件格式被格式化并且包括:
包括表示示出所述场景的视频的空间部分的编码视频数据的一个或更多个源轨道的集合,
其中,所述编码视频数据使用随机访问点来被编码,并且经格式化的视频数据还包括用于指示用于所有空间部分的所述编码视频数据中的所述随机访问点是否对准的一个或更多个随机访问点对准指示符,
其中,所述方法包括:
从所述经格式化的视频数据中读取所述一个或更多个随机访问点指示符,并且基于其访问所述编码视频数据。
72.根据权利要求71所述的方法,其中,所述经格式化的视频数据还包括用于指示所述视频的访问单元具有用于所述视频的空间部分而不是用于整个访问单元的随机访问点的一个或更多个部分随机访问点指示符,其中,所述方法包括:
从所述经格式化的视频数据中读取所述一个或更多个部分随机访问点指示符,并且基于其访问所述编码视频数据。
73.根据权利要求72所述的方法,其中,所述经格式化的视频数据还包括用于描述具有所述随机访问点的所述空间部分的位置和/或形状的部分随机访问点信息,其中,所述方法包括:
读取所述部分随机访问点信息,并且基于其访问所述编码视频数据。
74.根据权利要求73所述的方法,其中,访问单元的不同空间部分被包括在不同NAL单元中,并且所述部分随机访问点信息描述了哪些NAL单元是用于相应空间部分的随机访问点,其中,所述部分随机访问点信息被包括在所述文件格式的框中,优选地,被包括在子样本信息框中。
75.一种用于从视频数据中得出场景的空间可变部分的装置,其中,所述视频数据以文件格式被格式化,其中,所述装置被适配成执行根据权利要求57至74中的任一项所述的方法。
76.一种包括指令的计算机程序,所述指令在由计算机执行时使所述计算机执行根据权利要求38至55或57至74所述的方法。
77.一种包括指令的计算机可读介质,所述指令在由计算机执行时使所述计算机执行根据权利要求38至55或57至74所述的方法。
78.一种其上存储有根据权利要求1至37中的任一项所述的视频数据的数字存储介质。
CN202080067032.7A 2019-09-27 2020-09-28 合并友好文件格式 Pending CN114450953A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20002376 2019-09-27
EP192002376 2019-09-27
PCT/EP2020/077035 WO2021058814A1 (en) 2019-09-27 2020-09-28 Merging friendly file format

Publications (1)

Publication Number Publication Date
CN114450953A true CN114450953A (zh) 2022-05-06

Family

ID=81362417

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080067032.7A Pending CN114450953A (zh) 2019-09-27 2020-09-28 合并友好文件格式

Country Status (1)

Country Link
CN (1) CN114450953A (zh)

Similar Documents

Publication Publication Date Title
US11178470B2 (en) Method, device, and computer program for encapsulating partitioned timed media data
US11115641B2 (en) Method of transmitting omnidirectional video, method of receiving omnidirectional video, device for transmitting omnidirectional video, and device for receiving omnidirectional video
US11272159B2 (en) Method and device for transmitting stereo media content
KR102320455B1 (ko) 미디어 콘텐트를 전송하는 방법, 디바이스, 및 컴퓨터 프로그램
US20180249192A1 (en) Method, device, and computer program for encapsulating scalable partitioned timed media data
US20240040170A1 (en) Method, device, and computer program for transmitting media content
US11638066B2 (en) Method, device and computer program for encapsulating media data into a media file
US20210176509A1 (en) Method, device, and computer program for transmitting media content
CN113574903A (zh) 针对媒体内容中的后期绑定的方法和装置
US20220345746A1 (en) Merging friendly file format
CN114450953A (zh) 合并友好文件格式
GB2608399A (en) Method, device, and computer program for dynamically encapsulating media content data
WO2023274877A1 (en) Method, device, and computer program for dynamically encapsulating media content data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination