CN110832873A - 用于针对虚拟现实应用程序发送信号通知视图信息的系统和方法 - Google Patents

用于针对虚拟现实应用程序发送信号通知视图信息的系统和方法 Download PDF

Info

Publication number
CN110832873A
CN110832873A CN201880044688.XA CN201880044688A CN110832873A CN 110832873 A CN110832873 A CN 110832873A CN 201880044688 A CN201880044688 A CN 201880044688A CN 110832873 A CN110832873 A CN 110832873A
Authority
CN
China
Prior art keywords
region
video
descriptor
picture
information associated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880044688.XA
Other languages
English (en)
Inventor
萨钦·G·德施潘德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Publication of CN110832873A publication Critical patent/CN110832873A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234345Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements the reformatting operation being performed only on part of the stream, e.g. a region of the image or a time segment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/23439Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements for generating different versions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • H04N21/2353Processing of additional data, e.g. scrambling of additional data or processing content descriptors specifically adapted to content descriptors, e.g. coding, compressing or processing of metadata
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/262Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
    • H04N21/26258Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists for generating a list of items to be played back in a given order, e.g. playlist, or scheduling item distribution according to such list
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8543Content authoring using a description language, e.g. Multimedia and Hypermedia information coding Expert Group [MHEG], eXtensible Markup Language [XML]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了与MPD(媒体呈现描述)中的全向视频相关联的信息。它们使用由定界符包围的逗号分隔列表在一组值中包含“逐区域质量排名信息”。(参见段落[0180]、[0216]至[0218]、[0292]、[0293]以及图10。)它们还包含“视图指示符”、“中心点偏航”、“中心点俯仰”、“滚动角”、“水平范围”和“垂直范围”。(参见段落[0218]和[0287]。)它们还包含“投影类型”或“逐区域封装信息”作为无符号字节列表。(参见段落[0356]、[0359]以及图13A、图13B、图14A、图15A)。它们还包含“顶级元素”和“共用属性组”。(参见段落[0009]、[0010])。

Description

用于针对虚拟现实应用程序发送信号通知视图信息的系统和 方法
技术领域
本公开涉及交互式视频分发领域,并且更具体地涉及用于发送信号通知与虚拟现实应用程序中的区域相关联的信息的技术。
背景技术
数字媒体回放功能可以包含在各种设备中,这些设备包括:包括所谓的“智能”电视的数字电视、机顶盒、膝上型电脑或台式电脑、平板电脑、数字录音设备、数字媒体播放器、视频游戏设备、包括所谓的“智能”电话的蜂窝电话、专用视频流设备等。数字媒体内容(例如,视频和音频编程)可以源自多个源,包括例如无线电视提供方、卫星电视提供方、有线电视提供方、包括所谓的流媒体服务提供方的在线媒体服务提供方等。数字媒体内容可以通过分组交换网络交付,包括双向网络(诸如互联网协议(IP)网络)和单向网络(诸如数字广播网络)。
可以根据视频编码标准来对数字媒体内容中包括的数字视频进行编码。视频编码标准可以结合视频压缩技术。视频编码标准的示例包括ISO/IEC MPEG-4Visual和ITU-TH.264(也称为ISO/IEC MPEG-4AVC)和高效率视频编码(HEVC)。视频压缩技术可减少存储和传输视频数据的数据需求。视频压缩技术可通过利用视频序列中固有的冗余来减少数据需求。视频压缩技术可将视频序列再分成连续较小的部分(即视频序列内的帧组、帧组内的帧、帧内的片段、片段内的编码树单元(例如,宏块)、编码树单元内的编码块等)。可以使用预测编码技术来生成待编码的单位视频数据与参考单位视频数据之间的差值。该差值可被称为残差数据。残差数据可被编码为量化变换系数。语法元素可以涉及残差数据和参考编码单元。残差数据和语法元素可以被包括在兼容的比特流中。可以根据数据结构来格式化兼容的比特流和相关联的元数据。可以根据传输标准将兼容的比特流和相关联的元数据从源传输到接收器设备(例如,数字电视或智能电话)。传输标准的示例包括数字视频广播(DVB)标准、综合业务数字广播标准(ISDB)标准和由高级电视系统委员会(ATSC)开发的标准,包括例如ATSC 2.0标准。ATSC目前正在开发所谓的ATSC 3.0标准系列。
发明内容
一般来讲,本公开描述了用于发送信号通知与虚拟现实应用程序相关联的信息的各种技术。具体地,本公开描述了用于发送信号通知与球体上的区域相关联的信息的技术。应当指出的是,尽管在一些示例中,相对于传输标准描述了本公开的技术,但本文所述的技术可以是普遍适用的。例如,本文所述的技术通常适用于DVB标准、ISDB标准、ATSC标准、数字地面多媒体广播(DTMB)标准、数字多媒体广播(DMB)标准、混合广播和宽带电视(HbbTV)标准、万维网联盟(W3C)标准和通用即插即用(UPnP)标准中的任一者。此外,还应当指出的是,尽管本公开的技术是相对于ITU-T H.264和ITU-T H.265描述的,但本公开的技术通常可适用于视频编码,包括全向视频编码。例如,本文中所描述的编码技术可并入包括块结构的视频编码系统(包括基于未来视频编码标准的视频编码系统)、帧内预测技术、帧间预测技术、变换技术、滤波技术和/或熵编码技术,但ITU-T H.265中的那些除外。因此,对ITU-TH.264和ITU-T H.265的参考是用于描述性目的的,并且不应将其解释为限制本文描述技术的范围。此外,应当指出的是,将文献以引用方式并入本文不应被解释为限制或产生关于本文所用术语的歧义。例如,在某个并入的参考文献中提供的对某个术语的定义不同于另一个并入的参考文献和/或如本文中使用的该术语的情况下,则该术语应以广泛地包括每个相应定义的方式和/或以包括替代方案中每个特定定义的方式来解释。
本发明的一方面是发送信号通知与全向视频相关联的信息的方法,该方法包括:
使用媒体呈现描述文档来发送信号通知与全向视频相关联的逐区域质量排名信息,其中使用媒体呈现描述文档来发送信号通知与全向视频相关联的逐区域质量排名信息包括使用由定界符包围的逗号分隔列表来发送信号通知一组值。
本发明的一方面是确定与全向视频相关联的信息的方法,该方法包括:
使用媒体呈现描述文档来解析与全向视频相关联的逐区域质量排名信息,其中使用媒体呈现描述文档来解析与全向视频相关联的逐区域质量排名信息包括从由定界符包围的逗号分隔列表解析一组值。
本发明的一方面是发送信号通知与全向视频相关联的信息的方法,该方法包括:
使用媒体呈现描述文档来发送信号通知与全向视频相关联的投影类型或逐区域封装信息,其中使用媒体呈现描述文档来发送信号通知与全向视频相关联的信息包括发送信号通知无符号字节列表。
本发明的一方面是确定与全向视频相关联的信息的方法,该方法包括:
使用媒体呈现描述文档来解析与全向视频相关联的投影类型或逐区域封装信息,其中使用媒体呈现描述文档来解析与全向视频相关联的信息包括解析无符号字节列表。
本发明的一方面是发送信号通知与全向视频相关联的信息的方法,该方法包括:
使用媒体呈现描述文档来发送信号通知与全向视频相关联的逐区域质量排名信息,其中使用媒体呈现描述文档来发送信号通知与全向视频相关联的逐区域质量排名信息包括发送信号通知具有一组共用属性的顶级元素。
本发明的一方面是确定与全向视频相关联的信息的方法,该方法包括:
使用媒体呈现描述文档来解析与全向视频相关联的逐区域质量排名信息,其中使用媒体呈现描述文档来解析与全向视频相关联的逐区域质量排名信息包括解析具有一组共用属性的顶级元素。
在以下附图和描述中阐述了一个或多个示例的细节。其他特征、目的和优点将从描述和附图以及权利要求书中显而易见。
附图说明
图1是示出根据本公开的一种或多种技术的可被配置为传输编码视频数据的系统的示例的框图。
图2A是示出根据本公开的一种或多种技术的编码视频数据和对应数据结构的概念图。
图2B是示出根据本公开的一种或多种技术的编码视频数据和对应数据结构的概念图。
图3是示出根据本公开的一种或多种技术的编码视频数据和对应数据结构的概念图。
图4是示出根据本公开的一种或多种技术的可用于从球形投影结构导出封装帧的处理阶段的示例的概念图。
图5A是示出根据本公开的一种或多种技术的投影图片区域和封装图片的示例的概念图。
图5B是示出根据本公开的一种或多种技术的投影图片区域和封装图片的示例的概念图。
图6A是示出根据本公开的一种或多种技术的指定球体区域的示例的概念图。
图6B是示出根据本公开的一种或多种技术的指定球体区域的示例的概念图。
图7是示出根据本公开的一种或多种技术的可被包括在可被配置为传输编码视频数据的系统的具体实施中的部件的示例的概念图。
图8是示出可实现本公开的一种或多种技术的数据封装器的示例的框图。
图9是示出可实现本公开的一种或多种技术的接收器设备的示例的框图。
图10是示出根据本公开的一种或多种技术的发送信号通知元数据的示例的计算机程序列表。
图11A是示出根据本公开的一种或多种技术的发送信号通知元数据的示例的计算机程序列表。
图11B是示出根据本公开的一种或多种技术的发送信号通知元数据的示例的计算机程序列表。
图12是示出根据本公开的一种或多种技术的发送信号通知元数据的示例的计算机程序列表。
图13A是示出根据本公开的一种或多种技术的发送信号通知元数据的示例的计算机程序列表。
图13B是示出根据本公开的一种或多种技术的发送信号通知元数据的示例的计算机程序列表。
图14A是示出根据本公开的一种或多种技术的发送信号通知元数据的示例的计算机程序列表。
图14B是示出根据本公开的一种或多种技术的发送信号通知元数据的示例的计算机程序列表。
图15A是示出根据本公开的一种或多种技术的发送信号通知元数据的示例的计算机程序列表。
图15B是示出根据本公开的一种或多种技术的发送信号通知元数据的示例的计算机程序列表。
图16是示出根据本公开的一种或多种技术的发送信号通知元数据的示例的计算机程序列表。
图17A是示出根据本公开的一种或多种技术的发送信号通知元数据的示例的计算机程序列表。
图17B是图17A的下一个部分。
图17C是示出根据本公开的一种或多种技术的发送信号通知元数据的示例的计算机程序列表。
图17D是图17C的下一个部分。
图18A是示出根据本公开的一种或多种技术的发送信号通知元数据的示例的计算机程序列表。
图18B是图18A的下一个部分。
图19A是示出根据本公开的一种或多种技术的发送信号通知元数据的示例的计算机程序列表。
图19B是图19A的下一个部分。
图19C是示出根据本公开的一种或多种技术的发送信号通知元数据的示例的计算机程序列表。
图19D是图19C的下一个部分。
图20是示出根据本公开的一种或多种技术的发送信号通知元数据的示例的计算机程序列表。
图21是示出根据本公开的一种或多种技术的发送信号通知元数据的示例的计算机程序列表。
图22是示出根据本公开的一种或多种技术的发送信号通知元数据的示例的计算机程序列表。
图23是示出根据本公开的一种或多种技术的发送信号通知元数据的示例的计算机程序列表。
具体实施方式
视频内容通常包括由一系列帧组成的视频序列。一系列帧也可以被称为一组图片(GOP)。每个视频帧或图片可以包括一个或多个片段,其中一个片段包括多个视频块。视频块可被定义为可被预测性地编码的最大像素值(也被称为样本)阵列。视频块可以根据扫描模式(例如,光栅扫描)来排序。视频编码器对视频块和其子分区执行预测编码。ITU-TH.264规定了包括16×16亮度样本的宏块。ITU-T H.265规定了类似的编码树单元(CTU)结构,其中图片可以被分割成相同大小的CTU,并且每个CTU可以包括具有16×16、32×32或64×64亮度样本的编码树块(CTB)。如本文所用,术语视频块通常可以指图片的区域,或者可以更具体地指可以被预测性地编码的像素值的最大阵列、其子分区和/或对应结构。此外,根据ITU-T H.265,每个视频帧或图片可以被分区为包括一个或多个图块,其中图块是与图片的矩形区域相对应的编码树单元序列。
在ITU-T H.265中,可以根据相应的四叉树块结构将CTU的CTB分割成编码块(CB)。根据ITU-T H.265,一个亮度CB连同两个对应的色度CB和相关联的语法元素被称为一个编码单元(CU)。CU与为CU定义一个或多个预测单元(PU)的预测单元(PU)结构关联,其中PU与对应的参考样本相关联。也就是说,在ITU-T H.265中,使用帧内预测或帧间预测来对图片区域进行编码的决定是在CU级别进行的,并且对于CU,可以使用与帧内预测或帧间预测相对应的一个或多个预测来生成CU的CB的参考样本。在ITU-T H.265中,PU可以包括亮度和色度预测块(PB),其中方形PB被支持用于帧内预测,并且矩形PB被支持用于帧间预测。帧内预测数据(例如,帧内预测模式语法元素)或帧间预测数据(例如,运动数据语法元素)可将PU与对应参考样本相关联。残差数据可以包括对应于视频数据的每个分量(例如,亮度(Y)和色度(Cb和Cr))的相应差值阵列。残差数据可能在像素域中。可对像素差值应用变换诸如离散余弦变换(DCT)、离散正弦变换(DST)、整数变换、小波变换或概念上类似的变换,以生成变换系数。应当指出的是,在ITU-T H.265中,CU可以进一步再分为变换单元(TU)。也就是说,为了生成变换系数,可以对像素差值的阵列进行再分(例如,可以将四个8×8变换应用于与16×16亮度CB对应的16×16残差值阵列),此类子分区可以被称为变换块(TB)。可以根据量化参数(QP)来量化变换系数。可以根据熵编码技术(例如,内容自适应可变长度编码(CAVLC)、上下文自适应二进制算术编码(CABAC)、概率区间分割熵编码(PIPE)等)对量化的变换系数(可称为位阶值)进行熵编码。此外,也可以对语法元素(诸如,指示预测模式的语法元素)进行熵编码。熵编码的量化变换系数和对应的熵编码语法元素可形成可用于再现视频数据的兼容比特流。可以对语法元素执行二值化处理,将其作为熵编码处理的一部分。二值化是指将语法值转换为一个或多个比特的序列的过程。这些比特可以被称为“二进制位”。
虚拟现实(VR)应用程序可以包括可利用头戴式显示器呈现的视频内容,其中仅呈现与用户头部的取向相对应的球形视频的区域。VR应用程序可以通过全向视频启用,全向视频也称为360°视频中的360°球形视频。全向视频通常由多个相机捕获,这些相机覆盖高达360°的场景。与普通视频相比,全向视频的显著特征在于,通常仅显示整个捕获视频区域的子集,即,显示与当前用户的视场(FOV)相对应的区域。FOV有时也称为视区。在其他情况下,视区可以是当前由用户显示和查看的球形视频的一部分。应当指出的是,视区的尺寸可小于或等于视场。此外,应当指出的是,可以使用单视场相机或立体相机捕获全向视频。单视场相机可以包括捕获对象的单个视图的相机。立体相机可以包括捕获同一对象的多个视图(例如,使用两个镜头在略微不同的角度下捕获视图)的相机。此外,应当指出的是,在一些情况下,可以使用超广角镜头(即,所谓的鱼眼镜头)捕获用于全向视频应用程序中的图像。在任何情况下,通常可以将用于创建360°球形视频的过程描述为将输入图像拼接在一起并将拼接在一起的输入图像投影到三维结构(例如,球体或立方体)上,这可以导致形成所谓的投影帧。此外,在一些情况下,可以对投影帧的区域进行变换、尺寸调整和重新定位,这可以导致形成所谓的封装帧。
全向视频图片中的区域可指整个视频区域的子集。应当指出的是,全向视频的区域可以由导演或制作者的意图确定,或者由服务或内容提供方根据用户统计数据导出(例如,通过在通过流服务提供全向视频内容时,大多数用户请求/观看哪些区域的统计数据)。例如,对于捕获体育赛事的全向视频,可针对包括比赛场地的中心的视图定义区域,并且可针对体育场中的观众席的视图来定义其他区域。区域可以用于边缘服务器或客户端的全向视频自适应流传输中的数据预取,以及/或者当全向视频被转码为例如不同的编解码或投影映射时的转码优化。因此,在全向视频图像中发信号通知区域可以通过降低传输带宽和降低解码复杂度来改善系统性能。
传输系统可以被配置为将全向视频传输到一个或多个计算设备。计算设备和/或传输系统可以基于包括一个或多个抽象层的模型,其中每个抽象层的数据根据特定结构表示,例如,数据包结构、调制方案等。包括已定义的抽象层的模型的示例是所谓的开放系统互连(OSI)模型。OSI模型定义了7层堆栈模型,包括应用层、呈现层、会话层、传输层、网络层、数据链路层和物理层。应当指出的是,关于描述堆栈模型中的层,术语“上”和“下”的使用可以基于作为最上层的应用层和作为最下层的物理层。此外,在一些情况下,术语“层1”或“L1”可以用于指物理层,术语“层2”或“L2”可以用于指链路层,并且术语“层3”或“L3”或“IP层”可以用于指网络层。
物理层通常可以指电信号形成数字数据的层。例如,物理层可以指定义调制的射频(RF)符号如何形成数字数据帧的层。数据链路层(也可以称为链路层)可以指在发送侧的物理层处理之前以及在接收侧的物理层接收之后使用的抽象层。如本文所用,链路层可以指用于在发送侧处将数据从网络层传输到物理层并且用于在接收侧处将数据从物理层传输到网络层的抽象层。应当指出的是,发送侧和接收侧是逻辑角色,并且单个设备可以在一个实例中作为发送侧操作并且在另一个实例中作为接收侧操作。链路层可以将封装在特定数据包类型(例如,运动图像专家组-传输流(MPEG-TS)数据包、互联网协议第4版(IPv4)数据包等)中的各种类型的数据(例如,视频、音频或应用文件)抽象为单个通用格式,以供物理层处理。网络层通常可以指发生逻辑寻址的层。也就是说,网络层通常可以提供寻址信息(例如,互联网协议(IP)地址),使得数据分组可以被递送到网络内的特定节点(例如,计算设备)。如本文所用,术语网络层可以指链路层上方的层和/或具有结构中的数据的层,使得可以接收它以用于链路层处理。传输层、会话层、呈现层和应用层中的每一者均可以定义如何递送数据以供用户应用程序使用。
Choi等人,ISO/IEC JTC1/SC29/WG11 M40849,“OMAF DIS text with updatesbased on Berlin OMAF AHG meeting agreements”,2017年7月,Torino,IT,该文献以引用方式并入本文并且在本文中被称为Choi,定义了启用全向媒体应用程序的媒体应用格式。Choi等人,ISO/IEC JTC1/SC29/WG11 W16950,“Study of ISO/IEC DIS 23000-20Omnidirectional Media Format”,2017年7月,Torino,IT,该文献以引用方式并入本文并且在本文中被称为Choi_1,定义了启用全向媒体应用程序的媒体格式。Choi指定:可用于将球形或360°视频转换为二维矩形视频的投影技术列表;如何利用国际标准化组织(ISO)基础媒体文件格式(ISOBMFF)存储全向媒体和相关联元数据;如何利用超文本传输协议(HTTP)上的动态自适应流传输(DASH)来封装、发信号通知和流传输全向媒体;以及哪些视频和音频编码标准以及媒体编码配置可以用于全向媒体信号的压缩和回放。
Choi根据ITU-T H.265提供视频编码的位置。ITU-T H.265在2016年12月的ITU-TH.265建议书的高效视频编码(HEVC)中有所描述,该文献以引用方式并入本文,并且在本文中被称为ITU-T H.265。如上所述,根据ITU-T H.265,每个视频帧或图片可以被分区为包括一个或多个片段,并且进一步被分区为包括一个或多个图块。图2A至图2B是示出包括片段并进一步将图片分区为图块的一组图片的示例的概念图。在图2A所示的示例中,图片4被示出为包括两个片段(即,片段1和片段2),其中每个片段包括CTU序列(例如,以光栅扫描顺序排列)。在图2B所示的示例中,图片4被示出为包括六个图块(即,图块1至图块6),其中每个图块是矩形的并且包括CTU序列。应当指出的是,在ITU-T H.265中,图块可以由包含在不止一个片段中的编码树单元组成,并且片段可以由包含在不止一个图块中的编码树单元组成。然而,ITU-T H.265规定应满足以下一个或两个条件:(1)片段中的所有编码树单元属于同一个图块;以及(2)图块中的所有编码树单元属于同一个片段。因此,相对于图2B,每个图块可以属于相应的片段(例如,图块1至图块6可以分别属于片段(片段1至片段6))或者多个图块可以属于一个片段(例如,图块1至图块3可以属于片段1,并且图块4至图块6可以属于片段2)。
此外,如图2B所示,图块可以形成图块集(即,图块2和图块5形成图块集)。可以使用图块集来定义用于编码依赖性的边界(例如,帧内预测依赖性、熵编码依赖性等),并且因此可以在编码中启用并行性。例如,如果图2B所示的示例中的视频序列与夜间新闻节目相对应,则由图块2和图块5形成的图块集可以与包括阅读新闻的新闻主播的视觉区域相对应。ITU-T H.265定义了启用运动约束图块集(MCTS)的信令。运动约束图块集可以包括图块集,对于该图块集,图片间预测依赖性限于参考图片中的并置的图块集。因此,可能独立于MCTS外部的其他图块集的解码来执行给定MCTS的运动补偿。例如,参见图2B,如果由图块2和图块5形成的图块集是MCTS并且图片1至图片3中的每一者包括并置的图块集,可以在与图片4中的图块1、图块3、图块4和图块6的编码无关的图块2和图块5以及与图片1至图片3中的每一者中的图块(图块1、图块3、图块4和图块6)并置的图块上执行运动补偿。根据MCTS对视频数据进行编码对于包括全向视频呈现的视频应用程序可能是有用的。
如图3所示,图块(即,图块1至图块6)可以形成全向视频的区域。此外,由图块2和图块5形成的图块集可以是包括在该区域内的MCTS。依赖于视区的视频编码(也可以被称为依赖于视区的部分视频编码)可以用于启用仅对整个视频区域的一部分进行编码。也就是说,例如,依赖于视区端口的视频编码可用于提供用于呈现当前FOV的足够信息。例如,可以使用MCTS对全向视频进行编码,使得覆盖视区的每个可能区域可以跨时间与其他区域独立编码。在这种情况下,例如,对于特定的当前视区,可以将覆盖视区的最小图块集发送到客户端,已解码并且/或者已呈现。也就是说,可以根据运动受限的图块集序列形成图块轨道。
再次参见图3,如图3所示,360度视频包括区域A、区域B和区域C。在图3所示的示例中,这些区域中的每一个被示出为包括CTU。如上所述,CTU可形成经编码的视频数据的片段和/或视频数据的图块。此外,如上所述,视频编码技术可根据视频块、其子分区和/或对应的结构对图片的区域进行编码,并且应当指出的是,视频编码技术使得视频编码参数能够在视频编码结构的各种水平上进行调节,例如,针对片段、图块、视频块和/或子分区进行调整。再次参见图3,在一个示例中,图3所示的360度视频可表示体育事件,其中区域A和区域C包括体育场的看台的视图,而区域B包括运动场的视图(例如,视频是通过位于50码线处的360度相机捕获的)。
应当指出的是,全向视频的区域可包括球体上的区域。如下面进一步详细描述的,Choi描述球体上的区域可通过四个大圆来指定的情况,其中大圆(也称为黎曼圆)是球体与穿过球体的中心点的平面的交集部,其中球体的中心和大圆的中心是协同定位的。Choi还描述球体上的区域可由两个偏航圆和两个俯仰圆指定的情况,其中偏角圆是球体上的连接具有相同偏航值的所有点的圆,并且俯仰圆是球体上的连接具有相同俯仰值的所有点的圆。
如上所述,Choi指定:可用于将球形或360°视频转换为二维矩形视频的投影技术列表。Choi指定投影帧是具有360°视频投影指示符指示的表示格式的帧的情况以及投影是通过其将一组输入图像投影到投影帧上的过程的情况。此外,Choi指定投影结构包括三维结构的情况,其中三维结构包括将捕获的图像/视频内容投影到其上且可从其形成相应的投影帧的一个或多个表面。最后,Choi提供了逐区域封装包括对投影帧进行逐区域转换、调整尺寸和重新定位的情况以及封装帧是由投影帧的逐区域封装产生的帧的情况。因此,在Choi中,用于创建360°球形视频的过程可以被描述为包括图像拼接、投影和逐区域封装。应当指出的是,Choi指定了坐标系、全向投影格式、包括Equirectangular投影、矩形逐区域封装格式和全向鱼眼视频格式,为了简洁起见,本文未提供对Choi的这些部分的完整描述。然而,参考了Choi的相关部分。
关于投影结构和坐标系,Choi提供了投影结构为单位球体的情况,坐标系可用于例如指示投影结构的取向或点的球体位置,以及用于限定偏航角(Φ)、俯仰角(θ)和滚动角的坐标轴,其中偏航角围绕Y(垂直,向上)轴旋转,俯仰角围绕x(横向,左右)轴旋转,并且滚动角围绕Z(前后)轴旋转。此外,Choi提供旋转是外在的情况,即围绕X、Y和Z固定参考轴,当从原点看向轴的正端时,角度顺时针增大。Choi进一步提供用于条款5.1中的投影结构和坐标系的以下定义:
偏航角指示围绕Y轴的旋转角度,以度为单位。
类型:浮点十进制值
范围:在-180(包括端值)到180(不包括端值)的范围内
俯仰角指示围绕X轴的旋转角度,以度为单位。
类型:浮点十进制值
范围:在-90(包括端值)到90(包括端值)的范围内
滚动角指示围绕Z轴的旋转角度,以度为单位。
类型:浮点十进制值
范围:在-180(包括端值)到180(不包括端值)的范围内。
关于等距柱状投影格式,Choi在条款5.2中提供了以下内容:
一个样本的等距柱状投影
该条款的输入为:
pictureWidth和pictureHeight,分别为样本中等距柱状全景图片的宽度和高度,以及
分别沿水平和垂直轴的样本位置(i,j)的中心点。
该条款的输出为:
相对于[Choi的条款5.1投影结构和坐标系]中指定的坐标轴以度为单位的样本的角坐标(Φ,θ)。
亮度样本位置的以度为单位的角坐标(Φ,θ)由以下等距柱状映射公式给出:
Φ=(i÷pictureWidth-0.5)*360
θ=(0.5-j÷pictureHeight)*180
关于不同取向的球坐标系之间的转换,Choi在条款5.3中提供了以下内容:
不同取向的球坐标系之间的转换
该条款的输入为:
取向变化yaw_center(在-180(包括端值)到180(不包括端值)的范围内)、pitch_center(在-90(包括端值)到90(包括端值)的范围内)、roll_center(在-180(包括端值)到180(不包括端值)的范围内),均以度为单位,以及
相对于已经如[Choi的条款5.1投影结构和坐标系]中指定的那样旋转的坐标轴的角坐标(Φ,θ),并且
该条款的输出为:
相对于[Choi的条款5.1投影结构和坐标系]中指定的坐标系的角坐标(Φ',θ')
输出导出如下:
α=(裁剪偏航(φ+yaw_center))*π÷180
β=(裁剪俯仰(θ+pitch_center))*π÷180
ω=roll_center*π÷180
φ'=(Cos(ω)*α-Sin(ω)*β)*180÷π
θ'=(Sin(ω)*α+Cos(ω)*β)*180÷π
关于矩形逐区域封装的样本位置的转换,Choi在条款5.4中提供了以下内容:
用于矩形逐区域封装的样本位置的转换
该条款的输入为:
在整数样本单位中封装区域内的样本位置(x,y),
在样本单位(projRegWidth,projRegHeight)中的投影区域的宽度和高度,
在样本单位(packedRegWidth,packedRegHeight)中的封装区域的宽度和高度,
变换类型(transformType),以及
采样位置的偏移值(offsetX,offsetY)。
该条款的输出为:
样本单元中投影区域内的样本位置(i,j)的中心点。
输出导出如下:
Figure BDA0002353990560000141
关于投影结构和坐标系,Choi_1提供了投影结构为单位球体的情况,坐标系可用于定义球坐标方位角(Φ)和高度(θ)并且可用于标识点在单位球体上的位置,以及旋转角度(偏航角(α)、俯仰角(β)和滚动角(γ)),其中偏航角围绕z(垂直,向上)轴旋转,俯仰角围绕Y(横向,左右)轴旋转,并且滚动角围绕X(前后)轴旋转。此外,Choi_1还提供了旋转是外在的情况,即,围绕X、Y和Z固定参考轴,当从原点看向轴的正端时,角度顺时针增大。Choi_1提供了方位角、偏航角和滚动角的值范围均为-180.0度(包括端值)至180.0度(不包括端值)的情况。高度和俯仰角的值范围均为-90.0度至90.0度(包括端值)。此外,Choi_1提供了在呈现时可以通过应用以下有序序列的X-Y-Z外部旋转将局部坐标轴转换为全局坐标轴的情况:
XYZ以滚动角围绕X轴旋转。
XYZ以俯仰角围绕Y轴旋转。
XYZ以偏航角围绕z轴旋转。
关于一个样本位置的全向投影,Choi_1指定等距柱状投影和立方图投影。关于等距柱状投影格式,Choi_1在条款5.2.1中提供了以下内容:
一个样本位置的等距柱状投影
该条款的输入为:
pictureWidth和pictureHeight,分别为亮度样本中单视场投影亮度图片的宽度和高度,以及
分别沿水平和垂直轴的样本位置(i,j)的中心点。
该条款的输出为:
相对于[Choi_1的条款5.1投影结构和坐标系]中指定的坐标轴以度为单位的样本位置的球坐标(Φ,θ)。
亮度样本位置的以度为单位的球坐标(Φ,θ)由以下公式给出:
Φ=(0.5-i÷pictureWidth)*360
θ=(0.5-j÷pictureHeight)*180
关于立方图投影格式,Choi_1在条款5.2.2中提供了以下内容:
该条款的输入为:
pictureWidth和pictureHeight,分别为亮度样本中单视场投影亮度图片的宽度和高度,以及
分别沿水平和垂直轴的样本位置(i,j)的中心点。
该条款的输出为:
相对于[如上所述的Choi_1的条款5.1投影结构和坐标系]中指定的坐标轴以度为单位的样本位置的球坐标(Φ,θ)。
亮度样本位置的以度为单位的球坐标(Φ,θ)由以下公式给出:
Figure BDA0002353990560000161
Figure BDA0002353990560000162
Figure BDA0002353990560000163
关于从局部坐标轴到全局坐标轴的转换,Choi_1在条款5.3中提供了以下内容:
不同取向的球坐标系之间的转换
该条款的输入为:
rotation_yaw(α)、rotation_pitch(β)、rotation_roll(γ),均以度为单位,以及
相对于局部坐标轴的球坐标(Φ,θ)。
该条款的输出为:
相对于全局坐标轴的球坐标(Φ',θ')。
输出导出如下:
x1=cosφcosθ
y1=sinφcosθ
z1=sinθ
Figure BDA0002353990560000171
Figure BDA0002353990560000172
Figure BDA0002353990560000173
关于矩形逐区域封装的样本位置的转换,Choi_1在条款5.4中提供了以下内容:
用于矩形逐区域封装的样本位置的转换
该条款的输入为:
在整数样本单位中封装区域内的样本位置(x,y),
在样本单位(projRegWidth,projRegHeight)中的投影区域的宽度和高度,
在样本单位(packedRegWidth,packedRegHeight)中的封装区域的宽度和高度,
变换类型(transformType),以及
采样位置的偏移值(offsetX,offsetY)。
该条款的输出为:
样本单元中投影区域内的样本位置(i,j)的中心点。
输出导出如下:
Figure BDA0002353990560000181
图4示出了从球形投影结构到可用于内容创作的封装图片的转换以及从封装图片到可用于内容呈现的球形投影结构的对应转换。应当指出的是,图4中所示的示例基于在Choi中提供的信息性示例。然而,图4所示的示例一般可适用,并且不应被理解为限制用于将样本位置映射到本文所述的角坐标的技术的范围。此外,应当指出的是,Choi_1提供了用于从球形投影结构到可用于内容创作的封装图片的转换以及从封装图片到可用于内容呈现的球形投影结构的对应转换的信息性示例。然而,为了简洁起见,此处未重复Choi_1中的例示性示例,有关例示性示例的细节参考Choi_1的条款7.2。
在图4所示的示例中,投影结构沿着如(a)中所示的全局坐标轴,当等距柱状全景图片的平分线与全局坐标轴的X轴对准时,等距柱状全景图片的Y轴与全局坐标轴的Y轴对准,并且全局坐标轴的Z轴穿过等距柱状全景图片的中间点。
根据图4中所示的示例,内容创作可包括以下操作中的一者或多者:相对于全局坐标轴旋转投影结构,如(b)中所示;将覆盖面指示为由两个偏航圆和两个俯仰圆包围的区域,其中偏航圆和俯仰圆可相对于局部坐标轴来指示;确定投影图片(或帧);以及从投影图片获得封装图片(例如,通过施加逐区域封装)。应当指出的是,在图4所示的示例中,(c)示出了示例性覆盖面,该示例性覆盖面仅由两个俯仰圆约束,而偏航值不受约束。此外,应当指出的是,在2D等距柱状域上,覆盖面对应于矩形(即,图4中的(d)指示(c)的2D对应关系),其中2D表示的X轴和Y轴可以与投影结构的X和Y局部坐标轴对准。此外,投影图片可包括覆盖面的一部分。在图4所示的示例中,(e)中的投影图片包括(d)中所示覆盖面的一部分,其可使用水平和垂直范围值来指定。在图4所示的示例中,在(f)中,对侧面区域进行水平下采样,而中间区域保持在其原始分辨率下。此外,关于图4,应当指出的是,为了将封装图片的样本位置映射到用于呈现的投影结构,计算设备可以从(f)到(a)的相反顺序执行顺序映射。即,视频解码设备可将解码图片内的亮度样本位置映射到相对于全局坐标轴的角度坐标。
应当指出的是,在Choi中,如果不应用逐区域封装,则封装帧与投影帧相同。原本,通过指示封装帧中每个区域的位置、形状和尺寸,将投影帧的区域映射到封装帧上。此外,在Choi中,在立体360°视频的情况下,拼接一个时间实例的输入图像以生成表示两个视图(每个眼睛一个视图)的投影帧。两个视图均可以映射到相同的封装帧上,并由传统的二维视频编码器进行编码。另选地,Choi提供其中投影帧的每个视图可以被映射到其自身的封装帧的情况,在这种情况下,图像拼接、投影和逐区域封装类似于上述单视场情况。此外,在Choi中,左侧视图和右侧视图中任一者的封装帧的序列可以独立地被编码,或者可以在使用多视图视频编码器时独立地根据另一视图预测。最后,应当指出的是,在Choi中,可以针对相同源图像执行图像拼接、投影和逐区域封装处理多次,以创建相同内容的不同版本,例如,用于投影结构的不同取向,并且类似地,可以从相同的投影帧执行逐区域封装处理多次,以创建一个以上的待编码封装帧序列。
如上所述,Choi指定如何利用国际标准化组织(ISO)基础媒体文件格式(ISOBMFF)存储全向媒体和相关联元数据。Choi指定文件格式通常支持以下类型的元数据的情况:(1)指定投影帧的投影格式的元数据;(2)指定球形表面的被投影帧覆盖的区域的元数据;(3)指定与全局坐标系中的投影帧相对应的投影结构的取向的元数据;(4)指定逐区域封装信息的元数据;以及(5)指定任选的逐区域质量排名的元数据。
应当指出的是,关于本文所用的公式,可使用以下算术运算符:
+加法
-减法(作为双自变量运算符)或负数(作为一元前缀运算符)
*乘法,包括矩阵乘法
xy求幂。指定x对y的幂。在其他情况下,此类符号用于上标而非旨在用于解释为求幂。
/将结果向着零截断的整数除法。例如,将7/4和-7/-4截断为1,将-7/4和7/-4截断为-1。
÷在不旨在进行截断或舍入情况下用于表示数学公式中的除法。
Figure BDA0002353990560000201
在不旨在进行截断或舍入情况下用于表示数学公式中的除法。
x%y模量。x除以y的余数,仅针对x>=0且y>0的整数x和y定义。
cos(x)对自变量x进行操作的三角余弦函数,以度为单位
sin(x)对自变量x进行操作的三角正弦函数,以度为单位
sin-1(x)对自变量x进行操作的三角反正弦函数(逆正弦函数),
x={x|x是任意实数,-1≤x≤1}
tan-1(x)对自变量x进行操作的三角反正切函数(逆正切函数),
x={x|x是任意实数,-∞≤x≤∞}
atan2(y,x),具有对y和x两个自变量进行操作的两个自变量的反正切函数,y和x不可以同时为零。atan2函数定义为:
Figure BDA0002353990560000211
应当指出的是,关于本文所用的公式,可使用以下逻辑运算符:
x&&y x和y的布尔逻辑“和”
x||y x和y的布尔逻辑“或”
!布尔逻辑“否”
x?y:z如果x为TRUE或不等于0,则求值为y;否则,求值为z。
应当指出的是,关于本文所用的公式,可使用以下关系运算符:
>大于
>=大于或等于
<小于
<=小于或等于
==等于
!=不等于
应当指出的是,在本文中使用的语法中,无符号整型(n)是指具有n比特的无符号整数。此外,比特(n)是指具有n比特的比特值。
如上所述,Choi指定如何利用国际标准化组织(ISO)基础媒体文件格式(ISOBMFF)存储全向媒体和相关联元数据。如上所述,可以根据运动受限的图块集序列形成图块轨道。Choi指定了子图片组合轨道分组。关于轨道组类型盒,Choi在条款7.1.1中提供了以下定义、语法和语义:
定义
track_group_type等于“spco”的TrackGroupTypeBox指示该轨道属于可在空间上被布置用于获得组合图片的轨道的组合。映射到该分组的视觉轨道(即,在track_group_type等于“spco”的TrackGroupTypeBox内具有相同的track_group_id值的视觉轨道)共同表示可呈现的视觉内容。在没有其他视觉轨道的情况下可能或可能不旨在单独地呈现映射到该分组的每个单独的视觉轨道,但适合呈现组合图片。
注1:内容作者可以使用[Choi]的条款7.1.2中指定的CompositionRestrictionBox来指示在没有其他视觉轨道的情况下不旨在单独地呈现视觉轨道一者。
注2:如ISO/IEC 14496-15[ISO/IEC 14496-15:2017“信息技术—视听对象编码—第15部分:ISO基础媒体文件格式的网络抽象层(NAL)单元结构化视频传输(Informationtechnology-Coding of audio-visual objects-Part 15:Carriage of networkabstraction layer(NAL)unit structured video in the ISO base media fileformat)”,该文献以引用方式并入]中所指定的,当一组图块轨道和相关联的图块基础轨道中携带HEVC视频比特流时,并且该比特流表示由子图片组合轨道组指示的子图片时,仅图块基础轨道包含SubPictureCompositionBox。
可以通过在空间上布置相同子图片组合轨道组中的所有轨道的时间平行样本的解码输出来获得组合图片,如该轨道组的语法元素所指示的。
语法
Figure BDA0002353990560000221
语义
track_x以亮度样本单位指定该轨道的样本的左上角在组合图片上的水平位置。track_x的值应在0到composition_width-1(包括端值)的范围内。
track_y以亮度样本单位指定该轨道的样本的左上角在组合图片上的垂直位置。track_y的值应在0到composition_height-1(包括端值)的范围内。
track_width以亮度样本单位指定该轨道的样本在组合图片上的宽度。track_width的值应在1到composition_width-1(包括端值)的范围内。
track_height以亮度样本单位指定该轨道的样本在组合图片上的高度。track_height的值应在1到composition_height-1(包括端值)的范围内。
composition_width以亮度样本单位指定组合图片的宽度。
composition_height以亮度样本单位指定组合图片的高度。
对于在0到track_width-1(包括端值)的范围内的每个i值,该轨道的样本的亮度样本的第i列是组合图片的亮度样本的第colComposedPic列,其中colComposedPic等于(i+track_x)%composition_width。
对于在0到track_height-1(包括端值)的范围内的每个j值,该轨道的样本的亮度样本的第j行是组合图片的亮度样本的第rowComposedPic行,其中rowComposedPic等于(j+track_y)%composition_height。
关于组合限制盒,Choi提供了以下定义和语法:
定义
盒类型:“core”
容器:VisualSampleEntry
强制性的:No
数量:零或一
存在该盒指示在没有其他视觉轨道的情况下不旨在单独呈现该轨道。当不存在该盒时,在没有其他视觉轨道的情况下,可以或可以不旨在单独呈现该轨道。
语法
aligned(8)class CompositionRestriction Box extends FullBox(′core′,version,flags)
{
}
关于定时元数据轨道,Choi在条款7.1.3中提供了以下内容:
当定时元数据轨道利用“cdsc”轨道参考链接到一个或多个媒体轨道时,它单独地描述每个媒体轨道。
当定时元数据轨道利用“cdtg”轨道参考链接到几个媒体轨道时,媒体轨道应属于同一轨道组,并且轨道参考统一描述了该轨道组。
当定时元数据轨道利用“cdtg”轨道参考链接到几个媒体轨道并且这些媒体轨道属于由轨道分组类型“spco”标识的同一子图片组合轨道组时,“cdtg”轨道参考应是指属于同一子图片组合轨道组的所有轨道,并且定时元数据轨道描述如[Choi]的条款7.1.1所指定的那样获得的组合图片。
注:如ISO/IEC 14496-15中所指定的,当定时元数据用于描述一组图块轨道和相关联图块基础轨道中携带的HEVC视频比特流时,仅图块基础轨道是参考媒体轨道。
此外,Choi指定文件格式支持以下类型的盒的情况:方案类型盒(SchemeTypeBox)、方案信息盒(SchemeInformationBox)、投影全向视频盒(ProjectedOmnidirectionalVideoBox)、立体视频盒(StereoVideoBox)、鱼眼全向视频盒(FisheyeOmnidirectionalVideoBox)、逐区域封装盒(RegionWisePackingBox)和投影取向盒(ProjectionOrientationBox)。应当指出的是,Choi指定附加类型盒,为了简洁起见,本文未提供在Choi中指定的所有类型的盒的完整描述。关于SchemeTypeBox、SchemeInformationBox、ProjectedOmnidirectionalVideoBox、StereoVideoBox和RegionWisePackingBox,Choi提供以下内容:
-针对受限视频样本条目类型“resv”使用投影全向视频方案指示经解码的图片是包含单视场内容和立体内容中任一者的封装图片。通过等于SchemeTypeBox内的“podv”(投影全向视频)的scheme_type指示投影全向视频方案的使用。
-针对受限视频样本条目类型“resv”使用鱼眼全向视频方案指示经解码的图片是鱼眼视频图片。通过等于SchemeTypeBox内的“fodv”(鱼眼全向视频)的scheme_type指示鱼眼全向视频方案的使用。
-利用SchemeInformationBox内包含的ProjectedOmnidirectionalVideoBox指示投影单视场图片的格式。利用SchemeInformationBox内包含的FisheyeOmnidirectionalVideoBox指示鱼眼视频的格式。当方案类型为“podv”时,ProjectedOmnidirectionalVideoBox中应存在一个且只有一个SchemeInformationBox。当方案类型为“fodv”时,FisheyeOmnidirectionalVideoBox中应存在一个且只有一个SchemeInformationBox。
-当SchemeInformationBox中存在ProjectedOmnidirectionalVideoBox时,StereoVideoBox和RegionWisePackingBox可以存在于相同的SchemeInformationBox中。当SchemeInformationBox中存在FisheyeOmnidirectionalVideoBox时,StereoVideoBox和RegionWisePackingBox不应存在于相同的SchemeInformationBox中。
-对于立体视频,利用SchemeInformationBox内包含的StereoVideoBox指示投影的左右图片的帧封装布置。不存在StereoVideoBox指示轨道的全向投影内容是单视场的。当全向视频方案的SchemeInformationBox中存在StereoVideoBox时,stereo_scheme应等于4,并且stereo_indication_type应指示正在使用上下帧封装和并排帧封装中的任一者,并且未使用梅花形采样。
-利用SchemeInformationBox内包含的RegionWisePackingBox指示任选逐区域封装。不存在RegionWisePackingBox指示未应用逐区域封装,即,封装的图片与投影图片相同。
关于投影全向视频盒,Choi提供以下定义、语法和语义:
定义
盒类型:“povd”
容器:方案信息盒(“schi”)
强制性的:Yes,当scheme_type等于“podv”时
数量:零或一
·利用以下各项指示投影帧的属性:
单视场投影帧的投影格式(用于轨道中包含的单视场视频的C,用于立体视频的左侧视图和右侧视图的CL和CR);
·投影结构相对于全局坐标系的取向;以及
·投影全向视频的球形覆盖面。
语法
Figure BDA0002353990560000251
语义
projection_type指示矩形解码器图片输出样本到[Choi的条款5.1投影结构和坐标系]中指定的球坐标系上的特定映射。projection_type等于0指示如[Choi的条款5.2全向投影格式]中所指定的等距柱状投影。projection_type的其他值被保留。
关于逐区域封装盒,Choi提供以下定义、语法和语义:
定义
盒类型:“rwpk”
容器:方案信息盒(“schi”)
强制性的:No
数量:零或一
RegionWisePackingBox指示:投影帧是逐区域封装的,并且在呈现之前需要解封。在该盒中明确发送信号通知投影图片的尺寸。封装图片的尺寸由VisualSampleEntry的宽度和高度语法元素指示,分别表示为PackedPicWidth和PackedPicHeight。
注1:当图片是场图片而不是帧图片时,封装图片的实际高度将仅为PackedPicHeight的一半。
语法
Figure BDA0002353990560000271
语义
num_region指定封装区域的数量。保留值0。
proj_picture_width和proj_picture_height分别指定投影图片的宽度和高度。proj_picture_width和proj_picture_height应大于0。
guard_band_flag[i]等于0指示第i个封装区域没有保护带。
guard_band_flag[i]等于1指示第i个封装区域有保护带。
packing_type[i]指定逐区域封装的类型,packing_type[i]等于0指示矩形逐区域封装。保留其他值。
left_gb_width[i]以两个亮度样本为单位指定第i个区域左侧的保护带的宽度。
right_gb_width[i]以两个亮度样本为单位指定第i个区域右侧的保护带的宽度。
top_gb_height[i]以两个亮度样本为单位指定第i个区域上方的保护带的高度。
bottom_gb_height[i]以两个亮度样本为单位指定第i个区域下方的保护带的高度。
当guard_band_flag[i]等于1时,left_gb_width[i]、right_gb_width[i]、top_gb_height[i]或bottom_gb_height[i]应大于0。
由该RegionWisePackingStruct指定的第i个封装区域不应与由相同的RegionWisePackingStruct指定的任何其他封装区域或由相同的RegionWisePackingStruct指定的任何保护带重叠。
与如由该RegionWisePackingStruct指定的第i封装区域(如果有的话)相关联的保护带不应与由相同的RegionWisePackingStruct指定的任何封装区域或由相同的RegionWisePackingStruct指定的任何其他保护带重叠。
gb_not_used_for_pred_flag[i]等于0指定在帧间预测过程中可以使用或可以不使用保护带。gb_not_used_for_pred_flag[i]等于1指定保护带的样本值不在帧间预测过程中。
注1:即使将解码后的图片用作对待解码的后续图片进行帧间预测的参考,当gb_not_used_for_pred_flag[i]等于1时,也可以重写解码图片中保护带内的样本值。例如,封装区域的内容可以通过另一封装区域的解码且重新投影的样本无缝扩展到其保护带。
gb_type[i]指定第i个封装区域的保护带的类型,如下所示:
-gb_type[i]等于0指定未指定相对于封装区域内容的保护带内容。当gb_not_used_for_pred_flag等于0时,gb_type不应等于0。
-gb_type[i]等于1指定保护带的内容足以用于封装区域内的子像素值以及在封装区域的边界之外的少于一个的像素的内插。
注2:当封装区域的边界样本已被水平或垂直地复制到保护带时,可以使用等于1的gb_type。
-gb_type[i]等于2指定保护带的内容表示其质量从该封装区域的图片质量逐渐变为球形相邻封装区域的图片质量的实际图像内容。
-gb_type[i]等于3指定保护带的内容表示封装区域的图片质量下的实际图像内容。
-大于3的gb_type[i]值被保留。
proj_reg_width[i]、proj_reg_height[i]、proj_reg_top[i]和proj_reg_left[i]在投影图片中以像素为单位指示,其宽度和高度分别等于proj_picture_width和proj_picture_height。
proj_reg_width[i]指定第i个投影区域的宽度,即,proj_reg_width[i],应大于0。
proj_reg_height[i]指定第i个投影区域的高度,即,proj_reg_height[i],应大于0。
proj_reg_top[i]和proj_reg_left[i]指定投影图片中的顶部样本行和最左边样本列。这些值应分别在0(包括端值,其指示投影图片的左上角)至proj_picture_height-2(包括端值)以及0(包括端值,其指示投影图片的左上角)至proj_picture_width-2(包括端值)的范围内。
应约束proj_reg_width[i]和proj_reg_left[i],使得proj_reg_width[i]+proj_reg_left[i]小于proj_picture_width。
应约束proj_reg_height[i]和proj_reg_top[i],使得proj_reg_height[i]+proj_reg_top[i]小于proj_picture_height。
当投影图片为立体时,proj_reg_width[i]、proj_reg_height[i]、proj_reg_top[i]和proj_reg_left[i]应使得由这些字段标识的投影区域在投影图片的单个组成图片内。
transform_type[i]指定已应用于第i个投影区域以在编码之前将其映射到封装图片的旋转和镜像。当transform_type[i]同时指定旋转和镜像时,在从投影图片到编码之前的封装图片的逐区域封装中进行镜像之后,已应用旋转。指定以下值并保留其他值:
0:无变换
1:水平镜像
2:旋转180°(逆时针)
3:水平镜像后旋转180°(逆时针)
4:水平镜像后旋转90°(逆时针)
5:旋转90°(逆时针)
6:水平镜像后旋转270°(逆时针)
7:旋转270°(逆时针)
注3:[Choi的条款5.4用于矩形逐区域封装的样本位置转换]指定transform_type[i]的语义,用于将封装图片中的封装区域的样本位置转换为投影图片中的封装区域的样本位置。
packed_reg_width[i]、packed_reg_height[i]、packed_reg_top[i]和packed_reg_left[i]分别指定封装图片中的封装区域的宽度、高度、顶部样本行和最左侧样本列。
packed_reg_width[i]、packed_reg_height[i]、packed_reg_top[i]和packed_reg_left[i]的值被限制为如下:
packed_reg_width[i]和packed_reg_height[i]应大于0。
packed_reg_top[i]和packed_reg_left[i]应分别在0(包括端值,其指示封装图片的左上角)至PackedPicHeight-2(包括端值)以及0(包括端值,其指示封装图片的左上角)至PackedPicWidth-2(包括端值)的范围内。
packed_reg_width[i]和packed_reg_left[i]之和应小于PackedPicWidth。
packed_reg_height[i]和packed_reg_top[i]之和应小于PackedPicHeight。
对于0至i-1(包括端值)的范围内的任何j值,由packed_reg_width[i]、packed_reg_height[i]、packed_reg_top[i]和packed_reg_left[i]指定的矩形应不与由packed_reg_width[j]、packed_reg_height[j]、packed_reg_top[j]和packed_reg_left[j]指定的矩形重叠。
图5A示出了投影图片内的投影区域的位置和尺寸,并且图5B示出了具有保护带的封装图片内的封装区域的位置和尺寸。
关于投影取向盒,Choi提供以下定义、语法和语义:
定义
盒类型:“pror”
容器:投影全向视频盒(“povd”)
强制性的:No
数量:零或一
当投影格式为等距柱状投影时,该盒中的字段分别提供投影到球形表面时投影图片的中心点的偏航角、俯仰角和滚动角。就立体全向视频而言,这些字段分别应用于每个视图。当ProjectionOrientationBox不存在时,字段orientation_yaw、orientation_pitch和orientation_roll均被视为等于0。
语法
Figure BDA0002353990560000311
语义
orientation_yaw、orientation_pitch和orientation_roll分别指定投影到球形表面的投影图片的中心点相对于全局坐标系以2-16°为单位的偏航、俯仰和滚动角。orientation_yaw应在-180*216至180*216-1(包括端值)的范围内。orientation_pitch应在-90*216至90*216(包括端值)的范围内。orientation_roll应在-180*216至180*216-1(包括端值)的范围内。
关于全局覆盖信息盒,Choi提供了以下定义、语法和语义:
定义
盒类型:“covi”
容器:投影全向视频盒(“povd”)
强制性的:No
数量:零或一
该盒提供了关于球体上由全部内容覆盖的区域的信息。如果该轨道属于子图片组合轨道组,则该全部内容是指由属于同一子图片组合轨道组的所有轨道表示的内容,并且将由这些轨道组成的组合图片称为全部内容的封装图片。否则,该全部内容是指由该轨道本身表示的内容,并且将该轨道中的样本的图片称为全部内容的封装图片。
GlobalCoverageInformationBox指示由全部内容的封装图片覆盖的球形区域。缺少该盒指示该全部内容覆盖整个球体。
该盒中的字段与局部坐标轴(即,通过ProjectionOrientationBox指定的坐标系)有关。
注:在内容创作过程中,该盒的字段的语义在应用ProjectionOrientationBox(如果存在的话)之后应用。
语法
Figure BDA0002353990560000321
语义
global_coverage_shape_type指定由全部内容覆盖的球形区域的形状。global_coverage_shape_type具有与[Choi的条款7.4.2样本条目]中指定的shape_type相同的语义。
当SphereRegionStruct(1)被包括在GlobalCoverageInformationBox中时,以下情况适用:
center_yaw、center_pitch和center_roll分别指定相对于通过ProjectionOrientationBox指定的坐标系以2-16°为单位的由全部内容的封装图片表示的球体区域的中心点。center_yaw应在-180*2-16至180*216-1(包括端值)的范围内。center_pitch应在-90*216至90*216(包括端值)的范围内。center_roll应在-180*216至180*216-1(包括端值)的范围内。
hor_range和ver_range分别指定以2-16°为单位的由全部内容的封装图片表示的球体区域的水平范围和垂直范围。hor_range和ver_range指定通过球体区域的中心点的范围。hor_range应在1至720*216(包括端值)的范围内。ver_range应在1至180*216(包括端值)的范围内。
插值应等于0。
关于球体的定时元数据,Choi在条款7.4.1中提供了以下内容:
该条款指定用于指示球体区域的通用定时元数据轨道语法。定时元数据轨道的用途由样本条目类型指示。该条款中指定的所有元数据轨道的样本格式以公共部分开始,后面可以跟有特定于元数据轨道的样本条目的扩展部分。每个样本指定球体区域。
当球体区域定时元数据轨道利用“cdsc”轨道参考链接到一个或多个媒体轨道时,它单独地描述每个媒体轨道。当球体区域定时元数据轨道利用“cdtg”轨道参考链接到几个媒体轨道时,每个媒体轨道在被包括在样本条目中的SchemeTypeBox中应具有等于“resv”的样本条目类型和等于“podv”的scheme_type。
注:该语法允许一个样本指定球体上的多个球体区域。然而,存在将样本限制为仅具有一个球体区域的语义限制。
关于样本条目,Choi和Choi_1分别在条款7.4.2和条款7.5.2中提供了以下定义、语法和语义:
定义
样本条目中应只存在一个SphereRegionConfigBox。SphereRegionConfigBox指定由样本指定的球体区域的形状。当样本中的球体区域的水平和垂直范围不变时,可在样本条目中指示该水平和垂直范围。
语法
Figure BDA0002353990560000331
语义
shape_type等于0指定球体区域由四个大圆指定,如[图6A]中所示。
shape_type等于1指定球体区域由四个大圆指定,如[图6B]中所示。
保留大于1的shape_type值。
dynamic_range_flag等于0指定球体区域的水平和垂直范围在参考该样本条目的所有样本中保持不变。dynamic_range_flag等于1指定以样本格式指示球体区域的水平和垂直范围。
static_hor_range和static_ver_range分别指定参考该样本条目的每个样本的球体区域的以2-16°为单位的水平和垂直范围。static_hor_range和static_ver_rnge指定通过球体区域的中心点的范围,如[图6A]或[图6B]所示。static_hor_range应在0至720*216(包括端值)的范围内。static_ver_range应在0至180*216(包括端值)的范围内。当static_hor_range和static_ver_range均等于0时,参考该样本条目的每个样本的球体区域是球形表面上的点。
num_regions指定参考该样本条目的样本中的球体区域的数目。num_regions应等于1。num_regions的其他值被保留。
关于样本格式,Choi在条款7.4.3中提供了以下定义、语法和语义:
定义
每个样本指定球体区域。SphereRegionSample结构可在派生的轨道格式中扩展。
语法
Figure BDA0002353990560000341
语义
当SphereRegionStruct()被包括在SphereRegionSample()结构中时,以下情况适用:
center_yaw、center_pitch和center_roll指定相对于全局坐标轴以2-16°为单位的视区取向。center_yaw和center_pitch指示视区的中心,并且center_roll指示视区的滚动角。center_yaw应在-180*216至180*216-1(包括端值)的范围内。center_pitch应在-90*216至90*216(包括端值)的范围内。center_roll应在-180*216至180*216-1(包括端值)的范围内。
hor_range和ver_range(如果存在的话)分别指定由该样本指定的球体区域的以2-16°为单位的水平和垂直范围。hor_range和ver_range指定通过球体区域的中心点的范围,如图7 3或图7 4所示。hor_range应在0至720*216(包括端值)的范围内。ver_range应在0至180*216(包括端值)的范围内。
该样本指定的球体区域如下导出:
-如果hor_range和ver_range均等于0,则该样本指定的球体区域是球形表面上的点。
-否则,使用如下导出的变量cYaw1、cYaw2、cPitch1和cPitch2来定义球体区域:
cYaw1=(center_yaw-(range_included_flag?hor_range:static_hor_range)÷2)÷65536
cYaw2=(center_yaw+(range_included_flag?hor_range:static_hor_range)÷2)÷65536
cPitch1=(center_pitch-(range_included_flag?ver_range:static_ver_range)÷2)÷65536
cPitch2=(center_pitch+(range_included_flag?ver_range:static_ver_range)÷2)÷65536
球体区域如下定义:
-当shape_type等于0时,球体区域由四个点cYaw1、cYaw2、cPitch1、cPitch2定义的四个大圆以及center_pitch和center_yaw定义的中心点指定,并且如[图6A]所示。
-当shape_type等于1时,球体区域由四个点cYaw1、cYaw2、cPitch1、cPitch2定义的两个偏航圆和两个俯仰圆以及center_pitch和center_yaw定义的中心点指定,并且如[图6B]所示。
假设目标媒体样本是参考媒体轨道中的媒体样本,其组合时间大于或等于该样本的组合时间且小于下一个样本的组合时间。
插值等于0指定该样本中的center_yaw、center_pitch、center_roll、hor_range(如果存在的话)和ver_range(如果存在的话)的值适用于目标媒体样本。插值等于1指定从该样本和先前样本中的对应字段的值线性插入适用于目标媒体样本的center_yaw、center_pitch、center_roll、hor_range(如果存在的话)和ver_range(如果存在的话)的值。
用于同步样本、轨道的第一样本和轨道片段的第一样本的插值应等于0。
关于样本格式,Choi_1在条款7.5.3中提供了以下定义、语法和语义:
定义
每个样本指定球体区域。SphereRegionSample结构可在派生的轨道格式中扩展。
语法
语义
当SphereRegionStruct()被包括在SphereRegionSample()结构中时,以下情况适用:
center_azimuth和center_elevation指定球体区域的中心。center_azimuth应在-180*216至180*216-1(包括端值)的范围内。center_elevation应在-90*216至90*216(包括端值)的范围内。
center_tilt指定球体区域的倾斜角。center_tilt应在-180*216至180*216-1(包括端值)的范围内。
hor_range和ver_range(如果存在的话)分别指定由该样本指定的球体区域的以2-16°为单位的水平和垂直范围。hor_range和ver_range指定通过球体区域的中心点的范围,如[图6A]或[图6B]所示。hor_range应在0至720*216(包括端值)的范围内。ver_range应在0至180*216(包括端值)的范围内。
该样本指定的球体区域如下导出:
-如果hor_range和ver_range均等于0,则该样本指定的球体区域是球形表面上的点。
-否则,使用如下导出的变量cAzimuthl、cAzimuth、cElevationl和cElevation2来定义球体区域:
cAzimuth1=(center_azimuth=
(range_includcd_flag?hor_range:static_hor_range)÷2)÷65536
cAzimuth2=(center_azimuth+
(nnge_ineluded_flag?hor_range:static_hor_range)÷2)÷65536
cElevation1=(center_elevation-
(range_included_flag?ver_range:static_ver_range)÷2)÷65536
cElevation2=(center_clevation+
(range_ineluded_flag?ver_range:static_ver_range)÷2)÷65536
球体区域如下定义:
-当shape_type等于0时,球体区域由四个点cAzimuth1、cAzimuth2、cElevation1、cElevation2定义的四个大圆以及center_azimuth和center_elevation定义的中心点指定,并且如[图6A]所示。
-当shape_type等于1时,球体区域由四个点cAzimuth1、cAzimuth2、cElevation1、cElevation2定义的两个方位角圆和两个高度圆以及center_azimuth和center_elevation定义的中心点指定,并且如[图6B]所示。
假设目标媒体样本是参考媒体轨道中的媒体样本,其组合时间大于或等于该样本的组合时间且小于下一个样本的组合时间。
插值等于0指定该样本中的center_azimuth、center_elevation、center_tilt、hor_range(如果存在的话)和ver_range(如果存在的话)的值适用于目标媒体样本。插值等于1指定从该样本和先前样本中的对应字段的值线性插入适用于目标媒体样本的center_azimuth、center_elevation、center_tilt、hor_range(如果存在的话)和ver_range(如果存在的话)的值。
用于同步样本、轨道的第一样本和轨道片段的第一样本的插值应等于0。
应当指出的是,关于StereoVideoBox,ISO/IEC 14496-12:2015“信息技术-视听对象编码-第12部分:ISO基础媒体文件格式(Information technology-Coding of audio-visual objects-Part 12:ISO Base Media File Format)”提供以下定义、语法和语义:
定义
盒类型:“stvi”
容器:方案信息盒(“schi”)
强制性的:是(当SchemeType为“stvi”时)
数量:1
立体视频盒用于指示经解码的帧包含两个在空间上封装的形成立体像对的组成帧的表示,或者包含立体像对的两个视图中的一者。当SchemeType为“stvi”时,立体视频盒应当存在。
语法
Figure BDA0002353990560000381
语义
Single_view_allowed为整数。0值指示内容仅可显示在立体显示器上。当(single_view_allowed&1)等于1时,允许在单视场单视图显示器上显示右侧视图。当(single_view_allowed&2)等于2时,允许在单视场单视图显示器上显示左侧视图。
Stereo_scheme为整数,其指示所用的立体布置方案以及根据所用方案的立体指示类型。指定了stereo_scheme的以下值:
-1:由[ITU-T H.265]的帧封装布置补充增强信息消息指定的帧封装方案
length指示stereo_indication_type字段的字节数。
Stereo_indication_type根据所用立体指示方案指示立体布置类型。
Stereo_indication_type的语法和语义取决于stereo_scheme的值。
用于stereo_scheme的以下值的stereo_indication_type的语法和语义指定为如下:
-stereo_scheme等于1:length的值应为4,stereo_indication_type应为unsigned int(32),其包含来自[ITU-T H.265]的表D-8(“frame_packing_arrangement_type的定义”)的frame_packing_arrangement_type值。
ITU-T H.265的表D-8如表1中所示:
解释
3 经解码的帧的每个分量平面包含两个组成帧的对应平面的并排封装布置......
4 经解码的帧的每个分量平面包含两个组成帧的对应平面的上下帧封装布置......
5 经解码帧的以输出顺序排列的分量平面形成交替的第一组成帧和第二组成帧的时间交错......
表1
关于帧封装项目属性,Choi提供了以下定义、语法和语义:
定义
盒类型:“stvi”
属性类型:描述性项目属性
容器:ItemPropertyContainerBox
强制性的(按项目):否
数量(按项目):零或一
FramePackingProperty指示重构图像包含两个在空间上封装的组成图片的表示。
对于“stvi”项目属性,必要值必须等于1。
语法
FramePackingProperty具有与ISO/IEC 14496-12中指定的StereoVideoBox的语法相同的语法。
语义
FramePackingProperty内的语法元素的语义与为如ISO/IEC 14496-12中定义的StereoVideoBox的语法元素指定的那些语义相同。
关于逐区域质量排名,Choi和Choi_1在条款7.6.1中提供了以下内容:
可以通过使用SphereRegionQualityRankingBox或2DRegionQualityRankingBox来指示质量排名区域相对于同一轨道的其他质量排名区域或其他轨道的质量排名区域的质量排名值。当视觉样本条目中不存在SphereRegionQualityRankingBox或2DRegionQualityRankingBox时,不定义视觉轨道的质量排名值。质量排名值指示质量排名区域的相对质量顺序。当质量排名区域A具有小于质量排名区域B的非零质量排名值时,质量排名区域A具有高于质量排名区域B的质量。当质量排名值为非零时,整个指示质量排名区域内的图片质量大致恒定。SphereRegionQualityRankingBox指定的质量排名球体区域的边界可以与或可以不与2DRegionQualityRankingBox指定的质量排名2D区域的边界匹配。质量排名球体或2D区域的边界可以与或可以不与封装区域的边界或RegionWisePackingBox指定的投影区域的边界匹配。
关于球体区域质量排名盒,Choi和Choi_1提供了以下定义、语法和语义:
定义
盒类型:“srqr”
容器:VisualSampleEntry
强制性的(按项目):否
数量(按项目):每个region_definition_type值最多一个
语法
语义
region_definition_type具有与SphereRegionConfigBox的shape_type相同的语义。
num_regions指定在该盒中给出其质量排名信息的质量排名区域的数量。保留值0。这些质量排名球体区域中不止一个应不包含球体上的点。
remaining_area_flag等于0指定所有质量排名区域均由SphereRegionStruct(1)结构定义。remaining_area_flag等于1指定前几个num_regions-1质量排名区域由SphereRegionStruct(1)结构定义,并且最后一个剩余质量排名区域是覆盖区域内的未被前几个num_regions-1SphereRegionStruct(1)结构定义的质量排名区域的并集覆盖的球体区域。
SphereRegionStruct(1)指定该质量排名区域相对于全局坐标轴的球体位置和尺寸,而质量排名区域的形状由region_definition_type指示。SphereRegionStruct(1)中的插值应等于0。
view_idc_presence_flag等于0指定不存在view_idc。view_idc_presence_flag等于1指定存在view_idc,并且指示质量排名区域与特定(左侧或右侧或两者)视图或单视场内容的关联。
default_view_idc等于0指示质量排名区域是单视场的,1指示质量排名区域在立体内容的左侧视图上,2指示质量排名区域在立体内容的右侧视图上,3指示质量排名区域在左侧视图和右侧视图两者上。
quality_ranking指定质量排名区域的质量排名值。quality_ranking等于0指示未定义质量排名值。在[Choi的条款7.6.1]中指定了非零质量排名值的语义。
view_idc等于0指示质量排名区域是单视场的,1指示质量排名区域在立体内容的左侧视图上,2指示质量排名区域在立体内容的右侧视图上,3指示质量排名区域在左侧视图和右侧视图两者上。如果不存在,则推断view_idc的值等于default_view_idc的值。
关于2D区域质量排名盒,Choi提供了以下定义、语法和语义:
定义
盒类型:“2dqr”
容器:VisualSampleEntry
强制性的(按项目):否
数量(按项目):零或一
语法
Figure BDA0002353990560000421
语义
与SphereRegionQualityRankingBox中具有相同名称的语法元素相同地指定quality_ranking和view_idc。
num_regions指定在该盒中给出其质量排名信息的质量排名2D区域的数量。保留值0。这些质量排名2D区域中不止一个应不包含解码图片的像素。
remaining_area_flag等于0指定所有质量排名2D区域由left_offset、top_offset、region_width和region_height定义。remaining_area_flag等于1指定前几个num_regions-1质量排名2D区域由left_offset、top_offset、region_width和region_height定义,并且最后一个剩余质量排名2D区域是图片中未被前几个num_regions-1质量排名2D区域的并集覆盖的区域,其宽度等于VisualSampleEntry的宽度且高度等于VisualSampleEntry的高度。
left_offset、top_offset、region_width和region_height是指示质量排名2D区域的位置和尺寸的整数值。left_offset和top_offset分别指示2D表示的视觉呈现尺寸下的图片内质量排名2D区域的左上角的水平坐标和垂直坐标。region_width和region_height分别指示2D表示的视觉呈现尺寸下的图片内质量排名2D区域的宽度和高度。left_offset+region_width应小于TrackHeaderBox的宽度。top_offset+region_height应小于TrackHeaderBox的高度。
region_width应大于0。
region_height应大于0。
关于2D区域质量排名盒,Choi_1提供了以下定义、语法和语义:
定义
盒类型:“2dqr”
容器:VisualSampleEntry
强制性的(按项目):否
数量(按项目):零或一
语法
Figure BDA0002353990560000431
语义
与SphereRegionQualityRankingBox中具有相同名称的语法元素相同地指定quality_ranking、view_idc_presence_flag、default_view_idc和view_idc。
num_regions指定在该盒中给出其质量排名信息的质量排名2D区域的数量。保留值0。这些质量排名2D区域中不止一个应不包含解码图片的像素。
remaining_area_flag等于0指定所有质量排名2D区域由left_offset、top_offset、region_width和region_height定义。remaining_area_flag等于1指定前几个num_regions-1质量排名2D区域由left_offset、top_offset、region_width和region_height定义,并且最后一个剩余质量排名2D区域是图片中未被前几个num_regions-1质量排名2D区域的并集覆盖的区域,其宽度等于VisualSampleEntry的宽度且高度等于VisualSampleEntry的高度。
left_offset、top_offset、region_width和region_height是指示质量排名2D区域的位置和尺寸的整数值。left_offset和top_offset分别指示2D表示的视觉呈现尺寸下的图片内质量排名2D区域的左上角的水平坐标和垂直坐标。region_width和region_height分别指示2D表示的视觉呈现尺寸下的图片内质量排名2D区域的宽度和高度。left_offset+region_width应小于TrackHeaderBox的宽度。top_offset+region_height应小于TrackHeaderBox的高度。
region_width应大于0。
region_height应大于0。
如上所述,Choi指定:如何利用超文本传输协议(HTTP)上的动态自适应流传输(DASH)来封装、发送信号通知和流传输全向媒体。DASH在以下中有所描述:ISO/IEC:ISO/IEC 23009-1:2014,“信息技术—HTTP上的动态自适应流传输(DASH)—第1部分:媒体呈现描述和分段格式”,国际标准化组织,第2版,5/15/2014(在下文中,“ISO/IEC 23009-1:2014”),其以引用方式并入本文。DASH媒体呈现可以包括数据段、视频段和音频段。在一些示例中,DASH媒体呈现可以对应于由服务提供商(例如,单个TV节目或在一段时间内连续的线性TV节目集)定义的给定持续时间的线性服务或线性服务的一部分。根据DASH,媒体呈现描述(MPD)是包括DASH客户端构造适当的HTTP-URL以访问段并向用户提供流传输服务所需的元数据的文档。MPD文档片段可以包括可延伸标记语言(XML)编码的元数据片段集。MPD的内容为媒体呈现内的所识别资源提供分段的资源标识符和上下文。描述了关于ISO/IEC23009-1:2014的MPD片段的数据结构和语义。此外,应当指出的是,目前正在提出ISO/IEC23009-1的草案版本。因此,如本文所用,MPD可以包括如ISO/IEC 23009-1:2014中描述的MPD、当前提出的MPD、和/或它们的组合。在ISO/IEC 23009-1:2014中,如MPD中描述的媒体呈现可以包括一个或多个周期的序列,其中每个周期可以包括一个或多个适应集。应当指出的是,在适应集包括多个媒体内容部件的情况下,可以单独描述每个媒体内容部件。每个适应集可以包括一个或多个表示。在ISO/IEC 23009-1:2014中,提供了每个表示:(1)作为单个分段,其中子分段在具有适应集的表示中对齐;以及(2)作为一系列分段,其中每个分段可以由模板生成的全球资源定位符(URL)寻址。每个媒体内容部件的属性可以由适应集元素和/或适应集内的元素描述,包括例如内容部件元素。
关于发送信号通知DASH中的投影类型信息,Choi提供了以下投影格式描述符。应当指出的是,在下表中,对于使用,M=强制性的,CM=有条件地强制性的,并且O=任选的。
@schemeIdUri属性等于“urn:mpeg:mpegB:cicp:PF”的投影格式(PF)EssentialProperty元素可以在MPD级别下(即,直接在MPD元素中)和/或在自适应集级别下(即,直接在AdaptationSet元素中)和/或在表示级别下(即,直接在表示元素中)呈现。存在MPD级别下的PF描述符指示媒体呈现的所有表示均携带投影的全向视频。存在自适应集级别下的PF描述符指示自适应集的所有表示均携带投影的全向视频。@schemeIdUri等于“urn:mpeg:mpegB:cicp:PF”的PF描述符的@value是逗号分隔值列表,如
[表2]中所示:
Figure BDA0002353990560000451
表2
关于发送信号通知DASH中的逐区域封装信息,Choi提供了以下逐区域封装格式描述符。
@schemeIdUri属性等于“urn:mpeg:omaf:rwpk:2017”的逐区域封装格式(RWPK)EssentialProperty元素可以在MPD级别下(即,直接在MPD元素中)和/或在自适应集级别下(即,直接在AdaptationSet元素中)和/或在表示级别下(即,直接在表示元素中)呈现。@schemeIdUri等于“urn:mpeg:omaf:rwpk:2017”的RWPK描述符的@value是逗号分隔值列表,如
[表3]中所示:
Figure BDA0002353990560000461
表3
不存在RWPK描述符指示尚未应用逐区域封装。
关于发送信号通知由DASH中的内容覆盖的球体区域,Choi提供了以下内容覆盖描述符。
@schemeIdUri属性等于“urn:mpeg:omaf:cc:2017”的内容覆盖面(CC)SupplementalProperty元素可以在自适应集级别下(即,直接在AdaptationSet元素中)呈现,并且不应在其他级别下呈现(即,不应在MPD级别或直接在任何表示元素中呈现)。@schemeIdUri等于“urn:mpeg:omaf:cc:2017”的CC描述符的@value是逗号分隔值列表,如
[表4]中所示。CC描述符指示每个表示覆盖如[Choi]的条款7.4中由shape_type和CC描述符中包括的SphereRegionStruct中的语法元素center_yaw、center_pitch、center_roll、hor_range和ver_range指定的球体区域。
Figure BDA0002353990560000462
表4
不存在CC描述符指示当在表示或包含自适应集中存在PF描述符时,每个表示均覆盖整个球体。
关于发送信号通知DASH中的逐区域质量排名信息,Choi提供了以下逐区域封装格式描述符。
@schemeIdUri属性等于“urn:mpeg:omaf:rwqr:2017”的逐区域质量排名(RWQR)SupplementalProperty元素可以在自适应集级别下(即,直接在AdaptationSet元素中)呈现,并且不应在其他级别下呈现(即,不应在MPD级别或直接在任何表示元素中呈现)。@schemeIdUri等于“urn:mpeg:omaf:rwqr:2017”的RWQR描述符的@value是逗号分隔值列表,如
[表5]中所示。RWQR描述符指示质量排名球体区域相对于同一自适应集中的其他质量排名球体区域并且相对于在DASH视点元素中具有与包含该RWQR描述符的自适应集相同的@value的所有自适应集中的RWQR描述符和@qualityRanking值的质量排名值。如[Choi]的条款7.4中所指定,用于质量排名的球体区域由SphereRegionStruct中的语法元素shape_type、center_yaw、center_pitch、center_roll、hor_range、ver_range指定。当质量排名值为非零时,在整个指示的质量排名球体区域内的图片质量大致恒定。
Figure BDA0002353990560000471
Figure BDA0002353990560000481
表5
关于发送信号通知DASH中的立体成帧封装,Choi提供了以下内容:
@schemeIdUri属性等于“urn:mpeg:mpegB:cicp:VideoFramePackingType”的DASHFramePacking元素可以在自适应集级别下(即,直接在AdaptationSet元素中)呈现,并且不应在其他级别下呈现(即,不应在MPD级别或直接在任何表示元素中呈现)。当与全向投影视频一起使用时(即,当存在PF描述符时),该基本属性描述符指示投影图片由左右侧视图的在空间上封装的组成图片组成。
关于DASH中定时元数据的传输,Choi提供了以下内容:
例如,如[Choi]的条款7.4中指定的样本条目类型“invp”或“rcvp”的定时元数据轨道可以封装在DASH表示中。该元数据表示的@associationId属性应包括包含由与如[Choi]的条款7.1.3.1中指定的定时元数据轨道相关联的媒体轨道携带的全向媒体的表示的attribute@id的值。该元数据表示的@associationType属性应等于轨道参考类型,定时元数据轨道通过该轨道参考类型与媒体轨道相关联,如[Choi]的条款7.1.3.1所述。
Choi提供的用于DASH中的全向媒体封装和发送信号通知的技术可能不太理想。
图1是示出根据本公开的一种或多种技术的可被配置为对视频数据进行编码(例如,编码和/或解码)的系统的示例的框图。系统100表示可以根据本公开的一种或多种技术封装视频数据系统的示例。如图1所示,系统100包括源设备102、通信介质110和目标设备120。在图1所示的示例中,源设备102可以包括被配置为对视频数据进行编码并将编码的视频数据发送到通信介质110的任何设备。目标设备120可包括被配置为经由通信介质110接收编码的视频数据并且对编码的视频数据进行解码的任何设备。源设备102和/或目标设备120可包括配备用于进行有线和/或无线通信的计算设备,并且可以包括例如机顶盒、数字视频录像机、电视机、台式电脑、膝上型电脑或平板电脑、游戏控制台、医学成像设备和移动设备,包括例如智能电话、蜂窝电话、个人游戏设备。
通信介质110可以包括无线和有线通信介质和/或存储设备的任意组合。通信介质110可以包括同轴电缆、光纤电缆、双绞线电缆、无线发射器和接收器、路由器、交换机、中继器、基站或可用于促进各种设备和站点之间的通信的任何其他设备。通信介质110可以包括一个或多个网络。例如,通信介质110可以包括被配置为允许访问万维网例如互联网的网络。网络可以根据一个或多个电信协议的组合来运营。电信协议可以包括专有方面和/或可以包括标准化电信协议。标准化电信协议的示例包括数字视频广播(DVB)标准、高级电视系统委员会(ATSC)标准、综合服务数字广播(ISDB)标准、有线数据业务接口规范(DOCSIS)标准、全球移动通信系统(GSM)标准、码分多址(CDMA)标准、第3代合作伙伴计划(3GPP)标准、欧洲电信标准协会(ETSI)标准、互联网协议(IP)标准、无线应用协议(WAP)标准以及电气与电子工程师协会(IEEE)标准。
存储设备可以包括能够存储数据的任何类型的设备或存储介质。存储介质可以包括有形或非暂态计算机可读介质。计算机可读介质可以包括光盘、闪存、磁存储器或任何其他合适的数字存储介质。在一些示例中,存储器设备或其部分可以被描述为非易失性存储器,并且在其他示例中,存储器设备的部分可以被描述为易失性存储器。易失性存储器的示例可以包括随机存取存储器(RAM)、动态随机存取存储器(DRAM)和静态随机存取存储器(SRAM)。非易失性存储器的示例可以包括磁性硬盘、光盘、软盘、闪存或电可编程存储器(EPROM)或电可擦除和可编程(EEPROM)存储器的形式。存储设备可以包括存储卡(例如,安全数字(SD)存储卡)、内部/外部硬盘驱动器和/或内部/外部固态驱动器。数据可以根据定义的文件格式存储在存储设备上。
图7是示出可被包括在系统100的具体实施中的部件的示例的概念图。在图7所示的示例性具体实施中,系统100包括一个或多个计算设备402A至402N、电视服务网络404、电视服务提供商站点406、广域网408、局域网410以及一个或多个内容提供商站点412A至412N。图7中所示的具体实施表示系统的示例,该系统可被配置为允许数字媒体内容(诸如电影、现场体育赛事等)和与其相关联的数据和应用程序以及媒体呈现被分发到多个计算设备(诸如计算设备402A至402N)并由该多个计算设备访问。在图7所示的示例中,计算设备402A至402N可以包括被配置为从电视服务网络404、广域网408和/或局域网410中的一者或多者接收数据的任何设备。例如,计算设备402A至402N可以配备用于有线和/或无线通信,并且可被配置为通过一个或多个数据信道接收服务,并且可以包括电视,包括所谓的智能电视、机顶盒和数字视频记录器。此外,计算设备402A至402N可以包括台式计算机、膝上型计算机或平板计算机、游戏控制台、移动设备,该移动设备包括例如“智能”电话、蜂窝电话和个人游戏设备。
电视服务网络404是被配置为使得能够分发包括电视服务的数字媒体内容的网络的示例。例如,电视服务网络404可以包括公共空中电视网络、基于公共或订阅的卫星电视服务提供商网络,以及基于公共或订阅的有线电视提供商网络和/或通过顶部或互联网服务提供商。应当指出的是,尽管在一些示例中,电视服务网络404可以主要用于使得能够提供电视服务,但是电视服务网络404还可以使得能够根据本文描述的电信协议的任何组合来提供其他类型的数据和服务。此外,应当指出的是,在一些示例中,电视服务网络404可以启用电视服务提供商站点406与计算设备402A至402N中的一个或多个之间的双向通信。电视服务网络404可以包括无线和/或有线通信媒体的任何组合。电视服务网络404可以包括同轴电缆、光纤电缆、双绞线电缆、无线发射器和接收器、路由器、交换机、中继器、基站或可用于促进各种设备和站点之间的通信的任何其他设备。电视服务网络404可以根据一个或多个电信协议的组合来运营。电信协议可以包括专有方面和/或可以包括标准化电信协议。标准化电信协议的示例包括DVB标准、ATSC标准、ISDB标准、DTMB标准、DMB标准、有线数据服务接口规范(DOCSIS)标准、HbbTV标准、W3C标准和UPnP标准。
再次参见图7,电视服务提供商站点406可被配置为经由电视服务网络404分发电视服务。例如,电视服务提供商站点406可以包括一个或多个广播站、有线电视提供商,或卫星电视提供商,或基于互联网的电视提供商。例如,电视服务提供商站点406可被配置为通过卫星上行链路/下行链路接收包括电视节目的传输。此外,如图7所示,电视服务提供商站点406可以与广域网408通信,并且可被配置为从内容提供商站点412A至412N接收数据。应当指出的是,在一些示例中,电视服务提供商站点406可以包括电视演播室,并且内容可以源自该电视演播室。
广域网408可以包括基于分组的网络,并且根据一个或多个电信协议的组合进行操作。电信协议可以包括专有方面和/或可以包括标准化电信协议。标准化电信协议的示例包括全球系统移动通信(GSM)标准、码分多址(CDMA)标准、第3代合作伙伴计划(3GPP)标准、欧洲电信标准协会(ETSI)标准、欧洲标准(EN)、IP标准、无线应用协议(WAP)标准、以及电气与电子工程师协会(IEEE)标准,诸如,一个或多个IEEE 802标准(例如,Wi-Fi)。广域网408可以包括无线和/或有线通信媒体的任何组合。广域网480可以包括同轴电缆、光纤电缆、双绞线电缆、以太网电缆、无线发射器和接收器、路由器、交换机、中继器、基站、或可用于促进各种设备和站点之间的通信的任何其他设备。在一个示例中,广域网408可以包括互联网。局域网410可以包括基于数据包的网络,并且根据一个或多个电信协议的组合进行操作。可以基于访问级别和/或物理基础设施将局域网410与广域网408区分开。例如,局域网410可以包括安全家庭网络。
再次参见图7,内容提供商站点412A至412N表示可以向电视服务提供商站点406和/或计算设备402A至402N提供多媒体内容的站点的示例。例如,内容提供商站点可以包括具有一个或多个工作室内容服务器的工作室,该工作室内容服务器被配置为向电视服务提供商站点406提供多媒体文件和/或流。在一个示例中,内容提供商站点412A至412N可被配置为使用IP套件提供多媒体内容。例如,内容提供方站点可被配置为根据实时流协议(RTSP)、HTTP等向接收机设备提供多媒体内容。此外,内容提供商站点412A至412N可被配置为通过广域网408向接收机设备402A至402N和/或电视服务提供商站点406中的一个或多个提供包括基于超文本的内容等的数据。内容提供商站点412A至412N可包括一个或多个web服务器。可以根据数据格式来定义由数据提供者站点412A至412N提供的数据。
再次参见图1,源设备102包括视频源104、视频编码器106、数据封装器107和接口108。视频源104可包括配置为捕获和/或存储视频数据的任何设备。例如,视频源104可以包括摄像机和可操作地与其耦接的存储设备。视频编码器106可包括被配置为接收视频数据并产生表示视频数据的合规比特流的任何设备。兼容比特流可以指视频解码器可以从其接收和再现视频数据的比特流。兼容比特流的各方面可根据视频编码标准来定义。当生成合规比特流时,视频编码器106可以压缩视频数据。压缩可能是有损的(观察者可觉察的或不可觉察的)或无损的。
再次参考图1,数据封装器107可以接收经编码的视频数据,并根据定义的数据结构生成兼容比特流,例如,NAL单元序列。接收兼容比特流的设备可以从其再现视频数据。应当指出的是,可以使用术语符合性比特流来代替术语兼容比特流。应当指出的是,数据封装器107不需要必须位于与视频编码器106相同的物理设备中。例如,被描述为由视频编码器106和数据封装器107执行的功能可以分布在图7所示的设备中。
在一个示例中,数据封装器107可以包括被配置为接收一个或多个媒体部件并基于DASH生成媒体呈现的数据封装器。图8是示出可实现本公开的一种或多种技术的数据封装器的示例的框图。数据封装器500可以被配置为根据本文所述的技术生成媒体呈现。在图8所示的示例中,部件封装器500的功能块与用于生成媒体呈现(例如,DASH媒体呈现)的功能块相对应。如图8所示,部件封装器500包括媒体呈现描述生成器502、分段生成器504和系统存储器506。媒体呈现描述发生器502、分段发生器504和系统存储器506中的每一者可以互连(物理地、通信地和/或可操作地)以用于部件间的通信,并且可以被实现为各种合适电路中的任一者,诸如一个或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件、或它们的任何组合。应当指出的是,尽管数据封装器500被示为具有不同的功能块,但此类图示是出于描述的目的,并且不会将数据封装器500限制到特定的硬件构架。可以使用硬件、固件和/或软件具体实施的任意组合来实现数据封装器500的功能。
此外,媒体呈现描述发生器502可以被配置为生成媒体呈现描述片段。分段发生器504可以被配置为接收媒体部件并生成用于包括在媒体呈现中的一个或多个分段。系统存储器506可以被描述为非暂态或有形计算机可读存储介质。在一些示例中,系统存储器506可以提供临时和/或长期存储。在一些示例中,系统存储器506或其部分可以被描述为非易失性存储器,并且在其他示例中,系统存储器506的部分可以被描述为易失性存储器。系统存储器506可以被配置为存储可在操作期间由数据封装器使用的信息。
如上所述,Choi中提供的用于DASH中的全向媒体封装和发送信号通知的技术可能不理想。例如,未描述用于可在各种DASH MPD级别下呈现的DASH描述符的数量的规则。
在一个示例中,根据本文所述的技术,媒体呈现描述生成器502可被配置为生成包括投影类型信息的投影格式(PF)描述符。在一个示例中,投影格式描述符可以基于以下示例性定义:
@schemeIdUri属性等于“urn:mpeg:mpegB:cicp:PF”的投影格式(PF)EssentialProperty元素可以在MPD级别下(即,直接在MPD元素中)和/或在自适应集级别下(即,直接在AdaptationSet元素中)和/或在表示级别下(即,直接在表示元素中)呈现。存在MPD级别下的PF描述符指示媒体呈现的所有表示均携带投影的全向视频。存在自适应集级别下的PF描述符指示自适应集的所有表示均携带投影的全向视频。@schemeIdUri等于“urn:mpeg:mpegB:cicp:PF”的PF描述符的@value是逗号分隔值列表,如表6中所示。
Figure BDA0002353990560000531
Figure BDA0002353990560000541
表6
在一个示例中,PF描述符可以服从以下内容:
当PF描述符在自适应集级别下呈现时,指示自适应集的所有表示均为投影的全向视频。
在MPD级别下(即,直接在MPD元素中)和/或在自适应集级别下(即,直接在AdaptationSet元素中)和/或在表示级别下(即,直接在表示元素中)最多可以呈现一个PF描述符。
当在MPD级别(即,在MPD元素中)和/或在自适应集级别(即,在AdaptationSet元素中)和/或在表示级别下(即,在表示元素中)包括PF描述符元素时,在层级较低级别下以PF描述符发送信号通知的@value应优先于在较高级别下发送信号通知的@value。
在一个示例中,根据本文所述的技术,媒体呈现描述生成器502可以被配置为生成逐区域封装格式描述符。在一个示例中,逐区域封装格式描述符可以基于以下示例性定义:
@schemeIdUri属性等于“urn:mpeg:omaf:rwpk:2017”的逐区域封装格式(RWPK)EssentialProperty元素可以在MPD级别下(即,直接在MPD元素中)和/或在自适应集级别下(即,直接在AdaptationSet元素中)和/或在表示级别下(即,直接在表示元素中)呈现。@schemeIdUri等于“urn:mpeg:omaf:rwpk:2017”的RWPK描述符的@value是逗号分隔值列表,如表7中所示:
Figure BDA0002353990560000542
表7
在一个示例中,RWPK描述符可以服从以下内容:
不存在RWPK描述符指示尚未应用逐区域封装。
在MPD级别下(即,直接在MPD元素中)和/或在自适应集级别下(即,直接在AdaptationSet元素中)和/或在表示级别下(即,直接在表示元素中)最多可以呈现一个RWPK描述符。
当在MPD级别(即,直接在MPD元素中)和/或在自适应集级别(即,直接在AdaptationSet元素中)和/或在表示级别下(即,直接在表示元素中)包括RWPK描述符元素时,在层级较低级别下以RWPK描述符发送信号通知的@value应优先于在较高级别下发送信号通知的@value。
在一个示例中,根据本文所述的技术,媒体呈现描述生成器502可以被配置为基于以下定义、语法和语义来发送信号通知逐区域封装盒:
定义
盒类型:“rwpk”
容器:方案信息盒(“schi”)
强制性的:No
数量:零或一
RegionWisePackingBox指示:投影帧是逐区域封装的,并且在呈现之前需要解封。在该盒中明确发送信号通知投影图片的尺寸。封装图片的尺寸由VisualSampleEntry的宽度和高度语法元素指示,分别表示为PackedPicWidth和PackedPicHeight。
注1:当图片是场图片而不是帧图片时,封装图片的实际高度将仅为PackedPicHeight的一半。
语法
Figure BDA0002353990560000561
语义
num_region指定封装区域的数量。保留值0。
proj_picture_width和proj_picture_height分别指定投影图片的宽度和高度。proj_picture_width和proj_picture_height应大于0。
guard_band_flag[i]等于0指示第i个封装区域没有保护带。
guard_band_flag[i]等于1指示第i个封装区域有保护带。
packing_type[i]指定逐区域封装的类型,packing_type[i]等于0指示矩形逐区域封装。保留其他值。
left_gb_width[i]以两个亮度样本为单位指定第i个区域左侧的保护带的宽度。
right_gb_width[i]以两个亮度样本为单位指定第i个区域右侧的保护带的宽度。
top_gb_height[i]以两个亮度样本为单位指定第i个区域上方的保护带的高度。
bottom_gb_height[i]以两个亮度样本为单位指定第i个区域下方的保护带的高度。
当guard_band_flag[i]等于1时,left_gb_width[i]、right_gb_width[i]、top_gb_height[i]或bottom_gb_height[i]应大于0。
由该RegionWisePackingStruct指定的第i个封装区域不应与由相同的RegionWisePackingStruct指定的任何其他封装区域或由相同的RegionWisePackingStruct指定的任何保护带重叠。
与如由该RegionWisePackingStruct指定的第i封装区域(如果有的话)相关联的保护带不应与由相同的RegionWisePackingStruct指定的任何封装区域或由相同的RegionWisePackingStruct指定的任何其他保护带重叠。
gb_not_used_for_pred_flag[i]等于0指定在帧间预测过程中可以使用或可以不使用保护带。gb_not_used_for_pred_flag[i]等于1指定保护带的样本值不在帧间预测过程中。
注1:即使将解码后的图片用作对待解码的后续图片进行帧间预测的参考,当gb_not_used_for_pred_flag[i]等于1时,也可以重写解码图片中保护带内的样本值。例如,封装区域的内容可以通过另一封装区域的解码且重新投影的样本无缝扩展到其保护带。
gb_type[i]指定第i个封装区域的保护带的类型,如下所示:
-gb_type[i]等于0指定未指定相对于封装区域内容的保护带内容。当gb_not_used_for_pred_flag等于0时,gb_type不应等于0。
-gb_type[i]等于1指定保护带的内容足以用于封装区域内的子像素值以及在封装区域的边界之外的少于一个的像素的内插。
注2:当封装区域的边界样本已被水平或垂直地复制到保护带时,可以使用等于1的gb_type。
-gb_type[i]等于2指定保护带的内容表示其质量从该封装区域的图片质量逐渐变为球形相邻封装区域的图片质量的实际图像内容。
-gb_type[i]等于3指定保护带的内容表示封装区域的图片质量下的实际图像内容。
-大于3的gb_type[i]值被保留。
proj_reg_width[i]、proj_reg_height[i]、proj_reg_top[i]和proj_reg_left[i]在投影图片中以像素为单位指示,其宽度和高度分别等于proj_picture_width和proj_picture_height。
proj_reg_width[i]指定第i个投影区域的宽度,即,proj_reg_width[i],应大于0。
proj_reg_height[i]指定第i个投影区域的高度,即,proj_reg_height[i],应大于0。
proj_reg_top[i]和proj_reg_left[i]指定投影图片中的顶部样本行和最左边样本列。这些值应分别在0(包括端值,其指示投影图片的左上角)至proj_picture_height-2(包括端值)以及0(包括端值,其指示投影图片的左上角)至proj_picture_width-2(包括端值)的范围内。
应约束proj_reg_width[i]和proj_reg_left[i],使得proj_reg_width[i]+proj_reg_left[i]小于proj_picture_width。
应约束proj_reg_height[i]和proj_reg_top[i],使得proj_reg_height[i]+proj_reg_top[i]小于proj_picture_height。
当投影图片为立体时,proj_reg_width[i]、proj_reg_height[i]、proj_reg_top[i]和proj_reg_left[i]应使得由这些字段标识的投影区域在投影图片的单个组成图片内。
transform_type[i]指定已应用于第i个投影区域以在编码之前将其映射到封装图片的旋转和镜像。当transform_type[i]同时指定旋转和镜像时,在从投影图片到编码之前的封装图片的逐区域封装中进行镜像之后,已应用旋转。指定以下值并保留其他值:
0:无变换
1:水平镜像
2:旋转180°(逆时针)
3:水平镜像后旋转180°(逆时针)
4:水平镜像后旋转90°(逆时针)
5:旋转90°(逆时针)
6:水平镜像后旋转270°(逆时针)
7:旋转270°(逆时针)
注3:[Choi的条款5.4用于矩形逐区域封装的样本位置转换]指定transform_type[i]的语义,用于将封装图片中的封装区域的样本位置转换为投影图片中的封装区域的样本位置。
packed_reg_width[i]、packed_reg_height[i]、packed_reg_top[i]和packed_reg_left[i]分别指定封装图片中的封装区域的宽度、高度、顶部样本行和最左侧样本列。
packed_reg_width[i]、packed_reg_height[i]、packed_reg_top[i]和packed_reg_left[i]的值被限制为如下:
packed_reg_width[i]和packed_reg_height[i]应大于0。
packed_reg_top[i]和packed_reg_left[i]应分别在0(包括端值,其指示封装图片的左上角)至PackedPicHeight-2(包括端值)以及0(包括端值,其指示封装图片的左上角)至PackedPicWidth-2(包括端值)的范围内。
packed_reg_width[i]和packed_reg_left[i]之和应小于PackedPicWidth。
packed_reg_height[i]和packed_reg_top[i]之和应小于PackedPicHeight。
对于0至i-1(包括端值)的范围内的任何j值,由packed_reg_width[i]、packed_reg_height[i]、packed_reg_top[i]和packed_reg_left[i]指定的矩形应不与由packed_reg_width[j]、packed_reg_height[j]、packed_reg_top[j]和packed_reg_left[j]指定的矩形重叠。
在一个示例中,根据本文所述的技术,媒体呈现描述生成器502可以被配置为生成内容覆盖描述符。在一个示例中,内容覆盖描述符可以基于以下示例性定义:
@schemeIdUri属性等于“urn:mpeg:omaf:cc:2017”的内容覆盖面(CC)SupplementalProperty元素可以在自适应集级别下(即,直接在AdaptationSet元素中)呈现,并且不应在其他级别下呈现(即,不应在所述MPD级别或直接在任何表示元素中呈现)。@schemeIdUri等于“urn:mpeg:omaf:cc:2017”的CC描述符的@value是逗号分隔值列表,如表8A中所示。CC描述符指示每个表示覆盖如Choi的条款7.4.2中由shape_type和CC描述符中包括的SphereRegionStruct中的语法元素center_yaw、center_pitch、center_roll、hor_range和ver_range指定的球体区域。
Figure BDA0002353990560000601
表8A
在一个示例中,CC描述符可以受到以下约束:
在自适应集级别下(即,直接在AdaptationSet元素中),最多可以存在一个CC描述符。
不存在CC描述符或CC描述符中不存在@value指示当在MPD级别或表示或包含自适应集中存在PF描述符时,每个表示均覆盖整个球体。
在一个示例中,@schemeIdUri等于“urn:mpeg:omaf:cc:2017”的CC描述符的@value是逗号分隔值列表,如表8B中所示。
Figure BDA0002353990560000602
Figure BDA0002353990560000611
表8B
在一个示例中,@schemeIdUri等于“urn:mpeg:omaf:cc:2017”的CC描述符的@value是逗号分隔值列表,如表8C中所示。
Figure BDA0002353990560000612
表8C
在一个示例中,根据本文所述的技术,媒体呈现描述生成器502可以被配置为生成逐区域质量排名描述符。在一个示例中,逐区域质量排名描述符可以基于以下示例性定义:应当指出的是,以下示例性定义包括以下方面:提出了对于自适应集中的每个RWQR描述符shape_type应相同的约束;参数:当ra_flag等于1时,不存在center_yaw、center_pitch、center_roll、hor_range、ver_range;以及在自适应集级别下,存在一个或多个RWQR描述符。
@schemeIdUri属性等于“urn:mpeg:omaf:rwqr:2017”的逐区域质量排名(RWQR)SupplementalProperty元素可以在自适应集级别下(即,直接在AdaptationSet元素中)呈现,并且不应在其他级别下呈现(即,不应在MPD级别或直接在任何表示元素中呈现)。@schemeIdUri等于“urn:mpeg:omaf:rwqr:2017”的RWQR描述符的@value是逗号分隔值列表,如表9中所示。RWQR描述符指示质量排名球体区域相对于同一自适应集中的其他质量排名球体区域并且相对于在DASH视点元素中具有与包含该RWQR描述符的自适应集相同的@value的所有自适应集中的RWQR描述符和@qualityRanking值的质量排名值。如Choi的条款7.4中所指定,用于质量排名的球体区域由SphereRegionStruct中的语法元素shape_type、center_yaw、center_pitch、center_roll、hor_range、ver_range指定。当质量排名值为非零时,在整个指示的质量排名球体区域内的图片质量大致恒定。
Figure BDA0002353990560000622
Figure BDA0002353990560000641
表9
在一个示例中,RWQR描述符可以服从以下内容:
在自适应集级别下(即,直接在AdaptationSet元素中),可以存在一个或多个RWQR描述符。
应当指出的是,相对于表9,标志ra_flag可以替代性地被称为remaining_area_flag。在这种情况下,表9中的其他元素的语义(例如,shape_type、quality_ranking、view_idc、center_yaw、center_pitch、center_roll、hor_range、ver_range)将改变为使用并引用remaining_area_flag而不是ra_flag。
在一个示例中,根据本文所述的技术,逐区域质量排名描述符可以基于以下示例性定义:
@schemeIdUri属性等于“urn:mpeg:omaf:rwqr:2017”的逐区域质量排名(RWQR)SupplementalProperty元素可以在自适应集级别下(即,直接在AdaptationSet元素中)呈现,并且不应在其他级别下呈现(即,不应在MPD级别或直接在任何表示元素中呈现)。@schemeIdUri等于“urn:mpeg:omaf:rwqr:2017”的RWQR描述符的@value是逗号分隔值列表,如表10中所示。RWQR描述符指示所有质量排名球体区域相对于彼此并且相对于在DASH视点元素中具有与包含该RWQR描述符的自适应集相同的@value的所有自适应集中的@qualityRanking值的质量排名值。如Choi的条款7.4中所指定,用于质量排名的球体区域由SphereRegionStruct中的语法元素shape_type、center_yaw、center_pitch、center_roll、hor_range、ver_range指定。当质量排名值为非零时,在整个指示的质量排名球体区域内的图片质量大致恒定。
Figure BDA0002353990560000642
Figure BDA0002353990560000651
Figure BDA0002353990560000661
表10
在一个示例中,RWQR描述符可以服从以下内容:
在自适应集级别下(即,直接在AdaptationSet元素中),最多可以存在一个RWQR描述符。
关于表10(和表11),应当指出的是,可以使用一些其他定界符来代替定界符“{”(即,%x7B)和“}”(即,%x7D)。例如,可以使用定界符“(”和“)”或定界符“[”和“]”。
对于ISO基础媒体文件格式Segment:
当存在于Initialization Segment的样本条目中时,shape_type应等于SphereRegionQualityRankingBox的region_definition_type,
当存在于Initialization Segment的样本条目中时,remaining_area_flag应等于SphereRegionQualityRankingBox的remaining_area_flag,
当存在于Initialization Segment的样本条目中时,view_idc_presence_flag应等于SphereRegionQualityRankingBox的view_idc_presence_flag,
当存在于Initialization Segment的样本条目中时,default_view_idc应等于SphereRegionQualityRankingBox的default_view_idc,
并且当存在于Initialization Segment的样本条目中时,定界符“{”和“}”内包含的一组值中的quality_ranking、view_idc、center_yaw、center_pitch、center_roll、hor_range、ver_range的值应分别等于用于SphereRegionQualityRankingBox中的每个i值的quality_ranking、view_idc、center_yaw、center_pitch、center_roll、hor_range、ver_range。
图10是示出根据本公开的一种或多种技术的发送信号通知元数据的示例的计算机程序列表。图10示出了根据本文所述技术的包括RWQR描述符的MPD示例性片段。应当指出的是,就图10而言,将逗号分隔的值包括在定界符内提供了紧凑且有效的编码。
就表10而言,应当指出的是,在一个示例中,可将center_roll作为适用于所有质量排名球体区域的单个参数来发送信号通知。如上面相对于表5所述在Choi中提供的,与针对每个质量排名球体区域单独地发送信号通知center_roll相比,这使得节省了位。下表11示出了对表10的修改,其中将center_roll作为适用于所有质量排名球体区域的单个参数来发送信号通知。
Figure BDA0002353990560000671
Figure BDA0002353990560000681
Figure BDA0002353990560000691
表11
在一个示例中,根据本文所述的技术,媒体呈现描述生成器502可以被配置为基于以下定义、语法和语义来发送信号通知球体逐区域质量排名:
定义
盒类型:“srqr”
容器:VisualSampleEntry
强制性的(按项目):否
数量(按项目):每个region_definition_type值最多一个
语法
Figure BDA0002353990560000701
语义
region_definition_type具有与SphereRegionConfigBox的shape_type相同的语义。
num_regions指定在该盒中给出其质量排名信息的质量排名区域的数量。保留值0。这些质量排名球体区域中不止一个应不包含球体上的点。
remaining_area_flag等于0指定所有质量排名区域均由SphereRegionStruct(1)结构定义。remaining_area_flag等于1指定前几个num_regions-1质量排名区域由SphereRegionStruct(1)结构定义,并且最后一个剩余质量排名区域是覆盖区域内的未被前几个num_regions-1SphereRegionStruct(1)结构定义的质量排名区域的并集覆盖的球体区域。
SphereRegionStruct(1)指定该质量排名区域相对于全局坐标轴的球体位置和尺寸,而质量排名区域的形状由region_definition_type指示。SphereRegionStruct(1)中的插值应等于0。
view_idc_presence_flag等于0指定不存在view_idc。view_idc_presence_flag等于1指定存在view_idc,并且指示质量排名区域与特定(左侧或右侧或两者)视图或单视场内容的关联。
default_view_idc等于0指示质量排名区域是单视场的,1指示质量排名区域在立体内容的左侧视图上,2指示质量排名区域在立体内容的右侧视图上,3指示质量排名区域在左侧视图和右侧视图两者上。
quality_ranking指定质量排名区域的质量排名值。quality_ranking等于0指示未定义质量排名值。在[Choi的条款7.6.1]中指定了非零质量排名值的语义。
view_idc等于0指示质量排名区域是单视场的,1指示质量排名区域在立体内容的左侧视图上,2指示质量排名区域在立体内容的右侧视图上,3指示质量排名区域在左侧视图和右侧视图两者上。如果不存在,则推断view_idc的值等于default_view_idc的值。
在一个示例中,根据本文所述的技术,媒体呈现描述生成器502可以被配置为基于以下定义、语法和语义来发送信号通知2D逐区域质量排名:
定义
盒类型:“2dqr”
容器:VisualSampleEntry
强制性的(按项目):否
数量(按项目):零或一
语法
Figure BDA0002353990560000711
语义
与SphereRegionQualityRankingBox中具有相同名称的语法元素相同地指定quality_ranking、default_view_idc和view_idc。因此,这些项的语义可如下所示:
quality_ranking指定质量排名区域的质量排名值。quality_ranking等于0指示未定义质量排名值。在Choi的7.6.1中指定了非零质量排名值的语义。
default_view_idc等于0指示质量排名区域是单视场的,1指示质量排名区域在立体内容的左侧视图上,2指示质量排名区域在立体内容的右侧视图上,3指示质量排名区域在左侧视图和右侧视图两者上。
view_idc等于0指示质量排名区域是单视场的,1指示质量排名区域在立体内容的左侧视图上,2指示质量排名区域在立体内容的右侧视图上,3指示质量排名区域在左侧视图和右侧视图两者上。如果不存在,则推断view_idc的值等于default_view_idc的值。
num_regions指定在该盒中给出其质量排名信息的质量排名2D区域的数量。保留值0。这些质量排名2D区域中不止一个应不包含解码图片的像素。
remaining_area_flag等于0指定所有质量排名2D区域由left_offset、top_offset、region_width和region_height定义。remaining_area_flag等于1指定前几个num_regions-1质量排名2D区域由left_offset、top_offset、region_width和region_height定义,并且最后一个剩余质量排名2D区域是图片中未被前几个num_regions-1质量排名2D区域的并集覆盖的区域,其宽度等于VisualSampleEntry的宽度且高度等于VisualSampleEntry的高度。
left_offset、top_offset、region_width和region_height是指示质量排名2D区域的位置和尺寸的整数值。left_offset和top_offset分别指示2D表示的视觉呈现尺寸下的图片内质量排名2D区域的左上角的水平坐标和垂直坐标。region_width和region_height分别指示2D表示的视觉呈现尺寸下的图片内质量排名2D区域的宽度和高度。left_offset+region_width应小于TrackHeaderBox的宽度。top_offset+region_height应小于TrackHeaderBox的高度。
region_width应大于0。
region_height应大于0。
在一个示例中,根据本文所述的技术,媒体呈现描述生成器502可以被配置为基于以下定义来发送信号通知立体帧封装信息:
@schemeIdUri属性等于“urn:mpeg:mpegB:cicp:VideoFramePackingType”的DASHFramePacking元素可以在自适应集级别下呈现,并且不应(即,直接在AdaptationSet元素中)呈现,并且不应在其他级别下呈现(即,不应在MPD级别或直接在任何表示元素中呈现)。当与全向投影视频一起使用时(即,当存在PF描述符时),该基本属性描述符指示投影图片由左右侧视图的在空间上封装的组成图片组成。
FramePacking元素的@value指定立体视频的帧封装类型。该值应当等于3或4,其中,那些值的含义如针对ISO/IEC 23001-8中的VideoFramePackingType所定义。
应当指出的是,ISO/IEC 23001-8,第8部分,“编码独立的编码点”,2013-07-01,该文献以引用方式并入,并且包括具有值3和4的VideoFramePackingType,该值具有与ITU-TH.265的表D-8中的类似值相似的含义。
在一个示例中,根据本文所述的技术,媒体呈现描述生成器502可以被配置为基于以下定义来发送信号通知定时元数据:
例如,如Choi的条款7.4中指定的样本条目类型“invp”或“rcvp”的定时元数据轨道可以封装在DASH表示中。该元数据表示的@associationId属性应包括包含由与如Choi的条款7.1.3.1中指定的定时元数据轨道相关联的媒体轨道携带的全向媒体的表示的attribute@id的值。该元数据表示的@associationType属性应等于轨道参考类型,定时元数据轨道通过该轨道参考类型与媒体轨道相关联,如Choi的条款7.1.3.1所述。
在一个示例中,根据本文所述的技术,媒体呈现描述生成器502可以被配置为基于以下定义、语法和语义来发送信号通知轨道组类型盒:
定义
track_group_type等于“spco”的TrackGroupTypeBox指示该轨道属于可在空间上被布置用于获得组合图片的轨道的组合。映射到该分组的视觉轨道(即,在track_group_type等于“spco”的TrackGroupTypeBox内具有相同的track_group_id值的视觉轨道)共同表示可呈现的视觉内容。在没有其他视觉轨道的情况下可能或可能不旨在单独地呈现映射到该分组的每个单独的视觉轨道,但适合呈现组合图片。
注1:内容作者可以使用[Choi]的条款7.1.2中指定的CompositionRestrictionBox来指示在没有其他视觉轨道的情况下不旨在单独地呈现视觉轨道一者。
注2:当一组图块轨道和相关联的图块基础轨道中携带有HEVC视频比特流(如ISO/IEC 14496-15]中所指定的)并且该比特流表示由子图片组合轨道组指示的子图片时,仅图块基础轨道包含SubPictureCompositionBox。
可以通过在空间上布置相同子图片组合轨道组中的所有轨道的时间平行样本的解码输出来获得组合图片,如该轨道组的语法元素所指示的。
语法
语义
track_x以亮度样本单位指定该轨道的样本的左上角在组合图片上的水平位置。track_x的值应在0到composition_width-1(包括端值)的范围内。
track_y以亮度样本单位指定该轨道的样本的左上角在组合图片上的垂直位置。track_y的值应在0到composition_height-1(包括端值)的范围内。
track_width以亮度样本单位指定该轨道的样本在组合图片上的宽度。track_width的值应在1到composition_width-1(包括端值)的范围内。
track_height以亮度样本单位指定该轨道的样本在组合图片上的高度。track_height的值应在1到composition_height-1(包括端值)的范围内。
composition_width以亮度样本单位指定组合图片的宽度。
composition_height以亮度样本单位指定组合图片的高度。
对于在0到track_width-1(包括端值)的范围内的每个i值,该轨道的样本的亮度样本的第i列是组合图片的亮度样本的第colComposedPic列,其中colComposedPic等于(i+track_x)%composition_width。
对于在0到track_height-1(包括端值)的范围内的每个j值,该轨道的样本的亮度样本的第j行是组合图片的亮度样本的第rowComposedPic行,其中rowComposedPic等于(j+track_y)%composition_height。
view_idc等于0指示该轨道的样本属于单视场内容,1指示该轨道的样本属于立体内容的左侧视图,2指示该轨道的样本属于立体内容的右侧视图,3指示该轨道的样本属于立体内容的左侧视图和右侧视图两者。
又如,当view_idc不等于0或1或2时(即,当view_idc等于3时),可以发送信号通知关于该轨道的样本上的左侧视图和右侧视图的组成的附加信息。这可以包括以下各项中的一者或多者:
·左侧视图和右侧视图的空间布置(例如,并排或上下)。
·每个视图的左坐标和顶坐标。
·每个视图的高度和宽度。
在另一示例中,每当发送信号通知view_idc语法元素时,可以在其之前发送信号通知另一语法元素view_idc_presence_flag,并且可以仅在view_idc_presence_flag等于1时发送信号通知语法元素view_idc。下面示出了用于其的示例性语法:
bit(5)reserved=0;
unsigned int(1)view_idc_presence_flag;
if(view_idc_presence_flag==1);
unsigned_int(2)view_idc;
}
在这种情况下:当不存在时,推断view_idc等于0。
在另一示例中:当不存在时,推断view_idc等于3。
在另一示例中:当不存在时,推断view_idc未知。
在根据本文所述的技术的另一示例中,媒体呈现描述生成器502可以被配置为发送信号通知view_idc和view_idc_presence_flag,如上面Choi的TrackCoverageInformationBox“covt”中所示的。
如上所述,Choi提供用于发送信号通知投影类型和封装类型信息的描述符。以类似的方式,Choi_1将用于投影类型信息的信令描述为如下:
@schemeIdUri属性等于“urn:mpeg:mpegB:cicp:PF”的EssentialProperty元素被称为投影格式(PF)描述符。在MPD级别下,最多可以存在一个PF描述符。在自适应集级别下,最多可以存在一个PF描述符。在表示级别下,最多可以存在一个PF描述符。存在MPD级别下的PF描述符指示媒体呈现的所有表示均携带投影的全向视频。存在自适应集级别下的PF描述符指示自适应集的所有表示均携带投影的全向视频。存在于层级较低级别下的PF描述符的@value覆盖存在于层级较高级别下的PF描述符的@value。例如,当AdaptationSet元素和AdaptationSet元素中的表示元素均存在PF描述符时,存在于表示元素中的PF描述符适用于表示。PF描述符的@value是如表11A中指定的逗号分隔值列表。
Figure BDA0002353990560000761
表11A
此外,Choi_1将封装类型信息的信令描述为如下:
@schemeIdUri属性等于“urn:mpeg:omaf:rwpk:2017”的EssentialProperty元素被称为逐区域封装(RWPK)描述符。在MPD级别下,最多可以存在一个RWPK描述符。在自适应集级别下,最多可以存在一个RWPK描述符。在表示级别下,最多可以存在一个RWPK描述符。存在于层级较低级别下的RWPK描述符的@value覆盖存在于层级较高级别下的RWPK描述符的@value。例如,当AdaptationSet元素和AdaptationSet元素中的表示元素均存在RWPK描述符时,存在于表示元素中的RWPK描述符适用于表示。RWPK描述符的@value是如表11B中指定的逗号分隔值列表。
Figure BDA0002353990560000762
表11B
不存在RWPK描述符指示尚未应用逐区域封装。
此外,Choi_1将内容覆盖信息的信令描述为如下:
a@schemeIdUri属性等于“urn:mpeg:omaf:cc:2017”的SupplementalProperty元素被称为球形空间关系(SSR)描述符。在自适应集级别下,最多可以存在一个SSR描述符。在MPD或表示级别下,不应存在SSR描述符。SSR描述符指示每个表示覆盖如[Choi_1]的条款7.5中由shape_type和SSR描述符中包括的SphereRegionStruct中的语法元素center_azimuth、center_elevation、center_tilt、hor_range和ver_range指定的球体区域。SSR描述符的@value是如表11C中指定的逗号分隔值列表。
Figure BDA0002353990560000771
表11C
不存在SSR描述符或SSR描述符中不存在@value指示当存在适用于该表示的PF描述符时每个表示均覆盖整个球体。
当在MPD或AdaptationSet元素中不直接存在PF描述符时,AdaptationSet元素中应不存在SSR描述符。
此外,Choi_1将球体逐区域质量排名信息的信令描述为如下:
@schemeIdUri属性等于“urn:mpeg:omaf:srqr:2017”的SupplementalProperty元素被称为球体逐区域质量排名(SRQR)描述符。在自适应集级别下,最多可以存在用于每个shape_type的一个SRQR描述符。在表示级别下,最多可以存在用于每个shape_type的一个SRQR描述符。在MPD级别下,不应存在SRQR描述符。SRQR描述符指示质量排名球体区域相对于同一自适应集中的其他质量排名球体区域并且相对于在DASH视点元素中具有与包含该SRQR描述符或包含含有该SRQR描述符的表示的自适应集相同的@value的所有自适应集中的SRQR描述符和@qualityRanking值的质量排名值。用于质量排名的球体区域由如[Choi_1]的条款7.5中指定的SphereRegionStruct中的语法元素shape_type、center_azimuth、center_elevation、center_tilt、hor_range、ver_range指定。当质量排名值为非零时,整个指示的质量排名球体区域内的图片质量大致恒定。SRQR描述符的@value是如表11D中指定的逗号分隔值列表。
Figure BDA0002353990560000781
Figure BDA0002353990560000791
Figure BDA0002353990560000801
表11D
此外,Choi_1将2D逐区域质量排名信息的信令描述为如下:
@schemeIdUri属性等于“urn:mpeg:omaf:2dqr:2017”的SupplementalProperty元素被称为2D逐区域质量排名(2DQR)描述符。在自适应集级别下,最多可以存在一个2DQR描述符。在表示级别下,最多可以存在一个2DQR描述符。在MPD级别下,不应存在2DQR描述符。2DQR描述符指示质量排名2D区域相对于同一自适应集中的其他质量排名2D区域并且相对于在DASH视点元素中具有与包含该2DQR描述符或包含含有该2DQR描述符的表示的自适应集相同的@value的所有自适应集中的2DQR描述符和@qualityRanking值的质量排名值。当质量排名值为非零时,在整个指示的质量排名2D区域内的图片质量大致恒定。2DQR描述符的@value是如表11E中指定的逗号分隔值列表:
Figure BDA0002353990560000802
Figure BDA0002353990560000811
表11E
如上所述,Choi和Choi_1中提供的用于DASH中的全向媒体封装和发送信号通知的技术可能不理想。例如,针对Choi和Choi_1中提供的DASH中的全向媒体封装和发送信号通知定义和使用的当前XML元素和属性可能不够充足。在一个示例中,根据本文所述的技术,媒体呈现描述生成器502可以被配置为基于XML名称空间和模式的以下定义来生成描述符:
XML名称空间和模式:
定义并使用了许多新的XML元素和属性。在单独的名称空间“urn:mpeg:mpegB:omaf:2017”中定义这些新的XML元素。在每个部分的规范模式文档中定义这些元素。应当指出的是,在一些示例中,在单独的名称空间“urn:mpeg:mpegI:omaf:2017”中定义这些新的XML元素。因此,“urn:mpeg:mpegB:omaf:2017”可以与本文示例中的“urn:mpeg:mpegI:omaf:2017”互换。
名称空间标志符“xs:”应当与XML模式部分1(“W3C:“XML Schema Part 1:Structures Second Edition”W3C Recommendation”,2004年10月28日,https://www.w3.org/TR/xmlschema-1/,该文献以引用方式并入本文])中定义的名称空间http://www.w3.org/2001/XMLSchema对应。
该部分中的表的“数据类型”列中的项目使用XML模式部分2(“W3C:“XML SchemaPart 2:Datatypes Second Edition”W3C Recommendation”,2004年10月28日,https://www.w3.org/TR/xmlschema-2/,该文献以引用方式并入本文),并且应当具有如XML模式部分2中定义的含义。
应当指出的是,尽管上文以及在图11A至图21的各种XML模式文档和本文档中的各个部分中使用并描述的XML名称空间是“urn:mpeg:mpegB:omaf:2017”,而不是一些其他名称空间,诸如“urn:mpeg:mpegB:omaf:2018”或“urn:mpeg:mpegB:cicp:2017”或“urn:mpeg:omaf:2017”或“urn:mpeg:omaf:2017”或“org.mpeg.omaf.2017”,但可以替代性地使用一些独特的字符串诸如urn或uri。
在一个示例中,根据本文所述的技术,媒体呈现描述生成器502可被配置为生成包括投影类型信息的投影格式(PF)描述符。在一个示例中,投影格式描述符可以基于以下示例性定义:
@schemeIdUri属性等于“urn:mpeg:mpegB:cicp:PF”的EssentialProperty元素被称为投影格式(PF)描述符。在MPD级别下,最多可以存在一个PF描述符。在自适应集级别下,最多可以存在一个PF描述符。在表示级别下,最多可以存在一个PF描述符。存在MPD级别下的PF描述符指示媒体呈现的所有表示均携带投影的全向视频。存在自适应集级别下的PF描述符指示自适应集的所有表示均携带投影的全向视频。存在于层级较低级别下的PF描述符的omaf:@projection_type属性覆盖存在于层级较高级别下的PF描述符的omaf:@projection_type属性。例如,当AdaptationSet元素和AdaptationSet元素中的表示元素均存在PF描述符时,存在于表示元素中的PF描述符适用于表示。PF描述符的@value属性应不存在。PF描述符应包括omaf:@projection_type属性,其值不应为空,如表12中指定的。
Figure BDA0002353990560000831
图11A至图11B是示出根据本公开的一种或多种技术的发送信号通知元数据的示例的计算机程序列表。图11A至图11B示出了与相对于表12所述的示例性PF描述符相对应的定义XML模式的示例。在一个示例中,图11A至图11B中所示的模式应该以具有名称空间—urn:mpeg:mpegB:omaf:2017的XML模式表示。应当指出的是,在图11B所示的示例中,允许projection_type属性具有空值。应当指出的是,在图11A所示的示例中,不允许projection_type属性具有空值。在一个示例中,表12中的元素和属性的数据类型将如在图11A或图11B中的模式中所定义的。在一个示例中,可以将该属性用途用于属性projection_type,以指示所需的该属性的存在,如下所示:
Figure BDA0002353990560000841
在一个示例中,投影格式描述符可以基于以下示例性定义:
@schemeIdUri属性等于“urn:mpeg:mpegB:cicp:PF”的EssentialProperty元素被称为投影格式(PF)描述符。在MPD级别下,最多可以存在一个PF描述符。在自适应集级别下,最多可以存在一个PF描述符。在表示级别下,最多可以存在一个PF描述符。存在MPD级别下的PF描述符指示媒体呈现的所有表示均携带投影的全向视频。存在自适应集级别下的PF描述符指示自适应集的所有表示均携带投影的全向视频。存在于层级较低级别下的PF描述符的omaf:projection_type元素覆盖存在于层级较高级别下的PF描述符的omaf:projection_type元素。例如,当AdaptationSet元素和AdaptationSet元素中的表示元素均存在PF描述符时,存在于表示元素中的PF描述符适用于表示。PF描述符的@value属性应不存在。PF描述符应包括一个omaf:@projection_type属性,其值不应为空,如表13中指定的。
Figure BDA0002353990560000842
应当指出的是,与相对于表12所示的示例相比,在相对于表13所示的示例中,使用EssentialProperty描述符的多个子元素,而不是用新属性发送信号通知投影类型值列表,其中每个元素均可以发送信号通知一个投影类型值。图12是示出根据本公开的一种或多种技术的发送信号通知元数据的示例的计算机程序列表。图12示出了与相对于表13所述的示例性PF描述符相对应的定义XML模式的示例。在一个示例中,表13中的元素和属性的数据类型将如在图12中的模式中所定义的。在一个示例中,图12中所示的模式应该以具有名称空间—urn:mpeg:mpegB:omaf:2017的XML模式表示。在一个示例中,在模式变体中,属性minOccurs和maxOccurs可以用于元素projection_type,以指示该元素的允许基数,如下所示:
<xs:element name="projection_type"type="xs:unsignedByte"minOccurs="l"maxOccurs="unbounded"/>
在一个示例中,投影格式描述符可以基于以下示例性定义:
@schemeIdUri属性等于“urn:mpeg:mpegB:cicp:PF”的EssentialProperty元素被称为投影格式(PF)描述符。在MPD级别下,最多可以存在一个PF描述符。在自适应集级别下,最多可以存在一个PF描述符。在表示级别下,最多可以存在一个PF描述符。存在MPD级别下的PF描述符指示媒体呈现的所有表示均携带投影的全向视频。存在自适应集级别下的PF描述符指示自适应集的所有表示均携带投影的全向视频。存在于层级较低级别下的PF描述符的omaf:projection_type元素覆盖存在于层级较高级别下的PF描述符的omaf:projection_type元素。例如,当AdaptationSet元素和AdaptationSet元素中的表示元素均存在PF描述符时,存在于表示元素中的PF描述符适用于表示。PF描述符的@value属性应不存在。PF描述符应包括一个omaf:projection_type元素,其值是逗号分隔的值列表,如表14中指定的:
Figure BDA0002353990560000851
表14
应当指出的是,与相对于表12所示的示例相比,在相对于表14所示的示例中,单个子元素可发送信号通知投影类型值列表,而不是用新属性发送信号通知投影类型值列表。图13A至图13B是示出根据本公开的一种或多种技术的发送信号通知元数据的示例的计算机程序列表。图13A至图13B示出了与相对于表14所述的示例性PF描述符相对应的定义XML模式的示例。在一个示例中,图13A至图13B中所示的模式应该以具有名称空间—urn:mpeg:mpegB:omaf:2017的XML模式表示。在一个示例中,表14中的元素和属性的数据类型将如在图13A或图13B中的模式中所定义的。应当指出的是,在图13B所示的示例中,允许projection_type元素具有空值。应当指出的是,在图13A所示的示例中,不允许projection_type元素具有空值。在一个示例中,在模式变体中,属性minOccurs和maxOccurs可以用于元素projection_type,以指示该元素的允许基数,如下所示:
Figure BDA0002353990560000862
在一个示例中,在模式变体中,可以通过使用XML分面对那些值添加以下限制来限制用于projection_type属性或元素的允许值,如下所示:
<xs:minlnclusive value-'0"/>
<xs:maxlnclusive value="31"/>
在一个示例中,根据本文所述的技术,媒体呈现描述生成器502可以被配置为生成逐区域封装格式描述符。在一个示例中,逐区域封装格式描述符可以基于以下示例性定义:
@schemeIdUri属性等于“urn:mpeg:omaf:rwpk:2017”的EssentialProperty元素被称为逐区域封装(RWPK)描述符。在MPD级别下,最多可以存在一个RWPK描述符。在自适应集级别下,最多可以存在一个RWPK描述符。在表示级别下,最多可以存在一个RWPK描述符。存在于层级较低级别下的RWPK描述符的omaf:@packing_type属性覆盖存在于层级较高级别下的RWPK描述符的omaf:@packing_type属性。例如,当AdaptationSet元素和AdaptationSet元素中的表示元素均存在RWPK描述符时,存在于表示元素中的RWPK描述符适用于表示。RWPK描述符的@value应不存在。RWPK描述符可以包括如在表15中指定的omaf:@packing_type属性。不存在RWPK描述符指示尚未应用逐区域封装。
Figure BDA0002353990560000871
表15
图14A至图14B是示出根据本公开的一种或多种技术的发送信号通知元数据的示例的计算机程序列表。图14A至图14B示出了与相对于表15所述的示例性RWPK描述符相对应的定义XML模式的示例。在一个示例中,表15中的元素和属性的数据类型将如在图14A或图14B中的模式中所定义的。在一个示例中,图14A至图14B中所示的模式应该以具有名称空间—urn:mpeg:mpegB:omaf:2017的XML模式表示。在一个示例中,可以将该属性用途用于属性packing_type,以指示所需的该属性的存在,如下所示:
Figure BDA0002353990560000881
在一个示例中,逐区域封装格式描述符可以基于以下示例性定义:
@schemeIdUri属性等于“urn:mpeg:omaf:rwpk:2017”的EssentialProperty元素被称为逐区域封装(RWPK)描述符。在MPD级别下,最多可以存在一个RWPK描述符。在自适应集级别下,最多可以存在一个RWPK描述符。在表示级别下,最多可以存在一个RWPK描述符。存在于层级较低级别下的RWPK描述符的omaf:packing_type元素覆盖存在于层级较高级别下的RWPK描述符的omaf:packing_type元素。例如,当AdaptationSet元素和AdaptationSet元素中的表示元素均存在RWPK描述符时,存在于表示元素中的RWPK描述符适用于表示。RWPK描述符的@value应不存在。RWPK描述符可以包括如在表16中指定的零个或多个omaf:packing_type元素。不存在RWPK描述符指示尚未应用逐区域封装。
表16
应当指出的是,与相对于表15所示的示例相比,在相对于表16所示的示例中,使用EssentialProperty描述符的多个子元素,而不是用新属性发送信号通知封装类型值列表,其中每个元素均可以发送信号通知一个封装类型值。图15A至图15B是示出根据本公开的一种或多种技术的发送信号通知元数据的示例的计算机程序列表。在一个示例中,表15中的元素和属性的数据类型将如在图15A或图15B中的模式中所定义的。图15A至图15B示出了与相对于表16所述的示例性RWPK描述符相对应的定义XML模式的示例。在一个示例中,图15A至图15B中所示的模式应该以具有名称空间—urn:mpeg:mpegB:omaf:2017的XML模式表示。
在一个示例中,逐区域封装格式描述符可以基于以下示例性定义:
@schemeIdUri属性等于“urn:mpeg:omaf:rwpk:2017”的EssentialProperty元素被称为逐区域封装(RWPK)描述符。在MPD级别下,最多可以存在一个RWPK描述符。在自适应集级别下,最多可以存在一个RWPK描述符。在表示级别下,最多可以存在一个RWPK描述符。存在于层级较低级别下的RWPK描述符的omaf:packing_type元素覆盖存在于层级较高级别下的RWPK描述符的omaf:packing_type元素。例如,当AdaptationSet元素和AdaptationSet元素中的表示元素均存在RWPK描述符时,存在于表示元素中的RWPK描述符适用于表示。RWPK描述符的@value属性应不存在。RWPK描述符可以包括如在表17中指定的零个或多个omaf:packing_type元素。不存在RWPK描述符指示尚未应用逐区域封装。
Figure BDA0002353990560000891
表17
应当指出的是,与相对于表15所示的示例相比,在相对于表17所示的示例中,使用EssentialProperty描述符的多个子元素,而不是用新属性发送信号通知封装类型值列表,其中每个元素均可以发送信号通知一个封装类型值。图16是示出根据本公开的一种或多种技术的发送信号通知元数据的示例的计算机程序列表。图16示出了与相对于表17所述的示例性RWPK描述符相对应的定义XML模式的示例。在一个示例中,表17中的元素和属性的数据类型将如在图16中的模式中所定义的。在一个示例中,图16中所示的模式应该以具有名称空间—urn:mpeg:mpegB:omaf:2017的XML模式表示。
在一个示例中,根据本文所述的技术,媒体呈现描述生成器502可以被配置为生成球体空间关系(SSR)描述符。在一个示例中,球体空间关系描述符可以基于以下示例性定义:
a@schemeIdUri属性等于“urn:mpeg:omaf:cc:2017”的SupplementalProperty元素被称为球形空间关系(SSR)描述符。在自适应集级别下,最多可以存在一个SSR描述符。在MPD或表示级别下,不应存在SSR描述符。SSR描述符指示每个表示覆盖如Choi_1的条款7.5中由shape_type和SSR描述符中包括的SphereRegionStruct中的语法元素center_azimuth、center_elevation、center_tilt、hor_range和ver_range指定的球体区域。SSR描述符的@value属性应不存在。SSR描述符应包括具有如表18A中所指定的属性的ssr元素:
Figure BDA0002353990560000901
Figure BDA0002353990560000911
表18A
不存在SSR描述符或SSR描述符中不存在ssr元素指示当存在应用于该表示的PF描述符时每个表示均覆盖整个球体。当在MPD或AdaptationSet元素中不直接存在PF描述符时,AdaptationSet元素中应不存在SSR描述符。
图17A至图17B是示出根据本公开的一种或多种技术的发送信号通知元数据的示例的计算机程序列表。图17A至图17B示出了与相对于表18所述的示例性SSR描述符相对应的定义XML模式的示例。在一个示例中,表18中的元素和属性的数据类型将如在图17A至图17B中的模式中所定义的。在一个示例中,图17A至图17B中所示的模式应该以具有名称空间—urn:mpeg:mpegB:omaf:2017的XML模式表示。
在一个示例中,根据本文所述的技术,媒体呈现描述生成器502可以被配置为基于以下示例性定义来生成球形空间关系(SSR)描述符:
a@schemeIdUri属性等于“urn:mpeg:omaf:cc:2017”的SupplementalProperty元素被称为球形空间关系(SSR)描述符。在自适应集级别下,最多可以存在一个SSR描述符。在MPD或表示级别下,不应存在SSR描述符。SSR描述符指示每个表示覆盖如Choi_1的条款7.5中由shape_type和SSR描述符中包括的SphereRegionStruct中的语法元素center_azimuth、center_elevation、center_tilt、hor_range和ver_range指定的球体区域。SSR描述符的@value属性应不存在。SSR描述符应包括具有如表18B中所指定的属性的ssr元素:
Figure BDA0002353990560000921
Figure BDA0002353990560000931
表18B
不存在SSR描述符或SSR描述符中不存在ssr元素指示当存在应用于该表示的PF描述符时每个表示均覆盖整个球体。
当在MPD或AdaptationSet元素中不直接存在PF描述符时,AdaptationSet元素中应不存在SSR描述符。
图17C至图17D是示出根据本公开的一种或多种技术的发送信号通知元数据的示例的计算机程序列表。图17C至图17D示出了与相对于表18B所述的示例性SSR描述符相对应的定义XML模式的示例。在一个示例中,表18B中的元素和属性的数据类型将如在图17C至图17D中的模式中所定义的。
在一个示例中,根据本文所述的技术,媒体呈现描述生成器502可以被配置为生成球体逐区域质量排名描述符。在一个示例中,球体逐区域质量排名描述符可以基于以下示例性定义:
@schemeIdUri属性等于“urn:mpeg:omaf:srqr:2017”的SupplementalProperty元素被称为球体逐区域质量排名(SRQR)描述符。在自适应集级别下,最多可以存在用于每个sphRegionQuality@shape_type值0和1的一个SRQR描述符。在表示级别下,最多可以存在用于每个sphRegionQuality@shape_type值0和1的一个SRQR描述符。在MPD级别下,不应存在SRQR描述符。SRQR描述符指示质量排名球体区域相对于同一自适应集中的其他质量排名球体区域并且相对于在DASH视点元素中具有与包含该SRQR描述符或包含含有该SRQR描述符的表示的自适应集相同的@value的所有自适应集中的SRQR描述符和@qualityRanking值的质量排名值。用于质量排名的球体区域由如Choi_1的条款7.5中指定的SphereRegionStruct中的语法元素shape_type、center_azimuth、center_elevation、center_tilt、hor_range、ver_range指定。当质量排名值sphRegionQuality.qualityinfo@quality_ranking为非零时,在整个指示的质量排名球体区域内的图片质量大致恒定。SRQR描述符的@value属性应不存在。SRQR描述符应包括具有如表19A中所指定的子元素和属性的sphRegionQuality元素:
Figure BDA0002353990560000941
Figure BDA0002353990560000961
Figure BDA0002353990560000971
Figure BDA0002353990560000981
表19A
应当指出的是,“使用”列可以替代性地被标记为“基数”。另外,该列中的条目1可以被更改为M(即,强制性或要求的),反之亦然。另外,该列中的条目0..1可以被更改为O(即,任选的)或CM(即,有条件地强制性的),反之亦然。
图18A至图18B是示出根据本公开的一种或多种技术的发送信号通知元数据的示例的计算机程序列表。图18A至图18B示出了与相对于表19A所述的示例性SRQR描述符相对应的定义XML模式的示例。在一个示例中,表19A中的元素和属性的数据类型将如在图18A至图18B中的模式中所定义的。在一个示例中,图18A至图18B中所示的模式应该以具有名称空间—urn:mpeg:mpegB:omaf:2017的XML模式表示。
在另一示例中,图19A至图19B是示出根据本公开的一种或多种技术的发送信号通知元数据的示例的计算机程序列表。图19A至图19B示出了与相对于表19所述的示例性SRQR描述符相对应的定义XML模式的示例。在一个示例中,表19A中的元素和属性的数据类型将如在图19A至图19B中的模式中所定义的。在一个示例中,图19A至图19B中所示的模式应该以具有名称空间—urn:mpeg:mpegB:omaf:2017的XML模式表示。
应当指出的是,图18A至图18B和图19A至图19B中的计算机程序列表之间的差异是图19A至图19D中的差异,在图18A至图18B中需要属性sphRegionQuality@shape_type、sphRegionQuality@remaining_area_flag、sphRegionQuality@view_idc_presence_flag的情况下,这些属性是任选的。使这些属性是任选的并为其分配默认值在发送信号通知时节省了位。
在一个示例中,可以将以下约束应用于SRQR描述符:
-当sphRegionQuality@remaining_area_flag等于0时,所有sphRegionQuality.qualityInfo元素应使属性sphRegionQuality.qualityInfo@center_azimuth、sphRegionQuality.qualityInfo@center_elevation、sphRegionQuality.qualityInfo@center_tilt、sphRegionQuality.qualityInfo@hor_Range、sphRegionQuality.qualityInfo@ver_range中的每一者均存在。
-当sphRegionQuality@remaining_area_flag等于1时,仅一个sphRegionQuality.qualityInfo元素应使属性sphRegionQuality.qualityInfo@center_azimuth、sphRegionQuality.qualityInfo@center_elevation、sphRegionQuality.qualityInfo@center_tilt、sphRegionQuality.qualityInfo@hor_Range、sphRegionQuality.qualityInfo@ver_range中的每一者均不存在,并且所有其他sphRegionQuality.qualityInfo元素应使属性sphRegionQuality.qualityInfo@center_azimuth、sphRegionQuality.qualityInfo@center_elevation、sphRegionQuality.qualityInfo@center_tilt、sphRegionQuality.qualityInfo@hor_Range、sphRegionQuality.qualityInfo@ver_range中的每一者均存在。
在一个示例中,根据本文所述的技术,媒体呈现描述生成器502可以被配置为基于以下示例性定义来生成球体逐区域质量排名描述符:
@schemeIdUri属性等于“urn:mpeg:omaf:srqr:2017”的SupplementalProperty元素被称为球体逐区域质量排名(SRQR)描述符。在自适应集级别下,最多可以存在用于每个sphRegionQuality@shape_type值0和1的一个SRQR描述符。在表示级别下,最多可以存在用于每个sphRegionQuality@shape_type值0和1的一个SRQR描述符。在MPD级别下,不应存在SRQR描述符。SRQR描述符指示质量排名球体区域相对于同一自适应集中的其他质量排名球体区域并且相对于在DASH视点元素中具有与包含该SRQR描述符或包含含有该SRQR描述符的表示的自适应集相同的@value的所有自适应集中的SRQR描述符和@qualityRanking值的质量排名值。用于质量排名的球体区域由如Choi_1的条款7.5中指定的SphereRegionStruct中的语法元素shape_type、center_azimuth、center_elevation、center_tilt、hor_range、ver_range指定。当质量排名值sphRegionQuality.qualityinfo@quality_ranking为非零时,在整个指示的质量排名球体区域内的图片质量大致恒定。SRQR描述符的@value属性应不存在。SRQR描述符应包括具有如表19B中所指定的子元素和属性的sphRegionQuality元素:
Figure BDA0002353990560001001
Figure BDA0002353990560001011
Figure BDA0002353990560001021
Figure BDA0002353990560001031
Figure BDA0002353990560001041
Figure BDA0002353990560001051
表19B
注:建议播放器解析球体逐区域质量排名(SRQR)描述符,并通过以下方式选择与用户的观看取向匹配的自适应集和表示:
-覆盖视区的区域上的质量排名值大于0且小于其他区域的质量排名值。
-覆盖视区的区域的分辨率适用于显示器。如果sphRegionQuality@quality_type等于1,则sphRegionQuality.qualityInfo@orig_width和sphRegionQuality.qualityInfo@orig_height表示已从其提取覆盖视区的封装区域的单视场投影图片的宽度和高度。否则,可使用VisualSampleEntry的宽度和高度得出视区上的分辨率。
图19C至图19D是示出根据本公开的一种或多种技术的发送信号通知元数据的示例的计算机程序列表。图19C至图19D示出了与相对于表19B所述的示例性SRQR描述符相对应的定义XML模式的示例。在一个示例中,表19B中的元素和属性的数据类型将如在图19C至图19D中的模式中所定义的。在一个示例中,图19C至图19D中所示的模式应该以具有名称空间—urn:mpeg:mpegI:omaf:2017的XML模式表示。
在一个示例中,根据本文所述的技术,媒体呈现描述生成器502可以被配置为生成2D逐区域质量排名描述符。在一个示例中,2D逐区域质量排名描述符可以基于以下示例性定义:
@schemeIdUri属性等于“urn:mpeg:omaf:2dqr:2017”的SupplementalProperty元素被称为2D逐区域质量排名(2DQR)描述符。在自适应集级别下,最多可以存在一个2DQR描述符。在表示级别下,最多可以存在一个2DQR描述符。在MPD级别下,不应存在2DQR描述符。2DQR描述符指示质量排名2D区域相对于同一自适应集中的其他质量排名2D区域并且相对于在DASH视点元素中具有与包含该2DQR描述符或包含含有该2DQR描述符的表示的自适应集相同的@value的所有自适应集中的2DQR描述符和@qualityRanking值的质量排名值。当质量排名值twoDRegionQuality.twoDqualityinfo@quality_ranking为非零时,在整个指示的质量排名2D区域内的图片质量大致恒定。2DQR描述符的@value属性应不存在。2DQR描述符应包括具有如表20中所指定的子元素和属性的twoDRegionQuality元素:
Figure BDA0002353990560001061
Figure BDA0002353990560001071
Figure BDA0002353990560001081
表20A
图20是示出根据本公开的一种或多种技术的发送信号通知元数据的示例的计算机程序列表。图20示出了与相对于表20A所述的示例性2DQR描述符相对应的定义XML模式的示例。在一个示例中,表20A中的元素和属性的数据类型将如在图20中的模式中所定义的。在一个示例中,图20中所示的模式应该以具有名称空间—urn:mpeg:mpegB:omaf:2017的XML模式表示。
在另一示例中,图21是示出根据本公开的一种或多种技术的发送信号通知元数据的示例的计算机程序列表。图21示出了与相对于表20A所述的示例性2DQR描述符相对应的定义XML模式的示例。在一个示例中,表20A中的元素和属性的数据类型将如在图21中的模式中所定义的。在一个示例中,图121中所示的模式应该以具有名称空间—urn:mpeg:mpegB:omaf:2017的XML模式表示。
应当指出的是,图20和图21中的计算机程序列表之间的差异是图21中的差异,在图20中需要属性twoDRegionQuality@remaining_area_flag、twoDRegionQuality@view_idc_presence_flag的情况下,这些属性是任选的。使这些属性是任选的并为其分配默认值在发送信号通知时节省了位。
在一个示例中,可以将以下约束应用于2DQR描述符:
-当twoDRegionQuality@remaining_area_flag等于0时,所有twoDRegionQuality.twoDqualityInfo元素应使属性twoDRegionQuality.twoDqualityInfo@left_offset、twoDRegionQuality.twoDqualityInfo@top_offset、twoDRegionQuality.twoDqualityInfo@region_width、twoDRegionQuality.twoDqualityInfo@region_height中的每一者均存在。
-当twoDRegionQuality@remaining_area_flag等于1时,仅一个twoDRegionQuality.twoDqualityInfo元素应使属性twoDRegionQuality.twoDqualityInfo@left_offset、twoDRegionQuality.twoDqualityInfo@top_offset、twoDRegionQuality.twoDqualityInfo@region_width、twoDRegionQuality.twoDqualityInfo@region_height中的每一者均不存在,并且所有其他twoDRegionQuality.twoDqualityInfo元素应使属性twoDRegionQuality.twoDqualityInfo@left_offset、twoDRegionQuality.twoDqualityInfo@top_offset、twoDRegionQuality.twoDqualityInfo@region_width、twoDRegionQuality.twoDqualityInfo@region_height中的每一者均存在。
在一个示例中,根据本文所述的技术,媒体呈现描述生成器502可以被配置为基于以下示例性定义来生成2D逐区域质量排名描述符:
@schemeIdUri属性等于“urn:mpeg:omaf:2dqr:2017”的SupplementalProperty元素被称为2D逐区域质量排名(2DQR)描述符。在自适应集级别下,最多可以存在一个2DQR描述符。在表示级别下,最多可以存在一个2DQR描述符。在MPD级别下,不应存在2DQR描述符。2DQR描述符指示质量排名2D区域相对于同一自适应集中的其他质量排名2D区域并且相对于在DASH视点元素中具有与包含该2DQR描述符或包含含有该2DQR描述符的表示的自适应集相同的@value的所有自适应集中的2DQR描述符和@qualityRanking值的质量排名值。当质量排名值twoDRegionQuality.twoDqualityinfo@quality_ranking为非零时,在整个指示的质量排名2D区域内的图片质量大致恒定。2DQR描述符的@value属性应不存在。2DQR描述符应包括具有如表20B中所指定的子元素和属性的twoDRegionQuality元素:
Figure BDA0002353990560001101
Figure BDA0002353990560001111
Figure BDA0002353990560001121
Figure BDA0002353990560001131
表20B
注:建议播放器解析2D逐区域质量排名(2DQR)描述符,并通过以下方式选择与用户的观看取向匹配的自适应集和表示:
-覆盖视区的区域上的质量排名值大于0且小于其他区域的质量排名值。
-覆盖视区的区域的分辨率适用于显示器。如果twoDRegionQuality@quality_type等于1,则twopDRegionQuality.qualityInfo@orig_width和twoDRegionQuality.qualityInfo@orig_height表示已从其提取覆盖视区的封装区域的单视场投影图片的宽度和高度。否则,可使用VisualSampleEntry的宽度和高度得出视区上的分辨率。
图22是示出根据本公开的一种或多种技术的发送信号通知元数据的示例的计算机程序列表。图22示出了与相对于表20B所述的示例性2DQR描述符相对应的定义XML模式的示例。在一个示例中,表20B中的元素和属性的数据类型将如在图22中的模式中所定义的。在一个示例中,图22中所示的模式应该以具有名称空间—urn:mpeg:mpegI:omaf:2017的XML模式表示。
如上所示,Choi指定全向鱼眼视频格式。在一个示例中,根据本文所述的技术,媒体呈现描述生成器502可以被配置为生成鱼眼全向视频(FOMV)描述符。在一个示例中,鱼眼全向视频描述符可以基于以下示例性定义:
@schemeIdUri属性等于“urn:mpeg:omaf:fomv:2017”的SupplementalProperty元素被称为鱼眼全向视频(FOMV)描述符。在自适应集级别下,最多可以存在一个FOMV描述符。在MPD或表示级别下,不应存在FOMV描述符。FOMV描述符指示每个表示均携带包含FisheyeOmniVideoBox的鱼眼全向视频轨道。FOMV描述符的@value属性应不存在。FOMV描述符应包括omaf:@view_dimension_idc属性,其值应如表21中所指定的:
Figure BDA0002353990560001141
表21
图23是示出根据本公开的一种或多种技术的发送信号通知元数据的示例的计算机程序列表。图23示出了与相对于表21所述的示例性FOMV描述符相对应的定义XML模式的示例。在一个示例中,表21中的元素和属性的数据类型将如在图23中的模式中所定义的。在一个示例中,图23中所示的模式应该以具有名称空间—urn:mpeg:mpegI:omaf:2017的XML模式表示。
这样,媒体呈现描述生成器502表示被配置为根据本文所述的一种或多种技术发送信号通知与虚拟现实应用程序相关联的信息的设备的示例。
再次参见图1,接口108可以包括被配置为接收由数据封装器107生成的数据并且将数据发送和/或存储到通信介质的任何设备。接口108可以包括网络接口卡诸如以太网卡,并且可以包括光收发器、射频收发器或者可以发送和/或接收信息的任何其他类型的设备。此外,接口108可以包括计算机系统接口,该计算机系统接口可以使文件能够存储在存储设备上。例如,接口108可以包括支持外围组件互连(PCI)和高速外围部件互连(PCIe)总线协议的芯片组、专用总线协议、通用串行总线(USB)协议、I2C、或可用于互连对等设备的任何其他逻辑和物理结构。
再次参考图1,目标设备120包括接口122、数据解封装器123、视频解码器124和显示器126。接口122可以包括被配置为从通信介质接收数据的任何设备。接口122可以包括网络接口卡诸如以太网卡,并且可以包括光收发器、射频收发器或者可接收和/或发送信息的任何其他类型的设备。此外,接口122可以包括计算机系统接口,使得能够从存储设备检索合规的视频比特流。例如,接口122可包括支持PCI和PCIe总线协议、专用总线协议、USB协议、I2C的芯片组,或者可用于互连对等设备的任何其他逻辑和物理结构。数据解封装器123可被配置为接收由数据加密器107生成的比特流,并且根据本文描述的一种或多种技术执行子比特流提取。
视频解码器124可以包括被配置为接收比特流和/或其可接受变体,并且从其再现视频数据的任何设备。显示器126可以包括被配置为显示视频数据的任何设备。显示器126可以包括各种显示设备诸如液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一种类型的显示器中的一种。显示器126可以包括高清显示器或超高清显示器。显示器126可以包括立体显示器。应当指出的是,虽然在图1所示的示例中,视频解码器124被描述为将数据输出到显示器126,但视频解码器124可被配置为将视频数据输出到各种类型的设备和/或其子部件。例如,视频解码器124可被配置为将视频数据输出到任何通信介质,如本文所述。目标设备120可以包括接收设备。
图9是示出可实现本公开的一种或多种技术的接收器设备的示例的框图。也就是说,接收器设备600可以被配置为基于上文相对于上述表中的一者或多者描述的语义来解析信号。接收器设备600是计算设备的示例,其可以被配置为从通信网络接收数据并允许用户访问多媒体内容(包括虚拟现实应用程序)。在图9所示的示例中,接收器设备600被配置为经由电视网络(例如,上述电视服务网络404)接收数据。此外,在图9所示的示例中,接收器设备600被配置为经由广域网发送和接收数据。应当指出的是,在其他示例中,接收器设备600可以被配置为通过电视服务网络404简单地接收数据。本文所述的技术可以由被配置为利用通信网络的任意组合和所有组合进行通信的设备使用。
如图9中所示,接收器设备600包括中央处理单元602、系统存储器604、系统接口610、数据提取器612、音频解码器614、音频输出系统616、视频解码器618、显示系统620、I/O设备622和网络接口624。如图9所示,系统存储器604包括操作系统606和应用程序608。中央处理单元602、系统存储器604、系统接口610、数据提取器612、音频解码器614、音频输出系统616、视频解码器618、显示系统620、I/O设备622和网络接口624中的每一个可以互连(物理地、通信地和/或可操作地)用于部件间的通信,并且可以实现为各种合适的电路中的任一种,诸如一个或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。应当指出的是,尽管接收器设备600被示出为具有不同的功能块,但是此类图示是出于描述的目的,并且不会将接收器设备600限制到特定的硬件构架。可以使用硬件、固件和/或软件具体实施的任意组合来实现接收器设备600的功能。
CPU 602可以被配置为实现用于在接收器设备600中执行的功能和/或处理指令。CPU 602可以包括单核和/或多核中央处理单元。CPU 602能够检索和处理用于实现本文所述技术中的一种或多种的指令、代码和/或数据结构。指令可以存储在计算机可读介质上,诸如系统存储器604。
系统存储器604可以被描述为非暂态或有形计算机可读存储介质。在一些示例中,系统存储器604可以提供临时和/或长期存储。在一些示例中,系统存储器604或其部分可以被描述为非易失性存储器,并且在其他示例中,系统存储器604的部分可以被描述为易失性存储器。系统存储器604可以被配置为存储可在操作期间由接收器设备600使用的信息。系统存储器604可以用于存储程序指令以供CPU 602执行,并且可以由在接收器设备600上运行的程序使用以在程序执行期间临时存储信息。此外,在其中接收器设备600作为数字视频录像机的一部分被包括的示例中,系统存储器604可以被配置为存储多个视频文件。
应用程序608可以包括在接收器设备600内实现或由其执行的应用程序,并且可以被实现或包含在接收器设备600的部件内,可以由该计算设备的部件操作、执行,并且/或者可操作地/通信地耦接到该计算设备的部件。应用程序608可以包括可使接收器设备600的CPU 602执行特定功能的指令。应用程序608可以包括在计算机编程语句中表达的算法,诸如for循环、while循环、if语句、do循环等。可以使用指定的编程语言来开发应用程序608。编程语言的示例包括JavaTM、JiniTM、C、C++、Objective C、swift、Perl、Python、PhP、UNIXShell、Visual Basic和Visual Basic Script。在其中接收器设备600包括智能电视的示例中,应用程序可以由电视制造商或广播公司开发。如图9所示,应用程序608可以结合操作系统606执行。也就是说,操作系统606可以被配置为促进应用程序608与CPU 602以及接收器设备600的其他硬件部件的交互。操作系统606可以是被设计为安装在机顶盒、数字视频录像机、电视等上的操作系统。应当指出的是,本文描述的技术可以被配置为利用软件架构的任何和所有组合进行操作的设备使用。
系统接口610可以被配置为启用接收器设备600的部件之间的通信。在一个示例中,系统接口610包括使数据能够从一个对等设备传输到另一个对等设备或传输到存储介质的结构。例如,系统接口610可以包括支持基于加速图形端口(AGP)的协议、基于外围部件互连(PCI)总线的协议(诸如PCI ExpressTM(PCIe)总线规范)的芯片组,其由外围部件互连专门兴趣组或者可用于互连对等设备的任何其他形式的结构(例如,专用总线协议)维护。
如上所述,接收器设备600被配置为经由电视服务网络接收并任选地发送数据。如上所述,电视服务网络可以根据电信标准进行操作。电信标准可以定义通信属性(例如,协议层),例如物理信令、寻址、信道访问控制、数据包属性和数据处理。在图9所示的示例中,数据提取器612可以被配置为从信号中提取视频、音频和数据。可以根据例如DVB标准、ATSC标准、ISDB标准、DTMB标准、DMB标准和DOCSIS标准等方面来定义信号。
数据提取器612可以被配置为从信号中提取视频、音频和数据。也就是说,数据提取器612可以与服务分发引擎互逆的方式操作。此外,数据提取器612可以被配置为基于上述结构中的一者或多者的任意组合来解析链路层数据包。
数据分组可以由CPU 602、音频解码器614和视频解码器618来处理。音频解码器614可以被配置为接收和处理音频包。例如,音频解码器614可以包括被配置为实现音频编解码器的各方面的硬件和软件的组合。也就是说,音频解码器614可以被配置为接收音频包并将音频数据提供给音频输出系统616以进行呈现。音频数据可以使用多信道格式编码,诸如由杜比和数字影院系统开发的格式。可以使用音频压缩格式对音频数据进行编码。音频压缩格式的示例包括运动图像专家组(MPEG)格式、高级音频编码(AAC)格式、DTS-HD格式和杜比数字(AC-3)格式。音频输出系统616可以被配置为呈现音频数据。例如,音频输出系统616可以包括音频处理器、数字-模拟转换器、放大器和扬声器系统。扬声器系统可以包括各种扬声器系统中的任一种,诸如耳机、集成立体声扬声器系统、多扬声器系统或环绕声系统。
视频解码器618可以被配置为接收和处理视频包。例如,视频解码器618可以包括用于实现视频编解码器的各方面的硬件和软件的组合。在一个示例中,视频解码器618可以被配置为解码根据任何数量的视频压缩标准编码的视频数据,这些视频压缩标准诸如ITU-T H.262或ISO/IEC MPEG-2Visual、ISO/IEC MPEG-4Visual、ITU-T H.264(也称为ISO/IECMPEG-4高级视频编码(AVC))、以及高效视频编码(HEVC)。显示系统620可以被配置为检索和处理视频数据以供显示。例如,显示系统620可以从视频解码器618接收像素数据并输出数据以用于视觉呈现。此外,显示系统620可以被配置为结合视频数据(例如,图形用户界面)输出图形。显示系统620可以包括各种显示设备中的一者,诸如液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器、或能够向用户呈现视频数据的其他类型的显示设备。显示设备可以被配置为显示标准清晰度内容、高清晰度内容或超高清内容。
I/O设备622可以被配置为在接收器设备600的操作期间接收输入并提供输出。也就是说,I/O设备622可以使用户能够选择要呈现的多媒体内容。可以从输入设备处生成输入,诸如,按钮式遥控器、包括触敏屏幕的设备、基于运动的输入设备、基于音频的输入设备、或配置为接收用户输入的任何其他类型的设备。I/O设备622可以利用标准化通信协议可操作地耦接到接收器设备600,该标准化通信协议诸如通用串行总线协议(USB)、蓝牙、ZigBee或专有通信协议(诸如,专有的红外通信协议)。
网络接口624可以被配置为使接收器设备600能够经由局域网和/或广域网发送和接收数据。网络接口624可以包括网络接口卡,诸如以太网卡、光收发器、射频收发器或者被配置为发送和接收信息的任何其他类型的设备。网络接口624可以被配置为根据网络中利用的物理和媒体访问控制(MAC)层执行物理信令、寻址和信道访问控制。接收器设备600可以被配置为解析根据上文相对于图8所描述的任何技术生成的信号。这样,接收器设备600表示被配置为解析包括与虚拟现实应用程序相关联的信息的一个或多个语法元素的设备的示例。
在一个或多个示例中,所描述的功能可以通过硬件、软件、固件或其任何组合来实现。如果以软件实现,则可将功能作为一个或多个指令或代码存储在计算机可读介质上或经由计算机可读介质上传输,并且由基于硬件的处理单元执行。计算机可读介质可包括对应于有形介质诸如数据存储介质的计算机可读存储介质,或者包括例如根据通信协议促进计算机程序从某个地方传输到另一个地方的任何介质的传播介质。这样,计算机可读介质通常可对应于:(1)非暂态的有形计算机可读存储介质,或者(2)通信介质诸如信号或载波。数据存储介质可以是可以由一个或多个计算机或一个或多个处理器访问以检索用于实现本公开中描述的技术的指令、代码和/或数据结构的任何可用介质。计算机程序产品可以包括计算机可读介质。
以举例而非限制的方式,此类计算机可读存储介质可包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储设备、磁盘存储设备或其他磁存储设备、闪存存储器,或者可用于存储指令或数据结构形式的所需程序代码并且可由计算机访问的任何其他介质。而且,任何连接都被适当地称为计算机可读介质。例如,如果使用同轴电缆、光纤电缆、双绞线、数字用户线路(DSL)或无线技术诸如红外线、无线电和微波从网站、服务器或其他远程源传输指令,则同轴电缆、光纤电缆、双绞线、DSL或无线技术诸如红外线、无线电和微波都包含在介质的定义中。然而,应当理解,计算机可读存储介质和数据存储介质不包括连接、载波、信号或其他暂态介质,而是针对非暂态有形存储介质。如本文所用,磁盘和光盘包括压缩光盘(CD)、激光盘、光学光盘、数字通用光盘(DVD)、软磁盘及Blu-ray光盘,其中磁盘通常以磁性方式复制数据,而光盘则利用激光以光学方式复制数据。上述的组合也应该包括在计算机可读介质的范围内。
可以由一个或多个处理器诸如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其他等效集成或离散逻辑电路执行指令。因此,如本文所使用的术语“处理器”可以指任何前述结构或适用于实现本文所描述的技术的任何其他结构。此外,在一些方面中,可以在被配置用于编码和解码的专用硬件和/或软件模块内提供本文描述的功能,或者将其结合到组合编解码器中。而且,这些技术可以完全在一个或多个电路或逻辑元件中实现。
本公开的技术可以在各种设备或装置包括无线手机、集成电路(IC)或一组IC(例如,芯片组)中实现。在本公开中描述了各种部件、模块或单元,以强调被配置为执行所公开的技术的设备的功能方面,但是不一定需要通过不同的硬件单元来实现。相反,如上所述,可以将各种单元组合在编解码器硬件单元中,或者通过互操作硬件单元包括如上所述的一个或多个处理器的集合,结合合适的软件和/或固件来提供各种单元。
此外,每个上述实施方案中所使用的基站设备和终端设备的每个功能块或各种特征可通过电路(通常为一个集成电路或多个集成电路)实施或执行。被设计为执行本说明书中所述的功能的电路可包括通用处理器、数字信号处理器(DSP)、专用或通用集成电路(ASIC)、现场可编程门阵列(FPGA),或其他可编程逻辑设备、分立栅极或晶体管逻辑器,或分立硬件部件,或它们的组合。通用处理器可为微处理器,或另选地,该处理器可为常规处理器、控制器、微控制器或状态机。通用处理器或上述每种电路可由数字电路进行配置,或可由模拟电路进行配置。此外,当由于半导体技术的进步而出现制成取代当前集成电路的集成电路的技术时,也能够使用通过该技术生产的集成电路。
已经描述了各种示例。这些示例和其他示例在以下权利要求的范围内。
<概述>
在一个示例中,发送信号通知与全向视频相关联的信息的方法包括使用媒体呈现描述文档来发送信号通知与全向视频相关联的逐区域质量排名信息,其中使用媒体呈现描述文档来发送信号通知与全向视频相关联的逐区域质量排名信息包括使用由定界符包围的逗号分隔列表来发送信号通知一组值。
在一个示例中,设备包括一个或多个处理器,该一个或多个处理器被配置为使用媒体呈现描述文档来发送信号通知与全向视频相关联的逐区域质量排名信息,其中使用媒体呈现描述文档来发送信号通知与全向视频相关联的逐区域质量排名信息包括使用由定界符包围的逗号分隔列表来发送信号通知一组值。
在一个示例中,非暂态计算机可读存储介质包括存储在其上的指令,该指令在被执行时,使得设备的一个或多个处理器使用媒体呈现描述文档来发送信号通知与全向视频相关联的逐区域质量排名信息,其中使用媒体呈现描述文档来发送信号通知与全向视频相关联的逐区域质量排名信息包括使用由定界符包围的逗号分隔列表来发送信号通知一组值。
在一个示例中,装置包括用于以下操作的装置:使用媒体呈现描述文档来发送信号通知与全向视频相关联的逐区域质量排名信息,其中使用媒体呈现描述文档来发送信号通知与全向视频相关联的逐区域质量排名信息包括使用由定界符包围的逗号分隔列表来发送信号通知一组值。
在一个示例中,确定与全向视频相关联的信息的方法包括使用媒体呈现描述文档来解析与全向视频相关联的逐区域质量排名信息,其中使用媒体呈现描述文档来解析与全向视频相关联的逐区域质量排名信息包括从由定界符包围的逗号分隔列表解析一组值。
在一个示例中,设备包括一个或多个处理器,该一个或多个处理器被配置为使用媒体呈现描述文档来解析与全向视频相关联的逐区域质量排名信息,其中使用媒体呈现描述文档来解析与全向视频相关联的逐区域质量排名信息包括从由定界符包围的逗号分隔列表解析一组值。
在一个示例中,非暂态计算机可读存储介质包括存储在其上的指令,该指令在被执行时,使得设备的一个或多个处理器使用媒体呈现描述文档来解析与全向视频相关联的逐区域质量排名信息,其中使用媒体呈现描述文档来解析与全向视频相关联的逐区域质量排名信息包括从由定界符包围的逗号分隔列表解析一组值。
在一个示例中,装置包括用于以下操作的装置:使用媒体呈现描述文档来解析与全向视频相关联的逐区域质量排名信息,其中使用媒体呈现描述文档来解析与全向视频相关联的逐区域质量排名信息包括从由定界符包围的逗号分隔列表解析一组值。
<交叉引用>
本非临时申请根据35U.S.C.§119要求2017年7月6日的临时申请62/529,429和2017年7月8日的临时申请62/530,136、2017年7月9日的临时申请62/530,253、2017年10月10日的临时申请62/570,540、2017年10月13日的临时申请62/572,312和2017年11月14日的临时申请62/585,864的优先权,这些文献的全部内容据此以引用方式并入。

Claims (11)

1.一种发送信号通知与全向视频相关联的信息的方法,所述方法包括:
使用媒体呈现描述文档来发送信号通知与全向视频相关联的逐区域质量排名信息,其中使用媒体呈现描述文档来发送信号通知与全向视频相关联的逐区域质量排名信息包括使用由定界符包围的逗号分隔列表来发送信号通知一组值。
2.一种确定与全向视频相关联的信息的方法,所述方法包括:
使用媒体呈现描述文档来解析与全向视频相关联的逐区域质量排名信息,其中使用媒体呈现描述文档来解析与全向视频相关联的逐区域质量排名信息包括从由定界符包围的逗号分隔列表解析一组值。
3.根据权利要求1或2中任一项所述的方法,其中所述一组值包括质量排名值、视图指示符值、中心点偏航值、中心点俯仰值、滚动角值、水平范围值和垂直范围值。
4.一种发送信号通知与全向视频相关联的信息的方法,所述方法包括:
使用媒体呈现描述文档来发送信号通知与全向视频相关联的投影类型或逐区域封装信息,其中使用媒体呈现描述文档来发送信号通知与全向视频相关联的所述信息包括发送信号通知无符号字节列表。
5.一种确定与全向视频相关联的信息的方法,所述方法包括:
使用媒体呈现描述文档来解析与全向视频相关联的投影类型或逐区域封装信息,其中使用媒体呈现描述文档来解析与全向视频相关联的所述信息包括解析无符号字节列表。
6.一种发送信号通知与全向视频相关联的信息的方法,所述方法包括:
使用媒体呈现描述文档来发送信号通知与全向视频相关联的逐区域质量排名信息,其中使用媒体呈现描述文档来发送信号通知与全向视频相关联的逐区域质量排名信息包括发送信号通知具有一组共用属性的顶级元素。
7.一种确定与全向视频相关联的信息的方法,所述方法包括:
使用媒体呈现描述文档来解析与全向视频相关联的逐区域质量排名信息,其中使用媒体呈现描述文档来解析与全向视频相关联的逐区域质量排名信息包括解析具有一组共用属性的顶级元素。
8.根据权利要求1至7中任一项所述的方法,其中媒体呈现描述文档包括标记语言片段。
9.一种设备,所述设备包括被配置为执行根据权利要求1至8所述的步骤的任意组合和全部组合的一个或多个处理器。
10.一种装置,所述装置包括用于执行根据权利要求1至8所述的步骤的任意组合和全部组合的装置。
11.一种包括存储在其上的指令的非暂态计算机可读存储介质,所述指令在被执行时,使得设备的一个或多个处理器执行根据权利要求1至8所述的步骤的任意组合和全部组合。
CN201880044688.XA 2017-07-06 2018-07-04 用于针对虚拟现实应用程序发送信号通知视图信息的系统和方法 Pending CN110832873A (zh)

Applications Claiming Priority (13)

Application Number Priority Date Filing Date Title
US201762529429P 2017-07-06 2017-07-06
US62/529429 2017-07-06
US201762530136P 2017-07-08 2017-07-08
US62/530136 2017-07-08
US201762530253P 2017-07-09 2017-07-09
US62/530253 2017-07-09
US201762570540P 2017-10-10 2017-10-10
US62/570540 2017-10-10
US201762572312P 2017-10-13 2017-10-13
US62/572312 2017-10-13
US201762585864P 2017-11-14 2017-11-14
US62/585864 2017-11-14
PCT/JP2018/025312 WO2019009319A1 (en) 2017-07-06 2018-07-04 SYSTEMS AND METHODS FOR VIEWING INFORMATION SIGNALING FOR VIRTUAL REALITY APPLICATIONS

Publications (1)

Publication Number Publication Date
CN110832873A true CN110832873A (zh) 2020-02-21

Family

ID=64950064

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880044688.XA Pending CN110832873A (zh) 2017-07-06 2018-07-04 用于针对虚拟现实应用程序发送信号通知视图信息的系统和方法

Country Status (4)

Country Link
US (1) US20200120326A1 (zh)
EP (1) EP3649790A4 (zh)
CN (1) CN110832873A (zh)
WO (1) WO2019009319A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2554877B (en) * 2016-10-10 2021-03-31 Canon Kk Methods, devices, and computer programs for improving rendering display during streaming of timed media data
WO2019069301A1 (en) * 2017-10-03 2019-04-11 Amimon Ltd. VIDEO COMPRESSION SYSTEM
US11451838B2 (en) * 2017-12-07 2022-09-20 Koninklijke Kpn N.V. Method for adaptive streaming of media
US11516454B2 (en) * 2018-04-05 2022-11-29 Samsung Electronics Co., Ltd. Method and device for transmitting information on three-dimensional content including multiple view points
KR102188270B1 (ko) * 2018-07-06 2020-12-09 엘지전자 주식회사 360 비디오 데이터의 서브픽처 기반 처리 방법 및 그 장치
WO2020008758A1 (ja) * 2018-07-06 2020-01-09 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
US11457231B2 (en) 2019-03-15 2022-09-27 Mediatek Singapore Pte. Ltd. Methods and apparatus for signaling spatial relationships for point cloud multimedia data tracks
US20220150296A1 (en) * 2019-03-15 2022-05-12 Nokia Technologies Oy Method and apparatus for grouping entities in media content
US11245926B2 (en) * 2019-03-19 2022-02-08 Mediatek Singapore Pte. Ltd. Methods and apparatus for track derivation for immersive media data tracks

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106101610A (zh) * 2015-05-01 2016-11-09 株式会社理光 图像显示系统、信息处理设备和图像显示方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106101610A (zh) * 2015-05-01 2016-11-09 株式会社理光 图像显示系统、信息处理设备和图像显示方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BYEONGDOO CHOI等: "Text of ISO/IEC DIS 23090-2 Omnidirectional Media Format", 《ISO/IEC JTC1/SC29/WG11 N16824,APRIL 2017, HOBART, AUSTRALIA》 *
QUALCOMM INCORPORATED: "FS_VR: OMAF Progress", 《3GPP TSG-SA4 MEETING #93 BUSAN,REPUBLIC OF KOREA,24-28 APRIL 2017 S4-170324》 *

Also Published As

Publication number Publication date
WO2019009319A1 (en) 2019-01-10
EP3649790A1 (en) 2020-05-13
EP3649790A4 (en) 2021-01-06
US20200120326A1 (en) 2020-04-16

Similar Documents

Publication Publication Date Title
CN110832873A (zh) 用于针对虚拟现实应用程序发送信号通知视图信息的系统和方法
WO2019189038A1 (en) Systems and methods for signaling camera parameter information
US20210211780A1 (en) Systems and methods for signaling sub-picture timed metadata information
WO2019194241A1 (en) Systems and methods for signaling sub-picture composition information for virtual reality applications
WO2019146601A1 (en) Systems and methods for signaling position information
CN110574381B (zh) 解析全向视频质量信息语法元素的方法及设备
CN110832866A (zh) 用于在虚拟现实应用程序中发送信号通知与组成图片相关联的信息的系统和方法
WO2020184645A1 (en) Systems and methods for signaling viewpoint information in omnidirectional media
CN111587577A (zh) 用于针对虚拟现实应用程序发送信号通知子图片组合信息的系统和方法
WO2019235305A1 (en) Systems and methods for signaling overlay information
US20200221104A1 (en) Systems and methods for signaling a projected region for virtual reality applications
US20200382809A1 (en) Systems and methods for signaling of information associated with most-interested regions for virtual reality applications
WO2021125117A1 (en) Systems and methods for signaling information for a mesh in omnidirectional media
WO2021137300A1 (en) Systems and methods for signaling viewpoint switching information in omnidirectional media
WO2021075407A1 (en) Systems and methods for enabling interactivity for actionable locations in omnidirectional media
WO2020141604A1 (en) Systems and methods for signaling camera parameter information
WO2021125185A1 (en) Systems and methods for signaling viewpoint looping information in omnidirectional media
WO2019203102A1 (en) Systems and methods for signaling application specific messages in a virtual reality application
WO2018179843A1 (en) Systems and methods for signaling information for virtual reality applications
WO2019139052A1 (en) Systems and methods for signaling source information for virtual reality applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200221