CN116569557A - 支持以样本为单位的随机访问的媒体文件生成/接收方法和设备及发送媒体文件的方法 - Google Patents
支持以样本为单位的随机访问的媒体文件生成/接收方法和设备及发送媒体文件的方法 Download PDFInfo
- Publication number
- CN116569557A CN116569557A CN202180083772.4A CN202180083772A CN116569557A CN 116569557 A CN116569557 A CN 116569557A CN 202180083772 A CN202180083772 A CN 202180083772A CN 116569557 A CN116569557 A CN 116569557A
- Authority
- CN
- China
- Prior art keywords
- sample
- media file
- samples
- sprite
- picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 124
- 238000011084 recovery Methods 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims description 32
- 238000013507 mapping Methods 0.000 claims description 11
- 230000000750 progressive effect Effects 0.000 claims description 5
- 108091000069 Cystinyl Aminopeptidase Proteins 0.000 claims 18
- 102100020872 Leucyl-cystinyl aminopeptidase Human genes 0.000 claims 18
- 239000000523 sample Substances 0.000 description 361
- 238000013139 quantization Methods 0.000 description 48
- 230000005540 biological transmission Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 20
- 238000001914 filtration Methods 0.000 description 20
- 230000003044 adaptive effect Effects 0.000 description 19
- 230000009466 transformation Effects 0.000 description 12
- AWSBQWZZLBPUQH-UHFFFAOYSA-N mdat Chemical compound C1=C2CC(N)CCC2=CC2=C1OCO2 AWSBQWZZLBPUQH-UHFFFAOYSA-N 0.000 description 10
- 230000002123 temporal effect Effects 0.000 description 10
- 239000012634 fragment Substances 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 8
- FMYKJLXRRQTBOR-UBFHEZILSA-N (2s)-2-acetamido-4-methyl-n-[4-methyl-1-oxo-1-[[(2s)-1-oxohexan-2-yl]amino]pentan-2-yl]pentanamide Chemical group CCCC[C@@H](C=O)NC(=O)C(CC(C)C)NC(=O)[C@H](CC(C)C)NC(C)=O FMYKJLXRRQTBOR-UBFHEZILSA-N 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 3
- 241000023320 Luma <angiosperm> Species 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000005538 encapsulation Methods 0.000 description 3
- OSWPMRLSEDHDFF-UHFFFAOYSA-N methyl salicylate Chemical compound COC(=O)C1=CC=CC=C1O OSWPMRLSEDHDFF-UHFFFAOYSA-N 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000002265 prevention Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000002146 bilateral effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 239000013074 reference sample Substances 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 208000031212 Autoimmune polyendocrinopathy Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 235000019395 ammonium persulphate Nutrition 0.000 description 1
- 238000000261 appearance potential spectroscopy Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 229920000069 polyphenylene sulfide Polymers 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/132—Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/172—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/188—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a video data packet, e.g. a network abstraction layer [NAL] unit
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/30—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/46—Embedding additional information in the video signal during the compression process
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/70—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/236—Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/434—Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/4402—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
提供了支持以样本为单位的随机访问的媒体文件生成/接收方法和设备以及发送媒体文件的方法。根据本公开的媒体文件接收方法包括以下步骤:从媒体文件获取一个或更多个轨道和样本组;以及通过基于样本组恢复包括在轨道中的样本来处理媒体文件内的视频数据。基于轨道内存在已经映射至特定类型的流访问点样本组或随机访问恢复点样本组的样本,映射样本当中的当前样本可以被限制为包括至少一个帧内随机访问点(IRAP)子画面;并且基于当前样本包括非IRAP子画面,属于与当前样本相同的编码层视频序列(CLVS)并且按解码顺序在当前样本之后的样本可以被限制为包括具有与非IRAP子画面相同的子画面索引值的至少一个IRAP子画面。
Description
技术领域
本公开涉及用于生成/接收媒体文件的方法和设备,并且更具体地,涉及用于生成/接收支持以样本为单位的随机访问的媒体文件的方法和设备以及发送通过用于生成本公开的媒体文件的方法/设备生成的媒体文件的方法。
背景技术
近来,对诸如360度图像的高分辨率且高质量图像的需求正在增加。随着图像的分辨率或质量增加,文件大小或帧速率增加,这不可避免地增加了存储成本和传输成本。另外,随着诸如智能电话和平板PC的移动装置变得流行,对基于通信网络的多媒体服务的需求正在迅速增加。然而,存在用于多媒体服务的硬件和网络资源受到限制的问题。
因此,需要用于更有效地存储和发送图像数据的高效图像压缩和文件处理技术。
发明内容
技术问题
根据本公开,本公开的目的是提供用于生成/接收支持以样本为单位的随机访问的媒体文件的方法和设备。
根据本公开,本公开的目的是提供用于生成/接收媒体文件的方法和设备,其中,当发生随机访问时,当前样本被约束为包括IRAP子画面。
根据本公开,本公开的目的是提供用于生成/接收媒体文件的方法和设备,其中,当发生随机访问时,当前样本的TemporalId值被约束为0。
本公开的一个目的是提供一种发送通过根据本公开的媒体文件生成方法或设备生成的媒体文件的方法。
本公开的一个目的是提供一种存储通过根据本公开的媒体文件生成方法或设备生成的媒体文件的记录介质。
本公开的一个目的是提供一种存储通过根据本公开的媒体文件接收设备接收并用于重构图像的媒体文件的记录介质。
本公开所解决的技术问题不限于上述技术问题,本领域技术人员通过以下描述将清楚此处未描述的其它技术问题。
技术方案
根据本公开的一个方面的媒体文件接收方法可以包括以下步骤:从媒体文件获得一个或更多个轨道和样本组;以及通过基于所述样本组重构包括在所述轨道中的样本来处理所述媒体文件中的视频数据。基于所述轨道中存在映射至预定类型的流访问点样本组或随机访问恢复点样本组的样本,映射样本当中的当前样本可以被约束为包括至少一个帧内随机访问点(IRAP)子画面,并且基于所述当前样本包括非IRAP子画面,属于与所述当前样本相同的编码层视频序列(CLVS)并且按解码顺序在所述当前样本之后的样本可以被约束为包括具有与所述非IRAP子画面相同的子画面索引值的至少一个IRAP子画面。
根据本公开的另一方面的媒体文件接收设备可以包括存储器和至少一个处理器。所述至少一个处理器可以从媒体文件获得一个或更多个轨道和样本组并且通过基于所述样本组重构包括在所述轨道中的样本来处理所述媒体文件中的视频数据。基于所述轨道中存在映射至预定类型的流访问点样本组或随机访问恢复点样本组的样本,映射样本当中的当前样本可以被约束为包括至少一个帧内随机访问点(IRAP)子画面;并且基于所述当前样本包括非IRAP子画面,属于与所述当前样本相同的编码层视频序列(CLVS)并且按解码顺序在所述当前样本之后的样本可以被约束为包括具有与所述非IRAP子画面相同的子画面索引值的至少一个IRAP子画面。
根据本公开的另一方面的媒体文件生成方法可以包括以下步骤:对所述视频数据进行编码;针对经编码的视频数据生成一个或更多个轨道和样本组;以及基于所生成的轨道和样本组生成所述媒体文件。基于所述轨道中存在映射至预定类型的流访问点样本组或随机访问恢复点样本组的样本,映射样本当中的当前样本可以被约束为包括至少一个帧内随机访问点(IRAP)子画面,并且基于所述当前样本包括非IRAP子画面,属于与所述当前样本相同的编码层视频序列(CLVS)并且按解码顺序在所述当前样本之后的样本可以被约束为包括具有与所述非IRAP子画面相同的子画面索引值的至少一个IRAP子画面。
根据本公开的另一方面的媒体文件生成设备可以包括存储器和至少一个处理器。所述至少一个处理器可以对视频数据进行编码;针对所编码的视频数据,生成一个或更多个轨道和样本组;并且基于所生成的轨道和样本组生成媒体文件。基于所述轨道中存在映射至预定类型的流访问点样本组或随机访问恢复点样本组的样本,映射样本当中的当前样本可以被约束为包括至少一个帧内随机访问点(IRAP)子画面;并且基于所述当前样本包括非IRAP子画面,属于与所述当前样本相同的编码层视频序列(CLVS)并且按解码顺序在所述当前样本之后的样本可以被约束为包括具有与所述非IRAP子画面相同的子画面索引值的至少一个IRAP子画面。
在根据本公开的另一方面的媒体文件发送方法中,可以发送通过本公开的媒体文件生成方法或设备生成的媒体文件。
根据本公开的另一方面的计算机可读记录介质可以存储通过本公开的媒体文件生成方法或设备生成的媒体文件。
以上关于本公开的简要概述的特征仅仅是本公开的以下详细描述的示例性方面,并不限制本公开的范围。
有利效果
根据本公开,可以提供用于生成/接收支持以样本为单位的随机访问的媒体文件的方法和设备。
根据本公开,可以提供用于生成/接收媒体文件的方法和设备,其中,当发生随机访问时,当前样本被约束为包括IRAP子画面。
根据本公开,可以提供用于生成/接收媒体文件的方法和设备,其中,当发生随机访问时,当前样本的TemporalId值被约束为0。
根据本公开,可以提供一种发送通过根据本公开的媒体文件生成方法或设备生成的媒体文件的方法。
根据本公开,可以提供存储通过根据本公开的媒体文件生成方法或设备生成的媒体文件的记录介质。
根据本公开,可以提供存储通过根据本公开的媒体文件接收设备接收并且用于重构图像的媒体文件的记录介质。
本领域技术人员将理解,通过本公开可以实现的效果不限于上文具体描述的内容,并且根据详细描述将更清楚地理解本公开的其它优点。
附图说明
图1是示意性地例示根据本公开的实施方式的媒体文件发送/接收系统的图。
图2是例示媒体文件发送方法的流程图。
图3是例示媒体文件接收方法的流程图。
图4是示意性地例示根据本公开的一个实施方式的图像编码设备的图。
图5是示意性地例示根据本公开的一个实施方式的图像解码设备的图。
图6是例示针对经编码的图像/视频的层结构的示例的图。
图7是例示媒体文件结构的示例的图。
图8是例示图7的trak框结构的示例的图。
图9是例示图像信号结构的示例的图。
图10是例示根据现有VVC文件格式的样本中具有混合NAL单元的子画面的示例的图。
图11是例示根据本公开的一个实施方式的样本中具有混合NAL单元的子画面的示例的图。
图12是例示根据本公开的一个实施方式的确定样本特性的方法的流程图。
图13是例示根据本公开的一个实施方式的接收媒体文件的方法的流程图。
图14是例示根据本公开的一个实施方式的生成媒体文件的方法的流程图。
图15是示出本公开的一个实施方式可应用于的内容流传输系统的图。
具体实施方式
在下文中,将参照附图对本公开的实施方式进行详细描述,以易于本领域技术人员实现。然而,本公开可以以各种不同的形式实现,并且不限于本文描述的实施方式。
在描述本公开时,如果确定相关已知功能或构造的详细描述使本公开的范围不必要地含糊不清,则将省略其详细描述。在附图中,省略了与本公开的描述无关的部分,并且相似的附图标记被赋予相似的部分。
在本公开中,当一个组件“连接”、“联接”或“链接”到另一组件时,它不仅可以包括直接连接关系,还可以包括存在中间组件的间接连接关系。另外,当一个组件“包括”或“具有”其它组件时,除非另有说明,否则其意指还可以包括其它组件,而不是排除其它组件。
在本公开中,术语第一、第二等仅用于将一个组件与其它组件区分开的目的,并且除非另有说明,否则不限制组件的顺序或重要性。相应地,在本公开的范围内,一个实施方式中的第一组件在另一个实施方式中可以被称为第二组件,类似地,一个实施方式中的第二组件在另一个实施方式中可以被称为第一组件。
在本公开中,相互区分的组件旨在清楚地描述每个特征,并不意味着组件必须分开。即,多个组件可以集成并实现为一个硬件或软件单元中,或者一个组件可以分布并实现为多个硬件或软件单元。因此,即使没有特别说明,这些组件集成或组件分布的实施方式也包括在本公开的范围内。
在本公开中,各个实施方式中所描述的组件并不一定是必不可少的组件,一些组件可以是可选的组件。因此,由实施方式中描述的组件的子集组成的实施方式也包括在本公开的范围内。另外,除了在各种实施方式中描述的组件之外还包括其它组件的实施方式包括在本公开的范围内。
本公开涉及图像的编码和解码,除非在本公开中重新定义,否则本公开中使用的术语可以具有本公开所属技术领域中常用的一般含义。
在本公开中,“画面”通常是指表示特定时间段内的一个图像的单元,并且切片(slice)/拼块(tile)是构成画面的一部分的编码单元,一个画面可以由一个或更多个切片/拼块组成。另外,切片/拼块可以包括一个或更多个编码树单元(CTU)。
在本公开中,“像素”或“像元(pel)”可以意指构成一个画面(或图像)的最小单元。此外,“样本”可以用作对应于像素的术语。一个样本一般可以表示像素或像素的值,也可以仅表示亮度分量的像素/像素值或仅表示色度分量的像素/像素值。
在本公开中,“单元”可以表示图像处理的基本单元。该单元可以包括画面的特定区域和与该区域相关的信息中的至少一个。在某些情况下,该单元可以与诸如“样本阵列”、“块”或“区域”的术语互换使用。在一般情况下,M×N块可以包括M列N行的样本(或样本阵列)或变换系数的集合(或阵列)。
在本公开中,“当前块”可以意指“当前编码块”、“当前编码单元”、“编码目标块”、“解码目标块”或“处理目标块”中的一个。当执行预测时,“当前块”可以意指“当前预测块”或“预测目标块”。当执行变换(逆变换)/量化(解量化)时,“当前块”可以意指“当前变换块”或“变换目标块”。当执行滤波时,“当前块”可以意指“滤波目标块”。
另外,在本公开中,除非明确说明为色度块,“当前块”可以意指包括亮度分量块和色度分量块二者的块或“当前块的亮度块”。当前块的亮度分量块可以通过包括诸如“亮度块”或“当前亮度块”的亮度分量块的明确描述来表示。另外,“当前块的色度分量块”可以通过包括诸如“色度块”或“当前色度块”的色度分量块的明确描述来表示。
在本公开中,术语“/”或“,”可以解释为指示“和/或”。例如,“A/B”和“A,B”可以意指“A和/或B”。此外,“A/B/C”和“A/B/C”可以意指“A、B和/或C中的至少一个”。
在本公开中,术语“或”应被解释以指示“和/或”。例如,表达“A或B”可以包括1)仅“A”,2)仅“B”,或3)“A和B”两者。换言之,在本公开中,“或”应被解释以指示“附加地或另选地”。
媒体文件发送/接收系统的概述
图1是示意性地例示根据本公开的一个实施方式的媒体文件发送/接收系统的图。
参照图1,媒体文件发送/接收系统1可以包括发送设备A和接收设备B。在一些实施方式中,媒体文件发送/接收系统1可以支持基于MPEG-DASH(HTTP动态自适应流传输)的自适应流传输,从而支持无缝媒体内容再现。
发送设备A可以包括视频源10、编码器20、封装单元30、发送处理器40和发送器45。
视频源10可以生成或获得诸如视频或图像的媒体数据。为此,视频源10可以包括视频/图像拍摄装置和/或视频/图像生成装置,或者可以连接至外部装置以接收媒体数据。
编码器20可以对从视频源10接收的媒体数据进行编码。编码器20可以根据针对压缩和编码效率的视频编解码器标准(例如,通用视频编码(VVC)标准)执行诸如预测、变换以及量化的一系列过程。编码器20可以以比特流的形式输出经编码的媒体数据。
封装单元30可以对经编码的媒体数据和/或媒体数据相关元数据进行封装。例如,封装单元30可以对文件格式(例如,ISO基本媒体文件格式(ISO BMFF)或通用媒体应用格式(CMAF))的数据进行封装,或对分段形式的数据进行处理。在一些实施方式中,以文件的形式封装的媒体数据(下文称为“媒体文件”)可以存储在存储单元(未示出)中。存储在存储单元中的媒体文件可以由发送处理器40读取,并根据按需、非实时(NRT)或宽带方法发送至接收设备B。
发送处理器40可以通过根据任意发送方法处理媒体文件来生成图像信号。媒体文件发送方法可以包括广播方法和宽带方法。
根据广播方法,可以使用MPEG媒体传输(MMT)协议或单向传输实时对象传送(ROUTE)协议来发送媒体文件。MMT协议可以是与基于IP的网络环境中的文件格式或编解码器无关地支持媒体流传输的传输协议。在使用MMT协议的情况下,可以基于MMT在媒体处理单元(MPU)中处理媒体文件,然后根据MMT协议发送媒体文件。ROUTE协议是单向传输文件传送(FLUTE)的扩展,并且可以是支持媒体文件的实时传输的传输协议。在使用ROUTE协议的情况下,媒体文件可以基于MPEG-DASH被处理成一个或更多个分段,然后根据ROUTE协议来发送。
根据宽带方法,媒体文件可以使用HTTP(超文本传输协议)通过网络来发送。通过HTTP发送的信息可以包括信令元数据、分段信息和/或非实时(NRT)服务信息。
在一些实施方式中,发送处理器40可以包括MPD生成器41和分段生成器42,以支持自适应媒体流传输。
MPD生成器41可以基于媒体文件生成媒体呈现描述(MPD)。MPD是包括关于媒体呈现的详细信息的文件,并且可以以XML格式表达。MPD可以提供诸如每个分段的标识符的信令元数据。在这种情况下,接收设备B可以基于MPD动态地获得分段。
分段生成器42可以基于媒体文件生成一个或更多个分段。分段可以包括实际媒体数据,并且可以具有诸如ISO BMFF的文件格式。分段可以被包括在图像信号的表示中,并且如上文所描述的,可以基于MPD来识别分段。
另外,发送处理器40可以基于所生成的MPD和分段根据MPEG-DASH标准来生成图像信号。
发送器45可以将所生成的图像信号发送至接收设备B。在一些实施方式中,发送器45可以根据MMT标准或MPEG-DASH标准通过IP网络向接收设备B发送图像信号。根据MMT标准,发送至接收设备B的图像信号可以包括包括媒体数据的再现信息的呈现信息文档(PI)。根据MPEG-DASH标准,发送至接收设备B的图像信号可以包括前述MPD作为媒体数据的再现信息。然而,在一些实施方式中,MPD和分段可以分别地发送至接收设备B。例如,包括MPD的第一图像信号可以由发送设备A或外部服务器生成并且发送至接收设备B,包括分段的第二图像信号可以由发送设备A生成并且可以发送至接收设备B。
此外,尽管在图1中将发送处理器40和发送器45例示为分开的元件,但在一些实施方式中,它们可以整体地实现为单个元件。此外,发送处理器40可以被实现为与发送设备A分开的外部装置(例如,DASH服务器)。在这种情况下,发送设备A可以作为通过对媒体数据进行编码来生成媒体文件的源设备操作,并且外部设备可以作为通过根据任意传输协议处理媒体数据来生成图像信号的服务器设备操作。
接下来,接收设备B可以包括接收器55、接收处理器60、解封装单元70、解码器80和渲染器90。在一些实施方式中,接收设备B可以是基于MPEG-DASH的客户端。
接收器55可以从发送设备A接收图像信号。根据MMT标准的图像信号可以包括PI文档和媒体文件。另外,根据MPEG-DASH标准的图像信号可以包括MPD和分段。在一些实施方式中,MPD和分段可以通过不同的图像信号分开地发送。
接收处理器60可以通过根据传输协议处理所接收的图像信号来提取/解析媒体文件。
在一些实施方式中,接收处理器60可以包括MPD解析单元61和分段解析单元62,以便于支持自适应媒体流传输。
MPD解析单元61可以从所接收的图像信号获得MPD,并且对所获得的MPD进行解析以生成获得分段所需的命令。此外,MPD解析单元61可以基于所解析的MPD获得媒体数据再现信息(例如,颜色转换信息)。
分段解析单元62可以基于所解析的MPD获得分段,并且对所获得的分段进行解析以提取媒体文件。在一些实施方式中,媒体文件可以具有诸如ISO BMFF或CMAF的文件格式。
解封装单元70可以对所提取的媒体文件进行解封装以获得媒体数据和与其相关的元数据。所获得的元数据可以具有文件格式的框或轨道的形式。在一些实施方式中,解封装单元70可以从MPD解析单元61接收解封装所需的元数据。
解码器80可以根据视频编解码器标准(例如,VVC标准)对所获得的媒体数据进行解码。为此,解码器80可以执行诸如与编码器20的操作相对应的预测、逆量化以及逆变换的一系列过程。
渲染器90可以对诸如经解码的视频或图像的媒体数据进行渲染。经渲染的媒体数据可以通过显示单元(未示出)再现。
在下文中,将详细描述媒体文件发送/接收方法。
图2是例示了媒体文件发送方法的流程图。
在一个示例中,图2的每个步骤可以由图1的发送设备A执行。具体地,步骤S210可以由图1的编码器20执行。此外,步骤S220和步骤S230可以由发送处理器40执行。此外,步骤S240可以由发送器45执行。
参照图2,发送设备可以对诸如视频或图像的媒体数据进行编码(S210)。媒体数据可以由发送设备拍摄/生成或从外部装置(例如,相机、视频档案等)获得。可以根据视频编解码器标准(例如,VVC标准)以比特流的形式对媒体数据进行编码。
发送设备可以基于经编码的媒体数据生成MPD以及一个或更多个分段(S220)。如上所述,MPD可以包括关于媒体呈现的详细信息。分段可以包括实际媒体数据。在一些实施方式中,媒体数据可以按照诸如ISO BMFF或CMAF的文件格式被封装并且被包括在分段中。
发送设备可以生成包括所生成的MPD和分段的图像信号(S230)。在一些实施方式中,可以针对MPD和分段中的每一者单独地生成图像信号。例如,发送设备可以生成包括MPD的第一图像信号并且生成包括分段的第二图像信号。
发送设备可以将所生成的图像信号发送至接收设备(S240)。在一些实施方式中,发送设备可以使用广播方法发送图像信号。在这种情况下,可以使用MMT协议或ROUTE协议。另选地,发送设备可以使用宽带方法发送图像信号。
此外,虽然在图2中,MPD和包括该MPD的图像信号被描述为由发送设备生成和发送(步骤S220至步骤S240),但是在一些实施方式中,MPD和包括该MPD的图像可以由与发送设备不同的外部服务器生成并发送。
图3是例示媒体文件接收方法的流程图。
在示例中,图3的每个步骤可以由图1的接收设备B执行。具体地,步骤S310可以由接收器55执行。此外,步骤S320可以由接收处理器60执行。此外,步骤S330可以由解码器80执行。
参照图3,接收设备可以从发送设备接收图像信号(S310)。根据MPEG-DASH标准的图像信号可以包括MPD和分段。在一些实施方式中,可以通过不同的图像信号单独地接收MPD和分段。例如,可以从图1的发送设备或外部服务器接收包括MPD的第一图像信号,并且可以从图1的发送设备接收包括分段的第二图像信号。
接收设备可以从所接收的图像信号提取MPD和分段,并且对所提取的MPD和分段进行解析(S320)。具体地,接收设备可以对MPD进行解析以生成获得分段所需的命令。然后,接收设备可以基于所解析的MPD获得分段,并且对所获得的分段进行解析以获得媒体数据。在一些实施方式中,接收设备可以对文件格式的媒体数据执行解封装,以从分段获得媒体数据。
接收设备可以对诸如所获得的视频或图像的媒体数据进行解码(S330)。接收设备可以执行诸如逆量化、逆变换和预测的一系列过程以对媒体数据进行解码。然后,接收设备可以对经解码的媒体数据进行渲染并且通过显示器再现媒体数据。
在下文中,将详细描述图像编码/解码设备。
图像编码设备的概述
图4是示意性地例示根据本公开的实施方式的图像编码设备的图。图4的图像编码设备400可以与参照图1描述的发送设备A的编码器20相对应。
参照图4,图像编码设备400可以包括图像分割器410、减法器415、变换器420、量化器430、解量化器440、逆变换器450、加法器455、滤波器460、存储器470、帧间预测单元480、帧内预测单元485和熵编码器490。帧间预测单元480和帧内预测单元485可以统称为“预测器”。变换器420、量化器430、解量化器440和逆变换器450可以被包括在残差处理器中。残差处理器还可以包括减法器415。
在一些实施方式中,配置图像编码设备400的多个组件中的全部或至少一些可以由一个硬件组件(例如,编码器或处理器)来配置。此外,存储器470可以包括解码画面缓冲器(DPB)并且可以由数字存储介质配置。
图像分割器410可将输入到图像编码设备400的输入图像(或画面或帧)分割成一个或更多个处理单元。例如,处理单元可以称为编码单元(CU)。可以通过根据四叉树二叉树三叉树(QT/BT/TT)结构递归地分割编码树单元(CTU)或最大编码单元(LCU)来获得编码单元。例如,可以基于四叉树结构、二叉树结构和/或三叉树结构将一个编码单元分割为更深深度的多个编码单元。对于编码单元的分割,可以首先应用四叉树结构,然后可以应用二叉树结构和/或三叉树结构。可以基于不再分割的最终编码单元来执行根据本公开的编码过程。可以将最大编码单元用作最终编码单元,也可以将通过分割最大编码单元获得的更深深度的编码单元用作最终编码单元。这里,编码过程可以包括稍后将描述的预测、变换和重构的过程。作为另一个示例,编码过程的处理单元可以是预测单元(PU)或变换单元(TU)。预测单元和变换单元可以从最终编码单元划分或分割。预测单元可以是样本预测单元,变换单元可以是用于推导变换系数的单元和/或用于从变换系数推导残差信号的单元。
预测单元(帧间预测单元480或帧内预测单元485)可以对要处理的块(当前块)执行预测,并且生成包括当前块的预测样本的预测块。预测单元可以确定对当前块或CU单元是应用帧内预测还是帧间预测。预测单元可以生成与当前块的预测有关的各种信息,并且将生成的信息传输到熵编码器490。关于预测的信息可以在熵编码器490中被编码并且以比特流的形式输出。
帧内预测单元485可以通过参考当前画面中的样本来预测当前块。根据帧内预测模式和/或帧内预测技术,参考样本可以位于当前块的邻居中或者可以被分开放置。帧内预测模式可以包括多个非定向模式和多个定向模式。非定向模式可以包括例如DC模式和平面模式。根据预测方向的详细程度,定向模式可以包括例如33个定向预测模式或65个定向预测模式。然而,这仅仅是示例,可以根据设置使用更多或更少的定向预测模式。帧内预测单元485可以通过使用应用于邻近块的预测模式来确定应用于当前块的预测模式。
帧间预测单元480可以基于由参考画面上的运动向量指定的参考块(参考样本阵列)来推导当前块的预测块。在这种情况下,为了减少在帧间预测模式中传输的运动信息量,可以基于邻近块和当前块之间的运动信息的相关性以块、子块或样本为单位来预测运动信息。运动信息可以包括运动向量和参考画面索引。运动信息还可以包括帧间预测方向(L0预测、L1预测、双预测等)信息。在帧间预测的情况下,邻近块可以包括当前画面中存在的空间邻近块和参考画面中存在的时间邻近块。包括参考块的参考画面和包括时间邻近块的参考画面可以相同或不同。时间邻近块可以被称为并置参考块、并置CU(colCU)等。包括时间邻近块的参考画面可以被称为并置画面(colPic)。例如,帧间预测单元480可以基于邻近块配置运动信息候选列表并生成指示使用哪个候选来推导当前块的运动向量和/或参考画面索引的信息。可以基于各种预测模式来执行帧间预测。例如,在跳过模式和合并模式的情况下,帧间预测单元480可以使用邻近块的运动信息作为当前块的运动信息。在跳过模式的情况下,与合并模式不同,可以不传输残差信号。在运动向量预测(MVP)模式的情况下,邻近块的运动向量可以用作运动向量预测子,并且当前块的运动向量可以通过对运动向量差和运动向量预测子的指示符进行编码来用信号通知当前块的运动向量。运动向量差可以意指当前块的运动向量与运动向量预测子之间的差。
预测单元可以基于以下描述的各种预测方法和预测技术来生成预测信号。例如,预测单元不仅可以应用帧内预测或帧间预测,还可以同时应用帧内预测和帧间预测,以预测当前块。同时应用帧内预测和帧间预测两者来预测当前块的预测方法可以称为组合帧间和帧内预测(CIIP)。此外,预测单元可以执行帧内块复制(IBC)以预测当前块。帧内块复制可以用于游戏等的内容图像/视频编码,例如,屏幕内容编码(SCC)。IBC是一种在与当前块相隔预定距离的位置处使用当前画面中先前重构的参考块来预测当前画面的方法。当应用IBC时,参考块在当前画面中的位置可以被编码为与预定距离相对应的向量(块向量)。IBC基本上在当前画面中执行预测,但是可以类似于帧间预测执行,因为在当前画面内推导参考块。即,IBC可以使用本公开中描述的至少一种帧间预测技术。
预测单元生成的预测信号可用于生成重构信号或生成残差信号。减法器415可以通过从输入图像信号(原始块或原始样本阵列)中减去从预测单元输出的预测信号(预测块或预测样本阵列)来生成残差信号(残差块或残差样本阵列)。生成的残差信号可以被传输到变换器420。
变换器420可以通过将变换技术应用于残差信号来生成变换系数。例如,变换技术可以包括离散余弦变换(DCT)、离散正弦变换(DST)、karhunen-loève变换(KLT)、基于图的变换(GBT)或条件非线性变换(CNT)中的至少一种。这里,GBT是指当像素之间的关系信息由图形表示时从图形获得的变换。CNT是指基于使用所有先前重构的像素生成的预测信号获得的变换。此外,变换处理可以应用于具有相同大小的正方形像素块或者可以应用于具有可变大小而不是正方形的块。
量化器430可以对变换系数进行量化并且将它们传输到熵编码器490。熵编码器490可以对量化的信号(关于量化的变换系数的信息)进行编码并且输出比特流。关于量化变换系数的信息可以被称为残差信息。量化器430可以基于系数扫描顺序将块类型的量化变换系数重新排列为一维向量形式,并基于一维向量形式的量化变换系数生成关于量化变换系数的信息。
熵编码器490可以执行各种编码方法(例如,指数哥伦布、上下文自适应可变长度编码(CAVLC)、上下文自适应二进制算术编码(CABAC)等)。熵编码器490可以一起或单独地对量化变换系数以外的视频/图像重构所需的信息(例如,语法元素的值等)进行编码。经编码的信息(例如,编码的视频/图像信息)可以比特流的形式以网络抽象层(NAL)为单元进行传输或存储。视频/图像信息还可以包括关于各种参数集(例如,自适应参数集(APS)、画面参数集(PPS)、序列参数集(SPS)或视频参数集(VPS))的信息。此外,视频/图像信息还可以包括一般约束信息。本公开中描述的用信号通知的信息、传输的信息和/或语法元素可以通过上述编码过程被编码并且被包括在比特流中。
比特流可以通过网络传输或者可以存储在数字存储介质中。网络可以包括广播网络和/或通信网络,数字存储介质可以包括USB、SD、CD、DVD、蓝光、HDD、SSD等各种存储介质。可以包括传输从熵编码器490输出的信号的发送器(未示出)和/或存储该信号的存储单元(未示出)作为图像编码设备400的内部/外部元件。另选地,可以提供发送器作为熵编码器490的组件。
从量化器430输出的量化变换系数可用于生成残差信号。例如,可以通过解量化器440和逆变换器450对量化变换系数应用解量化和逆变换来重构残差信号(残差块或残差样本)。
加法器455将重构残差信号与从帧间预测单元480或帧内预测单元485输出的预测信号相加,以生成重构信号(重构画面、重构块、重构样本阵列)。如果要处理的块没有残差(例如,应用跳过模式的情况),则可以将预测块用作重构块。加法器455可以称为重构器或重构块生成器。生成的重构信号可以用于当前画面中要处理的下一个块的帧内预测,并且可以用于通过如下所述的滤波对下一个画面进行帧间预测。
此外,在图像编码和/或重构过程中,具有色度缩放的亮度映射(LMCS)是适用的。
滤波器460可以通过对重构信号应用滤波来提高主观/客观图像质量。例如,滤波器460可以通过对重构画面应用各种滤波方法来生成修改的重构画面,并将修改的重构画面存储在存储器470中,具体地,存储器470的DPB中。各种滤波方法可以包括例如去块滤波、样本自适应偏移、自适应环路滤波、双边滤波等。滤波器460可以生成与滤波有关的各种信息并将所生成的信息传输到熵编码器490,如稍后在每种滤波方法的描述中所描述的。与滤波相关的信息可以由熵编码器490编码并以比特流的形式输出。
传输到存储器470的修改的重构画面可以用作帧间预测单元480中的参考画面。当通过图像编码设备400应用帧间预测时,可以避免图像编码设备400和图像解码设备之间的预测失配并且可以提高编码效率。
存储器470的DPB可以存储修改的重构画面以用作帧间预测单元480中的参考画面。存储器470可以存储从其中推导(或编码)当前画面中的运动信息的块的运动信息和/或画面中已经重构的块的运动信息。存储的运动信息可以被传输到帧间预测单元480并用作空间邻近块的运动信息或时间邻近块的运动信息。存储器470可以存储当前画面中重构块的重构样本并且可以将重构样本传送到帧内预测单元485。
图像解码设备的概述
图5是示意性地例示根据本公开的实施方式的图像解码设备的图。图5的图像解码设备500可以与参照图1描述的接收设备B的解码器80相对应。
参照图5,图像解码设备500可以包括熵解码器510、解量化器520、逆变换器530、加法器535、滤波器540、存储器550、帧间预测单元560和帧内预测单元565。帧间预测单元560和帧内预测单元565可以统称为“预测器”。解量化器520和逆变换器530可以被包括在残差处理器中。
根据实施方式,配置图像解码设备500的多个组件中的全部或至少一些可以由硬件组件(例如,解码器或处理器)来配置。此外,存储器550可以包括解码画面缓冲器(DPB)或者可以由数字存储介质配置。
已经接收到包括视频/图像信息的比特流的图像解码设备500可以通过执行与由图4的图像编码设备100执行的处理相对应的处理来重构图像。例如,图像解码设备500可以使用在图像编码设备中应用的处理单元来执行解码。因此,解码的处理单元例如可以是编码单元。编码单元可以通过分割编码树单元或最大编码单元来获得。通过图像解码设备500解码和输出的重构图像信号可以通过再现设备(未示出)再现。
图像解码设备500可以接收由图4的图像编码设备以比特流的形式生成的信号。接收到的信号可以通过熵解码器510进行解码。例如,熵解码器510可以对比特流进行解析以推导图像重构(或画面重构)所需的信息(例如,视频/图像信息)。视频/图像信息还可以包括关于各种参数集(例如,自适应参数集(APS)、画面参数集(PPS)、序列参数集(SPS)或视频参数集(VPS))的信息。此外,视频/图像信息还可以包括一般约束信息。图像解码设备还可以基于关于参数集的信息和/或一般约束信息对画面进行解码。本公开中描述的用信号通知/接收的信息和/或语法元素可以通过解码过程被解码并从比特流中获得。例如,熵解码器510基于诸如指数哥伦布编码、CAVLC或CABAC的编码方法对比特流中的信息进行解码,并输出图像重构所需的语法元素的值和残差的变换系数的量化值。更具体地,CABAC熵解码方法可以接收与比特流中每个语法元素对应的bin,使用解码目标语法元素信息、邻近块和解码目标块的解码信息或前一阶段解码的符号/bin的信息来确定上下文模型,根据确定的上下文模型通过预测bin的出现概率来对bin执行算术解码,并且生成与每个语法元素的值对应的符号。在这种情况下,CABAC熵解码方法可以在确定上下文模型后,通过将解码的符号/bin的信息用于下一个符号/bin的上下文模型来更新上下文模型。由熵解码器510解码的信息中与预测相关的信息可以被提供给预测单元(帧间预测单元560和帧内预测单元565),并且在熵解码器510中对其执行熵解码的残差值,即,量化变换系数和相关的参数信息可以被输入到解量化器520。另外,可以将熵解码器510解码的信息当中关于滤波的信息提供给滤波器540。此外,用于接收从图像编码设备输出的信号的接收器(未示出)可以进一步被配置为图像解码设备500的内部/外部元件,或者接收器可以是熵解码器510的组件。
此外,根据本公开的图像解码设备可以被称为视频/图像/画面解码设备。图像解码设备可以分为信息解码器(视频/图像/画面信息解码器)和样本解码器(视频/图像/画面样本解码器)。信息解码器可以包括熵解码器510。样本解码器可以包括解量化器520、逆变换器530、加法器535、滤波器540、存储器550、帧间预测单元560或帧内预测单元565中的至少一个。
解量化器520可以对量化变换系数进行解量化并输出变换系数。解量化器520可以以二维块的形式重新排列量化变换系数。在这种情况下,可以基于在图像编码设备中执行的系数扫描顺序来执行重新排列。解量化器520可以通过使用量化参数(例如,量化步长信息)对量化变换系数执行解量化并获得变换系数。
逆变换器530可以对变换系数进行逆变换以获得残差信号(残差块、残差样本阵列)。
预测单元可以对当前块执行预测并生成包括当前块的预测样本的预测块。预测单元可以基于从熵解码器510输出的关于预测的信息来确定是将帧内预测还是帧间预测应用于当前块,并且可以确定特定帧内/帧间预测模式(预测技术)。
与在图像编码设备100的预测单元中描述的相同的是,预测单元可以基于稍后描述的各种预测方法(技术)来生成预测信号。
帧内预测单元565可以通过参考当前画面中的样本来预测当前块。帧内预测单元485的描述同样适用于帧内预测单元565。
帧间预测单元560可以基于参考画面上由运动向量指定的参考块(参考样本阵列)来推导当前块的预测块。在这种情况下,为了减少在帧间预测模式中传输的运动信息量,可以基于邻近块和当前块之间的运动信息的相关性以块、子块或样本为单位来预测运动信息。运动信息可以包括运动向量和参考画面索引。运动信息还可以包括帧间预测方向(L0预测、L1预测、双预测等)信息。在帧间预测的情况下,邻近块可以包括当前画面中存在的空间邻近块和参考画面中存在的时间邻近块。例如,帧间预测单元560可以基于邻近块配置运动信息候选列表,并且基于接收到的候选选择信息推导当前块的运动向量和/或参考画面索引。可以基于各种预测模式来执行帧间预测,并且关于预测的信息可以包括指示当前块的帧间预测模式的信息。
加法器535可以通过将获得的残差信号与从预测单元(包括帧间预测单元560和/或帧内预测单元565)输出的预测信号(预测块、预测样本阵列)相加生成重构信号(重构画面、重构块、重构样本阵列)。如果要处理的块没有残差(例如,应用跳过模式的情况),则预测块可以用作重构块。加法器155的描述同样适用于加法器535。加法器535可以称为重构器或重构块生成器。所生成的重构信号可以用于当前画面中要处理的下一块的帧内预测,并且可以用于通过如下所述的滤波对下一画面的帧间预测。
此外,在画面解码过程中,具有色度缩放的亮度映射(LMCS)是适用的。
滤波器540可以通过对重构信号应用滤波来提高主观/客观图像质量。例如,滤波器540可以通过对重构画面应用各种滤波方法来生成修改的重构画面,并将修改的重构画面存储在存储器550中,具体地,存储器550的DPB中。各种滤波方法可以包括例如去块滤波、样本自适应偏移、自适应环路滤波、双边滤波等。
存储在存储器550的DPB中的(修改的)重构画面可以用作帧间预测单元560中的参考画面。存储器550可以存储从其中推导(或解码)当前画面中的运动信息的块的运动信息和/或画面中已经重构的块的运动信息。存储的运动信息可以被传输到帧间预测单元560,以用作空间邻近块的运动信息或时间邻近块的运动信息。存储器550可以存储当前画面中重构块的重构样本并将重构样本传送到帧内预测单元565。
在本公开中,在图像编码设备400的滤波器460、帧间预测单元480和帧内预测单元485中描述的实施方式可以同等地或对应地应用于图像解码设备500的滤波器540、帧间预测单元560和帧内预测单元565。
编码设备的量化器可以通过对变换系数应用量化来推导量化变换系数,并且编码设备的解量化器或者解码设备的解量化器可以通过对量化变换系数应用解量化来推导变换系数。在视频编码中,可以改变量化速率并且可以使用经改变的量化速率来调整压缩率。从实现方式的观点,考虑到复杂性,可以使用量化参数(QP)而非直接使用量化速率。例如,可以使用具有整数值0至63的量化参数并且每个量化参数值可以对应于实际量化速率。另外,可以不同地设置亮度分量(亮度样本)的量化参数QPY和色度分量(色度样本)的量化参数QPC。
在量化过程中,变换系数C可以作为输入接收并且除以量化速率Qstep,并且可以基于此推导量化变换系数C’。在这种情况下,考虑到计算复杂性,将量化速率乘以缩放以形成整数,并且可以按照与缩放值相对应的值来执行移位运算。基于量化速率与缩放值的乘积,可以推导量化缩放。也就是说,可以根据QP推导量化缩放。在这种情况下,通过将量化缩放应用于变换系数C,可以基于此推导量化变换系数C’。
解量化过程是量化过程的逆过程,并且量化变换系数C’可以乘以量化速率Qstep,从而基于此推导重构变换系数C”。在这种情况下,可以根据量化参数推导级别缩放,可以将级别缩放应用于量化变换系数C’,从而基于此推导重构变换系数C”。由于变换和/或量化过程中的损失,所以重构变换系数C”可以与原始变换系数C略微不同。因此,即使编码设备也可以以与解码设备相同的方式执行解量化。
此外,可以应用根据频率调整量化强度的自适应频率加权量化技术。自适应频率加权量化技术可以对应于根据频率不同地应用量化强度的方法。在自适应频率加权量化中,可以使用预定义的量化缩放矩阵根据频率来不同地应用量化强度。也就是说,可以基于量化缩放矩阵进一步执行上文所描述的量化/解量化过程。
例如,可以根据当前块的大小和/或应用于当前块以生成当前块的残差信号的预测模式是帧间预测还是帧内预测来使用不同量化缩放矩阵。量化缩放矩阵还可以称为量化矩阵或缩放矩阵。量化缩放矩阵可以是预定义的。另外,用于频率自适应缩放的量化缩放矩阵的频率量化缩放信息可以由编码设备构造/编码并且用信号通知给解码设备。频率量化缩放信息可以称为量化缩放信息。频率量化缩放信息可以包括缩放列表数据scaling_list_data。
基于缩放列表数据,可以推导量化缩放矩阵。另外,频率量化缩放信息可以包括指定是否存在缩放列表数据的存在标志信息。另选地,当在较高级别(例如,SPS)处用信号通知缩放列表数据时,还可以包括指定缩放列表数据是否在较低级别(例如,PPS或拼块组报头等)处被修改的信息。
图6是例示编码图像/视频的层结构的示例的图。
编码图像/视频被分类为用于图像/视频解码处理和处理自己的视频编码层(VCL)、用于发送和存储编码信息的下层系统以及存在于VCL和下层系统之间并负责网络适配功能的网络抽象层(NAL)。
在VCL中,可以生成包括压缩图像数据(切片数据)的VCL数据,或者可以生成图像的解码处理另外所需的补充增强信息(SEI)消息或包括诸如画面参数集(PPS)、序列参数集(SPS)或视频参数集(VPS)的信息的参数集。
在NAL中,报头信息(NAL单元报头)可以被添加到VCL中生成的原始字节序列有效载荷(RBSP)以生成NAL单元。在这种情况下,RBSP是指VCL中生成的切片数据、参数集、SEI消息。NAL单元报头可以包括根据对应NAL单元中所包括的RBSP数据指定的NAL单元类型信息。
如图6所示,NAL单元可以根据VCL中生成的RBSP的类型被分类为VCL NAL单元和非VCL NAL单元。VCL NAL单元可以意指包括关于图像的信息(切片数据)的NAL单元,非VCLNAL单元可以意指包括对图像进行解码所需的信息(参数集或SEI消息)的NAL单元。
VCL NAL单元和非VCL NAL单元可以根据下层系统的数据标准附有报头信息并通过网络发送。例如,NAL单元可以被修改为具有预定标准(例如,H.266/VVC文件格式、RTP(实时传输协议)或TS(传输流))的数据格式,并通过各种网络发送。
如上所述,在NAL单元中,可以根据对应NAL单元中所包括的RBSP数据结构来指定NAL单元类型,并且关于NAL单元类型的信息可以被存储在NAL单元报头中并用信号通知。例如,这可以根据NAL单元是否包括图像信息(切片数据)大致分类为VCL NAL单元类型和非VCL NAL单元类型。VCL NAL单元类型可以根据被包括在VCL NAL单元中的画面的特性/类型来细分,并且非VCL NAL单元类型可以根据参数集的类型来细分。
根据画面类型的VCL NAL单元类型的示例如下。
-“IDR_W_RADL”、“IDR_N_LP”:瞬时解码刷新(IDR)画面的VCL NAL单元类型,其为IRAP(帧内随机访问点)画面的类型;
IDR画面可以是比特流中的按解码顺序的第一画面或第一画面之后的画面。具有诸如“IDR_W_RADL”的NAL单元类型的画面可以具有与画面相关联的一个或更多个随机访问可解码先导(RADL)画面。相比之下,具有诸如“IDR_N_LP”的NAL单元类型的画面不具有与画面相关联的任何先导画面。
-“CRA_NUT”:纯随机访问(CRA)画面的VCL NAL单元类型,其为IRAP画面的类型;
CRA画面可以是比特流中的按解码顺序的第一画面或者可以是第一画面之后的画面。CRA画面可以与RADL或RASL(随机访问跳过先导)画面相关联。
-“GDR_NUT”:随机访问逐渐解码刷新(GDR)画面的VCL NAL单元类型;
-“STSA_NUT”:随机访问逐步时间子层访问(STSA)画面的VCL NAL单元类型;
-“RADL_NUT”:作为先导画面的RADL画面的VCL NAL单元类型;
-“RASL_NUT”:作为先导画面的RASL画面的VCL NAL单元类型;
-“TRAIL_NUT”:后置画面的VCL NAL单元类型;
后置画面是非IRAP画面,其可以按输出顺序在与后置画面相关联的IRAP画面或GDR画面之后,并且可以按解码顺序在与后置画面相关联的IRAP画面之后。
接下来,根据参数集类型的非VCL NAL单元类型的示例如下。
-“DCI_NUT”:包括解码能力信息(DCI)的非VCL NAL单元类型
-“VPS_NUT”:包括视频参数集(VPS)的非VCL NAL单元类型
-“SPS_NUT”:包括序列参数集(SPS)的非VCL NAL单元类型
-“PPS_NUT”:包括画面参数集(PPS)的非VCL NAL单元类型
-“PREFIX_APS_NUT”、“SUFFIX_APS_NUT”:包括自适应参数集(APS)的非VCL NAL单元类型
-“PH_NUT”:包括画面报头的非VCL NAL单元类型
上文所描述的NAL单元类型可以由被包括在NAL单元报头中的预定语法信息(例如,nal_unit_type)标识。
此外,在本公开中,以比特流的形式编码的图像/视频信息不仅可以包括画面分割信息、帧内/帧间预测信息、残差信息和/或环路内滤波信息等,还包括切片报头信息、画面报头信息、APS信息、PPS信息、SPS信息、VPS信息和/或DCI。另外,所编码的图像/视频信息还可以包括一般约束信息(GCI)和/或NAL单元报头信息。根据本公开的实施方式,可以将经编码的图像/视频信息封装到预定格式(例如,ISO BMFF)的媒体文件中,并将其发送至接收设备。
媒体文件
可以基于预定的媒体文件格式配置(或格式化)经编码的图像信息以生成媒体文件。例如,经编码的图像信息可以基于针对经编码的图像信息的一个或更多个NAL单元/样本条目来形成媒体文件(分段)。
媒体文件可以包括样本条目和轨道。在一个示例中,媒体文件可以包括各种记录,并且每个记录可以包括与媒体文件格式相关的信息或者与图像相关的信息。在一个示例中,一个或更多个NAL单元可以存储在媒体文件中的配置记录(或解码器配置记录)字段中。另外,媒体文件可以包括操作点记录和/或操作点组框。在本公开中,支持多功能视频编码(VVC)的解码器配置记录可以称为VVC解码器配置记录。同样地,支持VVC的操作点记录可以称为VVC操作点记录。
在媒体文件格式中使用的术语“样本”可以意指与表示画面的三个样本阵列(Y、Cb、Cr)中的任一者的单个时间或单个元素相关联的所有数据。当术语“样本”在轨道(媒体文件格式)的上下文中使用时,“样本”可以指代与轨道的单个时间相关联的所有数据。这里,时间可以对应于解码时间或合成时间(composition time)。此外,当在画面(例如,亮度样本)的上下文中使用术语“样本”时,“样本”可以指示表示画面的三个样本阵列中的任一者的单个元素。
图7是例示媒体文件结构的示例的图。
如上所述,为了存储和发送诸如音频、视频或图像的媒体数据,可以定义标准化的媒体文件格式。在一些实施方式中,媒体文件可以具有根据ISO基本媒体文件格式(ISOBMFF)的文件格式。
媒体文件可以包括一个或更多个框(box)。这里,框可以是包括媒体数据或与媒体数据有关的元数据的数据块或对象。在媒体文件内,框可以形成分层结构。因此,媒体文件可以具有适合于存储和/或发送大容量媒体数据的形式。此外,媒体文件可以具有便于访问特定媒体数据的结构。
参照图7,媒体文件700可以包括ftyp框710、moov框720、moof框730和mdat框740。
ftyp框710可以包括媒体文件700的文件类型、文件版本和/或兼容性相关信息。在一些实施方式中,ftyp框710可以位于媒体文件700的开始处。
moov框720可以包括描述媒体文件700中的媒体数据的元数据。在一些实施方式中,moov框720可以存在于元数据相关框当中的最上层中。此外,moov框720可以包括媒体文件700的报头信息。例如,moov框720可以包括解码器配置记录作为解码器配置信息。
moov框720是子框,并且可以包括mvhd框721、trak框722和mvex框723。
mvhd框721可以包括媒体文件700中的媒体数据的呈现相关信息(例如,媒体创建时间、改变时间、周期等)。
trak框722可以包括媒体数据的轨道的元数据。例如,trak框722可以包括音频轨道或视频轨道的流相关信息、呈现相关信息和/或访问相关信息。根据媒体文件700中存在的轨道的数量,可以存在多个trak框722。稍后将参照图8描述trak框722的结构的示例。
mvex框723可以包括关于一个或更多个电影片段是否存在于媒体文件700中的信息。电影片段可以是通过划分媒体文件700中的媒体数据而获得的媒体数据的一部分。电影片段可以包括一个或更多个编码画面。例如,电影片段可以包括一个或更多个画面组(GOP),并且每个画面组可以包括多个编码帧或画面。电影片段可以存储在mdat框740-1至740-N(其中,N是大于或等于1的整数)中的每一者中。
moof框730-1至730-N(其中,N是大于或等于1的整数)可以包括电影片段的元数据,即,mdat框740-1至740-N。在一些实施方式中,moof框730-1至730-N可以存在于电影片段的元数据相关框当中的最上层中。
mdat框740-1至740-N可以包括实际媒体数据。根据媒体文件700中存在的电影片段的数量,可以存在多个mdat框740-1至740-N。mdat框740-1至740-N中的每一者可以包括一个或更多个音频样本或视频样本。在一个示例中,样本可以意指访问单元(AU)。当解码器配置记录被存储在样本条目中时,解码器配置记录可以包括用于指示每个样本所属的网络抽象层(NAL)单元的长度的长度字段的大小以及参数集。
在一些实施方式中,媒体文件700可以以分段为单位被处理和存储和/或发送。分段可以包括初始化分段I_seg和媒体分段M_seg。
初始化分段I_seg可以是包括用于访问表示的初始化信息的对象类型数据单元。初始化分段I_seg可以包括前述ftyp框710和/或moov框720。
媒体分段M_seg可以是包括流传输服务的时间上划分的媒体数据的对象类型数据单元。媒体分段M_seg可以包括前述moof框730-1至730-N和mdat框740-1至740-N。尽管图7中未示出,但是媒体分段M_seg还可以包括:包括分段类型相关信息的styp框和包括媒体文件700中包括的子分段的标识信息的sidx框(可选的)。
图8是例示图7的trak框结构的示例的图。
参照图8,trak框800可以包括tkhd框810、tref框820和mdia框830。
tkhd框810是轨道报头框,并且可以包括由trak框800指示的轨道(以下称为”对应轨道”)的报头信息(例如,对应轨道的创建/修改时间、轨道标识符等)。
tref框820是轨道参考框,并且可以包括对应轨道的参考信息(例如,由对应轨道参考的另一轨道的轨道标识符)。
mdia框830可以包括描述对应轨道中的媒体数据的信息和对象。在一些实施方式中,mdia框830可以包括提供关于媒体数据的信息的minf框840。此外,minf框840可以包括包括针对包括媒体数据的样本的元数据的stbl框850。
stbl框850是样本表框,并且可以包括轨道中的样本的位置信息、时间信息等。读取器可以基于由stbl框850提供的信息确定样本类型、容器内的样本大小和偏移,并且以正确的时间顺序定位样本。
stbl框850可以包括一个或更多个样本条目框851和852。样本条目框851和852可以针对特定样本提供各种参数。例如,针对视频样本的样本条目框可以包括视频样本的宽度、高度、分辨率和/或帧计数。另外,针对音频样本的样本条目框可以包括音频样本的声道计数、声道布局和/或采样速率。在一些实施方式中,样本条目框851和852可以被包括在stbl框850中的样本描述框(未示出)中。样本描述框可以提供关于应用于样本的编码类型的详细信息和该编码类型所需的任何初始化信息。
另外,stbl框850可以包括一个或更多个样本至组框853和854以及一个或更多个样本组描述框855和856。
样本至组框853和854可以指示样本所属的样本组。例如,样本至组框853和854可以包括指示样本组的类型的分组类型语法元素(例如,grouping_type)。此外,样本至组框853和854可以包括一个或更多个样本组条目。样本组条目可以包括样本计数语法元素(例如,sample_count)和组描述索引语法元素(例如,group_description_index)。这里,样本计数语法元素可以指示应用对应组描述索引的连续样本的数量。样本组可以包括流访问点(SAP)样本组、随机访问恢复点样本组等,并且稍后将描述其细节。
样本组描述框855和框856可以提供样本组的描述。例如,样本组描述框855和856可以包括分组类型语法元素(例如,grouping_type)。样本组描述框855和856可以与具有相同分组类型语法元素值的样本至组框853和854相对应。此外,样本组描述框855和856可以包括一个或更多个样本组描述条目。样本组描述条目可以包括“spor”样本组描述条目、“minp”样本组描述条目、“roll”样本组描述条目等。
如上文参照图7和图8所描述的,可以根据诸如ISO BMFF的文件格式将媒体数据封装到媒体文件中。另外,媒体文件可以根据MMT标准或MPEG-DASH标准通过图像信号被发送至接收设备。
图9是例示图像信号结构的示例的图。
参照图9,图像信号符合MPEG-DASH标准,并且可以包括MPD 910和多个表示(representation)920-1至920-N。
MPD 910是包括关于媒体呈现的详细信息的文件,并且可以以XML格式表达。MPD910可以包括关于多个表示920-1至920-N的信息(例如,流传输内容的比特速率、图像分辨率、帧速率等)以及关于HTTP资源(例如,初始化分段和媒体分段)的URL的信息。
表示920-1至920-N(其中,N是大于1的整数)中的每一者可以被划分为多个分段S-1至S-K(其中,K是大于1的整数)。这里,多个分段S-1至S-K可以对应于上面参照图7描述的初始化分段和媒体分段。第K分段S-K可以表示表示920-1至920-N中的每一者中的最后电影片段。在一些实施方式中,被包括在表示920-1至920-N中的每一者中的分段S-1至S-K的数量(也就是说,K的值)可以彼此不同。
分段S-1至S-K中的每一者可以包括诸如一个或更多个视频或图像样本的实际媒体数据。被包括在分段S-1至S-K中的每一者内的视频或图像样本的特性可以由MPD 910描述。
分段S-1至S-K中的每一者具有唯一的URL(统一资源定位符),并因此可以被独立地访问和重构。
此外,为了存储VVC内容,可以定义三种类型的基本流。首先,可以定义不包括任何参数集的视频基本流。在这种情况下,可以将所有参数集存储在一个样本条目或多个样本条目中。第二,可以包括参数集,并且可以定义可以包括被存储在一个样本条目中或多个样本条目中的参数集的视频和参数集基本流。第三,可以定义包括与视频轨道中承载的基本流同步的非VCL NAL单元的非VCL基本流。在这种情况下,非VCL轨道可以不包括样本条目中的参数集。
轨道中的子画面的承载(carriage)
VVC文件格式定义如下多种类型的轨道。
-VVC轨道:VVC轨道可以通过在样本和样本条目中包括NAL单元(可能通过参考包括VVC比特流的其它子层的VVC轨道,以及可能通过参考VVC子画面轨道)来表示VVC比特流。当VVC轨道参考VVC子图像轨道时,VVC轨道可以称为VVC基本轨道。
-VVC非VCL轨道:承载ALF(自适应环路滤波器)的自适应参数集(APS)、LMCS(具有色度缩放的亮度映射)或缩放列表参数以及其它非VCL NAL单元可以被存储在与包括VCLNAL单元的轨道分离的轨道中并且通过该轨道发送。VVC非VCL轨道可以意指这种轨道。
-VVC子画面轨道:VVC子画面轨道可以包含形成矩形区域的一个或更多个VVC子画面的序列或一个或更多个完整切片的序列。另外,VVC子画面轨道的样本可以包含按解码顺序连续的一个或更多个完整子画面或形成矩形区域并按解码顺序连续的一个或更多个完整切片。包括在VVC子画面轨道的任何样本中的VVC子画面或切片可以按解码顺序连续。
此外,VVC非VCL轨道和VVC子画面轨道可以实现流传输应用中的VVC视频的优选传递。轨道中的每一个可以在其自己的DASH表示中承载。另外,针对轨道的子集的解码和渲染,包含VVC子画面轨道的子集的DASH表示以及包含非VCL轨道的DASH表示可以由客户端逐分段地请求。以这种方式,可以避免APS和其它非VCL NAL单元的冗余发送。
从参考VVC子画面轨道的VVC轨道中的样本重构PU
VVC轨道的样本可以被解析为包括以下NAL单元的画面单元(PU)。
-AUD NAL单元(如果存在于样本中);访问单元定界符(AUD)NAL单元可以是样本中的第一NAL单元。
-当样本是与同一样本条目相关联的样本序列的第一样本时:包含在样本条目中的参数集和SEI NAL单元
-当nal_unit_type等于EOS_NUT、EOB_NUT、SUFFIX_APS_NUT、SUFFIX_SEI_NUT、RSV_NVCL_27、UNSPEC_30或UNSPEC_31(具有这种NAL单元类型的NAL单元在PU中不能在第一VCL NAL单元之前)的至少一个NAL单元存在于样本中时:样本中的NAL单元直到并且排除这些NAL单元中的第一NAL单元;否则,样本中的所有NAL单元
-从每个所参考的VVC子画面轨道解析的时间对齐(按解码时间)样本的内容;VVC子画面轨道按照在‘subp’轨道参考中参考的VVC子画面轨道的顺序(当映射至样本的‘spor’样本组条目的同一组条目中的num_subpic_ref_idx等于0时)或按照在映射至样本的‘spor’样本组描述条目中指定的顺序(当映射至样本的‘spor’样本组条目的同一组条目中的num_subpic_ref_idx大于0时);排除所有DCI、OPI、VPS、SPS、PPS、AUD、PH、EOS、EOB和其它访问单元(AU)级或画面级非VCL NAL单元;可以如下所述解析轨道参考。
此外,当所参考的VVC子画面轨道与VVC非VCL轨道相关联时,VVC子画面轨道的解析样本可以包含VVC非VCL轨道中的时间对齐样本的非VCL NAL单元(如果有的话)。
-样本中的nal_unit_type等于EOS_NUT、EOB_NUT、SUFFIX_APS_NUT、SUFFIX_SEI_NUT、FD_NUT、RSV_NVCL_27、UNSPEC_30或UNSPEC_31的所有NAL单元。
如果映射至样本的‘spor’样本组描述条目中的num_subpic_ref_idx等于0,则‘subp’框中的每个轨道参考可以如下解析。否则,映射至样本的‘spor’样本组描述条目中的轨道参考subp_track_ref_idx的每个实例可以如下解析。
从‘subp’轨道参考解析的VVC基本轨道的每个样本可以形成没有孔的矩形区域(即,矩形区域完全被样本覆盖)并且不交叠(即,矩形区域中的样本在不交叠的情况下覆盖不同区域)。
此外,如果轨道参考指向VVC子画面轨道的轨道ID,则轨道参考可以被解析到VVC子画面轨道中。
否则(即,当轨道参考指向‘alte’轨道组)时,轨道参考可以被解析到‘alte’轨道组的轨道中的任何轨道,并且当特定轨道参考索引值被解析到先前样本中的特定轨道时,将在当前样本中解析到以下项中的任一项。
-同一特定轨道,或者
-包含与当前样本时间对齐的同步样本的同一‘alte’轨道组中的任何其它轨道
同一‘alte’轨道组中的VVC子画面轨道需要独立于由同一VVC基本轨道参考的任何其它VVC子画面轨道,以避免解码失配,并因此可以应用以下约束。
-所有VVC子画面轨道包含VVC子画面。
-子画面边界类似于画面边界。
如果读取器选择包含具有作为初始选择或与先前选择不同的一组子画面ID值的VVC子画面的VVC子画面轨道,则可以执行以下步骤:
-‘spor’样本组描述条目可以被检查,以推断PPS或SPS NAL单元是否需要改变;SPS改变仅在CLVS开始时是可能的。
-当‘spor’样本组描述条目指示起始码仿真防止字节存在于NAL单元中的子画面ID之前或之内时,从NAL单元推导原始字节序列有效负载(RBSP)(即,可以移除起始码仿真防止字节);在下一步骤的覆写(overriding)之后,重新进行起始码仿真防止。
-读取器可以使用‘spor’样本组条目中的比特位置和子画面ID长度信息来推断哪些比特被重写以将子画面ID更新到所选子画面ID。
-当初始选择PPS或SPS的子画面ID值时,读取器需要分别利用重构访问单元(AU)中的所选子画面ID值重写PPS或SPS。
-当PPS或SPS的子画面ID值与具有相同PPS ID值或SPS ID值的先前PPS或SPS(分别)相比改变时,读取器需要包括先前PPS和SPS的副本(如果访问单元AU中不存在分别具有相同PPS ID值或SPS ID值的PPS或SPS);另外,读取器需要(分别)利用经重构的访问单元(AU)中的经更新的子画面ID值来重写PPS或SPS。
当存在映射至VVC基本轨道的样本的‘minp’样本组描述条目时,可以应用以下操作。
-可以检查‘minp’样本组描述条目以推断pps_mixed_nalu_types_in_pic_flag的值。
-如果推导出的值与经重构的比特流中具有相同PPS ID的先前PPS NAL单元的值不同,那么可以应用以下内容。
-当通过上述步骤在画面单元中不包括PPS时,读取器需要包括具有经重构的画面单元(PU)中的经更新的pps_mixed_nalu_types_in_pic_flag值的PPS的副本。
-读取器可以使用‘minp’样本组条目中的比特位置来推断哪个比特被重写以更新pps_mixed_nalu_types_in_pic_flag。
流访问点样本组
流访问点(SAP)样本组可以用于提供关于所有SAP的信息。在下文中,在本公开中,流访问点样本组将缩写为‘sap’样本组。‘sap’样本组可以在诸如ISO/IEC 14496-12的标准文档中定义。指定‘sap’样本组的分组类型的语法grouping_type_parameter的具体示例在下面的表1中示出。
[表1]
参照表1,语法grouping_type_parameter可以包括语法元素target_layers和layer_id_method_idc。
语法元素target_layers可以指定针对特定SAP的目标层。target_layers的语义可以基于语法元素layer_id_method_idc的值而确定。例如,当layer_id_method_idc为0时,可以保留target_layers。
语法元素layer_id_method_idc可以指定target_layers的语义。layer_id_method_idc等于0可以指定目标层由轨道表示的所有层组成。相比之下,非零layer_id_method_idc的语义可以由所获得的媒体文件规范指定。
当layer_id_method_idc等于0时,SAP可以解释如下:
-如果样本条目类型是‘vvc1’或‘vvil’并且轨道不包含TemporalId为0的任何子层,则SAP可以指定对轨道中存在的所有子层的访问。
-否则,SAP可以指定对轨道中存在的所有层的访问。
例如,当样本条目类型为‘vvc1’或‘vvil’并且轨道不包含TemporalId为0的任何子层时,存在于轨道中的具有最低TemporalId的STSA画面可以充当SAP。
layer_id_method_idc等于1的语义可以在诸如ISO/IEC 14496-15的标准文档中定义。
VVC比特流中的逐渐解码刷新(GDR)画面通常可以用‘sap’样本组中的SAP类型4来指示。VVC标准可以支持相同的编码画面内具有不同VCL NAL单元类型的子画面。可以通过将每个子画面索引的子画面更新为画面范围内的IRAP子画面来获得GDR。然而,VVC标准不指定从具有混合VCL NAL单元类型的画面开始的解码过程。
媒体文件内的样本的特性可以如下定义。
-条件1:VVC轨道中的样本参考pps_mixed_nalu_types_in_pic_flag等于1(即,参考PPS的每个画面具有混合NAL单元类型)的画面参数集(PPS)。
-条件2:针对从0至sps_num_subpics_minus1范围内的每个子画面索引i,满足所有以下子条件。
2-1)sps_subpic_treated_as_pic_flag[i]等于1(即,第i子画面被视为画面)。
2-2)具有相同子画面索引i的至少一个帧内随机访问点(IRAP)子画面存在于同一编码层视频序列(CLVS)内的当前样本中或该当前样本之后。
当满足上述全部条件时,将以下样本特性应用于样本。
-样本特性1:样本可以被指示为类型4的SAP样本;这里,类型4的SAP样本可以包含ph_recovery_poc_cnt大于0的GDR画面。
-样本特性2:样本可以映射至具有如下roll_distance值的‘roll’样本组描述条目,该roll_distance值对于省略在存在IRAP子画面之前具有特定子画面索引的子画面的解码的解码过程是正确的。
当使用上述‘sap’样本组时,‘sap’样本组将在承载相同VVC比特流的所有轨道中使用。
随机访问恢复点样本组
随机访问恢复点样本组可以用于提供关于针对逐渐解码刷新(GDR)的恢复点的信息。在下文中,在本公开中,随机访问恢复点样本组将缩写为‘roll’样本组。
当‘roll’样本组与VVC轨道一起使用时,grouping_type_parameter的语法和语义可以在诸如ISO/IEC 14496-12的标准文档中定义。其具体示例如上文参照表1所述。
当映射至‘roll’样本组的样本的目标层的画面为GDR画面时,可以使用等于0或1的layer_id_method_idc。
当layer_id_method_idc等于0时,‘roll’样本组可以指定轨道中存在的所有层的行为。此外,可以例如在诸如ISO/IEC 14496-15的标准文档中定义layer_id_method_idc等于1的语义。例如,当layer_id_method_idc等于1时,target_layers字段中的每个比特可以指定承载于轨道中的层。由于字段的长度仅为28比特,因此轨道内的SAP的指示可以被约束到最大28个层。字段的从最低有效位(LSB)开始的每个比特将按与样本相关联的layer_id的列表的layer_id值的升序映射。
另选地,当包括在映射至‘roll’样本组的样本的目标层中的所有画面不是GDR画面时,可以使用等于2或3的layer_id_method_idc。在这种情况下,可以将以下画面特性应用于目标层中的除GDR画面之外的画面。
-画面特性1:所参考的PPS具有等于1的pps_mixed_nalu_types_in_pic_flag(即,参考PPS的每个画面具有混合NAL单元类型)。
-画面特性2:针对从0至sps_num_subpics_minus1的范围内的每个子画面索引i,
2-1)sps_subpic_treated_as_pic_flag[i]等于1(即,第i子画面被视为画面)。
2-2)在同一编码层视频序列(CLVS)内的当前样本中或该当前样本之后存在具有相同子画面索引i的至少一个IRAP子画面。
当layer_id_method_idc等于2时,‘roll’样本组可以指定轨道中存在的所有层的行为。此外,可以在诸如ISO/IEC 14496-15的标准文档中指定layer_id_method_idc等于3的语义。
当读取器使用利用layer_id_method_idc等于2或3标记的样本来开始解码时,读取器需要如下修改经重构的比特流的序列参数集(SPS)、画面参数集(PPS)和画面报头(PH)NAL单元。
-由样本参考的任何SPS具有等于1的sps_gdr_enabled_flag(即,GDR画面可以被启用并且存在于CLVS中)。
-由样本参考的任何PPS具有等于0的pps_mixed_nalu_types_in_pic_flag(即,参考PPS的每个画面不具有混合NAL单元类型)。
-从样本重构的访问单元的所有VCL NAL单元具有等于GDR_NUT的nal_unit_type。
-从样本重构的访问单元的任何画面报头具有等于1的ph_gdr_pic_flag(即,当前画面是GDR画面),并且具有与样本被映射至的‘roll’样本组描述条目的roll_distance相对应的值的ph_recovery_poc_cnt。这里,ph_recovery_poc_cnt指定按照输出顺序的解码画面的恢复点。
根据上述修改,以被标记为属于具有等于2或3的layer_id_method_idc的样本组的样本开始的比特流可以满足比特流一致性。
当‘roll’样本组与依赖层相关但不与参考层相关时,样本组可以指示在依赖层的所有参考层可用并且被解码时应用的特性。样本组可以用于发起预测层的解码。
现有技术的问题
VVC文件格式允许包含具有混合NAL单元的画面的样本被映射至‘roll’样本组。其细节如下定义。
-条件1:VVC轨道中的样本参考pps_mixed_nalu_types_in_pic_flag等于1的PPS(即,参考PPS的每个画面具有混合NAL单元类型)。
-条件2:针对从0至sps_num_subpics_minus1范围内的每个子画面索引i,满足所有以下子条件。
2-1)sps_subpic_treated_as_pic_flag[i]等于1(即,第i子画面被视为画面)。
2-2)具有相同子画面索引i的至少一个IRAP子画面存在于同一编码层视频序列(CLVS)内的当前样本中或该当前样本之后。
当全部满足所述条件时,可以将以下样本特性应用于样本。
-样本特性1:样本可以被指示为类型4的流访问点(SAP)样本。
-样本特性2:样本可以映射至具有如下roll_distance值的‘roll’样本组描述条目,该roll_distance值对于省略在存在IRAP子画面之前具有特定子画面索引的子画面的解码的解码过程是正确的。
此外,当包括在映射至‘roll’样本组的样本的目标层中的所有画面不是GDR画面时,可以使用等于2或3的layer_id_method_idc。在这种情况下,可以将以下画面特性应用于目标层中的除GDR画面之外的画面。
-画面特性1:所参考的PPS具有等于1的pps_mixed_nalu_types_in_pic_flag(即,参考PPS的每个画面具有混合NAL单元类型)。
-画面特性2:针对从0至sps_num_subpics_minus1的范围内的每个子画面索引i,
2-1)sps_subpic_treated_as_pic_flag[i]等于1(即,第i子画面被视为画面)。
2-2)在同一编码层视频序列(CLVS)内的当前样本中或该当前样本之后存在具有相同子画面索引i的至少一个IRAP子画面。
图10示出了基于画面特性的子画面的具体示例。
图10是例示根据现有VVC文件格式的样本中具有混合NAL单元的子画面的示例的图。
参照图10,mdat框1000可以包括第一样本Sample_0至第四样本Sample_3。然而,这仅是为了方便描述的示例,因此与图10所示不同,第一样本Sample_0至第四样本Sample_3可以被包括在两个或更多个mdat框中。
第一样本Sample_0至第四样本Sample_3可以构成一个编码层视频序列(CLVS)。另外,第一样本Sample_0至第四样本Sample_3中的每一者可以指示访问单元(AU)。在下文中,假设第一样本Sample_0至第四样本Sample_3被映射至‘roll’样本组,并且针对第一样本Sample_0至第四样本Sample_3的layer_id_method_idc是2或3(即,包括在第一样本Sample_0至第四样本Sample_3的目标层中的所有画面不是GDR画面)。
第一样本Sample_0至第四样本Sample_3可以分别包括第一子画面Subpic_0至第四子画面Subpic_3。根据上述假设,由于包括第一子画面Subpic_0至第四子画面Subpic_3的每个画面不是GDR画面,因此可以将上述画面特性2应用于每个画面。
具体地,根据上述画面特性2-1,可以将每个画面中的第一子画面Subpic_0至第四子画面Subpic_3中的每个子画面被视为画面。
另外,根据上文描述的画面特性2-2,针对CLVS中的每个子画面Subpic_0至Subpic_3(即,针对具有相同子画面索引的每个子画面),至少一个子画面可以是IRAP子画面。例如,包括在第一样本Sample_0至第四样本Sample_3中的第一子画面Subpic_0中的至少一者、第二子画面Subpic_1中的至少一者和第三子画面Subpic_2中的至少一者以及第四子画面Subpic_3中的至少一者可以是IRAP子画面。因此,如图10所示,可以发生仅第四样本Sample_3包括IRAP子画面的情况。在这种情况下,由于第一样本Sample_0至第三样本Sample_2仅包括非IRAP子画面,所以无法正确地执行对第一样本Sample_0至第三样本Sample_2的随机访问。
因此,根据现有VVC文件格式,具有混合NAL单元类型的画面可以与画面中的NAL单元的类型无关地被映射至‘roll’样本组。例如,混合了RASL_NUT和RADL_NUT的NAL单元类型(即,仅包括非IRAP子画面)的样本也可以映射至‘roll’样本组。然而,为了支持随机访问,文件格式设计应仅允许具有混合NAL单元类型的画面,并且NAL单元类型中的至少一者应为映射至‘roll’样本组的IRAP类型(例如,CRA_NUT、IDR_W_RADL或IDR_N_LP)。因此,无法与在‘roll’样本组中具有混合NAL单元类型RASL_NUT和RADL_NUT的样本类似地正确地执行对不具有IRAP类型的样本的随机访问。另外,针对类型4的‘sap’样本组也可能出现这种问题。
为了解决上述问题,根据本公开的实施方式,当前样本可以包括至少一个IRAP子画面或可以具有等于0的TemporalId。
本公开的实施方式可以包括以下方面中的至少一个方面。根据实施方式,各方面可以单独地或以两者或更多者的组合来实现。
(方面1):映射至‘roll’样本组的样本/不是GDR画面的画面将具有至少一个IRAP类型的NAL单元。这里,IRAP类型可以包括CRA_NUT、IDR_W_RADL和IDR_N_LP。
换句话说,映射至‘roll’样本组的样本/不是GDR画面的画面应满足至少所有以下条件。
-条件1:所参考的PPS具有等于1的pps_mixed_nalu_types_in_pic_flag(即,参考PPS的每个画面具有混合NAL单元类型)。
-条件2:针对从0至sps_num_subpics_minus1的范围内的每个子画面索引i,sps_subpic_treated_as_pic_flag[i]等于1(即,第i子画面被视为画面)。
-条件3:存在至少一个IRAP子画面。
(方面2)在当前画面中的第i子画面不是IRAP子画面时,在当前画面映射至‘roll’样本组并且不是GDR画面的情况下,CLVS中按解码顺序在当前画面之后的画面当中的第i子画面可以是IRAP子画面。
(方面3):不是映射至‘roll’样本组的GDR画面的画面应是时间标识符(即,TemporalId)等于0的画面。换句话说,画面中的所有NAL单元的nuh_temporal_id_plus1值应等于1。
在下文中,将详细描述基于上述各方面的本公开的实施方式。
实施方式1
可以基于上述方面1和方面2来提供本公开的实施方式1。
根据实施方式1,映射至流访问点(‘sap’)样本组或随机访问点(‘roll’)样本组的样本可以具有预定样本特性。细节如下。
(1)流访问点样本组
根据实施方式1的流访问点(‘sap’)样本组可以用于提供关于所有SAP的信息。‘sap’样本组的基本内容如上所述,并且在下文中,将重点关注与现有VVC文件格式的差异。
根据实施方式1,媒体文件内的样本的特性可以定义如下。
-条件1:VVC轨道中的样本参考pps_mixed_nalu_types_in_pic_flag等于1(即,参考PPS的每个画面具有混合NAL单元类型)的画面参数集(PPS)。
-条件2:针对从0至sps_num_subpics_minus1范围内的每个子画面索引i,满足所有以下子条件。
2-1)sps_subpic_treated_as_pic_flag[i]等于1(即,第i子画面被视为画面)。
2-2)当前样本中存在至少一个IRAP子画面。
2-3)针对当前样本中不是IRAP子画面的子画面中的每一个的子画面索引i,至少一个IRAP子画面存在于属于与当前样本相同的CLVS并且按解码顺序在当前样本之后的样本中。
当全部满足上述条件时,可以将以下样本特性应用于样本。
-样本特性1:样本可以被指示为类型4的流访问点(SAP)样本;这里,类型4的SAP样本可以包括ph_recovery_poc_cnt大于0的GDR画面。
-样本特性2:样本可以映射至具有如下roll_distance值的‘roll’样本组描述条目,该roll_distance值对于省略在存在IRAP子画面之前具有特定子画面索引的子画面的解码的解码过程是正确的。
这里,将样本特性应用于样本可以意指样本可以被映射至‘sap’样本组。
此外,根据一个实施方式,将样本特性应用于样本可以意指所有以上条件可以作为画面特性应用于映射至‘sap’样本组的样本。
根据实施方式1,在映射至类型4的‘sap’样本组的样本当中,当前样本可以包括至少一个IRAP子画面。另外,在当前样本包括非IRAP子画面时,同一CLVS内的按解码顺序在当前样本之后的样本可以包括具有与非IRAP子画面相同的子画面索引的IRAP子画面。因此,与现有VVC文件格式不同,仅具有IRAP类型的混合NAL单元类型的样本可以映射至类型4的‘sap’样本组。
(2)随机访问恢复点样本组
根据实施方式1的随机访问恢复点(‘roll’)样本组可以用于提供关于GDR的恢复点的信息。‘roll’样本组的基本内容如上所述,并且在下文中,将重点关注与现有VVC文件格式的差异。
当包括在映射至‘roll’样本组的样本的目标层中的所有画面不是GDR画面时,可以使用等于2或3的layer_id_method_idc。在这种情况下,根据实施方式1,可以将以下画面特性应用于目标层中的除GDR画面之外的画面。
-画面特性1:所参考的PPS具有等于1的pps_mixed_nalu_types_in_pic_flag(即,参考PPS的每个画面具有混合NAL单元类型)。
-画面特性2:针对从0至sps_num_subpics_minus1的范围内的每个子画面索引i,
2-1)sps_subpic_treated_as_pic_flag[i]等于1(即,第i子画面被视为画面)。
2-2)当前样本中存在至少一个IRAP子画面。
2-3)针对当前样本中不是IRAP子画面的子画面中的每一个的子画面索引i,至少一个IRAP子画面存在于属于与当前样本相同的CLVS并且按解码顺序在当前样本之后的样本中。
根据一个实施方式,画面特性可以意指用于将特定样本(例如,目标层中的不包括GDR画面的样本)映射至‘roll’样本组的条件。例如,当特定样本中的每个画面满足所有画面特性时,可以将特定样本映射至‘roll’样本组。相比之下,如果特定样本中的每个画面不满足画面特性中的至少一者,则特定样本可能不映射至‘roll’样本组。
图11示出了基于画面特性的子画面的具体示例。
图11是例示根据本公开的一个实施方式的样本中具有混合NAL单元的子画面的示例的图。
参照图11,mdat框1000可以包括第一样本Sample_0至第四样本Sample_3。在下文中,假设第一样本Sample_0至第四样本Sample_3被映射至‘roll’样本组,并且针对第一样本Sample_0至第四样本Sample_3的layer_id_method_idc等于2或3(即,包括在第一样本Sample_0至第四样本Sample_3的目标层中的所有画面不是GDR画面)。
第一样本Sample_0至第四样本Sample_3可以分别包括第一子画面Subpic_0至第四子画面Subpic_3。根据上述假设,由于包括第一子画面Subpic_0至第四子画面Subpic_3的每个画面不是GDR画面,因此可以将上述画面特性2应用于每个画面。
具体地,根据上述画面特性2-1,可以将每个画面中的第一子画面Subpic_0至第四子画面Subpic_3中的每个子画面视为画面。
另外,根据上述画面特性2-2,第一样本Sample_0中作为当前样本的第一子画面Subpic_0可以是IRAP子画面。
另外,由于第一样本Sample_0中的第二子画面Subpic_1至第四子画面Subpic_3分别是非IRAP子画面,因此上述画面特性2-3可以应用于第二样本Sample_1至第四样本Sample_3。因此,第二样本Sample_1中的第二子画面Subpic_1可以是IRAP子画面。另外,第三样本Sample_2中的第三子画面Subpic_2可以是IRAP子画面。另外,第四样本Sample_3中的第四子画面Subpic_3可以是IRAP子画面。
因此,如图11所示,第一样本Sample_0至第四样本Sample_3中的每一者可以包括一个IRAP子画面。因此,与图10的情况不同,可以正确地执行对任意样本Sample_0至Sample_3的随机访问。
如上文所描述的,根据实施方式1,在目标层中的不包括GDR画面(即,layer_id_method_idc=2或3)的样本当中,当前样本可以包括至少一个IRAP子画面。另外,在当前样本包括非IRAP子画面时,同一CLVS内的按解码顺序在当前样本之后的样本可以包括具有与非IRAP子画面相同的子画面索引的IRAP子画面。因此,与现有VVC文件格式不同,仅具有IRAP类型的混合NAL单元类型的样本可以映射至‘roll’样本组。
根据实施方式1的确定是否施加‘sap’/‘roll’样本特性的方法如图12所示。
图12是例示根据本公开的一个实施方式的确定样本特性的方法的流程图。图12的每个步骤可以由媒体文件生成设备和/或媒体文件接收设备执行。在下文中,将基于媒体文件接收设备描述图12的每个步骤。
参照图12,媒体文件接收设备可以确定目标样本中的画面是否具有混合NAL单元类型(S1210)。在一个示例中,可以基于由画面参考的PPS中的预定标志(例如,pps_mixed_nalu_types_in_pic_flag)执行该确定。例如,当pps_mixed_nalu_types_in_pic_flag等于1时,媒体文件接收设备可以确定画面具有混合NAL单元类型。相比之下,当pps_mixed_nalu_types_in_pic_flag等于0时,媒体文件接收设备可以确定画面不具有混合NAL单元类型。此外,上述步骤S1210可以对应于与上述样本特性或画面特性1相关的条件1。
如果画面不具有混合NAL单元类型(S1210的‘否’),则媒体文件接收设备可以不将上述‘sap’/‘roll’样本特性应用于目标样本(S1260)。
相比之下,当画面具有混合NAL单元类型(S1210的“是”)时,媒体文件接收设备可以确定包括在画面中的每个子画面是否被视为画面(S1220)。在一个示例中,可以基于由画面参考的SPS中的预定标志(例如,sps_subpic_treated_as_pic_flag)来执行该确定。例如,当sps_subpic_treated_as_pic_flag是1时,媒体文件接收设备可以确定每个子画面i被视为画面。相比之下,当sps_subpic_treated_as_pic_flag是0时,媒体文件接收设备可以确定每个子画面不被视为画面。
如果每个子画面不被视为画面(S1220的‘否’),则媒体文件接收设备可以不将前述‘sap’/‘roll’样本特性应用于目标样本(S1260)。
相比之下,当每个子画面被视为画面(S1220的‘是’)时,媒体文件接收设备可以确定当前样本是否包括至少一个IRAP子画面(S1230)。
如果当前样本不包括至少一个IRAP子画面(S1230的‘否’),则媒体文件接收设备可以不将前述‘sap’/‘roll’样本特性应用于目标样本。(S1260)。
相比之下,如果当前样本包括至少一个IRAP子画面(S1230的“是”),则媒体文件接收设备可以确定针对当前样本中存在的非IRAP子画面的子画面索引i,具有子画面索引i的IRAP子画面是否存在于同一CLVS内的按解码顺序在当前样本之后目标样本中(S1240)。
如果IRAP子画面存在(在S1240为‘是’),则媒体文件接收设备可以将前述‘sap’/‘roll’样本特性应用于目标样本(S1250)。换句话说,目标样本可以映射至‘sap’/‘roll’样本组。
相比之下,如果IRAP子画面不存在(在S1240为‘否’),则媒体文件接收设备可以不将前述‘sap’/‘roll’样本特性应用于目标样本(S1260)。
此外,上述步骤S1220至S1240可以对应于与上述样本特性或画面特性2相关的条件2。具体地,步骤S1220可以与条件2-1或画面特性2-1相对应。此外,步骤S1230可以与条件2-2或画面特性2-2相对应。此外,步骤S1240可以与条件2-3或画面特性2-3相对应。
根据本公开的实施方式1,仅具有IRAP类型的混合NAL单元类型的样本可以映射至‘sap’或‘roll’样本组。因此,可以正确地执行以样本为单位的随机访问。
实施方式2
可以基于上述方面3来提供本公开的实施方式2。
根据实施方式2,映射至流访问点(‘sap’)样本组或随机访问点(‘roll’)样本组的样本可以具有预定样本特性。细节如下。
(1)流访问点样本组
根据实施方式2的流访问点(‘sap’)样本组可以用于提供关于所有SAP的信息。‘sap’样本组的基本内容如上所述,并且在下文中,将重点关注与现有VVC文件格式的差异。
根据实施方式2,媒体文件内的样本的特性可以定义如下。
-条件1:VVC轨道中的样本参考pps_mixed_nalu_types_in_pic_flag等于1(即,参考PPS的每个画面具有混合NAL单元类型)的PPS。
-条件2:针对从0至sps_num_subpics_minus1范围内的每个子画面索引i,满足所有以下子条件。
2-1)sps_subpic_treated_as_pic_flag[i]是1(即,第i子画面被视为画面)。
2-2)当前样本或属于与当前样本相同的CLVS并且在当前样本之后的样本中存在具有相同子画面索引i的至少一个IRAP子画面(即,针对每个子画面索引i,属于同一CLVS的样本中存在至少一个IRAP子画面)。
2-3)当前样本的TemporalID值等于0;这里,TemporalID可以意指当前样本中的NAL单元的时间标识符;在当前样本的TemporalID值等于0时,当前样本可以包括诸如CRA_NUT、IDR_W_RADL或IDR_N_LP的IRAP类型的NAL单元。
当全部满足上述条件时,可以将以下样本特性应用于样本。
-样本特性1:样本可以被指示为类型4的SAP样本;这里,类型4的SAP样本可以包括ph_recovery_poc_cnt大于0的GDR画面。
-样本特性2:样本可以映射至具有如下roll_distance值的‘roll’样本组描述条目,该roll_distance值对于省略在存在IRAP子画面之前具有特定子画面索引的子画面的解码的解码过程是正确的。
这里,将样本特性应用于样本可以意指样本可以映射至‘sap’样本组。
此外,根据一个实施方式,将样本特性应用于样本可以意指所有以上条件可以作为画面特性应用于映射至‘sap’样本组的样本。
根据实施方式2,在映射至类型4的‘sap’样本组的样本当中,当前样本的TemporalID值可以等于0。在这种情况下,当前样本包括IRAP类型的NAL单元并因此可以包括至少一个IRAP子画面。另外,在当前样本包括非IRAP子画面时,同一CLVS内的按解码顺序在当前样本之后的样本可以包括具有与非IRAP子画面相同的子画面索引的IRAP子画面。因此,与现有VVC文件格式不同,仅具有IRAP类型的混合NAL单元类型的样本可以映射至类型4的‘sap’样本组。因此,可以正确地执行以样本为单位的随机访问。
(2)随机访问恢复点样本组
根据实施方式2的随机访问恢复点(‘roll’)样本组可以用于提供关于GDR的恢复点的信息。‘roll’样本组的基本内容如上所述,并且在下文中,将重点关注与现有VVC文件格式的差异。
当映射至‘roll’样本组的样本的目标层中包括的所有画面不是GDR画面时,可以使用等于2或3的layer_id_method_idc。在这种情况下,可以将以下画面特性应用于目标层中的除GDR画面之外的画面。
-画面特性1:所参考的PPS具有等于1的pps_mixed_nalu_types_in_pic_flag(即,参考PPS的每个画面具有混合NAL单元类型)。
-画面特性2:针对从0至sps_num_subpics_minus1的范围内的每个子画面索引i,
2-1)sps_subpic_treated_as_pic_flag[i]等于1(即,第i子画面被视为画面)。
2-2)当前样本或属于与当前样本相同的CLVS并且在当前样本之后的样本中存在具有相同子画面索引i的至少一个IRAP子画面(即,针对每个子画面索引i,属于同一CLVS的样本中存在至少一个IRAP子画面)。
2-3)当前样本的TemporalID值等于0;这里,TemporalID可以意指当前样本中的NAL单元的时间标识符;在当前样本的TemporalID值等于0时,当前样本可以包括诸如CRA_NUT、IDR_W_RADL或IDR_N_LP的IRAP类型的NAL单元。
根据一个实施方式,画面特性可以意指用于将特定样本(例如,目标层中的不包括GDR画面的样本)映射至‘roll’样本组的条件。例如,当特定样本中的每个画面满足所有画面特性时,可以将特定样本映射至‘roll’样本组。相比之下,如果特定样本中的每个画面不满足画面特性中的至少一者,则特定样本可以不映射至‘roll’样本组。
如上文所描述的,根据实施方式2,在不包括目标层中的GDR画面(即,layer_id_method_idc=2或3)的样本当中,当前样本的TemporalID值可以是0。因此,当前样本可以包括至少一个IRAP子画面。另外,在当前样本包括非IRAP子画面时,同一CLVS内的按解码顺序在当前样本之后的样本可以包括具有与非IRAP子画面相同的子画面索引的IRAP子画面。因此,与现有VVC文件格式不同,仅具有IRAP类型的混合NAL单元类型的样本可以映射至‘roll’样本组。因此,可以正确地执行以样本为单位的随机访问。
在下文中,将对根据本公开的一个实施方式的媒体文件生成/接收方法进行详细描述。
图13是例示根据本公开的一个实施方式的接收媒体文件的方法的流程图。图13的每个步骤可以由媒体文件接收设备来执行。在一个示例中,媒体文件接收设备可以对应于图1的接收设备B。
参照图13,媒体文件接收设备可以从自媒体文件生成/发送设备接收的媒体文件获得一个或更多个轨道和样本组(S1310)。在一个示例中,媒体文件可以具有诸如ISO基本媒体文件格式(ISO BMFF)或公共媒体应用格式(CMAF)的文件格式。
媒体文件接收设备可以通过基于样本组重构包括在轨道中的样本来处理媒体文件中的视频数据(S1320)。这里,视频数据处理可以包括对媒体文件进行解封装的过程、从经解封装的媒体文件获得视频数据的过程以及根据视频编解码器标准(例如,VVC标准)对所获得的视频数据进行解码的过程。
在一个实施方式中,基于轨道中存在映射至预定类型(例如,类型4)的流访问点(‘sap’)样本组或随机访问恢复点(‘roll’)样本组的样本,映射样本当中的当前样本可以被约束为包括至少一个帧内随机访问点(IRAP)子画面。
另外,在一个实施方式中,基于轨道中存在映射至预定类型(例如,类型4)的流访问点(‘sap’)样本组或随机访问恢复点(‘roll’)样本组的样本,在当前样本包括非IRAP子画面时,属于与当前样本相同的编码层视频序列(CLVS)并且按解码顺序在当前样本之后的样本可以被约束为包括具有与非IRAP子画面相同的子画面索引值的至少一个IRAP子画面。
在一个实施方式中,包括在映射样本中的每个画面可以被约束为具有混合NAL单元类型。
在一个实施方式中,包括在映射样本中的每个子画面可以被约束为被视为画面。
在上述实施方式中,映射样本可以仅具有IRAP类型的混合NAL单元类型。
在一个实施方式中包括在映射至随机访问恢复点样本组的样本的目标层中的所有画面可以不是逐渐解码刷新(GDR)画面(即,layer_id_method_idc=2或3)。
在一个实施方式中,当前样本的TemporalID值可以被约束为0。
图14是例示根据本公开的一个实施方式的媒体文件生成方法的流程图。图14的每个步骤可以由媒体文件生成设备来执行。在一个示例中,媒体文件生成设备可以对应于图1的发送设备A。
参照图14,媒体文件生成设备可以对视频数据进行编码(S1410)。在一个示例中,可以根据视频编解码器标准(例如,VVC标准)通过预测、变换和量化过程来对视频数据进行编码。
媒体文件生成设备可以针对所编码的视频数据生成一个或更多个轨道和样本组(S1420)。
媒体文件生成设备可以基于所生成的轨道和样本组生成媒体文件(S1430)。在一个示例中,媒体文件可以具有诸如ISO基本媒体文件格式(ISO BMFF)或公共媒体应用格式(CMAF)的文件格式。
在一个实施方式中,基于轨道中存在映射至预定类型(例如,类型4)的流访问点(‘sap’)样本组或随机访问恢复点(‘roll’)样本组的样本,映射样本当中的当前样本可以被约束为包括至少一个帧内随机访问点(IRAP)子画面。
另外,在一个实施方式中,基于轨道中存在映射至预定类型(例如,类型4)的流访问点(‘sap’)样本组或随机访问恢复点(‘roll’)样本组的样本,在当前样本包括非IRAP子画面时,属于与当前样本相同的编码层视频序列(CLVS)并且按解码顺序在当前样本之后的样本可以被约束为包括具有与非IRAP子画面相同的子画面索引值的至少一个IRAP子画面。
在一个实施方式中,包括在映射样本中的每个画面可以被约束为具有混合NAL单元类型。
在一个实施方式中,包括在映射样本中的每个子画面可以被约束为被视为画面。
在上述实施方式中,映射样本可以仅具有包括IRAP类型的混合NAL单元类型。
在一个实施方式中,包括在映射至随机访问恢复点样本组的样本的目标层中的所有画面可以不是逐渐解码刷新(GDR)画面(即,layer_id_method_idc=2或3)。
在一个实施方式中,当前样本的TemporalID值可以被约束为0。
所生成的媒体文件可以通过记录介质或网络发送至媒体文件接收设备。
如上文所描述的,根据本公开的实施方式,仅具有IRAP类型的混合NAL单元类型的样本可以映射至‘sap’或‘roll’样本组。因此,可以正确地执行以样本为单位的随机访问。
图15是示出本公开的实施方式可应用于的内容流传输系统的图。
如图15中所示,应用本公开的实施方式的内容流系统可以主要包括编码服务器、流服务器、网络服务器、媒体存储装置、用户装置和多媒体输入装置。
编码服务器将从诸如智能电话、相机、摄像机等多媒体输入装置输入的内容压缩成数字数据以生成比特流并将该比特流发送到流服务器。作为另一示例,当智能电话、相机、摄像机等多媒体输入装置直接生成比特流时,可以省略编码服务器。
比特流可以由应用本公开的实施方式的图像编码方法或图像编码设备产生,并且流服务器可以在发送或接收比特流的过程中暂时存储比特流。
流服务器基于用户通过网络服务器的请求将多媒体数据发送到用户装置,并且网络服务器用作向用户告知服务的媒介。当用户向网络服务器请求所需的服务时,网络服务器可以将其递送到流服务器,并且流服务器可以向用户发送多媒体数据。在这种情况下,内容流系统可以包括单独的控制服务器。在这种情况下,控制服务器用于控制内容流系统中的装置之间的命令/响应。
流服务器可以从媒体存储装置和/或编码服务器接收内容。例如,当从编码服务器接收内容时,可以实时接收内容。在这种情况下,为了提供平滑的流服务,流服务器可以在预定时间内存储比特流。
用户装置的示例可以包括移动电话、智能电话、膝上型计算机、数字广播终端、个人数字助理(PDA)、便携式多媒体播放器(PMP)、导航设备、板式PC、平板PC、超级本、可穿戴装置(例如,智能手表、智能眼镜、头戴式显示器)、数字电视、台式计算机、数字标牌等。
内容流系统中的各个服务器可以作为分布式服务器运行,在这种情况下,从各个服务器接收的数据可以被分布。
本公开的范围包括用于使根据各种实施方式的方法的操作能够在设备或计算机上执行的软件或机器可执行命令(例如,操作系统、应用、固件、程序等)、具有存储在其上并且可在设备或计算机上执行的此类软件或命令的非暂时性计算机可读介质。
工业适用性
本公开的实施方式可以用于生成并发送/接收媒体文件。
Claims (15)
1.一种由用于接收预定格式的媒体文件的媒体文件接收设备执行的媒体文件接收方法,所述媒体文件包括视频数据,所述媒体文件接收方法包括以下步骤:
从所述媒体文件获得一个或更多个轨道和样本组;以及
通过基于所述样本组重构包括在所述轨道中的样本来处理所述媒体文件中的所述视频数据,
其中,基于所述轨道中存在映射至预定类型的流访问点样本组或随机访问恢复点样本组的样本,
映射样本当中的当前样本被约束为包括至少一个帧内随机访问点IRAP子画面,并且
基于所述当前样本包括非IRAP子画面,属于与所述当前样本相同的编码层视频序列CLVS并且按解码顺序在所述当前样本之后的样本被约束为包括具有与所述非IRAP子画面相同的子画面索引值的至少一个IRAP子画面。
2.根据权利要求1所述的媒体文件接收方法,其中,
包括在所述映射样本中的每个画面被约束为具有混合NAL单元类型。
3.根据权利要求1所述的媒体文件接收方法,其中,
包括在所述映射样本中的每个子画面被约束为被视为画面。
4.根据权利要求1所述的媒体文件接收方法,其中,
包括在映射至所述随机访问恢复点样本组的样本的目标层中的所有画面不是逐渐解码刷新GDR画面。
5.根据权利要求1所述的媒体文件接收方法,其中,
所述映射样本仅具有IRAP类型的混合NAL单元类型。
6.根据权利要求1所述的媒体文件接收方法,其中,
所述当前样本的TemporalID值被约束为0。
7.一种媒体文件接收设备,所述媒体文件接收设备包括存储器和至少一个处理器,
其中,所述至少一个处理器被配置为:
从媒体文件获得一个或更多个轨道和样本组;并且
通过基于所述样本组重构包括在所述轨道中的样本来处理所述媒体文件中的视频数据,
其中,基于所述轨道中存在映射至预定类型的流访问点样本组或随机访问恢复点样本组的样本,
映射样本当中的当前样本被约束为包括至少一个帧内随机访问点IRAP子画面,并且
基于所述当前样本包括非IRAP子画面,属于与所述当前样本相同的编码层视频序列CLVS并且按解码顺序在所述当前样本之后的样本被约束为包括具有与所述非IRAP子画面相同的子画面索引值的至少一个IRAP子画面。
8.一种由用于生成预定格式的媒体文件的媒体文件生成设备执行的媒体文件生成方法,所述媒体文件包括视频数据,所述媒体文件生成方法包括以下步骤:
对所述视频数据进行编码;
针对经编码的视频数据生成一个或更多个轨道和样本组;以及
基于所生成的轨道和样本组生成所述媒体文件,
其中,基于所述轨道中存在映射至预定类型的流访问点样本组或随机访问恢复点样本组的样本,
映射样本当中的当前样本被约束为包括至少一个帧内随机访问点IRAP子画面,并且
基于所述当前样本包括非IRAP子画面,属于与所述当前样本相同的编码层视频序列CLVS并且按解码顺序在所述当前样本之后的样本被约束为包括具有与所述非IRAP子画面相同的子画面索引值的至少一个IRAP子画面。
9.根据权利要求8所述的媒体文件生成方法,其中,
包括在所述映射样本中的每个画面被约束为具有混合NAL单元类型。
10.根据权利要求8所述的媒体文件生成方法,其中,
包括在所述映射样本中的每个子画面被约束为被视为画面。
11.根据权利要求8所述的媒体文件生成方法,其中,
包括在映射至所述随机访问恢复点样本组的样本的目标层中的所有画面不是逐渐解码刷新GDR画面。
12.根据权利要求8所述的媒体文件生成方法,其中,
所述映射样本仅具有IRAP类型的混合NAL单元类型。
13.根据权利要求8所述的媒体文件生成方法,其中,
所述当前样本的TemporalID值被约束为0。
14.一种发送通过根据权利要求8所述的媒体文件生成方法生成的媒体文件的方法。
15.一种媒体文件生成设备,所述媒体文件生成设备包括存储器和至少一个处理器,
其中,所述至少一个处理器被配置为:
对视频数据进行编码;
针对经编码的视频数据生成一个或更多个轨道和样本组;并且
基于所生成的轨道和样本组生成媒体文件,
其中,基于所述轨道中存在映射至预定类型的流访问点样本组或随机访问恢复点样本组的样本,
映射样本当中的当前样本被约束为包括至少一个帧内随机访问点IRAP子画面,并且
基于所述当前样本包括非IRAP子画面,属于与所述当前样本相同的编码层视频序列CLVS并且按解码顺序在所述当前样本之后的样本被约束为包括具有与所述非IRAP子画面相同的子画面索引值的至少一个IRAP子画面。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063124884P | 2020-12-14 | 2020-12-14 | |
US63/124,884 | 2020-12-14 | ||
PCT/KR2021/018981 WO2022131754A1 (ko) | 2020-12-14 | 2021-12-14 | 샘플 단위의 랜덤 액세스를 지원하는 미디어 파일 생성/수신 방법, 장치 및 미디어 파일 전송 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116569557A true CN116569557A (zh) | 2023-08-08 |
Family
ID=82059345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180083772.4A Pending CN116569557A (zh) | 2020-12-14 | 2021-12-14 | 支持以样本为单位的随机访问的媒体文件生成/接收方法和设备及发送媒体文件的方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20240056578A1 (zh) |
CN (1) | CN116569557A (zh) |
WO (1) | WO2022131754A1 (zh) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9621919B2 (en) * | 2013-10-23 | 2017-04-11 | Qualcomm Incorporated | Multi-layer video file format designs |
KR102477964B1 (ko) * | 2015-10-12 | 2022-12-16 | 삼성전자주식회사 | 미디어 전송 시스템에서 비디오 비트스트림의 임의 접근 및 재생을 가능하게 하는 기법 |
US11062738B2 (en) * | 2017-03-23 | 2021-07-13 | Qualcomm Incorporated | Signalling of video content including sub-picture bitstreams for video coding |
-
2021
- 2021-12-14 US US18/267,041 patent/US20240056578A1/en active Pending
- 2021-12-14 WO PCT/KR2021/018981 patent/WO2022131754A1/ko active Application Filing
- 2021-12-14 CN CN202180083772.4A patent/CN116569557A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20240056578A1 (en) | 2024-02-15 |
WO2022131754A1 (ko) | 2022-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2741507C1 (ru) | Устройство и способ для кодирования и декодирования видео | |
KR102613593B1 (ko) | 필수 및 비필수 비디오 보충 정보의 시그널링 | |
AU2018208576A1 (en) | Signaling of important video information in file formats | |
CN114930857A (zh) | 用于视频编码的视频数据的存储和传递 | |
US20220201308A1 (en) | Media file processing method and device therefor | |
US20240056618A1 (en) | Method and device for generating/receiving media file including nal unit array information, and method for transmitting media file | |
US20240048768A1 (en) | Method and apparatus for generating and processing media file | |
US20230336761A1 (en) | Method for processing media file and device therefor | |
US20240056578A1 (en) | Media file generation/reception method and apparatus supporting random access in units of samples, and method for transmitting media file | |
EP4270968A1 (en) | Media file generation/reception method and device for signaling subpicture id information, and computer-readable recording medium in which media file is stored | |
EP4266689A1 (en) | Method and device for generating/receiving media file including nal unit information, and method for transmitting media file | |
US20230319374A1 (en) | Method and device for creating/receiving media file containing layer information, and media file transfer method | |
US20230328261A1 (en) | Media file processing method and device therefor | |
US20230336751A1 (en) | Method and apparatus for generating/receiving media file which signals output layer set information, and computer-readable recording medium storing media file | |
EP4329315A1 (en) | Method and device for generating/receiving media file on basis of eos sample group, and method for transmitting media file | |
US20230379481A1 (en) | Media file generation/reception method and device for signaling operating point information and output layer set information, and computer-readable recording medium in which media file is stored | |
US20230362456A1 (en) | Media file processing method and device | |
US20240205429A1 (en) | Media file processing method, and device therefor | |
US20230336783A1 (en) | Method and device for generating/receiving media file including output layer set information, and method for transmitting media file | |
US20240031622A1 (en) | Media file processing method and device | |
EP4287624A1 (en) | Media file processing method and device | |
US20240040169A1 (en) | Media file processing method and device therefor | |
CN117223290A (zh) | 用于基于eos样本组生成/接收媒体文件的方法和设备以及用于发送媒体文件的方法 | |
US20240040131A1 (en) | A method, an apparatus and a computer program product for video encoding and video decoding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |