CN116941246A - 用信号通知子画面id信息的媒体文件生成/接收方法和装置以及存储媒体文件的计算机可读记录介质 - Google Patents

用信号通知子画面id信息的媒体文件生成/接收方法和装置以及存储媒体文件的计算机可读记录介质 Download PDF

Info

Publication number
CN116941246A
CN116941246A CN202180093709.9A CN202180093709A CN116941246A CN 116941246 A CN116941246 A CN 116941246A CN 202180093709 A CN202180093709 A CN 202180093709A CN 116941246 A CN116941246 A CN 116941246A
Authority
CN
China
Prior art keywords
picture
information
media file
sub
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180093709.9A
Other languages
English (en)
Inventor
亨得利·亨得利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Publication of CN116941246A publication Critical patent/CN116941246A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

提供了用信号通知子画面ID信息的媒体文件生成/接收方法和装置以及用于发送媒体文件的方法。根据本公开的媒体文件接收方法可以包括以下步骤:从媒体文件获得视频数据的子画面ID信息;以及基于所获得的子画面ID信息对视频数据进行处理,其中,获得子画面ID信息的步骤是基于指示子画面ID值是否连续增加1的第一信息而执行的。

Description

用信号通知子画面ID信息的媒体文件生成/接收方法和装置 以及存储媒体文件的计算机可读记录介质
技术领域
本公开涉及用于生成/接收媒体文件的方法和设备,并且更具体地,涉及用信号通知子画面ID信息的媒体文件生成/接收方法和设备以及存储通过本公开的媒体文件生成方法/设备生成的文件的计算机可读记录介质。
背景技术
近来,对诸如360度图像的高分辨率且高质量图像的需求正在增加。随着图像的分辨率或质量增加,文件大小或帧速率增加,这不可避免地增加了存储成本和传输成本。另外,随着诸如智能电话和平板PC的移动装置变得流行,对基于通信网络的多媒体服务的需求正在迅速增加。然而,存在用于多媒体服务的硬件和网络资源受到限制的问题。
因此,需要用于更有效地存储和发送图像数据的高效图像压缩和文件处理技术。
发明内容
技术问题
本公开的目的是提供具有提高的媒体文件生成/接收效率的媒体文件生成/接收方法和设备。
另外,本公开的目的是提供能够通过高效地用信号通知子画面ID信息来提高媒体文件生成/接收效率的媒体文件生成/接收方法和设备。
本公开的一个目的是提供一种发送通过根据本公开的媒体文件生成方法或设备生成的媒体文件的方法。
本公开的一个目的是提供一种存储通过根据本公开的媒体文件生成方法或设备生成的媒体文件的记录介质。
本公开的一个目的是提供一种存储通过根据本公开的媒体文件接收设备接收并用于重构图像的媒体文件的记录介质。
本公开所解决的技术问题不限于上述技术问题,本领域技术人员通过以下描述将清楚此处未描述的其它技术问题。
技术方案
根据本公开的一方面的由媒体文件接收设备执行的媒体文件接收方法可以包括以下步骤:从所述媒体文件获得视频数据的子画面ID信息;以及基于所获得的子画面ID信息对所述视频数据进行处理。获得所述子画面ID信息的步骤可以是基于指示子画面ID的值是否连续增加1的第一信息而执行的。
在本公开的视频媒体文件接收方法中,获得子画面ID信息的步骤可以包括:基于所述第一信息指示所述子画面ID的所述值连续增加1,从所述媒体文件获得第一子画面ID信息。
在本公开的视频媒体文件接收方法中,基于所述第一信息指示所述子画面ID的所述值连续增加1,除了所述第一子画面之外的剩余子画面的子画面ID信息可以不是从所述媒体文件获得的,并且是基于所述第一子画面ID信息推导的。
在本公开的视频媒体文件接收方法中,获得子画面ID信息的步骤可以包括:基于所述第一信息指示所述子画面ID的所述值未连续增加1,从所述媒体文件获得所有子画面ID信息。
在本公开的视频媒体文件接收方法中,所述子画面ID信息可以被包括在样本组条目中。
在本公开的视频媒体文件接收方法中,所述子画面ID信息可以包括指示子画面的数量的信息。
在本公开的视频媒体文件接收方法中,第i子画面ID信息可以是通过将第(i-1)子画面ID信息加1而获得的。
根据本公开的另一方面的媒体文件接收设备可以包括存储器和至少一个处理器。所述至少一个处理器可以从媒体文件获得视频数据的子画面ID信息,并且基于所获得的子画面ID信息对所述视频数据进行处理。获得所述子画面ID信息的步骤可以是基于指示子画面ID的值是否连续增加1的第一信息而执行的。
根据本公开的另一方面的由媒体文件生成设备执行的媒体文件生成方法可以包括以下步骤:对视频数据进行编码;生成针对经编码的视频数据的子画面ID信息;以及基于经编码的视频数据和所生成的子画面ID信息生成媒体文件。生成子画面ID信息的步骤可以是基于指示子画面ID的值是否连续增加1的第一信息而执行的。
在本公开的视频媒体文件生成方法中,生成子画面ID信息的步骤可以包括:基于所述第一信息指示所述子画面ID的所述值连续增加1,生成第一子画面ID信息。
在根据本公开的另一方面的媒体文件发送方法中,可以发送通过本公开的媒体文件生成方法或设备生成的媒体文件。
根据本公开的另一方面的计算机可读记录介质可以存储通过本公开的媒体文件生成方法或设备生成的媒体文件。
以上关于本公开的简要概述的特征仅仅是本公开的以下详细描述的示例性方面,并不限制本公开的范围。
有利效果
根据本公开,可以提供具有提高的媒体文件生成/接收效率的媒体文件生成/接收方法和设备。
另外,可以提供能够通过有效地用信号通知子画面ID信息来提高媒体文件生成/接收效率的媒体文件生成/接收方法和设备。
另外,可以提供一种发送通过根据本公开的媒体文件生成方法或设备生成的媒体文件的方法。
根据本公开,可以提供存储通过根据本公开的媒体文件生成方法或设备生成的媒体文件的记录介质。
根据本公开,可以提供存储通过根据本公开的媒体文件接收设备接收并且用于重构图像的媒体文件的记录介质。
本领域技术人员将理解,通过本公开可以实现的效果不限于上文具体描述的内容,并且根据详细描述将更清楚地理解本公开的其它优点。
附图说明
图1是示意性地例示根据本公开的实施方式的媒体文件发送/接收系统的图。
图2是例示媒体文件发送方法的流程图。
图3是例示媒体文件接收方法的流程图。
图4是示意性地例示根据本公开的实施方式的图像编码设备的图。
图5是示意性地例示根据本公开的实施方式的图像解码设备的图。
图6是例示针对编码的图像/视频的层结构的示例的图。
图7是例示媒体文件结构的示例的图。
图8是例示图7的trak框结构的示例的图。
图9是例示图像信号结构的示例的图。
图10是例示用信号通知子画面ID样本组的语法结构的示例的图。
图11是例示用信号通知子画面顺序样本组的语法结构的示例的图。
图12是例示根据本公开的实施方式的用信号通知子画面ID样本组中的子画面ID信息的语法结构的图。
图13是例示根据本公开的实施方式的媒体文件接收设备的操作的图。
图14是例示根据本公开的实施方式的媒体文件生成设备的操作的图。
图15是示出本公开的一个实施方式可应用于的内容流传输系统的图。
具体实施方式
在下文中,将参照附图对本公开的实施方式进行详细描述,以易于本领域技术人员实现。然而,本公开可以以各种不同的形式实现,并且不限于本文描述的实施方式。
在描述本公开时,如果确定相关已知功能或构造的详细描述使本公开的范围不必要地含糊不清,则将省略其详细描述。在附图中,省略了与本公开的描述无关的部分,并且相似的附图标记被赋予相似的部分。
在本公开中,当一个组件“连接”、“联接”或“链接”到另一个组件时,它不仅可以包括直接连接关系,还可以包括存在中间组件的间接连接关系。另外,当一个组件“包括”或“具有”其它组件时,除非另有说明,否则其意指还可以包括其它组件,而不是排除其它组件。
在本公开中,术语第一、第二等仅用于将一个组件与其它组件区分开的目的,并且除非另有说明,否则不限制组件的顺序或重要性。相应地,在本公开的范围内,一个实施方式中的第一组件在另一个实施方式中可以被称为第二组件,类似地,一个实施方式中的第二组件在另一个实施方式中可以被称为第一组件。
在本公开中,相互区分的组件旨在清楚地描述每个特征,并不意味着组件必须分开。即,多个组件可以集成并实现为一个硬件或软件单元中,或者一个组件可以分布并实现为多个硬件或软件单元。因此,即使没有特别说明,这些组件集成或组件分布的实施方式也包括在本公开的范围内。
在本公开中,各个实施方式中所描述的组件并不一定是必不可少的组件,一些组件可以是可选的组件。因此,由实施方式中描述的组件的子集组成的实施方式也包括在本公开的范围内。另外,除了在各种实施方式中描述的组件之外还包括其它组件的实施方式包括在本公开的范围内。
本公开涉及图像的编码和解码,除非在本公开中重新定义,否则本公开中使用的术语可以具有本公开所属技术领域中常用的一般含义。
在本公开中,“画面”通常是指表示特定时间段内的一个图像的单元,并且切片(slice)/拼块(tile)是构成画面的一部分的编码单元,一个画面可以由一个或更多个切片/拼块组成。另外,切片/拼块可以包括一个或更多个编码树单元(CTU)。
在本公开中,“像素”或“像元(pel)”可以意指构成一个画面(或图像)的最小单元。此外,“样本”可以用作对应于像素的术语。一个样本一般可以表示像素或像素的值,也可以仅表示亮度分量的像素/像素值或仅表示色度分量的像素/像素值。
在本公开中,“单元”可以表示图像处理的基本单元。该单元可以包括画面的特定区域和与该区域相关的信息中的至少一个。在某些情况下,该单元可以与诸如“样本阵列”、“块”或“区域”的术语互换使用。在一般情况下,M×N块可以包括M列N行的样本(或样本阵列)或变换系数的集合(或阵列)。
在本公开中,“当前块”可以意指“当前编码块”、“当前编码单元”、“编码目标块”、“解码目标块”或“处理目标块”中的一个。当执行预测时,“当前块”可以意指“当前预测块”或“预测目标块”。当执行变换(逆变换)/量化(解量化)时,“当前块”可以意指“当前变换块”或“变换目标块”。当执行滤波时,“当前块”可以意指“滤波目标块”。
另外,在本公开中,除非明确说明为色度块,“当前块”可以意指包括亮度分量块和色度分量块二者的块或“当前块的亮度块”。当前块的亮度分量块可以通过包括诸如“亮度块”或“当前亮度块”的亮度分量块的明确描述来表示。另外,“当前块的色度分量块”可以通过包括诸如“色度块”或“当前色度块”的色度分量块的明确描述来表示。
在本公开中,术语“/”或“,”可以解释为指示“和/或”。例如,“A/B”和“A,B”可以意指“A和/或B”。此外,“A/B/C”和“A/B/C”可以意指“A、B和/或C中的至少一个”。
在本公开中,术语“或”应被解释以指示“和/或”。例如,表达“A或B”可以包括1)仅“A”,2)仅“B”,或3)“A和B”两者。换言之,在本公开中,“或”应被解释以指示“附加地或另选地”。
媒体文件发送/接收系统的概述
图1是示意性地例示根据本公开的实施方式的媒体文件发送/接收系统的图。
参照图1,媒体文件发送/接收系统1可以包括发送设备A和接收设备B。在一些实施方式中,媒体文件发送/接收系统1可以支持基于MPEG-DASH(HTTP动态自适应流传输)的自适应流传输,从而支持无缝媒体内容再现。
发送设备A可以包括视频源10、编码器20、封装单元30、发送处理器40和发送器45。
视频源10可以生成或获得诸如视频或图像的媒体数据。为此,视频源10可以包括视频/图像拍摄装置和/或视频/图像生成装置,或者可以连接至外部装置以接收媒体数据。
编码器20可以对从视频源10接收的媒体数据进行编码。编码器20可以根据针对压缩和编码效率的视频编解码器标准(例如,通用视频编码(VVC)标准)执行诸如预测、变换以及量化的一系列过程。编码器20可以以比特流的形式输出编码的媒体数据。
封装单元30可以对编码的媒体数据和/或媒体数据相关元数据进行封装。例如,封装单元30可以对文件格式(例如,ISO基本媒体文件格式(ISO BMFF)或通用媒体应用格式(CMAF))的数据进行封装,或对分段形式的数据进行处理。在一些实施方式中,以文件的形式封装的媒体数据(下文称为“媒体文件”)可以存储在存储单元(未示出)中。存储在存储单元中的媒体文件可以由发送处理器40读取,并根据按需、非实时(NRT)或宽带方法发送至接收设备B。
发送处理器40可以通过根据任意发送方法处理媒体文件来生成图像信号。媒体文件发送方法可以包括广播方法和宽带方法。
根据广播方法,可以使用MPEG媒体传输(MMT)协议或单向传输实时对象传送(ROUTE)协议来发送媒体文件。MMT协议可以是与基于IP的网络环境中的文件格式或编解码器无关地支持媒体流传输的传输协议。在使用MMT协议的情况下,可以基于MMT在媒体处理单元(MPU)中处理媒体文件,然后根据MMT协议发送媒体文件。ROUTE协议是单向传输文件传送(FLUTE)的扩展,并且可以是支持媒体文件的实时传输的传输协议。在使用ROUTE协议的情况下,媒体文件可以基于MPEG-DASH被处理成一个或更多个分段,然后根据ROUTE协议来发送。
根据宽带方法,媒体文件可以使用HTTP(超文本传输协议)通过网络来发送。通过HTTP发送的信息可以包括信令元数据、分段信息和/或非实时(NRT)服务信息。
在一些实施方式中,发送处理器40可以包括MPD生成器41和分段生成器42,以支持自适应媒体流传输。
MPD生成器41可以基于媒体文件生成媒体呈现描述(MPD)。MPD是包括关于媒体呈现的详细信息的文件,并且可以以XML格式表达。MPD可以提供诸如每个分段的标识符的信令元数据。在这种情况下,接收设备B可以基于MPD动态地获得分段。
分段生成器42可以基于媒体文件生成一个或更多个分段。分段可以包括实际媒体数据,并且可以具有诸如ISO BMFF的文件格式。分段可以被包括在图像信号的表示中,并且如上文所描述的,可以基于MPD来识别分段。
另外,发送处理器40可以基于所生成的MPD和分段根据MPEG-DASH标准来生成图像信号。
发送器45可以将所生成的图像信号发送至接收设备B。在一些实施方式中,发送器45可以根据MMT标准或MPEG-DASH标准通过IP网络向接收设备B发送图像信号。根据MMT标准,发送至接收设备B的图像信号可以包括包括媒体数据的再现信息的呈现信息文档(PI)。根据MPEG-DASH标准,发送至接收设备B的图像信号可以包括前述MPD作为媒体数据的再现信息。然而,在一些实施方式中,MPD和分段可以分别地发送至接收设备B。例如,包括MPD的第一图像信号可以由发送设备A或外部服务器生成并且发送至接收设备B,包括分段的第二图像信号可以由发送设备A生成并且可以发送至接收设备B。
此外,尽管在图1中将发送处理器40和发送器45例示为分开的元件,但在一些实施方式中,它们可以整体地实现为单个元件。此外,发送处理器40可以被实现为与发送设备A分开的外部装置(例如,DASH服务器)。在这种情况下,发送设备A可以作为通过对媒体数据进行编码来生成媒体文件的源设备操作,并且外部设备可以作为通过根据任意传输协议处理媒体数据来生成图像信号的服务器设备操作。
接下来,接收设备B可以包括接收器55、接收处理器60、解封装单元70、解码器80和渲染器90。在一些实施方式中,接收设备B可以是基于MPEG-DASH的客户端。
接收器55可以从发送设备A接收图像信号。根据MMT标准的图像信号可以包括PI文档和媒体文件。另外,根据MPEG-DASH标准的图像信号可以包括MPD和分段。在一些实施方式中,MPD和分段可以通过不同的图像信号分开地发送。
接收处理器60可以通过根据传输协议处理所接收的图像信号来提取/解析媒体文件。
在一些实施方式中,接收处理器60可以包括MPD解析单元61和分段解析单元62,以便于支持自适应媒体流传输。
MPD解析单元61可以从所接收的图像信号获得MPD,并且对所获得的MPD进行解析以生成获得分段所需的命令。此外,MPD解析单元61可以基于所解析的MPD获得媒体数据再现信息(例如,颜色转换信息)。
分段解析单元62可以基于所解析的MPD获得分段,并且对所获得的分段进行解析以提取媒体文件。在一些实施方式中,媒体文件可以具有诸如ISO BMFF或CMAF的文件格式。
解封装单元70可以对所提取的媒体文件进行解封装以获得媒体数据和与其相关的元数据。所获得的元数据可以具有文件格式的框或轨道的形式。在一些实施方式中,解封装单元70可以从MPD解析单元61接收解封装所需的元数据。
解码器80可以根据视频编解码器标准(例如,VVC标准)对所获得的媒体数据进行解码。为此,解码器80可以执行诸如与编码器20的操作相对应的预测、逆量化以及逆变换的一系列过程。
渲染器90可以对诸如经解码的视频或图像的媒体数据进行渲染。经渲染的媒体数据可以通过显示单元(未示出)再现。
在下文中,将详细描述媒体文件发送/接收方法。
图2是例示了媒体文件发送方法的流程图。
在一个示例中,图2的每个步骤可以由图1的发送设备A执行。具体地,步骤S210可以由图1的编码器20执行。此外,步骤S220和步骤S230可以由发送处理器40执行。此外,步骤S240可以由发送器45执行。
参照图2,发送设备可以对诸如视频或图像的媒体数据进行编码(S210)。媒体数据可以由发送设备拍摄/生成或从外部装置(例如,相机、视频档案等)获得。可以根据视频编解码器标准(例如,VVC标准)以比特流的形式对媒体数据进行编码。
发送设备可以基于编码的媒体数据生成MPD以及一个或更多个分段(S220)。如上所述,MPD可以包括关于媒体呈现的详细信息。分段可以包括实际媒体数据。在一些实施方式中,媒体数据可以按照诸如ISO BMFF或CMAF的文件格式被封装并且被包括在分段中。
发送设备可以生成包括所生成的MPD和分段的图像信号(S230)。在一些实施方式中,可以针对MPD和分段中的每一者单独地生成图像信号。例如,发送设备可以生成包括MPD的第一图像信号并且生成包括分段的第二图像信号。
发送设备可以将所生成的图像信号发送至接收设备(S240)。在一些实施方式中,发送设备可以使用广播方法发送图像信号。在这种情况下,可以使用MMT协议或ROUTE协议。另选地,发送设备可以使用宽带方法发送图像信号。
此外,虽然在图2中,MPD和包括该MPD的图像信号被描述为由发送设备生成和发送(步骤S220至步骤S240),但是在一些实施方式中,MPD和包括该MPD的图像可以由与发送设备不同的外部服务器生成并发送。
图3是例示媒体文件接收方法的流程图。
在示例中,图3的每个步骤可以由图1的接收设备B执行。具体地,步骤S310可以由接收器55执行。此外,步骤S320可以由接收处理器60执行。此外,步骤S330可以由解码器80执行。
参照图3,接收设备可以从发送设备接收图像信号(S310)。根据MPEG-DASH标准的图像信号可以包括MPD和分段。在一些实施方式中,可以通过不同的图像信号单独地接收MPD和分段。例如,可以从图1的发送设备或外部服务器接收包括MPD的第一图像信号,并且可以从图1的发送设备接收包括分段的第二图像信号。
接收设备可以从所接收的图像信号提取MPD和分段,并且对所提取的MPD和分段进行解析(S320)。具体地,接收设备可以对MPD进行解析以生成获得分段所需的命令。然后,接收设备可以基于所解析的MPD获得分段,并且对所获得的分段进行解析以获得媒体数据。在一些实施方式中,接收设备可以对文件格式的媒体数据执行解封装,以从分段获得媒体数据。
接收设备可以对诸如所获得的视频或图像的媒体数据进行解码(S330)。接收设备可以执行诸如逆量化、逆变换和预测的一系列过程以对媒体数据进行解码。然后,接收设备可以对经解码的媒体数据进行渲染并且通过显示器再现媒体数据。
在下文中,将详细描述图像编码/解码设备。
图像编码设备的概述
图4是示意性地例示根据本公开的实施方式的图像编码设备的图。图4的图像编码设备400可以与参照图1描述的发送设备A的编码器20相对应。
参照图4,图像编码设备400可以包括图像分割器410、减法器415、变换器420、量化器430、解量化器440、逆变换器450、加法器455、滤波器460、存储器470、帧间预测单元480、帧内预测单元485和熵编码器490。帧间预测单元480和帧内预测单元485可以统称为“预测器”。变换器420、量化器430、解量化器440和逆变换器450可以被包括在残差处理器中。残差处理器还可以包括减法器415。
在一些实施方式中,配置图像编码设备400的多个组件中的全部或至少一些可以由一个硬件组件(例如,编码器或处理器)来配置。此外,存储器470可以包括解码画面缓冲器(DPB)并且可以由数字存储介质配置。
图像分割器410可将输入到图像编码设备400的输入图像(或画面或帧)分割成一个或更多个处理单元。例如,处理单元可以称为编码单元(CU)。可以通过根据四叉树二叉树三叉树(QT/BT/TT)结构递归地分割编码树单元(CTU)或最大编码单元(LCU)来获得编码单元。例如,可以基于四叉树结构、二叉树结构和/或三叉树结构将一个编码单元分割为更深深度的多个编码单元。对于编码单元的分割,可以首先应用四叉树结构,然后可以应用二叉树结构和/或三叉树结构。可以基于不再分割的最终编码单元来执行根据本公开的编码过程。可以将最大编码单元用作最终编码单元,也可以将通过分割最大编码单元获得的更深深度的编码单元用作最终编码单元。这里,编码过程可以包括稍后将描述的预测、变换和重构的过程。作为另一个示例,编码过程的处理单元可以是预测单元(PU)或变换单元(TU)。预测单元和变换单元可以从最终编码单元划分或分割。预测单元可以是样本预测单元,变换单元可以是用于推导变换系数的单元和/或用于从变换系数推导残差信号的单元。
预测单元(帧间预测单元480或帧内预测单元485)可以对要处理的块(当前块)执行预测,并且生成包括当前块的预测样本的预测块。预测单元可以确定对当前块或CU单元是应用帧内预测还是帧间预测。预测单元可以生成与当前块的预测有关的各种信息,并且将生成的信息传输到熵编码器490。关于预测的信息可以在熵编码器490中被编码并且以比特流的形式输出。
帧内预测单元485可以通过参考当前画面中的样本来预测当前块。根据帧内预测模式和/或帧内预测技术,参考样本可以位于当前块的邻居中或者可以被分开放置。帧内预测模式可以包括多个非定向模式和多个定向模式。非定向模式可以包括例如DC模式和平面模式。根据预测方向的详细程度,定向模式可以包括例如33个定向预测模式或65个定向预测模式。然而,这仅仅是示例,可以根据设置使用更多或更少的定向预测模式。帧内预测单元485可以通过使用应用于邻近块的预测模式来确定应用于当前块的预测模式。
帧间预测单元480可以基于由参考画面上的运动向量指定的参考块(参考样本阵列)来推导当前块的预测块。在这种情况下,为了减少在帧间预测模式中传输的运动信息量,可以基于邻近块和当前块之间的运动信息的相关性以块、子块或样本为单位来预测运动信息。运动信息可以包括运动向量和参考画面索引。运动信息还可以包括帧间预测方向(L0预测、L1预测、双预测等)信息。在帧间预测的情况下,邻近块可以包括当前画面中存在的空间邻近块和参考画面中存在的时间邻近块。包括参考块的参考画面和包括时间邻近块的参考画面可以相同或不同。时间邻近块可以被称为并置参考块、并置CU(colCU)等。包括时间邻近块的参考画面可以被称为并置画面(colPic)。例如,帧间预测单元480可以基于邻近块配置运动信息候选列表并生成指示使用哪个候选来推导当前块的运动向量和/或参考画面索引的信息。可以基于各种预测模式来执行帧间预测。例如,在跳过模式和合并模式的情况下,帧间预测单元480可以使用邻近块的运动信息作为当前块的运动信息。在跳过模式的情况下,与合并模式不同,可以不传输残差信号。在运动向量预测(MVP)模式的情况下,邻近块的运动向量可以用作运动向量预测子,并且当前块的运动向量可以通过对运动向量差和运动向量预测子的指示符进行编码来用信号通知当前块的运动向量。运动向量差可以意指当前块的运动向量与运动向量预测子之间的差。
预测单元可以基于以下描述的各种预测方法和预测技术来生成预测信号。例如,预测单元不仅可以应用帧内预测或帧间预测,还可以同时应用帧内预测和帧间预测,以预测当前块。同时应用帧内预测和帧间预测两者来预测当前块的预测方法可以称为组合帧间和帧内预测(CIIP)。此外,预测单元可以执行帧内块复制(IBC)以预测当前块。帧内块复制可以用于游戏等的内容图像/视频编码,例如,屏幕内容编码(SCC)。IBC是一种在与当前块相隔预定距离的位置处使用当前画面中先前重构的参考块来预测当前画面的方法。当应用IBC时,参考块在当前画面中的位置可以被编码为与预定距离相对应的向量(块向量)。IBC基本上在当前画面中执行预测,但是可以类似于帧间预测执行,因为在当前画面内推导参考块。即,IBC可以使用本公开中描述的至少一种帧间预测技术。
预测单元生成的预测信号可用于生成重构信号或生成残差信号。减法器415可以通过从输入图像信号(原始块或原始样本阵列)中减去从预测单元输出的预测信号(预测块或预测样本阵列)来生成残差信号(残差块或残差样本阵列)。生成的残差信号可以被传输到变换器420。
变换器420可以通过将变换技术应用于残差信号来生成变换系数。例如,变换技术可以包括离散余弦变换(DCT)、离散正弦变换(DST)、karhunen-loève变换(KLT)、基于图的变换(GBT)或条件非线性变换(CNT)中的至少一种。这里,GBT是指当像素之间的关系信息由图形表示时从图形获得的变换。CNT是指基于使用所有先前重构的像素生成的预测信号获得的变换。此外,变换处理可以应用于具有相同大小的正方形像素块或者可以应用于具有可变大小而不是正方形的块。
量化器430可以对变换系数进行量化并且将它们传输到熵编码器490。熵编码器490可以对量化的信号(关于量化的变换系数的信息)进行编码并且输出比特流。关于量化变换系数的信息可以被称为残差信息。量化器430可以基于系数扫描顺序将块类型的量化变换系数重新排列为一维向量形式,并基于一维向量形式的量化变换系数生成关于量化变换系数的信息。
熵编码器490可以执行各种编码方法(例如,指数哥伦布、上下文自适应可变长度编码(CAVLC)、上下文自适应二进制算术编码(CABAC)等)。熵编码器490可以一起或单独地对量化变换系数以外的视频/图像重构所需的信息(例如,语法元素的值等)进行编码。编码的信息(例如,编码的视频/图像信息)可以比特流的形式以网络抽象层(NAL)为单元进行传输或存储。视频/图像信息还可以包括关于各种参数集(例如,自适应参数集(APS)、画面参数集(PPS)、序列参数集(SPS)或视频参数集(VPS))的信息。此外,视频/图像信息还可以包括一般约束信息。本公开中描述的用信号通知的信息、传输的信息和/或语法元素可以通过上述编码过程被编码并且被包括在比特流中。
比特流可以通过网络传输或者可以存储在数字存储介质中。网络可以包括广播网络和/或通信网络,数字存储介质可以包括USB、SD、CD、DVD、蓝光、HDD、SSD等各种存储介质。可以包括传输从熵编码器490输出的信号的发送器(未示出)和/或存储该信号的存储单元(未示出)作为图像编码设备400的内部/外部元件。另选地,可以提供发送器作为熵编码器490的组件。
从量化器430输出的量化变换系数可用于生成残差信号。例如,可以通过解量化器440和逆变换器450对量化变换系数应用解量化和逆变换来重构残差信号(残差块或残差样本)。
加法器455将重构残差信号与从帧间预测单元480或帧内预测单元485输出的预测信号相加,以生成重构信号(重构画面、重构块、重构样本阵列)。如果要处理的块没有残差(例如,应用跳过模式的情况),则可以将预测块用作重构块。加法器455可以称为重构器或重构块生成器。生成的重构信号可以用于当前画面中要处理的下一个块的帧内预测,并且可以用于通过如下所述的滤波对下一个画面进行帧间预测。
此外,在图像编码和/或重构过程中,具有色度缩放的亮度映射(LMCS)是适用的。
滤波器460可以通过对重构信号应用滤波来提高主观/客观图像质量。例如,滤波器460可以通过对重构画面应用各种滤波方法来生成修改的重构画面,并将修改的重构画面存储在存储器470中,具体地,存储器470的DPB中。各种滤波方法可以包括例如去块滤波、样本自适应偏移、自适应环路滤波、双边滤波等。滤波器460可以生成与滤波有关的各种信息并将所生成的信息传输到熵编码器490,如稍后在每种滤波方法的描述中所描述的。与滤波相关的信息可以由熵编码器490编码并以比特流的形式输出。
传输到存储器470的修改的重构画面可以用作帧间预测单元480中的参考画面。当通过图像编码设备400应用帧间预测时,可以避免图像编码设备400和图像解码设备之间的预测失配并且可以提高编码效率。
存储器470的DPB可以存储修改的重构画面以用作帧间预测单元480中的参考画面。存储器470可以存储从其中推导(或编码)当前画面中的运动信息的块的运动信息和/或画面中已经重构的块的运动信息。存储的运动信息可以被传输到帧间预测单元480并用作空间邻近块的运动信息或时间邻近块的运动信息。存储器470可以存储当前画面中重构块的重构样本并且可以将重构样本传送到帧内预测单元485。
图像解码设备的概述
图5是示意性地例示根据本公开的实施方式的图像解码设备的图。图5的图像解码设备500可以与参照图1描述的接收设备B的解码器80相对应。
参照图5,图像解码设备500可以包括熵解码器510、解量化器520、逆变换器530、加法器535、滤波器540、存储器550、帧间预测单元560和帧内预测单元565。帧间预测单元560和帧内预测单元565可以统称为“预测器”。解量化器520和逆变换器530可以被包括在残差处理器中。
根据实施方式,配置图像解码设备500的多个组件中的全部或至少一些可以由硬件组件(例如,解码器或处理器)来配置。此外,存储器550可以包括解码画面缓冲器(DPB)或者可以由数字存储介质配置。
已经接收到包括视频/图像信息的比特流的图像解码设备500可以通过执行与由图4的图像编码设备100执行的处理相对应的处理来重构图像。例如,图像解码设备500可以使用在图像编码设备中应用的处理单元来执行解码。因此,解码的处理单元例如可以是编码单元。编码单元可以通过分割编码树单元或最大编码单元来获得。通过图像解码设备500解码和输出的重构图像信号可以通过再现设备(未示出)再现。
图像解码设备500可以接收由图4的图像编码设备以比特流的形式生成的信号。接收到的信号可以通过熵解码器510进行解码。例如,熵解码器510可以对比特流进行解析以推导图像重构(或画面重构)所需的信息(例如,视频/图像信息)。视频/图像信息还可以包括关于各种参数集(例如,自适应参数集(APS)、画面参数集(PPS)、序列参数集(SPS)或视频参数集(VPS))的信息。此外,视频/图像信息还可以包括一般约束信息。图像解码设备还可以基于关于参数集的信息和/或一般约束信息对画面进行解码。本公开中描述的用信号通知/接收的信息和/或语法元素可以通过解码过程被解码并从比特流中获得。例如,熵解码器510基于诸如指数哥伦布编码、CAVLC或CABAC的编码方法对比特流中的信息进行解码,并输出图像重构所需的语法元素的值和残差的变换系数的量化值。更具体地,CABAC熵解码方法可以接收与比特流中每个语法元素对应的bin,使用解码目标语法元素信息、邻近块和解码目标块的解码信息或前一阶段解码的符号/bin的信息来确定上下文模型,根据确定的上下文模型通过预测bin的出现概率来对bin执行算术解码,并且生成与每个语法元素的值对应的符号。在这种情况下,CABAC熵解码方法可以在确定上下文模型后,通过将解码的符号/bin的信息用于下一个符号/bin的上下文模型来更新上下文模型。由熵解码器510解码的信息中与预测相关的信息可以被提供给预测单元(帧间预测单元560和帧内预测单元565),并且在熵解码器510中对其执行熵解码的残差值,即,量化变换系数和相关的参数信息可以被输入到解量化器520。另外,可以将熵解码器510解码的信息当中关于滤波的信息提供给滤波器540。此外,用于接收从图像编码设备输出的信号的接收器(未示出)可以进一步被配置为图像解码设备500的内部/外部元件,或者接收器可以是熵解码器510的组件。
此外,根据本公开的图像解码设备可以被称为视频/图像/画面解码设备。图像解码设备可以分为信息解码器(视频/图像/画面信息解码器)和样本解码器(视频/图像/画面样本解码器)。信息解码器可以包括熵解码器510。样本解码器可以包括解量化器520、逆变换器530、加法器535、滤波器540、存储器550、帧间预测单元560或帧内预测单元565中的至少一个。
解量化器520可以对量化变换系数进行解量化并输出变换系数。解量化器520可以以二维块的形式重新排列量化变换系数。在这种情况下,可以基于在图像编码设备中执行的系数扫描顺序来执行重新排列。解量化器520可以通过使用量化参数(例如,量化步长信息)对量化变换系数执行解量化并获得变换系数。
逆变换器530可以对变换系数进行逆变换以获得残差信号(残差块、残差样本阵列)。
预测单元可以对当前块执行预测并生成包括当前块的预测样本的预测块。预测单元可以基于从熵解码器510输出的关于预测的信息来确定是将帧内预测还是帧间预测应用于当前块,并且可以确定特定帧内/帧间预测模式(预测技术)。
与在图像编码设备100的预测单元中描述的相同的是,预测单元可以基于稍后描述的各种预测方法(技术)来生成预测信号。
帧内预测单元565可以通过参考当前画面中的样本来预测当前块。帧内预测单元485的描述同样适用于帧内预测单元565。
帧间预测单元560可以基于参考画面上由运动向量指定的参考块(参考样本阵列)来推导当前块的预测块。在这种情况下,为了减少在帧间预测模式中传输的运动信息量,可以基于邻近块和当前块之间的运动信息的相关性以块、子块或样本为单位来预测运动信息。运动信息可以包括运动向量和参考画面索引。运动信息还可以包括帧间预测方向(L0预测、L1预测、双预测等)信息。在帧间预测的情况下,邻近块可以包括当前画面中存在的空间邻近块和参考画面中存在的时间邻近块。例如,帧间预测单元560可以基于邻近块配置运动信息候选列表,并且基于接收到的候选选择信息推导当前块的运动向量和/或参考画面索引。可以基于各种预测模式来执行帧间预测,并且关于预测的信息可以包括指示当前块的帧间预测模式的信息。
加法器535可以通过将获得的残差信号与从预测单元(包括帧间预测单元560和/或帧内预测单元565)输出的预测信号(预测块、预测样本阵列)相加生成重构信号(重构画面、重构块、重构样本阵列)。如果要处理的块没有残差(例如,应用跳过模式的情况),则预测块可以用作重构块。加法器155的描述同样适用于加法器535。加法器535可以称为重构器或重构块生成器。所生成的重构信号可以用于当前画面中要处理的下一块的帧内预测,并且可以用于通过如下所述的滤波对下一画面的帧间预测。
此外,在画面解码过程中,具有色度缩放的亮度映射(LMCS)是适用的。
滤波器540可以通过对重构信号应用滤波来提高主观/客观图像质量。例如,滤波器540可以通过对重构画面应用各种滤波方法来生成修改的重构画面,并将修改的重构画面存储在存储器550中,具体地,存储器550的DPB中。各种滤波方法可以包括例如去块滤波、样本自适应偏移、自适应环路滤波、双边滤波等。
存储在存储器550的DPB中的(修改的)重构画面可以用作帧间预测单元560中的参考画面。存储器550可以存储从其中推导(或解码)当前画面中的运动信息的块的运动信息和/或画面中已经重构的块的运动信息。存储的运动信息可以被传输到帧间预测单元560,以用作空间邻近块的运动信息或时间邻近块的运动信息。存储器550可以存储当前画面中重构块的重构样本并将重构样本传送到帧内预测单元565。
在本公开中,在图像编码设备400的滤波器460、帧间预测单元480和帧内预测单元485中描述的实施方式可以同等地或对应地应用于图像解码设备500的滤波器540、帧间预测单元560和帧内预测单元565。
编码设备的量化器可以通过对变换系数应用量化来推导量化变换系数,并且编码设备的解量化器或者解码设备的解量化器可以通过对量化变换系数应用解量化来推导变换系数。在视频编码中,可以改变量化速率并且可以使用经改变的量化速率来调整压缩率。从实现方式的观点,考虑到复杂性,可以使用量化参数(QP)而非直接使用量化速率。例如,可以使用具有整数值0至63的量化参数并且每个量化参数值可以对应于实际量化速率。另外,可以不同地设置亮度分量(亮度样本)的量化参数QPY和色度分量(色度样本)的量化参数QPC
在量化过程中,变换系数C可以作为输入接收并且除以量化速率Qstep,并且可以基于此推导量化变换系数C’。在这种情况下,考虑到计算复杂性,将量化速率乘以缩放以形成整数,并且可以按照与缩放值相对应的值来执行移位运算。基于量化速率与缩放值的乘积,可以推导量化缩放。也就是说,可以根据QP推导量化缩放。在这种情况下,通过将量化缩放应用于变换系数C,可以基于此推导量化变换系数C’。
解量化过程是量化过程的逆过程,并且量化变换系数C’可以乘以量化速率Qstep,从而基于此推导重构变换系数C”。在这种情况下,可以根据量化参数推导级别缩放,可以将级别缩放应用于量化变换系数C’,从而基于此推导重构变换系数C”。由于变换和/或量化过程中的损失,所以重构变换系数C”可以与原始变换系数C略微不同。因此,即使编码设备也可以以与解码设备相同的方式执行解量化。
此外,可以应用根据频率调整量化强度的自适应频率加权量化技术。自适应频率加权量化技术可以对应于根据频率不同地应用量化强度的方法。在自适应频率加权量化中,可以使用预定义的量化缩放矩阵根据频率来不同地应用量化强度。也就是说,可以基于量化缩放矩阵进一步执行上文所描述的量化/解量化过程。
例如,可以根据当前块的大小和/或应用于当前块以生成当前块的残差信号的预测模式是帧间预测还是帧内预测来使用不同量化缩放矩阵。量化缩放矩阵还可以称为量化矩阵或缩放矩阵。量化缩放矩阵可以是预定义的。另外,用于频率自适应缩放的量化缩放矩阵的频率量化缩放信息可以由编码设备构造/编码并且用信号通知给解码设备。频率量化缩放信息可以称为量化缩放信息。频率量化缩放信息可以包括缩放列表数据scaling_list_data。
基于缩放列表数据,可以推导量化缩放矩阵。另外,频率量化缩放信息可以包括指定是否存在缩放列表数据的存在标志信息。另选地,当在较高级别(例如,SPS)处用信号通知缩放列表数据时,还可以包括指定缩放列表数据是否在较低级别(例如,PPS或拼块组报头等)处被修改的信息。
图6是例示编码图像/视频的层结构的示例的图。
编码图像/视频被分类为用于图像/视频解码处理和处理自己的视频编码层(VCL)、用于发送和存储编码信息的下层系统以及存在于VCL和下层系统之间并负责网络适配功能的网络抽象层(NAL)。
在VCL中,可以生成包括压缩图像数据(切片数据)的VCL数据,或者可以生成图像的解码处理另外所需的补充增强信息(SEI)消息或包括诸如画面参数集(PPS)、序列参数集(SPS)或视频参数集(VPS)的信息的参数集。
在NAL中,报头信息(NAL单元报头)可以被添加到VCL中生成的原始字节序列有效载荷(RBSP)以生成NAL单元。在这种情况下,RBSP是指VCL中生成的切片数据、参数集、SEI消息。NAL单元报头可以包括根据对应NAL单元中所包括的RBSP数据指定的NAL单元类型信息。
如图6所示,NAL单元可以根据VCL中生成的RBSP的类型被分类为VCL NAL单元和非VCL NAL单元。VCL NAL单元可以意指包括关于图像的信息(切片数据)的NAL单元,非VCLNAL单元可以意指包括对图像进行解码所需的信息(参数集或SEI消息)的NAL单元。
VCL NAL单元和非VCL NAL单元可以根据下层系统的数据标准附有报头信息并通过网络发送。例如,NAL单元可以被修改为具有预定标准(例如,H.266/VVC文件格式、RTP(实时传输协议)或TS(传输流))的数据格式,并通过各种网络发送。
如上所述,在NAL单元中,可以根据对应NAL单元中所包括的RBSP数据结构来指定NAL单元类型,并且关于NAL单元类型的信息可以被存储在NAL单元报头中并用信号通知。例如,这可以根据NAL单元是否包括图像信息(切片数据)大致分类为VCL NAL单元类型和非VCL NAL单元类型。VCL NAL单元类型可以根据被包括在VCL NAL单元中的画面的特性/类型来细分,并且非VCL NAL单元类型可以根据参数集的类型来细分。
根据画面类型的VCL NAL单元类型的示例如下。
-“IDR_W_RADL”、“IDR_N_LP”:瞬时解码刷新(IDR)画面的VCL NAL单元类型,其为IRAP(帧内随机访问点)画面的类型;
IDR画面可以是比特流中的按解码顺序的第一画面或第一画面之后的画面。具有诸如“IDR_W_RADL”的NAL单元类型的画面可以具有与画面相关联的一个或更多个随机访问可解码先导(RADL)画面。相比之下,具有诸如“IDR_N_LP”的NAL单元类型的画面不具有与画面相关联的任何先导画面。
-“CRA_NUT”:纯随机访问(CRA)画面的VCL NAL单元类型,其为IRAP画面的类型;
CRA画面可以是比特流中的按解码顺序的第一画面或者可以是第一画面之后的画面。CRA画面可以与RADL或RASL(随机访问跳过先导)画面相关联。
-“GDR_NUT”:随机访问逐渐解码刷新(GDR)画面的VCL NAL单元类型;
-“STSA_NUT”:随机访问逐步时间子层访问(STSA)画面的VCL NAL单元类型;
-“RADL_NUT”:作为先导画面的RADL画面的VCL NAL单元类型;
-“RASL_NUT”:作为先导画面的RASL画面的VCL NAL单元类型;
-“TRAIL_NUT”:后置画面的VCL NAL单元类型;
后置画面是非IRAP画面,其可以按输出顺序在与后置画面相关联的IRAP画面或GDR画面之后,并且可以按解码顺序在与后置画面相关联的IRAP画面之后。
接下来,根据参数集类型的非VCL NAL单元类型的示例如下。
-“DCI_NUT”:包括解码能力信息(DCI)的非VCL NAL单元类型
-“VPS_NUT”:包括视频参数集(VPS)的非VCL NAL单元类型
-“SPS_NUT”:包括序列参数集(SPS)的非VCL NAL单元类型
-“PPS_NUT”:包括画面参数集(PPS)的非VCL NAL单元类型
-“PREFIX_APS_NUT”、“SUFFIX_APS_NUT”:包括自适应参数集(APS)的非VCL NAL单元类型
-“PH_NUT”:包括画面报头的非VCL NAL单元类型
上文所描述的NAL单元类型可以由被包括在NAL单元报头中的预定语法信息(例如,nal_unit_type)标识。
此外,在本公开中,以比特流的形式编码的图像/视频信息不仅可以包括画面分割信息、帧内/帧间预测信息、残差信息和/或环路内滤波信息等,还包括切片报头信息、画面报头信息、APS信息、PPS信息、SPS信息、VPS信息和/或DCI。另外,所编码的图像/视频信息还可以包括一般约束信息(GCI)和/或NAL单元报头信息。根据本公开的实施方式,可以将编码的图像/视频信息封装到预定格式(例如,ISO BMFF)的媒体文件中,并将其发送至接收设备。
媒体文件
可以基于预定的媒体文件格式配置(或格式化)编码的图像信息以生成媒体文件。例如,编码的图像信息可以基于针对编码的图像信息的一个或更多个NAL单元/样本条目来形成媒体文件(分段)。
媒体文件可以包括样本条目和轨道。在一个示例中,媒体文件可以包括各种记录,并且每个记录可以包括与媒体文件格式相关的信息或者与图像相关的信息。在一个示例中,一个或更多个NAL单元可以存储在媒体文件中的配置记录(或解码器配置记录)字段中。另外,媒体文件可以包括操作点记录和/或操作点组框。在本公开中,支持多功能视频编码(VVC)的解码器配置记录可以称为VVC解码器配置记录。同样地,支持VVC的操作点记录可以称为VVC操作点记录。
在媒体文件格式中使用的术语“样本”可以意指与表示画面的三个样本阵列(Y、Cb、Cr)中的任一者的单个时间或单个元素相关联的所有数据。当术语“样本”在轨道(媒体文件格式)的上下文中使用时,“样本”可以指代与轨道的单个时间相关联的所有数据。这里,时间可以对应于解码时间或合成时间(composition time)。此外,当在画面(例如,亮度样本)的上下文中使用术语“样本”时,“样本”可以指示表示画面的三个样本阵列中的任一者的单个元素。
图7是例示媒体文件结构的示例的图。
如上所述,为了存储和发送诸如音频、视频或图像的媒体数据,可以定义标准化的媒体文件格式。在一些实施方式中,媒体文件可以具有根据ISO基本媒体文件格式(ISOBMFF)的文件格式。
媒体文件可以包括一个或更多个框(box)。这里,框可以是包括媒体数据或与媒体数据有关的元数据的数据块或对象。在媒体文件内,框可以形成分层结构。因此,媒体文件可以具有适合于存储和/或发送大容量媒体数据的形式。此外,媒体文件可以具有便于访问特定媒体数据的结构。
参照图7,媒体文件700可以包括ftyp框710、moov框720、moof框730和mdat框740。
ftyp框710可以包括媒体文件700的文件类型、文件版本和/或兼容性相关信息。在一些实施方式中,ftyp框710可以位于媒体文件700的开始处。
moov框720可以包括描述媒体文件700中的媒体数据的元数据。在一些实施方式中,moov框720可以存在于元数据相关框当中的最上层中。此外,moov框720可以包括媒体文件700的报头信息。例如,moov框720可以包括解码器配置记录作为解码器配置信息。
moov框720是子框,并且可以包括mvhd框721、trak框722和mvex框723。
mvhd框721可以包括媒体文件700中的媒体数据的呈现相关信息(例如,媒体创建时间、改变时间、周期等)。
trak框722可以包括媒体数据的轨道的元数据。例如,trak框722可以包括音频轨道或视频轨道的流相关信息、呈现相关信息和/或访问相关信息。根据媒体文件700中存在的轨道的数量,可以存在多个trak框722。稍后将参照图8描述trak框722的结构的示例。
mvex框723可以包括关于一个或更多个电影片段是否存在于媒体文件700中的信息。电影片段可以是通过划分媒体文件700中的媒体数据而获得的媒体数据的一部分。电影片段可以包括一个或更多个编码画面。例如,电影片段可以包括一个或更多个画面组(GOP),并且每个画面组可以包括多个编码帧或画面。电影片段可以存储在mdat框740-1至740-N(其中,N是大于或等于1的整数)中的每一者中。
moof框730-1至730-N(其中,N是大于或等于1的整数)可以包括电影片段的元数据,即,mdat框740-1至740-N。在一些实施方式中,moof框730-1至730-N可以存在于电影片段的元数据相关框当中的最上层中。
mdat框740-1至740-N可以包括实际媒体数据。根据媒体文件700中存在的电影片段的数量,可以存在多个mdat框740-1至740-N。mdat框740-1至740-N中的每一者可以包括一个或更多个音频样本或视频样本。在一个示例中,样本可以意指访问单元(AU)。当解码器配置记录被存储在样本条目中时,解码器配置记录可以包括用于指示每个样本所属的网络抽象层(NAL)单元的长度的长度字段的大小以及参数集。
在一些实施方式中,媒体文件700可以以分段为单位被处理和存储和/或发送。分段可以包括初始化分段I_seg和媒体分段M_seg。
初始化分段I_seg可以是包括用于访问表示的初始化信息的对象类型数据单元。初始化分段I_seg可以包括前述ftyp框710和/或moov框720。
媒体分段M_seg可以是包括流传输服务的时间上划分的媒体数据的对象类型数据单元。媒体分段M_seg可以包括前述moof框730-1至730-N和mdat框740-1至740-N。尽管图7中未示出,但是媒体分段M_seg还可以包括:包括分段类型相关信息的styp框和包括媒体文件700中包括的子分段的标识信息的sidx框(可选的)。
图8是例示图7的trak框结构的示例的图。
参照图8,trak框800可以包括tkhd框810、tref框820和mdia框830。
tkhd框810是轨道报头框,并且可以包括由trak框800指示的轨道(以下称为”对应轨道”)的报头信息(例如,对应轨道的创建/修改时间、轨道标识符等)。
tref框820是轨道参考框,并且可以包括对应轨道的参考信息(例如,由对应轨道参考的另一轨道的轨道标识符)。
mdia框830可以包括描述对应轨道中的媒体数据的信息和对象。在一些实施方式中,mdia框830可以包括提供关于媒体数据的信息的minf框840。此外,minf框840可以包括包括针对包括媒体数据的样本的元数据的stbl框850。
stbl框850是样本表框,并且可以包括轨道中的样本的位置信息、时间信息等。读取器可以基于由stbl框850提供的信息确定样本类型、容器内的样本大小和偏移,并且以正确的时间顺序定位样本。
stbl框850可以包括一个或更多个样本条目框851和852。样本条目框851和852可以针对特定样本提供各种参数。例如,针对视频样本的样本条目框可以包括视频样本的宽度、高度、分辨率和/或帧计数。另外,针对音频样本的样本条目框可以包括音频样本的声道计数、声道布局和/或采样速率。在一些实施方式中,样本条目框851和852可以被包括在stbl框850中的样本描述框(未示出)中。样本描述框可以提供关于应用于样本的编码类型的详细信息和该编码类型所需的任何初始化信息。
另外,stbl框850可以包括一个或更多个样本至组框853和854以及一个或更多个样本组描述框855和856。
样本至组框853和854可以指示样本所属的样本组。例如,样本至组框853和854可以包括指示样本组的类型的分组类型语法元素(例如,grouping_type)。此外,样本至组框853和854可以包括一个或更多个样本组条目。样本组条目可以包括样本计数语法元素(例如,sample_count)和组描述索引语法元素(例如,group_description_index)。这里,样本计数语法元素可以指示应用对应组描述索引的连续样本的数量。样本组可以包括流访问点(SAP)样本组、随机访问恢复点样本组等,并且稍后将描述其细节。
样本组描述框855和框856可以提供样本组的描述。例如,样本组描述框855和856可以包括分组类型语法元素(例如,grouping_type)。样本组描述框855和856可以与具有相同分组类型语法元素值的样本至组框853和854相对应。此外,样本组描述框855和856可以包括一个或更多个样本组描述条目。样本组描述条目可以包括“spor”样本组描述条目、“minp”样本组描述条目、“roll”样本组描述条目等。
如上文参照图7和图8所描述的,可以根据诸如ISO BMFF的文件格式将媒体数据封装到媒体文件中。另外,媒体文件可以根据MMT标准或MPEG-DASH标准通过图像信号被发送至接收设备。
图9是例示图像信号结构的示例的图。
参照图9,图像信号符合MPEG-DASH标准,并且可以包括MPD 910和多个表示(representation)920-1至920-N。
MPD 910是包括关于媒体呈现的详细信息的文件,并且可以以XML格式表达。MPD910可以包括关于多个表示920-1至920-N的信息(例如,流传输内容的比特速率、图像分辨率、帧速率等)以及关于HTTP资源(例如,初始化分段和媒体分段)的URL的信息。
表示920-1至920-N(其中,N是大于1的整数)中的每一者可以被划分为多个分段S-1至S-K(其中,K是大于1的整数)。这里,多个分段S-1至S-K可以对应于上面参照图7描述的初始化分段和媒体分段。第K分段S-K可以表示表示920-1至920-N中的每一者中的最后电影片段。在一些实施方式中,被包括在表示920-1至920-N中的每一者中的分段S-1至S-K的数量(也就是说,K的值)可以彼此不同。
分段S-1至S-K中的每一者可以包括诸如一个或更多个视频或图像样本的实际媒体数据。被包括在分段S-1至S-K中的每一者内的视频或图像样本的特性可以由MPD 910描述。
分段S-1至S-K中的每一者具有唯一的URL(统一资源定位符),并因此可以被独立地访问和重构。
此外,可以定义三种类型的基本流来存储VVC内容。首先,可以定义不包含任何参数集的视频基本流。在这种情况下,所有参数集可以存储在一个样本条目或多个样本条目中。第二,可以定义可以包括参数集并且可以具有存储在一个样本条目或多个样本条目中的参数集的视频和参数集基本流。第三,可以定义包括与视频轨道内载送的基本流同步的非VCL NAL单元的非VCL基本流。在这种情况下,非VCL轨道可以不包括样本条目中的参数集。
VVC视频流的定义
样本条目类型可以包括‘vvc1’、‘vvil’和‘vvs1’。框类型可以包括‘vvcC’和‘vvnC’。容器可以对应于样本表框(‘stb1’)。‘vvc1’或‘vvil’样本条目在载送VVC比特流的轨道当中的至少一个轨道中可以是强制性的。在样本条目数量中,可以存在一个或更多个样本条目。VVC样本条目可以被定义为具有等于‘vvc1’或‘vvil’的样本条目类型的样本条目。VVC轨道的每个样本条目应当是VVC样本条目。VVC样本条目应包含VVC配置框,如下文定义的。VVC样本条目可以包括VVC配置记录。可选的BitRateBox可以存在于VVC样本条目中以用信号通知VVC视频流的比特率信息。还可以存在在用于MPEG-4中时应插入到基本流描述符中的扩展描述符。如ISO基本媒体文件格式规范所准许的,可以使用多个样本条目以指示使用不同配置或参数集的视频区段。如果VVC子画面轨道包含可以在没有其它VVC子画面轨道的情况下被消耗的一致VVC比特流,则可以将常规VVC样本条目(‘vvc1’或‘vvil’)用于VVC子画面轨道。
否则,‘vvs1’样本条目可以用于VVC子画面轨道,并且以下约束适用于VVC子画面轨道:
-track_in_movie标志应等于第一值(例如,0)。
-VVC子画面轨道应包含一个且仅一个样本条目。
-VVC子画面轨道将由至少一个VVC基本轨道通过‘subp’轨道参考来参考。
-DCI、OPI、VPS、SPS、PPS、AUD、PH、EOS、EOB和其它AU或画面级非VCL NAL单元应不存在于样本条目和‘vvs1’轨道的样本二者中。
-除非另有指示,否则视频样本条目的子框(例如,CleanApertureBox和PixelAspectRatioBox)不应存在于样本条目中并且(如果存在)应被忽略。
-除非样本包含的所有VCL NAL单元符合同步样本要求,否则样本不应被标记为同步样本。
-‘vvs1’轨道的样本的合成时间偏移信息将不存在。
-针对‘vvs1’轨道的样本的子样本信息可以存在;如果存在,则子样本信息应遵循针对VVC的子样本的定义。
VVC轨道可以包含‘subp’轨道参考,其中,条目包含VVC子画面轨道的track_ID值或VVC子画面轨道的‘alte’轨道组的track_group_id值。在每个VVC基本轨道中应存在‘spor’类型的样本组。VVC基本轨道的专用样本条目类型将使得能够通过轨道类型的编解码器MIME参数来指示VVC基本轨道。另一方面,可能不期望指定大量VVC样本条目类型。‘vvs1’类型的样本条目应包括VvcNALUConfigBox。当VVC子画面轨道由包含具有等于第二值(例如,1)的subpic_id_info_flag的‘spor’样本组描述条目的VVC基本轨道参考时,VVC子画面轨道应包括潜在地使用默认样本分组机制的子画面ID样本组描述。当样本条目名称为‘vvc1’或‘vvil’时,该样本条目应用于的流应当是由在VVCConfigurationBox中给出的配置(包括简档、层级和级别)下操作的VVC解码器查看的兼容VVC流。当样本条目名称为‘vvc1’时,array_completeness的值针对DCI、VPS、SPS和PPS NAL单元的阵列应等于第二值(例如,1),并且针对所有其它阵列应等于第一值(例如,0)。当轨道未天然地包含VVC比特流并且在解析‘subp’和‘vvcN’轨道参考之后未表示VVC比特流时,轨道应包含对载送‘vopi’样本组的轨道或操作点实体组的‘oref’轨道参考。VVC比特流的所有其它VVC轨道应具有对载送‘vopi’样本组的轨道的类型‘oref’的轨道参考。例如,当单层VVC比特流包含存储在不同轨道中的两个时间子层时,包含TemporalId等于第二值(例如,1)的子层的轨道可以包含对包含TemporalId等于第一值(例如,0)的子层的轨道的‘oref’轨道参考。
轨道中的子画面的载送
VVC文件格式定义如下各种类型的轨道。
-VVC轨道:VVC轨道可以通过在样本和样本条目中包括NAL单元(可能通过参考包含VVC比特流的其它子层的VVC轨道并且可能通过参考VVC子画面轨道)来指示VVC比特流。当VVC轨道参考VVC子画面轨道时,VVC轨道可以称为VVC基本轨道。
-VVC非VCL轨道:载送自适应环路滤波器(ALF)、具有色度缩放的亮度映射(LMCS)或缩放列表参数的自适应参数集(APS)以及其它非VCL NAL单元可以被存储在与包含VCLNAL单元的轨道分离的轨道中并且通过该轨道发送。VVC非VCL轨道可以指这种轨道。
-VVC子画面轨道:VVC子画面轨道可以包含形成矩形区域的一个或更多个VVC子画面的序列或一个或更多个完整切片的序列。另外,VVC子画面轨道的样本可以包含形成矩形区域的按解码顺序连续的一个或更多个完整子画面或者按解码顺序连续的一个或更多个完整切片。包括在VVC子画面轨道的每个样本中的VVC子画面或切片可以按解码顺序连续。
另一方面,VVC非VCL轨道和VVC子画面轨道可以实现流传输应用中的VVC视频的优选传送。轨道中的每一个可以在自己的DASH表示中载送。另外,针对轨道的子集的解码和渲染,包括VVC子画面轨道的子集的DASH表示以及包括非VCL轨道的DASH表示可以由客户端针对每个分段而请求。以这种方式,可以避免APS和其它非VCL NAL单元的冗余发送。
根据参考VVC子画面轨道的VVC轨道中的样本的PU重构
VVC轨道的样本可以被解析为包含以下NAL单元的画面单元(PU)。
-AUD NAL单元(如果存在于样本中);AUD(访问单元定界符)NAL单元可以是样本中的第一NAL单元。
-包含在参数集和样本条目内的SEI NAL单元,如果样本是与同一样本条目相关联的样本序列中的第一样本。
-如果具有诸如EOS_NUT、EOB_NUT、SUFFIX_APS_NUT、SUFFIX_SEI_NUT、RSV_NVCL_27、UNSPEC_30或UNSPEC_31的nal_unit_type的至少一个NAL单元存在于样本中(具有这种NAL单元类型的NAL单元在PU中可以不在第一VCL NAL单元之前),则样本中的这些NAL单元当中的除第一NAL单元之外的NAL单元;否则,样本中的所有NAL单元。
-从每个所参考的VVC子画面轨道(按照解码时间顺序)解析的时间对齐样本的内容;VVC子画面轨道按照在‘subp’轨道参考中参考的VVC子画面轨道的顺序(当num_subpic_ref_idx是与映射到样本的‘spor’样本组条目相同的组条目中的第一值(例如,0)时)或在映射到样本的‘spor’样本组描述条目中指定的顺序(如果num_subpic_ref_idx大于与映射到样本的‘spor’样本组条目相同的组条目中的第一值(例如,0));排除所有DCI、OPI、VPS、SPS、PPS、AUD、PH、EOS、EOB和访问单元(AU)级或画面级非VCL NAL单元;可以如下所述解析轨道参考。
另一方面,当所参考的VVC子画面轨道与VVC非VCL轨道相关联时,VVC子画面轨道的解析样本可以包含VVC非VCL轨道中的时间对齐样本的非VCL NAL单元。
-样本中的nal_unit_type等于EOS_NUT、EOB_NUT、SUFFIX_APS_NUT、SUFFIX_SEI_NUT、FD_NUT、RSV_NVCL_27、UNSPEC_30或UNSPEC_31的所有NAL单元。
如果映射到样本的‘spor’样本组描述条目中的num_subpic_ref_idx等于第一值(例如,0),则‘subp’框中的每个轨道参考可以如下解析。否则,映射到样本的‘spor’样本组描述条目中的轨道参考subp_track_ref_idx的每个实例可以如下解析。
从‘subp’轨道参考解析的VVC基本轨道的每个样本可以形成没有孔(即,矩形区域中的所有样本都被覆盖)并且没有交叠(即,矩形区域中的所有样本仅被覆盖一次)的矩形区域。
此外,如果轨道参考指向VVC子画面轨道的轨道ID,则轨道参考可以被解析到VVC子画面轨道。
否则(轨道参考指向‘alte’轨道组),轨道参考可以被解析到‘alte’轨道组的轨道中的任意轨道,并且如果特定轨道参考索引值被解析到先前样本中的特定轨道,则在当前样本中解析到以下项中的任一项:
-同一特定轨道,或者
-包含与当前样本时间对齐的同步样本的同一‘alte’轨道组中的任何其它轨道。
同一‘alte’轨道组中的VVC子画面轨道必须独立于由同一VVC基本轨道参考的任何其它VVC子画面轨道以避免解码不匹配,并因此可以如下约束:
-所有VVC子画面轨道包含VVC子画面。
-子画面边界类似于画面边界。
如果读取器选择包括具有作为初始选择或与先前选择不同的一组子画面ID值的VVC子画面的VVC子画面轨道,则可以采取以下步骤:
-对‘spor’样本组描述条目进行研究以推断PPS或SPS NAL单元是否需要改变。SPS改变仅在CLVS开始时是可能的。
-如果‘spor’样本组描述条目指示起始码仿真防止字节存在于包含NAL单元中的子画面ID之前或之内,则从NAL单元推导RBSP(即,移除起始码仿真防止字节)。在下一步骤的重写之后,再次进行起始码仿真防止。
-读取器使用‘spor’样本组条目中的比特位置和子画面ID长度信息来推断哪些比特被重写以将子画面ID更新到所选子画面ID。
-当初始选择PPS或SPS的子画面ID值时,读取器需要分别用重构访问单元(AU)中的所选子画面ID值重写PPS或SPS。
-当PPS或SPS的子画面ID值与具有相同PPS ID值或SPS ID值的先前PPS或SPS(分别)相比发生改变时,读取器需要包括先前PPS和SPS的副本(如果分别具有该相同PPS或SPSID值的PPS或SPS不以其它方式存在于访问单元(AU)中)并且将(分别)具有经更新的子画面ID值的PPS或SPS重写在重构访问单元(AU)中。
当存在映射到VVC基本轨道的样本的‘minp’样本组描述条目时,可以应用以下操作:
-基于‘minp’样本组描述条目推导pps_mixed_nalu_types_in_pic_flag的值。
如果推导值与重构比特流中具有相同PPS ID的先前PPS NAL单元中的推导值不同,则可以应用以下内容:
-当通过上述步骤在画面中不包括PPS时,读取器需要在重构画面单元(PU)中包括具有经更新的pps_mixed_nalu_types_in_pic_flag值的PPS的副本。
-读取器使用‘minp’样本组条目中的比特位置来推断哪个比特被重写以更新pps_mixed_nalu_types_in_pic_flag。
流访问点样本组
流访问点(SAP)样本组可以用于提供关于所有SAP的信息。在下文中,在本公开中,流访问点样本组可以称为‘sap’样本组。‘sap’样本组可以在诸如ISO/IEC 14496-12的标准文档中定义。指示‘sap’样本组的分组类型的语法分组类型参数的具体示例如下表1所示。
[表1]
参照表1,语法grouping_type_parameter可以包括语法元素target_layers和layer_id_method_idc。
语法元素target_layers可以指示针对预定SAP的目标层。target_layers的语义可以基于语法元素layer_id_method_idc的值确定。例如,当layer_id_method_idc等于第一值(例如,0)时,可以保留target_layers。
语法元素layer_id_method_idc可以指示target_layers的语义。layer_id_method_idc等于0可以指示目标层由轨道表示的所有层组成。相比之下,layer_id_method_idc不等于0的语义可以由推导出的媒体文件规范指定。
当layer_id_method_idc等于第一值(例如,0)时,SAP可以如下解释:
-如果样本条目类型为‘vvc1’或‘vvil’,并且轨道不包含TemporalId等于第一值(例如,0)的任何子层,则SAP指定对存在于轨道中的所有子层的访问。
-否则,SAP可以指定对存在于轨道中的所有层的访问。
例如,如果样本条目类型为‘vvc1’或‘vvil’,并且轨道不包含TemporalId等于第一值(例如,0)的任何子层,则TemporalId等于存在于轨道中的最低TemporalId的STSA画面可以充当SAP。
可以在诸如ISO/IEC 14496-15的标准文档中指定layer_id_method_idc等于第二值(例如,1)的语义。
VVC比特流中的逐渐解码刷新(GDR)画面通常可以用‘sap’样本组中的SAP类型4来指示。VVC可以在同一编码画面内启用具有不同VCL NAL单元类型的子画面。GDR可以通过将每个子画面索引的子画面更新为画面范围内的IRAP子画面而获得。然而,VVC未指定将从具有混合VCL NAL单元类型的画面开始的解码过程。
媒体文件中的样本属性可以如下定义。
-条件1:VVC轨道中的样本参考pps_mixed_nalu_types_in_pic_flag等于第二值(例如,1)的画面参数集(PPS)(即,参考PPS的每个画面具有混合NAL单元类型)。
-条件2:针对在0至sps_num_subpics_minus1范围(包括边界)内的每个子画面索引i,满足所有以下子条件。
2-1)sps_subpic_treated_as_pic_flag[i]等于第二值(例如,1)(即,第i子画面被视为一个画面)。
2-2)在同一编码层视频序列(CLVS)中存在当前样本或当前样本的后续样本中具有相同子画面索引i的至少一个帧内随机访问点(IRAP)子画面。
当条件全部满足时,以下样本属性可以应用于样本。
-样本属性1:样本可以被指示为类型4的SAP样本;这里,类型4的SAP样本可以包含ph_recovery_poc_cnt大于第一值(例如,0)的GDR画面。
-样本属性2:样本可以映射到具有roll_distance值的‘roll’样本组描述条目,所述roll_distance值针对省略在存在IRAP子画面之前解码具有特定子画面索引的子画面的解码过程是正确的。
当使用‘SAP’样本组时,‘sap’样本组应在载送相同VVC比特流的所有轨道上使用。
随机访问恢复点样本组
随机访问恢复点样本组可以用于提供关于用于逐渐解码刷新(GDR)的恢复点的信息。在下文中,在本公开中,随机访问恢复点样本组可以称为‘roll’样本组。
当‘roll’样本组与VVC轨道一起使用时,grouping_type_parameter的语法和语义可以在诸如ISO/IEC 14496-12的标准文档中定义。以上关于表1描述了其具体示例。
当映射到‘roll’样本组的样本的目标层的画面为GDR画面时,可以使用等于第一值(例如,0)和第二值(例如,1)的layer_id_method_idc。
当layer_id_method_idc等于第一值(例如,0)时,‘roll’样本组可以指定轨道中存在的所有层的行为。此外,可以在诸如ISO/IEC 14496-15的标准文档中定义layer_id_method_idc等于1的语义。例如,当layer_id_method_idc等于第二值(例如,1)时,target_layers字段中的每个比特可以指示轨道中载送的层。由于字段的长度仅为28位,因此轨道内的SAP的指示可以被约束为最多28个层。字段的从最低有效位(LSB)开始的每个比特应按照layer_id值的升序映射到与样本相关联的layer_id的列表。
相比之下,当映射到‘roll’样本组的样本的目标层的所有画面不是GDR画面时,可以使用等于2和3的layer_id_method_idc,并且针对目标层的不是GDR画面的画面,应用以下画面属性。
-画面属性1:所参考的PPS具有等于第二值(例如,1)的pps_mixed_nalu_types_in_pic_flag(即,参考PPS的每个画面具有混合NAL单元类型)。
-画面属性2:针对在0至sps_num_subpics_minus1(包括边界)范围内的每个子画面索引i,
2-1)sps_subpic_treated_as_pic_flag[i]等于第二值(例如,1)(即,第i子画面被视为一个画面)。
2-2)在相同CLVS中存在当前样本或当前样本的后续样本中具有相同子画面索引i的至少一个IRAP子画面。
当layer_id_method_idc等于2时,‘roll’样本组可以指定轨道中存在的所有层的行为。layer_id_method_idc等于3的语义可以在诸如ISO/IEC 14496-15的标准文档中指定。
当读取器将利用等于2或3的layer_id_method_idc标记的样本用于开始解码时,读取器需要进一步修改重构比特流的序列参数集(SPS)、画面参数集(PPS)和画面报头(PH)NAL单元。
-由样本参考的任何SPS具有等于第二值(例如,1)的sps_gdr_enabled_flag(即,GDR画面可以被启用并且存在于CLVS中)。
-由样本参考的任何PPS具有等于第一值(例如,0)的pps_mixed_nalu_types_in_pic_flag(即,参考PPS的每个画面不具有混合NAL单元类型)。
-从样本重构的访问单元的所有VCL NAL单元具有等于GDR_NUT的nal_unit_type。
-从样本重构的访问单元的任何画面报头(PH)具有等于第二值(例如,1)的ph_gdr_pic_flag和与样本所映射到的‘roll’样本组描述条目的roll_distance相对应的ph_recovery_poc_cnt的值。这里,ph_recovery_poc_cnt指示按照解码画面的输出顺序的恢复点。
根据上述修改,以被标记为属于layer_id_method_idc等于2或3的样本组的样本开始的比特流可以满足比特流一致性。
当‘roll’样本组涉及依赖层而不是其参考层时,样本组指示当依赖层的所有参考层是可用的并被解码时应用的特性。样本组可以用于发起预测层的解码。
子画面ID样本组
子画面ID样本组可以存在于包含VVC子画面的VVC子画面轨道中。子画面ID样本组应不存在于不是VVC子画面轨道或不包含VVC子画面的轨道中。每个样本组描述条目指示被包含在映射到该样本组描述条目的样本中的按照解码顺序的一个或更多个子画面ID值的列表。
图10是例示用信号通知子画面ID样本组的语法结构的示例的图。
参照图10,num_subpics_minus1加1可以指定包含在映射到该样本组描述条目的样本中的VVC子画面的数量。循环计数符i的subpic_id可以按照解码顺序指定包含在映射到该样本组描述条目的样本中的第i子画面标识符。subpic_id的值不应等于同一VvcSubpicIDEntry中subpic_id的任何其它值。
子画面顺序样本组
子画面顺序样本组可以用于VVC基本轨道中(即,具有参考VVC子画面轨道的‘subp’轨道的VVC轨道中)。每个样本组描述条目可以按照解码顺序指示编码画面的子画面或切片,其中,类型‘subp’的轨道参考的每个索引可以指示按照解码顺序连续的一个或更多个子画面或切片。为了便于响应于子画面选择的PPS或SPS重写,每个样本组描述条目可以包括以下内容:
-是否应在PPS或SPS单元中改变所选子画面ID的指示
-子画面ID语法元素的长度(以比特为单位)
-RBSP中的子画面ID语法元素的比特位置
-指示在子画面ID之前或之内是否存在起始码仿真防止字节的标志
-包含子画面ID的参数集的参数集ID
图11是例示用信号通知子画面顺序样本组的语法结构的示例的图。
参照图11,subpic_id_info_flag等于第一值(例如,0)可以指定在SPS和/或PPS中明确地用信号通知子画面ID值。另选地,subpic_id_info_flag等于第一值(例如,0)可以指定在没有显式信令的情况下推断的子画面ID值针对所指示的subp_track_ref_idx值集合是正确的。因此,可能不需要对SPS或PPS的重写。subpic_id_info_flag等于第二值(例如,1)可以指定SPS和/或PPS可能需要重写以指示与subp_track_ref_idx值的集合相对应的子画面。另外,可以不推断子画面ID值。num_subpic_ref_idx大于第一值(例如,0)可以指定由VVC轨道参考的子画面轨道的轨道组或子画面轨道的参考索引的数量。num_subpic_ref_idx等于第一值(例如,0)可以指定由VVC轨道参考的子画面轨道的轨道组或子画面轨道的参考索引的数量等于VVC轨道的‘subp’轨道参考中的条目的数量。另外,num_subpic_ref_idx等于第一值(例如,0)可以指定要被解析以包括在从VVC轨道重构的VVC比特流中的子画面轨道的轨道组或子画面轨道的顺序与VVC轨道的‘subp’轨道参考中的条目的顺序相同。
针对i的每个值,subp_track_ref_idx可以指定要被包括在从VVC轨道重构的VVC比特流中的一个或更多个子画面或切片的第i列表的‘subp’轨道参考索引。subpic_id_len_minus1加1可以指定PPS或SPS中的子画面标识符语法元素中的比特的数量。subpic_id_bit_pos可以指定从所参考的PPS或SPS RBSP中的第一子画面ID语法元素的第一比特的0开始的比特位置。start_code_emul_flag等于第一值(例如,0)可以指定起始码仿真防止字节不存在于所参考的PPS或SPS NAL单元中的子画面ID之前或之内。start_code_emul_flag等于第二值(例如,1)可以指定起始码仿真防止字节可以存在于所参考的PPS或SPSNAL单元中的子画面ID之前或之内。pps_sps_subpic_id_flag在等于第二值(例如,1)时可以指定应用于映射到‘spor’样本组描述条目的样本的PPS NAL单元包含子画面ID语法元素。pps_sps_subpic_id_flag在等于第一值(例如,0)时可以指定应用于映射到‘spor’样本组描述条目的样本的SPS NAL单元包含子画面ID语法元素。pps_id在存在时可以指定应用于映射到‘spor’样本组描述条目的样本的PPS的PPS ID。sps_id在存在时可以指定应用于映射到‘spor’样本组描述条目的样本的SPS的SPS ID。
相关技术的问题
‘spid’样本组可以被设计用于用信号通知包含样本组的子画面轨道中的子画面的ID。可以通过总是按照解码顺序明确列出子画面的ID来设计信令。在大多数情况下,子画面ID的值可以增加一。子画面的ID信息可以包含子画面的ID值。因此,信令可能具有以下问题。
问题:当用信号通知子画面的ID时,子画面的ID总是被明确列出并且根据解码顺序来用信号通知。信令不利用子画面的ID值增加1的事实。因此,当子画面ID的值增加1时,如果子画面的ID总是被明确列出并且根据解码顺序用信号通知,则子画面的ID可能是低效地用信号通知的。
根据本公开的实施方式可以包括以下方面中的至少一个方面,以解决以上问题中的至少一个问题。以下方面可以单独地或组合地实现。
方面1:针对子画面ID信息的信令,可以存在标志来指定子画面ID的值是否连续增加1。例如,针对以x开始并且连续增加1的id,序列如下:x、x+1、x+2……。另外,指定子画面ID的值是否连续增加1的标志可以称为subpicture_id_continuous_flag。
方面2:当子画面ID的值连续增加1时,可以仅显式地用信号通知第一子画面ID,而推导其余子画面ID。可以执行以下过程:
-令子画面的数量为num_subpictures。
-令第一子画面ID被显式地用信号通知为subpicture_id[0]。
-针对在1至num_subpictures_1的范围(包括边界)内的i,令subpicture_id[i]等于subpicture_id[i-1]+1。
图12是例示根据本公开的实施方式的用信号通知子画面ID样本组中的子画面ID信息的语法结构的图。
例如,图12的语法结构是为了解决上述问题,并且可以与上述方面1相关。具体地,参照图12,num_subpics_minus1加1可以表示包括在映射到‘spid’样本组描述条目的样本中的VVC子画面的数量。num_subpics_minus1的值应小于或等于599。10比特可以被分配给信号num_subpics_minus1。可以用信号通知指示子画面ID的值是否连续增加1的信息(例如,subpicture_id_continuous_flag)。1比特可以被分配给信号subpicture_id_continuous_flag。subpicture_id_continuous_flag等于第一值(例如,0)可以指示子画面ID不增加1。subpicture_id_continuous_flag等于第二值(例如,1)可以指示子画面ID连续增加1。
subpic_id[i]可以指示包括在映射到‘spid’样本组描述条目的样本中的第i子画面标识符。subpic_id[i]的值不应等于同一VvcSubpicIDEntry中的另一subpic_id[i]的值。16比特可以被分配给信号subpic_id[i]。当subpicture_id_continuous_flag等于第二值(例如,1)时,针对在1至num_subpics_minus1的范围(包括边界)内的i,subpic_id[i]的值可以等于subpic_id[i-1]+1的值。
根据参照图12描述的实施方式,当子画面ID的值连续增加1时,可以基于根据本公开的图像编码和/或解码方法来仅用信号通知或获得第一子画面ID。另外,可以推导除第一子画面ID之外的子画面ID的值。因此,相比于显式地列出和用信号通知所有子画面ID的常规编码和/或解码方法,根据本公开的图像编码和/或解码方法具有更高效地对子画面ID信息进行编码和/或解码的效果。
图13是例示根据本公开的实施方式的媒体文件接收设备的操作的图。
参照图13,媒体文件接收设备可以从媒体文件获得视频数据的子画面ID信息(S1310)。这里,子画面ID信息可以基于指示子画面ID的值是否连续增加1的信息(例如,subpicture_id_continuous_flag)而获得。当subpicture_id_continuous_flag等于第二值(例如,1)时,其可以指示子画面ID的值连续增加1。另外,当subpicture_id_continuous_flag等于第二值(例如,1)时,可以从媒体文件获得第一子画面ID信息。另外,当subpicture_id_continuous_flag等于第二值(例如,1)时,除了第一子画面之外的剩余子画面的子画面ID信息可以不是从媒体文件获得的,并且可以是基于第一子画面ID信息推导的。这里,第i子画面ID信息可以通过将第(i-1)子画面ID信息加1而获得。
当subpicture_id_continuous_flag为第一值(例如,0)时,可以从媒体文件获得所有子画面ID信息。子画面ID信息可以与包括在样本组条目中的信息相对应。子画面ID信息可以包括指示子画面的数量的信息。
另外,媒体文件接收设备可以基于所获得的子画面ID信息对视频数据进行处理(S1320)。
图14是例示根据本公开的实施方式的媒体文件生成设备的操作的图。
参照图14,媒体文件生成设备可以对视频数据进行编码(S1410)。
另外,媒体文件生成设备可以生成针对经编码的视频数据的子画面ID信息(S1420)。这里,子画面ID信息可以是基于subpicture_id_continuous_flag生成的。当subpicture_id_continuous_flag等于第二值(例如,1)时,可以生成第一子画面ID信息。另外,可以不生成除第一子画面ID信息之外的剩余子画面的子画面ID信息。当subpicture_id_continuous_flag等于第一值(例如,0)时,可以生成所有子画面ID信息。子画面ID信息可以与被包括在样本组条目中的信息相对应。子画面ID信息可以包括指示子画面的数量的信息。
另外,媒体文件生成设备可以基于经编码的视频数据和所生成的子画面ID信息生成媒体文件。
所生成的媒体文件可以通过网络发送给媒体文件接收设备。
图15是示出本公开的一个实施方式可应用于的内容流传输系统的图。
如图15中所示,应用本公开的实施方式的内容流系统可以主要包括编码服务器、流服务器、网络服务器、媒体存储装置、用户装置和多媒体输入装置。
编码服务器将从诸如智能电话、相机、摄像机等多媒体输入装置输入的内容压缩成数字数据以生成比特流并将该比特流发送到流服务器。作为另一示例,当智能电话、相机、摄像机等多媒体输入装置直接生成比特流时,可以省略编码服务器。
比特流可以由应用本公开的实施方式的图像编码方法或图像编码设备产生,并且流服务器可以在发送或接收比特流的过程中暂时存储比特流。
流服务器基于用户通过网络服务器的请求将多媒体数据发送到用户装置,并且网络服务器用作向用户告知服务的媒介。当用户向网络服务器请求所需的服务时,网络服务器可以将其递送到流服务器,并且流服务器可以向用户发送多媒体数据。在这种情况下,内容流系统可以包括单独的控制服务器。在这种情况下,控制服务器用于控制内容流系统中的装置之间的命令/响应。
流服务器可以从媒体存储装置和/或编码服务器接收内容。例如,当从编码服务器接收内容时,可以实时接收内容。在这种情况下,为了提供平滑的流服务,流服务器可以在预定时间内存储比特流。
用户装置的示例可以包括移动电话、智能电话、膝上型计算机、数字广播终端、个人数字助理(PDA)、便携式多媒体播放器(PMP)、导航设备、板式PC、平板PC、超级本、可穿戴装置(例如,智能手表、智能眼镜、头戴式显示器)、数字电视、台式计算机、数字标牌等。
内容流系统中的各个服务器可以作为分布式服务器运行,在这种情况下,从各个服务器接收的数据可以被分布。
本公开的范围包括用于使根据各种实施方式的方法的操作能够在设备或计算机上执行的软件或机器可执行命令(例如,操作系统、应用、固件、程序等)、具有存储在其上并且可在设备或计算机上执行的此类软件或命令的非暂时性计算机可读介质。
工业适用性
本公开的实施方式可以用于生成并发送/接收媒体文件。

Claims (11)

1.一种由用于接收预定格式的媒体文件的媒体文件接收设备执行的媒体文件接收方法,所述媒体文件包括视频数据,所述媒体文件接收方法包括以下步骤:
从所述媒体文件获得所述视频数据的子画面ID信息;以及
基于所获得的子画面ID信息对所述视频数据进行处理,
其中,获得所述子画面ID信息的步骤是基于指示子画面ID的值是否连续增加1的第一信息而执行的。
2.根据权利要求1所述的媒体文件接收方法,其中,获得所述子画面ID信息的步骤包括:基于所述第一信息指示所述子画面ID的所述值连续增加1,从所述媒体文件获得第一子画面ID信息。
3.根据权利要求2所述的媒体文件接收方法,其中,基于所述第一信息指示所述子画面ID的所述值连续增加1,除了所述第一子画面之外的剩余子画面的子画面ID信息不是从所述媒体文件获得的,并且是基于所述第一子画面ID信息推导的。
4.根据权利要求1所述的媒体文件接收方法,其中,获得所述子画面ID信息的步骤包括:基于所述第一信息指示所述子画面ID的所述值未连续增加1,从所述媒体文件获得所有子画面ID信息。
5.根据权利要求1所述的媒体文件接收方法,其中,所述子画面ID信息被包括在样本组条目中。
6.根据权利要求1所述的媒体文件接收方法,其中,所述子画面ID信息包括指示子画面的数量的信息。
7.根据权利要求3所述的媒体文件接收方法,其中,第i子画面ID信息是通过将第i-1子画面ID信息加1而获得的。
8.一种媒体文件接收设备,所述媒体文件接收设备包括存储器和至少一个处理器,
其中,所述至少一个处理器被配置为:
从媒体文件获得视频数据的子画面ID信息;以及
基于所获得的子画面ID信息对所述视频数据进行处理,
其中,获得所述子画面ID信息的步骤是基于指示子画面ID的值是否连续增加1的第一信息而执行的。
9.一种由用于生成预定格式的媒体文件的媒体文件生成设备执行的媒体文件生成方法,所述媒体文件包括视频数据,所述媒体文件生成方法包括以下步骤:
对所述视频数据进行编码;
生成针对经编码的视频数据的子画面ID信息;以及
基于所述经编码的视频数据和所生成的子画面ID信息生成媒体文件,
其中,生成所述子画面ID信息的步骤是基于指示子画面ID的值是否连续增加1的第一信息而执行的。
10.根据权利要求9所述的媒体文件生成方法,其中,生成所述子画面ID信息的步骤包括:基于所述第一信息指示所述子画面ID的所述值连续增加1,生成第一子画面ID信息。
11.一种发送通过根据权利要求9所述的媒体文件生成方法生成的媒体文件的方法。
CN202180093709.9A 2020-12-23 2021-12-22 用信号通知子画面id信息的媒体文件生成/接收方法和装置以及存储媒体文件的计算机可读记录介质 Pending CN116941246A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063129603P 2020-12-23 2020-12-23
US63/129,603 2020-12-23
PCT/KR2021/019609 WO2022139459A1 (ko) 2020-12-23 2021-12-22 서브 픽처 id 정보를 시그널링하는 미디어 파일 생성/수신 방법, 장치 및 미디어 파일을 저장한 컴퓨터 판독 가능한 기록 매체

Publications (1)

Publication Number Publication Date
CN116941246A true CN116941246A (zh) 2023-10-24

Family

ID=82158459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180093709.9A Pending CN116941246A (zh) 2020-12-23 2021-12-22 用信号通知子画面id信息的媒体文件生成/接收方法和装置以及存储媒体文件的计算机可读记录介质

Country Status (4)

Country Link
US (1) US20240064323A1 (zh)
EP (1) EP4270968A1 (zh)
CN (1) CN116941246A (zh)
WO (1) WO2022139459A1 (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9807407B2 (en) * 2013-12-02 2017-10-31 Qualcomm Incorporated Reference picture selection
KR102188270B1 (ko) * 2018-07-06 2020-12-09 엘지전자 주식회사 360 비디오 데이터의 서브픽처 기반 처리 방법 및 그 장치
HRP20230702T1 (hr) * 2019-01-09 2023-10-13 Huawei Technologies Co., Ltd. Signaliziranje identifikatora podslike kod kodiranja videa
KR20210087090A (ko) * 2019-03-11 2021-07-09 텐센트 아메리카 엘엘씨 타일 및 서브-픽처 파티셔닝
CN113841397A (zh) * 2019-05-15 2021-12-24 现代自动车株式会社 影像编码和解码方法及装置

Also Published As

Publication number Publication date
WO2022139459A1 (ko) 2022-06-30
EP4270968A1 (en) 2023-11-01
US20240064323A1 (en) 2024-02-22

Similar Documents

Publication Publication Date Title
KR102613593B1 (ko) 필수 및 비필수 비디오 보충 정보의 시그널링
CN111543060A (zh) 用于视频编码和解码的装置、方法和计算机程序
CN114930857A (zh) 用于视频编码的视频数据的存储和传递
US20220201308A1 (en) Media file processing method and device therefor
US20230336761A1 (en) Method for processing media file and device therefor
EP4270968A1 (en) Media file generation/reception method and device for signaling subpicture id information, and computer-readable recording medium in which media file is stored
US20240056578A1 (en) Media file generation/reception method and apparatus supporting random access in units of samples, and method for transmitting media file
EP4266689A1 (en) Method and device for generating/receiving media file including nal unit information, and method for transmitting media file
US20230336751A1 (en) Method and apparatus for generating/receiving media file which signals output layer set information, and computer-readable recording medium storing media file
US20230319374A1 (en) Method and device for creating/receiving media file containing layer information, and media file transfer method
US20230379481A1 (en) Media file generation/reception method and device for signaling operating point information and output layer set information, and computer-readable recording medium in which media file is stored
EP4329315A1 (en) Method and device for generating/receiving media file on basis of eos sample group, and method for transmitting media file
US20240056618A1 (en) Method and device for generating/receiving media file including nal unit array information, and method for transmitting media file
US20240048768A1 (en) Method and apparatus for generating and processing media file
US20230328261A1 (en) Media file processing method and device therefor
US20230336783A1 (en) Method and device for generating/receiving media file including output layer set information, and method for transmitting media file
US20230362456A1 (en) Media file processing method and device
US20240031622A1 (en) Media file processing method and device
US20240040131A1 (en) A method, an apparatus and a computer program product for video encoding and video decoding
US20240040169A1 (en) Media file processing method and device therefor
EP4287624A1 (en) Media file processing method and device
EP4329303A1 (en) Media file processing method, and device therefor
US20230388508A1 (en) Method and device for generating media file
CN117223290A (zh) 用于基于eos样本组生成/接收媒体文件的方法和设备以及用于发送媒体文件的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination