CN116210225A - 生成媒体文件的方法及设备 - Google Patents

生成媒体文件的方法及设备 Download PDF

Info

Publication number
CN116210225A
CN116210225A CN202180065898.9A CN202180065898A CN116210225A CN 116210225 A CN116210225 A CN 116210225A CN 202180065898 A CN202180065898 A CN 202180065898A CN 116210225 A CN116210225 A CN 116210225A
Authority
CN
China
Prior art keywords
information
operation point
media file
frame rate
track
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180065898.9A
Other languages
English (en)
Inventor
亨得利·亨得利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Publication of CN116210225A publication Critical patent/CN116210225A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
    • H04N19/122Selection of transform size, e.g. 8x8 or 2x4x8 DCT; Selection of sub-band transforms of varying structure or type
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • H04N19/423Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation characterised by memory arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Discrete Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

根据本发明实施例的用于生成媒体文件的方法可以包括以下步骤:将视频信息存储在文件格式的轨道中;在文件格式中配置与操作点相关的信息;以及基于文件格式来生成媒体文件。文件格式可以包括关于相对于操作点的最大图片宽度的信息和关于相对于操作点的最大图片高度的信息。因此,可以使用关于最大图片宽度的信息和关于最大图片高度的信息来选择操作点。

Description

生成媒体文件的方法及设备
技术领域
本公开涉及图像编译技术,并且更具体地,涉及一种用于在图像编译系统中生成和/或处理用于编译的图像信息的媒体文件的方法和装置。
背景技术
近来,在各种领域中,对诸如高清(HD)图像和超高清(UHD)图像的高分辨率、高质量图像的需求正在增长。因为图像数据具有高分辨率和高质量,所以相对于传统图像数据,待发送的信息或比特的量增加。因此,当使用诸如传统有线/无线宽带线路的介质发送图像数据或者使用现有存储介质存储图像数据时,其传输成本和存储成本增加。
因此,需要用于有效地发送、存储和再现高分辨率和高质量图像的信息的高效图像压缩技术。
发明内容
技术方案
根据本公开的一个实施例,提供了一种用于生成媒体文件的方法。该方法可以由媒体文件生成装置执行。该方法可以包括:将视频信息存储在文件格式的轨道中;在文件格式中配置包括与操作点相关的信息的操作点实体组;以及基于文件格式来生成媒体文件。例如,操作点实体组可以包括关于用于操作点的最大图片宽度的信息和关于用于操作点的最大图片高度的信息,并且关于最大图片宽度的信息和关于最大图片高度信息可以被用于选择操作点。
根据本公开的另一实施例,提供了一种媒体文件生成装置。媒体文件生成装置可以包括:图像处理器,其将视频信息存储在文件格式的轨道中,并且在文件格式中配置包括与操作点相关的信息的操作点实体组;以及媒体文件生成器,其基于文件格式来生成媒体文件。例如,操作点实体组可以包括关于用于操作点的最大图片宽度的信息和关于用于操作点的最大图片高度的信息,并且关于最大图片宽度的信息和关于最大图片高度的信息可以被用于选择操作点。
根据本公开的另一实施例,提供了一种用于生成媒体文件的方法。该方法可以由媒体文件生成装置执行。该方法可以包括:将视频信息存储在文件格式的轨道中;在文件格式中配置包括与操作点相关的信息的操作点信息样本组;以及基于文件格式来生成媒体文件。例如,操作点信息样本组可以包括关于用于操作点的最大图片宽度的信息和关于用于操作点的最大图片高度的信息,并且关于最大图片宽度的信息和关于最大图片高度的信息可以被用于选择操作点。
根据本公开的另一实施例,提供了一种媒体文件生成装置。媒体文件生成装置可以包括:图像处理器,其将视频信息存储在文件格式的轨道中,并且在文件格式中配置包括与操作点相关的信息的操作点信息样本组;以及媒体文件生成器,其生成媒体文件。例如,操作点信息样本组可以包括关于用于操作点的最大图片宽度的信息和关于用于操作点的最大图片高度的信息,并且关于最大图片宽度的信息和关于最大图片高度的信息可以被用于选择操作点。
根据本公开的另一实施例,提供了一种用于处理媒体文件的方法。该方法可以由用于处理媒体文件的装置执行。该方法可以包括:从媒体文件导出操作点实体组;基于操作点实体组来选择操作点;以及基于操作点来重构视频信息。操作点实体组可以包括关于用于操作点的最大图片宽度的信息和关于用于操作点的最大图片高度的信息,并且关于最大图片宽度的信息和关于最大图片高度的信息可以被用于选择操作点。
根据本公开的另一实施例,提供了一种用于处理媒体文件的装置。用于处理媒体文件的装置可以包括:接收器,其获得媒体文件;以及媒体文件处理器,其从媒体文件导出操作点实体组,基于操作点实体组来选择操作点,并且基于操作点来重构视频信息。操作点实体组可以包括关于用于操作点的最大图片宽度的信息和关于用于操作点的最大图片高度的信息,并且关于最大图片宽度的信息和关于最大图片高度的信息可以被用于选择操作点。
根据本公开的另一实施例,提供了一种其中存储媒体文件的计算机可读数字存储介质。生成媒体文件的方法可以包括:将视频信息存储在文件格式的轨道中;在文件格式中配置包括与操作点相关的信息的操作点实体组;以及基于文件格式来生成媒体文件。例如,操作点实体组可以包括关于用于操作点的最大图片宽度的信息和关于用于操作点的最大图片高度的信息,并且关于最大图片宽度的信息和关于最大图片高度的信息可以被用于选择操作点。
根据本公开的另一实施例,提供了一种其中存储媒体文件的计算机可读数字存储介质。生成媒体文件的方法可以包括:将视频信息存储在文件格式的轨道中;在文件格式中配置包括与操作点相关的信息的操作点信息样本组;以及基于文件格式来生成媒体文件。例如,操作点信息样本组可以包括关于用于操作点的最大图片宽度的信息和关于用于操作点的最大图片高度的信息,并且关于最大图片宽度的信息和关于最大图片高度的信息可以被用于选择操作点。
技术效果
根据本公开的实施例,提供了用于每个输出层集的图片尺寸,并且其可以用作在选择操作点时要考虑的方面之一。
根据本公开的实施例,可以选择适合于输出图片的尺寸的操作点,并且相应地,可以提高图片重构的准确度,并且可以改善重构图片的主观/客观质量。
附图说明
图1简要地图示可应用本公开的实施例的视频/图像编译设备的示例。
图2是图示可以应用本公开的实施例的视频/图像编码装置的配置的示意图。
图3是图示可以应用本公开的实施例的视频/图像解码装置的配置的示意图。
图4简要图示了根据本公开实施例的生成媒体文件的方法。
图5简要图示了根据本公开的另一实施例的生成媒体文件的方法。
图6简要图示了根据本公开的另一实施例的生成媒体文件的方法。
图7简要图示了根据本公开的媒体文件生成装置。
图8简要图示了根据本公开实施例的处理媒体文件的方法。
图9简要图示了根据本公开的另一实施例的处理媒体文件的方法。
图10简要图示了根据本公开的另一实施例的处理媒体文件的方法。
图11简要图示了根据本公开的处理媒体文件的装置。
图12图示应用本公开的内容流系统的结构图。
具体实施方式
本公开能够以各种形式修改,并且将在附图中描述和图示其特定实施例。然而,实施例并非旨在限制本公开。在以下描述中使用的术语仅用于描述特定实施例,并非旨在限制本公开。只要不被清楚地以不同的方式理解,单数的表达包括复数的表达。诸如“包括”和“具有”的术语旨在指示存在以下描述中使用的特征、数量、步骤、操作、元件、组件或其组合,并且因此应理解的是,不排除存在或添加一个或更多个不同的特征、数量、步骤、操作、元件、组件或其组合的可能性。
此外,在本公开中描述的附图中的元件是为了方便地解释不同的特定功能而独立地绘制的,并不意味着这些元件由独立的硬件或独立的软件来体现。例如,可以将元件中的两个或更多个元件组合以形成单个元件,或者可以将一个元件分割为多个元件。其中组合和/或分割元件的实施例在没有脱离本公开的概念下属于本公开。
在下文中,将参考附图详细描述本公开的实施例。另外,在整个附图中,相似的附图标记用于指示相似的元件,并且将省略对相似元件的相同描述。
图1简要地图示可应用本公开的实施例的视频/图像编译设备的示例。
参考图1,视频/图像编译系统可以包括第一设备(源设备)和第二设备(接收设备)。源设备可以经由数字存储介质或网络以文件或流的形式向接收设备递送编码视频/图像信息或数据。
源设备可以包括视频源、编码装置和发送器。接收设备可以包括接收器、解码装置和渲染器。编码装置可以被称为视频/图像编码装置,并且解码装置可以被称为视频/图像解码装置。发送器可以被包括在编码装置中。接收器可以被包括在解码装置中。渲染器可以包括显示器,并且显示器可以被配置为单独的设备或外部组件。
视频源可以通过捕获、合成或生成视频/图像的处理来获得视频/图像。视频源可以包括视频/图像捕获设备和/或视频/图像生成设备。视频/图像捕获设备可以包括例如一个或更多个相机、包括先前捕获的视频/图像的视频/图像档案等。视频/图像生成设备可以包括例如计算机、平板计算机和智能电话,并且可以(电子地)生成视频/图像。例如,可以通过计算机等生成虚拟视频/图像。在这种情况下,视频/图像捕获处理可以被生成相关数据的处理取代。
编码装置可以对输入视频/图像进行编码。编码装置可以执行诸如针对压缩和编译效率的预测、变换和量化的一系列过程。编码的数据(编码的视频/图像信息)能够以比特流的形式输出。
发送器可以通过数字存储介质或网络以文件或流的形式将以比特流的形式输出的编码的视频/图像信息或数据发送到接收设备的接收器。数字存储介质可以包括诸如USB、SD、CD、DVD、蓝光、HDD、SSD等的各种存储介质。发送器可以包括用于通过预定文件格式生成媒体文件的元件,并且可以包括用于通过广播/通信网络进行发送的元件。接收器可以接收/提取比特流,并且将接收/提取的比特流发送到解码装置。
解码装置可以通过执行与编码装置的操作对应的诸如解量化、逆变换、预测等的一系列过程来解码视频/图像。
渲染器可以渲染解码后的视频/图像。可以通过显示器显示渲染后的视频/图像。
本公开涉及视频/图像编译。例如,本公开中所公开的方法/实施例可以应用于在多功能视频编译(VVC)、EVC(基本视频编译)标准、AOMedia Video 1(AV1)标准、第2代音频视频编译标准(AVS2)或下一代视频/图像编译标准(例如,H.267或H.268等)中公开的方法。
本公开呈现了视频/图像编译的各种实施例,并且除非另外提及,否则实施例可以被彼此组合地执行。
在本公开中,视频可以指的是随时间的推移的一系列图像。通常,图片指的是表示特定时间区(specific time zone)中的一个图像的单元,并且子图片/切片(slice)/图块(tile)是构成编译中的图片的一部分的单元。子图片/切片/图块可以包括一个或多个编译树单元(CTU)。一个图片可以由一个或多个子图片/切片/图块构成。一个图片可以由一个或多个图块组构成。一个图块组可以包括一个或多个图块。拼块(brick)可以表示图片中的图块内的CTU行的矩形区域。图块可以被分割为多个拼块,每个拼块由图块内的一个或多个CTU行组成。没有被分割为多个拼块的图块也可以被称为拼块。拼块扫描是对图片进行分割的CTU的特定顺序排序,其中在拼块中以CTU光栅扫描对CTU进行连续排序,以图块的拼块的光栅扫描对图块内的拼块进行连续排序,并且以图片中的图块的光栅扫描对图片中的图块进行连续排序。另外,子图片可以表示图片内的一个或多个切片的矩形区域。即,子图片包含共同覆盖图片的矩形区域的一个或多个切片。图块是图片中的特定图块列和特定图块行内的CTU的矩形区域。图块列是CTU的矩形区域,该矩形区域具有的高度等于图片的高度并且宽度由图片参数集中的语法元素指定。图块行是CTU的矩形区域,该矩形区域具有的高度由图片参数集中的语法元素指定并且宽度等于图片的宽度。图块扫描是对图片进行分割的CTU的特定顺序排序,其中可以在图块中以CTU光栅扫描对CTU进行连续排序,而能够以图片的图块的光栅扫描对图片中的图块进行连续排序。切片包括图片的可以被排他性地包含在单个NAL单元中的整数个拼块。切片可以由多个完整图块组成或者仅由一个图块的连续序列的完整拼块组成。在本公开中,可以互换地使用图块组和切片。例如,在本公开中,图块组/图块组报头可以被称为切片/切片报头。
像素或像元(pel)可以意指组成一个图片(或图像)的最小单位。另外,“样本”可以用作与像素相对应的术语。样本通常可以表示像素或像素值,并且可以仅表示亮度分量的像素/像素值或仅表示色度分量的像素/像素值。
单元可以表示图像处理的基本单位。单元可以包括图片的特定区域和与该区域有关的信息中的至少一个。一个单元可以包括一个亮度块和两个色度(例如,cb、cr)块。在一些情况下,单元可以与诸如块或区域的术语互换使用。在一般情况下,M×N块可以包括M列和N行的样本(或样本数组)或变换系数的集合(或数组)。
在本说明书中,“A或B”可以意指“仅A”、“仅B”或“A和B这两者”。换言之,在本说明书中,“A或B”可以被解释为“A和/或B”。例如,“A、B或C”在本文中意指“仅A”、“仅B”、“仅C”或“A、B和C的任何一个和任何组合”。
本说明书中使用的斜线(/)或逗号(comma)可以意指“和/或”。例如,“A/B”可以意指“A和/或B”。因此,“A/B”可以意指“仅A”、“仅B”或“A和B这两者”。例如,“A,B,C”可以意指“A、B或C”。
在本说明书中,“A和B中的至少一个”可以意指“仅A”、“仅B”或“A和B这两者”。另外,在本说明书中,表述“A或B中的至少一个”或“A和/或B中的至少一个”可以被解释为与“A和B中的至少一个”相同。
另外,在本说明书中,“A、B和C中的至少一个”意指“仅A”、“仅B”、“仅C”或“A、B和C的任意组合”。此外,“A、B或C中的至少一个”或“A、B和/或C中的至少一个”可以意指“A、B和C中的至少一个”。
此外,本说明书中使用的括号可以意指“例如”。具体地,当指示“预测(帧内预测)”时,可能将“帧内预测”作为“预测”的示例提出。换言之,本说明书中的“预测”不限于“帧内预测”,并且可以将“帧内预测”作为“预测”的示例提出。此外,即使当指示“预测(即,帧内预测)”时,“帧内预测”也可以作为“预测”的示例提出。
在本说明书中,在一个附图中单独描述的技术特征可以被单独实现或可以被同时实现。
创建以下附图以解释本说明书的具体示例。因为附图中描述的特定设备的名称或特定信号/消息/字段的名称通过示例而被呈现,所以本说明书的技术特征不限于在以下附图中使用的特定名称。
图2是图示可以应用本公开的实施例的视频/图像编码装置的配置的示意图。在下文中,视频编码装置可以包括图像编码装置。
参考图2,编码装置200可以包括图像分割器210、预测器220、残差处理器230、熵编码器240、加法器250、滤波器260和存储器270。预测器220可以包括帧间预测器221和帧内预测器222。残差处理器230可以包括变换器232、量化器233、解量化器234和逆变换器235。残差处理器230还可以包括减法器231。可以将加法器250称为重构器或重构块生成器。在上面描述的图像分区器210、预测器220、残差处理器230、熵编码器240、加法器250和滤波器260可以由根据实施例的一个或多个硬件组件(例如,编码器芯片组或处理器)配置。此外,存储器270可以包括解码图片缓冲器(DPB)并且可以由数字存储介质配置。硬件组件还可以包括存储器270作为内部/外部组件。
图像分割器210可以将输入到编码装置200的输入图像(或图片或帧)分区成一个或多个处理单元。作为一个示例,可以将处理单元称为编译单元(CU)。在这种情况下,从编译树单元(CTU)或最大编译单元(LCU)开始,可以根据四叉树二叉树三叉树(QTBTTT)结构递归地划分编译单元。例如,可以基于四叉树结构、二叉树结构和/或三叉树结构来将一个编译单元划分成更深深度的多个编译单元。在这种情况下,例如,可以首先应用四叉树结构并且可以稍后应用二叉树结构和/或三叉树结构。可替选地,可以首先应用二叉树结构。可以基于不进一步划分的最终编译单元来执行根据本公开的编译过程。在这种情况下,可以根据图像特性基于编译效率将最大编译单元直接用作最终编译单元。可替选地,可以按需将编译单元递归地划分成进一步更深深度的编译单元,使得可以将最佳大小的编译单元用作最终编译单元。这里,编译过程可以包括诸如将稍后描述的预测、变换和重构的过程。作为另一示例,处理单元还可以包括预测单元(PU)或变换单元(TU)。在这种情况下,预测单元和变换单元可以从上述最终编译单元分割或分区。预测单元可以是样本预测的单元,并且变换单元可以是用于导出变换系数的单元和/或用于从变换系数导出残差信号的单元。
根据情况,可以使用单元和诸如块、区域等的术语来代替彼此。在通常情况下,M×N块可以表示由M列和N行构成的样本或变换系数的集。样本通常可以表示像素或像素值,并且可以仅表示亮度分量的像素/像素值,或者仅表示色度分量的像素/像素值。样本可以用作与一个图片(或图像)的像素或像元(pel)相对应的术语。
在编码装置200中,从输入图像信号(原始块、原始样本数组)减去从帧间预测器221或帧内预测器222输出的预测信号(预测块、预测样本数组),以生成残差信号(残差块、残差样本数组),并且所生成的残差信号被发送到变换器232。在这种情况下,如所示的,在编码器200中用于从输入图像信号(原始块、原始样本数组)减去预测信号(预测块、预测样本数组)的单元可以称为减法器231。预测器可以对要处理的块(在下文中称为当前块)执行预测,并生成包括用于当前块的预测样本的预测块。预测器可以基于当前块或CU来确定应用帧内预测还是帧间预测。如稍后在每个预测模式的描述中所述,预测器可以生成与预测有关的各种信息(诸如预测模式信息),并向熵编码器240发送所生成的信息。关于预测的信息可以在熵编码器240中被编码并且以比特流的形式输出。
帧内预测器222可以通过参考当前图片中的样本来预测当前块。根据预测模式,参考的样本可以位于当前块的附近,或者可以远离当前块。在帧内预测中,预测模式可以包括多个非定向模式和多个定向模式。非定向模式可以包括例如DC模式和平面模式。根据预测方向的详细程度,定向模式可以包括例如33个定向预测模式或65个定向预测模式。然而,这仅是示例,依据设置,可以使用更多或更少的定向预测模式。帧内预测器222可以通过使用应用于邻近块的预测模式来确定应用于当前块的预测模式。
帧间预测器221可以基于由参考图片上的运动矢量指定的参考块(参考样本数组)来导出当前块的预测块。这里,为了减少在帧间预测模式下发送的运动信息的量,可以基于邻近块和当前块之间的运动信息的相关性,以块、子块或样本为单位来预测运动信息。运动信息可以包括运动矢量和参考图片索引。运动信息还可以包括帧间预测方向(L0预测、L1预测、Bi预测等)信息。在帧间预测的情况下,邻近块可以包括存在于当前图片中的空间邻近块和存在于参考图片中的时间邻近块。包括参考块的参考图片和包括时间邻近块的参考图片可以相同或不同。时间邻近块可以称为并置参考块、共位CU(colCU)等,并且包括时间邻近块的参考图片可以称为并置图片(colPic)。例如,帧间预测器221可以基于邻近块来配置运动信息候选列表,并且生成指示使用哪个候选来导出当前块的运动矢量和/或参考图片索引的信息。可以基于各种预测模式来执行帧间预测。例如,在跳过模式和合并模式的情况下,帧间预测器221可以将邻近块的运动信息用作当前块的运动信息。在跳过模式下,与合并模式不同,可能无法发送残差信号。在运动矢量预测(MVP)模式的情况下,可以将邻近块的运动矢量用作运动矢量预测子,并且可以通过用信号发送运动矢量差来指示当前块的运动矢量。
预测器220可以基于以下描述的各种预测方法来生成预测信号。例如,预测器不仅可以应用帧内预测或帧间预测以预测一个块,而且可以同时应用帧内预测和帧间预测这二者。这可以称为组合帧间帧内预测(CIIP)。另外,预测器可以基于帧内块复制(IBC)预测模式或调色板模式来预测块。IBC预测模式或调色板模式可以用于游戏等的内容图像/视频编译,例如,屏幕内容编译(SCC)。IBC基本上在当前图片中执行预测,但是在参考块在当前图片中被导出的方面可以类似于帧间预测来执行IBC。即,IBC可以使用本公开中描述的帧间预测技术中的至少一个。调色板模式可以被视为帧内编译或帧内预测的示例。当应用调色板模式时,可以基于关于调色板表和调色板索引的信息来用信号发送图片内的样本值。
由预测器(包括帧间预测器221和/或帧内预测器222)生成的预测信号可以用于生成重构信号或生成残差信号。变换器232可以通过向残差信号应用变换技术来生成变换系数。例如,变换技术可以包括离散余弦变换(DCT)、离散正弦变换(DST)、karhunen-loève变换(KLT)、基于图的变换(GBT)或条件非线性变换(CNT)中的至少一个。这里,GBT意指当像素之间的关系信息由图表来表示时从图表中获得的变换。CNT指的是基于使用所有先前重构的像素生成的预测信号所生成的变换。另外,变换过程可以应用于具有相同大小的正方形像素块,或者可以应用于具有可变大小而非正方形的块。
量化器233可以对变换系数进行量化,并且将它们发送给熵编码器240,并且熵编码器240可以对量化信号(关于量化变换系数的信息)进行编码并且输出比特流。关于量化变换系数的信息可以称为残差信息。量化器233可以基于系数扫描顺序将块类型量化变换系数重新布置为一维矢量形式,并且基于一维矢量形式的量化变换系数来生成关于量化变换系数的信息。可以生成关于变换系数的信息。熵编码器240可以执行各种编码方法,诸如,例如指数哥伦布(Golomb)、上下文自适应可变长度编译(CAVLC)、上下文自适应二进制算术编译(CABAC)等。熵编码器240可以对除了量化变换系数以外的视频/图像重构所需的信息(例如,语法元素的值等)一起或分开地进行编码。能够以比特流的形式以NAL(网络抽象层)为单位发送或存储编码信息(例如,编码视频/图像信息)。视频/图像信息可以进一步包括关于诸如自适应参数集(APS)、图片参数集(PPS)、序列参数集(SPS)或视频参数集(VPS)的各种参数集的信息。另外,视频/图像信息可以进一步包括一般约束信息。在本公开中,从编码装置向解码装置发送/用信号发送的信息和/或语法元素可以被包括在视频/图片信息中。视频/图像信息可以通过上述编码过程被编码并且被包括在比特流中。比特流可以通过网络发送,或者可以被存储在数字存储介质中。网络可以包括广播网络和/或通信网络,并且数字存储介质可以包括诸如USB、SD、CD、DVD、蓝光、HDD、SSD等的各种存储介质。可以包括发送从熵编码器240输出的信号的发送器(未示出)和/或存储该信号的存储单元(未示出)作为编码装置200的内部/外部元件,并且可替选地,发送器可以被包括在熵编码器240中。
从量化器233输出的量化变换系数可以用于生成预测信号。例如,可以通过经由解量化器234和逆变换器235对量化变换系数应用解量化和逆变换,来重构残差信号(残差块或残差样本)。加法器250将重构的残差信号与从帧间预测器221或帧内预测器222输出的预测信号相加,以生成重构信号(重构图片、重构块、重构样本数组)。如果要处理的块没有残差(诸如应用跳过模式的情况),则可以将预测块用作重构块。加法器250可以称为重构器或重构块生成器。所生成的重构信号可以用于在当前图片中要处理的下一块的帧内预测,并且可以通过如下所述的滤波用于下一图片的帧间预测。
此外,在图片编码和/或重构期间,可以应用亮度映射与色度缩放(LMCS)。
滤波器260可以通过对重构信号应用滤波来改进主观/客观图像质量。例如,滤波器260可以通过对重构图片应用各种滤波方法来生成修改的重构图片,并将修改的重构图片存储在存储器270,具体地,存储在存储器270的DPB中。各种滤波方法可以包括例如解块滤波(deblocking filtering)、样本自适应偏移、自适应环路滤波器、双边滤波器等。滤波器260可以生成与滤波有关的各种信息,并且将生成的信息发送给熵编码器240,如稍后在各种滤波方法的描述中所述。与滤波有关的信息可以由熵编码器240编码并且以比特流的形式输出。
发送给存储器270的修改的重构图片可以用作帧间预测器221中的参考图片。当通过编码装置应用帧间预测时,可以避免编码装置200与解码装置之间的预测不匹配,并且可以改进编码效率。
存储器270的DPB可以存储用作帧间预测器221中的参考图片的修改的重构图片。存储器270可以存储从中导出(或编码)当前图片中的运动信息的块的运动信息和/或图片中已重构的块的运动信息。所存储的运动信息可以发送给帧间预测器221,并且用作空间邻近块的运动信息或时间邻近块的运动信息。存储器270可以存储当前图片中的重构块的重构样本,并且可以将重构样本传送给帧内预测器222。
图3是图示可以应用本公开的实施例的视频/图像解码装置的配置的示意图。
参考图3,解码装置300可以包括熵解码器310、残差处理器320、预测器330、加法器340、滤波器350、以及存储器360。预测器330可以包括帧间预测器331和帧内预测器332。残差处理器320可以包括解量化器321和逆变换器322。根据实施例,熵解码器310、残差处理器320、预测器330、加法器340和滤波器350可以由硬件组件(例如,解码器芯片组或处理器)构成。另外,存储器360可以包括解码图片缓冲器(DPB),或者可以由数字存储介质构成。硬件组件可以进一步包括存储器360作为内部/外部组件。
当输入包括视频/图像信息的比特流时,解码装置300可以与已经在图2的编码装置中处理视频/图像信息的过程对应地重构图像。例如,解码装置300可以基于与从比特流获得的块分区相关的信息来导出单元/块。解码装置300可以通过使用在编码装置中应用的处理单元来执行解码。因此,解码的处理单元可以是例如编译单元,该编译单元可以从编译树单元或最大编译单元沿着四叉树结构、二叉树结构和/或三叉树结构被分区。可以从编译单元导出一个或多个变换单元。并且,可以通过再现器来再现通过解码装置300解码和输出的重构图像信号。
解码装置300可以接收以比特流形式从图2的编码装置输出的信号,并且可以通过熵解码器310对接收到的信号进行解码。例如,熵解码器310可以解析比特流,以导出图像重构(或图片重构)所需的信息(例如,视频/图像信息)。视频/图像信息可以进一步包括关于诸如自适应参数集(APS)、图片参数集(PPS)、序列参数集(SPS)或视频参数集(VPS)的各种参数集的信息。另外,视频/图像信息可以进一步包括一般约束信息。解码装置可以进一步基于关于参数集的信息和/或一般约束信息来对图片进行解码。本公开中稍后描述的用信号发送的/接收的信息和/或语法元素可以通过解码过程被解码,并且从比特流获取。例如,熵解码器310基于诸如指数哥伦布编译、CAVLC或CABAC的编译方法对比特流中的信息进行解码,并且输出图像重构所需的语法元素和用于残差的变换系数的量化值。更具体地,CABAC熵解码方法可以接收与比特流中的每个语法元素相对应的bin(二进制位),使用解码目标语法元素信息、解码目标块的解码信息或在先前阶段中解码的符号/bin的信息来确定上下文模型,并通过根据所确定的上下文模型预测bin的出现概率来对该bin执行算术解码,并且生成与每个语法元素的值相对应的符号。在这种情况下,在确定上下文模型之后,CABAC熵解码方法可以通过将解码的符号/bin的信息用于下一符号/bin的上下文模型来更新上下文模型。由熵解码器310解码的信息之中与预测有关的信息可以提供给预测器(帧间预测器332和帧内预测器331),并且在熵解码器310中对其执行了熵解码的残差值(也就是说,量化变换系数和相关参数信息)可以被输入到残差处理器320。残差处理器320可以导出残差信号(残差块、残差样本、残差样本数组)。另外,由熵解码器310解码的信息之中关于滤波的信息可以提供给滤波器350。同时,用于接收从编码装置输出的信号的接收器(未示出)可以进一步被配置为解码装置300的内部/外部元件,或者接收器可以是熵解码器310的组件。同时,根据本公开的解码装置可以称为视频/图像/图片解码装置,并且解码装置可以分类为信息解码器(视频/图像/图片信息解码器)和样本解码器(视频/图像/图片样本解码器)。信息解码器可以包括熵解码器310,并且样本解码器可以包括解量化器321、逆变换器322、加法器340、滤波器350、存储器360、帧间预测器332和帧内预测器331中的至少一个。
解量化器321可以通过对量化变换系数进行解量化来输出变换系数。解量化器321能够以二维块的形式重新排列量化变换系数。在这种情况下,重新排列过程可以基于在编码装置中执行的系数扫描的次序来执行重新排列。解量化器321可以使用量化参数(例如,量化步长信息)来对量化变换系数执行解量化并且获得变换系数。
逆变换器322对变换系数进行逆变换以获得残差信号(残差块、残差样本数组)。
预测器可以对当前块执行预测并且生成包括当前块的预测样本的预测块。预测器可以基于从熵解码器310输出的关于预测的信息来确定是否对当前块应用帧内预测或帧间预测,并且更具体地,预测器可以确定具体帧内/帧间预测模式。
预测器320可以基于以下描述的各种预测方法来生成预测信号。例如,预测器不仅可以应用帧内预测或帧间预测来预测一个块,而且可以同时应用帧内预测和帧间预测。这可以称为组合帧间和帧内预测(CIIP)。另外,预测器可以基于帧内块复制(IBC)预测模式或调色板模式来预测块。IBC预测模式或调色板模式可以用于游戏等的内容图像/视频编译,例如,屏幕内容编译(SCC)。IBC基本上在当前图片中执行预测,但是在当前图片中导出参考块的方面可以类似于帧间预测来执行IBC。即,IBC可以使用本公开中描述的帧间预测技术中的至少一个。调色板模式可以被视为帧内编译或帧内预测的示例。当应用调色板模式时,可以基于关于调色板表和调色板索引的信息来用信号发送图片内的样本值。
帧内预测器331可以通过参考当前图片中的样本来预测当前块。根据预测模式,参考的样本可以位于当前块的附近,或者可以远离当前块。在帧内预测中,预测模式可以包括多个非定向模式和多个定向模式。帧内预测器331可以通过使用应用于邻近块的预测模式来确定应用于当前块的预测模式。
帧间预测器332可以基于参考图片上的由运动矢量指定的参考块(参考样本数组)来导出用于当前块的预测块。在这种情况下,为了减少在帧间预测模式中发送的运动信息的量,可以基于邻近块和当前块之间的运动信息的相关性,以块、子块或样本为单位来预测运动信息。运动信息可以包括运动矢量和参考图片索引。运动信息可以进一步包括帧间预测方向(L0预测、L1预测、Bi预测等)信息。在帧间预测的情况下,邻近块可以包括存在于当前图片中的空间邻近块和存在于参考图片中的时间邻近块。例如,帧间预测器332可以基于邻近块来配置运动信息候选列表,并且基于接收到的候选选择信息来导出当前块的运动矢量和/或参考图片索引。可以基于各种预测模式来执行帧间预测,并且关于预测的信息可以包括指示用于当前块的帧间预测的模式的信息。
加法器340可以通过将所获得的残差信号与从预测器(包括帧间预测器332和/或帧内预测器331)输出的预测信号(预测块、预测样本数组)相加来生成重构信号(重构图片、重构块、重构样本数组)。如果要处理的块没有残差,诸如当应用跳过模式时,则可以将预测块用作重构块。
加法器340可以被称为重构器或重构块生成器。所生成的重构信号可以用于当前图片中要处理的下一块的帧内预测,并且可以通过如下所述的滤波输出,或者可以用于下一图片的帧间预测。
此外,在图片解码过程中可以应用亮度映射与色度缩放(LMCS)。
滤波器350可以通过向重构信号应用滤波来改进主观/客观图像质量。例如,滤波器350可以通过对重构图片应用各种滤波方法来生成修改的重构图片,并将修改的重构图片存储在存储器360,具体地,存储在存储器360的DPB中。各种滤波方法可以包括例如解块滤波、样本自适应偏移、自适应环路滤波器、双边滤波器等。
存储器360的DPB中存储的(修改的)重构图片可以用作帧间预测器332中的参考图片。存储器360可以存储从其导出(或解码)当前图片中的运动信息的块的运动信息和/或图片中已重构的块的运动信息。所存储的运动信息可以发送给帧间预测器260,使得被用作空间邻近块的运动信息或时间邻近块的运动信息。存储器360可以存储当前图片中的重构块的重构样本,并且可以将重构样本传送给帧内预测器331。
在本公开中,在编码装置200的滤波器260、帧间预测器221和帧内预测器222中描述的实施例可以与解码装置300的滤波器350、帧间预测器332和帧内预测器331相等地应用或者与解码装置300的滤波器350、帧间预测器332和帧内预测器331相对应地应用。
同时,上述编码的图像/视频信息可以基于媒体文件格式被配置以生成媒体文件。例如,编码图像/视频信息可以基于用于编码图像/视频信息的一个或多个NAL单元/样本条目而形成媒体文件(片段)。媒体文件可以包括样本条目和轨道。例如,媒体文件(片段)可以包括各种记录,并且每个记录可以包括图像/视频相关信息或媒体文件格式相关信息。此外,例如,一个或多个NAL单元可以存储在媒体文件的配置记录(或解码器配置记录、或VVC解码器配置记录)字段中。这里,字段也可以被称为语法元素。
例如,ISO基本媒体文件格式(ISOBMFF)可以用作本公开中公开的方法/实施例可以应用到的媒体文件格式。ISOBMFF可以用作诸如AVC文件格式、HEVC文件格式和/或VVC文件格式的许多编解码器封装格式和诸如MPEG-4文件格式、3GPP文件格式(3GP)和/或DVB文件格式的许多多媒体容器格式的基础。此外,除了诸如音频和视频的连续媒体之外,诸如图像和元数据的静态媒体也可以根据ISOBMFF被存储在文件中。根据ISOBMFF构造的文件可以被用于各种目的,诸如本地媒体文件播放、远程文件的渐进式下载、用于HTTP上的动态自适应流传输(DASH)的片段、要流传输的内容的容器和分组化指令以及接收实时媒体流的记录。
稍后描述的“框”可以是ISOBMFF的基本语法元素。ISOBMFF文件可以由一系列框组成,并且每个框可以包含其他框。例如,电影框(其分组类型为“moov”的框)可以包括媒体文件中的用于连续媒体流的元数据,并且每个流可以表示为文件中的轨道。用于轨道的元数据可以被包括在轨道框(其分组类型为“trak”的框)中,并且轨道的媒体内容可以被包括在媒体数据框(其分组类型为“mdat”的框)或直接在单独的文件中。轨道的媒体内容可以由一系列样本组成,诸如音频或视频访问单元。例如,ISOBMFF可以包括媒体轨道,该媒体轨道包括基本媒体流、媒体传输指令。ISOBMFF可以指定轨道类型,诸如表示接收到的分组流的提示轨道和包括时间同步元数据的定时元数据轨道。
此外,ISOBMFF被设计用于存储,但对于诸如渐进式下载或DASH的流传输也非常有用。出于流传输目的,可以使用ISOBMFF中定义的电影片段。分段的ISOBMFF文件可以表示,例如,与视频和音频相关的两个轨道。例如,如果在接收到“moov”框之后包括随机访问,则可以将所有电影片段“moof”连同相关媒体数据一起解码。
此外,每个轨道的元数据可以包括样本描述条目的列表,其提供在轨道中使用的编译或封装格式以及处理该格式所必需的初始化数据。此外,每个样本可以与轨道的样本描述条目之一相关联。
使用ISOBMFF,可以通过各种机制来指定样本特定的元数据。样本表框(其分组类型为“stbl”的框)中的特定框可以被标准化以对应于一般要求。例如,同步样本框(其分组类型为“stss”的框)可以被用于列出轨道的随机访问样本。样品分组机制允许根据四字符分组类型将样本映射到样本组中,该样本组共享由文件中的样本组描述条目指定的相同属性。在ISOBMFF中可以指定几个分组类型。
另一方面,稍后描述的“样本”可以是与表示图片的三个样本数组(Y、Cb、Cr)之一中的单个时间或单个元素相关的所有数据。例如,当在(媒体文件格式的)轨道上下文中使用术语“样本”时,它可能指的是与轨道的单个时间相关的所有数据。这里,时间可以是解码时间或合成时间。此外,例如,当术语“样本”被用在图片的上下文中时,即,当它与短语“亮度样本”一起使用时,它可能指的是表示图片的三个样本数组之一中的单个元素。
同时,为了存储VVC内容,可以定义以下三个类型的基本流。
-视频基本流,所述视频基本流不包含任何参数集。这里,所有参数集可以被存储在一个样本条目或多个样本条目中。
-视频和参数集基本流,所述视频和参数集基本流可以包括参数集,并且还可以具有存储在它们的一个样本条目或多个样本条目中的参数集。
-非VCL基本流,所述非VCL基本流包括与视频轨道中包括的基本流同步的非VCLNAL单元。这里,VVC非VCL轨道不包括样本条目中的参数集。
同时,用于VVC的基于ISO的媒体文件格式(ISOBMF)的操作点信息可以作为其分组类型为“vopi”的分组框或其分组类型为“opeg”的实体组中的样本被用信号发送。这里,操作点可以是由输出层集(OLS)索引和TemporalId的最大值标识的OLS的时间子集。每个操作点可以与定义操作点的一致性点的简档、层级(tier)和级别(即,PTL)相关联。可能需要操作点信息来识别用于每个操作点的样本和样本条目。
可以使用各种操作点和在给定VVC比特流中提供的操作点信息样本组(“vopi”),将关于操作点的构成的信息提供给应用。每个操作点与OLS、最大TemporalId值、简档、级别和层级信令相关联。通过“vopi”样本组可以捕获上述所有信息。除了上述信息,样本组还可以提供在层之间的依赖信息。
同时,当对于VVC比特流存在一个或多个VVC轨道并且对于VVC比特流不存在操作点实体组时,可以应用以下所有项目。
-在用于VVC比特流的VVC轨道之中,应存在承载“vopi”样本组的唯一一个轨道。
-VVC比特流的所有其他VVC轨道应具有用于承载“vopi”样本组的轨道的类型为“oref”的轨道参考。
此外,对于给定轨道中的任何特定样本,另一轨道中时间上并置(collocated)的样本可以被定义为具有与特定样本相同的解码时间的样本。对于具有用于承载“vopi”样本组的轨道Tk的“oref”轨道参考的轨道TN的每个样本SN,以下可以应用。
-如果在轨道Tk中存在时间上并置的样本Sk,则样本SN可能与与样本Sk相同的“vopi”样本组实体相关联。
-否则,样本SN可以与与在解码时间中在样本SN之前的轨道Tk中的最后样本相同的vopi'样本组实体相关联。
当在VVC比特流中参考数个VPS时,可能需要将数个实体包括在具有grouping_type“vopi”的样本组描述框中。在存在单个VPS的更常见情况下,可能建议使用ISO/IEC14496-12中定义的默认样本组机制,并将操作点信息样本组包括在样本表框中,而不是将其包括在每个轨道片段中。
此外,对于其分组类型为“vopi”的SampleToGroupBox,可以不定义grouping_type_parameter。
包括上述操作点信息的“vopi”样本组,即,操作点信息样本组的语法可以如下表所示。
[表1]
Figure BDA0004145628170000231
另外,操作点信息样本组的语法的语义可以如下表所示。
[表2]
Figure BDA0004145628170000241
Figure BDA0004145628170000242
Figure BDA0004145628170000251
/>
另外,例如,可以定义操作点实体组以提供操作点的简档级别信息和操作点的轨道映射。
在聚合映射到操作点实体组中描述的操作点的轨道的样本的情况下,隐式重构过程不需要去除任何进一步的NAL单元来导致一致性的VVC比特流。属于操作点实体组的轨道应具有用于操作点实体组中指示的group_id的类型“oref”的轨道参考。
此外,操作点实体组中包括的所有entity_id值应属于相同VVC比特流。如果存在,OperatingPointGroupBox被包括在电影级(movie-level)MetaBox中的GroupsListBox中,并且不被包含在文件级或轨道级MetaBox中。这里,OperatingPointGroupBox可以表示操作点实体组。
上述操作点实体组的语法可以如下表所示。
[表3]
Figure BDA0004145628170000261
另外,操作点实体组的语法的语义可以如下表所示。
[表4]
Figure BDA0004145628170000262
Figure BDA0004145628170000271
Figure BDA0004145628170000272
另外,例如,媒体文件可以包括用于图像/视频内容的解码器配置信息。也就是说,媒体文件可以包括包含解码器配置信息的VVC解码器配置记录。
当VVC解码器配置记录被存储在样本条目中时,VVC解码器配置记录可以包括用于每个样本的长度字段的大小以指示在VVC解码器配置记录中包括的NAL单元的长度以及参数集。VVC解码器配置记录可以在外部被构造(frame)(VVC解码器配置记录的大小由包括VVC解码器配置记录的结构供应)。
此外,VVC解码器配置记录可以包括版本字段。例如,本公开的版本可以定义VVC解码器配置记录的版本1。对VVC解码器配置记录的不兼容变化可以通过版本号的变化来指示。如果无法识别版本号,则读取器(readers)将不会尝试解码VVC解码器配置记录或该记录应用到的流。
对VVC解码器配置记录的兼容扩展可能不改变配置版本代码。读取器应该准备好忽略超出读取器理解的数据定义的无法识别的数据。
当轨道本身包括VVC比特流或通过“subp”轨道参考进行解析时,VvcPtlRecord应存在于解码器配置记录中。此外,当轨道的解码器配置记录中的ptl_present_flag为0时,该轨道应具有“oref”轨道参考。
当对VVC解码器配置记录中描述的流进行解码时,VvcPTRecord、chroma_format_idc和bit_depth_minus8的语法元素的值可以对所有被激活的参数集有效。特别是,下述限制可以应用。
-简档指示general_profile_idc指示与此配置记录相关联的流所符合的简档。
层级指示general_tier_flag可以指示等于或大于所有参数集中指示的最高层级的层级。
general_constraint_info中的每个比特只有所有参数集设置相应比特时才可以被设置。
级别指示general_level_idc可以指示等于或大于为参数集中的最高层级指示的最高级别的能力级别。
此外,以下约束可以被应用于chroma_format_idc。
-如果ISO/IEC 23090-3中定义的sps_chroma_format_idc的值在轨道的NAL单元参考的所有SPS中相同,则chroma_format_idc应等于sps_chroma_format_idc。
-否则,如果ptl_present_flag等于1,chroma_format_idc应等于ISO/IEC 23090-3中定义的vps_ols_dpb_chroma_format[output_layer_set_idx]。
-否则(即,如果不满足上述条件),chroma_format_idc不存在。
可以在VVC解码器配置记录中提供关于色度格式和比特深度以及由VVC视频基本流使用的其他重要格式信息的显式指示。如果两个序列在它们的VUI信息中的颜色空间指示不同,则可能需要两个不同的VVC样本条目。
另外,例如,在VVC解码器配置记录中,存在用于承载初始化NAL单元的数组的集合。NAL单元类型可以被仅限于指示DCI、VPS、SPS、PPS、前缀APS和前缀SEI NAL单元。ISO/IEC 23090-3和本公开中保留的NAL单元类型可以在未来定义,并且读取器可能不得不忽略具有NAL单元类型的保留值或不允许值的数组。
同时,数组的顺序可以是DCI、VPS、SPS、PPS、前缀APS和前缀SEI。
上述VVC解码器配置记录的语法可以如下表所示。
[表5]
Figure BDA0004145628170000301
/>
Figure BDA0004145628170000311
此外,VVC解码器配置记录的语法的语义可以如下表所示。
[表6]
Figure BDA0004145628170000312
/>
Figure BDA0004145628170000321
Figure BDA0004145628170000322
/>
Figure BDA0004145628170000331
Figure BDA0004145628170000332
/>
Figure BDA0004145628170000341
例如,参见表6,语法元素general_profile_idc、general_tier_flag、general_sub_profile_idc、general_constraint_info、general_level_idc、ptl_frame_only_constraint_flag、ptl_multilayer_enabled_flag、sublayer_level_present和sublayer_level_idc[i]可以包括用于如在ISO/IEC 23090-3中定义的VVC解码器配置记录被应用于的流的字段general_profile_idc、general_tier_flag、general_sub_profile_idc、general_constraint_info()的比特、general_level_idc、ptl_multilayer_enabled_flag、ptl_frame_only_constraint_flag、sublayer_level_present和sublayer_level_idc[i]的匹配值。这里,avgFrameRate能够以帧/(256秒)为单位提供应用了VVC解码器配置记录的流的平均帧率。0的值可以指示未指定的平均帧率。
另外,例如,参考表6,语法元素constantFrameRate可以指示用于VVC解码器配置记录的恒定帧率。例如,constantFrameRate等于1可以指示对其应用VVC解码器配置记录的流是恒定帧率。constantFrameRate等于2可以指示流的每个时间层的表示是恒定帧率。constantFrameRate等于0可以指示流可以是或者可以不是恒定帧率。
另外,例如,参考表6,语法元素numTemporalLayers可以指示包括在应用了VVC解码器配置记录的轨道中的时间层的数量。例如,numTemporalLayers大于1可以指示应用了VVC解码器配置记录的轨道是时间可伸缩的,并且轨道中包括的时间层的数量(在ISO/IEC23090-3中称为时间子层或子层)等于numTemporalLayers。numTemporalLayers等于1可以指示对其应用了VVC解码器配置记录的轨道在时间上不可伸缩。numTemporalLayers等于0可以指示未知是否对其应用了VVC解码器配置记录的轨道是时间上可伸缩的。
另外,例如,参考表6,语法元素lengthSizeMinusOne加1可以指示对其应用该配置记录的流的VVC视频流样本中的NALUnitLength字段的字节长度。例如,一个字节的大小可以用0的值来指示。lengthSizeMinusOne的值可以分别是与编码为1、2或4字节的长度相对应的0、1或3之一。
另外,例如,参考表6,语法元素ptl_present_flag可以指示轨道包括与特定输出层集相对应的VVC比特流,并且因此可以指示是否包括PTL信息。例如,ptl_present_flag等于1可以指示轨道包括与特定输出层集(特定OLS)相对应的VVC比特流。ptl_present_flag等于0可以指示轨道可以不包括与特定OLS相对应的VVC比特流,而是可以包括不形成OLS的一个或多个单独层或排除具有TemporalId等于0的子层的单独子层。
另外,例如,参考表6,语法元素num_sub_profiles可以定义在VVC解码器配置记录中指示的子简档的数量。
另外,例如,参考表6,语法元素track_ptl可以指示由轨道中包括的VVC比特流指示的OLS的简档、层级和级别。
另外,例如,参考表6,语法元素output_layer_set_idx可以指示由轨道中包括的VVC比特流指示的输出层集的输出层集索引。output_layer_set_idx的值可以用作由外部手段提供给VVC解码器的TargetOlsIdx变量的值,如在ISO/IEC 23090-3中所指定的,以解码在轨道中包括的比特流。
另外,例如,参考表6,语法元素chroma_format_present_flag可以指示chroma_format_idc是否存在。例如,chroma_format_present_flag等于0可以指示chroma_format_idc不存在。chroma_format_present_flag等于1可以指示存在chroma_format_idc。
另外,例如,参考表6,语法元素chroma_format_idc可以指示应用于轨道的色度格式。例如,以下约束可应用于chroma_format_idc。
-如果ISO/IEC 23090-3中定义的sps_chroma_format_idc的值在由轨道的NAL单元参考的所有SPS中相同,则chroma_format_idc应等于sps_chroma_format_idc。
-否则,如果ptl_present_flag等于1,则chroma_format_idc应等于在ISO/IEC23090-3中定义的vps_ols_dpb_chroma_format[output_layer_set_idx]。
-否则(即,如果不满足上述条件),chroma_format_idc不存在。
另外,例如,参考表6,语法元素bit_depth_present_flag可以指示是否存在bit_depth_minus8。例如,bit_depth_present_flag等于0可以指示bit_depth_minus8不存在。bit_depth_present_flag等于1可以指示存在bit_depth_minus8。
另外,例如,参考表6,语法元素bit_depth_minus8可以指示应用于轨道的比特深度。例如,以下约束可以被应用于bit_depth_minus8。
-如果ISO/IEC 23090-3中定义的sps_bitdepth_minus8的值在由轨道的NAL单元参考的所有SPS中相同,则bit_depth_minus8应等于sps_bitdepth_minus8。
-否则,如果ptl_present_flag等于1,则bit_depth_minus8应等于ISO/IEC23090-3中定义的vps_ols_dpb_bitdepth_minus8[output_layer_set_idx]。
-否则(即,如果不满足上述条件),bit_depth_minus8不存在。
另外,例如,参考表6,语法元素numArrays可以指示所指示类型的NAL单元数组的数量。
另外,例如,参考表6,语法元素array_completeness可以指示附加NAL单元是否可以存在于流中。例如,array_completeness等于1可以指示给定类型的所有NAL单元在下述数组中并且没有一个在流中。此外,例如,array_completeness等于0可以指示所指示的类型的附加NAL单元可以在流中。默认值和允许值可以由样本条目名称被限制。
另外,例如,参考表6,语法元素NAL_unit_type可以指示以下数组中的NAL单元的类型(其应全部为该类型)。NAL_unit_type可以具有ISO/IEC 23090-2中定义的值。此外,NAL_unit_type可以被限制为具有指示DCI、VPS、SPS、PPS、APS、前缀SEI或后缀SEI NAL单元的值之一。
另外,例如,参考表6,语法元素numNalus可以指示在VVC解码器配置记录所应用于的流的VVC解码器配置记录中包括的指示类型的NAL单元的数量。SEI数组可以仅包括“声明性”性质的SEI消息,即,提供有关整个流的信息的消息。这种SEI的示例可以是用户数据SEI。
另外,例如,参考表6,语法元素nalUnitLength可以指示NAL单元的字节长度。
此外,例如,nalUnit可以包括ISO/IEC 23090-3中指定的DCI、VPS、SPS、PPS、APS或声明性SEI NAL单元。
同时,为了从承载多层VVC比特流的多个轨道的样本重构访问单元,可以首先确定操作点。例如,当VVC比特流由多个VVC轨道表示时,文件解析器可以如下识别所选操作点所需的轨道。
例如,文件解析器可以找到具有VVC样本条目的所有轨道。如果轨道包括用于相同ID的“oref”轨道参考,则该ID可以被决定为VVC轨道或“opeg”实体组。操作点可以选自适合解码能力和应用目的的“opeg”实体组或“vopi”样本组。
当存在“opeg”实体组时,其可以指示轨道的集合准确地表示所选的操作点。因此,VVC比特流可以从轨道的集合中重构并解码。
此外,当“opeg”实体组不存在时(即,如果存在“vopi”样本组),可以从“vopi”和“linf”样本组中发现对于解码所选择的操作点需要哪个轨道的集合。
为了从承载VVC比特流的多个VVC轨道重构比特流,可能需要首先确定目标最高值TemporalId。当多个轨道包括用于访问单元的数据时,轨道中的各自样本的对齐可以基于样本解码时间来执行,即,使用样本时间表(time-to-sample table)而不考虑编辑列表。
当VVC比特流由多个VVC轨道表示时,样本的解码时间应该是这样的,如果轨道被组合成通过增加解码时间排序的流,访问单元顺序将是正确的,如在ISO/IEC 23090-3指定的。同时,可以根据下面描述的隐式恢复过程从所需轨道中的各自样本重构访问单元的序列。例如,VVC比特流的隐式重构过程可以如下。
例如,当存在操作点信息样本组时,可以基于如操作点信息和层信息样本组中所指示的承载的层和参考层来选择所需的轨道。
另外,例如,当存在操作点实体组时,可以基于OperatingPointGroupBox中的信息来选择所需的轨道。
此外,例如,当重构包括VCL NAL单元的TemporalId大于0的子层的比特流时,相同层内的所有较低子层(即,VCL NAL单元具有较小TemporalId的子层)也被包括结果比特流中,并且可以相应地选择所需的轨道。
此外,例如,当重构访问单元时,来自具有相同解码时间的样本的图片单元(在ISO/IEC 23090-3中定义)能够以nuh_layer_id值的升序被放置到访问单元中。
此外,例如,当重构具有依赖层的访问单元并且max_tid_il_ref_pics_plus1大于0时,相同层内的VCL NAL单元的TemporalId小于或等于max_tid_il_ref_pics_plus1-1的层的子层(在操作点信息样本组中指示)也被包括在结果比特流中,并且可以相应地选择所需的轨道。
此外,例如,如果VVC轨道包括“subp”轨道参考,则每个图片单元可以与以下指定的EOS和EOB NAL单元的附加约束一起如ISO/IEC 23090-3的第11.7.3条中所指定的进行重构。ISO/IEC 23090-3的第11.7.3条的过程可以按照nuh_layer_id的升序对目标操作点的每层重复。否则,每个图片单元可以如下重构。
重构的访问单元可以按照解码时间的递增顺序被放置到VVC比特流中。如下文进一步描述的,可以从VVC比特流去除比特流结束(EOB)和序列结束(EOS)NAL单元的副本。
另外,例如,对于在VVC比特流的相同编译的视频序列内并且属于存储在多个轨道中的不同子层的访问单元,可能存在一个或多个轨道,其包括在各自样本中具有特定nuh_layer_id值的EOS NAL单元。在这种情况下,只有一个EOS NAL单元可以保留在最终重构的比特流中的这些访问单元的最后一个(具有最大解码时间的一个)中,可以放置在这些访问单元中的最后一个的除了EOB NAL单元之外的所有NAL单元之后(如果存在),并且其他EOSNAL单元可能会被丢弃。类似地,在各自样本中可能存在包括EOB NAL单元的一个或多个轨道。在这种情况下,只有一个EOB NAL单元可以保留在最终重构的比特流中,可以放置在这些访问单元中的最后一个的末尾,并且可以丢弃其他EOB NAL单元。
此外,例如,因为特定层或子层可能由一个或多个轨道表示,所以当找到操作点所需的轨道时,可能不得不在传达特定层或子层全部的轨道的集合中进行选择。
进一步地,例如,当不存在操作点实体组时,在承载相同层或子层的轨道之中进行选择后,最终所需的轨道可能仍然集体承载一些不属于目标操作点的层或子层。为目标操作点重构的比特流可以不包括最终需要的轨道中承载的但不属于目标操作点的层或子层。
在通过参考VVC子图片轨道从VVC轨道中的样本重构图片单元的过程中,VVC轨道的样本可以被解释为包括按枚举顺序的下面NAL单元的访问单元。
–当存在于样本中时,AUD NAL单元(和第一NAL单元)。
–当样本是与相同样本条目相关联的样本序列的第一样本时,样本条目中包含的参数集和SEI NAL单元(如果有的话)。
–样本中存在的NAL单元直至并包括PH NAL单元。
–以映射到该样本的‘spor’样本组描述条目中指定的顺序来自每个参考的VVC子图片轨道的时间对齐(在解码时间上)的解析的样本的内容,不包括所有VPS、DCI、SPS,PPS、AUD、PH、EOS和EOB NAL单元(如果有的话)。例如,轨道参考可以按如下指定的方式被解析。当参考的VVC子图片轨道与VVC非VCL轨道相关联时,VVC子图片轨道的解析样本可以包含VVC非VCL轨道中的时间对齐样本的非VCL NAL单元(如果有的话)。
–样本中PH NAL单元之后的NAL单元。例如,样本中PH NAL单元之后的NAL单元可以包括后缀SEI NAL单元、后缀APS NAL单元、EOS NAL单元、EOB NAL单元或者在最后VCL NAL单元之后允许的保留NAL单元。
‘spor’样本组描述条目的‘subp’轨道参考索引可以被如下解析。
–如果轨道参考指向VVC子图片轨道的轨道ID,则轨道参考可以被解析为VVC子图片轨道。
–否则(轨道参考指向‘alte’轨道组),轨道参考可以被解析为‘alte’轨道组的任何一个轨道。如果特定轨道参考索引值在先前样本中被解析为特定轨道,则它可以在当前样本中被解析为以下中的任何一个:-相同的特定轨道,或者-相同‘alte’轨道组中的任何其他轨道,其包含与当前样本时间对齐的同步样本。例如,相同‘alte’轨道组中的VVC子图片轨道必须独立于由相同VVC基本轨道参考的任何其他VVC子图片轨道,以避免解码不匹配,并且因此可能受到如下约束:-所有VVC子图片轨道包含VVC子图片。-子图片边界就像图片边界。-跨子图片边界关闭环路过滤。
如果读取器选择包含具有一组子图片ID值的VVC子图片的VVC子图片轨道,该组子图片ID值是初始选择或不同于先前的选择,则可以采取以下步骤:
–可以研究‘spor’样本组描述条目以得出是否需要改变PPS或SPS NAL单元的结论。例如,SPS改变可能仅在CLVS开始时才有可能。
–如果‘spor’样本组描述条目指示起始码竞争预防字节(start code emulationprevention byte)出现在包含NAL单元的子图片ID之前或之内,则可以从NAL单元导出RBSP(即,起始码竞争预防字节被删除)。在下一步中覆盖后,可能会重新进行起始码竞争预防。
–读取器可以使用‘spor’样本组条目中的子图片ID长度信息和比特位置来推断哪些比特被覆写以将子图片ID更新为选定者。
–当初始选择PPS或SPS的子图片ID值时,读取器需要分别用重构访问单元中的所选子图片ID值来重写PPS或SPS。
–当PPS或SPS的子图片ID值与具有相同的PPS ID值或SPS ID值(分别)的先前的PPS或SPS(分别)相比改变时,读取器需要包括先前PPS和SPS的副本(如果分别具有相同PPS或SPS ID值的PPS或SPS不存在于访问单元中)并且可以在重构的访问单元中用更新的子图片ID值(分别)重写PPS或SPS。
同时,在ISOBMFF中用于VVC的承载的当前规范中,对于操作点信息的信令,不存在关于基于操作点重构样本产生的图片单元的尺寸的信令。在决定应该选择哪个操作点进行重构时,文件解析器可能需要有关图片尺寸的信息。
因此,本公开提出了上述问题的解决方案。所提出的实施例可以单独地或组合地应用。
在根据本公开的实施例的示例中,对于操作点信息的信令,可以存在用于从每个操作点重构的图片的图片尺寸信息。在该实施例的另一示例中,可以仅用信号发送输出层集的最大图片尺寸。在该实施例的另一示例中,可以用信号发送每个输出层的图片尺寸。
在根据本公开的另一实施例的示例中,用信号发送的图片尺寸可以是指定显示图片尺寸的裁剪图片尺寸。在该实施例的另一示例中,用信号发送的图片尺寸可以是未裁剪的图片尺寸。在该实施例的另一示例中,可以存在裁剪和未裁剪的图片尺寸两者。
例如,作为根据本公开的实施例,可以提出如下表所示配置的操作点实体组。
[表7]
Figure BDA0004145628170000441
此外,根据本公开的操作点实体组的语法的语义可以如下表所示。
[表8]
Figure BDA0004145628170000442
/>
Figure BDA0004145628170000451
参考表7和表8,可以在操作点实体组中包括/配置关于用于操作点的最大图片宽度(max_width)的信息和用于操作点的最大图片高度(max_height)的信息。(它可能在操作点实体组中被用信号发送)。操作点实体组可以包括关于操作点的数量(num_operating_points)的信息,并基于关于操作点的数量的信息,可以在操作点实体组中包括/构建关于用于每个操作点的最大图片宽度的信息和关于用于每个操作点的最大图片高度的信息。对于关于图片宽度的信息和关于图片高度的信息,表7和表8中的信令也可以被应用于操作点信息样本组。也就是说,关于用于每个操作点的最大图片宽度(max_width)的信息和关于用于每个操作点的最大图片高度(max_height)的信息可以被包括/配置在操作点信息样本组中(它可以在操作点信息样本组中被用信号发送)。
操作点实体组可以包括PTL信息。这里,例如,PTL信息可以包括PTL索引(ptl_idx)和/或关于PTL结构的信息(opeg_ptl[i])。例如,PTL索引(ptl_idx)可以指示由轨道中包括的(VVC)比特流表示的OLS的简档、层级和级别结构。例如,PTL索引可以指示由轨道中的比特流表示的OLS的简档、层级和级别结构。此外,例如,关于PTL结构(opeg_ptl[i])的信息可以指示第i个简档、层级和级别结构。简档、层级和级别结构可以被称为PTL结构。
此外,例如,作为根据本公开的另一实施例,可以提出如下表所示配置的操作点实体组。
[表9]
Figure BDA0004145628170000471
另外,根据本实施例的操作点实体组的语法的语义可以如下表所示。
[表10]
Figure BDA0004145628170000472
/>
Figure BDA0004145628170000481
参考表9和10,关于用于操作点的图片宽度(pic_width)的信息和关于用于操作点的图片高度(pic_height)的信息可以被包括/配置在操作点实体组中。(它可能在操作点实体组中被用信号发送)。操作点实体组可以包括关于操作点的数量(num_operating_points)的信息,并且基于关于操作点的数量的信息,关于用于每个操作点的图片宽度的信息和关于用于每个操作点的图片高度的信息可以被包括/构建在操作点实体组中。对于关于图片宽度的信息和关于图片高度的信息,表9和表10中的信令也可以被应用于操作点信息样本组。也就是说,关于用于每个操作点的图片宽度(pic_width)的信息和关于用于每个操作点的图片高度(pic_height)的信息可以被包括/配置在操作点信息样本组中(它可以在操作点信息样本组中用信号发送)。
操作点实体组可以包括PTL信息。这里,例如,PTL信息可以包括PTL索引(ptl_idx)和/或关于PTL结构(opeg_ptl[i])的信息。例如,PTL索引(ptl_idx)可以指示由轨道中包括的(VVC)比特流表示的OLS的简档、层级和级别结构。例如,PTL索引可以指示由轨道中的比特流表示的OLS的简档、层级和级别结构。此外,例如,关于PTL结构(opeg_ptl[i])的信息可以指示第i个简档、层级和级别结构。简档、层级和级别结构可以被称为PTL结构。
根据本公开的实施例,提供了用于每个输出层集的图片尺寸,并且其可以用作在选择操作点时要考虑的方面之一。
根据本公开的实施例,可以选择适合于输出图片的尺寸的操作点,并且因此可以提高图片重构的准确度,并且可以改善重构图片的主观/客观质量。
图4简要图示了根据本公开实施例的生成媒体文件的方法。图4中公开的方法可以由图7中公开的媒体文件生成装置执行。媒体文件生成装置可以生成包括视频信息的媒体文件。具体地,例如,图7的媒体文件生成装置的图像处理器可以执行图4的S400和S410,并且图7的媒体文件生成装置的媒体文件生成器可以执行图4的S420。此外,虽然未示出,但是可以由媒体文件生成装置的编码器执行对包括图像信息的比特流进行编码的过程。
媒体文件生成装置可以将视频信息存储在文件格式的轨道中(S400)。这里,视频信息可以包括网络抽象层(NAL)单元。NAL单元可以包括VCL NAL单元和/或非VCL NAL单元。
媒体文件生成装置可以在文件格式中配置与操作点相关的信息(S410)。操作点可以与输出层集、最大TemporalId值和简档/级别/层级信令相关。可以基于操作点来确定编码比特流的层相关信息。
媒体文件生成装置可以基于文件格式来生成媒体文件(S420)。媒体文件可以包括样本条目和轨道。此外,媒体文件可以包括诸如解码器配置记录的各种记录,例如,NAL单元可以被包括在解码器配置记录中。
在一个示例中,文件格式可以包括关于用于操作点的最大图片宽度的信息和关于用于操作点的最大图片高度的信息。关于最大图片宽度的信息和关于最大图片高度的信息可以被用于选择操作点。
在示例中,媒体文件生成装置可以在文件格式内配置操作点实体组和/或在文件格式内配置操作点信息样本组。例如,可以在操作点实体组和/或操作点信息样本组中配置关于用于操作点的最大图片宽度的信息和关于用于操作点的最大图片高度的信息。可以基于表7和表8来解释这个示例。
在示例中,操作点实体组和/或操作点信息样本组可以包括关于操作点的数量的信息。基于操作点的数量,可以在操作点实体组和/或操作点信息样本组中配置关于操作点的信息。
在一个示例中,操作点实体组可以包括关于操作点到轨道的映射的信息。例如,多个轨道可以被映射到一个操作点,或者一个轨道可以被映射到多个操作点。轨道和操作点之间的映射关系可以与用于编译的层(包括输出层)相关。
在一个示例中,操作点实体组和/或操作点信息样本组可以包括指示对于操作点是否存在帧率相关信息的标志信息。基于标志信息等于1,操作点实体组和/或操作点信息样本组可以包括关于用于操作点的平均帧率的信息和关于用于操作点的恒定帧率的信息。例如,关于平均帧率的信息的语法元素可以是avgFrameRate,并且关于恒定帧率的信息的语法元素可以是constantFrameRate。
例如,关于平均帧率的信息可以指示用于操作点的平均帧率(以帧/(256秒)为单位)。0的值可以指示未指定的平均帧率。也就是说,当关于平均帧率的信息的值为0时,关于平均帧率的信息可以指示未指定的平均帧率。
此外,例如,关于恒定帧率的信息可以指示用于操作点的恒定帧率。例如,关于恒定帧率的信息可以指示是否使用恒定帧率。例如,当关于恒定帧率的信息的值为1时,关于恒定帧率的信息可以指示该操作点的流为恒定帧率。此外,例如,当关于恒定帧率的信息的值为2时,关于恒定帧率的信息可以指示流中的每个时间层的表示为恒定帧率。另外,例如,当关于恒定帧率的信息的值为0时,关于恒定帧率的信息可以指示流可以是恒定帧率或可以不是恒定帧率。
在一个示例中,操作点实体组可以包括关于操作点中存在的轨道的数量的信息。操作点实体组可以包括关于与操作点中存在的轨道的ID值相关的索引的信息。例如,关于索引的信息可以指示对于属于操作点的实体组中的实体ID列表的索引。
在一个示例中,操作点可以与输出层集(OLS)相关联。操作点实体组和/或操作点信息样本组可以包括关于输出层集的索引的信息。
这里,例如,OLS索引可以指示由轨道中包括的(VVC)比特流表示的OLS的OLS索引。也就是说,OLS索引可以指示由轨道中包括的VVC比特流表示的OLS。OLS索引的值可以用作目标OLS索引的值以解码轨道中包括的比特流。OLS索引的语法元素可以是前述的output_layer_set_idx。
图5简要图示了根据本公开的另一实施例的生成媒体文件的方法。图5中公开的方法可以由图7中公开的媒体文件生成装置执行。媒体文件生成装置可以生成包括视频信息的媒体文件。具体地,例如,图7的媒体文件生成装置的图像处理器可以执行图5的S500和S510,并且图7中的媒体文件生成装置的媒体文件生成器可以执行图5的S520。虽然未示出,但是可以由媒体文件生成装置的编码器来执行对包括图像信息的比特流进行编码的过程。
媒体文件生成装置可以将视频信息存储在文件格式的轨道中(S500)。这里,视频信息可以包括网络抽象层(NAL)单元。NAL单元可以包括VCL NAL单元和/或非VCL NAL单元。
媒体文件生成装置可以在文件格式中配置包括与操作点相关的信息的操作点实体组(S510)。操作点可以与输出层集、最大TemporalId值和简档/级别/层级信令相关。可以基于操作点来确定编码比特流的层相关信息。
媒体文件生成装置可以基于文件格式来生成媒体文件(S520)。媒体文件可以包含样本条目和轨道。此外,媒体文件可以包括诸如解码器配置记录的各种记录,例如,NAL单元可以被包括在解码器配置记录中。
在一个示例中,操作点实体组可以包括关于用于操作点的最大图片宽度的信息和关于用于操作点的最大图片高度的信息。可以根据表7和表8来解释这个示例。关于最大图片宽度的信息和关于最大图片高度的信息可以被用于选择操作点。
在一个示例中,操作点实体组可以包括关于操作点的数量的信息。基于操作点的数量,可以在操作点实体组中配置关于操作点的信息。
在一个示例中,操作点实体组可以包括关于操作点到轨道的映射的信息。例如,多个轨道可以被映射到一个操作点,或者一个轨道可以被映射到多个操作点。轨道和操作点之间的映射关系可以与用于编译的层(包括输出层)相关。
在一个示例中,操作点实体组可以包括指示对于操作点是否存在帧率相关信息的标志信息。基于标志信息等于1,操作点实体组可以包括关于用于操作点的平均帧率的信息和关于用于操作点的恒定帧率的信息。例如,关于平均帧率的信息的语法元素可以是avgFrameRate,并且关于恒定帧率的信息的语法元素可以是constantFrameRate。
例如,关于平均帧率的信息可以指示用于操作点的平均帧率(以帧/(256秒)为单位)。0的值可以指示未指定的平均帧率。也就是说,当关于平均帧率的信息的值为0时,关于平均帧率的信息可以指示未指定的平均帧率。
此外,例如,关于恒定帧率的信息可以指示用于操作点的恒定帧率。例如,关于恒定帧率的信息可以指示是否使用恒定帧率。例如,当关于恒定帧率的信息的值为1时,关于恒定帧率的信息可以指示该操作点的流为恒定帧率。此外,例如,当关于恒定帧率的信息的值为2时,关于恒定帧率的信息可以指示流中的每个时间层的表示为恒定帧率。另外,例如,当关于恒定帧率的信息的值为0时,关于恒定帧率的信息可以指示流可以是恒定帧率或可以不是恒定帧率。
在一个示例中,操作点实体组可以包括关于操作点中存在的轨道的数量的信息。操作点实体组可以包括关于与操作点中存在的轨道的ID值相关的索引的信息。例如,关于索引的信息可以指示对于属于操作点的实体组中的实体ID列表的索引。
在一个示例中,操作点可以与输出层集(OLS)相关联。操作点实体组可以包括关于输出层集的索引的信息。
这里,例如,OLS索引可以指示由轨道中包括的(VVC)比特流表示的OLS的OLS索引。也就是说,OLS索引可以指示由轨道中包括的VVC比特流表示的OLS。OLS索引的值可以用作目标OLS索引的值以解码轨道中包括的比特流。OLS索引的语法元素可以是前述的output_layer_set_idx。
图6简要图示了根据本公开的另一实施例的生成媒体文件的方法。图6中公开的方法可以由图7中公开的媒体文件生成装置执行。媒体文件生成装置可以生成包括视频信息的媒体文件。具体地,例如,图7的媒体文件生成装置的图像处理器可以执行图6的S600和S610,并且图7的媒体文件生成装置的媒体文件生成器可以执行图6的S620。虽然未示出,但是可以由媒体文件生成装置的编码器执行对包括图像信息的比特流进行编码的过程。
媒体文件生成装置可以将视频信息存储在文件格式的轨道中(S600)。这里,视频信息可以包括网络抽象层(NAL)单元。NAL单元可以包括VCL NAL单元和/或非VCL NAL单元。
媒体文件生成装置可以在文件格式中配置包括与操作点相关的信息的操作点信息样本组(S510)。操作点可以与输出层集、最大TemporalId值和简档/级别/层级信令相关。可以基于操作点来确定编码比特流的层相关信息。
媒体文件生成装置可以基于文件格式来生成媒体文件(S620)。媒体文件可以包含样本条目和轨道。此外,媒体文件可以包括诸如解码器配置记录的各种记录,例如,NAL单元可以被包括在解码器配置记录中。
在一个示例中,操作点信息样本组可以包括关于用于操作点的最大图片宽度的信息和关于用于操作点的最大图片高度的信息。关于最大图片宽度的信息和关于最大图片高度的信息可以被用于选择操作点。
在一个示例中,操作点信息样本组可以包括关于操作点的数量的信息。基于操作点的数量,可以在操作点信息样本组中配置关于操作点的信息。
在一个示例中,操作点信息样本组可以包括指示对于操作点是否存在帧率相关信息的标志信息。基于标志信息等于1,操作点信息样本组可以包括关于用于操作点的平均帧率的信息和关于用于操作点的恒定帧率的信息。例如,关于平均帧率的信息的语法元素可以是avgFrameRate,并且关于恒定帧率的信息的语法元素可以是constantFrameRate。
例如,关于平均帧率的信息可以指示用于操作点的平均帧率(以帧/(256秒)为单位)。0的值可以指示未指定的平均帧率。也就是说,当关于平均帧率的信息的值为0时,关于平均帧率的信息可以指示未指定的平均帧率。
此外,例如,关于恒定帧率的信息可以指示用于操作点的恒定帧率。例如,关于恒定帧率的信息可以指示是否使用恒定帧率。例如,当关于恒定帧率的信息的值为1时,关于恒定帧率的信息可以指示该操作点的流为恒定帧率。此外,例如,当关于恒定帧率的信息的值为2时,关于恒定帧率的信息可以指示流中的每个时间层的表示为恒定帧率。另外,例如,当关于恒定帧率的信息的值为0时,关于恒定帧率的信息可以指示流可以是恒定帧率或可以不是恒定帧率。
在一个示例中,操作点可以与输出层集(OLS)相关联。操作点信息样本组可以包括关于输出层集的索引的信息。
这里,例如,OLS索引可以指示由轨道中包括的(VVC)比特流表示的OLS的OLS索引。也就是说,OLS索引可以指示由轨道中包括的VVC比特流表示的OLS。OLS索引的值可以用作目标OLS索引的值以解码轨道中包括的比特流。OLS索引的语法元素可以是前述的output_layer_set_idx。
图7简要图示了根据本公开的媒体文件生成装置。图4、5或6中公开的方法可以由图7中公开的媒体文件生成装置执行。具体地,例如,图7的媒体文件生成装置的图像处理器可以执行图4的S400和S410、图5的S500和S510或图6的S600和S610。媒体文件生成装置的媒体文件生成器可以执行图4的S420、图5的S520或图6的S620。此外,虽然未示出,但是可以由媒体文件生成装置的编码器执行对包括图像信息的比特流进行编码的过程。
同时,尽管未示出,媒体文件生成设备可以将生成的媒体文件存储在(数字)存储介质中或通过网络或(数字)存储介质将生成的媒体文件发送到媒体文件处理设备。这里,网络可以包括广播网络和/或通信网络,并且数字存储介质可以包括诸如USB、SD、CD、DVD、蓝光、HDD、SSD等的各种存储介质。
图8简要图示了根据本公开实施例的处理媒体文件的方法。图8中公开的方法可以由图11中公开的媒体文件处理装置执行。具体地,例如,图11的媒体文件处理装置的接收器可以执行获得在图8的方法中处理的媒体文件的步骤,并且图11的媒体文件处理装置的媒体文件处理器可以执行图8的S800到S820。
一种媒体文件处理装置获得包括解码器配置记录的媒体文件。例如,媒体文件处理装置可以通过网络或(数字)存储介质来获得媒体文件。这里,网络可以包括广播网络和/或通信网络,并且数字存储介质可以包括诸如USB、SD、CD、DVD、Blu-ray、HDD和SSD的各种存储介质。媒体文件可以包含样本条目和轨道。此外,媒体文件可以包括诸如解码器配置记录的各种记录,例如,NAL单元可以被包括在解码器配置记录中。
媒体文件处理装置可以从媒体文件导出文件格式(S800)。文件格式可以包括与操作点有关的信息。
媒体文件处理装置可以基于文件格式来选择操作点(S810)。操作点可以与输出层集、最大TemporalId值和简档/级别/层级信令相关。可以基于操作点来确定编码比特流的层相关信息。
媒体文件处理装置可以基于操作点来重构视频信息(S820)。视频信息可以是包括NAL单元的比特流。NAL单元可以包括VCL NAL单元和/或非VCL NAL单元。视频信息可以包括基于由关于操作点的信息指示的层(或参考层)所选择的轨道。
在一个示例中,文件格式可以包括关于用于操作点的最大图片宽度的信息和关于用于操作点的最大图片高度的信息。关于最大图片宽度的信息和关于最大图片高度的信息可以被用于选择操作点。
在一个示例中,媒体文件处理装置可以基于文件格式来导出操作点实体组,和/或基于文件格式来导出操作点信息样本组。例如,可以在操作点实体组和/或操作点信息样本组中配置关于用于操作点的最大图片宽度的信息和关于用于操作点的最大图片高度的信息。可以基于表7和表8来解释这个示例。
在示例中,操作点实体组和/或操作点信息样本组可以包括关于操作点的数量的信息。基于操作点的数量,可以在操作点实体组和/或操作点信息样本组中配置关于操作点的信息。
在一个示例中,操作点实体组可以包括关于操作点到轨道的映射的信息。例如,多个轨道可以被映射到一个操作点,或者一个轨道可以被映射到多个操作点。轨道和操作点之间的映射关系可以与用于编译的层(包括输出层)相关。
在一个示例中,操作点实体组和/或操作点信息样本组可以包括指示对于操作点是否存在帧率相关信息的标志信息。基于标志信息等于1,操作点实体组和/或操作点信息样本组可以包括关于用于操作点的平均帧率的信息和关于用于操作点的恒定帧率的信息。例如,关于平均帧率的信息的语法元素可以是avgFrameRate,并且关于恒定帧率的信息的语法元素可以是constantFrameRate。
例如,关于平均帧率的信息可以指示用于操作点的平均帧率(以帧/(256秒)为单位)。0的值可以指示未指定的平均帧率。也就是说,当关于平均帧率的信息的值为0时,关于平均帧率的信息可以指示未指定的平均帧率。
此外,例如,关于恒定帧率的信息可以指示用于操作点的恒定帧率。例如,关于恒定帧率的信息可以指示是否使用恒定帧率。例如,当关于恒定帧率的信息的值为1时,关于恒定帧率的信息可以指示该操作点的流为恒定帧率。此外,例如,当关于恒定帧率的信息的值为2时,关于恒定帧率的信息可以指示流中的每个时间层的表示为恒定帧率。另外,例如,当关于恒定帧率的信息的值为0时,关于恒定帧率的信息可以指示流可以是恒定帧率或可以不是恒定帧率。
在一个示例中,操作点实体组可以包括关于操作点中存在的轨道的数量的信息。操作点实体组可以包括关于与操作点中存在的轨道的ID值相关的索引的信息。例如,关于索引的信息可以指示对于属于操作点的实体组中的实体ID列表的索引。
在一个示例中,操作点可以与输出层集(OLS)相关联。操作点实体组和/或操作点信息样本组可以包括关于输出层集的索引的信息。
这里,例如,OLS索引可以指示由轨道中包括的(VVC)比特流表示的OLS的OLS索引。也就是说,OLS索引可以指示由轨道中包括的VVC比特流表示的OLS。OLS索引的值可以用作目标OLS索引的值以解码轨道中包括的比特流。OLS索引的语法元素可以是前述的output_layer_set_idx。
图9简要图示了根据本公开的另一实施例的处理媒体文件的方法。图9中公开的方法可以由图11中公开的媒体文件处理装置执行。具体地,例如,图11的媒体文件处理装置的接收器可以执行获得在图9的方法中处理的媒体文件的步骤,并且图11的媒体文件处理装置的媒体文件处理器可以执行图9的S900到S920。
媒体文件处理装置获得包括解码器配置记录的媒体文件。例如,媒体文件处理装置可以通过网络或(数字)存储介质来获得媒体文件。这里,网络可以包括广播网络和/或通信网络,并且数字存储介质可以包括诸如USB、SD、CD、DVD、Blu-ray、HDD和SSD的各种存储介质。媒体文件可以包含样本条目和轨道。此外,媒体文件可以包括诸如解码器配置记录的各种记录,例如,NAL单元可以被包括在解码器配置记录中。
媒体文件处理装置可以从媒体文件导出操作点实体组(S900)。在一个示例中,操作点实体组可以包括关于操作点到轨道的映射的信息。例如,多个轨道可以被映射到一个操作点,或者一个轨道可以被映射到多个操作点。轨道和操作点之间的映射关系可以与用于编译的层(包括输出层)相关。
媒体文件处理装置可以基于操作点实体组来选择操作点(S910)。操作点可以与输出层集、最大TemporalId值和简档/级别/层级信令相关。可以基于操作点来确定编码比特流的层相关信息。
媒体文件处理装置可以基于操作点来重构视频信息(S920)。视频信息可以是包括NAL单元的比特流。NAL单元可以包括VCL NAL单元和/或非VCL NAL单元。视频信息可以包括基于由关于操作点的信息指示的层(或参考层)所选择的轨道。
在一个示例中,操作点实体组可以包括关于用于操作点的最大图片宽度的信息和关于用于操作点的最大图片高度的信息。可以根据表7和表8来解释这个示例。关于最大图片宽度的信息和关于最大图片高度的信息可以被用于选择操作点。
在一个示例中,操作点实体组可以包括关于操作点的数量的信息。基于操作点的数量,可以在操作点实体组中配置关于操作点的信息。
在一个示例中,操作点实体组可以包括指示对于操作点是否存在帧率相关信息的标志信息。基于标志信息等于1,操作点实体组可以包括关于用于操作点的平均帧率的信息和关于用于操作点的恒定帧率的信息。例如,关于平均帧率的信息的语法元素可以是avgFrameRate,并且关于恒定帧率的信息的语法元素可以是constantFrameRate。
例如,关于平均帧率的信息可以指示用于操作点的平均帧率(以帧/(256秒)为单位)。0的值可以指示未指定的平均帧率。也就是说,当关于平均帧率的信息的值为0时,关于平均帧率的信息可以指示未指定的平均帧率。
此外,例如,关于恒定帧率的信息可以指示用于操作点的恒定帧率。例如,关于恒定帧率的信息可以指示是否使用恒定帧率。例如,当关于恒定帧率的信息的值为1时,关于恒定帧率的信息可以指示操作点的流为恒定帧率。此外,例如,当关于恒定帧率的信息的值为2时,关于恒定帧率的信息可以指示流中的每个时间层的表示为恒定帧率。另外,例如,当关于恒定帧率的信息的值为0时,关于恒定帧率的信息可以指示流可以是恒定帧率或可以不是恒定帧率。
在一个示例中,操作点实体组可以包括关于操作点中存在的轨道的数量的信息。操作点实体组可以包括关于与操作点中存在的轨道的ID值相关的索引的信息。例如,关于索引的信息可以指示对于属于操作点的实体组中的实体ID列表的索引。
在一个示例中,操作点可以与输出层集(OLS)相关联。操作点实体组可以包括关于输出层集的索引的信息。
这里,例如,OLS索引可以指示由轨道中包括的(VVC)比特流表示的OLS的OLS索引。也就是说,OLS索引可以指示由轨道中包括的VVC比特流表示的OLS。OLS索引的值可以用作目标OLS索引的值以解码轨道中包括的比特流。OLS索引的语法元素可以是前述的output_layer_set_idx。
图10简要图示了根据本公开的另一实施例的处理媒体文件的方法。图10中公开的方法可以由图11中公开的媒体文件处理装置执行。具体地,例如,图11的媒体文件处理装置的接收器可以执行获得在图10的方法中处理的媒体文件的步骤,并且图11的媒体文件处理装置的媒体文件处理器可以执行图10的S1000到S1020。
媒体文件处理装置获得包括解码器配置记录的媒体文件。例如,媒体文件处理装置可以通过网络或(数字)存储介质来获得媒体文件。这里,网络可以包括广播网络和/或通信网络,数字存储介质可以包括诸如USB、SD、CD、DVD、Blu-ray、HDD和SSD的各种存储介质。媒体文件可以包含样本条目和轨道。此外,媒体文件可以包括诸如解码器配置记录的各种记录,例如,NAL单元可以被包括在解码器配置记录中。
媒体文件处理装置可以从媒体文件导出操作点信息样本组(S1000)。操作点信息样本组可以包括与操作点相关的信息。可以只有一个承载操作点信息样本组的轨道。其余轨道可以参考承载操作点信息样本组的轨道。
媒体文件处理装置可以基于操作点信息样本组来选择操作点(S1010)。操作点可以与输出层集、最大TemporalId值和简档/级别/层级信令相关。可以基于操作点来确定编码比特流的层相关信息。
媒体文件处理装置可以基于操作点来重构视频信息(S1020)。视频信息可以是包括NAL单元的比特流。NAL单元可以包括VCL NAL单元和/或非VCL NAL单元。视频信息可以包括基于由关于操作点的信息指示的层(或参考层)所选择的轨道。
在一个示例中,操作点信息样本组可以包括关于用于操作点的最大图片宽度的信息和关于用于操作点的最大图片高度的信息。关于最大图片宽度的信息和关于最大图片高度的信息可以被用于选择操作点。
在一个示例中,操作点信息样本组可以包括关于操作点的数量的信息。基于操作点的数量,可以在操作点信息样本组中配置关于操作点的信息。
在一个示例中,操作点信息样本组可以包括指示对于操作点是否存在帧率相关信息的标志信息。基于标志信息等于1,操作点信息样本组可以包括关于用于操作点的平均帧率的信息和关于用于操作点的恒定帧率的信息。例如,关于平均帧率的信息的语法元素可以是avgFrameRate,并且关于恒定帧率的信息的语法元素可以是constantFrameRate。
例如,关于平均帧率的信息可以指示用于操作点的平均帧率(以帧/(256秒)为单位)。0的值可以指示未指定的平均帧率。也就是说,当关于平均帧率的信息的值为0时,关于平均帧率的信息可以指示未指定的平均帧率。
此外,例如,关于恒定帧率的信息可以指示用于操作点的恒定帧率。例如,关于恒定帧率的信息可以指示是否使用恒定帧率。例如,当关于恒定帧率的信息的值为1时,关于恒定帧率的信息可以指示该操作点的流为恒定帧率。此外,例如,当关于恒定帧率的信息的值为2时,关于恒定帧率的信息可以指示流中的每个时间层的表示为恒定帧率。另外,例如,当关于恒定帧率的信息的值为0时,关于恒定帧率的信息可以指示流可以是恒定帧率或可以不是恒定帧率。
在一个示例中,操作点可以与输出层集(OLS)相关联。操作点信息样本组可以包括关于输出层集的索引的信息。
这里,例如,OLS索引可以指示由轨道中包括的(VVC)比特流表示的OLS的OLS索引。也就是说,OLS索引可以指示由轨道中包括的VVC比特流表示的OLS。OLS索引的值可以用作目标OLS索引的值以解码轨道中包括的比特流。OLS索引的语法元素可以是前述的output_layer_set_idx。
图11简要图示了根据本公开的处理媒体文件的装置。图8、图9或图10中公开的方法可以由图11中公开的媒体文件处理装置执行。具体地,例如,图11的媒体文件处理装置的接收器可以执行获得在图8、9或10的方法中处理的媒体文件的步骤,并且图11的媒体文件处理装置的媒体文件处理器可以执行图8的S800到S820、图9的S900至S920或图10的S1000至S1020。同时,虽然未示出,但是媒体文件处理装置可以包括解码器,并且该解码器可以基于操作点信息样本组或操作点信息样本组来解码比特流。
在以上实施例中,基于具有一系列步骤或框的流程图描述了方法。本公开不限于以上步骤或方框的顺序。一些步骤或方框能够以与上述的其他步骤或方框不同的顺序执行或同时执行。此外,本领域的技术人员将理解,流程图中所示的步骤不是排它的,并且可以还包括其他步骤,或者可以在不影响本公开的范围的情况下删除流程图中的一个或更多个步骤。
在本说明书中所描述的实施例可以通过被实现在处理器、微处理器、控制器或芯片上来执行。例如,每个图中所示的功能单元可以通过被实现在计算机、处理器、微处理器、控制器或芯片上来执行。在这种情况下,用于实现的信息(例如,关于指令的信息)或算法可以被存储在数字存储介质中。
另外,应用本公开的装置可以被包括在多媒体广播发送/接收装置、移动通信终端、家庭影院视频装置、数字影院视频装置、监视相机、视频聊天装置、诸如视频通信的实时通信装置、移动流装置、存储介质、摄像机(camcorder)、VoD服务提供装置、过顶(OTT)视频装置、互联网流服务提供装置、三维(3D)视频装置、电话会议视频装置、运输用户装置(例如,车辆用户设备、飞机用户设备和轮船用户设备等)和医疗视频装置,并且可以用于处理视频信号或数据信号。例如,过顶(OTT)视频装置可以包括游戏机、蓝光播放器、互联网接入电视机、家庭影院系统、智能电话、平板电脑、数字视频记录仪(DVR)等。
此外,应用本公开的处理方法能够以计算机执行的程序的形式产生,并且可以存储在计算机可读记录介质中。根据本公开的具有数据结构的多媒体数据也可以存储在计算机可读记录介质中。计算机可读记录介质包括其中存储由计算机系统可读的数据的所有类型的存储设备。计算机可读记录介质可以包括例如BD、通用串行总线(USB)、ROM、PROM、EPROM、EEPROM、RAM、CD-ROM、磁带、软盘和光学数据存储设备。此外,计算机可读记录介质包括以载波(例如,经由互联网的传输)形式实现的介质。另外,由编码方法生成的比特流可以存储在计算机可读记录介质中或通过有线/无线通信网络来发送。
另外,本公开的实施例可以根据程序代码利用计算机程序产品来实现,并且程序代码可以通过本公开的实施例在计算机中执行。程序代码可以存储在计算机可读载体上。
图12图示对其应用本公开的内容流系统的结构图。
应用本公开的实施例的内容流系统可以主要包括编码服务器、流服务器、网络(web)服务器、媒体储存器(media storage)、用户设备和多媒体输入设备。
编码服务器将从诸如智能手机、相机或摄像机的多媒体输入设备输入的内容压缩为数字数据,以生成比特流并将比特流发送到流服务器。作为另一示例,当诸如智能手机、相机或摄像机等的多媒体输入设备直接生成比特流时,可以省略编码服务器。
可以通过应用了本公开的实施例的编码方法或比特流生成方法来生成比特流,并且流服务器可以在发送或接收比特流的过程中临时存储比特流。
流服务器基于用户请求通过web服务器向用户设备发送多媒体数据,并且web服务器用作向用户通知服务的媒介。当用户从web服务器请求所需的服务时,web服务器向流服务器递送该请求,并且流服务器向用户发送多媒体数据。在这种情况下,内容流系统可以包括单独的控制服务器。在这种情况下,控制服务器用作控制内容流系统内的设备之间的命令/响应。
流服务器可以从媒体储存器和/或编码服务器接收内容。例如,当从编码服务器接收内容时,可以实时接收内容。在这种情况下,为了提供平稳的流服务,流服务器可以在预先确定的时间内存储比特流。
用户设备的示例可以包括移动电话、智能电话、膝上型计算机、数字广播终端、个人数字助理(PDA)、便携式多媒体播放器(PMP)、导航仪、触屏PC、平板PC、超级本、可穿戴设备(例如,智能手表、智能眼镜和头戴式显示器)、数字TV、台式计算机和数字标牌等。内容流系统中的每个服务器可以作为分布式服务器来操作,在这种情况下,从每个服务器接收的数据可以被分发。
本公开中描述的权利要求能够以各种方式组合。例如,可以组合本公开的方法权利要求的技术特征以实现为装置,并且可以组合本公开的装置权利要求的技术特征以实现为方法。此外,可以组合本公开的方法权利要求的技术特征和装置权利要求的技术特征以实施为装置,并且可以组合本公开的方法权利要求的技术特征和装置权利要求的技术特征以实现为方法。

Claims (23)

1.一种用于生成包括视频信息的媒体文件的方法,包括:
将所述视频信息存储在文件格式的轨道中;
在所述文件格式中配置与操作点相关的信息;以及
基于所述文件格式,生成所述媒体文件,
其中,所述文件格式包括关于用于所述操作点的最大图片宽度的信息和关于用于所述操作点的最大图片高度的信息,以及
其中,关于所述最大图片宽度的信息和关于所述最大图片高度的信息被用于选择所述操作点。
2.根据权利要求1所述的方法,还包括:
在所述文件格式中配置操作点实体组;以及
在所述文件格式中配置操作点信息样本组,
其中,关于用于所述操作点的所述最大图片宽度的信息和关于用于所述操作点的所述最大图片高度的信息被配置在所述操作点实体组或所述操作点信息样本组中。
3.根据权利要求2所述的方法,其中,所述操作点实体组包括关于操作点的数量的信息。
4.根据权利要求3所述的方法,其中,所述操作点实体组包括关于所述操作点和所述轨道的映射的信息。
5.根据权利要求3所述的方法,其中,所述操作点实体组包括指示对于所述操作点是否存在帧率相关信息的标志信息,以及
其中,响应于所述标志信息等于1,所述操作点实体组包括关于用于所述操作点的平均帧率的信息和关于用于所述操作点的恒定帧率的信息。
6.根据权利要求2所述的方法,其中,所述操作点实体组包括关于存在于所述操作点中的轨道的数量的信息。
7.根据权利要求6所述的方法,其中,所述操作点实体组包括关于与存在于所述操作点中的所述轨道的ID值相关的索引的信息。
8.根据权利要求7所述的方法,其中,关于所述索引的信息指示对于属于所述操作点的实体组中的实体ID列表的索引。
9.根据权利要求2所述的方法,其中,所述操作点与输出层集(OLS)相关,以及
其中,所述操作点实体组包括关于所述输出层集的索引的信息。
10.一种用于通过执行根据权利要求1所述的方法来生成媒体文件的装置。
11.一种用于生成包括视频信息的媒体文件的方法,包括:
将所述视频信息存储在文件格式的轨道中;
在所述文件格式中配置操作点实体组,所述操作点实体组包括与操作点相关的信息;以及
基于所述文件格式,生成所述媒体文件,
其中,所述操作点实体组包括关于用于所述操作点的最大图片宽度的信息和关于用于所述操作点的最大图片高度的信息,以及
其中,关于所述最大图片宽度的信息和关于所述最大图片高度的信息被用于选择所述操作点。
12.根据权利要求11所述的方法,其中,所述操作点实体组包括关于操作点的数量的信息。
13.根据权利要求12所述的方法,其中,所述操作点实体组包括关于所述操作点和所述轨道的映射的信息。
14.根据权利要求11所述的方法,其中,所述操作点实体组包括指示对于所述操作点是否存在帧率相关信息的标志信息,以及
其中,响应于所述标志信息等于1,所述操作点实体组包括关于用于所述操作点的平均帧率的信息和关于用于所述操作点的恒定帧率的信息。
15.根据权利要求11所述的方法,其中,所述操作点实体组包括关于存在于所述操作点中的轨道的数量的信息。
16.根据权利要求15所述的方法,其中,所述操作点实体组包括关于与存在于所述操作点中的所述轨道的ID值相关的索引的信息。
17.根据权利要求16所述的方法,其中,关于所述索引的信息指示对于属于所述操作点的实体组中的实体ID列表的索引。
18.根据权利要求11所述的方法,其中,所述操作点与输出层集(OLS)相关,以及
其中,所述操作点实体组包括关于所述输出层集的索引的信息。
19.一种用于通过执行根据权利要求11所述的方法来生成媒体文件的装置。
20.一种用于生成包括视频信息的媒体文件的方法,包括:
将所述视频信息存储在文件格式的轨道中;
在所述文件格式中配置操作点信息样本组,所述操作点信息样本组包括与操作点相关的信息;以及
基于所述文件格式,生成所述媒体文件,
其中,所述操作点信息样本组包括关于用于所述操作点的最大图片宽度的信息和关于用于所述操作点的最大图片高度的信息,以及
其中,关于所述最大图片宽度的信息和关于所述最大图片高度的信息被用于选择所述操作点。
21.根据权利要求20所述的方法,其中,所述操作点信息样本组包括关于操作点的数量的信息。
22.根据权利要求20所述的方法,其中,所述操作点信息样本组包括指示对于所述操作点是否存在帧率相关信息的标志信息,以及
其中,响应于所述标志信息等于1,所述操作点信息样本组包括关于用于所述操作点的平均帧率的信息和关于用于所述操作点的恒定帧率的信息。
23.一种用于通过执行根据权利要求20所述的方法来生成媒体文件的装置。
CN202180065898.9A 2020-09-29 2021-09-29 生成媒体文件的方法及设备 Pending CN116210225A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063084581P 2020-09-29 2020-09-29
US63/084,581 2020-09-29
PCT/KR2021/013308 WO2022071742A1 (ko) 2020-09-29 2021-09-29 미디어 파일을 생성하는 방법 및 장치

Publications (1)

Publication Number Publication Date
CN116210225A true CN116210225A (zh) 2023-06-02

Family

ID=80950544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180065898.9A Pending CN116210225A (zh) 2020-09-29 2021-09-29 生成媒体文件的方法及设备

Country Status (3)

Country Link
US (1) US20230388508A1 (zh)
CN (1) CN116210225A (zh)
WO (1) WO2022071742A1 (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070022215A1 (en) * 2005-07-19 2007-01-25 Singer David W Method and apparatus for media data transmission
US8930562B2 (en) * 2010-07-20 2015-01-06 Qualcomm Incorporated Arranging sub-track fragments for streaming video data
US10148969B2 (en) * 2015-02-11 2018-12-04 Qualcomm Incorporated Of sample entry and operation point signalling in a layered video file format
GB2538998A (en) * 2015-06-03 2016-12-07 Nokia Technologies Oy A method, an apparatus, a computer program for video coding
GB2539462B (en) * 2015-06-16 2019-04-03 Canon Kk Obtaining media data and metadata from encapsulated bit-streams wherein operating point descriptors can be dynamically set

Also Published As

Publication number Publication date
US20230388508A1 (en) 2023-11-30
WO2022071742A1 (ko) 2022-04-07

Similar Documents

Publication Publication Date Title
US20230045490A1 (en) Image or video coding based on nal unit-associated information
US20220201308A1 (en) Media file processing method and device therefor
US20240089506A1 (en) Method and apparatus for processing high level syntax in image/video coding system
US20230030394A1 (en) Nal unit type-based image or video coding for slice or picture
US20230336761A1 (en) Method for processing media file and device therefor
AU2020380731B2 (en) High level syntax signaling method and device for image/video coding
US20230388508A1 (en) Method and device for generating media file
US20240048768A1 (en) Method and apparatus for generating and processing media file
US20230345028A1 (en) Media file processing method and apparatus therefor
EP4287624A1 (en) Media file processing method and device
US20230328261A1 (en) Media file processing method and device therefor
US20230362456A1 (en) Media file processing method and device
EP4329303A1 (en) Media file processing method, and device therefor
US20220417498A1 (en) Method for coding image on basis of tmvp and apparatus therefor
US11805264B2 (en) NAL unit type-based image or video coding
US11917210B2 (en) Method and device for processing general constraint information in image/video coding system
US20230171419A1 (en) Image or video coding on basis of information related to picture output
US20240040169A1 (en) Media file processing method and device therefor
US20240031622A1 (en) Media file processing method and device
AU2020393729B2 (en) Method and device for signaling information related to slice in image/video encoding/decoding system
CN116941246A (zh) 用信号通知子画面id信息的媒体文件生成/接收方法和装置以及存储媒体文件的计算机可读记录介质
CN115552903A (zh) 处理图像/视频编码系统中的单层比特流内的参数集的参考的方法和装置
CN116195247A (zh) 图像编码方法和用于该图像编码方法的装置
CN117223290A (zh) 用于基于eos样本组生成/接收媒体文件的方法和设备以及用于发送媒体文件的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination