CN116830573A - 交叉随机访问点信令增强 - Google Patents

交叉随机访问点信令增强 Download PDF

Info

Publication number
CN116830573A
CN116830573A CN202180089588.0A CN202180089588A CN116830573A CN 116830573 A CN116830573 A CN 116830573A CN 202180089588 A CN202180089588 A CN 202180089588A CN 116830573 A CN116830573 A CN 116830573A
Authority
CN
China
Prior art keywords
picture
drap
pictures
rap
crr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180089588.0A
Other languages
English (en)
Inventor
王业奎
王洋
张莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Douyin Vision Co Ltd
ByteDance Inc
Original Assignee
Douyin Vision Co Ltd
ByteDance Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Douyin Vision Co Ltd, ByteDance Inc filed Critical Douyin Vision Co Ltd
Publication of CN116830573A publication Critical patent/CN116830573A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/31Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain

Abstract

公开了一种用于处理视频数据的机制。一个或多个随机访问图片(RAP)图片标识符被信令通知用于一个或多个交叉RAP参考(CRR)图片。基于一个或多个RAP图片标识符在视觉媒体数据和比特流之间执行转换。

Description

交叉随机访问点信令增强
相关申请的交叉引用
本专利申请要求Ye-Kui Wang等人于2021年1月6日提交的、标题为“SignallingOf Cross Random Access Point Referencing In Video Bitstreams And Media Files”的国际申请号PCT/CN2021/070400的权益,在此通过引用将该申请并入。
技术领域
本专利文件涉及文件格式的数字音频视频媒体信息的生成、存储和消费。
背景技术
数字视频占因特网和其他数字通信网络上使用的最大带宽。随着能够接收和显示视频的连接用户设备数量的增加,数字视频使用的带宽需求可能会继续增长。
发明内容
第一方面涉及一种用于处理视频数据的方法,包括:确定用于一个或多个交叉RAP参考(CRR)图片的一个或多个随机访问图片(RAP)图片标识符;基于一个或多个RAP图片标识符在视觉媒体数据和比特流之间进行转换。
可选地,在前述方面的任一方面中,该方面的另一实施方式规定一个或多个RAP图片标识符各自被编解码在编解码层视频序列减一(t2drap_rap_id_in_clvs_minus1)字段中。
可选地,在前述方面的任一方面中,该方面的另一实施方式规定,一个或多个RAP图片标识符各自被包括在类型2依赖随机访问点(DRAP)补充增强信息(SEI)消息中。
可选地,在前述方面的任一方面中,该方面的另一实施方式规定一个或多个RAP图片标识符中的每一个由t2drap_rap_id_in_clvs_minus1字段的值加一来指定。
可选地,在前述方面的任一方面中,该方面的另一实施方式规定,用于CRR图片中的每一个的一个或多个RAP图片标识符被设置为大于零的值。
可选地,在前述方面的任一方面中,该方面的另一实施方式规定CRR图片中的每一个与帧内随机访问点(IRAP)图片相关联,并且其中IRAP图片与为零的RAP图片标识符相关联。
可选地,在前述方面的任一方面中,该方面的另一实施方式规定IRAP图片的RAP图片标识符被推断为零并且不被信令通知。
可选地,在前述方面的任一方面中,该方面的另一实施方式规定,对于与同一IRAP图片相关联的CRR图片中的每一个,一个或多个RAP图片标识符是不同的。
可选地,在前述方面的任一方面中,该方面的另一实施方式规定一个或多个RAP图片标识被表示为RapPicId。
可选地,在前述方面的任一方面中,该方面的另一实施方式规定仅当类型2DRAPSEI消息中的RAP图片标识符大于零时信令通知类型2DRAP SEI消息中的其他语法元素。
可选地,在前述方面的任一方面中,该方面的另一实施方式规定,CRR图片被表示为类型2DRAP图片。
可选地,在前述方面的任一方面中,该方面的另一实施方式规定CRR图片被表示为增强型依赖随机访问点(EDRAP)图片。
可选地,在前述方面的任一方面中,该方面的另一实施方式规定一个或多个RAP图片标识符各自被包括在SEI消息中。
可选地,在前述方面的任一方面中,该方面的另一实施方式规定比特流被约束使得与CRR图片在同一层中并且按解码顺序在CRR图片之后的任何图片应当按输出顺序在在同一层中并按解码顺序位于CRR图片之前的任何图片之后。
可选地,在前述方面的任一方面中,该方面的另一实施方式规定类型2DRAP SEI消息包括以下指示:按解码顺序在CRR图片之后并且按输出顺序在CRR图片之前的图片是否被允许参考按解码顺序位于CRR图片之前的参考图片用于帧间预测。
可选地,在前述方面的任一方面中,该方面的另一实施方式规定,该指示还指示当参考图片与图片处于同一层时,该图片是否被允许参考参考图片。
可选地,在前述方面的任一方面中,该方面的另一实施方式规定,该指示为一比特标志。
可选地,在前述方面的任一方面中,该方面的另一实施方式规定,该指示是t2drap_reserved_zero_13bits字段中的比特。
可选地,在前述方面的任一方面中,该方面的另一实施方式规定,转换包括根据视觉媒体数据生成比特流。
可选地,在前述方面的任一方面中,该方面的另一实施方式规定,转换包括解析比特流以获得视觉媒体数据。
第二方面涉及一种用于处理视频数据的装置,包括处理器和其上具有指令的非暂时性存储器,其中指令在由处理器执行时使处理器执行前述方面中的任一方面的方法。
第三方面涉及一种非暂时性计算机可读介质,包括供视频编解码设备使用的计算机程序产品,该计算机程序产品包括存储在非暂时性计算机可读介质上的计算机可执行指令,使得当由处理器执行时导致视频编解码设备执行前述方面的任一方面的方法。
为了清楚起见,前述实施例中的任何一个可以与其他前述实施例中的任何一个或多个组合以创建在本公开的范围内的新实施例。
从结合附图和权利要求的以下详细描述中将更清楚地理解这些和其他特征。
附图说明
为了更完整地理解本公开,现在参考以下结合附图和详细描述进行的简要描述,其中相同的附图标记表示相同的部分。
图1是在使用IRAP图片解码比特流时用于随机访问的示例机制的示意图。
图2是在使用DRAP图片解码比特流时用于随机访问的示例机制的示意图。
图3是在使用CRR图片解码比特流时用于随机访问的示例机制的示意图。
图4是用于信令通知外部比特流以支持基于CRR的随机访问的示例机制的示意图。
图5是示出当图片按解码顺序在DRAP和/或CRR图片之后并且按输出顺序在DRAP和/或CRR图片之前时的潜在解码错误的示意图。
图6是以国际标准化组织(ISO)基础媒体文件格式(ISOBMFF)存储的媒体文件的示意图。
图7是包含编码的视觉媒体数据的比特流的示意图。
图8是示出示例视频处理系统的框图。
图9是示例视频处理装置的框图。
图10是视频处理的示例方法的流程图。
图11是说明示例视频编解码系统的框图。
图12是说明示例编码器的框图。
图13是说明示例解码器的框图。
图14是示例编码器的示意图。
具体实施方式
一开始就应该理解,尽管下面提供了一个或多个实施例的说明性实现,但是所公开的系统和/或方法可以使用任何数量的技术来实现,无论是当前已知的还是有待开发的。本公开不应以任何方式限于说明性实现、附图和下面说明的技术,包括本文说明和描述的示例性设计和实现,而是可以在所附权利要求的范围及其等同物的全部范围内进行修改。
多功能视频编解码(VVC),也称为H.266,在一些描述中使用的术语只是为了便于理解,而不是为了限制所公开技术的范围。因此,本文描述的技术也适用于其他视频编解码器协议和设计。在本文档中,关于VVC规范或国际标准化组织(ISO)基本媒体文件格式(ISOBMFF)文件格式规范,通过粗体斜体表示取消的文本和下划线表示添加的文本示出了对文本的编辑更改。
本专利文件涉及视频编解码、视频文件格式、视频信令和视频应用。具体而言,本文档涉及基于补充增强信息(SEI)消息的视频编解码中交叉随机访问点(RAP)参考的增强信令,以及媒体文件中交叉RAP参考(CRR)的信令。所公开的示例可以单独地或以各种组合应用于任何视频编解码标准或非标准视频编解码器,诸如VVC,以及根据任何媒体文件格式(诸如ISOBMFF)的媒体文件。
本公开包括以下缩写。自适应颜色变换(ACT)、自适应环路滤波器(ALF)、自适应运动矢量分辨率(AMVR)、自适应参数集(APS)、访问单元(AU)、访问单元分隔符(AUD)、高级视频编解码(Rec.ITU-T H.264|ISO/IEC 14496-10)(AVC)、双向预测(B)、采用CU级权重的双向预测(BCW)、双向光流(BDOF)、基于块的增量脉码调制(BDPCM)、缓冲周期(BP)、基于上下文的自适应二进制算术编解码(CABAC)、编解码块(CB)、恒定比特率(CBR)、交叉分量自适应环路滤波器(CCALF)、编解码层视频序列(CLVS)、编解码层视频序列开始(CLVSS)、编解码图片缓冲器(CPB)、空闲随机访问(CRA)、循环冗余校验(CRC)、交叉RAP参考(CRR)、编解码树块(CTB)、编解码树单元(CTU)、编解码单元(CU)、编解码视频序列(CVS)、编解码视频序列起始(CVSS)、解码能力信息(DCI)、解码图片缓冲器(DPB)、依赖随机访问点(DRAP)、解码单元(DU、解码单元信息(DUI)、指数哥伦布(EG)、k阶指数哥伦布(EGk)、比特流结束(EOB)、序列结束(EOS)、填充数据(FD)、先进先出(FIFO)、固定长度(FL)、绿蓝红(GBR)、通用约束信息(GCI)、逐步解码刷新(GDR)、几何分割模式(GPM),也称为Rec.ITU-T H.265|ISO/IEC23008-2的高效视频编解码(HEVC)、假设参考解码器(HRD)、假设流调度器(HSS)、帧内(I)、帧内块复制(IBC)、瞬时解码刷新(IDR)、层间参考图片(ILRP)、帧内随机访问点(IRAP)、低频不可分离变换(LFNST)、最小概率码元(LPS)、最低有效比特(LSB)、长期参考图片(LTRP)、带色度缩放的亮度映射(LMCS)、基于矩阵的帧内预测(MIP)、最可能码元(MPS)、最高有效比特(MSB)、多重变换选择(MTS)、运动矢量预测(MVP)、网络抽象层(NAL)、输出层集(OLS)、操作点(OP)、操作点信息(OPI)、预测(P)、图片标头(PH)、图片顺序计数(POC)、图片参数集(PPS)、采用光流的预测细化(PROF)、图片定时(PT)、图片单元(PU)、量化参数(QP)、随机访问可解码前导图片(RADL)、随机访问点(RAP)、随机访问跳过前导图片(RASL)、原始字节序列有效载荷(RBSP)、红绿蓝(RGB)、参考图片列表(RPL)、样本自适应偏移(SAO)、样本纵横比(SAR)、补充增强信息(SEI)、条带标头(SH)、子图片级别信息(SLI)、数据比特串(SODB)、序列参数集(SPS)、短期参考图片(STRP)、逐步时间子层访问(STSA)、截断Rice(TR)、变换单元(TU)、可变比特速率(VBR)、视频编解码层(VCL)、视频参数集(VPS)、也称为Rec.ITU-TH.274|ISO/IEC 23002-7的多功能补充增强信息(VSEI)、视频可用性信息(VUI)和也称为Rec.ITU-T H.266|ISO/IEC 23090-3的多功能视频编解码(VVC)。
视频编解码标准主要是通过ITU-T和ISO/IEC标准的发展而发展起来的。ITU-T制定了H.261和H.263,ISO/IEC制定了MPEG-1和MPEG-4Visual,这两个组织共同制定了H.262/MPEG-2Video和H.264/MPEG-4高级视频编解码(AVC)和H.265/HEVC标准。自H.262以来,视频编解码标准基于混合视频编解码结构,其中使用了时间预测加变换编解码。为了进一步探索超越HEVC的视频编解码技术,视频编解码专家组(VCEG)和MPEG联合成立了联合视频探索小组(Joint Video Exploration Team,JVET)。许多方法已被JVET采用并放入名为联合探索模型(JEM)的参考软件中。当多功能视频编解码(VVC)项目正式启动时,JVET后来更名为联合视频专家组(JVET)。与HEVC相比,VVC是一种旨在将比特率降低50%的编解码标准。VVC已由JVET最终确定。
VVC和VSEI标准旨在用于最广泛的应用,包括电视广播、视频会议、存储介质回放、自适应比特率流式传输、视频区域提取、来自多个编解码的视频比特流的内容合成和合并等用途、多视图视频、可缩放分层编解码和视口自适应三百六十度(360°)沉浸式媒体。
基本视频编解码(EVC)标准(ISO/IEC 23094-1)是由MPEG开发的另一种视频编解码标准。
下面讨论文件格式标准。媒体流式传输应用程序通常基于互联网协议(IP)、传输控制协议(TCP)和超文本传输协议(HTTP)传输方法,并且通常依赖于诸如ISOBMFF的文件格式。一种这样的流式传输系统是HTTP上的动态自适应流式传输(DASH)。视频可以被编码为视频格式,诸如AVC和/或HEVC。编码的视频可以封装在ISOBMFF轨道中,并包含在DASH表示和段中。关于视频比特流的重要信息,诸如配置文件、层级和级别以及许多其他信息,可以作为文件格式级别元数据公开和/或在用于内容选择目的的DASH媒体呈现描述(MPD)中。例如,这样的信息可用于选择适当的媒体段,既用于流式传输会话开始时的初始化,也用于流式传输会话期间的流自适应。
类似地,当使用具有ISOBMFF的图像格式时,可以采用特定于诸如AVC图像文件格式和HEVC图像文件格式的图像格式的文件格式规范。VVC视频文件格式,即基于ISOBMFF的用于存储VVC视频内容的文件格式,正在由MPEG开发。VVC图像文件格式,即基于ISOBMFF的用于存储使用VVC编解码的图像内容的文件格式,也正在由MPEG开发。
下面讨论了对HEVC和VVC中随机访问的支持。随机访问指的是从按解码顺序不是比特流的第一个图片的图片开始访问和解码比特流。为了支持广播/多播和多方视频会议中的调谐和频道切换、本地播放和流式传输中的搜索以及流式传输中的流自适应,比特流应该包括频繁的随机访问点。这样的随机访问点通常是帧内编解码的图片,但也可以是帧间编解码的图片(例如,在逐步解码刷新的情况下)。帧内编解码的图片是参照图片内的块编解码的图片,帧间编解码的图片是参照其他图片中的块编解码的图片。
HEVC包括通过NAL单元类型在NAL单元标头中的帧内随机访问点(IRAP)图片的信令。HEVC支持三种类型的IRAP图片,即瞬时解码器刷新(IDR)、空闲随机访问(CRA)和断链访问(BLA)图片。IDR图片约束图片间预测结构不参考当前图片组(GOP)之前的任何图片,也称为封闭GOP随机访问点。通过允许某些图片参考当前GOP之前的图片,CRA图片限制较少,所有这些图片在随机访问的情况下都将被丢弃。CRA图片被称为开放GOP随机访问点。BLA图片通常源于两个比特流或其一部分在CRA图片处的拼接,例如,在流切换期间。为了使系统更好地使用IRAP图片,定义了六个不同的NAL单元来表示IRAP图片的属性,这些属性可用于匹配ISO基本媒体文件格式(ISOBMFF)中定义的流访问点类型。这样的流访问点类型也用于HTTP上的动态自适应流传输(DASH)中的随机访问支持。
VVC支持三种类型的IRAP图片,两种类型的IDR图片(一种有相关联的RADL图片,一种没有相关联的RADL图片)和一种类型的CRA图片。它们的使用方式与HEVC中的类似。HEVC中的BLA图片类型不包含在VVC中。这是因为BLA图片的基本功能可以通过CRA图片加上序列NAL单元结束来实现,它的存在表明后续图片在单层比特流中开始新的CVS。此外,在VVC的开发过程中,希望指定比HEVC更少的NAL单元类型,如在NAL单元标头中的NAL单元类型字段使用五比特而不是六比特所示。
VVC和HEVC在随机访问支持上的另一个区别是VVC以更规范的方式支持GDR。在GDR中,比特流的解码可以从帧间编解码的图片开始。在随机访问点的第一个图片处,只有部分图片可以被正确解码。然而,在一些图片之后,整个图片区域可以被正确地解码和显示。AVC和HEVC也支持GDR,使用恢复点SEI消息用于GDR随机访问点和恢复点的信令。在VVC中,指定NAL单元类型以指示GDR图片,并在图片头语法结构中信令通知恢复点。允许CVS和比特流以GDR图片开始。因此,允许整个比特流仅包含帧间编解码的图片而没有单个帧内编解码的图片。以这种方式指定GDR支持的主要好处是为GDR提供一致的行为。GDR使编解码器能够通过将帧内编解码的条带或块(比帧间编解码的条带/块压缩得更少)分布在多个图片上来平滑比特流的比特率,而不是对整个图片进行帧内编解码。这可以显著减少端到端延迟,由于越来越多地使用超低延迟应用程序(如无线显示、在线游戏、基于无人机的应用程序等),这被认为更加重要。
VVC中另一个与GDR相关的特征是虚拟边界信令。在GDR图片和恢复点之间的图片上,刷新区域(GDR中被正确解码的区域)和未刷新区域之间的边界可以被信令通知为虚拟边界。当被信令通知时,将不会应用跨边界的环路内滤波。这防止了边界处或附近的一些样本的解码不匹配。当应用程序决定在GDR过程中显示正确解码的区域时,这会很有用。IRAP图片和GDR图片可以统称为随机访问点(RAP)图片。
下面讨论VUI和SEI消息。VUI是作为SPS的一部分发送的语法结构(也可能在HEVC的VPS中)。VUI携带不会影响规范的解码过程,但可用于编解码的视频的正确渲染的信息。SEI协助与解码、显示或其他目的相关的过程。与VUI一样,SEI不影响规范解码过程。SEI携带在SEI消息中。SEI消息的解码器支持是可选的。但是,SEI消息确实会影响比特流一致性。例如,如果比特流中的SEI消息语法不符合规范,则比特流不符合规范。HRD规范中使用了一些SEI消息。
与VVC一起使用的VUI语法结构和大多数SEI消息未在VVC规范中指定,而是在VSEI规范中指定。用于HRD一致性测试的SEI消息在VVC规范中指定。VVC定义了五个与HRD一致性测试相关的SEI消息,VSEI指定了二十个额外的SEI消息。VSEI规范中携带的SEI消息不会直接影响符合解码器的行为,并且已被定义为可以以与编解码格式无关的方式使用,从而允许VSEI在除了VVC之外的其他视频编解码标准中使用。VSEI规范不是专门指VVC语法元素名称,而是指变量,其值在VVC规范中设置。
与HEVC相比,VVC的VUI语法结构只关注与图片正确渲染相关的信息,不包含任何定时信息或比特流限制指示。在VVC中,VUI在SPS内被信令通知,它在VUI语法结构之前包含一个长度字段,以指示VUI有效载荷的长度(以字节为单位)。这允许解码器轻松跳过信息,并允许通过以与SEI消息语法扩展类似的方式将新语法元素直接添加到VUI语法结构的末尾来进行VUI语法扩展。
VUI语法结构包含以下信息:内容是隔行还是逐行的指示;内容是否包含帧封装立体视频或投影全向视频的指示;样本纵横比;内容是否适合过扫描显示的指示;颜色描述,包括颜色原色、矩阵和传输特性,支持信令通知超高清(UHD)与高清(HD)色彩空间以及高动态范围(HDR);以及与亮度相比的色度位置指示(与HEVC相比,渐进式内容的信令得到了澄清)。
当SPS不包含任何VUI时,如果比特流的内容旨在在显示器上渲染,则信息被视为未指定并经由外部方式传送或由应用程序指定。
表1列出了为VVC指定的SEI消息,以及包含它们的语法和语义的规范。在VSEI规范中指定的二十个SEI消息中,许多是从HEVC继承的(例如,填充有效载荷和用户数据SEI消息)。一些SEI消息用于正确处理或渲染编解码的视频内容。对于与HDR内容特别相关的主控显示色量、内容光级信息和/或替代传输特性SEI消息就是这种情况。其他示例包括等距柱状投影、球体旋转、逐区域打包和/或全向视口SEI消息,这些与360°视频内容的信令和处理相关。
表1:VVC v1中的SEI消息列表
VVC v1规定的SEI消息包括帧场信息SEI消息、样本纵横比信息SEI消息和子图片级别信息SEI消息。帧场信息SEI消息包含指示相关联的图片应如何被显示(诸如场奇偶校验或帧重复周期)、相关联的图片的源扫描类型以及相关联的图片是否是先前图片的副本的信息。该信息可以在一些视频编解码标准中连同相关联的图片的定时信息一起在图片定时SEI消息中信令通知。然而,帧场信息和定时信息是两种不同类型的信息,不一定一起信令通知。在一个典型的示例中,定时信息是在系统级信令通知的,但帧场信息是在比特流内信令通知的。因此,帧场信息从图片定时SEI消息中移除,并改为在专用SEI消息中信令通知。这一更改还支持修改帧场信息的语法,以向显示器传达更多和更清晰的指令,诸如将字段配对在一起或帧重复的更多值。
样本纵横比SEI消息可以为同一序列中的不同图片信令通知不同的样本纵横比,而VUI中包含的对应信息适用于整个序列。当使用具有导致同一序列的不同图片具有不同样本纵横比的缩放因子的参考图片重采样功能时,这可能是相关的。
子图片级别信息SEI消息提供子图片序列的级别信息。
下面讨论DRAP指示SEI消息。VSEI规范包含DRAP指示SEI消息,具体规定如下:
dependent_rap_indication(payloadSize){ 描述符
}
与依赖随机访问点(DRAP)指示SEI消息相关联的图片被称为DRAP图片。DRAP指示SEI消息的存在表明本条款中规定的图片顺序和图片参考的约束适用。这些约束可使解码器能够正确地解码DRAP图片和按解码顺序和输出顺序都在DRAP图片之后的图片,而不需要解码除DRAP图片的相关联的IRAP图片之外的任何其他图片。
都应使用的由DRAP指示SEI消息的存在所指示的约束如下所示。DRAP图片是拖尾图片(trailing picture)。DRAP图片的时间子层标识符等于0。除了DRAP图片的相关联的IRAP图片之外,DRAP图片不包括DRAP图片的参考图片列表的活动条目中的任何图片。除了DRAP图片的相关联的IRAP图片,按解码顺序和输出顺序都在DRAP图片之后的任何图片在该图片的参考图片列表的活动条目中不包括按解码顺序或输出顺序在DRAP图片之前的任何图片。
媒体文件中的DRAP信令在下面讨论。ISOBMFF包括基于样本组的DRAP信令机制,如下所示。DRAP样本组定义如下。DRAP样本是指这样的样本,如果该DRAP样本之前有最接近的初始样本可供参考,则按解码顺序该DRAP样本之后的所有样本都可以被正确解码。初始样本是由同步样本(Sync Sample)或由流访问点(SAP)样本组标记为SAP类型1、2或3的SAP样本。例如,如果文件中的第32个样本是包含I图片的初始样本,则第48个样本可以包含P图片并且被标记为依赖随机访问点样本组的成员。这表明通过首先解码第32个样本(忽略样本33-47)然后从第48个样本继续解码,可以在第48个样本处执行随机访问。
仅当以下条件成立时,样本才能是依赖随机访问点样本组的成员(因此被称为DRAP样本)。DRAP样本仅参考最接近的先前初始样本。当在DRAP样本处开始解码时,可以正确解码DRAP样本和按输出顺序在DRAP样本之后的所有样本。这可能发生在已经解码最接近的可以由同步样本或SAP样本组来标记的类型1、2或3的最接近的先前SAP样本之后。DRAP样本只能与类型1、2和3的SAP样本结合使用。这是为了通过将按样本输出顺序在前面的SAP样本与DRAP样本和DRAP样本后面的样本连接起来,来启用创建可解码的样本序列的功能。DRAP样本组的示例语法如下。
DRAP样本组的示例语义如下。DRAP_type是一个非负整数。当DRAP_type在1到3的范围内时,如果DRAP样本不依赖于最接近的先前SAP,DRAP_type指示DRAP样本将对应的SAP_type(如附件I中指定)。保留其他类型值。保留应等于0。本子条款的语义仅适用于保留等于0的样本组描述条目。解析器在解析该样本组时应允许和忽略保留大于0的样本组描述条目。
下面讨论基于交叉RAP参考(CRR)的视频编解码方法,也称为外部解码刷新(EDR)和/或类型2DRAP。这种视频编解码方法的基本思想如下。不是将随机访问点编解码为帧内编解码的IRAP图片(比特流中的第一个图片除外),而是使用帧间预测对随机访问点进行编解码,以在随机访问点被编解码为IRAP图片时避免较早图片不可用。该机制通过可以被称为外部流和/或外部手段的单独的视频比特流提供有限数量的较早图片,通常表示视频内容的不同场景。这样的较早的图片被称为外部图片。因此,每一个外部图片都可以用于跨随机访问点的图片间预测参考。编解码效率增益来自将随机访问点编解码为帧间预测图片,以及为按解码顺序在EDR图片之后的图片提供更多可用参考图片。使用这样的视频编解码方法编解码的比特流可以用于基于ISOBMFF和如下所述的DASH的应用程序。
下面讨论DASH内容准备操作。视频内容被编码成一个或多个表示,每一个表示都包括特定的空间分辨率、时间分辨率和质量。视频内容的每一个表示由一个主流(mainstream)来表示,也可能由一个外部流表示。主流包含可能包含或不包含EDR图片的编解码的图片。当至少一个EDR图片包含在主流中时,外部流也存在并且包含外部图片。当主流中不包含EDR图片时,外部流不存在。每一个主流都携带在主流表示(MSR)中。MSR中的每一个EDR图片都是段的第一个图片。
每一个外部流(如果存在)都在外部流表示(ESR)中携带。对于以EDR图片开始的MSR中的每一个段,对应的ESR中有一个段具有从MPD推导出的相同段开始时间,该段携带解码该EDR图片以及MSR中携带的比特流中按解码顺序的后续图片所需的外部图片。同一视频内容的MSR包含在一个自适应集(AS)中。同一视频内容的ESR包含在一个AS中。
下面讨论DASH流式传输操作。客户端获取DASH媒体呈现的MPD,解析MPD,选择MSR,并确定要消耗内容的开始呈现时间。客户端请求MSR的段,从包含呈现时间等于(或足够接近)开始呈现时间的图片的段开始。如果开始段中的第一个图片是EDR图片,则最好在请求MSR段之前,还请求相关联的ESR中的对应段(具有从MPD推导出的相同段开始时间)。否则,不请求相关联的ESR的段。
当切换到不同的MSR时,客户端请求切换到MSR的段,从段开始时间大于自切换的MSR的最后请求的段的段开始时间的第一个段开始。如果切换到的MSR中开始段中的第一个图片是EDR图片,则最好是在请求MSR段之前,还请求相关联的ESR中的对应段。否则,不请求相关联的ESR的段。
当以相同的MSR连续操作时(在搜索或流切换操作后对开始段进行解码之后),不请求相关联的ESR的段,包括在请求以EDR图片开始的任何段时。
下面讨论视频中交叉RAP参考的信令。CRR可以在SEI消息中信令通知,称为类型2DRAP指示SEI消息,如下所示。类型2DRAP指示SEI消息语法如下。
type2_drap_indication(payloadSize){ 描述符
t2drap_rap_id_in_clvs u(16)
t2drap_reserved_zero_13bits u(13)
t2drap_num_ref_rap_pics_minus1 u(3)
for(i=0;i<=t2drap_num_ref_rap_pics_minus1;i++)
t2drap_ref_rap_id[i] u(16)
}
类型2DRAP指示SEI消息语义如下。与类型2DRAP指示SEI消息相关联的图片被称为类型2DRAP图片。类型1DRAP图片(与DRAP指示SEI消息相关联)和类型2DRAP图片统称为DRAP图片。类型2DRAP指示SEI消息的存在表明本子条款中指定的图片顺序和图片参考的约束适用。这些约束可以使解码器能够正确地解码类型2DRAP图片和在同一层中并且按解码顺序和输出顺序都在类型2DRAP图片之后的图片。这可以在不需要解码同一层中除了图片列表referenceablePictures的任何其他图片的情况下完成,图片列表referenceablePictures包括在相同CLVS内并且由t2drap_ref_rap_id[i]语法元素标识的按解码顺序的IRAP或DRAP图片列表。
都应适用的类型2DRAP指示SEI消息的存在所指示的约束如下。类型2DRAP图片是拖尾图片。类型2DRAP图片具有等于0的时间子层标识符。类型2DRAP图片不包括除了referenceablePictures的类型2DRAP图片的参考图片列表的活动条目中同一层中的任何图片。在同一层并且按解码顺序和输出顺序都在类型2DRAP图片之后的任何图片,在类型2DRAP图片的参考图片列表的活动条目中,不包括在同一层并且按解码顺序或输出顺序在类型2DRAP图片之前的任何图片,referenceablePictures除外。列表referenceablePictures中的任何图片在图片的参考图片列表的活动条目中不包括处于同一层中并且不是列表referenceablePictures中较早位置处的图片的任何图片。因此,referenceablePictures中的第一个图片,即使当图片是DRAP图片而不是IRAP图片时,在图片的参考图片列表的活动条目中也不包括来自同一层的任何图片。
t2drap_rap_id_in_clvs指定类型2DRAP图片的RAP图片标识符,表示为RapPicId。每一个IRAP或DRAP图片都与一个RapPicId相关联。IRAP图片的RapPicId值被推断为等于0。对于CLVS内的任何两个IRAP或DRAP图片,RapPicId的值应该不同。在符合本规范该版本的比特流中,t2drap_reserved_zero_13bits应等于0。t2drap_reserved_zero_13bits的其他值是保留的。解码器应忽略t2drap_reserved_zero_13bits的值。t2drap_num_ref_rap_pics_minus1加1指示在与类型2DRAP图片相同的CLVS内并且可以包括在类型2DRAP图片的参考图片列表的活动条目中的IRAP或DRAP图片的数量。t2drap_ref_rap_id[i]指示在与类型2DRAP图片相同的CLVS内并且可以包括在类型2DRAP图片的参考图片列表的活动条目中的第i个IRAP或DRAP图片的RapPicId。
以下是所公开的技术方案所解决的技术问题的示例。例如,关于视频比特流和媒体文件中的CRR和/或DRAP的信令存在以下问题。DRAP指示SEI消息缺少指示当从DRAP图片随机访问时按解码顺序在DRAP图片之后但是按输出顺序在DRAP图片之前的图片是否可以被正确解码的信令。在这种情况下,这样的图片可能会被错误解码,因为它们参考按解码顺序早于DRAP图片的图片用于帧间预测。
参考图5,其呈现按解码顺序在相关联的DRAP图片之后并且按输出顺序在相关联的DRAP图片之前的图片的示例。每一个框都是一个图片,按照从左到右的解码顺序进行说明。框内的数字为输出顺序,也被称为图片的图片顺序计数。箭头指示两个图片之间的帧间预测关系,右侧(箭头处)的图片使用左侧(箭头原点处)的图片作为参考图片。
在图5所示的示例中,图片6到图片8的帧间预测可以关闭(把两个图片集合在一起的箭头去掉)。在这种情况下,当从DRAP图片(图片10)中随机访问时,图片8可以是正确可解码的。然而,当采用从图片6到图片8的帧间预测时,当DRAP图片(图片10)被用作随机访问点时图片8不能被正确解码。这样的帧间预测是否关闭的指示对于系统了解在从DRAP图片随机访问时何时开始呈现视频是有用的。例如,有了这样的指示,当从DRAP图片(图片10)随机访问时,应用系统就知道可以从图片8开始呈现还是从图片10开始呈现。
类型2DRAP指示SEI消息还缺少信令机制来指示当从类型2DRAP图片随机访问时,按解码顺序在类型2DRAP图片之后但是按输出顺序在类型2DRAP图片之前的图片是否可以被正确解码。当图片参考按解码顺序早于类型2DRAP图片的图片用于帧间预测时,这样的图片在这种情况下可能被错误地解码。这样的指示对于系统在从类型2DRAP图片随机访问时确定何时开始呈现视频很有用。还缺乏在媒体文件中信令通知CRR的机制。
此外,ISOBMFF中DRAP样本组的语义是错误的。ISOBMFF指出,如果DRAP样本之前的最接近的初始样本可供参考,则DRAP样本是在其之后按解码顺序所有样本都可以被正确解码的样本。然而,即使在DRAP样本之前的最接近的初始样本可用于参考,也存在这样的情况,即按解码顺序在DRAP样本之后但是按输出顺序在DRAP样本之前的样本参考早于最接近的初始样本中的图片的图片用于参考。在这种情况下,无法正确解码这样的样本(图片)。
本文公开了解决上面列出的一个或多个问题的机制。例如,DRAP图片是通过参考IRAP图片经由帧间预测编解码的随机访问点图片。此外,也称为类型2DRAP和/或增强型依赖随机访问点(EDRAP)图片的CRR图片是通过参考IRAP图片经由帧间预测编解码的随机访问点图片,并且进一步允许参考一个或多个其他依赖随机访问点图片。因此,CRR/DRAP/类型2DRAP可以被认为是DRAP的一种。DRAP和CRR是基于视频图片按特定顺序被管理的前提下设计的。但是,允许编码器对图片重新排序以提高编解码效率。因此,视频图片可以具有输出顺序和解码顺序。输出顺序是图片被呈现/显示的顺序,解码顺序是图片被编解码成比特流的顺序。一些DRAP和CRR设计不考虑这种区别,因此当使用DRAP和/或CRR对视频进行编解码并且编码器决定对图片重新排序时,可能会出现错误。具体地,当帧间预测图片按解码顺序在DRAP/CRR图片之后并且按输出顺序在DRAP/CRR图片之前时,可能出现错误。可能发生错误,因为这样的图片可以被允许通过参考按解码顺序在DRAP/CRR图片之前的进一步图片来编解码。当DRAP/CRR图片被解码器用作随机访问点时,图片可能完全可解码或可能不完全可解码,这取决于是否使用通过参考进一步图片的帧间预测。此外,各种信令机制可能不完全支持DRAP和/或CRR。
因此,本公开包括指示按解码顺序在DRAP/CRR图片之后并且按输出顺序在DRAP/CRR图片之前的帧间预测的图片是否被允许参考在DRAP/CRR图片之前的其他图片的信令机制。在示例中,信令机制是编解码的比特流中的SEI消息。如果允许这样的帧间预测参考,则当DRAP/CRR图片用作随机访问点时,不显示该帧间预测的图片。如果不允许这样的帧间预测参考,则当DRAP/CRR图片用作随机访问点时,可以显示该帧间预测的图片。此外,本公开描述了可以包括在ISOBMFF媒体文件中以描述DRAP和/或CRR图片的样本组和/或样本条目。这允许解码器在文件格式级别确定DRAP和/或CRR图片的存在和位置。
此外,本公开包括信令通知CRR图片的机制。每一个CRR图片由编解码层视频序列减一(t2drap_rap_id_in_clvs_minus1)字段中的类型2DRAP RAP标识符来标识。在一个示例中,t2drap_rap_id_in_clvs_minus1字段的值加一指定CRR图片的RAP图片标识符(RapPicId)。每一个IRAP和CRR图片都与一个RapPicId相关联。IRAP图片的RapPicId为零。每一个CRR图片的RapPicId是一个非零正值,它不同于与同一IRAP图片相关联的其他CRR图片的RapPicId。CRR图片的标识符可以包括在类型2DRAP SEI消息中。这种方法唯一地标识每一个IRAP图片和与该IRAP图片相关联的CRR图片。然而,这种方法还允许CRR图片在同一视频序列中跨多个周期重复使用RapPicId。
为了解决上述问题和其他问题,公开了总结如下的方法。这些项目应被视为解释一般概念的示例,不应以狭义的方式进行解释。此外,这些项目可以单独应用或以任何方式组合应用。
示例1
在一个示例中,向DRAP指示SEI消息语法添加指示以指示与DRAP图片在同一层中、按解码顺序在DRAP图片之后以及按输出顺序在DRAP图片之前的图片是否被允许参考与DRAP图片处于同一层并且按解码顺序早于DRAP图片的图片用于帧间预测。如果不允许这样的参考,则当DRAP用作随机访问点时,解码器可以正确地解码和显示这样的图片。当允许参考时,可能无法解码,并且当DRAP用作随机访问点时,这样的图片不应显示在解码器处。在一个示例中,该指示是一比特标志。在一个示例中,该标志被设置为等于X(X是1或0)以指示在同一层中并且按解码顺序在DRAP图片之后但是按输出顺序在DRAP图片之前的图片被允许参考在同一层中并且按解码顺序早于DRAP图片的图片用于帧间预测。在一个示例中,标志可以被设置为等于1-X(X是1或0)以指示在同一层中并且按解码顺序在DRAP图片之后并且按输出顺序在DRAP图片之前的图片不参考在同一层中并且按解码顺序早于DRAP图片的图片用于帧间预测。在一个示例中,该指示是多比特指示符。在一个示例中,约束要求在同一层中并且按解码顺序在DRAP图片之后的任何图片应按输出顺序在在同一层中并且按解码顺序在DRAP图片之前的任何图片之后。
示例2
在一个示例中,指定了附加的SEI消息,并且此SEI消息的存在指示在同一层中并且按解码顺序在比特流中位于DRAP图片之后并且按输出顺序在DRAP图片之前的图片不参考在同一层中并且按解码顺序早于DRAP图片的图片用于帧间预测。在一个示例中,此SEI消息的存在指示允许在同一层中并且按解码顺序在比特流中位于DRAP图片之后并且按输出顺序在DRAP图片之前的图片被允许参考在同一层中并且按解码顺序早于DRAP图片的图片用于帧间预测。在一个示例中,约束要求在同一层中并且按解码顺序在DRAP图片之后的任何图片应按输出顺序在在同一层中并且按解码顺序在DRAP图片之前的任何图片之后。
示例3
在一个示例中,指定了附加的SEI消息。此附加SEI消息的存在指示在同一层中的图片并且按解码顺序在与SEI消息和DRAP指示SEI消息两者相关联的DRAP图片之后,按输出顺序在DRAP图片之前的图片不参考在同一层中并且按解码顺序位于DRAP图片之前的任何图片用于帧间预测。在一个示例中,此附加SEI消息的不存在指示在同一层中按解码顺序在与附加SEI消息和DRAP指示SEI消息两者相关联的DRAP图片之后,并且按输出顺序在DRAP图片之前的图片被允许参考在同一层中并且按解码顺序早于DRAP图片的图片用于帧间预测。在一个示例中,约束确保在同一层中并且按解码顺序在DRAP图片之后的任何图片应按输出顺序在在同一层中并且按解码顺序在DRAP图片之前的任何图片之后。
示例4
在一个示例中,指定了附加的SEI消息,并且指示被添加到该附加的SEI消息语法以指示在同一层中并且按解码顺序在与附加的SEI消息和DRAP指示SEI消息两者相关联的DRAP图片之后并且按输出顺序在DRAP图片之前的图片是否被允许参考在同一层中并且按解码顺序早于DRAP图片的图片用于帧间预测。在一个示例中,该指示是一比特标志。在一个示例中,标志被设置为等于X(X为1或0)以指示在同一层中并且按解码顺序在DRAP图片之后并且按输出顺序在DRAP图片之前的图片被允许参考在同一层中并且按解码顺序早于DRAP图片的图片用于帧间预测。此外,在一个示例中,标志被设置为等于1-X(X是1或0)以指示在同一层中并且按解码顺序在DRAP图片之后并且按输出顺序在DRAP图片之前的图片不参考在同一层中并且按解码顺序早于DRAP图片的图片用于帧间预测。在一个示例中,该指示是多比特指示符。在一个示例中,约束要求在同一层中并且按解码顺序在DRAP图片之后的任何图片应按输出顺序在在同一层中并且按解码顺序在DRAP图片之前的任何图片之后。
示例5
在一个示例中,指示被添加到类型2DRAP指示SEI消息语法。该指示指示在同一层中并且按解码顺序在类型2DRAP图片之后并且按输出顺序在类型2DRAP图片之前的图片是否被允许参考在同一层中并且按解码顺序早于类型2DRAP图片的图片用于帧间预测。在一个示例中,该指示是一比特标志。在一个示例中,标志被设置为等于X(X为1或0)以指示在同一层中并且按解码顺序在DRAP图片之后并且按输出顺序在DRAP图片之前的图片被允许参考在同一层中并且按解码顺序早于DRAP图片的图片用于帧间预测。此外,在一个示例中,标志被设置为等于1-X(X是1或0)以指示在同一层中并且按解码顺序在DRAP图片之后并且按输出顺序早于DRAP图片的图片不参考在同一层中并且按解码顺序早于DRAP图片的图片用于帧间预测。在一个示例中,通过在类型2DRAP指示SEI消息语法中重新使用来自t2drap_reserved_zero_13bits字段的一比特来添加标志。在一个示例中,该指示是多比特指示符。在一个示例中,约束要求在同一层中并且按解码顺序在DRAP图片之后的任何图片应按输出顺序在在同一层中并且按解码顺序在DRAP图片之前的任何图片之后。
示例6
在另一示例中,指示与DRAP或类型2DRAP图片相关联。在示例中,可以针对每一个DRAP或类型2DRAP信令通知该指示。
示例7
在一个示例中,附加样本组被指定为在ISOBMFF文件中信令通知CRR(例如,包含类型2DRAP图片的样本)。
示例8
在一个示例中,DRAP样本组被扩展以在ISOBMFF文件中信令通知CRR(例如,包含类型2DRAP图片的样本),例如通过使用样本的版本字段到组框(例如,SampleToGroupBox或CompactSampleToGroupBox)或通过使用样本到组框中的grouping_type_parameter字段(或其一部分)。
示例9
在一个示例中,DRAP样本条目包括指示从DRAP样本组的成员随机访问需要的所需随机访问点(RAP)样本的数量的字段。所需的RAP样本是初始样本或DRAP样本。在一个示例中,DRAP样本条目还包括指示DRAP样本组的成员的RAP标识符的字段。在一个示例中,指示RAP标识符的字段使用16比特进行编解码。在一个示例中,指示RAP标识符的字段使用32比特进行编解码。在一个示例中,DRAP样本条目排除了指示DRAP样本组成员的RAP标识符的字段。RAP标识符可以在子样本信息框、样本辅助信息大小框和/或另一个框中信令通知。在一个示例中,DRAP样本条目排除了指示DRAP样本组成员的RAP标识符的字段。在一个示例中,RAP标识符是样本号。在一个示例中,DRAP样本条目还包括指示从DRAP样本组的成员随机访问需要的所需RAP样本的RAP标识符的多个字段。在一个示例中,指示所需RAP样本的RAP标识符的字段的每一个使用16比特进行编解码。在一个示例中,指示所需RAP样本的RAP标识符的字段的每一个使用32比特进行编解码。在一个示例中,指示所需RAP样本的RAP标识符的字段的每一个直接表示所需RAP样本的RAP标识符。在一个示例中,指示所需RAP样本的RAP标识符的字段的每一个表示两个RAP样本的RAP标识符之间的差异。在一个示例中,指示所需RAP样本的RAP标识符的字段中的第i个字段(i等于0)表示当前样本(例如,当前DRAP样本组的样本)的RAP标识符与第一所需RAP样本的第i个RAP标识符之间的差异。在一个示例中,指示所需RAP样本的RAP标识符的字段中的第i个字段(i大于0)表示第(i-1)个所需RAP样本的RAP标识符与第i个所需RAP样本的RAP标识符之间的差异。在一个示例中,指示所需RAP样本的RAP标识符的字段中的第i个字段(i大于0)表示第i个所需RAP样本的RAP标识符与第(i-1)个所需RAP样本的RAP标识符之间的差异。
示例10
在一个示例中,依赖随机访问点(DRAP)样本是当DRAP样本之前最接近的初始样本可供参考时,按解码顺序和输出顺序两者在其后的所有样本都可以被正确解码的样本。
示例11
在一个示例中,类型2DRAP SEI消息语法被改变,使得SEI消息中除t2drap_rap_id_in_clvs语法元素之外的所有其他语法元素仅在t2drap_rap_id_in_clvs大于0时信令通知。
示例12
在一个示例中,类型2DRAP SEI消息语法被改变,使得t2drap_rap_id_in_clvs语法元素被t2drap_rap_id_in_clvs_minus1替换,并且语义改变如下:t2drap_rap_id_in_clvs_minus1加1指定CRR图片的RAP图片标识符,表示为RapPicId。
示例13
在一个示例中,类型2DRAP SEI消息语义被改变,使得每一个IRAP或DRAP图片都与RapPicId相关联,与IRAP图片相关联的任何两个CRR图片的RapPicId值应该不同,CRR图片的RapPicId值应大于0,并且IRAP图片的RapPicId值被推断等于0。
下面是上面总结的一些方面的一些示例实施例。已添加或修改的相关部分以下划线粗体表示,删除的部分以粗体斜体表示。
在示例实现中,类型2DRAP指示SEI消息的语法被修改如下。
type2_drap_indication(payloadSize){ 描述符
t2drap_rap_id_in_clvs u(16)
t2drap_leading_pictures_decodable_flag u(1)
t2drap_reserved_zero_1 2bits u(1 2)
t2drap_num_ref_rap_pics_minus1 u(3)
for(i=0;i<=t2drap_num_ref_rap_pics_minus1;i++)
t2drap_ref_rap_id[i] u(16)
}
此外,类型2 DRAP指示SEI消息语义修改如下。与类型2 DRAP指示SEI消息相关联的图片被称为类型2 DRAP图片。类型1 DRAP图片(与DRAP指示SEI消息相关联)和类型2DRAP图片统称为DRAP图片。类型2 DRAP指示SEI消息的存在表明本子条款中指定的图片顺序和图片参考的约束适用。这些约束可以使解码器能够正确解码类型2 DRAP图片和同一层中并且按解码顺序和输出顺序在它之后的图片,而不需要解码除了图片列表referenceablePictures之外的同一层中的任何其他图片,图片列表referenceablePictures由同一CLVS内并且由t2drap_ref_rap_id[i]语法元素标识的按解码顺序的IRAP或DRAP图片列表组成。
都应适用的类型2 DRAP指示SEI消息的存在所指示的约束如下。类型2 DRAP图片是拖尾图片。类型2 DRAP图片具有等于0的时间子层标识符。类型2 DRAP图片在其参考图片列表的活动条目中不包括同一层中的任何图片,除了referenceablePictures。在同一层中并且按解码顺序和输出顺序都在类型2 DRAP图片之后的任何图片在其参考图片列表的活动条目中不包括在同一层中并且按解码顺序或输出顺序在类型2 DRAP之前的任何图片,referenceablePictures除外。
当t2drap_leading_pictures_decodable_flag等于1时,适用以下内容。任何处于 同一层并且按解码顺序在类型2 DRAP图片之后的图片应按输出顺序在处于同一层并且按 解码顺序在类型2 DRAP图片之前的任何图片之后。在同一层中并且按解码顺序在类型2 DRAP图片之后并且按输出顺序在类型2 DRAP图片之前的任何图片在其参考图片列表的活 动条目中不包括在同一层中并且按解码顺序在类型2 DRAP图片之前的任何图片, referenceablePictures除外。
列表referenceablePictures中的任何图片在其参考图片列表的活动条目中不包括处于同一层中并且不是列表referenceablePictures中较早位置处的图片的任何图片。注–因此,referenceablePictures中的第一个图片,即使它是DRAP图片而不是IRAP图片,在其参考图片列表的活动条目中也不包括来自同一层的任何图片。
t2drap_rap_id_in_clvs指定类型2DRAP图片的RAP图片标识符,表示为RapPicId。每一个IRAP或DRAP图片都与一个RapPicId相关联。IRAP图片的RapPicId值被推断为等于0。对于CLVS内的任何两个IRAP或DRAP图片,RapPicId的值应该不同。在符合本规范的该版本的比特流中,t2drap_reserved_zero_13bits应等于0。t2drap_reserved_zero_13bits的其他值被保留供ITU-T|ISO/IEC将来使用。解码器应忽略t2drap_reserved_zero_13bits的值。t2drap_num_ref_rap_pics_minus1加1指示在与类型2DRAP图片相同的CLVS内并且可以被包括在类型2DRAP图片的参考图片列表的活动条目中的IRAP或DRAP图片的数量。t2drap_ref_rap_id[i]指示在与类型2DRAP图片相同的CLVS内并且可以被包括在类型2DRAP图片的参考图片列表的活动条目中的第i个IRAP或DRAP图片的RapPicId。
在示例实现中,依赖随机访问点(DRAP)样本组定义如下。当SampleToGroupBox或 CompactSampleToGroupBox的grouping_type等于'drap'时,以下内容适用。当 SampleToGroupBox或CompactSampleToGroupBox的版本字段等于0,或字段grouping_type_ parameter存在并且该值等于0时,如果DRAP样本之前最接近的初始样本可供参考,则依赖随机访问点(DRAP)样本是按解码顺序和输出顺序两者在其后的所有样本可以被正确解码的样本。当字段grouping_type_parameter存在并且该值等于1时,如果DRAP样本之前最接 近的初始样本和按解码顺序早于DRAP样本的零个或多个其他标识的DRAP样本可供参考,则 DRAP样本是按解码顺序和输出顺序在其后的所有样本都可以被正确解码的样本。
初始样本是被同步样本或被SAP样本组标记为SAP类型1、2或3的SAP样本。例如,如果文件中的第32个样本是由I图片组成的初始样本,则第48个样本可能由P图片组成,并被标记为依赖随机访问点样本组的成员,从而表明通过首先解码第32个样本(忽略样本33-47)然后从第48个样本继续解码,可以在第48个样本处执行随机访问。注意:DRAP样本只能与类型1、2和3的SAP样本结合使用。这是为了通过连接先前的SAP样本和按解码顺序早于 DRAP样本的零个或多个其他标识的DRAP样本与DRAP样本和按输出顺序在DRAP样本之后的样本,来启用创建可解码的样本序列的功能。
当SampleToGroupBox或CompactSampleToGroupBox的版本字段等于0,或字段grouping_type_parameter存在并且值等于0时,仅当以下条件成立时,样本才是依赖随机访问点样本组的成员(因此被称为DRAP样本)。DRAP样本仅参考最接近的先前初始样本。在解码由同步样本或由SAP样本组标记为类型1、2或3的最接近的先前SAP样本后,在DRAP样本处开始解码时,可以正确解码DRAP样本和按解码顺序和输出顺序在DRAP样本之后的所有样本。
当字段grouping_type_parameter存在并且值等于1时,仅当以下条件成立时,样 本才能是DRAP样本组的成员(因此被称为DRAP样本)。DRAP样本仅参考最接近的先前初始样 本和按解码顺序早于DRAP样本的零个或多个其他标识的DRAP样本。在解码由同步样本或由 SAP样本组标记为类型1、2或3的最接近的先前SAP样本后并且在解码按解码顺序早于DRAP 样本的零个或多个其他标识的DRAP样本后,在DRAP样本处开始解码时,可以正确解码DRAP 样本和按解码顺序和输出顺序在DRAP样本之后的所有样本。
DRAP样本组条目的示例语法如下:
DRAP样本组条目的示例语义如下。DRAP_type是一个非负整数。当DRAP_type在1到3的范围内时,它指示DRAP样本将对应的SAP_type(如附件I中指定),如果它不依赖于最接近的先前SAP或其他DRAP样本。保留其他类型值。num_ref_rap_pics_minus1加1表示初始样 本或其他DRAP样本的数量,这些样本按解码顺序早于DRAP样本,并且当从DRAP样本开始解 码时需要参考才能正确解码DRAP样本以及按解码顺序和输出顺序在DRAP样本之后的所有 样本。reserved(保留值)应等于0。本子条款的语义仅适用于reserved等于0的样本组描述条目。解析器在解析该样本组时应允许和忽略reserved大于0的样本组描述条目。RAP_id指 定属于该样本组的样本的RAP样本标识符。RAP样本是初始样本或DRAP样本。初始样本的 RAP_id的值被推断为等于0。ref_RAP_id[i]指示第i个RAP样本的RAP_id,其按解码顺序早 于DRAP样本并且当从DRAP样本开始解码时需要参考才能正确解码DRAP样本和按解码顺序 和输出顺序在DRAP样本之后的所有样本。
在另一示例实现中,RAP_id字段未在VisualDRAPEntry()语法中信令通知,在这种情况下,语法VisualDRAPEntry()如下:
此外,每一个DRAP样本的RAP_id字段在子样本信息框、样本辅助信息大小框或附加框中信令通知。
在另一示例实现中,ref_RAP_id[i]字段被改变为ref_RAP_id_delta[i],并且ref_RAP_id[i]字段的语义被改变如下。ref_RAP_id_delta[i]指示第i个RAP样本的RAP_id的增量,该样本按解码顺序早于DRAP样本,并且当从DRAP样本开始解码时需要参考才能正确解码DRAP样本和按解码顺序和输出顺序在DRAP样本之后的所有样本的。变量RefRapId[i],表示第i个RAP样本的RAP_id,推导如下,其中RAP_id为当前样本(即当前DRAP样本组的 样本)的RAP_id:
在另一示例实现中,ref_RAP_id_delta[i]字段的语义改变如下。ref_RAP_id_delta[i]表示第i个RAP样本的RAP_id的增量,它按解码顺序早于DRAP样本,并且当从DRAP样本开始解码时需要参考才能正确解码DRAP样本和按解码顺序和输出顺序在DRAP样本之后的所有样本的。变量RefRapId[i],表示第i个RAP样本的RAP_id,推导如下,其中RAP_id为当前样本(即当前DRAP样本组的样本)的RAP_id:
在另一示例实现中,指定RAP样本的RAP样本标识符等于RAP样本的样本号,当前样本的RAP_Id为当前样本的样本号,变量RefRapId[i]表示第i个RAP样本的样本号。
在另一示例实现中,RAP_id字段(当存在于样本组描述中时)和ref_RAP_id[i]字段使用32比特进行编解码。
在另一示例实现中,更新了DRAP样本组。DRAP样本组的定义更新如下。 SampleToGroupBox或CompactSampleToGroupBox的grouping_type等于'drap'时,以下内容 适用。当SampleToGroupBox或CompactSampleToGroupBox的版本字段等于0,或者grouping_ type_parameter字段存在并且值为0时,如果DRAP样本之前最接近的初始样本可供参考,DRAP样本是按解码顺序和输出顺序在其后的所有sample都可以被正确解码的样本。当字段 grouping_type_parameter存在并且该值等于1时,如果DRAP样本之前最接近的初始样本和 按解码顺序早于DRAP样本的零个或多个其他标识的DRAP样本可供参考,则DRAP样本是按解 码顺序和输出顺序在其后的所有样本都可以被正确解码的样本。
初始样本是由同步样本或由SAP样本组标记为SAP类型1、2或3的SAP样本。例如,如果文件中的第32个样本是由I图片组成的初始样本,则第48个样本可能由P图片组成,并被标记为依赖随机访问点样本组的成员,从而表明通过首先解码第32个样本(忽略样本33-47)然后从第48个样本继续解码,可以在第48个样本处执行随机访问。DRAP样本只能与类型1、2和3的SAP样本结合使用。这是为了通过连接先前的SAP样本和按解码顺序早于DRAP样本 的零个或多个其他标识的DRAP样本与DRAP样本以及按输出顺序在DRAP样本之后的样本,来启用创建可解码的样本序列的功能。
当SampleToGroupBox或CompactSampleToGroupBox的版本字段等于0,或字段 grouping_type_parameter存在并且值等于0时,仅当以下条件成立时样本才能是依赖随机访问点样本组的成员(因此被称为DRAP样本)。DRAP样本仅参考最接近的先前初始样本。在解码由同步样本或SAP样本组标记为类型1、2或3的最接近的先前SAP样本后,在DRAP样本处开始解码时,可以正确解码DRAP样本和按解码顺序和输出顺序在DRAP样本之后的所有样本。
当字段grouping_type_parameter存在并且值等于1时,仅当以下条件成立时,样 本才能是DRAP样本组的成员(因此被称为DRAP样本)。DRAP样本仅参考最接近的先前初始样 本和按解码顺序早于DRAP样本的零个或多个其他标识的DRAP样本。在解码由同步样本或由 SAP样本组标记为类型1、2或3的最接近的先前SAP样本后并且在解码按解码顺序早于DRAP 样本的零个或多个其他标识的DRAP样本后,在DRAP样本处开始解码时,可以正确解码DRAP 样本和按解码顺序和输出顺序在DRAP样本之后的所有样本。
DRAP样本组中DRAP条目的语法更新如下:
DRAP样本组中DRAP条目的语义更新如下。DRAP_type是一个非负整数。当DRAP_type在1到3的范围内时,它指示DRAP样本将对应的SAP_type(如附件I中指定),如果它不依赖于最接近的先前SAP或其他DRAP样本。保留其他类型值。num_ref_rap_pics_minus1加1表 示初始样本或其他DRAP样本的数量,这些样本按解码顺序早于DRAP样本,并且从DRAP样本 处开始解码时,需要参考才能正确解码DRAP样本以及按解码顺序和输出顺序在DRAP样本之 后的所有样本。reserved应等于0。本子条款的语义仅适用于reserved等于0的样本组描述条目。解析器在解析该样本组时应允许和忽略reserved大于0的样本组描述条目。
ref_RAP_sn_delta[i]指示第i个RAP样本的样本号的增量,该样本按解码顺序早 于DRAP样本,并且从DRAP样本处开始解码时,需要参考才能正确解码DRAP样本和按解码顺 序和输出顺序在DRAP样本之后的所有样本。变量RefRapSn[i],表示第i个RAP样本的样本 号,推导如下,其中sample_number为当前样本(即当前DRAP样本组的样本)的样本号:
图1是在使用IRAP图片解码比特流时用于随机访问的示例机制的示意图。具体来说,图1图示了包括IRAP图片101和非IRAP图片103的比特流100。IRAP图片101是根据帧内预测编解码并且可以用作进入比特流100中的访问点的图片。帧内预测是这样的过程:通过参考同一图片中的其他块来对图片的块进行编解码。可以在不参考其他图片的情况下解码根据帧内预测编解码的图片。相反,非IRAP图片103是不能用作访问点并且可以在相关联的IRAP图片101被解码之后被解码的图片。例如,非IRAP图片103通常根据帧间预测来编解码。帧间预测是通过参考指定为参考图片的其他图片的块来对图片的块进行编解码的过程。基于帧间预测编解码的图片只有在该图片的所有参考图片也都被解码的情况下才能被正确解码。IRAP图片101和非IRAP图片103都可以被指定为其他非IRAP图片103的参考图片。
根据编解码技术,可以使用各种类型的IRAP图片101。在本示例中,IRAP图片101包括IDR图片和CRA图片。IDR图片是帧内编解码的图片,可用作编解码的视频序列中的第一个图片。CRA图片是允许使用相关联的前导图片(leading picture)的帧内编解码的图片。前导图片是按输出顺序在相关联的IRAP图片101之前但按解码顺序在IRAP图片101之后的图片。解码器可以在比特流100的开始处开始解码。然而,用户通常希望跳到比特流中的特定点并从所选择的点开始观看。用户可以选择作为解码起点的任何点都被称为随机访问点。
通常,任何IRAP图片101都可以用作随机访问点。一旦IRAP图片101被选择为随机访问点,所有相关联的非IRAP图片103(例如,在选择的IRAP图片101之后的)也可以被解码。在所示示例中,用户已选择CRA4用于随机访问。解码器可以在CRA4处开始解码,而无需解码CRA4之前的任何图片。这是因为IRAP图片之后的图片通常无法参考更早的IRAP图片。因此,一旦选择CRA4作为随机访问点,解码器可以解码CRA4用于显示,然后基于CRA4来解码CRA4之后的非IRAP图片103。这允许解码器开始呈现来自随机访问点(例如,CRA4)的比特流,而无需解码在随机访问点之前的图片。
图2是在使用DRAP图片解码比特流时用于随机访问的示例机制的示意图。具体来说,图2图示了包括IRAP图片201、非IRAP图片203和DRAP图片205的比特流200。IRAP图片201和非IRAP图片203可以分别基本上类似于IRAP图片101和非IRAP图片103。在本示例中,IDR图片被用作IRAP图片201。
还包括DRAP图片205。DRAP图片205是根据帧间预测编解码并且可以用作进入比特流200的访问点的图片。例如,每一个DRAP图片205可以参考IRAP图片201来编解码。图2包括指向根据帧间预测编解码的图片并来自相关联的参考图片的箭头。如图所示,每一个DRAP图片205通过参考IDR0被编解码。因此,只要解码器可以解码相关联的IRAP图片201,任何DRAP图片205都可以用作随机访问点。在所示示例中,DRAP4已被选择为随机访问点。解码器应该知道DRAP图片205在比特流200中使用并且知道(多个)IRAP图片201用作DRAP图片205的参考图片,例如经由信令。然后解码器可以解码IDR0以用于随机访问,并根据IDR0解码DRAP4。解码器然后可以基于DRAP4解码DRAP4之后的非IRAP图片203。解码器可以在DRAP4处开始呈现解码的视频。
根据帧间预测编解码的图片比根据帧内预测编解码的图片压缩得更多。因此,在比特流100中,DRAP图片205比IRAP图片101压缩得更多。因此,DRAP图片205的使用减少了相对于比特流100随时间信令通知比特流200的数据量(例如,比特率),代价是更复杂的信令机制和解码过程。
图3是在使用CRR图片解码比特流时用于随机访问的示例机制的示意图。具体来说,图3图示了包括IRAP图片301、非IRAP图片303和CRR图片305的比特流300。IRAP图片301和非I RAP图片303可以分别基本上类似于IRAP图片101和非IRAP图片103。CRR图片305是根据帧间预测编解码并且可以用作进入比特流300的访问点的图片。CRR图片305可以被认为是一种DRAP图片。虽然通过参考IRAP图片对DRAP图片进行编解码,但是可以通过参考IRAP图片301和任何其他CRR图片305来对CRR图片305进行编解码。因为CRR图片305是一种DRAP图片,所以CRR图片305也可以被称为EDRAP图片和/或类型2DRAP图片,并且这些术语可以互换使用。图3包括指向根据帧间预测编解码的图片并来自相关联的参考图片的箭头。
在所示示例中,所有CRR图片305通过参考表示为IDR0的IRAP图片301来编解码。此外,CRR3、CRR4、CRR5也通过参照CRR2进行编解码。因此,只要解码器可以解码相关联的IRAP图片301和用作参考图片的任何相关联的CRR图片305,任何CRR图片305都可以用作随机访问点。在所示示例中,已选择CRR4作为随机访问点。解码器应该知道CRR图片305在比特流300中使用并且知道(多个)IRAP图片301和用作其他CRR图片305的参考图片的CRR图片305,例如经由信令。然后,解码器可以解码IDR0和CRR2以用于随机访问,并基于IDR0和CRR2解码CRR4。解码器然后可以基于CRR4解码CRR4之后的非IRAP图片303。解码器可以在CRR4处开始呈现解码的视频。
帧间预测通过将图片中的块与(多个)参考图片中的相似参考块进行匹配来进行操作。然后,编码器可以对指向参考块的运动矢量进行编码,而不是对当前块进行编码。当前块和参考块之间的任何差都被编码为残差。当前块与参考块越接近,被编码的残差就越少。因此,当前块和参考块之间更好的匹配导致更少的编解码的数据和更好的压缩。CRR优于DRAP的好处是可以使用更多的图片,从而实现更好的匹配和更好的压缩。CRR优于DRAP的代价是增加了信令和解码的复杂性。
图4是用于信令通知外部比特流401以支持基于CRR的随机访问的示例机制的示意图。如上所示,管理CRR的参考图片比管理DRAP的参考图片更复杂。图4图示了包含用于由解码器解码的编码的视频的主比特流400。主比特流400基本上类似于比特流300,为了简单起见省略了参考。包括外部比特流401以支持随机访问。具体地,外部比特流401包括对应于每一个CRR图片的参考图片集。当发生随机访问时,编码器和/或视频服务器可以发送从访问点开始的主比特流400和与访问点相对应的外部比特流401的部分。例如,用户可以选择CRR3进行随机访问。然后解码器可以请求从CRR3处开始的主比特流400。编码器/视频服务器随后可以开始发送在CRR3处的主比特流400。编码器/视频服务器还可以发送对应于随机访问点的外部比特流401的部分。在此示例中,编码器/视频服务器将发送IDR0和CRR2。以此方式,解码器接收随机访问点处的CRR图片和解码该CRR图片所需的所有参考图片两者。然后解码器可以解码CRR3并从该点开始显示视频。为了减少数据传输,编码器/视频服务器可以仅发送解码随机访问点所需的外部比特流401的部分并且可以不发送进一步的数据,除非再次发生随机访问和/或除非随后的CRR图片使用当前随机访问点未提供的参考图片。
图5是示出当图片按解码顺序在DRAP和/或CRR图片之后并且按输出顺序在DRAP和/或CRR图片之前时的潜在解码错误的示意图500。与前面的图一样,箭头表示帧间预测,其中箭头指向帧间预测的图片并且箭头指向远离相关联的参考图片。
允许编码器重新排序图片以增加压缩。因此,图片应呈现给用户的顺序被称为输出顺序。图片被编解码到比特流中的顺序被称为解码顺序。图片可以通过图片顺序计数来标识。图片顺序计数可以是唯一标识图片的升序的任意值。在示意图500中,图片以解码顺序示出。同时,图片基于图片顺序计数进行编号,按输出顺序递增。从图片顺序计数可以看出,图片8已被移出输出顺序并排在图片10之后,图10是一个随机访问点。因此,图片8是帧间预测的图片503,其按输出顺序在随机访问点之前并且按解码顺序在随机访问点之后。在本示例中,图片10是DRAP/CRR图片505,其可以是DRAP图片或CRR/EDRAP/类型2DRAP图片,这取决于示例。在本示例中,帧间预测的图片503经由帧间预测通过参考507图片6进行编解码。因此,图片6是用于帧间预测图片503的参考图片502。
示意图500图示了潜在的编解码错误,因为帧间预测的图片503经由帧间预测参考507参考图片502。具体而言,帧间预测的图片503按解码顺序在DRAP/CRR图片505之后,按输出顺序在DRAP/CRR图片505之前,并且参考507按解码顺序位于DRAP/CRR图片505之前的参考图片502。当从作为IDR类型的IRAP图片的图片4解码比特流时,参考图片502被解码并保存在参考图片缓冲器中,因此帧间预测的图片503可以被正确解码。然而,当DRAP/CRR图片505用于随机访问时,参考图片502被跳过并且不被解码。因此,当帧间预测的图片503参考参考图片502时,帧间预测的图片503不能被正确解码。编码器具有不允许参考507的选项。例如,编码器可以限制所有帧间预测的图片503仅参考在相关联的随机访问点处的图片和按解码顺序在相关联的访问点之后的图片。如果不允许参考507,则帧间预测的图片503可以始终被解码,因为不允许帧间预测的图片503参考DRAP/CRR图片505之前的任何图片。然而,如果允许参考507,当编码器决定通过参考507参考图片502来编码帧间预测的图片503时,帧间预测的图片503不能被直接解码。应该注意,允许参考507并不总是导致错误,因为编码器不需要使用参考507。但是如果参考507是允许的,任何时候选择参考507,然后将DRAP/CRR图片505用于随机访问都会发生错误。从用户的角度来看,这可能会导致看似随机的错误,从而降低用户体验。
本公开包括解决该问题的若干机制。例如,编解码器可以信令通知解码器是否允许参考507。当允许参考507时,当DRAP/CRR图片505用于随机访问时,解码器不应显示按输出顺序在DRAP/CRR图片505之前并且按解码顺序在DRAP/CRR图片505之后的帧间预测的图片503,因为帧间预测的图片503可能是也可能不是可解码的(取决于编解码器是否选择使用参考507)。当不允许参考507时,当DRAP/CRR图片505用于随机访问时,解码器应该显示与DRAP/CRR图片505相关联的帧间预测的图片503。此外,DRAP和CRR信令机制未完全指定。因此,本公开包括信令通知媒体文件中DRAP和CRR使用的描述的机制,以便在解码器随机访问之后更有效地解码DRAP/CRR图片505和/或相关联的图片。
在另一示例中,可以约束编解码过程以防止出现参考507。例如,图片可以被分成层,并且每一个层可以与不同的帧速率相关联。这允许解码器选择具有解码器可以支持的帧速率的层。解码器然后显示所选择的层中的所有图片以及所选择的层以下层中的所有图片以达到期望的帧速率。当编码器要求在与DRAP/CRR图片505同一层中并且按解码顺序在DRAP/CRR图片505之后的任何图片(例如,帧间预测的图片503)应按输出顺序在在同一层中并且按解码顺序在DRAP/CRR图片505之前的任何图片之后,可以防止示意图500中所示的错误。
图6是存储在ISOBMFF中的媒体文件600的示意图。例如,媒体文件600可以存储在ISOBMFF中并用作DASH表示。ISOBMFF媒体文件600存储在多个框中,这些框携带与媒体内容或媒体呈现相关联的对象和/或数据。例如,媒体文件600可以包括文件类型框(例如ftyp)630、电影框(例如moov)610和媒体数据框(例如mdat)620。
文件类型框630可以携带描述整个文件的数据,因此可以携带文件级数据。因此,文件级框是包含与整个媒体文件600相关的数据的任何框。例如,文件类型框630可以包括指示ISO规范的版本号和/或媒体文件600的兼容性信息的文件类型。电影框610可以携带描述包含在媒体文件中的电影的数据,因此可以携带电影级数据。电影级框是包含描述媒体文件600中包含的整个电影的数据的任何框。电影框610可以包含范围广泛的子框,这些子框用于包含用于各种用途的数据。例如,电影框610包含轨道框(trak),其携带描述媒体呈现的轨道的元数据。应当注意,轨道可以被称为相关样本的时间序列。例如,媒体轨道可以包括图片或采样的音频的序列,而元数据轨道可以包括对应于图片和/或音频的元数据的序列。描述轨道的数据是轨道级数据,因此描述轨道的任何框都是轨道级框。
媒体数据框620包括媒体呈现的交错和按时间排序的媒体数据(例如,编解码的视频图片和/或音频)。例如,媒体数据框620可包括根据VVC、AVC、HEVC等编解码的视频数据的比特流。媒体数据框620可包括视频图片、音频、文本或其他用于显示给用户的媒体数据。在ISOBMFF中,图片、音频、文本统称为样本。这与视频编解码标准中使用的术语相反,后者指的是要作为样本进行编码/解码的像素。因此,取决于上下文,单词样本可以指整个图片(在文件格式级别)或一组像素(在比特流级别)。
如上所述,本公开提供附加机制以在文件格式级别信令通知DRAP和/或CRR使用。这允许解码器在实际解码包含在mdat框620中的样本的(多个)比特流之前通过在moov框610中加载参数来知道DRAP和/或CRR的使用。例如,moov框610可以包含DRAP样本组框625和/或EDRAP样本组框621。样本组框可以描述哪些样本是与该样本组框对应的类型。在一个示例中,DRAP和CRR两者都在DRAP样本组框625中进行了描述,例如通过将CRR视为DRAP的子类型。在另一示例中,分别地,CRR样本由EDRAP样本组框621描述并且DRAP样本由DRAP样本组框625描述。在示例中,DRAP样本组625可以包含DRAP样本条目627。然后每一个DRAP样本条目627可以描述已经根据DRAP编解码的相关联的样本。在示例中,EDRAP样本组621可以包含EDRAP样本条目623。然后每一个EDRAP样本条目623可以描述已经根据CRR/EDRAP/类型2DRAP编解码的相关联的样本。每一个DRAP/CRR样本的描述可以包括图片的样本标识符、包含相关联的(多个)参考图片的样本的标识符、样本和/或从图片执行随机访问所需的RAP样本的数量的指示和/或在选择和执行DRAP/CRR图片处的随机访问时对解码器有帮助的附加信息。
moov框610还可以包含范围广泛的其他框629。在一些示例中,DRAP/CRR样本的描述可以包括在其他框629中的一个或多个中。例如,其他框629可以包括样本到组框(SampleToGroupBox),并且DRAP和/或CRR样本可以在SampleToGroupBox中描述。在另一示例中,其他框629可以包括紧凑样本到组框(CompactSampleToGroupBox),并且DRAP和/或CRR样本可以在CompactSampleToGroupBox中描述。作为具体示例,DRAP和/或CRR样本可以在SampleToGroupBox和/或CompactSampleToGroupBox中的组类型参数(group_type_parameter)字段中描述。在另一示例中,其他框629可以包括子样本信息框并且DRAP和/或CRR样本可以在子样本信息框中被描述。在另一示例中,其他框629可以包括样本辅助信息大小框,并且可以在样本辅助信息大小框中描述DRAP和/或CRR样本。此外,本文描述的任何其他框也可以包括在其他框629中,并且可以包括对DRAP和/或CRR样本的描述。
图7是包含编码的视觉媒体数据的比特流700的示意图。比特流700包含已由编码器编解码/压缩以供解码器解码/解压缩的媒体数据。例如,比特流700可以被包括在ISOBMFF媒体文件600的媒体数据框620中。此外,比特流700可以被包括在DASH中的表示中。可以根据各种编解码格式对比特流700进行编解码,诸如VVC、AVC、EVC、HEVC等。在一些编解码格式中,比特流700被表示为一系列NAL单元。NAL单元是大小适合放置在数据分组中的数据单元。例如,VVC包含多种类型的NAL单元。比特流700可以包含包含视频数据的视频编解码层(VCL)NAL单元和包含描述VCL NAL单元、描述所采用的编解码工具、描述编解码约束等的数据的非VCL NAL单元。在示例中,比特流700可以包括在VCL NAL单元中编解码的图片710。图片710可以是IRAP图片、帧间预测的图片、DRAP图片、CRR图片等。非VCL NAL单元可以包含描述用于对图片710进行编解码的机制的各种消息和参数集。虽然许多VCL NAL单元是包括在VVC中,本公开集中于SEI NAL单元。例如,SEI NAL单元可以包括SEI消息。SEI NAL消息包含辅助与解码、显示或其他目的相关的过程的数据,但解码过程不需要该数据来确定解码的图片中的样本值。在示例中,SEI消息可以包括DRAP指示SEI消息716和/或类型2DRAP指示SEI消息717。DRAP指示SEI消息716是包含描述DRAP图片的使用的数据的SEI消息。类型2DRAP指示SEI消息717是包含描述CRR/EDRAP/类型2DRAP图片的使用的数据的SEI消息。DRAP指示SEI消息716和/或类型2DRAP指示SEI消息717可以与DRAP和/或CRR/EDRAP/类型2DRAP图片相关联,并且可以指示在解码期间应该如何处理这些图片。
在示例中,DRAP指示SEI消息716可以包含以下指示:按解码顺序在DRAP图片之后并且按输出顺序在DRAP图片之前的图片是否被允许参考按解码顺序位于DRAP图片之前的参考图片用于帧间预测。在示例中,DRAP指示SEI消息716可以包含以下指示:按解码顺序在CRR/EDRAP/类型2DRAP图片之后并且按输出顺序在DRAP图片之前的图片是否被允许参考按解码顺序位于DRAP图片之前的参考图片用于帧间预测。在示例中,类型2DRAP指示SEI消息717可以包含以下指示:按解码顺序在CRR/EDRAP/类型2DRAP图片之后并且按输出顺序在DRAP图片之前的图片是否被允许参考按解码顺序位于DRAP图片之前的参考图片用于帧间预测。因此,解码器可以读取DRAP指示SEI消息716和/或类型2DRAP指示SEI消息717,这取决于示例,并且确定当DRAP/CRR图片作为随机访问点时,按解码顺序在DRAP/CRR图片之后并且按输出顺序在DRAP/CRR图片之前的图片是否应该被呈现。
在特定示例中,DRAP指示SEI消息716可以与DRAP图片相关联并且类型2DRAP指示SEI消息717可以与CRR/EDRAP/类型2DRAP图片相关联。在又一示例中,类型2DRAP指示SEI消息717可以包含T2drap_reserved_zero_13bits字段701,并且来自T2drap_reserved_zero_13bits字段701的比特可以用于指示按解码顺序在CRR/EDRAP/类型2DRAP图片之后并且按输出顺序在DRAP图片之前的图片是否被允许参考按解码顺序位于DRAP图片之前的参考图片用于帧间预测。在另一个示例中,DRAP指示SEI消息716中的字段可以包含用于DRAP图片的类似指示。在其他示例中,DRAP指示SEI消息716和/或类型2DRAP指示SEI消息717中的多比特指示符可用于此目的。
在具体示例中,DRAP指示SEI消息716可以包括t2drap_rap_id_in_clvs_minus1字段703。t2drap_rap_id_in_clvs_minus1字段703包括标识相关联的CRR图片的RapPicId。包含在t2drap_rap_id_in_clvs_minus1字段703中的RapPicId是一个非零的正值。此外,RapPicId对于参考公共IRAP图片的每一个CRR图片都是不同的。这确保每一个CRR图片都被唯一标识。但是,RapPicId可以在参考不同IRAP图片的视频中的不同时间段之间重复使用。
图8是示出其中可以实现本文公开的各种技术的示例视频处理系统800的框图。各种实施方式可以包括系统800的一些或所有组件。系统800可以包括用于接收视频内容的输入802。视频内容可以以原始或未压缩格式接收,例如8比特或10比特多分量像素值,或者可以是压缩的或编码的格式。输入802可以表示网络接口、外围总线接口或存储接口。网络接口的示例包括诸如以太网、无源光网络(PON)等的有线接口和诸如Wi-Fi或蜂窝接口的无线接口。
系统800可以包括编解码组件804,其可以实现在本文档中描述的各种编解码或编码方法。编解码组件804可以降低从输入802到编解码组件804的输出的视频的平均比特率以产生视频的编解码表示。因此,编解码技术有时被称为视频压缩或视频转码技术。编解码组件804的输出可以被存储,也可以经由连接的通信被发送,如组件806所示。在输入802处接收的视频的存储或传输的比特流(或编解码的)表示可以由组件808使用用于生成发送到显示接口810的像素值或可显示视频。从比特流表示生成用户可观看视频的过程有时被称为视频解压缩。此外,虽然某些视频处理操作被称为“编解码”操作或工具,但应当理解,编解码工具或操作在编码器处使用,并且反转编解码结果的对应解码工具或操作将由解码器执行。
外围总线接口或显示接口的示例可以包括通用串行总线(USB)或高清多媒体接口(HDMI)或显示端口等。存储接口的示例包括SATA(串行高级技术附件)、PCI、IDE接口等。本文档中描述的技术可以体现在能够执行数字数据处理和/或视频显示的各种电子设备中,诸如移动电话、笔记本电脑、智能手机或其他设备。
图9是示例视频处理装置900的框图。装置900可以用于实现本文描述的一种或多种方法。装置900可以体现在智能手机、平板电脑、计算机、物联网(IoT)接收器等中。装置900可以包括一个或多个处理器902、一个或多个存储器904和视频处理硬件906。(多个)处理器902可以被配置为实施本文档中描述的一种或多种方法。存储器(多个存储器)904可以用于存储用于实现本文描述的方法和技术的数据和代码。视频处理硬件906可以用于在硬件电路中实现本文档中描述的一些技术。在一些实施例中,视频处理硬件906可以至少部分地包括在处理器902中,例如图形协处理器。
图10是视频处理的示例方法1000的流程图。方法1000包括在步骤1002处确定(例如,信令通知)用于一个或多个CRR图片的一个或多个RAP图片标识符。在步骤1004处,基于RAP图片标识符在视觉媒体数据和比特流之间执行转换。RAP图片标识符可各自编解码在t2drap_rap_id_in_clvs_minus1字段中,例如在诸如类型2DRAP SEI消息的SEI消息中。在示例中,RAP图片标识符的每一个可以由t2drap_rap_id_in_clvs_minus1字段的值加一来指定。用于CRR图片中的每一个CRR图片的RAP图片标识符可以被设置为大于零的值。CRR图片中的每一个都与IRAP图片相关联。IRAP图片可与为零的RAP图片标识符相关联。在示例中,IRAP图片的RAP图片标识符可以被推断为零并且可以不被信令通知。对于与同一IRAP图片相关联的CRR图片中的每一个,RAP图片标识符都是不同的。这允许RAP图片标识符唯一地标识CRR图片,同时允许RAP图片标识符在采用不同IRAP图片的同一视频的不同时段中重复使用。RAP图片标识符可以表示为RapPicIds。RapPicIds可用于指示特定的CRR图片。例如,RapPicId可以指示哪个CRR图片与SEI消息相关联。此外,RapPicId可以指示哪个CRR图片被用作当前CRR图片的参考图片。
在一些示例中,类型2DRAP SEI消息中的其他语法元素仅在类型2DRAP SEI消息中的RAP图片标识符大于零时被信令通知。此外,在一些示例中,CRR图片可以被表示为类型2DRAP图片和/或EDRAP图片。此外,在一些示例中,类型2DRAP SEI消息包括以下指示:按解码顺序在CRR图片之后并且按输出顺序在CRR图片之前的图片是否被允许参考按解码顺序位于CRR图片之前的参考图片用于帧间预测。该指示还可以指示当参考图片与图片处于同一层时该图片是否被允许参考参考图片。在一些示例中,该指示是一比特标志,诸如t2drap_reserved_zero_13bits字段中的一比特。在一些示例中,比特流被约束使得与CRR图片在同一层中并且按解码顺序在CRR图片之后的任何图片应当按输出顺序在在同一层中并且按解码顺序在CRR图片之前的任何图片之后。
图11是图示可利用本公开的技术的示例视频编解码系统1100的框图。如图11所示,视频编解码系统1100可以包括源设备1110和目的地设备1120。源设备1110生成编码的视频数据,其可以被称为视频编解码设备。目的地设备1120可对由源设备1110产生的编码的视频数据进行解码,其可被称为视频解码设备。
源设备1110可以包括视频源1112、视频编码器1114和输入/输出(I/O)接口1116。视频源1112可以包括诸如视频捕获设备、用于从视频内容提供商接收视频数据的接口,和/或用于生成视频数据的计算机图形系统之类的源,或这些源的组合。视频数据可以包括一个多个图片。视频编码器1114对来自视频源1112的视频数据进行编码以生成比特流。比特流可以包括形成视频数据的编解码的表示的比特序列。比特流可以包括编解码的图片和相关联的数据。编解码的图片是图片的编解码的表示。相关联的数据可以包括序列参数集、图片参数集和其他语法结构。I/O接口1116可以包括调制器/解调器(调制解调器)和/或发送器。编码的视频数据可经由I/O接口1116通过网络1130直接发送到目的地设备1120。编码的视频数据还可存储到存储介质/服务器1140上以供目的地设备1120访问。
目的地设备1120可以包括I/O接口1126、视频解码器1124和显示设备1122。I/O接口1126可以包括接收器和/或调制解调器。I/O接口1126可以从源设备1110或存储介质/服务器1140获取编码的视频数据。视频解码器1124可以解码编码的视频数据。显示设备1122可以向用户显示解码的视频数据。显示设备1122可以与目的地设备1120集成,或者可以在目的地设备1120的外部,目的地设备1120可以被配置为与外部显示设备接口。
视频编码器1114和视频解码器1124可以根据视频压缩标准操作,诸如高效视频编解码(HEVC)标准、多功能视频编解码(VVC)标准和其他当前和/或进一步的标准。
图12是图示视频编码器1200(其可为图11中图示的系统1100中的视频编码器1114)的示例的框图。视频编码器1200可以被配置为执行本公开的任何或所有技术。在图12的示例中,视频编码器1200包括多个功能组件。本公开中描述的技术可在视频编码器1200的各种组件之间共享。在一些示例中,处理器可以被配置为执行本公开中描述的任何或所有技术。
视频编码器1200的功能组件可以包括分割单元1201、可以包括模式选择单元1203的预测单元1202、运动估计单元1204、运动补偿单元1205、帧内预测单元1206、残差生成单元1207、变换处理单元1208、量化单元1209、逆量化单元1210、逆变换单元1211、重构单元1212、缓冲器1213和熵编码单元1214。
在其他示例中,视频编码器1200可以包括更多、更少或不同的功能组件。在示例中,预测单元1202可以包括帧内块复制(IBC)单元。IBC单元可以以至少一个参考图片为当前视频块所在的图片的IBC模式执行预测。
此外,一些组件,诸如运动估计单元1204和运动补偿单元1205可以是高度集成的,但是在图12的示例中用于解释的目的被单独表示。
分割单元1201可将图片分割成一个或多个视频块。视频编码器1200和视频解码器1300可以支持各种视频块大小。
模式选择单元1203可以例如基于误差结果选择帧内或帧间编解码模式之一,并将得到的帧内或帧间编解码的块提供给残差生成单元1207以生成残差块数据,并提供给重构单元1212以重构编码的块以用作参考图片。在一些示例中,模式选择单元1203可选择组合帧内和帧间预测(CIIP)模式,其中预测基于帧间预测信号和帧内预测信号。在帧间预测的情况下,模式选择单元1203还可以为块选择运动矢量的分辨率(例如,子像素或整数像素精度)。
为了对当前视频块执行帧间预测,运动估计单元1204可以通过将来自缓冲器1213的一个或多个参考帧与当前视频块进行比较来生成当前视频块的运动信息。运动补偿单元1205可基于运动信息和来自缓冲器1213的图片的解码的样本而不是与当前视频块相关联的图片来确定当前视频块的预测的视频块。
运动估计单元1204和运动补偿单元1205可以对当前视频块执行不同的操作,例如,取决于当前视频块是在I条带、P条带还是B条带中。
在一些示例中,运动估计单元1204可为当前视频块执行单向预测,并且运动估计单元1204可为当前视频块的参考视频块搜索列表0或列表1的参考图片。运动估计单元1204可接着生成指示列表0或列表1中包含参考视频块的参考图片的参考索引和运动矢量,运动矢量指示当前视频块与参考视频块之间的空间位移。运动估计单元1204可输出参考索引、预测方向指示符和运动矢量作为当前视频块的运动信息。运动补偿单元1205可以基于由当前视频块的运动信息指示的参考视频块来生成当前块的预测的视频块。
在其他示例中,运动估计单元1204可以对当前视频块执行双向预测,运动估计单元1204可以为当前视频块的参考视频块搜索列表0中的参考图片并且还可以为当前视频块的另一参考视频块搜索列表1中的参考图片。运动估计单元1204可接着生成指示列表0和列表1中包含参考视频块的参考图片的参考索引和运动矢量,运动矢量指示参考视频块与当前视频块之间的空间位移。运动估计单元1204可以输出当前视频块的参考索引和运动矢量作为当前视频块的运动信息。运动补偿单元1205可以基于由当前视频块的运动信息指示的参考视频块来生成当前视频块的预测的视频块。
在一些示例中,运动估计单元1204可以输出用于解码器的解码处理的全套运动信息。在一些示例中,运动估计单元1204可能不输出对于当前视频的全套运动信息。相反,运动估计单元1204可以参考另一视频块的运动信息来信令通知当前视频块的运动信息。举例来说,运动估计单元1204可确定当前视频块的运动信息与相邻视频块的运动信息足够相似。
在一个示例中,运动估计单元1204可在与当前视频块相关联的语法结构中指示向图13的视频解码器1300指示当前视频块具有与另一视频块相同的运动信息的值。
在另一示例中,运动估计单元1204可在与当前视频块相关联的语法结构中标识另一视频块和运动矢量差(MVD)。运动矢量差指示当前视频块的运动矢量与指示的视频块的运动矢量之间的差。视频解码器1300可以使用指示的视频块的运动矢量和运动矢量差来确定当前视频块的运动矢量。
如上所述,视频编码器1200可以预测性地信令通知运动矢量。可由视频编码器1200实施的预测性信令技术的两个示例包括高级运动矢量预测(AMVP)和merge模式信令。
帧内预测单元1206可对当前视频块执行帧内预测。当帧内预测单元1206对当前视频块执行帧内预测时,帧内预测单元1206可以基于同一图片中的其他视频块的解码的样本生成当前视频块的预测数据。当前视频块的预测数据可包括预测的视频块和各种语法元素。
残差生成单元1207可以通过从当前视频块减去当前视频块的(多个)预测的视频块来生成当前视频块的残差数据。当前视频块的残差数据可以包括对应于当前视频块中样本的不同样本分量的残差视频块。
在其他示例中,对于当前视频块,例如在跳过模式中,可能不存在当前视频块的残差数据,并且残差生成单元1207可以不执行减法操作。
变换处理单元1208可通过将一个或多个变换应用到与当前视频块相关联的残差视频块来为当前视频块生成一个或多个变换系数视频块。
在变换处理单元1208生成与当前视频块相关联的变换系数视频块之后,量化单元1209可以基于与当前视频相关联的一个或多个量化参数(QP)值来量化与当前视频块相关联的变换系数视频块。
逆量化单元1210和逆变换单元1211可以分别对变换系数视频块应用逆量化和逆变换,以从变换系数视频块重构残差视频块。重构单元1212可将重构的残差视频块添加到来自由预测单元1202生成的一个或多个预测的视频块的对应样本以产生与当前块相关联的重构视频块用于存储在缓冲器1213中。
在重构单元1212重构视频块之后,可以执行环路滤波操作以减少视频块中的视频块伪影。
熵编码单元1214可以从视频编码器1200的其他功能组件接收数据。当熵编码单元1214接收数据时,熵编码单元1214可以执行一个或多个熵编码操作以生成熵编码的数据并输出包括熵编码的数据的比特流。
图13是图示可以是图11中图示的系统1100中的视频解码器1124的视频解码器1300的示例的框图。
视频解码器1300可以被配置为执行本公开的任何或所有技术。在图13的示例中,视频解码器1300包括多个功能组件。本公开中描述的技术可在视频解码器1300的各种组件之间共享。在一些示例中,处理器可以被配置为执行本公开中描述的任何或所有技术。
在图13的示例中,视频解码器1300包括熵解码单元1301、运动补偿单元1302、帧内预测单元1303、逆量化单元1304、逆变换单元1305、重构单元1306和缓冲器1307。视频解码器1300可以在一些示例中,执行与关于视频编码器1200(图12)描述的编码遍次大致相反的解码过程。
熵解码单元1301可以检索编码的比特流。编码的比特流可以包括熵编解码的视频数据(例如,视频数据的编码的块)。熵解码单元1301可解码熵编解码的视频数据,并且运动补偿单元1302可从熵解码的视频数据确定包括运动矢量、运动矢量精度、参考图片列表索引和其它运动信息的运动信息。运动补偿单元1302例如可以通过执行AMVP和merge模式来确定这样的信息。
运动补偿单元1302可以产生运动补偿块,可能基于插值滤波器执行插值。用于以子像素精度使用的插值滤波器的标识符可以包括在语法元素中。
运动补偿单元1302可以如视频编码器1200在视频块的编码期间所使用的那样使用插值滤波器来计算参考块的子整数像素的插值。运动补偿单元1302可根据接收的语法信息确定视频编码器1200使用的插值滤波器并使用插值滤波器产生可预测的块。
运动补偿单元1302可以使用语法信息中的一些来确定用于对编码的视频序列的(多个)帧和/或(多个)条带进行编码的块的大小、描述编码的视频序列的图片的每一个宏块如何被分割的分割信息、指示每一个分割如何被编码的模式、对于每一个帧间编解码的块的一个或多个参考帧(和参考帧列表)、以及解码编码的视频序列的其他信息。
帧内预测单元1303可以使用例如在比特流中接收的帧内预测模式来从空间上相邻的块形成预测块。逆量化单元1304对在比特流中提供并由熵解码单元1301解码的量化的视频块系数进行逆量化,即去量化。逆变换单元1305应用逆变换。
重构单元1306可将残差块与由运动补偿单元1302或帧内预测单元1303生成的对应预测块相加以形成解码的块。如果需要,还可以应用去块滤波器来对解码的块进行滤波以去除块效应伪像。解码的视频块随后被存储在缓冲器1307中,缓冲器1307为随后的运动补偿/帧内预测提供参考块并且还产生解码的视频以用于在显示设备上呈现。
图14是示例编码器1400的示意图。编码器1400适用于实现VVC技术。编码器1400包括三个环内滤波器,即去块滤波器(DF)1402、样本自适应偏移(SAO)1404和自适应环路滤波器(ALF)1406。与使用预定义的滤波器的DF 1402不同,SAO 1404和ALF 1406利用当前图片的原始样本,通过编解码的边信息信令通知偏移量和滤波器系数,分别通过添加偏移量和应用有限脉冲响应(FIR)滤波器来减少原始样本和重构的样本之间的均方误差。ALF 1406位于每一个图片的最后处理阶段,可以被看作是一种试图捕捉和修复前几个阶段产生的伪影的工具。
编码器1400还包括被配置为接收输入视频的帧内预测组件1408和运动估计/补偿(ME/MC)组件1410。帧内预测组件1408被配置为执行帧内预测,而ME/MC组件1410被配置为利用从参考图片缓冲器1412获得的参考图片来执行帧间预测。来自帧间预测或帧内预测的残差块被馈送到变换(T)组件1414和量化(Q)组件1416以生成量化的残差变换系数,这些系数被馈送到熵编解码组件1418。熵编解码组件1418熵编解码预测结果和量化的变换系数并将其发送到视频解码器(未示出)。来自量化组件1416的量化组件输出可以被馈送到逆量化(IQ)组件1420、逆变换组件1422和重构(REC)组件1424。REC组件1424能够将图像输出到DF1402,SAO 1404和ALF 1406用于在将这些图像存储在参考图片缓冲器1412之前进行滤波。
接下来提供了一些示例首选的解决方案列表。
以下解决方案显示了本文讨论的技术的示例。
1.一种视觉媒体处理方法(例如,图10中描绘的方法1000),包括执行(1004)包括图片的视频与视频的比特流之间的转换,其中图片在比特流中被编解码为依赖随机访问点(DRAP)图片;其中比特流符合格式规则;其中,格式规则指定语法元素是否被包括在补充增强信息(SEI)消息中,所述SEI消息指示与DRAP图片在同一层中按解码顺序在DRAP图片之后并且按输出顺序在DRAP图片之前的一个或多个图片是否参考同一层中的图片用于帧间预测,其中所述图片按解码顺序早于DRAP图片。
2.根据解决方案1所述的方法,其中,SEI消息是DRAP指示SEI消息。
3.根据解决方案1所述的方法,其中,SEI消息不同于包括在比特流中的DRAP指示SEI消息。
4.根据解决方案2-3中任一项所述的方法,其中,格式规则指定SEI消息的存在指示与DRAP图片在同一层中按解码顺序在DRAP图片之后并且按输出顺序在DRAP图片之前的一个或多个图片被允许参考在同一层中的图片用于帧间预测,其中所述图片按解码顺序早于DRAP图片。
5.根据解决方案2-3中任一项所述的方法,其中,格式规则指定SEI消息的存在指示与DRAP图片在同一层中按解码顺序在DRAP图片之后并且按输出顺序在DRAP图片之前的一个或多个图片不被允许参考在同一层中的图片,其中所述图片按解码顺序早于DRAP图片。
6.根据解决方案1-5中任一项所述的方法,其中,语法元素包括一比特标志。
以下解决方案显示了上一节中讨论的技术的示例实施例。
7.一种视频处理方法,包括:执行包含一个或多个图片的视频与所述视频的比特流之间的转换;其中,比特流包括类型2依赖随机访问点(DRAP)图片;其中比特流符合格式规则;其中,格式规则指定在比特流中包括特定类型的依赖随机访问点(DRAP)指示语法消息,以指示在层中并且按解码顺序在类型2DRAP图片之后但是按输出顺序在类型2DRAP图片之前的图片是否被允许参考在所述层中并且按解码顺序早于类型2DRAP图片的图片用于帧间预测。
8.根据解决方案7所述的方法,其中,特定类型的DRAP指示语法消息对应于类型2DRAP指示语法消息。
9.根据解决方案7所述的方法,其中,特定类型的DRAP指示语法消息对应于DRAP指示语法消息。
10.根据解决方案7-9中任一项所述的方法,其中,语法元素包括一比特标志。
以下解决方案显示了上一节中讨论的技术的示例实施例。
11.一种视频处理方法,包括:执行视频与所述视频的比特流之间的转换;其中比特流符合指定是否以及如何在存储比特流的文件格式中信令通知交叉随机访问点参考(CRR)的格式规则。
12.根据解决方案11所述的方法,其中,格式规则定义指示CRR的样本组。
13.根据解决方案11所述的方法,其中,格式规则定义依赖随机访问点(DRAP)样本组包括CRR。
14.根据解决方案13所述的方法,其中,信令通知CRR的DRAP样本组包括版本字段或grouping_type_parameter字段以便信令通知CRR。
以下解决方案显示了上一节中讨论的技术的示例实施例。
15.一种视频处理方法,包括:执行视频和所述视频的比特流之间的转换;其中比特流符合格式规则,所述格式规则指定当比特流包括依赖随机访问点(DRAP)图片时,指示用于从DRAP样本组的成员随机访问所需的随机访问点(RAP)样本的数量的字段被包括在DRAP样本条目中。
16.根据解决方案15所述的方法,其中,格式规则还指定包括指示DRAP样本组的成员的RAP标识符的另一字段。
以下解决方案显示了上一节中讨论的技术的示例实施例。
17.根据解决方案1-16中任一项所述的方法,其中,依赖随机访问点(DRAP)样本是在DRAP样本之前最接近的初始样本可供参考的情况下,按解码顺序和输出顺序在其后的所有样本都可以被正确解码的样本。
18.根据解决方案1-17中任一项所述的方法,还包括将比特流存储在符合文件格式的文件中。
19.根据解决方案1-17中任一项所述的方法,其中,从符合文件格式的文件中读出比特流。
20.根据解决方案18-19中任一项所述的方法,其中,文件格式是国际标准组织基本媒体文件格式(ISOBMFF)。
21.一种视频解码装置,包括被配置为实现解决方案1至20中的一个或多个中所述的方法的处理器。
22.一种视频编码装置,包括被配置为实现解决方案1至20中的一个或多个中所述的方法的处理器。
23.一种其上存储有计算机代码的计算机程序产品,所述代码在由处理器执行时使处理器实现解决方案1至20中的任一项中所述的方法。
24.一种计算机可读介质,其上的比特流符合根据解决方案1至20中任一项生成的比特流格式。
25.一种方法,包括根据解决方案1至20中任一项所述的方法生成比特流,并将所述比特流写入计算机可读介质。
26.本文件中描述的方法、装置或系统。
在本文描述的解决方案中,编码器可以通过根据格式规则产生编解码的表示来符合格式规则。在本文描述的解决方案中,解码器可以通过根据格式规则了解语法元素的存在和不存在来使用所述格式规则解析编解码的表示中的语法元素,以产生解码的视频。
在本文件中,术语“视频处理”可以指代视频编码、视频解码、视频压缩或视频解压缩。例如,可以在从视频的像素表示到对应的比特流表示的转换期间应用视频压缩算法,反之亦然。当前视频块的比特流表示可以例如对应于在比特流内位于同一位置或散布在不同位置的比特,如语法所定义的。例如,宏块可以根据变换的和编解码的误差残差值并且也可以使用标头中的比特和比特流中的其他字段来被编码。此外,在转换期间,解码器可以基于确定在知道一些字段可能存在或不存在的情况下解析比特流,如以上解决方案中所描述的。类似地,编码器可以确定某些语法字段被包括或不被包括并且相应地通过从编解码的表示中包括或排除语法字段来生成编解码的表示。
本文档中描述的公开的和其他解决方案、示例、实施例、模块和功能操作可以以包括本文档中公开的结构及其结构等同物,或它们中的一个或多个的组合的数字电子电路或计算机软件、固件或硬件实现。所公开的和其他实施例可以实现为一个或多个计算机程序产品,即编码在计算机可读介质上的一个或多个计算机程序指令模块,用于由数据处理装置执行或控制数据处理装置的操作。计算机可读介质可以是机器可读存储设备、机器可读存储基底、存储设备、影响机器可读传播信号的物质组合物,或者它们中的一个或多个的组合。术语“数据处理装置”包括用于处理数据的所有装置、设备和机器,包括例如可编程处理器、计算机或多个处理器或计算机。除了硬件之外,该装置还可以包括为所讨论的计算机程序创建执行环境的代码,例如构成处理器固件、协议栈、数据库管理系统、操作系统,或者它们中的一个或多个的组合的代码。传播的信号是人工生成的信号,例如机器生成的电、光或电磁信号,其被生成以对信息进行编码以便传输到合适的接收器装置。
计算机程序(也称为程序、软件、软件应用程序、脚本或代码)可以用任何形式的编程语言编写,包括编译或解释语言,并且可以以任何形式部署,包括作为一个独立的单独的程序或作为模块、组件、子例程或其他适合在计算环境中使用的单元。计算机程序不一定对应于文件系统中的文件。程序可以存储在包含其他程序或数据的文件的一部分中(例如,存储在标记语言文档中的一个或多个脚本)、专用于所讨论程序的单个文件或多个协调文件(例如,存储一个或多个模块、子程序或部分代码的文件)。计算机程序可以部署在一台计算机或位于一个站点或分布在多个站点并通过通信网络互连的多台计算机上以便被执行。
本文档中描述的过程和逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程处理器执行,以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路执行,并且装置也可以实现为专用逻辑电路,例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。
适用于执行计算机程序的处理器包括,例如,通用和专用微处理器,以及任何类型的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本要素是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括或可操作地耦合到一个或多个用于存储数据的大容量存储设备(例如,磁盘、磁光盘或光盘)以从中接收数据或向其传输数据或两者兼而有之。然而,计算机不需要有这样的设备。适用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储设备,例如包括半导体存储设备、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器存储器(EEPROM)和闪存设备;磁盘,例如内部硬盘或可移动磁盘;磁光盘;光盘只读存储器(CD ROM)和数字通用光盘只读存储器(DVD-ROM)磁盘。处理器和存储器可以由专用逻辑电路补充或合并到专用逻辑电路中。
尽管本专利文件包含许多细节,但这些细节不应被解释为对任何主题或可能要求保护的范围的限制,而是对可能特定于特定技术的特定实施例的特征的描述。本专利文件中在单独实施例的上下文中描述的某些特征也可以在单个实施例中组合实施。相反,在单个实施例的上下文中描述的各种特征也可以在多个实施例中单独地或以任何合适的子组合来实现。此外,尽管特征可能在上面被描述为在某些组合中起作用,甚至最初也如此声明,但在某些情况下,从要求保护的组合中的一个或多个特征可以被从组合中删除,并且要求保护的组合可以针对子组合或变体的子组合。
类似地,虽然在附图中以特定顺序描绘操作,但这不应理解为要求以所示的特定顺序或按顺序执行此类操作,或者执行所有图示的操作以获得期望的结果。并且,本专利文件中描述的实施例中各个系统组件的分离不应理解为所有实施例都需要这样的分离。
仅描述了一些实施方式和示例,并且可以基于本专利文件中描述和图示的内容进行其他实施方式、增强和变化。
当除了第一组件和第二组件之间的线、迹线或其他介质之外没有中间组件时,第一组件直接耦合到第二组件。当第一组件和第二组件之间存在除线、迹线或其他介质之外的中间组件时,第一组件间接耦合到第二组件。术语“耦合”及其变体包括直接耦合和间接耦合。除非另有说明,否则术语“大约”的使用是指包括后续数字的±10%的范围。
尽管在本公开中已经提供了几个实施例,但是应当理解,在不脱离本公开的精神或范围的情况下,所公开的系统和方法可以以许多其他具体形式来体现。目前的示例被认为是说明性的而不是限制性的,并且意图不限于本文给出的细节。例如,各种元素或组件可以被组合或集成在另一个系统中,或者可以省略或不实现某些特征。
此外,在不脱离本公开的范围的情况下,在各种实施例中描述和图示为分立或分离的技术、系统、子系统和方法可以与其他系统、模块、技术或方法组合或集成。显示或讨论为耦合的其他项目可以直接连接或可以间接耦合或通过一些接口、设备或中间部件通信,无论是电的、机械的还是其他方式。其他变化、替代和改变的示例是本领域技术人员可以确定的,并且可以在不脱离本文公开的精神和范围的情况下进行。

Claims (22)

1.一种用于处理视频数据的方法,包括:
确定用于一个或多个交叉随机访问图片(RAP)参考(CRR)图片的一个或多个随机访问图片(RAP)图片标识符;以及
基于所述一个或多个RAP图片标识符来执行视觉媒体数据和比特流之间的转换。
2.根据权利要求1所述的方法,其中,所述一个或多个RAP图片标识符各自被编解码在编解码层视频序列减一(t2drap_rap_id_in_clvs_minus1)字段中。
3.根据权利要求1-2中任一项所述的方法,其中,所述一个或多个RAP图片标识符各自被包括在类型2依赖随机访问点(DRAP)补充增强信息(SEI)消息中。
4.根据权利要求1-3中任一项所述的方法,其中,所述一个或多个RAP图片标识符中的每一个由所述t2drap_rap_id_in_clvs_minus1字段的值加一来指定。
5.根据权利要求1-4中任一项所述的方法,其中,用于所述CRR图片中的每一个的所述一个或多个RAP图片标识符被设置为大于零的值。
6.根据权利要求1-5中任一项所述的方法,其中,所述CRR图片中的每一个与帧内随机访问点(IRAP)图片相关联,并且其中,所述IRAP图片与为零的RAP图片标识符相关联。
7.根据权利要求1-6中任一项所述的方法,其中,所述IRAP图片的RAP图片标识符被推断为零并且不被信令通知。
8.根据权利要求1-7中任一项所述的方法,其中,对于与同一IRAP图片相关联的所述CRR图片中的每一个,所述一个或多个RAP图片标识符是不同的。
9.根据权利要求1-8中任一项所述的方法,其中,所述一个或多个RAP图片标识符被表示为RapPicId。
10.根据权利要求1-9中任一项所述的方法,其中,仅当类型2DRAP SEI消息中的RAP图片标识符大于零时才信令通知所述类型2DRAP SEI消息中的其他语法元素。
11.根据权利要求1-10中任一项所述的方法,其中,所述CRR图片被表示为类型2DRAP图片。
12.根据权利要求1-10中任一项所述的方法,其中,所述CRR图片被表示为增强型依赖随机访问点(EDRAP)图片。
13.根据权利要求1-12中任一项所述的方法,其中,所述一个或多个RAP图片标识符各自被包括在补充增强信息(SEI)消息中。
14.根据权利要求1-13中任一项所述的方法,其中,所述比特流被约束使得与CRR图片在同一层中并且按解码顺序在所述CRR图片之后的任何图片应当按输出顺序在在所述同一层中并且按解码顺序在所述CRR图片之前的任何图片之后。
15.根据权利要求1-14中任一项所述的方法,其中,所述类型2DRAP SEI消息包括按解码顺序在CRR图片之后并且按输出顺序在所述CRR图片之前的图片是否被允许参考按解码顺序位于所述CRR图片之前的参考图片用于帧间预测的指示。
16.根据权利要求1-15中任一项所述的方法,其中,所述指示还指示当所述参考图片与所述图片处于同一层时所述图片是否被允许参考所述参考图片。
17.根据权利要求1-16中任一项所述的方法,其中,所述指示是一比特标志。
18.根据权利要求1-17中任一项所述的方法,其中,所述指示是t2drap_reserved_zero_13bits字段中的比特。
19.根据权利要求1-18中任一项所述的方法,其中,所述转换包括根据所述视觉媒体数据生成所述比特流。
20.根据权利要求1-18中任一项所述的方法,其中,所述转换包括解析所述比特流以获得所述视觉媒体数据。
21.一种用于处理视频数据的装置,包括处理器和其上具有指令的非暂时性存储器,其中,所述指令在由所述处理器执行时使得所述处理器执行权利要求1-20中任一项的所述方法。
22.一种非暂时性计算机可读介质,包括供视频编解码设备使用的计算机程序产品,所述计算机程序产品包括存储在非暂时性计算机可读介质上的计算机可执行指令,使得当所述计算机可执行指令由处理器执行时使所述视频编解码设备执行权利要求1-20中任一项的所述方法。
CN202180089588.0A 2021-01-06 2021-12-28 交叉随机访问点信令增强 Pending CN116830573A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CNPCT/CN2021/070400 2021-01-06
CN2021070400 2021-01-06
PCT/CN2021/141942 WO2022148269A1 (en) 2021-01-06 2021-12-28 Cross random access point signaling enhancements

Publications (1)

Publication Number Publication Date
CN116830573A true CN116830573A (zh) 2023-09-29

Family

ID=82357570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180089588.0A Pending CN116830573A (zh) 2021-01-06 2021-12-28 交叉随机访问点信令增强

Country Status (6)

Country Link
US (1) US20230353748A1 (zh)
EP (1) EP4256783A1 (zh)
JP (1) JP2024501685A (zh)
KR (1) KR20230129008A (zh)
CN (1) CN116830573A (zh)
WO (1) WO2022148269A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11770498B2 (en) 2020-09-29 2023-09-26 Lemon Inc. Supplemental enhancement information for multi-layer video streams
WO2024053954A1 (ko) * 2022-09-05 2024-03-14 엘지전자 주식회사 종속 랜덤 액세스 포인트 픽처에 기반한 영상 부호화/복호화 방법, 장치 및 비트스트림 전송 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10063861B2 (en) * 2015-10-07 2018-08-28 Qualcomm Incorporated Methods and systems of performing predictive random access using a background picture

Also Published As

Publication number Publication date
US20230353748A1 (en) 2023-11-02
JP2024501685A (ja) 2024-01-15
KR20230129008A (ko) 2023-09-05
EP4256783A1 (en) 2023-10-11
WO2022148269A1 (en) 2022-07-14

Similar Documents

Publication Publication Date Title
JP7433280B2 (ja) ビデオストリームにおける従属ランダムアクセスポイント指示
JP7222043B2 (ja) ビデオコーディングにおけるデコード機能情報のストレージ
US20230353748A1 (en) Cross Random Access Point Signaling Enhancements
US11611752B2 (en) Adaptation parameter set storage in video coding
US20230345025A1 (en) Video Decoder Initialization Information Constraints
CN114760476B (zh) 视频解码器初始化信息信令
WO2022143614A1 (en) Cross random access point signaling in video coding
US20230262239A1 (en) Decoder configuration information in vvc video coding
WO2024072750A1 (en) Enhanced signalling of lost or corrupted samples in a media file

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination