CN116746150A - 依赖随机接入点样点条目的信令通知 - Google Patents

依赖随机接入点样点条目的信令通知 Download PDF

Info

Publication number
CN116746150A
CN116746150A CN202180088323.9A CN202180088323A CN116746150A CN 116746150 A CN116746150 A CN 116746150A CN 202180088323 A CN202180088323 A CN 202180088323A CN 116746150 A CN116746150 A CN 116746150A
Authority
CN
China
Prior art keywords
picture
drap
sample
rap
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180088323.9A
Other languages
English (en)
Inventor
王业奎
王洋
张莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Douyin Vision Co Ltd
ByteDance Inc
Original Assignee
Douyin Vision Co Ltd
ByteDance Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Douyin Vision Co Ltd, ByteDance Inc filed Critical Douyin Vision Co Ltd
Publication of CN116746150A publication Critical patent/CN116746150A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/23439Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements for generating different versions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/109Selection of coding mode or of prediction mode among a plurality of temporal predictive coding modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/114Adapting the group of pictures [GOP] structure, e.g. number of B-frames between two anchor frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234309Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by transcoding between formats or standards, e.g. from MPEG-2 to MPEG-4 or from Quicktime to Realvideo
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8455Structuring of content, e.g. decomposing content into time segments involving pointers to the content, e.g. pointers to the I-frames of the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Discrete Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

公开了一种处理视频数据的机制。依赖随机接入点(DRAP)样点条目在DRAP样点组中被信令通知。DRAP样点条目描述一个或多个DRAP样点。基于DRAP样点条目执行视觉媒体数据和视觉媒体数据文件之间的转换。

Description

依赖随机接入点样点条目的信令通知
相关申请的交叉引用
本专利申请要求Ye-Kui Wang等人于2020年12月28日提交的以及名称为“视频比特流和媒体文件中的跨随机接入点参考的信号通知”的国际申请No.PCT/CN2020/139893的权益,该国际申请通过引用并入本文。
技术领域
本专利文档涉及文件格式中的数字音视频媒体信息的生成、存储和消耗。
背景技术
数字视频占互联网和其他数字通信网络上最大的带宽使用。随着能够接收和显示视频的连接用户设备数量的增加,数字视频使用的带宽需求可能继续增长。
发明内容
第一个方面涉及一种处理视频数据的方法,包括:确定DRAP样点组中的依赖随机接入点(dependent random access point,DRAP)样点条目,其中,DRAP样点条目描述一个或多个DRAP样点;以及基于DRAP样点条目执行视觉媒体数据和视觉媒体数据文件之间的转换。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供,视觉媒体数据文件采用国际标准化组织(International Organization for Standardization,ISO)基本媒体文件格式(ISO base media file format,ISOBMFF)。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供,DRAP样点条目包括指示从DRAP样点组的成员随机接入所需的随机接入点(random access point,RAP)样点的数量的字段。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供,RAP样点包括初始样点。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供,RAP样点包括DRAP样点。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供,当DRAP样点之前的最接近的初始样点可用于参考时,在每个DRAP样点之后,所有样点按解码顺序和输出顺序都可以被正确解码。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供,DRAP样点条目包括指示DRAP样点组的成员的一个或多个RAP标识符的一个或多个字段。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供,指示RAP标识符的字段均使用16比特进行编解码。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供,指示RAP标识符的字段均使用32比特进行编解码。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供,视觉媒体数据文件包括子样点信息框,并且其中,子样点信息框包括指示DRAP样点组的成员的一个或多个RAP标识符的一个或多个字段。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供,视觉媒体数据文件包括样点辅助信息尺寸框,并且其中,样点辅助信息尺寸框包括指示DRAP样点组的成员的一个或多个RAP标识符的一个或多个字段。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供,每个RAP标识符是样点号。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供,DRAP样点条目包括一个或多个字段,一个或多个字段指示从DRAP样点组的成员随机接入所需的样点的RAP标识符。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供,样点的RAP标识符直接指示相关联的样点。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供,样点的RAP标识符指示两个RAP样点的标识符之间的差。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供,字段中的第i个字段指示当前样点的标识符和第一个所需RAP样点的第i个标识符之间的差。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供,字段中的第i个字段指示第i-1个所需RAP样点的标识符和第i个所需RAP样点的标识符之间的差。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供,字段中的第i个字段指示第i个所需RAP样点的标识符和第i-1个所需RAP样点的标识符之间的差。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供,转换包括根据视觉媒体数据生成视觉媒体数据文件。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供,转换包括解析视觉媒体数据文件以获得视觉媒体数据。
第二方面涉及一种处理视频数据的装置,包括处理器和其上具有指令的非暂时性存储器,其中,指令在由处理器执行时使处理器执行前述方面中任一方面的方法。
第三方面涉及一种非暂时性计算机可读介质,包括供视频编解码设备使用的计算机程序产品,计算机程序产品包括存储在非暂时性计算机可读介质上的计算机可执行指令,使得计算机可执行指令在由处理器执行时使视频编解码设备执行前述方面中任一方面的方法。
为清晰起见,任何一个前述实施例可与任何一个或多个其他前述实施例组合,以在本公开的范围内形成新的实施例。
从以下结合附图和权利要求的详细说明中,可更清楚地理解这些和其他特征。
附图说明
为了更全面地理解本公开内容,现结合附图和详细说明参考以下简要说明,其中相同的参考数字代表相同的部件。
图1是在使用IRAP图片解码比特流时用于随机接入的示例机制的示意图。
图2是在使用DRAP图片解码比特流时用于随机接入的示例机制的示意图。
图3是在使用CRR图片解码比特流时用于随机接入的示例机制的示意图。
图4是用于信令通知外部比特流以支持基于CRR的随机接入的示例机制的示意图。
图5是示出当图片按解码顺序在DRAP和/或CRR图片之后并且按输出顺序在DRAP和/或CRR图片之前时的潜在解码错误的示意图。
图6是以国际标准化组织(ISO)基础媒体文件格式(ISOBMFF)存储的媒体文件的示意图。
图7是包含编码视觉媒体数据的比特流的示意图。
图8是示出示例视频处理系统的框图。
图9是示例视频处理装置的框图。
图10是视频处理的示例方法的流程图。
图11是图示示例视频编解码系统的框图。
图12是图示示例编码器的框图。
图13是图示示例解码器的框图。
图14是示例编码器的示意图。
具体实施方式
首先应理解,尽管下文提供了一个或多个实施例的说明性实现方式,但可使用任何数量的技术实现所公开的系统和/或方法,无论是当前已知的还是待开发的。本公开不应以任何方式限于以下示出的示例性实现方式、附图和技术,包括在此示出和描述的示例性设计和实现方式,而是可以在所附权利要求及其等同物的全部范围内进行修改。
多功能视频编解码(Versatile Video Coding,VVC),也称为H.266,在某些描述中使用术语仅是为了便于理解,而不是为了限制所公开技术的范围。因此,本文描述的技术也适用于其他视频编解码器协议和设计。在本文档中,相对于VVC规范或国际标准化组织(ISO)基本媒体文件格式(ISOBMFF)文件格式规范,文本的编辑更改通过粗体斜体表示取消的文本和下划线表示添加的文本。
该专利文档涉及视频编解码、视频文件格式、视频信令通知和视频应用。具体而言,本文档涉及基于补充增强信息(SEI)消息的视频编解码中跨随机接入点(RAP)参考的增强信令通知,以及媒体文件中跨RAP参考(CRR)的信令通知。所公开的示例可以单独地或以各种组合应用于任何视频编解码标准或非标准视频编解码器,例如VVC,以及根据任何媒体文件格式的媒体文件,例如ISOBMFF。
本公开包括以下缩写。自适应颜色变换(adaptive color transform,ACT)、自适应环路滤波器(adaptive loop filter,ALF)、自适应运动矢量分辨率(adaptive motionvector resolution,AMVR)、自适应参数集(adaptation parameter set,APS)、接入单元(access unit,AU)、接入单元定界符(access unit delimiter,AUD)、高级视频编解码(Rec.ITU-T H.264|ISO/IEC 14496-10)(advanced video coding,AVC)、双向预测(bi-predictive,B)、具有CU级别权重的双向预测(bi-prediction with CU-level weights,BCW)、双向光流(bi-directional optical flow,BDOF)、基于块的增量脉冲编解码调制(block-based delta pulse code modulation,BDPCM)、缓冲期(buffering period,BP)、基于上下文的自适应二元算术编解码(context-based adaptive binary arithmeticcoding,CABAC)、编解码块(coding block,CB)、恒定比特率(constant bit rate,CBR)、跨分量自适应环路滤波器(cross-component adaptive loop filter,CCALF)、编解码层视频序列(coded layer video sequence,CLVS),编解码层视频序列开始(coded layer videosequence start,CLVSS)、编解码图片缓冲器(coded picture buffer,CPB)、纯随机接入(clean random access,CRA)、循环冗余校验(cyclic redundancy check,CRC)、跨RAP参考(cross RAP referencing,CRR)、编解码树块(coding tree block,CTB)、编解码树单元(coding tree unit,CTU)、编解码单元(coding unit,CU)、编解码视频序列(coded videosequence,CVS)、编解码视频序列开始(coded video sequence start,CVSS)、解码能力信息(decoding capability information,DCI)、解码图片缓冲器(decoded picturebuffer,DPB)、依赖随机接入点(dependent random access point,DRAP)、解码单元(decoding unit,DU)、解码单元信息(decoding unit information,DUI)、指数Golomb(exponential-Golomb,EG)、k阶指数Golomb(k-th order exponential-Golomb,EGk)、比特流结束(end of bitstream,EOB)、序列结束(end of sequence,EOS)、填充符数据(fillerdata,FD)、先进先出(first-in,first-out,FIFO)、固定长度(fixed-length,FL)、绿色、蓝色和红色(green,blue,and red,GBR)、通用约束信息(general constraintsinformation,GCI)、逐步解码刷新(gradual decoding refresh,GDR)、几何分割模式(geometric partitioning mode,GPM)、高效视频编解码(也称为Rec.ITU-T H.265|ISO/IEC 23008-2)(high efficiency video coding,HEVC)、假设参考解码器(hypotheticalreference decoder,HRD)、假设流调度器(hypothetical stream scheduler,HSS)、帧内(intra,I)、帧内块复制(intra block copy,IBC)、即时解码刷新(instantaneousdecoding refresh,IDR)、层间参考图片(inter layer reference picture,ILRP)、帧内随机接入点(intra random access point,IRAP)、低频不可分变换(low frequency non-separable transform,LFNST)、最小可能符号(least probable symbol,LPS)、最低有效位(least significant bit,LSB)、长期参考图片(long-term reference picture,LTRP)、具有色度缩放的亮度映射(luma mapping with chroma scaling,LMCS)、基于矩阵的帧内预测(matrix-based intra prediction,MIP)、最可能符号(most probable symbol,MPS)、最高有效位(most significant bit,MSB)、多重变换选择(multiple transform selection,MTS)、运动矢量预测(motion vector prediction,MVP)、网络抽象层(networkabstraction layer,NAL)、输出层集(output layer set,OLS)、操作点(operation point,OP)、操作点信息(operating point information,OPI)、预测(predictive,P)、图片标头(picture header,PH)、图片顺序计数(picture order count,POC)、图片参数集(pictureparameter set,PPS)、利用光流的预测细化(prediction refinement with opticalflow,PROF)、图片定时(picture timing,PT)、图片单元(picture unit,PU)、量化参数(quantization parameter,QP)、随机接入可解码前导图片(random access decodableleading picture,RADL)、随机接入点(random access point,RAP)、随机接入跳过前导图片(random access skipped leading picture,RASL)、原始字节序列有效负载(raw bytesequence payload,RBSP)、红色、绿色和蓝色(red,green,and blue,RGB)、参考图片列表(reference picture list,RPL)、样点自适应偏移(sample adaptive offset,SAO)、样点纵横比(sample aspect ratio,SAR)、补充增强信息(supplemental enhancementinformation,SEI)、条带标头(slice header,SH)、子图片级别信息(subpicture levelinformation,SLI)、数据位串(string of data bits,SODB)、序列参数集(sequenceparameter set,SPS)、短期参考图片(short-term reference picture,STRP)、逐步时域子层接入(step-wise temporal sublayer access,STSA)、截断莱斯(truncated rice,TR)、变换单元(transform unit,TU)、可变比特率(variable bit rate,VBR)、视频编解码层(video coding layer,VCL)、视频参数集(video parameter set,VPS)、多功能补充增强信息(也称为Rec.ITU-T H.274|ISO/IEC 23002-7)(versatile supplemental enhancementinformation,VSEI)、视频可用性信息(video usability information,VUI)以及多功能视频编解码(也称为Rec.ITU-T H.266|ISO/IEC 23090-3)(versatile video coding,VVC)。
视频编解码标准主要是通过ITU-T和ISO/IEC标准的发展而得以演进。ITU-T制作了H.261和H.263标准,ISO/IEC制作了MPEG-1和MPEG-4Visual标准,并且两个组织联合制作了H.262/MPEG-2视频标准和H.264/MPEG-4高级视频编解码(AVC)标准和H.265/HEVC标准。从H.262开始,视频编解码标准基于混合视频编解码结构,其中利用时域预测加变换编解码。为了探索HEVC之外的进一步视频编解码技术,由视频编解码专家组(Video CodingExperts Group,VCEG)和MPEG联合成立联合视频探索团队(Joint Video ExplorationTeam,JVET)。JVET采用了许多方法并将其纳入名为联合探索模型(Joint ExplorationModel,JEM)的参考软件。当多功能视频编解码(VVC)项目正式启动时,JVET后来更名为联合视频专家团队(Joint Video Experts Team,JVET)。VVC是编解码标准,目标是与HEVC相比降低50%比特率。VVC已由JVET最终确定。
VVC和VSEI标准设计用于最大范围的应用,包括电视广播、视频会议、从存储介质回放、自适应比特率流式传输、视频区域提取、来自多个编解码视频比特流的内容的合成和merge、多视图视频、可缩放分层编解码和视口自适应三百六十度(360°)沉浸式媒体。
基本视频编解码(Essential Video Coding,EVC)标准(ISO/IEC 23094-1)是由MPEG开发的另一种视频编解码标准。
文件格式标准如下所述。媒体流应用通常基于互联网协议(Internet Protocol,IP)、传输控制协议(Transmission Control Protocol,TCP)和超文本传输协议(HypertextTransfer Protocol,HTTP)传输方法,并且通常依赖于诸如ISOBMFF的文件格式。一种这样的流式传输系统是基于HTTP的动态自适应流(dynamic adaptive streaming over HTTP,DASH)。视频可以以视频格式编码,例如AVC和/或HEVC。经编码的视频可以被封装在ISOBMFF轨道中,并被包含在DASH表示和片段中。出于内容选择的目的,关于视频比特流的重要信息,例如档次、层和级别等,可以作为文件格式级别元数据和/或在DASH媒体呈现描述(media presentation description,MPD)中展示。例如,这种信息可以用于选择适当的媒体片段,用于在流式传输会话开始时的初始化和流式传输会话期间的流自适应。
类似地,当使用具有ISOBMFF的图像格式时,可采用特定于图像格式的文件格式规范,例如AVC图像文件格式和HEVC图像文件格式。MPEG正在开发VVC视频文件格式,这是基于ISOBMFF的用于存储VVC视频内容的文件格式。MPEG也正在开发基于ISOBMFF的VVC图像文件格式,该文件格式用于存储使用VVC编解码的图像内容。
对HEVC和VVC的随机接入的支持在下文中讨论。随机接入是指从比特流的按解码顺序的非第一个图片的图片开始接入以及开始解码比特流。为了支持广播/多播和多方视频会议中的调谐和频道切换、本地回放和流式传输中的搜索以及流式传输中的流自适应,比特流应该包括频繁随机接入点。这种随机接入点通常是帧内编解码图片,但也可以是帧间编解码图片(例如,在逐渐解码刷新的情况下)。帧内编解码图片是通过参考了图片内的块来编解码的图片,而帧间编解码图片是通过参考了其他图片中的块来编解码的图片。
通过NAL单元类型在NAL单元标头中,HEVC包括帧内随机接入点(IRAP)图片的信令通知。HEVC支持三种类型的IRAP图片,即瞬时解码器刷新(instantaneous decoderrefresh,IDR)、纯随机接入(CRA)和断点连接接入(BLA)图片。IDR图片将帧间图片预测结构约束为不参考当前图片组(group-of-pictures,GOP)之前的任何图片,也称为封闭GOP随机接入点。通过允许某些图片参考当前GOP之前的图片,CRA图片限制较少,在随机接入的情况下,所有图片都被丢弃。CRA图片被称为开放GOP随机接入点。BLA图片通常源于CRA图片中两个比特流或其一部分的拼接,例如在流切换期间。为了使系统能够更好地使用IRAP图片,定义了六种不同的NAL单位来信令通知IRAP图片的属性,这可以用于匹配ISO基本媒体文件格式(ISOBMFF)中定义的流接入点类型。这种流接入点类型也用于HTTP上的动态自适应流式传输(DASH)中的随机接入支持。
VVC支持三种类型的IRAP图片、两种类型的IDR图片(一种类型有关联的RADL图片,而另一种类型没有关联的RADL图片)和一种类型的CRA图片。其使用方式与HEVC相似。VVC不包括HEVC的BLA图片类型。这是因为BLA图片的基本功能可以通过CRA图片加上序列NAL单元结束来实现,其存在指示在后的图片在单层比特流中开始新的CVS。此外,在开发VVC期间,希望规定比HEVC更少的NAL单元类型,如通过在NAL单元标头中NAL单元类型字段使用5比特而不是6比特来指示。
VVC和HEVC之间在随机接入支持中的另一个差异是VVC中以更规范的方式支持GDR。在GDR中,比特流的编解码可以从帧间编解码图片开始。在随机接入点的第一图片中,只有一部分图片能够被正确地解码。但是在多个图片之后,整个图片区域可以被正确地解码和显示。使用恢复点SEI消息来信令通知GDR随机接入点和恢复点,AVC和HEVC也支持GDR。在VVC中,NAL单元类型被规定用于GDR图片的指示,并且恢复点在图片标头语法结构中被信令通知。允许CVS和比特流以GDR图片开始。相应地,允许整个比特流仅包含帧间编解码图片,而没有单个帧内编解码图片。以这种方式规定GDR支持的主要益处是提供GDR的一致性行为。GDR使得编码器能够通过在多个图片上分布帧内编解码的条带或块(比帧间编解码的条带/块压缩得少)来平滑比特流的比特率,而不是对整个图片进行帧内编解码。这允许显著的端到端延迟降低,由于无线显示、在线游戏、基于无人机应用等超低延迟应用的使用越来越多,这一点被认为更加重要。
VVC中的另一个GDR相关特征是虚拟边界信令通知。GDR图片与恢复点之间的图片处的刷新区域(GDR中正确地解码的区域)和未刷新区域之间的边界可以被信令通知作为虚拟边界。当被信令通知时,将不会应用跨边界的环路滤波。这防止了边界处或边界附近的一些样点的解码失配。当应用确定在GDR过程期间显示正确地解码的区域时,这可以是有用的。IRAP图片和GDR图片可以被统称为随机接入点(RAP)图片。
下面讨论VUI和SEI消息。VUI是作为SPS的一部分被发送的语法结构(也可能在HEVC的VPS中)。VUI携带不影响标准解码过程的信息,但可用于编解码视频的正确呈现。SEI协助与解码、显示或其他目的相关的过程。与VUI一样,SEI不影响规范解码过程。SEI在SEI消息中携带。SEI消息的解码器支持是可选的。然而,SEI消息确实会影响比特流一致性。例如,如果比特流中的SEI消息的语法不符合规范,则比特流不符合规范。HRD规范中使用了一些SEI消息。
与VVC一起使用的VUI语法结构和大多数SEI消息未在VVC规范中规定,而是在VSEI规范中规定。VVC规范中规定了用于HRD一致性测试的SEI消息。VVC定义了五个与HRD一致性测试相关的SEI消息,并且VSEI规定了20个附加SEI消息。VSEI规范中携带的SEI消息不会直接影响符合解码器的行为并且已被定义,使得它们可以以编解码格式不可知的方式被使用,从而允许VSEI与VVC之外的其他视频编解码标准一起被使用。VSEI规范没有特别提到VVC语法元素名称,而是提到了变量,其值在VVC规范中设置。
与HEVC相比,VVC的VUI语法结构只关注与图片的正确呈现相关的信息,并且不包含任何定时信息或比特流限制指示。在VVC中,VUI在SPS中被信令通知,SPS在VUI语法结构之前包含长度字段以信令通知VUI有效载荷的长度(以字节为单位)。这允许解码器容易地跳过信息,并且通过以类似于SEI消息语法缩放的方式将新语法元素直接添加到VUI语法结构的末尾,来允许VUI语法扩展。
VUI语法结构包含以下信息:指示内容是交错的或渐进的;指示内容是否包含帧封装立体视频或投影全向视频;样点纵横比;指示内容是否适合过扫描显示;颜色描述,包括颜色原色、矩阵和传输特性,这支持信令通知超高清(ultra high definition,UHD)与高清(high definition,HD)颜色空间以及高动态范围(high dynamic range,HDR);指示相较于亮度的色度位置(相较于HEVC,渐进的内容的信令通知已被阐明)。
当SPS不包含任何VUI时,信息被认为是未规定的,并且如果比特流的内容旨在用于在显示器上呈现,则信息通过外部方式传达或由应用规定。
表1列出了为VVC规定的SEI消息,以及包含它们的语法和语义的规范。在VSEI规范中规定的20个SEI消息中,许多是从HEVC继承的(例如,填充符有效载荷和两个用户数据SEI消息)。一些SEI消息用于正确处理或呈现编解码视频内容。对于与HDR内容特别相关的主显示器颜色量、内容光级别信息和/或替代传输特性SEI消息,就是这种情况。其他示例包括等矩形投影、球体旋转、分区打包和/或全向视口SEI消息,这些消息与360°视频内容的信令通知和处理相关。
表1:VVC v1中的SEI消息列表
为VVC v1规定的SEI消息包括帧字段信息SEI消息、样点纵横比信息SEI消息和子图片级别信息SEI消息。帧字段信息SEI消息包含指示关联图片应该如何显示的信息(例如场奇偶校验或帧重复周期)、关联图片的源扫描类型以及关联图片是否是之前的图片的副本。在一些视频编解码标准中,该信息可以与关联图片的定时信息一起在图片定时SEI消息中被信令通知。然而,帧字段信息和定时信息是两种不同类型的信息,不一定一起被信令通知。在一个典型的示例中,在系统级别信令通知定时信息,但在比特流内信令通知帧字段信息。因此,从图片定时SEI消息中移除帧字段信息,并改为在专用SEI消息中信令通知它。这一变化还支持修改帧字段信息的语法,以向显示器传达更多和更清晰的指令,例如将字段配对在一起,或帧重复的更多值。
样点纵横比SEI消息可以为相同序列内的不同图片信令通知不同的样点纵横比,而VUI中包含的对应信息适用于整个序列。当使用具有导致相同序列的不同图片具有不同样点纵横比的缩放因子的参考图片重采样特征时,这可能是相关的。
子图片级别信息SEI消息提供子图片序列的级别信息。
下面讨论DRAP指示SEI消息。VSEI规范包含DRAP指示SEI消息,具体规定如下:
dependent_rap_indication(payloadSize){ 描述符
}
与依赖随机接入点(DRAP)指示SEI消息相关的图片被称为DRAP图片。DRAP指示SEI消息的存在指示在该条款中规定的对图片顺序和图片参考的约束适用。这些约束可以使解码器能够正确地解码DRAP图片以及按解码顺序和输出顺序两者在DRAP图片之后的图片,而不需要解码除了DRAP图片的相关IRAP图片之外的任何其他图片。
DRAP指示SEI消息的存在所指示的约束应全部适用,如下所示。DRAP图片是拖尾图片。DRAP图片具有等于0的时域子层标识符。除了DRAP图片的相关IRAP图片之外,DRAP图片不包括DRAP图片的参考图片列表的有效条目中的任何图片。除了DRAP图片的相关IRAP图片之外,在该图片的参考图片列表的有效条目中,按解码顺序和输出顺序两者在DRAP图片之后的任何图片不包括按解码顺序或输出顺序在DRAP图片之前的任何图片。
下文讨论了媒体文件中的DRAP信令通知。ISOBMFF包括如下基于样点组的DRAP的信令通知机制。DRAP样点组定义如下。DRAP样点是这样的样点,在该样点之后,如果DRAP样点之前最接近的初始样点可用于参考,则按解码顺序的所有样点都可以被正确地解码。初始样点是流接入点(stream access point,SAP)类型1、2或3的SAP样点,其由同步样点或SAP样点组标记。例如,如果文件中的第32个样点是包括I图片的初始样点,则第48个样点可以包括P图片,并且被标记为依赖随机接入点样点组的成员。该指示可以通过首先解码第32个样点(忽略样点33-47)然后从第48个样点继续解码,在第48个样点执行随机接入。
仅当以下条件为真时,样点可以是依赖随机接入点样点组的成员(因此称为DRAP样点)。DRAP样点仅参考最接近的在先的初始样点。当从DRAP样点开始解码时,DRAP样点和按输出顺序在DRAP样点之后的所有样点可以被正确地解码。这可以在已经解码了类型1、2或3的最接近的在先的SAP样点之后发生,其可以通过作为同步样点或通过SAP样点组来标记。DRAP样点只能与类型1、2和3的SAP样点结合使用。这是为了通过将在先的SAP样点与DRAP样点以及按输出顺序在DRAP样点之后的样点连接起来,实现创建可解码的样点序列的功能。DRAP样点组的示例语法如下。
DRAP样点组的示例语义如下。DRAP_type是非负整数。当DRAP_type在1到3的范围内时,DRAP_type指示DRAP样点将对应的SAP_type(如附录I中所规定的),假设DRAP样点不依赖于最接近的在先的SAP。其他类型值是保留的。保留应等于0。此子条款的语义仅适用于保留等于0的样点组描述条目。当解析该样点组时,解析器应允许并忽略保留大于0的样点组描述条目。
下文讨论了基于跨RAP参考(cross RAP reference,CRR)的视频编解码方法,也被称为外部解码刷新(external decoding refresh,EDR)和/或类型2DRAP。这种视频编解码方法的基本思想如下。不是将随机接入点编解码为帧内编解码的IRAP图片(除了比特流中的第一个图片),而是使用帧间预测对随机接入点进行编解码,以避免在随机接入点被编解码为IRAP图片时较早图片的不可用性。该机制通过单独的视频比特流提供有限数量的较早图片,通常表示视频内容的不同场景,该单独的视频比特流可以被称为外部流和/或外部方式。这种较早的图片被称为外部图片。因此,每个外部图片可以用于由跨随机接入点的图片进行的帧间预测参考。编解码效率的提高来自于将随机接入点编解码为帧间预测图片,并且对于按解码顺序在EDR图片之后的图片,具有更多可用的参考图片。如下所述,用这种视频编解码方法编解码的比特流可以用于基于ISOBMFF和DASH的应用中。
DASH内容准备操作在下文中讨论。视频内容被编码成一个或多个表示,每个表示包括特定的空域分辨率、时域分辨率和质量。视频内容的每个表示由主流表示,并且也可能由外部流表示。主流包含可能包括或可能不包括EDR图片的编解码图片。当主流中包括至少一个EDR图片时,外部流也存在并包含外部图片。当主流中不包括EDR图片时,外部流不存在。每个主流在主流表示(Main Stream Representation,MSR)中被携带。MSR中的每个EDR图片都是片段的第一个图片。
每个外部流,当存在时,在外部流表示(External Stream Representation,ESR)中被携带。对于以EDR图片开始的MSR中的每个片段,在对应的ESR中有片段,该片段具有从MPD导出的相同的片段开始时间,该片段携带对该EDR图片进行解码所需的外部图片以及MSR中携带的比特流中按解码顺序的在后的图片。相同视频内容的MSR被包括在一个自适应集(Adaptation Set,AS)中。相同视频内容的ESR被包括在一个AS中。
下文讨论了DASH流式传输操作。客户端获得DASH媒体呈现的MPD,解析MPD,选择MSR,并确定从消费内容开始的开始呈现时间。客户端请求MSR的片段,从包含呈现时间等于(或足够接近)开始呈现时间的图片的片段开始。如果开始片段中的第一个图片是EDR图片,则相关ESR中的对应片段(具有从MPD导出的相同片段开始时间)也被请求,优选地在请求MSR片段之前。否则,不会请求相关ESR的任何片段。
当切换到不同的MSR时,客户端请求切换到MSR的片段,从具有片段开始时间大于切换自MSR的最后请求片段的第一片段开始。如果切换到MSR的起始片段中的第一个图片是EDR图片,则还请求相关ESR中的对应片段,优选地在请求MSR片段之前。否则,不会请求相关ESR的任何片段。
当以相同的MSR连续操作时(在搜索或流切换操作后对开始片段进行解码后),不请求相关ESR的任何片段,包括在请求以EDR图片开始的任何片段时。
下文讨论了视频中跨RAP参考的信令通知。可以在SEI消息中信令通知CRR,该SEI消息被命名为类型2DRAP指示SEI消息,如下所述。类型2DRAP指示SEI消息语法如下。
类型2DRAP指示SEI消息语义如下。与类型2DRAP指示SEI消息相关联的图片被称为类型2DRAP图片。类型1DRAP图片(与DRAP指示SEI消息相关联)和类型2DRAP图片被统称为DRAP图片。类型2DRAP指示SEI消息的存在指示在该子条款中规定的对图片顺序和图片参考的约束适用。这些约束可以使解码器能够正确地解码类型2DRAP图片和相同层中的图片,并且按解码顺序和输出顺序两者在类型2DRAP图片之后。除了图片列表referenceablePictures之外,这可以在不需要解码相同层中的任何其他图片的情况下实现,其包括在相同CLVS内并且由t2drap_ref_rap_id[i]语法元素标识的按解码顺序的IRAP或DRAP图片的列表。
由类型2DRAP指示SEI消息的存在所指示的约束应全部适用,如下所示。类型2DRAP图片是拖尾图片。类型2DRAP图片具有等于0的时域子层标识符。除了referenceablePictures之外,类型2DRAP图片不包括类型2DRAP图片的参考图片列表的活动条目中的相同层中的任何图片。在类型2DRAP图片的参考图片列表的活动条目中,除了referenceablePictures之外,在相同层中并且按解码顺序和输出顺序两者在类型2DRAP图片之后的任何图片不包括在相同层中并且按解码顺序或输出顺序在类型2DRAP图片之前的任何图片。在该图片的参考图片列表的活动条目中,列表referenceablePictures中的任何图片不包括在相同层中并且不是列表referenceablePictures中较早位置的图片的任何图片。因此,即使当图片是DRAP图片而不是IRAP图片时,referenceablePictures中的第一个图片也不包括来自该图片的参考图片列表的活动条目中的相同层的任何图片。
t2drap_rap_id_in_clvs指定类型2DRAP图片的RAP图片标识符,表示为RapPicId。每个IRAP或DRAP图片都与RapPicId相关联。IRAP图片的RapPicId值被推断为等于0。对于CLVS内的任意两个IRAP或DRAP图片,RapPicId的值应该不同。在符合此规范的此版本的比特流中,t2drap_reserved_zero_13bits应等于0。t2drap_reserved_zero_13bits的其他值被保留。解码器应忽略t2drap_reserved_zero_13bits的值。t2drap_num_ref_rap_pics_minus1加1指示在与类型2DRAP图片相同的CLVS内并且可以被包括在类型2DRAP图片的参考图片列表的活动条目中的IRAP或DRAP图片的数量。t2drap_ref_rap_id[i]指示在与类型2DRAP图片相同的CLVS内并且可以被包括在类型2DRAP图片的参考图片列表的活动条目中的第i个IRAP或DRAP图片的RapPicId。
以下是通过公开的技术解决方案解决的技术问题的示例。例如,关于视频比特流和媒体文件中的CRR和/或DRAP的信令通知,存在以下问题。DRAP指示SEI消息缺少信令通知,该信令通知指示,当从DRAP图片随机接入时,按解码顺序在DRAP图片之后但是按输出顺序在DRAP图片之前的图片是否能够被正确地解码。在这种情况下,这样的图片可能被错误地解码,因为它们参考按解码顺序早于DRAP图片的图片以进行帧间预测。
参考图5,其显示了按解码顺序在相关DRAP图片之后并按输出顺序在相关DRAP图片之前的图片示例。每个框都是按从左到右的解码顺序显示的图片。框中的数字是输出顺序,也称为图片的图片顺序计数。箭头指示两个图片之间的帧间预测关系,其中右手侧(箭头处)的图片使用左手侧(箭头原点处)的图片作为参考图片。
在图5所示的示例中,可关闭从图片6到图片8的帧间预测(移除收集两个图片的箭头)。在这种情况下,当从DRAP图片(图片10)随机接入时,图片8可以被正确地解码。然而,当采用从图片6到图片8的帧间预测时,当DRAP图片(图片10)被用作随机接入点时,图片8不能被正确地解码。当从DRAP图片随机接入时,这种帧间预测是否被关闭的指示对于系统知道何时开始呈现视频是有用的。例如,利用这样的指示,当从DRAP图片(图片10)随机接入时,应用系统将知道呈现是可以从图片8开始还是从图片10开始。
类型2DRAP指示SEI消息也缺乏信令通知机制,以指示当从类型2DRAP图片随机接入时,按解码顺序在类型2DRAP图片之后但按输出顺序在类型2DRAP图片之前的图片是否可被正确地解码。在这种情况下,当图片参考按解码顺序早于类型2DRAP图片的图片以进行帧间预测时,这样的图片可能被错误地解码。当从类型2DRAP图片随机接入时,这种指示对于系统确定何时开始呈现视频是有用的。还缺少在媒体文件中信令通知CRR的机制。
此外,ISOBMFF中DRAP样点组的语义是错误的。ISOBMFF声明DRAP样点是这样的样点,在该样点之后,如果在DRAP样点之前的最接近的初始样点可用于参考,则按解码顺序的所有样点都可以被正确地解码。然而,即使在DRAP样点之前的最接近的初始样点可用于参考,也存在这样的情况,即按解码顺序在DRAP样点之后但按输出顺序在DRAP样点之前的样点参考相较于用于参考的最接近的初始样点中的图片更早的图片。在这种情况下,这样的样点(图片)不能被正确地解码。
本文公开了解决上述一个或多个问题的机制。例如,DRAP图片是通过参考IRAP图片经由帧间预测来编解码的随机接入点图片。此外,CRR图片(也被称为类型2DRAP和/或增强依赖随机接入点(enhanced dependent random access point,EDRAP)图片)是通过参考IRAP图片经由帧间预测来编解码并且还被允许参考一个或多个其他依赖随机接入点图片的随机接入点图片。因此,CRR/DRAP/type 2DRAP可以被认为是DRAP的类型。DRAP和CRR是基于以特定顺序管理的视频图片的前提而被设计的。但是,允许编码器对图片进行重新排序,以提高编解码效率。因此,视频图片可以具有输出顺序和解码顺序。输出顺序是图片被呈现/显示的顺序,并且解码顺序是图片被编解码成比特流的顺序。一些DRAP和CRR设计没有考虑这种区别,因此当使用DRAP和/或CRR来对视频进行编解码并且编解码器确定对图片进行重新排序时,可能会出现错误。具体而言,当帧间预测的图片按解码顺序在DRAP/CRR图片之后并且按输出顺序在DRAP/CRR图片之前时,会出现错误。由于这样的图片可能被允许通过参考按解码顺序在DRAP/CRR图片之前的另一个图片来编解码,可能发生错误。当DRAP/CRR图片被解码器用作随机接入点时,该图片可能是也可能不是完全可解码的,这取决于是否使用了参考另一图片的帧间预测。此外,各种信令通知机制可能不完全支持DRAP和/或CRR。
因此,本公开包括信令通知机制,以指示是否允许按解码顺序在DRAP/CRR图片之后并按输出顺序在DRAP/CRR图片之前的帧间预测图片参考DRAP/CRR图片之前的其他图片。在示例中,信令通知机制是编码比特流中的SEI消息。如果允许这种帧间预测参考,则当DRAP/CRR图片被用作随机接入点时,不显示帧间预测图片。如果这种帧间预测参考被阻止,则当DRAP/CRR图片被用作随机接入点时,可以显示帧间预测图片。此外,本公开描述了可以被包括在ISOBMFF媒体文件中以描述DRAP和/或CRR图片的样点组和/或样点条目。这允许解码器在文件格式级别确定DRAP和/或CRR图片的存在和位置。
为解决上述及其他问题,公开了总结如下的方法。这些项目应该被认为是解释通用概念的示例,而不应该以狭隘的方式被解释。此外,这些项目可以单独地被使用或以任何方式组合地被使用。
示例1
在一个示例中,将指示添加到DRAP指示SEI消息语法中,以指示是否允许与DRAP图片在相同层中、按解码顺序在DRAP图片之后并且按输出顺序在DRAP图片之前的图片参考在相同层中且按解码顺序早于DRAP图片的图片以进行帧间预测。如果这种参考被阻止,当DRAP被用作随机接入点时,解码器可以正确地解码和显示这种图片。当参考被允许时,解码可能是不可能的,并且当DRAP被用作随机接入点时,这样的图片不应该在解码器上显示。在一个示例中,该指示是一比特标志。在一个示例中,标志被设置为等于X(X是1或0),以指示允许在相同层中并且按解码顺序在DRAP图片之后但是按输出顺序在DRAP图片之前的图片参考在相同层中并且按解码顺序早于DRAP图片的图片来进行帧间预测。在一个示例中,可将标志设定为等于1-X(X为1或0),以指示在相同层中、按解码顺序在DRAP图片之后且按输出顺序在DRAP图片之前的图片不参考在相同层中且按解码顺序早于DRAP图片的图片来进行帧间预测。在一个示例中,该指示是多比特指示符。在一个示例中,约束要求在相同层中并且按解码顺序在DRAP图片之后的任何图片应当按输出顺序在相同层中的、按解码顺序在DRAP图片之前的任何图片之后。
示例2
在一个示例中,规定了附加SEI消息,并且该SEI消息的存在指示,在相同层中、按解码顺序在比特流中的DRAP图片之后并且按输出顺序在DRAP图片之前的图片不参考在相同层中并且按解码顺序早于DRAP图片的图片以进行帧间预测。在一个示例中,该SEI消息的存在指示,允许在相同层中、按解码顺序在比特流中的DRAP图片之后并且按输出顺序在DRAP图片之前的图片参考在相同层中并且按解码顺序在DRAP图片之前的图片以进行帧间预测。在一个示例中,约束要求在相同层中并且按解码顺序在DRAP图片的任何图片应该按输出顺序在处于相同层的、按解码顺序在DRAP图片之前的任何图片之后。
示例3
在一个示例中,规定了附加SEI消息。该附加SEI消息的存在指示,在相同层中、按解码顺序在与SEI消息和DRAP指示SEI消息两者相关联的DRAP图片之后并且按输出顺序在DRAP图片之前的图片不参考在相同层中并且按解码顺序定位在DRAP图片之前的任何图片以进行帧间预测。在一个示例中,该附加SEI消息的不存在指示,允许按解码顺序在与附加SEI消息和DRAP指示SEI消息两者相关联的DRAP图片之后并且按输出顺序在DRAP图片之前的相同层中的图片参考在相同层并且按解码顺序早于DRAP图片的图片以进行帧间预测。在一个示例中,约束确保在相同层中并且按解码顺序在DRAP图片之后的任何图片应按输出顺序在处于相同层的并且按解码顺序在DRAP图片之前的任何图片之后。
示例4
在一个示例中,规定了附加SEI消息,并将指示添加到附加SEI消息语法中,以指示是否允许在相同层中、按解码顺序在与附加SEI消息和DRAP指示SEI消息两者相关联的DRAP图片之后并且按输出顺序在DRAP图片之前的图片参考在相同层中且按解码顺序早于DRAP图片的图片,以进行帧间预测。在一个示例中,该指示是一比特标志。在一个示例中,标志被设置为等于X(X是1或0),以指示允许在相同层中、按解码顺序在DRAP图片之后并且按输出顺序在DRAP图片之前的图片参考在相同层中并且按解码顺序早于DRAP图片的图片,以进行帧间预测。此外,在一个示例中,该标志被设置为等于1-X(X是1或0),以指示在相同层中、按解码顺序在DRAP图片之后并且按输出顺序在DRAP图片之前的图片不参考在相同层中并且按解码顺序早于DRAP图片的图片来进行帧间预测。在一个示例中,该指示是多比特指示符。在一个示例中,约束要求在相同层中并且按解码顺序在DRAP图片之后的任何图片应该按输出顺序在处于相同层的、按解码顺序在DRAP图片之前的任何图片之后。
示例5
在一个示例中,将指示添加到类型2DRAP指示SEI消息语法中。该指示指示,是否允许在相同层中、按解码顺序在类型2DRAP图片之后并且按输出顺序在类型2DRAP图片之前的图片参考在相同层中并且按解码顺序早于类型2DRAP图片的图片以进行帧间预测。在一个示例中,该指示是一比特标志。在一个示例中,标志被设置为等于X(X是1或0),以指示允许在相同层中、按解码顺序在DRAP图片之后并且按输出顺序在DRAP图片之前的图片参考在相同层中并且按解码顺序早于DRAP图片的图片,以进行帧间预测。此外,在一个示例中,该标志被设置为等于1-X(X是1或0),以指示在相同层中、按解码顺序在DRAP图片之后并且按输出顺序在DRAP图片之前的图片不参考在相同层中并且按解码顺序早于DRAP图片的图片来进行帧间预测。在一个示例中,通过重用类型2DRAP指示SEI消息语法中的t2drap_reserved_zero_13bits字段中的一个比特来添加该标志。在一个示例中,该指示是多比特指示符。在一个示例中,约束要求在相同层中并且按解码顺序在DRAP图片之后的任何图片应该按输出顺序在处于相同层的、按解码顺序在DRAP图片之前的任何图片之后。
示例6
在另一个示例中,指示与DRAP或类型2DRAP图片相关联。在一个示例中,可以针对每个DRAP或类型2DRAP信令通知该指示。
示例7
在示例中,在ISOBMFF文件中,规定附加样点组来信令通知CRR(例如,包含类型2DRAP图片的样点)。
示例8
在示例中,扩展DRAP样点组以信令通知ISOBMFF文件中的CRR(例如,包含类型2DRAP图片的样点),例如,通过使用样点至组框(例如,SampleToGroupBox或CompactSampleToGroupBox)的版本字段,或通过使用样点至组框中的grouping_type_parameter(或其中一部分)。
示例9
在一个示例中,DRAP样点条目包括指示从DRAP样点组的成员随机接入所需的所需随机接入点(RAP)样点的数量的字段。所需的RAP样点可以是初始样点,也可以是DRAP样点。在一个示例中,DRAP样点条目还包括指示DRAP样点组的成员的RAP标识符的字段。在一个示例中,指示RAP标识符的字段使用16比特来编解码。在一个示例中,指示RAP标识符的字段使用32比特来编解码。在一个示例中,DRAP样点条目不包括指示DRAP样点组的成员的RAP标识符的字段。RAP标识符可以在子样点信息框、样点辅助信息尺寸框和/或另一个框中被信令通知。在一个示例中,DRAP样点条目不包括指示DRAP样点组的成员的RAP标识符的字段。在一个示例中,RAP标识符是样点号。在一个示例中,DRAP样点条目还包括多个字段,这些字段指示从DRAP样点组的成员进行随机接入所需的所需RAP样点的RAP标识符。在一个示例中,指示所需RAP样点的RAP标识符的每个字段使用16比特编解码。在一个示例中,指示所需RAP样点的RAP标识符的每个字段使用32比特编解码。在一个示例中,指示所需RAP样点的RAP标识符的每个字段直接表示所需RAP样点的RAP标识符。在一个示例中,指示所需RAP样点的RAP标识符的每个字段表示两个RAP样点的RAP标识符之间的差。在一个示例中,指示所需RAP样点的RAP标识符的字段中的第i个字段(i等于0)表示当前样点(例如,当前DRAP样点组的样点)的RAP标识符和第一个所需RAP样点的第i个RAP标识符之间的差。在一个示例中,指示所需RAP样点的RAP标识符的字段中的第i个字段(i大于0)表示第(i-1)个所需RAP样点的RAP标识符和第i个所需RAP样点的RAP标识符之间的差。在一个示例中,指示所需RAP样点的RAP标识符的字段中的第i个字段(i大于0)表示第i个所需RAP样点的RAP标识符和第(i-1)个所需RAP样点的RAP标识符之间的差。
示例10
在一个示例中,依赖随机接入点(DRAP)样点是这样的样点,在该样点之后,当DRAP样点之前的最接近的初始样点可用于参考时,所有样点按解码顺序和输出顺序均可被正确地解码。
以下为上文总结的一些方面的一些示例实施例。已增加或修改的相关部分用下划线粗体表示,并且删除的部分用粗体斜体表示。
在示例实现方式中,类型2DRAP指示SEI消息的语法修改如下。
此外,类型2DRAP指示SEI消息语义修改如下。与类型2DRAP指示SEI消息相关联的图片被称为类型2DRAP图片。类型1DRAP图片(与DRAP指示SEI消息相关联)和类型2DRAP图片统称为DRAP图片。类型2DRAP指示SEI消息的存在指示,在该子条款中规定的对图片顺序和图片参考的约束适用。这些约束可以使解码器能够正确地解码类型2DRAP图片和相同层中的图片,并且按解码顺序和输出顺序两者在它之后,而不需要解码相同层中的任何其他图片,除了图片列表referenceablePictures,referenceablePictures由在相同CLVS内并且由t2drap_ref_rap_id[i]语法元素标识的按解码顺序排列的IRAP或DRAP图片的列表组成。
由类型2DRAP指示SEI消息的存在所指示的约束应全部适用,如下所示。类型2DRAP图片是拖尾图片。类型2DRAP图片具有等于0的时域子层标识符。类型2DRAP图片在其参考图片列表的活动条目中不包括相同层中的任何图片,除了referenceablePictures。除了referenceablePictures之外,在相同层中并且按解码顺序和输出顺序两者在类型2DRAP图片之后的任何图片在其参考图片列表的活动条目中不包括在相同层中并且按解码顺序或输出顺序在类型2DRAP图片之前的任何图片。
列表referenceablePictures中的任何图片在其参考图片列表的活动条目中不包括处于相同层且不是列表referenceablePictures中较早位置的图片的任何图片。注意–因此,referenceablePictures中的第一个图片,即使是DRAP图片而不是IRAP图片,也不会在其参考图片列表的活动条目中包含来自相同层的任何图片。
t2drap_rap_id_in_clvs指定类型2DRAP图片的RAP图片标识符,表示为RapPicId。每个IRAP或DRAP图片都与RapPicId相关联。IRAP图片的RapPicId值被推断为等于0。对于CLVS内的任意两个IRAP或DRAP图片,RapPicId的值应该不同。在符合此规范的此版本的比特流中,t2drap_reserved_zero_13bits应等于0。t2drap_reserved_zero_13bits的其他值被保留以供ITU-T|ISO/IEC将来使用。解码器应忽略t2drap_reserved_zero_13bits的值。t2drap_num_ref_rap_pics_minus1加1指示在与类型2DRAP图片相同的CLVS内并且可以被包括在类型2DRAP图片的参考图片列表的活动条目中的IRAP或DRAP图片的数量。t2drap_ref_rap_id[i]指示在与类型2DRAP图片相同的CLVS内的并且可以被包括在类型2DRAP图片的参考图片列表的活动条目中的第i个IRAP或DRAP图片的RapPicId。
在示例实现方式中,依赖随机接入点(DRAP)样点组定义如下。 依赖随机接入点(DRAP)样点是是这样的样点,在该样点之后,如果DRAP样点之前最接近的初始样点可供参考,则按解码顺序/>的所有样点都可以被正确地解码。
初始样点是SAP类型1、2或3的SAP样点,其由同步(Sync)样点或SAP样点组标记。例如,如果文件中的第32个样点是由I-图片组成的初始样点,则第48个样点可以由P-图片组成,并被标记为依赖随机接入点样点组的成员,从而指示通过首先解码第32个样点(忽略样点33-47),然后从第48个样点继续解码,可以在第48个样点执行随机接入。注:DRAP样点只能与类型1、2和3的SAP样点结合使用。这是为了实现通过将在先的SAP样点 与DRAP样点和按输出顺序在DRAP样点之后的样点连接起来来创建可解码的样点次序的功能。
或字段grouping_type_parameter存在且值等于0时,仅当以下条件为真时,样点可为依赖随机接入点样点组的成员(因此称为DRAP样点)。DRAP样点仅引用最接近的在先的初始样点。在已经解码了由同步样点或SAP样点组标记的类型1、2或3的最接近的在先的SAP样点之后,在DRAP样点处开始解码时,DRAP样点和按/>输出顺序在DRAP样点之后的所有样点可以被正确地解码。
/>
在先
DRAP样点组条目的示例语法如下:
DRAP样点组条目的示例语义如下。DRAP_type是非负整数。当DRAP_type在1到3的范围内时,它指示SAP_type(如附录I中所规定的),如果DRAP样点不依赖于最接近的在先的SAP,则DRAP样点将对应该SAP_type。其他类型值是保留的。
保留应等于0。此子条款的语义仅适用于保留等于0的样点组描述条目。当解析该样点组时,解析器应允许并忽略保留大于0的样点组描述条目。
在另一示例实现方式中,RAP_id字段在VisualDRAPEntry()语法中没有被信令通知,在这种情况下,语法VisualDRAPEntry()如下:
此外,每个DRAP样点的RAP_id字段在子样点信息框、样点辅助信息尺寸框或附加框中被信令通知。
在另一示例实现方式中,ref_RAP_id[i]字段被变更为并且ref_RAP_id[i]字段的语义变更如下。/>指示第i个RAP样点的RAP_id/>,该样点按解码顺序比DRAP样点更早并且当从DRAP样点开始解码时,需要被参考以便能够正确地解码DRAP样点以及按解码和输出顺序两者在DRAP样点之后的所有样点。表示/>的变量RefRapId[i]
在另一示例实现方式中,ref_RAP_id_delta[i]字段的语义变化如下。ref_RAP_id_delta[i]指示第i个RAP样点的RAP_id的增量,该样点按解码顺序比DRAP样点更早并且当从DRAP样点开始解码时,需要被参考以能够正确地解码DRAP样点以及按解码和输出顺序两者在DRAP样点之后的所有样点。代表第i个RAP样点的RAP_id的变量RefRapId[i]被导出如下,其中,RAP_id是当前样点(即,当前DRAP样点组的样点)的RAP_id:
在另一示例实现方式中,RAP样点的RAP样点标识符被规定为等于RAP样点的样点号,当前样点的RAP_Id是当前样点的样点号,并且变量RefRapId[i]表示第i个RAP样点的样点号。
在另一示例实现方式中,RAP_id字段(当存在于样点组描述中时)和ref_RAP_id[i]字段使用32比特编解码。
图1是使用IRAP图片解码比特流时随机接入的示例机制的示意图。具体地,图1示出了包括IRAP图片101和非IRAP图片103的比特流100。IRAP图片101是根据帧内预测编解码的并且可以被用作比特流100的接入点的图片。帧内预测是通过参考相同图片中的其他块来对图片的块进行编解码的过程。根据帧内预测编解码的图片可以不参考其他图片而被解码。相反,非IRAP图片103是不能被用作接入点的并且可以在相关的IRAP图片101被解码之后被解码的图片。例如,非IRAP图片103通常根据帧间预测来编解码。帧间预测是通过参考被指定为参考图片的其他图片的块来编解码图片的块的过程。基于帧间预测编解码的图片只有在该图片的所有参考图片都被解码的情况下才能被正确地解码。IRAP图片101和非IRAP图片103两者都可以被指定为其他非IRAP图片103的参考图片。
根据编解码技术,可使用各种类型的IRAP图片101。在本示例中,IRAP图片101包括IDR图片和CRA图片。IDR图片是可以被用作编解码视频序列中的第一个图片的帧内编解码图片。CRA图片是允许使用相关的前导图片的帧内编解码图片。前导图片是按输出顺序在相关的IRAP图片101之前但是按解码顺序在IRAP图片101之后的图片。解码器可以在比特流100的开始处开始解码。然而,用户经常希望跳到比特流中的特定点,并从所选点开始观看。可以被用户选择用于解码的起始点的任何点都被称为随机接入点。
通常,任何IRAP图片101可被用作随机接入点。一旦IRAP图片101被选择作为随机接入点,所有相关联的非IRAP图片103(例如,在所选择的IRAP图片101之后)也可以被解码。在所示示例中,用户选择了CRA4进行随机接入。解码器可以在CRA4开始解码,而不解码CRA4之前的任何图片。这是因为IRAP通常阻止图片之后的图片参考更早的IRAP图片。因此,一旦选择CRA4作为随机接入点,解码器可以解码CRA4以用于显示,然后基于CRA4解码CRA4之后的非IRAP图片103。这允许解码器从随机接入点(例如,CRA4)开始呈现比特流,而不解码随机接入点之前的图片。
图2是使用DRAP图片解码比特流时随机接入的示例机制的示意图。具体地,图2示出了包括IRAP图片201、非IRAP图片203和DRAP图片205的比特流200。IRAP图片201和非IRAP图片203可以分别与IRAP图片101和非IRAP图片103基本相似。在本示例中,IDR图片被用作IRAP图片201。
还包括DRAP图片205。DRAP图片205是根据帧间预测编解码的并且可以被用作比特流200的接入点的图片。例如,每个DRAP图片205可以通过参考IRAP图片201来编解码。图2包括指向根据帧间预测编解码的并且来自相关联的参考图片的图片的箭头。如图所示,通过参考IDR0对每个DRAP图片205进行编解码。这样,任何DRAP图片205都可以被用作随机接入点,只要解码器可以解码相关的IRAP图片201。在所示的示例中,DRAP4被选为随机接入点。解码器应该知道DRAP图片205被用在比特流200中,并且知道(多个)IRAP图片201被用作DRAP图片205的参考图片,例如通过信令通知。然后,解码器可以解码IDR0以用于随机接入,并基于IDR0解码DRAP4。解码器然后可以基于DRAP4解码DRAP4之后的非IRAP图片203。解码器可以开始以DRAP4呈现解码的视频。
根据帧间预测编解码的图片比根据帧内预测编解码的图片更具压缩性。因此,在比特流100中,DRAP图片205比IRAP图片101压缩得更多。因此,DRAP图片205的使用以更复杂的信令通知机制和解码程序为代价,相对于比特流100减少了比特流200随时间信令通知的数据量(例如,比特率)。
图3是使用CRR图片解码比特流时随机接入的示例机制的示意图。具体地,图3示出了包括IRAP图片301、非IRAP图片303和CRR图片305的比特流300。IRAP图片301和非IRAP图片303可以分别与IRAP图片101和非IRAP图片103基本相似。CRR图片305是根据帧间预测编解码的并且可以被用作比特流300的接入点的图片。CRR图片305可以被认为是一种DRAP图片。虽然DRAP图片通过参考IRAP图片来被编解码,但是CRR图片305可以通过参考IRAP图片301和任何其他CRR图片305两者来被编解码。因为CRR图片305是一种DRAP图片,所以CRR图片305也可以被称为EDRAP图片和/或类型2DRAP图片,并且这些术语可以互换使用。图3包括指向根据帧间预测被编解码的并且来自相关联的参考图片的图片的箭头。
在所示的示例中,所有CRR图片305均参考被表示为IDR0的IRAP图片301进行编解码。此外,CRR3、CRR4和CRR5也参考CRR2进行编解码。因此,任何CRR图片305可以被用作随机接入点,只要解码器可以解码相关的IRAP图片301和被用作参考图片的任何相关的CRR图片305。在所示示例中,CRR4已被选为随机接入点。解码器应该知道CRR图片305被用于比特流300中,并且知道(多个)IRAP图片301和CRR图片305被用作其他CRR图片305的参考图片,例如通过信令通知。然后,解码器可以解码IDR0和CRR2以用于随机接入,并基于IDR0和CRR2解码CRR4。解码器然后可以基于CRR4解码CRR4之后的非IRAP图片303。解码器可以在CRR4开始呈现解码的视频。
帧间预测通过将图片中的块与(多个)参考图片中的相似参考块进行匹配来进行操作。编码器然后可以编码指向参考块的运动矢量,而不是编解码当前块。当前块和参考块之间的任何差都被编码为残差。当前块与参考块越匹配,编码的残差就越少。这样,当前块和参考块之间的更好匹配导致更少的编解码数据和更好的压缩。与DRAP相比,CRR的优势在于有更多的图片可供使用,从而实现更好的匹配和压缩。CRR相对于DRAP的代价是信令通知和解码的复杂度增加。
图4为用于信令通知外部比特流401以支持基于CRR的随机接入的示例机制的示意图。如上所示,管理CRR的参考图片比管理DRAP的参考图片更复杂。图4示出了包含由解码器解码的编码视频的主比特流400。主比特流400基本上类似于比特流300,为了简单起见省略了参考。包括外部比特流401以支持随机接入。具体地,外部比特流401包括对应于每个CRR图片的一组参考图片。当随机接入发生时,编码器和/或视频服务器可以传输在接入点开始的主比特流400和外部比特流401的与接入点对应的部分。例如,用户可以选择CRR3进行随机接入。解码器然后可以请求从CRR3开始的主比特流400。编码器/视频服务器然后可以在CRR3开始传输主比特流400。编码器/视频服务器还可以发送随机接入点的与外部比特流401对应的部分。在本示例中,编码器/视频服务器将传输IDR0和CRR2。这样,解码器接收随机接入点处的CRR图片和解码该CRR图片所需的所有参考图片两者。然后,解码器可以解码CRR3,并从该点开始显示视频。为了减少数据传输,编码器/视频服务器可以仅发送解码随机接入点所需的外部比特流401的部分,并且可以不发送进一步的数据,除非随机接入再次发生和/或除非在后的CRR图片采用当前随机接入点处没有提供的参考图片。
图5是显示了当图片按解码顺序在DRAP和/或CRR图片之后且按输出顺序在DRAP和/或CRR图片之前时的潜在解码错误的示意图500。与前面的图一样,箭头表示帧间预测,其中箭头指向帧间预测的图片,并且箭头指向远离相关参考图片的方向。
允许编码器对图片重新排序以提高压缩率。因此,应该向用户呈现图片的顺序被称为输出顺序。图片被编解码到比特流中的顺序被称为解码顺序。可以通过图片顺序计数来标识图片。图片顺序计数可以是唯一标识图片的升序的任何值。在图500中,图片按解码顺序被示出。同时,根据图片顺序计数对图片进行编号,图片顺序计数按照输出顺序增加。从图片顺序计数中可以看出,图片8已经被移出输出顺序,并且在图片10之后,图片10是随机接入点。因此,图片8是帧间预测图片503,其按输出顺序在随机接入点之前,并且按解码顺序在随机接入点之后。在本示例中,图片10是DRAP/CRR图片505,其可以是DRAP图片或者CRR/EDRAP/type 2DRAP图片,这取决于示例。在本示例中,帧间预测图片503通过参考507图片6的帧间预测来编解码。因此,图片6是帧间预测图片503的参考图片502。
图500图示了潜在的编解码错误,因为帧间预测图片503通过帧间预测参考507参考图片502。具体地,帧间预测图片503按解码顺序在DRAP/CRR图片505之后,按输出顺序在DRAP/CRR图片505之前,并且参考507按解码顺序在DRAP/CRR图片505之前的参考图片502。当从作为类型IDR的IRAP图片的图片4解码比特流时,参考图片502被解码并被保存在参考图片缓冲器中,因此帧间预测图片503可以被正确地解码。然而,当DRAP/CRR图片505用于随机接入时,参考图片502被跳过并且不被解码。因此,当帧间预测图片503参考参考图片502时,帧间预测图片503不能被正确地解码。编码器可以选择不允许参考507。举例来说,编码器可将所有帧间预测图片503限制为仅参考相关联的随机接入点处的图片和按解码顺序在相关联的接入点之后的图片。如果参考507被阻止,则帧间预测图片503总是可以被解码,因为不允许帧间预测图片503参考DRAP/CRR图片505之前的任何图片。然而,如果参考507被允许,则当编码器决定通过参考507参考图片502来对帧间预测图片503进行编码时,帧间预测图片503不能被直接解码。应当注意,允许参考507并不总是导致错误,因为编码器不需要使用参考507。但是如果参考507被允许,则在参考507被选择并且DRAP/CRR图片505被用于随机接入的任何时候都会发生错误。从用户的角度来看,这可能会导致看似随机的错误,从而降低用户体验。
本公开包括解决该问题的几种机制。例如,编码器可以向解码器信令通知参考507是否被允许。当参考507被允许时,当DRAP/CRR图片505被用于随机接入时,解码器不应该显示帧间预测图片503,该帧间预测图片503按输出顺序在DRAP/CRR图片505之前并且按解码顺序在DRAP/CRR图片505之后,因为帧间预测图片503可能是可解码的或者可能不是可解码的(取决于编码器是否选择使用参考507)。当参考507被阻止时,当DRAP/CRR图片505被用于随机接入时,解码器应该显示与DRAP/CRR图片505相关联的帧间预测图片503。此外,DRAP和CRR信令通知机制没有被完全规定。因此,本公开包括在媒体文件中信令通知DRAP和CRR使用的描述的机制,以在由解码器随机接入之后更有效地解码DRAP/CRR图片505和/或关联图片。
在另一个示例中,可限制编解码过程,以防止参考507发生。例如,图片可以被分成多个层,并且每个层可以与不同的帧速率相关联。这允许解码器选择具有解码器可以支持的帧速率的层。然后,解码器显示所选层中的所有图片以及所选层之下的层中的所有图片,以实现期望的帧速率。当编码器要求与DRAP/CRR图片505在相同层中并且按解码顺序在DRAP/CRR图片505之后的任何图片(例如,帧间预测图片503)应该按输出顺序在处于相同层的并且按解码顺序在DRAP/CRR图片505之前的任何图片之后时,可以防止图500中所示的错误。
图6是存储在ISOBMFF中的媒体文件600的示意图。例如,媒体文件600可以被存储在ISOBMFF中并被用作DASH表示。ISOBMFF媒体文件600被存储在携带与媒体内容或媒体演示相关联的对象和/或数据的多个框中。例如,媒体文件600可以包括文件类型框(例如,ftyp)630、电影框(例如,moov)610和媒体数据框(例如,mdat)620。
文件类型框630可以携带描述整个文件的数据,因此可以携带文件级别数据。因此,文件级别框是包含与整个媒体文件600相关的数据的任何框。例如,文件类型框630可以包括指示媒体文件600的ISO规范的版本号和/或兼容性信息的文件类型。电影框610可以携带描述媒体文件中包含的电影的数据,因此可以携带电影级别数据。电影级别框是包含描述媒体文件600中所包含的整个电影的数据的任何框。电影框610可以包含范围广泛的子框,这些子框用于包含用于各种用途的数据。例如,电影框610包含轨道框(trak),其携带描述媒体呈现的轨道的元数据。应当注意,轨道可以被称为相关样点的定时序列。例如,媒体轨道可以包括图片序列或采样音频,而元数据轨道可以包括对应于图片和/或音频的元数据序列。描述轨道的数据是轨道级别数据,因此描述轨道的任何框都是轨道级别框。
媒体数据框620包括媒体呈现的交错和按时间排序的媒体数据(例如,编解码视频图片和/或音频)。例如,媒体数据框620可包括根据VVC、AVC、HEVC等编解码的视频数据的比特流。媒体数据框620可包括视频图片、音频、文本或用于显示给用户的其他媒体数据。在ISOBMFF中,图片、音频和文本被统称为样点。这与视频编解码标准中使用的术语相反,视频编解码标准将待编码/解码的像素称为样点。因此,根据上下文,单词样点可以指整个图片(在文件格式级别)或一组像素(在比特流级别)。
如上所述,本公开提供了在文件格式级别信令通知DRAP和/或CRR使用的附加机制。这允许解码器,通过在实际解码包含在mdat框620中的样点的(多个)比特流之前将参数加载到moov框610中,来了解DRAP和/或CRR使用。例如,moov框610可以包含DRAP样点组框625和/或EDRAP样点组框621。样点组框可以描述哪些样点属于与该样点组框相对应的类型。在一个示例中,DRAP和CRR两者都在DRAP样点组框625中被描述,例如通过将CRR视为DRAP的子类型。在另一个示例中,CRR样点分别由EDRAP样点组框621描述,并且DRAP样点由DRAP样点组框625描述。在示例中,DRAP样点组625可以包含DRAP样点条目627。然后,每个DRAP样点条目627可以描述已经根据DRAP编解码的相关样点。在示例中,EDRAP样点组621可以包含EDRAP样点条目623。然后,每个EDRAP样点条目623可以描述已经根据CRR/EDRAP/type 2DRAP编解码的相关样点。每个DRAP/CRR样点的描述可以包括图片的样点标识符、包含(多个)相关参考图片的样点的标识符、对从图片执行随机接入所需的样点和/或RAP样点的数量的指示、和/或当在DRAP/CRR图片选择和执行随机接入时对解码器有帮助的附加信息。
Moov框610还可包含范围广泛的其他框629。在一些示例中,DRAP/CRR样点的描述可以被包括在一个或多个其他框629中。例如,其他框629可以包括样点到组框(SampleToGroupBox),并且DRAP和/或CRR样点可以在SampleToGroupBox中描述。在另一个示例中,其他框629可以被包括压缩样点到组框(CompactSampleToGroupBox),并且DRAP和/或CRR样点可以在CompactSampleToGroupBox中被描述。作为具体示例,DRAP和/或CRR样点可以在SampleToGroupBox和/或CompactSampleToGroupBox中的组类型参数(group_type_parameter)字段中描述。在另一个示例中,其他框629可以包括子样点信息框,并且DRAP和/或CRR样点可以在子样点信息框中被描述。在另一个示例中,其他框629可以包括样点辅助信息尺寸框,并且DRAP和/或CRR样点可以在样点辅助信息尺寸框中被描述。此外,这里描述的任何其他框也可以被包括在其他框629中,并且可以包括对DRAP和/或CRR样点的描述。
图7是包含编码视觉媒体数据的比特流700的示意图。比特流700包含已经由编码器编解码/压缩以供解码器解码/解压缩的媒体数据。例如,比特流700可以被包括在ISOBMFF媒体文件600的媒体数据框620中。此外,比特流700可以被包括在DASH中的表示中。可以根据各种编解码格式对比特流700进行编解码,例如VVC、AVC、EVC、HEVC等。在一些编解码格式中,比特流700被表示为一系列NAL单元。NAL单元是其尺寸适合放置在数据包中的数据单元。例如,VVC包含许多类型的NAL单元。比特流700可以包括包含视频数据的视频编解码层(video coding layer,VCL)NAL单元和包含描述VCL NAL单元的数据的非VCL NAL单元,描述所采用的编解码工具,描述编解码约束等。在示例中,比特流700可以包括以VCLNAL单位编解码的图片710。图片710可以是IRAP图片、帧间预测图片、DRAP图片、CRR图片等。非VCL NAL单元可以包含描述用于编解码图片710的机制的各种消息和参数集。虽然许多VCL·NAL单元被包括在VVC中,但本公开主要聚焦在SEI NAL单元上。例如,SEI NAL单元可以包括SEI消息。SEI NAL消息包含辅助与解码、显示或其他目的相关的过程的数据,但是解码过程不需要该数据来确定解码图片中的样点值。在示例中,SEI消息可以包括DRAP指示SEI消息716和/或类型2DRAP指示SEI消息717。DRAP指示SEI消息716是包含描述DRAP图片使用的数据的SEI消息。类型2DRAP指示SEI消息717是包含描述CRR/EDRAP/类型2DRAP图片的使用的数据的SEI消息。DRAP指示SEI消息716和/或类型2DRAP指示SEI消息717可以与DRAP和/或CRR/EDRAP/类型2DRAP图片相关联,并且可以指示在解码期间应该如何处理这样的图片。
在示例中,DRAP指示SEI消息716可包含是否允许按解码顺序在DRAP图片之后且按输出顺序在DRAP图片之前的图片参考按解码顺序被定位在DRAP图片之前的参考图片以进行帧间预测的指示。在示例中,DRAP指示是否允许SEI消息716可以包含按解码顺序在CRR/EDRAP/type 2DRAP图片之后并且按输出顺序在DRAP图片之前的图片参考按解码顺序在DRAP图片之前的参考图片以进行帧间预测的指示。在示例中,类型2DRAP指示是否允许SEI消息717可以包含按解码顺序在CRR/EDRAP/类型2DRAP图片之后并且按输出顺序在DRAP图片之前的图片参考按解码顺序被定位在DRAP图片之前的参考图片以进行帧间预测的指示。因此,取决于该示例,解码器可以读取DRAP指示SEI消息716和/或类型2DRAP指示SEI消息717,并且确定当DRAP/CRR图片被用作随机接入点时,按解码顺序在DRAP/CRR图片之后并且按输出顺序在DRAP/CRR图片之前的图片是否应该被呈现。
在特定示例中,DRAP指示SEI消息716可与DRAP图片相关,并且类型2DRAP指示SEI消息717可与CRR/EDRAP/类型2DRAP图片相关。在另一示例中,类型2DRAP指示SEI消息717可以包含T2drap_reserved_zero_13bits字段701,并且来自T2drap_reserved_zero_13bits字段701的比特可以被用于指示是否允许按解码顺序在CRR/Edrap/类型2DRAP图片之后并且按输出顺序在DRAP图片之前的图片参考按解码顺序被定位在DRAP图片之前的参考图片以进行帧间预测。在另一个示例中,DRAP指示SEI消息716中的字段可以包含针对DRAP图片的类似指示。在其他示例中,DRAP指示SEI消息716和/或类型2DRAP指示SEI消息717中的多比特指示符可以用于此目的。
图8是可实现本文中所公开的各种技术的示例视频处理系统800的框图。各种实现方式可以包括系统800中的一些或全部组件。系统800可以包括用于接收视频内容的输入802。视频内容可以以原始或未压缩的格式(例如8或10比特多分量像素值)接收,或者可以以压缩或编码的格式接收。输入802可以代表网络接口、外围总线接口或存储接口。网络接口的示例包括有线接口(诸如以太网、无源光网络(PON)等)和无线接口(诸如Wi-Fi或蜂窝接口)。
系统800可以包括可以实现本文档中描述的各种编解码或编码方法的编解码组件804。编解码组件804可以减少从输入802到编解码组件804的输出的视频的平均比特率,以产生视频的编解码表示。因此,编解码技术有时称为视频压缩或视频转码技术。编解码组件804的输出可以被存储或经由所连接的通信来发送,如组件806所表示的。在输入802处接收的视频的存储或通信的比特流(或编解码)表示可以由组件808使用,以生成被发送到显示接口810的像素值或可显示视频。从比特流表示中生成用户可见的视频的过程有时称为视频解压缩。此外,尽管某些视频处理操作被称为“编解码”操作或工具,但是应当理解,在编码器处使用编解码工具或操作,并且将由解码器进行反演编解码的结果的对应解码工具或操作。
外围总线接口或显示接口的示例可以包括通用串行总线(USB)或高清晰度多媒体接口(HDMI)或Displayport等。存储接口的示例包括SATA(串行高级技术附件)、PCI、IDE接口等。本文档中描述的技术可以实施在各种电子设备中,诸如移动电话、膝上型计算机、智能电话或其它能够进行数字数据处理和/或视频显示的装设备。
图9是示例视频处理装置900的框图。装置900可以用于实现本文中所述的方法中的一个或多个。装置900可以实施在智能电话、平板电脑、计算机、物联网(IoT)接收器等中。装置900可以包括一个或多个处理器902、一个或多个存储器904和视频处理硬件906。(多个)处理器902可以配置为实现本文档中所述的一个或多个方法。(多个)存储器904可以用于存储数据和代码,该代码用于实现本文所描述的方法和技术。视频处理硬件906可以用于在硬件电路中实现本文档中所描述的一些技术。在一些实施例中,视频处理硬件906可以至少部分地包括在处理器902中,例如图形协处理器。
图10为视频处理的示例方法1000的流程图。方法1000包括在步骤1002确定(例如,信令通知)DRAP样点组中的DRAP样点条目。DRAP样点条目描述一个或多个DRAP样点。在步骤1004,基于DRAP样点条目执行视觉媒体数据和视觉媒体数据文件之间的转换。视觉媒体数据文件存储在ISOBMFF中,因此是ISOBMFF视觉媒体数据文件。DRAP样点条目包括描述一个或多个DRAP和/或CRR样点的数据。可以约束视觉媒体数据文件,使得每个DRAP样点是这样的样点,在该样点之后,当DRAP样点之前的最接近的初始样点可用于参考时,所有样点按解码顺序和输出顺序都可以被正确解码。
在示例中,DRAP样点条目可包括一个或多个字段,该一个或多个字段指示从DRAP样点组的成员随机接入所需的RAP样点的数量。RAP样点可以包括初始样点、DRAP样点及其组合。在示例中,DRAP样点条目包括指示DRAP样点组的成员的一个或多个RAP标识符的一个或多个字段。在示例中,指示RAP标识符的字段可以使用16比特和/或32比特来编解码。每个RAP标识符可以是样点号。DRAP样点条目还可以包括一个或多个字段,该一个或多个字段指示从DRAP样点组的成员随机接入所需的样点的RAP标识符。
可使用各种表示来指示RAP标识符。例如,样点的RAP标识符可以指示两个RAP样点的标识符之间的差。在示例中,指示RAP标识符的字段中的第i个字段可以指示当前样点的标识符和第一个所需的RAP样点的第i个标识符之间的差。在示例中,指示RAP标识符的字段中的第i个字段可以指示第i-1个所需的RAP样点的标识符和第i个所需的RAP样点的标识符之间的差。在又一示例中,指示RAP标识符的字段中的第i个字段可以指示第i个所需的RAP样点的标识符和第i-1个所需的RAP样点的标识符之间的差。
在示例中,视觉媒体数据文件包括子样点信息框。此外,子样点信息框可用于信令通知指示DRAP样点组的成员的一个或多个RAP标识符的一个或多个字段。在另一个示例中,视觉媒体数据文件包括样点辅助信息尺寸框。此外,样点辅助信息尺寸框可用于信令通知指示DRAP样点组的成员的一个或多个RAP标识符的一个或多个字段。
图11是示出可利用本公开的技术的示例视频编解码系统1100的框图。如图11所示,视频编解码系统1100可以包括源设备1110和目标设备1120。源设备1110生成编码的视频数据,其可以被称为视频编码设备。目标设备1120可以解码由源设备1110生成的编码的视频数据,该目标设备1120可以被称为视频解码设备。
源设备1110可以包括视频源1112、视频编码器1114和输入/输出(I/O)接口1116。视频源1112可以包括诸如视频捕获设备的源、从视频内容提供者接收视频数据的接口、和/或生成视频数据的计算机图形系统,或这些源的组合。视频数据可以包括一个或多个图片。视频编码器1114对来自视频源1112的视频数据进行编码以生成比特流。比特流可以包括形成视频数据的编解码表示的比特序列。比特流可以包括编解码图片和相关联的数据。编解码图片是图片的编解码表示。相关联的数据可以包括序列参数集、图片参数集和其他语法元素。I/O接口1116包括调制器/解调器(调制解调器)和/或发送器。可以将编码的视频数据经由I/O接口1116通过网络1130直接发送到目标设备1120。还可以将编码的视频数据存储到存储介质/服务器1140上,用于由目标设备1120存取。
目标设备1120可以包括I/O接口1126、视频解码器1124和显示设备1122。I/O接口1126可以包括接收器和/或调制解调器。I/O接口1126可以从源设备1110或存储介质/服务器1140获取编码的视频数据。视频解码器1124可以对编码的视频数据进行解码。显示设备1122可以向用户显示解码的视频数据。显示设备1122可以与目标设备1120集成,或可以在配置为与外置显示设备相接的目标设备1120外部。
视频编码器1114和视频解码器1124可以根据视频压缩标准(诸如,高效视频编解码(HEVC)标准、多功能视频编解码(VVC)标准和其他当前和/或其他标准)进行操作。
图12是示出视频编码器1200的示例的框图,该视频编码器1200可以是图11中示出的系统1100中的视频编码器1114。视频编码器1200可以被配置为执行本公开的任何或全部技术。在图12的示例中,视频编码器1200包括多个功能组件。本公开所描述的技术可以在视频编码器1200的各种组件之间共享。在一些示例中,处理器可以配置为进行本公开中描述的任何或全部技术。
视频编码器1200的功能组件可以包括分割单元1201、预测单元1202(其可以包括模式选择单元1203、运动估计单元1204、运动补偿单元1205、帧内预测单元1206)、残差生成单元1207、变换处理单元1208、量化单元1209、逆量化单元1210、逆变换单元1211、重建单元1212、缓冲器1213和熵编码单元1214。
在其他示例中,视频编码器1200可以包括更多、更少或不同的功能组件。在一个示例中,预测单元1202可以包括帧内块复制(IBC)单元。IBC单元可以以IBC模式进行预测,其中,至少一个参考图片是当前视频块所位于的图片。
此外,诸如运动估计单元1204和运动补偿单元1205的一些组件可以被高度集成,但是出于解释的目的在图12的示例中分开表示。
分割单元1201可以将图片分割成一个或多个视频块。视频编码器1200和视频解码器1300可以支持各种视频块尺寸。
模式选择单元1203可以例如基于错误结果选择帧内或帧间的编解码模式中的一个,并且将得到的帧内或帧间编解码块提供到残差生成单元1207来生成残差块数据而且提供到重建单元1212来重建编解码块以被用作参考图片。在一些示例中,模式选择单元1203可以选择帧内和帧间预测的组合(CIIP)模式,其中,预测是基于帧间预测信号和帧内预测信号。模式选择单元1203还可以为帧间预测情况下的块选择运动矢量的分辨率(例如子像素或整像素精度)。
为了对当前视频块进行帧间预测,运动估计单元1204可以通过将来自缓冲器1213的一个或多个参考帧与当前视频块进行比较,生成当前视频块的运动信息。运动补偿单元1205可以基于来自缓冲器1213的图片(而不是与当前视频块相关联的图片)的运动信息和解码样点来为当前视频块确定预测的视频块。
运动估计单元1204和运动补偿单元1205可以为当前视频块进行不同操作,例如执行不同操作取决于当前视频块是在I条带、P条带还是B条带中。
在一些示例中,运动估计单元1204可以进行当前视频块的单向预测,并且运动估计单元1204可以在列表0或列表1的参考图片中搜索当前视频块的参考视频块。运动估计单元1204然后可以生成指示列表0或列表1的参考图片中含有参考视频块的参考索引以及指示在当前视频块与参考视频块之间的空域位移的运动矢量。运动估计单元1204可以输出参考索引、预测方向指示符、和运动矢量作为当前视频块的运动信息。运动补偿单元1205可以基于由当前视频块的运动信息指示的参考视频块来生成当前块的预测视频块。
在其他示例中,运动估计单元1204可以进行当前视频块的双向预测,运动估计单元1204可以在列表0的参考图片中搜索当前视频块的参考视频块并且还可以在列表1的参考图片中搜索当前视频块的另一个参考视频块。运动估计单元1204然后可以生成指示列表0或列表1的参考图片中含有参考视频块的参考索引以及指示在参考视频块与当前视频块之间的空域位移的运动矢量。运动估计单元1204可以输出参考索引和当前视频块的运动矢量作为当前视频块的运动信息。运动补偿单元1205可以基于由当前视频块的运动信息指示的参考视频块来生成当前视频块的预测视频块。
在一些示例中,运动估计单元1204可以输出运动信息的全部集合,用于解码器的解码处理。在一些示例中,运动估计单元1204可以不输出当前视频的运动信息的全部集合。而是,运动估计单元1204可以参考另一个视频块的运动信息来信令通知当前视频块的运动信息。例如,运动估计单元1204可以确定当前视频块的运动信息与相邻视频块的运动信息足够相似。
在一个示例中,运动估计单元1204可以在与当前视频块相关联的语法结构中指示:向图13的视频解码器1300指示当前视频块具有与另一个视频块相同的运动信息的值。
在另一个示例中,运动估计单元1204可以在与当前视频块相关联的语法结构中标识另一个视频块和运动矢量差(MVD)。运动矢量差指示当前视频块的运动矢量与指示视频块的运动矢量之间的差。视频解码器1300可以使用指示视频块的运动矢量和运动矢量差来确定当前视频块的运动矢量。
如上所讨论的,视频编码器1200可以预测性地信令通知运动矢量。可以由视频编码器1200实现的预测性的信令通知技术的两个示例包括高级运动矢量预测(AMVP)和merge模式信令通知。
帧内预测单元1206可以对当前视频块进行帧内预测。当帧内预测单元1206对当前视频块进行帧内预测时,帧内预测单元1206可以基于相同图片中其他视频块的解码样点来生成当前视频块的预测数据。当前视频块的预测数据可以包括预测视频块和各种语法元素。
残差生成单元1207可以通过从当前视频块中减去当前视频块的(多个)预测视频块来生成当前视频块的残差数据。当前视频块的残差数据可以包括对应于当前视频块中样点的不同样点分量的残差视频块。
在其他示例中,例如在跳过模式下,对于当前视频块可能不存在当前视频块的残差数据,并且残差生成单元1207可以不进行减去操作。
变换处理单元1208可以通过将一个或多个变换应用于与当前视频块相关联的残差视频块来生成当前视频块的一个或多个变换系数视频块。
在变换处理单元1208生成与当前视频块相关联的变换系数视频块之后,量化单元1209可以基于与当前视频块相关联的一个或多个量化参数(QP)值来量化与当前视频块相关联的变换系数视频块。
逆量化单元1210和逆变换单元1211可以将逆量化和逆变换分别应用于变换系数视频块,来从变换系数视频块重建残差视频块。重建单元1212可以将重建的残差视频块添加到来自由预测单元1202生成的一个或多个预测视频块的对应样点,以产生与当前块相关联的重建视频块用于存储在缓冲器1213中。
在重建单元1212重建视频块之后,可以进行环路滤波操作以降低视频块中视频块化伪影。
熵编码单元1214可以从视频编码器1200的其他功能组件接收数据。当熵编码单元1214接收数据时,熵编码单元1214可以进行一个或多个熵编码操作以生成熵编码数据并且输出包括熵编码数据的比特流。
图11是示出视频解码器1100的示例的框图,该视频解码器1100可以是图9中示出的系统900中的视频解码器924。
视频解码器1100可以被配置为进行本公开的任何或全部技术。在图11的示例中,视频解码器1100包括多个功能组件。本公开所描述的技术可以在视频解码器1100的各种组件之间共享。在一些示例中,处理器可以配置为进行本公开中描述的任何或全部技术。
在图13的示例中,视频解码器1300包括熵解码单元1301、运动补偿单元1302、帧内预测单元1309、逆量化单元1304、逆变换单元1305、重建单元1306和缓冲器1307。在一些示例中,视频解码器1300可以进行与关于视频编码器1200(图12)所描述的编码过程总体反演的解码过程。
熵解码单元1301可以检索编码比特流。编码比特流可以包括熵编解码视频数据(例如,视频数据的编解码块)。熵解码单元1301可以对熵编解码视频进行解码,并且根据熵解码视频数据,运动补偿单元1302可以确定包括运动矢量、运动矢量精度、参考图片列表索引和其他运动信息的运动信息。运动补偿单元1302例如可以通过进行AMVP和merge模式确定此类信息。
运动补偿单元1302可以产生运动补偿块,可能地基于插值滤波器进行插值。要以子像素精度使用的插值滤波器的标识符可以包括在语法元素中。
运动补偿单元1302可以使用由视频编码器200在编码视频块的期间所使用的插值滤波器,来计算出参考块的子整数个像素的插值的值。运动补偿单元1302可以根据接收的语法信息确定由视频编码器1200所使用的插值滤波器并且使用插值滤波器来产生预测块。
运动补偿单元1302可以使用一些语法信息来确定:用于对编码视频序列的(多个)帧和/或(多个)条带进行编码的块的尺寸,描述编码视频序列的图片的每个宏块如何被分割的分割信息,指示如何编码每个分割的模式,每个帧间编码块的一个或多个参考帧(和参考帧列表),以及对编码视频序列进行解码的其他信息。
帧内预测单元1303可以使用例如在比特流中接收的帧内预测模式来从空域相邻块形成预测块。逆量化单元1304逆量化(即去量化)在比特流中提供的且由熵解码单元1301解码的量化的视频块系数。逆变换单元1305应用逆变换。
重建单元1306可以用由运动补偿单元1302或帧内预测单元1303生成的对应预测块求和残差块,以形成解码块。如所期望的,去块滤波器还可以应用于滤波解码块以便移除块效应伪影。解码视频块然后存储在缓冲器1307中,该缓冲器1307提供用于随后的运动补偿/帧内预测的参考块,并且还产生用于在显示设备上呈现的解码视频。
图14是示例编码器1400的示意图。编码器1400适合于实现VVC技术。编码器1400包括三个环路滤波器,即去块滤波器(DF)1402、样点自适应偏移(SAO)1404和自适应环路滤波器(ALF)1406。与使用预定义滤波器的DF 1402不同,SAO 1404和ALF 1406利用当前图片的原始样点,通过分别添加偏移和应用有限脉冲响应(FIR)滤波器,利用编解码的辅助信息信令通知偏移和滤波器系数,来减小原始样点和重构样点之间的均方误差。ALF 1406位于每个图片的最后处理阶段,并且可以被视为试图捕捉和修复由先前阶段产生的伪像的工具。
编码器1400还包括帧内预测组件1408和运动估计/补偿(ME/MC)组件1410,配置为接收输入视频。帧内预测组件1408被配置成执行帧内预测,而ME/MC组件1410被配置成利用从参考图片缓冲器1412获得的参考图片来执行帧间预测。来自帧间预测或帧内预测的残差块被馈送到变换(T)组件1414和量化(Q)组件1416中,以生成量化的残差变换系数,这些系数被馈送到熵编解码组件1418中。熵编解码组件1418对预测结果和量化的变换系数进行熵编解码,并将其向视频解码器(未示出)发送。从量化组件1416输出的量化组件可以被馈送到逆量化(IQ)组件1420、逆变换组件1422和重构(REC)组件1424。REC组件1424能够将图像输出到DF 1402、SAO 1404和ALF 1406,以便在这些图像被存储在参考图片缓冲器1412中之前进行滤波。
接下来提供了一些实施例优选的解决方案的列表。
以下解决方案显示了本文讨论的技术的实例。
1.一种视觉媒体处理方法(例如,图10中描绘的方法1000),包括执行(1004)包括图片的视频和视频的比特流之间的转换,其中,图片在比特流中被编解码为依赖随机接入点(DRAP)图片;其中,比特流符合格式规则;其中,格式规则规定,补充增强信息(SEI)消息中是否包括语法元素,所述补充增强信息(SEI)消息指示与DRAP图片在相同层中、按解码顺序在DRAP图片之后并且按输出顺序在DRAP图片之前的一个或多个图片是否参考在相同层中的图片以进行帧间预测,其中,该图片按解码顺序早于DRAP图片。
2.根据解决方案1所述的方法,其中,SEI消息是DRAP指示SEI消息。
3.根据解决方案1所述的方法,其中,SEI消息不同于包括在比特流中的DRAP指示SEI消息。
4.根据解决方案2-3中任一项所述的方法,其中,格式规则规定,SEI消息的存在指示与DRAP图片在相同层中、按解码顺序在DRAP图片之后并且按输出顺序在DRAP图片之前的一个或多个图片被允许参考相同层中的图片以进行帧间预测,其中,图片按解码顺序早于DRAP图片。
5.根据解决方案2-3中任一项所述的方法,其中,格式规则规定,SEI消息的存在指示与DRAP图片在相同层中、按解码顺序在DRAP图片之后并且按输出顺序在DRAP图片之前的一个或多个图片不被允许参考相同层中的图片以进行帧间预测,其中,图片按解码顺序早于DRAP图片。
6.根据根据解决方案1-5中任一项所述的方法,其中,语法元素包括一比特标志。
以下解决方案显示了上一章节中讨论的技术的示例实施例。
7.一种视频处理的方法,包括:执行包括一个或多个图片的视频和该视频的比特流之间的转换;其中,比特流包括类型2依赖随机接入点(DRAP)图片;其中,比特流符合格式规则;其中,格式规则规定,在比特流中包括特定类型的依赖随机接入点(DRAP)指示语法消息,以指示在层中的并且按解码顺序在类型2DRAP图片之后但按输出顺序在类型2DRAP图片之前的图片是否被允许参考在层中的并且按解码顺序早于类型2DRAP图片的图片,以进行帧间预测。
8.根据解决方案7所述的方法,其中,特定类型的DRAP指示语法消息对应于类型2DRAP指示语法消息。
9.根据解决方案7所述的方法,其中,特定类型的DRAP指示语法消息对应于DRAP指示语法消息。
10.根据解决方案7-9中任一项所述的方法,其中,语法元素包括一比特标志。
以下解决方案显示了上一章节中讨论的技术的示例实施例。
11.一种视频处理的方法,包括:执行视频和视频比特流之间的转换;其中,比特流符合格式规则,该格式规则规定,是否以及如何在存储比特流的文件格式中信令通知跨随机接入点参考(CRR)。
12.根据解决方案11所述的方法,其中,格式规则定义指示CRR的样点组。
13.根据解决方案11所述的方法,其中,格式规则定义依赖随机接入点(DRAP)样点组包括CRR。
14.根据解决方案13所述的方法,其中,信令通知CRR的DRAP样点组包括信令通知CRR的版本字段或grouping_type_parameter字段。
以下解决方案显示了上一章节中讨论的技术的示例实施例。
15.一种视频处理的方法,包括:执行视频和视频比特流之间的转换;其中,比特流符合格式规则,该格式规则规定,当比特流包括依赖随机接入点(DRAP)图片时,DRAP样点条目中包括指示从DRAP样点组的成员进行随机接入所需的随机接入点(RAP)样点的数量的字段。
16.根据解决方案15所述的方法,其中,格式规则进一步规定包括指示DRAP样点组的成员的RAP标识符的另一字段。
以下解决方案显示了上一章节中讨论的技术的示例实施例。
17.根据解决方案1-16中任一项所述的方法,其中,依赖随机接入点(DRAP)样点是这样的样点,在该样点之后,在DRAP样点之前的最接近的初始样点可用于参考的情况下,按解码和输出顺序两者的所有样点都可以被正确地解码。
18.根据解决方案1-17中任一项所述的方法,还包括将比特流存储在符合文件格式的文件中。
19.根据解决方案1-17中任一项所述的方法,其中,从符合文件格式的文件中读出比特流。
20.根据解决方案18-19中任一项所述的方法,其中,文件格式是国际标准化组织基本媒体文件格式(ISOBMFF)。
21.一种视频解码装置,包括被配置为实现解决方案1至20中的一个或多个中所述的方法的处理器。
22.一种视频编码装置,包括被配置为实现解决方案1至20中的一个或多个中所述的方法的处理器。
23.一种其上存储有计算机代码的计算机程序产品,计算机代码在由处理器执行时使处理器实现解决方案1至20中任一项所述的方法。
24.一种计算机可读介质,其上记录有符合根据解决方案1至20中任一项生成的比特流格式的比特流。
25.一种方法,包括根据解决方案1至20中任一项所述的方法生成比特流,并将该比特流写入计算机可读介质。
26.本文档中描述的方法、装置或系统。
在本文所述的解决方案中,编码器可通过根据格式规则产生编解码表示来符合格式规则。在本文描述的解决方案中,解码器可以使用格式规则来解析编解码表示中的语法元素,根据格式规则知道语法元素的存在和不存在,以产生解码的视频。
在本文档中,术语“视频处理”可指视频编码、视频解码、视频压缩或视频解压缩。例如,在从视频的像素表示到对应的比特流表示的转换期间,可以应用视频压缩算法,反之亦然。如语法所定义,当前视频块的比特流表示可(例如)对应于共位或散布在比特流内不同位置的比特。例如,可以根据变换和编解码的误差残差值并且还使用头中的比特和比特流中的其他字段,对宏块进行编码。此外,在转换期间,解码器可以基于该确定,在知道一些字段可能存在或不存在的情况下解析比特流,如以上解决方案中所述。类似地,编码器可确定包括或不包括某些语法字段,并通过从编解码表示中包括或排除语法字段来相应地生成编解码表示。
本文档中所述的公开和其他方案、示例、实施例、模块和功能操作可以被实现在数字电子电路中或者在计算机软件、固件或硬件中,含有本文档中所公开的结构以及其结构的等同物,或者它们中的一个或多个的组合。所公开的和其他实施例可以被实现为计算机可读介质上所编码的一个或多个计算机程序产品,即一个或多个计算机程序指令模块,用于由数据处理装置执行或者控制数据处理装置的操作。该计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储器设备、影响机器可读可传播信号的复合物,或其一个或多个的组合。术语“数据处理装置”涵盖用于处理数据的所有装置、设备和机器,包括例如可编程处理器、计算机或多个处理器或计算机。除了硬件之外,该装置还可以包括为所讨论的计算机程序创建执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统、或者它们中的一个或多个的组合的代码。传播信号是人工生成的信号,例如,机器生成的电、光或电磁信号,其被生成来编码信息以传输到合适的接收器装置。
计算机程序(也称为程序、软件、软件应用、脚本或代码)可以用任何形式的编程语言编写,包括编译或解释语言,并且可以以任何形式来部署计算机程序,包括独立程序或适合在计算环境中使用的模块、组件、子例程或其它单元。计算机程序不必须对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的部分中(例如,在标记语言文档中存储的一个或多个脚本)、在专用于所讨论的程序的单个文件中、或在多个协同文件中(例如存储一个或多个模块、子程序或代码部分的文件)。计算机程序可以部署为在一个计算机上或者在多个计算机上执行,该多个计算机位于一个站点处或者分布跨多个站点并由通信网络互连。
可以由执行一个或多个计算机程序的一个或多个可编程处理器来进行在本文档中所描述的过程和逻辑流,以通过在输入数据上操作并且生成输出来进行功能。也可以由专用逻辑电路(例如,现场可编程门阵列(FPGA)或专用集成电路(ASIC))进行过程和逻辑流,并且装置可以实现为专用逻辑电路(例如FPGA或ASIC)。
适合于计算机程序的执行的处理器包括例如通用和专用微处理器两者,以及任何类型的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或者该两者接收指令和数据。计算机的基本元件是用于进行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个海量存储设备(例如磁、磁光盘或光盘),或者可操作地耦合以从海量存储设备(例如磁、磁光盘或光盘)接收数据或者将数据传输到海量存储设备(例如磁、磁光盘或光盘),或者以上两者。但是,计算机不必具有此类设备。适用于存储计算机程序指令和数据的计算机可读介质含有所有形式的非易失性存储器、介质和存储器设备,含有例如半导体存储器设备(例如可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)和闪速存储器设备);磁盘(例如内部硬盘或可移动磁盘);磁光盘;和光盘只读存储器(CD ROM)和数字多功能光盘只读存储器(DVD-ROM)盘。处理器和存储器可以由专用逻辑电路补充,或者合并在专用逻辑电路中。
虽然本专利文档含有许多细节,但这些细节不应被解释为对任何主题或可要求保护的范围的限制,而是作为规定于特定技术的特定实施例的特征的描述。在本专利文档中,在单独的实施例的上下文中描述的某些特征也可以在单个实施例中组合实现。相反地,在单个实施例的上下文中所描述的各种特征还可以分别在多个实施例中来实现或者以各种合适的子组合来实现。此外,尽管特征可以如上文描述为以某些组合起作用并且甚至最初同样地要求,但是在某些情况下来自所要求保护的组合的一个或多个特征可以从组合中去除,并且所要求保护的组合可以针对子组合或子组合的变化。
类似地,尽管在附图中以特定顺序描绘了操作,但这不应当理解为要求按所示的特定次序或顺序次序进行此类操作或者进行所有示出的操作,以实现期望的结果。此外,在本专利文档中描述的实施例中的各种系统组件的分开不应被理解为在所有实施例中都要求这种分开。
仅描述了几个实现方式和示例,并且可以基于本专利文档中描述和示出的内容来作出其它实现方式、增强和变型。
当除了第一组件和第二组件之间的线、迹线或另一种介质之外,不存在中间组件时,第一组件直接耦合至第二组件。当在第一组件和第二组件之间存在除了线、迹线或另一种介质之外的中间组件时,第一组件间接耦合到第二组件。术语“耦合”及其变体包括直接耦合和间接耦合。除非另有说明,术语“约”的使用意味着包括后续数值的10%的范围。
虽然本公开中提供了若干实施例,但应理解,在不脱离本公开的精神或范围的情况下,所公开的系统和方法可体现为许多其他特定形式。当前的示例被认为是说明性的而非限制性的,并且意图不限于这里给出的细节。例如,各种元件或组件可以组合或集成在另一个系统中,或者可以省略或不实现某些特征。
此外,在不脱离本公开的范围的情况下,各种实施例中描述和说明的离散或单独的技术、系统、子系统和方法可与其他系统、模块、技术或方法组合或集成。被示出或讨论为耦合的其他项目可以直接连接,或者可以通过一些接口、设备或中间组件以电、机械或其他方式间接耦合或通信。本领域的技术人员可以确定改变、替换和变更的其他示例,并且可以在不脱离这里公开的精神和范围的情况下进行这些改变、替换和变更。

Claims (22)

1.一种处理视频数据的方法,包括:
确定DRAP样点组中的依赖随机接入点DRAP样点条目,其中,所述DRAP样点条目描述一个或多个DRAP样点;以及
基于所述DRAP样点条目执行视觉媒体数据和视觉媒体数据文件之间的转换。
2.根据权利要求1所述的方法,其中,所述视觉媒体数据文件采用国际标准化组织ISO基本媒体文件格式ISOBMFF。
3.根据权利要求1-2中任一项所述的方法,其中,所述DRAP样点条目包括指示从所述DRAP样点组的成员随机接入所需的随机接入点RAP样点的数量的字段。
4.根据权利要求1-3中任一项所述的方法,其中,所述RAP样点包括初始样点。
5.根据权利要求1-4中任一项所述的方法,其中,所述RAP样点包括DRAP样点。
6.根据权利要求1-5中任一项所述的方法,其中,在每个DRAP样点之后,当所述DRAP样点之前的最接近的初始样点可用于参考时,所有样点按解码顺序和输出顺序都可以被正确解码。
7.根据权利要求1-6中任一项所述的方法,其中,所述DRAP样点条目包括指示所述DRAP样点组的成员的一个或多个RAP标识符的一个或多个字段。
8.根据权利要求1-7中任一项所述的方法,其中,指示所述RAP标识符的字段均使用16比特进行编解码。
9.根据权利要求1-7中任一项所述的方法,其中,指示所述RAP标识符的字段均使用32比特进行编解码。
10.根据权利要求1-9中任一项所述的方法,其中,所述视觉媒体数据文件包括子样点信息框,并且其中,所述子样点信息框包括指示所述DRAP样点组的成员的一个或多个RAP标识符的一个或多个字段。
11.根据权利要求1-10中任一项所述的方法,其中,所述视觉媒体数据文件包括样点辅助信息尺寸框,并且其中,所述样点辅助信息尺寸框包括指示所述DRAP样点组的成员的一个或多个RAP标识符的一个或多个字段。
12.根据权利要求1-11中任一项所述的方法,其中,每个RAP标识符是样点号。
13.根据权利要求1-12中任一项所述的方法,其中,所述DRAP样点条目包括一个或多个字段,所述一个或多个字段指示从所述DRAP样点组的成员随机接入所需的样点的RAP标识符。
14.根据权利要求1-13中任一项所述的方法,其中,所述样点的RAP标识符直接指示相关联的样点。
15.根据权利要求1-14中任一项所述的方法,其中,所述样点的RAP标识符指示两个RAP样点的标识符之间的差。
16.根据权利要求1-15中任一项所述的方法,其中,所述字段中的第i个字段指示当前样点的标识符和第一个所需RAP样点的第i个标识符之间的差。
17.根据权利要求1-16中任一项所述的方法,其中,所述字段中的第i个字段指示第i-1个所需RAP样点的标识符和第i个所需RAP样点的标识符之间的差。
18.根据权利要求1-17中任一项所述的方法,其中,所述字段中的第i个字段指示第i个所需RAP样点的标识符和第i-1个所需RAP样点的标识符之间的差。
19.根据权利要求1-18中任一项所述的方法,其中,所述转换包括根据所述视觉媒体数据生成所述视觉媒体数据文件。
20.根据权利要求1-18中任一项所述的方法,其中,所述转换包括解析所述视觉媒体数据文件以获得所述视觉媒体数据。
21.一种处理视频数据的装置,包括处理器和其上具有指令的非暂时性存储器,其中,所述指令在由所述处理器执行时使所述处理器执行权利要求1-20中任一项所述的方法。
22.一种非暂时性计算机可读介质,包括供视频编解码设备使用的计算机程序产品,所述计算机程序产品包括存储在所述非暂时性计算机可读介质上的计算机可执行指令,所述计算机可执行指令在由处理器执行时使所述视频编解码设备执行权利要求1-20中任一项所述的方法。
CN202180088323.9A 2020-12-28 2021-12-28 依赖随机接入点样点条目的信令通知 Pending CN116746150A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CNPCT/CN2020/139893 2020-12-28
CN2020139893 2020-12-28
PCT/CN2021/141940 WO2022143616A1 (en) 2020-12-28 2021-12-28 Dependent random access point sample entry signaling

Publications (1)

Publication Number Publication Date
CN116746150A true CN116746150A (zh) 2023-09-12

Family

ID=82259071

Family Applications (3)

Application Number Title Priority Date Filing Date
CN202180088315.4A Pending CN116724549A (zh) 2020-12-28 2021-12-28 跨随机接入点样点组
CN202180088323.9A Pending CN116746150A (zh) 2020-12-28 2021-12-28 依赖随机接入点样点条目的信令通知
CN202180088309.9A Pending CN116711314A (zh) 2020-12-28 2021-12-28 视频编解码中的跨随机接入点信令通知

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202180088315.4A Pending CN116724549A (zh) 2020-12-28 2021-12-28 跨随机接入点样点组

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202180088309.9A Pending CN116711314A (zh) 2020-12-28 2021-12-28 视频编解码中的跨随机接入点信令通知

Country Status (6)

Country Link
US (3) US20230345053A1 (zh)
EP (3) EP4252420A4 (zh)
JP (3) JP2024500549A (zh)
KR (3) KR20230127981A (zh)
CN (3) CN116724549A (zh)
WO (3) WO2022143615A1 (zh)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101998142A (zh) * 2009-08-10 2011-03-30 华为技术有限公司 一种实现盒式录像机操作的方法、设备和系统
US9967583B2 (en) * 2012-07-10 2018-05-08 Qualcomm Incorporated Coding timing information for video coding
US10542288B2 (en) * 2014-06-18 2020-01-21 Telefonaktiebolaget Lm Ericsson (Publ) Random access in a video bitstream
WO2015192990A1 (en) * 2014-06-18 2015-12-23 Telefonaktiebolaget L M Ericsson (Publ) Dependent random access point pictures
MY185338A (en) * 2015-02-04 2021-05-06 Ericsson Telefon Ab L M Drap identification and decoding
GB2583885A (en) * 2018-09-20 2020-11-18 Canon Kk Method, device, and computer program for improving transmission of encoded media data
CN111526368B (zh) * 2019-02-03 2021-09-03 华为技术有限公司 视频解码方法、视频编码方法、装置、设备及存储介质
KR20230129008A (ko) * 2021-01-06 2023-09-05 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 교차 랜덤 액세스 포인트 시그널링 향상

Also Published As

Publication number Publication date
EP4252425A1 (en) 2023-10-04
EP4252424A4 (en) 2024-05-29
EP4252424A1 (en) 2023-10-04
WO2022143615A1 (en) 2022-07-07
US20230345032A1 (en) 2023-10-26
US20230345007A1 (en) 2023-10-26
EP4252420A1 (en) 2023-10-04
JP2024500550A (ja) 2024-01-09
CN116711314A (zh) 2023-09-05
JP2024500549A (ja) 2024-01-09
CN116724549A (zh) 2023-09-08
EP4252420A4 (en) 2024-06-05
KR20230127983A (ko) 2023-09-01
WO2022143614A1 (en) 2022-07-07
KR20230127981A (ko) 2023-09-01
JP2024501329A (ja) 2024-01-11
WO2022143616A1 (en) 2022-07-07
EP4252425A4 (en) 2024-05-15
KR20230127982A (ko) 2023-09-01
US20230345053A1 (en) 2023-10-26

Similar Documents

Publication Publication Date Title
JP7433280B2 (ja) ビデオストリームにおける従属ランダムアクセスポイント指示
JP7222043B2 (ja) ビデオコーディングにおけるデコード機能情報のストレージ
WO2022148269A1 (en) Cross random access point signaling enhancements
CN116648918A (zh) 视频解码器初始化信息
WO2022143614A1 (en) Cross random access point signaling in video coding
CN114760476B (zh) 视频解码器初始化信息信令
CN116547971A (zh) Vvc视频编解码中的滚动样点组
WO2024072750A1 (en) Enhanced signalling of lost or corrupted samples in a media file

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination