CN114205610A - 视频编解码中的解码能力信息存储 - Google Patents

视频编解码中的解码能力信息存储 Download PDF

Info

Publication number
CN114205610A
CN114205610A CN202111095947.1A CN202111095947A CN114205610A CN 114205610 A CN114205610 A CN 114205610A CN 202111095947 A CN202111095947 A CN 202111095947A CN 114205610 A CN114205610 A CN 114205610A
Authority
CN
China
Prior art keywords
video
track
visual media
sample
media file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111095947.1A
Other languages
English (en)
Inventor
王业奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lemon Inc Cayman Island
Original Assignee
Lemon Inc Cayman Island
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lemon Inc Cayman Island filed Critical Lemon Inc Cayman Island
Publication of CN114205610A publication Critical patent/CN114205610A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/174Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a slice, e.g. a line of blocks or a group of blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/188Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a video data packet, e.g. a network abstraction layer [NAL] unit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • H04N19/423Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation characterised by memory arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream

Abstract

本申请涉及一种视频编解码中的解码能力信息存储,描述了用于编码或解码存储一个或多个图像的文件格式的系统、方法和装置。一个示例方法包括根据格式规则来执行可视媒体文件和可视媒体数据的比特流之间的转换,其中格式规则规定样点条目的类型确定解码能力信息网络抽象层单元是被包括在可视媒体文件中的视频轨道的样点条目中还是被包括在可视媒体文件中的视频轨道的样点和视频轨道的样点条目中。

Description

视频编解码中的解码能力信息存储
相关申请的交叉引用
根据适用的专利法和/或符合巴黎公约的规则,本申请是为了及时要求2020年9月17日提交的美国临时专利申请No.63/079,869的优先权和利益。出于根据法律的所有目的,前述申请的全部公开内容通过引用而并入作为本申请的公开内容的一部分。
技术领域
本专利文档涉及文件格式的数字音频视频媒体信息的生成、存储和消费。
背景技术
数字视频占互联网和其他数字通信网络上最大的带宽使用。随着能够接收和显示视频的连接用户设备的数量增加,预期数字视频使用的带宽需求将继续增长。
发明内容
本文档公开了可以由视频编码器和解码器用于根据文件格式处理视频或图像的编解码表示的技术。
在一个示例方面,公开了一种视频处理方法。该方法包括根据格式规则来执行可视媒体文件和可视媒体数据的比特流之间的转换,其中格式规则规定控制信息项是否被包括在可视媒体文件的非视频编解码层轨道中的条件,并且其中可视媒体文件中非视频编解码层轨道的存在由可视媒体文件的视频编解码层轨道中的特定轨道参考来指示。
在另一个示例方面,公开了一种视频处理方法。该方法包括根据格式规则来执行可视媒体文件和可视媒体数据的比特流之间的转换,其中格式规则规定样点条目的类型确定解码能力信息网络抽象层单元是被包括在可视媒体文件中的视频轨道的样点条目中还是被包括在可视媒体文件中的视频轨道的样点和视频轨道的样点条目中。
在另一个示例方面,公开了一种视频处理方法。该方法包括根据格式规则来执行可视媒体数据和存储对应于可视媒体数据的信息的文件之间的转换;其中格式规则规定识别文件的非视频编解码层(VCL)轨道的第一条件和/或识别文件的VCL轨道的第二条件。
在又一个示例方面,公开了一种视频编码器装置。视频编码器包括被配置为实施上述方法的处理器。
在又一个示例方面,公开了一种视频解码器装置。视频解码器包括被配置为实施上述方法的处理器。
在又一个示例方面,公开了一种存储有代码的计算机可读介质。该代码以处理器可执行代码的形式体现本文描述的方法之一。
在又一个示例方面,公开了一种存储有比特流的计算机可读介质。该比特流是使用本文档中描述的方法来生成或处理的。
贯穿本文档描述了这些以及其他特征。
附图说明
图1是示例视频处理系统的框图。
图2是视频处理装置的框图。
图3是视频处理的示例方法的流程图。
图4是示出根据本公开的一些实施例的视频编解码系统的框图。
图5是示出根据本公开的一些实施例的编码器的框图。
图6是示出根据本公开的一些实施例的解码器的框图。
图7示出了编码器框图的示例。
图8至图9是视频处理的示例方法的流程图。
具体实施方式
为了便于理解,在本文档中使用了章节标题,并且不将每个章节中公开的技术和实施例的适用性仅限于该章节。此外,在一些描述中使用H.266术语仅仅是为了便于理解,而不是为了限制所公开的技术的范围。这样,本文描述的技术也适用于其他视频编解码器协议和设计。在本文档中,相对于VVC规范或ISOBMFF文件格式规范的当前草案,通过左右双括号(其指示双括号之间的文本是被删除的文本)(例如,[[]]),并且通过粗体斜体文本(其指示添加的文本)来示出对文本的编辑改变。
1.简要讨论
本文档涉及视频文件格式。具体地,本文档涉及基于ISO基媒体文件格式(ISOBMFF)的媒体文件中的通用视频编解码(VVC)视频比特流的图片头(picture header,PH)、自适应参数集(adaptation parameter set,APS)、解码能力信息(decodingcapability information,DCI)和操作点信息(operating point information,OPI)网络抽象层(network abstraction layer,NAL)单元的信令通知和存储。这些想法可以单独或以各种组合应用于由任何编解码器(例如,VVC标准)编解码的视频比特流,并应用于任何视频文件格式(例如,正在开发的VVC视频文件格式)。
2.缩写
ACT 自适应颜色变换
ALF 自适应环路滤波器
AMVR 自适应运动矢量分辨率
APS 自适应参数集
AU 访问单元
AUD 访问单元分割符
AVC 高级视频编解码(Rec.ITU-T H.264|ISO/IEC 14496-10)
B 双向预测
BCW 利用CU级别权重的双向预测
BDOF 双向光流
BDPCM 基于块的增量脉冲编解码调制
BP 缓冲时段
CABAC 基于上下文的自适应二进制算术编解码
CB 编解码块
CBR 恒定比特率
CCALF 跨分量自适应环路滤波器
CPB 编解码图片缓冲区
CRA 干净随机访问(clean random access)
CRC 循环冗余校验
CTB 编解码树块
CTU 编解码树单元
CU 编解码单元
CVS 编解码视频序列
DPB 解码图片缓冲区
DCI 解码能力信息
DRAP 依赖随机接入点
DU 解码单元
DUI 解码单元信息
EG 指数哥伦布(Golomb)
EGk k阶指数哥伦布
EOB 比特流结束
EOS 序列结束
FD 填充数据
FIFO 先进先出
FL 固定长度
GBR 绿色、蓝色和红色
GCI 一般约束信息
GDR 逐渐解码刷新
GPM 几何分割模式
HEVC 高效视频编解码(Rec.ITU-T H.265|ISO/IEC 23008-2)
HRD 假设参考解码器
HSS 假设流调度器
I 帧内
IBC 帧内块复制
IDR 即时解码刷新
ILRP 层间参考图片
IRAP 帧内随机接入点
LFNST 低频不可分变换
LPS 最不可能符号
LSB 最低有效位
LTRP 长期参考图片
LMCS 带有色度缩放的亮度映射
MIP 基于矩阵的帧内预测
MPS 最大可能符号
MSB 最高有效位
MTS 多变换选择
MVP 运动矢量预测
NAL 网络抽象层
OLS 输出层集
OP 操作点
OPI 操作点信息
P 预测
PH 图片头
POC 图片顺序计数
PPS 图片参数集
PROF 利用光流的预测细化
PT 图片时序
PU 图片单元
QP 量化参数
RADL 随机访问可解码引导(图片)
RASL 随机访问跳过引导(图片)
RBSP 原始字节序列有效载荷
RGB 红色、绿色和蓝色
RPL 参考图片列表
SAO 样点自适应偏移
SAR 样点纵横比
SEI 补充增强信息
SH 条带头
SLI 子图片级别信息
SODB 数据位串
SPS 序列参数集
STRP 短期参考图片
STSA 逐步时域子层访问
TR 截断莱斯(truncated rice)
VBR 可变比特率
VCL 视频编解码层
VPS 视频参数集
VSEI 通用补充增强信息(Rec.ITU-T H.274|ISO/IEC 23002-7)
VUI 视频可用性信息
VVC 通用视频编解码(Rec.ITU-T H.266|ISO/IEC 23090-3)
3.视频编解码介绍
3.1.视频编解码标准
视频编解码标准已经主要通过众所周知的ITU-T和ISO/IEC标准的开发而演变。ITU-T制定了H.261和H.263,ISO/IEC制定了MPEG-1和MPEG-4Visual,并且这两个组织联合制定了H.262/MPEG-2视频和H.264/MPEG-4高级视频编解码(AVC)和H.265/HEVC标准。自H.262以来,视频编解码标准基于混合视频编解码结构,其中利用了时域预测加变换编解码。为了探索超越HEVC的未来视频编解码技术,由VCEG和MPEG在2015年联合创立了联合视频探索小组(JVET)。此后,许多新的方法已经被JVET采用,并被放入名为联合探索模型(JEM)的参考软件中。当通用视频编解码(VVC)项目正式启动时,JVET后来被重命名为联合视频专家小组(JVET)。VVC是已经由JVET在2020年7月1日结束的第19次会议上最终确定的新编解码标准,其目标是与HEVC相比降低50%的比特率。
通用视频编解码(VVC)标准(ITU-T H.266|ISO/IEC 23090-3)和相关联的通用补充增强信息(VSEI)标准(ITU-T H.274|ISO/IEC 23002-7)已经被设计用于最广泛范围的应用,包括传统用途(诸如电视广播、视频会议或从存储介质回放)以及更新和更高级的用例(诸如自适应比特率流式传输、视频区域提取、来自多个编解码视频比特流的内容的合成和合并、多视图视频、可缩放分层编解码和视口自适应360°沉浸式媒体)。
3.2.文件格式标准
媒体流式传输应用通常基于IP、TCP和HTTP传输方法,并且通常依赖于诸如ISO基媒体文件格式(ISOBMFF)的文件格式。一个这样的流式传输系统是基于HTTP的动态自适应流式传输(DASH)。为了使用具有ISOBMFF和DASH的视频格式,需要一个特定于视频格式的文件格式规范(诸如AVC文件格式和HEVC文件格式),用于将视频内容封装在ISOBMFF轨道以及DASH表示和片段中。关于视频比特流的重要信息(例如,档次、层和级别、以及许多其他信息)将需要作为文件格式级别元数据和/或DASH媒体呈现描述(media presentationdescription,MPD)来展示,以用于内容选择目的,例如用于选择适当的媒体片段以用于在流式会话的开始处的初始化和流式会话期间的流自适应。
类似地,为了使用具有ISOBMFF的图像格式,将需要特定于图像格式的文件格式规范,诸如AVC图像文件格式和HEVC图像文件格式。
VVC视频文件格式(用于基于ISOBMFF存储VVC视频内容的文件格式)当前正由MPEG开发。
VVC图像文件格式(用于基于ISOBMFF存储使用VVC编解码的图像内容的文件格式)当前正由MPEG开发。
3.3.VVC中的PH、APS、DCI和OPI NAL单元
一些新类型的NAL单元已经被引入VVC,包括PH、APS、DCI和OPI NAL单元。
3.3.1.自适应参数集(APS)
自适应参数集(APS)传达图片级别和/或条带级别信息,该信息可以通过图片的多个条带和/或不同图片的条带共享,但是可以跨图片频繁改变,并且变体的总数可以很高,因此不适合包括到PPS中。APS中包括三种类型的参数:自适应环路滤波器(ALF)参数、带有色度缩放的亮度映射(LMCS)参数、以及缩放列表参数。APS可以在两种不同的NAL单元类型中携带,在相关联的条带前面或后面作为前缀或后缀。后者可以在超低延迟场景中有所帮助,例如,允许编码器在基于图片生成ALF参数之前发送图片的条带,该ALF参数将由后续图片按解码顺序使用。
3.3.2.图片头(PH)
每个PU都存在图片头(PH)结构。PH存在于单独的PH NAL单元中或者被包括在条带头(SH)中。如果PU仅由一个条带组成,则只能将PH包括在SH中。为了简化设计,在CLVS内,PH只能全部在PH NAL单元中或者全部在SH中。当PH在SH中时,在CLVS中没有PH NAL单元。
为两个目标设计PH。第一,通过携带对于图片的所有条带具有相同值的所有参数,从而不在每个SH中重复相同的参数,来帮助减少每个图片包含多个条带的图片的SH的信令开销。这些包括IRAP/GDR图片指示、帧间/帧内条带允许标志以及与POC、RPL、去方块滤波器、SAO、ALF、LMCS、缩放列表、QP增量、加权预测、编解码块分割、虚拟边界、并置图片等相关的信息。第二,帮助解码器识别包含多个条带的每个编解码图片的第一条带。由于对于每个PU,存在一个并且仅存在一个PH,因此当解码器接收到PH NAL单元时,它很容易知道下一个VCL NAL单元是图片的第一条带。
3.3.3.解码能力信息(DCI)
DCI NAL单元包含比特流级别PTL信息。DCI NAL单元包括一个或多个PTL语法结构,其可以在VVC比特流的发送者和接收者之间的会话协商期间使用。当VVC比特流中存在DCI NAL单元时,比特流的CVS中的每个输出层集(OLS)应当符合DCI NAL单元中的至少一个PTL结构中携带的PTL信息。
在AVC和HEVC中,会话协商的PTL信息在SPS(对于HEVC和AVC)和VPS(对于HEVC分层扩展)中可用。这种在HEVC和AVC中传达会话协商的PTL信息的设计具有缺点,因为SPS和VPS的范围在CVS内,而不是在整个比特流内。因此,发送者-接收者会话发起可能在每个新的CVS的比特流流式传输期间遭受重新发起。DCI解决了这个问题,因为它携带比特流级别信息,因此,可以保证符合指示的解码能力,直到比特流结束。
3.3.4.操作点信息(OPI)
HEVC和VVC的解码过程具有类似的输入变量,以通过解码器API设置解码操作点,即要被解码的比特流的目标OLS和最高子层。然而,在比特流的层和/或子层在传输期间被移除或者设备没有将解码器API暴露给应用的场景中,可能发生解码器不能被正确通知解码器处理给定比特流的操作点。因此,解码器可能无法对比特流中的图片的属性得出结论,例如,解码后的图片的正确缓冲区分配以及是否输出单独的图片。为了解决这个问题,VVC通过新引入的操作点信息(OPI)NAL单元,在比特流内添加指示这两个变量的模式。在比特流的开始处的AU及其单独的CVS中,OPI NAL单元通知解码器要被解码的比特流的目标OLS和最高子层。
在存在OPI NAL单元并且还经由解码器API信息将操作点提供给解码器(例如,应用可以具有关于目标OLS和子层的更多更新信息)的情况下,解码器API信息优先。在比特流中没有解码器API和任何OPI NAL单元的情况下,VVC中规定了合适的后备选择,以允许正确的解码器操作。
3.4.VVC视频文件格式的一些细节
3.4.1.轨道的类型
VVC视频文件格式规定了在ISOBMFF文件中携带VVC比特流的以下类型的视频轨道:
a)VVC轨道:
VVC轨道通过在其样点和样点条目中包括NAL单元,并且可能通过参考包含VVC比特流的其他子层的其他VVC轨道,并且可能通过参考VVC子图片轨道,来表示VVC比特流。当VVC轨道参考VVC子图片轨道时,它被称为VVC基准轨道。
b)VVC非VCL轨道:
携带ALF、LMCS或缩放列表参数的APS以及其他非VCL NAL单元可以被存储在与包含VCL NAL单元的轨道分开的轨道中并通过该轨道传输;这是VVC非VCL轨道。
c)VVC子图片轨道:
VVC子图片轨道包含以下任一项:
一个或多个VVC子图片的序列。
形成矩形区域的一个或多个完整条带的序列。
VVC子图片轨道的样点包含以下任一项:
如ISO/IEC 23090-3所规定的按照解码顺序连续的一个或多个完整子图片。
如ISO/IEC 23090-3所规定的形成矩形区域并按照解码顺序连续的一个或多个完整条带。
VVC子图片轨道的任何样点中包括的VVC子图片或条带按照解码顺序连续。
注:VVC非VCL轨道和VVC子图片轨道使得能够如下在流式传输应用中最优递送VVC视频。这些轨道可以各自携带在它们自己的DASH表示中,并且对于轨道子集的解码和渲染,可以由客户端逐段请求包含VVC子图片轨道子集的DASH表示以及包含非VCL轨道的DASH表示。这样,可以避免APS和其他非VCL NAL单元的冗余传输。
3.4.2.VVC基本流结构
为存储VVC内容定义了三种类型的基本流:
视频基本流,不包含任何参数集;所有参数集都被存储在样点条目或多个样点条目中;
视频和参数集基本流,可以包含参数集,并且也可以在其样点条目或多个样点条目中存储参数集;
非VCL基本流,包含与视频轨道中携带的基本流同步的非VCL NAL单元。
注:VVC非VCL轨道在其样点条目中不包含参数集。
3.4.3.解码器配置信息样点组
3.4.3.1.定义
该样点组的样点组描述条目包含DCI NAL单元。映射到相同的解码器配置信息样点组描述条目的所有样点属于相同的VVC比特流。
该样点组指示相同的DCI NAL单元是否用于VVC轨道中的不同样点条目,即属于不同样点条目的样点是否属于相同的VVC比特流。当两个样点条目的样点被映射到相同的解码器配置信息样点组描述条目时,播放器可以切换样点条目,而无需重新初始化解码器。
如果任何样点条目或带内存在任何DCI NAL单元,则该单元应当与解码器配置信息样点组中包括的DCI NAL单元完全相同。
3.4.3.2.语法
class DecoderConfigurationInformation extends VisualSampleGroupEntry
('dcfi'){
unsigned int(16)dciNalUnitLength;
bit(8*nalUnitLength)dciNalUnit;
}
3.4.3.3.语义
dciNalUnitLength指示DCI NAL单元的字节长度。
dciNalUnit包含如ISO/IEC 23090-3所规定的DCI NAL单元。
4.由所公开的技术解决方案解决的示例技术问题
VVC视频文件格式关于PH、APS、DCI和OPI NAL单元的信令通知的最新设计具有以下问题:
1)VVC基准轨道和VVC非VCL轨道两者都不应当包含VCL NAL单元。然而,VVC非VCL轨道的当前定义也将适用于VVC基准轨道。此外,根据目前定义,VVC非VCL轨道总是包含APSNAL单元。然而,这将不允许非VCL NAL单元包含图片头NAL单元以及可能地其他非VCL NAL单元,但不包括APS NAL单元。
允许这样的VVC非VCL轨道将使得能够在文件中最优存储基于可提取子图片的单层比特流,以用于当不同的子图片使用不同的APS集合时子图片轨道的后期带化(late-banding),例如,通过具有一个PH轨道(作为非VCL轨道,尽管它包含与VVC基准轨道相同的信息)、多个APS轨道(作为VVC非VCL轨道)和各自包含子图片序列的多个VVC子图片轨道。
2)APS NAL单元全部被存储在一个VVC非VCL轨道或VVC轨道中。换句话说,APS NAL单元不能被存储在多于一个轨道中。这适用于包含LMCS参数的APS NAL单元(即,LMCS APS)或包含缩放列表(SL)参数的APS NAL单元(即SL APS),但不适用于包含ALF参数的APS NAL单元(即,ALF APS)。因为不同的VVC子图片轨道可以使用不同的ALF APS集合,所以期望使得多个VVC非VCL轨道能够携带VVC比特流的ALF APS。
3)视频基本流以及视频和参数集基本流的定义中不考虑DCI NAL单元。因此,视频基本流不包含参数集,但可以包含DCI NAL单元。
4)非VCL基本流的定义不排除在非VCL基本流中包含VCL NAL单元的可能性。
5)解码器配置信息样点组提供了对于DCI NAL单元的信令通知的机制。然而,存在以下问题:
a.在最常见的用例中,轨道的所有样点将属于相同的比特流(或者共享相同的DCI,而不管比特流的数量)。对于这种情况,通过样点组信令算出适用的DCI是复杂的。
b.据说映射到相同的解码器配置信息样点组描述条目的所有样点属于相同的VVC比特流。然而,这不允许属于多个VVC比特流(例如,由EOB NAL单元确定)但在相同轨道中的样点共享相同的DCI NAL单元,即使当它们可以共享时。
6)不允许OPI NAL单元被包括在样点条目描述中。然而,在许多情况下,当OPI NAL单元存在于VVC比特流中时,OPI NAL单元应该被类似地视为参数集,因此应该允许它们被包括在样点条目描述中。
5.示例解决方案和实施例
为了解决以上问题和其他问题,公开了如下总结的方法。这些项应该被认为是解释一般构思的示例,并且不应该被狭义地解释。此外,这些项可以单独地或以任何方式组合应用。
1)为了解决问题1和2,提出了以下项中的一个或多个:
a.VVC非VCL轨道被定义为仅包含非VCL NAL单元的轨道,并且由VVC轨道通过“vvcN”轨道参考来指代。
b.规定了VVC非VCL轨道可以包含被存储在与包含VCL NAL单元的轨道分开的轨道中并通过该轨道传输的APS,其携带ALF、LMCS或缩放列表参数,有或没有其他非VCL NAL单元。
c.规定了VVC非VCL轨道也可以包含被存储在与包含VCL NAL单元的轨道分开的轨道中并通过该轨道传输的图片头NAL单元,有或没有APS NAL单元,并且有或没有其他非VCLNAL单元。
d.规定了视频流的图片头NAL单元可以被存储在VVC轨道的样点或VVC非VCL轨道的样点中,但不同时存储在两者中。
2)为了解决问题3,提出了以下项中的一个或多个:
a.视频基本流被定义为包含VCL NAL单元并且不包含任何参数集、DCI或OPI NAL单元的基本流;所有参数集、DCI和OPI NAL单元都被存储在样点条目中。
i.可替代地,视频基本流被定义为包含VCL NAL单元并且不包含任何参数集或DCINAL单元的基本流;所有参数集和DCI NAL单元都被存储在样点条目中。
b.将DCI NAL单元视为与参数集完全相同,即,DCI NAL单元可以仅在视频轨道的样点条目中(例如,当样点条目类型名称为“vvc1”时),或者可以在视频轨道的样点和样点条目中的一者或两者中(例如,当样点条目类型名称为“vvi1”时)。
3)为了解决问题4,规定了非VCL基本流是仅包含非VCL NAL单元的基本流,并且这些非VCL NAL单元与视频轨道中携带的基本流同步。
4)为了解决问题5,提出了以下项中的一个或多个:
a.对于轨道的所有样点属于相同的比特流(或者共享相同的DCI,而不管比特流的数量)的情况,DCI NAL单元可以在轨道级别盒(track level box)(例如,轨道头盒、轨道级别元盒或另一轨道级别盒)中被信令通知。
b.允许属于多个VVC比特流(例如,由EOB NAL单元确定)但在相同轨道中的样点属于相同的解码器配置信息样点组,并因此共享相同的解码器配置信息样点组描述条目。
5)为了解决问题6,允许OPI NAL单元被包括在样点条目描述中,例如,作为解码器配置记录中的非VCL NAL单元阵列之一。
a.可替代地,将OPI NAL单元视为与参数集完全相同,即,OPI NAL单元可以仅在视频轨道的样点条目中(例如,当样点条目类型名称为“vvc1”时),或者可以在视频轨道的样点和样点条目中的一者或两者中(例如,当样点条目类型名称为“vvi1”时)。
6.实施例
以下是上面章节5中总结的一些发明方面的一些示例实施例,其可以被应用于VVC视频文件格式的标准规范。改变的文本基于最新的草案规范。已经添加或修改的大多数相关部分通过粗体斜体文本指示,并且一些删除的部分通过左右双括号(例如,[[]])指示,其中双括号之间的删除的文本指示删除或取消的文本。可能有编辑性质的一些其他改变,因此没有突出显示。
6.1.第一实施例
该实施例是对于项1。
6.1.1.轨道的类型
该规范规定了用于携带VVC比特流的以下类型的视频轨道:
a)VVC轨道:
VVC轨道通过在其样点和/或样点条目中包括NAL单元,并且可能通过“vopi”和“linf”样点组或通过“opeg”实体组与包含VVC比特流的其他层和/或子层的其他VVC轨道相关联,并且可能通过参考VVC子图片轨道,来表示VVC比特流。
当VVC轨道参考VVC子图片轨道时,它也被称为VVC基准轨道。VVC基准轨道不应当包含VCL NAL单元,并且不应当由VVC轨道通过“vvcN”轨道参考来指代。
b)VVC非VCL轨道:
VVC非VCL轨道是仅包含非VCL NAL单元的轨道,并且由VVC轨道通过“vvcN”轨道参考来指代。
VVC非VCL轨道可以包含被存储在与包含VCL NAL单元的轨道分开的轨道中并通过该轨道传输的APS,其携带ALF、LMCS或缩放列表参数,有或没有其他非VCL NAL单元。
VVC非VCL轨道也可以包含被存储在与包含VCL NAL单元的轨道分开的轨道中并通过该轨道传输的图片头NAL单元,有或没有APS NAL单元,并且有或没有其他非VCL NAL单元。
c)VVC子图片轨道:
VVC子图片轨道包含以下任一项:
一个或多个VVC子图片的序列。
形成矩形区域的一个或多个完整条带的序列。
VVC子图片轨道的样点包含以下任一项:
如ISO/IEC 23090-3所规定的按照解码顺序连续的一个或多个完整子图片。
如ISO/IEC 23090-3所规定的形成矩形区域并按照解码顺序连续的一个或多个完整条带。
VVC子图片轨道的任何样点中包括的VVC子图片或条带按照解码顺序连续。
注:VVC非VCL轨道和VVC子图片轨道使得能够如下在流式传输应用中最优递送VVC视频。这些轨道可以各自携带在它们自己的DASH表示中,并且对于轨道子集的解码和渲染,可以由客户端逐段请求包含VVC子图片轨道子集的DASH表示以及包含非VCL轨道的DASH表示。这样,可以避免APS和其他非VCL NAL单元的冗余传输,并且也可以避免不必要的子图片的传输。
6.2.第二实施例
该实施例是对于项4.b。
6.2.1.解码器[[配置]]能力信息样点组
6.2.1.1.定义
该样点组的样点组描述条目包含DCI NAL单元。[[映射到相同的解码器配置信息样点组描述条目的所有样点属于相同的VVC比特流。]]
该样点组指示相同的DCI NAL单元是否用于VVC轨道中的不同样点条目[[,即属于不同样点条目的样点是否属于相同的VVC比特流]]。当两个样点条目的样点被映射到相同的解码器配置信息样点组描述条目时,播放器可以切换样点条目,而无需重新初始化解码器。
如果任何样点条目或带内存在任何DCI NAL单元,则该单元应当与对应的解码器配置信息样点组条目中包括的DCI NAL单元完全相同。
6.2.1.2.语法
class DecoderConfigurationInformation extends VisualSampleGroupEntry
('dcfi'){
unsigned int(16)dciNalUnitLength;
bit(8*nalUnitLength)dciNalUnit;
}
6.2.1.3.语义
dciNalUnitLength指示DCI NAL单元的字节长度。
dciNalUnit包含如ISO/IEC 23090-3所规定的DCI NAL单元。
6.3.第三实施例
该实施例是对于项5。
6.3.1.VVC解码器配置记录的定义
本小节规定了ISO/IEC 23090-3视频内容的解码器配置信息。
该记录包含在每个样点中用于指示其包含的NAL单元以及参数集、DCI、OPI和SEINAL单元的长度的长度字段的尺寸,如果存储在样点条目中的话。该记录是外部拟定的(其尺寸由包含它的结构提供)。
该记录包含版本字段。规范的此版本定义了此记录的版本1。对记录的不兼容改变将由版本号的改变指示。如果版本号未被识别,读者不应当尝试解码该记录或其适用的流。
对该记录的兼容扩展将扩展它,并且将不改变配置版本代码。读者应该准备忽略超越他们理解的数据定义的未识别数据。
当轨道本身或通过解析“subp”轨道参考包含VVC比特流时,VvcPtlRecord应当存在于解码器配置记录中,并且在这种情况下,VVC比特流的特定输出层集由字段output_layer_set_idx指示。如果ptl_present_flag在轨道的解码器配置记录中等于零,则该轨道应当具有“oref”轨道参考。
...
存在阵列集合来携带初始化非VCL NAL单元。NAL单元类型被限制为仅指示DCI、OPI、VPS、SPS、PPS、前缀APS和前缀SEI NAL单元。在ISO/IEC 23090-3和本规范中保留的NAL单元类型可能在将来获取定义,并且读者应该忽略具有NAL单元类型的保留的或未许可的值的阵列。
注2:设计该“容忍”行为以便不产生错误,允许在未来规范中对这些阵列的向后兼容扩展的可能性。
注3:样点条目中携带的NAL单元被包括在从参考样点条目的第一样点重构的访问单元中,紧接在AUD和OPI NAL单元(如果有的话)之后,或者被包括在该访问单元的开始处。
建议阵列按照顺序DCI、OPI、VPS、SPS、PPS、前缀APS、前缀SEI。
...
6.3.2.VVC解码器配置记录的语义
...
numArrays指示(多个)指示类型的NAL单元的阵列数量。
array_completeness在等于1时指示给定类型的所有NAL单元都在以下阵列中,并且没有一个在流中;在等于0时指示该指示类型的附加NAL单元可以在流中;[[默认的和]]许可的值受样点条目名称的约束。
NAL_unit_type指示以下阵列中的NAL单元的类型(其应该为该类型的全部);它采用如ISO/IEC 23090-3所定义的值;它被限制为采用指示DCI、OPI、VPS、SPS、PPS、前缀APS或前缀SEI[[、或后缀SEI]]NAL单元的值之一。
numNalus指示此配置记录适用的流的配置记录中包括的指示类型的NAL单元的数量。SEI阵列应当仅包含“声明性”性质的SEI消息,即,提供整体上关于流的信息的那些。这样的SEI的示例可以是用户数据SEI。
nalUnitLength指示NAL单元的字节长度。
nalUnit包含如ISO/IEC 23090-3所规定的DCI、OPI、VPS、SPS、PPS、APS或声明性SEI NAL单元。
图1是示出可以在其中实施本文公开的各种技术的示例视频处理系统1900的框图。各种实施方式可以包括系统1900的一些或所有组件。系统1900可以包括用于接收视频内容的输入1902。视频内容可以以例如8或10比特多分量像素值的原始或未压缩格式而接收,或者可以是压缩或编码格式。输入1902可以表示网络接口、外围总线接口或存储接口。网络接口的示例包括诸如以太网、无源光网络(Passive Optical Network,PON)等的有线接口和诸如Wi-Fi或蜂窝接口的无线接口。
系统1900可以包括可以实施本文档中描述的各种编解码或编码方法的编解码组件1904。编解码组件1904可以将来自输入1902的视频的平均比特率减小到编解码组件1904的输出,以产生视频的编解码表示。编解码技术因此有时被称为视频压缩或视频转码技术。编解码组件1904的输出可以被存储,或者经由如由组件1906表示的通信连接而发送。在输入1902处接收的视频的存储或通信传送的比特流(或编解码)表示可以由组件1908用于生成像素值或传送到显示接口1910的可显示视频。从比特流表示生成用户可视视频的过程有时被称为视频解压缩。此外,虽然某些视频处理操作被称为“编解码”操作或工具,但是将理解,编解码工具或操作在编码器处被使用,并且反转编解码结果的对应的解码工具或操作将由解码器执行。
外围总线接口或显示接口的示例可以包括通用串行总线(USB)、或高清晰度多媒体接口(High Definition Multimedia Interface,HDMI)、或显示端口(Displayport)等。存储接口的示例包括SATA(Serial Advanced Technology Attachment,串行高级技术附件)、PCI、IDE接口等。本文档中描述的技术可以体现在各种电子设备中,诸如移动电话、膝上型电脑、智能电话、或能够执行数字数据处理和/或视频显示的其他设备。
图2是视频处理装置3600的框图。装置3600可以用于实施本文描述的一种或多种方法。装置3600可以体现在智能手机、平板电脑、计算机、物联网(IoT)接收器等中。装置3600可以包括一个或多个处理器3602、一个或多个存储器3604和视频处理硬件3606。(多个)处理器3602可以被配置为实施本文档中描述的一种或多种方法。存储器(多个存储器)604可以用于存储用于实施本文描述的方法和技术的数据和代码。视频处理硬件606可以用于在硬件电路系统中实施本文档中描述的一些技术。在一些实施例中,视频处理硬件3606可以至少部分被包括在处理器3602(例如,图形协处理器)中。
图4是示出可以利用本公开的技术的示例视频编解码系统100的框图。
如图4所示,视频编解码系统100可以包括源设备110和目标设备120。源设备110生成编码视频数据,其中该源设备110可以被称为视频编码设备。目标设备120可以解码由源设备110生成的编码视频数据,目标设备120可以被称为视频解码设备。
源设备110可以包括视频源112、视频编码器114和输入/输出(I/O)接口116。
视频源112可以包括源,诸如视频捕捉设备、从视频内容提供器接收视频数据的接口、和/或用于生成视频数据的计算机图形系统、或这些源的组合。视频数据可以包括一个或多个图片。视频编码器114对来自视频源112的视频数据进行编码,以生成比特流。比特流可以包括形成视频数据的编解码表示的比特序列。比特流可以包括编解码图片和相关数据。编解码图片是图片的编解码表示。相关数据可以包括序列参数集、图片参数集和其他语法结构。I/O接口116可以包括调制器/解调器(调制解调器)和/或发射器。编码视频数据可以通过网络130a经由I/O接口116直接传输到目标设备120。编码视频数据也可以存储在存储介质/服务器130b上,以供目标设备120访问。
目标设备120可以包括I/O接口126、视频解码器124和显示设备122。
I/O接口126可以包括接收器和/或调制解调器。I/O接口126可以从源设备110或存储介质/服务器130b获取编码视频数据。视频解码器124可以对编码视频数据进行解码。显示设备122可以向用户显示解码视频数据。显示设备122可以与目标设备120集成,或者可以在被配置为与外部显示设备接口的目标设备120的外部。
视频编码器114和视频解码器124可以根据视频压缩标准进行操作,例如高效视频编解码(HEVC)标准、通用视频编解码(VVM)标准和其他当前和/或另外的标准。
图5是示出视频编码器200的示例的框图,视频编码器200可以是图4所示的系统100中的视频编码器114。
视频编码器200可以被配置为执行本公开的任何或所有技术。在图5的示例中,视频编码器200包括多个功能组件。本公开中描述的技术可以在视频编码器200的各种组件之间共享。在一些示例中,处理器可以被配置为执行本公开中描述的任何或所有技术。
视频编码器200的功能组件可以包括分割单元201、预测单元202(其可以包括模式选择单元203、运动估计单元204、运动补偿单元205和帧内预测单元206)、残差生成单元207、变换单元208、量化单元209、逆量化单元210、逆变换单元211、重构单元212、缓冲区213和熵编码单元214。
在其他示例中,视频编码器200可以包括更多、更少或不同的功能组件。在示例中,预测单元202可以包括帧内块复制(IBC)单元。IBC单元可以执行IBC模式下的预测,其中至少一个参考图片是当前视频块所在的图片。
此外,诸如运动估计单元204和运动补偿单元205的一些组件可以高度集成,但是为了解释的目的,在图5的示例中分开表示。
分割单元201可以将图片分割为一个或多个视频块。视频编码器200和视频解码器300可以支持各种视频块尺寸。
模式选择单元203可以基于误差结果选择编解码模式(例如,帧内或帧间)之一,并且将作为结果的帧内编解码块或帧间编解码块提供给残差生成单元207以生成残差块数据,以及提供给重构单元212以重构编码块以用作参考图片。在一些示例中,模式选择单元203可以选择帧内和帧间预测模式的组合(CIIP),其中预测基于帧间预测信号和帧内预测信号。在帧间预测的情况下,模式选择单元203还可以选择块的运动矢量的分辨率(例如,子像素或整数像素精度)。
为了对当前视频块执行帧间预测,运动估计单元204可以通过将来自缓冲区213的一个或多个参考帧与当前视频块进行比较,来生成当前视频块的运动信息。运动补偿单元205可以基于运动信息和来自缓冲区213的除了与当前视频块相关联的图片之外的图片的解码样点,来确定当前视频块的预测视频块。
运动估计单元204和运动补偿单元205可以对当前视频块执行不同的操作,例如,取决于当前视频块是在I条带、P条带还是B条带中。
在一些示例中,运动估计单元204可以对当前视频块执行单向预测,并且运动估计单元204可以为当前视频块的参考视频块搜索列表0或列表1的参考图片。运动估计单元204然后可以生成指示列表0或列表1中的参考图片的参考索引,该参考索引包含参考视频块和指示当前视频块和参考视频块之间的空域位移的运动矢量。运动估计单元204可以输出参考索引、预测方向指示符和运动矢量作为当前视频块的运动信息。运动补偿单元205可以基于由当前视频块的运动信息指示的参考视频块来生成当前块的预测视频块。
在其他示例中,运动估计单元204可以对当前视频块执行双向预测,运动估计单元204可以在列表0中的参考图片中搜索当前视频块的参考视频块,并且还可以在列表1中搜索当前视频块的另一个参考视频块。运动估计单元204然后可以生成参考索引,该参考索引指示包含参考视频块的列表0和列表1中的参考图片以及指示参考视频块和当前视频块之间的空间位移的运动矢量。运动估计单元204可以输出当前视频块的参考索引和运动矢量作为当前视频块的运动信息。运动补偿单元205可以基于由当前视频块的运动信息指示的参考视频块来生成当前视频块的预测视频块。
在一些示例中,运动估计单元204可以输出完整的运动信息集,以用于解码器的解码处理。
在一些示例中,运动估计单元204可以不输出当前视频的完整的运动信息集。而是运动估计单元204可以参考另一个视频块的运动信息信令通知当前视频块的运动信息。例如,运动估计单元204可以确定当前视频块的运动信息与邻近视频块的运动信息足够相似。
在一个示例中,运动估计单元204可以在与当前视频块相关联的语法结构中指示值,该值向视频解码器300指示当前视频块具有与另一个视频块相同的运动信息。
在另一示例中,运动估计单元204可以在与当前视频块相关联的语法结构中标识另一视频块和运动矢量差(MVD)。运动矢量差指示当前视频块的运动矢量和所指示的视频块的运动矢量之间的差。视频解码器300可以使用所指示的视频块的运动矢量和运动矢量差来确定当前视频块的运动矢量。
如上所讨论的,视频编码器200可以预测性地信令通知运动矢量。可以由视频编码器200实施的预测信令通知技术的两个示例包括高级运动矢量预测(AMVP)和Merge模式信令通知。
帧内预测单元206可以对当前视频块执行帧内预测。当帧内预测单元206对当前视频块执行帧内预测时,帧内预测单元206可以基于同一图片中的其他视频块的解码样点来生成当前视频块的预测数据。当前视频块的预测数据可以包括预测视频块和各种语法元素。
残差生成单元207可以通过从当前视频块中减去(例如,由减号指示)当前视频块的(多个)预测视频块来生成当前视频块的残差数据。当前视频块的残差数据可以包括与当前视频块中样点的不同样点分量相对应的残差视频块。
在其他示例中,例如在跳过模式中,对于当前视频块可能没有当前视频块的残差数据,并且残差生成单元207可能不执行减去操作。
变换处理单元208可以通过将一个或多个变换应用于与当前视频块相关联的残差视频块来为当前视频块生成一个或多个变换系数视频块。
在变换处理单元208生成与当前视频块相关联的变换系数视频块之后,量化单元209可以基于与当前视频块相关联的一个或多个量化参数(QP)值来量化与当前视频块相关联的变换系数视频块。
逆量化单元210和逆变换单元211可以分别对变换系数视频块应用逆量化和逆变换,以从变换系数视频块重构残差视频块。重构单元212可以将重构后的残差视频块添加到来自预测单元202生成的一个或多个预测视频块的对应样点,以产生与当前块相关联的重构视频块,用于存储在缓冲区213中。
在重构单元212重构视频块之后,可以执行环路滤波操作,以减少视频块中的视频块效应。
熵编码单元214可以从视频编码器200的其他功能组件接收数据。当熵编码单元214接收到数据时,熵编码单元214可以执行一个或多个熵编码操作,以生成熵编码数据,并输出包括该熵编码数据的比特流。
图6是示出视频解码器300的示例的框图,视频解码器300可以是图4所示的系统100中的视频解码器114。
视频解码器300可以被配置为执行本公开的任何或所有技术。在图6的示例中,视频解码器300包括多个功能组件。本公开中描述的技术可以在视频解码器300的各种组件之间共享。在一些示例中,处理器可以被配置为执行本公开中描述的任何或所有技术。
在图6的示例中,视频解码器300包括熵解码单元301、运动补偿单元302、帧内预测单元303、逆量化单元304、逆变换单元305以及重构单元306和缓冲区307。在一些示例中,视频解码器300可以执行通常与针对视频编码器200(图5)描述的编码过程相反的解码过程。
熵解码单元301可以检索编码比特流。编码比特流可以包括熵编解码的视频数据(例如,视频数据的编码块)。熵解码单元301可以解码熵编解码的视频数据,并且根据熵解码的视频数据,运动补偿单元302可以确定包括运动矢量、运动矢量精度、参考图片列表索引和其他运动信息的运动信息。运动补偿单元302可以例如通过执行AMVP和Merge模式来确定这样的信息。
运动补偿单元302可以产生运动补偿块,可以基于插值滤波器执行插值。要以子像素精度使用的插值滤波器的标识符可以包括在语法元素中。
运动补偿单元302可以使用如视频编码器200在视频块的编码期间使用的插值滤波器来计算参考块的子整数像素的插值。运动补偿单元302可以根据所接收的语法信息确定视频编码器200使用的插值滤波器,并使用该插值滤波器来产生预测块。
运动补偿单元302可以使用一些语法信息来确定用于对编码视频序列的(多个)帧和/或(多个)条带进行编码的块的尺寸、描述编码视频序列的图片的每个宏块如何被分割的分割信息、指示每个分割如何被编码的模式、每个帧间编码块的一个或多个参考帧(和参考帧列表)以及用于对编码视频序列进行解码的其他信息。
帧内预测单元303可以使用例如在比特流中接收的帧内预测模式来从空间上相邻的块形成预测块。逆量化单元303对在比特流中提供并由熵解码单元301解码的量化后的视频块系数进行逆量化,即,解量化。逆变换单元303应用逆变换。
重构单元306可以将残差块与由运动补偿单元202或帧内预测单元303生成的对应预测块相加,以形成解码块。如果需要,还可以应用去块滤波器来滤波解码块,以便移除块效应。解码的视频块然后被存储在缓冲区307中,为随后的运动补偿/帧内预测提供参考块,并且还产生解码的视频以在显示设备上呈现。
接下来提供一些实施例优选的解决方案列表。
以下解决方案示出了在前一章节(例如,项1至项4)中讨论的技术的示例实施例。
1.一种可视媒体处理方法(例如,图3中描绘的方法3000),包括:根据格式规则来执行可视媒体数据和存储对应于可视媒体数据的信息的文件之间的转换(3002);其中格式规则规定识别文件的非视频编解码层(VCL)轨道的第一条件和/或识别文件的VCL轨道的第二条件。
2.根据解决方案1所述的方法,其中,第一条件规定非VCL轨道仅包含非VCL网络抽象层单元,并且通过特定轨道参考在VCL轨道中标识。
3.根据解决方案1-2所述的方法,其中,第一条件规定非VCL轨道包含对应于VCL轨道的自适应参数集(APS)。
4.根据解决方案1-3中任一项所述的方法,其中,VCL轨道的第二条件规定不允许VCL轨道包括解码能力信息(DCI)或操作点信息(OPI)网络抽象单元。
5.根据解决方案1所述的方法,其中,第一条件规定非VCL轨道包括包含非VCL网络抽象层单元的一个或多个基本流,并且其中,非VCL网络抽象层单元与VCL轨道中的基本流同步。
6.根据解决方案1-5中任一项所述的方法,其中,所述转换包括生成可视媒体数据的比特流表示,并且根据格式规则将比特流表示存储到文件中。
7.根据解决方案1-5中任一项所述的方法,其中,所述转换包括根据格式规则来解析文件,以恢复可视媒体数据。
8.一种视频解码装置,包括处理器,该处理器被配置为实施根据解决方案1至7中的一项或多项所述的方法。
9.一种视频编码装置,包括处理器,该处理器被配置为实施根据解决方案1至7中的一项或多项所述的方法。
10.一种存储有计算机代码的计算机程序产品,该代码在由处理器执行时使得该处理器实施根据解决方案1至7中任一项所述的方法。
11.一种计算机可读介质,该计算机可读介质上的比特流表示符合根据解决方案1至7中任一项生成的文件格式。
12.一种本文档中描述的方法、装置或系统。
在本文描述的解决方案中,编码器可以通过根据格式规则产生编解码表示来符合格式规则。在本文描述的解决方案中,解码器可以在知道根据产生解码视频的格式规则存在和不存在语法元素的情况下使用格式规则来解析编解码表示中的语法元素。
技术1.一种处理可视媒体数据的方法(例如,图8中描绘的方法8000),包括:根据格式规则来执行可视媒体文件和可视媒体数据的比特流之间的转换(8002),其中格式规则规定控制信息项是否被包括在可视媒体文件的非视频编解码层轨道中的条件,并且其中可视媒体文件中非视频编解码层轨道的存在由可视媒体文件的视频编解码层轨道中的特定轨道参考来指示。
技术2.根据技术1所述的方法,其中,该条件规定非视频编解码层轨道仅包括非视频编解码层网络抽象层单元作为信息项。
技术3.根据技术1-2中任一项所述的方法,其中,该条件规定非视频编解码层轨道包括自适应参数集作为信息项,其中,自适应参数集包括自适应环路滤波器参数、带有色度缩放的亮度映射参数、或缩放列表参数,并且其中,该条件规定自适应参数集被存储在轨道中并通过该轨道传输,该轨道与包括视频编解码层网络抽象层单元的另一轨道分开。
技术4.根据技术3所述的方法,其中,该条件允许非视频编解码层轨道附加地包括其他类型的非视频编解码层网络抽象层单元。
技术5.根据技术3所述的方法,其中,该条件不允许非视频编解码层轨道附加地包括其他类型的非视频编解码层网络抽象层单元。
技术6.根据技术1-2中任一项所述的方法,其中,该条件规定非视频编解码层轨道包括图片头网络抽象层单元作为信息项,并且其中,该条件规定图片头网络抽象层单元被存储在轨道中并通过该轨道传输,该轨道与包括视频编解码层网络抽象层单元的另一轨道分开。
技术7.根据技术6所述的方法,其中,该条件允许非视频编解码层轨道附加地包括其他类型的非视频编解码层网络抽象层单元。
技术8.根据技术6所述的方法,其中,该条件不允许非视频编解码层轨道附加地包括其他类型的非视频编解码层网络抽象层单元。
技术9.根据技术6所述的方法,其中,该条件允许非视频编解码层轨道附加地包括自适应参数集网络抽象层单元。
技术10.根据技术6所述的方法,其中,该条件不允许非视频编解码层轨道附加地包括自适应参数集网络抽象层单元。
技术11.根据技术1-2中任一项所述的方法,其中,该条件规定视频流的图片头网络抽象层单元是被存储在包含视频编解码层网络抽象层单元的轨道的第一样点集合或非视频编解码层轨道的第二样点集合中但不同时存储在两者中的信息项。
技术12.根据技术1-11中任一项所述的方法,其中,该转换包括根据格式规则来生成可视媒体文件并将比特流存储到可视媒体文件。
技术13.根据技术1-11中任一项所述的方法,其中,该转换包括生成可视媒体文件,并且该方法还包括将可视媒体文件存储在非暂时性计算机可读记录介质中。
技术14.根据技术1-11中任一项所述的方法,其中,该转换包括根据格式规则解析可视媒体文件以重构比特流。
技术15.根据技术1至14中任一项所述的方法,其中,可视媒体文件通过通用视频编解码(VVC)处理,并且其中,非视频编解码层轨道或视频编解码层轨道是VVC轨道。
技术16.一种处理可视媒体数据的装置,包括处理器和其上具有指令的非暂时性存储器,其中该指令在由处理器执行时使得该处理器实施根据技术1至15中任一项或多项所述的方法。
技术17.一种存储指令的非暂时性计算机可读存储介质,该指令使得处理器实施根据技术1至15中任一项或多项所述的方法。
技术18.一种视频解码装置,包括处理器,该处理器被配置为实施根据技术1至15中的一项或多项所述的方法。
技术16.一种视频编码装置,包括处理器,该处理器被配置为实施根据技术1至15中的一项或多项所述的方法。
技术17.一种存储有计算机代码的计算机程序产品,该代码在由处理器执行时使得该处理器实施根据技术1至15中任一项所述的方法。
技术18.一种计算机可读介质,该计算机可读介质上的可视媒体文件符合根据技术1至15中任一项生成的文件格式。
技术19.一种存储通过由视频处理装置执行的方法生成的可视媒体文件的比特流的非暂时性计算机可读记录介质,其中该方法在技术1至15中的任一项中记载。
技术20.一种可视媒体文件生成的方法,包括:根据技术1至15中任一项所述的方法来生成可视媒体文件,并将该可视媒体文件存储在计算机可读程序介质上。
实施方式1.一种处理可视媒体数据的方法(例如,图9中描绘的方法9000),包括:根据格式规则来执行可视媒体文件和可视媒体数据的比特流之间的转换(9002),其中格式规则规定样点条目的类型确定解码能力信息网络抽象层单元是被包括在可视媒体文件中的视频轨道的样点条目中还是被包括在可视媒体文件中的视频轨道的样点和视频轨道的样点条目中。
实施方式2.根据权利要求1所述的方法,其中,格式规则规定:响应于样点条目的类型为vvc1,解码能力信息网络抽象层单元被包括在视频轨道的样点条目中。
实施方式3.根据实施方式1所述的方法,其中,格式规则规定:响应于样点条目的类型为vvi1,解码能力信息网络抽象层单元被包括在视频轨道的样点和视频轨道的样点条目中。
实施方式4.根据实施方式1所述的方法,其中,格式规则规定可视媒体文件中的视频基本流包括视频编解码层网络抽象层单元,其中格式规则规定不允许可视媒体文件中的视频基本流包括参数集或解码能力信息网络抽象单元,并且其中格式规则规定可视媒体文件中的样点条目存储参数集和解码能力信息网络抽象单元。
实施方式5.根据实施方式4所述的方法,其中,格式规则规定不允许可视媒体文件中的视频基本流包括参数集、解码能力信息网络抽象单元或操作点信息网络抽象单元,并且其中格式规则规定可视媒体文件中的样点条目存储参数集、解码能力信息网络抽象单元和操作点信息网络抽象单元。
实施方式6.一种处理可视媒体数据的方法,包括:根据格式规则来执行可视媒体文件和可视媒体数据的比特流之间的转换,其中,格式规则规定:响应于可视媒体文件中的样点属于多个通用视频编解码比特流并且响应于该样点被包括在相同轨道中,允许该样点属于相同的解码器能力信息样点组,并且其中,格式规则规定属于相同的解码器能力信息样点组的所有样点共享相同的解码器能力信息样点组描述条目。在一些实施例中,格式规则规定响应于可视媒体文件中的样点属于多个通用视频编解码比特流并且响应于该样点被包括在相同轨道中,允许该样点属于相同的解码器能力信息样点组,并且其中,格式规则规定属于相同的解码器能力信息样点组的所有样点共享相同的解码器能力信息样点组描述条目。
实施方式7.根据实施方式6所述的方法,其中,格式规则规定:响应于轨道的所有样点属于相同的比特流或者响应于所有样点共享相同的解码能力信息而不管比特流的数量,在可视媒体文件中的轨道级别盒中指示解码能力信息网络抽象层单元。在一些实施例中,响应于轨道的所有样点属于相同的比特流或者响应于所有样点共享相同的解码能力信息而不管比特流的数量,格式规则规定在可视媒体文件中的轨道级别盒中指示解码能力信息网络抽象层单元。
实施方式8.根据实施方式7所述的方法,其中,轨道级别盒是轨道头盒、轨道级别元盒或另一轨道级别盒。
实施方式9.一种处理可视媒体数据的方法,包括:根据格式规则来执行可视媒体文件和可视媒体数据的比特流之间的转换,其中格式规则规定允许操作点信息网络抽象层单元被包括在样点条目描述中的可视媒体文件中作为解码器配置记录中的多个非视频编解码层网络抽象层单元阵列之一。在一些实施例中,格式规则规定允许操作点信息网络抽象层单元被包括在样点条目描述中的可视媒体文件中作为解码器配置记录中的多个非视频编解码层网络抽象层单元阵列之一。
实施方式10.一种可视媒体处理方法,包括:根据格式规则来执行可视媒体文件和可视媒体数据的比特流之间的转换,其中格式规则规定样点条目的类型确定操作点信息网络抽象层单元是否被包括在以下中:(1)可视媒体文件中的视频轨道的样点条目,或者(2)可视媒体文件中的视频轨道的样点或可视媒体文件中的视频轨道的样点条目或两者。在一些实施例中,格式规则规定第二样点条目的第二类型确定操作点信息网络抽象层单元是否被包括在以下中:(1)可视媒体文件中的视频轨道的第二样点条目,或者(2)可视媒体文件中的视频轨道的样点或可视媒体文件中的视频轨道的第二样点条目或两者。
实施方式11.根据实施方式10所述的方法,其中,格式规则规定响应于样点条目的类型为vvc1,操作点信息网络抽象层单元被包括在视频轨道的样点条目中。在一些实施例中,格式规则规定:响应于第二样点条目的第二类型为vvc1,操作点信息网络抽象层单元被包括在视频轨道的第二样点条目中。
实施方式12.根据实施方式10所述的方法,其中,格式规则规定:响应于样点条目的类型为vvi1,操作点信息网络抽象层单元被包括在视频轨道的样点或视频轨道的样点条目或两者中。在一些实施例中,格式规则规定:响应于第二样点条目的第二类型为vvi1,操作点信息网络抽象层单元被包括在视频轨道的样点或视频轨道的第二样点条目或两者中。
实施方式13.一种处理可视媒体数据的方法,包括:根据格式规则来执行可视媒体文件和可视媒体数据的比特流之间的转换,其中,格式规则规定不允许可视媒体文件中的非视频编解码层基本流包括视频编解码层网络抽象层单元,并且其中格式规则规定非视频编解码层网络抽象层单元与视频轨道中携带的基本流同步。在一些实施例中,格式规则规定不允许可视媒体文件中的非视频编解码层基本流包括视频编解码层网络抽象层单元,并且其中格式规则规定非视频编解码层网络抽象层单元与视频轨道中携带的基本流同步。
实施方式14.根据实施方式1-13中任一项所述的方法,其中,该转换包括根据格式规则来生成可视媒体文件并将比特流存储到可视媒体文件。
实施方式15.根据实施方式1-13中任一项所述的方法,其中,该转换包括生成可视媒体文件,并且该方法还包括将可视媒体文件存储在非暂时性计算机可读记录介质中。
实施方式16.根据实施方式1-13中任一项所述的方法,其中,该转换包括根据格式规则解析可视媒体文件以重构比特流。
实施方式17.根据实施方式1至16中任一项所述的方法,其中,可视媒体文件通过通用视频编解码(VVC)处理,并且视频轨道是VVC轨道。
实施方式18.一种处理可视媒体数据的装置,包括处理器和其上具有指令的非暂时性存储器,其中该指令在由处理器执行时使得该处理器实施根据实施方式1至17中的一项或多项所述的方法。
实施方式19.一种存储指令的非暂时性计算机可读存储介质,该指令使得处理器实施根据实施方式1至17中任一项所述的方法。
实施方式20.一种视频解码装置,包括处理器,该处理器被配置为实施根据实施方式1至17中的一项或多项所述的方法。
实施方式21.一种视频编码装置,包括处理器,该处理器被配置为实施根据实施方式1至17中的一项或多项所述的方法。
实施方式22.一种存储有计算机代码的计算机程序产品,该代码在由处理器执行时使得该处理器实施根据实施方式1至17中任一项所述的方法。
实施方式23.一种计算机可读介质,该计算机可读介质上的可视媒体文件符合根据实施方式1至17中任一项生成的文件格式。
实施方式24.一种存储通过由视频处理装置执行的方法生成的可视媒体文件的比特流的非暂时性计算机可读记录介质,其中该方法在实施方式1至17中的任一项中记载。
实施方式25.一种可视媒体文件生成的方法,包括:根据实施方式1至17中任一项所述的方法来生成可视媒体文件,并将该可视媒体文件存储在计算机可读程序介质上。
在本文档中,术语“视频处理”可以指视频编码、视频解码、视频压缩或视频解压缩。例如,可以在从视频的像素表示到对应比特流表示的转换期间应用视频压缩算法,反之亦然。当前视频块的比特流表示可以例如对应于比特流内的并置的或散布在不同地方的比特,如语法所定义的。例如,宏块可以根据变换和编解码后的误差残差值并且还使用比特流中的头和其他字段中的比特来编码。此外,在转换期间,解码器可以基于该确定,在知道一些字段可能存在或不存在的情况下解析比特流,如以上解决方案所述。类似地,编码器可以确定包括或不包括某些语法字段,并通过包括语法字段或从编解码表示中排除语法字段来相应地生成编解码表示。
本文档中描述的所公开的以及其他解决方案、示例、实施例、模块和功能操作可以在数字电子电路中、或者在计算机软件、固件或硬件(包括本文档中公开的结构及其结构等同物)中、或者在它们中的一个或多个的组合中被实施。所公开的以及其他实施例可以被实施为一个或多个计算机程序产品,即在计算机可读介质上编码的计算机程序指令的一个或多个模块,该计算机程序指令用于由数据处理装置运行或控制数据处理装置的操作。计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储器设备、影响机器可读传播信号的物质的组合、或它们中的一个或多个的组合。术语“数据处理装置”包含用于处理数据的所有装置、设备和机器,包括例如可编程处理器、计算机、或多个处理器或计算机。除了硬件之外,装置还可以包括为所讨论的计算机程序创建运行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统、或它们中的一个或多个的组合的代码。传播信号是被生成以对信息进行编码以用于发送到合适的接收器装置的人工生成的信号,例如机器生成的电信号、光学信号或电磁信号。
计算机程序(也已知为程序、软件、软件应用、脚本或代码)可以以任何形式的编程语言(包括编译或解释语言)编写,并且其可以以任何形式部署,包括作为独立程序或作为适合在计算环境中使用的模块、组件、子例程或其他单元。计算机程序不一定对应于文件系统中的文件。程序可以存储在保存其他程序或数据(例如,存储在标记语言文档中的一个或多个脚本)的文件的一部分中,存储在专用于所讨论的程序的单个文件中,或存储在多个协调文件中(例如,存储一个或多个模块、子程序或代码部分的文件)。计算机程序可以被部署以在一个计算机上或在位于一个站点上或跨多个站点分布并通过通信网络互连的多个计算机上运行。
本文档书中描述的过程和逻辑流程可以由运行一个或多个计算机程序的一个或多个可编程处理器执行,以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路执行,并且装置也可以被实施为专用逻辑电路,例如,FPGA(Field Programmable Gate Array,现场可编程门阵列)或ASIC(专用集成电路)。
适合于运行计算机程序的处理器包括例如通用和专用微处理器、以及任何类型的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备(例如,磁盘、磁光盘或光盘),或可操作地耦合以从该一个或多个大容量存储设备接收数据或向该一个或多个大容量存储设备传递数据、或者从其接收数据并向其传递数据。然而,计算机不需要这样的设备。适用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,包括例如半导体存储器设备,例如EPROM、EEPROM和闪存设备;磁盘,例如内部硬盘或可换式磁盘;磁光盘;以及CD ROM和DVD-ROM磁盘。处理器和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。
虽然本专利文档包含许多细节,但这些细节不应被解释为对任何主题或可能要求保护的范围的限制,而是作为指定于特定技术的特定实施例的特征的描述。在本专利文档中在单独的实施例的上下文中描述的某些特征也可以在单个实施例中组合实施。相反,在单个实施例的上下文中描述的各种特征也可以分别在多个实施例中或以任何合适的子组合实施。此外,尽管特征可以在上面描述为以某些组合起作用并且甚至最初如此要求保护,但是在一些情况下可以从组合排除来自所要求保护的组合的一个或多个特征,并且所要求保护的组合可以针对子组合或子组合的变化。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应该被理解为需要以所示的特定顺序或以先后顺序执行这样的操作或者执行所有示出的操作以实现期望的结果。此外,在本专利文档中描述的实施例中的各种系统组件的分离不应被理解为在所有实施例中都需要这样的分离。
仅描述了一些实施方式和示例,并且可以基于本专利文档中描述和示出的内容来进行其他实施方式、增强和变化。

Claims (15)

1.一种处理可视媒体数据的方法,包括:
根据格式规则来执行可视媒体文件和可视媒体数据的比特流之间的转换,
其中,所述格式规则规定样点条目的类型确定解码能力信息网络抽象层单元是被包括在所述可视媒体文件中的视频轨道的样点条目中还是被包括在所述可视媒体文件中的所述视频轨道的样点和所述视频轨道的样点条目中。
2.根据权利要求1所述的方法,
其中,所述格式规则规定响应于所述样点条目的类型为vvc1,所述解码能力信息网络抽象层单元被包括在所述视频轨道的样点条目中。
3.根据权利要求1所述的方法,
其中,所述格式规则规定响应于所述样点条目的类型为vvi1,所述解码能力信息网络抽象层单元被包括在所述视频轨道的样点和所述视频轨道的样点条目中。
4.根据权利要求1所述的方法,
其中,所述格式规则规定所述可视媒体文件中的视频基本流包括视频编解码层网络抽象层单元,
其中,所述格式规则规定不允许所述可视媒体文件中的视频基本流包括参数集或所述解码能力信息网络抽象单元,并且
其中,所述格式规则规定所述可视媒体文件中的样点条目存储所述参数集和所述解码能力信息网络抽象单元。
5.根据权利要求4所述的方法,
其中,所述格式规则规定不允许所述可视媒体文件中的视频基本流包括所述参数集、所述解码能力信息网络抽象单元或操作点信息网络抽象单元,并且
其中,所述格式规则规定所述可视媒体文件中的样点条目存储所述参数集、所述解码能力信息网络抽象单元和所述操作点信息网络抽象单元。
6.根据权利要求1所述的方法,
其中,所述格式规则规定:响应于所述可视媒体文件中的样点属于多个通用视频编解码比特流并且响应于所述样点被包括在相同轨道中,允许所述样点属于相同的解码器能力信息样点组,并且
其中,所述格式规则规定属于所述相同的解码器能力信息样点组的所有样点共享相同的解码器能力信息样点组描述条目。
7.根据权利要求6所述的方法,其中,所述格式规则规定:响应于轨道的所有样点属于相同的比特流或者响应于所有样点共享相同的解码能力信息,不管比特流的数量,在所述可视媒体文件中的轨道级别盒中指示所述解码能力信息网络抽象层单元。
8.根据权利要求7所述的方法,其中,所述轨道级别盒是轨道头盒、轨道级别元盒或另一轨道级别盒。
9.根据权利要求1所述的方法,
其中,所述格式规则规定允许操作点信息网络抽象层单元被包括在样点条目描述中的所述可视媒体文件中作为解码器配置记录中的多个非视频编解码层网络抽象层单元阵列之一。
10.根据权利要求1所述的方法,
其中,所述格式规则规定第二样点条目的第二类型确定操作点信息网络抽象层单元是否被包括在以下中:
(1)所述可视媒体文件中的所述视频轨道的第二样点条目,或者
(2)所述可视媒体文件中的所述视频轨道的样点或所述可视媒体文件中的所述视频轨道的第二样点条目或两者。
11.根据权利要求1-10中任一项所述的方法,其中,所述转换包括根据所述格式规则来生成所述可视媒体文件并将所述比特流存储到所述可视媒体文件。
12.根据权利要求1-10中任一项所述的方法,其中,所述转换包括根据所述格式规则解析所述可视媒体文件以重构所述比特流。
13.根据权利要求1至12中任一项所述的方法,其中,所述可视媒体文件通过通用视频编解码(VVC)处理,并且所述视频轨道是VVC轨道。
14.一种处理可视媒体数据的装置,包括处理器和其上具有指令的非暂时性存储器,其中所述指令在由所述处理器执行时使得所述处理器实施根据权利要求1至13中的任一项所述的方法。
15.一种存储指令的非暂时性计算机可读存储介质,所述指令使得处理器实施根据权利要求1至13中任一项所述的方法。
CN202111095947.1A 2020-09-17 2021-09-17 视频编解码中的解码能力信息存储 Pending CN114205610A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US202063079869P 2020-09-17 2020-09-17
US63/079,869 2020-09-17

Publications (1)

Publication Number Publication Date
CN114205610A true CN114205610A (zh) 2022-03-18

Family

ID=77801616

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202111095947.1A Pending CN114205610A (zh) 2020-09-17 2021-09-17 视频编解码中的解码能力信息存储
CN202111090652.5A Pending CN114205599A (zh) 2020-09-17 2021-09-17 通用视频编解码轨道编解码

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202111090652.5A Pending CN114205599A (zh) 2020-09-17 2021-09-17 通用视频编解码轨道编解码

Country Status (5)

Country Link
US (2) US11750815B2 (zh)
EP (2) EP3972276A1 (zh)
JP (2) JP7222043B2 (zh)
KR (2) KR20220037391A (zh)
CN (2) CN114205610A (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11750815B2 (en) 2020-09-17 2023-09-05 Lemon, Inc. Versatile video coding track coding
US11611752B2 (en) 2020-10-07 2023-03-21 Lemon Inc. Adaptation parameter set storage in video coding
WO2024053954A1 (ko) * 2022-09-05 2024-03-14 엘지전자 주식회사 종속 랜덤 액세스 포인트 픽처에 기반한 영상 부호화/복호화 방법, 장치 및 비트스트림 전송 방법
CN115474063B (zh) * 2022-10-27 2023-01-10 中诚华隆计算机技术有限公司 一种流媒体后端解码方法、装置及存储介质

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8365060B2 (en) 2006-08-24 2013-01-29 Nokia Corporation System and method for indicating track relationships in media files
EP2147558A2 (en) 2007-04-17 2010-01-27 Nokia Corporation Feedback based scalable video coding
AU2008242129B2 (en) 2007-04-24 2011-11-17 Nokia Technologies Oy Signaling of multiple decoding times in media files
US9648317B2 (en) 2012-01-30 2017-05-09 Qualcomm Incorporated Method of coding video and storing video content
US10791315B2 (en) 2013-01-04 2020-09-29 Qualcomm Incorporated Signaling of spatial resolution of depth views in multiview coding file format
US9648348B2 (en) 2013-10-23 2017-05-09 Qualcomm Incorporated Multi-layer video file format designs
GB2522014A (en) 2014-01-07 2015-07-15 Canon Kk Method, device, and computer program for encoding inter-layer dependencies in encapsulating multi-layer partitioned timed media data
CN105900401B (zh) 2014-01-07 2020-03-06 佳能株式会社 用于对层间依赖性进行编码的方法、装置和计算机程序
CN106464941B (zh) 2014-06-30 2019-10-29 索尼公司 信息处理装置和方法
US10148969B2 (en) 2015-02-11 2018-12-04 Qualcomm Incorporated Of sample entry and operation point signalling in a layered video file format
US9936128B2 (en) 2015-05-20 2018-04-03 Google Llc Automatic detection of panoramic gestures
US20160373771A1 (en) 2015-06-18 2016-12-22 Qualcomm Incorporated Design of tracks and operation point signaling in layered hevc file format
CN107646126B (zh) 2015-07-16 2020-12-08 谷歌有限责任公司 用于移动设备的相机姿态估计
US10306253B2 (en) 2015-10-14 2019-05-28 Qualcomm Incorporated Signaling of parameter sets in files of multi-layer bitstreams
US20170111642A1 (en) 2015-10-14 2017-04-20 Qualcomm Incorporated Support of random access and switching of layers and sub-layers in multi-layer video files
US10034010B2 (en) 2015-10-14 2018-07-24 Qualcomm Incorporated Alignment of operation point sample group in multi-layer bitstreams file format
US10623755B2 (en) 2016-05-23 2020-04-14 Qualcomm Incorporated End of sequence and end of bitstream NAL units in separate file tracks
US10652630B2 (en) 2016-05-24 2020-05-12 Qualcomm Incorporated Sample entries and random access
US10917564B2 (en) 2016-10-12 2021-02-09 Qualcomm Incorporated Systems and methods of generating and processing files for partial decoding and most interested regions
US11290755B2 (en) 2017-01-10 2022-03-29 Qualcomm Incorporated Signaling data for prefetching support for streaming media data
US10805650B2 (en) 2017-03-27 2020-10-13 Qualcomm Incorporated Signaling important video information in network video streaming using mime type parameters
US10944977B2 (en) 2018-04-03 2021-03-09 Mediatek Singapore Pte. Ltd. Methods and apparatus for encoding and decoding overlay compositions
BR112021008659A2 (pt) 2018-11-07 2021-08-31 Huawei Technologies Co., Ltd. Codificador de vídeo, decodificador de vídeo e métodos correspondentes
MX2021010337A (es) 2019-02-27 2021-09-28 Huawei Tech Co Ltd Un codificador, un decodificador y metodos correspondientes.
US20220132151A1 (en) 2019-03-06 2022-04-28 Sharp Kabushiki Kaisha Systems and methods for signaling tile group information in video coding
US11190793B2 (en) 2019-07-09 2021-11-30 Qualcomm Incorporated Memory constraint for adaptation parameter sets for video coding
CA3152445A1 (en) * 2019-09-24 2021-04-01 Huawei Technologies Co., Ltd. Signaling of picture header in video coding
KR20220156029A (ko) * 2020-03-31 2022-11-24 텔레폰악티에볼라겟엘엠에릭슨(펍) 구문 요소를 사용한 비디오 프로세싱
US11750815B2 (en) 2020-09-17 2023-09-05 Lemon, Inc. Versatile video coding track coding
US11611752B2 (en) 2020-10-07 2023-03-21 Lemon Inc. Adaptation parameter set storage in video coding

Also Published As

Publication number Publication date
KR20220037391A (ko) 2022-03-24
US20220086446A1 (en) 2022-03-17
JP2022050370A (ja) 2022-03-30
EP3972276A1 (en) 2022-03-23
EP3972277A1 (en) 2022-03-23
US11711518B2 (en) 2023-07-25
US11750815B2 (en) 2023-09-05
JP2022050366A (ja) 2022-03-30
US20220086430A1 (en) 2022-03-17
KR20220037393A (ko) 2022-03-24
CN114205599A (zh) 2022-03-18
JP7222043B2 (ja) 2023-02-14
JP7223088B2 (ja) 2023-02-15

Similar Documents

Publication Publication Date Title
US11930295B2 (en) Handling of non-VCL NAL units in picture unit construction
EP3972265A1 (en) Decoder configuration record in coded video
US11750815B2 (en) Versatile video coding track coding
US11611752B2 (en) Adaptation parameter set storage in video coding
US11877011B2 (en) Picture dimension indication in decoder configuration record
KR20220142955A (ko) 서브픽처 트랙들에 대한 레벨 정보

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination