CN115699747A - 视频子比特流提取过程中的可缩放嵌套sei消息处理 - Google Patents
视频子比特流提取过程中的可缩放嵌套sei消息处理 Download PDFInfo
- Publication number
- CN115699747A CN115699747A CN202180037265.7A CN202180037265A CN115699747A CN 115699747 A CN115699747 A CN 115699747A CN 202180037265 A CN202180037265 A CN 202180037265A CN 115699747 A CN115699747 A CN 115699747A
- Authority
- CN
- China
- Prior art keywords
- video
- bitstream
- sei
- sub
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 61
- 238000000605 extraction Methods 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 205
- 230000000153 supplemental effect Effects 0.000 claims abstract description 27
- 238000006243 chemical reaction Methods 0.000 claims abstract description 22
- 230000004044 response Effects 0.000 claims description 4
- 239000010410 layer Substances 0.000 description 134
- 239000013598 vector Substances 0.000 description 17
- 230000008569 process Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 10
- 238000013139 quantization Methods 0.000 description 8
- 230000002123 temporal effect Effects 0.000 description 8
- FMYKJLXRRQTBOR-UBFHEZILSA-N (2s)-2-acetamido-4-methyl-n-[4-methyl-1-oxo-1-[[(2s)-1-oxohexan-2-yl]amino]pentan-2-yl]pentanamide Chemical group CCCC[C@@H](C=O)NC(=O)C(CC(C)C)NC(=O)[C@H](CC(C)C)NC(C)=O FMYKJLXRRQTBOR-UBFHEZILSA-N 0.000 description 7
- 238000012952 Resampling Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 6
- 230000015654 memory Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 238000013488 ordinary least square regression Methods 0.000 description 4
- 238000005192 partition Methods 0.000 description 4
- 230000011664 signaling Effects 0.000 description 4
- 239000002356 single layer Substances 0.000 description 4
- 108091000069 Cystinyl Aminopeptidase Proteins 0.000 description 3
- 102100020872 Leucyl-cystinyl aminopeptidase Human genes 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000001427 coherent effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 230000003139 buffering effect Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000011229 interlayer Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/172—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/188—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a video data packet, e.g. a network abstraction layer [NAL] unit
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/30—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/30—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
- H04N19/31—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/70—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/234327—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into layers, e.g. base layer and one or more enhancement layers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
- H04N21/234381—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the temporal resolution, e.g. decreasing the frame rate by frame skipping
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/266—Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
- H04N21/2662—Controlling the complexity of the video stream, e.g. by scaling the resolution or bitrate of the video stream based on the client capabilities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/434—Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
- H04N21/4345—Extraction or processing of SI, e.g. extracting service information from an MPEG stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/434—Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
- H04N21/4347—Demultiplexing of several video streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/4402—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
- H04N21/440281—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the temporal resolution, e.g. by frame skipping
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8451—Structuring of content, e.g. decomposing content into time segments using Advanced Video Coding [AVC]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/176—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/61—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
描述了视频编码方法和装置以及视频解码方法和装置的示例。视频处理的示例方法包括根据规则执行在包括一个或多个层的视频和视频的比特流之间的转换,其中该规则规定,在子比特流提取过程中,通过基于指示补充增强信息(SEI)消息是否应用于特定输出层集(OLS)的第一标志和指示SEI消息是应用于所有子图片还是仅应用于特定子图片的第二标志,从可缩放嵌套SEI消息中提取缩放嵌套后的SEI消息来生成不可缩放嵌套SEI消息。
Description
相关申请的交叉引用
根据巴黎公约的适用专利法和/或规则,本申请要求2020年5月22日提交的美国临时专利申请第63/029,308号的优先权和利益。出于法律规定的所有目的,上述申请的全部公开内容通过引用并入作为本申请公开内容的一部分。
技术领域
该专利文档涉及图像和视频编码和解码。
背景技术
在互联网和其他数字通信网络中,数字视频占用了最大的带宽。随着能够接收和显示视频的连接用户设备数量的增加,预计数字视频使用的带宽需求将继续增长。
发明内容
本文档公开了可由视频编码器和解码器用来执行视频编码或解码的技术。
在一个示例方面,公开了一种视频处理的方法。该方法包括根据规则在包括多层的视频和视频的比特流之间执行转换,其中该规则规定从比特流提取的子比特流的时域层标识符值的最大允许值。
在另一个示例方面,公开了一种视频处理的方法。该方法包括:根据规则执行视频和视频的比特流之间的转换,其中该规则定义了在输出子比特流的子比特流提取过程期间,将从比特流中提取的网络抽象层(NAL)单元,并且其中该规则规定基于具有目标OLS索引的输出层集(OLS)中的NAL单元标头标识符值的列表是否不包括输入到子比特流提取过程的比特流中的所有视频编解码层(VCL)NAL单元中的NAL单元标头标识符的所有值来导出子比特流。
在另一个示例方面,公开了一种视频处理的方法。该方法包括根据规则执行视频和视频的比特流之间的转换,其中该规则定义在输出子比特流的子比特流提取过程期间将从比特流中提取的网络抽象层(NAL)单元,并且其中该规则规定响应于包括在SEI网络抽象层(NAL)单元中的第一补充增强信息(SEI)消息的有效载荷类型,不允许SEI NAL单元包含具有特定有效载荷类型的SEI消息。
在另一个示例方面,公开了一种视频处理的方法。该方法包括根据格式规则执行视频和视频的比特流之间的转换,其中格式规则规定比特流包括标志,该标志指定具有一个或多个特定有效载荷类型的一个或多个不可缩放嵌套补充增强信息(SEI)消息是否应用于编解码层参考的所有输出层集。
在另一个示例方面,公开了一种视频处理的方法。该方法包括根据规则执行视频和视频的比特流之间的转换,其中该规则规定子比特流提取过程,通过该过程从比特流中提取输出子比特流,而不移除特定类型的网络抽象层(NAL)单元并具有特定的NAL单元标头标识符值,其中该特定类型包括访问单元定界符(AUD)NAL单元。
在另一个示例方面,公开了一种视频处理的方法。该方法包括根据规则执行包括一个或多个层的视频和视频的比特流之间的转换,其中该规则规定在子比特流提取的过程中移除包括应用于不包括在目标输出层集(OLS)中的层的可缩放嵌套补充增强信息(SEI)消息的网络抽象层(NAL)单元。
在另一个示例方面,公开了一种视频处理的方法。该方法包括根据规则在包括一个或多个层的视频和该视频的比特流之间执行转换,其中该规则规定,在子比特流提取过程中,通过基于指示补充增强信息(SEI)消息是否应用于特定输出层集(OLS)的第一标志和指示SEI消息是应用于所有子图片还是仅应用于特定子图片的第二标志,从可缩放嵌套SEI消息中提取可缩放嵌套SEI消息来生成不可缩放嵌套SEI消息。
在另一个示例方面,公开了一种视频处理的方法。该方法包括根据规则在包括一个或多个层的视频和视频的比特流之间执行转换,其中该规则规定,在子比特流提取的过程中,通过从图片单元中的第一补充增强信息(SEI)网络抽象层(NAL)单元提取多个可缩放嵌套SEI消息来生成不可缩放嵌套SEI消息。
在另一个示例方面,公开了一种视频处理的方法。该方法包括根据规则在包括一个或多个层的视频和视频的比特流之间执行转换,其中该规则规定子比特流提取过程以生成输出比特流,其中该规则规定在子比特流提取过程期间对一个或多个补充增强信息(SEI)网络抽象层(NAL)单元的处理。
在又一示例方面,公开了一种视频编码器装置。视频编码器包括被配置为实现上述方法的处理器。
在又一示例方面,公开了一种视频解码器装置。视频解码器包括被配置为实现上述方法的处理器。
在又一示例方面,公开了一种其上存储有代码的计算机可读介质。该代码以处理器可执行代码的形式体现了这里描述的方法之一。
这些以及其他特征将在本文档中描述。
附图说明
图1是示出根据所公开技术的一些实施例的视频编解码系统的框图。
图2是用于视频处理的示例硬件平台的框图。
图3是视频处理的示例方法的流程图。
图4是说明示例视频编解码系统的框图。
图5是示出根据所公开技术的一些实施例的编码器的框图。
图6是示出根据所公开技术的一些实施例的解码器的框图。
图7A至图7D是基于所公开技术的一些实现的视频处理的示例方法的流程图。
图8是基于所公开技术的一些实现的视频处理的示例方法的流程图。
图9是基于所公开技术的一些实现的视频处理的示例方法的流程图。
图10A至图10C是基于所公开技术的一些实现的视频处理的示例方法的流程图。
具体实施方式
在本文件中使用章节标题是为了易于理解,而不是将每个章节中公开的技术和实施例的适用性仅限制于该章节。此外,在一些描述中使用H.266术语仅仅是为了易于理解,而不是为了限制所公开技术的范围。因此,本文描述的技术也适用于其他视频编解码器协议和设计。
1.介绍
本文档涉及视频编解码技术。具体而言,它是关于对通用子比特流提取过程、图片级HRD参数的信令以及SEI NAL单元中SEI消息的包含的一些改进。这些思想可以单独或以各种组合应用于支持多层视频编解码的任何视频编解码标准或非标准视频编解码器,例如正在开发的通用视频编解码(VVC)。
2.缩写词
APS 适配参数集
AU 访问单元
AUD 访问单元定界符
AVC 高级视频编解码
CLVS 编解码的层视频序列
CPB 编解码的图片缓冲器
CRA 清理随机访问
CTU 编解码树单元
CVS 编解码的视频序列
DCI 解码的能力信息
DPB 解码的图片缓冲器
EOB 比特流的结尾
EOS 序列的结尾
GDR 渐进解码刷新
HEVC 高效视频编解码
HRD 假设参考解码器
IDR 瞬时解码刷新
ILP 层间预测
ILRP 层间参考图片
JEM 联合探索模型
LTRP 长期参考图片
MCTS 运动约束的片集
NAL 网络抽象层
OLS 输出图层集
PH 图片标头
PPS 图片参数集
PTL配置文件、层级和级别
PU 图片单元
RAP 随机访问点
RBSP 原始字节序列有效载荷
SEI 补充增强信息
SPS 序列参数集
STRP 短期参考图片
SVC 可缩放视频编解码
VCL 视频编解码层
VPS 视频参数集
VTM VVC测试模型
VUI 视频可用性信息
VVC 多功能视频编解码
3.初步讨论
视频编解码标准主要通过众所周知的ITU-T和ISO/IEC标准的发展而演进。ITU-T制定了H.261和H.263,ISO/IEC制定了MPEG-1和MPEG-4Visual,这两个组织联合制定了H.262/MPEG-2视频和H.264/MPEG-4高级视频编解码(AVC)和H.265/HEVC标准。自H.262以来,视频编解码标准基于混合视频编解码结构,其中利用了时域预测加变换编解码。为了探索HEVC以外的未来视频编解码技术,VCEG和MPEG于2015年联合成立了联合视频探索小组(JVET)。此后,JVET采用了许多新方法,并将其放入到名为联合探索模型(JEM)的参考软件中。JVET会议同时每季度举行一次,与HEVC相比,新编解码标准的目标是降低50%的比特率。新视频编解码标准在2018年4月的JVET会议上被正式命名为通用视频编解码(VVC),第一版VVC测试模型(VTM)也在当时发布。由于对VVC标准化的持续努力,新编解码技术在每次JVET会议上都被采用到VVC标准中。VVC的工作草案和测试模型VTM在每次会议后都会更新。VVC项目现在的目标是在2020年7月的会议上技术上完成(FDIS)。
3.1序列内图片分辨率的改变
在AVC和HEVC中,图片的空域分辨率不能改变,除非使用新SPS的新序列以IRAP图片开始。VVC允许在不编解码IRAP图片的位置改变序列内的图片分辨率,IRAP图片总是被帧内编解码。该特征有时被称为参考图片重采样(RPR),因为当参考图片具有与正被解码的当前图片不同的分辨率时,该特征需要对用于帧间预测的参考图片进行重采样。
缩放比率被限制为大于或等于1/2(从参考图片到当前图片的2倍下采样),并且小于或等于8(8倍上采样)。指定了具有不同频率截止的三组重采样滤波器来处理参考图片和当前图片之间的各种缩放比率。三组重采样滤波器分别应用于范围从1/2到1/1.75、从1/1.75到1/1.25和从1/1.25到8的缩放比率。每组重采样滤波器具有用于亮度的16个相位和用于色度的32个相位,这与运动补偿内插滤波器的情况相同。实际上,正常的MC内插过程是重采样过程的特殊情况,缩放比例范围从1/1.25到8。水平和垂直缩放比例是基于图片宽度和高度以及为参考图片和当前图片指定的左、右、顶(top)和底(bottom)缩放偏移而导出的。
支持这一特征的VVC设计与HEVC不同的其它方面包括:i)图片分辨率和对应的一致性窗口在PPS中而不是在SPS中被信令通知,而在SPS中最大图片分辨率被信令通知。ii)对于单层比特流,每个图片存储器(DPB中用于存储一个解码的图片的槽(slot))占用存储具有最大图片分辨率的解码的图片所需的缓冲器大小。
3.2通用和在VVC中的可缩放视频编解码(SVC)
可缩放视频编解码(SVC,有时也称为视频编解码中的可缩放性)是指其中使用基础层(BL),有时称为参考层(RL),以及一个或多个可缩放增强层(EL)的视频编解码。在SVC中,基础层可以承载具有基础质量级别的视频数据。一个或多个增强层可以携带附加的视频数据,以支持例如更高的空域、时域和/或信噪比(SNR)级别。可以相对于先前编解码的层来定义增强层。例如,底层可以用作BL,而顶层可以用作EL。中间层可以充当EL或RL,或者两者兼而有之。举例来说,中间层(例如,既不是最低层也不是最高层的层)可为中间层下方的层(例如,基础层或任何居间增强层)的EL,且同时充当中间层上方的一个或多个增强层的RL。类似地,在HEVC标准的多视图或3D扩展中,可以有多个视图,并且一个视图的信息可以用于编解码(例如,编码或解码)另一个视图的信息(例如,运动估计、运动向量预测和/或其他冗余)。
在SVC中,编码器或解码器使用的参数基于它们可能被利用的编解码级别(例如,视频级别、序列级别、图片级别、条带级别等)被分组为参数集。例如,比特流中不同层的一个或多个编解码的视频序列可以使用的参数可以包括在视频参数集(VPS)中,并且编解码的视频序列中的一个或多个图片可以使用的参数可以包括在序列参数集(SPS)中。类似地,图片中的一个或多个条带所使用的参数可以被包括在图片参数集(PPS)中,并且特定于单个条带的其他参数可以被包括在条带标头中。类似地,可以在各种编解码级别提供特定层在给定时间使用哪个(哪些)参数集的指示。
由于在VVC中对参考图片重采样(RPR)的支持,可以设计对包含多层(例如,在VVC具有SD和HD分辨率的两层)的比特流的支持,而不需要任何附加的信号处理级编解码工具,因为空域可缩放性支持所需的上采样可以仅使用RPR上采样滤波器。然而,为了支持可缩放性,需要高级别的语法改变(与不支持可缩放性相比)。VVC版本1中指定了可缩放性支持。与任何早期视频编解码标准(包括AVC和HEVC的扩展)中的可缩放性支持不同,VVC可缩放性的设计尽可能对单层解码器设计友好。多层比特流的解码能力是以好像比特流中只有单层的方式来指定的。例如,以独立于要解码的比特流中的层的数量的方式来指定诸如DPB大小的解码能力。基本上,为单层比特流设计的解码器不需要太多改变就能够解码多层比特流。与AVC和HEVC的多层扩展设计相比,HLS在牺牲一些灵活性的情况下得到显著简化。例如,IRAPAU需要包含CVS中存在的每个层的图片。
3.3参数集
AVC、HEVC和VVC指定了参数集。参数集的类型包括SPS、PPS、APS和VPS。AVC、HEVC和VVC都支持SPS和PPS。VPS从HEVC开始引入,在HEVC和VVC都有应用。APS没有被包括在AVC或HEVC中,但是被包括在最新VVC草案文本中。
SPS被设计成携带序列级标头信息,而PPS被设计成携带不经常改变的图片级标头信息。利用SPS和PPS,不经常改变的信息不需要为每个序列或图片重复,因此可以避免该信息的冗余信令。此外,SPS和PPS的使用实现了重要标头信息的带外传输,从而不仅避免了对冗余传输的需要,还提高了抗误码能力。
引入VPS是为了携带对多层比特流中的所有层公共的序列级标头信息。
引入APS是为了携带这样的图片级或条带级信息,这些信息需要相当一些比特来编解码,可以由多个图片共享,并且在序列中可以有相当多的不同变化。
3.4一般子比特流提取过程
最新VVC文本的条款C.6指定了一般子比特流提取过程,如下所示:
C6子比特流提取过程
这个过程的输入是比特流inBitstream、目标OLS索引targetOlsIdx和目标最高TemporalId值tIdTarget。
这个过程的输出是子比特流outBitstream。
对输入比特流的比特流一致性的要求是,满足以下所有条件的任何输出子比特流都应该是符合的比特流:
–输出子比特流是本条款中指定的过程的输出,其中比特流targetOlsIdx等于VPS指定的OLS列表的索引,并且tIdTarget等于0到6(含)范围内的任何值。
–输出子比特流包含至少一个VCL NAL单元,其中nuh_layer_id等于LayerIdInOls[targetOlsIdx]中的每个nuh_layer_id值。
–输出子比特流包含至少一个VCL NAL单元,其中TemporalId等于tIdTarget。
注意–一致性比特流包含一个或多个TemporalId等于0的编解码条带NAL单元,但不一定包含nuh_layer_id等于0的编解码条带NAL单元。
如下导出输出子比特流OutBitstream:
1.比特流outBitstream被设置为与比特流inBitstream相同。
2.从outBitstream中移除所有TemporalId大于tIdTarget的NAL单元。
3.从outBitstream中移除nal_unit_type不等于VPS_NUT、DCI_NUT和EOB_NUT中任何一个且nuh_layer_id不包括在列表LayerIdInOls[targetOlsIdx]中的所有NAL单元。
4.从outBitstream中移除满足以下所有条件的所有VCL NAL单元,以及nal_unit_type等于PH_NUT、FD_NUT、SUFFIX_SEI_NUT和PREFIX_SEI_NUT且PayloadType不等于0、1或130的相关联的非VCLNAL单元:
–nal_unit_type等于TRAIL_NUT、STSA_NUT、RADL_NUT或RASL_NUT,或者nal_unit_type等于GDR_NUT,而相关联的ph_recovery_poc_cnt不等于0。
–对于0至NumLayersInOls[targetOlsIdx]-1(含)范围内的j值,nuh_layer_id等于LayerIdInOls[targetOlsIdx][j]。
–TemporalId大于或等于NumSubLayersInLayerInOLS[targetOlsIdx][GeneralLayerIdx[nuh_layer_id]]。
5.从outBitstream中移除包含可缩放嵌套SEI消息的所有SEI NAL单元,该消息的sn_ols_flag等于1,并且在0到sn_num_olss_minus1(含)的范围内没有i值,使得NestingOlsIdx[i]等于targetOlsIdx。
6.当LayerIdInOls[targetOlsIdx]不包括比特流中所有NAL单元中的nuh_layer_id的所有值时,以下情况适用:
a.从outBitstream中移除包含payloadType等于0(BP)或130
(DUI)的不可缩放嵌套SEI消息的所有SEI NAL单元。
b.当general_same_pic_timing_in_all_ols_flag等于0时,从
outBitstream中移除所有包含payloadType等于1(PT)的不可缩放嵌套
SEI消息的SEI NAL单元。
c.当outBitstream包含包含sn_ols_flag等于1的可缩放嵌套SEI消息的SEI NAL单元,并且适用于outBitstream(NestingOlsIdx[i]等于targetOlsIdx)时,以下内容适用:
–如果general_same_pic_timing_in_all_ols_flag等于0,则从可缩放嵌套SEI消息中提取payloadType等于0(BP)、1(PT)或130(DUI)的适当的不可缩放嵌套SEI消息,并将这些SEI消息包括在outBitstream中。
–否则(general_same_pic_timing_in_all_ols_flag等于1),从可缩放嵌套SEI消息中提取payloadType等于0(BP)或130(DUI)的适当的不可缩放嵌套SEI消息,并将这些SEI消息包括在outBitstream中。
4.公开的技术方案解决的技术问题
最新VVC文本(在JVET-R2001-vA/v10中)中的一般子比特流提取过程和相关其他部分的现有设计具有以下问题:
1)在要求输出子比特流是一致性比特流的条件下,tIdTarget的值在0到6(包括端点)的范围内。然而,在许多比特流中,最高的TemporalId值小于6,该值由语法元素vps_max_sublayers_minus1指定。
2)当存在时,访问单元定界符(AUD)NAL单元可以具有任何nuh_layer_id值。然而,子比特流提取过程的步骤3将移除AUD NAL单元,其nuh_layer_id值不包括在列表LayerIdInOls[targetOlsIdx]中。
3)一些SEI NAL单元包含sn_ols_flag等于0的可缩放嵌套SEI消息,而可缩放嵌套SEI消息中指示的适用层不包括目标OLS中的任何层,即,没有一个适用层的nuh_layer_id值不包括在列表LayerIdInOls[targetOlsIdx]中。这些SEI NAL单元也应该被移除。
4)步骤6的条件,即“当LayerIdInOls[targetOlsIdx]不包括比特流中所有NAL单元中的nuh_layer_id的所有值”具有以下两个问题。
a.当DCI、VPS、AUD或EOB NAL单元存在并且其nuh_layer_id不等于VCL NAL单元的任何nuh_layer_id值时,该条件不适用。
b.短语“比特流”不清楚,因为在上下文中涉及两个比特流,inBitstream和outBitstream。
5)步骤6.c将从sn_ols_flag等于1且sn_subpic_flag等于1的可缩放嵌套SEI消息中提取可缩放嵌套SEI消息,以生成不可缩放嵌套SEI消息,而这种可缩放嵌套SEI消息仅对应于特定子图片,因此不应被提取。
6)在步骤6.c中,当从一个SEI NAL单元seiNalUnitA中提取多个可缩放嵌套SEI消息作为不可缩放嵌套SEI消息时,它们仍应被包括在一个SEI NAL单元seiNalUnitB中,并且SEI NAL单元seiNalUnitB应被包括在包含SEI NAL单元seiNalUnitA的同一PU中。但是,这并没有具体规定。
7)步骤6.c应该从outBitstream中移除所有SEI NAL单元,从这些SEI单元中已经提取了一些SEI消息并将其作为不可缩放嵌套SEI消息包括在内。但是,这并没有具体规定。
8)缺少这样的约束,即当SEI NAL单元包含payloadType等于0、1或130的SEI消息时,SEI NAL单元不应包含payloadType不等于0(BP)、1(PT)、130(DUI)或133(可缩放嵌套)的SEI消息。这导致步骤4中SEI消息的移除不仅仅涉及SEI NAL单元的移除。
9)标志general_same_pic_timing_in_all_ols_flag仅规定不可缩放嵌套PT SEI消息是否适用于所有OLS。但是,DUI SEI消息中携带的信息与PT SEI消息中的目的相似。
5.技术解决方案和实施例的列表
为了解决上述问题和其他问题,公开了如下总结的方法。这些项目应该被认为是解释一般概念的示例,而不应该以狭隘的方式解释。此外,这些项目可以单独使用或以任何方式组合使用。
1)为了解决问题1,要求输出子比特流是一致性比特流的条件被规定,使得tIdTarget的值被规定在0到vps_max_sublayers_minus1(包括端点)的范围内。
a.或者,规定要求输出子比特流是一致性比特流的条件,使得当输入比特流中有多于一层时,tIdTarget的值被规定在0到vps_max_sublayers_minus1(包括端点)的范围内,当输入比特流中只有一层时,tIdTarget的值被规定在0到sps_max_sublayers_minus1(包括端点)的范围内。
2)为了解决问题2,规定了通用子比特流提取过程,使得AUDNAL单元以与nal_unit_type等于VPS_NUT、DCI_NUT或EOB_NUT的NAL单元相同的方式被处理。换句话说,根据nuh_layer_id值,没有AUD NAL单元被从输出比特流outBitstream中移除。
3)为了解决问题3,规定了通用子比特流提取过程,使得输出比特流outBitstream将移除包含sn_ols_flag等于0的可缩放嵌套SEI消息的SEI NAL单元,而可缩放嵌套SEI消息中指示的适用层不包括目标OLS中的任何层。
a.在一个示例中,规定从outBitstream中移除包含可缩放嵌套SEI消息的所有SEINAL单元,该可缩放嵌套SEI消息具有等于0的sn_ols_flag,并且在列表LayerIdInOls[targetOlsIdx]中不存在列表nestingLayerId[i]中0到nestingNumLayers-1(包含端点)范围内的i的值。
4)为了解决问题4,条件“当LayerIdInOls[targetOlsIdx]不包括比特流中所有NAL单元中的nuh_layer_id的所有值”被改变为“当列表LayerIdInOls[targetOlsIdx]不包括比特流inBitstream中所有VCL NAL
单元中的nuh_layer_id的所有值”。
5)为了解决问题5,规定了通用子比特流提取过程,使得它仅从sn_ols_flag等于1且sn_subpic_flag等于0的可缩放嵌套SEI消息中提取可缩放嵌套SEI消息,以生成不可缩放嵌套SEI消息。
6)为了解决问题6,规定了通用子比特流提取过程,使得当从一个SEI NAL单元SeiNalUnitA中提取多个可缩放嵌套SEI消息作为不可缩放嵌套SEI消息时,它们仍然被包括在输出比特流outBitstream中的一个SEI NAL单元seiNalUnitB中,并且SEI NAL单元seiNalUnitB被包括在包含SEI NAL单元SeiNalUnitA的PU中。
7)为了解决问题7,规定了通用子比特流提取过程,使得它从输出比特流outBitstream中移除所有SEI NAL单元,从这些SEI单元中已经提取了一些SEI消息并将其作为不可缩放嵌套SEI消息包括。
a.或者,当这种SEI NAL单元中的可缩放嵌套SEI消息仅适用于目标OLS(即,由VPS指定的第targetOlsIdx个OLS)时,从outBitstream中移除SEI NAL单元。
b.或者,当除了这种SEI NAL单元中的可缩放嵌套SEI消息所应用的OLS中的目标OLS之外,不存在包含所有包括在列表LayerIdInOls[targetOlsIdx]中的层的OLS时,从outBitstream中移除SEI NAL单元。
8)为了解决问题8,添加约束,使得当SEI NAL单元包含有payloadType等于0、1或130的SEI消息时,SEI NAL单元不应包含payloadType不等于0(BP)、1(PT)、130(DUI)或133(可缩放嵌套)的SEI消息。
9)为了解决问题9,标志general_same_pic_timing_in_all_ols_flag规定不可缩放嵌套PT和DUI SEI消息是否适用于所有OLS。
a.或者,标志general_same_pic_timing_in_all_ols_flag规定不可缩放嵌套BP、PT和DUI SEI消息是否适用于所有OLS。
i.在一个示例中,标志
general_same_pic_timing_in_all_ols_flag被重命名为标志general_same_pic_level_hrd_info_in_all_ols_flag,其规定不可缩放嵌套BP、PT和DUI SEI消息是否适用于所有OLS。
b.或者,添加新标志,例如命名为general_same_dui_in_all_ols_flag,以指定非可缩放嵌套DUI SEI消息是否适用于所有OLS。
c.或者,添加新标志,例如命名为general_same_bp_in_all_ols_flag,以指定不可缩放嵌套BP SEI消息是否适用于所有OLS。
6.实施例
以下是上文第5节中总结的本发明的一些方面的一些示例实施例,其可应用于VVC规范。修改的文本基于JVET-R2001-vA/v10中的最新VVC文本。增加或修改的大部分相关部分用粗体和斜体突出显示,一些删除的部分用双括号标出(例如,[[a]]表示删除字符“a”)。可能还有其他一些编辑性质的更改,因此没有突出显示。
6.1第一实施例
该实施例用于项目1、2、3、3.a、4、5、6、7.b和8。
C6一般子比特流提取过程
这个过程的输入是比特流inBitstream、目标OLS索引targetOlsIdx和目标最高TemporalId值tIdTarget。
这个过程的输出是子比特流outBitstream。
对输入比特流的比特流一致性的要求是,满足以下所有条件的任何输出子比特流都应该是符合的比特流:
–输出子比特流是本条款中指定的过程的输出,其中比特流targetOlsIdx等于VPS指定的OLS列表的索引,并且tIdTarget等于0到vps_max_sublayers_minus1(含)范围内的任何值。
–输出子比特流包含至少一个VCL NAL单元,其中nuh_layer_id等于LayerIdInOls[targetOlsIdx]中的每个nuh_layer_id值。
–输出子比特流包含至少一个VCL NAL单元,其中TemporalId等于tIdTarget。
注意–一致性比特流包含一个或多个TemporalId等于0的编解码条带NAL单元,但不一定包含nuh_layer_id等于0的编解码条带NAL单元。
通过应用以下有序步骤来导出输出子比特流OutBitstream:
1.比特流outBitstream被设置为与比特流inBitstream相同。
2.从outBitstream中移除所有TemporalId大于tIdTarget的NAL单元。
3.从outBitstream中移除nal_unit_type不等于DCI_NUT、
VPS_NUT、AUD_NUT和EOB_NUT中任何一个且nuh_layer_id不包括在列表LayerIdInOls[targetOlsIdx]中的所有NAL单元。
4.从outBitstream中移除满足以下所有条件的所有VCL NAL单元,以及还从outBitstream中移除这些VCL NAL单元的具有nal_unit_type等于PH_NUT或FD_NUT,或者具有nal_unit_type等于SUFFIX_SEI_NUT或PREFIX_SEI_NUT,并且包含payloadType不等于0(BP)、1(PT)、130(DUI)或133(可缩放嵌套)的SEI消息相关联的非VCL NAL单元:
–nal_unit_type等于TRAIL_NUT、STSA_NUT、RADL_NUT或RASL_NUT,或者nal_unit_type等于GDR_NUT,而相关联的ph_recovery_poc_cnt不等于0。
–[[对于0至NumLayersInOls[targetOlsIdx]-1(含)范围内的j值,nuh_layer_id等于LayerIdInOls[targetOlsIdx][j]]]
–temporal id大于或等于NumSubLayersInLayerInOLS[targetOlsIdx][GeneralLayerIdx[nuh_layer_id]]。
5.从outBitstream中移除包含可缩放嵌套SEI消息的所有SEI NAL
单元,该消息的sn_ols_flag等于1,并且在0到sn_num_olss_minus1
(含)的范围内没有i值,使得NestingOlsIdx[i]等于targetOlsIdx。
6.从outBitstream中移除所有包含可缩放嵌套SEI消息的SEINAL单元,该消息的sn_ols_flag等于0,并且列表nestingLayerId[i]
中没有范围为0到nestingNumLayers-1(包括端点)的i值,即列表LayerIdInOls[targetOlsIdx]中的值。
7.当LayerIdInOls[targetOlsIdx]不包括比特流inBitstream的所有VCL NAL单元中的nuh_layer_id的所有值时,以下按所列顺序适用:
a.从outBitstream中移除包含payloadType等于0(BP)或130
(DUI)的不可缩放嵌套SEI消息的所有SEI NAL单元。
b.当general_same_pic_timing_in_all_ols_flag等于0时,从outBitstream中移除所有包含payloadType等于1(PT)的不可缩放嵌套SEI消息的SEI NAL单元。
c.当outBitstream包含包含sn_ols_flag等于1且sn_subpic_flag等于0的可缩放嵌套SEI消息的SEI NAL单元,其适用于第targetOlsIdx个OLS(即,在0到sn_num_olss_minus1(含)的范围内至少有一个i值,使得NestingOlsIdx[i]等于targetOlsIdx),以下按列出的顺序适用:
i.对于此类SEI NAL单元SeiNalUnitA中的每个可缩放嵌套
BP或DUI SEI消息,生成具有相同payloadType和SEIpayloadType的不可缩放嵌套SEI消息,并将其包含在包含outBitstream中SeiNalUnitA的PU中的SEI NAL单元中。
ii.当general_same_pic_timing_in_all_ols_flag is equal to 0等于0时,对于这种SEI NAL单元SeiNalUnitA中的每个可缩放嵌套的PT SEI消息,生成具有相同SEIpayloadType的非可缩放嵌套SEI消息,并将其包括在包含outBitstream中的SeiNalUnitA的PU中的SEI NAL单元中。
iii.当包含在特定的这种SEI NAL单元SeiNalUnitA中的多个SEI消息成为不可缩放嵌套SEI消息时,这些不可缩放嵌套SEI消息被包括在一个SEI NAL单元中。
iv.当不存在OLS时,除了在这样的SEI NAL单元seiNalUnitA中的可缩放嵌套SEI消息所应用的OLS中的目标OLS之外,其包含所有包括在列表LayerIdInOls[targetOlsIdx]中的层,从outBitstream中移除SEI NAL单元seiNalUnitA。
D.2.2通用SEI有效载荷语义
...
以下限制适用于SEI NAL单元的SEI消息的包含,是比特流一致性的要求:
–当SEI NAL单元包含不可缩放嵌套BP SEI消息、不可缩放嵌套PT SEI消息或不可缩放嵌套DUI SEI消息时,SEI NAL单元不得包含任何其他有效载荷类型(payloadType)不等于0(BP)、1(PT)或130(DUI)的SEI消息。
–当SEI NAL单元包含可缩放嵌套BP SEI消息、可缩放嵌套PT SEI消息或可缩放嵌套DUI SEI消息时,SEI NAL单元不应包含任何其他有payloadType不等于0(BP)、1(PT)、130(DUI)或133(可缩放嵌套)的SEI消息。
–当SEI NAL单元包含payloadType等于0、1或130的SEI消息时,SEI NAL单元不应包含payloadType不等于0(BP)、1(PT)、130(DUI)或133(可缩放嵌套)的SEI消息。
...
图1是示出示例视频处理系统1900的框图,其中可以实现这里公开的各种技术。各种实现可以包括系统1900的一些或所有组件。系统1900可以包括用于接收视频内容的输入1902。视频内容可以以原始或未压缩的格式(例如8或10位多分量像素值)、或者可以是以压缩或编解码的格式接收。输入1902可以表示网络接口、外围总线接口或存储接口。网络接口的示例包括有线接口,例如以太网、无源光网络(PON)等。以及诸如Wi-Fi或蜂窝接口的无线接口。
系统1900可以包括编解码组件1904,其可以实现本文档中描述的各种编码或编解码方法。编解码组件1904可以降低从输入1902到编解码组件1904的输出的视频的平均比特率,以产生视频的编解码的表示。因此,编解码技术有时被称为视频压缩或视频转码技术。如组件1906所表示的,编解码组件1904的输出可以被存储,或者经由所连接的通信来发送。组件1908可以使用在输入1902处接收的视频的存储或传送的比特流(或编解码)表示来生成发送到显示接口1910的像素值或可显示视频。从比特流表示生成用户可视视频的过程有时被称为视频解压缩。此外,虽然某些视频处理操作被称为“编解码”操作或工具,但是应当理解,编码工具或操作在编码器处使用,并且与编码结果相反的对应的解码工具或操作将由解码器执行。
外围总线接口或显示器接口的示例可以包括通用串行总线(USB)或高清多媒体接口(HDMI)或显示端口等。存储接口的示例包括SATA(串行高级技术附件)、PCI、IDE接口等。本文档中描述的技术可以在各种电子设备中实现,例如移动电话、膝上型电脑、智能手机或能够执行数字数据处理和/或视频显示的其他设备。
图2是视频处理装置3600的框图。装置3600可用于实现本文描述的一种或多种方法。装置3600可以体现在智能手机、平板电脑、计算机、物联网(IoT)接收器等中。装置3600可以包括一个或多个处理器3602、一个或多个存储器3604和视频处理硬件3606。处理器3602可以被配置为实现本文档中描述的一种或多种方法。存储器3604可用于存储用于实现本文所述方法和技术的数据和代码。视频处理硬件3606可以用于在硬件电路中实现本文档中描述的一些技术。
图4是说明可利用本发明的技术的示例视频编解码系统100的框图。
如图4所示,视频编解码系统100可以包括源设备110和目的地设备120。源设备110生成可被称为视频编码设备的编码的视频数据。目的地设备120可解码由源设备110生成的编解的视频数据,其可称为视频解码设备。
源设备110可以包括视频源112、视频编码器114和输入/输出(I/O)接口116。
视频源112可以包括诸如视频捕获设备、从视频内容提供商接收视频数据的接口和/或用于生成视频数据的计算机图形系统的源,或者这些源的组合。视频数据可以包括一个或多个图片。视频编码器114对来自视频源112的视频数据进行编码,以生成比特流。比特流可以包括形成视频数据的编解码的表示的比特序列。比特流可以包括编解码的图片和相关联的数据。编解码的图片是图片的编解码的表示。相关联的数据可以包括序列参数集、图片参数集和其他语法结构。I/O接口116可以包括调制器/解调器(调制解调器)和/或发送器。编码的视频数据可经由I/O接口116通过网络130a直接传输到目的地设备120。编码的视频数据还可存储在存储媒体/服务器130b上以供目的地设备120访问。
目的地设备120可以包括I/O接口126、视频解码器124和显示设备122。
I/O接口126可以包括接收器和/或调制解调器。I/O接口126可以从源设备110或存储介质/服务器130b获取编码的视频数据。视频解码器124可以解码编码的视频数据。显示设备122可以向用户显示解码的视频数据。显示设备122可以与目的地设备120集成在一起,或者可以在目的地设备120的外部,目的地设备120被配置为与外部显示设备接口。
视频编码器114和视频解码器124可以根据视频压缩标准操作,视频压缩标准操作诸如高效视频编解码(HEVC)标准、通用视频编解码(VVC)标准和其他当前和/或进一步的标准。
图5是示出视频编码器200的示例的框图,该视频编码器200可以是图4所示系统100中的视频编码器114。
视频编码器200可被配置为执行本公开的任何或所有技术。在图5的示例中,视频编码器200包括多个功能组件。本发明中描述的技术可在视频编码器200的各种组件之间共享。在一些示例中,处理器可以被配置为执行本公开中描述的任何或所有技术。
视频编码器200的功能组件可包括分割单元201、可包括模式选择单元203的预测单元202、运动估计单元204、运动补偿单元205和帧内预测单元206、残差生成单元207、变换单元208、量化单元209、逆量化单元210、逆变换单元211、重构单元212、缓冲器213和熵编码单元214。
在其他示例中,视频编码器200可以包括更多、更少或不同的功能组件。在一示例中,预测单元202可包括帧内块拷贝(IBC)单元。IBC单元可以以IBC模式执行预测,其中至少一个参考图片是当前视频块所在的图片。
此外,诸如运动估计单元204和运动补偿单元205的一些组件可以被高度集成,但是为了解释的目的,在图5的示例中被分开表示。
分割单元201可将图片分割成一个或多个视频块。视频编码器200和视频解码器300可以支持各种视频块大小。
模式选择单元203可基于误差结果选择编解码模式之一,例如帧内或帧间,并将得到的帧内或帧间编解码的块提供给残差生成单元207以生成残差块数据,并提供给重建单元212以重建编码的块用作参考图片。在一些示例中,模式选择单元203可以选择帧内和帧间预测(CIIP)模式的组合,其中预测基于帧间预测信号和帧内预测信号。在帧间预测的情况下,模式选择单元203还可以为块选择运动向量的精度(例如,亚像素或整数像素精度)。
为了对当前视频块执行帧间预测,运动估计单元204可通过将来自缓冲器213的一个或多个参考帧与当前视频块进行比较来生成当前视频块的运动信息。运动补偿单元205可基于来自缓冲器213的除了与当前视频块相关联的图片之外的图片的运动信息和解码的样点来确定当前视频块的预测的视频块。
运动估计单元204和运动补偿单元205可对当前视频块执行不同的操作,例如,取决于当前视频块是在I条带、P条带还是B条带中。
在一些示例中,运动估计单元204可对当前视频块执行单向预测,且运动估计单元204可在列表0或列表1的参考图片中搜索当前视频块的参考视频块。运动估计单元204可接着生成指示列表0或列表1中的参考图片的参考索引,参考图片包含参考视频块和指示当前视频块与参考视频块之间的空域位移的运动向量。运动估计单元204可输出参考索引、预测方向指示符和运动向量作为当前视频块的运动信息。运动补偿单元205可基于由当前视频块的运动信息指示的参考视频块来生成当前块的预测的视频块。
在其它示例中,运动估计单元204可对当前视频块执行双向预测,运动估计单元204可在列表0中的参考图片中搜索当前视频块的参考视频块,且还可在列表1中的参考图片中搜索当前视频块的另一参考视频块。运动估计单元204可接着生成参考索引和运动向量,参考索引指示包含参考视频块的列表0和列表1中的参考图片,运动向量指示参考视频块与当前视频块之间的空域位移。运动估计单元204可输出当前视频块的参考索引和运动向量作为当前视频块的运动信息。运动补偿单元205可基于由当前视频块的运动信息指示的参考视频块来生成当前视频块的预测的视频块。
在一些示例中,运动估计单元204可输出用于解码器的解码处理的全套运动信息。
在一些示例中,运动估计单元204可能不输出当前视频的全套运动信息集。相反,运动估计单元204可参考另一视频块的运动信息来信令通知当前视频块的运动信息。举例来说,运动估计单元204可确定当前视频块的运动信息与临近视频块的运动信息足够相似。
在一个示例中,运动估计单元204可在与当前视频块相关联的语法结构中指示一值,该值向视频解码器300指示当前视频块具有与另一视频块相同的运动信息。
在另一示例中,运动估计单元204可在与当前视频块相关联的语法结构中标识另一视频块和运动向量差(MVD)。运动向量差指示当前视频块的运动向量和所指示的视频块的运动向量之间的差。视频解码器300可使用所指示的视频块的运动向量和运动向量差来确定当前视频块的运动向量。
如上所述,视频编码器200可以预测性地信令通知运动向量。可由视频编码器200实施的预测信令技术的两个示例包含高级运动向量预测(AMVP)和合并模式信令。
帧内预测单元206可对当前视频块执行帧内预测。当帧内预测单元206对当前视频块执行帧内预测时,帧内预测单元206可基于同一图片中的其它视频块的解码的样点来生成当前视频块的预测数据。当前视频块的预测数据可包括预测的视频块和各种语法元素。
残差生成单元207可通过从当前视频块减去(例如,由负号指示)当前视频块的(一个或多个)预测的视频块来生成当前视频块的残差数据。当前视频块的残差数据可包括与当前视频块中样点的不同样点分量相对应的残差视频块。
在其它示例中,当前视频块可能没有当前视频块的残差数据,例如在跳过模式中,且残差生成单元207可不执行减法操作。
变换处理单元208可通过将一个或多个变换应用于与当前视频块相关联的残差视频块来生成当前视频块的一个或多个变换系数视频块。
在变换处理单元208生成与当前视频块相关联的变换系数视频块之后,量化单元209可基于与当前视频块相关联的一个或多个量化参数(QP)值来量化与当前视频块相关联的变换系数视频块。
逆量化单元210和逆变换单元211可分别对变换系数视频块应用逆量化和逆变换,以从变换系数视频块重建残差视频块。重建单元212可将重建的残差视频块添加到来自由预测单元202生成的一个或多个预测视频块的对应的样点,以产生与当前块相关联的重建的视频块,以存储在缓冲器213中。
在重建单元212重建视频块之后,可执行环路滤波操作以减少视频块中的视频块化效应伪像。
熵编码单元214可以从视频编码器200的其他功能组件接收数据。当熵编码单元214接收数据时,熵编码单元214可以执行一个或多个熵编码操作以生成熵编码的数据并输出包括熵编码的数据的比特流。
图6是示出视频解码器300的示例的框图,该视频解码器300可以是图4所示系统100中的视频解码器114。
视频解码器300可被配置为执行本发明的任何或所有技术。在图5的示例中,视频解码器300包括多个功能组件。本公开中描述的技术可以在视频解码器300的各种组件之间共享。在一些示例中,处理器可以被配置为执行本公开中描述的任何或所有技术。
在图6的示例中,视频解码器300包括熵解码单元301、运动补偿单元302、帧内预测单元303、逆量化单元304、逆变换单元305、重构单元306和缓冲器307。在一些示例中,视频解码器300可以执行通常与针对视频编码器200(图5)描述的编码过程互逆的解码过程。
熵解码单元301可检索编码的比特流。编码的比特流可以包括熵编码的视频数据(例如,视频数据的编码的块)。熵解码单元301可解码熵编解码的视频数据,且从熵解码的视频数据,运动补偿单元302可确定运动信息,包含运动向量、运动向量精度、参考图片列表索引和其它运动信息。运动补偿单元302可(例如)通过执行AMVP和合并模式来确定此信息。
运动补偿单元302可产生运动补偿的块,可能基于内插滤波器执行内插。语法元素中可以包括要以亚像素精度使用的内插滤波器的标识符。
运动补偿单元302可使用如视频编码器20在视频块的编码期间所使用的内插滤波器来计算参考块的子整数像素的内插值。运动补偿单元302可根据所接收的语法信息来确定视频编码器200所使用的内插滤波器,并使用内插滤波器来产生预测块。
运动补偿单元302可使用一些语法信息来确定用于编码编码的视频序列的(一个或多个)帧和/或(一个或多个)条带的块的大小、描述编码的视频序列的图片的每一宏块如何被分割的分割信息、指示每一分割如何被编码的模式、每一帧间编码的块的一个或多个参考帧(和参考帧列表)以及解码编码的视频序列的其它信息。
帧内预测单元303可以使用例如在比特流中接收的帧内预测模式来从空域相邻的块形成预测块。逆量化单元303逆量化(即,去量化)比特流中提供的并且由熵解码单元301解码的量化的视频块系数。逆变换单元303应用逆变换。
重建单元306可将残差块与由运动补偿单元202或帧内预测单元303生成的对应的预测块相加,以形成解码的块。如果需要,还可以应用去块化滤波器来对解码的块进行滤波,以便去除块效应伪像。解码的视频块然后被存储在缓冲器307中,缓冲器307为后续的运动补偿/帧内预测提供参考块,并且还产生解码的视频以在显示设备上呈现。
解决方案列表描述了所公开技术的一些实施例。
接下来提供第一组解决方案。以下解决方案示出了前一部分中讨论的技术的示例实施例(例如,第1-9项)。
1.一种视频处理的方法(例如,图3中的方法600),包括执行(602)包括一个或多个视频层的视频和视频的编解码的表示之间的转换,所述一个或多个视频层包括一个或多个视频图片,其中编解码的表示符合与从编解码的表示中提取子比特流相关的格式规则。
2.解决方案1的方法,还包括:根据格式规则从编解码的表示中提取子比特流。
以下解决方案显示了上一节中讨论的技术的示例实施例(例如,第1项)
3.解决方案1-2中任一项的方法,其中,在提取子比特流期间,用于提取的目标id被允许在范围0到在用于编解码的表示的视频参数集中指示的语法字段的值之间。
以下解决方案显示了上一节中讨论的技术的示例实施例(例如,第2项)
4.解决方案1-3中任一项的方法,其中,在不根据层id从输出比特流中移除访问单元定界符网络抽象层(AUD NAL)的情况下提取子比特流。
以下解决方案显示了上一节中讨论的技术的示例实施例(例如,第3项)
5.解决方案1-4中任一项的方法,其中,通过选择性地移除网络抽象层单元来提取子比特流,所述网络抽象层单元包括不适用于被提取的输出层的可缩放嵌套补充增强信息消息。
以下解决方案显示了上一节中讨论的技术的示例实施例(例如,第5项)
6.解决方案1-5中任一项的方法,其中,通过使用设置了输出层集的标志和禁用了子图片的标志来约束提取以从可缩放嵌套补充增强信息(SEI)消息中生成不可缩放嵌套补充增强信息(SEI),来提取子比特流。
以下解决方案显示了上一节中讨论的技术的示例实施例(例如,第6项)
7.解决方案1-6中任一项的方法,其中,根据指定从单个SEI网络抽象层单元提取多个可缩放嵌套补充增强信息(SEI)消息的规则来提取子比特流。
以下解决方案显示了上一节中讨论的技术的示例实施例(例如,第7项)
8.解决方案1-7中任一项的方法,其中,根据从编解码的表示中移除所有补充增强信息网络抽象层SEI NAL单元的规则来提取子比特流,一些SEI消息已经从所述补充增强信息网络抽象层SEI单元中被提取并作为不可缩放嵌套SEI消息包括。
以下解决方案显示了上一节中讨论的技术的示例实施例(例如,第8项)
9.解决方案1-8中任一项的方法,其中,所述格式规则规定当补充增强信息网络抽象层(SEI NAL)单元包含payloadType等于0、1或130的SEI消息时,不允许所述SEI NAL单元包含payloadType不等于0(BP)、1(PT)、130(DUI)或133(可缩放嵌套)的SEI消息。
10.解决方案1-9中任一项的方法,其中,执行转换包括将视频编解码成编解码的表示。
11.解决方案1-9中任一项的方法,其中,执行转换包括解析和解码编解码的表示以生成视频。
12.一种视频解码装置,包括被配置为实现解决方案1至11中的一个或多个中所述的方法的处理器。
13.一种视频编码装置,包括被配置为实现解决方案1至11中的一个或多个中所述的方法的处理器。
14.一种其上存储有计算机代码的计算机程序产品,当由处理器执行时,该代码使处理器实现解决方案1至11中任一项所述的方法。
15.本文档中描述的方法、装置或系统。
第二组解决方案显示了上一节中讨论的技术的示例实施例(例如,第1、4、8和9项)。
1.一种视频处理的方法(例如,如图7A所示的方法700),包括:根据规则执行702包括多层的视频和视频的比特流之间的转换,其中该规则规定从比特流中提取的子比特流的时域层标识符值的最大允许值。
2.解决方案1的方法,其中,所述规则响应于比特流中的层的数量。
3.解决方案1或2的方法,其中,在层的数量大于1的情况下,所述规则规定时域层标识符的最大允许值在0到基于比特流参考的视频参数集中的第一语法元素的值的范围内。
4.解决方案1或2的方法,其中,在层的数量等于1的情况下,所述规则规定时域层标识符的最大允许值在0到基于比特流所参考的序列参数集中的第二语法元素的值的范围内。
5.解决方案3的方法,其中,第一语法元素指定允许存在于由视频参数集减1指定的层中的时域子层的最大数量。
6.解决方案4的方法,其中,第二语法元素指定允许存在于由序列参数集减1指定的层中的时域子层的最大数量。
7.解决方案3的方法,其中,视频参数集中的第一语法元素是vps_max_sublayers_minus1。
8.解决方案4的方法,其中,序列参数集中的第二语法元素是sps_max_sublayers_minus1。
9.解决方案3或4的方法,其中,所述值等于第一语法元素或第二语法元素的值。
10.一种视频处理的方法(例如,如图7B所示的方法710),包括:根据规则执行712视频和视频的比特流之间的转换,其中该规则定义了在子比特流提取过程期间要从比特流中提取的网络抽象层(NAL)单元,以输出子比特流,并且其中该规则规定基于具有目标OLS索引的输出层集(OLS)中的NAL单元标头标识符值的列表是否不包括输入到子比特流提取过程的比特流中的所有视频编解码层(VCL)NAL单元中的NAL单元标头标识符的所有值来导出子比特流。
11.解决方案10的方法,其中,在输出层集中的NAL单元标头标识符值的列表不包括比特流中所有VCL NAL单元中的NAL单元标头标识符的所有值的情况下,规则规定从子比特流中移除包含有效载荷类型等于0或130的不可缩放嵌套SEI消息的所有补充增强信息(SEI)NAL单元。
12.一种视频处理的方法(例如,图7C中所示的方法720),包括:根据规则执行722视频和视频的比特流之间的转换,其中该规则定义了在子比特流提取过程期间要从比特流中提取的网络抽象层(NAL)单元,以输出子比特流,并且其中该规则规定,响应于SEI网络抽象层(NAL)单元中包括的第一补充增强信息(SEI)消息的有效载荷类型,禁止SEI NAL单元包含具有特定有效载荷类型的SEI消息。
13.解决方案12的方法,其中,第一SEI消息的有效载荷类型是0、1或130,并且规则规定不允许SEI NAL单元包含具有不等于0、1、130或133的特定有效载荷类型的SEI消息。
14.一种视频处理的方法(例如,如图7D所示的方法730),包括:根据格式规则执行732视频和视频的比特流之间的转换,其中格式规则规定比特流包括指定具有一个或多个特定有效载荷类型的一个或多个不可缩放嵌套补充增强信息(SEI)消息是否应用于编解码层参考的所有输出层集的标志。
15.解决方案14的方法,其中,一个或多个特定有效载荷类型等于1和130。
16.解决方案14的方法,其中,一个或多个不可缩放SEI消息是图片定时(PT)SEI消息和解码单元信息(DUI)SEI消息。
17.解决方案14的方法,其中,一个或多个特定有效载荷类型等于0、1和130。
18.解决方案14的方法,其中,一个或多个不可缩放SEI消息是缓冲期(BP)SEI消息和解码单元信息(DUI)SEI消息。
19.解决方案14的方法,其中,一个或多个特定有效载荷类型等于130。
20.解决方案14的方法,其中,一个或多个不可缩放SEI消息是解码单元信息(DUI)SEI消息。
21.解决方案14的方法,其中,一个或多个特定有效载荷类型等于0。
22.解决方案1的方法,其中,一个或多个不可缩放SEI消息是缓冲期(BP)SEI消息。
23.解决方案1至22中任一项的方法,其中,转换包括将视频编解码成比特流。
24.解决方案1至22中任一项的方法,其中,转换包括从比特流中解码视频。
25.解决方案1至22中任一个的方法,其中,转换包括从视频生成比特流,并且该方法还包括:将比特流存储在非暂时性计算机可读记录介质中。
26.一种视频处理装置,包括被配置为实现解决方案1至25中的任何一个或多个中所述的方法的处理器。
27.一种存储视频的比特流的方法,包括解决方案1至25中任一项所述的方法,并且还包括将比特流存储到非暂时性计算机可读记录介质。
28.一种存储程序代码的计算机可读介质,当该程序代码被执行时,使处理器实现解决方案1至25中任一项或多项所述的方法。
29.一种存储根据任何上述方法生成的比特流的计算机可读介质。
30.一种用于存储比特流表示的视频处理装置,其中该视频处理装置被配置为实现解决方案1至25中的任何一个或多个中所述的方法。
第三组解决方案显示了上一节中讨论的技术的示例实施例(例如,第2项)。
1.一种视频处理的方法(例如,如图8所示的方法800),包括:根据规则执行802视频和视频的比特流之间的转换,其中该规则规定子比特流提取过程,通过该过程从比特流中提取输出子比特流,而不移除特定类型并具有特定网络抽象层(NAL)单元标头标识符值的NAL单元,其中该特定类型包括访问单元定界符(AUD)NAL单元。
2.解决方案1的方法,其中,特定类型包括视频参数集(VPS)NAL单元。
3.解决方案1或2的方法,其中,特定类型包括解码能力信息NAL单元。
4.解决方案1-3中任一项的方法,其中,特定类型包括比特流结尾NAL单元。
5.解决方案1-4中任一项的方法,其中,特定类型包括补充增强信息NAL单元,所述补充增强信息单元包含具有等于0、1、130或203的有效载荷类型的不可缩放嵌套SEI消息。
6.解决方案1-6中任一项的方法,其中,特定NAL单元标头标识符值包括层标识符值,该层标识符值包括在输出子比特流的层值列表中。
7.解决方案1的方法,其中,规则规定不管与特定类型的NAL单元相关联的NAL单元标头标识符值如何,都不根据例外从输出比特流中移除特定类型的NAL单元。
8.解决方案1至7中任一项的方法,其中,转换包括将视频编码成比特流。
9.解决方案1至7中任一项的方法,其中,转换包括从比特流中解码视频。
10.解决方案1至7中任一个的方法,其中,转换包括从视频生成比特流,并且该方法还包括:将比特流存储在非暂时性计算机可读记录介质中。
11.一种视频处理装置,包括被配置为实现解决方案1至10中的任何一个或多个中所述的方法的处理器。
12.一种存储视频的比特流的方法,包括解决方案1至10中任一项所述的方法,并且还包括将比特流存储到非暂时性计算机可读记录介质。
13.一种存储程序代码的计算机可读介质,当该程序代码被执行时,使得处理器实现解决方案1至10中的任何一个或多个中所述的方法。
14.一种存储根据任何上述方法生成的比特流的计算机可读介质。
15.一种用于存储比特流表示的视频处理装置,其中该视频处理装置被配置为实现解决方案1至10中的任何一个或多个中所述的方法。
第四组解决方案显示了上一节中讨论的技术的示例实施例(例如,第3项)。
1.一种视频处理的方法(例如,如图9所示的方法900),包括:根据规则执行902包括一个或多个层的视频和该视频的比特流之间的转换,其中该规则规定在子比特流提取过程中移除包括可缩放嵌套补充增强信息(SEI)消息的网络抽象层(NAL)单元,该消息被应用于不包括在目标输出层集(OLS)中的层。
2.解决方案1的方法,其中,可缩放嵌套SEI消息与具有等于指定可缩放嵌套SEI消息应用于层的特定值的值的标志相关联。
3.解决方案2的方法,其中,特定值是0。
4.解决方案1的方法,其中,规则进一步指定移除包括在第二列表(LayerIdInOls[targetOlsIdx])中的第一列表(NestingLayerID[i])中没有值的SEI消息的NAL单元,由此第一列表指定可缩放嵌套SEI消息所应用的层的NAL单元标头标识符值,并且I在0到NumLayers-1的范围内,NumLayers指示可缩放嵌套SEI消息所应用的层的数量,并且第二列表指定具有目标输出层索引的目标输出层集中的NAL单元标头标识符值。
5.解决方案1至4中任一项的方法,其中,转换包括将视频编码成比特流。
6.解决方案1至4中任一项的方法,其中,转换包括从比特流中解码视频。
7.解决方案1至4中任一个的方法,其中,转换包括从视频生成比特流,并且该方法还包括:将比特流存储在非暂时性计算机可读记录介质中。
8.一种视频处理装置,包括被配置为实现解决方案1至7中的任何一个或多个中所述的方法的处理器。
9.一种存储视频的比特流的方法,包括解决方案1至7中任一项所述的方法,并且还包括将比特流存储到非暂时性计算机可读记录介质。
10.一种存储程序代码的计算机可读介质,该程序代码在被执行时使处理器实现解决方案1至7中的任一项或多项所述的方法。
11.一种存储根据任何上述方法生成的比特流的计算机可读介质。
12.一种用于存储比特流表示的视频处理装置,其中该视频处理装置被配置为实现解决方案1至7中的任何一个或多个中所述的方法。
第五组解决方案示出了在前一部分中讨论的技术的示例实施例(例如,第5-7项)。
1.一种视频处理的方法(例如,如图10A所示的方法1000),包括:根据规则执行1002包括一个或多个层的视频和该视频的比特流之间的转换,其中该规则规定,在子比特流提取过程中,基于指示补充增强信息(SEI)消息是否应用于特定输出层集(OLS)的第一标志和指示SEI消息是应用于所有子图片还是仅应用于特定子图片的第二标志,通过从可缩放嵌套SEI消息中提取可缩放嵌套SEI消息来生成不可缩放嵌套SEI消息。
2.解决方案1的方法,其中,规则规定响应于以下条件生成不可缩放嵌套SEI消息:i)第一标志具有指定SEI消息应用于特定输出层集(OLS)的第一值,以及ii)第二标志具有指定应用于特定OLS的SEI消息应用于被满足的指定OLS的所有子图的第二值。
3.一种视频处理的方法(例如,如图10B所示的方法1010),包括:根据规则执行1012包括一个或多个层的视频和该视频的比特流之间的转换,其中该规则规定,在子比特流提取过程中,通过从图片单元中的第一补充增强信息(SEI)网络抽象层(NAL)单元提取多个可缩放嵌套补充增强信息(SEI)消息来生成不可缩放嵌套SEI消息。
4.解决方案3的方法,其中,多个可缩放嵌套SEI消息被包括在图片单元中包括的第二SEI NAL单元中。
5.解决方案4的方法,其中,第二SEI NAL单元紧接在第一SEI NAL单元之后。
6.一种视频处理的方法(例如,如图10C所示的方法1020),包括:根据规则执行1022包括一个或多个层的视频和该视频的比特流之间的转换,其中该规则规定子比特流提取过程以生成输出比特流,其中该规则规定在子比特流提取过程期间对一个或多个补充增强信息(SEI)网络抽象层(NAL)单元的处理。
7.解决方案6的方法,其中,规则规定移除一个或多个SEI NAL单元,从所述一个或多个SEI单元中已经提取了一些SEI消息并将其作为不可缩放嵌套SEI消息包括在内。
8.解决方案6的方法,其中,规则规定移除包含仅应用于目标输出层集的可缩放嵌套SEI消息的SEI NAL单元。
9.解决方案6的方法,其中,规则规定移除包含可缩放嵌套SEI消息的SEI NAL单元,所述可缩放嵌套SEI消息应用于输出层集(OLS),在所述输出层集中除了目标OLS之外没有OLS。
10.解决方案1至9中任一项的方法,其中,转换包括将视频编码成比特流。
11.解决方案1至9中任一项的方法,其中,转换包括从比特流中解码视频。
12.解决方案1至9中任一个的方法,其中,转换包括从视频生成比特流,并且该方法还包括:将比特流存储在非暂时性计算机可读记录介质中。
13.一种视频处理装置,包括被配置为实现解决方案1至12中的任何一个或多个中所述的方法的处理器。
14.一种存储视频的比特流的方法,包括解决方案1至12中任一项所述的方法,并且还包括将比特流存储到非暂时性计算机可读记录介质。
15.一种存储程序代码的计算机可读介质,当该程序代码被执行时,使得处理器实现解决方案1至12中的任一项或多项所述的方法。
16.一种存储根据任何上述方法生成的比特流的计算机可读介质。
17.一种用于存储比特流表示的视频处理装置,其中该视频处理装置被配置为实现解决方案1至12中的任何一个或多个中所述的方法。
本文中描述的所公开的和其他解决方案、示例、实施例、模块和功能操作可以在数字电子电路中实现,或者在计算机软件、固件或硬件中实现,包括本文中公开的结构及其结构等同物,或者在它们中的一个或多个的组合中实现。所公开的和其他实施例可以实现为一个或多个计算机程序产品,即编码在计算机可读介质上的计算机程序指令的一个或多个模块,用于由数据处理装置执行或控制数据处理装置的操作。计算机可读介质可以是机器可读存储设备、机器可读存储基底、存储设备、实现机器可读传播信号的物质组合,或者它们中的一个或多个的组合。术语“数据处理装置”包含用于处理数据的所有装置、设备和机器,包括例如可编程处理器、计算机或多个处理器或计算机。除了硬件之外,该装置可以包括为所讨论的计算机程序创建执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。传播信号是人工生成的信号,例如,机器生成的电、光或电磁信号,其被生成来编码信息以传输到合适的接收机装置。
计算机程序(也称为程序、软件、软件应用、脚本或代码)可以用任何形式的编程语言编写,包括编译或解释语言,并且它可以以任何形式部署,包括作为独立程序或作为模块、组件、子例程或适用于计算环境的其他单元。计算机程序不一定对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的一部分中(例如,存储在标记语言文档中的一个或多个脚本),存储在专用于所讨论的程序的单个文件中,或者存储在多个协作文件中(例如,存储一个或多个模块、子程序或代码部分的文件)。计算机程序可以被部署为在一台计算机或位于一个地点或分布在多个地点并通过通信网络互连的多台计算机上执行。
本文中描述的过程和逻辑流程可以由一个或多个可编程处理器来执行,这些处理器执行一个或多个计算机程序,以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路来执行,并且装置也可以被实现为专用逻辑电路,例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。
举例来说,适于执行计算机程序的处理器包括通用和专用微处理器,以及任何种类的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机访问存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储设备。通常,计算机还将包括或可操作地耦合到一个或多个用于存储数据的大容量存储设备,例如磁盘、磁光盘或光盘,以从该大容量存储设备接收数据或向其传送数据,或两者兼有。然而,计算机不需要有这样的设备。适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储设备,包括例如半导体存储设备,例如EPROM、EEPROM和闪存设备;磁盘,例如内部硬盘或可移动磁盘;磁光盘;以及CD ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路来补充或并入其中。
虽然本专利文件包含许多细节,但这些细节不应被解释为对任何主题或所要求保护的内容的范围的限制,而是对特定技术的特定实施例所特有的特征的描述。在本专利文件中在独立实施例的上下文中描述的某些特征也可以在单个实施例中组合实现。相反,在单个实施例的上下文中描述的各种特征也可以在多个实施例中单独或以任何合适的子组合来实现。此外,尽管特征可能在上面被描述为在某些组合中起作用,并且甚至最初被如此要求保护,但是来自所要求保护的组合的一个或多个特征在一些情况下可以从该组合中删除,并且所要求保护的组合可以针对子组合或子组合的变体。
类似地,虽然在附图中以特定的顺序描述了操作,但是这不应该被理解为要求这些操作以所示的特定顺序或顺序执行,或者要求所有示出的操作都被执行,以获得期望的结果。此外,在本专利文献中描述的实施例中的各种系统组件的分离不应被理解为在所有实施例中都需要这种分离。
仅描述了一些实施方式和示例,并且可以基于本专利文献中描述和示出的内容进行其他实施方式、增强和变化。
Claims (17)
1.一种视频处理的方法,包括:
根据规则执行在包括一个或多个层的视频和所述视频的比特流之间的转换,
其中,所述规则规定,在子比特流提取过程中,通过基于指示补充增强信息(SEI)消息是否应用于特定输出层集(OLS)的第一标志和指示SEI消息是否应用于所有子图片或者仅应用于特定子图片的第二标志,从可缩放嵌套SEI消息中提取缩放嵌套后的SEI消息,来生成不可缩放嵌套SEI消息。
2.根据权利要求1所述的方法,其中,所述规则规定响应于条件i)所述第一标志具有指定所述SEI消息应用于特定输出层集(OLS)的第一值,以及ii)所述第二标志具有指定应用于所述特定OLS的SEI消息应用于所指定OLS的所有子图片的第二值被满足,来生成所述不可缩放嵌套SEI消息。
3.一种视频处理的方法,包括:
根据规则执行在包括一个或多个层的视频和所述视频的比特流之间的转换,
其中,所述规则规定,在子比特流提取的过程中,通过从图片单元中的第一SEI网络抽象层(NAL)单元提取多个可缩放嵌套补充增强信息(SEI)消息来生成不可缩放嵌套SEI消息。
4.根据权利要求3所述的方法,其中,所述多个可缩放嵌套SEI消息被包括在所述图片单元中包括的第二SEI NAL单元中。
5.根据权利要求4所述的方法,其中,所述第二SEI NAL单元紧接在所述第一SEI NAL单元之后。
6.一种视频处理的方法,包括:
根据规则执行在包括一个或多个层的视频和所述视频的比特流之间的转换,
其中,所述规则规定子比特流提取过程以生成输出比特流,
其中,所述规则规定在子比特流提取过程期间对一个或多个补充增强信息(SEI)网络抽象层(NAL)单元的处理。
7.根据权利要求6所述的方法,其中,所述规则规定移除所述一个或多个SEI NAL单元,从所述一个或多个SEI单元中已经提取了一些SEI消息并将其作为不可缩放嵌套SEI消息包括在内。
8.根据权利要求6所述的方法,其中,所述规则规定移除包含仅应用于目标输出层集的可缩放嵌套SEI消息的SEI NAL单元。
9.根据权利要求6所述的方法,其中,所述规则规定移除包含可缩放嵌套SEI消息的SEINAL单元,所述可缩放嵌套SEI消息应用于输出层集(OLS),在所述输出层集中除了目标OLS之外没有OLS。
10.根据权利要求1至9中任一项所述的方法,其中,所述转换包括将所述视频编码成所述比特流。
11.根据权利要求1至9中任一项所述的方法,其中,所述转换包括从所述比特流中解码所述视频。
12.根据权利要求1至9中任一项所述的方法,其中,所述转换包括从所述视频生成所述比特流,并且所述方法还包括:将所述比特流存储在非暂时性计算机可读记录介质中。
13.一种视频处理装置,包括被配置为实现根据权利要求1至12中任一项或多项所述的方法的处理器。
14.一种存储视频的比特流的方法,包括根据权利要求1至12中任一项所述的方法,并且还包括将所述比特流存储到非暂时性计算机可读记录介质。
15.一种存储程序代码的计算机可读介质,所述程序代码在被执行时使处理器实现根据权利要求1至12中任一项或多项所述的方法。
16.一种存储根据任何上述方法生成的比特流的计算机可读介质。
17.一种用于存储比特流表示的视频处理装置,其中,所述视频处理装置被配置为实现根据权利要求1至12中任一项或多项所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063029308P | 2020-05-22 | 2020-05-22 | |
US63/029,308 | 2020-05-22 | ||
PCT/US2021/033717 WO2021237126A1 (en) | 2020-05-22 | 2021-05-21 | Scalable nested sei message handling in video sub-bitstream extraction process |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115699747A true CN115699747A (zh) | 2023-02-03 |
Family
ID=78707609
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180037265.7A Pending CN115699747A (zh) | 2020-05-22 | 2021-05-21 | 视频子比特流提取过程中的可缩放嵌套sei消息处理 |
CN202180037282.0A Pending CN115668929A (zh) | 2020-05-22 | 2021-05-21 | 视频子比特流提取过程中的sei消息处理 |
CN202180037274.6A Pending CN115668908A (zh) | 2020-05-22 | 2021-05-21 | 视频子比特流提取过程中访问单元的处理 |
CN202180037281.6A Pending CN115668931A (zh) | 2020-05-22 | 2021-05-21 | 生成一致性输出子比特流的技术 |
Family Applications After (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180037282.0A Pending CN115668929A (zh) | 2020-05-22 | 2021-05-21 | 视频子比特流提取过程中的sei消息处理 |
CN202180037274.6A Pending CN115668908A (zh) | 2020-05-22 | 2021-05-21 | 视频子比特流提取过程中访问单元的处理 |
CN202180037281.6A Pending CN115668931A (zh) | 2020-05-22 | 2021-05-21 | 生成一致性输出子比特流的技术 |
Country Status (10)
Country | Link |
---|---|
US (3) | US11825102B2 (zh) |
EP (2) | EP4140135A4 (zh) |
JP (2) | JP7529807B2 (zh) |
KR (2) | KR20230014718A (zh) |
CN (4) | CN115699747A (zh) |
AU (1) | AU2021276676B2 (zh) |
BR (1) | BR112022023354A2 (zh) |
CA (1) | CA3179644A1 (zh) |
WO (4) | WO2021237120A1 (zh) |
ZA (1) | ZA202212704B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7549045B2 (ja) | 2020-06-09 | 2024-09-10 | バイトダンス インコーポレイテッド | マルチレイヤ映像ビットストリームのサブビットストリーム抽出 |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020136298A1 (en) | 2001-01-18 | 2002-09-26 | Chandrashekhara Anantharamu | System and method for adaptive streaming of predictive coded video data |
EP1999960A4 (en) * | 2006-03-24 | 2011-05-18 | Korea Electronics Telecomm | CODING METHOD FOR REDUCING REDUNDANCY BETWEEN LAYERS USING MITION DATA OF THE FGS LAYER AND ESTABLISHMENT THEREFOR |
JP2010507346A (ja) | 2006-10-16 | 2010-03-04 | ヴィドヨ,インコーポレーテッド | スケーラブルビデオ符号化においてシグナリング及び時間レベルスイッチングを実施するためのシステム及び方法 |
CN101690229A (zh) | 2007-06-26 | 2010-03-31 | 诺基亚公司 | 用于指示时间层切换点的系统和方法 |
US8542492B2 (en) | 2009-12-10 | 2013-09-24 | Richard Anthony Dunn, JR. | Scalable up and down nesting integrated electronic enclosures with form factors including asteroids and/or dumbbells and/or approximated tessellation(s)/tiling(s) or combinations thereof with thermal management, wiring, sliding fit, manual and/or automated full range vertical to horizontal positioning, access and structural systems for individual modules and intra-and inter-planar stacks, columns, rows, arrays and associated infrastructures |
US9769230B2 (en) * | 2010-07-20 | 2017-09-19 | Nokia Technologies Oy | Media streaming apparatus |
WO2013109178A1 (en) * | 2012-01-20 | 2013-07-25 | Telefonaktiebolaget L M Ericsson (Publ) | Sub-bitstream extraction |
AU2013285333A1 (en) * | 2012-07-02 | 2015-02-05 | Nokia Technologies Oy | Method and apparatus for video coding |
EP2871567A4 (en) * | 2012-07-06 | 2016-01-06 | Samsung Electronics Co Ltd | METHOD AND APPARATUS FOR ENCODING MULTILAYER VIDEO, AND METHOD AND APPARATUS FOR DECODING MULTILAYER VIDEO |
US9967583B2 (en) | 2012-07-10 | 2018-05-08 | Qualcomm Incorporated | Coding timing information for video coding |
US9479774B2 (en) | 2012-09-24 | 2016-10-25 | Qualcomm Incorporated | Buffering period and recovery point supplemental enhancement information messages |
US9319703B2 (en) | 2012-10-08 | 2016-04-19 | Qualcomm Incorporated | Hypothetical reference decoder parameter syntax structure |
US9521393B2 (en) | 2013-01-07 | 2016-12-13 | Qualcomm Incorporated | Non-nested SEI messages in video coding |
US9591321B2 (en) | 2013-04-07 | 2017-03-07 | Dolby International Ab | Signaling change in output layer sets |
US9648333B2 (en) | 2013-10-11 | 2017-05-09 | Vid Scale, Inc. | High level syntax for HEVC extensions |
WO2015056158A1 (en) * | 2013-10-14 | 2015-04-23 | Nokia Technologies Oy | Multi-layer hypothetical reference decoder |
WO2015056182A2 (en) * | 2013-10-15 | 2015-04-23 | Nokia Technologies Oy | Video encoding and decoding |
JP6472449B2 (ja) | 2014-01-02 | 2019-02-20 | シャープ株式会社 | ビデオシーケンスを復号するための方法 |
EP3090550A1 (en) * | 2014-01-02 | 2016-11-09 | VID SCALE, Inc. | Sub-bitstream extraction process for hevc extensions |
JP6465863B2 (ja) * | 2014-03-14 | 2019-02-06 | シャープ株式会社 | 画像復号装置、画像復号方法及び記録媒体 |
US10178397B2 (en) | 2014-03-24 | 2019-01-08 | Qualcomm Incorporated | Generic use of HEVC SEI messages for multi-layer codecs |
US9769492B2 (en) | 2014-06-06 | 2017-09-19 | Qualcomm Incorporated | Conformance parameters for bitstream partitions |
US10356415B2 (en) | 2014-06-20 | 2019-07-16 | Qualcomm Incorporated | Systems and methods for constraining representation format parameters for a parameter set |
US10432951B2 (en) | 2014-06-24 | 2019-10-01 | Qualcomm Incorporated | Conformance and inoperability improvements in multi-layer video coding |
US10764575B2 (en) * | 2017-03-03 | 2020-09-01 | Qualcomm Incorporated | Coding MCTS-nested SEI messages to exclude other SEI messages that are not MCTS-nested |
CN113170116B (zh) | 2018-11-22 | 2024-08-16 | 北京字节跳动网络技术有限公司 | 为帧内模式视频处理使用参考行 |
WO2020254720A1 (en) * | 2019-06-20 | 2020-12-24 | Nokia Technologies Oy | An apparatus, a method and a computer program for video encoding and decoding |
AU2020352900A1 (en) | 2019-09-24 | 2022-04-14 | Huawei Technologies Co., Ltd. | Scalable Nesting SEI Messages For OLSs |
KR20220063278A (ko) | 2019-09-24 | 2022-05-17 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 모든 계층에 대한 스케일러블 네스팅 sei 메시지 |
AU2020354368A1 (en) | 2019-09-24 | 2022-04-14 | Huawei Technologies Co., Ltd. | Temporal identifier constraints for SEI messages |
US11356681B2 (en) | 2019-12-27 | 2022-06-07 | Tencent America LLC | Coded video sub-bitstream extraction |
US11470357B2 (en) * | 2020-04-03 | 2022-10-11 | Sharp Kabushiki Kaisha | Systems and methods for signaling decoding capability information in video coding |
CN115428464A (zh) | 2020-04-19 | 2022-12-02 | 抖音视界有限公司 | 视频编解码的缩放窗口 |
CR20230153A (es) | 2020-05-22 | 2023-05-16 | Ge Video Compression Llc | Codificador de video, decodificador de video, métodos para codificar y decodificar y flujo de datos de video para realizar conceptos avanzados de codificación de video (divisional exp. n°2022-0589) |
-
2021
- 2021-05-21 AU AU2021276676A patent/AU2021276676B2/en active Active
- 2021-05-21 WO PCT/US2021/033707 patent/WO2021237120A1/en active Application Filing
- 2021-05-21 EP EP21808542.1A patent/EP4140135A4/en active Pending
- 2021-05-21 CN CN202180037265.7A patent/CN115699747A/zh active Pending
- 2021-05-21 JP JP2022571346A patent/JP7529807B2/ja active Active
- 2021-05-21 WO PCT/US2021/033717 patent/WO2021237126A1/en unknown
- 2021-05-21 EP EP21808808.6A patent/EP4140134A4/en active Pending
- 2021-05-21 KR KR1020227043886A patent/KR20230014718A/ko active Search and Examination
- 2021-05-21 CA CA3179644A patent/CA3179644A1/en active Pending
- 2021-05-21 BR BR112022023354A patent/BR112022023354A2/pt unknown
- 2021-05-21 JP JP2022571347A patent/JP2023526661A/ja active Pending
- 2021-05-21 CN CN202180037282.0A patent/CN115668929A/zh active Pending
- 2021-05-21 KR KR1020227043879A patent/KR20230013061A/ko active IP Right Grant
- 2021-05-21 CN CN202180037274.6A patent/CN115668908A/zh active Pending
- 2021-05-21 CN CN202180037281.6A patent/CN115668931A/zh active Pending
- 2021-05-21 WO PCT/US2021/033712 patent/WO2021237123A1/en active Application Filing
- 2021-05-21 WO PCT/US2021/033648 patent/WO2021237086A1/en unknown
-
2022
- 2022-11-22 US US17/992,176 patent/US11825102B2/en active Active
- 2022-11-22 ZA ZA2022/12704A patent/ZA202212704B/en unknown
- 2022-11-22 US US17/992,181 patent/US11962790B2/en active Active
-
2023
- 2023-10-17 US US18/488,692 patent/US20240048736A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4140134A4 (en) | 2023-07-12 |
WO2021237126A1 (en) | 2021-11-25 |
JP7529807B2 (ja) | 2024-08-06 |
EP4140135A4 (en) | 2023-10-11 |
US20230079628A1 (en) | 2023-03-16 |
KR20230013061A (ko) | 2023-01-26 |
JP2023526660A (ja) | 2023-06-22 |
AU2021276676A1 (en) | 2023-01-05 |
AU2021276676B2 (en) | 2024-08-22 |
CA3179644A1 (en) | 2021-11-25 |
CN115668908A (zh) | 2023-01-31 |
EP4140134A1 (en) | 2023-03-01 |
ZA202212704B (en) | 2024-04-24 |
JP2023526661A (ja) | 2023-06-22 |
BR112022023354A2 (pt) | 2022-12-20 |
WO2021237123A1 (en) | 2021-11-25 |
US20230079188A1 (en) | 2023-03-16 |
CN115668929A (zh) | 2023-01-31 |
KR20230014718A (ko) | 2023-01-30 |
CN115668931A (zh) | 2023-01-31 |
WO2021237120A1 (en) | 2021-11-25 |
EP4140135A1 (en) | 2023-03-01 |
WO2021237086A1 (en) | 2021-11-25 |
US11962790B2 (en) | 2024-04-16 |
US11825102B2 (en) | 2023-11-21 |
US20240048736A1 (en) | 2024-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115804091A (zh) | 访问单元分隔符,以及视频编解码中的通用约束信息 | |
US20240121417A1 (en) | Handling different nal types in video sub-bitstream extraction | |
US20240048736A1 (en) | Techniques For Generation Of A Conformant Output Sub-Bitstream | |
CN115699731A (zh) | 参考图片重采样 | |
WO2021252545A1 (en) | Signaling constraints in non-scalable nested video syntax elements | |
CN115699772A (zh) | 视频编解码中的补充增强信息的约束 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |