CN116671110A - 多视图信息的信令通知 - Google Patents

多视图信息的信令通知 Download PDF

Info

Publication number
CN116671110A
CN116671110A CN202180066777.6A CN202180066777A CN116671110A CN 116671110 A CN116671110 A CN 116671110A CN 202180066777 A CN202180066777 A CN 202180066777A CN 116671110 A CN116671110 A CN 116671110A
Authority
CN
China
Prior art keywords
video
bitstream
information
supplemental enhancement
format rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180066777.6A
Other languages
English (en)
Inventor
王业奎
张莉
张凯
邓智玭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Douyin Vision Co Ltd
ByteDance Inc
Original Assignee
Douyin Vision Co Ltd
ByteDance Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Douyin Vision Co Ltd, ByteDance Inc filed Critical Douyin Vision Co Ltd
Publication of CN116671110A publication Critical patent/CN116671110A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/187Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scalable video layer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234327Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into layers, e.g. base layer and one or more enhancement layers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/23614Multiplexing of additional data and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8451Structuring of content, e.g. decomposing content into time segments using Advanced Video Coding [AVC]

Abstract

描述了用于编码、解码或转码数字视频的系统、方法和装置。一种处理视频数据的示例方法包括根据格式规则执行视频和视频的比特流之间的转换,其中格式规则指定比特流中包括的补充增强信息字段或视频可用性信息语法结构指示比特流是否包括多视图比特流,在多视图比特流中,多个视图在多个视频层中被编解码。

Description

多视图信息的信令通知
相关申请的交叉引用
根据巴黎公约适用的专利法和/或规则,提出本申请是为了及时要求2020年9月29日提交的国际专利申请No.PCT/CN2020/118711的优先权和权益。出于法律规定的所有目的,上述申请的全部公开内容通过引用并入作为本申请的公开内容的部分。
技术领域
本专利涉及数字视频编解码技术,包括视频编码、转码或解码。
背景技术
在互联网和其他数字通信网络中,数字视频占用了最大的带宽。随着能够接收和显示视频的连接用户设备数量的增加,预计数字视频使用的带宽需求将继续增长。
发明内容
本文公开了可由视频编码器和解码器使用以根据文档格式处理视频或图像的编解码表示的技术。
在一个示例方面,公开了一种处理视频数据的方法。该方法包括:根据格式规则执行视频和视频的比特流之间的转换,其中格式规则指定比特流中包括的补充增强信息字段或视频可用性信息语法结构指示比特流是否包括多视图比特流,在多视图比特流中,多个视图在多个视频层中被编解码。
在另一个示例方面,公开了一种处理视频数据的方法。该方法包括:根据格式规则执行视频和视频的比特流之间的转换,其中格式规则指定比特流中包括的补充增强信息字段指示比特流是否包括表示辅助信息的一个或多个视频层。
在另一个示例方面,公开了一种视频处理方法。该方法包括:执行包括视频图片的视频和视频的编解码表示之间的转换,其中比特流符合格式规则,其中格式规则指定包括在编解码表示中的字段指示视频是多视图视频。
在另一个示例方面,公开了另一种视频处理方法。该方法包括:执行包括视频图片的视频和视频的编解码表示之间的转换,其中比特流符合格式规则,其中格式规则指定包括在编解码表示中的字段指示视频在编解码表示中被编解码到多个视频层中。
在又一示例方面,公开了一种视频编码器装置。视频编码器包括被配置为实现上述方法的处理器。
在又一示例方面,公开了一种视频解码器装置。视频解码器包括被配置为实现上述方法的处理器。
在又一示例方面,公开了一种其上存储有代码的计算机可读介质。该代码以处理器可执行代码的形式体现了这里描述的方法之一。
在又一示例方面,公开了一种其上存储有比特流的计算机可读介质。使用本文档中描述的方法生成或处理比特流。
这些和其他特征在本文中都进行了描述。
附图说明
图1是示例视频处理系统的框图;
图2为视频处理装置的框图;
图3为视频处理的示例方法的流程图;
图4是图示根据本公开的一些实施例的视频编解码系统的框图;
图5是图示根据本公开的一些实施例的编码器的框图;
图6是图示根据本公开的一些实施例的解码器的框图;
图7是具有两个OLS的比特流的示例,其中OLS2具有等于0的vps_max_tid_il_ref_pics_plus1[1][0];以及
图8至图9为视频处理的示例方法的流程图。
具体实施方式
本文中使用章节标题是为了易于理解并且不将各章节中公开的技术和实施例的适用性仅限制于该章节。此外,在一些描述中使用H.266术语仅仅是为了易于理解,而不是为了限制所公开技术的范围。因此,本文描述的技术也适用于其他视频编解码器协议和设计。在本文中,相对于VVC规范的当前草案,对文本的编辑更改通过删除线表示已取消的文本和突出显示表示添加的文本(包括粗体斜体)来显示。
1.引言
本文涉及视频编解码技术。具体地,它涉及用于多功能视频编解码(VVC)视频比特流的可缩放性尺寸信息的信令通知。这些想法可以单独地或以各种组合方式应用于任何视频编解码标准或非标准视频编解码器,例如最近完成的VVC。
2.缩略语
ACT 自适应颜色变换
ALF 自适应环路滤波器
AMVR自适应运动矢量分辨率
APS 自适应参数集
AU 接入单元
AUD 接入单元分隔符
AVC 高级视频编解码(Rec.ITU-T H.264|ISO/IEC 14496-10)
B 双向预测
BCW 具有CU级别权重的双向预测
BDOF双向光流
BDPCM基于块的增量脉冲编解码调制
BP缓冲期
CABAC基于上下文的自适应二进制算术编解码
CB 编解码块
CBR 恒定比特率
CCALF跨分量自适应环路滤波器
CLVS编解码层视频序列
CLVSS编解码层视频序列开始
CPB 编解码图片缓冲器
CRA 完全随机接入
CRC 循环冗余校验
CTB 编解码树块
CTU 编解码树单元
CU 编解码单元
CVS 编解码视频序列
CVSS编解码视频序列开始
DPB 解码图片缓冲器
DCI 解码能力信息
DRAP依赖随机接入点
DU 解码单元
DUI 解码单元信息
EG 指数Golomb
EGk k阶指数Golomb
EOB 比特流结尾
EOS 序列结尾
FD 填充符数据
FIFO 先进先出
FL 固定长度
GBR 绿色、蓝色和红色
GCI 通用约束信息
GDR 逐步解码刷新
GPM 几何分割模式
HEVC高效视频编解码(Rec.ITU-T H.265|ISO/IEC 23008-2)
HRD 假想参考解码器
HSS 假想流调度器
I 帧内
IBC 帧内块复制
IDR 即时解码刷新
ILRP 层间参考图片
IRAP 帧内随机接入点
LFNST低频不可分变换
LPS 最不可能符号
LSB 最低有效位
LTRP 长期参考图片
LMCS具有色度缩放的亮度映射
MIP 基于矩阵的帧内预测
MPS 最有可能符号
MSB 最高有效位
MTS 多重变换选择
MVP 运动矢量预测
NAL 网络抽象层
OLS 输出层集
OP 操作点
OPI 操作点信息
P 预测
PH 图片标头
POC 图片顺序计数
PPS 图片参数集
PROF利用光流的预测细化
PT 图片定时
PU 图片单元
QP 量化参数
RADL随机接入可解码前置(图片)
RASL随机接入跳过前置(图片)
RBSP原始字节序列有效负载
RGB 红色、绿色和蓝色
RPL 参考图片列表
SAO 样点自适应偏移
SAR 样点纵横比
SEI 补充增强信息
SH 条带标头
SLI 子图片级别信息
SODB数据位串
SPS 序列参数集
STRP 短期参考图片
STSA 逐步时域子层接入
TR 截断莱斯(rice)
TU 变换单元
VBR 可变比特率
VCL 视频编解码层
VPS 视频参数集
VSEI 通用补充增强信息(Rec.ITU-T H.274|ISO/IEC 23002-7)
VUI 视频可用性信息
VVC 多功能视频编解码(Rec.ITU-T H.266|ISO/IEC 23090-3)
3.初步讨论
3.1.视频编解码标准
视频编解码标准主要是通过众所周知的ITU-T和ISO/IEC标准的发展而得以演进。ITU-T制作了H.261和H.263标准,ISO/IEC制作了MPEG-1和MPEG-4 Visual标准,并且两个组织联合制作了H.262/MPEG-2视频标准和H.264/MPEG-4高级视频编解码(AVC)标准和H.265/HEVC标准。从H.262开始,视频编解码标准基于混合视频编解码结构,其中利用时域预测加变换编解码。为了探索HEVC之外的未来视频编解码技术,由VCEG和MPEG于2015年联合成立联合视频探索团队(JVET)。从那时起,JVET采用了许多新方法并将其纳入名为联合探索模型(JEM)的参考软件。当多功能视频编解码(VVC)项目正式启动时,JVET后来更名为联合视频专家团队(JVET)。VVC是新的编解码标准,目标是与HEVC相比降低50%比特率,该标准已由JVET在2020年7月1日结束的第19次会议上最终确定。
多功能视频编解码(VVC)标准(ITU-TH.266|ISO/IEC 23090-3)和相关的多功能补充增强信息(VSEI)标准(ITU-TH.274|ISO/IEC 23002-7)设计用于最大范围的应用,包括传统应用,如电视广播、视频会议或存储介质回放,以及更新和更高级的使用情况,如自适应比特率流、视频区域提取、复合和merging来自多个编解码视频比特流的内容、多视图视频、可缩放分层编解码和视口自适应360°沉浸式媒体。
3.2.基于视频的点云压缩(V-PCC)
ISO/IEC 23090-5,信息技术——沉浸式媒体的编解码表示——第5部分:基于可视体积视频的编解码(V3C)和基于视频的点云压缩(V-PCC),简称V-PCC,是指定点云信号的编解码表示的标准。V-PCC标准是最近完成的另一个标准。
V-PCC指定数据类型,如占用、几何、纹理属性、材料属性、透明度属性、反射属性和法线属性,这些数据类型可以使用特定的视频编解码器(如VVC、HEVC、AVC等)进行编解码。
3.3.VVC中的时域可缩放性支持
VVC包括与HEVC中类似的时域可缩放性支持。这种支持包括NAL单元标头中时域ID的信令通知、特定时域子层的图片不能被较低时域子层的图片用于帧间预测参考的限制、子比特流提取过程以及适当输入的每个子比特流提取输出必须是符合的比特流的要求。媒体感知网络元素(MANE)可以基于时域可缩放性将NAL单元标头中的时域ID用于流自适应目的。
3.4.VVC的序列内的图片分辨率更改
在AVC和HEVC中,图片的空域分辨率不能改变,除非使用新SPS的新序列以IRAP图片开始。VVC允许在不编码IRAP图片的位置改变序列内的图片分辨率,IRAP图片总是被帧内编解码。此特征有时称为参考图片重采样(RPR),因为当参考图片具有与正在被解码的当前图片不同的分辨率时,该特征需要对用于帧间预测的参考图片进行重采样。
为了允许重用现有实现方式的运动补偿模块,缩放比例被限制为大于或等于1/2(从参考图片到当前图片的2倍下采样),并且小于或等于8(8倍上采样)。水平和垂直缩放比例是根据图片的宽和高,以及为参考图片和当前图片指定的左、右、上、下缩放偏移来导出的。
RPR允许在不需要编解码IRAP图片的情况下更改分辨率,这会导致流式传输或视频会议场景中的瞬时比特率峰值,例如,以应对网络条件变化。RPR还可以用于需要对整个视频区域或某些感兴趣区域进行缩放的应用场景。允许缩放窗口偏移量为负,以支持更广泛的基于缩放的应用。负缩放窗口偏移还能够从多层比特流中提取子图片序列,同时为提取的子比特流保持与原始比特流中相同的缩放窗口。
不同于HEVC的可缩放扩展中的空域可缩放性,其中图片重采样和运动补偿在两个不同的阶段应用,VVC中的RPR作为同一过程的一部分在块级别执行,其中样点位置和运动矢量缩放的导出在运动补偿期间执行。
在限制实现方式的复杂性的努力中,当CLVS中的图片的每个图片具有多个子图片时,不允许在CLVS内更改图片分辨率。此外,当在当前图片和参考图片之间使用RPR时,不应用解码器侧运动矢量细化、双向光流和利用光流的预测细化。用于导出时域运动矢量候选的并置图片也被限制为具有与当前图片相同的图片尺寸、缩放窗口偏移和CTU尺寸。
为了支持RPR,VVC设计的一些其他方面与HEVC有所不同。首先,图片分辨率和对应的一致性和缩放窗口在PPS中而不是在SPS中被信令通知,而在SPS中信令通知最大图片分辨率和对应的一致性窗口。在应用中,SPS中具有对应一致性窗口偏移的最大图片分辨率可用作裁剪后的预期或期望图片输出尺寸。其次,对于单层比特流,每个图片存储(DPB中用于存储一个解码图片的槽)占用存储具有最大图片分辨率的解码图像所需的缓冲器尺寸。
3.5.VVC中的多层可缩放性支持
通过VVC核心设计中的RPR,具有从与当前图片尺寸不同的参考图片进行帧间预测的能力,允许VVC轻松支持包含不同分辨率的多层的比特流,例如,分别具有标准清晰度和高清晰度分辨率的两层。在VVC解码器中,这种功能可以被集成,而不需要任何附加的信号处理级别编解码工具,因为空域可缩放性支持所需的上采样功能可以通过重用RPR上采样滤波器来提供。然而,需要额外的高级别语法设计来支持比特流的可缩放性。
VVC支持可缩放性,但仅包含在多层档次中。不同于任何早期视频编解码标准(包括AVC和HEVC的扩展)中的可缩放性支持,VVC可缩放性的设计已经尽可能地对单层解码器实现方式友好。多层比特流的解码能力是以好像比特流中只有单层的方式来指定的。例如,以与要解码的比特流中的层数无关的方式指定例如DPB尺寸的解码能力。基本上,为单层比特流设计的解码器不需要很大的改变就能够解码多层比特流。
与AVC和HEVC的多层扩展的设计相比,HLS方面在牺牲一些灵活性的情况下得到了显著简化。例如,1)IRAP AU需要包含CVS中存在的每一层的图片,这避免了指定逐层启动解码过程的需要,以及2)在VVC中包括了POC信令通知的更简单设计,而不是复杂的POC重置机制,以确保导出的POC值对于AU中的所有图片都是相同的。
与HEVC一样,关于层和层依赖性的信息包括在VPS中。提供OLS的信息用于信令通知OLS中包括哪些层、输出哪些层以及例如与每个OLS相关联的PTL和HRD参数的其他信息。与HEVC类似,有三种操作模式:输出所有层、仅输出最高层或在自定义输出模式中输出特定指示的层。
VVC和HEVC中的OLS设计之间存在一些差异。首先,在HEVC中,层集被信令通知,然后基于层集信令通知OLS,并且对于每个OLS,输出层被信令通知。HEVC中的设计允许一个层属于OLS,该层既不是输出层也不是解码输出层所需的层。在VVC中,设计要求OLS中的任何层要么是输出层,要么是解码输出层所需的层。因此,在VVC中,OLS通过指示OLS的输出层来信令通知,然后属于OLS的其他层仅由VPS中指示的层依赖性导出。此外,VVC要求每一层至少包含在一个OLS中。
VVC OLS设计的另一个差异是,与HEVC相反,对于HEVC,OLS由属于映射到OLS的已识别层集合的所有NAL单元组成,VVC可排除属于映射到OLS的非输出层的一些NAL单元。更具体地说,VVC的OLS由映射到OLS的层集合组成,其中非输出层仅包括IRAP或GDR图片(ph_recovery_poc_cnt等于0)或来自用于层间预测的子层的图片。这允许指示仅考虑形成OLS的层内的所有子层的所有“必要”图片的多层比特流的最佳水平值,其中“必要”在此意味着输出或解码需要。图7示出了具有等于0的vps_max_tid_il_ref_pics_plus1[1][0]的两层比特流的示例,即当提取OLS2时仅保留来自层L0的IRAP图片的子比特流。
考虑到在不同的层允许不同的RAP周期性是有益的一些场景,类似于在AVC和HEVC中,允许AU具有带有非对齐RAP的层。为了更快地识别多层比特流中的RAP,即在所有层都具有RAP的AU,与HEVC相比,接入单元定界符(AUD)被扩展,具有指示AU是IRAP AU还是GDR AU的标志。此外,当VPS指示多层时,AUD被强制存在于这样的IRAP或GDR AU。然而,对于由VPS指示的单层比特流或不参考VPS的比特流,如在HEVC中一样,AUD是完全可选的,因为在这种情况下,RAP可以容易地从AU中的第一个条带的NAL单元类型和相应的参数集检测到。
为了使多个层能够共享SPS、PPS和APS,同时确保比特流提取过程不会丢弃解码过程所需的参数集,第一层的VCL NAL单元可以参考具有相同或较低的层ID值的SPS、PPS或APS,只要包括第一层的所有OLS也包括由较低层ID值标识的层。
3.6.VUI和SEI消息
VUI是作为SPS的一部分发送的语法结构(也可能在HEVC的VPS中)。VUI携带不影响标准解码过程的信息,但对于编解码视频的正确渲染可能很重要。
SEI协助与解码、显示或其他目的相关的过程。与VUI一样,SEI也不影响标准解码过程。SEI携带在SEI消息中。SEI消息的解码器支持是可选的。然而,SEI消息确实会影响比特流一致性(例如,如果比特流中的SEI消息的语法不符合规范,则比特流不符合规范)并且HRD规范中需要一些SEI消息。
与VVC一起使用的VUI语法结构和大多数SEI消息未在VVC规范中指定,而是在VSEI规范中指定。HRD一致性测试所需的SEI消息在VVC规范中被指定。VVC v1定义了五个与HRD一致性测试相关的SEI消息,并且VSEI v1规定了20个额外的SEI消息。VSEI规范中携带的SEI消息不会直接影响符合解码器的行为,并且已被定义为使得它们可以以编解码格式不可知的方式使用,从而允许VSEI在未来与VVC之外的其他视频编解码标准一起使用。VSEI规范没有特别提到VVC语法元素名称,而是提到了变量,其值在VVC规范中设置。
与HEVC相比,VVC的VUI语法结构只关注与图片的正确渲染相关的信息,并且不包含任何定时信息或比特流限制指示。在VVC中,VUI在SPS中信令通知,SPS在VUI语法结构之前包含长度字段,以信令通知VUI有效载荷的长度(以字节为单位)。这使得解码器可以轻松地跳过信息,并且更重要的是,通过以类似于SEI消息语法扩展的方式将新语法元素直接添加到VUI语法结构的末尾,允许方便的未来VUI语法扩展。
VUI语法结构包含以下信息:
·内容是交错的或渐进的;
·内容是否包含帧封装立体视频或投影全向视频;
·样点纵横比;
·内容是否适合过扫描显示;
·颜色描述,包括基色、矩阵和传输特性,这对于能够信令通知超高清(UHD)与高清(HD)颜色空间以及高动态范围(HDR)尤为重要;
·与亮度相比的色度位置(与HEVC相比,渐进的内容的信令通知已被阐明)。
当SPS不包含任何VUI时,信息被认为是未指定的,并且如果比特流的内容旨在用于在显示器上渲染,则信息必须通过外部方式传达或由应用指定。
表1列出了为VVC v1指定的所有SEI消息,以及包含它们的语法和语义的规范。在VSEI规范中规定的20个SEI消息中,许多是从HEVC继承的(例如,填充符有效载荷和两个用户数据SEI消息)。一些SEI消息对于正确处理或渲染编解码视频内容是必不可少的。例如,对于与HDR内容特别相关的主显示器颜色量、内容光级别信息或替代传输特性SEI消息,就是这种情况。其他示例包括等矩形投影、球体旋转、按区域打包或全向视口SEI消息,这些消息与360°视频内容的信令通知和处理相关。
表1:VVC v1中的SEI消息列表
为VVC v1指定的新SEI消息包括帧字段信息SEI消息、样点纵横比信息SEI消息和子图片级别信息SEI消息。
帧字段信息SEI消息包含指示关联图片应该如何显示的信息(例如场奇偶校验或帧重复周期)、关联图片的源扫描类型以及关联图片是否是先前图片的副本。在先前视频编解码标准中,该信息通常与相关图片的定时信息一起在图片定时SEI消息中被信令通知。然而,据观察,帧字段信息和定时信息是两种不同类型的信息,不一定一起被信令通知。一个典型的示例包括在系统级别信令通知定时信息,但在比特流内信令通知帧字段信息。因此决定从图片定时SEI消息中移除帧字段信息,并改为在专用SEI消息中信令通知它。这一变化还使得修改帧字段信息的语法成为可能,以向显示器传达更多和更清晰的指令,例如将字段配对在一起,或帧重复的更多值。
样点纵横比SEI消息可以为同一序列内的不同图片信令通知不同的样点纵横比,而VUI中包含的对应信息适用于整个序列。当使用具有导致同一序列的不同图片具有不同样点纵横比的缩放因子的参考图片重采样特征时,这可能是相关的。
子图片级别信息SEI消息提供子图片序列的级别信息。
4.公开的技术解决方案所解决的技术问题
VVC支持多层可缩放性。然而,给定VVC多层比特流,不知道OLS的比特流是多视图比特流或者只是一个由具有SNR和/或空域可缩放性的多层组成的比特流。此外,给定VVC多层比特流,不知道是否有一个或多个层表示辅助信息,如alpha、深度等,并且如果有,哪些层表示什么。
5.技术解决方案的列表
为了解决上述问题,公开了如下总结的方法。发明应被视为解释一般概念的示例,而不应以狭义的方式进行解释。此外,这些发明可以单独应用或以任何方式组合应用。
1)指示VVC视频比特流是否是多视图比特流的信息在VVC视频比特流中被信令通知。
a.在一个示例中,该信息是在SEI消息中被信令通知,例如,命名为可缩放性尺寸SEI消息。
i.在一个示例中,可缩放性尺寸SEI消息提供比特流bitstreamInScope的信息,它被定义为AU序列,该序列按解码顺序包括包含当前可缩放性尺寸SEI消息的AU,其后是零个或多个AU,包括所有后续AU,但不包括包含可缩放性尺寸SEI消息的任何后续AU。
ii.在一个示例中,SEI消息包括指示比特流是否可以是多视图比特流的标志。
iii.在一个示例中,SEI消息指示每一层的视图ID。
1.在一个示例中,SEI消息包括指示视图ID是否针对每一层被信令通知的标志。
2.在一个示例中,每一层的视图ID的长度(以比特为单位)在SEI消息中被信令通知。
b.在一个示例中,该信息作为VUI的一部分被信令通知。
2)指示VVC视频比特流是否包括一个或多个表示辅助信息的层的信息在VVC视频比特流中被信令通知。
a.在一个示例中,该信息是在SEI消息中被信令通知的,例如,命名为可缩放性尺寸SEI消息。
i.在一个示例中,可缩放性尺寸SEI消息提供比特流bitstreamInScope的信息,它被定义为AU序列,该序列按解码顺序包括包含当前可缩放性尺寸SEI消息的AU,其后是零个或多个AU,包括所有后续AU,但不包括包含可缩放性尺寸SEI消息的任何后续AU。
ii.在一个示例中,SEI消息包括指示比特流是否可以包含由一个或多个层携带的辅助信息的标志。
iii.在一个示例中,SEI消息指示每一层的辅助ID。
1.在一个示例中,SEI消息包括指示辅助ID是否针对每一层被信令通知的标志。
2.在一个示例中,辅助ID的值,例如0,指示该层不包含辅助图片。
3.在一个示例中,辅助ID的值,例如1,指示辅助信息的类型是alpha。
4.在一个示例中,辅助ID的值,例如2,指示辅助信息的类型是深度。
5.在一个示例中,辅助ID的值,例如3,指示辅助信息的类型是占用,例如,如V-PCC中所指定的。
6.在一个示例中,辅助ID的值,例如4,指示辅助信息的类型是几何,例如,如V-PCC中指定的。
7.在一个示例中,辅助ID的值,例如5,指示辅助信息的类型是属性,例如V-PCC中指定的。
8.在一个示例中,辅助ID的值,例如6,指示辅助信息的类型是纹理属性,例如,如V-PCC中指定的。
9.在一个示例中,辅助ID的值,例如7,指示辅助信息的类型是材料属性,例如,如V-PCC中所指定的。
10.在一个示例中,辅助ID的值,例如8,指示辅助信息的类型是透明度属性,例如,如V-PCC中所指定的。
11.在一个示例中,辅助ID的值,例如9,指示辅助信息的类型是反射率属性,例如,如V-PCC中所指定的。
12.在一个示例中,辅助ID的值,例如10,指示辅助信息的类型是法线属性,例如V-PCC中指定的。
b.在一个示例中,该信息作为VUI的一部分被信令通知。
6.实施例
下面是上面章节5中总结的一些本发明方面的一些示例实施例,其可以应用于VVC规范和VSEI规范。
6.1第一实施例
本实施例用于项目1、1.a及其所有子项目2、2.a、2.a.i、2.a.ii、2.a.iii、2.a.iii.1、2.a.iii.2、2.a.iii.3和2.a.iii.4。
6.1.1.可缩放性尺寸SEI消息语法
/>
6.1.2.可缩放性尺寸SEI消息语义
可缩放性尺寸SEI消息提供bitstreamInScope(下面定义)中每一层的可缩放性尺寸信息,例如1)当bitstreamInScope可能是多视图比特流时,每一层的视图ID;以及2)当bitstreamInScope中可能存在由一个或多个层携带的辅助信息(例如深度或alpha)时,每层的辅助ID。
bitstreamInScope是AU序列,按解码顺序,该AU序列包括包含当前可缩放性尺寸SEI消息的AU,随后是零个或多个AU,包括所有后续AU,但不包括包含可缩放性尺寸SEI消息的任何后续AU。
sd_max_layers_minus1加1指示bitstreamInScope中的最大层数。
sd_multiview_info_flag等于1指示bitstreamInScope可能是多视图比特流,并且sd_view_id_val[]语法元素存在于可缩放性尺寸SEI消息中。sd_multiview_flag等于0指示bitstreamInScope不是多视图比特流并且sd_view_id_val[]语法元素不存在于可缩放性尺寸SEI消息中。
sd_auxilary_info_flag等于1指示可能存在由bitstreamInScope中的一层或多层携带的辅助信息,并且sd_aux_id[]语法元素存在于可缩放性尺寸SEI消息中。sd_auxilary_info_flag等于0指示在bitstreamInScope中没有由一个或多个层携带的辅助信息,并且sd_aux_id[]语法元素不存在于可缩放性尺寸SEI消息中。
sd_view_id_len指定sd_view_id_val[i]语法元素的长度(以位为单位)。
sd_view_id_val[i]指定bitstreamInScope中第i层的视图ID。sd_view_id_val[i]语法元素的长度是sd_view_id_len位。当不存在时,sd_view_id_val[i]的值被推断为等于0。
sd_aux_id[i]等于0指示bitstreamInScope中的第i层不包含辅助图片。sd_aux_id[i]大于0指示bitstreamInScope中第i层中的辅助图片的类型,如表2所指定。
表2–sd_aux_id[i]到辅助图片的类型的映射
注1–与128到159(包括端值)范围内的sd_aux_id相关联的辅助图片的解释是通过sd_aux_id值以外的方式指定的。
对于符合本规范的此版本的比特流,sd_aux_id[i]应在0到2(包括端值)或128到159(包括端值)的范围内。尽管sd_aux_id[i]的值应在0到2(包括端值)的范围内或128到159(包括端值)的范围内,但在本规范的此版本中,解码器应允许sd_aux_id[i]的值在0到255(包括端值)的范围内。
图1是可实现本文中所公开的各种技术的示例视频处理系统1900的框图。各种实现方式可以包括系统1900中的一些或全部组件。系统1900可以包括用于接收视频内容的输入1902。视频内容可以以原始或未压缩的格式(例如8或10比特多分量像素值)接收,或者可以以压缩或编码的格式接收。输入1902可以代表网络接口、外围总线接口或存储接口。网络接口的示例包括有线接口(例如以太网、无源光网络(PON)等)和无线接口(例如Wi-Fi或蜂窝接口)。
系统1900可以包括可以实现本文中描述的各种编解码或编码方法的编解码组件1904。编解码组件1904可以减少从输入1902到编解码组件1904的输出的视频的平均比特率,以产生视频的编解码表示。因此,编解码技术有时称为视频压缩或视频转码技术。编解码组件1904的输出可以被存储或经由所连接的通信来发送,如组件1906所表示的。在输入1902处接收的视频的存储或通信的比特流(或编解码)表示可以由组件1908使用,以生成被发送到显示接口1910的像素值或可显示视频。从比特流表示中生成用户可见的视频的过程有时称为视频解压缩。此外,尽管某些视频处理操作被称为“编解码”操作或工具,但是应当理解,编解码工具或操作在编码器处使用,并且反演编解码结果的相应解码工具或操作将由解码器执行。
外围总线接口或显示接口的示例可以包括通用串行总线(USB)或高清晰度多媒体接口(HDMI)或Displayport等。存储接口的示例包括SATA(串行高级技术附件)、PCI、IDE接口等。本文中描述的技术可以实施在各种电子设备中,诸如移动电话、笔记本电脑、智能电话或其它能够进行数字数据处理和/或视频显示的设备。
图2是视频处理装置3600的框图。装置3600可以用于实现本文中所述的方法中的一个或多个。装置3600可以实施在智能电话、平板电脑、计算机、物联网(IoT)接收器等中。装置3600可以包括一个或多个处理器3602、一个或多个存储器3604以及视频处理硬件3606。(多个)处理器3602可以配置为实现本文中所述的一个或多个方法。(多个)存储器3604可以用于存储数据和代码,该代码用于实现本文所描述的方法和技术。视频处理硬件3606可以用于在硬件电路中实现本文中所描述的一些技术。在一些实施例中,视频处理硬件3606可以至少部分地包括在处理器3602中,例如图形协处理器。
图4是示出可利用本公开的技术的示例视频编解码系统100的框图。
如图4所示,视频编解码系统100可以包括源设备110和目标设备120。源设备110生成编码的视频数据,其可以被称为视频编码设备。目标设备120可以解码由源设备110生成的编码的视频数据,该目标设备120可以被称为视频解码设备。
源设备110可以包括视频源112、视频编码器114和输入/输出(I/O)接口116。
视频源112可以包括源,例如视频捕获设备、从视频内容提供者接收视频数据的接口、和/或生成视频数据的计算机图形系统,或这些源的组合。视频数据可以包括一个或多个图片。视频编码器114对来自视频源112的视频数据进行编码以生成比特流。比特流可以包括形成视频数据的编解码表示的比特序列。比特流可以包括编解码图片和相关联的数据。编解码图片是图片的编解码表示。相关联的数据可以包括序列参数集、图片参数集和其他语法结构。I/O接口116包括调制器/解调器(调制解调器)和/或发送器。可以将编码的视频数据经由I/O接口116通过网络130a直接发送到目标设备120。还可以将编码的视频数据存储到存储介质/服务器130b上,用于由目标设备120存取。
目标设备120可以包括I/O接口126、视频解码器124和显示设备122。
I/O接口126可以包括接收器和/或调制解调器。I/O接口126可以从源设备110或存储介质/服务器130b获取编码的视频数据。视频解码器124可以对编码的视频数据进行解码。显示设备122可以向用户显示解码的视频数据。显示设备122可以与目标设备120集成,或可以在配置为与外置显示设备相接的目标设备120外部。
视频编码器114和视频解码器124可以根据视频压缩标准,例如,高效视频编解码(HEVC)标准、多功能视频编解码(VVC)标准和其他当前和/或其他标准,进行操作。
图5是示出视频编码器200的示例的框图,该视频编码器200可以是图4中示出的系统100中的视频编码器114。
视频编码器200可以被配置为执行本公开的任何或全部技术。在图5的示例中,视频编码器200包括多个功能组件。本公开所描述的技术可以在视频编码器200的各种组件之间共享。在一些示例中,处理器可以被配置为进行本公开中描述的任何或全部技术。
视频编码器200的功能组件可以包括分割单元201、预测单元202(其可以包括模式选择单元203、运动估计单元204、运动补偿单元205和帧内预测单元206)、残差生成单元207、变换单元208、量化单元209、逆量化单元210、逆变换单元211、重建单元212、缓冲器213和熵编码单元214。
在其他示例中,视频编码器200可以包括更多、更少或不同的功能组件。在一个示例中,预测单元202可以包括帧内块复制(IBC)单元。IBC单元可以以IBC模式进行预测,其中至少一个参考图片是当前视频块所在的图片。
此外,例如运动估计单元204和运动补偿单元205的一些组件可以被高度集成,但是出于解释的目的在图5的示例中分开表示。
分割单元201可以将图片分割成一个或多个视频块。视频编码器200和视频解码器300可以支持各种视频块尺寸。
模式选择单元203可以例如基于误差结果选择帧内或帧间的编解码模式中的一个,并且将得到的帧内或帧间编解码块提供到残差生成单元207来生成残差块数据以及提供到重建单元212来重建编码块以用作参考图片。在一些示例中,模式选择单元203可以选择帧内和帧间预测的组合(CIIP)模式,其中预测是基于帧间预测信号和帧内预测信号。模式选择单元203还可以为帧间预测情况下的块选择运动矢量的分辨率(例如子像素或整像素精度)。
为了对当前视频块进行帧间预测,运动估计单元204可以通过将来自缓冲器213的一个或多个参考帧与当前视频块进行比较,生成当前视频块的运动信息。运动补偿单元205可以基于来自缓冲器213的图片(而不是与当前视频块相关联的图片)的运动信息和解码样点来为当前视频块确定预测的视频块。
运动估计单元204和运动补偿单元205可以为当前视频块进行不同操作,例如执行不同操作取决于当前视频块是在I条带、P条带还是B条带中。
在一些示例中,运动估计单元204可以对当前视频块进行单向预测,并且运动估计单元204可以在列表0或列表1的参考图片中搜索当前视频块的参考视频块。运动估计单元204然后可以生成指示列表0或列表1的参考图片中含有参考视频块的参考索引以及指示在当前视频块与参考视频块之间的空域位移的运动矢量。运动估计单元204可以输出参考索引、预测方向指示符、以及运动矢量作为当前视频块的运动信息。运动补偿单元205可以基于由当前视频块的运动信息指示的参考视频块来生成当前块的预测视频块。
在其他示例中,运动估计单元204可以对当前视频块进行双向预测,运动估计单元204可以在列表0的参考图片中搜索当前视频块的参考视频块并且还可以在列表1的参考图片中搜索当前视频块的另一个参考视频块。运动估计单元204然后可以生成指示列表0或列表1的参考图片中含有参考视频块的参考索引以及指示在参考视频块与当前视频块之间的空域位移的运动矢量。运动估计单元204可以输出参考索引和当前视频块的运动矢量作为当前视频块的运动信息。运动补偿单元205可以基于由当前视频块的运动信息指示的参考视频块来生成当前视频块的预测视频块。
在一些示例中,运动估计单元204可以输出运动信息的全部集合,用于解码器的解码处理。
在一些示例中,运动估计单元204可以不输出当前视频的运动信息的全部集合。而是,运动估计单元204可以参考另一个视频块的运动信息来信令通知当前视频块的运动信息。例如,运动估计单元204可以确定当前视频块的运动信息与相邻视频块的运动信息足够相似。
在一个示例中,运动估计单元204可以在与当前视频块相关联的语法结构中指示:向视频解码器300指示当前视频块具有与另一个视频块相同的运动信息的值。
在另一个示例中,运动估计单元204可以在与当前视频块相关联的语法结构中标识另一个视频块和运动矢量差(MVD)。运动矢量差指示当前视频块的运动矢量与指示视频块的运动矢量之间的差。视频解码器300可以使用指示视频块的运动矢量和运动矢量差来确定当前视频块的运动矢量。
如上所讨论的,视频编码器200可以预测性地信令通知运动矢量。可以由视频编码器200实现的预测性的信令通知技术的两个示例包括高级运动矢量预测(AMVP)和merge模式信令通知。
帧内预测单元206可以对当前视频块进行帧内预测。当帧内预测单元206对当前视频块进行帧内预测时,帧内预测单元206可以基于相同图片中其他视频块的解码样点来生成当前视频块的预测数据。当前视频块的预测数据可以包括预测视频块和各种语法元素。
残差生成单元207可以通过从当前视频块中减去(例如,由减号表示)当前视频块的(多个)预测视频块来生成当前视频块的残差数据。当前视频块的残差数据可以包括对应于当前视频块中样点的不同样点分量的残差视频块。
在其他示例中,例如在跳过模式下,对于当前视频块可能不存在当前视频块的残差数据,并且残差生成单元207可以不进行减去操作。
变换处理单元208可以通过将一个或多个变换应用于与当前视频块相关联的残差视频块来生成当前视频块的一个或多个变换系数视频块。
在变换处理单元208生成与当前视频块相关联的变换系数视频块之后,量化单元209可以基于与当前视频块相关联的一个或多个量化参数(QP)值来量化与当前视频块相关联的变换系数视频块。
逆量化单元210和逆变换单元211可以将逆量化和逆变换分别应用于变换系数视频块,来从变换系数视频块重建残差视频块。重建单元212可以将重建的残差视频块添加到来自由预测单元202生成的一个或多个预测视频块的对应样点,以产生与当前块相关联的重建视频块用于存储在缓冲器213中。
在重建单元212重建视频块之后,可以进行环路滤波操作以降低视频块中视频块化伪影。
熵编码单元214可以从视频编码器200的其他功能组件接收数据。当熵编码单元214接收数据时,熵编码单元214可以进行一个或多个熵编码操作以生成熵编码数据并且输出包括熵编码数据的比特流。
图6是示出视频解码器300的示例的框图,该视频解码器300可以是图4中示出的系统100中的视频解码器114。
视频解码器300可以被配置为执行本公开的任何或全部技术。在图6的示例中,视频解码器300包括多个功能组件。本公开所描述的技术可以在视频解码器300的各种组件之间共享。在一些示例中,处理器可以配置为进行本公开中描述的任何或全部技术。
在图6的示例中,视频解码器300包括熵解码单元301、运动补偿单元302、帧内预测单元303、逆量化单元304、逆变换单元305以及重建单元306和缓冲器307。在一些示例中,视频解码器300可以进行与关于视频编码器200(图5)所描述的编码过程总体反演的解码过程。
熵解码单元301可以检索编码比特流。编码比特流可以包括熵编解码视频数据(例如,视频数据的编码块)。熵解码单元301可以对熵编解码视频数据进行解码,并且根据熵解码视频数据,运动补偿单元302可以确定包括运动矢量、运动矢量精度、参考图片列表索引和其他运动信息的运动信息。运动补偿单元302例如可以通过进行AMVP和merge模式确定此类信息。
运动补偿单元302可以产生运动补偿块,可能地基于插值滤波器进行插值。要以子像素精度使用的插值滤波器的标识符可以包括在语法元素中。
运动补偿单元302可以使用由视频编码器200在编码视频块的期间所使用的插值滤波器,来计算出参考块的子整数个像素的插值的值。运动补偿单元302可以根据接收的语法信息确定由视频编码器200所使用的插值滤波器并且使用插值滤波器来产生预测块。
运动补偿单元302可以使用一些语法信息来确定:用于对编码视频序列的(多个)帧和/或(多个)条带进行编码的块的尺寸,描述编码视频序列的图片的每个宏块如何被分割的分割信息,指示如何编码每个分割的模式,每个帧间编码块的一个或多个参考帧(和参考帧列表),以及对编码视频序列进行解码的其他信息。
帧内预测单元303可以使用例如在比特流中接收的帧内预测模式来从空域相邻块形成预测块。逆量化单元303逆量化(即,去量化)在比特流中提供的且由熵解码单元301解码的量化的视频块系数。逆变换单元303应用逆变换。
重建单元306可以用由运动补偿单元202或帧内预测单元303生成的对应预测块求和残差块,以形成解码块。如所期望的,去块滤波器还可以应用于滤波解码块以便移除块效应伪影。解码视频块然后存储在缓冲器307中,该缓冲器307提供用于随后的运动补偿/帧内预测的参考块,并且还产生用于在显示设备上呈现的解码视频。
接下来提供了一些实施例优选的解决方案的列表。
以下解决方案示出了上一章节中讨论的技术的示例实施例(例如,项目1)。
1.一种视频处理的方法(例如,图3中描绘的方法700),包括执行(702)包括视频图片的视频与视频的编解码表示之间的转换,其中比特流符合格式规则,其中格式规则指定包括在编解码表示中的字段指示视频是多视图视频。
2.根据解决方案1所述的方法,其中该字段被包括在编解码表示的补充增强信息部分中。
3.根据解决方案1所述的方法,其中该字段被包括在编解码表示的视频可用性信息部分中。
以下解决方案示出了上一章节中讨论的技术的示例实施例(例如,项目2)。
4.一种视频处理方法,包括:执行包括视频图片的视频和视频的编解码表示之间的转换,其中比特流符合格式规则,其中格式规则指定编解码表示中包括的字段指示视频在多个视频层的编解码表示中被编解码。
5.根据解决方案4所述的方法,其中该字段被包括在编解码表示的补充增强信息部分中。
6.根据解决方案4所述的方法,其中该字段被包括在编解码表示的视频可用性信息部分中。
7.根据解决方案1-6中任一项所述的方法,其中转换包括从视频生成编解码表示。
8.根据解决方案1-6中任一项所述的方法,其中转换包括解码编解码表示以生成视频。
9.一种视频解码装置,包括被配置为实现解决方案1至8中的一个或多个所述的方法的处理器。
10.一种视频编码装置,包括被配置为实现解决方案1至8中的一个或多个所述的方法的处理器。
11.一种其上存储有计算机代码的计算机程序产品,该代码在由处理器执行时使处理器实现解决方案1至8中任一项所述的方法。
12.一种计算机可读介质,存储根据解决方案1至8中的任一项生成的编解码表示。
13.本文档中描述的方法、装置或系统。
在这里描述的解决方案中,编码器可以通过根据格式规则产生编解码表示来符合格式规则。在这里描述的解决方案中,解码器可以使用格式规则来解析编解码表示中的语法元素,并根据格式规则了解语法元素的存在和不存在以产生解码视频。
图8是视频处理的示例方法的流程图。操作802包括:根据格式规则执行视频和视频的比特流之间的转换,其中格式规则指定比特流中包括的补充增强信息字段或视频可用性信息语法结构指示比特流是否包括多视图比特流,在多视图比特流中,多个视图在多个视频层中被编解码。
在一些实施例中,格式规则指定补充增强信息字段被包括在比特流中的补充增强信息消息中的可缩放性尺寸信息中。在一些实施例中,格式规则指定补充增强信息消息包括指示比特流是否是多视图比特流的第一标志。在一些实施例中,格式规则指定补充增强信息消息包括比特流的多个视频层中的每个视频层的视图标识符。在一些实施例中,格式规则指定补充增强信息消息包括每个视频层的视图标识符的比特长度。
在一些实施例中,格式规则指定补充增强信息消息包括指示视图标识符是否被包括在每个视频层的比特流中的第二标志。在一些实施例中,格式规则指定补充增强信息消息中的可缩放性尺寸信息提供与接入单元的序列相关的信息,接入单元按解码顺序包括包含第二补充增强信息消息中的第二可缩放性尺寸信息的接入单元,随后是零个或多个接入单元,包括所有后续接入单元,但不包括在第三补充增强信息消息中包含第三可缩放性尺寸信息的任何后续接入单元。在一些实施例中,格式规则指定补充增强信息字段被包括在比特流中的视频可用性信息语法结构中。在一些实施例中,比特流是多功能视频编解码比特流。在一些实施例中,执行转换包括将视频编码成比特流。在一些实施例中,执行转换包括从视频生成比特流,并且方法还包括将比特流存储在非暂时性计算机可读记录介质中。在一些实施例中,执行转换包括从比特流解码视频。
图9是视频处理的示例方法的流程图。操作902包括:根据格式规则执行视频和视频的比特流之间的转换,其中格式规则指定比特流中包括的补充增强信息字段指示比特流是否包括表示辅助信息的一个或多个视频层。
在一些实施例中,格式规则指定补充增强信息字段被包括在比特流中的补充增强信息消息的可缩放性尺寸信息中。在一些实施例中,格式规则指定补充增强信息消息包含第一标志,第一标志指示比特流是否包含一个或多个视频层的辅助信息。在一些实施例中,格式规则指定补充增强信息消息包括比特流的多个视频层中的每个视频层的辅助标识符。在一些实施例中,格式规则指定视频层的辅助标识符的第一值指示视频层不包括辅助图片。
在一些实施例中,格式规则指定视频层的辅助标识符的第二值指示视频层的辅助信息的类型是α。在一些实施例中,格式规则指定视频层的辅助标识符的第三值指示视频层的辅助信息的类型是深度。在一些实施例中,格式规则指定补充增强信息消息包括第二标志,第二标志指示辅助标识符是否包括在每个视频层的比特流中。在一些实施例中,格式规则指定视频层的辅助标识符的第四值指示视频层的辅助信息的类型是占用。
在一些实施例中,格式规则指定视频层的辅助标识符的第三值指示视频层的辅助信息的类型是几何形状。在一些实施例中,格式规则指定视频层的辅助标识符的第三值指示视频层的辅助信息的类型是属性。在一些实施例中,格式规则指定视频层的辅助标识符的第三值指示视频层的辅助信息的类型是纹理属性。在一些实施例中,格式规则指定视频层的辅助标识符的第三值指示视频层的辅助信息的类型是材料属性。在一些实施例中,格式规则指定视频层的辅助标识符的第三值指示视频层的辅助信息的类型是透明属性。
在一些实施例中,格式规则指定视频层的辅助标识符的第三值指示视频层的辅助信息的类型是反射属性。在一些实施例中,格式规则指定视频层的辅助标识符的第三值指示视频层的辅助信息的类型是法线属性。在一些实施例中,格式规则指定补充增强信息消息中的可缩放性尺寸信息提供与接入单元的序列相关的信息,接入单元按解码顺序包括包含第二补充增强信息消息中的第二可缩放性尺寸信息的接入单元,随后是零个或多个接入单元,包括所有后续接入单元,但不包括包含第三补充增强信息消息中的第三可缩放性尺寸信息的任何后续接入单元。
在一些实施例中,格式规则指定补充增强信息字段被包括在比特流中的视频可用性信息中。在一些实施例中,视频是多功能视频编解码视频。在一些实施例中,执行转换包括将视频编码成比特流。在一些实施例中,执行转换包括从视频生成比特流,并且方法还包括将比特流存储在非暂时性计算机可读记录介质中。在一些实施例中,执行转换包括从比特流中解码视频。
在一些实施例中,一种视频解码装置,包括配置成实现本文中所述的一个或多个技术中所述的方法的处理器。在一些实施例中,一种视频编码装置,包括被配置成实现在本文中描述的一个或多个技术中所述的方法的处理器。在一些实施例中,计算机程序产品具有存储在其上的计算机指令,这些指令在由处理器执行时使得处理器实现本文中所述的方法。在一些实施例中,一种非暂时性计算机可读存储介质,存储根据本文中描述的任一方法生成的比特流。
在一些实施例中,一种存储指令的非暂时性计算机可读存储介质,所述指令使处理器实现本文中所述的任一方法。在一些实施例中,一种比特流生成的方法,包括:根据在本文中描述的任一方法生成视频的比特流,并且将该比特流存储在计算机可读程序介质上。在一些实施例中,一种方法、一种装置、一种根据本文档中描述的公开方法或系统生成的比特流。
在本文档中,术语“视频处理”可指视频编码、视频解码、视频压缩或视频解压缩。例如,在从视频的像素表示到对应的比特流表示的转换期间,可以应用视频压缩算法,反之亦然。如语法所定义,当前视频块的比特流表示可(例如)对应于共位或散布在比特流内不同位置的比特。例如,可以根据变换和编解码的误差残差值并且还使用标头中的比特和比特流中的其他字段,对宏块进行编码。此外,在转换期间,解码器可以基于该确定,在知道一些字段可能存在或不存在的情况下解析比特流,如以上解决方案中所述。类似地,编码器可确定包括或不包括某些语法字段,并通过从编解码表示中包括或排除语法字段来相应地生成编解码表示。
所公开的技术的一些实施例包括作出决定或确定以启用视频处理工具或模式。在一个示例中,当启用视频处理工具或模式时,编码器将在视频的块的处理中使用或实现该工具或模式,但不一定基于该工具或模式的使用来修改得到的比特流。也就是说,当基于该决定或确定来启用视频处理工作或模式时,从视频的块到视频的比特流表示的转换将使用该视频处理工具或模式。在另一示例中,当启用视频处理工具或模式时,解码器将在知道比特流已基于视频处理工具或模式被修改的情况下处理比特流。即,将使用基于该决定或确定而启用的视频处理工具或模式来执行从视频的比特流表示到视频的块的转换。
本公开的技术的一些实施例包括决定或确定禁用视频处理工具或模式。在示例中,当禁用视频处理工具或模式时,编码器在视频块到视频的比特流表示的转换中将不会使用工具或模式。在另一示例中,当视频处理工具或模式被禁用时,解码器将使用尚未基于决定或确定而禁用的视频处理工具或模式来修改比特流的知识来处理比特流。
本文档中所述的公开和其他方案、示例、实施例、模块和功能操作可以被实现在数字电子电路中或者在计算机软件、固件或硬件中,含有本文档中所公开的结构以及其结构的等同物,或者它们中的一个或多个的组合。所公开的和其他实施例可以被实现为计算机可读介质上所编码的一个或多个计算机程序产品,即一个或多个计算机程序指令模块,用于由数据处理装置执行或者控制数据处理装置的操作。该计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储器设备、影响机器可读可传播信号的复合物,或其一个或多个的组合。术语“数据处理装置”涵盖用于处理数据的所有装置、设备和机器,包括例如可编程处理器、计算机或多个处理器或计算机。除了硬件之外,该装置还可以包括为所讨论的计算机程序创建执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统、或者它们中的一个或多个的组合的代码。传播信号是人工生成的信号,例如,机器生成的电、光或电磁信号,其被生成来编码信息以传输到合适的接收器装置。
计算机程序(也称为程序、软件、软件应用、脚本或代码)可以用任何形式的编程语言编写,包括编译或解释语言,并且可以以任何形式来部署计算机程序,包括独立程序或适合在计算环境中使用的模块、组件、子例程或其它单元。计算机程序不必须对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的部分中(例如,在标记语言文档中存储的一个或多个脚本)、在专用于所讨论的程序的单个文件中、或在多个协同文件中(例如存储一个或多个模块、子程序或代码部分的文件)。计算机程序可以部署为在一个计算机上或者在多个计算机上执行,该多个计算机位于一个站点处或者分布跨多个站点并由通信网络互连。
可以由执行一个或多个计算机程序的一个或多个可编程处理器来进行在本文档中所描述的过程和逻辑流,以通过在输入数据上操作并且生成输出来进行功能。也可以由专用逻辑电路(例如,现场可编程门阵列(FPGA)或专用集成电路(ASIC))进行过程和逻辑流,并且装置可以实现为专用逻辑电路(例如FPGA或ASIC)。
适合于计算机程序的执行的处理器包括例如通用和专用微处理器两者,以及任何类型的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或者该两者接收指令和数据。计算机的基本元件是用于进行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个海量存储设备(例如磁、磁光盘或光盘),或者可操作地耦合以从海量存储设备(例如磁、磁光盘或光盘)接收数据或者将数据传输到海量存储设备(例如磁、磁光盘或光盘),或者以上两者。但是,计算机不必具有此类设备。适用于存储计算机程序指令和数据的计算机可读介质含有所有形式的非易失性存储器、介质和存储器设备,含有例如半导体存储器设备(例如EPROM、EEPROM和闪速存储器设备);磁盘(例如内部硬盘或可移动磁盘);磁光盘;和CD ROM和DVD-ROM磁盘。处理器和存储器可以由专用逻辑电路补充,或者合并在专用逻辑电路中。
虽然本专利文档含有许多细节,但这些细节不应被解释为对任何主题或可要求保护的范围的限制,而是作为规定于特定技术的特定实施例的特征的描述。在本专利文档中,在单独的实施例的上下文中描述的某些特征也可以在单个实施例中组合实现。相反地,在单个实施例的上下文中所描述的各种特征还可以分别在多个实施例中来实现或者以各种合适的子组合来实现。此外,尽管特征可以如上文描述为以某些组合起作用并且甚至最初同样地要求,但是在某些情况下来自所要求保护的组合的一个或多个特征可以从组合中去除,并且所要求保护的组合可以针对子组合或子组合的变化。
类似地,尽管在附图中以特定顺序描绘了操作,但这不应当理解为要求按所示的特定次序或顺序次序进行此类操作或者进行所有示出的操作,以实现期望的结果。此外,在本专利文档中描述的实施例中的各种系统组件的分开不应被理解为在所有实施例中都要求这种分开。
仅描述了几个实现方式和示例,并且可以基于本专利文档中描述和示出的内容来作出其它实现方式、增强和变型。

Claims (19)

1.一种处理视频数据的方法,包括:
根据格式规则执行视频和所述视频的比特流之间的转换,
其中,所述格式规则指定所述比特流中包括的补充增强信息字段或视频可用性信息语法结构指示所述比特流是否包括多视图比特流,在所述多视图比特流中,多个视图在多个视频层中被编解码。
2.根据权利要求1所述的方法,其中,所述格式规则指定所述补充增强信息字段被包括在所述比特流中的补充增强信息消息中的可缩放性尺寸信息中。
3.根据权利要求2所述的方法,其中所述格式规则指定所述补充增强信息消息包括指示所述比特流是否是多视图比特流的第一标志。
4.根据权利要求2所述的方法,其中,所述格式规则指定所述补充增强信息消息包括所述比特流的多个视频层中的每个视频层的视图标识符。
5.根据权利要求4所述的方法,其中,所述格式规则指定所述补充增强信息消息包括每个视频层的所述视图标识符的比特长度。
6.根据权利要求4所述的方法,其中,所述格式规则指定所述补充增强信息消息包括指示所述视图标识符是否被包括在每个视频层的所述比特流中的第二标志。
7.根据权利要求2所述的方法,其中,所述格式规则指定所述补充增强信息消息中的所述可缩放性尺寸信息提供与接入单元序列相关的信息,所述接入单元序列按解码顺序包括包含第二补充增强信息消息中的第二可缩放性尺寸信息的接入单元,随后是零个或多个接入单元,包括所有后续接入单元,但不包括包含第三补充增强信息消息中的第三可缩放性尺寸信息的任何后续接入单元。
8.根据权利要求1所述的方法,其中,所述格式规则指定所述补充增强信息字段被包括在所述比特流中的所述视频可用性信息语法结构中。
9.根据权利要求1至8中任一项所述的方法,其中,所述比特流是多功能视频编解码比特流。
10.根据权利要求1至9中任一项所述的方法,其中,执行所述转换包括将所述视频编码成所述比特流。
11.根据权利要求1至9中任一项所述的方法,其中,执行所述转换包括从所述视频生成所述比特流,并且所述方法还包括将所述比特流存储在非暂时性计算机可读记录介质中。
12.根据权利要求1至9中任一项所述的方法,其中,执行所述转换包括从所述比特流解码所述视频。
13.一种视频解码装置,包括被配置为实现权利要求1至12中的一项或多项所述的方法的处理器。
14.一种视频编码装置,包括被配置为实现权利要求1至12中的一项或多项所述的方法的处理器。
15.一种其上存储有计算机指令的计算机程序产品,所述指令在由处理器执行时使所述处理器实现权利要求1至12中任一项所述的方法。
16.一种非暂时性计算机可读存储介质,存储根据权利要求1至12中任一项所述的方法生成的比特流。
17.一种存储指令的非暂时性计算机可读存储介质,所述指令使处理器实现根据权利要求1至12中任一项所述的方法。
18.一种比特流生成的方法,包括:
根据权利要求1至12中任一项所述的方法生成视频的比特流,以及
将所述比特流存储在计算机可读程序介质上。
19.一种方法、装置、一种根据本文档中描述的公开方法或系统生成的比特流。
CN202180066777.6A 2020-09-29 2021-09-29 多视图信息的信令通知 Pending CN116671110A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CNPCT/CN2020/118711 2020-09-29
CN2020118711 2020-09-29
PCT/CN2021/121512 WO2022068838A1 (en) 2020-09-29 2021-09-29 Signalling of multiview information

Publications (1)

Publication Number Publication Date
CN116671110A true CN116671110A (zh) 2023-08-29

Family

ID=80949728

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202180066926.9A Pending CN116671111A (zh) 2020-09-29 2021-09-29 辅助信息的信令通知
CN202180066777.6A Pending CN116671110A (zh) 2020-09-29 2021-09-29 多视图信息的信令通知

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202180066926.9A Pending CN116671111A (zh) 2020-09-29 2021-09-29 辅助信息的信令通知

Country Status (6)

Country Link
US (2) US20230239502A1 (zh)
EP (2) EP4205397A4 (zh)
JP (2) JP2023542226A (zh)
KR (2) KR20230078738A (zh)
CN (2) CN116671111A (zh)
WO (2) WO2022068838A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11750843B2 (en) * 2021-06-28 2023-09-05 Tencent America LLC Multiview-related supplementary enhancement information messages

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8699583B2 (en) * 2006-07-11 2014-04-15 Nokia Corporation Scalable video coding and decoding
US9674522B2 (en) * 2013-04-08 2017-06-06 Qualcomm Incorporated Device and method for scalable coding of video information
US20150016547A1 (en) * 2013-07-15 2015-01-15 Sony Corporation Layer based hrd buffer management for scalable hevc
WO2015056182A2 (en) * 2013-10-15 2015-04-23 Nokia Technologies Oy Video encoding and decoding
US9106929B2 (en) * 2014-01-02 2015-08-11 Vidyo, Inc. Overlays using auxiliary pictures
US20150264404A1 (en) * 2014-03-17 2015-09-17 Nokia Technologies Oy Method and apparatus for video coding and decoding
US10091532B2 (en) * 2014-06-26 2018-10-02 Qualcomm Incorporated Bitstream conformance constraints in scalable video coding
FI20165114A (fi) * 2016-02-17 2017-08-18 Nokia Technologies Oy Laitteisto, menetelmä ja tietokoneohjelma videokoodausta ja videokoodauksen purkua varten
JP6721631B2 (ja) * 2017-07-07 2020-07-15 ノキア テクノロジーズ オーユー ビデオの符号化・復号の方法、装置、およびコンピュータプログラムプロダクト
EP4084490A1 (en) * 2019-01-02 2022-11-02 Nokia Technologies Oy An apparatus, a method and a computer program for video coding and decoding
EP3700205A1 (en) * 2019-02-19 2020-08-26 Nokia Technologies Oy Quantization parameter derivation for cross-channel residual encoding and decoding

Also Published As

Publication number Publication date
EP4205397A4 (en) 2024-02-28
WO2022068838A1 (en) 2022-04-07
EP4205383A1 (en) 2023-07-05
KR20230078738A (ko) 2023-06-02
JP2023542227A (ja) 2023-10-05
CN116671111A (zh) 2023-08-29
KR20230078736A (ko) 2023-06-02
US20230239511A1 (en) 2023-07-27
WO2022068839A1 (en) 2022-04-07
EP4205397A1 (en) 2023-07-05
EP4205383A4 (en) 2024-02-28
US20230239502A1 (en) 2023-07-27
JP2023542226A (ja) 2023-10-05

Similar Documents

Publication Publication Date Title
US11671627B2 (en) Operating point entity group signaling in coded video
JP7268107B2 (ja) ビジュアル・メディア・データ処理方法
KR20220037393A (ko) 비디오 코딩에서의 디코딩 능력 정보 저장
CN116530083A (zh) 视频比特流中的嵌套的和非嵌套的sei消息
CN114205626B (zh) 视频操作点记录语法和语义
CN114302143A (zh) 视频编解码中的自适应参数集存储
US20230239511A1 (en) Signalling of auxiliary information
CN115804091A (zh) 访问单元分隔符,以及视频编解码中的通用约束信息
CN117528004A (zh) 多层视频比特流的子比特流提取
CN115918067A (zh) 多层视频编解码的图片标头约束
CN115668933A (zh) 编解码视频中nal单元的排序
CN116508322A (zh) Vvc视频编解码中的解码器配置信息

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination