CN114556916B - 视频编解码工具的高级语法 - Google Patents

视频编解码工具的高级语法 Download PDF

Info

Publication number
CN114556916B
CN114556916B CN202080071639.2A CN202080071639A CN114556916B CN 114556916 B CN114556916 B CN 114556916B CN 202080071639 A CN202080071639 A CN 202080071639A CN 114556916 B CN114556916 B CN 114556916B
Authority
CN
China
Prior art keywords
picture
video
syntax element
codec
codec tool
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202080071639.2A
Other languages
English (en)
Other versions
CN114556916A (zh
Inventor
张凯
张莉
刘鸿彬
王悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
ByteDance Inc
Original Assignee
Beijing ByteDance Network Technology Co Ltd
ByteDance Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd, ByteDance Inc filed Critical Beijing ByteDance Network Technology Co Ltd
Publication of CN114556916A publication Critical patent/CN114556916A/zh
Application granted granted Critical
Publication of CN114556916B publication Critical patent/CN114556916B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/174Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a slice, e.g. a line of blocks or a group of blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • H04N19/463Embedding additional information in the video signal during the compression process by compressing encoding parameters before transmission
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • H04N19/52Processing of motion vectors by encoding by predictive encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding

Abstract

描述了一种视频处理方法。该方法包括,对于视频的图片的视频区域与视频的编解码表示之间的转换,确定用于在编解码表示中表示视频区域的编解码工具的启用状态;以及根据确定执行转换;其中,第一标志包括在图片标头中,以指示用于该图片的编解码工具的启用状态。

Description

视频编解码工具的高级语法
相关申请的交叉引用
本申请是2020年10月12日提交的国际专利申请No.PCT/CN2020/120287的中国国家阶段申请,该国际专利申请要求于2019年10月12日提交的国际专利申请No.PCT/CN2019/110905的优先权和利益。将上述申请的全部公开通过引用的方式并入,作为本申请公开的一部分。
技术领域
本专利文件涉及视频编解码技术、设备和系统。
背景技术
尽管在视频压缩方面取得了进步,但数字视频仍然是互联网和其他数字通信网络中使用带宽最多的部分。随着能够接收和显示视频的连接用户设备的数量增加,预计数字视频使用的带宽需求将继续增长。
发明内容
描述了与数字视频编解码,特别是与用于视频编解码的自适应环路滤波有关的设备、系统和方法。所述方法可应用于现有视频编解码标准(例如,高效视频编解码(HEVC))和未来的视频编解码标准(例如,多功能视频编解码(VVC))或编解码器。
视频编解码标准主要是通过众所周知的ITU-T和ISO/IEC标准的发展而发展起来的。ITU-T制作了H.261和H.263,ISO/IEC制作了MPEG-1和MPEG-4视频,两个组织联合制作了H.262/MPEG-2视频和H.264/MPEG-4高级视频编解码(AVC)和H.265/HEVC标准。自H.262以来,视频编解码标准基于混合视频编解码结构,其中使用时域预测加变换编解码。为了探索HEVC之外的未来视频编解码技术,VCEG和MPEG于2015年联合成立了联合视频探索团队(JVET)。此后,JVET采用了许多新的方法,并将其应用到名为联合探索模型(JEM)的参考软件中。2018年4月,VCEG(Q6/16)和ISO/IEC JTC1 SC29/WG11(MPEG)之间的联合视频专家组(JVET)成立,致力于VVC标准,目标是与HEVC相比比特率降低50%。
在一个代表性方面,所公开的技术可用于提供视频处理的方法,所述方法包括:对于视频的图片的视频区域和所述视频的编解码表示之间的转换,确定用于在所述编解码表示中表示所述视频区域的编解码工具的启用状态;以及根据所述确定执行所述转换;其中,第一标志包括在图片标头中,以指示用于所述图片的所述编解码工具的启用状态。
在又一个代表性方面中,上述方法以处理器可执行代码的形式实施并存储在计算机可读程序介质中。
在又一个代表性方面,公开了一种被配置或可操作以执行上述方法的设备。该设备可以包括被编程以实现该方法的处理器。
在又一个代表性方面,视频解码器装置可以实现如本文所述的方法。
在附图、说明书和权利要求中更详细地描述了所公开技术的上述和其他方面和特征。
附图说明
图1示出以不同分辨率编解码的相同内容的两个表示的自适应流的示例。
图2示出以不同分辨率编解码的相同内容的两个表示的自适应流的示例。
图3示出了这两种表示的开放GOP预测结构的示例。
图4示出在开放GOP位置处的表示切换的示例。
图5示出了通过使用来自其他比特流的重采样的参考图片作为参考来对RASL图片进行解码处理的示例。
图6A至6C示出了基于MCTS的RWMR视口相关360°流媒体的示例。
图7示出了不同IRAP间隔和不同大小的共位子图片表示的示例。
图8示出当观看方向改变导致分辨率改变时接收到的片段的示例。
图9示出了与图6相比略微向上并朝向右立方体面的观看方向改变的示例。
图10示出了其中呈现两个子图片位置的子图片表示的示例。
图11和12分别说明了ARC编码器和解码器的实现。
图13示出了基于片组的ARC重采样的示例。
图14示出了自适应分辨率改变的示例。
图15示出了CU的ATMVP运动预测的示例。
图16A和16B分别示出了简化的4参数仿射运动模型和简化的6参数仿射运动模型的示例。
图17示出每个子块的仿射MVF的示例。
图18A和18B分别示出4参数仿射模型和6参数仿射模型的示例。
图19示出用于继承仿射候选的AF_INTER的MVP(运动矢量差)。
图20示出用于构造的仿射候选的AF_INTER的MVP。
图21A和21B分别示出五个相邻块和CPMV预测推导。
图22示出了仿射MERGE模式的候选位置的示例。
图23示出了根据公开技术的用于视频处理的示例方法的流程图。
图24A和24B是图示了用于实现本文档中描述的视觉媒体解码或视觉媒体编码技术的硬件平台的示例的框图。
图25是示出示例性视频编解码系统的框图。
图26是示出根据所公开技术的一些实施例的编码器的框图。
图27是示出根据所公开技术的一些实施例的解码器的框图。
图28示出了基于所公开技术的一些实现的视频处理的示例方法的流程图。
具体实施方式
本文档中公开的技术和设备提供具有自适应分辨率转换的编解码工具。AVC和HEVC不具有在不必引入IDR或帧内随机访问点(IRAP)图片的情况下更改分辨率的能力;这种能力可以称为自适应分辨率更改(adaptive resolution change,ARC)。在某些使用案例或应用场景中,可以受益于ARC功能,其中包括:
-视频电话和会议中的速率适配:为了使编解码视频适应不断更改的网络状况,当网络状况变得更糟从而可用带宽变得更低时,编码器可以通过编码较小分辨率的图片来适应它。目前,只有在IRAP图片之后才能更改图片分辨率;这有几个问题。具有合理质量的IRAP图片将比帧间编解码图片大得多,并且解码起来也将相应地更加复杂:这会浪费时间和资源。如果解码器出于加载原因请求更改分辨率,则会出现问题。它还可能破坏低延迟缓冲区条件,从而迫使音频重新同步,并且流的端到端延迟将增加,至少是暂时增加。这会给用户带来糟糕的体验。
-在多方视频会议中活动发言人的更改:对于多方视频会议,通常以比其他会议参与者的视频更大的视频尺寸显示活动发言人。当活动发言人更改时,可能还需要调整每个参与者的图片分辨率。当有源扬声器中频繁发生此类更改时,具有ARC特征的需求变得尤为重要。
-流传输中的快速启动:对于流传输应用,通常在开始显示之前,该应用将缓冲多达一定长度的解码图片。以较小的分辨率启动比特流将允许应用在缓冲区中具有足够的图片以更快地开始显示。
流传输中的自适应流切换:基于HTTP的动态自适应流传输(Dynamic AdaptiveStreaming over HTTP,DASH)规范包括名为@mediaStreamStructureId的特征。这使得能够在具有不可解码的前导图片(例如,HEVC中的具有相关联的RASL图片的CRA图片)的开放式GOP随机访问点处在不同表示之间进行切换。当同一视频的两个不同表示具有不同的比特率但具有相同的空域分辨率,同时它们具有相同的@mediaStreamStructureId值时,可以在具有相关联的RASL图片的CRA图片上执行两种表示之间的切换,并且与可以以可接受的质量解码与切换处的CRA图片相关联的RASL图片,从而实现无缝切换。使用ARC,@mediaStreamStructureId特征也可用于在具有不同空域分辨率的DASH表示之间进行切换。
ARC也称为动态分辨率转换。
ARC也可以被视为参考图片重采样(RPR)的特殊情况,诸如H.263附件P。
1.1 H.263附件P中的参考图片重采样
该模式描述了在参考图片用于预测之前扭曲(warp)参考图片的算法。对于重采样具有与正在预测的图片不同的源格式的参考图片可能很有用。通过扭曲参考图片的形状、尺寸和位置,还可以将其用于全局运动估算或旋转运动估算。语法包括要使用的扭曲参数以及重采样算法。参考图片重采样模式的最简单操作级别是4重采样的隐式因子,因为仅FIR滤波器需要用于上采样和下采样处理。在这种情况下,当新图片的尺寸(在图片标头中指示)与先前图片的尺寸不同时,由于理解了它的用法,因此不需要额外的信令开销。
1.2 ARC对VVC的贡献
1.2.1 JVET-M0135
仅仅为了引发讨论,提出如下所述的ARC的初步设计(其中一些部分取自JCTVC-F158)作为占位符(place holder)。
2.2.1.1基本工具的描述
支持ARC的基本工具约束如下:
-适用于两个维度的空域分辨率可与标称分辨率相差因子0.5。空域分辨率可能会增加或减少,从而导致缩放比率为0.5和2.0。
-视频格式的纵横比和色度格式没有更改。
-裁剪区域与空域分辨率成比率地缩放。
-参考图片仅根据需要简单地重新缩放,并且照常应用帧间预测。
2.2.1.2缩放操作
提出使用简单的、零相位可分离的缩小(down-scaling)和放大(up-scaling)的滤波器。请注意,这些滤波器仅用于预测;解码器可以将更复杂的缩放用于输出目的。
使用了以下的1:2缩小滤波器,其具有零相位和5个抽头:
(-1,9,16,9,-1)/32
下采样点位于偶数采样位置并且位于同一位置。亮度和色度使用相同的滤波器。
对于2:1上采样,使用最新VVC WD中的半像素运动补偿插值滤波器系数在奇数网格位置处生成其他采样。
组合的上采样和下采样将不会更改相位或色度采样点的位置。
2.2.1.2参数集中分辨率描述
SPS中的图像分辨率的信令改变如下所示。在改变中,删除的部分用双括号标记(例如,[[a]]表示删除字符“a”)
表1:序列参数集RBSP语法和语义
[[pic_width_in_luma_samples指定以亮度样本为单位的每个解码图片的宽度。pic_width_in_luma_samples不应等于0,并且应为MinCbSizeY的整数倍。
pic_height_in_luma_samples指定以亮度样本为单位的每个解码图片的高度。pic_height_in_luma_samples不应等于0,并且应为MinCbSizeY的整数倍。]]
num_pic_size_in_luma_samples_minus1加1指定可能存在于编解码视频序列中的、以亮度样本为单位的图片尺寸(宽度和高度)的数量。
pic_width_in_luma_samples[i]指定可能存在于编解码视频序列中的、以亮度样本为单位的解码图片的第i个宽度。pic_width_in_luma_samples[i]不应等于0,并且应为MinCbSizeY的整数倍。
pic_height_in_luma_samples[i]指定可能存在于编解码视频序列中的、以亮度样本为单位的解码图片的第i个高度。pic_height_in_luma_samples[i]不应等于0,并且应为MinCbSizeY的整数倍。
表2:图片参数集RBSP语法和语义
pic_size_idx指定序列参数集中的第i个图片尺寸的索引。参考图片参数集的图片的宽度在亮度样本中为pic_width_in_luma_samples[pic_size_idx]。同样,参考图片参数集的图片的高度在亮度样本中为pic_height_in_luma_samples[pic_size_idx]。
1.2.2 JVET-M0259
1.2.2.1背景:子图片
在全向媒体格式(OMAF)中,术语子图片轨道(sub-picture track)的定义如下:与其他轨道具有空域关系并表示代表原始视频内容的空域子集的轨道(在内容产生侧进行视频编码之前,先将其划分为空域子集)。可以通过重写运动受限的片集的参数集和条带段标头来构造HEVC的子图片轨道,以使其成为独立的HEVC比特流。子图片表示(sub-pictureRepresentation)可以定义为承载子图片轨道的DASH表示。
JVET-M0261使用术语子图片作为VVC的空域分割单元,总结如下:
1.图片被划分为子图片、片组和片。
2.子图片是以tile_group_address等于0的片组开头的矩形片组集。
3.每个子图片可以参考其自己的PPS,并且因此可以具有其自己的片分割。
4.在解码处理中,将子图片视为图片。
5.用于解码子图片的参考图片是通过从解码图片缓冲区中的参考图片中提取与当前子图片并置的区域来生成的。提取的区域应是解码的子图片,即,帧间预测发生在图片中相同尺寸和相同位置的子图片之间。
6.片组是子图片的片光栅扫描中的片序列。
在此贡献中,可以像JVET-M0261中定义的那样理解术语子图片。但是,封装了JVET-M0261中定义的子图片序列的轨道与OMAF中定义的子图片轨道具有非常相似的属性,以下给出的示例在两种情况下均适用。
1.2.2.2用例
1.2.2.2.1流传输中的自适应分辨率更改
支持自适应流传输的要求
MPEG N17074的第5.13节(“对自适应流传输的支持”)包括对VVC的以下要求:在自适应流传输服务提供相同内容的多个表示、每个表示具有不同的属性(例如,空域分辨率或采样比特深度)的情况下,该标准应支持快速表示切换。该标准应允许使用有效的预测结构(例如,所谓的开放式图片组),而不会妥协不同属性(诸如不同空域分辨率)的表示之间的快速、且无缝的表示切换能力。
利用表示切换的开放式GOP预测结构的示例
用于自适应比特率流传输的内容生成包括不同表示的生成,其可以具有不同的空域分辨率。客户端从表示中请求片段,因此可以决定以哪种分辨率和比特率接收内容。在客户端,级联(concatenated)、解码和播放不同表示的片段。客户端应该能够通过一个解码器实例实现无缝播放。如图1所示,通常使用封闭式GOP结构(以IDR图片开始)。图1示出了以不同的分辨率编解码的相同内容的两种表示的自适应流。
开放式GOP预测结构(以CRA图片开始)比各自的封闭式GOP预测结构具有更好的压缩性能。例如,在IRAP图片间隔为24张图片的情况下,就亮度Bjontegaard增值(delta)比特率而言,平均比特率降低了5.6%。方便起见,[2]的模拟条件和结果在章节YY中总结。
据报道,开放式GOP预测结构还减少了主观可见质量的提升(pumping)。
在流传输中使用开放式GOP的挑战是,在切换表示后,无法使用正确的参考图片对RASL图片进行解码。在图2中呈现与该表示相关的挑战,图2示出了以不同的分辨率编解码的相同内容的两种表示的自适应流。在图2中,片段使用闭合GOP或开放GOP预测结构。
以CRA图片开始的片段包含至少一个参考图片在前一片段中的RASL图片。图3示出了这两种表示的开放式GOP预测结构。在图3中,两个比特流中的图片0位于前一片段中,并且用作预测RASL图片的参考。
图2中用虚线矩形标记的表示切换在下面的图4中示出,图4示出了在开放式GOP位置处的表示切换。可以观察到,用于RASL图片的参考图片(“图片0”)尚未被解码。因此,RASL图片是不可解码的,将在播放的视频中有一处空白。
然而,已经发现用重采样的参考图片解码RASL图片在主观上是可以接受的,参见第4节。图5说明了“图片0”的重采样并将其用作解码RASL图片的参考图片。图5示出了通过将来自其他比特流的重采样参考图片用作参考的RASL图片的解码处理。
2.2.2.2.2分区(region-wise)混合分辨率(RWMR)360°视频流传输中的视口更改
背景:基于HEVC的RWMR流传输
RWMR 360°流传输在视口上提供了提高的有效空域分辨率。覆盖视口的片源自6K(6144×3072)ERP图片或等效CMP分辨率的方案如图6所示,其中在OMAF的第D.6.3和D.6.4节中包括了“4K”解码能力(HEVC级别5.1),并且也在VR行业论坛指南中采用“4K”解码能力(HEVC级别5.1)。声称这样的分辨率适合使用四维高清(quad-HD)(2560×1440)显示面板的头戴式显示器。
编码:以两个空域分辨率分别以立方面尺寸1536×1536和768×768对内容进行编码。在两个比特流中,均使用6×4的片网格,并为每个片位置编码运动受限的片集(MCTS)。
封装:每个MCTS序列被封装为子图片轨道,并可以作为DASH中的子图片表示使用。
流MCTS的选择:从高分辨率比特流中选择12个MCTS,并从低分辨率比特流中提取互补的12个MCTS。因此,流内容的半球(180°×180°)源自高分辨率比特流。
将MCTS合并到要解码的比特流:将接收到的单个时间实例的MCTS合并到1920×4608的编解码图片,该图片符合HEVC级别5.1。合并图片的另一种选择是具有四个宽度为768的片列,两个宽度为384的片列和三个高度为768亮度样本的片行,从而生成3840×2304亮度样本的图片。
图6显示了基于MCTS的RWMR视口相关360°流媒体的示例。图6A示出编码比特流的示例,图6B示出选择用于流式传输的MCTS的示例,图6C示出从MCTS合并的图片的示例。
背景:视口相关的360°流传输的不同IRAP间隔的几种表示
当基于HEVC的视口相关的360°流传输中的观看方位发生更改时,子图片表示的新选择可以在下一个IRAP对齐的段边界处生效。子图片表示被合并到编码图片以进行解码,因此VCLNAL单元类型在所有选定的子图片表示中对齐。
为了在对观看方位更改做出反应的响应时间与在观看方位稳定时速率失真性能之间提供权衡,可以以不同的IRAP间隔对内容的多个版本进行编码。在图7中示出对于图6中呈现的用于编码的一组并置子图片表示,并在H.Chen,H.Yang,J.Chen,JVET-L03682018年10月,“子块Merge候选的单独列表”的第3节中进行了详细讨论。
图7示出了不同IRAP间隔和不同大小的共位子图片表示的示例。
图8示出了首先选择以较低分辨率(384×384)接收的子图片位置的示例。观看方向的改变导致以更高的分辨率(768×768)接收子图片位置的新选择。在图8的示例中,当观看方向改变导致分辨率改变时接收到的片段位于片段4的开始处。在该示例中,发生观看方向改变,从而从短IRAP间隔子图片表示接收到片段4。之后,观看方向是稳定的,因此,可以从第5段开始使用长IRAP间隔版本。
更新所有子图片位置的缺点
由于在典型的观看情况下观看方位逐渐移动,因此分辨率在RWMR视口相关的流传输中仅在子图片位置的子集中发生更改。图9示出了从图6稍微向上并朝向右侧的立方面的观看方位的更改。具有与先前不同分辨率的立方面分割以“C”表示。可以观察到,在24个立方面分割中,有6个的分辨率有所更改。然而,如上所述,响应于观看方位更改,需要针对所有24个立方面分割接收以IRAP图片开始的段。就流传输速率失真性能而言,以IRAP图片开头的段更新所有子图片位置的效率很低。
另外,能够将开放式GOP预测结构与RWMR 360°流传输的子图片表示一起使用的能力是期望的,以提高速率失真性能并避免由封闭式GOP预测结构引起的可见图片质量提升(pumping)。
提出的设计示例
提出以下设计目标:
1.VVC设计应允许将源自随机访问图片的子图片和源自非随机访问图片的另一子图片合并到符合VVC的相同编码图片中。
2.VVC设计应允许在子图片表示中使用开放式GOP预测结构,而不会妥协不同属性(诸如不同空域分辨率)的子图片表示之间的快速无缝表示切换能力,同时允许将子图片表示合并成单个VVC比特流。
可以用图10来说明设计目标的示例,其中给出了两个子图片位置的子图片表示。对于两个子图片位置,针对两种分辨率和两个随机访问间隔之间的每种组合,对内容的单独版本进行编码。某些段以开放式GOP预测结构开始。观看方位的更改导致子图片位置1的分辨率在段4的开始处切换。由于段4以与RASL图片相关联的CRA图片开始,因此那些在段3中的RASL图片的参考图片需要被重采样。应当指出,该重采样应用于子图片位置1,而其他一些子图片位置的解码子图片没有被重采样。在该示例中,观看方位的更改不会引起子图片位置2的分辨率的更改,因此子图片位置2的解码子图片不会被重采样。在段4的第一图片中,用于子图片位置1的段包括源自CRA图片的子图片,而用于子图片位置2的段包括源自非随机访问图片的子图片。提出在VVC中允许将这些子图片合并为编码图片。
2.2.2.2.3视频会议中的自适应分辨率更改
JCTVC-F158提出提出了主要用于视频会议的自适应分辨率更改。以下小节是从JCTVC-F158复制而来的,并介绍了使用声称自适应分辨率有效的用例。
无缝的网络自适应和错误恢复
诸如视频会议和通过分组网络的流传输之类的应用经常要求编码的流适应于更改的网络状况,特别是当比特率太高并且数据丢失时。这样的应用通常具有返回通道,允许编码器检测错误并执行调整。编码器有两个主要工具可供使用:降低比特率和更改时域或空域分辨率。通过使用分层预测结构进行编码,可以有效地实现时域分辨率的更改。但是,为了获得最佳质量,需要更改空域分辨率,以及设计良好的用于视频通信的编码器的一部分。
在AVC内更改空域分辨率要求发送IDR帧并重置流。这导致严重的问题。具有合理质量的IDR帧将比帧间图片大得多,并且解码起来也将相应地更加复杂:这会浪费时间和资源。如果解码器出于加载原因请求更改分辨率,则会出现问题。它还可能破坏低延迟缓冲区条件,从而迫使音频重新同步,并且将增加(至少是暂时增加)流的端到端延迟。这给用户带来不好的体验。
为了最小化这些问题,通常以与P帧相似的比特数、以低质量发送IDR,并且对于给定的分辨率,要花费大量时间才能恢复到完整质量。为了获得足够低的延迟,质量可能确实非常低,并且在图像“重新聚焦”之前通常会出现可见的模糊。实际上,就压缩而言,帧内帧所做的工作很少:它只是一种重新启动流的方法。
因此,需要允许更改分辨率的HEVC中的方法,尤其是在具有挑战性的网络条件下,并且对主观体验的影响最小。
快速启动
具有“快速启动”模式将是有用的,其中以降低的分辨率发送第一帧、并且在接下来的几帧中提高分辨率,以便减少延迟并更快地达到正常质量而不会在开始时出现不可接受的图像模糊。
会议“组成”
视频会议通常还具有这样的功能,即以全屏方式显示发言人,并以较小的分辨率窗口显示其他参与者。为了有效地支持此功能,通常以较低的分辨率发送较小的图片。然后,当参与者成为发言人并全屏显示时,此分辨率会提高。此时发送帧内帧会导致视频流出现不愉快的卡顿(hiccup)。如果发言人快速交替,这种效果可能会非常明显且令人不快。
2.2.2.3提出的设计目标
以下是针对VVC版本1提出的高级设计选择:
1.提出针对以下用例,在VVC版本1中包括参考图片重采样处理:
-在自适应流传输中使用有效的预测结构(例如,所谓的开放式图片组),而不妥协诸如不同空域分辨率的不同属性的表示之间的快速和无缝的表示切换能力。
-使低延迟会话视频内容适应网络条件和应用引起的分辨率更改,而不会出现明显的延迟或延迟更改。
2.提出了VVC设计允许将源自随机访问图片的子图片和源自非随机访问图片的另一子图片合并到符合VVC的相同编码图片中。声称可以有效处理混合质量和混合分辨率视口自适应的360°流传输中的观看方位更改。
3.提出在VVC版本1中包括子图片方面的重采样处理。声称启用有效的预测结构,以便在混合分辨率视口自适应360°流传输中更有效地处理视图方位的更改。
2.2.3 JVET-N0048
在JVET-M0259中详细讨论了自适应分辨率更改(ARC)的用例和设计目标。总结如下:
1.实时通信
JCTVC-F158最初包括以下用于自适应分辨率更改的用例:
a.无缝的网络适应和错误恢复(通过动态自适应分辨率更改);
b.快速启动(在会话启动或重置时逐渐提高分辨率);
c.会议“组成”(为发言人提供更高的分辨率);
2.自适应流传输
MPEG N17074的第5.13节(“对自适应流传输的支持”)包括对VVC的以下要求:在提供具有相同内容的多个表示(每个具有不同的属性(例如,空域分辨率或采样比特深度))的自适应流传输服务的情况下,该标准应支持快速表示切换。该标准应允许使用有效的预测结构(例如,所谓的开放式图片组),而不妥协不同属性(诸如,不同空域分辨率)之间的快速无缝表示切换能力。
JVET-M0259讨论了如何通过对前导图片的参考图片进行重采样来满足该要求。
3. 360°视口相关的流传输
JVET-M0259讨论了如何通过对前导图片的参考图片的某些独立编码的图片区域进行重采样来解决该用例。
该贡献提出了自适应分辨率编码方法,其声称为满足上述所有用例和设计目标。此提议与JVET-N0045(提出独立的子图片层)一起处理与360°视口相关的流传输和会议“组成”用例。
提出的规范文本
信令
表3:sps_max_rpr
sps_max_rpr指定CVS中任何片组(其中pic_width_in_luma_samples和pic_height_in_luma_samples分别不等于当前图片的pic_width_in_luma_samples和pic_height_in_luma_samples)的参考图片列表0或1中活动参考图片的最大数量。
表4和表5:图片宽度和高度
max_width_in_luma_samples指定对于此SPS处于活动状态的CVS的任何图片,任何活动PPS中的pic_width_in_luma_samples都必须小于或等于max_width_in_luma_samples,这是比特流一致性的要求。
max_height_in_luma_samples指定对于此SPS处于活动状态的CVS的任何图片,任何活动PPS中的pic_height_in_luma_samples都必须小于或等于max_height_in_luma_samples,这是比特流一致性的要求。
高级解码处理
当前图片CurrPic的解码处理操作如下:
1.第8.2节指定了NAL单元的解码。
2.第8.3节中的处理指定了使用片组标头中及以上的语法元素的以下解码处理:
–如第8.3.1节所指定的,导出与图片顺序计数有关的变量和功能。仅需要为图片的第一片组调用此方法。
–在针对非IDR图片的每个片组的解码处理开始时,调用第8.3.2节中指定的参考图片列表构造的解码处理,以导出参考图片列表0(RefPicList[0])和参考图片列表1(RefPicList[1])。
–调用第8.3.3节中用于参考图片标记的解码处理,其中参考图片可以标记为“未用于参考”或“用于长期参考”。仅需要为图片的第一片组调用此方法。
–对于RefPicList[0]和RefPicList[1]中每个活动参考图片(具有pic_width_in_luma_samples或pic_height_in_luma_samples分别不等于CurrPic的pic_width_in_luma_samples或pic_height_in_luma_samples),以下适用:
–调用第X.Y.Z节中的重采样处理[Ed.(MH):要添加的调用参数的详细信息],其输出具有与输入相同的参考图片标记和图片顺序计数。
–用作重采样处理输入的参考图片被标记为“未用于参考”。
可以进一步讨论对编解码树单元、缩放、变换、环路滤波等的解码处理的调用。
在对当前图片的所有片组进行解码之后,将当前解码图片标记为“用于短期参考”。
重采样处理
提出了SHVC重采样处理(HEVC第H.8.1.4.2节),并增加了以下内容:
如果sps_ref_wraparound_enabled_flag等于0,则得出n=0..7的样本值tempArray[n],如下所示:
fL[xPhase,7]*rlPicSampleL[Clip3(0,refW-1,xRef+4),yPosRL])>>shift1
否则,得出n=0..7的样本值tempArray[n],如下所示:
refOffset=(sps_ref_wraparound_offset_minus1+1)*MinCbSizeY
tempArray[n]=(fL[xPhase,0]*rlPicSampleL[ClipH(refOffset,refW,xRef-3),yPosRL]+fL[xPhase,1]*rlPicSampleL[ClipH(refOffset,refW,xRef-2),yPosRL]+fL[xPhase,2]*rlPicSampleL[ClipH(refOffset,refW,xRef-1),yPosRL]+fL[xPhase,3]*rlPicSampleL[ClipH(refOffset,refW,xRef),yPosRL]+fL[xPhase,4]*rlPicSampleL[ClipH(refOffset,refW,xRef+1),yPosRL]+fL[xPhase,5]*rlPicSampleL[ClipH(refOffset,refW,xRef+2),yPosRL]+fL[xPhase,6]*rlPicSampleL[ClipH(refOffset,refW,xRef+3),yPosRL]+fL[xPhase,7]*rlPicSampleL[ClipH(refOffset,refW,xRef+4),yPosRL])>>shift1
如果sps_ref_wraparound_enabled_flag等于0,则得出n=0..3的样本值tempArray[n],如下所示:
否则,得出n=0..3的样本值tempArray[n],如下所示:
refOffset=(sps_ref_wraparound_offset_minus1+1)*MinCbSizeY)/SubWidthC
tempArray[n]=(fC[xPhase,0]*rlPicSampleC[ClipH(refOffset,refWC,xRef-1),yPosRL]+fC[xPhase,1]*rlPicSampleC[ClipH(refOffset,refWC,xRef),yPosRL]+fC[xPhase,2]*rlPicSampleC[ClipH(refOffset,refWC,xRef+1),yPosRL]+fC[xPhase,3]*rlPicSampleC[ClipH(refOffset,refWC,xRef+2),yPosRL])>>shift1
2.2.4 JVET-N0052
作为视频压缩标准中的概念,自适应分辨率更改至少自1996年以来就已出现;特别是有关参考图片重采样(RPR,附件P)和降低分辨率更新(附件Q)的H.263+相关提案。它最近获得了一定的关注,首先是思科在JCT-VC期间提出的提议,然后是VP9(如今已被适度广泛部署)的上下文,最近是在VVC的上下文中。ARC允许减少给定图片所需编码的样本数量,并在需要时将最终的参考图片上采样到更高的分辨率。
我们认为在两种情况下特别关注ARC:
1)帧内编码图片(诸如IDR图片)通常比帧间图片大很多。无论出于何种原因,对要被帧内编码的图片进行下采样都可以为将来的预测提供更好的输入。从速率控制的角度来看,至少在低延迟应用中,它显然也是有利的。
2)当在接近断点的地方操作编解码器时,至少某些电缆和卫星运营商通常会这样做,即使对于非帧内编码的图片,诸如在没有硬过渡点的场景过渡中,ARC也会变得很方便。
3)也许看起来有点太过向前:固定分辨率的概念通常可以辩护吗?随着CRT的出现和渲染设备中缩放引擎的普及,渲染和编码分辨率之间的硬绑定已成为过去。另外,我们注意到,有一些可用研究表明,当视频序列中发生大量活动时,即使该活动在空域上处于其他位置,大多数人也无法专注于精细细节(可能与高分辨率相关联)。如果这是正确的并且被普遍接受,则与自适应QP相比,精细的粒度分辨率更改可能是更好的速率控制机制。这一点现在正在被讨论。消除固定分辨率比特流的概念具有无数的系统层和实现含义,我们对此非常了解(至少在它们存在的层次上,如果不是它们的详细本质的话)。
从技术上讲,ARC可以作为参考图像重采样来实现。实现参考图像重采样有两个主要方面:重采样滤波器和重采样信息在比特流中的信令。本文件侧重于后者,并在有实施经验的范围内触及前者。我们鼓励对合适的过滤器设计进行更多的研究,腾讯将认真考虑并在适当的时候支持任何在这方面大幅改进稻草人(strawman)设计的建议。
腾讯ARC实施概述
图11和12分别说明了腾讯的ARC编码器和解码器实现。所公开技术的实现能够在与图片类型无关的每张图片粒度上改变图片的宽度和高度。在编码器处,将输入图像数据下采样为当前图片编码的选定图片尺寸。在将第一输入图片编码为帧内图片之后,将解码图片存储在解码后图片缓冲区(DPB)中。当随后的图片以不同的采样率下采样并编码为帧间图片时,DPB中的参考图片将根据参考图片尺寸与当前图片尺寸之间的空域比率进行按比率放大/缩小。在解码器处,解码图片无需重采样就存储在DPB中。然而,当用于运动补偿时,DPB中的参考图片相对于当前解码图片与参考之间的空域比率被按比率放大/缩小。解码图片被突显以进行显示时,将解码图片上采样为原始图片尺寸或所需的输出图片尺寸。在运动估计/补偿处理中,相对于图片尺寸比率以及图片顺序计数差来缩放运动矢量。
ARC参数的信令
术语ARC参数在本文中用作使ARC工作所需的任何参数的组合。在最简单的情况下,可能是比例(zoom)因子,或者是具有已定义比例因子的表的索引。它可以是目标分辨率(例如,以样本或最大CU尺寸粒度),也可以是到提供目标分辨率的表的索引,例如JVET-M0135中提出的那样。还包括使用中的上/下采样滤波器的滤波器选择器,甚至滤波器参数(直至滤波器系数)。
从一开始,本文提出的实现至少在概念上允许用于图片的不同部分的不同ARC参数。根据当前的VVC草案,建议适当的语法结构是矩形片组(TG)。那些使用扫描顺序TG的将被限制为仅在一个完整的图片中使用ARC,或者在扫描顺序TG被包括在矩形TG中的范围内。它可以很容易地由比特流约束指定。
由于不同的TG可能具有不同的ARC参数,ARC参数的适当位置应该是TG头部或具有TG范围的参数集中,并且由TG头部参考--当前VVC草案中的自适应参数集,或者更详细地参考(索引)到更高参数集中的表中。在这三种选择中,现在建议使用TG头部来编解码对包括ARC参数的表条目的参考,并且该表位于SPS中,最大表值在DPS中编解码(即将到来的)。缩放因子可以直接编解码到TG报头中,而不使用任何参数集值。如果ARC参数的每片组信令是设计标准,则使用PPS作为参考(如JVET-M0135中所建议的)是与指示相反的(counter-indicated)。
对于表条目本身,以下选项适用:
·编码下采样因子,是同时使用两个维度,还是单独使用X和Y维度?这主要是硬件(HW)实现讨论,有些人可能更喜欢这样的结果,即X维度的比例因子相当灵活,但Y维度的缩放因子固定为1,或者选择很少。建议语法是表达此类约束的错误地方,如果需要,倾向于将约束表示为一致性要求。换句话说,保持语法灵活。
·编码目标分辨率。如在下面提出的。相对于当前分辨率,这些分辨率可能存在或多或少复杂的约束,也许以比特流一致性要求来表示。
·最好对每个片组进行下采样,以便进行图片合成/提取。但是,从信令的角度来看并不是关键。如果该组做出了仅在图片粒度上才允许ARC的不明智决定,那么可以包括所有TG使用相同的ARC参数的比特流一致性要求。
·与ARC相关的控制信息。在我们下面的设计中,其中包括参考图片的尺寸。
·需要滤波器设计中的灵活性吗?有什么比一堆代码点更重要?如果是,将它们放入APS?在一些实现中,如果下采样滤波器发生更改并且ALF保持不变,则提出比特流必须吞并额外的开销。
目前,为了使提出的技术保持一致和简单(在可能的范围内),提出以下方案:
-固定式滤波器设计
-SPS的表中的目标分辨率,比特流约束待定(TBD)。
-DPS中的最小/最大目标分辨率,以促进性能(cap)交换/协调。
产生的语法如下所示:
表6:解码器参数集RBSP语法
max_pic_width_in_luma_samples指定以亮度样本为单位的比特流中的解码图片的最大宽度。max_pic_width_in_luma_samples不应等于0,并且应为MinCbSizeY的整数倍。dec_pic_width_in_luma_samples[i]的值不能大于max_pic_width_in_luma_samples的值。
max_pic_height_in_luma_samples指定以亮度样本为单位的解码图片的最大高度。max_pic_height_in_luma_samples不应等于0,并且应为MinCbSizeY的整数倍。dec_pic_height_in_luma_samples[i]的值不能大于max_pic_height_in_luma_samples的值。
表7:序列参数集RBSP语法
adaptive_pic_resolution_change_flag等于1指定输出图片尺寸(output_pic_width_in_luma_samples,output_pic_height_in_luma_samples),解码图片尺寸的数量的指示(num_dec_pic_size_in_luma_samples_minus1)和至少一个解码图片尺寸(dec_pic_width_in_luma_samples[i],dec_pic_height_in_luma_samples[i])存在于SPS中。参考图片尺寸(reference_pic_width_in_luma_samples,reference_pic_height_in_luma_samples)取决于reference_pic_size_present_flag的值有条件地存在。
output_pic_width_in_luma_samples指定以亮度样本为单位的输出图片的宽度。output_pic_width_in_luma_samples不应等于0。
output_pic_height_in_luma_samples指定以亮度样本为单位的输出图片的高度。output_pic_height_in_luma_samples不应等于0。
reference_pic_size_present_flag等于1指定存在reference_pic_width_in_luma_samples和reference_pic_height_in_luma_samples。
reference_pic_width_in_luma_samples指定以亮度样本为单位的参考图片的宽度。output_pic_width_in_luma_samples不应等于0。如果不存在,则将reference_pic_width_in_luma_samples的值推断为等于dec_pic_width_in_luma_samples[i]。
reference_pic_height_in_luma_samples指定以亮度样本为单位的参考图片的高度。output_pic_height_in_luma_samples不应等于0。如果不存在,则将reference_pic_height_in_luma_samples的值推断为等于dec_pic_height_in_luma_samples[i]。
注1–输出图片的尺寸应等于output_pic_width_in_luma_samples和output_pic_height_in_luma_samples的值。当参考图片用于运动补偿时,参考图片的尺寸应等于reference_pic_width_in_luma_samples和_pic_height_in_luma_samples的值。
num_dec_pic_size_in_luma_samples_minus1加1指定以亮度样本为单位的、编码视频序列中解码图片尺寸(dec_pic_width_in_luma_samples[i],dec_pic_height_in_luma_samples[i])的数量。
dec_pic_width_in_luma_samples[i]指定以亮度样本为单位的、编码视频序列中解码图片尺寸的第i个宽度。dec_pic_width_in_luma_samples[i]不应等于0,并且应为MinCbSizeY的整数倍。
dec_pic_height_in_luma_samples[i]指定以亮度样本为单位的、编码视频序列中解码图片尺寸的第i个高度。dec_pic_height_in_luma_samples[i]不应等于0,并且应为MinCbSizeY的整数倍。
注2–第i个解码图片的尺寸(dec_pic_width_in_luma_samples[i],dec_pic_height_in_luma_samples[i])可以等于编码视频序列中解码图片的解码图片尺寸。
表8:片组标头语法
dec_pic_size_idx指定解码图片的宽度应等于pic_width_in_luma_samples[dec_pic_size_idx],并且解码图片的高度应等于pic_height_in_luma_samples[dec_pic_size_idx]。
滤波器
所提出的设计在概念上包括四个不同的滤波器组:从原始图片到输入图片的下采样滤波器、用于重缩放参考图片以进行运动估计/补偿的上/下采样滤波器,以及从解码图片到输出图片的上采样滤波器。第一个和最后一个可以保留为非规范性事项。在规范范围内,需要在适当的参数集中用信令明确通知上/下采样滤波器,或预先定义上/下采样滤波器。
我们的实现方式使用SHVC(SHM版本12.4)的下采样滤波器,该滤波器是12抽头和2D可分离的滤波器,用于下采样以调整要用于运动补偿的参考图片的尺寸。在当前实现中,仅支持二元(dyadic)采样。因此,默认情况下,下采样滤波器的相位设置为等于零。对于上采样,使用具有16个相位的8抽头插值滤波器,以移动相位并将亮度和色度像素位置与原始位置对齐。
表9和表10提供了用于亮度上采样处理的、p=0..15和x=0..7的8抽头滤波器系数fL[p,x],以及用于色度上采样处理的、p=0..15和x=0..3的4抽头滤波器系数fC[p,x]。
表11提供了用于下采样处理的12抽头滤波器系数。亮度和色度都使用相同的滤波器系数进行下采样。
表9:具有16个相位的亮度上采样滤波器
表10:具有16个相位的色度上采样滤波器
/>
表11:亮度和色度的下采样滤波器系数
当使用适应于内容和/或缩放因子的滤波器时,可以预期(可能是显著的)主观和客观增益。
片组边界讨论
由于的确有许多与片组有关的工作,因此对于基于片组(TG)的ARC,我们的实现尚未完全完成。我们倾向于在压缩域中将多个子图片空域合成并提取到合成图片的讨论至少产生了工作草案之后,再次考虑该实现。然而,这并不妨碍在某种程度上推断结果,并相应地调整我们的信令设计。
到目前为止,由于已经陈述的原因,片组标头是上述提议的dec_pic_size_idx之类的正确位置。使用有条件地出现在片组标头中的单个ue(v)码点dec_pic_size_idx来指示所采用的ARC参数。为了与实现(即仅针对每个图片进行ARC)相匹配,需要在规范空间中只对单个片组进行编码,或者将给定编码图片的所有TG标头都具有相同的dec_pic_size_idx(如果存在)作为比特流合规性的条件。
可以将参数dec_pic_size_idx移到启动子图片的任何标头中。可能继续在片组标头。
除了这些语法上的考虑,还需要一些额外的工作来启用基于片组或基于子图片的ARC。也许最困难的部分是如何解决图片中其中子图片已被重采样为较小的尺寸的不需要的样本的问题。
图13示出了针对ARC的基于片组的重采样的示例。考虑图右图,其由四个子图片组成(在比特流语法中可能表示为四个矩形片组)。在左侧,将右下TG子采样到一半尺寸。需要讨论如何处理标记为“一半”(Half)的相关区域之外的样本。
很多以前的视频编码标准的共同点在于,不支持在压缩域中对图片的部分进行空域提取。这意味着图片的每个样本由一个或多个语法元素表示,并且每个语法元素影响至少一个样本。为了保持,可能需要以某种方式填充由下采样后的TG标记为“一半”覆盖的样本周围的区域。H.263+附件P通过填充解决了该问题;实际上,可以在比特流中用信令通知(在一定的严格限制内)被填充的样本的样本值。
可能构成对先前假设的重大偏离的替代方案可以放宽当前的理解,该替代方案即:重构图片的每个样本必须由编码图片中的某些内容(即使该内容只是跳过的块)表示,但如果要支持基于图片矩形部分的子比特流提取(和合成),则在任何情况下都可能需要这样的替代方案。
实现注意事项、系统含义和档次/级别
提出将基本ARC包括在“基本/主要”档次中。如果某些应用场景不需要,则可以使用子档次将其删除。某些限制是可以接受的。在这方面,应当注意某些H.263+档次和“推荐模式”(先前的档次)包括对只能用作“隐式因子为4”的附件P的限制,即在两个维度上均进行二元下采样。这足以支持视频会议中的快速启动(快速获得I帧)。
该设计使得所有滤波都可以“即时”完成,并且存储器带宽没有增加,或者只有微不足道的增加。就目前而言,似乎没有必要将ARC推到外来(exotic)档次中。
复杂表格等可以没有有效地用于性能交换,正如在马拉喀什(Marrakech)与JVET-M0135一起提出的那样。假设要约-应答和类似的有限深度信号交换(handshake),那么选择的数量太大而无法进行有意义的跨供应商互操作。就目前而言,在现实中,为了在性能交换场景中以有意义的方式支持ARC,我们必须回退到少数几个互操作点。例如:无ARC、隐式因子为4的ARC、完整ARC。作为替代方案,可以指定对所有ARC的必需支持,并将比特流复杂性的限制留给更高级别的SDO。无论如何,这是我们应该进行的战略讨论(除了在子档次和标志上下文中已经存在的讨论之外)。
关于级别:基本设计原理必须是,作为比特流一致性的条件,无论在比特流中用信令通知了多少上采样,上采样图片的样本计数都必须适合于比特流的级别,并且所有样本都必须适合上采样的编码图片。应当注意到,在H263+中并非如此。那里可能没有某些样本。
2.2.5 JVET-N0118
提出以下方面:
1.在SPS中用信令通知图片分辨率列表,并在PPS中用信令通知该列表的索引以指定单个图片的尺寸。
2.对于将要输出的任何图片,裁剪(根据需要)在重采样之前的解码图片并输出,即,重采样的图片不用于输出,仅用于帧间预测参考。
3.支持1.5倍和2倍的重采样率。不支持任意重采样率。进一步研究是否需要一个或两个以上其他重采样率。
4.在图片级重采样和块级重采样之间,支持者更倾向于块级重采样。
a.但是,如果选择图片级重采样,则提出以下方面:
i.当对参考图片进行重采样时,参考图片的重采样版本和原始、重采样版本都存储在DPB中,因此两者都会影响DPB的充满度。
ii.当相应的未重采样的参考图片被标记为“未用于参考”时,重采样的参考图片被标记为“未用于参考”。
iii.RPL信令语法保持不变,而RPL的构造处理进行了如下修改:当参考图片需要包括在RPL条目中,并且与当前图片具有相同分辨率的该参考图片的版本不在DPB中时,将调用图片重采样处理,并将该参考图片的重采样版本包括在RPL条目中。
iv.DPB中可能存在的重采样参考图片的数量应限制为例如小于或等于2。
b.否则(选择块级重采样),建议以下内容:
i.为了限制最坏情况的解码器复杂度,提出不允许从与当前图片的分辨率不同的参考图片中对块进行双向预测。
ii.另一选项是,当需要进行重采样和四分之一像素插值时,两个滤波器将被组合在一起并立即应用所述操作。
5.无论选择哪种基于图片的重采样方法和基于块的重采样方法,都提出根据需要应用时域运动矢量缩放。
2.2.5.1实现方式
ARC软件是在VTM-4.0.1之上实现的,但具有以下更改:
–在SPS中用信令通知支持的分辨率列表。
–空域分辨率信令从SPS移到了PPS。
–实现了基于图片的重采样方案以对参考图片进行重采样。在图片被解码之后,可以将重构的图片重采样到不同的空域分辨率。原始的重构图片和重采样的重构图片都存储在DPB中,可供以后的图片按解码顺序进行参考。
–实现的重采样滤波器基于在JCTVC-H0234中测试的滤波器,如下所示:
-上采样滤波器:具有抽头(-4、54、16,-2)/64的4抽头+/-四分之一相位DCTIF。
-下采样滤波器:具有抽头(1、0,-3、0、10、16、10、0,-3、0、1)/32的h11滤波器。
–构造当前图片的参考图片列表(即L0和L1)时,仅使用分辨率与当前图片相同的参考图片。请注意,参考图片可能在其原始尺寸或重采样的尺寸上时都是可用的。
–可以启用TMVP和ATVMP;但是,当当前图片和参考图片的原始编码分辨率不同时,将对该参考图片禁用TMVP和ATMVP。
–为了方便和简化起点软件实现,在输出图片时,解码器输出最高可用分辨率。
关于图片尺寸和图片输出的信令
1.关于比特流中编码图片的空域分辨率的列表
当前,CVS中的所有编码图片都具有相同的分辨率。因此,直接在SPS中仅用信令通知一种分辨率(即,图片的宽度和高度)。在ARC支持的情况下,需要用信令通知图片分辨率列表,而不是一种分辨率。提出在SPS中用信令通知该列表,并在PPS中用信令通知该列表的索引以指定单个图片的尺寸。
2.关于图片输出
提出对于将要输出的任何图片,裁剪(根据需要)重采样之前的解码图片并输出,即重采样的图片不用于输出,仅用于帧间预测参考。ARC重采样滤波器应设计为优化将重采样的图片用于帧间预测,并且此类滤波器对于图片输出/显示目的可能不是最佳的,而视频终端设备通常具有已实现的优化的输出比例/缩放功能。
2.2.5.3关于重采样
解码图片的重采样可以基于图片或基于块。对于VVC中的最终ARC设计,与基于图片的重采样相比,更倾向于基于块的重采样。建议对这两种方法进行讨论,并且JVET决定应为VVC中的ARC支持指定这两种方法中的哪一种。
基于图片的重采样
在针对ARC的基于图片的重采样中,仅针对特定分辨率对图片进行一次重采样,然后将其存储在DPB中,而同一图片的未重采样版本也保留在DPB中。
为ARC采用基于图片的重采样有两个问题:1)需要额外的DPB缓冲区来存储重采样的参考图片,以及2)由于增加了从DPB读取参考图片数据并将参考图片数据写入DPB的操作,因此需要额外的存储带宽。
在DPB中仅保留参考图片的一个版本对于基于图片的重采样不是一个好主意。如果仅保留未重采样的版本,则参考图片可能需要多次重采样,因为多个图片可能参考同一参考图片。另一方面,如果参考图片被重采样并且我们仅保留重采样的版本,那么需要在需要输出参考图片时应用逆重采样,因为如上所述,最好输出未重采样的图片。这是一个问题,因为重采样处理不是无损操作。拍摄一张图片A,然后对其进行下采样,然后对其进行上采样,以得到与A分辨率相同的A',A和A'不会相同;A'包括的信息比A少,因为在下采样和上采样处理期间丢失了一些高频信息。
为了处理额外的DPB缓冲区和内存带宽的问题,提出如果VVC中的ARC设计使用基于图片的重采样,则以下适用:
1.当对参考图片进行重采样时,参考图片的重采样版本和原始、重采样版本都存储在DPB中,因此两者都会影响DPB的充满度。
2.当相应的未重采样的参考图片被标记为“未用于参考”时,重采样的参考图片被标记为“未用于参考”。
3.每个片组的参考图片列表(RPL)包括与当前图片具有相同分辨率的参考图片。尽管无需更改RPL信令语法,但可以修改RPL构造处理以确保上一语句中的内容,如下所示:当需要将参考图片包括在RPL条目中时,在与当前图片具有相同分辨率的参考图片的版本尚不可用时,将调用图片重采样处理,并包括该参考图片的重采样版本。
4.DPB中可能存在的重采样参考图片的数量应限制为例如小于或等于2。
此外,为了在时域MV来自与与当前帧具有不同分辨率的参考帧的情况下启用时域MV使用(例如,Merge模式和ATMVP),提出根据需要将时域MV缩放到当前分辨率。
基于块的ARC重采样
在针对ARC的基于块的重采样中,只要需要,就对参考块进行重采样,并且DPB中不会存储重采样的图片。
这里的主要问题是额外的解码器复杂性。这是因为参考图片中的块可以被另一图片中的多个块和多个图片中的块多次参考。
当参考图片中的块被当前图片中的块参考、并且参考图片和当前图片的分辨率不同时,通过调用插值滤波器对参考块进行重采样,使得参考块具有整数像素分辨率。当运动矢量以四分之一像素时,再次调用插值处理以获得四分之一像素分辨率的重采样参考块。因此,对于来自涉及不同分辨率的参考块的当前块的每个运动补偿操作,需要多达两个而不是一个的插值滤波操作。在没有ARC支持的情况下,最多仅需要一个插值滤波器操作(即,用于生成四分之一像素分辨率的参考块)。
为了限制最坏情况的复杂性,提出如果VVC中的ARC设计使用基于块的重采样,则以下适用:
–不允许从与当前图片的分辨率不同的参考图片中对块进行双向预测。
–更精确地,约束如下:对于参考参考图片picB中的参考块blkB的当前图片picA中的当前块blkA,当picA和picB具有不同的分辨率时,块blkA应为单向预测块。
在此约束下,解码块所需的最坏情况的插值操作数被限制为2。如果块参考来自不同分辨率图片的块,则如上所述,所需的插值操作数为2。这与块参考来自相同分辨率图片中的参考块并被编码为双向预测块的情况相同,因为插值操作数也为2(即,一个用于获得每个参考块的四分之一像素分辨率)。
为了简化实现,提出了另一种变型,即,如果VVC中的ARC设计使用基于块的重采样,则以下适用:
–如果参考帧和当前帧的分辨率不同,则首先计算预测器每个像素的对应位置,然后仅应用一次插值。即,两个插值操作(即,一个用于重采样、一个用于四分之一像素插值)被组合为仅一个插值操作。可以重复使用当前VVC中的子像素插值滤波器,但是在这种情况下,应扩大插值的粒度,但将插值操作次数从2减少到1。
–为了在时域MV来自与当前帧具有不同分辨率的参考帧的情况下启用时域MV使用(例如,Merge模式和ATMVP),提出根据需要将时域MV缩放到当前分辨率。
重采样率
在JVET-M0135[1]中,为了开始关于ARC的讨论,提出对于ARC的起点,仅考虑2x的重采样率(意味着,2x2用于上采样,1/2x1/2用于下采样)。通过在马拉喀什会议(Marrakechmeeting)之后对该主题的进一步讨论,发现仅支持2x的重采样率是非常有限的,因为在某些情况下,重采样和未重采样分辨率之间的较小差异会更有利。
尽管可能希望支持任意重采样率,但是支持似乎很困难。这是因为为了支持任意的重采样率,必须定义和实现的重采样滤波器的数量似乎太多了,并给解码器的实现带来了沉重的负担。
提出应当支持不止一个但少量的重采样率,至少应支持1.5x和2x的重采样率,并且不支持任意重采样率。
2.2.5.4最大DPB缓冲区尺寸和缓冲区充满度
利用ARC,DPB可以在同一CVS内包括具有不同空域分辨率的解码图片。对于DPB管理和相关方面,以解码图片为单位计算DPB尺寸和充满度不再有效。
以下是如果支持ARC的一些需要解决的特定方面的讨论,以及最终VVC规范中的可能解决方案:
1.不是使用PicSizeInSamplesY的值(即PicSizeInSamplesY=pic_width_in_luma_samples*pic_height_in_luma_samples)来导出MaxDpbSize(即,DPB中可能存在的参考图片的最大数量),而是基于MinPicSizeInSamplesY的值来导出MaxDpbSize。MinPicSizeInSampleY定义如下:
MinPicSizeInSampleY=(比特流中最小图片分辨率的宽度)*(比特流中最小分辨率的高度)
MaxDpbSize的推导修改如下(基于HEVC方程):
if(MinPicSizeInSamplesY<=(MaxLumaPs>>2))
MaxDpbSize=Min(4*maxDpbPicBuf,16)
else if(MinPicSizeInSamplesY<=(MaxLumaPs>>1))
MaxDpbSize=Min(2*maxDpbPicBuf,16)
else if(MinPicSizeInSamplesY<=((3*MaxLumaPs)>>2))
MaxDpbSize=Min((4*maxDpbPicBuf)/3,16)
else
MaxDpbSize=maxDpbPicBuf
2.每个解码图片都与称为PictureSizeUnit的值相关联。PictureSizeUnit是整数值,其指定解码图片尺寸相对于MinPicSizeInSampleY有多大。PictureSizeUnit的定义取决于VVC中ARC支持哪种重采样率。
例如,如果ARC仅支持2的重采样率,则PictureSizeUnit定义如下:
–比特流中分辨率最低的解码图片与为1的PictureSizeUnit相关联。
–分辨率为比特流中最小分辨率2×2的解码图片与为4的PictureSizeUnit(即1*4)相关联。
作为另一示例,如果ARC支持1.5和2的重采样率,则PictureSizeUnit的定义如下:
–比特流中分辨率最低的解码图片与为4的PictureSizeUnit相关联。
–分辨率为比特流中最小分辨率的1.5x1.5的解码图片与为9的PictureSizeUnit(即2.25*4)相关联。
–分辨率为比特流中最小分辨率的2×2的解码图片与为16的PictureSizeUnit(即4*4)相关联。
对于ARC支持的其他重采样率,应使用与上述示例相同的原理来确定每个图片尺寸的PictureSizeUnit的值。
3.令变量MinPictureSizeUnit为PictureSizeUnit的最小可能值。也就是说,如果ARC仅支持2的重采样率,则MinPictureSizeUnit为1;如果ARC支持1.5和2的重采样率,则MinPictureSizeUnit为4;同样,使用相同的原理确定MinPictureSizeUnit的值。
4.sps_max_dec_pic_buffering_minus1[i]的值范围被指定为0到(MinPictureSizeUnit*(MaxDpbSize–1))的范围。变量MinPictureSizeUnit是PictureSizeUnit的最小可能值。
5.基于PictureSizeUnit指定DPB充满度操作如下所示:
–在解码单元0处初始化HRD,同时将CPB和DPB都设置为空(将DPB充满度设置为等于0)。
–当冲去(flush)DPB(即,从DPB中删除所有图片)时,将DPB充满度设置为等于0。
–当从DPB中删除图片时,DPB充满度通过与删除的图片相关联的PictureSizeUnit的值递减。
–当将图片插入DPB时,DPB充满度通过与所插入图片相关联的PictureSizeUnit的值递增。
2.2.5.5重采样滤波器
在软件实现中,简单地从JCTVC-H0234[3]中描述的先前可用的滤波器中获取已实现的重采样滤波器。如果其他重采样滤波器具有更好的性能和/或更低的复杂度,则应进行测试和使用。我们提出对各种重采样滤波器进行测试,以在复杂性和性能之间进行权衡。此类测试可以在CE中进行。
2.2.5.6对现有工具的其他必要修改
为了支持ARC,可能需要对某些现有编码工具进行一些修改和/或其他操作。例如,在ARC软件实现的基于图片的重采样中,为简单起见,当当前图片和参考图片的原始编码分辨率不同时,禁用了TMVP和ATMVP。
2.2.6 JVET-N0279
根据“对未来视频编码标准的要求”,“在提供相同内容的多个表示、每个表示具有不同的属性(例如,空域分辨率或采样比特深度)的自适应流传输服务的情况下,该标准应支持快速表示切换”。在实时视频通信中,在不需要插入I图片的情况下在编码视频序列内允许分辨率更改,这样不仅可以使视频数据无缝地适应动态通道条件或用户偏好,而且还可以消除由I图片引起的跳动效果。自适应分辨率更改的假设示例在图14中示出,其中从不同尺寸的参考图片来预测当前图片。
该贡献提出了高级语法,以用信令通知自适应分辨率更改以及对VTM中当前运动补偿的预测处理的修改。这些修改仅限于运动矢量缩放和子像素位置推导,而不用更改现有运动补偿插值器。这将允许重新使用现有的运动补偿插值器,而不需要新的处理块来支持自适应分辨率更改(其会带来额外的成本)。
2.2.6.1自适应分辨率变化信令
表12:SPS
[[pic_width_in_luma_samples指定以亮度样本为单位的每个解码图片的宽度。pic_width_in_luma_samples不应等于0,并且应为MinCbSizeY的整数倍。
pic_height_in_luma_samples指定以亮度样本为单位的每个解码图片的高度。pic_height_in_luma_samples不应等于0,并且应为MinCbSizeY的整数倍。]]
max_pic_width_in_luma_samples指定以亮度样本为单位的参考SPS的解码图片的最大宽度。max_pic_width_in_luma_samples不应等于0,并且应为MinCbSizeY的整数倍。
max_pic_height_in_luma_samples指定以亮度样本为单位的参考SPS的解码图片的最大高度。max_pic_height_in_luma_samples不应等于0,并且应为MinCbSizeY的整数倍。
表13:PPS
pic_size_different_from_max_flag等于1指定PPS用信令通知与所参考的SPS中的max_pic_width_in_luma_samples和max_pic_height_in_luma_sample不同的图片宽度和图片高度。pic_size_different_from_max_flag等于0指定pic_width_in_luma_samples和pic_height_in_luma_sample与所参考的SPS中的max_pic_width_in_luma_samples和max_pic_height_in_luma_sample相同。
pic_width_in_luma_samples指定以亮度样本为单位的每个解码图片的宽度。pic_width_in_luma_samples不应等于0,并且应为MinCbSizeY的整数倍。如果pic_width_in_luma_samples不存在,则推断它等于max_pic_width_in_luma_samples。
pic_height_in_luma_samples指定以亮度样本为单位的每个解码图片的高度。pic_height_in_luma_samples不应等于0,并且应为MinCbSizeY的整数倍。当pic_height_in_luma_samples不存在时,则推断它等于max_pic_height_in_luma_samples。
比特流一致性的要求是,水平和垂直缩放比率应在1/8到2的范围内(包括每个活动(active)参考图片)。缩放比率定义如下:
–horizontal_scaling_ratio=((reference_pic_width_in_luma_samples<<14)+(pic_width_in_luma_samples/2))/pic_width_in_luma_samples
–vertical_scaling_ratio=((reference_pic_height_in_luma_samples<<14)+(pic_height_in_luma_samples/2))/pic_height_in_luma_samples
表14
/>
参考图片缩放处理
当CVS内的分辨率发生更改时,图片可能与其参考图片中的一个或多个具有不同的尺寸。该提议将所有运动矢量归一化为当前图片网格,而不是其对应的参考图片网格。据称这对于保持设计一致并使分辨率更改对运动矢量预测处理透明是有益的。否则,由于尺度不同,指向不同尺寸的参考图片的相邻运动矢量不能直接用于空域运动矢量预测。
当发生分辨率更改时,在进行运动补偿预测时,必须对运动矢量和参考块进行缩放。缩放范围被限制为[1/8,2],即,按比率放大被限制为1:8,而按比率缩小被限制为2:1。注意,按比率放大是指参考图片小于当前图片的情况,而按比率缩小是指参考图片大于当前图片的情况。在以下各节中,将详细介绍缩放处理。
亮度块
缩放因子及其定点表示被定义为
缩放处理包括两个部分:
1.将当前块的左上角像素映射到参考图片;
2.使用水平和垂直步长来确定当前块其他像素的参考位置。
如果当前块的左上角像素的坐标为(x,y),则运动矢量(mvX,mvY)指向的参考图片中的子像素位置(x^',y^')以1/16像素为单位指定如下:
参考图片中的水平位置为
x′=((x<<4)+mvX)·hori_scale_fp,----[等式3]
且x′进一步缩小以仅保留10个小数位
x′=Sign(x′)·((Abs(x′)+(1<<7))>>8).----[等式4]
同样,参考图片的垂直位置为:
y′=((y<<4)+mvY)·vert_scale_fp,----[等式5]
且y′进一步缩小为
y′=Sign(y′)·((Abs(y′)+(1<<7))>>8)----[等式6]
此时,当前块的左上角像素的参考位置为(x^',y^')。其他参考子像素/像素位置是相对于(x^',y^')具有水平和垂直步长计算的。这些步长是根据上述水平和垂直缩放因子以1/1024像素精度得出的,如下所示:
x_step=(hori_scale_fp+8)>>4----[等式7]
y_step=(vert_scale_fp+8)>>4.----[等式8]
作为示例,如果当前块中的像素距左上角像素i列j行,则其对应的参考像素的水平和垂直坐标可通过以下方式得出:
x′i=x′+i*x_step,----[等式9]
y′j=y′+j*y_step.----[等式10]
在子像素插值中,必须将x′i和y′j分解为完整像素部分和分数像素部分:
·用于寻址参考块的完整像素部分等于
(x′i+32)>>10,----[等式11]
(y′j+32)>>10.----[等式12]
·用于选择插值滤波器的分数像素部分等于
Δx=((x′i+32)>>6)&15,----[等式13]
Δy=((y′j+32)>>6)&15.----[等式14]
一旦确定了参考图片中的完整像素和分数像素位置,就可以使用现有的运动补偿插值器而无需任何其他更改。完整像素位置将用于从参考图片中获取参考块补丁,而分数像素位置将用于选择适当的插值滤波器。
色度块
当色度格式为4:2:0时,色度运动矢量的精度为1/32像素。除了与色度格式有关的调整外,色度运动矢量和色度参考块的缩放处理与亮度块几乎相同。
当当前色度块的左上角像素的坐标为(xc,yc)时,参考色度图片中的初始水平和垂直位置为
xc′=((xc<<5)+mvX)·hori_scale_fp,----[等式15]
yc′=((yc<<5)+mvY)·vert_scale_fp,----[等式16]
其中mvX和mvY是原始的亮度运动矢量,但现在应以1/32像素精度进行检查。
xc′和yc′进一步缩小以保持1/1024像素精度
xc′=Sign(xc′)·((Abs(xc′)+(1<<8))>>9),----[等式17]
yc′=Sign(yc′)·((Abs(yc′)+(1<<8))>>9).----[等式18]
与相关的亮度方程相比,上述右移增加了一位。
所使用的步长对于亮度是相同的。对于相对于左上角像素、位于(i,j)的色度像素,其参考像素的水平和垂直坐标是通过以下得到的xci=xc′+i*x_step,----[等式19]
ycj=yc′+j*y_step.----[等式20]
在子像素插值中,xci和ycj也分为完整像素部分和分数像素部分:
·用于寻址参考块的完整像素部分等于
(xci+16)>>10,----[等式21]
(ycj+16)>>10.----[等式22]
·用于选择插值滤波器的分数像素部分等于
Δx=((xci+16)>>5)&31,----[等式23]
Δy=((ycj+16)>>5)&31.----[等式24]
与其他编码工具的交互
由于某些编码工具与参考图片缩放的交互会带来额外的复杂性和存储器带宽,因此建议对VVC规范添加以下限制:
-当tile_group_temporal_mvp_enabled_flag等于1时,当前图片及其并置图片的尺寸应相同。
-当允许在序列中更改分辨率时,应关闭解码器运动矢量细化。
-当允许在序列中更改分辨率时,sps_bdof_enabled_flag应等于0。
2.3 JVET-N0415中基于编解码树块(CTB)的自适应环路滤波器(ALF)
条带级时域滤波器
在VTM4中采用了自适应参数集(APS)。每个APS包括一组用信令通知的ALF滤波器,最多支持32个APS。在该建议中,测试了条带级时域滤波器。片组可以重新使用来自APS的ALF信息以减少开销。APS被更新为先进先出(FIFO)缓冲区。
基于CTB的ALF
对于亮度分量,当将ALF应用于亮度CTB时,指示在16个固定的、5个时域的或1个用信令通知的滤波器集中进行选择。仅用信令通知滤波器设置索引。对于一个条带,只能用信令通知一个新的集合(25个滤波器)。如果为条带用信令通知了新的集合,则同一条带中的所有亮度CTB都共享该集合。固定滤波器集可用于预测新的条带级滤波器集,也可用作亮度CTB的候选滤波器集。滤波器总数为64。
对于色度分量,当将ALF应用于色度CTB时,如果用信令向条带通知新滤波器,则CTB将使用新滤波器,否则,将应用满足时域可缩放性约束的最新时域色度滤波器。
作为条带级时域滤波器,将APS更新为先进先出(FIFO)缓冲器。
2.4可选时域运动矢量(ATMVP)预测(VVC中又称为基于子块的时域Merge候选)
在ATMVP(alternative temporal motion vector prediction)方法中,通过从小于当前CU的块中提取多组运动信息(包括运动矢量和参考索引)来修改运动矢量时域运动矢量预测(TMVP)。如图14所示,子CU是正方形N×N块(默认情况下N设置为8)。
该ATMVP以两个步骤预测CU内的子CU的运动矢量。第一步是利用所谓的时域矢量识别参考图片中的对应块。参考图片被称为运动源图片。第二步是将当前CU划分成子CU,并从对应于每个子CU的块中获得运动矢量以及每个子CU的参考索引,如图15所示,其中示出了CU的ATMVP运动预测的示例。
在第一步骤中,由当前CU的空域相邻块的运动信息确定参考图片和对应块。为了避免相邻块的重复扫描处理,使用当前CU的Merge候选列表中来自块0(左块)的Merge候选。来自块A0的、参考并置参考图片的第一可用运动矢量被设置为时域矢量。这样,在ATMVP中,与TMVP相比,可以更准确地识别对应块,其中对应块(有时称为并置块)总是相对于当前CU位于右下或中心位置。
在第二步骤中,通过向当前CU的坐标添加时域矢量,通过运动源图片中的时域矢量来识别子CU的对应块。对于每个子CU,其对应块(覆盖中心样本的最小运动网格)的运动信息用于推导子CU的运动信息。在识别出对应的N×N块的运动信息之后,以与HEVC的TMVP相同的方式将其转换为当前子CU的参考索引和运动矢量,其中运动缩放和其他处理也适用。
2.5仿射运动预测
在HEVC中,运动补偿预测(MCP)仅应用平移运动模型。然而,在真实世界中可能存在多种运动,例如放大/缩小、旋转、透视运动和其他不规则运动。在VVC中,简化的仿射变换运动补偿预测适用于4参数仿射模型和6参数仿射模型。图16A和16B分别给出了简化的4参数仿射运动模型和简化的6参数仿射运动模型。如图16A和16B所示,通过用于4参数仿射模型的两个控制点运动矢量(CPMV)和用于6参数仿射模型的3个CPMV来描述块的仿射运动场。
块的运动矢量场(MVF)由以下等式与等式(1)中的4参数仿射模型(其中4参数定义为变量a,b,c,d,e和f)和等式(2)中的6参数仿射模型(其中4参数定义为变量a,b,e和f)来描述:
其中(mvh 0,mvh 0)是左上角控制点的运动矢量,(mvh 1,mvh 1)是右上角控制点的运动矢量,(mvh 2,mvh 2)是左下角的运动矢量控制点的运动矢量,所有这三个运动矢量都称为控制点运动矢量(CPMV),(x,y)代表相对于当前块内左上角样本的代表点的坐标,并且(mvh(x,y),mvv(x,y))是为位于(x,y)的样本推导的运动矢量。CP运动矢量可以被用信令通知(例如在仿射AMVP模式中)或被即时推导(例如在仿射Merge模式中)。w和h是当前块的宽度和高度。在实践中,除法是通过取整和右移来实现的。在VTM中,代表点定义为子块的中心位置,例如,当子块的左上角相对于当前块内左上角样本的坐标为(xs,ys),代表点的坐标被定义为(xs+2,ys+2)。对于每个子块(即VTM中的4x4),代表点用于推导整个子块的运动矢量。
为了进一步简化运动补偿预测,应用了基于子块的仿射变换预测。为了推导每个M×N(在当前VVC中,M和N都设置为4)子块的运动矢量,如图17所示,根据等式25和26计算出每个子块的中心样本的运动矢量,并被取整到1/16的分数精度。然后,将适用于1/16像素的运动补偿插值滤波器应用于生成具有推导运动矢量的每个子块的预测。仿射模式引入了1/16像素的插值滤波器。
在MCP之后,对每个子块的高精度运动矢量进行取整并保存为与常规运动矢量相同的精度。
2.5.1仿射预测的信令
类似于平移运动模型,由于仿射预测,也存在两种用于用信令通知辅助信息的模式。它们是AFFINE_INTER和AFFINE_MERGE模式。
2.5.2 AF_INTER模式
对于宽度和高度均大于8的CU,可以应用AF_INTER模式。在比特流中用信令通知CU级的仿射标志,以指示是否使用AF_INTER模式。
在此模式下,对于每个参考图片列表(列表0或列表1),仿射AMVP候选列表按以下顺序由三种类型的仿射运动预测器构成,其中每个候选包括当前块的估计CPMV。用信令通知在编码器侧(诸如图18A和18B中的mv0,mv1,mv2)找到的最佳CPMV和估计的CPMV的差异。另外,进一步用信令通知从其推导估计的CPMV的仿射AMVP候选的索引。
1)继承的仿射运动预测器
检查顺序类似于HEVC AMVP列表构建中的空域MVP。首先,从{A1,A0}中的第一块推导左继承的仿射运动预测器,该第一块被仿射编码,并且具有与当前块相同的参考图片。其次,从{B1,B0,B2}中的第一块推导上述继承的仿射运动预测器,该第一块被仿射编码,并且具有与当前块相同的参考图片。在图19中示出了五个块A1,A0,B1,B0,B2。
一旦发现相邻块被以仿射模式编码,则覆盖该相邻块的编码单元的CPMV被用于推导当前块的CPMV的预测器。例如,如果A1用非仿射模式编码,而A0用4参数仿射模式编码,则左继承的仿射MV预测器将从A0推导。在这种情况下,覆盖A0的CU的CPMV,如图18B中左上角的CPMV的和右上角的CPMV的/>所示,用于推导当前块的估计CPMV,由用于当前块的左上(坐标(x0,y0))、右上(坐标(x1,y1))和右下(坐标(x2,y2))位置的表示。
2)构造的仿射运动预测器
构造的仿射运动预测器由从具有相同的参考图片的相邻帧间编码块推导的控制点运动矢量(CPMV)组成,如图20所示。如果当前仿射运动模型为4参数仿射,则CPMV的数量为2,否则,如果当前仿射运动模型为6参数仿射,则CPMV的数量为3。左上角的CPMV是由{A,B,C}组中第一块处的MV推导的,该组被帧间编码,并具有与当前块相同的参考图片。右上角的CPMV/>是由{D,E}组中第一块处的MV推导的,该组被帧间编码,并具有与当前块相同的参考图片。左下角的CPMV/>是由{F,G}组中第一块处的MV推导的,该组被帧间编码,并具有与当前块相同的参考图片。
-如果当前仿射运动模型是4参数仿射,则只有当和/>都已知时,才会将构造的仿射运动预测器插入到候选列表中,即/>和/>用作当前块的左上(坐标(x0,y0))、右上(坐标(x1,y1))和右下(坐标(x2,y2))位置的估计CPMV。
-如果当前仿射运动模型是6参数仿射,则只有当和/>都已知,才会将构造的仿射运动预测器插入到候选列表中,即/>和/>用作当前块的左上(坐标(x0,y0))、右上(坐标(x1,y1))和右下(坐标(x2,y2))位置的估计CPMV。当将构造的仿射运动预测器插入候选列表时,不应用裁剪处理。
3)常规AMVP运动预测器适用以下内容,直到仿射运动预测器的数量达到最大值为止。
i.通过将所有CPMV设置为等于(如果可用)来推导仿射运动预测器。
ii.通过将所有CPMV设置为等于(如果可用)来推导仿射运动预测器。
iii.通过将所有CPMV设置为等于(如果可用)来推导仿射运动预测器。
iv.通过将所有CPMV设置为等于HEVC TMVP(如果可用)来推导仿射运动预测器。
v.通过将所有CPMV设置为零MV来推导仿射运动预测器。
注意,已经在构造的仿射运动预测器中推导出。
在AF_INTER模式下,当使用4/6参数仿射模式时,需要2/3个控制点,因此,需要为这些控制点编码2/3MVD,如图18A和18B所示。在JVET-K0337中,提出推导MV,如下所示,即,从mvd0预测mvd1和mvd2
其中mvdi和mv1分别是左上像素(i=0)、右上像素(i=1)或左下像素(i=2)的预测运动矢量、运动矢量差和运动矢量,如图18B所示。请注意,两个运动矢量(例如mvA(xA,yA)和mvB(xB,yB))的加法分别等于两个分量的总和,即newMV=mvA+mvB,且newMV的两个分量分别被设置为(xA +xB)和(yA+yB)。
2.5.2.1 AF_MERGE模式
当以AF_MERGE模式应用CU时,它从有效的邻居重构块中获得以仿射模式编码的第一块。图21示出了AF_MERGE的候选。并且候选块的选择顺序是从左、上、右上,左下到左上(依次由A,B,C,D,E表示),如图21A所示。例如,如果邻居左下块以仿射模式被编码,如图21B中的A0所示,则获取包括块A的相邻CU/PU的左上角、右上角和左下角的控制点(CP)运动矢量mv0 N、mv1 N和mv2 N。基于mv0 N、mv1 N和mv2 N计算当前CU/PU左上角/右上/左下的运动矢量mv0 C、mv1 C和mv2 C(仅用于6参数仿射模型)。应该注意的是,在VTM-2.0中,如果当前块为仿射编码的,则位于左上角的子块(例如,VTM中的4×4块)存储mv0,位于右上角的子块存储mv1。如果使用6参数仿射模型对当前块进行编码,则位于左下角的子块存储mv2;否则(使用4参数仿射模型对当前块进行编码),LB存储mv2’。其他子块存储用于MC的MV。
在推导当前CU的CPMV mv0 C、mv1 C和mv2 C之后,根据简化的仿射运动模型等式25和等式26,生成当前CU的MVF。为了识别当前CU是否以AF_MERGE模式编码,当至少一个邻近块以仿射模式编码时,在比特流中用信令通知仿射标志。
在JVET-L0142和JVET-L0632中,仿射Merge候选列表通过以下步骤构造:
1)插入继承的仿射候选
继承的仿射候选是指该候选是从其有效邻居仿射编码块的仿射运动模型推导的。从相邻块的仿射运动模型中推导最多两个继承的仿射候选,并将其插入到候选列表中。对于左预测器,扫描顺序为{A0,A1};对于上述预测器,扫描顺序为{B0,B1,B2}。
2)插入构造的仿射候选
如果仿射Merge候选列表中的候选数量小于MaxNumAffineCand(例如5),则将构造的仿射候选插入到候选列表中。构造仿射候选是指通过组合每个控制点的邻居运动信息来构造候选。
a)首先从图22(其示出仿射Merge模式的候选位置的示例)所示的指定空域邻居和时域邻居中推导控制点的运动信息。CPk(k=1,2,3,4)表示第k个控制点。A0,A1,A2,B0,B1,B2和B3是用于预测CPk(k=1、2、3)的空域位置;T是用于预测CP4的时域位置。
CP1,CP2,CP3和CP4的坐标分别是(0,0),(W,0),(H,0)和(W,H),其中W和H是当前块的宽度和高度。
根据以下优先级顺序获得每个控制点的运动信息:
–对于CP1,检查优先级为B2->B3->A2。如果B2可用,则使用B2。
否则,如果B2不可用,则使用B3。如果B2和B3都不可用,则使用A2。
如果这三个候选都不可用,则无法获得CP1的运动信息。
–对于CP2,检查优先级为B1→B0;
–对于CP3,检查优先级为A1→A0;
–对于CP4,使用T。
b)其次,使用控制点的组合来构造仿射Merge候选。
-需要三个控制点的运动信息来构造6参数仿射候选。可以从以下四个组合({CP1,CP2,CP4},{CP1,CP2,CP3},{CP2,CP3,CP4},{CP1,CP3,CP4})中的一个中选择三个控制点。组合{CP1,CP2,CP3},{CP2,CP3,CP4},{CP1,CP3,CP4}将转换为由左上、右上和左下控制点表示的6参数运动模型。
-需要两个控制点的运动信息来构造4参数仿射候选。可以从两个组合({CP1,CP2},{CP1,CP3})中的一个中选择两个控制点。这两个组合将转换为由左上和右上控制点表示的4参数运动模型。
-按照以下顺序将构造的仿射候选的组合插入到候选列表中:
{CP1,CP2,CP3},{CP1,CP2,CP4},{CP1,CP3,CP4},{CP2,CP3,CP4},{CP1,CP2},{CP1,CP3}
i.对于每个组合,检查每个CP的列表X的参考索引,如果它们都相同,则此组合具有针对列表X的有效CPMV。如果组合对于列表0和列表1均没有有效的CPMV,则该组合被标记为无效。否则,它是有效的,并将CPMV放入子块Merge列表中。
3)用零运动矢量填充
如果仿射Merge候选列表中的候选的数量小于5,则将具有零参考索引的零运动矢量插入候选列表中,直到列表已满。
更具体地,对于子块Merge候选列表,具有MV设置为(0,0)且预测方向设置为列表0的单向预测(对于P条带)和双向预测(对于B条带)的4参数Merge候选。
现有实现的缺点
应用于VVC时,ARC可能存在以下问题:
目前还不清楚如何在VVC中使用ALF、亮度映射色度缩放(LMCS)、解码器侧运动矢量细化(DMVR)、双向光流(BDOF)、仿射预测、三角预测模式(TPM)、对称运动矢量差(SMVD)、Merge运动矢量差(MMVD)、帧内帧间预测(也称为VVC中的帧间Merge和帧内预测CIIP)、局部照明补偿(LIC)和基于历史的运动矢量预测(HMVP)等编解码工具。
具有自适应分辨率转换的编解码工具的示例方法
公开技术的实施例克服了现有实现的缺点。下文所提供的公开技术的示例被讨论以促进对所公开技术的理解,并且应当以限制所公开技术的方式来解释。除非明确表示相反,否则可以组合这些示例中描述的各种特征。
在下面的讨论中,SatShift(x,n)定义为
Shift(x,n)定义为Shift(x,n)=(x+offset0)>>n。
在一个示例中,offset0和/或offset1设置为(1<<n)>>1或(1<<(n-1))。在另一个示例中,offset0和/或offset1设置为0。
在另一个示例中,offset0=offset1=((1<<n)>>1)-1或((1<<(n-1)))-1。
Clip3(min,max,x)定义为
Floor(x)定义为小于或等于x的最大整数。
Ceil(x)是大于或等于x的最小整数。
Log2(x)定义为x的以2为底的对数。
下面列出了所公开技术的实现的一些方面。
1.MMVD/SMVD中MV偏移量和/或解码器侧推导处理中的细化运动矢量的推导可取决于与当前块相关联的参考图片的分辨率和当前图片的分辨率。
a.例如,参考第二参考图片的第二MV偏移可以从参考第一参考图片的第一MV偏移进行缩放。比例因子可以取决于第一和第二参考图片的分辨率。
2.可以根据与空域/时域/历史运动候选相关联的参考图片的分辨率来构造运动候选列表构造处理。
a.在一个例子中,参考具有较高分辨率的参考图片的Merge候选可以比参考具有较低分辨率的参考图片的Merge候选具有更高的优先级。在讨论中,如果W0<W1并且H0<H1,则分辨率W0*H0低于分辨率W1*H1。
b.例如,在Merge候选列表中,参考具有较高分辨率的参考图片的Merge候选可以放在参考具有较低分辨率的参考图片的Merge候选之前。
c.例如,参考分辨率低于当前图片分辨率的参考图片的运动矢量不能在Merge候选列表中。
d.在一个例子中,是否和/或如何更新历史缓冲器(查找表)可以取决于与解码的运动候选相关联的参考图片分辨率。
i.在一个示例中,如果与解码的运动候选相关联的一个参考图片具有不同的分辨率,则不允许用该运动候选更新历史缓冲器。
3.提出了用与对应维度相关联的ALF参数对图像进行滤波。
a.在一个示例中,在诸如APS的视频单元中信令通知的ALF参数可以与一个或多个图片尺寸相关联。
b.在一个示例中,信令通知ALF参数的诸如APS的视频单元可以与一个或多个图片尺寸相关联。
c.例如,图片可以只应用在与相同维度相关联的视频单元(例如APS)中的ALF参数。
d.分辨率/PPS索引/分辨率的指示可在ALF APS中信令通知。
e.有限制的是,ALF参数只能从用于相同分辨率的图片中继承/从中预测。
4.提出与第一对应维度相关联的ALF参数可以继承或从与第二对应维度相关联的ALF参数预测。
a.在一个示例中,第一对应维度必须与第二对应维度相同。
b.在一个示例中,第一对应维度可以不同于第二对应维度。
5.提出应当用与相应维度相关联的LMCS参数对图像中的样点进行整形。
a.在一个示例中,在诸如APS的视频单元中信令通知的LMCS参数可以与一个或多个图片维度相关联。
b.在一个示例中,信令通知LMCS参数的诸如APS的视频单元可以与一个或多个图片维度相关联。
c.例如,图片可以仅应用在与相同维度相关联的的视频单元(诸如APS)中信令通知的LMCS参数。
d.分辨率/PPS索引/分辨率的指示可在LMCS APS中信令通知。
e.有限制的是,LMCS参数只能从用于相同分辨率的图像中继承/从中预测。
6.提出与第一对应维度相关联的LMCS参数可以继承或从与第二对应维度相关联的LMCS参数进行预测。
a.在一个示例中,第一对应的维度必须与第二对应维度相同。
b.在一个示例中,第一对应维度可以不同于第二对应维度。
7.是否和/或如何启用TPM(三角预测模式)/GEO(具有几何分割的帧间预测)或其他可将一个块划分成两个或多个子分割的编解码工具可以取决于两个或多个子分割的相关参考图片信息。
a.在一个例子中,它可以取决于两个参考图片中的一个的分辨率和当前图片的分辨率。
i.在一个示例中,如果与当前图片相比,两个参考图片中的至少一个具有不同的分辨率,则这样的编解码工具被禁用。
b.在一个例子中,它可以取决于两个参考图片的分辨率是否相同。
i.在一个示例中,如果两个参考图片与不同分辨率相关联,则可以禁用这种编解码工具。
ii.在一个例子中,如果两个参考图片都与和当前图片相比不同的分辨率相关联,则这样的编解码工具被禁用。
iii.或者,如果两个参考图片与都和当前图片相比不同的分辨率相关联,但是两个参考图片具有相同的分辨率,则这样的编解码工具仍然可以被禁用。
iv.或者,如果至少一个参考图片具有与当前图片不同的分辨率,并且参考图片具有不同的分辨率,则可以禁用编解码工具X。
c.或者,另外,还可以取决于两个参考图片是否是相同的参考图片。
d.或者,另外,还可以取决于两个参考图片是否在同一参考列表中。
e.或者,如果RPR被禁用(参考图片重采样在条带/图片标头/序列参数集中启用),则可以始终禁用这样的编解码工具。
8.提出如果块参考与当前图片不同维度的至少一个参考图片,则可对块禁用编解码工具X。
a.在一个示例中,与编解码工具X相关的信息可以不被信令通知。
b.在一个例子中,这样的块的运动信息可以不被插入HMVP表中。
c.或者,如果在块中应用编解码工具X,则块不能参考具有与当前图片不同尺寸的参考图片。
i.在一个示例中,可以跳过参考与当前图片具有不同维度的参考图片的Merge候选,或者不将其放入Merge候选列表中。
ii.在一个示例中,可以跳过与当前图片具有不同维度的参考图片相对应的参考索引,或不允许将其信令通知。
d.或者,可以在根据当前图片的分辨率和参考图片的分辨率缩放两个参考块或图片之后应用编解码工具X。
e.或者,可以在根据当前图片的分辨率和参考图片的分辨率缩放两个MV或MVD之后应用编解码工具X。
f.在一个示例中,对于块(例如,双向预测编解码块或来自具有不同参考图片或不同MV的同一参考图片列表中的使用多假设的块;或来自不同参考图片列表的多假设的块),是否禁用或启用编解码工具X取决于与参考图片列表相关联的参考图片和/或当前参考图片的分辨率。
i.在一个示例中,可以对一个参考图片列表禁用编解码工具X,但是对于另一个参考图片列表启用编解码工具X。
ii.在一个示例中,可以对一个参考图片禁用编解码工具X,但是对于另一个参考图片启用编解码工具X。这里,两个参考图片可以来自不同或相同的参考图片列表。
iii.在示例中,对于每个参考图片列表L,不管与列表L不同的另一个参考图片列表中的参考图片如何,都确定启用/禁用编解码工具。
1.在一个示例中,可以由列表L的参考图片和当前图片来确定。
2.在一个示例中,如果列表L的关联参考图片不同于当前图片,则可以对列表L禁用该工具。
iv.或者,启用/禁用编解码工具由所有参考图片和/或当前图片的分辨率确定。
1.在一个示例中,如果至少一个参考图片具有与当前图片不同的分辨率,则可以禁用编解码工具X。
2.在一个示例中,如果至少一个参考图片具有与当前图片不同的分辨率,但是参考图片具有相同的分辨率,则可以仍然启用编解码工具X。
3.在一个示例中,如果至少一个参考图片具有与当前图片不同的分辨率,并且参考图片具有不同的分辨率,则可以禁用编解码工具X。
g.编解码工具X可能是下面的任何一种。
iii.DMVR
iv.BDOF
v.仿射预测
vi.三角预测模式
vii.SMVD
viii.MMVD
ix.VVC中的帧间帧内预测
x.LIC
xi.HMVP
xii.多重变换集(MTS)
xiii.子块变换(SBT)
xiv.PROF和/或其他解码侧运动/预测细化方法
xv.LFNST(低频非平方变换)
xvi.滤波方法(如去方块滤波/SAO/ALF)
xvii.GEO/TPM/跨分量ALF
9.图片的参考图片列表可以包含不超过K个不同的分辨率。
a.在一个例子中,K等于2。
10.对于N个连续(按解码顺序或显示顺序)的图片,不允许有超过K种不同的分辨率。
a.在一个例子中,N=3,K=3。
b.在一个例子中,N=10,K=3。
c.在一个例子中,在一个GOP中不允许超过K个不同的分辨率。
d.在一个例子中,在具有相同的特定时域层索引(表示为tid)的两个图片之间可以允许不超过K个不同的分辨率。
i.例如,K=3,tid=0。
11.仅允许对帧内图片的分辨率进行更改。
12.如果一个块的一个或两个参考图片具有与当前图片不同的分辨率,则可以在解码过程中将双向预测转换为单向预测。
a.在一个示例中,可以丢弃来自对应参考图片的分辨率与当前图片不同的列表X的预测。
13.是否启用或禁用从不同分辨率的参考图片的帧间预测可以取决于运动矢量精度和/或分辨率比。
a.在一个示例中,如果根据分辨率比缩放的运动矢量指向整数位置,则仍可应用帧间预测。
b.在一个示例中,如果根据分辨率比缩放的运动矢量指向在没有ARC的情况下允许的子像素位置(例如,1/4像素),则可以仍然应用帧间预测。
c.或者,当两个参考图片具有与当前图片不同的分辨率时,可以不允许双向预测。
d.或者,当一个参考图片与当前图片的分辨率不同,而另一个参考图片具有相同的分辨率时,可以启用双向预测。
e.替代地,当参考图片具有与当前图片不同的分辨率并且块维度满足特定条件时,可以对块不允许单向预测。
14.指示编解码工具X是否被禁用的第一标志(例如,pic_disable_X_flag),可以在图片标头中被信令通知。
a.是否为比图片小的条带/片/砖块/子图片/其他视频单元启用编解码工具可由图片标头中的此标志和/或条带类型控制。
b.在一个例子中,当第一标志为真时,编解码工具X被禁用。
i.或者,当第一个代码为假时,编解码工具X被启用。
ii.在一个示例中,对图片中的所有样点启用/禁用。
c.在一个示例中,第一标志的信令可以进一步取决于SPS/VPS/DPS/PPS中的一个或多个语法元素。
i.在一个示例中,标志的信令可以取决于SPS中的编解码工具X的启用标志。
ii.替代地,此外,可以在SPS中信令通知指示图片标头中第一标志的存在的第二标志(例如,sps_X_slice_present_flag)。
1)或者,此外,当对序列启用编解码工具X时,可以有条件地信令通知第二标志(例如,sps_X_enabled_flag为真)。
2)或者,此外,仅第二标志指示第一标志存在,第一标志可在图片标头中用信令通知。
d.在一个示例中,第一和/或第二标志用1位编解码。
e.编解码工具X可以是:
i.在一个例子中,编解码工具X是PROF。
ii.在一个例子中,编解码工具X是DMVR。
iii.在一个例子中,编解码工具X是BDOF。
iv.在一个例子中,编解码工具X是跨分量ALF。
v.在一个例子中,编解码工具X是GEO。
vi.在一个例子中,编解码工具X是TPM。
vii.在一个例子中,编解码工具X是MTS。
15.块是否可以参考与当前图片具有不同维度的参考图片可以取决于块的宽度(WB)和/或高度(HB)和/或块预测模式(即双向预测或单向预测)。
a.在一个例子中,如果WB>=T1并且HB>=T2,则块可以参考与当前图片具有不同维度的参考图片。例如,T1=T2=8。
b.在一个例子中,如果WB*HB>=T,则块可以参考与当前图片具有不同维度的参考图片。例如,T=64。
c.在一个例子中,如果Min(WB,HB)>=T,则块可以参考与当前图片具有不同维度的参考图片。例如,T=8。
d.在一个例子中,如果Max(WB,HB)>=T,则块可以参考与当前图片具有不同维度的参考图片。例如T=8。
e.在一个示例中,如果WB<=T1并且HB<=T2,则块可以参考与当前图片具有不同维度的参考图片。例如T1=T2=64。
f.在一个例子中,如果WB*HB<=T,则块可以参考与当前图片具有不同维度的参考图片。例如,T=4096。
g.在一个例子中,如果Min(WB,HB)<=T,则块可以参考与当前图片具有不同维度的参考图片。例如,T=64。
h.在一个例子中,如果Max(WB,HB)<=T,则块可以参考与当前图片具有不同维度的参考图片。例如T=64,
i.或者,如果WB<=T1和/或HB<=T2,则不允许块参考与当前图片具有不同维度的参考图片。例如T1=T2=8。
j.或者,如果WB<=T1和/或HB<=T2,则不允许块可以参考与当前图片具有不同维度的参考图片。例如T1=T2=8。
图23示出用于视频处理的示例性方法的流程图。参考图23,方法2300包括,在步骤2310,在当前视频块和当前视频块的比特流表示之间的转换期间,基于与当前视频块相关联的参考图片的分辨率和当前图片的分辨率推导运动矢量偏移。方法2300还包括,在步骤2320,使用运动矢量偏移执行转换。
在一些实施例中,推导运动矢量偏移包括:参考第一参考图片推导第一运动矢量偏移;以及基于第一运动矢量偏移、参考第二参考图片推导第二运动矢量偏移。在一些实现中,该方法还包括:针对当前视频块,基于与空域、时域或历史运动候选相关联的参考图片分辨率执行运动候选列表构造处理。在一些实现中,是否更新或如何更新查找表取决于与解码的运动候选相关联的参考图片分辨率。在一些实现中,该方法还包括:对于当前图片,使用与相应维度相关联的自适应循环滤波器(ALF)参数执行滤波操作。在一些实现中,ALF参数包括与第一对应维度相关联的第一ALF参数、以及与第二对应维度相关联的第二ALF参数,第二ALF参数是从第一ALF参数继承或预测的。
在一些实现中,该方法还包括:使用与相应维度相关联的LMCS(亮度映射色度缩放)参数来整形当前图片中的样点。在一些实现中,LMCS参数包括与第一对应维度相关联的第一LMCS参数和与第二对应维度相关联的第二LMCS参数,第二LMCS参数从第一LMCS参数继承或预测。在一些实现中,在视频单元中信令通知的ALF参数或LMCS参数与一个或多个图片维度相关联。在一些实现中,该方法还包括:当当前视频块参考与当前图片具有不同维度的至少一个参考图片时,对当前视频块禁用编解码工具。在一些实现中,所述方法还包括:跳过或忽略参考与当前图片具有不同维度的参考图片的Merge候选。在某些实现中,该方法还包括:在基于参考图片的分辨率和当前图片的分辨率缩放两个参考块或两个参考图片之后、或者基于参考图片的分辨率和当前的分辨率缩放两个MV或MVD(运动矢量差)之后,应用编解码工具。在一些实现中,当前图片包含的不同分辨率不超过K,K是自然数。在一些实现中,对于N个连续图片允许K个不同的分辨率,N是自然数。
在一些实现中,该方法还包括:对作为帧内图片的当前图片应用分辨率更改。在一些实现中,该方法还包括:当当前视频块的一个或两个参考图片具有与当前图片的分辨率不同的分辨率时,将双向预测转换为单向预测。在一些实现中,该方法还包括:根据运动矢量精度或当前块维度与参考块维度之间的分辨率比中的至少一个来启用或禁用来自不同分辨率的参考图片的帧间预测。假设当前块维度是W*H,参考块维度可以是W1*H1,并且分辨率比可以是W1/W,H1/H,(W1*H1)/(W*H),max(W1/W,H1/H)或min(W1/W,H1/H)等。在某些实现中,该方法还包括:根据两个参考图片或一个参考图片是否具有与当前图片的分辨率不同的分辨率来应用双向预测。在一些实现中,当前视频块是否参考与当前图像的维度不同的参考图片取决于当前视频块的大小或块预测模式中的至少一个。在一些实现中,转换的执行包括从比特流表示生成当前视频块。在一些实现中,转换的执行包括从当前视频块生成比特流表示。
图24A是视频处理装置2400的框图。装置2400可用于实现本文所述的一种或多种方法。装置2400可以实施在智能手机、平板电脑、计算机、物联网(IoT)接收器等中。装置2400可以包括一个或多个处理器2402、一个或多个存储器2404和视频处理硬件2406。处理器2402可以被配置成实现本文档中描述的一个或多个方法(包括但不限于方法2300)。存储器(多个存储器)2404可用于存储用于实现本文所述的方法和技术的数据和代码。视频处理硬件2406可用于在硬件电路中实现本文档中描述的一些技术。在一些实施例中,硬件2406可以全部或部分位于处理器2401中,例如,作为图形处理器。
图24B是示出其中可以实现本文所公开的各种技术的示例性视频处理系统2410的框图。各种实现可以包括系统24100的部分或全部组件。系统2410可以包括用于接收视频内容的输入2412。视频内容可以原始或未压缩格式(例如,8位或10位多分量像素值)接收,或者可以压缩或编码格式接收。输入2412可以表示网络接口、外围总线接口或存储接口。网络接口的示例包括有线接口(例如以太网、无源光网络(PON))和无线接口(例如Wi-Fi或蜂窝接口)。
系统2410可以包括编解码组件2414,其可以实现在本文档中描述的各种编解码或编解码方法。编解码组件2414可以将从输入2412到编解码组件2414的输出的视频的平均比特率降低以产生视频的编解码表示。因此,编解码技术有时被称为视频压缩或视频转码技术。编解码组件2414的输出可以被存储,或者通过由组件2416表示的连接的通信发送。组件2418可以使用在输入2412处接收到的视频的存储或通信比特流(或编解码)表示来生成发送到显示接口2420的像素值或可显示视频。从比特流表示生成用户可见视频的过程有时称为视频解压缩。此外,虽然某些视频处理操作被称为“编解码”操作或工具,但是应当理解的是,在编码器处使用编码工具或操作,并且将由解码器执行与编码结果相反的相应解码工具或操作。
外围总线接口或显示接口的示例可以包括通用串行总线(USB)或高清多媒体接口(HDMI)或显示端口等。存储接口的示例包括SATA(串行高级技术附件)、PCI、IDE接口等。本文档中描述的技术可以实施在各种电子设备中,例如移动电话、笔记本电脑、智能手机或能够执行数字数据处理和/或视频显示的其他设备。
在一些实施例中,可以使用如关于图24A或24B所述的在硬件平台上实现的装置来实现视频编解码方法。
图25是示出可以利用本公开的技术的示例性视频编解码系统100的框图。
如图25所示,视频编解码系统100可以包括源设备110和目的地设备120。源设备110生成编码视频数据,源设备110可以被称为视频编码设备。目的地设备120可以对源设备110生成的编码视频数据进行解码,目的地设备120可以被称为视频解码设备。
源设备110可以包括视频源112、视频编码器114和输入/输出(I/O)接口116。
视频源112可以包括诸如视频捕获设备的源、用于从视频内容提供商接收视频数据的接口和/或用于生成视频数据的计算机图形系统,或这些源的组合。视频数据可以包括一个或多个图片。视频编码器114对来自视频源112的视频数据进行编码以生成比特流。比特流可以包括形成视频数据的编解码表示的比特序列。比特流可以包括编解码图片和相关数据。编解码图片是图片的编解码表示。相关联的数据可以包括序列参数集、图片参数集和其他语法结构。I/O接口116可以包括调制器/解调器(调制解调器)和/或发送器。编码的视频数据可以通过网络130a经由I/O接口116直接发送到目的地设备120。编码视频数据还可以存储在存储介质/服务器130b上,以供目的地设备120访问。
目的地设备120可以包括I/O接口126、视频解码器124和显示设备122。
I/O接口126可以包括接收器和/或调制解调器。I/O接口126可以从源设备110或存储介质/服务器130b获取编码视频数据。视频解码器124可解码编码的视频数据。显示设备122可以向用户显示解码的视频数据。显示设备122可以与目的地设备120集成,或者可以在目的地设备120外部,该目的地设备120被配置为与外部显示设备接口。
视频编码器114和视频解码器124可以根据视频压缩标准操作,例如高效视频编解码(HEVC)标准、通用视频编解码(VVC)标准和其他当前和/或进一步的标准。
图26是示出了可以是图25所示的系统100中的视频编码器114的视频编码器200的示例的框图。
视频编码器200可被配置为执行本公开的任何或所有技术。在图26的示例中,视频编码器200包括多个功能组件。本公开中描述的技术可以在视频编码器200的各个组件之间共享。在一些示例中,处理器可被配置为执行本公开中描述的任何或所有技术。
视频编码器200的功能组件可以包括分割单元201、预测单元202,预测单元202可以包括模式选择单元203、运动估计单元204、运动补偿单元205和帧内预测单元206,残差生成单元207、变换单元208、量化单元209,逆量化单元210、逆变换单元211、重建单元212、缓冲器213和熵编码单元214。
在其他示例中,视频编码器200可以包括更多、更少或不同的功能组件。在一个示例中,预测单元202可以包括帧内块复制(IBC)单元。IBC单元可以在IBC模式下执行预测,其中至少一个参考图片是当前视频块所在的图片。
此外,一些组件,例如运动估计单元204和运动补偿单元205可以是高度集成的,但是为了解释的目的在图26的示例中分别表示。
分割单元201可以将图片分割成一个或多个视频块。视频编码器200和视频解码器300可以支持各种视频块大小。
模式选择单元203可以例如基于错误结果选择一种编解码模式(帧内或帧间),并将得到的帧内或帧间编码块提供给残差生成单元207以生成残差块数据,并提供给重建单元212以重建编码块以用作参考图片。在一些示例中,模式选择单元203可以选择帧内和帧间预测的组合(CIIP)模式,其中预测基于帧间预测信号和帧内预测信号。模式选择单元203还可以在帧间预测的情况下为块选择运动矢量的分辨率(例如,子像素或整数像素精度)。
为了对当前视频块执行帧间预测,运动估计单元204可以通过将来自缓冲器213的一个或多个参考帧与当前视频块进行比较来生成当前视频块的运动信息。运动补偿单元205可以基于运动信息和来自缓冲器213的图片的解码样本(与当前视频块相关联的图片除外)来确定当前视频块的预测视频块。
例如,运动估计单元204和运动补偿单元205可以根据当前视频块是在I条带、P条带还是B条带中,对当前视频块执行不同的操作。
在一些示例中,运动估计单元204可以对当前视频块执行单向预测,并且运动估计单元204可以在列表0或列表1的参考图片中搜索当前视频块的参考视频块。然后,运动估计单元204可以生成参考索引,该参考索引指示包含参考视频块的列表0或列表1中的参考图片以及指示当前视频块和参考视频块之间的空间位移的运动矢量。运动估计单元204可以输出参考索引、预测方向指示符和运动矢量作为当前视频块的运动信息。运动补偿单元205可以基于由当前视频块的运动信息指示的参考视频块生成当前块的预测视频块。
在其他示例中,运动估计单元204可以对当前视频块执行双向预测,运动估计单元204可以在列表0中的参考图片中搜索当前视频块的参考视频块,并且还可以在列表1中的参考图片中搜索当前视频块的另一参考视频块。然后,运动估计单元204可以生成指示包含参考视频块的列表0和列表1中的参考图片的参考索引和指示参考视频块和当前视频块之间的空间位移的运动矢量。运动估计单元204可以输出当前视频块的参考索引和运动矢量作为当前视频块的运动信息。运动补偿单元205可以基于由当前视频块的运动信息指示的参考视频块生成当前视频块的预测视频块。
在一些示例中,运动估计单元204可以输出用于解码器的解码处理的运动信息的完整集合。
在一些示例中,运动估计单元204可以不输出当前视频的运动信息的完整集合。相反,运动估计单元204可以参考另一视频块的运动信息来信令通知当前视频块的运动信息。例如,运动估计单元204可以确定当前视频块的运动信息与相邻视频块的运动信息足够相似。
在一个示例中,运动估计单元204可以在与当前视频块相关联的语法结构中指示向视频解码器300指示当前视频块与另一视频块具有相同的运动信息的值。
在另一示例中,运动估计单元204可以在与当前视频块相关联的语法结构中标识另一视频块和运动矢量差(MVD)。运动矢量差指示当前视频块的运动矢量与所指示视频块的运动矢量之间的差。视频解码器300可以使用所指示视频块的运动矢量和运动矢量差来确定当前视频块的运动矢量。
如上所述,视频编码器200可以预测地信令通知运动矢量。可由视频编码器200实施的预测信令技术的两个示例包括高级运动矢量预测(AMVP)和合并模式信令。
帧内预测单元206可以对当前视频块执行帧内预测。当帧内预测单元206对当前视频块执行帧内预测时,帧内预测单元206可以基于同一图片中其他视频块的解码样本生成当前视频块的预测数据。当前视频块的预测数据可以包括预测视频块和各种语法元素。
残差生成单元207可以通过从当前视频块减去(例如,由减号指示)当前视频块的预测视频块(多个)来生成当前视频块的残差数据。当前视频块的残差数据可以包括对应于当前视频块中的样本的不同样本分量的残差视频块。
在其他示例中,例如在跳过模式下,对于当前视频块,可以没有当前视频块的残差数据,并且残差生成单元207可以不执行减法操作。
变换处理单元208可以通过将一个或多个变换应用于与当前视频块相关联的残差视频块来为当前视频块生成一个或多个变换系数视频块。
在变换处理单元208生成与当前视频块相关联的变换系数视频块之后,量化单元209可以基于与当前视频块相关联的一个或多个量化参数(QP)值对与当前视频块相关联的变换系数视频块进行量化。
逆量化单元210和逆变换单元211可分别对变换系数视频块应用逆量化和逆变换,以从变换系数视频块重建残差视频块。重建单元212可以将重建的残差视频块添加到来自预测单元202生成的一个或多个预测视频块的对应样本中,以产生与当前块相关联的重建视频块,以存储在缓冲器213中。
在重建单元212重建视频块之后,可以执行环路滤波操作以减少视频块中的视频块伪影。
熵编码单元214可以从视频编码器200的其他功能组件接收数据。当熵编码单元214接收到数据时,熵编码单元214可以执行一个或多个熵编码操作以生成熵编码数据并输出包括熵编码数据的比特流。
图27是示出了可以是图25所示的系统100中的视频解码器114的视频解码器300的示例的框图。
视频解码器300可被配置为执行本公开的任何或所有技术。在图27的示例中,视频解码器300包括多个功能组件。本公开中描述的技术可以在视频解码器300的各个组件之间共享。在一些示例中,处理器可被配置为执行本公开中描述的任何或所有技术。
在图27的示例中,视频解码器300包括熵解码单元301、运动补偿单元302、帧内预测单元303、逆量化单元304、逆变换单元305、重建单元306和缓冲器307。在一些示例中,视频解码器300可以执行与关于视频编码器200(例如,图26)描述的编码过程大体相反的解码过程。
熵解码单元301可以检索编码比特流。编码比特流可包括熵编解码视频数据(例如,视频数据的编码块)。熵解码单元301可以解码熵编解码视频数据,并且运动补偿单元302可以从熵解码视频数据确定包括运动矢量、运动矢量精度、参考图片列表索引和其他运动信息的运动信息。例如,运动补偿单元302可以通过执行AMVP和合并模式来确定这样的信息。
运动补偿单元302可以产生运动补偿块,可能基于插值滤波器执行插值。可以在语法元素中包括以子像素精度使用的插值滤波器的标识符。
运动补偿单元302可以使用视频编码器20在视频块编码期间使用的插值滤波器来计算参考块的子整数像素的内插值。运动补偿单元302可以根据接收到的语法信息确定视频编码器200使用的插值滤波器,并使用插值滤波器来产生预测块。
运动补偿单元302可以使用一些语法信息来确定用于编码编码视频序列的帧(多个)和/或条带(多个)的块的大小、描述如何对编码视频序列的图片的每个宏块进行分割的分区信息、指示如何对每个分区进行编码的模式、用于每个帧间编码块的一个或多个参考帧(和参考帧列表),以及用于解码编码视频序列的其他信息。
帧内预测单元303可以使用例如在比特流中接收的帧内预测模式来从空域相邻块形成预测块。逆量化单元303对在比特流中提供并由熵解码单元301解码的量化视频块系数进行逆量化(即,去量化)。逆变换单元303应用逆变换。
重建单元306可以将残差块与由运动补偿单元202或帧内预测单元303生成的相应预测块相加,以形成解码块。如果需要,还可以应用去块滤波器对解码块进行滤波,以去除块性伪影。解码视频块随后存储在缓冲器307中,缓冲器307为后续运动补偿/帧内预测提供参考块,并且还产生解码视频以在显示设备上呈现。
所公开技术的一些实施例包括作出决定或确定以启用视频处理工具或模式。在一个示例中,当视频处理工具或模式被启用时,编码器将在视频块的处理中使用或实现该工具或模式,但不一定基于工具或模式的使用来修改所得比特流。也就是说,当基于该决定或确定被启用时,从视频块到视频的比特流表示的转换将使用视频处理工具或模式。在另一示例中,当视频处理工具或模式被启用时,解码器将在知道比特流已基于视频处理工具或模式被修改的情况下处理比特流。也就是说,将使用基于该决定或确定而启用的视频处理工具或模式来执行从视频的比特流表示到视频块的转换。
所公开技术的一些实施例包括作出禁用视频处理工具或模式的决定或确定。在示例中,当视频处理工具或模式被禁用时,编码器将不在将视频块转换为视频的比特流表示时使用该工具或模式。在另一示例中,当视频处理工具或模式被禁用时,解码器将在知道比特流没有使用基于该决定或确定而被禁用的视频处理工具或模式修改的情况下处理比特流。
在本文档中,术语“视频处理”可以指视频编码、视解码、视频压缩或视频解压缩。例如,视频压缩算法可以在从视频的像素表示转换为相应的比特流表示或反之亦然期间应用。例如,当前视频块的比特流表示可以对应于在比特流内共位或在不同位置处传播的比特,如由语法定义的那样。例如,宏块可以根据经过变换和编解码的误差残值来编码,并且还可以使用比特流中的标头和其他字段中的比特。
以下第一组条款可以在一些实施例中实现。
1.一种用于视频处理的方法,包括:在当前视频块和当前视频块的比特流表示之间的转换期间,基于与当前视频块相关联的参考图片的分辨率和当前图片的分辨率推导运动矢量偏移;以及使用运动矢量偏移来执行转换。
2.如第1条所述的方法,其中推导所述运动矢量偏移量包括:参考第一参考图片推导第一运动矢量偏移量;以及基于所述第一运动矢量偏移量、参考第二参考图片推导第二运动矢量偏移量。
3.如第1条所述的方法,还包括:针对当前视频块,基于与空域、时域或历史运动候选相关联的参考图片分辨率执行运动候选列表构造处理。
4.如第1条所述的方法,其中是否更新或如何更新查找表取决于与解码的运动候选相关联的参考图片分辨率。
5.如第1条所述的方法,还包括:对当前图片,使用与相应维度相关联的自适应环路滤波器(ALF)参数执行滤波操作。
6.如第5条所述的方法,其中ALF参数包括与第一对应维度相关联的第一ALF参数和与第二对应维度相关联的第二ALF参数,第二ALF参数从第一ALF参数继承或预测。
7.如第1条所述的方法,还包括:使用与相应维度相关联的LMCS(亮度映射色度缩放)参数来整形当前图片中的样点。
8.如第7条所述的方法,其中LMCS参数包括与第一对应维度相关联的第一LMCS参数和与第二对应维度相关联的第二LMCS参数,第二LMCS参数从第一LMCS参数继承或预测。
9.如第5条或第7条所述的方法,其中在视频单元中信令通知的ALF参数或LMCS参数与一个或多个图片维度相关联。
10.如第1条所述的方法,还包括:当当前视频块参考与当前图片具有不同维度的至少一个参考图片时,对当前视频块禁用编解码工具。
11.如第10条所述的方法,还包括:跳过或忽略参考与当前图片具有不同维度的参考图片的Merge候选。
12.如第1条所述的方法,进一步包括:在基于参考图片的分辨率和当前图片的分辨率缩放两个参考块或两个参考图片之后、或者基于参考图片的分辨率和当前的分辨率缩放两个MV或MVD(运动矢量差)之后,应用编解码工具。
13.如第1条所述的方法,其中当前图片包括不超过K个不同分辨率,K是自然数。
14.如第13条所述的方法,其中对于N个连续图片允许K个不同的分辨率,N是自然数。
15.如第1条所述的方法,还包括:对作为帧内图片的当前图片应用分辨率更改。
16.如第1条的方法,还包括:当当前视频块的一个或两个参考图片具有与当前图片的分辨率不同的分辨率时,将双向预测转换为单向预测。
17.如第1条的方法,还包括:根据运动矢量精度或当前块维度与参考块维度之间的分辨率比中的至少一个来启用或禁用来自不同分辨率的参考图片的帧间预测。
18.如第1条所述的方法,还包括:根据两个参考图片或一个参考图片与当前图片的分辨率不同而应用双向预测。
19.如第1条所述的方法,其中当前视频块是否参考与当前图片的维度不同的参考图片取决于当前视频块的大小或块预测模式中的至少一个。
20.如第1条所述的方法,其中,转换的执行包括从比特流表示生成当前视频块。
21.如第1条所述的方法,其中,转换的执行包括从当前视频块生成比特流表示。
22.一种视频系统中的装置,包括处理器和非瞬态存储器,其上有指令,其中处理器执行指令后,使处理器实现第1至21条中的任一条所述的方法。
23.一种存储在非瞬态计算机可读介质上的计算机程序产品,所述计算机程序产品包括用于执行第1至21条中任一条中的方法的程序代码。
第二组条款描述了先前章节(例如项目14)中公开技术的某些特征和方面。
1.一种视频处理方法(例如,如图28所述的方法2800),包括:对于视频的图片的视频区域和所述视频的编解码表示之间的转换,确定(2810)用于在所述编解码表示中表示所述视频区域的编解码工具的启用状态;以及根据所述确定执行(2820)所述转换;其中,第一标志包括在图片标头中,以指示用于所述图片的所述编解码工具的启用状态。
2.如第1条所述的方法,其中所述启用状态指示取决于所述第一标志和/或所述视频的条带类型,对所述视频区域禁用或启用所述编解码。
3.如第1条所述的方法,其中,所述确定在所述第一标志为真的情况下决定禁用所述编解码工具。
4.如第1条所述的方法,其中,所述确定在所述第一标志为假的情况下决定禁用所述编解码工具。
5.如第1条所述的方法,其中,所述确定在所述第一标志为假的情况下决定启用所述编解码工具。
6.如第1条所述的方法,其中,所述确定在所述第一标志为真的情况下决定启用了编解码工具。
7.如第1条所述的方法,其中,对于所述图片中的所有样点禁用或启用所述编解码工具。
8.如第1条所述的方法,其中所述第一标志的信令依赖于序列参数集(SPS)、视频参数集(VPS)、相关参数集(DPS)或与所述视频区域相关联的图片参数集(PPS)中的一个或多个语法元素。
9.如第8条所述的方法,其中所述第一标志的信令依赖于指示所述序列参数集(SPS)中所述编解码工具的启用的指示。
10.如第8条所述的方法,其中,在所述序列参数集(SPS)中信令通知指示所述图片标头中存在所述第一标志的第二标志。
11.如第8条所述的方法,其中,在为所述视频的序列启用所述编解码工具的情况下,信令通知指示所述图片标头中存在所述第一标志的第二标志。
12.如第8条所述的方法,其中,在指示所述第一标志的存在的第二标志指示所述第一标志的存在的情况下,在所述图片标头中信令通知所述第一标志。
13.如第1至12中的任一项条所述的方法,其中所述第一标志和/或所述第二标志用1位进行编解码。
14.如第1至13中任一项条所述的方法,其中所述编解码工具是其中基于光流计算细化一个或多个初始仿射预测的使用光流的预测细化(PROF)。
15.如第1至13中的任一项条所述的方法,其中所述编解码工具是其中通过使用预测块细化运动信息的解码器侧运动矢量细化(DMVR)。
16.如第1至13中任一项条所述的方法,其中所述编解码工具是其中使用光流计算细化一个或多个初始预测的双向光流(BDOF)。
17.如第1至13中的任一项条所述的方法,其中所述编解码工具是其中基于亮度信息将线性滤波器应用于色度样点的跨分量自适应环路滤波器(CCALF)。
18.如第1至13中的任一项条所述的方法,其中所述编解码工具是其中用加权值生成预测样点的几何分割(GEO),其中,所述预测样点是基于根据非水平线或非垂直线分割视频区域。
19.如第1至13中的任一项条所述的方法,其中所述编解码工具是其中用加权值生成预测样点的三角预测模式(TPM),所述预测样点是基于将所述视频区域分割为两个三角分割。
20.如第1至19中的任一项条所述的方法,其中所述转换包括将所述视频编码为所述比特流表示。
21.如第1至19中的任一项条所述的方法,其中所述转换包括解码所述比特流表示以生成所述视频。
22.一种视频处理装置,其包括处理器,所述处理器被配置为实现如第1至21中任一项或多项中所述的方法。
23.一种计算机可读介质,其存储程序代码,所述程序代码在执行时使处理器实现如第1至21中任一项或多项中所述的方法。
24.一种计算机可读介质,其存储根据上述方法中的任一项生成的编解码表示或比特流表示。
从前述内容可以理解,本文已经出于说明的目的描述了当前所公开的技术的具体实施例,但是在不脱离本发明的范围的情况下可以做出各种修改。因此,除了所附权利要求之外,当前所公开的技术不受限制。
本专利文档中描述的主题的实现方式和功能性操作可以在各种系统、数字电子电路中实施,或者在计算机软件、固件或硬件中实施,包括本说明书中公开的结构及其结构等同物,或者以他们的一个或多个的组合实施。本说明书中描述的主题的视线方式可以被实施为一个或多个计算机程序产品,即,在计算机可读介质上编码的一个或多个暂时性和非暂时性计算机程序指令模块,用于由数据处理装置运行或控制数据处理装置的操作。计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储器设备、影响机器可读传播信令的物质的合成、或者它们中的一个或多个的组合。术语“数据处理单元”和“数据处理装置”包括用于处理数据的所有装置、设备和机器,包括例如可编程处理器、计算机或者多个处理器或计算机。除了硬件之外,装置可以包括为所讨论的计算机程序创建运行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统及其一个或多个的组合的代码。
计算机程序(也称为程序、软件、软件应用、脚本或代码)可以用任何形式的编程语言(包括编译语言或解释语言)编写,并且可以以任何形式部署,包括作为独立程序或作为模块、组件、子程序或其他适合在计算环境中使用的单元。计算机程序不一定与文件系统中的文件相对应。程序可以存储在保存其他程序或数据的文件的部分中(例如,存储在标记语言文档中的一个或多个脚本)、专用于所讨论的程序的单个文件中、或多个协调文件(例如,存储一个或多个模块、子程序或部分代码的文件)中。计算机程序可以部署在一台或多台计算机上来执行,这些计算机位于一个站点或分布在多个站点并通过通信网络互连。
本说明书中描述的处理和逻辑流可以由一个或多个可编程处理器执行,该一个或多个处理器运行一个或多个计算机程序,通过对输入数据进行操作并生成输出来执行功能。处理和逻辑流也可以由专用逻辑电路来执行,并且装置也可以实施为专用逻辑电路,例如,FPGA(现场可编程门阵列)或ASIC(专用集成电路)。
例如,适用于运行计算机程序的处理器包括通用和专用微处理器、以及任何类型的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是执行指令的处理器和存储指令和数据的一个或多个存储设备。通常,计算机还将包括一个或多个用于存储数据的大容量存储设备,例如,磁盘、磁光盘或光盘,或可操作地耦合到一个或多个大容量存储设备,以从其接收数据或向其传送数据,或两者兼有。然而,计算机不一定需要具有这样的设备。适用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,包括例如半导体存储器设备,例如EPROM、EEPROM和闪存设备。处理器和存储器可以由专用逻辑电路来补充,或合并到专用逻辑电路中。
旨在将说明书与附图一起仅视为示例性的,其中示例性意味着示例。如本文所使用,单数形式“一”、“一个”和“该”也意图包括复数形式,除非上下文明确指示其他形式。此外,除非上下文另有明确说明,否则“或”的使用旨在包括“和/或”。
虽然本专利文档包括许多细节,但不应将其解释为对任何发明或要求保护的范围的限制,而应解释为特定于特定发明的特定实施例的特征的描述。本专利文档在分离的实施例的上下文描述的某些特征也可以在单个实施例中组合实施。相反,在单个实施例的上下文中描述的各种功能也可以在多个实施例中单独地实施,或在任何合适的子组合中实施。此外,虽然特征可以被描述为在某些组合中起作用,甚至最初这样要求保护,但在某些情况下,可以从要求保护的组合中移除组合中的一个或多个特征,并且要求保护的组合可以指向子组合或子组合的变体。
同样,尽管在附图中以特定顺序描述了操作,但这不应理解为要获得期望的结果必须按照所示的特定顺序或次序顺序来执行这些操作,或执行所有示出的操作。此外,本专利文档所述实施例中的各种系统组件的分离不应理解为在所有实施例中都需要这样的分离。
仅描述了一些实施方式和示例,其他实施方式、增强和变体可以基于本专利文档中描述和说明的内容做出。

Claims (34)

1.一种处理视频数据的方法,包括:
对于视频的图片的视频区域和所述视频的比特流之间的转换,根据与所述视频区域相关联的序列参数集SPS中的一个或多个语法元素,确定在所述图片的图片标头信令通知第一语法元素;
基于所述第一语法元素确定是否对所述图片禁用编解码工具;以及
基于所述确定执行所述转换;
其中所述第一语法元素指示是否对所述图片禁用所述编解码工具,
其中所述一个或多个语法元素包括指示所述第一语法元素存在于所述图片标头中的第二语法元素以及指示是否针对所述视频的序列启用所述编解码工具的第三语法元素,
其中基于所述第三语法元素在所述SPS中有条件地信令通知所述第二语法元素,并且在所述第二语法元素为真的情况下,在所述图片标头中信令通知所述第一语法元素,并且在为所述视频的序列启用所述编解码工具的情况下,在所述SPS中信令通知所述第二语法元素,
其中所述编解码工具为使用光流的预测细化PROF、解码器侧运动矢量细化DMVR或双向光流BDOF,所述PROF、DMVR或BDOF中的任一个编解码工具具有与自身对应的、且与所述PROF、DMVR和BDOF中的其他编解码工具不共用的第一语法元素、第二语法元素和第三语法元素。
2.根据权利要求1所述的方法,其中对于小于所述图片的视频单元,所述编解码工具是被禁用还是被启用取决于所述第一语法元素和/或所述视频的条带类型。
3.根据权利要求1所述的方法,其中,在所述第一语法元素为真的情况下,对所述图片禁用所述编解码工具。
4.根据权利要求1所述的方法,其中,在所述第一语法元素为假的情况下,对所述图片启用所述编解码工具。
5.根据权利要求1所述的方法,其中,对于所述图片内的所有样点禁用或启用所述编解码工具。
6.根据权利要求1所述的方法,其中,所述第一语法元素和/或所述第二语法元素是用1比特编解码的。
7.根据权利要求1所述的方法,其中,所述PROF用于:
生成以仿射模式编解码的当前视频块的子块的初始预测样点;以及
通过基于运动矢量差dMvH和/或dMvV推导预测细化,应用光流操作以生成所述子块的最终预测样点,其中dMvH和dMvV指示沿水平方向和垂直方向的运动矢量差。
8.根据权利要求1所述的方法,其中,所述DMVR用于基于至少一个运动矢量细化信令通知的运动矢量,所述至少一个运动矢量相对于所述信令通知的运动矢量具有偏移量。
9.根据权利要求1所述的方法,其中,所述BDOF用于基于与当前块的参考块中的样点对应的至少一个梯度值来获得运动矢量细化。
10.根据权利要求1所述的方法,其中,所述转换包括将所述视频编码到所述比特流中。
11.如权利要求1所述的方法,其中,所述转换包括从所述比特流解码所述视频。
12.一种用于处理视频数据的装置,包括处理器和其上具有指令的非暂时性存储器,其中所述指令在由所述处理器执行时使所述处理器:
对于视频的图片的视频区域和所述视频的比特流之间的转换,根据与所述视频区域相关联的序列参数集SPS中的一个或多个语法元素,确定在所述图片的图片标头信令通知第一语法元素;
基于所述第一语法元素确定是否对所述图片禁用编解码工具;以及
基于所述确定执行所述转换;
其中所述第一语法元素指示是否对所述图片禁用所述编解码工具,
其中所述一个或多个语法元素包括指示所述第一语法元素存在于所述图片标头中的第二语法元素以及指示是否针对所述视频的序列启用所述编解码工具的第三语法元素,
其中基于所述第三语法元素在所述SPS中有条件地信令通知所述第二语法元素,并且在所述第二语法元素为真的情况下,在所述图片标头中信令通知所述第一语法元素,并且在为所述视频的序列启用所述编解码工具的情况下,在所述SPS中信令通知所述第二语法元素,
其中所述编解码工具为使用光流的预测细化PROF、解码器侧运动矢量细化DMVR或双向光流BDOF,所述PROF、DMVR或BDOF中的任一个编解码工具具有与自身对应的、且与所述PROF、DMVR和BDOF中的其他编解码工具不共用的第一语法元素、第二语法元素和第三语法元素。
13.根据权利要求12所述的装置,
其中对于小于所述图片的视频单元,所述编解码工具是被禁用还是被启用取决于所述第一语法元素和/或所述视频的条带类型,
其中在所述第一语法元素为真的情况下,对所述图片禁用所述编解码工具,
其中在所述第一语法元素为假的情况下,对所述图片启用所述编解码工具,
其中对于所述图片内的所有样点禁用或启用所述编解码工具,
并且
其中所述第一语法元素和/或所述第二语法元素是用1比特编解码的。
14.一种存储指令的非暂时性计算机可读存储介质,所述指令使处理器:
对于视频的图片的视频区域和所述视频的比特流之间的转换,根据与所述视频区域相关联的序列参数集SPS中的一个或多个语法元素,确定在所述图片的图片标头信令通知第一语法元素;
基于所述第一语法元素确定是否针对所述图片禁用编解码工具;以及
基于所述确定执行所述转换;
其中所述第一语法元素指示是否对所述图片禁用所述编解码工具,
其中所述一个或多个语法元素包括指示所述第一语法元素存在于所述图片标头中的第二语法元素以及指示是否针对所述视频的序列启用所述编解码工具的第三语法元素,
其中基于所述第三语法元素在所述SPS中有条件地信令通知所述第二语法元素,并且在所述第二语法元素为真的情况下,在所述图片标头中信令通知所述第一语法元素,并且在为所述视频的序列启用所述编解码工具的情况下,在所述SPS中信令通知所述第二语法元素,
其中所述编解码工具为使用光流的预测细化PROF、解码器侧运动矢量细化DMVR或双向光流BDOF,所述PROF、DMVR或BDOF中的任一个编解码工具具有与自身对应的、且与所述PROF、DMVR和BDOF中的其他编解码工具不共用的第一语法元素、第二语法元素和第三语法元素。
15.根据权利要求14所述的非暂时性计算机可读存储介质,
其中对于小于所述图片的视频单元,所述编解码工具是被禁用还是被启用取决于所述第一语法元素和/或所述视频的条带类型,
其中在所述第一语法元素为真的情况下,对所述图片禁用所述编解码工具,
其中在所述第一语法元素为假的情况下,对所述图片启用所述编解码工具,
其中对于所述图片内的所有样点禁用或启用所述编解码工具,
并且
其中所述第一语法元素和/或所述第二语法元素是用1比特编解码的。
16.一种存储视频的比特流的方法,包括:
对于视频的图片的视频区域,根据与所述视频区域相关联的序列参数集SPS中的一个或多个语法元素,确定在所述图片的图片标头信令通知第一语法元素;
基于所述第一语法元素确定是否针对所述图片禁用编解码工具;
基于所述确定生成所述比特流;以及
将所述比特流存储在非暂时性计算机可读存储介质中,
其中所述第一语法元素指示是否对所述图片禁用所述编解码工具,
其中所述一个或多个语法元素包括指示所述第一语法元素存在于所述图片标头中的第二语法元素以及指示是否针对所述视频的序列启用所述编解码工具的第三语法元素,
其中基于所述第三语法元素在所述SPS中有条件地信令通知所述第二语法元素,并且在所述第二语法元素为真的情况下,在所述图片标头中信令通知所述第一语法元素,并且在为所述视频的序列启用所述编解码工具的情况下,在所述SPS中信令通知所述第二语法元素,
其中所述编解码工具为使用光流的预测细化PROF、解码器侧运动矢量细化DMVR或双向光流BDOF,所述PROF、DMVR或BDOF中的任一个编解码工具具有与自身对应的、且与所述PROF、DMVR和BDOF中的其他编解码工具不共用的第一语法元素、第二语法元素和第三语法元素。
17.一种视频处理方法,包括:
对于视频的图片的视频区域和所述视频的编解码表示之间的转换,确定用于在所述编解码表示中表示所述视频区域的编解码工具的启用状态;以及
根据所述确定执行所述转换;
其中,第一标志包括在图片标头中,以指示用于所述图片的所述编解码工具的启用状态,
其中所述第一标志的信令依赖于序列参数集SPS、视频参数集VPS、相关参数集DPS或与所述视频区域相关联的图片参数集PPS中的一个或多个语法元素,
其中所述第一标志的信令依赖于指示所述SPS中所述编解码工具的启用的指示,
在所述SPS中信令通知指示所述图片标头中存在所述第一标志的第二标志,
其中在为所述视频的序列启用所述编解码工具的情况下,信令通知指示所述图片标头中存在所述第一标志的第二标志,并且在指示所述第一标志的存在的第二标志指示所述第一标志的存在的情况下,在所述图片标头中信令通知所述第一标志,
其中所述编解码工具为使用光流的预测细化PROF、解码器侧运动矢量细化DMVR或双向光流BDOF,所述PROF、DMVR或BDOF中的任一个编解码工具具有与自身对应的、且与所述PROF、DMVR和BDOF中的其他编解码工具不共用的第一语法元素、第二语法元素和第三语法元素。
18.根据权利要求17所述的方法,其中所述启用状态指示取决于所述第一标志和/或所述视频的条带类型,对所述视频区域禁用或启用所述编解码。
19.根据权利要求17所述的方法,其中,所述确定在所述第一标志为真的情况下决定禁用所述编解码工具。
20.根据权利要求17所述的方法,其中,所述确定在所述第一标志为假的情况下决定禁用所述编解码工具。
21.根据权利要求17所述的方法,其中,所述确定在所述第一标志为假的情况下决定启用所述编解码工具。
22.根据权利要求17所述的方法,其中,所述确定在所述第一标志为真的情况下决定启用了编解码工具。
23.根据权利要求17所述的方法,其中,对于所述图片中的所有样点禁用或启用所述编解码工具。
24.根据权利要求17至23中的任一项所述的方法,其中所述第一标志和/或所述第二标志用1位进行编解码。
25.根据权利要求17至24中任一项所述的方法,其中,在PROF中,基于光流计算细化一个或多个初始仿射预测。
26.根据权利要求17至24中的任一项所述的方法,其中,在DMVR中,通过使用预测块细化运动信息。
27.根据权利要求17至24中任一项所述的方法,其中,在BDOF中,使用光流计算细化一个或多个初始预测。
28.根据权利要求17至24中的任一项所述的方法,其中所述编解码工具进一步为其中基于亮度信息将线性滤波器应用于色度样点的跨分量自适应环路滤波器CCALF。
29.根据权利要求17至24中的任一项所述的方法,其中所述编解码工具进一步为其中用加权值生成预测样点的几何分割GEO,其中,所述预测样点是基于根据非水平线或非垂直线分割视频区域。
30.根据权利要求17至24中的任一项所述的方法,其中所述编解码工具进一步为其中用加权值生成预测样点的三角预测模式TPM,所述预测样点是基于将所述视频区域分割为两个三角分割。
31.根据权利要求17至30中的任一项所述的方法,其中所述转换包括将所述视频编码为比特流表示。
32.根据权利要求17至30中的任一项所述的方法,其中所述转换包括解码比特流表示以生成所述视频。
33.一种视频处理装置,其包括处理器,所述处理器被配置为实现根据权利要求1至11或17至32中任一项或多项中所述的方法。
34.一种计算机可读介质,其存储程序代码,所述程序代码在执行时使处理器实现根据权利要求1至11或17至32中任一项中所述的方法。
CN202080071639.2A 2019-10-12 2020-10-12 视频编解码工具的高级语法 Active CN114556916B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN2019110905 2019-10-12
CNPCT/CN2019/110905 2019-10-12
PCT/CN2020/120287 WO2021068954A1 (en) 2019-10-12 2020-10-12 High level syntax for video coding tools

Publications (2)

Publication Number Publication Date
CN114556916A CN114556916A (zh) 2022-05-27
CN114556916B true CN114556916B (zh) 2023-11-17

Family

ID=75436985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080071639.2A Active CN114556916B (zh) 2019-10-12 2020-10-12 视频编解码工具的高级语法

Country Status (6)

Country Link
US (1) US11689747B2 (zh)
EP (1) EP4029245A4 (zh)
JP (1) JP2022552511A (zh)
KR (1) KR20220073752A (zh)
CN (1) CN114556916B (zh)
WO (1) WO2021068954A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220098005A (ko) * 2019-12-20 2022-07-08 엘지전자 주식회사 가중된 예측에 기반한 영상/비디오 코딩 방법 및 장치
EP4080886A4 (en) * 2019-12-20 2024-02-21 Lg Electronics Inc PREDICTION WEIGHTED TABLE BASED IMAGE/VIDEO CODING METHOD AND APPARATUS
US20220182643A1 (en) * 2020-12-04 2022-06-09 Ofinno, Llc No Reference Image Quality Assessment Based Decoder Side Inter Prediction
CA3142044A1 (en) * 2020-12-14 2022-06-14 Comcast Cable Communications, Llc Methods and systems for improved content encoding
US20230021722A1 (en) * 2021-07-20 2023-01-26 Mediatek Inc. Apparatus and method for performing motion vector refinement to get more precise motion vectors
WO2023061334A1 (en) * 2021-10-11 2023-04-20 Beijing Bytedance Network Technology Co., Ltd. Method, device, and medium for video processing

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104471943A (zh) * 2012-07-20 2015-03-25 高通股份有限公司 视频译码中的参数集
CN104813671A (zh) * 2012-09-24 2015-07-29 高通股份有限公司 视频译码中的位流性质
CN110115032A (zh) * 2016-12-22 2019-08-09 联发科技股份有限公司 用于视频编解码的运动细化的方法以及装置

Family Cites Families (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8442108B2 (en) 2004-07-12 2013-05-14 Microsoft Corporation Adaptive updates in motion-compensated temporal filtering
US8340177B2 (en) 2004-07-12 2012-12-25 Microsoft Corporation Embedded base layer codec for 3D sub-band coding
US8374238B2 (en) 2004-07-13 2013-02-12 Microsoft Corporation Spatial scalability in 3D sub-band decoding of SDMCTF-encoded video
US20130094774A1 (en) 2011-10-13 2013-04-18 Sharp Laboratories Of America, Inc. Tracking a reference picture based on a designated picture on an electronic device
TWI603611B (zh) * 2011-12-21 2017-10-21 Jvc Kenwood Corp Motion picture encoding apparatus, motion picture encoding method, and recording medium for moving picture encoding program
US9525861B2 (en) 2012-03-14 2016-12-20 Qualcomm Incorporated Disparity vector prediction in video coding
US20150085939A1 (en) 2012-04-13 2015-03-26 Sharp Kabushiki Kaisha Devices for sending and receiving a long-term reference picture indicator
US20140098851A1 (en) * 2012-10-04 2014-04-10 Qualcomm Incorporated Indication of video properties
WO2014166119A1 (en) 2013-04-12 2014-10-16 Mediatek Inc. Stereo compatibility high level syntax
JP6587046B2 (ja) * 2013-07-08 2019-10-09 サン パテント トラスト 画像符号化方法、画像復号方法、画像符号化装置及び画像復号装置
WO2015006967A1 (en) 2013-07-19 2015-01-22 Mediatek Singapore Pte. Ltd. Simplified view synthesis prediction for 3d video coding
WO2015021914A1 (en) 2013-08-13 2015-02-19 Mediatek Inc. Method of deriving default disparity vector in 3d and multiview video coding
US9294766B2 (en) * 2013-09-09 2016-03-22 Apple Inc. Chroma quantization in video coding
US20150160390A1 (en) 2013-12-10 2015-06-11 Apple Inc. Display Having Polarizer with Unpolarized Strip
WO2015100710A1 (en) 2014-01-02 2015-07-09 Mediatek Singapore Pte. Ltd. Existence of inter-view reference picture and availability of 3dvc coding tools
US10158884B2 (en) * 2014-03-19 2018-12-18 Qualcomm Incorporated Simplified merge list construction process for 3D-HEVC
US10432928B2 (en) * 2014-03-21 2019-10-01 Qualcomm Incorporated Using a current picture as a reference for video coding
EP3080992A4 (en) 2014-05-06 2017-03-29 MediaTek Inc. Video processing method for determining position of reference block of resized reference frame and related video processing apparatus
CN105187824A (zh) 2014-06-10 2015-12-23 杭州海康威视数字技术股份有限公司 图像编码方法和装置以及图像解码方法和装置
EP3192261A1 (en) 2014-09-12 2017-07-19 VID SCALE, Inc. Inter-component de-correlation for video coding
CN106416254B (zh) 2015-02-06 2019-08-02 微软技术许可有限责任公司 在媒体编码期间跳过评估阶段
US10979732B2 (en) 2016-10-04 2021-04-13 Qualcomm Incorporated Adaptive motion vector precision for video coding
US10674165B2 (en) * 2016-12-21 2020-06-02 Arris Enterprises Llc Constrained position dependent intra prediction combination (PDPC)
US10542280B2 (en) 2017-01-09 2020-01-21 QUALCOMM Incorpated Encoding optimization with illumination compensation and integer motion vector restriction
US10602180B2 (en) * 2017-06-13 2020-03-24 Qualcomm Incorporated Motion vector prediction
US11070824B2 (en) * 2017-09-15 2021-07-20 Sony Corporation Image processing device and method
WO2019059676A1 (ko) * 2017-09-20 2019-03-28 한국전자통신연구원 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체
GB2567249A (en) 2017-10-09 2019-04-10 Canon Kk New sample sets and new down-sampling schemes for linear component sample prediction
CN109996081B (zh) * 2017-12-31 2023-09-12 华为技术有限公司 图像预测方法、装置以及编解码器
US11265551B2 (en) 2018-01-18 2022-03-01 Qualcomm Incorporated Decoder-side motion vector derivation
WO2019169339A1 (en) * 2018-03-01 2019-09-06 Arris Enterprises Llc System and method of motion information storage for video coding and signaling
US20190306502A1 (en) * 2018-04-02 2019-10-03 Qualcomm Incorporated System and method for improved adaptive loop filtering
CN112655214A (zh) * 2018-04-12 2021-04-13 艾锐势有限责任公司 用于视频编码和信令通知的运动信息存储
WO2019234578A1 (en) 2018-06-05 2019-12-12 Beijing Bytedance Network Technology Co., Ltd. Asymmetric weighted bi-predictive merges
US11070813B2 (en) * 2018-06-29 2021-07-20 Intel Corporation Global motion estimation and modeling for accurate global motion compensation for efficient video processing or coding
WO2020058962A1 (en) 2018-09-23 2020-03-26 Beijing Bytedance Network Technology Co., Ltd. Signaling of motion vector precision indication with adaptive motion vector resolution
TW202029755A (zh) 2018-09-26 2020-08-01 美商Vid衡器股份有限公司 視訊編碼雙預測
CN112956197A (zh) 2018-10-22 2021-06-11 北京字节跳动网络技术有限公司 基于编解码信息的解码器侧运动矢量推导的限制
WO2020084465A1 (en) 2018-10-22 2020-04-30 Beijing Bytedance Network Technology Co., Ltd. Simplified coding of generalized bi-directional index
CN112913247B (zh) 2018-10-23 2023-04-28 北京字节跳动网络技术有限公司 使用局部照明补偿的视频处理
WO2020084508A1 (en) 2018-10-23 2020-04-30 Beijing Bytedance Network Technology Co., Ltd. Harmonization between local illumination compensation and inter prediction coding
CN112970259A (zh) 2018-11-05 2021-06-15 北京字节跳动网络技术有限公司 视频处理中具有细化的帧间预测
BR112021008659A2 (pt) 2018-11-07 2021-08-31 Huawei Technologies Co., Ltd. Codificador de vídeo, decodificador de vídeo e métodos correspondentes
CN112997487A (zh) 2018-11-15 2021-06-18 北京字节跳动网络技术有限公司 仿射模式与其他帧间编解码工具之间的协调
CN113039796B (zh) 2018-11-17 2023-09-19 北京字节跳动网络技术有限公司 视频处理中的广义双向预测模式
CN113196772A (zh) 2018-11-29 2021-07-30 北京字节跳动网络技术有限公司 块内拷贝模式和基于子块的运动矢量预测模式之间的交互
WO2020147747A1 (en) 2019-01-15 2020-07-23 Beijing Bytedance Network Technology Co., Ltd. Weighted prediction in video coding
WO2020147745A1 (en) 2019-01-15 2020-07-23 Beijing Bytedance Network Technology Co., Ltd. Motion candidate lists that use local illumination compensation
WO2020147804A1 (en) 2019-01-17 2020-07-23 Beijing Bytedance Network Technology Co., Ltd. Use of virtual candidate prediction and weighted prediction in video processing
EP3939311A1 (en) 2019-03-11 2022-01-19 Vid Scale, Inc. Methods and apparatus for sub-picture adaptive resolution change
US20200296405A1 (en) 2019-03-14 2020-09-17 Qualcomm Incorporated Affine motion compensation refinement using optical flow
CN113615193A (zh) 2019-03-22 2021-11-05 北京字节跳动网络技术有限公司 Merge列表构建和其他工具之间的交互
CN113812146B (zh) 2019-05-10 2022-11-11 北京字节跳动网络技术有限公司 用于视频处理的基于亮度的二次变换矩阵选择
SG11202112279WA (en) 2019-05-11 2021-12-30 Beijing Bytedance Network Technology Co Ltd Selective use of coding tools in video processing
AU2020354926A1 (en) * 2019-09-24 2022-04-07 Huawei Technologies Co., Ltd. Decoded picture buffer operation for resolution changes
JP7436646B2 (ja) * 2019-10-10 2024-02-21 華為技術有限公司 ピクチャヘッダのシグナリングを簡略化するためのエンコーダ、デコーダ及び対応する方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104471943A (zh) * 2012-07-20 2015-03-25 高通股份有限公司 视频译码中的参数集
CN104813671A (zh) * 2012-09-24 2015-07-29 高通股份有限公司 视频译码中的位流性质
CN110115032A (zh) * 2016-12-22 2019-08-09 联发科技股份有限公司 用于视频编解码的运动细化的方法以及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Benjamin Bross.Versatile Video Coding (Draft 6).《Joint Video Experts Team (JVET)》.2019,正文7.3.2.8. *

Also Published As

Publication number Publication date
CN114556916A (zh) 2022-05-27
EP4029245A4 (en) 2022-11-23
WO2021068954A1 (en) 2021-04-15
EP4029245A1 (en) 2022-07-20
JP2022552511A (ja) 2022-12-16
KR20220073752A (ko) 2022-06-03
US20220248061A1 (en) 2022-08-04
US11689747B2 (en) 2023-06-27

Similar Documents

Publication Publication Date Title
CN113826386B (zh) 视频处理中编解码工具的选择性使用
KR102653570B1 (ko) 참조 픽처 리샘플링을 위한 신호
CN114556916B (zh) 视频编解码工具的高级语法
CN113826382B (zh) 视频编解码中的自适应比特深度转换
JP7391203B2 (ja) ビデオコーディングツールを洗練する使用およびシグナリング
CN114641992B (zh) 参考图片重采样的信令
CN117319645A (zh) 用于处理视频数据的方法、装置以及计算机可读存储介质
JP2023164427A (ja) ビデオコーディングにおける参照サンプル位置の導出

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant